このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210621となっている論文です。

PDF登録状況(公開日: 20210621)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子位相の計測

Measurement Protected Quantum Phases ( http://arxiv.org/abs/2004.09509v3 )

ライセンス: Link先を確認
Shengqi Sang and Timothy H. Hsieh(参考訳) 定常状態の領域法エンタングルメントフェーズにおいて、ランダムなユニタリと射影測度を持つハイブリッド量子回路のクラスを導入し、長距離秩序をホストする。 第一の例は、大域イジング対称性と競合する2種類の測定値を持つ回路である。 相図はスピンガラス秩序を持つ領域法相を持ち、体積法則の絡み合った常磁性相へ直接遷移し、臨界状態となる。 相互情報診断を用いて,大域的対称性を保ったエンタングルメント遷移が新たな普遍性クラスにあることを見出した。 我々はそのようなハイブリッド回路の一般化を高次元に解析し、秩序と体積法則の絡み合いの共存と、対称性の制約のない位相秩序を可能にする。

We introduce a class of hybrid quantum circuits, with random unitaries and projective measurements, which host long-range order in the area law entanglement phase of the steady state. Our primary example is circuits with unitaries respecting a global Ising symmetry and two competing types of measurements. The phase diagram has an area law phase with spin glass order, which undergoes a direct transition to a paramagnetic phase with volume law entanglement, as well as a critical regime. Using mutual information diagnostics, we find that such entanglement transitions preserving a global symmetry are in new universality classes. We analyze generalizations of such hybrid circuits to higher dimensions, which allow for coexistence of order and volume law entanglement, as well as topological order without any symmetry restrictions.
翻訳日:2023-05-22 22:46:03 公開日:2021-06-21
# 全マグノニック回路へのスピン波正規化

Spin Wave Normalization Towards all Magnonic Circuits ( http://arxiv.org/abs/2006.10432v3 )

ライセンス: Link先を確認
Abdulqader Mahmoud, Frederic Vanderveken, Christoph Adelmann, Florin Ciubotaru, Sorin Cotofana, and Said Hamdioui(参考訳) 超低消費電力回路構築におけるスピンウェーブ(SW)技術利用の鍵となる要素は、SW基本計算ブロックを効率よくカスケードする能力である。 このパラダイムの共通ゲートを構成するSWマジョリティゲートは、位相符号化されたデータを動作させるが、SW振幅の点で入力出力コヒーレントではないため、そのカスケードにはSWから電圧への情報表現変換が必要であり、これは必ずしもエネルギー効率が良いわけではない。 本稿では,方向結合器を用いてsw振幅正規化を実現する新しい変換自由swゲートカスケード方式を提案する。 正規化の概念を導入した後、3つの単純な回路の実装に利用し、2ビット入力sw乗算器のより大きなスケールポテンシャルを示す。 提案する構造はオブジェクト指向マイクロマグネティックフレームワーク(oommf)とgpu加速マイクロマグネティックス(mumax3)を用いて検証される。 さらに, 正規化誘導エネルギーのオーバーヘッドを評価し, 従来のトランスデューサに比べて20%から33%少ないエネルギーを消費することを示した。 最後に、正規化に基づくSW 2ビット入力乗算器の設計を導入し、機能的に等価なSWトランスデューサと16nmCMOSの設計と比較する。 提案手法は従来手法と比較して26%,6.25倍のエネルギー削減を実現しており,提案手法はエネルギー効率が高く,SWパラダイムポテンシャルのフル活用に向けての道を開いた。

The key enabling factor for Spin Wave (SW) technology utilization for building ultra low power circuits is the ability to energy efficiently cascade SW basic computation blocks. SW Majority gates, which constitute a universal gate set for this paradigm, operating on phase encoded data are not input output coherent in terms of SW amplitude, and as such, their cascading requires information representation conversion from SW to voltage and back, which is by no means energy effective. In this paper, a novel conversion free SW gate cascading scheme is proposed that achieves SW amplitude normalization by means of a directional coupler. After introducing the normalization concept, we utilize it in the implementation of three simple circuits and, to demonstrate its bigger scale potential, of a 2-bit inputs SW multiplier. The proposed structures are validated by means of the Object Oriented Micromagnetic Framework (OOMMF) and GPU-accelerated Micromagnetics (MuMax3). Furthermore, we assess the normalization induced energy overhead and demonstrate that the proposed approach consumes 20% to 33% less energy when compared with the transducers based conventional counterpart. Finally, we introduce a normalization based SW 2-bit inputs multiplier design and compare it with functionally equivalent SW transducer based and 16nm CMOS designs. Our evaluation indicate that the proposed approach provided 26% and 6.25x energy reductions when compared with the conventional approach and 16nm CMOS counterpart, respectively, which demonstrates that our proposal is energy effective and opens the road towards the full utilization of the SW paradigm potential and the development of SW only circuits.
翻訳日:2023-05-13 13:45:07 公開日:2021-06-21
# 量子近似最適化アルゴリズムの古典的変動シミュレーション

Classical variational simulation of the Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2009.01760v3 )

ライセンス: Link先を確認
Matija Medvidovic, Giuseppe Carleo(参考訳) 量子コンピューティングにおける鍵となる疑問は、量子アルゴリズムが実用的関心のあるタスクに古典的アルゴリズムよりも大きな利点をもたらす可能性があるかどうかである。 量子システムのシミュレーションにおける古典計算の限界を理解することは、この問題に対処する重要な要素である。 本稿では,近距離量子コンピュータに適した多くの変分量子アルゴリズムを支えるアーキテクチャであるパラメトリゼーションゲートからなる層状量子回路をシミュレーションする手法を提案する。 多量子ビット波動関数のニューラルネットワークパラメトリゼーションは、量子近似最適化アルゴリズム(qaoa)に関連する状態に焦点を当てて用いられる。 シミュレーションした最大の回路では、4QAOA層で54量子ビットに達し、324のRZZゲートと216のRXゲートを実装し、大規模計算資源を必要としない。 大規模システムでは,従来の未探索パラメータ値での正確なQAOAシミュレーションや,ノイズ中規模量子(NISQ)時代の次世代実験のベンチマークに利用することができる。

A key open question in quantum computing is whether quantum algorithms can potentially offer a significant advantage over classical algorithms for tasks of practical interest. Understanding the limits of classical computing in simulating quantum systems is an important component of addressing this question. We introduce a method to simulate layered quantum circuits consisting of parametrized gates, an architecture behind many variational quantum algorithms suitable for near-term quantum computers. A neural-network parametrization of the many-qubit wave function is used, focusing on states relevant for the Quantum Approximate Optimization Algorithm (QAOA). For the largest circuits simulated, we reach 54 qubits at 4 QAOA layers, approximately implementing 324 RZZ gates and 216 RX gates without requiring large-scale computational resources. For larger systems, our approach can be used to provide accurate QAOA simulations at previously unexplored parameter values and to benchmark the next generation of experiments in the Noisy Intermediate-Scale Quantum (NISQ) era.
翻訳日:2023-05-03 22:54:10 公開日:2021-06-21
# 熱力学的作業抽出の知識論的基礎

The information-theoretic foundation of thermodynamic work extraction ( http://arxiv.org/abs/2009.04588v3 )

ライセンス: Link先を確認
Chiara Marletto(参考訳) 本稿では,新しい情報理論の原理を熱力学的作業抽出に適用する。 ある一組の州で作成された物理的システムから決定的に作業を引き出すことができれば、それらの状態は互いに区別できなければならない。 この結果はスケールと特に力学の法則とは独立に定式化されており、熱力学とエネルギーの保存法則(熱力学の第二法則ではなく)によって確立された情報理論との新たな関係も提供する。 これらの結論と相反するが、既存の熱力学のアプローチは、スケール依存(アンサンブルや粗い格子に基づく)、あるいは特定の力学法則に結びついているため、そのような一般化の結果を与えることはできない。 この論文は、フォン・ノイマンの普遍的コンストラクタの理論に意味を持つ、より広範な熱力学の基礎を提供する。

In this paper I apply newly-proposed information-theoretic principles to thermodynamic work extraction. I show that if it is possible to extract work deterministically from a physical system prepared in any one of a set of states, then those states must be distinguishable from one another. This result is formulated independently of scale and of particular dynamical laws; it also provides a novel connection between thermodynamics and information theory, established via the law of conservation of energy (rather than the second law of thermodynamics). Albeit compatible with these conclusions, existing thermodynamics approaches cannot provide a result of such generality, because they are scale-dependent (relying on ensembles or coarse-graining) or tied to particular dynamical laws. This paper thus provides a broader foundation for thermodynamics, with implications for the theory of von Neumann's universal constructor
翻訳日:2023-05-03 02:44:53 公開日:2021-06-21
# 古典的および量子的情報のワンショット量子誤り補正

One-shot quantum error correction of classical and quantum information ( http://arxiv.org/abs/2011.00668v2 )

ライセンス: Link先を確認
Yoshifumi Nakata, Eyuri Wakakuwa, Hayata Yamasaki(参考訳) 量子誤り訂正(QEC)は、量子情報科学の中心的な概念の一つであり、基礎物理学にも広く応用されている。 キャパシティ定理はQECの確固たる基礎を与える。 本稿では,古典的情報と量子的情報,すなわちハイブリッド情報の両方に対して,従来よりも広い状況をカバーする一発シナリオにおける絡み合いの限られた資源の助けを借りて,広く適用可能な容量定理を提案する。 定理の広範な適用性から、短いランダム量子回路によるQECの実証は実現可能であり、QECは量子カオス系に固有のものであることを示す。 この結果は、量子情報理論、近未来量子技術、基礎物理学の進歩を橋渡しするものである。

Quantum error correction (QEC) is one of the central concepts in quantum information science and also has wide applications in fundamental physics. The capacity theorems provide solid foundations of QEC. We here provide a general and highly applicable form of capacity theorem for both classical and quantum information, i.e., hybrid information, with assistance of a limited resource of entanglement in one-shot scenario, which covers broader situations than the existing ones. Harnessing the wide applicability of the theorem, we show that a demonstration of QEC by short random quantum circuits is feasible and that QEC is intrinsic in quantum chaotic systems. Our results bridge the progress in quantum information theory, near-future quantum technology, and fundamental physics.
翻訳日:2023-04-26 01:58:27 公開日:2021-06-21
# ダイヤモンド磁気測定とgradiometryによるサブピコプタ直流電界計測

Diamond magnetometry and gradiometry towards subpicotesla DC field measurement ( http://arxiv.org/abs/2012.15706v4 )

ライセンス: Link先を確認
Chen Zhang, Farida Shagieva, Matthias Widmann, Michael Kuebler, Vadim Vorobyov, Polina Kapitanova, Elizaveta Nenasheva, Ruth Corkill, Oliver Roehrle, Kazuo Nakamura, Hitoshi Sumiya, Shinobu Onoda, Junichi Isoya, Joerg Wrachtrup(参考訳) ダイヤモンド中の窒素空孔(NV)中心は、コンパクトな量子センサーのための強力な固体プラットフォームへと発展してきた。 しかし、高感度測定は通常、レーザーの励起強度とパルス制御に対する追加の制約が伴う。 そこで我々は,低強度光励起を用いた高感度NVアンサンブルによる磁界測定を行った。 連続波光検出磁気共鳴や連続励起ラムゼイ測定とロックイン検出を組み合わせた直流磁力測定法を最適化に比較した。 gradiometryはまた、未知の勾配の無遮蔽測定へのステップとして研究されている。 磁気センサは、磁気感度2.6-6 pT/Hz^0.5に対応する2mmの磁束ガイドをさらに適用することにより、73s測定において0.3-0.7 pTの最小検出可能磁場を示す。 これまでのダイヤモンド交流磁力計の取り組みと合わせて、ダイヤモンド磁力計は、周囲条件下でピクトスラ感度の広帯域磁力計と立方ミリセンシングボリュームを約束している。

Nitrogen vacancy (NV) centers in diamond have developed into a powerful solid-state platform for compact quantum sensors. However, high sensitivity measurements usually come with additional constraints on the pumping intensity of the laser and the pulse control applied. Here, we demonstrate high sensitivity NV ensemble based magnetic field measurements with low-intensity optical excitation. DC magnetometry methods like, e.g., continuous-wave optically detected magnetic resonance and continuously excited Ramsey measurements combined with lock-in detection, are compared to get an optimization. Gradiometry is also investigated as a step towards unshielded measurements of unknown gradients. The magnetometer demonstrates a minimum detectable field of 0.3-0.7 pT in a 73 s measurement by further applying a flux guide with a sensing dimension of 2 mm, corresponding to a magnetic field sensitivity of 2.6-6 pT/Hz^0.5. Combined with our previous efforts on the diamond AC magnetometry, the diamond magnetometer is promising to perform wide bandwidth magnetometry with picotesla sensitivity and a cubic-millimeter sensing volume under ambient conditions.
翻訳日:2023-04-18 05:41:11 公開日:2021-06-21
# プライマリ・ヘルス・センター・オペレーションのシミュレーションモデリングと分析

Simulation Modelling and Analysis of Primary Health Centre Operations ( http://arxiv.org/abs/2104.12492v2 )

ライセンス: Link先を確認
Mohd Shoaib and Varun Ramamohan(参考訳) インドにおけるプライマリ・ヘルス・センター(PHC)の運営に関する個別のシミュレーションモデルを提案する。 phcシミュレーションモデルには,外来患者,入院患者,出産患者,および麻酔治療を希望する患者という4種類の患者が組み込まれている。 PHC演算のシミュレーションモデルを開発するために汎用的なモデリング手法が採用された。 これには考古学的なPHCシミュレーション(英語版)の開発が含まれ、PHC訪問中に遭遇したリソースの数やサービスの種類が異なる2つのPHC構成を表現した。 また, 疾病負担データから需要を推定し, 国際推定値に近いサービス時間(観測値よりも高い)を用いて, 政府管理の運用ガイドラインに適合したベンチマーク構成を示すモデルも開発した。 観察された3つの構成のシミュレーションの結果は、観察された患者需要推定値において、無視できる待ち時間と低い資源利用値を示している。 しかし,ベンチマーク構成のシミュレーションの結果,資源利用率が有意に高かった。 評価実験を行い, 運用パターンの変化が, ストレスのある資源の利用率を低下させる効果について評価した。 また,PHC 医師/患者システムに類似した特徴を持つキューシステムにおいて,サーバの平均利用率の簡易な解析近似の開発も動機づけた。 本研究は,インドにおける公衆衛生活動の分析に必要な計算基盤の構築に向けた取り組みにおける第一歩であり,他の階層的医療システムを持つ研究者に,プライマリ医療施設のシミュレーションモデル開発のためのテンプレートを提供する。

We present discrete-event simulation models of the operations of primary health centres (PHCs) in the Indian context. Our PHC simulation models incorporate four types of patients seeking medical care: outpatients, inpatients, childbirth cases, and patients seeking antenatal care. A generic modelling approach was adopted to develop simulation models of PHC operations. This involved developing an archetype PHC simulation, which was then adapted to represent two other PHC configurations, differing in numbers of resources and types of services provided, encountered during PHC visits. A model representing a benchmark configuration conforming to government-mandated operational guidelines, with demand estimated from disease burden data and service times closer to international estimates (higher than observed), was also developed. Simulation outcomes for the three observed configurations indicate negligible patient waiting times and low resource utilisation values at observed patient demand estimates. However, simulation outcomes for the benchmark configuration indicated significantly higher resource utilisation. Simulation experiments to evaluate the effect of potential changes in operational patterns on reducing the utilisation of stressed resources for the benchmark case were performed. Our analysis also motivated the development of simple analytical approximations of the average utilisation of a server in a queueing system with characteristics similar to the PHC doctor/patient system. Our study represents the first step in an ongoing effort to establish the computational infrastructure required to analyse public health operations in India, and can provide researchers in other settings with hierarchical health systems a template for the development of simulation models of their primary healthcare facilities.
翻訳日:2023-04-11 02:12:58 公開日:2021-06-21
# ユニバーサル6Gのための支援型5Gインフラストラクチャポリシ:リモートセンシングを用いたオープンソース技術・経済シミュレーションモデルによる評価

Supportive 5G Infrastructure Policies are Essential for Universal 6G: Assessment using an Open-source Techno-economic Simulation Model utilizing Remote Sensing ( http://arxiv.org/abs/2102.08086v3 )

ライセンス: Link先を確認
Edward J. Oughton and Ashutosh Jha(参考訳) 現在、第6世代の携帯電話技術(「6G」)の取り組みが始まっており、コスト効率のよいグローバルブロードバンド網はすでに重要な柱となっている。 実際、持続可能な開発目標(Target 9.c)の重要な部分であるにもかかわらず、普遍的で安価なブロードバンド接続を提供するには程遠い。 現在、Mobile Network Operatorsと政府機関は、この目標を達成するための戦略(4Gと5G)を独立して分析していない。 そこで本研究では,現在の5G政策がブロードバンドにどのように影響するかを定量的に評価するとともに,今後6Gにどのように影響するかについて結論を導いた。 リモートセンシングと最小コストのネットワークアルゴリズムを組み合わせたオープンソースのテクノ経済コードベースに基づく手法を用いて,異なる4Gおよび5Gユニバーサルブロードバンド戦略に対して性能解析を行う。 例えば、この評価アプローチは、世界第2位のモバイル市場であるインドと、非常に高いスペクトル価格の国に適用されている。 結果は技術決定のトレードオフを示している。 これは、現在のインフラストラクチャポリシーがいかに重要かを示すことを含み、特に、ファイババックホールが6gのサービス品質を提供するのに不可欠である。 スペクトルのライセンスコストをなくすことで、ファイバーバックホールを使って100%5gの人口が確実にカバーできることがわかった。 したがって、6Gのような将来の細胞生成への進化のための優れた基盤を提供するためには、支援的なインフラ政策が不可欠である。

Work has now begun on the sixth generation of cellular technologies (`6G`) and cost-efficient global broadband coverage is already becoming a key pillar. Indeed, we are still far from providing universal and affordable broadband connectivity, despite this being a key part of the Sustainable Development Goals (Target 9.c). Currently, both Mobile Network Operators and governments still lack independent analysis of the strategies that can help achieve this target with the cellular technologies available (4G and 5G). Therefore, this paper undertakes quantitative assessment demonstrating how current 5G policies affect universal broadband, as well as drawing conclusions over how decisions made now affect future evolution to 6G. Using a method based on an open-source techno-economic codebase, combining remote sensing with least-cost network algorithms, performance analytics are provided for different 4G and 5G universal broadband strategies. As an example, the assessment approach is applied to India, the world`s second-largest mobile market and a country with very high spectrum prices. The results demonstrate the trade-offs between technological decisions. This includes demonstrating how important current infrastructure policy is, particularly given fiber backhaul will be essential for delivering 6G quality of service. We find that by eliminating the spectrum licensing costs, 100% 5G population coverage can viably be achieved using fiber backhaul. Therefore, supportive infrastructure policies are essential in providing a superior foundation for evolution to future cellular generation, such as 6G.
翻訳日:2023-04-11 00:22:26 公開日:2021-06-21
# 完全量子状態同期

Perfect quantum-state synchronization ( http://arxiv.org/abs/2103.02031v2 )

ライセンス: Link先を確認
Jakub Czartowski, Ronny M\"uller, Karol Zyczkowski, Daniel Braun(参考訳) 任意の初期状態から開始するオープン量子システムの全てのサブシステムの量子状態の完全同期化につながる最も一般的なメカニズムについて検討する。 このような「量子状態同期」に必要な条件を提供し、量子状態同期器の2つの主要なクラスにおける環境のヒルベルト空間の次元の厳密な下界を証明し、それらの構成のための解析解を与える。 2つの量子ビットの量子状態シンクロナイザの関数は、IBMの量子コンピュータ上で実験的に実証され、残りの非同期性は量子コンピュータの不完全性の感度測定であることを示す。

We investigate the most general mechanisms that lead to perfect synchronization of the quantum states of all subsystems of an open quantum system starting from an arbitrary initial state. We provide a necessary and sufficient condition for such "quantum-state synchronization", prove tight lower bounds on the dimension of the environment's Hilbert space in two main classes of quantum-state synchronizers, and give an analytical solution for their construction. The functioning of the found quantum-state synchronizer of two qubits is demonstrated experimentally on an IBM quantum computer and we show that the remaining asynchronicity is a sensitive measure of the quantum computer's imperfection.
翻訳日:2023-04-09 11:54:10 公開日:2021-06-21
# 音声映像解析のためのクロスモーダル学習

Cross-Modal learning for Audio-Visual Video Parsing ( http://arxiv.org/abs/2104.04598v2 )

ライセンス: Link先を確認
Jatin Lamba, Abhishek, Jayaprakash Akula, Rishabh Dabral, Preethi Jyothi, Ganesh Ramakrishnan(参考訳) 本稿では,映像からイベントを分離した音声・視覚映像解析(avvp)タスクに対する新しいアプローチを提案する。 提案手法は,これらの事象の開始時刻と終了時刻の時間境界を同時に検出する。 本稿では,avvpが効果的なクロスモーダル学習を指向した手法を活用できることを示す。 (i)敵対的訓練とスキップ接続 (ii)グローバル・コンテクストを意識した注意と (iii)クロスモーダルなオーディオ・ビデオ表現を得るために、オーディオ・ビデオの接地目的を用いた自己教師付き事前学習。 我々は、Look, Listen, Parse(LLP)データセットに関する広範な実験的評価を行い、AVVPが提案する5つの指標すべてにおいて、最先端のハイブリッドアテンションネットワーク(HAN)よりも優れていることを示す。 また,プレトレーニング,グローバルアテンション,対人訓練の効果を検証するために,いくつかの試みを行った。

In this paper, we present a novel approach to the audio-visual video parsing (AVVP) task that demarcates events from a video separately for audio and visual modalities. The proposed parsing approach simultaneously detects the temporal boundaries in terms of start and end times of such events. We show how AVVP can benefit from the following techniques geared towards effective cross-modal learning: (i) adversarial training and skip connections (ii) global context aware attention and, (iii) self-supervised pretraining using an audio-video grounding objective to obtain cross-modal audio-video representations. We present extensive experimental evaluations on the Look, Listen, and Parse (LLP) dataset and show that we outperform the state-of-the-art Hybrid Attention Network (HAN) on all five metrics proposed for AVVP. We also present several ablations to validate the effect of pretraining, global attention and adversarial training.
翻訳日:2023-04-05 10:58:10 公開日:2021-06-21
# IBM量子コンピュータにおける量子ウォークとファインマンプロパゲータとグラフトポロジー

Quantum Walks, Feynman Propagators and Graph Topology on an IBM Quantum Computer ( http://arxiv.org/abs/2104.06458v2 )

ライセンス: Link先を確認
Yuan Feng, Raffaele Miceli, Michael McGuigan(参考訳) トポロジカルデータ分析(英: Topological data analysis)は、データサイエンスの急速に発展する分野であり、データ集合内のトポロジカルパターンを発見し、洞察と知識発見を生成する。 このプロジェクトでは、ウォークを行うデータグラフの特徴を発見するために量子ウォークアルゴリズムを使用します。 これは、全ての経路を重ね合わせを使って探索できる量子コンピュータ上でより高速に行うことができる。 まず、ポリゴン上の単純なウォークから始まり、高次元メッシュによって記述されたグラフに移行する。 確率振幅の観点から定義された量子ウォークの物理学的記述からの洞察を用いて、あるグラフ上のあるサイトから別の離れたサイトへ移動し、これが物理学用語におけるファインマンプロパゲータやケルネルとの関係を示す。 IBMの量子コンピューティングソフトウェアであるQiskitを用いた量子計算の結果は,従来の計算手法とよく一致した。

Topological data analysis is a rapidly developing area of data science where one tries to discover topological patterns in data sets to generate insight and knowledge discovery. In this project we use quantum walk algorithms to discover features of a data graph on which the walk takes place. This can be done faster on quantum computers where all paths can be explored using superposition. We begin with simple walks on a polygon and move up to graphs described by higher dimensional meshes. We use insight from the physics description of quantum walks defined in terms of probability amplitudes to go from one site on a graph to another distant site and show how this relates to the Feynman propagator or Kernel in the physics terminology. Our results from quantum computation using IBM's Qiskit quantum computing software were in good agreement with those obtained using classical computing methods.
翻訳日:2023-04-03 23:25:03 公開日:2021-06-21
# コヒーレント駆動開量子系の熱力学的不確かさ関係

Thermodynamic uncertainty relations for coherently driven open quantum systems ( http://arxiv.org/abs/2104.12712v2 )

ライセンス: Link先を確認
Paul Menczel, Eetu Loisa, Kay Brandner, Christian Flindt(参考訳) 古典的なマルコフジャンププロセスでは、電流のゆらぎは散逸の増加のコストでしか減少できない。 量子効果がこのトレードオフにどのように影響するかを調べるため、マルコフ開量子系の定常電流の不確実性を分析する。 まず3つの指導例を考え、次に小さな開量子系に対する不確実性とエントロピー生成の積を体系的に最小化する。 その結果, ゆらぎを減少させる熱力学的コストはコヒーレンスによって古典的境界以下に低減できることがわかった。 このコストは、十分に多くの自由度を持つ量子系において任意に小さくすることができると推測する。 その結果, 量子状態における熱機械設計の一般的な指針として, 低散逸と平均値のゆらぎの少ない熱力学精度で動作させることができた。

In classical Markov jump processes, current fluctuations can only be reduced at the cost of increased dissipation. To explore how quantum effects influence this trade-off, we analyze the uncertainty of steady-state currents in Markovian open quantum systems. We first consider three instructive examples and then systematically minimize the product of uncertainty and entropy production for small open quantum systems. As our main result, we find that the thermodynamic cost of reducing fluctuations can be lowered below the classical bound by coherence. We conjecture that this cost can be made arbitrarily small in quantum systems with sufficiently many degrees of freedom. Our results thereby provide a general guideline for the design of thermal machines in the quantum regime that operate with high thermodynamic precision, meaning low dissipation and small fluctuations around average values.
翻訳日:2023-04-02 08:52:19 公開日:2021-06-21
# モデリング確率的時間力学における極大次元減少のための量子粗粒化

Quantum coarse-graining for extreme dimension reduction in modelling stochastic temporal dynamics ( http://arxiv.org/abs/2105.06831v2 )

ライセンス: Link先を確認
Thomas J. Elliott(参考訳) 複雑なシステムの確率的モデリングは、量的科学において不可欠であるが、しばしば計算集約的な役割を果たす。 量子情報処理の最近の進歩は、量子シミュレータがそのようなタスクにメモリの利点を示す可能性を解明している。 これまではロスレスメモリ圧縮に重点を置いてきたが、その利点は一般的にモデルによって追跡される情報の量を減らすことにある。 ここでは,連続時間過程の量子確率モデリングにおける損失圧縮のケースを扱い,近似統計を保ちながら時間力学をモデル化するために必要なメモリ次元を劇的に削減する量子状態空間の粗粒化法を導入する。 古典的な粗粒化とは対照的に、この圧縮は時間分解能の犠牲に基づくものではなく、現在の量子技術の範囲内でメモリ効率が高く、高忠実な確率的モデリングをもたらす。

Stochastic modelling of complex systems plays an essential, yet often computationally intensive role across the quantitative sciences. Recent advances in quantum information processing have elucidated the potential for quantum simulators to exhibit memory advantages for such tasks. Heretofore, the focus has been on lossless memory compression, wherein the advantage is typically in terms of lessening the amount of information tracked by the model, while -- arguably more practical -- reductions in memory dimension are not always possible. Here we address the case of lossy compression for quantum stochastic modelling of continuous-time processes, introducing a method for coarse-graining in quantum state space that drastically reduces the requisite memory dimension for modelling temporal dynamics whilst retaining near-exact statistics. In contrast to classical coarse-graining, this compression is not based on sacrificing temporal resolution, and brings memory-efficient, high-fidelity stochastic modelling within reach of present quantum technologies.
翻訳日:2023-03-31 04:09:14 公開日:2021-06-21
# 保存量を持つ系におけるETHからOTOCの代数緩和

From ETH to algebraic relaxation of OTOCs in systems with conserved quantities ( http://arxiv.org/abs/2106.00234v2 )

ライセンス: Link先を確認
Vinitha Balachandran, Giuliano Benenti, Giulio Casati, and Dario Poletti(参考訳) 時間外相関器(OTOC)の緩和は、量子系のスクランブル特性を特徴づける手段として研究されている。 局所保存量の存在は、典型的には、OTOCの代数的緩和をもたらすことを示す。 (i)動力学は局所的であり (ii) 系は固有状態熱化仮説に従う。 この結果は,局所保存量を持つ熱処理系において典型的なシステムサイズを持つotocsの無限時間値の代数的スケーリングと,有限次元相互作用系における相関伝播の有限速度の存在に依存する。 上記の条件からハミルトニアンの時間独立性は不要であることを示す。 (i)および (ii) 周期的または非周期的に、時間依存系において発生する。 我々はまた、この結果がパワーロー相互作用を持つシステムに拡張できるとも述べている。

The relaxation of out-of-time-ordered correlators (OTOCs) has been studied as a mean to characterize the scrambling properties of a quantum system. We show that the presence of local conserved quantities typically results in, at the fastest, an algebraic relaxation of the OTOC provided (i) the dynamics is local and (ii) the system follows the eigenstate thermalization hypothesis. Our result relies on the algebraic scaling of the infinite-time value of OTOCs with system size, which is typical in thermalizing systems with local conserved quantities, and on the existence of finite speed of propagation of correlations for finite-range-interaction systems. We show that time-independence of the Hamiltonian is not necessary as the above conditions (i) and (ii) can occur in time-dependent systems, both periodic or aperiodic. We also remark that our result can be extended to systems with power-law interactions.
翻訳日:2023-03-28 03:48:07 公開日:2021-06-21
# 共有自律自転車のフリート性能に関するシミュレーション研究

Simulation study on the fleet performance of shared autonomous bicycles ( http://arxiv.org/abs/2106.09694v2 )

ライセンス: Link先を確認
Naroa Coretti S\'anchez, I\~nigo Martinez, Luis Alonso Pastor, Kent Larson(参考訳) 社会が人口増加や気候変動といった世界的な課題に直面しているため、都市の再検討はかつてないほど重要になっている。 都市の設計はモビリティシステムの設計から抽象化することはできないため、効率的なソリューションが都市中の人々や商品を生態学的に輸送するために見出さなければならない。 自動運転自転車シェアリングシステムは、車両のシェアリング、電化、自律性、およびマイクロモビリティの最も関連する利点を結合し、自転車シェアリングシステムの効率と利便性を高め、より多くの人が自転車にインセンティブを与え、環境にやさしい方法で都市を楽しむ。 自転車シェアリングシステムに自動運転技術を導入することの特異性と急進的な新しさと、これらのシステムの固有の複雑さのため、自律性が艦隊のパフォーマンスとユーザエクスペリエンスに与える影響を定量化する必要がある。 本稿では,需要予測に基づくリバランスシステムを含む,現実的なシナリオにおける自律型自転車シェアリングシステムのフリート行動の深い理解を提供する,アドホックエージェントベースのシミュレータを提案する。 さらに,本研究では,異なるパラメータがシステム効率やサービス品質に与える影響を記述し,自律システムが現在の自転車シェアリング方式に勝る程度を定量化する。 その結果、ステーションベースシステムより3倍半小さく、ドックレスシステムより8倍小さい車体サイズを持つ自律システムは、再バランスを伴わずとも全体的な性能向上とユーザエクスペリエンスを提供することができることがわかった。 これらの結果は、自律自転車シェアリングシステムの顕著な効率が、自律自転車の追加コストを補う可能性を示唆している。

Rethinking cities is now more imperative than ever, as society faces global challenges such as population growth and climate change. The design of cities can not be abstracted from the design of its mobility system, and, therefore, efficient solutions must be found to transport people and goods throughout the city in an ecological way. An autonomous bicycle-sharing system would combine the most relevant benefits of vehicle sharing, electrification, autonomy, and micro-mobility, increasing the efficiency and convenience of bicycle-sharing systems and incentivizing more people to bike and enjoy their cities in an environmentally friendly way. Due to the uniqueness and radical novelty of introducing autonomous driving technology into bicycle-sharing systems and the inherent complexity of these systems, there is a need to quantify the potential impact of autonomy on fleet performance and user experience. This paper presents an ad-hoc agent-based simulator that provides an in-depth understanding of the fleet behavior of autonomous bicycle-sharing systems in realistic scenarios, including a rebalancing system based on demand prediction. In addition, this work describes the impact of different parameters on system efficiency and service quality and quantifies the extent to which an autonomous system would outperform current bicycle-sharing schemes. The obtained results show that with a fleet size three and a half times smaller than a station-based system and eight times smaller than a dockless system, an autonomous system can provide overall improved performance and user experience even with no rebalancing. These findings indicate that the remarkable efficiency of an autonomous bicycle-sharing system could compensate for the additional cost of autonomous bicycles.
翻訳日:2023-03-26 10:39:48 公開日:2021-06-21
# 最も正確な量子熱電図

The most precise quantum thermoelectric ( http://arxiv.org/abs/2106.10205v2 )

ライセンス: Link先を確認
Andr\'e M. Timpanaro, Giacomo Guarnieri and Gabriel T. Landi(参考訳) 熱力学的不確実性関係(TUR)はナノスケールデバイスにおける電流のノイズ-信号比(精度)に低い境界を置く。 元々は古典的時間同質マルコフ過程のために定式化され、これらの関係は量子コヒーレントデバイスで破ることができる。 しかし、これらの現象が起こる範囲は依然としてパズルの欠片を表している。 このレターでは、定常状態にある量子熱電デバイスのクラスに対して決定的な答えを提供する。 線形応答を超えたコヒーレント散乱理論と解析的最適化手法を用いて,定常電流の分散を最小化する伝達関数がボックスカー関数の集合であることを厳密に証明した。 これにより、温度や化学的ポテンシャル勾配に応じて、TURが任意に大量に違反できることを示し、最適デバイスの設計のガイドラインを提供する。

Thermodynamic Uncertainty Relations (TURs) place lower bounds on the noise-to-signal ratio (precision) of currents in nanoscale devices. Originally formulated for classical time-homogeneous Markov processes, these relations, can be violated in quantum-coherent devices. However, the extent to which these may occur still represent a missing piece of the puzzle. In this Letter we provide the definitive answer for the class of quantum thermoelectric devices operating in the steady-state regime. Using coherent scattering theory beyond linear response, together with analytical optimization techniques, we rigorously prove that the transmission function which minimizes the variance of steady-state currents, for fixed averages, is a collection of boxcar functions. This allows us to show that TURs can be violated by arbitrarily large amounts, depending on the temperature and chemical potential gradients, thus providing guidelines to the design of optimal devices.
翻訳日:2023-03-26 08:17:58 公開日:2021-06-21
# 集合光子バーストによるライドバーグ超原子の単発測定

Single-shot measurement of a Rydberg superatom via collective photon burst ( http://arxiv.org/abs/2106.10858v1 )

ライセンス: Link先を確認
Chao-Wei Yang, Jun Li, Ming-Ti Zhou, Xiao Jiang, Xiao-Hui Bao, Jian-Wei Pan(参考訳) ライドバーグ双極子相互作用では、メソスコピック原子アンサンブルは2段階の単一原子のように振る舞うため、いわゆる超原子の像となる。 量子情報科学における量子ビットとしての強い候補であり、特にリモート量子コンピュータを接続するために量子インターネットを構築するのに必須の集合的拡張により、単一の光子と効率的に結合する。 これまで、単光子源であるrydberg superatomの基本的な概念と単一光子による絡み合いの実証実験が行われてきた。 シングルショット量子ビット測定の重要な要素はまだ欠けている。 ここでは,超原子量子ビットの光子バーストによる決定論的測定を単発で行う。 低フィン環空洞を用いて原子-光子相互作用を増強し,繊維内検索効率44%を得る。 2つのライドバーグ準位間の双極子相互作用を利用すると、初期量子ビット状態に基づいて複数の単一光子列を作るか、何も生成しないかのどちらかになる。 我々は4.8で93.2%の単発測定精度を達成した。 我々の研究は、Rydberg超原子を用いた量子情報応用の実験ツールボックスを補完する。

With Rydberg dipole interactions, a mesoscopic atomic ensemble may behave like a two-level single atom, resulting in the so-called picture of superatom. It is in potential a strong candidate as a qubit in quantum information science, especially for efficient coupling with single photons via collective enhancement that is essential for building quantum internet to connect remote quantum computers. Previously, preliminary studies have been carried out in demonstrating basic concept of Rydberg superatom, a single-photon source, and entanglement with a single photon, etc. While a crucial element of single-shot qubit measurement is still missing. Here we realize the deterministic measurement of a superatom qubit via photon burst in a single shot. We make use of a low-finesse ring cavity to enhance the atom-photon interaction and obtain an in-fiber retrieval efficiency of 44%. Harnessing dipole interaction between two Rydberg levels, we may either create a sequence of multiple single photons or nothing, conditioned on the initial qubit state. We achieve a single-shot measurement fidelity of 93.2% in 4.8 us. Our work complements the experimental toolbox of harnessing Rydberg superatom for quantum information applications.
翻訳日:2023-03-25 23:28:46 公開日:2021-06-21
# 運動量減退による普遍多体拡散

Universal many-body diffusion from momentum dephasing ( http://arxiv.org/abs/2106.10984v1 )

ライセンス: Link先を確認
Maur\'icio Hippert, Gabriel T. Landi and Jorge Noronha(参考訳) 量子多体系の開力学はエネルギーの交換だけでなく、運動量などの他の保存量も含む。 これはさらにデコヒーレンスをもたらし、ダイナミクスに大きな影響を与える可能性がある。 この動機付けにより, 多体系は全運動量低下の対象となると考え, 非常に一般的な条件下では, 局所密度の動力学において, 平衡から遠く及ばない拡散成分を生じさせることを示した。 そのようなコンポーネントは通常、ユニタリダイナミクスと複雑な相互作用を持つ。 これを説明するために,超流動の場合を考察し,通常の流体に対してナヴィエ・ストークス方程式によって予測されるような,音波の分散関係における運動量低下が減衰をもたらすことを示す。 最後に, 線形応答におけるdephasingの効果について検討し, 久保式から得られる拡散定数に対する普遍的な加法的寄与をもたらすことを示す。

The open dynamics of quantum many-body systems involve not only the exchange of energy, but also of other conserved quantities, such as momentum. This leads to additional decoherence, which may have a profound impact in the dynamics. Motivated by this, we consider a many-body system subject to total momentum dephasing and show that under very general conditions this leads to a diffusive component in the dynamics of any local density, even far from equilibrium. Such component will usually have an intricate interplay with the unitary dynamics. To illustrate this, we consider the case of a superfluid and show that momentum dephasing introduces a damping in the sound-wave dispersion relation, similar to that predicted by the Navier-Stokes equation for ordinary fluids. Finally, we also study the effects of dephasing in linear response, and show that it leads to a universal additive contribution to the diffusion constant, which can be obtained from a Kubo formula.
翻訳日:2023-03-25 23:24:47 公開日:2021-06-21
# 変分量子アルゴリズムの正規化勾配降下

Normalized Gradient Descent for Variational Quantum Algorithms ( http://arxiv.org/abs/2106.10981v1 )

ライセンス: Link先を確認
Yudai Suzuki, Hiroshi Yano, Rudy Raymond, Naoki Yamamoto(参考訳) 変分量子アルゴリズム(vqas)は、ノイズ量子コンピュータと古典計算技術を実用的な用途に活用する有望な手法である。 VQAでは、勾配に基づくオプティマイザのような古典的なオプティマイザを用いて量子回路のパラメータを調整し、目的関数を最小化する。 しかし、それらはいわゆる消滅勾配や不毛の高原問題に悩まされることが多い。 一方,パラメータの更新に正規化勾配ベクトルを用いる正規化勾配降下法(正規化勾配降下法)は,いくつかの最適化問題において有効である。 本稿では,VQAの最適化におけるNGD法の性能について検討する。 私たちの目標は2倍です。 第一は, ngdとその変種が消失する勾配問題を克服する効果を検討することである。 2つ目は、通常のNGDよりも早く収束できる新しいNGDを提案することである。 vqaを用いて与えられたハミルトニアンの基底状態を求める量子化学の文脈において,これらの勾配に基づく最適化器の数値シミュレーションを行った。 その結果, 正規化のない最適化器と比較して, VQAにおけるNGD法の有効収束性を示した。 さらに,過去の反復ステップにおいて,いくつかの正規化勾配ベクトルを用いて,数値実験で観測される収束速度を加速する理論的保証を持つ新しい歴史的ngdを提案する。

Variational quantum algorithms (VQAs) are promising methods that leverage noisy quantum computers and classical computing techniques for practical applications. In VQAs, the classical optimizers such as gradient-based optimizers are utilized to adjust the parameters of the quantum circuit so that the objective function is minimized. However, they often suffer from the so-called vanishing gradient or barren plateau issue. On the other hand, the normalized gradient descent (NGD) method, which employs the normalized gradient vector to update the parameters, has been successfully utilized in several optimization problems. Here, we study the performance of the NGD methods in the optimization of VQAs for the first time. Our goal is two-fold. The first is to examine the effectiveness of NGD and its variants for overcoming the vanishing gradient problems. The second is to propose a new NGD that can attain the faster convergence than the ordinary NGD. We performed numerical simulations of these gradient-based optimizers in the context of quantum chemistry where VQAs are used to find the ground state of a given Hamiltonian. The results show the effective convergence property of the NGD methods in VQAs, compared to the relevant optimizers without normalization. Moreover, we make use of some normalized gradient vectors at the past iteration steps to propose the novel historical NGD that has a theoretical guarantee to accelerate the convergence speed, which is observed in the numerical experiments as well.
翻訳日:2023-03-25 23:24:31 公開日:2021-06-21
# 形式数学教育における教育ロボティクスの役割 : 15歳学生の幾何学的考察

Investigating the role of educational robotics in formal mathematics education: the case of geometry for 15-year-old students ( http://arxiv.org/abs/2106.10925v1 )

ライセンス: Link先を確認
J\'er\^ome Brender, Laila El-Hamamsy, Barbara Bruno, Fr\'ed\'erique Chessel-Lazzarotto, Jessica Dehler Zufferey, Francesco Mondada(参考訳) 研究によると、教育ロボティクス(ER)は学生のパフォーマンス、興味、エンゲージメント、コラボレーションを高める。 しかし、これまでは、正式な教育におけるロボティクスの採用は比較的少なかった。 その他の要因としては、教育ロボット学習活動とカリキュラムが想定する学習成果との整合性を決定することの難しさや、教師の実践において確立された従来の非ロボット学習活動との統合が原因である。 本研究では,TymioロボットとScratchプログラミングを用いて,26名の参加者を対象に,ERの形式数学教育への統合について検討する。 1)er型理論講義は従来の理論講義よりも優先するか,成功するか,あるいは置き換えるべきか? 2)ERによる講義・演習における学生の意識と関与について (3) 学生の数学に対する事前評価は, 学生によって異なるか? その結果,ER活動は学生が関連する理論的概念を理解するのを助ける上で,従来の活動と同じくらい有効であることが示唆された。 学生はロボットを含む運動を自由に選択し、従来のロボットよりもはるかに興味深く役に立つと評価し、他の数学講義にERを導入することに興味を示した。 最後に、結果は一般に数学が好きで嫌いな学生の間で一致しており、ロボット工学を専門科に携わる学生の数を拡大する手段として用いていることを示唆した。

Research has shown that Educational Robotics (ER) enhances student performance, interest, engagement and collaboration. However, until now, the adoption of robotics in formal education has remained relatively scarce. Among other causes, this is due to the difficulty of determining the alignment of educational robotic learning activities with the learning outcomes envisioned by the curriculum, as well as their integration with traditional, non-robotics learning activities that are well established in teachers' practices. This work investigates the integration of ER into formal mathematics education, through a quasi-experimental study employing the Thymio robot and Scratch programming to teach geometry to two classes of 15-year-old students, for a total of 26 participants. Three research questions were addressed: (1) Should an ER-based theoretical lecture precede, succeed or replace a traditional theoretical lecture? (2) What is the students' perception of and engagement in the ER-based lecture and exercises? (3) Do the findings differ according to students' prior appreciation of mathematics? The results suggest that ER activities are as valid as traditional ones in helping students grasp the relevant theoretical concepts. Robotics activities seem particularly beneficial during exercise sessions: students freely chose to do exercises that included the robot, rated them as significantly more interesting and useful than their traditional counterparts, and expressed their interest in introducing ER in other mathematics lectures. Finally, results were generally consistent between the students that like and did not like mathematics, suggesting the use of robotics as a means to broaden the number of students engaged in the discipline.
翻訳日:2023-03-25 23:23:55 公開日:2021-06-21
# 高校経済学におけるモバイル・フォーマティブ・アセスメント・システムにおける学生参加の育成

Fostering Student Engagement in a Mobile Formative Assessment System for High-School Economics ( http://arxiv.org/abs/2106.10910v1 )

ライセンス: Link先を確認
Fotis Lazarinis, Dimitris Kanellopoulos(参考訳) モバイル学習環境において、学生は時間と空間に制限されることなく、モバイルデバイスで学ぶことができる。 そのため,このような環境下での知識の学習・評価を支援するツールの開発が不可欠である。 本稿では,形式的自己評価のためのツール/アプリケーションを提案する。 本ツールは、(1)難易度、(2)関連する概念、(3)テストテイクの目的に関するユーザ定義の基準に基づく質問の選択を支援する。 提案ツールの主な目的は,参加者の学習目標をよりよく支援し,学習プロセスへの関与を高めることである。 本研究の目的は,マイクロエコノミクスにおけるクイズを用いたツールの評価と,この領域におけるその可能性について検討することである。 教師と学生は実験に携わった。 実験は,提示ツールが有用であることを示し,学生のモチベーションを高め,理解を向上させる。

In a mobile learning environment, students can learn via mobile devices without being limited by time and space. Therefore, it is vital to develop tools to assist students to learn and assess their knowledge in such environments. This paper presents a tool/application for formative self-assessment. The tool supports the selection of questions based on user-defined criteria concerning (1) the difficulty level; (2) the associated concepts; and (3) the purposes of the test taker. The main purpose of the presented tool is to better support the learning aims of the participants and to increase their engagement in the learning process. The focus of this study is to evaluate the tool using quizzes in Microeconomics to realize its potential in this specific domain. Teachers and students were involved in the experiments conducted. The experiments demonstrated that the presented tool is usable; it motivates the students and improves their understanding
翻訳日:2023-03-25 23:23:31 公開日:2021-06-21
# キラルトポロジカル量子物質の幾何学的および計算的側面

Geometric and computational aspects of chiral topological quantum matter ( http://arxiv.org/abs/2106.10897v1 )

ライセンス: Link先を確認
Omri Golan(参考訳) 本論文では, 2+1次元量子物質のカイラル位相相について研究する。 このような位相は、重力チャーン・サイモンズ(gCS)作用の係数として現れるトポロジカル不変量であるキラル中心電荷$c$と、それに対応する境界における重力異常によって抽象的に特徴づけられる。 キラル中心電荷はキラル超流体と超伝導体(CSF/Cs)において特に重要であり、$U(1)$粒子数対称性が破られ、$c$はシステムの特徴を特徴づける唯一の位相不変量である。 しかし、重力の代わりにゲージ場によって探索できる不変量とは対照的に、凝縮物質物理学の文脈における$c$の具体的な物理的含意は非常に微妙であり、現在進行中の研究や論争の対象となっている。 この論文の最初の2つの部分は、特に重要な分野であるCSF/Cの文脈におけるgCS作用と重力異常の物理的解釈に費やされている。 そして、その計算複雑性という、キラル位相の一見無関係な側面に目を向ける。 悪名高い $sign\ problem$ は、ジェネリック多体量子システムのモンテカルロシミュレーションにおいて指数関数的複雑性をもたらす。 それにもかかわらず、多くの段階の物質は符号プロブレムのない代表を許すことで知られ、効率的な古典的シミュレーションを可能にしている。 物質相がサインプロブレムのない代表者を認めないような$intrinsic$サイン問題の可能性は、最近引き上げられたが、ほとんど未解決のままである。 ここで、e^{2\pi i c/24}$ がエノンの位相スピンでないという条件で定義される、ボソニックとフェルミオンの両方の幅広いキラルな位相相における本質的な符号問題の存在を立証する。

In this thesis, we study chiral topological phases of 2+1 dimensional quantum matter. Such phases are abstractly characterized by their non-vanishing chiral central charge $c$, a topological invariant which appears as the coefficient of a gravitational Chern-Simons (gCS) action in bulk, and of corresponding gravitational anomalies at boundaries. The chiral central charge is of particular importance in chiral superfluids and superconductors (CSF/Cs), where $U(1)$ particle-number symmetry is broken, and $c$ is, in some cases, the only topological invariant characterizing the system. However, as opposed to invariants which can be probed by gauge fields in place of gravity, the concrete physical implications of $c$ in the context of condensed matter physics is quite subtle, and has been the subject of ongoing research and controversy. The first two parts of this thesis are devoted to the physical interpretation of the gCS action and gravitational anomalies in the context of CSF/Cs, where they are of particular importance, but have nevertheless remained poorly understood. We then turn to a seemingly unrelated aspect of chiral topological phases - their computational complexity. The infamous $sign\ problem$ leads to an exponential complexity in Monte Carlo simulations of generic many-body quantum systems. Nevertheless, many phases of matter are known to admit a sign-problem-free representative, allowing an efficient classical simulation. The possibility of $intrinsic$ sign problems, where a phase of matter admits no sign-problem-free representative, was recently raised but remains largely unexplored. Here, we establish the existence of an intrinsic sign problem in a broad class of chiral topological phases, both bosonic and fermionic, defined by the requirement that $e^{2\pi i c/24}$ is $not$ the topological spin of an anyon.
翻訳日:2023-03-25 23:23:03 公開日:2021-06-21
# エピステマティックに制限された位相空間表現を持つ量子回路のクラスにおける期待値の効率的な古典計算

Efficient classical computation of expectation values in a class of quantum circuits with an epistemically restricted phase space representation ( http://arxiv.org/abs/2106.10881v1 )

ライセンス: Link先を確認
Agung Budiyono and Hermawan K. Dipojono(参考訳) 我々は、連続変数量子回路のクラスで生じる量子期待値を効率的に計算する古典的アルゴリズムを考案した。 古典的計算アルゴリズムは、量子不確実性関係を直接捉える古典的位相空間における特定の認識論的制限を利用して、複素ヒルベルト空間の量子回路を古典的位相空間の非慣習的確率過程に変換する。 得られた多次元積分はモンテカルロサンプリング法を用いて評価される。 この研究は、特定の計算スキームのクラスにおいて、ウィグナー負性は量子スピードアップに十分な資源ではないことを示している。 これは、量子計算と古典計算の境界を研究するために用いられる直感的な概念的ツールとしての認識論的制約の潜在的な役割を強調している。

We devise a classical algorithm which efficiently computes the quantum expectation values arising in a class of continuous variable quantum circuits wherein the final quantum observable | after the Heisenberg evolution associated with the circuits | is at most second order in momentum. The classical computational algorithm exploits a specific epistemic restriction in classical phase space which directly captures the quantum uncertainty relation, to transform the quantum circuits in the complex Hilbert space into classical albeit unconventional stochastic processes in the phase space. The resulting multidimensional integral is then evaluated using the Monte Carlo sampling method. The work shows that for the specific class of computational schemes, Wigner negativity is not a sufficient resource for quantum speedup. It highlights the potential role of the epistemic restriction as an intuitive conceptual tool which may be used to study the boundary between quantum and classical computations.
翻訳日:2023-03-25 23:22:30 公開日:2021-06-21
# 量子コンピュータ上の全スピンによるフィルタリング状態

Filtering states with total spin on a quantum computer ( http://arxiv.org/abs/2106.10867v1 )

ライセンス: Link先を確認
Pooja Siwach and Denis Lacroix(参考訳) スピン/量子ビットの集合に記述された一般的な波動関数から始め、全スピン ${\bf s}^2$ とその方位射影 $s_z$ の固有状態上のこの状態の成分を抽出するいくつかの量子アルゴリズムを提案する。 この方法は全スピン投射の役割を担い、全スピン基底における初期状態の振幅へのアクセスを与える。 異なるアルゴリズムは要求されたタスクに応じて様々な高度度を持つ。 彼らは単に全スピンで部分空間に射影するか、あるいはこの部分空間の縮退性を完全に引き上げることができる。 それぞれの測定の後、状態は後処理に使用できるスピン固有状態の1つに崩壊する。 このため,この手法をTotal Quantum Spin Filtering (TQSf)と呼ぶ。 多体物理学から乱数生成までの可能性について論じる。

Starting from a general wave function described on a set of spins/qubits, we propose several quantum algorithms to extract the components of this state on eigenstates of the total spin ${\bf S}^2$ and its azimuthal projection $S_z$. The method plays the role of total spin projection and gives access to the amplitudes of the initial state on a total spin basis. The different algorithms have various degrees of sophistication depending on the requested tasks. They can either solely project onto the subspace with good total spin or completely uplift the degeneracy in this subspace. After each measurement, the state collapses to one of the spin eigenstates that could be used for post-processing. For this reason, we call the method Total Quantum Spin filtering (TQSf). Possible applications ranging from many-body physics to random number generators are discussed.
翻訳日:2023-03-25 23:22:15 公開日:2021-06-21
# マシンインテリジェンスにおける進化の役割

The Role of Evolution in Machine Intelligence ( http://arxiv.org/abs/2106.11151v1 )

ライセンス: Link先を確認
Awni Hannun(参考訳) マシンインテリジェンスは、経験から直接、または進化を通じて経験を継承することによって、発展することができる。 現在の研究の大部分は、経験から直接学習するアルゴリズムに焦点を当てている。 代替案である進化は、機械知能の開発において重要であり、研究の割り当ての面では過小投資されていると論じている。 この研究の主な目的は、進化的アルゴリズムがどこで研究に投資するのかを評価することである。 私の1次提案は、幅広い進化的アプローチにまたがる研究を多様化させることです。 メタ進化的アルゴリズムも定義し、マシンインテリジェンスの発展に影響を及ぼす多くの要因の間に最適なトレードオフをもたらすかもしれないと論じます。

Machine intelligence can develop either directly from experience or by inheriting experience through evolution. The bulk of current research efforts focus on algorithms which learn directly from experience. I argue that the alternative, evolution, is important to the development of machine intelligence and underinvested in terms of research allocation. The primary aim of this work is to assess where along the spectrum of evolutionary algorithms to invest in research. My first-order suggestion is to diversify research across a broader spectrum of evolutionary approaches. I also define meta-evolutionary algorithms and argue that they may yield an optimal trade-off between the many factors influencing the development of machine intelligence.
翻訳日:2023-03-25 23:15:39 公開日:2021-06-21
# 化学効果は共鳴する -- TERSの完全な量子力学的アプローチ

The chemical effect goes resonant -- a full quantum mechanical approach on TERS ( http://arxiv.org/abs/2106.11065v1 )

ライセンス: Link先を確認
Kevin Fiederling, Mostafa Abasifard, Martin Richter, Volker Deckert, Stefanie Gr\"afe, Stephan Kupfer(参考訳) 近年,先進ラマン散乱(TERS)の予想外の超高空間分解能の実験的証拠が実証されている。 理論的には、電磁効果、プラズモニック励起による空間的に閉じ込められた近接場、およびプラズモニック系の近接により分子の局所修飾された電子構造に由来するいわゆる化学効果の2つの異なる寄与が議論されている。 理論的な取り組みのほとんどは、非共鳴励起の場合の電磁的寄与や化学効果に集中している。 本研究は, 密度汎関数および時間依存性密度汎関数レベルでの分子-プラズモンハイブリッド系の電荷移動現象と同様に, 非共鳴および共鳴化学寄与を含む完全量子力学的記述を示す。 表面固定化スズ(II)フタロシアニン分子を1つの銀原子でモデル化したプラズモン先端で微小に走査される分子系とみなす。 これらのAg原子と分子の異なる相対的な位置は、ラマンスペクトルの顕著な変化をもたらす。 これらのラマンスペクトルは、非共鳴および共鳴条件下での強度パターンのピーク位置と数桁の等級の両方で大きく変化し、また、どの電子状態が対応するかによっても異なる。 我々の計算手法は、先端と分子間の特異な非共鳴および共鳴化学相互作用がTERSスペクトルを著しく変化させ、主にアングストロム下空間分解能の高次化に寄与していることを明らかにする。

Lately, experimental evidence of unexpectedly extremely high spatial resolution of tip-enhanced Raman scattering (TERS) has been demonstrated. Theoretically, two different contributions are discussed: an electromagnetic effect, leading to a spatially confined near field due to plasmonic excitations; and the so-called chemical effect originating from the locally modified electronic structure of the molecule due to the close proximity of the plasmonic system. Most of the theoretical efforts have concentrated on the electromagnetic contribution or the chemical effect in case of non-resonant excitation. In this work, we present a fully quantum mechanical description including non-resonant and resonant chemical contributions as well as charge-transfer phenomena of these molecular-plasmonic hybrid system at the density functional and the time-dependent density functional level of theory. We consider a surface-immobilized tin(II) phthalocyanine molecule as the molecular system, which is minutely scanned by a plasmonic tip, modeled by a single silver atom. These different relative positions of the Ag atom to the molecule lead to pronounced alterations of the Raman spectra. These Raman spectra vary substantially, both in peak positions and several orders of magnitude in the intensity patterns under non-resonant and resonant conditions, and also, depending on, which electronic states are addressed. Our computational approach reveals that unique - non-resonant and resonant - chemical interactions among the tip and the molecule significantly alter the TERS spectra and are mainly responsible for the high, possibly sub-Angstrom spatial resolution.
翻訳日:2023-03-25 23:14:45 公開日:2021-06-21
# 光共振器内原子を用いた遅延選択実験

Delayed choice experiment using atoms in optical cavity ( http://arxiv.org/abs/2106.11347v1 )

ライセンス: Link先を確認
Sankaranarayanan Selvarajan(参考訳) 本稿では,超低温原子を用いた「遅延選択実験」を実現する手法を提案する。 ここでは、原子の波動関数を崩壊させることなく「ウェルチャーウェグ」情報を探そうとする。 この実験は、測定中のシステムのコヒーレンスを維持するために、新しい構成で組み立てられる実証された技術を中心に構築されたコンポーネントで構成されている。 ラムゼイ干渉は原子の波動特性を確立するために用いられ、超微細な空洞を用いて非劣化測定を行うことで内部状態を検出して原子の粒子特性を探査する。 原子のコヒーレンスは、原子とキャビティの相互作用時間を調整することで保持され、原子の状態が空洞から出てくると変化しない。

In this article, we propose a method to realize the "delayed choice experiment" using ultra-cold atoms. Here we attempt to probe the "welcher-Weg" information without collapsing the wavefunction of the atom. This experiment consists of components built around proven techniques that are put together in novel configuration to preserve the coherence of the system during the measurement. The Ramsey interference is used to establish the wave nature of the atom and the particle nature of the atom is probed by detecting its internal state by performing a nondemolition measurement using an ultra-high finesse cavity. The coherence of the atom is preserved by adjusting the atom-cavity interaction time such that the state of the atom is unchanged when it emerges out of the cavity.
翻訳日:2023-03-25 23:06:57 公開日:2021-06-21
# 連続変数量子資源理論の階層性

Hierarchy of continuous-variable quantum resource theories ( http://arxiv.org/abs/2106.11334v1 )

ライセンス: Link先を確認
Giulio Gianfelici, Hermann Kampermann and Dagmar Bru{\ss}(参考訳) コヒーレンスと純度(または非一様性)の資源理論の間の関係は離散変数、有限次元量子系でよく知られている。 連続変数系、特にガウス系に対する類似の結果を確立する。 この目的のために、エネルギー保存ユニタリで達成可能な固定エネルギーにおける最大コヒーレンスの概念を定義する。 最大ガウスコヒーレンス(状態と操作がガウスである必要がある)は相対エントロピーによって解析的に定量化できることを示す。 次に、固定エネルギーにおける量子状態の純度を資源として考慮し、非一様モノトンを定義することにより、非一様性の資源理論を提案する。 ガウスの場合、ガウスの非一様性と最大ガウスのコヒーレンスの等式を証明する。 最後に,連続変数システムにおける非一様性,コヒーレンス,不一致,絡み合いの階層を示す。

Connections between the resource theories of coherence and purity (or non-uniformity) are well known for discrete-variable, finite-dimensional, quantum systems. We establish analogous results for continuous-variable systems, in particular Gaussian systems. To this end, we define the concept of maximal coherence at fixed energy, which is achievable with energy-preserving unitaries. We show that the maximal Gaussian coherence (where states and operations are required to be Gaussian) can be quantified analytically by the relative entropy. We then propose a resource theory of non-uniformity, by considering the purity of a quantum state at fixed energy as resource, and by defining non-uniformity monotones. In the Gaussian case, we prove the equality of Gaussian non-uniformity and maximal Gaussian coherence. Finally, we show a hierarchy for non-uniformity, coherence, discord and entanglement in continuous-variable systems.
翻訳日:2023-03-25 23:06:45 公開日:2021-06-21
# ボソニック量子ホール状態の結晶化

Crystallization of Bosonic Quantum Hall States ( http://arxiv.org/abs/2106.11300v1 )

ライセンス: Link先を確認
Biswaroop Mukherjee, Airlia Shaffer, Parth B. Patel, Zhenjie Yan, Cedric C. Wilson, Valentin Cr\'epel, Richard J. Fletcher, Martin Zwierlein(参考訳) 運動エネルギーに対する相互作用の優位性は、分数量子ホール液体から光学格子中の原子やねじれた二層グラフェンまで、強い相関の量子物質の中心にある。 結晶相はしばしば相関量子液体と競合し、密度波を形成するエネルギーコストがゼロに近づくとそれらの間の遷移が起こる。 強磁場中の電子の主な例は、量子ホールの液体がウィグナー結晶に対して不安定であることは、磁長での密度変調のロトン的な軟化によって決定される。 注目すべきは、ゲージ場における相互作用するボソンも、類似の液体および結晶状態を形成することである。 しかし、強い合成磁場と相互作用を組み合わせることは、ボゾン量子ガスの実験において課題となっている。 本稿では,Landauゲージボース=アインシュタイン凝縮体のLandauレベル(LLL)付近における純粋相互作用駆動力学について検討する。 磁気ロンの凝縮によって誘起される自発的結晶化を観察し,磁束長の密度変調として励起される。 雲密度の増大は、この挙動をケルビン・ヘルムホルツ流体力学不安定性の量子バージョンと円滑に結び付け、急速に回転する凝縮物のせん断内流プロファイルによって駆動される。 長い間、凝縮体は、相互作用のバランスと効果的な磁気力によって安定化される渦通りによって分離された永続的な液滴の配列に自己組織化する。

The dominance of interactions over kinetic energy lies at the heart of strongly correlated quantum matter, from fractional quantum Hall liquids, to atoms in optical lattices and twisted bilayer graphene. Crystalline phases often compete with correlated quantum liquids, and transitions between them occur when the energy cost of forming a density wave approaches zero. A prime example occurs for electrons in high magnetic fields, where the instability of quantum Hall liquids towards a Wigner crystal is heralded by a roton-like softening of density modulations at the magnetic length. Remarkably, interacting bosons in a gauge field are also expected to form analogous liquid and crystalline states. However, combining interactions with strong synthetic magnetic fields has been a challenge for experiments on bosonic quantum gases. Here, we study the purely interaction-driven dynamics of a Landau gauge Bose-Einstein condensate in and near the lowest Landau level (LLL). We observe a spontaneous crystallization driven by condensation of magneto-rotons, excitations visible as density modulations at the magnetic length. Increasing the cloud density smoothly connects this behaviour to a quantum version of the Kelvin-Helmholtz hydrodynamic instability, driven by the sheared internal flow profile of the rapidly rotating condensate. At long times the condensate self-organizes into a persistent array of droplets, separated by vortex streets, which are stabilized by a balance of interactions and effective magnetic forces.
翻訳日:2023-03-25 23:06:31 公開日:2021-06-21
# ガラス動力学をめざしたセルポットモデルにおけるアイシングの異常相と転移性

Disordered Phase in Ising and Metastability in Cellular Potts Models Hint at Glassy Dynamics ( http://arxiv.org/abs/2106.11298v1 )

ライセンス: Link先を確認
Shah Ishmam Mohtashim, Turbasu Chatterjee, Arnav Das, Rishabh Gupta and Sumit Suresh Kale(参考訳) 本稿では, 量子アルゴリズムを用いておもちゃ模型のガラス系をシミュレートする。 ガラスの挙動を調べるために,横フィールドIsingモデルの縦フィールドにおけるエネルギーランドスケープとスピン配置について検討した。 変分量子固有ソルバ(vqe)は、36キュービットと1次元の長さ25のイジングチェーンを用いて、6 \times 6$イジング格子の基底状態エネルギーおよび対応する固有状態を得るために用いられる。 8 \times 8$ cell pottsモデルでは、元のハミルトニアンはvqeの基底状態への還元のためのイジング定式化に変換される。 最小化時のエネルギー変化は、細胞間の界面張力の影響が細胞系のガラス性を引き起こすかどうかを慎重に分析する。

In this paper, quantum algorithms are to be used to simulate glassy systems in toy models. To look for glassy behavior, the energy landscape and spin configurations of the transverse field Ising model in a longitudinal field are studied. The Variational Quantum Eigensolver (VQE) is used to obtain the ground-state energies and corresponding eigenstates for a $6 \times 6$ Ising lattice using 36 qubits and a 1-dimensional Ising chain of length 25. For the $8 \times 8$ Cellular Potts model, the original Hamiltonian is converted to an Ising formulation for the VQE to reduce to its ground state. The energy change during minimization is carefully analyzed to find whether the effects of interfacial tension among cells could probably induce glassiness in the cell system.
翻訳日:2023-03-25 23:06:07 公開日:2021-06-21
# 双極子-双極子相互作用のない双極子遮断

Dipole blockade without dipole-dipole interaction ( http://arxiv.org/abs/2106.11268v1 )

ライセンス: Link先を確認
Chengjie Zhu, Wei Li, Yaping Yang, Girish Agarwal(参考訳) 双極子遮断現象は強い双極子-双極子相互作用の直接の結果であり、二重励起状態が共鳴からずれるため、単一の原子のみが励起される。 双極子遮断効果によって引き起こされる非零共起を伴う対応する2体の絡み合いは量子情報処理の重要な資源である。 本稿では,空洞に結合した2つの量子ビットがコヒーレント場によって駆動される双極子-双極子相互作用を伴わずに双極子遮断を実現する新しい物理機構を提案する。 クビットの空洞への配置を適宜選択し、クビットと空洞場の相対減衰強度を調整することにより、不要な励起経路の多くを除去する。 これは双極子封鎖につながる。 さらに,これら2つの量子ビットが,システムパラメータの広い領域で強く絡み合っていることを示す。 この双極子封鎖の強い特徴は空洞光子の束縛性であり、それによって双極子封鎖の測定が可能となることを示す。 双極子-双極子相互作用を伴わない双極子ブロックの動的特徴を示す。 本研究で提案される提案は,従来の空洞QEDだけでなく,エッジモードを含む非キャビティトポロジカルフォトニクスにおいても実現可能である。

The dipole blockade phenomenon is a direct consequence of strong dipole-dipole interaction, where only single atom can be excited because the doubly excited state is shifted out of resonance. The corresponding two-body entanglement with non-zero concurrence induced by the dipole blockade effect is an important resource for quantum information processing. Here, we propose a novel physical mechanism for realizing dipole blockade without the dipole-dipole interaction, where two qubits coupled to a cavity, are driven by a coherent field. By suitably chosen placements of the qubits in the cavity and by adjusting the relative decay strengths of the qubits and cavity field, we kill many unwanted excitation pathways. This leads to dipole blockade. In addition, we show that these two qubits are strongly entangled over a broad regime of the system parameters. We show that a strong signature of this dipole blockade is the bunching property of the cavity photons which thus provides a possible measurement of the dipole blockade. We present dynamical features of the dipole blockade without dipole-dipole interaction. The proposal presented in this work can be realized not only in traditional cavity QED, but also in non-cavity topological photonics involving edge modes.
翻訳日:2023-03-25 23:05:33 公開日:2021-06-21
# 相対論的量子暗号における構成可能なOblivious転送の不可能性

Impossibility of composable Oblivious Transfer in relativistic quantum cryptography ( http://arxiv.org/abs/2106.11200v1 )

ライセンス: Link先を確認
Lorenzo Laneve and Lidia del Rio(参考訳) このリソースを構成可能な構成によって、任意のマルチパーティ計算を安全な方法で、すなわち、異なるパーティからの入力をプライベートに保ちながら、関数を分散的に計算することが可能になります。 まず、古典的および量子的暗号プロトコルのコンポーザビリティを特殊相対性理論で分析するフレームワークをレビューする。 We then (1) explore and formalize different versions of oblivious transfer found in the literature, (2) prove that their equivalence holds also in relativistic quantum settings, (3) show that it is impossible to composably construct any of these versions of oblivious transfer from only classical or quantum communication among distrusting agents in relativistic settings, (4) prove that the impossibility also extends to multi-party computation, and (5) provide a mutual construction between oblivious transfer and bit commitment.

We study the cryptographic primitive Oblivious Transfer; a composable construction of this resource would allow arbitrary multi-party computation to be carried out in a secure way, i.e. to compute functions in a distributed way while keeping inputs from different parties private. First we review a framework that allows us to analyze composability of classical and quantum cryptographic protocols in special relativity: Abstract Cryptography implemented with Causal Boxes. We then (1) explore and formalize different versions of oblivious transfer found in the literature, (2) prove that their equivalence holds also in relativistic quantum settings, (3) show that it is impossible to composably construct any of these versions of oblivious transfer from only classical or quantum communication among distrusting agents in relativistic settings, (4) prove that the impossibility also extends to multi-party computation, and (5) provide a mutual construction between oblivious transfer and bit commitment.
翻訳日:2023-03-25 23:04:49 公開日:2021-06-21
# フィードバック制御型インループ光を用いた光機械系の力センシング

Force sensing in an optomechanical system with feedback-controlled in-loop light ( http://arxiv.org/abs/2106.11199v1 )

ライセンス: Link先を確認
F. Bemani, O. \v{C}ernot\'ik, L. Ruppert, D. Vitali and R. Filip(参考訳) マクロスケールで適用される量子制御技術は、基礎物理学と実用的な応用の機会を提供する。 測定に基づくフィードバックは、光学機械システムの効率的な制御と量子エンハンスセンシングを可能にする。 本稿では,フィードバック制御型ループ内光に対する光力学系において,超低光付加ノイズを有する近共振形狭帯域力センサを提案する。 非点運動と熱運動からなる膜の固有運動は、バックアクションノイズとインプレッションノイズによる測定ノイズの増加に影響される。 最適低雑音状態において, このシステムは, 空洞と相互作用する工学的貯水池に結合した近接量子制限光パラメトリック増幅器を含む光学系に類似していることを示す。 したがって、フィードバックループは、光学的に付加された測定ノイズを標準量子限界以下に保ちながら、入力に対するシステムの機械的応答を高める。 さらに、フィードバックに基づくシステムは、フィードバックのない同じシステムよりもはるかに大きな増幅帯域を提供する。

Quantum control techniques applied at macroscopic scales provide us with opportunities in fundamental physics and practical applications. Among them, measurement-based feedback allows efficient control of optomechanical systems and quantum-enhanced sensing. In this paper, we propose a near-resonant narrow-band force sensor with extremely low optically added noise in an optomechanical system subject to a feedback-controlled in-loop light. The membrane's intrinsic motion consisting of zero-point motion and thermal motion is affected by the added noise of measurement due to the backaction noise and imprecision noise. We show that, in the optimal low-noise regime, the system is analogous to an optomechanical system containing a near quantum-limited optical parametric amplifier coupled to an engineered reservoir interacting with the cavity. Therefore, the feedback loop enhances the mechanical response of the system to the input while keeping the optically added noise of measurement below the standard quantum limit. Moreover, the system based on feedback offers a much larger amplification bandwidth than the same system with no feedback.
翻訳日:2023-03-25 23:04:37 公開日:2021-06-21
# 企業境界を越えた人工知能

Artificial intelligence across company borders ( http://arxiv.org/abs/2107.03912v1 )

ライセンス: Link先を確認
Olga Fink, Torbj{\o}rn Netland, Stefan Feuerriegel(参考訳) 人工知能(AI)は多くの企業で価値ある技術になっている。 同時に、AI \emph{across} 企業のバウンダリを利用する大きなポテンシャルは、ほとんど未解決のままである。 制限要因は、知的財産権、プライバシー問題、サイバーセキュリティのリスクに関する正当な懸念を引き起こす外部へのデータの開示に関するものである。 フェデレートされた学習とドメイン適応を組み合わせることで、データ開示なしに効果的なクロスコンパニオンAIを実現することで、この問題の解決が可能になる。 この視点では、企業間におけるこのアプローチの使用、価値、意味について論じる。

Artificial intelligence (AI) has become a valued technology in many companies. At the same time, a substantial potential for utilizing AI \emph{across} company borders has remained largely untapped. An inhibiting factor concerns disclosure of data to external parties, which raises legitimate concerns about intellectual property rights, privacy issues, and cybersecurity risks. Combining federated learning with domain adaptation can provide a solution to this problem by enabling effective cross-company AI without data disclosure. In this Viewpoint, we discuss the use, value, and implications of this approach in a cross-company setting.
翻訳日:2023-03-25 22:57:12 公開日:2021-06-21
# ESAI:ニューラルアーキテクチャサーチを用いた早期終了による効率的な分割人工知能

ESAI: Efficient Split Artificial Intelligence via Early Exiting Using Neural Architecture Search ( http://arxiv.org/abs/2106.12549v1 )

ライセンス: Link先を確認
Behnam Zeinali, Di Zhuang, J. Morris Chang(参考訳) 近年,多くのコンピュータビジョン関連タスクにおいて,ディープニューラルネットワークが従来の機械学習アルゴリズムを上回っている。 しかし、これらのモデルをモバイルやIoTデバイス上で実装することは計算学的に受け入れられず、大部分のデバイスは、優れたディープラーニングモデルがサーバー上のデータを解析する責任を負うクラウドコンピューティングの方法論を活用している。 これにより、デバイス間の通信コストが増大し、通信ができない場合にシステム全体が役に立たないようになる。 本稿では、各サンプルの分類結果からメタ情報を取り出し、サンプルをサーバに送信する必要のある分類性能を評価することにより、クラウドとオンデバイスモデルの両方を活用可能な、IoTデバイスにデプロイするための新しいフレームワークを提案する。 実験の結果,テストデータの40%がサーバに送信されるべきであり,フレームワーク全体の精度は92%であり,クライアントモデルとサーバモデルの双方の精度が向上した。

Recently, deep neural networks have been outperforming conventional machine learning algorithms in many computer vision-related tasks. However, it is not computationally acceptable to implement these models on mobile and IoT devices and the majority of devices are harnessing the cloud computing methodology in which outstanding deep learning models are responsible for analyzing the data on the server. This can bring the communication cost for the devices and make the whole system useless in those times where the communication is not available. In this paper, a new framework for deploying on IoT devices has been proposed which can take advantage of both the cloud and the on-device models by extracting the meta-information from each sample's classification result and evaluating the classification's performance for the necessity of sending the sample to the server. Experimental results show that only 40 percent of the test data should be sent to the server using this technique and the overall accuracy of the framework is 92 percent which improves the accuracy of both client and server models.
翻訳日:2023-03-25 22:56:24 公開日:2021-06-21
# 複素弱値と大域確率変数から構築した実決定性変数の古典的不確かさとしての量子不確実性

Quantum uncertainty as classical uncertainty of real-deterministic variables constructed from complex weak values and a global random variable ( http://arxiv.org/abs/2106.11436v1 )

ライセンス: Link先を確認
Agung Budiyono and Hermawan K. Dipojono(参考訳) ハイゼンベルクの不確実性原理に従うために、実決定論的 c-値変数(すなわち、古典的、可換的)に何が必要か? ここでは、量子作用素の非摂動的弱測定により得られた弱値から実決定論的c値変数のクラスを、ケナード-ロバートソン-シュル=オディンガーの不確かさ関係を常に満たす状態ベクトル基底の完全な集合上のポスト選択によって構成する。 まず、補助大域確率変数を導入し、弱値の虚部と結合し、量子演算子と基底との間の不整合を「エラー項」のゆらぎに変換し、弱値の実部に重畳する。 このクラス ``c-valued physical quantity'' は、あるクラスの作用素の量子期待値に対して、実決定論的文脈隠れ変数モデルを提供する。 次に、schr\"odinger と kennard-robertson の下限は、一対のエルミート作用素に付随する c-値の物理量との古典的不確かさ関係を分解することによって別々に得られることを示した。 この表現の中で、2つの非互換な量子オブザーバブル間の相補性は、関連する2つのc値物理量の誤差項が同時に消滅する基底の欠如を示す。 さらに、量子不確実性関係は、古典力学における外部の特定の既約認識論的制限によって捉えられ、2つのc値物理量の合同分布の許容形式を制約する。 そこで我々は,C値の物理量から分解した2つの項の認識的解釈を,認識的制約と関連する推定誤差の下での最適推定として提案し,古典的限界について議論する。

What does it take for real-deterministic c-valued (i.e., classical, commuting) variables to comply with the Heisenberg uncertainty principle? Here, we construct a class of real-deterministic c-valued variables out of the weak values obtained via a non-perturbing weak measurement of quantum operators with a post-selection over a complete set of state vectors basis, which always satisfies the Kennard-Robertson-Schr\"odinger uncertainty relation. First, we introduce an auxiliary global random variable and couple it to the imaginary part of the weak value to transform the incompatibility between the quantum operator and the basis into the fluctuation of an `error term', and then superimpose it onto the real-part of the weak value. We show that this class of ``c-valued physical quantities'' provides a real-deterministic contextual hidden variable model for the quantum expectation value of a certain class of operators. We then show that the Schr\"odinger and the Kennard-Robertson lower bounds can be obtained separately by imposing the classical uncertainty relation to the c-valued physical quantities associated with a pair of Hermitian operators. Within the representation, the complementarity between two incompatible quantum observables manifests the absence of a basis wherein the error terms of the associated two c-valued physical quantities simultaneously vanish. Furthermore, quantum uncertainty relation is captured by a specific irreducible epistemic restriction, foreign in classical mechanics, constraining the allowed form of the joint distribution of the two c-valued physical quantities. We then suggest an epistemic interpretation of the two terms decomposing the c-valued physical quantity as the optimal estimate under the epistemic restriction and the associated estimation error, and discuss the classical limit.
翻訳日:2023-03-25 22:56:07 公開日:2021-06-21
# Computa\c{c}\~ao:O vetor de transforma\c{c}\~ao da sociedade

Computa\c{c}\~ao: O vetor de transforma\c{c}\~ao da sociedade ( http://arxiv.org/abs/2106.11419v1 )

ライセンス: Link先を確認
Avelino Francisco Zorzo and Andree Luis Alice Raabe and Christian Brackmann(参考訳) 社会は変化し、常に変化し、変化し続ける。 しかし、変更がより早くなり、かつては世代間で何が起こるかが同じ世代で起こっている。 計算科学は、このスピードの理由の一つであり、基本的にはあらゆる知識領域に浸透する。 本論文 (portugu\^es で執筆) では, コンピュータ科学の教育を学校で導入する世界的な取り組みについて概説する。 論文の主な結論として、大学に入る前に、子どもに計算科学と計算思考を導入することが不可欠である。

Society is changing, has always changed, and will keep changing. However, changes are becoming faster and what used to happen between generations, now happens in the same generation. Computing Science is one of the reasons for this speed and permeates, basically, every other knowledge area. This paper (written in Portugu\^es) describes, briefly, the worldwide initiatives to introduce Computing Science teaching in schools. As the paper's main conclusion, it is essential to introduce Computing Science and Computational Thinking for kids before they enter into a university.
翻訳日:2023-03-25 22:55:23 公開日:2021-06-21
# 磁束の量子化と電子-ポジトロン対の生成

Quantization of magnetic flux and electron-positron pair creation ( http://arxiv.org/abs/2106.11353v1 )

ライセンス: Link先を確認
Mehmet Emre Tasgin(参考訳) 電子-陽電子対(e^-e^+$)は、実験室スケールで非常に大きい臨界電界強度$E_{crt}$の上に真空で生成される。 光子、すなわち場は対生成過程において消滅する。 ここでは、ペアの生成(=E=E_{crt}$)が、例えば角運動量や線型運動量のような電磁状態の境界条件を導入するかどうかを問う。 このような合理的条件の導入は、通常、異なる引数を用いて得られるよく知られた磁束量子をほぼ含むことを示す。

An electron-positron pair ($e^- e^+$) is created in vacuum above a critical electric field strength $E_{crt}$ which is quite large in the laboratory scale. The photon, thus the field, annihilates in the pair creation process. Here, we question if the pair creation (at $E=E_{crt}$) introduces a boundary condition in the electromagnetic state, e.g., similar to the one in angular or linear momentum. We show that introduction of such a reasonable condition yields approximately the well-known magnetic flux quanta which normally one obtains using different arguments.
翻訳日:2023-03-25 22:54:45 公開日:2021-06-21
# 電磁工学者のためのトランスモン量子ビット入門

An Introduction to the Transmon Qubit for Electromagnetic Engineers ( http://arxiv.org/abs/2106.11352v1 )

ライセンス: Link先を確認
Thomas E. Roth, Ruichao Ma, and Weng C. Chew(参考訳) 実用的なハードウェアで量子アドバンテージを達成するために追求された最も一般的なアプローチの1つは超伝導回路デバイスである。 過去20年間で大きな進展があったが、多くの関心のある問題を解決するために、これらのデバイスをスケールするためにかなりのエンジニアリング努力が必要とされる。 残念なことに、このエキサイティングな分野の多くは、古典的に訓練された電磁工学者には馴染みのない技術用語と物理学の概念を用いて記述されている。 結果として、この作業はエンジニアにとって難しい場合が少なくありません。 我々は、超伝導回路システムにおいて最も広く使われている量子ビット(qubits)の1つであるtransmon qubitについて、アクセス可能なレビューを提供することで、この分野の障壁を下げたいと考えています。 これらの系の物理学のほとんどは、量子力学の背景だけで直感的に理解することができる。 その結果、この研究の詳細と文献で遭遇するであろうものとの遷移を容易にする必要がある場合を除き、量子力学の概念を呼び出すことは避ける。 これはこの興味深い分野へのより穏やかな導入につながり、より多くの古典的電磁界の研究者が将来この領域に携わることを願っている。

One of the most popular approaches being pursued to achieve a quantum advantage with practical hardware are superconducting circuit devices. Although significant progress has been made over the previous two decades, substantial engineering efforts are required to scale these devices so they can be used to solve many problems of interest. Unfortunately, much of this exciting field is described using technical jargon and concepts from physics that are unfamiliar to a classically trained electromagnetic engineer. As a result, this work is often difficult for engineers to become engaged in. We hope to lower the barrier to this field by providing an accessible review of one of the most prevalently used quantum bits (qubits) in superconducting circuit systems, the transmon qubit. Most of the physics of these systems can be understood intuitively with only some background in quantum mechanics. As a result, we avoid invoking quantum mechanical concepts except where it is necessary to ease the transition between details in this work and those that would be encountered in the literature. We believe this leads to a gentler introduction to this fascinating field, and hope that more researchers from the classical electromagnetic community become engaged in this area in the future.
翻訳日:2023-03-25 22:54:37 公開日:2021-06-21
# ディープニューラルネットワークのバックドア攻撃に対する防御

Defending against Backdoor Attack on Deep Neural Networks ( http://arxiv.org/abs/2002.12162v2 )

ライセンス: Link先を確認
Kaidi Xu, Sijia Liu, Pin-Yu Chen, Pu Zhao, Xue Lin(参考訳) ディープニューラルネットワーク(DNN)は様々なコンピュータビジョンタスクで大きな成功を収めているが、最近は敵の攻撃に弱いことが判明した。 本稿では,トレーニングデータ(データ中毒とも呼ばれる)のごく一部にバックドアトリガを注入し,トレーニングされたdnnが,このトリガで例を例示しながら誤分類を誘発する,いわゆる \textit{backdoor attack}に注目した。 具体的には、Gard-CAMレンズによるバニラおよびバックドアDNNの内部反応に対するリアルおよび合成バックドアアタックの効果を慎重に検討する。 さらに、バックドア攻撃は、活性化マップの$\ell_\infty$ノルムと$\ell_1$および$\ell_2$ノルムとで、ニューロンの活性化に大きなバイアスをもたらすことを示した。 そこで本研究では,バックドアのDNNからバックドアを取り除くために,textit{$\ell_\infty$-based neuron pruning}を提案する。 実験により,提案手法は攻撃成功率を効果的に低減し,クリーン画像の分類精度も高いことがわかった。

Although deep neural networks (DNNs) have achieved a great success in various computer vision tasks, it is recently found that they are vulnerable to adversarial attacks. In this paper, we focus on the so-called \textit{backdoor attack}, which injects a backdoor trigger to a small portion of training data (also known as data poisoning) such that the trained DNN induces misclassification while facing examples with this trigger. To be specific, we carefully study the effect of both real and synthetic backdoor attacks on the internal response of vanilla and backdoored DNNs through the lens of Gard-CAM. Moreover, we show that the backdoor attack induces a significant bias in neuron activation in terms of the $\ell_\infty$ norm of an activation map compared to its $\ell_1$ and $\ell_2$ norm. Spurred by our results, we propose the \textit{$\ell_\infty$-based neuron pruning} to remove the backdoor from the backdoored DNN. Experiments show that our method could effectively decrease the attack success rate, and also hold a high classification accuracy for clean images.
翻訳日:2022-12-28 15:54:39 公開日:2021-06-21
# 最新のDescent Neural Architecture Optimization: 符号付きニューラルスプリッティングによる局所最適化の回避

Steepest Descent Neural Architecture Optimization: Escaping Local Optimum with Signed Neural Splitting ( http://arxiv.org/abs/2003.10392v5 )

ライセンス: Link先を確認
Lemeng Wu, Mao Ye, Qi Lei, Jason D. Lee, Qiang Liu(参考訳) 効率的で原則化されたニューラルネットワークの最適化手法の開発は、現代のディープラーニングにとって重要な課題である。 最近、liuら。 19] ニューロンを複数のコピーに分割し, 段階的に成長するネットワーク構造に基づいて, 神経パラメータとアーキテクチャを協調的に最適化するs2d法を提案した。 しかしながら、S2Dは全てのニューロンが「安定に分裂する」ときに局所最適性の問題に悩まされ、これはパラメトリック最適化における局所安定性に類似している。 本研究では,局所的最適性問題に対処する分割降下フレームワークの重要かつ驚くべき拡張を開発する。 元々のS2Dは、ニューロンを正の重み付けされたコピーに分割するのに不必要に制限されている。 分割時の正と負の両方の重みを単純に許すことで、S2Dにおける分裂安定性の出現を排除し、それによって局所最適解を回避してより良い性能を得ることができる。 符号付き分割を組み込むことにより、最も急な降下を理論的にも経験的にも分割する最適化能力を著しく拡張する。 我々は,CIFAR-100, ImageNet, ModelNet40 といった,S2D などの先進的なニューラルネットワークの精度とエネルギー効率の学習方法よりも優れている,様々な挑戦的なベンチマーク上で,本手法を検証する。

Developing efficient and principled neural architecture optimization methods is a critical challenge of modern deep learning. Recently, Liu et al.[19] proposed a splitting steepest descent (S2D) method that jointly optimizes the neural parameters and architectures based on progressively growing network structures by splitting neurons into multiple copies in a steepest descent fashion. However, S2D suffers from a local optimality issue when all the neurons become "splitting stable", a concept akin to local stability in parametric optimization. In this work, we develop a significant and surprising extension of the splitting descent framework that addresses the local optimality issue. The idea is to observe that the original S2D is unnecessarily restricted to splitting neurons into positive weighted copies. By simply allowing both positive and negative weights during splitting, we can eliminate the appearance of splitting stability in S2D and hence escape the local optima to obtain better performance. By incorporating signed splittings, we significantly extend the optimization power of splitting steepest descent both theoretically and empirically. We verify our method on various challenging benchmarks such as CIFAR-100, ImageNet and ModelNet40, on which we outperform S2D and other advanced methods on learning accurate and energy-efficient neural networks.
翻訳日:2022-12-20 23:41:38 公開日:2021-06-21
# ほぼ確実に終了する確率プログラムの密度は、ほぼ至るところで微分可能である

Densities of Almost Surely Terminating Probabilistic Programs are Differentiable Almost Everywhere ( http://arxiv.org/abs/2004.03924v2 )

ライセンス: Link先を確認
Carol Mak, C.-H. Luke Ong, Hugo Paquet and Dominik Wagner(参考訳) 再帰と条件付き高次統計確率プログラムの微分特性について検討する。 私たちの出発点は、hongseok yang氏が提起したオープン問題です。 統計確率プログラムのどのクラスには、ほぼどこでも微分可能な密度がありますか? この問題を定式化するために,実数付きコールバイバリューpcfの拡張である統計型pcf (spcf) と,サンプリングとコンディショニングの構成について考察する。 我々はspcfにサンプリング方式の操作意味論をla borgstromらに与え、関連する重み関数(一般に密度と呼ばれる)と値関数を実行可能な実行トレースの集合上で研究する。 我々の主な成果は、軽度の閉包特性を満たす原始関数の集合(例えば、解析関数の集合)から生成されるほぼ確実に終了するSPCFプログラムが、ほぼどこでも微分可能な重みと値関数を持つことである。 私たちは、ほぼすべての差別性について推論するために、確率的なシンボル実行形式を使用します。 この研究の副産物は、実パラメータを持つほぼ確実に決定論的(S)PCFプログラムがほぼどこでも微分可能な関数を表すことである。 その結果,主要な勾配に基づく推論アルゴリズムの正確性を確保するためには,密度関数のほぼすべての微分可能性が必要となるため,実用的興味が持たれる。

We study the differential properties of higher-order statistical probabilistic programs with recursion and conditioning. Our starting point is an open problem posed by Hongseok Yang: what class of statistical probabilistic programs have densities that are differentiable almost everywhere? To formalise the problem, we consider Statistical PCF (SPCF), an extension of call-by-value PCF with real numbers, and constructs for sampling and conditioning. We give SPCF a sampling-style operational semantics a la Borgstrom et al., and study the associated weight (commonly referred to as the density) function and value function on the set of possible execution traces. Our main result is that almost-surely terminating SPCF programs, generated from a set of primitive functions (e.g. the set of analytic functions) satisfying mild closure properties, have weight and value functions that are almost-everywhere differentiable. We use a stochastic form of symbolic execution to reason about almost-everywhere differentiability. A by-product of this work is that almost-surely terminating deterministic (S)PCF programs with real parameters denote functions that are almost-everywhere differentiable. Our result is of practical interest, as almost-everywhere differentiability of the density function is required to hold for the correctness of major gradient-based inference algorithms.
翻訳日:2022-12-15 09:49:31 公開日:2021-06-21
# ファウショット問題におけるカタストロフィック・フォーミングへの取り組み

Addressing Catastrophic Forgetting in Few-Shot Problems ( http://arxiv.org/abs/2005.00146v3 )

ライセンス: Link先を確認
Pauching Yap, Hippolyt Ritter and David Barber(参考訳) ニューラルネットワークは、シーケンシャルデータセットでトレーニングされた場合、壊滅的な忘れに苦しむことが知られている。 大規模な教師付き分類においてこの問題を解決する試みは数多くあるが、数発の分類問題において破滅的な忘れを克服する試みはほとんど行われていない。 一般的な勾配に基づくモデルに依存しないメタラーニングアルゴリズム(MAML)は破滅的な忘れ込みに悩まされていることを実証し,この問題に対処するベイズ的オンラインメタラーニングフレームワークを導入する。 提案手法は,ベイズオンライン学習とメタラーニングとラプラス近似と変分推論を併用し,小ショット分類問題における破滅的な忘れを克服する。 実験により,本フレームワークは様々なベースラインと比較して,この目標を効果的に達成できることが示された。 追加のユーティリティとして、我々のフレームワークが定常タスク分散から順次到着する少数タスクをメタラーニングできることを実証的に示します。

Neural networks are known to suffer from catastrophic forgetting when trained on sequential datasets. While there have been numerous attempts to solve this problem in large-scale supervised classification, little has been done to overcome catastrophic forgetting in few-shot classification problems. We demonstrate that the popular gradient-based model-agnostic meta-learning algorithm (MAML) indeed suffers from catastrophic forgetting and introduce a Bayesian online meta-learning framework that tackles this problem. Our framework utilises Bayesian online learning and meta-learning along with Laplace approximation and variational inference to overcome catastrophic forgetting in few-shot classification problems. The experimental evaluations demonstrate that our framework can effectively achieve this goal in comparison with various baselines. As an additional utility, we also demonstrate empirically that our framework is capable of meta-learning on sequentially arriving few-shot tasks from a stationary task distribution.
翻訳日:2022-12-08 03:31:17 公開日:2021-06-21
# RUHSNet:ライダーデータを用いたリアルタイム3次元物体検出

RUHSNet: 3D Object Detection Using Lidar Data in Real Time ( http://arxiv.org/abs/2006.01250v6 )

ライセンス: Link先を確認
Abhinav Sagar(参考訳) 本研究では,ポイントクラウドデータからの3次元物体検出の問題点をリアルタイムに解決する。 自動運転車が機能するには、認識コンポーネントが高精度かつ高速な推論の両方で現実世界の物体を検出することが非常に重要である。 本稿では,ポイントクラウドデータの3Dオブジェクト検出のためのトレーニングと最適化の詳細とともに,ニューラルネットワークアーキテクチャを提案する。 結果は、vgg、resnet、inceptionといった標準のものを含む、さまざまなバックボーンアーキテクチャと比較します。 また,効率的なアンカーの設計を含む最適化およびアブレーション研究について述べる。 結果のベンチマークと検証にはKitti 3D Birds Eye Viewデータセットを使用します。 私たちの作品は、平均精度と30fps以上の速度の両方で、この分野の最先端技術を超えています。 これにより、自動運転車を含むリアルタイムアプリケーションにデプロイすることが可能になる。

In this work, we address the problem of 3D object detection from point cloud data in real time. For autonomous vehicles to work, it is very important for the perception component to detect the real world objects with both high accuracy and fast inference. We propose a novel neural network architecture along with the training and optimization details for detecting 3D objects in point cloud data. We compare the results with different backbone architectures including the standard ones like VGG, ResNet, Inception with our backbone. Also we present the optimization and ablation studies including designing an efficient anchor. We use the Kitti 3D Birds Eye View dataset for benchmarking and validating our results. Our work surpasses the state of the art in this domain both in terms of average precision and speed running at > 30 FPS. This makes it a feasible option to be deployed in real time applications including self driving cars.
翻訳日:2022-12-05 06:51:57 公開日:2021-06-21
# fiberstars: 複数の被験者間の拡散トラクトグラフィデータの視覚的比較

FiberStars: Visual Comparison of Diffusion Tractography Data between Multiple Subjects ( http://arxiv.org/abs/2005.08090v2 )

ライセンス: Link先を確認
Loraine Franke, Daniel Karl I. Weidele, Fan Zhang, Suheyla Cetin-Karayumak, Steve Pieper, Lauren J. O'Donnell, Yogesh Rathi, Daniel Haehn(参考訳) 高次元拡散磁気共鳴イメージング(dMRI)データからのトラクトグラフィーは、脳の構造接続解析を可能にする。 近年のdMRI研究は、被験者群と疾患集団間の接続パターンを比較して、脳の白質結合の微妙な異常と生物学的に敏感なdMRI由来のメトリクスの分布を理解することを目的としている。 既存のソフトウェア製品は解剖学のみに焦点を合わせており、直感的あるいは複数の主題の比較を制限するものではない。 本稿では、既存の3次元解剖学とコンパクトな2次元可視化を組み合わせた脳線維クラスターのインタラクティブな可視化を可能にする、トラクトグラフィーデータのためのビジュアル解析ツールであるFiberStarsの設計と実装について述べる。 FiberStarsでは、複数の被験者を異なる視点で分析し、比較することができる。 ソフトウェアのユーザビリティを評価するため,我々は定量的なユーザ調査を行った。 ドメインの専門家や非専門家に、FiberStarsまたは既存のdMRI探査ツールを使って、トラクトグラフィーデータセットのパターンを見つけるように頼みました。 以上の結果から,FiberStars を用いた参加者は,より高速かつ正確にトラクトグラフィーのコレクションをナビゲートできることがわかった。 私たちの研究、ソフトウェア、成果はすべて公開されています。

Tractography from high-dimensional diffusion magnetic resonance imaging (dMRI) data allows brain's structural connectivity analysis. Recent dMRI studies aim to compare connectivity patterns across subject groups and disease populations to understand subtle abnormalities in the brain's white matter connectivity and distributions of biologically sensitive dMRI derived metrics. Existing software products focus solely on the anatomy, are not intuitive or restrict the comparison of multiple subjects. In this paper, we present the design and implementation of FiberStars, a visual analysis tool for tractography data that allows the interactive visualization of brain fiber clusters combining existing 3D anatomy with compact 2D visualizations. With FiberStars, researchers can analyze and compare multiple subjects in large collections of brain fibers using different views. To evaluate the usability of our software, we performed a quantitative user study. We asked domain experts and non-experts to find patterns in a tractography dataset with either FiberStars or an existing dMRI exploration tool. Our results show that participants using FiberStars can navigate extensive collections of tractography faster and more accurately. All our research, software, and results are available openly.
翻訳日:2022-12-02 13:42:52 公開日:2021-06-21
# 確率勾配Descenceによるベイズニューラルネットワーク

Bayesian Neural Network via Stochastic Gradient Descent ( http://arxiv.org/abs/2006.08453v4 )

ライセンス: Link先を確認
Abhinav Sagar(参考訳) 変分推論におけるベイズアプローチの目標は、変分分布と未知の後方分布の間のklの発散を最小化することである。 これはエビデンス・ロウアー・バウンド(ELBO)を最大化する。 ニューラルネットワークは、確率勾配 Descent を用いてこれらの分布をパラメータ化する。 この研究は、変分推論モデルを導出することにより、他の人によってなされる仕事を拡張する。 本稿では,勾配推定手法を用いてsgdをベイズニューラルネットワークに適用する方法を示す。 検証のために、5つのUCIデータセットでモデルをテストし、評価のために選択されたメトリクスは、Root Mean Square Error(RMSE)エラーと負のログ可能性である。 我々の研究はベイジアンニューラルネットワークを用いた回帰手法のこれまでの状況を大きく上回っている。

The goal of bayesian approach used in variational inference is to minimize the KL divergence between variational distribution and unknown posterior distribution. This is done by maximizing the Evidence Lower Bound (ELBO). A neural network is used to parametrize these distributions using Stochastic Gradient Descent. This work extends the work done by others by deriving the variational inference models. We show how SGD can be applied on bayesian neural networks by gradient estimation techniques. For validation, we have tested our model on 5 UCI datasets and the metrics chosen for evaluation are Root Mean Square Error (RMSE) error and negative log likelihood. Our work considerably beats the previous state of the art approaches for regression using bayesian neural networks.
翻訳日:2022-11-25 09:32:17 公開日:2021-06-21
# モデル非依存な特徴の重要性と影響 : 条件付き部分群アプローチ

Model-agnostic Feature Importance and Effects with Dependent Features -- A Conditional Subgroup Approach ( http://arxiv.org/abs/2006.04628v2 )

ライセンス: Link先を確認
Christoph Molnar, Gunnar K\"onig, Bernd Bischl, and Giuseppe Casalicchio(参考訳) 機械学習モデルにおける特徴の重要性の解釈は、機能に依存する場合に難しい。 置換特徴重要度(PFI)はそのような依存関係を無視し、外挿による誤解を招く可能性がある。 考えられる治療は、他の全ての特徴に対する特徴重要条件の評価を可能にする、より高度な条件付きPFIアプローチである。 この視点の変化と正しい解釈を可能にするために、条件付けが透明かつ人間的に理解可能であることが重要である。 本稿では,条件付き部分群における置換に基づく条件付き分布の新しいサンプリング機構を提案する。 これらのサブグループは決定木(変換木)を用いて構築されるので、条件付けは本質的に解釈可能である。 これは条件付きPFIの単純かつ効果的な推定手段を提供するだけでなく、部分群内の局所的なPFI推定も提供する。 さらに,条件付き部分群アプローチを部分依存プロット (pdp) に適用し, 特徴が依存し, 相互作用がモデル内に存在する場合に外挿に苦しむような特徴効果を記述する一般的な手法である。 本研究では,条件付きサブグループに基づくPFIとPDPが,ノックオフに基づく条件付きPFIや局所効果プロットの蓄積といった手法よりも優れていることを示す。 さらに,本手法により,条件付き部分群における特徴効果と重要性のよりきめ細かい解釈が可能となる。

The interpretation of feature importance in machine learning models is challenging when features are dependent. Permutation feature importance (PFI) ignores such dependencies, which can cause misleading interpretations due to extrapolation. A possible remedy is more advanced conditional PFI approaches that enable the assessment of feature importance conditional on all other features. Due to this shift in perspective and in order to enable correct interpretations, it is therefore important that the conditioning is transparent and humanly comprehensible. In this paper, we propose a new sampling mechanism for the conditional distribution based on permutations in conditional subgroups. As these subgroups are constructed using decision trees (transformation trees), the conditioning becomes inherently interpretable. This not only provides a simple and effective estimator of conditional PFI, but also local PFI estimates within the subgroups. In addition, we apply the conditional subgroups approach to partial dependence plots (PDP), a popular method for describing feature effects that can also suffer from extrapolation when features are dependent and interactions are present in the model. We show that PFI and PDP based on conditional subgroups often outperform methods such as conditional PFI based on knockoffs, or accumulated local effect plots. Furthermore, our approach allows for a more fine-grained interpretation of feature effects and importance within the conditional subgroups.
翻訳日:2022-11-24 00:41:11 公開日:2021-06-21
# FFTを用いた離散値機構とサブサンプリングガウス機構の高次差分プライバシー

Tight Differential Privacy for Discrete-Valued Mechanisms and for the Subsampled Gaussian Mechanism Using FFT ( http://arxiv.org/abs/2006.07134v3 )

ライセンス: Link先を確認
Antti Koskela, Joonas J\"alk\"o, Lukas Prediger and Antti Honkela(参考訳) 離散的な1次元の出力を持つアルゴリズムに対して,厳密な$(\varepsilon,\delta)$-privacy lossを評価する数値会計士を提案する。 本手法は,プライバシ損失分布の形式化に基づいており,最近導入された高速フーリエ変換に基づく会計手法を用いている。 我々は、真の$(\varepsilon,\delta)$-valuesに対して厳密な下限と上限をもたらすプライバシ損失分布のモーメント境界の観点から、この方法の誤り解析を行う。 アプリケーションとして,サブサンプリングされたガウス機構の正確なプライバシ会計手法を提案する。 これにより、プライバシパラメータの厳格な下限と上限を与えることで、前述の分析が完了する。 そこで本研究では,二項機構による会計士の性能を実証し,提案手法により,従来と同等のプライバシーで75%までノイズ分散を低減できることを示す。 また,クエリのカウントに適用される指数関数的メカニズムの厳密な境界を計算する方法を示す。

We propose a numerical accountant for evaluating the tight $(\varepsilon,\delta)$-privacy loss for algorithms with discrete one dimensional output. The method is based on the privacy loss distribution formalism and it uses the recently introduced fast Fourier transform based accounting technique. We carry out an error analysis of the method in terms of moment bounds of the privacy loss distribution which leads to rigorous lower and upper bounds for the true $(\varepsilon,\delta)$-values. As an application, we present a novel approach to accurate privacy accounting of the subsampled Gaussian mechanism. This completes the previously proposed analysis by giving strict lower and upper bounds for the privacy parameters. We demonstrate the performance of the accountant on the binomial mechanism and show that our approach allows decreasing noise variance up to 75 percent at equal privacy compared to existing bounds in the literature. We also illustrate how to compute tight bounds for the exponential mechanism applied to counting queries.
翻訳日:2022-11-22 03:44:56 公開日:2021-06-21
# 粒子検出器のエッジ上の低遅延推定のためのディープニューラルネットワークの自動不均一量子化

Automatic heterogeneous quantization of deep neural networks for low-latency inference on the edge for particle detectors ( http://arxiv.org/abs/2006.10159v3 )

ライセンス: Link先を確認
Claudionor N. Coelho Jr., Aki Kuusela, Shan Li, Hao Zhuang, Thea Aarrestad, Vladimir Loncar, Jennifer Ngadiuba, Maurizio Pierini, Adrian Alan Pol, Sioni Summers(参考訳) より正確なソリューションを求めて、ディープラーニングの研究はより大きく複雑なアルゴリズムに向けられているが、エッジデバイスは効率的な推論を必要とし、モデルサイズ、レイテンシ、エネルギー消費量の削減が求められている。 モデルサイズを制限する1つの手法は量子化であり、重みとバイアスを表すためにビットが少ないことを意味する。 このようなアプローチは、通常パフォーマンスの低下をもたらす。 本稿では,チップ上での最小エネルギー,高精度,ナノ秒推論,完全自動配置を実現するための,深層ニューラルネットワークモデルの最適ヘテロジニゼーションバージョンを設計する手法を提案する。 層当たりのパラメータ型自動量子化法では、広範囲の量子化器からのサンプリングにより、高精度を維持しつつ、モデルエネルギー消費とサイズを最小化する。 CERN大型ハドロン衝突型加速器における陽子-陽子衝突におけるイベント選択の手順には、リソースの厳密な制限と、${\mathcal O}(1)~\mu$sのレイテンシが要求される。 フィールドプログラマブルゲートアレイハードウェアに実装した場合、ナノ秒の推論とリソース消費量を50倍に削減する。

Although the quest for more accurate solutions is pushing deep learning research towards larger and more complex algorithms, edge devices demand efficient inference and therefore reduction in model size, latency and energy consumption. One technique to limit model size is quantization, which implies using fewer bits to represent weights and biases. Such an approach usually results in a decline in performance. Here, we introduce a method for designing optimally heterogeneously quantized versions of deep neural network models for minimum-energy, high-accuracy, nanosecond inference and fully automated deployment on chip. With a per-layer, per-parameter type automatic quantization procedure, sampling from a wide range of quantizers, model energy consumption and size are minimized while high accuracy is maintained. This is crucial for the event selection procedure in proton-proton collisions at the CERN Large Hadron Collider, where resources are strictly limited and a latency of ${\mathcal O}(1)~\mu$s is required. Nanosecond inference and a resource consumption reduced by a factor of 50 when implemented on field-programmable gate array hardware are achieved.
翻訳日:2022-11-21 05:25:08 公開日:2021-06-21
# 可変インテンションフィルタとワープLSTMを用いた長期歩行者軌道予測

Long-term Pedestrian Trajectory Prediction using Mutable Intention Filter and Warp LSTM ( http://arxiv.org/abs/2007.00113v3 )

ライセンス: Link先を確認
Zhe Huang, Aamir Hasan, Kazuki Shin, Ruohua Li, and Katherine Driggs-Campbell(参考訳) 軌道予測は、ロボットが歩行者を安全にナビゲートし、操作するための重要な能力の1つだ。 人間の意図や行動パターンからの重要な洞察は、長期の歩行者行動を効果的に予測するために統合する必要がある。 そこで本研究では,ミュータブルインテンションフィルタとワープLSTM(MIF-WLSTM)を併用して,人間の意図を同時に推定し,軌道予測を行うフレームワークを提案する。 Mutable Intention Filterは、粒子フィルタリングと遺伝的アルゴリズムにインスパイアされている。 時間経過の逐次変位を予測する代わりに,warp lstmは,フィルタ処理中の意図仮説を考慮した,名目的意図認識線形モデルによって予測された全軌道上のオフセットを生成する。 公開データセット上で実験を行い,本手法がベースラインアプローチよりも優れており,異常な意図変化シナリオ下でのロバストな性能を示す。 コードはhttps://github.com/tedhuang96/mifwlstmで入手できる。

Trajectory prediction is one of the key capabilities for robots to safely navigate and interact with pedestrians. Critical insights from human intention and behavioral patterns need to be integrated to effectively forecast long-term pedestrian behavior. Thus, we propose a framework incorporating a Mutable Intention Filter and a Warp LSTM (MIF-WLSTM) to simultaneously estimate human intention and perform trajectory prediction. The Mutable Intention Filter is inspired by particle filtering and genetic algorithms, where particles represent intention hypotheses that can be mutated throughout the pedestrian motion. Instead of predicting sequential displacement over time, our Warp LSTM learns to generate offsets on a full trajectory predicted by a nominal intention-aware linear model, which considers the intention hypotheses during filtering process. Through experiments on a publicly available dataset, we show that our method outperforms baseline approaches and demonstrate the robust performance of our method under abnormal intention-changing scenarios. Code is available at https://github.com/tedhuang96/mifwlstm.
翻訳日:2022-11-15 06:16:00 公開日:2021-06-21
# 実楕円歪分布とそのロバストクラスター解析への応用

Real Elliptically Skewed Distributions and Their Application to Robust Cluster Analysis ( http://arxiv.org/abs/2006.16671v2 )

ライセンス: Link先を確認
Christian A. Schroth and Michael Muma(参考訳) 本稿では、単一クラスタ分析フレームワークにロバスト性と歪性を統合することができるReal Elliptically Skewed(RESK)ディストリビューションと関連するクラスタリングアルゴリズムの新たなクラスを提案する。 非対称分散および重尾データクラスタは、様々な現実世界のアプリケーションで報告されている。 ロバスト性は、いくつかの外部観測がクラスター構造を著しく曖昧にするため、必須である。 RESK分布はReal Elliptically Symmetric (RES) 分布の一般化である。 クラスタパラメータとメンバシップを推定するために、任意のRESK分布に対する予測最大化(EM)アルゴリズムを導出する。 reskクラスに属するsquet-huber分布の最大度推定器(mle)でもある新しいロバストなschet-huber m-推定器には特に注意が払われている。 シミュレーションデータと実世界のデータを用いた数値実験により,提案手法の有効性を確認した。

This article proposes a new class of Real Elliptically Skewed (RESK) distributions and associated clustering algorithms that allow for integrating robustness and skewness into a single unified cluster analysis framework. Non-symmetrically distributed and heavy-tailed data clusters have been reported in a variety of real-world applications. Robustness is essential because a few outlying observations can severely obscure the cluster structure. The RESK distributions are a generalization of the Real Elliptically Symmetric (RES) distributions. To estimate the cluster parameters and memberships, we derive an expectation maximization (EM) algorithm for arbitrary RESK distributions. Special attention is given to a new robust skew-Huber M-estimator, which is also the maximum likelihood estimator (MLE) for the skew-Huber distribution that belongs to the RESK class. Numerical experiments on simulated and real-world data confirm the usefulness of the proposed methods for skewed and heavy-tailed data sets.
翻訳日:2022-11-15 06:06:23 公開日:2021-06-21
# 生成的敵ネットワークの潜在空間におけるマリオシーンのイルミネーション

Illuminating Mario Scenes in the Latent Space of a Generative Adversarial Network ( http://arxiv.org/abs/2007.05674v4 )

ライセンス: Link先を確認
Matthew C. Fontaine, Ruilin Liu, Ahmed Khalifa, Jignesh Modi, Julian Togelius, Amy K. Hoover, Stefanos Nikolaidis(参考訳) generative adversarial networks(gans)は、ゲームレベルを手続き的に生成するユビキタスなアプローチになりつつある。 GAN生成レベルは、人間の許可した例とスタイリスティックに類似しているが、人間設計者は、興味深いレベルを抽出するために、GANの生成的デザイン空間を探索したいと考えることが多い。 しかし、人間の設計者は潜伏ベクトルが不透明で、敵の数や障害物など、設計者が指定する次元に沿って探索する。 本稿では,方向性変動演算子と共分散行列適応マップエリトを含む連続空間を最適化するために設計された最先端品質多様性アルゴリズムを用いて,ganの潜在空間を効率的に探索し,特定のゲームプレイ測度のセットにまたがるレベルを抽出する。 super mario brosのベンチマークドメインでは、設計者が私たちのシステムにゲームプレイの測度を指定でき、様々なレベルメカニクスで高品質な(プレイ可能な)レベルを抽出する方法が示されています。 オンラインユーザスタディでは、自動生成されるレベルの異なるメカニズムが、認識される困難と外観の主観的評価にどのように影響するかが示されている。

Generative adversarial networks (GANs) are quickly becoming a ubiquitous approach to procedurally generating video game levels. While GAN generated levels are stylistically similar to human-authored examples, human designers often want to explore the generative design space of GANs to extract interesting levels. However, human designers find latent vectors opaque and would rather explore along dimensions the designer specifies, such as number of enemies or obstacles. We propose using state-of-the-art quality diversity algorithms designed to optimize continuous spaces, i.e. MAP-Elites with a directional variation operator and Covariance Matrix Adaptation MAP-Elites, to efficiently explore the latent space of a GAN to extract levels that vary across a set of specified gameplay measures. In the benchmark domain of Super Mario Bros, we demonstrate how designers may specify gameplay measures to our system and extract high-quality (playable) levels with a diverse range of level mechanics, while still maintaining stylistic similarity to human authored examples. An online user study shows how the different mechanics of the automatically generated levels affect subjective ratings of their perceived difficulty and appearance.
翻訳日:2022-11-11 13:25:42 公開日:2021-06-21
# CoreGen: コミットメッセージ生成のためのコンテキストコード表現学習

CoreGen: Contextualized Code Representation Learning for Commit Message Generation ( http://arxiv.org/abs/2007.06934v3 )

ライセンス: Link先を確認
Lun Yiu Nie, Cuiyun Gao, Zhicong Zhong, Wai Lam, Yang Liu and Zenglin Xu(参考訳) コードコミットのための高品質なコミットメッセージの自動生成は、ソフトウェア開発者の作業と調整を大幅に促進します。 しかし、ソースコードと自然言語の間のセマンティックギャップは、タスクにとって大きな課題となる。 課題を緩和するためにいくつかの研究が提案されているが、コミットメッセージ生成中に明示的にコードコンテキスト情報を含むものはない。 具体的には、既存の研究ではコードトークンに静的埋め込みを採用しており、コンテキストに関係なくトークンを同じベクターにマップしている。 本稿では,コミットメッセージ生成(CoreGen)のためのコンテキスト適応型コード表現学習戦略を提案する。 CoreGenはまず、コードコミットシーケンスの背後にあるコンテキスト情報を利用する、コンテキスト化されたコード表現を学ぶ。 Transformer上に構築されたコードコミットの学習された表現は、下流のコミットメッセージ生成のために微調整される。 ベンチマークデータセットにおける実験は、bleu-4スコアで少なくとも28.18%改善したベースラインモデルよりも優れた効果を示している。 さらに、低リソースタスクに対するソリューションとして、より大きなコードコーパスでコンテキスト化されたコード表現をトレーニングし、コンテキスト化されたコード表現フレームワークを他のコードからテキストへの生成タスクに適用する今後の機会についても強調する。

Automatic generation of high-quality commit messages for code commits can substantially facilitate software developers' works and coordination. However, the semantic gap between source code and natural language poses a major challenge for the task. Several studies have been proposed to alleviate the challenge but none explicitly involves code contextual information during commit message generation. Specifically, existing research adopts static embedding for code tokens, which maps a token to the same vector regardless of its context. In this paper, we propose a novel Contextualized code representation learning strategy for commit message Generation (CoreGen). CoreGen first learns contextualized code representations which exploit the contextual information behind code commit sequences. The learned representations of code commits built upon Transformer are then fine-tuned for downstream commit message generation. Experiments on the benchmark dataset demonstrate the superior effectiveness of our model over the baseline models with at least 28.18% improvement in terms of BLEU-4 score. Furthermore, we also highlight the future opportunities in training contextualized code representations on larger code corpus as a solution to low-resource tasks and adapting the contextualized code representation framework to other code-to-text generation tasks.
翻訳日:2022-11-10 14:06:45 公開日:2021-06-21
# IGANI:トラヒックデータを用いたイミューテーションのための反復生成対向ネットワーク

IGANI: Iterative Generative Adversarial Networks for Imputation with Application to Traffic Data ( http://arxiv.org/abs/2008.04847v3 )

ライセンス: Link先を確認
Amir Kazemi and Hadi Meidani(参考訳) インテリジェントトランスポートシステムにおけるセンサデータの利用の増加は、データの欠如時に信頼できるトラフィック管理を可能にする正確な計算アルゴリズムを要求する。 効果的なインプテーションアプローチの1つとして、ジェネレイティブ・逆ネットワーク(gans)は、教師なし学習問題として定式化されたデータインプテーションに使用できる暗黙的な生成モデルである。 この研究は、IGANI(Iterative Generative Adversarial Networks for Imputation)と呼ばれる新しい反復型GANアーキテクチャを導入している。 IGANIは2つのステップでデータをインプットし、生成インプタの可逆性を維持する。 提案手法の性能評価は,(1)広州市で収集された交通速度データの計算結果と,(2)速報データを用いた短期交通予測モデルの訓練結果と,(2)音量,占有率,速度の異なるポートランド・バンクーバー都市圏の高速道路における交通量の多変量データの計算結果に基づいて評価された。 提案アルゴリズムは, 従来のGANベースの計算アーキテクチャと比較して, より正確な結果が得られた。

Increasing use of sensor data in intelligent transportation systems calls for accurate imputation algorithms that can enable reliable traffic management in the occasional absence of data. As one of the effective imputation approaches, generative adversarial networks (GANs) are implicit generative models that can be used for data imputation, which is formulated as an unsupervised learning problem. This work introduces a novel iterative GAN architecture, called Iterative Generative Adversarial Networks for Imputation (IGANI), for data imputation. IGANI imputes data in two steps and maintains the invertibility of the generative imputer, which will be shown to be a sufficient condition for the convergence of the proposed GAN-based imputation. The performance of our proposed method is evaluated on (1) the imputation of traffic speed data collected in the city of Guangzhou in China, and the training of short-term traffic prediction models using imputed data, and (2) the imputation of multi-variable traffic data of highways in Portland-Vancouver metropolitan region which includes volume, occupancy, and speed with different missing rates for each of them. It is shown that our proposed algorithm mostly produces more accurate results compared to those of previous GAN-based imputation architectures.
翻訳日:2022-10-31 11:02:59 公開日:2021-06-21
# 変分オートエンコーダによる高分解能画像の生成

Generate High Resolution Images With Generative Variational Autoencoder ( http://arxiv.org/abs/2008.10399v3 )

ライセンス: Link先を確認
Abhinav Sagar(参考訳) 本研究では,高解像度画像を生成する新しいニューラルネットワークを提案する。 エンコーダをそのまま使用しながら,VAEのデコーダを識別器に置き換える。 エンコーダは正規分布からデータを供給し、ジェネレータはガウス分布から供給される。 両者の組み合わせは、生成された画像が正しいか否かを示す判別器に与えられる。 我々は、MNIST、LSUN、CelebAの3つの異なるデータセットでネットワークを評価した。 MMD, SSIM, log chance, reconstruction error, ELBO, KL divergence を評価指標とし, よりシャープな画像を生成する。 生成モデルと推論モデルの利点を原理化されたベイズ的手法で組み合わせることができるので、この作業は非常にエキサイティングです。

In this work, we present a novel neural network to generate high resolution images. We replace the decoder of VAE with a discriminator while using the encoder as it is. The encoder is fed data from a normal distribution while the generator is fed from a gaussian distribution. The combination from both is given to a discriminator which tells whether the generated image is correct or not. We evaluate our network on 3 different datasets: MNIST, LSUN and CelebA dataset. Our network beats the previous state of the art using MMD, SSIM, log likelihood, reconstruction error, ELBO and KL divergence as the evaluation metrics while generating much sharper images. This work is potentially very exciting as we are able to combine the advantages of generative models and inference models in a principled bayesian manner.
翻訳日:2022-10-31 05:12:11 公開日:2021-06-21
# 確率ベイズ型ニューラルネットワーク

Stochastic Bayesian Neural Networks ( http://arxiv.org/abs/2008.07587v3 )

ライセンス: Link先を確認
Abhinav Sagar(参考訳) ベイズニューラルネットワークは重みの変動推論を行うが、後方分布の計算は依然として困難である。 本研究は,ベイズニューラルネットワークの変分推論手法を,元来のエビデンス低境界を用いて構築した。 本稿では,確率的ベイズニューラルネットワークを提案する。このニューラルネットワークは,確率的低境界と呼ばれる新しい目的関数を用いてエビデンスを最大化する。 評価指標として,テストRMSEとログ可能性を用いて,利用可能な5つのUCIデータセット上でネットワークを評価した。 私たちの研究は、以前のartアルゴリズムに勝るだけでなく、より大きなデータセットにも拡張性があることを実証します。

Bayesian neural networks perform variational inference over the weights however calculation of the posterior distribution remains a challenge. Our work builds on variational inference techniques for bayesian neural networks using the original Evidence Lower Bound. In this paper, we present a stochastic bayesian neural network in which we maximize Evidence Lower Bound using a new objective function which we name as Stochastic Evidence Lower Bound. We evaluate our network on 5 publicly available UCI datasets using test RMSE and log likelihood as the evaluation metrics. We demonstrate that our work not only beats the previous state of the art algorithms but is also scalable to larger datasets.
翻訳日:2022-10-31 04:45:09 公開日:2021-06-21
# 言語非依存な多言語表現の誘導

Inducing Language-Agnostic Multilingual Representations ( http://arxiv.org/abs/2008.09112v2 )

ライセンス: Link先を確認
Wei Zhao, Steffen Eger, Johannes Bjerva, Isabelle Augenstein(参考訳) 言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。 しかし、現時点では大きな事前学習コーパスや類型的に類似した言語へのアクセスが必要である。 本稿では,多言語組込みから言語識別信号を除去することで,これらの障害に対処する。 これに対する3つのアプローチを調べます i) 対象言語のベクトル空間(すべて一緒に)をピボットソース言語に再配置すること。 二 副産物としての埋め込みの判別性を高める言語固有の手段及びばらつきの除去 (iii)形態素的縮小と文の再順序付けの除去による言語間の入力類似度の向上。 XNLIと参照なしMTを19言語で比較検討した。 ベクトル正規化とは異なり、ベクトル空間の再配置やテキスト正規化はエンコーダや言語間で一貫した利得を達成できない。 しかし、アプローチの加法効果により、これらの組み合わせは言語間の移動ギャップを平均8.9ポイント(m-BERT)と18.2ポイント(XLM-R)に減少させる。 私たちのコードとモデルは公開されています。

Cross-lingual representations have the potential to make NLP techniques available to the vast majority of languages in the world. However, they currently require large pretraining corpora or access to typologically similar languages. In this work, we address these obstacles by removing language identity signals from multilingual embeddings. We examine three approaches for this: (i) re-aligning the vector spaces of target languages (all together) to a pivot source language; (ii) removing language-specific means and variances, which yields better discriminativeness of embeddings as a by-product; and (iii) increasing input similarity across languages by removing morphological contractions and sentence reordering. We evaluate on XNLI and reference-free MT across 19 typologically diverse languages. Our findings expose the limitations of these approaches -- unlike vector normalization, vector space re-alignment and text normalization do not achieve consistent gains across encoders and languages. Due to the approaches' additive effects, their combination decreases the cross-lingual transfer gap by 8.9 points (m-BERT) and 18.2 points (XLM-R) on average across all tasks and languages, however. Our code and models are publicly available.
翻訳日:2022-10-27 03:31:14 公開日:2021-06-21
# ガウス過程を前提とした時系列予測

Time series forecasting with Gaussian Processes needs priors ( http://arxiv.org/abs/2009.08102v2 )

ライセンス: Link先を確認
Giorgio Corani, Alessio Benavoli, Marco Zaffalon(参考訳) 自動予測(automatic forecasting)は、時系列を受信し、人間の介入なしに次のステップの予測を返すタスクである。 ガウス過程(GP)は時系列をモデル化するための強力なツールであるが、今のところGPに基づく自動予測のための競合的なアプローチはない。 最適カーネルの自動選択とハイパーパラメータの信頼性評価という2つの問題に対する実用的な解法を提案する。 線形トレンド,周期パターン,および非線形トレンドをモデル化するフレキシブルカーネルといった時系列のモデル化に必要なコンポーネントを含む,カーネルの固定構成を提案する。 すべてのコンポーネントが時系列ごとにモデル化されるわけではない。トレーニング中、不要なコンポーネントは自動関連付け決定(ard)によって自動的に無関係にされる。 我々はさらに、推定を可算範囲内に維持するために、事前をハイパーパラメータに割り当てる; 経験的ベイズアプローチにより、そのような事前を設計する。 GPモデルは最先端の時系列モデルよりも精度が高い。 事前設定のおかげで、1回の再起動でハイパーパラメータの推定が十分になるため、モデルも高速にトレーニングできる。

Automatic forecasting is the task of receiving a time series and returning a forecast for the next time steps without any human intervention. Gaussian Processes (GPs) are a powerful tool for modeling time series, but so far there are no competitive approaches for automatic forecasting based on GPs. We propose practical solutions to two problems: automatic selection of the optimal kernel and reliable estimation of the hyperparameters. We propose a fixed composition of kernels, which contains the components needed to model most time series: linear trend, periodic patterns, and other flexible kernel for modeling the non-linear trend. Not all components are necessary to model each time series; during training the unnecessary components are automatically made irrelevant via automatic relevance determination (ARD). We moreover assign priors to the hyperparameters, in order to keep the inference within a plausible range; we design such priors through an empirical Bayes approach. We present results on many time series of different types; our GP model is more accurate than state-of-the-art time series models. Thanks to the priors, a single restart is enough the estimate the hyperparameters; hence the model is also fast to train.
翻訳日:2022-10-17 08:36:48 公開日:2021-06-21
# 連続時間に対するニューラルラフ微分方程式

Neural Rough Differential Equations for Long Time Series ( http://arxiv.org/abs/2009.08295v4 )

ライセンス: Link先を確認
James Morrill and Cristopher Salvi and Patrick Kidger and James Foster and Terry Lyons(参考訳) ニューラル制御微分方程式(英: Neural Control differential equation, CDEs)は、リカレントニューラルネットワークの連続時間アナログであり、ニューラルODEは残留ネットワークであり、潜在的に不規則な時系列の関数をモデル化するためのメモリ効率のよい連続時間方法を提供する。 ニューラルCDEの前方通過を計算する既存の方法は、しばしば補間を通して、入ってくる時系列を経路空間に埋め込み、この経路の評価を用いて隠れた状態を駆動する。 ここでは、この定式化を拡張するためにラフパス理論を用いる。 経路空間に直接埋め込む代わりに、信号がどのようにCDEを駆動するかを記述する統計データである「textit{log-signature}」を通して入力信号を小さな時間間隔で表現する。 この手法は, RDE (textit{rough differential equations) の解法であり, ニューラル RDE の導入として本研究の主な貢献を述べる。 この拡張は、より広い種類の駆動信号にニューラルCDEアプローチを一般化することにより、長い時系列に対処する上で特に利点を示す。 本手法では,最大17kの観測問題に対して有効性を示し,重要なトレーニングスピードアップ,モデル性能の向上,メモリ要求の削減を既存の手法と比較した。

Neural controlled differential equations (CDEs) are the continuous-time analogue of recurrent neural networks, as Neural ODEs are to residual networks, and offer a memory-efficient continuous-time way to model functions of potentially irregular time series. Existing methods for computing the forward pass of a Neural CDE involve embedding the incoming time series into path space, often via interpolation, and using evaluations of this path to drive the hidden state. Here, we use rough path theory to extend this formulation. Instead of directly embedding into path space, we instead represent the input signal over small time intervals through its \textit{log-signature}, which are statistics describing how the signal drives a CDE. This is the approach for solving \textit{rough differential equations} (RDEs), and correspondingly we describe our main contribution as the introduction of Neural RDEs. This extension has a purpose: by generalising the Neural CDE approach to a broader class of driving signals, we demonstrate particular advantages for tackling long time series. In this regime, we demonstrate efficacy on problems of length up to 17k observations and observe significant training speed-ups, improvements in model performance, and reduced memory requirements compared to existing approaches.
翻訳日:2022-10-17 08:09:47 公開日:2021-06-21
# 呼吸誘発食道運動の計測とドシメトリーへの影響

Measuring breathing induced oesophageal motion and its dosimetric impact ( http://arxiv.org/abs/2010.09391v3 )

ライセンス: Link先を確認
Tobias Fechter, Sonja Adebahr, Anca-Ligia Grosu and Dimos Baltas(参考訳) 立体放射線療法は、正確かつ正確な線量伝達を可能にする。 治療中の臓器運動は、検出されていない高用量健康な組織曝露のリスクを負う。 高用量に非常に敏感な臓器は食道である。 ctと斜め形状のコントラストが低く、動きの推定が困難である。 本稿では, 食道運動ボクセルの向きを計測し, 運動関連ドシメトリーの影響を推定するために, 現代のアルゴリズムによるこの問題に対処する。 食道運動は変形可能な画像登録と,11の内、5の公開データセットの4DCTを用いて測定した。 臓器を3dctで結束する現在の臨床実践を, 時間分解4dct輪郭と比較した。 4次元線量分布における各ボクセルの軌跡を解析し, 運動のドシメトリの影響を推定した。 最後に臓器運動モデルが構築され、患者間比較が容易になった。 運動解析では、平均的な最大運動振幅は4.55 +/- 1.81 mm 左右、5.29 +/- 2.67 mm前後肢、10.78 +/- 5.30 mm上腕骨であった。 コホート間の運動は著しく異なる。 約50%の症例ではドシメトリックパス基準に違反した。 3DCTで作成した輪郭は, 呼吸周期の50%で14%の臓器を被覆せず, 3D輪郭は全4D輪郭の接合部よりも約38%小さくなった。 運動モデルでは,最大運動は器官の下部に限らないことが明らかとなった。 以上の結果から, 運動振幅は文献で報告されている値よりも高く, 運動は患者間で非常に異質であることがわかった。 したがって、個々の動き情報は、構成と計画において考慮すべきである。

Stereotactic body radiation therapy allows for a precise and accurate dose delivery. Organ motion during treatment bears the risk of undetected high dose healthy tissue exposure. An organ very susceptible to high dose is the oesophagus. Its low contrast on CT and the oblong shape renders motion estimation difficult. We tackle this issue by modern algorithms to measure the oesophageal motion voxel-wise and to estimate motion related dosimetric impact. Oesophageal motion was measured using deformable image registration and 4DCT of 11 internal and 5 public datasets. Current clinical practice of contouring the organ on 3DCT was compared to timely resolved 4DCT contours. The dosimetric impact of the motion was estimated by analysing the trajectory of each voxel in the 4D dose distribution. Finally an organ motion model was built, allowing for easier patient-wise comparisons. Motion analysis showed mean absolute maximal motion amplitudes of 4.55 +/- 1.81 mm left-right, 5.29 +/- 2.67 mm anterior-posterior and 10.78 +/- 5.30 mm superior-inferior. Motion between the cohorts differed significantly. In around 50 % of the cases the dosimetric passing criteria was violated. Contours created on 3DCT did not cover 14 % of the organ for 50 % of the respiratory cycle and the 3D contour is around 38 % smaller than the union of all 4D contours. The motion model revealed that the maximal motion is not limited to the lower part of the organ. Our results showed motion amplitudes higher than most reported values in the literature and that motion is very heterogeneous across patients. Therefore, individual motion information should be considered in contouring and planning.
翻訳日:2022-10-05 23:02:43 公開日:2021-06-21
# パーソナリティモデリングによる交渉のための対話システムの改善

Improving Dialog Systems for Negotiation with Personality Modeling ( http://arxiv.org/abs/2010.09954v2 )

ライセンス: Link先を確認
Runzhe Yang, Jingxiao Chen, Karthik Narasimhan(参考訳) 本稿では,相手の性格タイプをモデル化し,その反応を予測し,この情報を用いて対話エージェントの高レベル戦略を交渉タスクに適用する能力について検討する。 機械に心の理論(ToM)を組み込むことに着想を得て,学習と推論の両方において,相手の性格型をカプセル化する確率論的定式化を導入する。 提案手法をcraigslistbargainデータセット上でテストし,tom推論を用いた場合,対人混合集団のベースラインと比較して20%高い対話合意率が得られることを示す。 また,本モデルでは,異なるタイプの相手との多様な交渉行動を示す。

In this paper, we explore the ability to model and infer personality types of opponents, predict their responses, and use this information to adapt a dialog agent's high-level strategy in negotiation tasks. Inspired by the idea of incorporating a theory of mind (ToM) into machines, we introduce a probabilistic formulation to encapsulate the opponent's personality type during both learning and inference. We test our approach on the CraigslistBargain dataset and show that our method using ToM inference achieves a 20% higher dialog agreement rate compared to baselines on a mixed population of opponents. We also find that our model displays diverse negotiation behavior with different types of opponents.
翻訳日:2022-10-05 05:35:40 公開日:2021-06-21
# いくつかの先行型分類器の雑音に対する固有ロバスト性と対称損失関数について--経験的評価

On the intrinsic robustness to noise of some leading classifiers and symmetric loss function -- an empirical evaluation ( http://arxiv.org/abs/2010.13570v5 )

ライセンス: Link先を確認
Hugo Le Baher (1), Vincent Lemaire (2), Romain Trinquart (2) ((1) Polytech Nantes (France), (2) Orange Labs (France))(参考訳) 不正検出のようないくつかの産業応用において、共通の監督技術の性能は、利用可能なラベルの品質の低さに影響される可能性がある:実際の運用ユースケースでは、これらのラベルは、量、品質、信頼性が弱い可能性がある。 本稿では,人工的に破損したデータセットの様々なパラダイムから得られた異なるアルゴリズムの自然ロバスト性を評価するベンチマークを提案し,ノイズラベルに着目した。 本稿では,いくつかの主分類器の固有ロバスト性について検討する。 精査中のアルゴリズムには、SVM、ロジスティック回帰、ランダムフォレスト、XGBoost、Khiopsなどがある。 さらに,近年の文献から得られた結果をもとに,対称損失関数を用いたアルゴリズムの拡張の可能性について検討した。

In some industrial applications such as fraud detection, the performance of common supervision techniques may be affected by the poor quality of the available labels : in actual operational use-cases, these labels may be weak in quantity, quality or trustworthiness. We propose a benchmark to evaluate the natural robustness of different algorithms taken from various paradigms on artificially corrupted datasets, with a focus on noisy labels. This paper studies the intrinsic robustness of some leading classifiers. The algorithms under scrutiny include SVM, logistic regression, random forests, XGBoost, Khiops. Furthermore, building on results from recent literature, the study is supplemented with an investigation into the opportunity to enhance some algorithms with symmetric loss functions.
翻訳日:2022-10-04 07:36:44 公開日:2021-06-21
# インテリジェントエッジコンピューティングにおけるDNNの空間的・チャネル的注意によるチャネル切断

Channel Pruning Guided by Spatial and Channel Attention for DNNs in Intelligent Edge Computing ( http://arxiv.org/abs/2011.03891v2 )

ライセンス: Link先を確認
Mengran Liu and Weiwei Fang and Xiaodong Ma and Wenyuan Xu and Naixue Xiong and Yi Ding(参考訳) ディープニューラルネットワーク(DNN)は最近、多くのコンピュータビジョンタスクで目覚ましい成功を収めていますが、膨大な数のパラメータと高い計算オーバーヘッドによって、リソースに制約のあるエッジデバイスへのデプロイメントが妨げられています。 チャネルプルーニングがDNNモデルの圧縮に有効な手法であることは注目に値する。 重要な課題は、どのチャネルを削除すべきかを判断し、モデルの精度が負の影響を受けないようにすることだ。 本稿では,まず「場所」と「場所」に焦点を絞った空間的注意とチャネル的注意の両方を組み合わせた新しい注意モジュールである空間的注意とチャネル的注意(SCA)を提案する。 チャネル重要度を測定するためにSCAが生成するスケール値に基づいて,空間・チャネル注意法(CPSCA)により誘導されるチャネルプルーニングと呼ばれる新しいチャネルプルーニング手法を提案する。 実験結果から、SCAは、他の最先端の注目モジュールと比較して、まったく余計なリソース消費を発生させながら、最高の推測精度を達成することが示唆された。 2つのベンチマークデータセットにおける評価結果から, cpscaアプローチは, 同一のプルーニング比において, 従来のプルーニング法よりも高い推論精度が得られることがわかった。

Deep Neural Networks (DNNs) have achieved remarkable success in many computer vision tasks recently, but the huge number of parameters and the high computation overhead hinder their deployments on resource-constrained edge devices. It is worth noting that channel pruning is an effective approach for compressing DNN models. A critical challenge is to determine which channels are to be removed, so that the model accuracy will not be negatively affected. In this paper, we first propose Spatial and Channel Attention (SCA), a new attention module combining both spatial and channel attention that respectively focuses on "where" and "what" are the most informative parts. Guided by the scale values generated by SCA for measuring channel importance, we further propose a new channel pruning approach called Channel Pruning guided by Spatial and Channel Attention (CPSCA). Experimental results indicate that SCA achieves the best inference accuracy, while incurring negligibly extra resource consumption, compared to other state-of-the-art attention modules. Our evaluation on two benchmark datasets shows that, with the guidance of SCA, our CPSCA approach achieves higher inference accuracy than other state-of-the-art pruning methods under the same pruning ratios.
翻訳日:2022-09-28 08:01:02 公開日:2021-06-21
# 合成学習データから新しい環境にローカライズするための学習

Learning to Localize in New Environments from Synthetic Training Data ( http://arxiv.org/abs/2011.04539v2 )

ライセンス: Link先を確認
Dominik Winkelbauer, Maximilian Denninger, Rudolph Triebel(参考訳) 既存のビジュアルローカライゼーションのアプローチのほとんどは、環境の詳細な3dモデルを必要とするか、学習ベースの方法の場合、新しいシーンごとに再トレーニングする必要がある。 これは、例えば検索と救助のシナリオのように、大規模で未知の環境では非常に高価または単純に不可能である可能性がある。 シーンに依存しない学習ベースのアプローチは存在するが、これらの手法の一般化能力は古典的アプローチではまだ優れている。 本稿では,拡張回帰部分,階層的相関層の利用,スケール情報や不確実性情報の活用など,モデルアーキテクチャに具体的変化を適用することにより,新たな場面に一般化する手法を提案する。 提案手法は、SIFT機能を用いた5点アルゴリズムを等大画像で上回り、さらに、異なるデータでトレーニングされた従来の学習ベースアプローチを上回ります。 また、各シーンで特別に訓練されたアプローチのほとんどよりも優れている。 また,このような現実的条件下では,学習ベースアプローチが既存の学習ベース手法と古典的手法をはるかに上回ることを示すため,参照画像がほとんど存在しないシナリオにおいて,このアプローチを評価した。

Most existing approaches for visual localization either need a detailed 3D model of the environment or, in the case of learning-based methods, must be retrained for each new scene. This can either be very expensive or simply impossible for large, unknown environments, for example in search-and-rescue scenarios. Although there are learning-based approaches that operate scene-agnostically, the generalization capability of these methods is still outperformed by classical approaches. In this paper, we present an approach that can generalize to new scenes by applying specific changes to the model architecture, including an extended regression part, the use of hierarchical correlation layers, and the exploitation of scale and uncertainty information. Our approach outperforms the 5-point algorithm using SIFT features on equally big images and additionally surpasses all previous learning-based approaches that were trained on different data. It is also superior to most of the approaches that were specifically trained on the respective scenes. We also evaluate our approach in a scenario where only very few reference images are available, showing that under such more realistic conditions our learning-based approach considerably exceeds both existing learning-based and classical methods.
翻訳日:2022-09-28 02:01:27 公開日:2021-06-21
# 正しい概念のための権利 : 説明と相互作用によるニューロシンボリック概念の改訂

Right for the Right Concept: Revising Neuro-Symbolic Concepts by Interacting with their Explanations ( http://arxiv.org/abs/2011.12854v6 )

ライセンス: Link先を確認
Wolfgang Stammer, Patrick Schramowski and Kristian Kersting(参考訳) ディープラーニングマップにおけるほとんどの説明手法は、モデルの予測を元の入力空間に戻すための重要度推定である。 これらの「視覚的」な説明はしばしば不十分であり、モデルの実際の概念はいまだ解明されていない。 さらに、モデルのセマンティックな概念に関する洞察がなければ、説明的対話学習(Explainatory Interactive Learning)と呼ばれる説明を通じてモデルの振る舞いに介入することは困難である。 そこで我々は,「色に焦点をあてることなく決定を下す」ような意味レベルでモデルを再検討できる,ニューロ・シンボリックなシーン表現に介入することを提案する。 我々は,新しい視覚シーンデータセットであるclevr-hansデータセットをコンパイルし,異なるオブジェクトの複雑な構成をキャプチャした。 CLEVR-Hansを用いた実験の結果、対象ごとの合成的説明は、視覚的説明だけでは識別できない共同創設者を識別できることが示されている。 さらに重要なことに、このセマンティクスレベルに対するフィードバックは、モデルがこれらの要因に焦点を合わせないように修正することを可能にします。

Most explanation methods in deep learning map importance estimates for a model's prediction back to the original input space. These "visual" explanations are often insufficient, as the model's actual concept remains elusive. Moreover, without insights into the model's semantic concept, it is difficult -- if not impossible -- to intervene on the model's behavior via its explanations, called Explanatory Interactive Learning. Consequently, we propose to intervene on a Neuro-Symbolic scene representation, which allows one to revise the model on the semantic level, e.g. "never focus on the color to make your decision". We compiled a novel confounded visual scene data set, the CLEVR-Hans data set, capturing complex compositions of different objects. The results of our experiments on CLEVR-Hans demonstrate that our semantic explanations, i.e. compositional explanations at a per-object level, can identify confounders that are not identifiable using "visual" explanations only. More importantly, feedback on this semantic level makes it possible to revise the model from focusing on these factors.
翻訳日:2022-09-21 01:52:52 公開日:2021-06-21
# 医療・保険分野での患者埋め込み

Patient Embeddings in Healthcare and Insurance Applications ( http://arxiv.org/abs/2107.03913v1 )

ライセンス: Link先を確認
Pavel Blinov, Vladimir Kokh(参考訳) 本稿では,医療領域における概念と患者表現の問題について考察する。 我々は,Electronic Health Records (EHRs) の患者履歴を,トランスフォーマーベースニューラルネットワークモデルを用いた教師なしセットアップで埋め込みを学習するICD概念の時間的シーケンスとして提示する。 モデルトレーニングは6年間に100万人の患者の履歴を収集して行われた。 このようなモデルの予測力は、いくつかのベースライン法と比較して評価される。 MIMIC-IIIデータに対する一連の実験は、同様のシステムと比較して提示されたモデルの利点を示している。 さらに,概念関係に関して得られた埋め込み空間を分析し,医療領域からの知識が患者埋め込みの形で保険スコアリングの実務課題にどのように移行できるかを示す。

The paper researches the problem of concept and patient representations in the medical domain. We present the patient histories from Electronic Health Records (EHRs) as temporal sequences of ICD concepts for which embeddings are learned in an unsupervised setup with a transformer-based neural network model. The model training was performed on the collection of one million patients' histories in 6 years. The predictive power of such a model is assessed in comparison with several baseline methods. A series of experiments on the MIMIC-III data show the advantage of the presented model compared to a similar system. Further, we analyze the obtained embedding space with regards to concept relations and show how knowledge from the medical domain can be successfully transferred to the practical task of insurance scoring in the form of patient embeddings.
翻訳日:2021-07-11 11:32:18 公開日:2021-06-21
# (参考訳) 説明可能なAIを用いた適応型サイバーセキュリティのためのゼロショット学習手法

Zero-shot learning approach to adaptive Cybersecurity using Explainable AI ( http://arxiv.org/abs/2106.14647v1 )

ライセンス: CC BY 4.0
Dattaraj Rao, Shraddha Mane(参考訳) サイバーセキュリティは、攻撃のパターンが常に変化するドメインであり、サイバーセキュリティシステムを新しい攻撃に対処するためにより適応させ、適切な行動に分類する方法が必要です。 本稿では,セキュリティ情報やイベント管理 (SIEM) や侵入検知 (IDS) といったサイバーセキュリティシステムで直面するアラーム浸水問題に対処する新たなアプローチを提案する。 機械学習(ml)にゼロショット学習法を適用し,機械学習モデルによって生成された異常の予測を行う。 このアプローチは、SIEMで生成されたアラームラベルを自動的に検出し、特定の攻撃タイプと関連付けることができる。 このアプローチでは、攻撃に関する事前の知識がなければ、それを識別し、分類に寄与する特徴を解読し、説明可能なaiを使用して、特定のカテゴリで攻撃をバケット化しようとする。 説明は、サイバー攻撃の予測に影響を与える特徴と、どの程度の程度について、測定可能な要因を与えてくれる。 ゲーム理論に基づいて生成されたこれらの説明は、特定の予測への影響に基づいて特定の特徴にクレジットを割り当てるために使用される。 本稿では,このクレジットの割り当てを用いて,新たな攻撃を特徴的影響に基づく特定のクラスに分類するゼロショット手法を提案する。 その結果得られたシステムは、通常のフローから攻撃トラフィックを分離し、攻撃に寄与する機能に基づいて攻撃のラベルを自動生成する。 これらの自動生成ラベルはSIEMアナリストに提示することができ、攻撃の性質を把握できるほど直感的である。 我々は、このアプローチをネットワークフローデータセットに適用し、ipスイープ、サービス拒否、リモートからローカルなど、特定の攻撃タイプの結果を示す。 Paperは2021年6月のITI-Madrasで、デプロイ可能なAIに関する第1回会議で発表された。

Cybersecurity is a domain where there is constant change in patterns of attack, and we need ways to make our Cybersecurity systems more adaptive to handle new attacks and categorize for appropriate action. We present a novel approach to handle the alarm flooding problem faced by Cybersecurity systems like security information and event management (SIEM) and intrusion detection (IDS). We apply a zero-shot learning method to machine learning (ML) by leveraging explanations for predictions of anomalies generated by a ML model. This approach has huge potential to auto detect alarm labels generated in SIEM and associate them with specific attack types. In this approach, without any prior knowledge of attack, we try to identify it, decipher the features that contribute to classification and try to bucketize the attack in a specific category - using explainable AI. Explanations give us measurable factors as to what features influence the prediction of a cyber-attack and to what degree. These explanations generated based on game-theory are used to allocate credit to specific features based on their influence on a specific prediction. Using this allocation of credit, we propose a novel zero-shot approach to categorize novel attacks into specific new classes based on feature influence. The resulting system demonstrated will get good at separating attack traffic from normal flow and auto-generate a label for attacks based on features that contribute to the attack. These auto-generated labels can be presented to SIEM analyst and are intuitive enough to figure out the nature of attack. We apply this approach to a network flow dataset and demonstrate results for specific attack types like ip sweep, denial of service, remote to local, etc. Paper was presented at the first Conference on Deployable AI at IIT-Madras in June 2021.
翻訳日:2021-07-04 22:12:47 公開日:2021-06-21
# (参考訳) 条件付き生成逆数ネットワークによるレーダ後方散乱からの森林バイオマス予測マップの構築

Constructing Forest Biomass Prediction Maps from Radar Backscatter by Sequential Regression with a Conditional Generative Adversarial Network ( http://arxiv.org/abs/2106.15020v1 )

ライセンス: CC BY 4.0
Sara Bj\"ork, Stian Normann Anfinsen, Erik N{\ae}sset, Terje Gobakken and Eliakimu Zahabu(参考訳) 本稿では,合成開口レーダ(SAR)強度画像から地上バイオマス(AGB)予測マップを構築する。 目的は、限られた量のagb in situ測定で訓練されたsar強度に基づく従来の回帰モデルを改善することである。 収集には費用がかかるが、空中レーザー走査(ALS)センサーのデータはAGBと高い相関関係にある。 そこで本研究では,ALSデータに基づくAGB予測をSARデータの応答変数として逐次モデリング方式で提案する。 これにより、トレーニングデータの量が劇的に増加する。 SAR強度とALS予測AGBの回帰関数をモデル化するために,条件付き生成逆数ネットワーク(cGAN)の利用を提案する。 Pix2Pix畳み込みニューラルネットワーク。 これにより、既存のALSベースの AGB 予測マップのレクリエーションが可能になる。 同じ領域で訓練された従来の非逐次回帰モデルから得られたALSベースのAGB予測に対して、生成したALSベースのAGB予測を質的かつ定量的に評価する。 その結果,提案アーキテクチャは実際のデータの特徴を捉えていることがわかった。 これは、ALS誘導生成モデルを使用することが、SAR強度からのAGB予測に有望な道であることを示唆している。 この領域に関するさらなる研究は、AGBの大規模かつ低コストな予測を提供する可能性を持っている。

This paper studies construction of above-ground biomass (AGB) prediction maps from synthetic aperture radar (SAR) intensity images. The purpose is to improve traditional regression models based on SAR intensity, trained with a limited amount of AGB in situ measurements. Although it is costly to collect, data from airborne laser scanning (ALS) sensors are highly correlated with AGB. Therefore, we propose using AGB predictions based on ALS data as surrogate response variables for SAR data in a sequential modelling fashion. This increases the amount of training data dramatically. To model the regression function between SAR intensity and ALS-predicted AGB we propose to utilise a conditional generative adversarial network (cGAN), i.e. the Pix2Pix convolutional neural network. This enables the recreation of existing ALS-based AGB prediction maps. The generated synthesised ALS-based AGB predictions are evaluated qualitatively and quantitatively against ALS-based AGB predictions retrieved from a traditional non-sequential regression model trained in the same area. Results show that the proposed architecture manages to capture characteristics of the actual data. This suggests that the use of ALS-guided generative models is a promising avenue for AGB prediction from SAR intensity. Further research on this area has the potential of providing both large-scale and low-cost predictions of AGB.
翻訳日:2021-07-04 22:06:21 公開日:2021-06-21
# 消費者向けデバイスでリアルタイムaiにリーチする方法 プログラマブルでカスタムなアーキテクチャのためのソリューション

How to Reach Real-Time AI on Consumer Devices? Solutions for Programmable and Custom Architectures ( http://arxiv.org/abs/2106.15021v1 )

ライセンス: Link先を確認
Stylianos I. Venieris and Ioannis Panopoulos and Ilias Leontiadis and Iakovos S. Venieris(参考訳) ディープニューラルネットワーク(DNN)の先例のない性能は、オブジェクトや音声認識など、さまざまな人工知能(AI)推論タスクにおいて大きな進歩をもたらしている。 それでも、大きな計算コスト、複数のパフォーマンス目標、ハードウェアの不均一性、そして高い精度の必要性は、野生の様々な組み込みデバイスとモバイルデバイスをまたいだdnnのデプロイに重大な問題をもたらします。 そのため、消費者デバイスにまたがって最先端のディープラーニングアルゴリズムが主流であるのをまだ見ていない。 本稿では,効率的なAIシステムのための設計手法の配列を提示することにより,ゲーム変更の可能性に対する予備的な回答を提供する。 まず、プログラム可能なプロセッサとカスタムアクセラレータの両方を対象として、主要な障害を調べます。 次に,クロススタックアプローチによるリアルタイムパフォーマンスを実現するための多様な手法を提案する。 これらはモデル、システム、ハードウェアレベルの技術、それらの組み合わせにまたがる。 本研究は,モバイルハードウェアを過大評価しないAIシステムの実例を示すとともに,推論精度を向上させる方法を示す。 さらに,マルチDNNシステムなどの次世代AIアプリケーションにおいて,カスタムASICおよびFPGAベースのアクセラレータが実現可能な要素であることを示す。 これらの結果は、より堅牢で効率的な方法で、ディープラーニングの最新の進歩をユーザに近づけるために、さまざまなクロススタックソリューションを最もうまく組み合わせる方法に関する、さらなる調査の必要性を浮き彫りにしている。

The unprecedented performance of deep neural networks (DNNs) has led to large strides in various Artificial Intelligence (AI) inference tasks, such as object and speech recognition. Nevertheless, deploying such AI models across commodity devices faces significant challenges: large computational cost, multiple performance objectives, hardware heterogeneity and a common need for high accuracy, together pose critical problems to the deployment of DNNs across the various embedded and mobile devices in the wild. As such, we have yet to witness the mainstream usage of state-of-the-art deep learning algorithms across consumer devices. In this paper, we provide preliminary answers to this potentially game-changing question by presenting an array of design techniques for efficient AI systems. We start by examining the major roadblocks when targeting both programmable processors and custom accelerators. Then, we present diverse methods for achieving real-time performance following a cross-stack approach. These span model-, system- and hardware-level techniques, and their combination. Our findings provide illustrative examples of AI systems that do not overburden mobile hardware, while also indicating how they can improve inference accuracy. Moreover, we showcase how custom ASIC- and FPGA-based accelerators can be an enabling factor for next-generation AI applications, such as multi-DNN systems. Collectively, these results highlight the critical need for further exploration as to how the various cross-stack solutions can be best combined in order to bring the latest advances in deep learning close to users, in a robust and efficient manner.
翻訳日:2021-07-04 19:46:51 公開日:2021-06-21
# 3次元LiDARセマンティックセグメンテーションのための知覚認識型マルチセンサフュージョン

Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation ( http://arxiv.org/abs/2106.15277v1 )

ライセンス: Link先を確認
Zhuangwei Zhuang, Rong Li, Yuanqing Li, Kui Jia, Qicheng Wang, Mingkui Tan(参考訳) 3dlidar(light detection and ranging)ベースのセマンティックセグメンテーションは、自動運転やロボティクスなど、多くのアプリケーションのシーン理解において重要である。 例えば、RGBカメラとLiDARを備えた自動運転車では、さまざまなセンサーから補完情報を融合して、堅牢で正確なセグメンテーションを行うことが不可欠である。 しかし、既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない可能性がある。 本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討し,RGB画像からの外観情報と点雲からの空間深度情報という2つのモードからの知覚情報を利用する。 この目的のために、最初にカメラ座標に点雲を投影し、RGB画像の空間深度情報を提供する。 そこで本研究では,2つのモダリティから特徴を分離して抽出し,その特徴を効果的な残留型融合モジュールで融合する2ストリームネットワークを提案する。 さらに,この2つのモードの知覚的差異を計測するために,追加の知覚認識損失を提案する。 2つのベンチマークデータセットに対する大規模な実験は,本手法の優位性を示している。 例えば、nuScenesでは、PMFはmIoUで最先端の手法よりも0.8%優れています。

3D LiDAR (light detection and ranging) based semantic segmentation is important in scene understanding for many applications, such as auto-driving and robotics. For example, for autonomous cars equipped with RGB cameras and LiDAR, it is crucial to fuse complementary information from different sensors for robust and accurate segmentation. Existing fusion-based methods, however, may not achieve promising performance due to the vast difference between two modalities. In this work, we investigate a collaborative fusion scheme called perception-aware multi-sensor fusion (PMF) to exploit perceptual information from two modalities, namely, appearance information from RGB images and spatio-depth information from point clouds. To this end, we first project point clouds to the camera coordinates to provide spatio-depth information for RGB images. Then, we propose a two-stream network to extract features from the two modalities, separately, and fuse the features by effective residual-based fusion modules. Moreover, we propose additional perception-aware losses to measure the great perceptual difference between the two modalities. Extensive experiments on two benchmark data sets show the superiority of our method. For example, on nuScenes, our PMF outperforms the state-of-the-art method by 0.8% in mIoU.
翻訳日:2021-07-04 19:46:27 公開日:2021-06-21
# 定量的サセプティビリティマッピングのためのCNNにおけるパディングの改善

Improved Padding in CNNs for Quantitative Susceptibility Mapping ( http://arxiv.org/abs/2106.15331v1 )

ライセンス: Link先を確認
Juan Liu(参考訳) 近年,背景領域の除去,フィールド・トゥ・ソース・インバージョン,単一ステップのQSM再構成など,QSMデータ処理のためのディープラーニング手法が提案されている。 しかしながら、畳み込みニューラルネットワーク(cnns)で使用される従来のパディング機構は、特にqsmバックグラウンドフィールドの削除や、関心量の境界で非常に大きな値を持つ全フィールドからの推論を必要とする1ステップのqsmにおいて、空間的アーティファクトを導入することができる。 そこで本研究では,隣接する有効ボクセルを用いて,ニューラルネットワークのボリューム境界における特徴マップの無効ボクセルを推定する改良パディング手法を提案する。 シミュレーションおよびin-vivoデータを用いた研究により,提案パディングにより推定精度が大幅に向上し,背景フィールド除去,フィールド・ソース・インバージョン,シングルステップQSM再構成といったタスクにおける成果の成果が削減された。

Recently, deep learning methods have been proposed for quantitative susceptibility mapping (QSM) data processing: background field removal, field-to-source inversion, and single-step QSM reconstruction. However, the conventional padding mechanism used in convolutional neural networks (CNNs) can introduce spatial artifacts, especially in QSM background field removal and single-step QSM which requires inference from total fields with extreme large values at the edge boundaries of volume of interest. To address this issue, we propose an improved padding technique which utilizes the neighboring valid voxels to estimate the invalid voxels of feature maps at volume boundaries in the neural networks. Studies using simulated and in-vivo data show that the proposed padding greatly improves estimation accuracy and reduces artifacts in the results in the tasks of background field removal, field-to-source inversion, and single-step QSM reconstruction.
翻訳日:2021-07-04 19:45:12 公開日:2021-06-21
# 自己認識型アンサンブル変換器:地球系モデルのためのニューラルネットワークにおけるアンサンブル相互作用の表現

Self-Attentive Ensemble Transformer: Representing Ensemble Interactions in Neural Networks for Earth System Models ( http://arxiv.org/abs/2106.13924v1 )

ライセンス: Link先を確認
Tobias Sebastian Finn(参考訳) 地球系モデルからのデータを校正し、後処理する必要がある。 ニューラルネットワークを用いた新しいメンバーバイメンバーポストプロセッシング手法を提案する。 私は、アンサンブルデータ同化と自己アテンションからアイデアをブリッジし、その結果、自己アテンション型アンサンブルトランスフォーマーとなる。 ここでは、アンサンブル部材間の相互作用を付加物および動的自己着脱部品として表現する。 概念実証として、グローバルECMWFアンサンブル予測は、ERA5の再解析から2m温度場に回帰される。 アンサンブル変換器は、アンサンブル拡散を校正し、アンサンブルから追加情報を抽出できることを実証する。 さらに、アンサンブル変換器は、多変量及び空間コヒーレントアンサンブル部材を直接出力する。 したがって、自己組織化とトランスフォーマー技術は、ニューラルネットワークによるアンサンブルデータのメンバごとの後処理に欠けている部分である。

Ensemble data from Earth system models has to be calibrated and post-processed. I propose a novel member-by-member post-processing approach with neural networks. I bridge ideas from ensemble data assimilation with self-attention, resulting into the self-attentive ensemble transformer. Here, interactions between ensemble members are represented as additive and dynamic self-attentive part. As proof-of-concept, global ECMWF ensemble forecasts are regressed to 2-metre-temperature fields from the ERA5 reanalysis. I demonstrate that the ensemble transformer can calibrate the ensemble spread and extract additional information from the ensemble. Furthermore, the ensemble transformer directly outputs multivariate and spatially-coherent ensemble members. Therefore, self-attention and the transformer technique can be a missing piece for a member-by-member post-processing of ensemble data with neural networks.
翻訳日:2021-07-04 19:44:54 公開日:2021-06-21
# boggart: モデルに依存しない取り込み処理によるレトロスペクティブビデオ分析の促進

Boggart: Accelerating Retrospective Video Analytics via Model-Agnostic Ingest Processing ( http://arxiv.org/abs/2106.15315v1 )

ライセンス: Link先を確認
Neil Agarwal, Ravi Netravali(参考訳) ビデオデータセット上での振り返りクエリへの迅速な応答は、考慮すべきフレームの数が多く、それぞれに畳み込みニューラルネットワーク(convolutional neural network:cnns)を実行するコストが高いため、難しい。 自然な解決策は、ビデオが取り込まれる前に必要な計算のサブセットを実行することである。 しかし、既存のIngest-timeシステムは、将来のクエリで使用される特定のCNNの知識を必要とする。 本稿では,モデルに依存しない方法で摂食速度を向上するリフレクションビデオ解析システムBoggartを提案する。 我々の根底にある洞察は、従来のコンピュータビジョン(CV)アルゴリズムは、幅広いCNNで多様なクエリを高速化するために使用できる計算を行うことができるということである。 そのためにboggartは、さまざまなモーショントラッキングアルゴリズムを慎重に採用して、潜在的なオブジェクトとそのフレーム間の軌跡を識別している。 そこでBogart氏は,クエリ時に,目的とする精度を満たすために必要な最小のCNN結果のサンプル収集に,(1)CV-とCNN生成出力間の不一致を効率的に検出するクラスタリング戦略,(2)各トラジェクトリに沿って標本化結果を安全に拡張するための精度保存伝搬手法のセット,という,いくつかの新しい手法を用いた。 多くのビデオ、CNN、クエリにわたって、Boggartは、CNNを使用して(フレームの3〜54%で)常に精度の目標を満たしている。

Delivering fast responses to retrospective queries on video datasets is difficult due to the large number of frames to consider and the high costs of running convolutional neural networks (CNNs) on each one. A natural solution is to perform a subset of the necessary computations ahead of time, as video is ingested. However, existing ingest-time systems require knowledge of the specific CNN that will be used in future queries -- a challenging requisite given the evergrowing space of CNN architectures and training datasets/methodologies. This paper presents Boggart, a retrospective video analytics system that delivers ingest-time speedups in a model-agnostic manner. Our underlying insight is that traditional computer vision (CV) algorithms are capable of performing computations that can be used to accelerate diverse queries with wide-ranging CNNs. Building on this, at ingest-time, Boggart carefully employs a variety of motion tracking algorithms to identify potential objects and their trajectories across frames. Then, at query-time, Boggart uses several novel techniques to collect the smallest sample of CNN results required to meet the target accuracy: (1) a clustering strategy to efficiently unearth the inevitable discrepancies between CV- and CNN-generated outputs, and (2) a set of accuracy-preserving propagation techniques to safely extend sampled results along each trajectory. Across many videos, CNNs, and queries Boggart consistently meets accuracy targets while using CNNs sparingly (on 3-54% of frames).
翻訳日:2021-07-04 19:44:43 公開日:2021-06-21
# 長期的関連学習

Long short-term relevance learning ( http://arxiv.org/abs/2106.12694v1 )

ライセンス: Link先を確認
Bram van de Weg, Lars Greve, Bojana Rosic(参考訳) 従来の長期記憶(LSTM)ニューラルネットワークにおいて、事前知識と測定の不確実性を組み込むため、ネットワークアーキテクチャに効率的なスパースベイズ訓練アルゴリズムを導入している。 提案手法は,従来のLSTM法とは対照的に,関連する神経接続を自動的に決定し,適応する。 その柔軟性のため、新しいLSTMスキームは過度に適合する傾向が低く、したがってより小さなデータセットを用いて時間依存の解を近似することができる。 構造非線形有限要素応用において,自己制御フレームワークは適切なネットワークアーキテクチャとサイズに関する事前知識を必要とせず,合理的な計算コストで精度を満足できることを示す。

To incorporate prior knowledge as well as measurement uncertainties in the traditional long short term memory (LSTM) neural networks, an efficient sparse Bayesian training algorithm is introduced to the network architecture. The proposed scheme automatically determines relevant neural connections and adapts accordingly, in contrast to the classical LSTM solution. Due to its flexibility, the new LSTM scheme is less prone to overfitting, and hence can approximate time dependent solutions by use of a smaller data set. On a structural nonlinear finite element application we show that the self-regulating framework does not require prior knowledge of a suitable network architecture and size, while ensuring satisfying accuracy at reasonable computational cost.
翻訳日:2021-06-25 15:18:12 公開日:2021-06-21
# ユーティリティ型足場によるピアノ練習の最適化

Optimizing piano practice with a utility-based scaffold ( http://arxiv.org/abs/2106.12937v1 )

ライセンス: Link先を確認
Alexandra Moringen, S\"oren R\"uttgers, Luisa Zintgraf, Jason Friedman, Helge Ritter(参考訳) ピアノを弾くことを学ぶ典型的な部分は、手の調整、正しい姿勢、正しいタイミングといったスキルの個々の次元に焦点を当てた一連の練習単位の進行である。 理想的には、ピアノを弾くことを学ぶ学習者の進歩を最大化するために、特定の練習方法に焦点を当てるべきである。 私たちはそれぞれ異なる学習をしており、ピアノの練習タスクやメソッドには選択肢がたくさんあるので、練習タスクのセットは人間の学習者に動的に適応すべきである。 しかし、人間教師が個々の実践を指導することは、時間がかかり、費用がかかり、常に利用できるとは限らないため、必ずしも実現可能であるとは限らない。 代わりに、いわゆるプラクティスモードであるプラクティスメソッドの領域で最適化することを提案します。 提案した最適化プロセスは,学習者のスキルと学習履歴を考慮に入れたものである。 本稿では、最も期待できる実用性(すなわちピアノ演奏スキルの向上)を持つ練習モードを選択することにより、学習プロセスを通じて学習者を導くためのモデリングフレームワークを提案する。 そこで本研究では,ガウス過程に基づく人間学習者実用モデルを提案し,シミュレーション学習者の実例としてモデル学習とその実践足場への適用例を示す。

A typical part of learning to play the piano is the progression through a series of practice units that focus on individual dimensions of the skill, such as hand coordination, correct posture, or correct timing. Ideally, a focus on a particular practice method should be made in a way to maximize the learner's progress in learning to play the piano. Because we each learn differently, and because there are many choices for possible piano practice tasks and methods, the set of practice tasks should be dynamically adapted to the human learner. However, having a human teacher guide individual practice is not always feasible since it is time consuming, expensive, and not always available. Instead, we suggest to optimize in the space of practice methods, the so-called practice modes. The proposed optimization process takes into account the skills of the individual learner and their history of learning. In this work we present a modeling framework to guide the human learner through the learning process by choosing practice modes that have the highest expected utility (i.e., improvement in piano playing skill). To this end, we propose a human learner utility model based on a Gaussian process, and exemplify the model training and its application for practice scaffolding on an example of simulated human learners.
翻訳日:2021-06-25 14:59:47 公開日:2021-06-21
# 自己教師付き学習を用いたコヒーレント・超解像レーダビームフォーミング

Coherent, super resolved radar beamforming using self-supervised learning ( http://arxiv.org/abs/2106.13085v1 )

ライセンス: Link先を確認
Itai Orr, Moshik Cohen, Harel Damari, Meir Halachmi, Zeev Zalevsky(参考訳) 高解像度のレーダーセンサーは、自動運転車のニーズと規制を満たすために必要である。 しかし、現在のレーダーシステムは角分解能が限られており、技術的ギャップが生じる。 物理的なチャネルの数を増やし、システムの複雑さを高め、感度の高いキャリブレーションプロセスが必要となり、ハードウェアの故障に対する堅牢性が低下し、コストが高まることで、角分解能を改善する業界と学術のトレンド。 自己監視(r2-s2)を用いたレーダ信号再構成(radar signal reconstruction)という別の手法を提案し,物理チャネル数を増加させることなく,レーダアレイの角分解能を大幅に向上させる。 R2-S2は、複雑なレンジドップラーレーダーデータを入力として使用するディープニューラルネットワーク(DNN)を、複数のデータ表現空間で動作するロス関数を用いて自己教師付き手法で訓練したアルゴリズム群である。 晴天・雨天時の都市・高速道路環境における実際のデータセットを用いて,角分解能の4倍の改善を実証した。

High resolution automotive radar sensors are required in order to meet the high bar of autonomous vehicles needs and regulations. However, current radar systems are limited in their angular resolution causing a technological gap. An industry and academic trend to improve angular resolution by increasing the number of physical channels, also increases system complexity, requires sensitive calibration processes, lowers robustness to hardware malfunctions and drives higher costs. We offer an alternative approach, named Radar signal Reconstruction using Self Supervision (R2-S2), which significantly improves the angular resolution of a given radar array without increasing the number of physical channels. R2-S2 is a family of algorithms which use a Deep Neural Network (DNN) with complex range-Doppler radar data as input and trained in a self-supervised method using a loss function which operates in multiple data representation spaces. Improvement of 4x in angular resolution was demonstrated using a real-world dataset collected in urban and highway environments during clear and rainy weather conditions.
翻訳日:2021-06-25 14:55:43 公開日:2021-06-21
# 人工知能による次世代Bitcoin価格予測

Next-Day Bitcoin Price Forecast Based on Artificial intelligence Methods ( http://arxiv.org/abs/2106.12961v1 )

ライセンス: Link先を確認
Liping Yang(参考訳) 近年、bitcoinの価格予測は研究者や投資家の関心を惹きつけている。 しかし、これまでの研究の正確性は十分ではない。 機械学習とディープラーニングの手法はこの領域で強い予測能力があることが証明されている。 本稿では,Ensemble Empirical Mode Decomposition (EEMD) とLong Short-term memory (LSTM) というディープラーニング手法を組み合わせて,翌日のBitcoin価格予測の問題を調査する手法を提案する。

In recent years, Bitcoin price prediction has attracted the interest of researchers and investors. However, the accuracy of previous studies is not well enough. Machine learning and deep learning methods have been proved to have strong prediction ability in this area. This paper proposed a method combined with Ensemble Empirical Mode Decomposition (EEMD) and a deep learning method called long short-term memory (LSTM) to research the problem of next-day Bitcoin price forecast.
翻訳日:2021-06-25 14:52:52 公開日:2021-06-21
# 知能機械学習による支配的動的過程の客観的発見

Objective discovery of dominant dynamical processes with intelligible machine learning ( http://arxiv.org/abs/2106.12963v1 )

ライセンス: Link先を確認
Bryan E. Kaiser, Juan A. Saenz, Maike Sonnewald, and Daniel Livescu(参考訳) ビッグデータの出現は、気候科学から医学まで、自然現象の発見に大きな可能性を秘めています。 既存の理論は、しばしば簡潔にサルエント現象を記述できず、進歩は、探索を誘導し焦点を合わせるための動的レジームのアドホックな定義に大きく依存している。 本稿では,動的レジームの同定を最適化問題として定式化する形式的定義を提案し,その目的関数を提案する。 さらに,事前知識やアドホックな定義の必要性を排除した教師なし学習フレームワークを提案する。その代わりに,ユーザは適切なクラスタリングと次元削減アルゴリズムのみを選択する必要があり,この選択は,提案した目的関数を用いてガイドすることができる。 海洋力学, 腫瘍血管新生, 乱流境界層から引き出された問題を用いて, その適用性を示す。 我々の手法は、物理科学を前進させる可能性を秘め、動的システム内でセレンディピティーな発見を可能にする、偏見のないデータ探索への一歩である。

The advent of big data has vast potential for discovery in natural phenomena ranging from climate science to medicine, but overwhelming complexity stymies insight. Existing theory is often not able to succinctly describe salient phenomena, and progress has largely relied on ad hoc definitions of dynamical regimes to guide and focus exploration. We present a formal definition in which the identification of dynamical regimes is formulated as an optimization problem, and we propose an intelligible objective function. Furthermore, we propose an unsupervised learning framework which eliminates the need for a priori knowledge and ad hoc definitions; instead, the user need only choose appropriate clustering and dimensionality reduction algorithms, and this choice can be guided using our proposed objective function. We illustrate its applicability with example problems drawn from ocean dynamics, tumor angiogenesis, and turbulent boundary layers. Our method is a step towards unbiased data exploration that allows serendipitous discovery within dynamical systems, with the potential to propel the physical sciences forward.
翻訳日:2021-06-25 14:47:36 公開日:2021-06-21
# (参考訳) 深いガウスのプロセス: サーベイ

Deep Gaussian Processes: A Survey ( http://arxiv.org/abs/2106.12135v1 )

ライセンス: CC0 1.0
Kalvik Jakkala(参考訳) ガウス過程はベイズ学習における主要なアプローチの一つである。 このアプローチは大きな成功を収めた多くの問題に適用されているが、いくつかの基本的な制限がある。 文学における複数の方法がこれらの制限に対処している。 しかし、現時点では、そのトピックに関する包括的な調査は行われていない。 既存の調査のほとんどは、ガウス過程とその微分の特定の変種のみに焦点を当てている。 この調査では、ガウス過程を使うためのコアモチベーション、数学的定式化、制限、そしてその制限に対処するために長年に渡り栄えてきた研究テーマについて詳述する。 さらに、特に研究分野として、深層ガウス過程(dgps)があり、過去10年間で大幅に改善されている。 この研究分野の最前線を前進させた重要な出版物を概説する。 最後に,今後の課題と研究の方向性に関する簡単な議論が最後に提示される。

Gaussian processes are one of the dominant approaches in Bayesian learning. Although the approach has been applied to numerous problems with great success, it has a few fundamental limitations. Multiple methods in literature have addressed these limitations. However, there has not been a comprehensive survey of the topics as of yet. Most existing surveys focus on only one particular variant of Gaussian processes and their derivatives. This survey details the core motivations for using Gaussian processes, their mathematical formulations, limitations, and research themes that have flourished over the years to address said limitations. Furthermore, one particular research area is Deep Gaussian Processes (DGPs), it has improved substantially in the past decade. The significant publications that advanced the forefront of this research area are outlined in their survey. Finally, a brief discussion on open problems and research directions for future work is presented at the end.
翻訳日:2021-06-25 04:02:09 公開日:2021-06-21
# (参考訳) 食生活評価のためのビジョンベースアプローチのレビュー

A Review of the Vision-based Approaches for Dietary Assessment ( http://arxiv.org/abs/2106.11776v1 )

ライセンス: CC BY 4.0
Ghalib Tahir and Chu Kiong Loo(参考訳) 現代の世界では肥満などの食事関連の問題が懸念されている。 現在の傾向が続くと、肥満は高血圧、不規則な血糖値、心臓発作のリスクの増加といった他の慢性疾患と関連しているため、一般的に生活の質が著しく影響を受ける可能性が高い。 これらの問題の主な原因は、生活習慣の悪い選択と不健康な食事習慣であり、砂糖、脂肪、炭水化物など一部の食品群に重点を置いている。 この点において、コンピュータによる食品認識は、食事摂取量を評価し、人々がより健康的な選択をするのに役立つ自動視覚ベースの方法を提供する。 そこで,本論文では,食品認識のための視覚的手法について,その精度,性能,および既存のモデルを評価するための一般的な食品データベースの利用について概説する。 この作業は、この分野における今後の課題をさらに強調することを目的としている。 食品認識のための標準ベンチマークの開発と連続学習手法を用いた新しい高品質な研究が推奨されている。

Dietary-related problems such as obesity are a growing concern in todays modern world. If the current trend continues, it is most likely that the quality of life, in general, is significantly affected since obesity is associated with other chronic diseases such as hypertension, irregular blood sugar levels, and increased risk of heart attacks. The primary cause of these problems is poor lifestyle choices and unhealthy dietary habits, with emphasis on a select few food groups such as sugars, fats, and carbohydrates. In this regard, computer-based food recognition offers automatic visual-based methods to assess dietary intake and help people make healthier choices. Thus, the following paper presents a brief review of visual-based methods for food recognition, including their accuracy, performance, and the use of popular food databases to evaluate existing models. The work further aims to highlight future challenges in this area. New high-quality studies for developing standard benchmarks and using continual learning methods for food recognition are recommended.
翻訳日:2021-06-24 07:01:28 公開日:2021-06-21
# (参考訳) 深層学習への取り組み

Dive into Deep Learning ( http://arxiv.org/abs/2106.11342v1 )

ライセンス: CC BY-SA 4.0
Aston Zhang, Zachary C. Lipton, Mu Li, Alexander J. Smola(参考訳) このオープンソースの本は、ディープラーニングをアプローチ可能にし、読者にコンセプト、コンテキスト、コードを教える試みを示しています。 書籍全体はjupyter notebooksに書き込まれており、展示物や数学、インタラクティブな例を自己完結したコードにシームレスに統合している。 私たちの目標は、(i)誰もが自由に利用できるリソースを提供することです。(ii)実際に応用機械学習科学者になるための道のりの出発点を提供するのに十分な技術的深さを提供すること(iii)実際に問題を解決する方法を示す実行可能なコードを含むこと(iv)私たちとコミュニティの双方による迅速な更新を可能にすること(v)技術的な詳細を対話的に議論し、質問に答えるフォーラムによって補完されることです。

This open-source book represents our attempt to make deep learning approachable, teaching readers the concepts, the context, and the code. The entire book is drafted in Jupyter notebooks, seamlessly integrating exposition figures, math, and interactive examples with self-contained code. Our goal is to offer a resource that could (i) be freely available for everyone; (ii) offer sufficient technical depth to provide a starting point on the path to actually becoming an applied machine learning scientist; (iii) include runnable code, showing readers how to solve problems in practice; (iv) allow for rapid updates, both by us and also by the community at large; (v) be complemented by a forum for interactive discussion of technical details and to answer questions.
翻訳日:2021-06-24 06:35:45 公開日:2021-06-21
# (参考訳) 要約データセットをどの程度知っていますか?

How well do you know your summarization datasets? ( http://arxiv.org/abs/2106.11388v1 )

ライセンス: CC BY 4.0
Priyam Tejaswin, Dhruv Naik, Pengfei Liu(参考訳) 最先端の要約システムは、Webから取り除かれた大量のデータセットに基づいて訓練され、評価される。 その傾向にもかかわらず、基盤となる特性(データノイズ、要約の複雑さなど)についてはほとんどわかっていません。 これらのデータセットがシステムパフォーマンスやROUGEのような自動メトリクスの信頼性にどのように影響するか。 本研究では,3つの一般的な要約データセットから600個のサンプルを手動で解析する。 本研究は,様々なノイズタイプ(事実や実体を欠く)と要約難度(抽出的,抽象的)をキャプチャする6クラス型タイポロジーによって駆動される。 私たちは27の最先端の要約モデルと5つの一般的なメトリクスを徹底的に分析し、主要な洞察を報告します。 2) モデルの性能とメトリクスの信頼性は, サンプルの複雑さに依存する。 3) 忠実な要約は,参照の多様性が乏しいため,スコアが低いことが多い。 コード、注釈付きデータ、モデル出力をリリースします。

State-of-the-art summarization systems are trained and evaluated on massive datasets scraped from the web. Despite their prevalence, we know very little about the underlying characteristics (data noise, summarization complexity, etc.) of these datasets, and how these affect system performance and the reliability of automatic metrics like ROUGE. In this study, we manually analyze 600 samples from three popular summarization datasets. Our study is driven by a six-class typology which captures different noise types (missing facts, entities) and degrees of summarization difficulty (extractive, abstractive). We follow with a thorough analysis of 27 state-of-the-art summarization models and 5 popular metrics, and report our key insights: (1) Datasets have distinct data quality and complexity distributions, which can be traced back to their collection process. (2) The performance of models and reliability of metrics is dependent on sample complexity. (3) Faithful summaries often receive low scores because of the poor diversity of references. We release the code, annotated data and model outputs.
翻訳日:2021-06-24 06:33:02 公開日:2021-06-21
# (参考訳) 中分解能衛星画像を用いたスラムマッピング:マルチスペクトルデータとグレイレベルの共起行列法の比較解析

Mapping Slums with Medium Resolution Satellite Imagery: a Comparative Analysis of Multi-Spectral Data and Grey-level Co-occurrence Matrix Techniques ( http://arxiv.org/abs/2106.11395v1 )

ライセンス: CC BY 4.0
Agatha C. H. de Mattos, Gavin McArdle, Michela Bertolotto(参考訳) 人口は世界のスラムに10億人以上いると推定されている。 しかし、スラム領域の位置を検出する最先端技術は高解像度の衛星画像を用いており、取得と処理に費用がかかる。 その結果、研究者は自由でオープンな中分解能衛星画像の利用に目を向け始めた。 しかし、これらの画像データでどのデータ準備と機械学習アプローチが最も適しているかについては、明確なコンセンサスがない。 本稿では,空間分解能10mのラベル付きSentinel-2画像からなるオープンアクセスデータセット上で,マルチスペクトルデータとグレーレベルの共起行列特徴抽出の2つの手法を評価する。 両手法を標準相関林分類器と組み合わせた。 その結果, 灰色レベルの共起行列は4都市ごとのマルチスペクトルデータよりも優れていた。 スラムクラスの平均精度は97%であり、結合点の平均交点率は94%であり、マルチスペクトルデータは75%と64%であった。 これらの結果から,10m以上の解像度を持つオープンアクセス衛星画像は,都市内のスラムの検出など開発目標の追跡に適している可能性が示唆された。

The UN-Habitat estimates that over one billion people live in slums around the world. However, state-of-the-art techniques to detect the location of slum areas employ high-resolution satellite imagery, which is costly to obtain and process. As a result, researchers have started to look at utilising free and open-access medium resolution satellite imagery. Yet, there is no clear consensus on which data preparation and machine learning approaches are the most appropriate to use with such imagery data. In this paper, we evaluate two techniques (multi-spectral data and grey-level co-occurrence matrix feature extraction) on an open-access dataset consisting of labelled Sentinel-2 images with a spatial resolution of 10 meters. Both techniques were paired with a canonical correlation forests classifier. The results show that the grey-level co-occurrence matrix performed better than multi-spectral data for all four cities. It had an average accuracy for the slum class of 97% and a mean intersection over union of 94%, while multi-spectral data had 75% and 64% for the respective metrics. These results indicate that open-access satellite imagery with a resolution of at least 10 meters may be suitable for keeping track of development goals such as the detection of slums in cities.
翻訳日:2021-06-24 06:12:53 公開日:2021-06-21
# (参考訳) proのように学ぶ: 理論から大きさへの規範

Learn Like The Pro: Norms from Theory to Size Neural Computation ( http://arxiv.org/abs/2106.11409v1 )

ライセンス: CC BY 4.0
Margaret Trautner and Ziwei Li and Sai Ravela(参考訳) ニューラルネットワークの最適設計は多くのアプリケーションにおいて重要な問題である。 本稿では, 非線形非線形性を持つ力学系が, それらをエミュレートする神経系の設計にどう影響するかを考察する。 本稿では,学習力学の近平衡挙動を定量化する学習可能性尺度とその関連特徴について述べる。 参照システムの等価パラメータ推定メトリックとニューラルネットワークの学習可能性の同等性は、ネットワーク構造の境界を確立する。 このようにして、理論からの規範は、神経構造のよい最初の推測を提供し、さらにデータに適応するかもしれない。 提案手法ではトレーニングデータもトレーニングデータも不要である。 これは、連続あるいは離散時間多項式ダイナミクスを模倣する乗算ノードを持つニューラルネットワークのクラスに対する正確なサイズを示す。 また、シミュレーションによる評価と整合する古典的なフィードフォワードネットワークに対して、比較的狭いサイズ制限を提供する。

The optimal design of neural networks is a critical problem in many applications. Here, we investigate how dynamical systems with polynomial nonlinearities can inform the design of neural systems that seek to emulate them. We propose a Learnability metric and its associated features to quantify the near-equilibrium behavior of learning dynamics. Equating the Learnability of neural systems with equivalent parameter estimation metric of the reference system establishes bounds on network structure. In this way, norms from theory provide a good first guess for neural structure, which may then further adapt with data. The proposed approach neither requires training nor training data. It reveals exact sizing for a class of neural networks with multiplicative nodes that mimic continuous- or discrete-time polynomial dynamics. It also provides relatively tight lower size bounds for classical feed-forward networks that is consistent with simulated assessments.
翻訳日:2021-06-24 06:02:37 公開日:2021-06-21
# (参考訳) 帰納的論理プログラミングを用いたモデルに基づく階層型強化学習

Interpretable Model-based Hierarchical Reinforcement Learning using Inductive Logic Programming ( http://arxiv.org/abs/2106.11417v1 )

ライセンス: CC BY 4.0
Duo Xu, Faramarz Fekri(参考訳) 近年、深層強化学習は幅広いアプリケーションで大きな成功を収めている。 しかし、データ効率と解釈性の欠如が有名である。 データ効率は環境とのインタラクションが高価であるため重要である。 さらに、解釈可能性はブラックボックススタイルの深層RLモデルの透明性を高め、ユーザからの信頼を得ることができる。 本研究では,シンボリックrlを用いた新しい階層型フレームワークを提案する。シンボリック遷移モデルを用いて,データ効率を向上させるとともに,学習方針の解釈可能性を導入する。 このフレームワークは、ハイレベルエージェント、サブタスクソルバ、シンボル遷移モデルで構成される。 状態遷移に関する事前の知識を仮定することなく、私たちはインダクティブ論理プログラミング(ILP)を採用して、シンボル状態遷移のルールを学び、解釈可能性を導入し、学習した振る舞いをユーザに理解できるようにする。 実験の結果,提案手法は従来手法に比べて約30~40\%のデータ効率が向上することを確認した。

Recently deep reinforcement learning has achieved tremendous success in wide ranges of applications. However, it notoriously lacks data-efficiency and interpretability. Data-efficiency is important as interacting with the environment is expensive. Further, interpretability can increase the transparency of the black-box-style deep RL models and hence gain trust from the users. In this work, we propose a new hierarchical framework via symbolic RL, leveraging a symbolic transition model to improve the data-efficiency and introduce the interpretability for learned policy. This framework consists of a high-level agent, a subtask solver and a symbolic transition model. Without assuming any prior knowledge on the state transition, we adopt inductive logic programming (ILP) to learn the rules of symbolic state transitions, introducing interpretability and making the learned behavior understandable to users. In empirical experiments, we confirmed that the proposed framework offers approximately between 30\% to 40\% more data efficiency over previous methods.
翻訳日:2021-06-24 05:50:53 公開日:2021-06-21
# (参考訳) 強固な強化学習のためのポリシー平滑化

Policy Smoothing for Provably Robust Reinforcement Learning ( http://arxiv.org/abs/2106.11420v1 )

ライセンス: CC BY 4.0
Aounon Kumar, Alexander Levine and Soheil Feizi(参考訳) ディープニューラルネットワーク(DNN)モデルに対する証明可能な対角ロバスト性の研究は、主に画像分類などの静的教師付き学習タスクに焦点を当てている。 しかし、DNNは強化学習(RL)のような現実世界の適応的なタスクで広く使われており、RLシステムは敵の攻撃に対して脆弱である。 敵RLの鍵となる課題は、攻撃者が以前の時間ステップでエージェントが使用する防衛戦略に適応し、将来のステップで攻撃を強化することである。 本研究では、入力のノルム有界逆摂動に対するRLの証明可能な堅牢性について検討する。 我々は,スムージングに基づく証明可能な防御に着目し,エージェントが各時間ステップでガウスノイズを観測に付加し,その入力の敵対的摂動に対する感受性を低下させる政策平滑化を提案する。 我々の主な理論的貢献は、ある時点での対向摂動が、現在の観測と過去の観測と状態の確率関数であり、また、以前に観察された行動であるナイマン・ピアソン・レムマの適応版を証明することである。 この補題を用いて,画像分類の静的設定におけるランダム化スムース化によるロバストネス証明をRLの動的設定に適用する。 我々は、平滑化ポリシーによって得られる総報酬が、入力の通常の境界付き逆摂動の下で一定の閾値を下回らないことを保証した証明書を生成する。 解析結果から得られたバウンダリを達成できる最悪のケース設定を構築することで,証明書が厳密であることを示す。 本手法は, 複雑な環境において, 敵攻撃に対する有効性を示す有意義な証明を得られることを示す。

The study of provable adversarial robustness for deep neural network (DNN) models has mainly focused on static supervised learning tasks such as image classification. However, DNNs have been used extensively in real-world adaptive tasks such as reinforcement learning (RL), making RL systems vulnerable to adversarial attacks. The key challenge in adversarial RL is that the attacker can adapt itself to the defense strategy used by the agent in previous time-steps to strengthen its attack in future steps. In this work, we study the provable robustness of RL against norm-bounded adversarial perturbations of the inputs. We focus on smoothing-based provable defenses and propose policy smoothing where the agent adds a Gaussian noise to its observation at each time-step before applying the policy network to make itself less sensitive to adversarial perturbations of its inputs. Our main theoretical contribution is to prove an adaptive version of the Neyman-Pearson Lemma where the adversarial perturbation at a particular time can be a stochastic function of current and previous observations and states as well as previously observed actions. Using this lemma, we adapt the robustness certificates produced by randomized smoothing in the static setting of image classification to the dynamic setting of RL. We generate certificates that guarantee that the total reward obtained by the smoothed policy will not fall below a certain threshold under a norm-bounded adversarial perturbation of the input. We show that our certificates are tight by constructing a worst-case setting that achieves the bounds derived in our analysis. In our experiments, we show that this method can yield meaningful certificates in complex environments demonstrating its effectiveness against adversarial attacks.
翻訳日:2021-06-24 05:32:14 公開日:2021-06-21
# (参考訳) Z2同期化のためのTAP自由エネルギーの局所凸性とAMP収束

Local convexity of the TAP free energy and AMP convergence for Z2-synchronization ( http://arxiv.org/abs/2106.11428v1 )

ライセンス: CC BY 4.0
Michael Celentano, Zhou Fan, Song Mei(参考訳) 我々は,高次元ベイズモデルのプロトタイプ例として,Z2同期化のためのTAPアプローチを用いた平均場変動ベイズ推定について検討した。 任意の信号強度$\lambda > 1$(弱回復しきい値)に対して、ベイズ後法の平均に近いタップ自由エネルギー汎関数の局所的な最小化が存在することを示す。 さらに、この最小化器の局所近傍におけるTAP自由エネルギーは強い凸である。 したがって、自然勾配/ミラー希薄アルゴリズムは、近似メッセージパッシング(amp)の有限個のイテレートによって得られる局所初期化から、この最小化への線形収束を達成することができる。 これにより、タップ自由エネルギーの最小化による高次元の変分推論の厳密な基礎が得られる。 また、AMPの有限サンプル収束を解析し、AMPは任意の$\lambda > 1$のTAP最小値において漸近的に安定であり、十分に大きな$\lambda$のスペクトル初期化からこの最小値に線型収束することを示す。 このような保証は状態進化解析によって得られる結果よりも強く、無限サンプル極限における固定数のAMP反復のみを記述する。 この証明は、kac-rice 公式と sudakov-fernique gaussian comparison inequality を組み合わせることで、局所近傍における強い凸性と安定性条件を満たす臨界点の複雑性を分析する。

We study mean-field variational Bayesian inference using the TAP approach, for Z2-synchronization as a prototypical example of a high-dimensional Bayesian model. We show that for any signal strength $\lambda > 1$ (the weak-recovery threshold), there exists a unique local minimizer of the TAP free energy functional near the mean of the Bayes posterior law. Furthermore, the TAP free energy in a local neighborhood of this minimizer is strongly convex. Consequently, a natural-gradient/mirror-descent algorithm achieves linear convergence to this minimizer from a local initialization, which may be obtained by a finite number of iterates of Approximate Message Passing (AMP). This provides a rigorous foundation for variational inference in high dimensions via minimization of the TAP free energy. We also analyze the finite-sample convergence of AMP, showing that AMP is asymptotically stable at the TAP minimizer for any $\lambda > 1$, and is linearly convergent to this minimizer from a spectral initialization for sufficiently large $\lambda$. Such a guarantee is stronger than results obtainable by state evolution analyses, which only describe a fixed number of AMP iterations in the infinite-sample limit. Our proofs combine the Kac-Rice formula and Sudakov-Fernique Gaussian comparison inequality to analyze the complexity of critical points that satisfy strong convexity and stability conditions within their local neighborhoods.
翻訳日:2021-06-24 04:58:44 公開日:2021-06-21
# (参考訳) 後方サンプリングによるインスタンス最適圧縮センシング

Instance-Optimal Compressed Sensing via Posterior Sampling ( http://arxiv.org/abs/2106.11438v1 )

ライセンス: CC BY 4.0
Ajil Jalal and Sushrut Karmalkar and Alexandros G. Dimakis and Eric Price(参考訳) 我々は、前者の支持が空間全体である場合(例えばスパースベクトルではなく)であっても、既知の事前分布から引き出された信号の圧縮センシングの計測複雑性を特徴付ける。 ガウス計測と信号のemph{any}事前分布について,後方サンプリング推定器が最適に近い回復保証を実現することを示す。 さらに、この結果は、分布推定(例えば、可逆生成モデルからの)がワッサーシュタイン距離の真の分布に近い限り、モデルミスマッチに対して堅牢である。 本稿では,Langevin dynamics を用いた深部生成前駆体の後方サンプリング推定器を実装し,MAP よりも精度の高い推定値が得られることを実証的に見出した。

We characterize the measurement complexity of compressed sensing of signals drawn from a known prior distribution, even when the support of the prior is the entire space (rather than, say, sparse vectors). We show for Gaussian measurements and \emph{any} prior distribution on the signal, that the posterior sampling estimator achieves near-optimal recovery guarantees. Moreover, this result is robust to model mismatch, as long as the distribution estimate (e.g., from an invertible generative model) is close to the true distribution in Wasserstein distance. We implement the posterior sampling estimator for deep generative priors using Langevin dynamics, and empirically find that it produces accurate estimates with more diversity than MAP.
翻訳日:2021-06-24 04:57:17 公開日:2021-06-21
# 単語埋め込みとそれ以上の会員推論

Membership Inference on Word Embedding and Beyond ( http://arxiv.org/abs/2106.11384v1 )

ライセンス: Link先を確認
Saeed Mahloujifar, Huseyin A. Inan, Melissa Chase, Esha Ghosh, Marcello Hasegawa(参考訳) テキスト処理のコンテキストでは、ほとんどのMLモデルは単語の埋め込みに基づいている。 これらの埋め込み自身は、機密データを含む可能性のある、いくつかのデータセットでトレーニングされている。 ある場合には、このトレーニングは独立して行われ、ある場合には、より大きなタスク固有のモデルのトレーニングの一部として行われる。 いずれの場合も,センシティブな情報漏洩を理解する手段として,組込み層に基づくメンバシップ推論攻撃を検討すべきである。 しかし、少々意外なことに、単語埋め込みに対するメンバーシップ推論攻撃や、これらの埋め込みを使用する他の自然言語処理(nlp)タスクへの影響は、比較的未検討のままである。 本研究では,現実の仮定下でのブラックボックスメンバーシップ推論攻撃に対して,単語埋め込みが脆弱であることを示す。 さらに,このリークは,埋め込み層が攻撃者に露出していない場合でも,分類とテキスト生成という2つの主要なNLPアプリケーションを通して持続することを示す。 我々のMI攻撃は分類器モデルとLSTMに基づく言語モデルに対して高い攻撃精度が得られることを示す。 実際、我々の攻撃はテキスト生成モデルに対するより安価なメンバシップ推論攻撃であり、ターゲットモデルの知識やシャドーモデルとしてのテキスト生成モデルの高価なトレーニングを必要としない。

In the text processing context, most ML models are built on word embeddings. These embeddings are themselves trained on some datasets, potentially containing sensitive data. In some cases this training is done independently, in other cases, it occurs as part of training a larger, task-specific model. In either case, it is of interest to consider membership inference attacks based on the embedding layer as a way of understanding sensitive information leakage. But, somewhat surprisingly, membership inference attacks on word embeddings and their effect in other natural language processing (NLP) tasks that use these embeddings, have remained relatively unexplored. In this work, we show that word embeddings are vulnerable to black-box membership inference attacks under realistic assumptions. Furthermore, we show that this leakage persists through two other major NLP applications: classification and text-generation, even when the embedding layer is not exposed to the attacker. We show that our MI attack achieves high attack accuracy against a classifier model and an LSTM-based language model. Indeed, our attack is a cheaper membership inference attack on text-generative models, which does not require the knowledge of the target model or any expensive training of text-generative models as shadow models.
翻訳日:2021-06-23 15:17:51 公開日:2021-06-21
# 分類信頼しきい値を用いたインクリメンタル深層ニューラルネットワーク学習

Incremental Deep Neural Network Learning using Classification Confidence Thresholding ( http://arxiv.org/abs/2106.11437v1 )

ライセンス: Link先を確認
Justin Leo and Jugal Kalita(参考訳) 分類のための現代のニューラルネットワークのほとんどは、未知の概念を考慮していない。 トレーニングされたニューラルネットワークは通常、既知のクラスを閉じた例でのみ、非現実的なシナリオでテストされる。 より現実的なモデルを開発するために、オープンセット環境で働くという概念が導入された。 これは、独自のアーキテクチャと初期トレーニングされたデータセットを持つモデルがテストフェーズ中に未知のクラスを識別し、新しいクラスの証拠が検出された場合、自律的に自身を更新できるインクリメンタル学習の概念につながる。 インクリメンタル・ラーニングで発生する問題として、分類器の繰り返し再訓練におけるリソースの非効率使用や、時間とともに複数のクラスに対する分類精度の低下が挙げられる。 新しいクラスをインスタンス化するこのプロセスは、エラーを発生させるため、必要に応じて何度も繰り返される。 これらの問題に対処するため,本研究では,素数ニューラルネットワークに対する分類信頼度閾値アプローチを提案する。 リーンメソッドは、ニューラルネットワークの再トレーニングで使用されるリソースを削減するためにも使用される。 提案手法は,新しいクラスに関連する限られた数のサンプルが露出しても,ネットワークが段階的に新しいクラスを学習できる,という考え方に基づいている。 この方法は、ネットワークアーキテクチャを最小限変更することなく、既存のほとんどのニューラルネットワークに適用することができる。

Most modern neural networks for classification fail to take into account the concept of the unknown. Trained neural networks are usually tested in an unrealistic scenario with only examples from a closed set of known classes. In an attempt to develop a more realistic model, the concept of working in an open set environment has been introduced. This in turn leads to the concept of incremental learning where a model with its own architecture and initial trained set of data can identify unknown classes during the testing phase and autonomously update itself if evidence of a new class is detected. Some problems that arise in incremental learning are inefficient use of resources to retrain the classifier repeatedly and the decrease of classification accuracy as multiple classes are added over time. This process of instantiating new classes is repeated as many times as necessary, accruing errors. To address these problems, this paper proposes the Classification Confidence Threshold approach to prime neural networks for incremental learning to keep accuracies high by limiting forgetting. A lean method is also used to reduce resources used in the retraining of the neural network. The proposed method is based on the idea that a network is able to incrementally learn a new class even when exposed to a limited number samples associated with the new class. This method can be applied to most existing neural networks with minimal changes to network architecture.
翻訳日:2021-06-23 15:17:08 公開日:2021-06-21
# f-Domain-Adversarial Learning:理論とアルゴリズム

f-Domain-Adversarial Learning: Theory and Algorithms ( http://arxiv.org/abs/2106.11344v1 )

ライセンス: Link先を確認
David Acuna, Guojun Zhang, Marc T. Law, Sanja Fidler(参考訳) 教師なしドメイン適応(unsupervised domain adaptation)は、トレーニング中にモデルが対象ドメイン内のラベルなしデータと関連するラベル付きデータセットにアクセスする多くの機械学習アプリケーションで使用される。 本稿では,新規かつ汎用的なドメイン・アドバイザリ・フレームワークを提案する。 具体的には、f-divergencesの変分的特徴に基づく分布間の不一致の新しい尺度を利用する領域適応のための新しい一般化を導出する。 これはベンダビッドらの理論結果から回復する。 (2010a)は、特殊な事例であり、実際に用いられる相違を支持する。 この境界に基づいて,ganinらによる元来の敵対的訓練法において,鍵補正を導入する新しいアルゴリズムフレームワークを導出する。 (2016). このフレームワークで過去数年間に導入された多くのレギュラライザやアドホックな目的が、最先端のドメイン攻撃メソッドに匹敵するパフォーマンスを達成するために必要とされないことを示している。 実世界自然言語とコンピュータビジョンデータセットを用いた実験分析により,本フレームワークは既存のベースラインを上回っており,これまでドメイン・アドバーサル・ラーニングでは考慮されていなかったf-divergencesの最良の結果を得ることができた。

Unsupervised domain adaptation is used in many machine learning applications where, during training, a model has access to unlabeled data in the target domain, and a related labeled dataset. In this paper, we introduce a novel and general domain-adversarial framework. Specifically, we derive a novel generalization bound for domain adaptation that exploits a new measure of discrepancy between distributions based on a variational characterization of f-divergences. It recovers the theoretical results from Ben-David et al. (2010a) as a special case and supports divergences used in practice. Based on this bound, we derive a new algorithmic framework that introduces a key correction in the original adversarial training method of Ganin et al. (2016). We show that many regularizers and ad-hoc objectives introduced over the last years in this framework are then not required to achieve performance comparable to (if not better than) state-of-the-art domain-adversarial methods. Experimental analysis conducted on real-world natural language and computer vision datasets show that our framework outperforms existing baselines, and obtains the best results for f-divergences that were not considered previously in domain-adversarial learning.
翻訳日:2021-06-23 15:16:21 公開日:2021-06-21
# Photozilla:20枚の写真スタイルのための大規模写真データセットとビジュアル埋め込み

Photozilla: A Large-Scale Photography Dataset and Visual Embedding for 20 Photography Styles ( http://arxiv.org/abs/2106.11359v1 )

ライセンス: Link先を確認
Trisha Singhal, Junhua Liu, Lucienne T. M. Blessing, Kwan Hui Lim(参考訳) ソーシャルメディアプラットフォームの出現は、視覚応用のブームを巻き起こしたデジタル写真の発展の触媒となった。 このモチベーションにより、10種類の異なる写真スタイルに属する990k以上の画像を含む大規模データセット「photozilla」を導入する。 データセットは、3つの分類モデルのトレーニングに使用され、イメージを関連するスタイルに自動的に分類する。 デジタル写真が急速に進化するにつれて、新しいタイプの写真スタイルが指数関数的に登場してきた。 その上で、トレーニングされた分類モデルをベースアーキテクチャとして使用し、25のトレーニングサンプルで未知のスタイルを適応・分類する、新しいシームズベースのネットワークを提案する。 10種類の異なる写真スタイルを識別できる精度は68%以上である。 このデータセットはhttps://trisha025.github.io/Photozilla/で見ることができる。

The advent of social media platforms has been a catalyst for the development of digital photography that engendered a boom in vision applications. With this motivation, we introduce a large-scale dataset termed 'Photozilla', which includes over 990k images belonging to 10 different photographic styles. The dataset is then used to train 3 classification models to automatically classify the images into the relevant style which resulted in an accuracy of ~96%. With the rapid evolution of digital photography, we have seen new types of photography styles emerging at an exponential rate. On that account, we present a novel Siamese-based network that uses the trained classification models as the base architecture to adapt and classify unseen styles with only 25 training samples. We report an accuracy of over 68% for identifying 10 other distinct types of photography styles. This dataset can be found at https://trisha025.github.io/Photozilla/
翻訳日:2021-06-23 15:16:03 公開日:2021-06-21
# ニューラルネットワーク翻訳のためのフレーズレベルアクティブラーニング

Phrase-level Active Learning for Neural Machine Translation ( http://arxiv.org/abs/2106.11375v1 )

ライセンス: Link先を確認
Junjie Hu and Graham Neubig(参考訳) ニューラルネットワーク翻訳(NMT)はドメインシフトに敏感である。 本稿では、ドメイン内データの翻訳に所定の予算を費やすことができるアクティブな学習環境でこの問題に対処し、新たに翻訳されたデータに基づいて、事前学習されたドメイン外NMTモデルを徐々に微調整する。 nmtの既存のアクティブ学習方法は、不確実性スコアに基づいて文を選択するのが普通であるが、これらの方法は、文中の1つか2つのキーフレーズだけが有益である場合でも、全文のコストのかかる翻訳を必要とする。 この制限に対処するため,全文ではなく個々の句を選択したPBMT時代から,過去の研究を再検討した。 しかし、これらのフレーズを pbmt システムに組み込むのは比較的簡単であったが、nmt システムでは、新しいドメイン特有の文の構造的性質を捉えるために、完全なシーケンスで訓練する必要がある。 これらのハードルを克服するために、人間の翻訳者へのルーティングのための新しい領域において、未解読データから全文と個々の句を選択することを提案する。 ドイツ語と英語の翻訳タスクでは、アクティブラーニングアプローチは不確実性に基づく文選択法よりも一貫した改善を達成し、強力なアクティブラーニングベースラインよりも1.2 bleuスコアまで改善した。

Neural machine translation (NMT) is sensitive to domain shift. In this paper, we address this problem in an active learning setting where we can spend a given budget on translating in-domain data, and gradually fine-tune a pre-trained out-of-domain NMT model on the newly translated data. Existing active learning methods for NMT usually select sentences based on uncertainty scores, but these methods require costly translation of full sentences even when only one or two key phrases within the sentence are informative. To address this limitation, we re-examine previous work from the phrase-based machine translation (PBMT) era that selected not full sentences, but rather individual phrases. However, while incorporating these phrases into PBMT systems was relatively simple, it is less trivial for NMT systems, which need to be trained on full sequences to capture larger structural properties of sentences unique to the new domain. To overcome these hurdles, we propose to select both full sentences and individual phrases from unlabelled data in the new domain for routing to human translators. In a German-English translation task, our active learning approach achieves consistent improvements over uncertainty-based sentence selection methods, improving up to 1.2 BLEU score over strong active learning baselines.
翻訳日:2021-06-23 15:15:09 公開日:2021-06-21
# 深層強化学習のための強調アルゴリズム

Emphatic Algorithms for Deep Reinforcement Learning ( http://arxiv.org/abs/2106.11779v1 )

ライセンス: Link先を確認
Ray Jiang, Tom Zahavy, Zhongwen Xu, Adam White, Matteo Hessel, Charles Blundell, Hado van Hasselt(参考訳) オフポリシー学習は、異なる行動方針によって生み出された経験から、行動の可能なポリシーについて学ぶことができる。 時間差(td)学習アルゴリズムは、関数近似やオフポリシーサンプリングと組み合わせると不安定になる可能性がある。 強調時間差(ETD($\lambda$))アルゴリズムは、TD($\lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。 本稿では,強調的手法を深層強化学習エージェントに適用する。 本稿では,ETD($\lambda$)をフォワード・ビュー・マルチステップ・リターンを用いた一般的な強化学習アルゴリズムに適用することにより,性能が低下することを示す。 次に,このようなアルゴリズムの文脈で使用する新しい強調的アルゴリズムを導出し,td法の不安定さを強調するように設計された小さな問題に対して,それらに注目すべき利点があることを実証する。 最後に,アーケード学習環境から旧来のatariゲームに対して,これらのアルゴリズムを大規模に適用した場合の性能向上を観察した。

Off-policy learning allows us to learn about possible policies of behavior from experience generated by a different behavior policy. Temporal difference (TD) learning algorithms can become unstable when combined with function approximation and off-policy sampling - this is known as the ''deadly triad''. Emphatic temporal difference (ETD($\lambda$)) algorithm ensures convergence in the linear case by appropriately weighting the TD($\lambda$) updates. In this paper, we extend the use of emphatic methods to deep reinforcement learning agents. We show that naively adapting ETD($\lambda$) to popular deep reinforcement learning algorithms, which use forward view multi-step returns, results in poor performance. We then derive new emphatic algorithms for use in the context of such algorithms, and we demonstrate that they provide noticeable benefits in small problems designed to highlight the instability of TD methods. Finally, we observed improved performance when applying these algorithms at scale on classic Atari games from the Arcade Learning Environment.
翻訳日:2021-06-23 15:11:46 公開日:2021-06-21
# 関節移動物体検出・分割のための時空間多タスク学習変換器

Spatio-Temporal Multi-Task Learning Transformer for Joint Moving Object Detection and Segmentation ( http://arxiv.org/abs/2106.11401v1 )

ライセンス: Link先を確認
Eslam Mohamed and Ahmed El-Sallab(参考訳) 移動物体は自動運転タスクにおいて特に重要である。 移動対象の検出は、移動対象のセグメンテーションとして、移動対象のピクセルをセグメント化したり、移動対象のバウンディングボックスを生成したりすることができる。 本稿では,トランスフォーマーをベースとしたマルチタスク学習アーキテクチャを提案する。 タスクに対する動作の特徴の重要性から、全体のセットアップは時空間の時空間集約に基づいている。 我々は、初期の共有エンコーダと遅延共有エンコーダ-デコーダトランスの両方で、個々のタスクアーキテクチャとmtl設定のパフォーマンスを評価する。 後者では、共有モデルから専用のタスクを抽出できる、新しいタスククエリデコーダ変換器を提案する。 提案手法の評価には, KITTI MOD [29] データセットを用いる。 その結果、各タスクネットワーク上で1.5%のmAP改善、2%のIoU改善、移動オブジェクトセグメンテーションが得られた。

Moving objects have special importance for Autonomous Driving tasks. Detecting moving objects can be posed as Moving Object Segmentation, by segmenting the object pixels, or Moving Object Detection, by generating a bounding box for the moving targets. In this paper, we present a Multi-Task Learning architecture, based on Transformers, to jointly perform both tasks through one network. Due to the importance of the motion features to the task, the whole setup is based on a Spatio-Temporal aggregation. We evaluate the performance of the individual tasks architecture versus the MTL setup, both with early shared encoders, and late shared encoder-decoder transformers. For the latter, we present a novel joint tasks query decoder transformer, that enables us to have tasks dedicated heads out of the shared model. To evaluate our approach, we use the KITTI MOD [29] data set. Results show1.5% mAP improvement for Moving Object Detection, and 2%IoU improvement for Moving Object Segmentation, over the individual tasks networks.
翻訳日:2021-06-23 15:10:44 公開日:2021-06-21
# MODETR:トランスを用いた移動物体検出

MODETR: Moving Object Detection with Transformers ( http://arxiv.org/abs/2106.11422v1 )

ライセンス: Link先を確認
Eslam Mohamed, Ahmad El-Sallab(参考訳) 移動物体検出(MOD)は、自律走行パイプラインにとって重要なタスクである。 MODは通常、2ストリームの畳み込みアーキテクチャによって処理され、空間的特徴と運動的特徴の相互関係を考慮せずに外観と動きの手がかりの両方を組み込む。 本稿では,空間的および動きの流れを横断するマルチヘッドアテンション機構を用いてこの問題に対処する。 本稿では,空間的および動作的モダリティを両立するマルチストリームトランスコーダからなる移動物体検出トランスフォーマーネットワークと,集合予測を用いた移動物体バウンディングボックスを生成するオブジェクトトランスフォーマーデコーダを提案する。 アーキテクチャ全体は、双方向の損失を使ってエンドツーエンドでトレーニングされる。 トランスフォーマーモデルにモーションキューを組み込む方法として,2ストリームのRGBと光フロー(OF)法,シーケンス情報を利用するマルチストリームアーキテクチャなどが検討されている。 時間情報を組み込むため,DeTRにおける空間的位置エンコーディング(SPE)を拡張するための時間的位置エンコーディング(TPE)手法を提案する。 スピードと時間のバランスをとりながら、2つのアーキテクチャ上の選択を検討します。 ネットワークを評価するために,KITTI MOD [6]データセット上でMODタスクを実行する。 以上の結果から,MOD用トランスフォーマーネットワークの5 5% mAP が得られた。 さらに、提案したTPEエンコーディングは、SPEベースラインに対して10%のmAP改善を提供する。

Moving Object Detection (MOD) is a crucial task for the Autonomous Driving pipeline. MOD is usually handled via 2-stream convolutional architectures that incorporates both appearance and motion cues, without considering the inter-relations between the spatial or motion features. In this paper, we tackle this problem through multi-head attention mechanisms, both across the spatial and motion streams. We propose MODETR; a Moving Object DEtection TRansformer network, comprised of multi-stream transformer encoders for both spatial and motion modalities, and an object transformer decoder that produces the moving objects bounding boxes using set predictions. The whole architecture is trained end-to-end using bi-partite loss. Several methods of incorporating motion cues with the Transformer model are explored, including two-stream RGB and Optical Flow (OF) methods, and multi-stream architectures that take advantage of sequence information. To incorporate the temporal information, we propose a new Temporal Positional Encoding (TPE) approach to extend the Spatial Positional Encoding(SPE) in DETR. We explore two architectural choices for that, balancing between speed and time. To evaluate the our network, we perform the MOD task on the KITTI MOD [6] data set. Results show significant 5% mAP of the Transformer network for MOD over the state-of-the art methods. Moreover, the proposed TPE encoding provides 10% mAP improvement over the SPE baseline.
翻訳日:2021-06-23 15:10:26 公開日:2021-06-21
# SurRenderソフトウェアを用いた宇宙応用のための画像シミュレーション

Image simulation for space applications with the SurRender software ( http://arxiv.org/abs/2106.11322v1 )

ライセンス: Link先を確認
J\'er\'emy Lebreton, Roland Brochard, Matthieu Baudry, Gr\'egory Jonniaux, Adrien Hadj Salah, Keyvan Kanani, Matthieu Le Goff, Aurore Masson, Nicolas Ollagnier, Paolo Panicucci, Amsha Proag, Cyril Robin(参考訳) 視覚に基づくナビゲーションのための画像処理アルゴリズムは、信頼できる画像シミュレーション能力を必要とする。 本稿では,従来のレンダリングエンジンが空間アプリケーションに不可欠な制約を提示する理由を説明する。 我々はAirbus SurRenderソフトウェアv7を紹介し、非常に強力な宇宙画像シミュレータを実現する機能の詳細を提供する。 私たちは、SurRenderがコンピュータビジョンソリューションの開発プロセスの中心にあることを示し、月や太陽系の探査から軌道上のランデブーや惑星ロボットまで、さまざまなユースケースのレンダリング画像の一連のイラストを提供している。

Image Processing algorithms for vision-based navigation require reliable image simulation capacities. In this paper we explain why traditional rendering engines may present limitations that are potentially critical for space applications. We introduce Airbus SurRender software v7 and provide details on features that make it a very powerful space image simulator. We show how SurRender is at the heart of the development processes of our computer vision solutions and we provide a series of illustrations of rendered images for various use cases ranging from Moon and Solar System exploration, to in orbit rendezvous and planetary robotics.
翻訳日:2021-06-23 15:08:05 公開日:2021-06-21
# Trinity: 複雑な空間データセットのためのノーコードAIプラットフォーム

Trinity: A No-Code AI platform for complex spatial datasets ( http://arxiv.org/abs/2106.11756v1 )

ライセンス: Link先を確認
C.V.Krishnakumar Iyer, Feili Hou, Henry Wang, Yonghong Wang, Kay Oh, Swetava Ganguli, Vipul Pandey(参考訳) 本稿では,機械学習研究者と非技術領域の専門家の両方が,さまざまな複雑な問題を解決するために,ドメイン固有の信号やデータセットを実験可能にすることを目的として,trinityと呼ばれる非コード人工知能(ai)プラットフォームを提案する。 この多様な問題を解決する汎用性は、複雑な時空間データセットを変換して、標準的なディープラーニングモデル、この場合、畳み込みニューラルネットワーク(cnns)によって利用しやすくし、標準的な方法で異なる問題を定式化する能力を与えることによって達成される。 セマンティクスのセグメンテーション。 複雑な機能エンジニアリング、ディープラーニングカーネル、スケーラブルなデータ処理メカニズムのデリバティブをホストする機能ストアである直感的なユーザインターフェースによって、Trinityは、ドメインの専門家がビジネスクリティカルな問題を解決する上で、科学者やエンジニアとステージを共有するための強力なプラットフォームを提供する。 迅速なプロトタイピングと迅速な実験を可能にし、モデルの構築とデプロイを標準化することで、生産までの時間を短縮する。 本稿では,Trinityとその設計の背景にある私たちのモチベーションとサンプルアプリケーションを展示することで,AIを用いたバーを低くするというアイデアを動機づける。

We present a no-code Artificial Intelligence (AI) platform called Trinity with the main design goal of enabling both machine learning researchers and non-technical geospatial domain experts to experiment with domain-specific signals and datasets for solving a variety of complex problems on their own. This versatility to solve diverse problems is achieved by transforming complex Spatio-temporal datasets to make them consumable by standard deep learning models, in this case, Convolutional Neural Networks (CNNs), and giving the ability to formulate disparate problems in a standard way, eg. semantic segmentation. With an intuitive user interface, a feature store that hosts derivatives of complex feature engineering, a deep learning kernel, and a scalable data processing mechanism, Trinity provides a powerful platform for domain experts to share the stage with scientists and engineers in solving business-critical problems. It enables quick prototyping, rapid experimentation and reduces the time to production by standardizing model building and deployment. In this paper, we present our motivation behind Trinity and its design along with showcasing sample applications to motivate the idea of lowering the bar to using AI.
翻訳日:2021-06-23 15:07:57 公開日:2021-06-21
# Cogment: 分散マルチアクタトレーニング、デプロイ、運用のためのオープンソースフレームワーク

Cogment: Open Source Framework For Distributed Multi-actor Training, Deployment & Operations ( http://arxiv.org/abs/2106.11345v1 )

ライセンス: Link先を確認
AI Redefined, Sai Krishna Gottipati, Sagar Kurandwad, Clod\'eric Mars, Gregory Szriftgiser and Fran\c{c}ois Chabot(参考訳) AIエージェントのトレーニングのために直接人間を巻き込むことは、強化学習と人間のループ学習のいくつかの進歩のおかげで、勢いを増している。 人間はエージェントに報酬を与えることができ、タスクを実証したり、カリキュラムを設計したり、環境の中で振る舞うことができるが、これらの利点は建築、機能設計、エンジニアリングの複雑さも伴う。 本稿では,人間同士のコラボレーションタイポロジーとトレーニングアプローチをサポートするためにアクタ形式を導入する,オープンソースのフレームワークであるcogmentを提案する。 また、分散マイクロサービスアーキテクチャのおかげで、最初からスケーラブルであり、前述の複雑さに対するソリューションを提供する。

Involving humans directly for the benefit of AI agents' training is getting traction thanks to several advances in reinforcement learning and human-in-the-loop learning. Humans can provide rewards to the agent, demonstrate tasks, design a curriculum, or act in the environment, but these benefits also come with architectural, functional design and engineering complexities. We present Cogment, a unifying open-source framework that introduces an actor formalism to support a variety of humans-agents collaboration typologies and training approaches. It is also scalable out of the box thanks to a distributed micro service architecture, and offers solutions to the aforementioned complexities.
翻訳日:2021-06-23 15:07:13 公開日:2021-06-21
# ユニバーサルlshカーネルによる効率的な推論

Efficient Inference via Universal LSH Kernel ( http://arxiv.org/abs/2106.11426v1 )

ライセンス: Link先を確認
Zichang Liu, Benjamin Coleman, Anshumali Shrivastava(参考訳) 大規模機械学習モデルは様々なタスクで前例のないパフォーマンスを達成し、go-toテクニックとして進化してきた。 しかしながら、リソース制約環境にこれらの計算およびメモリ空腹モデルをデプロイすると、新たな課題が生じる。 本研究では,単純なハッシュ計算とアグリゲーションで推論手順を近似できる数列の簡潔な集合である,数学的に証明可能なRepresenter Sketchを提案する。 Representer Sketch はカーネル文学から人気のある Representer Theorem を基礎にしており、量子化、反復的プルーニング、知識蒸留といった一般的なアプローチを超越した効率的な推論問題に対する基本的な代替手段を提供する。 ニューラルネットワーク関数はその重み付けされたカーネル密度表現に変換され、スケッチアルゴリズムで非常に効率的に推定できる。 実験により,Representer Sketchはストレージ要件の最大114倍,計算複雑性の59倍を精度の低下なく達成できることを示した。

Large machine learning models achieve unprecedented performance on various tasks and have evolved as the go-to technique. However, deploying these compute and memory hungry models on resource constraint environments poses new challenges. In this work, we propose mathematically provable Representer Sketch, a concise set of count arrays that can approximate the inference procedure with simple hashing computations and aggregations. Representer Sketch builds upon the popular Representer Theorem from kernel literature, hence the name, providing a generic fundamental alternative to the problem of efficient inference that goes beyond the popular approach such as quantization, iterative pruning and knowledge distillation. A neural network function is transformed to its weighted kernel density representation, which can be very efficiently estimated with our sketching algorithm. Empirically, we show that Representer Sketch achieves up to 114x reduction in storage requirement and 59x reduction in computation complexity without any drop in accuracy.
翻訳日:2021-06-23 15:07:02 公開日:2021-06-21
# フィードバックシェーピング:コンテンツ作成を育むためのモデリングアプローチ

Feedback Shaping: A Modeling Approach to Nurture Content Creation ( http://arxiv.org/abs/2106.11312v1 )

ライセンス: Link先を確認
Ye Tu, Chun Lo, Yiping Yuan, Shaunak Chatterjee(参考訳) ソーシャルメディアプラットフォームは、newsfeedのようなレコメンデーションシステムを通じて、コンテンツクリエーターとコンテンツ消費者をまとめる。 このようなレコメンデーションシステムの焦点は、コンテンツ消費者の好みをモデル化し、体験を最適化することにある。 しかし、高品質なコンテンツが持続的なエンゲージメントと会話のシードを形成し、既存のコンテンツを維持しながら新しい消費者を引き付けるため、クリエイターの利益を優先することでコンテンツ創造を育むことは同様に重要である。 本研究では,コンテンツ消費者からのフィードバックがクリエーターにインセンティブを与えるかを予測するためのモデリング手法を提案する。 そして、このモデルを利用して、フィードバック分布を再構築することで、コンテンツクリエーターのニュースフィード体験を最適化し、よりアクティブなコンテンツエコシステムを生み出します。 実際に、消費者とクリエーターの両方のユーザエクスペリエンスのバランスと、オンラインA/Bテストと強力なネットワーク効果のバランスについて論じる。 我々は、LinkedInのニュースフィードに展開されたユースケースを提示し、消費者の経験を損なうことなく、コンテンツ作成を大幅に改善するためにこのアプローチを使用した。

Social media platforms bring together content creators and content consumers through recommender systems like newsfeed. The focus of such recommender systems has thus far been primarily on modeling the content consumer preferences and optimizing for their experience. However, it is equally critical to nurture content creation by prioritizing the creators' interests, as quality content forms the seed for sustainable engagement and conversations, bringing in new consumers while retaining existing ones. In this work, we propose a modeling approach to predict how feedback from content consumers incentivizes creators. We then leverage this model to optimize the newsfeed experience for content creators by reshaping the feedback distribution, leading to a more active content ecosystem. Practically, we discuss how we balance the user experience for both consumers and creators, and how we carry out online A/B tests with strong network effects. We present a deployed use case on the LinkedIn newsfeed, where we used this approach to improve content creation significantly without compromising the consumers' experience.
翻訳日:2021-06-23 15:05:18 公開日:2021-06-21
# biadam: 高速適応二レベル最適化手法

BiAdam: Fast Adaptive Bilevel Optimization Methods ( http://arxiv.org/abs/2106.11396v1 )

ライセンス: Link先を確認
Feihu Huang and Heng Huang(参考訳) 双レベル最適化は最近、ハイパーパラメータ最適化やポリシー最適化といった多くの応用のために機械学習への関心が高まっている。 近年,二段階問題を解くための手法が提案されているが,適応学習率は考慮されていない。 このギャップを埋めるため,本論文では,外問題が非凸で内的問題が強凸であるような2レベル最適化問題を解くための高速かつ効果的な適応手法を提案する。 具体的には、基本運動量法に基づく高速単ループbiadamアルゴリズムを提案する。これは$\epsilon$-stationary pointを求めるために$\tilde{o}(\epsilon^{-4})$のサンプル複雑性を達成する。 同時に,分散還元手法を用いてビアダムアルゴリズムの高速化版 (VR-BiAdam) を提案し,この手法は$\tilde{O}(\epsilon^{-3})$の最もよく知られたサンプル複雑性に到達した。 導関数を推定する際の計算をさらに削減するため、ヘッセン逆数を避けることで高速な単ループ確率近似ビアダムアルゴリズム(saBiAdam)を提案し、大きなバッチを伴わずに$\tilde{O}(\epsilon^{-4})$のサンプル複雑性を実現する。 さらに、SaBiAdamアルゴリズムの高速化版(VR-saBiAdam)を提示し、このアルゴリズムは最もよく知られたサンプルの複雑さを$\tilde{O}(\epsilon^{-3})$とする。 適応行列の統一化をsuper-adam \citep{huang2021super} として手法に適用し,様々な適応学習率について検討した。 さらに,本フレームワークでは,モーメントと分散低減手法を柔軟に利用することができる。 特に,制約付きおよび制約なしの2レベル最適化のための有用な収束解析フレームワークを提供する。 まず,適応学習率を用いた適応的二段階最適化手法について検討する。

Bilevel optimization recently has attracted increased interest in machine learning due to its many applications such as hyper-parameter optimization and policy optimization. Although some methods recently have been proposed to solve the bilevel problems, these methods do not consider using adaptive learning rates. To fill this gap, in the paper, we propose a class of fast and effective adaptive methods for solving bilevel optimization problems that the outer problem is possibly nonconvex and the inner problem is strongly-convex. Specifically, we propose a fast single-loop BiAdam algorithm based on the basic momentum technique, which achieves a sample complexity of $\tilde{O}(\epsilon^{-4})$ for finding an $\epsilon$-stationary point. At the same time, we propose an accelerated version of BiAdam algorithm (VR-BiAdam) by using variance reduced technique, which reaches the best known sample complexity of $\tilde{O}(\epsilon^{-3})$. To further reduce computation in estimating derivatives, we propose a fast single-loop stochastic approximated BiAdam algorithm (saBiAdam) by avoiding the Hessian inverse, which still achieves a sample complexity of $\tilde{O}(\epsilon^{-4})$ without large batches. We further present an accelerated version of saBiAdam algorithm (VR-saBiAdam), which also reaches the best known sample complexity of $\tilde{O}(\epsilon^{-3})$. We apply the unified adaptive matrices to our methods as the SUPER-ADAM \citep{huang2021super}, which including many types of adaptive learning rates. Moreover, our framework can flexibly use the momentum and variance reduced techniques. In particular, we provide a useful convergence analysis framework for both the constrained and unconstrained bilevel optimization. To the best of our knowledge, we first study the adaptive bilevel optimization methods with adaptive learning rates.
翻訳日:2021-06-23 15:03:34 公開日:2021-06-21
# Encoder-Decoder Architectures for Clinically Relevant Coronary Artery Segmentation

Encoder-Decoder Architectures for Clinically Relevant Coronary Artery Segmentation ( http://arxiv.org/abs/2106.11447v1 )

ライセンス: Link先を確認
Jo\~ao Louren\c{c}o Silva, Miguel Nobre Menezes, Tiago Rodrigues, Beatriz Silva, Fausto J. Pinto, Arlindo L. Oliveira(参考訳) 冠動脈x線アンギオグラフィーは冠動脈疾患の診断と治療において重要な臨床手順であり、毎年全世界の死亡者の約16%を占めている。 しかし,これらの手法で得られた画像は解像度が低く,コントラストが低く,病変の検出や評価が困難である。 正確な冠動脈セグメンテーションはこれらの問題を緩和するだけでなく、関連する解剖学的特徴を抽出し、定量的手法によるさらなる分析を可能にする。 冠状動脈の自動分節法は以前から提案されてきたが, 従来のアプローチでは非最適分節基準を用いており, 有用性は低い。 ほとんどの方法は主要な血管のみを分割し、残りの血管から重要な情報を破棄するか、冠動脈全体をコントラスト情報に基づいて分割し、診断に関係のない血管を含むノイズを発生させる。 臨床関連性に応じて,より適合した臨床基準と分節血管を採用する。 また,カテーテル・セグメンテーションも同時に実施し,カテーテルの既知の直径のスケール因子による診断に有用であり,良好な結果が得られていない課題である。 最適アプローチを導出するために,焦点損失と一般化されたダイス損失の組み合わせを訓練したエンコーダ・デコーダアーキテクチャを広範囲に比較検討した。 efficientnet と unet++ のアーキテクチャに基づき,新しいデコーダアーキテクチャを用いた効率良く高性能なセグメンテーションモデル,動脈およびカテーテルクラスで平均 dice スコア 0.8904 と 0.7526 をそれぞれ達成した efficientunet++ と平均一般化 dice スコア 0.9234 のラインを提案する。

Coronary X-ray angiography is a crucial clinical procedure for the diagnosis and treatment of coronary artery disease, which accounts for roughly 16% of global deaths every year. However, the images acquired in these procedures have low resolution and poor contrast, making lesion detection and assessment challenging. Accurate coronary artery segmentation not only helps mitigate these problems, but also allows the extraction of relevant anatomical features for further analysis by quantitative methods. Although automated segmentation of coronary arteries has been proposed before, previous approaches have used non-optimal segmentation criteria, leading to less useful results. Most methods either segment only the major vessel, discarding important information from the remaining ones, or segment the whole coronary tree based mostly on contrast information, producing a noisy output that includes vessels that are not relevant for diagnosis. We adopt a better-suited clinical criterion and segment vessels according to their clinical relevance. Additionally, we simultaneously perform catheter segmentation, which may be useful for diagnosis due to the scale factor provided by the catheter's known diameter, and is a task that has not yet been performed with good results. To derive the optimal approach, we conducted an extensive comparative study of encoder-decoder architectures trained on a combination of focal loss and a variant of generalized dice loss. Based on the EfficientNet and the UNet++ architectures, we propose a line of efficient and high-performance segmentation models using a new decoder architecture, the EfficientUNet++, whose best-performing version achieved average dice scores of 0.8904 and 0.7526 for the artery and catheter classes, respectively, and an average generalized dice score of 0.9234.
翻訳日:2021-06-23 15:03:03 公開日:2021-06-21
# NLPにおける人種・ラシズム・反ラシズムの実態調査

A Survey of Race, Racism, and Anti-Racism in NLP ( http://arxiv.org/abs/2106.11410v1 )

ライセンス: Link先を確認
Anjalie Field, Su Lin Blodgett, Zeerak Waseem, Yulia Tsvetkov(参考訳) 人種と言語の間には厳密な結びつきがあるにもかかわらず、NLPの研究と開発において人種を考える研究はほとんどない。 本研究は,人種に言及したACLアンソロジーから79の論文を調査した。 これらの論文は、NLPモデル開発の全段階における人種関連バイアスのさまざまなタイプを明らかにし、NLPシステムが人種的階層を維持できるかを積極的に検討する必要があることを明らかにする。 しかし、人種とNLPの研究における永続的なギャップは残る: 人種はニッチなトピックとしてサイロ化され、多くのNLPタスクで無視されている; ほとんどの作業は、歴史的人種差別によって生じる違いを補強するリスクを負う、固定された単一次元変数としてレースを運用し、歴史的に疎外された人々の声は、NLP文学においてほとんど欠落している。 NLP研究の実践において、NLP文学が人種をどう、どのように考えていないか、特に関連分野と比較することで、包括的かつ人種的正義を求める。

Despite inextricable ties between race and language, little work has considered race in NLP research and development. In this work, we survey 79 papers from the ACL anthology that mention race. These papers reveal various types of race-related bias in all stages of NLP model development, highlighting the need for proactive consideration of how NLP systems can uphold racial hierarchies. However, persistent gaps in research on race and NLP remain: race has been siloed as a niche topic and remains ignored in many NLP tasks; most work operationalizes race as a fixed single-dimensional variable with a ground-truth label, which risks reinforcing differences produced by historical racism; and the voices of historically marginalized people are nearly absent in NLP literature. By identifying where and how NLP literature has and has not considered race, especially in comparison to related fields, our work calls for inclusion and racial justice in NLP research practices.
翻訳日:2021-06-23 15:01:57 公開日:2021-06-21
# オンライン競技におけるチームスキルアグリゲーションの評価

Evaluating Team Skill Aggregation in Online Competitive Games ( http://arxiv.org/abs/2106.11397v1 )

ライセンス: Link先を確認
Arman Dehpanah, Muheeb Faizan Ghori, Jonathan Gemmell, Bamshad Mobasher(参考訳) オンライン競争ゲームの主な目標の1つは、公正な試合を保証することでプレイヤーのエンゲージメントを高めることである。 これらのゲームはバランスのとれたマッチアップを作成するためにレーティングシステムを使用する。 レーティングシステムは、統計的推定を利用してプレイヤーのスキルを評価し、スキルレーティングを使用してプレイヤーのランクを予測する。 個々の選手のスキル評価は、チームのスキルレベルを計算するために集計することができる。 研究はしばしば、スキル推定の精度とマッチアップの公平性を改善することを目的としているが、チームのスキルレベルがメンバーのスキルレベルからどのように計算されるかについては、あまり注目されていない。 本稿では,2つの新しい集計法を提案し,研究文献で広く用いられている標準手法と比較する。 本稿では,これらの手法が評価システムの予測性能に与える影響を網羅的に分析する。 elo,glicko,trueskillという3つの人気評価システムを用いて,10万以上のバトルロイヤルとヘッドツーヘッドマッチを含む3つの実世界データセットで実験を行った。 評価の結果,テストケースの大部分ではMAX法が他の2手法よりも優れていることが示され,チーム全体のパフォーマンスは最も熟練したメンバーのパフォーマンスによって決定されることが示された。 本研究の結果は,スキルや戦略,目標といった選手の行動のさまざまな側面をカバーする,チームのパフォーマンスを計算するための,より精巧な手法を考案する必要性を強調した。

One of the main goals of online competitive games is increasing player engagement by ensuring fair matches. These games use rating systems for creating balanced match-ups. Rating systems leverage statistical estimation to rate players' skills and use skill ratings to predict rank before matching players. Skill ratings of individual players can be aggregated to compute the skill level of a team. While research often aims to improve the accuracy of skill estimation and fairness of match-ups, less attention has been given to how the skill level of a team is calculated from the skill level of its members. In this paper, we propose two new aggregation methods and compare them with a standard approach extensively used in the research literature. We present an exhaustive analysis of the impact of these methods on the predictive performance of rating systems. We perform our experiments using three popular rating systems, Elo, Glicko, and TrueSkill, on three real-world datasets including over 100,000 battle royale and head-to-head matches. Our evaluations show the superiority of the MAX method over the other two methods in the majority of the tested cases, implying that the overall performance of a team is best determined by the performance of its most skilled member. The results of this study highlight the necessity of devising more elaborated methods for calculating a team's performance -- methods covering different aspects of players' behavior such as skills, strategy, or goals.
翻訳日:2021-06-23 15:00:37 公開日:2021-06-21
# GAIA:あなたのニーズを満たすオブジェクト検出の伝達学習システム

GAIA: A Transfer Learning System of Object Detection that Fits Your Needs ( http://arxiv.org/abs/2106.11346v1 )

ライセンス: Link先を確認
Xingyuan Bu, Junran Peng, Junjie Yan, Tieniu Tan, Zhaoxiang Zhang(参考訳) 近年,大規模データセットの事前学習による伝達学習は,コンピュータビジョンや自然言語処理において重要な役割を担っている。 しかしながら、特定のレイテンシの制約や特殊なデータ分散など、特有の要求を持つアプリケーションシナリオが数多く存在するため、タスク毎の要求に対して大規模な事前トレーニングを利用するのは非常に高価である。 本稿では,物体検出の領域に着目し,不均一な下流ニーズに応じて,自動かつ効率的にカスタマイズされたソリューションを生成できるGAIAというトランスファー学習システムを提案する。 GAIAは、強力なトレーニング済みウェイトを提供し、レイテンシ制約や指定されたデータドメインなどの下流要求に適合するモデルを選択し、タスクにデータポイントをほとんど持たない実践者のために関連するデータを収集する。 GAIAでは、COCO、Objects365、Open Images、Caltech、CityPersons、UODBなど、KITTI、VOC、WiderFace、DOTA、Clipart、Comicなどを含むデータセットの集合体である。 COCOを例にとると、GAIAは16msから53msまでの幅広いレイテンシをカバーするモデルを効率的に生成し、笛や鐘なしでAPを38.2から46.5に生成できる。 オブジェクト検出のコミュニティのすべての実践者のために、GAIAはhttps://github.com/GAIA-vision.comでリリースされた。

Transfer learning with pre-training on large-scale datasets has played an increasingly significant role in computer vision and natural language processing recently. However, as there exist numerous application scenarios that have distinctive demands such as certain latency constraints and specialized data distributions, it is prohibitively expensive to take advantage of large-scale pre-training for per-task requirements. In this paper, we focus on the area of object detection and present a transfer learning system named GAIA, which could automatically and efficiently give birth to customized solutions according to heterogeneous downstream needs. GAIA is capable of providing powerful pre-trained weights, selecting models that conform to downstream demands such as latency constraints and specified data domains, and collecting relevant data for practitioners who have very few datapoints for their tasks. With GAIA, we achieve promising results on COCO, Objects365, Open Images, Caltech, CityPersons, and UODB which is a collection of datasets including KITTI, VOC, WiderFace, DOTA, Clipart, Comic, and more. Taking COCO as an example, GAIA is able to efficiently produce models covering a wide range of latency from 16ms to 53ms, and yields AP from 38.2 to 46.5 without whistles and bells. To benefit every practitioner in the community of object detection, GAIA is released at https://github.com/GAIA-vision.
翻訳日:2021-06-23 15:00:17 公開日:2021-06-21
# FDeblur-GAN:生成逆数ネットワークを用いた指紋のデブロリング

FDeblur-GAN: Fingerprint Deblurring using Generative Adversarial Network ( http://arxiv.org/abs/2106.11354v1 )

ライセンス: Link先を確認
Amol S. Joshi, Ali Dabouei, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) 犯罪現場、モバイルカメラ、または低品質センサーから取得した指紋画像を扱う一方で、画像のぼやけや歪みのために、自動識別システムがアイデンティティを検証することが困難になる。 本稿では,cGAN(Productrative Adversarial Networks)とスタックGANのマルチステージフレームワークに基づく指紋除去モデルFDeblur-GANを提案する。 さらに、2つの補助的なサブネットワークをデブロアリングタスクのモデルに統合する。 最初のサブネットワークはリッジ抽出モデルである。 リッジマップを生成するために追加され、指紋情報とminutiaeがデブラリングプロセスに保存され、モデルが誤ったminutiaeを生成するのを防ぐ。 第2のサブネットワークは、生成プロセス中に生成元がID情報を保存するのを助ける検証器である。 ぼやけた指紋と対応するリッジマップのデータベースを使用して、ディープネットワークは入力されたぼやけたサンプルから青ざめることを学ぶ。 提案手法を2つの異なる指紋マッチングアルゴリズムと組み合わせて評価する。 指紋データベースの精度は95.18%で, 汚れた指紋と地面の真理の指紋を一致させる作業を行った。

While working with fingerprint images acquired from crime scenes, mobile cameras, or low-quality sensors, it becomes difficult for automated identification systems to verify the identity due to image blur and distortion. We propose a fingerprint deblurring model FDeblur-GAN, based on the conditional Generative Adversarial Networks (cGANs) and multi-stage framework of the stack GAN. Additionally, we integrate two auxiliary sub-networks into the model for the deblurring task. The first sub-network is a ridge extractor model. It is added to generate ridge maps to ensure that fingerprint information and minutiae are preserved in the deblurring process and prevent the model from generating erroneous minutiae. The second sub-network is a verifier that helps the generator to preserve the ID information during the generation process. Using a database of blurred fingerprints and corresponding ridge maps, the deep network learns to deblur from the input blurry samples. We evaluate the proposed method in combination with two different fingerprint matching algorithms. We achieved an accuracy of 95.18% on our fingerprint database for the task of matching deblurred and ground truth fingerprints.
翻訳日:2021-06-23 14:59:51 公開日:2021-06-21
# Twitterによる食事補助副次事象信号の検出における深層学習モデル

Deep Learning Models in Detection of Dietary Supplement Adverse Event Signals from Twitter ( http://arxiv.org/abs/2106.11403v1 )

ライセンス: Link先を確認
Yefeng Wang, Yunpeng Zhao, Jiang Bian, Rui Zhang(参考訳) 目的: 本研究の目的は,twitterから食事補助関連有害事象(ds aes)の信号を検出する深層学習パイプラインを開発することである。 資料と方法: DSとAEの両方に言及した2012年から2018年までの247,807ツイートを得た。 我々は2000のランダムに選択されたツイートに生物医学的実体と関係を注釈した。 概念抽出タスクでは,従来の単語埋め込みとSVM, CRF, LSTM-CRF分類器の性能をBERTモデルと比較した。 関係抽出タスクでは,GloVeベクトルとCNN分類器をBERTモデルと比較した。 我々は、DS AE信号を検出するためにエンドツーエンドのディープラーニングパイプラインを組み立て、DSナレッジベース(iDISK)から既知のDS AEと比較するために、各タスクで最高のパフォーマンスモデルを選択した。 結果: どちらのタスクでも、BERTベースのモデルは従来の単語埋め込みよりも優れていた。 最も優れた概念抽出モデルはBioBERTモデルであり、それぞれ0.8646、0.8497、0.7104のF1スコアを持つサプリメント、症状、身体器官の実体を識別できる。 最高のパフォーマンス関係抽出モデルは、目的とAEの関係をそれぞれ0.8335と0.7538のF1スコアで識別できるBERTモデルである。 エンドツーエンドパイプラインは、それぞれ0.7459と0,7414のF1スコアでDS表示とDS AEを抽出することができた。 iDISKと比較して、既知のDS-AEと新しいDS-AEの両方を見つけることができた。 結論:BioBERTベースのディープラーニングパイプラインを用いて,TwitterからDS AE信号を検出する可能性を実証した。

Objective: The objective of this study is to develop a deep learning pipeline to detect signals on dietary supplement-related adverse events (DS AEs) from Twitter. Material and Methods: We obtained 247,807 tweets ranging from 2012 to 2018 that mentioned both DS and AE. We annotated biomedical entities and relations on 2,000 randomly selected tweets. For the concept extraction task, we compared the performance of traditional word embeddings with SVM, CRF and LSTM-CRF classifiers to BERT models. For the relation extraction task, we compared GloVe vectors with CNN classifiers to BERT models. We chose the best performing models in each task to assemble an end-to-end deep learning pipeline to detect DS AE signals and compared the results to the known DS AEs from a DS knowledge base (i.e., iDISK). Results: In both tasks, the BERT-based models outperformed traditional word embeddings. The best performing concept extraction model is the BioBERT model that can identify supplement, symptom, and body organ entities with F1-scores of 0.8646, 0.8497, and 0.7104, respectively. The best performing relation extraction model is the BERT model that can identify purpose and AE relations with F1-scores of 0.8335 and 0.7538, respectively. The end-to-end pipeline was able to extract DS indication and DS AEs with an F1-score of 0.7459 and 0,7414, respectively. Comparing to the iDISK, we could find both known and novel DS-AEs. Conclusion: We have demonstrated the feasibility of detecting DS AE signals from Twitter with a BioBERT-based deep learning pipeline.
翻訳日:2021-06-23 14:52:19 公開日:2021-06-21
# hi-behrt:マルチモーダル縦型電子健康記録による臨床事象の正確な予測のための階層的トランスフォーマーモデル

Hi-BEHRT: Hierarchical Transformer-based model for accurate prediction of clinical events using multimodal longitudinal electronic health records ( http://arxiv.org/abs/2106.11360v1 )

ライセンス: Link先を確認
Yikuan Li, Mohammad Mamouei, Gholamreza Salimi-Khorshidi, Shishir Rao, Abdelaali Hassaine, Dexter Canoy, Thomas Lukasiewicz, and Kazem Rahimi(参考訳) 電子健康記録は患者の軌跡の全体像を示している。 その可用性の向上は、それらを活用し、幅広い病気の正確なリスク予測モデルを開発するという、新たな期待を喚起している。 医療記録と患者の成果の複雑な相互関係を考えると、ディープラーニングモデルは、この目標を達成するための明確なメリットを示している。 しかし、これらのモデルの鍵となる制限は長いシーケンスを処理する能力である。 医学的遭遇の歴史全体を捉えることは、より正確な予測につながると期待されているが、何十年もの間収集され、複数のリソースから収集された記録は、必然的に既存のディープラーニングアーキテクチャの受容領域を超える可能性がある。 これにより、重要な長期的な依存関係が失われる可能性がある。 このギャップに対処するため,階層型トランスフォーマーベースモデルであるHi-BEHRTを提案する。 Hi-BEHRTは、マルチモーダルな大規模リンク型電子健康記録を用いて、5年間の心不全、糖尿病、慢性腎臓病、脳卒中リスク予測において、最先端のBEHRT 1%から5%、レシーバー操作特性(AUROC)曲線下の領域では3%から6%、精度リコール(AUPRC)曲線下の領域では3%から6%(AUROC)および3%から11%(AUPRC)を超える。 また,階層型トランスフォーマーの事前トレーニングは十分に確立されていないため,EHRを用いたHi-BEHRTの効果的なエンドツーエンドコントラスト事前トレーニング戦略を提供し,比較的少ないトレーニングデータセットによる臨床イベントの予測における転送性を向上させる。

Electronic health records represent a holistic overview of patients' trajectories. Their increasing availability has fueled new hopes to leverage them and develop accurate risk prediction models for a wide range of diseases. Given the complex interrelationships of medical records and patient outcomes, deep learning models have shown clear merits in achieving this goal. However, a key limitation of these models remains their capacity in processing long sequences. Capturing the whole history of medical encounters is expected to lead to more accurate predictions, but the inclusion of records collected for decades and from multiple resources can inevitably exceed the receptive field of the existing deep learning architectures. This can result in missing crucial, long-term dependencies. To address this gap, we present Hi-BEHRT, a hierarchical Transformer-based model that can significantly expand the receptive field of Transformers and extract associations from much longer sequences. Using a multimodal large-scale linked longitudinal electronic health records, the Hi-BEHRT exceeds the state-of-the-art BEHRT 1% to 5% for area under the receiver operating characteristic (AUROC) curve and 3% to 6% for area under the precision recall (AUPRC) curve on average, and 3% to 6% (AUROC) and 3% to 11% (AUPRC) for patients with long medical history for 5-year heart failure, diabetes, chronic kidney disease, and stroke risk prediction. Additionally, because pretraining for hierarchical Transformer is not well-established, we provide an effective end-to-end contrastive pre-training strategy for Hi-BEHRT using EHR, improving its transferability on predicting clinical events with relatively small training dataset.
翻訳日:2021-06-23 14:51:37 公開日:2021-06-21
# ConvDySAT: 自己注意と畳み込みニューラルネットワークによる動的グラフによるディープニューラル表現学習

ConvDySAT: Deep Neural Representation Learning on Dynamic Graphs via Self-Attention and Convolutional Neural Networks ( http://arxiv.org/abs/2106.11430v1 )

ライセンス: Link先を確認
Ahmad Hafez, Atulya Praphul, Yousef Jaradt, Ezani Godwin(参考訳) 時間グラフでのノード表現の学習は、実単語の動的グラフを効率的に学習するための基本的なステップである。 実世界のグラフは、エッジの重みの変更、ノードの削除と追加、エッジの出現と消失など、時間とともに継続的に進化する性質を持ち、従来のグラフ表現学習手法は一般的に静的グラフに焦点を当てていた。 本稿では,DySATにおける構造的・時間的進化を表現する手法である自己認識機構を用いた畳み込みニューラルネットワークの強化により,最先端の動的手法の一つであるDySATの強化としてConvDySATを提案する。 本研究では,通信ネットワークとレーティングネットワークの単一ステップリンク予測を行い,様々な手法によるConvDySATの性能向上を示す実験結果を得た。

Learning node representations on temporal graphs is a fundamental step to learn real-word dynamic graphs efficiently. Real-world graphs have the nature of continuously evolving over time, such as changing edges weights, removing and adding nodes and appearing and disappearing of edges, while previous graph representation learning methods focused generally on static graphs. We present ConvDySAT as an enhancement of DySAT, one of the state-of-the-art dynamic methods, by augmenting convolution neural networks with the self-attention mechanism, the employed method in DySAT to express the structural and temporal evolution. We conducted single-step link prediction on a communication network and rating network, Experimental results show significant performance gains for ConvDySAT over various state-of-the-art methods.
翻訳日:2021-06-23 14:51:03 公開日:2021-06-21
# 透明性のためのチューリングテスト

A Turing Test for Transparency ( http://arxiv.org/abs/2106.11394v1 )

ライセンス: Link先を確認
Felix Biessmann and Viktor Treu(参考訳) 説明可能な人工知能(XAI)の中心的な目標は、人間とAIのインタラクションにおける信頼関係を改善することである。 例えば、人間が間違った予測をより効率的に特定できるようにすることで、説明が機械学習(ML)モデルの予測をより正確に評価するのに役立つという仮説がある。 しかし、最近の実証的な証拠は、説明が反対の効果を持つことを示している: ML予測の説明を提示する場合、人間がML予測を信頼する傾向がしばしばある。 実験的な証拠は、この効果がいかに直感的、あるいは人間、AIや説明が現れるかに起因することを示唆している。 この効果はXAIの目的に挑戦し、透明なAI手法の責任ある使用には、人間が人間の説明から生成された機械を区別する能力を考慮する必要があることを示唆している。 本稿では、チューリングの模倣ゲームであるTuring Test for Transparencyに基づくXAI手法の定量化について述べる。 人間の尋問者は、説明が人間によるものなのか、またはxai方式なのかを判断する。 この二項分類タスクにおいて、人間によって検出できないXAI手法の説明は、試験に合格している。 このような説明を検出することは、人間とAIの相互作用における信頼関係の評価と校正の要件である。 我々は,基本MLモデルやXAIアプローチであっても,ほとんどの参加者が機械による説明と人間を区別することができないことを示す,クラウドソーステキスト分類タスクの実験結果を示した。 透明MLの応用における結果の倫理的・実践的意義について論じる。

A central goal of explainable artificial intelligence (XAI) is to improve the trust relationship in human-AI interaction. One assumption underlying research in transparent AI systems is that explanations help to better assess predictions of machine learning (ML) models, for instance by enabling humans to identify wrong predictions more efficiently. Recent empirical evidence however shows that explanations can have the opposite effect: When presenting explanations of ML predictions humans often tend to trust ML predictions even when these are wrong. Experimental evidence suggests that this effect can be attributed to how intuitive, or human, an AI or explanation appears. This effect challenges the very goal of XAI and implies that responsible usage of transparent AI methods has to consider the ability of humans to distinguish machine generated from human explanations. Here we propose a quantitative metric for XAI methods based on Turing's imitation game, a Turing Test for Transparency. A human interrogator is asked to judge whether an explanation was generated by a human or by an XAI method. Explanations of XAI methods that can not be detected by humans above chance performance in this binary classification task are passing the test. Detecting such explanations is a requirement for assessing and calibrating the trust relationship in human-AI interaction. We present experimental results on a crowd-sourced text classification task demonstrating that even for basic ML models and XAI approaches most participants were not able to differentiate human from machine generated explanations. We discuss ethical and practical implications of our results for applications of transparent ML.
翻訳日:2021-06-23 14:47:42 公開日:2021-06-21
# ロバストで異種なオッズ比:未処理品の価格感度の推定

Robust and Heterogenous Odds Ratio: Estimating Price Sensitivity for Unbought Items ( http://arxiv.org/abs/2106.11389v1 )

ライセンス: Link先を確認
Jean Pauphilet(参考訳) 問題定義: 介入に対する不均一な応答のマイニングは、例えば治療や価格のパーソナライズなど、データ駆動操作において重要なステップである。 トランザクションレベルのデータから価格感度を推定する方法を検討する。 因果推論の用語では, (a) 処理に対する応答(商品を購入するかどうか)が二元的であり, (b) 処理課題が部分的に観察されている場合(また, 購入品についてのみ全情報が利用できる場合)に不均一な処理効果を推定する。 方法と結果: 医学・社会科学における治療効果の尺度である異種オッズ比を推定するための再帰的パーティショニング手法を提案する。 我々は,部分的に観察された治療課題があっても頑健な推論を可能にするために,対向的計算ステップを統合した。 我々は,合成データに関する方法論を検証し,政治学,医学,収益管理の3つのケーススタディに適用する。 管理的意味:我々の頑健な異種確率比推定方法は、患者や顧客の不均一性を定量化し、介入をパーソナライズするためのシンプルで直感的なツールであり、多くの収益管理データに中心的な制限を課す。

Problem definition: Mining for heterogeneous responses to an intervention is a crucial step for data-driven operations, for instance to personalize treatment or pricing. We investigate how to estimate price sensitivity from transaction-level data. In causal inference terms, we estimate heterogeneous treatment effects when (a) the response to treatment (here, whether a customer buys a product) is binary, and (b) treatment assignments are partially observed (here, full information is only available for purchased items). Methodology/Results: We propose a recursive partitioning procedure to estimate heterogeneous odds ratio, a widely used measure of treatment effect in medicine and social sciences. We integrate an adversarial imputation step to allow for robust inference even in presence of partially observed treatment assignments. We validate our methodology on synthetic data and apply it to three case studies from political science, medicine, and revenue management. Managerial Implications: Our robust heterogeneous odds ratio estimation method is a simple and intuitive tool to quantify heterogeneity in patients or customers and personalize interventions, while lifting a central limitation in many revenue management data.
翻訳日:2021-06-23 14:47:17 公開日:2021-06-21
# 腹部ct画像からの肝・病変分画に対するコンテキストアウェアポリアンネット

Context-aware PolyUNet for Liver and Lesion Segmentation from Abdominal CT Images ( http://arxiv.org/abs/2106.11330v1 )

ライセンス: Link先を確認
Liping Zhang and Simon Chun-Ho Yu(参考訳) 肝腫瘍疾患の診断・評価を補助するために,ct画像からの肝・病変の正確な分割が臨床において非常に要求される。 しかし,造影CTボリュームからの自動肝・病変分画は,画像のコントラスト,解像度,品質の多様性のために極めて困難である。 従来の2dスライス・バイ・スライスまたは3dボリューム・バイ・ボリュームセグメンテーションのためのunetベースの方法は、十分な空間的コンテキストを持たないか、高いgpu計算コストに苦しむかのいずれかであり、性能に制限がある。 これらの課題に対処するために,肝と病変の正確なセグメンテーションのための新しい文脈対応PolyUNetを提案する。 構造的多様性と連続するt-adjacentスライスを共同研究し、gpuメモリ消費の過負荷を回避しつつ、特徴表現力と空間的コンテキスト情報を高める。 さらに,ズームアウト・インと2段階のリファインメント戦略を用いて,無関係なコンテキストを除外し,細粒度セグメント化のための特定領域に着目した。 MICCAI 2017 Liver tumor Segmentation (LiTS) Challengeでは,1つのモデルを用いた全てのタスクにおいて,肝セグメンテーション,病変のセグメンテーション,病変検出,腫瘍の重み付けをそれぞれ3〜3ドル,12~3ドル,2~2ドル,5~3ドルと非常に競争力のある成績を収めた。

Accurate liver and lesion segmentation from computed tomography (CT) images are highly demanded in clinical practice for assisting the diagnosis and assessment of hepatic tumor disease. However, automatic liver and lesion segmentation from contrast-enhanced CT volumes is extremely challenging due to the diversity in contrast, resolution, and quality of images. Previous methods based on UNet for 2D slice-by-slice or 3D volume-by-volume segmentation either lack sufficient spatial contexts or suffer from high GPU computational cost, which limits the performance. To tackle these issues, we propose a novel context-aware PolyUNet for accurate liver and lesion segmentation. It jointly explores structural diversity and consecutive t-adjacent slices to enrich feature expressive power and spatial contextual information while avoiding the overload of GPU memory consumption. In addition, we utilize zoom out/in and two-stage refinement strategy to exclude the irrelevant contexts and focus on the specific region for the fine-grained segmentation. Our method achieved very competitive performance at the MICCAI 2017 Liver Tumor Segmentation (LiTS) Challenge among all tasks with a single model and ranked the $3^{rd}$, $12^{th}$, $2^{nd}$, and $5^{th}$ places in the liver segmentation, lesion segmentation, lesion detection, and tumor burden estimation, respectively.
翻訳日:2021-06-23 14:46:51 公開日:2021-06-21
# BEyond Observation: ObjectNavのアプローチ

BEyond observation: an approach for ObjectNav ( http://arxiv.org/abs/2106.11379v1 )

ライセンス: Link先を確認
Daniel V. Ruiz, Eduardo Todt(参考訳) 自動化の台頭とともに、無人車両は商業製品や科学研究のトピックとしてホットな話題となった。 組み込みシステム、制御理論、経路計画、同時ローカライゼーションとマッピング(slam)、シーン再構成、パターン認識を包含する多分野のロボット工学分野を構成する。 本研究では,センサデータ融合と最先端機械学習アルゴリズムが,ビジュアルセマンティックナビゲーション(Visual Semantic Navigation)と呼ばれるEmbodied Artificial Intelligence(E-AI)タスクをどのように実行できるかを探索する。 このタスク、すなわちobject-goal navigation(objectnav)は、エゴセントリックな視覚観察を使用して、環境を事前に知らずにターゲットセマンティクスクラスに属するオブジェクトに到達する自律的なナビゲーションで構成される。 提案手法は,ミニバル相とテストスタンダード相のHabitat Challenge 2021 ObjectNavで4位に達した。

With the rise of automation, unmanned vehicles became a hot topic both as commercial products and as a scientific research topic. It composes a multi-disciplinary field of robotics that encompasses embedded systems, control theory, path planning, Simultaneous Localization and Mapping (SLAM), scene reconstruction, and pattern recognition. In this work, we present our exploratory research of how sensor data fusion and state-of-the-art machine learning algorithms can perform the Embodied Artificial Intelligence (E-AI) task called Visual Semantic Navigation. This task, a.k.a Object-Goal Navigation (ObjectNav) consists of autonomous navigation using egocentric visual observations to reach an object belonging to the target semantic class without prior knowledge of the environment. Our method reached fourth place on the Habitat Challenge 2021 ObjectNav on the Minival phase and the Test-Standard Phase.
翻訳日:2021-06-23 14:46:14 公開日:2021-06-21
# スタイルGANと知覚微細化を用いた正規化アバター合成

Normalized Avatar Synthesis Using StyleGAN and Perceptual Refinement ( http://arxiv.org/abs/2106.11423v1 )

ライセンス: Link先を確認
Huiwen Luo, Koki Nagano, Han-Wei Kung, Mclean Goldwhite, Qingguo Xu, Zejian Wang, Lingyu Wei, Liwen Hu, Hao Li(参考訳) 我々は,1枚の制約のない写真から人物の正規化された3Dアバターをデジタル化する,非常に堅牢なGANベースのフレームワークを提案する。 入力画像は笑顔でもよいし、極端な照明条件下でも撮影できるが、この方法では、中性表現における人の顔の質の高いテクスチャモデルと、拡散照明条件下での皮膚テクスチャを確実に生成することができる。 カットエッジ3D顔再構成法は、GANベースのデコーダと組み合わされた非線形の変形可能な顔モデルを用いて、人の類似性と詳細を捉えるが、仮想環境との統合のために、面白くアニメーションフレンドリーなアバターを作成するのに欠かせないアルベドテクスチャを持つ中立な頭部モデルを生成する。 既存の方法の課題は、トレーニングの欠如と、正規化された3D顔を含む真実データである。 この問題に対する二段階アプローチを提案する。 まず, 非線形形状の顔モデルをStyleGAN2ネットワークに埋め込むことにより, 高度に頑健な3次元顔生成を実現する。 これにより、詳細な顔のアセットを生成できます。 この推論に続いて、生成された資産を正規化として使用し、正規化された顔の限られた訓練サンプルに対処する知覚的洗練ステップが続く。 さらに,光度計と慎重に選択された写真を組み合わせた正規化顔データセットを導入し,拡散照明条件下で中性表現を持つ偽人物を生成する。 提案したデータセットは,最先端のGANベースの3次元顔再構成法よりも2桁少ない被写体を含むが,非常に困難な入力画像に対して高品質な正規化顔モデルを作成することが可能であり,現状よりも優れた性能を示すことができる。

We introduce a highly robust GAN-based framework for digitizing a normalized 3D avatar of a person from a single unconstrained photo. While the input image can be of a smiling person or taken in extreme lighting conditions, our method can reliably produce a high-quality textured model of a person's face in neutral expression and skin textures under diffuse lighting condition. Cutting-edge 3D face reconstruction methods use non-linear morphable face models combined with GAN-based decoders to capture the likeness and details of a person but fail to produce neutral head models with unshaded albedo textures which is critical for creating relightable and animation-friendly avatars for integration in virtual environments. The key challenges for existing methods to work is the lack of training and ground truth data containing normalized 3D faces. We propose a two-stage approach to address this problem. First, we adopt a highly robust normalized 3D face generator by embedding a non-linear morphable face model into a StyleGAN2 network. This allows us to generate detailed but normalized facial assets. This inference is then followed by a perceptual refinement step that uses the generated assets as regularization to cope with the limited available training samples of normalized faces. We further introduce a Normalized Face Dataset, which consists of a combination photogrammetry scans, carefully selected photographs, and generated fake people with neutral expressions in diffuse lighting conditions. While our prepared dataset contains two orders of magnitude less subjects than cutting edge GAN-based 3D facial reconstruction methods, we show that it is possible to produce high-quality normalized face models for very challenging unconstrained input images, and demonstrate superior performance to the current state-of-the-art.
翻訳日:2021-06-23 14:46:00 公開日:2021-06-21
# 音声イベント表現は他の音声タスクに一般化するのか? 音声伝達学習における事例研究

Do sound event representations generalize to other audio tasks? A case study in audio transfer learning ( http://arxiv.org/abs/2106.11335v1 )

ライセンス: Link先を確認
Anurag Kumar, Yun Wang, Vamsi Krishna Ithapu, Christian Fuegen(参考訳) 転送学習は、複数の関連する学習問題を横断する効率的な情報伝達に不可欠である。 シンプルで効果的なトランスファーラーニングアプローチは、機能抽出のために大規模タスクでトレーニングされたディープニューラルネットワークを利用する。 このような表現は、下流のタスクを学習するために使われる。 本稿では,大規模音響イベント検出データセット上で学習したニューラルネットワークから得られた音声表現の転送学習能力について検討する。 我々は,これらの表現を,単純な線形分類器転送機構を用いて,他の幅広い音声タスクに対して構築し,評価する。 このような単純な線形転送は、下流タスクで高い性能を達成するのに十分強力であることを示す。 また、このような効率的な情報伝達を可能にする音響イベント表現の属性に関する洞察を提供する。

Transfer learning is critical for efficient information transfer across multiple related learning problems. A simple, yet effective transfer learning approach utilizes deep neural networks trained on a large-scale task for feature extraction. Such representations are then used to learn related downstream tasks. In this paper, we investigate transfer learning capacity of audio representations obtained from neural networks trained on a large-scale sound event detection dataset. We build and evaluate these representations across a wide range of other audio tasks, via a simple linear classifier transfer mechanism. We show that such simple linear transfer is already powerful enough to achieve high performance on the downstream tasks. We also provide insights into the attributes of sound event representations that enable such efficient information transfer.
翻訳日:2021-06-23 14:44:28 公開日:2021-06-21
# コミュニケーションによる分散ヒューリスティックなマルチエージェントパス探索

Distributed Heuristic Multi-Agent Path Finding with Communication ( http://arxiv.org/abs/2106.11365v1 )

ライセンス: Link先を確認
Ziyuan Ma, Yudong Luo, Hang Ma(参考訳) 大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。 近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。 衝突のない政策を得るための根本的な課題は、エージェントが混雑した状況に対処するために協力を学ぶ必要があることである。 本稿では, エージェントがグラフ畳み込みによって協調するMAPFのための新しい学習手法を提供するために, 深層Q-ラーニングとコミュニケーションを組み合わせる。 長期的目標指向タスクにおいてRLアルゴリズムを導くため,既存の作業のように特定の経路を使用するのではなく,単一ソースからの最短経路の選択をヒューリスティックなガイダンスとして組み込む。 本手法は,各エージェントを独立に扱い,単一エージェントの観点からモデルを訓練する。 最終訓練されたポリシーは、分散実行のために各エージェントに適用される。 システム全体がトレーニング中に分散し、カリキュラム学習戦略の下でトレーニングされる。 障害物の多い環境における経験的評価は, 平均ステップが低く, 高い成功率を示す。

Multi-Agent Path Finding (MAPF) is essential to large-scale robotic systems. Recent methods have applied reinforcement learning (RL) to learn decentralized polices in partially observable environments. A fundamental challenge of obtaining collision-free policy is that agents need to learn cooperation to handle congested situations. This paper combines communication with deep Q-learning to provide a novel learning based method for MAPF, where agents achieve cooperation via graph convolution. To guide RL algorithm on long-horizon goal-oriented tasks, we embed the potential choices of shortest paths from single source as heuristic guidance instead of using a specific path as in most existing works. Our method treats each agent independently and trains the model from a single agent's perspective. The final trained policy is applied to each agent for decentralized execution. The whole system is distributed during training and is trained under a curriculum learning strategy. Empirical evaluation in obstacle-rich environment indicates the high success rate with low average step of our method.
翻訳日:2021-06-23 14:44:21 公開日:2021-06-21
# サンプルの硬さ - サンプルの硬さを使ってディープラーニングモデルを保護する-

Hardness of Samples Is All You Need: Protecting Deep Learning Models Using Hardness of Samples ( http://arxiv.org/abs/2106.11424v1 )

ライセンス: Link先を確認
Amir Mahdi Sadeghzadeh, Faezeh Dehghan, Amir Mohammad Sobhanian, and Rasool Jalili(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)ベースの分類器がモデル抽出攻撃に対して脆弱であることが示されている。 モデル抽出攻撃において、敵はターゲット分類器を利用して、いくつかの基準に関してターゲット分類器を模倣する代理分類器を作成する。 本稿では,試料の硬さ度を調査し,モデル抽出攻撃試料の硬さ度ヒストグラムと正常試料の硬さ度ヒストグラムとを区別できることを示す。 通常のサンプルは、ターゲット分類器のトレーニングデータ分布から来る。 DNNに基づく分類器の訓練プロセスはいくつかのエポックで行われているので、この過程をサブクラス化器のシーケンスと見なすことができ、各サブクラス化器はエポックの最後に生成される。 サンプルの硬度度を計算するためにサブ分類器のシーケンスを用いる。 サンプルの硬度度と分類器出力の信頼度の関係について検討する。 本稿では,モデル抽出攻撃のサンプルシーケンスを検出するために,Hardness-Oriented Detection Approach (HODA)を提案する。 その結果, HODAは, 100個の攻撃サンプルを見るだけで, モデル抽出攻撃のサンプルシーケンスを高い成功率で検出できることがわかった。 また, 対向例の硬度度を調べた結果, 対向例の硬度ヒストグラムが正常試料の硬度ヒストグラムとは異なることが明らかとなった。

Several recent studies have shown that Deep Neural Network (DNN)-based classifiers are vulnerable against model extraction attacks. In model extraction attacks, an adversary exploits the target classifier to create a surrogate classifier imitating the target classifier with respect to some criteria. In this paper, we investigate the hardness degree of samples and demonstrate that the hardness degree histogram of model extraction attacks samples is distinguishable from the hardness degree histogram of normal samples. Normal samples come from the target classifier's training data distribution. As the training process of DNN-based classifiers is done in several epochs, we can consider this process as a sequence of subclassifiers so that each subclassifier is created at the end of an epoch. We use the sequence of subclassifiers to calculate the hardness degree of samples. We investigate the relation between hardness degree of samples and the trust in the classifier outputs. We propose Hardness-Oriented Detection Approach (HODA) to detect the sample sequences of model extraction attacks. The results demonstrate that HODA can detect the sample sequences of model extraction attacks with a high success rate by only watching 100 attack samples. We also investigate the hardness degree of adversarial examples and indicate that the hardness degree histogram of adversarial examples is distinct from the hardness degree histogram of normal samples.
翻訳日:2021-06-23 14:43:43 公開日:2021-06-21
# レドックスフロー電池のパラメータ推定のための物理制約深部ニューラルネットワーク法

Physics-constrained deep neural network method for estimating parameters in a redox flow battery ( http://arxiv.org/abs/2106.11451v1 )

ライセンス: Link先を確認
QiZhi He, Panos Stinis, Alexandre Tartakovsky(参考訳) 本稿では,vanadium redox flow battery (vrfb) のゼロ次元(0d)モデルにおけるパラメータ推定のための物理制約付き深層ニューラルネットワーク (pcdnn) 法を提案する。 このアプローチでは,モデルパラメータを操作条件の関数として近似するためにディープニューラルネットワーク(DNN)を用いる。 この方法では,パラメータ学習過程における物理制約としてVRFB計算モデルを統合し,パラメータ推定とセル電圧予測の精度を高めることができる。 実験データセットを用いて,pcdnn法を用いて様々な動作条件のモデルパラメータを推定し,従来の逆法で推定した0次元モデル予測と比較して電圧の0次元モデル予測を改善した。 また,PCDNNの手法は,DNN訓練に使用しない操作条件のパラメータ値を推定する汎用性を向上することを示した。

In this paper, we present a physics-constrained deep neural network (PCDNN) method for parameter estimation in the zero-dimensional (0D) model of the vanadium redox flow battery (VRFB). In this approach, we use deep neural networks (DNNs) to approximate the model parameters as functions of the operating conditions. This method allows the integration of the VRFB computational models as the physical constraints in the parameter learning process, leading to enhanced accuracy of parameter estimation and cell voltage prediction. Using an experimental dataset, we demonstrate that the PCDNN method can estimate model parameters for a range of operating conditions and improve the 0D model prediction of voltage compared to the 0D model prediction with constant operation-condition-independent parameters estimated with traditional inverse methods. We also demonstrate that the PCDNN approach has an improved generalization ability for estimating parameter values for operating conditions not used in the DNN training.
翻訳日:2021-06-23 14:43:20 公開日:2021-06-21
# テンソル学習に基づくFD-MIMOシステムのためのプレコーダコードブック

Tensor Learning-based Precoder Codebooks for FD-MIMO Systems ( http://arxiv.org/abs/2106.11374v1 )

ライセンス: Link先を確認
Keerthana Bhogi, Chiranjib Saha, and Harpreet S. Dhillon(参考訳) 本稿では、テンソル学習を用いて、送信機(Tx)のUPAアンテナを用いたFDマルチインプット多重出力(MIMO)システムにおいて、プリコーディングのための低複雑さコードブックを設計するための効率的な手順を開発する。 特に,統計的チャネルモデルを用いる代わりに,機械学習の基礎を持つモデルフリーのデータ駆動アプローチを用いて,周囲の伝搬条件に適応するコードブックを生成する。 我々はFD-MIMOチャネルのテンソル表現を使用し、その特性を利用してチャネルプリコーダの量子化バージョンを設計する。 2つの低次元プリコーダのKronecker Product(KP)の関数として最適プリコーダの最もよい表現は、チャネルのテンソル分解から得られるUPAの水平次元と垂直次元に対応する。 次に、このプリコーダを定量化し、チャネル状態情報(CSI)の量子化による相互情報の損失を最小化するように製品コードブックを設計する。 重要な技術的貢献は、プリコーダ上の制約を利用して、製品コードブックの設計問題を、CPM(Cartesian Product Grassmann manifold)上の教師なしクラスタリング問題に還元することである。 このコードブックは、CPMで$K$-meansクラスタリングを実行することで、効率的に見つけることができる。 CPM 上の適切な誘導距離計量を用いて、製品コードブックの構成は、水平次元と垂直次元に対応する因子多様体上の最適遠心点集合を見つけるのに等価であることを示す。 提案した設計基準のコードブック学習能力と,設計したコードブックの魅力的な性能を示すため,シミュレーション結果を示した。

This paper develops an efficient procedure for designing low-complexity codebooks for precoding in a full-dimension (FD) multiple-input multiple-output (MIMO) system with a uniform planar array (UPA) antenna at the transmitter (Tx) using tensor learning. In particular, instead of using statistical channel models, we utilize a model-free data-driven approach with foundations in machine learning to generate codebooks that adapt to the surrounding propagation conditions. We use a tensor representation of the FD-MIMO channel and exploit its properties to design quantized version of the channel precoders. We find the best representation of the optimal precoder as a function of Kronecker Product (KP) of two low-dimensional precoders, respectively corresponding to the horizontal and vertical dimensions of the UPA, obtained from the tensor decomposition of the channel. We then quantize this precoder to design product codebooks such that an average loss in mutual information due to quantization of channel state information (CSI) is minimized. The key technical contribution lies in exploiting the constraints on the precoders to reduce the product codebook design problem to an unsupervised clustering problem on a Cartesian Product Grassmann manifold (CPM), where the cluster centroids form a finite-sized precoder codebook. This codebook can be found efficiently by running a $K$-means clustering on the CPM. With a suitable induced distance metric on the CPM, we show that the construction of product codebooks is equivalent to finding the optimal set of centroids on the factor manifolds corresponding to the horizontal and vertical dimensions. Simulation results are presented to demonstrate the capability of the proposed design criterion in learning the codebooks and the attractive performance of the designed codebooks.
翻訳日:2021-06-23 14:41:04 公開日:2021-06-21
# (参考訳) ROPE:グラフ情報抽出のための順序等変位置符号化

ROPE: Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction ( http://arxiv.org/abs/2106.10786v1 )

ライセンス: CC BY 4.0
Chen-Yu Lee, Chun-Liang Li, Chu Wang, Renshen Wang, Yasuhisa Fujii, Siyang Qin, Ashok Popat and Tomas Pfister(参考訳) 単語の自然読解順序は形式的な文書からの情報抽出に不可欠である。 文書の空間レイアウトパターンをモデル化するグラフ畳み込みネットワーク(gcns)の最近の進歩にもかかわらず、与えられた単語レベルのノード表現の読み出し順序をグラフでキャプチャする能力は限られている。 本稿では,文書中の単語の逐次的提示を識別する新しい位置符号化手法である,読み順序等変位置符号化(ROPE)を提案する。 ROPEは、単語レベルのグラフ接続が与えられた対象単語に対して、隣接する単語に対して独自の読み順序コードを生成する。 公開FUNSDデータセットと大規模支払データセット上で,単語ラベリングと単語グループ化を含む2つの基本文書エンティティ抽出タスクについて検討した。 ROPEは既存のGCNを最大8.4%のスコアで継続的に改善することを示す。

Natural reading orders of words are crucial for information extraction from form-like documents. Despite recent advances in Graph Convolutional Networks (GCNs) on modeling spatial layout patterns of documents, they have limited ability to capture reading orders of given word-level node representations in a graph. We propose Reading Order Equivariant Positional Encoding (ROPE), a new positional encoding technique designed to apprehend the sequential presentation of words in documents. ROPE generates unique reading order codes for neighboring words relative to the target word given a word-level graph connectivity. We study two fundamental document entity extraction tasks including word labeling and word grouping on the public FUNSD dataset and a large-scale payment dataset. We show that ROPE consistently improves existing GCNs with a margin up to 8.4% F1-score.
翻訳日:2021-06-23 05:43:37 公開日:2021-06-21
# (参考訳) 分散クラスタリングアルゴリズムに基づく大規模画像分割

Large-scale image segmentation based on distributed clustering algorithms ( http://arxiv.org/abs/2106.10795v1 )

ライセンス: CC BY 4.0
Ran Lu, Aleksandar Zlateski and H. Sebastian Seung(参考訳) 3次元画像セグメンテーションへの多くのアプローチは、画像領域へのスーパーボクセルの階層的クラスタリングに基づいている。 ここでは,膨大な数のスーパーボクセルを扱う分散アルゴリズムについて述べる。 アルゴリズムは再帰的に機能し、領域は複数のワーカーによって独立に処理されるチャンクに分割される。 再帰的手続きの各ラウンドにおいて、すべての次元のチャンクサイズは、1つのチャンクがイメージ全体を包含するまで倍増する。 最終的な結果はチャンキングスキームとは明確に独立しており、イメージ全体がチャンクに分割せずに処理されたのと同じである。 これは、隣接する一対の領域がある統計的性質(例えば)によってスコアされるため、自明ではない。 平均または中央値はインターフェースの親和性であり、インターフェイスは任意に多くのチャンクにわたって拡張される。 トリックは、チャンク境界に触れる領域のマージ決定を遅らせ、その領域がチャンク内に完全に含まれた後のみ、後続のラウンドで完了することである。 本研究では3次元電子顕微鏡脳画像から得られた135億超語彙間の1.5兆のエッジを持つ親和性グラフをクラスタリングしてアルゴリズムを実証する。

Many approaches to 3D image segmentation are based on hierarchical clustering of supervoxels into image regions. Here we describe a distributed algorithm capable of handling a tremendous number of supervoxels. The algorithm works recursively, the regions are divided into chunks that are processed independently in parallel by multiple workers. At each round of the recursive procedure, the chunk size in all dimensions are doubled until a single chunk encompasses the entire image. The final result is provably independent of the chunking scheme, and the same as if the entire image were processed without division into chunks. This is nontrivial because a pair of adjacent regions is scored by some statistical property (e.g. mean or median) of the affinities at the interface, and the interface may extend over arbitrarily many chunks. The trick is to delay merge decisions for regions that touch chunk boundaries, and only complete them in a later round after the regions are fully contained within a chunk. We demonstrate the algorithm by clustering an affinity graph with over 1.5 trillion edges between 135 billion supervoxels derived from a 3D electron microscopic brain image.
翻訳日:2021-06-23 05:35:10 公開日:2021-06-21
# (参考訳) cd-sgd:圧縮と遅延補償を伴う分布確率勾配降下

CD-SGD: Distributed Stochastic Gradient Descent with Compression and Delay Compensation ( http://arxiv.org/abs/2106.10796v1 )

ライセンス: CC BY 4.0
Enda Yu, Dezun Dong, Yemao Xu, Shuo Ouyang, Xiangke Liao(参考訳) コミュニケーションのオーバーヘッドが分散トレーニングの鍵となる課題です。 グラディエント圧縮は、通信トラフィックを減らすために広く使われている手法である。 パイプラインのような並列通信機構手法と組み合わせると、勾配圧縮技術は通信オーバーヘッドの影響を大幅に軽減することができる。 しかし, 勾配圧縮技術には2つの問題が存在する。 まず、勾配圧縮により計算コストが増大し、次のトレーニングイテレーションが遅れる。 第二に、勾配圧縮は通常収束精度の低下につながる。

Communication overhead is the key challenge for distributed training. Gradient compression is a widely used approach to reduce communication traffic. When combining with parallel communication mechanism method like pipeline, gradient compression technique can greatly alleviate the impact of communication overhead. However, there exists two problems of gradient compression technique to be solved. Firstly, gradient compression brings in extra computation cost, which will delay the next training iteration. Secondly, gradient compression usually leads to the decrease of convergence accuracy.
翻訳日:2021-06-23 05:13:34 公開日:2021-06-21
# (参考訳) ToAlign: 教師なしドメイン適応のためのタスク指向アライメント

ToAlign: Task-oriented Alignment for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2106.10812v1 )

ライセンス: CC BY 4.0
Guoqiang Wei, Cuiling Lan, Wenjun Zeng, Zhibo Chen(参考訳) 教師なし領域適応分類は、ラベルなし対象領域の分類性能を改善することを目的としている。 ドメインシフトの悪影響を軽減するために、多くのアプローチが機能空間のソースドメインとターゲットドメインを調整する。 しかし、機能は通常、ドメインアライメントを積極的に分類タスクに役立てることなくアライメント全体として取り込まれ、サブ最適解へと導かれる。 より良い適応のためにどのサブフィーチャを調整すべきかは未検討です。 本稿では、教師なしドメイン適応(UDA)のための効果的なタスク指向アライメント(ToAlign)を提案する。 本稿では,ドメイン間で整列すべき特徴について検討し,ドメインアライメントを積極的に分類に役立てるために,その分類課題から引き起こされる事前知識の指導の下で,特徴分解とアライメントを行うことを提案する。 特に、ソースドメインの機能を、整列すべきタスク関連/識別機能と、分類メタ知識に基づいて回避/無視されるべきタスク関連機能に明示的に分解する。 さまざまなドメイン適応設定における様々なベンチマーク(office-home、visda-2017、domainnetなど)の広範な実験結果から、toalignは最先端のパフォーマンスを達成するのに役立つ。

Unsupervised domain adaptive classification intends to improve theclassification performance on unlabeled target domain. To alleviate the adverse effect of domain shift, many approaches align the source and target domains in the feature space. However, a feature is usually taken as a whole for alignment without explicitly making domain alignment proactively serve the classification task, leading to sub-optimal solution. What sub-feature should be aligned for better adaptation is under-explored. In this paper, we propose an effective Task-oriented Alignment (ToAlign) for unsupervised domain adaptation (UDA). We study what features should be aligned across domains and propose to make the domain alignment proactively serve classification by performing feature decomposition and alignment under the guidance of the prior knowledge induced from the classification taskitself. Particularly, we explicitly decompose a feature in the source domain intoa task-related/discriminative feature that should be aligned, and a task-irrelevant feature that should be avoided/ignored, based on the classification meta-knowledge. Extensive experimental results on various benchmarks (e.g., Office-Home, Visda-2017, and DomainNet) under different domain adaptation settings demonstrate theeffectiveness of ToAlign which helps achieve the state-of-the-art performance.
翻訳日:2021-06-23 04:54:41 公開日:2021-06-21
# (参考訳) 直列グラフ生成のための構造スパースR-CNN

Structured Sparse R-CNN for Direct Scene Graph Generation ( http://arxiv.org/abs/2106.10815v1 )

ライセンス: CC BY 4.0
Yao Teng, Limin Wang(参考訳) シーングラフ生成(SGG)とは、画像内の関係を持つエンティティペアを検出することである。 既存のSGGアプローチでは、このタスクをオブジェクト検出、関係グラフの構築、あるいは密度とスパースの関係予測に分解するために、多段階パイプラインを使用することが多い。 そこで本研究では,SGGを直接セット予測の観点から,構造スパースR-CNN(Structured Sparse R-CNN)と呼ばれる,単純な,スパースで統一された関係検出フレームワークを提案する。 提案手法の鍵となるのは,学習可能な三重項クエリと構造化三重項検出器のセットである。 特に、三重項クエリは、エンティティペアの位置、カテゴリ、それらの関係に関する一般的な事前をエンコードし、その後の改良のために関係検出の最初の推測を提供する。 三重項検出器はカスケードされた動的ヘッド設計を示し、関係検出の結果を徐々に洗練する。 さらに,構造化スパースr-cnnの訓練難易度を緩和するために,シャム語スパースr-cnnからの知識蒸留に基づく緩和・強化トレーニング戦略を提案する。 また,不均衡データ分布に対する適応焦点パラメータと平均ロジット法を提案する。 我々は,ビジュアルゲノムとオープンイメージの2つのベンチマークで実験を行い,本手法が最先端の性能を実現することを示す。 一方、三重項検出器の設計および訓練戦略における構造モデリングの知見を提供するため、深部アブレーション研究を行っている。

Scene graph generation (SGG) is to detect entity pairs with their relations in an image. Existing SGG approaches often use multi-stage pipelines to decompose this task into object detection, relation graph construction, and dense or dense-to-sparse relation prediction. Instead, from a perspective on SGG as a direct set prediction, this paper presents a simple, sparse, and unified framework for relation detection, termed as Structured Sparse R-CNN. The key to our method is a set of learnable triplet queries and structured triplet detectors which could be jointly optimized from the training set in an end-to-end manner. Specifically, the triplet queries encode the general prior for entity pair locations, categories, and their relations, and provide an initial guess of relation detection for subsequent refinement. The triplet detector presents a cascaded dynamic head design to progressively refine the results of relation detection. In addition, to relieve the training difficulty of Structured Sparse R-CNN, we propose a relaxed and enhanced training strategy based on knowledge distillation from a Siamese Sparse R-CNN. We also propose adaptive focusing parameter and average logit approach for imbalance data distribution. We perform experiments on two benchmarks: Visual Genome and Open Images, and the results demonstrate that our method achieves the state-of-the-art performance. Meanwhile, we perform in-depth ablation studies to provide insights on our structured modeling in triplet detector design and training strategies.
翻訳日:2021-06-23 04:35:49 公開日:2021-06-21
# (参考訳) 自動運転のための3次元物体検出:調査

3D Object Detection for Autonomous Driving: A Survey ( http://arxiv.org/abs/2106.10823v1 )

ライセンス: CC BY 4.0
Rui Qian, Xin Lai, Xirong Li(参考訳) 自動運転は、人間を深刻な事故から守る最も有望な治療法の1つである。 この目的のために、3次元物体検出は、特に経路計画、動き予測、衝突回避等のために、そのような認識システムの中核となる基礎となる。 一般に、対応する3Dポイントクラウドを持つステレオ画像やモノクル画像は、既に3Dオブジェクト検出の標準的なレイアウトであり、その中の1つが正確な深度情報を提供するようになってきている。 既存の試みにもかかわらず、点雲上の3dオブジェクト検出は、自然による点雲のばらつきや不規則さ、カメラビューとライダーバードの眼の視差によるモダリティ相乗効果、オクルージョン、遠距離でのスケール変動などにより、まだ初期段階にある。 近年,3次元物体検出において大きな進歩がみられ,このビジョン課題に対処するために大量の文献が研究されている。 そこで本研究では,センサ,基本,最新の最先端検出手法など,その長所と短所を網羅する分野の最新動向を総合的に概観する。 さらに,一般的な公開データセットについて,メトリクスを導入し,定量的比較を行う。 今後の研究の道筋は、調査対象の作品を深く分析した結果、公平に特定されるだろう。 最後に、本論文をまとめる。

Autonomous driving is regarded as one of the most promising remedies to shield human beings from severe crashes. To this end, 3D object detection serves as the core basis of such perception system especially for the sake of path planning, motion prediction, collision avoidance, etc. Generally, stereo or monocular images with corresponding 3D point clouds are already standard layout for 3D object detection, out of which point clouds are increasingly prevalent with accurate depth information being provided. Despite existing efforts, 3D object detection on point clouds is still in its infancy due to high sparseness and irregularity of point clouds by nature, misalignment view between camera view and LiDAR bird's eye of view for modality synergies, occlusions and scale variations at long distances, etc. Recently, profound progress has been made in 3D object detection, with a large body of literature being investigated to address this vision task. As such, we present a comprehensive review of the latest progress in this field covering all the main topics including sensors, fundamentals, and the recent state-of-the-art detection methods with their pros and cons. Furthermore, we introduce metrics and provide quantitative comparisons on popular public datasets. The avenues for future work are going to be judiciously identified after an in-deep analysis of the surveyed works. Finally, we conclude this paper.
翻訳日:2021-06-23 04:16:20 公開日:2021-06-21
# (参考訳) Two-Stream Consensus Network: HACS Challenge 2021 Weakly Supervised Learning Track

Two-Stream Consensus Network: Submission to HACS Challenge 2021 Weakly-Supervised Learning Track ( http://arxiv.org/abs/2106.10829v1 )

ライセンス: CC BY-SA 4.0
Yuanhao Zhai, Le Wang, David Doermann, Junsong Yuan(参考訳) 本報告では,弱教師付き学習トラックであるhacs temporal action localization challenge 2021の解法を提案する。 弱い監督による時間的行動ローカライゼーションの目標は、ビデオレベルのラベルのみを与えられた未編集ビデオに対する関心の行動の時間的特定と分類である。 この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。 TSCNは、2ストリームベースモデルのトレーニング手順と擬似基底真理学習手順で構成される。 ベースモデルトレーニングは、擬似基底真理が生成される融合に基づいて、単一のモダリティ(すなわち、RGBまたは光フロー)に基づいて信頼できる予測を予測し、ベースモデルをトレーニングするための監督として使用することを奨励する。 HACS v1.1.1データセットでは、特徴抽出I3Dモデルを微調整することなく、検証セットで22.20%、平均mAPで21.68%を達成する。 私たちのソリューションはこの課題で2位にランクインし、この方法が将来の学術研究のベースラインとなることを願っています。

This technical report presents our solution to the HACS Temporal Action Localization Challenge 2021, Weakly-Supervised Learning Track. The goal of weakly-supervised temporal action localization is to temporally locate and classify action of interest in untrimmed videos given only video-level labels. We adopt the two-stream consensus network (TSCN) as the main framework in this challenge. The TSCN consists of a two-stream base model training procedure and a pseudo ground truth learning procedure. The base model training encourages the model to predict reliable predictions based on single modality (i.e., RGB or optical flow), based on the fusion of which a pseudo ground truth is generated and in turn used as supervision to train the base models. On the HACS v1.1.1 dataset, without fine-tuning the feature-extraction I3D models, our method achieves 22.20% on the validation set and 21.68% on the testing set in terms of average mAP. Our solution ranked the 2rd in this challenge, and we hope our method can serve as a baseline for future academic research.
翻訳日:2021-06-23 02:47:11 公開日:2021-06-21
# (参考訳) エッジデバイスを用いたディープニューラルネットワークの能動的学習

Active Learning for Deep Neural Networks on Edge Devices ( http://arxiv.org/abs/2106.10836v1 )

ライセンス: CC BY-SA 4.0
Yuya Senzaki, Christian Hamelain(参考訳) エッジデバイス上のディープニューラルネットワーク(DNN)アプリケーションを扱う場合、モデルを継続的に更新することが重要である。 実際のデータでモデルを更新するのは理想的ですが、ラベリングや通信コストといった制限のため、それらすべてを使用することは必ずしも可能ではありません。 したがって、デバイス上のトレーニング(すなわちアクティブラーニング)に使用するデータをフィルタリングして選択する必要がある。 本稿では,エッジデバイス上でのDNNの実用的なアクティブラーニング問題を定式化し,この問題に対処するための一般的なタスク非依存フレームワークを提案する。 このフレームワークは低計算資源で動かすのに十分軽量であるが、サブモジュラー特性により理論的に保証されるソリューションを提供する。 このフレームワークにより、従来のアクティブラーニング研究で提案された手法を含め、データ選択基準を柔軟に設定できる。 我々は,実生活シナリオをシミュレートする実践的な環境で,分類タスクとオブジェクト検出タスクの両方に対するアプローチを評価する。 本研究の結果から,提案するフレームワークは,実機上で実行しながら,両方のタスクにおいて他の手法よりも優れていた。

When dealing with deep neural network (DNN) applications on edge devices, continuously updating the model is important. Although updating a model with real incoming data is ideal, using all of them is not always feasible due to limits, such as labeling and communication costs. Thus, it is necessary to filter and select the data to use for training (i.e., active learning) on the device. In this paper, we formalize a practical active learning problem for DNNs on edge devices and propose a general task-agnostic framework to tackle this problem, which reduces it to a stream submodular maximization. This framework is light enough to be run with low computational resources, yet provides solutions whose quality is theoretically guaranteed thanks to the submodular property. Through this framework, we can configure data selection criteria flexibly, including using methods proposed in previous active learning studies. We evaluate our approach on both classification and object detection tasks in a practical setting to simulate a real-life scenario. The results of our study show that the proposed framework outperforms all other methods in both tasks, while running at a practical speed on real devices.
翻訳日:2021-06-23 02:41:43 公開日:2021-06-21
# (参考訳) 注意に注意を払う:多言語および多ドメインシーケンスモデリングにおける頭部選択

Pay Better Attention to Attention: Head Selection in Multilingual and Multi-Domain Sequence Modeling ( http://arxiv.org/abs/2106.10840v1 )

ライセンス: CC BY 4.0
Hongyu Gong, Yun Tang, Juan Pino, Xian Li(参考訳) マルチヘッドアテンションは、各アテンションヘッドが入力シーケンスの異なる部分からサルエント情報を収集するので、シーケンスモデリングの強力なメカニズムとなる。 多言語および多ドメイン学習はシーケンスモデリングの一般的なシナリオであり、正の転送を最大化し、言語とドメイン間の負の転送を緩和することが重要な課題である。 本稿では,非選択的な注意共有が,すべての言語やドメインにまたがる優れた一般化を実現するためのサブ最適であることを示す。 さらに,多言語およびマルチドメインシーケンスモデリングにおけるパラメータ共有と特殊化を容易にするための注意共有戦略を提案する。 我々のアプローチは、それらの干渉を軽減するために、異なる言語やドメインの共有および専門的な注意ヘッドを自動的に学習する。 提案手法は, 音声認識, テキスト間変換, 音声間翻訳など様々なタスクで評価され, マルチヘッド注意に基づく系列モデルにおいて, 一貫して向上をもたらす。 音声からテキストへの翻訳では、多言語環境では平均で$+2.0$ bleu、多言語環境では$3$よりも$2.0$ bleuとなる。

Multi-head attention has each of the attention heads collect salient information from different parts of an input sequence, making it a powerful mechanism for sequence modeling. Multilingual and multi-domain learning are common scenarios for sequence modeling, where the key challenge is to maximize positive transfer and mitigate negative transfer across languages and domains. In this paper, we find that non-selective attention sharing is sub-optimal for achieving good generalization across all languages and domains. We further propose attention sharing strategies to facilitate parameter sharing and specialization in multilingual and multi-domain sequence modeling. Our approach automatically learns shared and specialized attention heads for different languages and domains to mitigate their interference. Evaluated in various tasks including speech recognition, text-to-text and speech-to-text translation, the proposed attention sharing strategies consistently bring gains to sequence models built upon multi-head attention. For speech-to-text translation, our approach yields an average of $+2.0$ BLEU over $13$ language directions in multilingual setting and $+2.0$ BLEU over $3$ domains in multi-domain setting.
翻訳日:2021-06-23 02:21:01 公開日:2021-06-21
# (参考訳) ファウショット学習のための訓練可能なクラスプロトタイプ

Trainable Class Prototypes for Few-Shot Learning ( http://arxiv.org/abs/2106.10846v1 )

ライセンス: CC BY 4.0
Jianyi Li and Guizhong Liu(参考訳) メトリック学習は、プロトタイプの品質がアルゴリズムにおいて重要な役割を果たす数少ないショット学習に広く使われている方法である。 本稿では,メタトレーニングとタスクトレーニングの枠組みにおいて,距離測定のためのトレーニング可能なプロトタイプを提案する。 また、エピソジックメタトレーニングがもたらした欠点を避けるために、自己教師付き学習に基づく非エピソジックメタトレーニングを採用する。 全体として,移動可能な特徴抽出器を自己教師付き学習によりメタトレーニングし,計量分類のための試作機を訓練する。 さらに、メタトレーニングとタスクトレーニングの両方で単純な注意機構が使用される。 本手法は,標準的な数ショットの視覚的分類データセット上で確立された多種多様な数ショットタスクにおける最先端の性能を,教師なし数ショット学習法と比較して約20%向上する。

Metric learning is a widely used method for few shot learning in which the quality of prototypes plays a key role in the algorithm. In this paper we propose the trainable prototypes for distance measure instead of the artificial ones within the meta-training and task-training framework. Also to avoid the disadvantages that the episodic meta-training brought, we adopt non-episodic meta-training based on self-supervised learning. Overall we solve the few-shot tasks in two phases: meta-training a transferable feature extractor via self-supervised learning and training the prototypes for metric classification. In addition, the simple attention mechanism is used in both meta-training and task-training. Our method achieves state-of-the-art performance in a variety of established few-shot tasks on the standard few-shot visual classification dataset, with about 20% increase compared to the available unsupervised few-shot learning methods.
翻訳日:2021-06-23 02:02:35 公開日:2021-06-21
# (参考訳) CUDA-GR: Gaze Redirection のための制御不能なドメイン適応

CUDA-GR: Controllable Unsupervised Domain Adaptation for Gaze Redirection ( http://arxiv.org/abs/2106.10852v1 )

ライセンス: CC BY 4.0
Swati Jindal, Xin Eric Wang(参考訳) 視線方向転換の目的は、画像中の視線を所望の方向に操作することである。 しかし、既存の手法は知覚的に妥当な画像を生成するのに不十分である。 生成的対向ネットワークの進歩は、フォトリアリスティック画像の生成において優れた結果を示している。 しかし、異なる画像属性に対してより細かいコントロールを提供する能力は依然として欠けている。 このような微調整制御を可能にするためには、非常に費用がかかる訓練データに対する根拠真理アノテーションを得る必要がある。 本稿では,ラベル付きソースドメインから視線表現を外し,ラベル付き対象ドメインに転送する,教師なしドメイン適応フレームワークであるcuda-grを提案する。 本手法は,人物の外観情報を保存しながら視線方向のきめ細かい制御を可能にする。 対象領域で生成された画像ラベルペアは,知識伝達に有効であり,下流タスクの性能を向上できることを示す。 ベンチマークデータセットの大規模な実験により,提案手法は定量評価と定性評価の両方において最先端技術より優れていることが示された。

The aim of gaze redirection is to manipulate the gaze in an image to the desired direction. However, existing methods are inadequate in generating perceptually reasonable images. Advancement in generative adversarial networks has shown excellent results in generating photo-realistic images. Though, they still lack the ability to provide finer control over different image attributes. To enable such fine-tuned control, one needs to obtain ground truth annotations for the training data which can be very expensive. In this paper, we propose an unsupervised domain adaptation framework, called CUDA-GR, that learns to disentangle gaze representations from the labeled source domain and transfers them to an unlabeled target domain. Our method enables fine-grained control over gaze directions while preserving the appearance information of the person. We show that the generated image-labels pairs in the target domain are effective in knowledge transfer and can boost the performance of the downstream tasks. Extensive experiments on the benchmarking datasets show that the proposed method can outperform state-of-the-art techniques in both quantitative and qualitative evaluation.
翻訳日:2021-06-23 01:47:16 公開日:2021-06-21
# (参考訳) ロボット協調における環境の重要性について

On the Importance of Environments in Human-Robot Coordination ( http://arxiv.org/abs/2106.10853v1 )

ライセンス: CC BY 4.0
Matthew C. Fontaine, Ya-Chuan Hsu, Yulun Zhang, Bryon Tjakana and Stefanos Nikolaidis(参考訳) 人間と協力するロボットを研究するとき、焦点は、人間のチームメイトと協力的なタスクでうまく協調するロボットポリシーであった。 しかし,協調行動に対する環境の影響にはあまり注目されていない。 多様な行動をもたらす環境を網羅的に探索するため,(1) 人間が許可した環境とスタイリスティックに類似した環境,(2) ロボットチームによる解決が保証される環境,(3) 調整措置に関して多様な環境の手続き的生成のための枠組みを提案する。 我々は,Overcookedベンチマークドメインの手続き的に生成された環境をシミュレーションとオンラインユーザスタディにより分析する。 その結果、ロボットが同じ計画アルゴリズムを実行している場合でも、環境は質的に異なる出現行動と、協調流速指標の統計的に有意な差異をもたらすことがわかった。

When studying robots collaborating with humans, much of the focus has been on robot policies that coordinate fluently with human teammates in collaborative tasks. However, less emphasis has been placed on the effect of the environment on coordination behaviors. To thoroughly explore environments that result in diverse behaviors, we propose a framework for procedural generation of environments that are (1) stylistically similar to human-authored environments, (2) guaranteed to be solvable by the human-robot team, and (3) diverse with respect to coordination measures. We analyze the procedurally generated environments in the Overcooked benchmark domain via simulation and an online user study. Results show that the environments result in qualitatively different emerging behaviors and statistically significant differences in collaborative fluency metrics, even when the robot runs the same planning algorithm.
翻訳日:2021-06-23 01:26:50 公開日:2021-06-21
# (参考訳) argfuse:ドキュメントレベルのイベント引数集約のための弱い教師付きフレームワーク

ArgFuse: A Weakly-Supervised Framework for Document-Level Event Argument Aggregation ( http://arxiv.org/abs/2106.10862v1 )

ライセンス: CC BY-SA 4.0
Debanjana Kar, Sudeshna Sarkar, Pawan Goyal(参考訳) 既存の情報抽出フレームワーク(Wadden et al., 2019; Veysehet al., 2020)のほとんどは文レベルのタスクに重点を置いており、ある文書から統合された情報を取得できない。 長文記録から正確な文書レベルの情報フレームを生成するために,情報集約や引数集約というタスクを導入する。 具体的には、文レベルで抽出された無関係で冗長な引数の言及をフィルタリングし、文書レベルの情報フレームを描画する。 既存の研究の大部分は、文書レベルのイベント引数抽出(Yang et al., 2018a; Zheng et al., 2019a)と、教師付き手法を用いた有能な実体識別(Jain et al., 2020)の関連課題を解決するために観察されている。 大量のラベル付きデータからの依存性を取り除くために,弱い教師付き手法を用いて情報集約のタスクを探索する。 特に,マルチシーブを用いた抽出アルゴリズムを提案する。これは低リソース環境で効率的に働くために,アクティブな学習戦略を採用している。 このタスクのために、我々は131のドキュメント情報フレームからなる独自のテストデータセットを注釈付けし、新しいドメインのさらなる研究のためにコードとデータセットをリリースした。 私たちの知る限りでは、このタスクのベースラインとなる結果を英語で最初に確立しました。 私たちのデータとコードはhttps://github.com/DebanjanaKar/ArgFuse.comで公開されています。

Most of the existing information extraction frameworks (Wadden et al., 2019; Veysehet al., 2020) focus on sentence-level tasks and are hardly able to capture the consolidated information from a given document. In our endeavour to generate precise document-level information frames from lengthy textual records, we introduce the task of Information Aggregation or Argument Aggregation. More specifically, our aim is to filter irrelevant and redundant argument mentions that were extracted at a sentence level and render a document level information frame. Majority of the existing works have been observed to resolve related tasks of document-level event argument extraction (Yang et al., 2018a; Zheng et al., 2019a) and salient entity identification (Jain et al.,2020) using supervised techniques. To remove dependency from large amounts of labelled data, we explore the task of information aggregation using weakly-supervised techniques. In particular, we present an extractive algorithm with multiple sieves which adopts active learning strategies to work efficiently in low-resource settings. For this task, we have annotated our own test dataset comprising of 131 document information frames and have released the code and dataset to further research prospects in this new domain. To the best of our knowledge, we are the first to establish baseline results for this task in English. Our data and code are publicly available at https://github.com/DebanjanaKar/ArgFuse.
翻訳日:2021-06-23 01:05:32 公開日:2021-06-21
# (参考訳) 多クラス分類における便益オーバーフィッティング:全ての道路が補間に繋がる

Benign Overfitting in Multiclass Classification: All Roads Lead to Interpolation ( http://arxiv.org/abs/2106.10865v1 )

ライセンス: CC0 1.0
Ke Wang, Vidya Muthukumar, Christos Thrampoulidis(参考訳) 過剰パラメータモデルの"良質な過剰フィッティング"に関する文献は、ほとんどが回帰やバイナリ分類に制限されているが、現代の機械学習の成功事例は多クラスで記録されている。 この相違により、多クラス線形分類における良性過剰適合について検討した。 特に,分離可能なデータに対する一般的なトレーニングアルゴリズムを考察する: (i) クロスエントロピー損失を伴う経験的リスク最小化 (erm) マルチクラスサポートベクターマシン (svm) ソリューションに収束する; (ii) 最小二乗損失を持つerm ミンノルム補間 (mni) ソリューションに収束する; (iii) 1対全svm分類器。 まず、3つのアルゴリズムすべてが、トレーニングデータを補間し、同じ精度を持つ分類器に繋がる簡単な条件を提供する。 ガウス混合または多項ロジスティックモデルからデータが生成される場合、この条件は十分に有効パラメータ化される。 第2に、MNI分類器の精度に基づいて新しい誤差境界を導出し、3つのトレーニングアルゴリズムが十分な過パラメータ化の下で良性オーバーフィットすることを示した。 最終的に、我々の分析は、典型的なマージンベース境界が適用される領域を超えて、SVMソリューションに良い一般化が可能であることを示している。

The growing literature on "benign overfitting" in overparameterized models has been mostly restricted to regression or binary classification settings; however, most success stories of modern machine learning have been recorded in multiclass settings. Motivated by this discrepancy, we study benign overfitting in multiclass linear classification. Specifically, we consider the following popular training algorithms on separable data: (i) empirical risk minimization (ERM) with cross-entropy loss, which converges to the multiclass support vector machine (SVM) solution; (ii) ERM with least-squares loss, which converges to the min-norm interpolating (MNI) solution; and, (iii) the one-vs-all SVM classifier. First, we provide a simple sufficient condition under which all three algorithms lead to classifiers that interpolate the training data and have equal accuracy. When the data is generated from Gaussian mixtures or a multinomial logistic model, this condition holds under high enough effective overparameterization. Second, we derive novel error bounds on the accuracy of the MNI classifier, thereby showing that all three training algorithms lead to benign overfitting under sufficient overparameterization. Ultimately, our analysis shows that good generalization is possible for SVM solutions beyond the realm in which typical margin-based bounds apply.
翻訳日:2021-06-23 00:53:05 公開日:2021-06-21
# (参考訳) シーケンス・ツー・シーケンス・アテンションを用いた終端クメール光文字認識

An End-to-End Khmer Optical Character Recognition using Sequence-to-Sequence with Attention ( http://arxiv.org/abs/2106.10875v1 )

ライセンス: CC BY 4.0
Rina Buoy and Sokchea Kor and Nguonly Taing(参考訳) 本稿では,Khmer光文字認識(OCR)タスクのための終端から終端までの深部畳み込みリカレントニューラルネットワークソリューションを提案する。 提案手法は,アテンション機構を備えたSeq2Seqアーキテクチャを用いている。 エンコーダは、残差畳み込みブロックの層とゲート再帰ユニット(GRU)の層を介して入力されたテキストライン画像から視覚的特徴を抽出する。 特徴は1つのコンテキストベクトルと1つの文字をデコードするためにデコーダに供給される隠された状態列にエンコードされ、特別な終止符(EOS)トークンに到達するまで1つの文字をデコードする。 注意機構により、ターゲットキャラクタを予測しながら、デコーダネットワークが入力画像の一部を適応的に選択することができる。 Seq2Seq Khmer OCRネットワークは、7つの共通のKhmerフォントのための大量のコンピュータ生成テキストラインイメージに基づいて訓練された。 提案モデルの性能は、文字誤り率 (cer) を1%と3%とすることで、3000画像テストセットでkhmer言語における最先端のtesseract ocrエンジンを上回った。

This paper presents an end-to-end deep convolutional recurrent neural network solution for Khmer optical character recognition (OCR) task. The proposed solution uses a sequence-to-sequence (Seq2Seq) architecture with attention mechanism. The encoder extracts visual features from an input text-line image via layers of residual convolutional blocks and a layer of gated recurrent units (GRU). The features are encoded in a single context vector and a sequence of hidden states which are fed to the decoder for decoding one character at a time until a special end-of-sentence (EOS) token is reached. The attention mechanism allows the decoder network to adaptively select parts of the input image while predicting a target character. The Seq2Seq Khmer OCR network was trained on a large collection of computer-generated text-line images for seven common Khmer fonts. The proposed model's performance outperformed the state-of-art Tesseract OCR engine for Khmer language on the 3000-images test set by achieving a character error rate (CER) of 1% vs 3%.
翻訳日:2021-06-23 00:50:52 公開日:2021-06-21
# (参考訳) ビデオからの感情駆動エンゲージメント測定

Affect-driven Engagement Measurement from Videos ( http://arxiv.org/abs/2106.10882v1 )

ライセンス: CC BY 4.0
Ali Abedi and Shehroz Khan(参考訳) 教育と介入プログラムにおいて、個人の関与はプログラムの完成に成功するための主要な要因として認識されている。 参加者のエンゲージメントの自動測定は、インストラクターがプログラム目標を満たし、プログラム配信を個別化するための有用な情報を提供する。 本稿では,仮想学習プログラムにおける映像ベースエンゲージメント測定の新しい手法を提案する。 本研究では,連続する映像フレームから抽出したヴァレンスと覚醒の連続値と,新たな潜在的感情的特徴ベクトルと行動的特徴を用いたエンゲージメント測定を提案する。 深層学習に基づく時間モデルと従来の機械学習に基づく非時間モデルはそれぞれ、フレームレベルとビデオレベルの特徴に基づいてトレーニングされ、検証される。 従来の集中型学習に加えて,分散連合学習環境において提案手法を実装し,参加度測定におけるモデルパーソナライゼーションの効果について検討した。 オンライン学習プログラムにおける学生のビデオを含む2つのビデオエンゲージメント測定データセットであるDAiSEEとEmotiWについて,提案手法の性能評価を行った。 実験の結果,DAiSEEデータセットでは,最先端のエンゲージメントレベルの分類精度が63.3%,復調平均2乗誤差が0.0673であった。 本研究は,エンゲージメント測定における影響状態の導入効果を示す。 本研究は,エンゲージメントの分野における心理学的概念に基づく実験結果から得られた知見を解釈する。

In education and intervention programs, person's engagement has been identified as a major factor in successful program completion. Automatic measurement of person's engagement provides useful information for instructors to meet program objectives and individualize program delivery. In this paper, we present a novel approach for video-based engagement measurement in virtual learning programs. We propose to use affect states, continuous values of valence and arousal extracted from consecutive video frames, along with a new latent affective feature vector and behavioral features for engagement measurement. Deep learning-based temporal, and traditional machine-learning-based non-temporal models are trained and validated on frame-level, and video-level features, respectively. In addition to the conventional centralized learning, we also implement the proposed method in a decentralized federated learning setting and study the effect of model personalization in engagement measurement. We evaluated the performance of the proposed method on the only two publicly available video engagement measurement datasets, DAiSEE and EmotiW, containing videos of students in online learning programs. Our experiments show a state-of-the-art engagement level classification accuracy of 63.3% and correctly classifying disengagement videos in the DAiSEE dataset and a regression mean squared error of 0.0673 on the EmotiW dataset. Our ablation study shows the effectiveness of incorporating affect states in engagement measurement. We interpret the findings from the experimental results based on psychology concepts in the field of engagement.
翻訳日:2021-06-23 00:42:58 公開日:2021-06-21
# (参考訳) 第18回合理性と知識の理論的側面に関する会議

Proceedings Eighteenth Conference on Theoretical Aspects of Rationality and Knowledge ( http://arxiv.org/abs/2106.10886v1 )

ライセンス: CC BY 4.0
Joseph Halpern (Cornell University), Andr\'es Perea (Maastricht University)(参考訳) TARKカンファレンス(Theoretical aspects of Rationality and Knowledge)は、コンピュータ科学、人工知能、ゲーム理論、決定論、哲学、論理学、言語学、認知科学など、様々な分野の研究者を集結させることを目的とした年次会議である。 その目標は、合理性と知識に関する推論を含む学際的な問題の理解を深めることである。 関心の対象は、知識、信念、認識と不確実性、境界的合理性と資源境界推論、常識認識的推論、認識論理、認識論的ゲーム理論、知識と行動、知識とその他の精神状態に関する推論の応用、信念の修正、マルチエージェントシステムの基礎などである。 これらの手続には、2021年6月25日から6月27日にかけて北京の清華大学で開催された第8回合理性・知識の理論的側面に関する会議(TARK 2021)で提出された論文が含まれている。

The TARK conference (Theoretical Aspects of Rationality and Knowledge) is a biannual conference that aims to bring together researchers from a wide variety of fields, including computer science, artificial intelligence, game theory, decision theory, philosophy, logic, linguistics, and cognitive science. Its goal is to further our understanding of interdisciplinary issues involving reasoning about rationality and knowledge. Topics of interest include, but are not limited to, semantic models for knowledge, belief, awareness and uncertainty, bounded rationality and resource-bounded reasoning, commonsense epistemic reasoning, epistemic logic, epistemic game theory, knowledge and action, applications of reasoning about knowledge and other mental states, belief revision, and foundations of multi-agent systems. These proceedings contain the papers that have been accepted for presentation at the Eighteenth Conference on Theoretical Aspects of Rationality and Knowledge (TARK 2021), held between June 25 and June 27, 2021, at Tsinghua University at Beijing, China.
翻訳日:2021-06-23 00:21:55 公開日:2021-06-21
# (参考訳) 領域前変換を用いたLSTMニューラルネットを用いた脳腫瘍の分類

Brain tumor grade classification Using LSTM Neural Networks with Domain Pre-Transforms ( http://arxiv.org/abs/2106.10889v1 )

ライセンス: CC BY 4.0
Maedeh Sadat Fasihi (1) and Wasfy B. Mikhael (1) ((1) Department of Electrical Engineering and Computer Science, University of Central Florida, Orlando, FL)(参考訳) 画像分類手法の性能は、特に医療データに特筆すべき手頃な価格の高品質なアノテーションに依存している。 そこで本研究では,手作り機能の組み合わせによる画像分類の弱さを緩和する手法を提案する。 我々は,これらの手作り特徴とlong short-term memory (lstm) 分類器の統合は,分類精度の弱いラベルの悪影響を低減できると仮定した。 提案アルゴリズムは,WaveletおよびDiscrete Cosine Transform (DCT)領域におけるデータの適切なドメイン表現を選択することに基づく。 この情報はLSTMネットワークに送信され、データのシーケンシャルを考慮に入れられる。 提案手法の有効性を示すため,提案手法は脳腫瘍の分類を行い,256 x 256の解像度で技術性能の状態を達成した。 また,各コンポーネントが性能に与える影響を解析するための総合的な実験を行った。

The performance of image classification methodsheavily relies on the high-quality annotations, which are noteasily affordable, particularly for medical data. To alleviate thislimitation, in this study, we propose a weakly supervised imageclassification method based on combination of hand-craftedfeatures. We hypothesize that integration of these hand-craftedfeatures alongside Long short-term memory (LSTM) classifiercan reduce the adverse effects of weak labels in classificationaccuracy. Our proposed algorithm is based on selecting theappropriate domain representations of the data in Wavelet andDiscrete Cosine Transform (DCT) domains. This informationis then fed into LSTM network to account for the sequentialnature of the data. The proposed efficient, low dimensionalfeatures exploit the power of shallow deep learning modelsto achieve higher performance with lower computational cost.In order to show efficacy of the proposed strategy, we haveexperimented classification of brain tumor grades and achievedthe state of the art performance with the resolution of 256 x 256. We also conducted a comprehensive set of experiments toanalyze the effect of each component on the performance.
翻訳日:2021-06-23 00:20:57 公開日:2021-06-21
# (参考訳) STEP-EZ:Syntax Tree Guided semantic ExPlanation for Explainable Zero-shot Modeling of Clinical depression symptoms from text

STEP-EZ: Syntax Tree guided semantic ExPlanation for Explainable Zero-shot modeling of clinical depression symptoms from text ( http://arxiv.org/abs/2106.10928v1 )

ライセンス: CC BY 4.0
Nawshad Farruque, Randy Goebel, Osmar Zaiane, Sudhakar Sivapalan(参考訳) 我々は,ZSL(Zero-Shot Learning)の様々なアプローチと,データ不足のトレーニングで有名な,重要な教師付き学習課題の説明可能性に焦点をあてる。 Depression Symptoms Detection (DSD) from text (英語) まず、ZSLモデリングの様々な構成要素の総合的な合成と、臨床医の助けを借りて、地上の真理サンプルの分析と抑うつ症状の手がかりのキュレーションプロセスから始める。 次に、様々な最先端ZSLモデルの精度と、タスクの潜在的な拡張について分析する。 さらに,ZSLを階層的テキストベース説明機構に用いるためのフレームワークをスケッチし,Syntax Tree-Guided Semantic Explanation (STEP) と呼ぶ。 最後に,提案する説明可能性指標(ei)を用いて,zslモデルを用いて合理的な正確性と説明可能性を達成する実験をまとめる。 この研究は、我々の知る限り、DSDタスクにおけるZSLモデルの有効性を、精度と説明可能性の両方の観点から徹底的に探求する最初の成果である。

We focus on exploring various approaches of Zero-Shot Learning (ZSL) and their explainability for a challenging yet important supervised learning task notorious for training data scarcity, i.e. Depression Symptoms Detection (DSD) from text. We start with a comprehensive synthesis of different components of our ZSL modeling and analysis of our ground truth samples and Depression symptom clues curation process with the help of a practicing clinician. We next analyze the accuracy of various state-of-the-art ZSL models and their potential enhancements for our task. Further, we sketch a framework for the use of ZSL for hierarchical text-based explanation mechanism, which we call, Syntax Tree-Guided Semantic Explanation (STEP). Finally, we summarize experiments from which we conclude that we can use ZSL models and achieve reasonable accuracy and explainability, measured by a proposed Explainability Index (EI). This work is, to our knowledge, the first work to exhaustively explore the efficacy of ZSL models for DSD task, both in terms of accuracy and explainability.
翻訳日:2021-06-23 00:14:52 公開日:2021-06-21
# (参考訳) GRAND: グラフ神経拡散

GRAND: Graph Neural Diffusion ( http://arxiv.org/abs/2106.10934v1 )

ライセンス: CC BY 4.0
Benjamin Paul Chamberlain, James Rowbottom, Maria Gorinova, Stefan Webb, Emanuele Rossi and Michael M. Bronstein(参考訳) 本稿では,グラフ上の深層学習を連続拡散プロセスとしてアプローチし,グラフニューラルネットワーク(GNN)を基礎となるPDEの判断として扱うグラフニューラルネットワーク拡散(GRAND)を提案する。 本モデルでは,層構造とトポロジーは時間演算子と空間演算子の離散化選択に対応している。 我々のアプローチは、ディープ、オーバースムーシング、ボトルネックといったグラフ学習モデルの共通点に対処できる幅広いGNNのクラスを原則的に開発することを可能にする。 我々のモデルの成功の鍵はデータの摂動に対する安定性であり、暗黙的および明示的な離散化スキームの両方に対処する。 GRANDの線形および非線形バージョンを開発し、多くの標準グラフベンチマークで競合する結果を得る。

We present Graph Neural Diffusion (GRAND) that approaches deep learning on graphs as a continuous diffusion process and treats Graph Neural Networks (GNNs) as discretisations of an underlying PDE. In our model, the layer structure and topology correspond to the discretisation choices of temporal and spatial operators. Our approach allows a principled development of a broad new class of GNNs that are able to address the common plights of graph learning models such as depth, oversmoothing, and bottlenecks. Key to the success of our models are stability with respect to perturbations in the data and this is addressed for both implicit and explicit discretisation schemes. We develop linear and nonlinear versions of GRAND, which achieve competitive results on many standard graph benchmarks.
翻訳日:2021-06-22 23:56:00 公開日:2021-06-21
# (参考訳) ヘッドキーポイント定位に基づくハードハット装着検出

Hard hat wearing detection based on head keypoint localization ( http://arxiv.org/abs/2106.10944v1 )

ライセンス: CC BY 4.0
Bartosz W\'ojcik, Mateusz \.Zarski, Kamil Ksi\k{a}\.zek, Jaros{\l}aw Adam Miszczak, Miros{\l}aw Jan Skibniewski(参考訳) 近年,視覚に基づく建設現場の安全システム,特に個人用防護具に関して,深層学習手法に注目が集まっている。 しかし、こうした注目にもかかわらず、いまだに労働者とヘルメットの関係を確立する信頼できる方法がない。 この問題に対処するため,本論文では,ディープラーニング,オブジェクト検出,ヘッドキーポイントのローカライゼーション,ルールベース推論の簡単な組み合わせを提案する。 テストでは、このソリューションは、異なるインスタンスの相対的なバウンディングボックス位置と、ハードハット着用者と非着用者の直接検出に基づいて、以前の方法を超えた。 その結果,新しい深層学習手法と人間の解釈可能なルールベースシステムを組み合わせることで,信頼性が高く,手動の現場監視をうまく模倣できる解が得られることがわかった。 この作業は、完全に自律的な建設現場の安全システム開発における次のステップであり、この地域にはまだ改善の余地があることを示している。

In recent years, a lot of attention is paid to deep learning methods in the context of vision-based construction site safety systems, especially regarding personal protective equipment. However, despite all this attention, there is still no reliable way to establish the relationship between workers and their hard hats. To answer this problem a combination of deep learning, object detection and head keypoint localization, with simple rule-based reasoning is proposed in this article. In tests, this solution surpassed the previous methods based on the relative bounding box position of different instances, as well as direct detection of hard hat wearers and non-wearers. The results show that the conjunction of novel deep learning methods with humanly-interpretable rule-based systems can result in a solution that is both reliable and can successfully mimic manual, on-site supervision. This work is the next step in the development of fully autonomous construction site safety systems and shows that there is still room for improvement in this area.
翻訳日:2021-06-22 23:33:51 公開日:2021-06-21
# (参考訳) 軌道推定のための混合密度ネットワークを用いた複数物体追跡

Multiple Object Tracking with Mixture Density Networks for Trajectory Estimation ( http://arxiv.org/abs/2106.10950v1 )

ライセンス: CC BY 4.0
Andreu Girbau, Xavier Gir\'o-i-Nieto, Ignasi Rius, Ferran Marqu\'es(参考訳) 複数の物体追跡は、軌道情報で緩和される可能性のあるいくつかの課題に直面している。 物体の後方の位置を知ることは、隠蔽、再識別、アイデンティティスイッチングといった状況の曖昧化と解決に役立つ。 本研究では, 軌道推定が追跡の重要な要因となり得ることを示すとともに, 既存のオブジェクトトラッカに追加可能な汎用モジュールとして, 再帰混合密度ネットワークに基づく軌道推定器trajeを提案する。 複数の軌道仮説を提供するため,本手法ではビーム探索を用いる。 また,同じ推定軌道に依存して,閉塞発生後の軌道の再構築を提案する。 traje を centertrack [63] と tracktor [3] という2つの技術追跡アルゴリズムに統合した。 MOTChallenge 2017テストセットでのそれぞれのパフォーマンスは、MOTAスコアで6.3と0.3ポイント、IDF1で1.8と3.1ポイント向上し、CenterTrack+TrajE構成の新たな状態が設定されている。

Multiple object tracking faces several challenges that may be alleviated with trajectory information. Knowing the posterior locations of an object helps disambiguating and solving situations such as occlusions, re-identification, and identity switching. In this work, we show that trajectory estimation can become a key factor for tracking, and present TrajE, a trajectory estimator based on recurrent mixture density networks, as a generic module that can be added to existing object trackers. To provide several trajectory hypotheses, our method uses beam search. Also, relying on the same estimated trajectory, we propose to reconstruct a track after an occlusion occurs. We integrate TrajE into two state of the art tracking algorithms, CenterTrack [63] and Tracktor [3]. Their respective performances in the MOTChallenge 2017 test set are boosted 6.3 and 0.3 points in MOTA score, and 1.8 and 3.1 in IDF1, setting a new state of the art for the CenterTrack+TrajE configuration
翻訳日:2021-06-22 23:12:31 公開日:2021-06-21
# (参考訳) 重み付き時系列のロバストモデリングのためのスプリケート結合パレート分布

Spliced Binned-Pareto Distribution for Robust Modeling of Heavy-tailed Time Series ( http://arxiv.org/abs/2106.10952v1 )

ライセンス: CC BY 4.0
Elena Ehrlich, Laurent Callot, Fran\c{c}ois-Xavier Aubet(参考訳) 本研究は,非定常シナリオにおいて,重み付き雑音を伴う時系列を頑健かつ正確にモデル化する新しい手法を提案する。 多くの実用的な応用時系列は、古典的予測モデルの性能に大きな影響を及ぼす重み付きノイズを持ち、特に、極端な事象の分布を正確にモデル化することは、正確な時系列異常検出を行うために不可欠である。 本研究では,極端観測に頑健で,完全な分布を正確にモデル化できるスプリケード・ビンテッド・パレート分布を提案する。 本手法は,テールヘビーネスなどの分布の高次モーメントにおける時間依存性の把握を可能にする。 提案手法の尾部推定のロバスト性と精度を,twitter上の他の最先端の技術手法であるカウント時系列と比較した。

This work proposes a novel method to robustly and accurately model time series with heavy-tailed noise, in non-stationary scenarios. In many practical application time series have heavy-tailed noise that significantly impacts the performance of classical forecasting models; in particular, accurately modeling a distribution over extreme events is crucial to performing accurate time series anomaly detection. We propose a Spliced Binned-Pareto distribution which is both robust to extreme observations and allows accurate modeling of the full distribution. Our method allows the capture of time dependencies in the higher order moments of the distribution such as the tail heaviness. We compare the robustness and the accuracy of the tail estimation of our method to other state of the art methods on Twitter mentions count time series.
翻訳日:2021-06-22 22:54:14 公開日:2021-06-21
# (参考訳) グラフを用いたテキスト要約のための抽出的アプローチ

Extractive approach for text summarisation using graphs ( http://arxiv.org/abs/2106.10955v1 )

ライセンス: CC BY 4.0
Kastriot Kadriu and Milenko Obradovic(参考訳) 自然言語処理は、そのデジタル表現によってテキストを理解することを目的としている重要な分野である。 本稿では,抽出手法を用いてテキスト要約問題の解法に用いるグラフ関連アルゴリズムについて検討する。 文の類似度を測定するために,文重なりと編集距離の2つの指標を検討した。

Natural language processing is an important discipline with the aim of understanding text by its digital representation, that due to the diverse way we write and speak, is often not accurate enough. Our paper explores different graph-related algorithms that can be used in solving the text summarization problem using an extractive approach. We consider two metrics: sentence overlap and edit distance for measuring sentence similarity.
翻訳日:2021-06-22 22:47:59 公開日:2021-06-21
# (参考訳) 接触型ロボットマニピュレーションの枠組みに向けて

Towards a Framework for Changing-Contact Robot Manipulation ( http://arxiv.org/abs/2106.10969v1 )

ライセンス: CC BY 4.0
Saif Sidhik, Mohan Sridharan, Dirk Ruiken(参考訳) 多くのロボット操作タスクは、ロボットが物体や表面と接触し破ることを必要とする。 このような接触ロボット操作タスクのダイナミクスは、接触や破損時に不連続であり、他の場所で連続する。 これらの不連続性は、そのようなタスクに対して単一の動的モデルや制御戦略の構築と使用を困難にする。 本稿では,このような接触操作タスクの円滑なダイナミクスと制御のためのフレームワークを提案する。 任意の目標運動軌跡に対して、このフレームワークはいつ接触が起こるかの予測を漸進的に改善する。 この予測と衝突力に関するモデルにより、運動列の速度プロファイルが$C^\infty$滑らかになるように修正され、衝撃に対する所望の力を達成する。 このフレームワークは,連続接触タスクのためのハイブリッド力移動可変インピーダンス制御を用いて実装する。 異なる特性の表面の遷移を伴う複数の接触変化を含むスライディングタスクの図解的文脈における我々の枠組みを実験的に評価した。

Many robot manipulation tasks require the robot to make and break contact with objects and surfaces. The dynamics of such changing-contact robot manipulation tasks are discontinuous when contact is made or broken, and continuous elsewhere. These discontinuities make it difficult to construct and use a single dynamics model or control strategy for any such task. We present a framework for smooth dynamics and control of such changing-contact manipulation tasks. For any given target motion trajectory, the framework incrementally improves its prediction of when contacts will occur. This prediction and a model relating approach velocity to impact force modify the velocity profile of the motion sequence such that it is $C^\infty$ smooth, and help achieve a desired force on impact. We implement this framework by building on our hybrid force-motion variable impedance controller for continuous contact tasks. We experimentally evaluate our framework in the illustrative context of sliding tasks involving multiple contact changes with transitions between surfaces of different properties.
翻訳日:2021-06-22 22:41:31 公開日:2021-06-21
# (参考訳) 二重コントラスト学習による介入型ビデオグラウンディング

Interventional Video Grounding with Dual Contrastive Learning ( http://arxiv.org/abs/2106.11013v1 )

ライセンス: CC BY 4.0
Guoshun Nan, Rui Qiao, Yao Xiao, Jun Liu, Sicong Leng, Hao Zhang, Wei Lu(参考訳) video groundingは、特定のテキストクエリのために、未検索の動画から瞬間をローカライズすることを目的としている。 既存のアプローチは、様々な可能性ベースのマッチングや回帰戦略、すなわちP(Y|X)との視覚的刺激と言語刺激のアライメントに焦点を当てている。 その結果、これらのモデルは、データセットの選択バイアスにより、言語とビデオの特徴の間に急激な相関が生じる可能性がある。 1) モデルとデータの背後にある因果関係を明らかにするために,まず, バックドア調整を利用して, 構造的因果モデル(SCM)とdo-calculus P(Y|do(X))に基づいて選択バイアスを分解する介入ビデオグラウンドディング(IVG)という, 因果推論の観点から, 新たなパラダイムを提案する。 そして、データセットから直接サンプリングできないため、観測されていない共同創設者を近似する単純で効果的な方法を提案する。 2) 検索とビデオクリップ間の相互情報(MI)を最大化してテキストとビデオの整合性を向上する2つのコントラスト学習手法 (DCL) を導入し, 対象モーメントの開始/終了フレームと映像内の他のフレーム間のMIを用いて, より情報的な視覚表現を学習する。 3つの標準ベンチマークの実験は、我々のアプローチの有効性を示している。

Video grounding aims to localize a moment from an untrimmed video for a given textual query. Existing approaches focus more on the alignment of visual and language stimuli with various likelihood-based matching or regression strategies, i.e., P(Y|X). Consequently, these models may suffer from spurious correlations between the language and video features due to the selection bias of the dataset. 1) To uncover the causality behind the model and data, we first propose a novel paradigm from the perspective of the causal inference, i.e., interventional video grounding (IVG) that leverages backdoor adjustment to deconfound the selection bias based on structured causal model (SCM) and do-calculus P(Y|do(X)). Then, we present a simple yet effective method to approximate the unobserved confounder as it cannot be directly sampled from the dataset. 2) Meanwhile, we introduce a dual contrastive learning approach (DCL) to better align the text and video by maximizing the mutual information (MI) between query and video clips, and the MI between start/end frames of a target moment and the others within a video to learn more informative visual representations. Experiments on three standard benchmarks show the effectiveness of our approaches.
翻訳日:2021-06-22 22:27:29 公開日:2021-06-21
# (参考訳) オンライン予測課題に対するニューラル制御微分方程式

Neural Controlled Differential Equations for Online Prediction Tasks ( http://arxiv.org/abs/2106.11028v1 )

ライセンス: CC BY 4.0
James Morrill, Patrick Kidger, Lingyi Yang, Terry Lyons(参考訳) ニューラル制御微分方程式(Neural Control differential equations、Neural CDEs)は、リカレントニューラルネットワーク(RNN)の連続的拡張であり、不規則時系列のモデリング機能において最先端(SOTA)性能を達成する。 離散データを連続的に解釈するために、現在の実装はデータの非因果補間に依存している。 これは、全時系列が事前に観測されている場合は問題ないが、ニューラルネットワークcdは、リアルタイムに予測を行う必要がある \textit{online prediction tasks} での使用には適していないことを意味する。 ここでは,この制限を正す方法を示す。 まず,神経cdの補間スキームが有界性や一意性など,いくつかの理論的条件を明らかにする。 第二に、これらの条件に対処する新しいスキームの導入を動機付け、特に測定可能性(オンライン予測)と滑らかさ(速度)を提供する。 第三に、MIMIC-IVの医療データベースからの3つの連続監視タスクに対して、オンラインのNeural CDEモデルを実証的にベンチマークします。

Neural controlled differential equations (Neural CDEs) are a continuous-time extension of recurrent neural networks (RNNs), achieving state-of-the-art (SOTA) performance at modelling functions of irregular time series. In order to interpret discrete data in continuous time, current implementations rely on non-causal interpolations of the data. This is fine when the whole time series is observed in advance, but means that Neural CDEs are not suitable for use in \textit{online prediction tasks}, where predictions need to be made in real-time: a major use case for recurrent networks. Here, we show how this limitation may be rectified. First, we identify several theoretical conditions that interpolation schemes for Neural CDEs should satisfy, such as boundedness and uniqueness. Second, we use these to motivate the introduction of new schemes that address these conditions, offering in particular measurability (for online prediction), and smoothness (for speed). Third, we empirically benchmark our online Neural CDE model on three continuous monitoring tasks from the MIMIC-IV medical database: we demonstrate improved performance on all tasks against ODE benchmarks, and on two of the three tasks against SOTA non-ODE benchmarks.
翻訳日:2021-06-22 22:09:29 公開日:2021-06-21
# (参考訳) 解析的トラクタブルベイズ深部Q-Learning

Analytically Tractable Bayesian Deep Q-Learning ( http://arxiv.org/abs/2106.11086v1 )

ライセンス: CC BY 4.0
Luong Ha, Nguyen and James-A. Goulet(参考訳) 強化学習(Reinforcement Learning, RL)は、DQN(Deep Q-learning)を用いて、ビデオゲームのベンチマークで人間のパフォーマンスに到達できたデモ以来、関心が高まっている。 このような複雑な環境でニューラルネットワークをトレーニングするための現在のコンセンサスは、勾配に基づく最適化に依存している。 代替のベイズ深層学習法は存在するが、ほとんどは勾配に基づく最適化に依存しており、通常はatariゲーム環境のようなベンチマークではスケールしない。 さらに、これらのアプローチのどれも、ニューラルネットワークを定義する重みとバイアスの分析的推論を実行できない。 本稿では, 時間差Q-ラーニングフレームワークを用いて, 閉形式解析法を用いてニューラルネットワークのパラメータを学習可能な, 抽出可能な近似ガウス推論(TAGI)と互換性を持たせる方法について述べる。 オン・オフ・ポリティクス強化学習手法を用いた実験を通じて,我々は,tagi が高パラメータを削減しつつ,勾配に基づく最適化を必要とせず,バックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。

Reinforcement learning (RL) has gained increasing interest since the demonstration it was able to reach human performance on video game benchmarks using deep Q-learning (DQN). The current consensus for training neural networks on such complex environments is to rely on gradient-based optimization. Although alternative Bayesian deep learning methods exist, most of them still rely on gradient-based optimization, and they typically do not scale on benchmarks such as the Atari game environment. Moreover none of these approaches allow performing the analytical inference for the weights and biases defining the neural network. In this paper, we present how we can adapt the temporal difference Q-learning framework to make it compatible with the tractable approximate Gaussian inference (TAGI), which allows learning the parameters of a neural network using a closed-form analytical method. Throughout the experiments with on- and off-policy reinforcement learning approaches, we demonstrate that TAGI can reach a performance comparable to backpropagation-trained networks while using fewer hyperparameters, and without relying on gradient-based optimization.
翻訳日:2021-06-22 21:50:43 公開日:2021-06-21
# (参考訳) 双方向コントラストデータ強化による質問応答ペアのランク付け

Learning to Rank Question Answer Pairs with Bilateral Contrastive Data Augmentation ( http://arxiv.org/abs/2106.11096v1 )

ライセンス: CC BY 4.0
Yang Deng, Wenxuan Zhang, Wai Lam(参考訳) 本研究では,既存のラベル付きデータとランク付けされた質問応答ペアの性能向上を目的とした,新しい,かつ使いやすいデータ拡張戦略,すなわちバイラテラル生成(BiG)を提案する。 具体的には、疑似陽性QAペアを、元のデータセットから限定された正のQAペアを微調整した2つの事前学習された生成モデルと、質問生成モデルと回答生成モデルとの対比して、擬陽性QAペアを合成する。 拡張データセットでは,質問応答ペアのランク付けを学ぶための,対照的なトレーニング目標をデザインする。 TREC-QA,WikiQA,AntiQUEの3つのベンチマークデータセットによる実験結果から,既存のラベル付きデータをフル活用してランキングモデルの性能を大幅に改善し,異なるランキングモデルに容易に適用できることが示唆された。

In this work, we propose a novel and easy-to-apply data augmentation strategy, namely Bilateral Generation (BiG), with a contrastive training objective for improving the performance of ranking question answer pairs with existing labeled data. In specific, we synthesize pseudo-positive QA pairs in contrast to the original negative QA pairs with two pre-trained generation models, one for question generation, the other for answer generation, which are fine-tuned on the limited positive QA pairs from the original dataset. With the augmented dataset, we design a contrastive training objective for learning to rank question answer pairs. Experimental results on three benchmark datasets, namely TREC-QA, WikiQA, and ANTIQUE, show that our method significantly improves the performance of ranking models by making full use of existing labeled data and can be easily applied to different ranking models.
翻訳日:2021-06-22 21:37:38 公開日:2021-06-21
# (参考訳) 教師なし特徴選択のための低ランク辞書学習

Low-rank Dictionary Learning for Unsupervised Feature Selection ( http://arxiv.org/abs/2106.11102v1 )

ライセンス: CC BY 4.0
Mohsen Ghassemi Parsa, Hadi Zare, Mehdi Ghatee(参考訳) 生物学、コンピュータビジョン、ソーシャルネットワークなど、現実世界の応用には多くの高次元データが存在する。 効率的な学習技術とモデルの複雑さの低減を目的として,高次元データ課題に対処すべく,特徴選択手法が考案された。 これらのデータセットのラベル付けが難しいため、データの重要な特性を考慮し、教師なし設定における特徴選択プロセスには様々なアプローチがある。 本稿では,辞書学習のアイデアを低ランク表現に適用し,教師なしの新たな特徴選択手法を提案する。 低ランク表現による辞書学習は,新しい表現の提供を可能にするだけでなく,特徴相関も維持する。 次に、スペクトル分析を用いてサンプル類似性を保存する。 最後に、教師なし特徴選択のための統一目的関数は、$\ell_{2,1}$-norm正規化によってスパース的に提案される。 さらに, 最適化問題を解くために, 効率的な数値アルゴリズムを考案した。 本稿では,様々な適用領域の標準データセットに基づいて提案手法の性能を示す。 実験の結果,提案手法が最先端アルゴリズムよりも優れていることがわかった。

There exist many high-dimensional data in real-world applications such as biology, computer vision, and social networks. Feature selection approaches are devised to confront with high-dimensional data challenges with the aim of efficient learning technologies as well as reduction of models complexity. Due to the hardship of labeling on these datasets, there are a variety of approaches on feature selection process in an unsupervised setting by considering some important characteristics of data. In this paper, we introduce a novel unsupervised feature selection approach by applying dictionary learning ideas in a low-rank representation. Dictionary learning in a low-rank representation not only enables us to provide a new representation, but it also maintains feature correlation. Then, spectral analysis is employed to preserve sample similarities. Finally, a unified objective function for unsupervised feature selection is proposed in a sparse way by an $\ell_{2,1}$-norm regularization. Furthermore, an efficient numerical algorithm is designed to solve the corresponding optimization problem. We demonstrate the performance of the proposed method based on a variety of standard datasets from different applied domains. Our experimental findings reveal that the proposed method outperforms the state-of-the-art algorithm.
翻訳日:2021-06-22 21:27:54 公開日:2021-06-21
# (参考訳) 乱流の壁模型の科学的多エージェント強化学習

Scientific multi-agent reinforcement learning for wall-models of turbulent flows ( http://arxiv.org/abs/2106.11144v1 )

ライセンス: CC BY 4.0
H. Jane Bae, Petros Koumoutsakos(参考訳) 空力設計と天気予報に重要な乱流シミュレーションの予測能力は、乱流モデルの選択に対するヒンジである。 実験やシミュレーションからのデータの豊富さと機械学習の出現は、これらのモデリング努力を後押ししている。 しかし, 乱流のシミュレーションは, ヒューリスティックスや教師付き学習が不可能なため, 壁近傍の力学をモデル化できないままである。 大規模シミュレーション(LES)のための壁モデル発見のために,科学的なマルチエージェント強化学習(SciMARL)を導入することで,この問題に対処する。 SciMARLでは、離散化ポイントはLESクロージャモデルの提供を学ぶ協調エージェントとしても機能する。 エージェントは制限されたデータを使って自己学習し、極値レイノルズ数と以前には見つからなかったジオメトリに一般化する。 本シミュレーションは,鍵フロー量を再現しながら,完全解決シミュレーションよりも計算コストを数桁削減する。 我々は,SciMARLが乱流シミュレーションの新たな能力を生み出すと考えている。

The predictive capabilities of turbulent flow simulations, critical for aerodynamic design and weather prediction, hinge on the choice of turbulence models. The abundance of data from experiments and simulations and the advent of machine learning have provided a boost to these modeling efforts. However, simulations of turbulent flows remain hindered by the inability of heuristics and supervised learning to model the near-wall dynamics. We address this challenge by introducing scientific multi-agent reinforcement learning (SciMARL) for the discovery of wall models for large-eddy simulations (LES). In SciMARL, discretization points act also as cooperating agents that learn to supply the LES closure model. The agents self-learn using limited data and generalize to extreme Reynolds numbers and previously unseen geometries. The present simulations reduce by several orders of magnitude the computational cost over fully-resolved simulations while reproducing key flow quantities. We believe that SciMARL creates new capabilities for the simulation of turbulent flows.
翻訳日:2021-06-22 20:59:46 公開日:2021-06-21
# (参考訳) FP-Age:野生における顔面年齢推定のための顔解析注意の活用

FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in the Wild ( http://arxiv.org/abs/2106.11145v1 )

ライセンス: CC BY 4.0
Yiming Lin, Jie Shen, Yujiang Wang, Maja Pantic(参考訳) 画像に基づく年齢推定は、顔画像から人の年齢を予測することを目的としている。 様々な現実世界のアプリケーションで使われている。 エンドツーエンドのディープモデルは、ベンチマークデータセットの年齢推定において驚くべき結果を得たが、そのパフォーマンスは、頭ポーズ、表情、オクルージョンの大きなバリエーションに起因する課題のために、まだ改善の余地が残っていない。 そこで本研究では,頭部のポーズや非剛性変形によらず,不整合顔画像から最も情報性の高い顔成分に焦点を合わせることを学習するために,顔のセマンティクスを年齢推定に明示的に組み込む,シンプルかつ効果的な手法を提案する。 この目的のために,異なるスケールで意味情報を学習するための顔解析ベースのネットワークと,これらの意味的特徴を年齢推定に活用するための新しい顔解析アテンションモジュールを設計する。 本手法を評価するために,imdb-cleanと呼ばれる新しい大規模ベンチマークも導入した。 このデータセットは、制約付きクラスタリング手法を用いて、ノイズの多いIMDB-WIKIデータセットを半自動クリーニングすることで作成される。 IMDB-Cleanおよび他のベンチマークデータセットに関する総合的な実験を通じて、データセット内およびクロスデータセット評価プロトコルの下で、我々の手法が既存の年齢推定手法を一貫して上回り、新しい最先端性能を実現することを示す。 私たちの知識を最大限に活用するために,本研究は,顔分析の注意を活用して意味認識年齢推定を実現する最初の試みを示す。

Image-based age estimation aims to predict a person's age from facial images. It is used in a variety of real-world applications. Although end-to-end deep models have achieved impressive results for age estimation on benchmark datasets, their performance in-the-wild still leaves much room for improvement due to the challenges caused by large variations in head pose, facial expressions, and occlusions. To address this issue, we propose a simple yet effective method to explicitly incorporate facial semantics into age estimation, so that the model would learn to correctly focus on the most informative facial components from unaligned facial images regardless of head pose and non-rigid deformation. To this end, we design a face parsing-based network to learn semantic information at different scales and a novel face parsing attention module to leverage these semantic features for age estimation. To evaluate our method on in-the-wild data, we also introduce a new challenging large-scale benchmark called IMDB-Clean. This dataset is created by semi-automatically cleaning the noisy IMDB-WIKI dataset using a constrained clustering method. Through comprehensive experiment on IMDB-Clean and other benchmark datasets, under both intra-dataset and cross-dataset evaluation protocols, we show that our method consistently outperforms all existing age estimation methods and achieves a new state-of-the-art performance. To the best of our knowledge, our work presents the first attempt of leveraging face parsing attention to achieve semantic-aware age estimation, which may be inspiring to other high level facial analysis tasks.
翻訳日:2021-06-22 20:44:54 公開日:2021-06-21
# (参考訳) チームワークにおけるカリキュラム駆動型マルチエージェント学習と暗黙コミュニケーションの役割

Curriculum-Driven Multi-Agent Learning and the Role of Implicit Communication in Teamwork ( http://arxiv.org/abs/2106.11156v1 )

ライセンス: CC BY 4.0
Niko A. Grupen, Daniel D. Lee, Bart Selman(参考訳) 難解なマルチエージェントコーディネーションタスクを解決するためのカリキュラム駆動型学習戦略を提案する。 本手法は,動物コミュニケーションの研究に触発され,自然界におけるコミュニケーションプロトコルの広帯域化を支援する2つの簡単な設計特徴(相互報酬と分散化)が示された。 創発的コミュニケーションをスペクトルとして解釈することの重要性を強調する。 トロイダルな連続空間追従回避環境を導入し, ナイーブな分散学習がうまく機能しないことを示す。 次に,マルチエージェント学習のためのカリキュラム駆動型戦略を提案する。 追従回避実験により,本手法は分散的追従者に対して,優れた回避策のコーディネートと捕捉の学習を可能にし,高度な解析政策を著しく上回ることを示す。 Instantaneous Coordinationのような影響に基づく尺度を含む追加の定量的分析を通じて、創発的な暗黙的なコミュニケーションは、より優れた調整レベルを実現する上で大きな役割を果たす。

We propose a curriculum-driven learning strategy for solving difficult multi-agent coordination tasks. Our method is inspired by a study of animal communication, which shows that two straightforward design features (mutual reward and decentralization) support a vast spectrum of communication protocols in nature. We highlight the importance of similarly interpreting emergent communication as a spectrum. We introduce a toroidal, continuous-space pursuit-evasion environment and show that naive decentralized learning does not perform well. We then propose a novel curriculum-driven strategy for multi-agent learning. Experiments with pursuit-evasion show that our approach enables decentralized pursuers to learn to coordinate and capture a superior evader, significantly outperforming sophisticated analytical policies. We argue through additional quantitative analysis -- including influence-based measures such as Instantaneous Coordination -- that emergent implicit communication plays a large role in enabling superior levels of coordination.
翻訳日:2021-06-22 20:21:18 公開日:2021-06-21
# (参考訳) 時空間ダイナミクス学習のための完全畳み込みネットワークにおける境界条件の影響

Effects of boundary conditions in fully convolutional networks for learning spatio-temporal dynamics ( http://arxiv.org/abs/2106.11160v1 )

ライセンス: CC BY 4.0
Antonio Alguacil andr Gon\c{c}alves Pinto and Michael Bauerheim and Marc C. Jacob and St\'ephane Moreau(参考訳) 境界条件の正確なモデリングは計算物理学において重要である。 物理学関連の問題に対するサロゲートとしてのニューラルネットワークの利用がますます増えているため、境界条件処理の理解が向上し、そのネットワーク精度への影響が高まる。 本稿では,リカレントタスクに適用される完全畳み込みネットワークの文脈において,境界条件(パディング,空間的コンテキストの改善,物理境界の明示的エンコーディング)を課すいくつかの戦略について検討する。 これらの戦略は、偏微分方程式によってモデル化された2つの時空間発展問題、すなわち、音波の2次元伝播(双曲PDE)と熱方程式(放物PDE)に基づいて評価される。 このような繰り返しタスクにおける境界実装における精度と安定性の両面で高い感度を示す。 次に、最適なパディング戦略の選択がデータセマンティクスに直接関連していることが示される。 さらに、追加の入力空間コンテキストや明示的な物理ベースのルールを含めることで、特に多数の再帰に対してバウンダリの扱いがより良くなり、より堅牢で安定したニューラルネットワークが実現され、そのようなネットワークの設計と汎用性が促進される。

Accurate modeling of boundary conditions is crucial in computational physics. The ever increasing use of neural networks as surrogates for physics-related problems calls for an improved understanding of boundary condition treatment, and its influence on the network accuracy. In this paper, several strategies to impose boundary conditions (namely padding, improved spatial context, and explicit encoding of physical boundaries) are investigated in the context of fully convolutional networks applied to recurrent tasks. These strategies are evaluated on two spatio-temporal evolving problems modeled by partial differential equations: the 2D propagation of acoustic waves (hyperbolic PDE) and the heat equation (parabolic PDE). Results reveal a high sensitivity of both accuracy and stability on the boundary implementation in such recurrent tasks. It is then demonstrated that the choice of the optimal padding strategy is directly linked to the data semantics. Furthermore, the inclusion of additional input spatial context or explicit physics-based rules allows a better handling of boundaries in particular for large number of recurrences, resulting in more robust and stable neural networks, while facilitating the design and versatility of such networks.
翻訳日:2021-06-22 20:01:10 公開日:2021-06-21
# (参考訳) スペクトルグラフ埋め込みと確率マッチングを用いた3次元形状登録

3D Shape Registration Using Spectral Graph Embedding and Probabilistic Matching ( http://arxiv.org/abs/2106.11166v1 )

ライセンス: CC BY 4.0
Avinash Sharma, Radu Horaud and Diana Mateus(参考訳) 本稿では3次元形状登録の問題に対処し,スペクトルグラフ理論と確率マッチングに基づく新しい手法を提案する。 3D形状解析の課題は、追跡、認識、登録などである。 3dデータを単一のフレームワークで分析することは、異なる取得デバイスで収集されたデータの大きな変動性を考慮すると、依然として難しい課題である。 3次元形状登録は、このような困難な形状解析タスクである。 この章の主な貢献は、スペクトルグラフマッチング法をラプラシアン埋め込みと組み合わせることで、非常に大きなグラフに拡張することである。 グラフの埋め込み表現は次元還元によって得られるので、既存のスペクトルベース法は容易には適用できないと主張する。 We discuss solutions for the exact and inexact graph isomorphism problems and recall the main spectral properties of the combinatorial graph Laplacian; We provide a novel analysis of the commute-time embedding that allows us to interpret the latter in terms of the PCA of a graph, and to select the appropriate dimension of the associated embedded metric space; We derive a unit hyper-sphere normalization for the commute-time embedding that allows us to register two shapes with different samplings; We propose a novel method to find the eigenvalue-eigenvector ordering and the eigenvector signs using the eigensignature (histogram) which is invariant to the isometric shape deformations and fits well in the spectral graph matching framework, and we present a probabilistic shape matching formulation using an expectation maximization point registration algorithm which alternates between aligning the eigenbases and finding a vertex-to-vertex assignment.

We address the problem of 3D shape registration and we propose a novel technique based on spectral graph theory and probabilistic matching. The task of 3D shape analysis involves tracking, recognition, registration, etc. Analyzing 3D data in a single framework is still a challenging task considering the large variability of the data gathered with different acquisition devices. 3D shape registration is one such challenging shape analysis task. The main contribution of this chapter is to extend the spectral graph matching methods to very large graphs by combining spectral graph matching with Laplacian embedding. Since the embedded representation of a graph is obtained by dimensionality reduction we claim that the existing spectral-based methods are not easily applicable. We discuss solutions for the exact and inexact graph isomorphism problems and recall the main spectral properties of the combinatorial graph Laplacian; We provide a novel analysis of the commute-time embedding that allows us to interpret the latter in terms of the PCA of a graph, and to select the appropriate dimension of the associated embedded metric space; We derive a unit hyper-sphere normalization for the commute-time embedding that allows us to register two shapes with different samplings; We propose a novel method to find the eigenvalue-eigenvector ordering and the eigenvector signs using the eigensignature (histogram) which is invariant to the isometric shape deformations and fits well in the spectral graph matching framework, and we present a probabilistic shape matching formulation using an expectation maximization point registration algorithm which alternates between aligning the eigenbases and finding a vertex-to-vertex assignment.
翻訳日:2021-06-22 19:47:08 公開日:2021-06-21
# (参考訳) TNT:Few-Shotビデオ分類のためのトランスダクティブ推論付きテキストコンディションネットワーク

TNT: Text-Conditioned Network with Transductive Inference for Few-Shot Video Classification ( http://arxiv.org/abs/2106.11173v1 )

ライセンス: CC BY 4.0
Andr\'es Villa, Juan-Manuel Perez-Rua, Vladimir Araujo, Juan Carlos Niebles, Victor Escorcia, Alvaro Soto(参考訳) 近年,ショット学習への関心が高まっている。 既存の努力は画像分類に重点を置いており、より挑戦的な数発のビデオ分類問題に焦点をあてる試みはほとんどない。 これらの試みはビデオの時間次元を効果的に活用し、低データ体制での学習を改善することを目的としている。 しかし、彼らはビデオの重要な特徴をほとんど無視しており、これはわずかな写真認識に不可欠であり、ビデオにはリッチなテキスト記述が伴うことが多い。 本稿では,これらのテキスト記述を,少数の映像分類モデルの訓練において特権情報として利用することを提案する。 具体的には,テキストベースのタスクコンディショナを定式化し,ビデオ機能をマイナショット学習タスクに適用する。 私たちのモデルは、クエリサンプルとテキスト記述をサポートしたトランスダクティブな設定に従い、サポートセットクラスのプロトタイプを更新し、モデルのタスク適応能力をさらに向上します。 提案モデルは,ビデオアクション分類において,4つの難解なベンチマークで最先端のパフォーマンスを得る。

Recently, few-shot learning has received increasing interest. Existing efforts have been focused on image classification, with very few attempts dedicated to the more challenging few-shot video classification problem. These few attempts aim to effectively exploit the temporal dimension in videos for better learning in low data regimes. However, they have largely ignored a key characteristic of video which could be vital for few-shot recognition, that is, videos are often accompanied by rich text descriptions. In this paper, for the first time, we propose to leverage these human-provided textual descriptions as privileged information when training a few-shot video classification model. Specifically, we formulate a text-based task conditioner to adapt video features to the few-shot learning task. Our model follows a transductive setting where query samples and support textual descriptions can be used to update the support set class prototype to further improve the task-adaptation ability of the model. Our model obtains state-of-the-art performance on four challenging benchmarks in few-shot video action classification.
翻訳日:2021-06-22 19:20:57 公開日:2021-06-21
# (参考訳) 分布ロバスト最適化による複素自由一般化

Complexity-Free Generalization via Distributionally Robust Optimization ( http://arxiv.org/abs/2106.11180v1 )

ライセンス: CC BY 4.0
Henry Lam, Yibo Zeng(参考訳) データ駆動最適化と機械学習の一般化限界を得るための確立されたアプローチは、主に仮説クラスの機能的複雑性に依存する経験的リスク最小化(erm)のソリューションに基づいている。 本稿では,分散ロバスト最適化 (distributionally robust optimization,dro) という,最近のデータ駆動型最適化フレームワークと,統計的不確かさをキャプチャする曖昧性集合の概念から,これらの解の境界を得るための代替経路を提案する。 ERMの仮説クラス複雑性とは対照的に、我々のDRO境界はあいまいな集合の幾何と真の損失関数との整合性に依存する。 特に、DRO距離計量として最大平均差分法を用いる場合、我々の分析は、我々の知識の最も良いところは、真の損失関数にのみ依存する文献における最初の一般化であり、仮説クラス上の任意の複雑性測度や境界を全く含まないことを意味する。

Established approaches to obtain generalization bounds in data-driven optimization and machine learning mostly build on solutions from empirical risk minimization (ERM), which depend crucially on the functional complexity of the hypothesis class. In this paper, we present an alternate route to obtain these bounds on the solution from distributionally robust optimization (DRO), a recent data-driven optimization framework based on worst-case analysis and the notion of ambiguity set to capture statistical uncertainty. In contrast to the hypothesis class complexity in ERM, our DRO bounds depend on the ambiguity set geometry and its compatibility with the true loss function. Notably, when using maximum mean discrepancy as a DRO distance metric, our analysis implies, to the best of our knowledge, the first generalization bound in the literature that depends solely on the true loss function, entirely free of any complexity measures or bounds on the hypothesis class.
翻訳日:2021-06-22 19:04:41 公開日:2021-06-21
# (参考訳) ファジィルール分類器のオートエンコーダの微調整について

On fine-tuning of Autoencoders for Fuzzy rule classifiers ( http://arxiv.org/abs/2106.11182v1 )

ライセンス: CC BY 4.0
Rahul Kumar Sevakula, Nishchal Kumar Verma, Hisao Ishibuchi(参考訳) 近年のDeep Neural Networksの発見により、画像分類や音声分類といった非常に複雑な問題に、理論的および経験的正当性を改良して対処できるようになった。 本稿では,ファジィルール分類器(FRC)にオートエンコーダを組み込む新しい手法を提案する。 積み重ねられたオートエンコーダは、データ間の複雑な非線形関係を学習し、FRCのために構築されたフレームワークにより、システムに専門家の知識を入力することができる。 さらに,FRCの分類とルール削減性能を改善するために,オートエンコーダの4つの新しい微調整手法を提案する。 提案されたフレームワークは、5つの実世界のベンチマークデータセットでテストされている。 従来の15以上の研究と10倍のクロスバリデーション性能を比較した結果,提案手法がFRCの構築に有効であることが示唆された。

Recent discoveries in Deep Neural Networks are allowing researchers to tackle some very complex problems such as image classification and audio classification, with improved theoretical and empirical justifications. This paper presents a novel scheme to incorporate the use of autoencoders in Fuzzy rule classifiers (FRC). Autoencoders when stacked can learn the complex non-linear relationships amongst data, and the proposed framework built towards FRC can allow users to input expert knowledge to the system. This paper further introduces four novel fine-tuning strategies for autoencoders to improve the FRC's classification and rule reduction performance. The proposed framework has been tested across five real-world benchmark datasets. Elaborate comparisons with over 15 previous studies, and across 10-fold cross validation performance, suggest that the proposed methods are capable of building FRCs which can provide state of the art accuracies.
翻訳日:2021-06-22 18:45:35 公開日:2021-06-21
# (参考訳) 共変量シフト下でのオーサシップ検証のための自己校正型ニューラル確率モデル

Self-Calibrating Neural-Probabilistic Model for Authorship Verification Under Covariate Shift ( http://arxiv.org/abs/2106.11196v1 )

ライセンス: CC BY 4.0
Benedikt Boenninghoff, Dorothea Kolossa, Robert M. Nickel(参考訳) 著者検証(AV)における2つの根本的な問題に対処している。 2つの論争のあるテキストのトピックのバリエーションは、ほとんどのAVシステムにとって大きなエラーの原因である。 また、深層学習av機構によって発生する確率推定値は、各トレーニングデータにおける実際のケースカウントと一致しない。 そのため、確率推定の校正が不十分である。 我々は、このフレームワークをPAN 2020からベイズ因子スコアリング(BFS)と不確実性適応層(UAL)に拡張して、両方の問題に対処しています。 2020/21 PAN AV共有タスクデータを用いた実験により,提案手法は局所的変動に対する感度を著しく低減し,システムキャリブレーションを大幅に改善することを示した。

We are addressing two fundamental problems in authorship verification (AV): Topic variability and miscalibration. Variations in the topic of two disputed texts are a major cause of error for most AV systems. In addition, it is observed that the underlying probability estimates produced by deep learning AV mechanisms oftentimes do not match the actual case counts in the respective training data. As such, probability estimates are poorly calibrated. We are expanding our framework from PAN 2020 to include Bayes factor scoring (BFS) and an uncertainty adaptation layer (UAL) to address both problems. Experiments with the 2020/21 PAN AV shared task data show that the proposed method significantly reduces sensitivities to topical variations and significantly improves the system's calibration.
翻訳日:2021-06-22 18:20:43 公開日:2021-06-21
# (参考訳) 対照的な学習はショートカットソリューションを避けることができるか?

Can contrastive learning avoid shortcut solutions? ( http://arxiv.org/abs/2106.11230v1 )

ライセンス: CC BY 4.0
Joshua Robinson, Li Sun, Ke Yu, Kayhan Batmanghelich, Stefanie Jegelka, Suvrit Sra(参考訳) コントラスト学習によって学習される表現の一般化は、データのどの特徴が抽出されるかに大きく依存する。 しかし,どの特徴が抽出されるか,すなわち「ショートカット」によって下流タスクのパフォーマンスに悪影響を及ぼす行動,すなわち重要な予測的特徴を不注意に抑制することで,コントラスト損失が必ずしも十分なガイドとなるとは限らない。 特徴抽出は、いわゆるインスタンス識別タスクの難しさ(すなわち、類似点のペアと類似点のペアを区別するタスク)に影響されていることがわかった。 ハードペアはいくつかの機能表現を改善するが、以前よく表現された機能を抑圧するコストで改善される。 提案手法は, より広い範囲の予測的特徴を捉えるために, 対照的なモデルを導出するために, 正および負のサンプルを修正するための暗黙的特徴修正(IFM)を提案する。 経験的に、IMMは特徴抑制を低減し、その結果、視力や医用画像のタスクの性能が向上する。 コードは \url{https://github.com/joshr17/ifm} で入手できる。

The generalization of representations learned via contrastive learning depends crucially on what features of the data are extracted. However, we observe that the contrastive loss does not always sufficiently guide which features are extracted, a behavior that can negatively impact the performance on downstream tasks via "shortcuts", i.e., by inadvertently suppressing important predictive features. We find that feature extraction is influenced by the difficulty of the so-called instance discrimination task (i.e., the task of discriminating pairs of similar points from pairs of dissimilar ones). Although harder pairs improve the representation of some features, the improvement comes at the cost of suppressing previously well represented features. In response, we propose implicit feature modification (IFM), a method for altering positive and negative samples in order to guide contrastive models towards capturing a wider variety of predictive features. Empirically, we observe that IFM reduces feature suppression, and as a result improves performance on vision and medical imaging tasks. The code is available at: \url{https://github.com/joshr17/IFM}.
翻訳日:2021-06-22 18:09:00 公開日:2021-06-21
# (参考訳) VertexShuffleの360度ビデオ超解法への応用

Applying VertexShuffle Toward 360-Degree Video Super-Resolution on Focused-Icosahedral-Mesh ( http://arxiv.org/abs/2106.11253v1 )

ライセンス: CC BY 4.0
Na Li and Yao Liu(参考訳) 360度画像/ビデオ、拡張現実(AR)、仮想現実(VR)の出現に伴い、球面信号の分析と処理の需要は大幅に増大する。 しかし、球面信号から投影される平面信号に多くの労力が費やされ、例えばいくつかの問題を引き起こした。 ピクセルの無駄 歪み 近年の球面cnnの進歩により、球面信号を直接解析する可能性が開けている。 しかし、非常に大きな帯域幅の要求のため、現実世界のアプリケーションの状況に対処できないようなフルメッシュに注意を払っている。 360度ビデオストリーミングと保存計算に関連する帯域浪費問題に対処するため,我々はFocused Icosahedral Meshを用いて小さな領域を表現し,球状コンテンツを集中メッシュ領域に回転させる行列を構築した。 また,ugscnn で導入された meshconv transpose 操作と比較して,性能と効率を著しく改善できる新しい頂点シャッフル動作を提案した。 さらに,提案手法を超解像モデルに適用し,360度データの球面画素のメッシュ表現を直接操作する球面超解像モデルを提案する。 モデルを評価するために,高解像度の360度ビデオの集合を収集し,球面画像データセットを生成する。 提案する球面超解像モデルは,単純なmeshconv転置操作を用いたベースライン球面超解像モデルと比較して,性能と推論時間の両方において有意な利点があることを示す。 要約すると、我々のモデルは360度入力において優れた超解像性能を達成し、メッシュ上で16x頂点を超解像すると平均32.79dBPSNRを達成する。

With the emerging of 360-degree image/video, augmented reality (AR) and virtual reality (VR), the demand for analysing and processing spherical signals get tremendous increase. However, plenty of effort paid on planar signals that projected from spherical signals, which leading to some problems, e.g. waste of pixels, distortion. Recent advances in spherical CNN have opened up the possibility of directly analysing spherical signals. However, they pay attention to the full mesh which makes it infeasible to deal with situations in real-world application due to the extremely large bandwidth requirement. To address the bandwidth waste problem associated with 360-degree video streaming and save computation, we exploit Focused Icosahedral Mesh to represent a small area and construct matrices to rotate spherical content to the focused mesh area. We also proposed a novel VertexShuffle operation that can significantly improve both the performance and the efficiency compared to the original MeshConv Transpose operation introduced in UGSCNN. We further apply our proposed methods on super resolution model, which is the first to propose a spherical super-resolution model that directly operates on a mesh representation of spherical pixels of 360-degree data. To evaluate our model, we also collect a set of high-resolution 360-degree videos to generate a spherical image dataset. Our experiments indicate that our proposed spherical super-resolution model achieves significant benefits in terms of both performance and inference time compared to the baseline spherical super-resolution model that uses the simple MeshConv Transpose operation. In summary, our model achieves great super-resolution performance on 360-degree inputs, achieving 32.79 dB PSNR on average when super-resoluting 16x vertices on the mesh.
翻訳日:2021-06-22 17:36:15 公開日:2021-06-21
# (参考訳) 階層学習:共変量シフト下での学習改善のための汎用統計手法

Stratified Learning: a general-purpose statistical method for improved learning under Covariate Shift ( http://arxiv.org/abs/2106.11211v1 )

ライセンス: CC BY 4.0
Maximilian Autenrieth, David A. van Dyk, Roberto Trotta, David C. Stenning(参考訳) 共変量シフトは、ラベル付きトレーニング(ソース)データが共変量分布の系統的差異のためにラベル付き(ターゲット)データの代表でない場合に発生する。 共変量シフトの対象となるソースデータに基づいて訓練された教師付きモデルは、対象データに対する一般化の低さに悩まされる可能性がある。 本稿では,共変量シフト条件下での学習を改善するための新しい,統計的に原理化された理論的正当化手法を提案する。 条件付けにより,共変量シフトの効果を低減あるいは完全に排除できることを示した。 実際には、推定された傾向スコアに基づいてデータを分割して構築したサブグループ(階層)に学習者を適合させることで、バランスの取れた共変量と大幅に改良された目標予測へと導かれる。 本研究では,観測宇宙論における現代研究問題に対する汎用的手法の有効性を実証し,さらに,共変量シフト文学で広く研究されている最先端の重み付け手法とのマッチングあるいは性能比較を行った。 Sloan Data Sky Survey (SDSS) データから, 更新された「超新星光度分類チャレンジ」に関する最良のAUC (0.958) を取得し, 既存の銀河赤方偏移の条件密度推定を改善する。

Covariate shift arises when the labelled training (source) data is not representative of the unlabelled (target) data due to systematic differences in the covariate distributions. A supervised model trained on the source data subject to covariate shift may suffer from poor generalization on the target data. We propose a novel, statistically principled and theoretically justified method to improve learning under covariate shift conditions, based on propensity score stratification, a well-established methodology in causal inference. We show that the effects of covariate shift can be reduced or altogether eliminated by conditioning on propensity scores. In practice, this is achieved by fitting learners on subgroups ("strata") constructed by partitioning the data based on the estimated propensity scores, leading to balanced covariates and much-improved target prediction. We demonstrate the effectiveness of our general-purpose method on contemporary research questions in observational cosmology, and on additional benchmark examples, matching or outperforming state-of-the-art importance weighting methods, widely studied in the covariate shift literature. We obtain the best reported AUC (0.958) on the updated "Supernovae photometric classification challenge" and improve upon existing conditional density estimation of galaxy redshift from Sloan Data Sky Survey (SDSS) data.
翻訳日:2021-06-22 17:07:51 公開日:2021-06-21
# 破壊ロバスト能動的学習

Corruption Robust Active Learning ( http://arxiv.org/abs/2106.11220v1 )

ライセンス: Link先を確認
Yifang Chen, Simon S. Du, Kevin Jamieson(参考訳) 未知のラベル破壊下での2値分類のためのストリーミングベースのアクティブラーニングに関する理論的研究を行う。 この設定では、学習者がサンプルを観察するたびに、相手はラベルを破損するか否かを判定する。 まず,不正な腐敗設定(特別な場合として誤特定設定を含む)において,仮説除去閾値をわずかに拡大することで,古典的ロバストカルフレームワークが(当然のことながら)非腐敗設定とほぼ同じラベル複雑性保証を達成できることを示す。 しかし、このアルゴリズムは一般的な腐敗設定では失敗する可能性がある。 この欠点を解決するために, 汚職の有無を仮定することなく, 確実に正しいアルゴリズムを提案する。 さらに、このアルゴリズムは分解されていない設定(ロバストカルによって達成される)におけるminimaxラベルの複雑さを享受し、破損した設定で$\mathcal{o}(\varepsilon + \frac{c_{\mathrm{total}}}{n})$を達成するために$\tilde{\mathcal{o}}(c_{\mathrm{total}})$を追加するだけで$\mathcal{o}(\varepsilon + \frac{c_{\mathrm{total}}}{n})$となる。

We conduct theoretical studies on streaming-based active learning for binary classification under unknown adversarial label corruptions. In this setting, every time before the learner observes a sample, the adversary decides whether to corrupt the label or not. First, we show that, in a benign corruption setting (which includes the misspecification setting as a special case), with a slight enlargement on the hypothesis elimination threshold, the classical RobustCAL framework can (surprisingly) achieve nearly the same label complexity guarantee as in the non-corrupted setting. However, this algorithm can fail in the general corruption setting. To resolve this drawback, we propose a new algorithm which is provably correct without any assumptions on the presence of corruptions. Furthermore, this algorithm enjoys the minimax label complexity in the non-corrupted setting (which is achieved by RobustCAL) and only requires $\tilde{\mathcal{O}}(C_{\mathrm{total}})$ additional labels in the corrupted setting to achieve $\mathcal{O}(\varepsilon + \frac{C_{\mathrm{total}}}{n})$, where $\varepsilon$ is the target accuracy, $C_{\mathrm{total}}$ is the total number of corruptions and $n$ is the total number of unlabeled samples.
翻訳日:2021-06-22 16:04:54 公開日:2021-06-21
# 3次元シミュレーションのための境界グラフニューラルネットワーク

Boundary Graph Neural Networks for 3D Simulations ( http://arxiv.org/abs/2106.11299v1 )

ライセンス: Link先を確認
Andreas Mayr, Sebastian Lehner, Arno Mayrhofer, Christoph Kloss, Sepp Hochreiter, Johannes Brandstetter(参考訳) データの豊富さは、機械学習を自然科学と工学に大きな勢いを与えている。 しかし,シミュレーションによる物理過程のモデル化はいまだに困難である。 そのための鍵となる問題は、幾何学的境界の正しい取り扱いである。 三角形化された幾何学的境界は工学的応用において非常に一般的であるが、サイズや向きに関する不均一性のため、機械学習のアプローチによってモデル化することは極めて困難である。 本研究では,境界条件に対処するグラフ構造を動的に修正する境界グラフニューラルネットワーク(BGNN)を提案する。 境界グラフ構造はエッジの変更、ノード機能の拡張、仮想ノードの動的挿入によって構築される。 新しいBGNNは、産業機械の標準部品であるホッパーと回転ドラムの複雑な3次元粒状フロープロセスで試験される。 高価で複雑な離散要素法により得られた正確なシミュレーションを用いて,BGNNを計算効率,粒子流の予測精度,混合エントロピーの観点から評価した。 複雑な境界が存在する場合でも、bgnnは数十万のシミュレーション時間ステップにわたってシミュレーションの不確かさの中で正確に3dの粒状流れを再現することができ、最も顕著なのは、手作りの条件や制約を使わずに、幾何学的対象に完全に留まります。

The abundance of data has given machine learning huge momentum in natural sciences and engineering. However, the modeling of simulated physical processes remains difficult. A key problem in doing so is the correct handling of geometric boundaries. While triangularized geometric boundaries are very common in engineering applications, they are notoriously difficult to model by machine learning approaches due to their heterogeneity with respect to size and orientation. In this work, we introduce Boundary Graph Neural Networks (BGNNs), which dynamically modify graph structures to address boundary conditions. Boundary graph structures are constructed via modifying edges, augmenting node features, and dynamically inserting virtual nodes. The new BGNNs are tested on complex 3D granular flow processes of hoppers and rotating drums which are standard parts of industrial machinery. Using precise simulations that are obtained by an expensive and complex discrete element method, BGNNs are evaluated in terms of computational efficiency as well as prediction accuracy of particle flows and mixing entropies. Even if complex boundaries are present, BGNNs are able to accurately reproduce 3D granular flows within simulation uncertainties over hundreds of thousands of simulation timesteps, and most notably particles completely stay within the geometric objects without using handcrafted conditions or restrictions.
翻訳日:2021-06-22 16:04:22 公開日:2021-06-21
# DiGS : 無向点雲に対する拡散誘導形暗黙的ニューラル表現

DiGS : Divergence guided shape implicit neural representation for unoriented point clouds ( http://arxiv.org/abs/2106.10811v1 )

ライセンス: Link先を確認
Yizhak Ben-Shabat, Chamin Hewa Koneputugodage, Stephen Gould(参考訳) ニューラル形状表現は近年,形状解析や再構成作業に有効であることが示されている。 既存のニューラルネットワーク手法では、形状の暗黙のレベルセットを学ぶために点座標と対応する正規ベクトルを必要とする。 通常のベクトルは生のデータとして提供されないことが多いため、前処理段階として近似と再配向が必要であり、どちらもノイズを引き起こす可能性がある。 本稿では,通常のベクトルを入力として必要としない分岐誘導型形状表現学習手法を提案する。 距離関数の発散にソフト制約を組み込むことは、各点における未知の正規に一致する勾配を確実に指向する滑らかな解を好んでおり、場合によっては、基底真理正規ベクトルを直接使用するアプローチよりもさらに優れていることを示す。 さらに,所望の解への収束をさらに向上する正弦波形状表現ネットワークの幾何学的初期化手法を提案する。 本研究では, 面再構成作業における提案手法の有効性を評価し, 他の非オブジェクト指向手法と比較して最先端性能, 指向性手法と比較してオンパー性能を示す。

Neural shape representations have recently shown to be effective in shape analysis and reconstruction tasks. Existing neural network methods require point coordinates and corresponding normal vectors to learn the implicit level sets of the shape. Normal vectors are often not provided as raw data, therefore, approximation and reorientation are required as pre-processing stages, both of which can introduce noise. In this paper, we propose a divergence guided shape representation learning approach that does not require normal vectors as input. We show that incorporating a soft constraint on the divergence of the distance function favours smooth solutions that reliably orients gradients to match the unknown normal at each point, in some cases even better than approaches that use ground truth normal vectors directly. Additionally, we introduce a novel geometric initialization method for sinusoidal shape representation networks that further improves convergence to the desired solution. We evaluate the effectiveness of our approach on the task of surface reconstruction and show state-of-the-art performance compared to other unoriented methods and on-par performance compared to oriented methods.
翻訳日:2021-06-22 16:02:44 公開日:2021-06-21
# visual probing:自己教師あり画像表現を説明する認知フレームワーク

Visual Probing: Cognitive Framework for Explaining Self-Supervised Image Representations ( http://arxiv.org/abs/2106.11054v1 )

ライセンス: Link先を確認
Witold Oleszkiewicz, Dominika Basaj, Igor Sieradzki, Micha{\l} G\'orszczak, Barbara Rychalska, Koryna Lewandowska, Tomasz Trzci\'nski, Bartosz Zieli\'nski(参考訳) 近年,画像表現学習のための自己指導的手法が,完全教師付き競争相手に対して同等以上の結果をもたらす一方で,自己指導的アプローチの遅れを説明するための取り組みが遅れている。 本研究では,これまで自然言語処理に用いられてきた探索作業を活用することで,自己教師型モデルを記述するための新しい視覚探索フレームワークを提案する。 探索タスクは、画像部分間の意味関係に関する知識を必要とする。 そこで本研究では,視覚における自然言語の類似語(視覚語,文脈,分類)を得るための体系的アプローチを提案する。 本提案は,marrの視覚計算理論とテクスチャ,形状,線などの特徴を基礎としている。 自己指導型表現の文脈において,これらのアナログの有効性と適用性を示す。 私たちの重要な発見は、言語とビジョンの関係が、データモダリティとは無関係に、機械学習モデルがどのように機能するかを発見するための、効果的で直感的なツールになり得ることを示しています。 我々の研究は、より説明しやすく透明なAIへの多くの研究経路を開く。

Recently introduced self-supervised methods for image representation learning provide on par or superior results to their fully supervised competitors, yet the corresponding efforts to explain the self-supervised approaches lag behind. Motivated by this observation, we introduce a novel visual probing framework for explaining the self-supervised models by leveraging probing tasks employed previously in natural language processing. The probing tasks require knowledge about semantic relationships between image parts. Hence, we propose a systematic approach to obtain analogs of natural language in vision, such as visual words, context, and taxonomy. Our proposal is grounded in Marr's computational theory of vision and concerns features like textures, shapes, and lines. We show the effectiveness and applicability of those analogs in the context of explaining self-supervised representations. Our key findings emphasize that relations between language and vision can serve as an effective yet intuitive tool for discovering how machine learning models work, independently of data modality. Our work opens a plethora of research pathways towards more explainable and transparent AI.
翻訳日:2021-06-22 16:02:27 公開日:2021-06-21
# VIMPAC:masked Token予測とコントラスト学習によるビデオ事前学習

VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning ( http://arxiv.org/abs/2106.11250v1 )

ライセンス: Link先を確認
Hao Tan, Jie Lei, Thomas Wolf, Mohit Bansal(参考訳) ビデオ理解は、グローバルコンテンツの知覚と、その内部接続(例えば因果関係、運動、時空間対応)のモデル化に依存している。 これらの相互作用を学習するために、VQ-VAEを介して生成された離散化ビデオトークンにマスク列予測事前学習タスクを適用する。 テキストトークンがより独立した言語とは異なり、隣接するビデオトークンには強い相関関係(例えば、連続するビデオフレームは、通常非常によく似ている)があるため、個々のトークンを均一にマスキングすることは、有用な表現を学ぶのに難しすぎる。 この問題に対処するため,我々は空間領域と時間領域の両方に隣接する映像トークンをマスキングするブロックサイドマスキング戦略を提案する。 また、ビデオクリップが同じビデオからサンプリングされているかどうかを予測して、グローバルコンテンツをさらに捉えるために、強調なしのコントラスト学習手法も追加する。 未作成のビデオでモデルを事前トレーニングし、トレーニング済みのモデルがいくつかのビデオ理解データセット(例えば、ssv2, dive48)で最新結果に到達できることを示します。 最後に,モデルのスケーラビリティと事前学習手法の設計について詳細に分析する。 コードはhttps://github.com/airsplay/vimpacでリリースされる。

Video understanding relies on perceiving the global content and modeling its internal connections (e.g., causality, movement, and spatio-temporal correspondence). To learn these interactions, we apply a mask-then-predict pre-training task on discretized video tokens generated via VQ-VAE. Unlike language, where the text tokens are more independent, neighboring video tokens typically have strong correlations (e.g., consecutive video frames usually look very similar), and hence uniformly masking individual tokens will make the task too trivial to learn useful representations. To deal with this issue, we propose a block-wise masking strategy where we mask neighboring video tokens in both spatial and temporal domains. We also add an augmentation-free contrastive learning method to further capture the global content by predicting whether the video clips are sampled from the same video. We pre-train our model on uncurated videos and show that our pre-trained model can reach state-of-the-art results on several video understanding datasets (e.g., SSV2, Diving48). Lastly, we provide detailed analyses on model scalability and pre-training method design. Code is released at https://github.com/airsplay/vimpac.
翻訳日:2021-06-22 16:01:53 公開日:2021-06-21
# Adam and Training StrategiesはBNNの最適化にどのように役立つか?

How Do Adam and Training Strategies Help BNNs Optimization? ( http://arxiv.org/abs/2106.11309v1 )

ライセンス: Link先を確認
Zechun Liu, Zhiqiang Shen, Shichao Li, Koen Helwegen, Dong Huang, Kwang-Ting Cheng(参考訳) ベストパフォーマンスバイナリニューラルネットワーク(bnns)は通常、adam最適化とその多段階トレーニング変種を使用して達成される。 しかしながら、私たちの知る限りでは、AdamがBNN最適化のためのSGDや特定のトレーニング戦略をサポートする分析的説明など、他の最適化よりも優れている理由を調査する研究はほとんどない。 そこで本稿では,まずbnnにおける勾配と重みの軌跡について,訓練過程において検討する。 我々は,BNNの活性化飽和により死亡する重量を再活性化するために,アダムの2階運動量の正規化効果を示す。 適応学習率戦略により、AdamはBNNの粗い損失面を処理し、より高い一般化能力でより良い最適に到達できる。 さらに,二元ネットワークにおける実値重みの興味をそそる役割を検証し,bnn最適化の安定性と遅延性に及ぼす重み減衰の影響を明らかにする。 広範な実験と分析を通じて、既存のadamベースの最適化に基づいて、最先端のreactnetと同じアーキテクチャを使用してimagenetデータセット上で70.5%のtop-1精度を達成し、1.1%の精度を達成するシンプルなトレーニングスキームを導出する。 コードとモデルはhttps://github.com/liuzechun/AdamBNN.comで入手できる。

The best performing Binary Neural Networks (BNNs) are usually attained using Adam optimization and its multi-step training variants. However, to the best of our knowledge, few studies explore the fundamental reasons why Adam is superior to other optimizers like SGD for BNN optimization or provide analytical explanations that support specific training strategies. To address this, in this paper we first investigate the trajectories of gradients and weights in BNNs during the training process. We show the regularization effect of second-order momentum in Adam is crucial to revitalize the weights that are dead due to the activation saturation in BNNs. We find that Adam, through its adaptive learning rate strategy, is better equipped to handle the rugged loss surface of BNNs and reaches a better optimum with higher generalization ability. Furthermore, we inspect the intriguing role of the real-valued weights in binary networks, and reveal the effect of weight decay on the stability and sluggishness of BNN optimization. Through extensive experiments and analysis, we derive a simple training scheme, building on existing Adam-based optimization, which achieves 70.5% top-1 accuracy on the ImageNet dataset using the same architecture as the state-of-the-art ReActNet while achieving 1.1% higher accuracy. Code and models are available at https://github.com/liuzechun/AdamBNN.
翻訳日:2021-06-22 16:01:30 公開日:2021-06-21
# 生涯知覚分類のための不確かさ規則化を伴う反復的ネットワークプルーニング

Iterative Network Pruning with Uncertainty Regularization for Lifelong Sentiment Classification ( http://arxiv.org/abs/2106.11197v1 )

ライセンス: Link先を確認
Binzong Geng, Min Yang, Fajie Yuan, Shupeng Wang, Xiang Ao, Ruifeng Xu(参考訳) 生涯学習能力は、web上の意見情報の連続的なストリームを処理する感情分類器にとって不可欠である。 しかし、インクリメンタルに利用可能な情報の継続的なトレーニングが必然的に破滅的な忘れや干渉をもたらすため、深層ニューラルネットワークでは生涯学習の実行は簡単ではない。 本稿では,ネットワークプルーニングと重み正規化の原理を生かした,不確実性正則化手法(IPRLS)を用いた新規な反復型ネットワークプルーニングを提案する。 IPRLSは、不確実な正規化を反復的に行うことにより、単一BERTモデルを複数のドメインからの連続的な到着データに適応し、破滅的な忘れと干渉を避けることができる。 具体的には,大規模深層ネットワークにおける冗長パラメータの除去に反復的プルーニング法を応用し,新たなタスクの学習にフリードアップ空間を活用し,破滅的な忘れる問題に取り組む。 新しいタスクを学習する際に古いタスクを固定する代わりに、ベイジアンオンライン学習フレームワークに基づく不確実な正規化を使用して、BERTにおける古いタスクの重みの更新を制限する。 新しいタスクを学ぶことで、過去のタスクのパフォーマンスが向上します。 さらに,タスク固有の低次元残差関数をBERTの各層に並列に提案し,新しいタスクを学習する際に,基地局のBERTネットワークに格納された知識が失われやすいようにした。 16のポピュラーレビューコーパスに関する広範囲な実験により、iprls法が生涯の感情分類の強いベースラインを上回ることが示されている。 再現性のために、コードとデータをhttps://github.com/siat-nlp/IPRLSに送信します。

Lifelong learning capabilities are crucial for sentiment classifiers to process continuous streams of opinioned information on the Web. However, performing lifelong learning is non-trivial for deep neural networks as continually training of incrementally available information inevitably results in catastrophic forgetting or interference. In this paper, we propose a novel iterative network pruning with uncertainty regularization method for lifelong sentiment classification (IPRLS), which leverages the principles of network pruning and weight regularization. By performing network pruning with uncertainty regularization in an iterative manner, IPRLS can adapta single BERT model to work with continuously arriving data from multiple domains while avoiding catastrophic forgetting and interference. Specifically, we leverage an iterative pruning method to remove redundant parameters in large deep networks so that the freed-up space can then be employed to learn new tasks, tackling the catastrophic forgetting problem. Instead of keeping the old-tasks fixed when learning new tasks, we also use an uncertainty regularization based on the Bayesian online learning framework to constrain the update of old tasks weights in BERT, which enables positive backward transfer, i.e. learning new tasks improves performance on past tasks while protecting old knowledge from being lost. In addition, we propose a task-specific low-dimensional residual function in parallel to each layer of BERT, which makes IPRLS less prone to losing the knowledge saved in the base BERT network when learning a new task. Extensive experiments on 16 popular review corpora demonstrate that the proposed IPRLS method sig-nificantly outperforms the strong baselines for lifelong sentiment classification. For reproducibility, we submit the code and data at:https://github.com/siat-nlp/IPRLS.
翻訳日:2021-06-22 16:00:24 公開日:2021-06-21
# TCIC: イメージキャプションのためのクロス言語とビジョンを学ぶコンセプト

TCIC: Theme Concepts Learning Cross Language and Vision for Image Captioning ( http://arxiv.org/abs/2106.10936v1 )

ライセンス: Link先を確認
Zhihao Fan, Zhongyu Wei, Siyuan Wang, Ruize Wang, Zejun Li, Haijun Shan, Xuanjing Huang(参考訳) 既存の画像キャプションの研究は、通常、低レベルの事実(オブジェクトと関係)を持つシーングラフを使用して画像を表現するが、高レベルのセマンティクスを捉えない。 本稿では,高レベルなクロスモダリティセマンティクスを表現するために,テーマ概念を取り入れたテーマ概念拡張画像キャプション(tcic)フレームワークを提案する。 実際には、テーマ概念をメモリベクトルとしてモデル化し、そのベクトルを画像キャプションに組み込むために、テーマノード(ttn)付きトランスフォーマを提案する。 画像とキャプションの両方からテーマ概念が学習可能であることを考慮し,TTNに基づく表現学習のための2つの設定を提案する。 視覚面では、TTNはシーングラフに基づく特徴とテーマ概念の両方を視覚表現学習の入力として扱うように構成されている。 言語面では、TTNはキャプションとテーマの概念の両方をテキスト表現の再構成の入力として扱うように構成されている。 どちらの設定も、同じトランスフォーマーベースのデコーダでターゲットキャプションを生成する。 学習中,画像から学習したテーマ概念の表現と対応するキャプションを連携させ,相互モダリティ学習を強制する。 また,MS COCOを用いた実験結果から,提案手法の有効性が示された。

Existing research for image captioning usually represents an image using a scene graph with low-level facts (objects and relations) and fails to capture the high-level semantics. In this paper, we propose a Theme Concepts extended Image Captioning (TCIC) framework that incorporates theme concepts to represent high-level cross-modality semantics. In practice, we model theme concepts as memory vectors and propose Transformer with Theme Nodes (TTN) to incorporate those vectors for image captioning. Considering that theme concepts can be learned from both images and captions, we propose two settings for their representations learning based on TTN. On the vision side, TTN is configured to take both scene graph based features and theme concepts as input for visual representation learning. On the language side, TTN is configured to take both captions and theme concepts as input for text representation re-construction. Both settings aim to generate target captions with the same transformer-based decoder. During the training, we further align representations of theme concepts learned from images and corresponding captions to enforce the cross-modality learning. Experimental results on MS COCO show the effectiveness of our approach compared to some state-of-the-art models.
翻訳日:2021-06-22 15:59:54 公開日:2021-06-21
# 事前トレーニングは非ロバスト性も伝達する

Pre-training also Transfers Non-Robustness ( http://arxiv.org/abs/2106.10989v1 )

ライセンス: Link先を確認
Jiaming Zhang, Jitao Sang, Qi Yi, Huiwen Dong, Jian Yu(参考訳) 事前トレーニングによって、多くのタスクで最先端の成果が得られました。 一般化への貢献は認められているが,本研究では,事前学習は事前学習モデルから微調整モデルへの非ロバスト性も伝達することを示した。 画像分類を例として,まず各種データセットとネットワークバックボーンの実験を行い,ロバスト性に影響を与える要因について検討した。 さらに, 微調整モデルと標準モデルの違いを調べた結果, 非破壊性移行の原因を明らかにすることができた。 最後に,ターゲットタスクとソースタスクの違いを定式化することにより,ロバストな事前学習ソリューションを提案する。 その結果, 損耗を緩和し, 一般化を保ち, 有効性を検証した。

Pre-training has enabled many state-of-the-art results on many tasks. In spite of its recognized contribution to generalization, we observed in this study that pre-training also transfers the non-robustness from pre-trained model into the fine-tuned model. Using image classification as an example, we first conducted experiments on various datasets and network backbones to explore the factors influencing robustness. Further analysis is conducted on examining the difference between the fine-tuned model and standard model to uncover the reason leading to the non-robustness transfer. Finally, we introduce a simple robust pre-training solution by regularizing the difference between target and source tasks. Results validate the effectiveness in alleviating non-robustness and preserving generalization.
翻訳日:2021-06-22 15:58:12 公開日:2021-06-21
# 仮想アシスタントのための識別エンティティ認識言語モデル

A Discriminative Entity-Aware Language Model for Virtual Assistants ( http://arxiv.org/abs/2106.11292v1 )

ライセンス: Link先を確認
Mandana Saebi, Ernest Pusateri, Aaksha Meghawat, Christophe Van Gysel(参考訳) 仮想アシスタント(VA)では,高品質な自動音声認識(ASR)が不可欠である。 しかし、ASRは名前付きエンティティを含むVAリクエストではよく機能しない。 本研究は、実世界の知識と矛盾する名前付きエンティティ上の多くのASRエラーを観察することから始める。 従来の差別的なn-gram言語モデリングアプローチを拡張して、エンティティの型関係とエンティティ-エンティティの関係をキャプチャする機能を用いて、知識グラフ(KG)から現実世界の知識を取り入れます。 提案手法を効率的な格子再構成法により適用し, あまり普及しないエンティティをカバーする合成テストセットに対して, 25%以上の相対文誤り率削減を実現し, 均一サンプルVAテストセット上での劣化を最小限に抑えた。

High-quality automatic speech recognition (ASR) is essential for virtual assistants (VAs) to work well. However, ASR often performs poorly on VA requests containing named entities. In this work, we start from the observation that many ASR errors on named entities are inconsistent with real-world knowledge. We extend previous discriminative n-gram language modeling approaches to incorporate real-world knowledge from a Knowledge Graph (KG), using features that capture entity type-entity and entity-entity relationships. We apply our model through an efficient lattice rescoring process, achieving relative sentence error rate reductions of more than 25% on some synthesized test sets covering less popular entities, with minimal degradation on a uniformly sampled VA test set.
翻訳日:2021-06-22 15:57:42 公開日:2021-06-21
# OptiDICE:定常分布補正推定によるオフライン政策最適化

OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation ( http://arxiv.org/abs/2106.10783v1 )

ライセンス: Link先を確認
Jongmin Lee, Wonseok Jeon, Byung-Jun Lee, Joelle Pineau, Kee-Eung Kim(参考訳) エージェントは,データからのみポリシーを最適化することを目的としたオフライン強化学習(RL)を,環境の相互作用を伴わずに検討する。 オフラインRLでは、データ収集に使用される行動ポリシーから最適化された対象ポリシーの偏りから生じる、分散シフトが主な困難の原因となる。 これは通常、アクション値の過大評価を引き起こし、ブートストラップを使用するモデルフリーアルゴリズムに深刻な問題を引き起こす。 この問題を軽減するために、事前のオフラインRLアルゴリズムは、アクション値の過小評価を促進する高度な技術を使用しており、適切に調整する必要がある追加のハイパーパラメータが導入された。 本稿では,より原理化された方法で過大評価を防止するオフラインRLアルゴリズムを提案する。 我々のアルゴリズムであるOptiDICEは、最適ポリシーの定常分布補正を直接推定し、従来のオフラインRLアルゴリズムとは異なり、ポリシーの勾配に依存しない。 オフラインRLのための広範なベンチマークデータセットを用いて、OptiDICEが最先端の手法と競合することを示す。

We consider the offline reinforcement learning (RL) setting where the agent aims to optimize the policy solely from the data without further environment interactions. In offline RL, the distributional shift becomes the primary source of difficulty, which arises from the deviation of the target policy being optimized from the behavior policy used for data collection. This typically causes overestimation of action values, which poses severe problems for model-free algorithms that use bootstrapping. To mitigate the problem, prior offline RL algorithms often used sophisticated techniques that encourage underestimation of action values, which introduces an additional set of hyperparameters that need to be tuned properly. In this paper, we present an offline RL algorithm that prevents overestimation in a more principled way. Our algorithm, OptiDICE, directly estimates the stationary distribution corrections of the optimal policy and does not rely on policy-gradients, unlike previous offline RL algorithms. Using an extensive set of benchmark datasets for offline RL, we show that OptiDICE performs competitively with the state-of-the-art methods.
翻訳日:2021-06-22 15:56:04 公開日:2021-06-21
# 影響最大化問題としてのグラフニューラルネットワークの逆攻撃

Adversarial Attack on Graph Neural Networks as An Influence Maximization Problem ( http://arxiv.org/abs/2106.10785v1 )

ライセンス: Link先を確認
Jiaqi Ma, Junwei Deng, Qiaozhu Mei(参考訳) グラフニューラルネットワーク(GNN)が注目されている。 現実世界のアプリケーションに広範にGNNが展開されているため、特に現実的な環境では、敵攻撃下でのGNNの堅牢性を理解する必要がある。 本研究では,モデルパラメータやモデル予測へのアクセスを伴わずに,少数のノードの機能を摂動することで,GNNを限定的で現実的な設定で攻撃する問題について検討する。 我々の形式解析は、このタイプの攻撃と、グラフ上の影響最大化問題との間の関係を描いている。 この接続は、GNNに対する敵攻撃問題に対する理解を深めるだけでなく、効果的で実用的な攻撃戦略のグループを提案することができる。 実験により,提案手法が3種類のgnnモデルの性能を著しく低下させ,ベースライン攻撃戦略を上回ることを確認した。

Graph neural networks (GNNs) have attracted increasing interests. With broad deployments of GNNs in real-world applications, there is an urgent need for understanding the robustness of GNNs under adversarial attacks, especially in realistic setups. In this work, we study the problem of attacking GNNs in a restricted and realistic setup, by perturbing the features of a small set of nodes, with no access to model parameters and model predictions. Our formal analysis draws a connection between this type of attacks and an influence maximization problem on the graph. This connection not only enhances our understanding on the problem of adversarial attack on GNNs, but also allows us to propose a group of effective and practical attack strategies. Our experiments verify that the proposed attack strategies significantly degrade the performance of three popular GNN models and outperform baseline adversarial attack strategies.
翻訳日:2021-06-22 15:55:47 公開日:2021-06-21
# オープンセットラベルノイズは固有ラベルノイズに対するロバスト性を改善する

Open-set Label Noise Can Improve Robustness Against Inherent Label Noise ( http://arxiv.org/abs/2106.10891v1 )

ライセンス: Link先を確認
Hongxin Wei, Lue Tao, Renchunzi Xie, Bo An(参考訳) 雑音ラベルによる学習は、弱い教師付き学習において事実上困難な問題である。 既存の文献では、閉集合ノイズと同様に、開集合ノイズは一般化には有毒であると考えられている。 本稿では, オープンセットノイズラベルが非毒性であり, 固有ノイズラベルに対するロバスト性にもメリットがあることを実証的に示す。 本研究では, 動的雑音ラベル(ODNL)を用いたオープンセットサンプルをトレーニングに導入することにより, 簡便かつ効果的な正則化を提案する。 ODNLでは、ニューラルネットワークの余分な容量を、クリーンなデータからの学習パターンに干渉しない方法で大きく消費することができる。 sgdノイズのレンズを通して, 本手法によるノイズはランダム指向性, コンフリクトフリー, バイアスドであり, モデルがより安定な平準に収束し, 分散インスタンス上で保守的予測を強制するのに役立つことを示す。 各種雑音ラベルを用いたベンチマークデータセットの広範な実験結果から,提案手法が既存のロバストアルゴリズムの性能を向上させるだけでなく,ラベルノイズ設定においても分散検出タスクの大幅な改善を実現することが示された。

Learning with noisy labels is a practically challenging problem in weakly supervised learning. In the existing literature, open-set noises are always considered to be poisonous for generalization, similar to closed-set noises. In this paper, we empirically show that open-set noisy labels can be non-toxic and even benefit the robustness against inherent noisy labels. Inspired by the observations, we propose a simple yet effective regularization by introducing Open-set samples with Dynamic Noisy Labels (ODNL) into training. With ODNL, the extra capacity of the neural network can be largely consumed in a way that does not interfere with learning patterns from clean data. Through the lens of SGD noise, we show that the noises induced by our method are random-direction, conflict-free and biased, which may help the model converge to a flat minimum with superior stability and enforce the model to produce conservative predictions on Out-of-Distribution instances. Extensive experimental results on benchmark datasets with various types of noisy labels demonstrate that the proposed method not only enhances the performance of many existing robust algorithms but also achieves significant improvement on Out-of-Distribution detection tasks even in the label noise setting.
翻訳日:2021-06-22 15:55:31 公開日:2021-06-21
# バンディットのリミテッドメモリサブサンプリング戦略について

On Limited-Memory Subsampling Strategies for Bandits ( http://arxiv.org/abs/2106.10935v1 )

ライセンス: Link先を確認
Dorian Baudry (Inria, CRIStAL, CNRS), Yoan Russac (DI-ENS, CNRS, VALDA), Olivier Capp\'e (DI-ENS, CNRS, VALDA)(参考訳) 近年,サブサンプリングに基づく非パラメトリックバンディットアルゴリズムへの関心が高まっている。 しかし、これらのアプローチの欠点は、ランダムなサブサンプリングによる追加の複雑さと、報酬の全履歴の保存である。 最初の貢献は、baudryらの最近の研究で提案された、単純な決定論的サブサンプリングルールを示すことです。 (2020) は 'last-block subsampling' という名前で、一パラメータ指数関数族において漸近的に最適である。 さらに,これらの保証は,アルゴリズムメモリを時間軸の多対数関数に制限する場合にも有効であることを示す。 これらの発見は、特にアーム分布が時間とともに進化する非定常シナリオにおいて、新しい視点を開く。 本稿では,近年の観測結果のみをサブサンプリングに用い,既知の急激な変化を前提とした最適後悔保証を実現するアルゴリズムの変種を提案する。 大規模な数値シミュレーションは、特に変化が報酬の手段に影響を与えているだけでなく、このアプローチの利点を強調している。

There has been a recent surge of interest in nonparametric bandit algorithms based on subsampling. One drawback however of these approaches is the additional complexity required by random subsampling and the storage of the full history of rewards. Our first contribution is to show that a simple deterministic subsampling rule, proposed in the recent work of Baudry et al. (2020) under the name of ''last-block subsampling'', is asymptotically optimal in one-parameter exponential families. In addition, we prove that these guarantees also hold when limiting the algorithm memory to a polylogarithmic function of the time horizon. These findings open up new perspectives, in particular for non-stationary scenarios in which the arm distributions evolve over time. We propose a variant of the algorithm in which only the most recent observations are used for subsampling, achieving optimal regret guarantees under the assumption of a known number of abrupt changes. Extensive numerical simulations highlight the merits of this approach, particularly when the changes are not only affecting the means of the rewards.
翻訳日:2021-06-22 15:55:06 公開日:2021-06-21
# 対数尺度を用いた属性選択

Attribute Selection using Contranominal Scales ( http://arxiv.org/abs/2106.10978v1 )

ライセンス: Link先を確認
Dominik D\"urrschnabel, Maren Koyda, Gerd Stumme(参考訳) 形式的概念分析(FCA)は、概念を導出して格子に並べることでバイナリデータを解析することができる。 FCAの主な目的の1つは、人間がデータにカプセル化されている情報を理解できるようにすることである。 そのような格子の大きさは、高次元の対数スケールに同型である対応する形式的文脈における部分文脈の数に依存する。 本研究では,与えられた形式的文脈のすべての対数スケールの計算を可能にするアルゴリズムであるcontrafinderを提案する。 このアルゴリズムを応用して、適切な属性サブセットの選択により、形式的文脈における対数スケールの数を減少させる新しいアプローチであるデルタ調整を導入する。 コンテキストのデルタ調整は、出現するサブセミ格子のサイズを小さくし、含意集合が意味のある意味に制限されることを実証する。 これは分類タスクによって関連する知識について評価される。 したがって,提案手法は重要な概念構造を保ちながら理解性を強く向上させる。

Formal Concept Analysis (FCA) allows to analyze binary data by deriving concepts and ordering them in lattices. One of the main goals of FCA is to enable humans to comprehend the information that is encapsulated in the data; however, the large size of concept lattices is a limiting factor for the feasibility of understanding the underlying structural properties. The size of such a lattice depends on the number of subcontexts in the corresponding formal context that are isomorphic to a contranominal scale of high dimension. In this work, we propose the algorithm ContraFinder that enables the computation of all contranominal scales of a given formal context. Leveraging this algorithm, we introduce delta-adjusting, a novel approach in order to decrease the number of contranominal scales in a formal context by the selection of an appropriate attribute subset. We demonstrate that delta-adjusting a context reduces the size of the hereby emerging sub-semilattice and that the implication set is restricted to meaningful implications. This is evaluated with respect to its associated knowledge by means of a classification task. Hence, our proposed technique strongly improves understandability while preserving important conceptual structures.
翻訳日:2021-06-22 15:54:51 公開日:2021-06-21
# BernNet: Bernstein近似による任意グラフスペクトルフィルタの学習

BernNet: Learning Arbitrary Graph Spectral Filters via Bernstein Approximation ( http://arxiv.org/abs/2106.10994v1 )

ライセンス: Link先を確認
Mingguo He, Zhewei Wei, Zengfeng Huang, Hongteng Xu(参考訳) GPR-GNNやChebyNetといった代表的グラフニューラルネットワークの多くは、グラフスペクトルフィルタによる近似グラフ畳み込みである。 しかし、既存の作業は事前に定義されたフィルタの重みを適用したり、必要な制約なしにそれらを学習する。 これらの問題を克服するために、任意のグラフスペクトルフィルタを設計、学習するための単純かつ効果的なスキームを提供する理論的なサポートを持つ新しいグラフニューラルネットワークである$\textit{BernNet}$を提案する。 特に、グラフの正規化ラプラシアンスペクトル上のフィルターに対して、ベルンネットはそれを順序-$K$バーンスタイン多項式近似により推定し、ベルンシュタイン基底の係数を設定することによってスペクトル特性を設計する。 さらに、観測されたグラフとその関連信号に基づいて係数(および対応するフィルタ重み)を学習し、データに特化したベルネットを実現する。 実験により,BernNetは複雑なバンドリジェクションやコムフィルタを含む任意のスペクトルフィルタを学習でき,実世界のグラフモデリングタスクにおいて優れた性能が得られることを示した。

Many representative graph neural networks, $e.g.$, GPR-GNN and ChebyNet, approximate graph convolutions with graph spectral filters. However, existing work either applies predefined filter weights or learns them without necessary constraints, which may lead to oversimplified or ill-posed filters. To overcome these issues, we propose $\textit{BernNet}$, a novel graph neural network with theoretical support that provides a simple but effective scheme for designing and learning arbitrary graph spectral filters. In particular, for any filter over the normalized Laplacian spectrum of a graph, our BernNet estimates it by an order-$K$ Bernstein polynomial approximation and designs its spectral property by setting the coefficients of the Bernstein basis. Moreover, we can learn the coefficients (and the corresponding filter weights) based on observed graphs and their associated signals and thus achieve the BernNet specialized for the data. Our experiments demonstrate that BernNet can learn arbitrary spectral filters, including complicated band-rejection and comb filters, and it achieves superior performance in real-world graph modeling tasks.
翻訳日:2021-06-22 15:54:34 公開日:2021-06-21
# ResDMDを用いたDecadal Forecasts: Residual DMD Neural Network

Decadal Forecasts with ResDMD: a Residual DMD Neural Network ( http://arxiv.org/abs/2106.11111v1 )

ライセンス: Link先を確認
Eduardo Rodrigues, Bianca Zadrozny, Campbell Watson, David Gold(参考訳) 運用予測センターは、より気候に耐性のある社会のための長期的な意思決定を支援するために、デカダル(1-10年)予測システムに投資している。 以前に採用されていた手法は、線形力学モデルにデータに適合する動的モード分解(dmd)アルゴリズム(線形逆モデルとしても知られる)である。 DMDは通常、ランダムノイズを持つ線形系として真の力学における非線形項を近似するが、非線形項をニューラルネットワークとして明示的に表現するDMDの拡張について検討する。 我々の重み初期化により、ネットワークはトレーニング前に賢明な結果を生成し、データが利用可能になるとトレーニング後の予測を改善することができる。 本稿では,地球規模の海面温度をシミュレーションするアーキテクチャについて評価し,現状の動的モデルであるCFSv2による標準DMDと季節予測と比較する。

Operational forecasting centers are investing in decadal (1-10 year) forecast systems to support long-term decision making for a more climate-resilient society. One method that has previously been employed is the Dynamic Mode Decomposition (DMD) algorithm - also known as the Linear Inverse Model - which fits linear dynamical models to data. While the DMD usually approximates non-linear terms in the true dynamics as a linear system with random noise, we investigate an extension to the DMD that explicitly represents the non-linear terms as a neural network. Our weight initialization allows the network to produce sensible results before training and then improve the prediction after training as data becomes available. In this short paper, we evaluate the proposed architecture for simulating global sea surface temperatures and compare the results with the standard DMD and seasonal forecasts produced by the state-of-the-art dynamical model, CFSv2.
翻訳日:2021-06-22 15:54:14 公開日:2021-06-21
# GraphMixup: 自己教師型コンテキスト予測によるグラフ上のクラス不均衡ノード分類の改善

GraphMixup: Improving Class-Imbalanced Node Classification on Graphs by Self-supervised Context Prediction ( http://arxiv.org/abs/2106.11133v1 )

ライセンス: Link先を確認
Lirong Wu, Haitao Lin, Zhangyang Gao, Cheng Tan, Stan.Z.Li(参考訳) 近年、グラフニューラルネットワーク(GNN)によるノード分類タスクの処理で大きな成功を収めている。 しかし、既存のGNNの多くは、異なるクラスのノードサンプルが平衡であるという仮定に基づいているが、多くの実世界のグラフでは、クラス不均衡の問題が存在する。 この場合、GNN分類器を生データで直接訓練すると、これらの少数クラスのサンプルが不足し、結果として準最適性能が得られる。 本稿では,グラフ上のクラス不均衡ノード分類を改善するための新しいミックスアップベースフレームワークであるgraphmixupを提案する。 しかし、入力空間や埋め込み空間で直接ミックスアップを行うと、マイノリティクラスが極端に分散しているため、ドメイン外のサンプルを生成する可能性があるため、機能ミックスアップをセマンティックレベルで実行できるようにセマンティックな関係空間を構築する。 さらに,2つの文脈に基づく自己教師付き手法を適用し,グラフ構造における局所的情報と大域的情報の両方をキャプチャし,グラフデータのためのエッジミックスアップを提案する。 最後に,これらのマイノリティクラスをミックスアップすることで生成するサンプル数を適応的に決定する機構である \emph{reinforcement mixup} を開発した。 3つの実世界のデータセットに関する広範な実験は、graphmixupがクラス不均衡なノード分類タスクに真に奨励的な結果をもたらすことを示している。

Recent years have witnessed great success in handling node classification tasks with Graph Neural Networks (GNNs). However, most existing GNNs are based on the assumption that node samples for different classes are balanced, while for many real-world graphs, there exists the problem of class imbalance, i.e., some classes may have much fewer samples than others. In this case, directly training a GNN classifier with raw data would under-represent samples from those minority classes and result in sub-optimal performance. This paper presents GraphMixup, a novel mixup-based framework for improving class-imbalanced node classification on graphs. However, directly performing mixup in the input space or embedding space may produce out-of-domain samples due to the extreme sparsity of minority classes; hence we construct semantic relation spaces that allows the Feature Mixup to be performed at the semantic level. Moreover, we apply two context-based self-supervised techniques to capture both local and global information in the graph structure and then propose Edge Mixup specifically for graph data. Finally, we develop a \emph{Reinforcement Mixup} mechanism to adaptively determine how many samples are to be generated by mixup for those minority classes. Extensive experiments on three real-world datasets show that GraphMixup yields truly encouraging results for class-imbalanced node classification tasks.
翻訳日:2021-06-22 15:53:57 公開日:2021-06-21
# 時空間的注意機構を持つ方向ベースシーケンス・ツー・シーケンスモデルを用いた都市規模道路網の車両軌道予測

Vehicle Trajectory Prediction in City-scale Road Networks using a Direction-based Sequence-to-Sequence Model with Spatiotemporal Attention Mechanisms ( http://arxiv.org/abs/2106.11175v1 )

ライセンス: Link先を確認
Yuebing Liang, Zhan Zhao(参考訳) 都市規模での車両の軌道予測は、車両ナビゲーション、交通管理、位置ベースの推奨など、様々な位置情報ベースのアプリケーションにとって非常に重要である。 既存の方法は通常、軌跡をグリッドセル、道路セグメントまたは意図セットのシーケンスとして表現する。 セルベースの表現は道路網構造を無視し、他の2つは都市規模の道路網の分析において効率が低いため、いずれも理想的ではない。 さらに、ほとんどのモデルはすぐに次の位置を予測することに集中しており、長いシーケンスで一般化することは困難である。 これらの問題を解決するために,D-LSTM (Direction-based Long Short-Term Memory) と呼ばれる新しいシーケンス・ツー・シーケンスモデルを提案する。 さらに,道路ネットワークにおける動的空間依存性を捕捉する空間的注意機構と,軌道データにおける短期的および長期的時間依存性を捕捉するスライディングコンテキストウィンドウを備えた時間的注意機構を導入する。 2つの実世界の大規模タクシー軌道データセットに基づく大規模な実験により、D-LSTMは既存の車両軌道予測手法よりも優れており、提案手法の有効性と時空間注意機構の有効性が検証された。

Trajectory prediction of vehicles at the city scale is of great importance to various location-based applications such as vehicle navigation, traffic management, and location-based recommendations. Existing methods typically represent a trajectory as a sequence of grid cells, road segments or intention sets. None of them is ideal, as the cell-based representation ignores the road network structures and the other two are less efficient in analyzing city-scale road networks. In addition, most models focus on predicting the immediate next position, and are difficult to generalize for longer sequences. To address these problems, we propose a novel sequence-to-sequence model named D-LSTM (Direction-based Long Short-Term Memory), which represents each trajectory as a sequence of intersections and associated movement directions, and then feeds them into a LSTM encoder-decoder network for future trajectory generation. Furthermore, we introduce a spatial attention mechanism to capture dynamic spatial dependencies in road networks, and a temporal attention mechanism with a sliding context window to capture both short- and long-term temporal dependencies in trajectory data. Extensive experiments based on two real-world large-scale taxi trajectory datasets show that D-LSTM outperforms the existing state-of-the-art methods for vehicle trajectory prediction, validating the effectiveness of the proposed trajectory representation method and spatiotemporal attention mechanisms.
翻訳日:2021-06-22 15:53:32 公開日:2021-06-21
# 基底関数展開を用いたDeep ODE-Netの圧縮

Compressing Deep ODE-Nets using Basis Function Expansions ( http://arxiv.org/abs/2106.10820v1 )

ライセンス: Link先を確認
Alejandro Queiruga, N. Benjamin Erichson, Liam Hodgkinson, Michael W. Mahoney(参考訳) 最近導入された常微分方程式ネットワーク(ODE-Net)のクラスは、ディープラーニングと動的システムの間の実りある関係を確立する。 本研究では,基底関数の線形結合を用いて,重みを連続深さ関数として定式化する。 この視点によって、ほぼ最先端のパフォーマンスを維持しながら、再トレーニングすることなく、基礎の変更を通じて重み付けを圧縮できるのです。 結果として、推論時間とメモリフットプリントの両方が削減され、計算環境間の迅速かつ厳密な適応が可能になる。 さらに,本フレームワークは,関数投影を用いた有意義な連続時間バッチ正規化レイヤを実現する。 a)畳み込み単位を用いた画像分類タスクと(b)変換器エンコーダ単位を用いた文タグ付けタスクに連続深度モデルを適用することにより、基底関数圧縮の性能を示す。

The recently-introduced class of ordinary differential equation networks (ODE-Nets) establishes a fruitful connection between deep learning and dynamical systems. In this work, we reconsider formulations of the weights as continuous-depth functions using linear combinations of basis functions. This perspective allows us to compress the weights through a change of basis, without retraining, while maintaining near state-of-the-art performance. In turn, both inference time and the memory footprint are reduced, enabling quick and rigorous adaptation between computational environments. Furthermore, our framework enables meaningful continuous-in-time batch normalization layers using function projections. The performance of basis function compression is demonstrated by applying continuous-depth models to (a) image classification tasks using convolutional units and (b) sentence-tagging tasks using transformer encoder units.
翻訳日:2021-06-22 15:51:59 公開日:2021-06-21
# ガウス過程をもつODEのベイズ推定

Bayesian inference of ODEs with Gaussian processes ( http://arxiv.org/abs/2106.10905v1 )

ライセンス: Link先を確認
Pashupati Hegde, \c{C}a\u{g}atay Y{\i}ld{\i}z, Harri L\"ahdesm\"aki, Samuel Kaski, Markus Heinonen(参考訳) 最近の機械学習の進歩により、データから直接未知の連続時間系のダイナミクスのブラックボックス推定が提案されている。 しかし、初期の研究は近似ODE解や点推定に基づいている。 ガウス過程を用いて未知のode系の後方をデータから直接推定する,新しいベイズ非パラメトリックモデルを提案する。 ベクトル場の後方を表すために分離された関数サンプリングを用いたばらばらな変分推論を導出する。 また、任意に長い軌道からの効率的な推論を可能にする確率的射撃増強も導入する。 この手法はベクトル場後部演算の利点を示し、予測不確実性スコアは複数のODE学習タスクにおける代替手法よりも優れている。

Recent machine learning advances have proposed black-box estimation of unknown continuous-time system dynamics directly from data. However, earlier works are based on approximative ODE solutions or point estimates. We propose a novel Bayesian nonparametric model that uses Gaussian processes to infer posteriors of unknown ODE systems directly from data. We derive sparse variational inference with decoupled functional sampling to represent vector field posteriors. We also introduce a probabilistic shooting augmentation to enable efficient inference from arbitrarily long trajectories. The method demonstrates the benefit of computing vector field posteriors, with predictive uncertainty scores outperforming alternative methods on multiple ODE learning tasks.
翻訳日:2021-06-22 15:51:48 公開日:2021-06-21
# Affine-invariant Integrated Rank-Weighted Depth: Definition, Properties and Finite Sample Analysis

Affine-Invariant Integrated Rank-Weighted Depth: Definition, Properties and Finite Sample Analysis ( http://arxiv.org/abs/2106.11068v1 )

ライセンス: Link先を確認
Guillaume Staerman, Pavlo Mozharovskyi, St\'ephan Cl\'emen\c{c}on(参考訳) 統計深度の概念は、$\mathbb{R}^d$と$d\geq 2$の観測の中心的な順序を決定するので、多変量データの量子とランクを定義し、様々な統計的なタスクにそれらを使用することができる(\textit{e.g})。 推論、仮説検証)。 多くの奥行き関数は、論文において \cite{tukey75} の独創的寄与から提案されているのに対し、それらのすべてが不定値確率分布に対する分位関数の概念をエミュレートするのに望ましい性質を持っているわけではない。 本稿では、もともと \cite{IRW} で導入された \textit{integrated rank-weighted} statistics depth (IRW depth in Short form) の拡張を提案し、これにより、 \cite{ZuoS00a} で詳述された命名法に列挙された4つの鍵公理を全て満たす。 Affine-Invariant IRW depth (AI-IRW, 略してAI-IRW) と呼ばれる変種は、任意の点 $x\in \mathbb{R}^d$ に深さ値を与えるのに$X$が最も可変な方向を考慮に入れ、研究中の$d$次元ランダムベクトル $X$ の共分散/精度行列を含む。 このAI-IRW深度のサンプリング版の精度を漸近的観点から検討した。 すなわち、AI-IRW深さの統計的対向に対する集中結果が証明される。 理論解析の他,異常検出への応用も検討され,数値計算結果が提示され,我々が提案する深さ関数の妥当性に関する強い実証的証拠が得られる。

Because it determines a center-outward ordering of observations in $\mathbb{R}^d$ with $d\geq 2$, the concept of statistical depth permits to define quantiles and ranks for multivariate data and use them for various statistical tasks (\textit{e.g.} inference, hypothesis testing). Whereas many depth functions have been proposed \textit{ad-hoc} in the literature since the seminal contribution of \cite{Tukey75}, not all of them possess the properties desirable to emulate the notion of quantile function for univariate probability distributions. In this paper, we propose an extension of the \textit{integrated rank-weighted} statistical depth (IRW depth in abbreviated form) originally introduced in \cite{IRW}, modified in order to satisfy the property of \textit{affine-invariance}, fulfilling thus all the four key axioms listed in the nomenclature elaborated by \cite{ZuoS00a}. The variant we propose, referred to as the Affine-Invariant IRW depth (AI-IRW in short), involves the covariance/precision matrices of the (supposedly square integrable) $d$-dimensional random vector $X$ under study, in order to take into account the directions along which $X$ is most variable to assign a depth value to any point $x\in \mathbb{R}^d$. The accuracy of the sampling version of the AI-IRW depth is investigated from a nonasymptotic perspective. Namely, a concentration result for the statistical counterpart of the AI-IRW depth is proved. Beyond the theoretical analysis carried out, applications to anomaly detection are considered and numerical results are displayed, providing strong empirical evidence of the relevance of the depth function we propose here.
翻訳日:2021-06-22 15:51:40 公開日:2021-06-21
# Nested Variational Inference

Nested Variational Inference ( http://arxiv.org/abs/2106.11302v1 )

ライセンス: Link先を確認
Heiko Zimmermann, Hao Wu, Babak Esmaeili, Jan-Willem van de Meent(参考訳) nested variational inference (nvi) は、各レベルの入れ子レベルでの前方または逆のkl発散を最小化することにより、入れ子の重要性スプリマーの提案を学習する手法群である。 NVIは、多くの一般的な重要なサンプリング戦略に適用でき、中間密度を学習するためのメカニズムを提供しており、サンプルをガイドするヒューリスティックとして機能する。 実験では,NVI を (a) 学習したアニール経路を用いて多モード分布からのサンプルに適用し, (b) 隠れマルコフモデルにおける将来の観測可能性と (c) 階層的な深層生成モデルにおける償却推論を行うためのヒューリスティックスを学習した。 我々は,ネスト目標の最適化が,ログ平均重量と有効サンプルサイズの観点から,サンプル品質の向上につながることを観察した。

We develop nested variational inference (NVI), a family of methods that learn proposals for nested importance samplers by minimizing an forward or reverse KL divergence at each level of nesting. NVI is applicable to many commonly-used importance sampling strategies and provides a mechanism for learning intermediate densities, which can serve as heuristics to guide the sampler. Our experiments apply NVI to (a) sample from a multimodal distribution using a learned annealing path (b) learn heuristics that approximate the likelihood of future observations in a hidden Markov model and (c) to perform amortized inference in hierarchical deep generative models. We observe that optimizing nested objectives leads to improved sample quality in terms of log average weight and effective sample size.
翻訳日:2021-06-22 15:51:05 公開日:2021-06-21
# DNNにおける視覚概念のゲーム理論分類

A Game-Theoretic Taxonomy of Visual Concepts in DNNs ( http://arxiv.org/abs/2106.10938v1 )

ライセンス: Link先を確認
Xu Cheng, Chuntung Chu, Yi Zheng, Jie Ren, Quanshi Zhang(参考訳) 本稿では,DNNが新たな視点から,異なる複雑さの視覚概念をエンコードする方法を再考する。 画像中のピクセル間のゲーム理論的多階間相互作用 対象の分類学的分類とテクスチャと形状の認知的分類以外にも、視覚概念の新しい分類法を提供し、概念の複雑さの観点から形状とテクスチャのエンコーディングを解釈するのに役立つ。 このように、多階間相互作用に基づき、テクスチャを符号化するdnnの3つの特徴的な信号処理挙動を見出す。 また,dnnが形状をエンコードする柔軟性はテクスチャのエンコーディングの柔軟性よりも低いことを発見した。 さらに,dnnが異常サンプルをエンコードする方法を分析し,ネットワークアーキテクチャが相互作用に与える影響について検討する。 さらに,実世界のアプリケーションにおけるマルチオーダーインタラクションの重要な役割を明らかにする。 コードは、論文が受け入れられたときにリリースされる。

In this paper, we rethink how a DNN encodes visual concepts of different complexities from a new perspective, i.e. the game-theoretic multi-order interactions between pixels in an image. Beyond the categorical taxonomy of objects and the cognitive taxonomy of textures and shapes, we provide a new taxonomy of visual concepts, which helps us interpret the encoding of shapes and textures, in terms of concept complexities. In this way, based on multi-order interactions, we find three distinctive signal-processing behaviors of DNNs encoding textures. Besides, we also discover the flexibility for a DNN to encode shapes is lower than the flexibility of encoding textures. Furthermore, we analyze how DNNs encode outlier samples, and explore the impacts of network architectures on interactions. Additionally, we clarify the crucial role of the multi-order interactions in real-world applications. The code will be released when the paper is accepted.
翻訳日:2021-06-22 15:48:28 公開日:2021-06-21
# 分類器決定の一般的な説明枠組みにおける条件付き生成モデルの活用

Leveraging Conditional Generative Models in a General Explanation Framework of Classifier Decisions ( http://arxiv.org/abs/2106.10947v1 )

ライセンス: Link先を確認
Martin Charachon, Paul-Henry Courn\`ede, C\'eline Hudelot and Roberto Ardon(参考訳) 分類器の決定を人間に理解可能な説明を提供することは、日々のタスクでの使用に対する信頼を生み出すために不可欠である。 視覚的説明図を作成することでこの問題に対処する研究は多いが、しばしばノイズや不正確な結果を与え、問題となる分類器とは無関係なヒューリスティック正規化を強制する。 本稿では,これらの限界を克服する視覚説明問題の新たな一般的展望を提案する。 2つの条件付き生成モデルを用いて得られた2つの生成画像間の差分として視覚的な説明を生成できることを示す。 両方の生成モデルは分類器を用いて訓練され、データベースは以下の特性を強制する: (i) 第一生成器によって生成されたすべての画像は入力画像と同様に分類されるが、第二生成器の出力は反対に分類される。 (ii)生成画像は、実画像の分布に属する。 3)入力画像と対応する生成画像との距離は最小限であり、生成された要素間の差が研究された分類器の関連情報のみを明らかにする。 対称的および巡回的制約を用いて, 2つの異なる近似と一般定式化の実装を示す。 実験により,3つの公開データセットにおける最先端技術に対する大幅な改善が示された。 特に、分類器に影響を与える領域の局在は人間のアノテーションと一致している。

Providing a human-understandable explanation of classifiers' decisions has become imperative to generate trust in their use for day-to-day tasks. Although many works have addressed this problem by generating visual explanation maps, they often provide noisy and inaccurate results forcing the use of heuristic regularization unrelated to the classifier in question. In this paper, we propose a new general perspective of the visual explanation problem overcoming these limitations. We show that visual explanation can be produced as the difference between two generated images obtained via two specific conditional generative models. Both generative models are trained using the classifier to explain and a database to enforce the following properties: (i) All images generated by the first generator are classified similarly to the input image, whereas the second generator's outputs are classified oppositely. (ii) Generated images belong to the distribution of real images. (iii) The distances between the input image and the corresponding generated images are minimal so that the difference between the generated elements only reveals relevant information for the studied classifier. Using symmetrical and cyclic constraints, we present two different approximations and implementations of the general formulation. Experimentally, we demonstrate significant improvements w.r.t the state-of-the-art on three different public data sets. In particular, the localization of regions influencing the classifier is consistent with human annotations.
翻訳日:2021-06-22 15:48:15 公開日:2021-06-21
# 太陽電池モジュールのエレクトロルミネッセンス画像におけるセルレベル異常のセグメンテーション

Segmentation of cell-level anomalies in electroluminescence images of photovoltaic modules ( http://arxiv.org/abs/2106.10962v1 )

ライセンス: Link先を確認
Urtzi Otamendi and I\~nigo Martinez and Marco Quartulli and Igor G. Olaizola and Elisabeth Viles and Werther Cambarau(参考訳) 太陽光発電(pv)プラントの運転・保守(o&m)において、故障の早期同定は生産性の維持とコンポーネントの寿命の延長に不可欠である。 全ての欠陥のうち、細胞レベルの異常は深刻な故障を引き起こし、長期的には周囲のPVモジュールに影響を及ぼす可能性がある。 これらの微細な欠陥は通常、高空間分解能エレクトロルミネッセンス(EL)イメージングで捉えられる。 このような画像を取得することの難しさはデータの入手を制限した。 この作業では、この制限を超えるために、複数のデータリソースと拡張テクニックが使われています。 現在最先端検出法は、個々のPVセル画像からほとんど低レベル情報を抽出し、利用可能なトレーニングデータによってその性能を調整している。 本稿では,elイメージを介して太陽電池モジュール全体からセルレベルの異常を検出し,検出し,セグメント化する,エンドツーエンドのディープラーニングパイプラインを提案する。 提案したモジュールパイプラインは,1.オブジェクト検出(Modified Faster-RNN),2.イメージ分類(EfficientNet),3.弱教師付きセグメンテーション(autoencoder)という3つのディープラーニング技術を組み合わせた。 パイプラインのモジュール性は、ディープラーニングモデルを最先端のさらなる改善にアップグレードし、パイプラインを新たな機能へと拡張することを可能にする。

In the operation & maintenance (O&M) of photovoltaic (PV) plants, the early identification of failures has become crucial to maintain productivity and prolong components' life. Of all defects, cell-level anomalies can lead to serious failures and may affect surrounding PV modules in the long run. These fine defects are usually captured with high spatial resolution electroluminescence (EL) imaging. The difficulty of acquiring such images has limited the availability of data. For this work, multiple data resources and augmentation techniques have been used to surpass this limitation. Current state-of-the-art detection methods extract barely low-level information from individual PV cell images, and their performance is conditioned by the available training data. In this article, we propose an end-to-end deep learning pipeline that detects, locates and segments cell-level anomalies from entire photovoltaic modules via EL images. The proposed modular pipeline combines three deep learning techniques: 1. object detection (modified Faster-RNN), 2. image classification (EfficientNet) and 3. weakly supervised segmentation (autoencoder). The modular nature of the pipeline allows to upgrade the deep learning models to the further improvements in the state-of-the-art and also extend the pipeline towards new functionalities.
翻訳日:2021-06-22 15:47:55 公開日:2021-06-21
# SHREC 2021:野生における骨格に基づく手指ジェスチャー認識の追跡

SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild ( http://arxiv.org/abs/2106.10980v1 )

ライセンス: Link先を確認
Ariel Caputo, Andrea Giachetti, Simone Soso, Deborah Pintani, Andrea D'Eusanio, Stefano Pini, Guido Borghi, Alessandro Simoni, Roberto Vezzani, Rita Cucchiara, Andrea Ranieri, Franca Giannini, Katia Lupinetti, Marina Monti, Mehran Maghoumi, Joseph J. LaViola Jr, Minh-Quan Le, Hai-Dang Nguyen, Minh-Triet Tran(参考訳) ジェスチャー認識は、複合現実環境、タッチレス公共キオスク、エンタテインメントシステムなど、さまざまなアプリケーションシナリオにおける新しいインタラクションパラダイムを可能にする基本的なツールである。 手の動きの認識は、ローコストトラッカー(Ultraleap)とMRヘッドセット(Hololens、Oculus Quest)またはビデオ処理ソフトウェアモジュール(例)によって提供されるソフトウェアによって推定される手骨格のストリームから直接行うことができる。 Google Mediapipe)。 最近のスケルトンによるジェスチャーとアクション認識の進歩にもかかわらず、多くのベンチマークがオンライン認識をテストせず、限定的な辞書を使用するため、様々なジェスチャを広く認識するための実世界シナリオにおいて、現在の最先端技術がいかにうまく機能するかは不明である。 これはSHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wildの提案の動機となった。 このコンテストのために、異なるタイプと期間を含む異種ジェスチャーを用いた新しいデータセットを作成しました。 これらのジェスチャーは、オンライン認識シナリオ内のシーケンス内で見つける必要がある。 本稿では,4つの研究グループによって提案されている簡単なベースライン手法と比較して,課題課題を提示する手法の性能を示す。

Gesture recognition is a fundamental tool to enable novel interaction paradigms in a variety of application scenarios like Mixed Reality environments, touchless public kiosks, entertainment systems, and more. Recognition of hand gestures can be nowadays performed directly from the stream of hand skeletons estimated by software provided by low-cost trackers (Ultraleap) and MR headsets (Hololens, Oculus Quest) or by video processing software modules (e.g. Google Mediapipe). Despite the recent advancements in gesture and action recognition from skeletons, it is unclear how well the current state-of-the-art techniques can perform in a real-world scenario for the recognition of a wide set of heterogeneous gestures, as many benchmarks do not test online recognition and use limited dictionaries. This motivated the proposal of the SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild. For this contest, we created a novel dataset with heterogeneous gestures featuring different types and duration. These gestures have to be found inside sequences in an online recognition scenario. This paper presents the result of the contest, showing the performances of the techniques proposed by four research groups on the challenging task compared with a simple baseline method.
翻訳日:2021-06-22 15:47:35 公開日:2021-06-21
# 対数サンプルの画素への埋め込み

Delving into the pixels of adversarial samples ( http://arxiv.org/abs/2106.10996v1 )

ライセンス: Link先を確認
Blerta Lindqvist(参考訳) 対人攻撃に関する広範な研究にもかかわらず、対人攻撃が画像画素に与える影響は分かっていない。 画像ピクセルが敵の攻撃によってどのように影響を受けるかを知ることは、敵の防御力を高める可能性がある。 強い攻撃が転送されない事例に触発された私たちは、画素レベルでの敵の例を調べ、逆の攻撃が画像画素値にどのように影響するかを精査する。 我々は、いくつかのImageNetアーキテクチャ、InceptionV3、VGG19、ResNet50、およびいくつかの強力な攻撃について検討する。 攻撃は分類器のアーキテクチャによってピクセルレベルで異なる効果を持つことがわかった。 特に、入力前処理は、攻撃がピクセルに与える影響において、これまで見過ごされていた役割を担っている。 ピクセルレベルの検査の知見に基づいて、我々は最も強い攻撃を検知する新しい方法を見つける。

Despite extensive research into adversarial attacks, we do not know how adversarial attacks affect image pixels. Knowing how image pixels are affected by adversarial attacks has the potential to lead us to better adversarial defenses. Motivated by instances that we find where strong attacks do not transfer, we delve into adversarial examples at pixel level to scrutinize how adversarial attacks affect image pixel values. We consider several ImageNet architectures, InceptionV3, VGG19 and ResNet50, as well as several strong attacks. We find that attacks can have different effects at pixel level depending on classifier architecture. In particular, input pre-processing plays a previously overlooked role in the effect that attacks have on pixels. Based on the insights of pixel-level examination, we find new ways to detect some of the strongest current attacks.
翻訳日:2021-06-22 15:47:14 公開日:2021-06-21
# グレースフル劣化と関連分野

Graceful Degradation and Related Fields ( http://arxiv.org/abs/2106.11119v1 )

ライセンス: Link先を確認
Jack Dymond(参考訳) 機械学習モデルが、トレーニング対象の分布外にあるデータに遭遇すると、不適切な振る舞いをする傾向があり、最も顕著なのは、誤った予測における過度な自信である。 このような行動は、現実世界の機械学習システムに破壊的な影響を与える。 この分野では、優雅な分解は、この分散データに遭遇するモデル性能の最適化を指す。 この研究は、優雅な劣化の定義と議論であり、どのようにデプロイされた視覚システムに適用できるかを示す。 この後、関連する分野の調査が行われ、優雅な分解問題をアクティブかつパッシブなアプローチに分割する。 受動的アプローチでは、優雅な劣化は自己完結した方法でモデルによって処理され達成され、アクティブアプローチでは、疫学的不確実性に遭遇するとモデルが更新される。 この研究は問題の重要性を伝え、優雅な劣化を認識した機械学習戦略の開発を促進することを目的としている。

When machine learning models encounter data which is out of the distribution on which they were trained they have a tendency to behave poorly, most prominently over-confidence in erroneous predictions. Such behaviours will have disastrous effects on real-world machine learning systems. In this field graceful degradation refers to the optimisation of model performance as it encounters this out-of-distribution data. This work presents a definition and discussion of graceful degradation and where it can be applied in deployed visual systems. Following this a survey of relevant areas is undertaken, novelly splitting the graceful degradation problem into active and passive approaches. In passive approaches, graceful degradation is handled and achieved by the model in a self-contained manner, in active approaches the model is updated upon encountering epistemic uncertainties. This work communicates the importance of the problem and aims to prompt the development of machine learning strategies that are aware of graceful degradation.
翻訳日:2021-06-22 15:47:01 公開日:2021-06-21
# 最適ソースタスク性能は目標タスクに対する最適事前学習を示唆するか?

Does Optimal Source Task Performance Imply Optimal Pre-training for a Target Task? ( http://arxiv.org/abs/2106.11174v1 )

ライセンス: Link先を確認
Steven Gutstein, Brent Lance and Sanjay Shakkottai(参考訳) トレーニング済みのディープネットは一般的に、ニューラルネットワークのアキュラシーとトレーニング時間を改善するために使用される。 一般に、最適なソースタスク性能のためのネットの事前トレーニングは、任意の目標タスクを学習するための最善の準備であると仮定される。 これは一般的には正しくない。 最適なパフォーマンスの前に、ソースタスクのトレーニングを止めることは、新しいタスクを学ぶのに適したトレーニング済みのネットを作ることができる。 この効果を実証する実験を複数実施し,トレーニング量と学習率の影響について検討した。 さらに、これは、ソースタスクの再学習にまで及ぶ学習能力の全般的な喪失を反映していることを示す。

Pre-trained deep nets are commonly used to improve accuracies and training times for neural nets. It is generally assumed that pre-training a net for optimal source task performance best prepares it to learn an arbitrary target task. This is generally not true. Stopping source task training, prior to optimal performance, can create a pre-trained net better suited for learning a new task. We performed several experiments demonstrating this effect, as well as the influence of amount of training and of learning rate. Additionally, we show that this reflects a general loss of learning ability that even extends to relearning the source task
翻訳日:2021-06-22 15:46:46 公開日:2021-06-21
# 対照的なマルチモーダルクラスタリング

Contrastive Multi-Modal Clustering ( http://arxiv.org/abs/2106.11193v1 )

ライセンス: Link先を確認
Jie Xu, Huayi Tang, Yazhou Ren, Xiaofeng Zhu, Lifang He(参考訳) 複数のモダリティやビューから補完的な情報を探索するマルチモーダルクラスタリングは、人々の注目を集めている。 しかし、既存の研究はクラスタリングのための複数のモーダルの高レベルな意味情報を抽出することに集中することは滅多にない。 本稿では,コントラスト学習を通じてハイレベルな意味情報をマイニングできるコントラスト型マルチモーダルクラスタリング(cmmc)を提案する。 具体的には、我々のフレームワークは3つの部分から構成される。 1) 複数のオートエンコーダを最適化し、各モダリティの多様性を維持し、補完的情報を学習する。 2) 異なるモダリティから共通する高レベルな意味的特徴を学習するために,特徴対照モジュールを提案する。 (3) ラベルコントラストモジュールは,全てのモダリティに対して一貫したクラスタ割り当てを学習することを目的としている。 提案するマルチモーダルコントラスト学習により,高レベル特徴の相互情報が最大化され,低レベル潜在特徴の多様性が維持される。 さらに,学習したハイレベルな意味的特徴を活用するために,クラスタ割り当てを微調整する最大マッチング問題を解いて擬似ラベルを生成する。 CMMCはスケーラビリティに優れ、最先端のマルチモーダルクラスタリング手法よりも優れた性能を示す。

Multi-modal clustering, which explores complementary information from multiple modalities or views, has attracted people's increasing attentions. However, existing works rarely focus on extracting high-level semantic information of multiple modalities for clustering. In this paper, we propose Contrastive Multi-Modal Clustering (CMMC) which can mine high-level semantic information via contrastive learning. Concretely, our framework consists of three parts. (1) Multiple autoencoders are optimized to maintain each modality's diversity to learn complementary information. (2) A feature contrastive module is proposed to learn common high-level semantic features from different modalities. (3) A label contrastive module aims to learn consistent cluster assignments for all modalities. By the proposed multi-modal contrastive learning, the mutual information of high-level features is maximized, while the diversity of the low-level latent features is maintained. In addition, to utilize the learned high-level semantic features, we further generate pseudo labels by solving a maximum matching problem to fine-tune the cluster assignments. Extensive experiments demonstrate that CMMC has good scalability and outperforms state-of-the-art multi-modal clustering methods.
翻訳日:2021-06-22 15:46:36 公開日:2021-06-21
# Multi-VAE:マルチビュークラスタリングのためのディスタングル・ビュー・コモンとビュー・カラー・ビジュアル表現の学習

Multi-VAE: Learning Disentangled View-common and View-peculiar Visual Representations for Multi-view Clustering ( http://arxiv.org/abs/2106.11232v1 )

ライセンス: Link先を確認
Jie Xu, Yazhou Ren, Huayi Tang, Xiaorong Pu, Xiaofeng Zhu, Ming Zeng, Lifang He(参考訳) 長期的かつ重要な研究課題であるマルチビュークラスタリングは、多様な視点から補完的な情報をマイニングすることに焦点を当てている。 しかし、既存の研究はしばしば複数のビューの表現を融合させたり、共通の特徴空間におけるクラスタリングを処理したりする。 この問題に対処するために,不整合視覚表現を学習し,VAEベースのマルチビュークラスタリングフレームワーク(Multi-VAE)を提案する。 具体的には、生成モデルにおいて、ビュー共通変数と複数のビュー並列変数を定義する。 ビュー-共通変数の先行は、複数のビューの共通クラスタ係数を抽出するために導入された、およそ離散的なGumbel Softmax分布に従う。 一方、ビュー・ペキュリアル変数の事前は、各ビューの特徴的な視覚因子を表すために使われる連続ガウス分布に従う。 ビュー・共通表現とビュー・ペキュリオア表現とを分離する相互情報容量を制御することにより、複数のビューの連続視覚情報を分離することができ、それらの共通離散クラスタ情報を効果的にマイニングすることができる。 実験結果から,マルチVAEは,最先端の手法と比較して,クラスタリング性能が優れている一方で,不整合かつ説明可能な視覚表現を享受できることが示された。

Multi-view clustering, a long-standing and important research problem, focuses on mining complementary information from diverse views. However, existing works often fuse multiple views' representations or handle clustering in a common feature space, which may result in their entanglement especially for visual representations. To address this issue, we present a novel VAE-based multi-view clustering framework (Multi-VAE) by learning disentangled visual representations. Concretely, we define a view-common variable and multiple view-peculiar variables in the generative model. The prior of view-common variable obeys approximately discrete Gumbel Softmax distribution, which is introduced to extract the common cluster factor of multiple views. Meanwhile, the prior of view-peculiar variable follows continuous Gaussian distribution, which is used to represent each view's peculiar visual factors. By controlling the mutual information capacity to disentangle the view-common and view-peculiar representations, continuous visual information of multiple views can be separated so that their common discrete cluster information can be effectively mined. Experimental results demonstrate that Multi-VAE enjoys the disentangled and explainable visual representations, while obtaining superior clustering performance compared with state-of-the-art methods.
翻訳日:2021-06-22 15:46:19 公開日:2021-06-21
# tokenlearner: 8つの学習トークンで画像やビデオに何ができるか?

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? ( http://arxiv.org/abs/2106.11297v1 )

ライセンス: Link先を確認
Michael S. Ryoo, AJ Piergiovanni, Anurag Arnab, Mostafa Dehghani, Anelia Angelova(参考訳) 本稿では,適応的に学習された一握りのトークンに依存し,画像と映像の理解タスクの両方に適用可能な,新しい視覚表現学習を提案する。 視覚データに重要なトークンをマイニングするために、手作業で設計した分割戦略を頼りにし、大量のサンプルパッチを処理します。 これにより、効率良く効果的に重要な視覚的トークンを発見でき、ビデオの長い時間軸、画像内の空間的コンテンツといった、これらのトークン間のペアワイズな注意のモデリングが可能になる。 本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。 重要なことは、トークンが適応しているため、計算量を大幅に削減して競争結果を得る。

In this paper, we introduce a novel visual representation learning which relies on a handful of adaptively learned tokens, and which is applicable to both image and video understanding tasks. Instead of relying on hand-designed splitting strategies to obtain visual tokens and processing a large number of densely sampled patches for attention, our approach learns to mine important tokens in visual data. This results in efficiently and effectively finding a few important visual tokens and enables modeling of pairwise attention between such tokens, over a longer temporal horizon for videos, or the spatial content in images. Our experiments demonstrate strong performance on several challenging benchmarks for both image and video recognition tasks. Importantly, due to our tokens being adaptive, we accomplish competitive results at significantly reduced compute amount.
翻訳日:2021-06-22 15:45:55 公開日:2021-06-21
# 総生成:人間の顔、手、体、自然の場面を生成するためのサイクル生成敵ネットワークのサイクル

Total Generate: Cycle in Cycle Generative Adversarial Networks for Generating Human Faces, Hands, Bodies, and Natural Scenes ( http://arxiv.org/abs/2106.10876v1 )

ライセンス: Link先を確認
Hao Tang, Nicu Sebe(参考訳) 本稿では,人間の顔,手,体,自然のシーンを生成するための,C2GAN(Cycle in Cycle Generative Adversarial Network)を提案する。 提案するC2GANは,入力画像データとガイダンスデータの相互利用を対話的に探索するクロスモーダルモデルである。 C2GANは2つの異なるジェネレータ、すなわち画像生成ジェネレータと誘導生成ジェネレータを含む。 両方のジェネレータは相互に接続され、エンドツーエンドの方法で訓練され、3つのサイクルサブネット、すなわち1つの画像生成サイクルと2つの誘導生成サイクルを明示的に形成する。 各サイクルは入力ドメインの再構築を目標とし、同時に他のサイクルの生成に関わる有用なアウトプットを生成する。 このように、サイクルは、画像とガイダンスの両方から補完的な情報を暗黙的に提供し、サイクル全体に追加の監督的勾配をもたらし、モデル全体のより堅牢な最適化を容易にする。 4つのガイド付き画像から画像への変換サブタスクの広範な結果から、提案したC2GANは最先端のモデルと比較してよりリアルな画像を生成するのに有効であることが示された。 コードはhttps://github.com/ha0tang/c2ganで入手できる。

We propose a novel and unified Cycle in Cycle Generative Adversarial Network (C2GAN) for generating human faces, hands, bodies, and natural scenes. Our proposed C2GAN is a cross-modal model exploring the joint exploitation of the input image data and guidance data in an interactive manner. C2GAN contains two different generators, i.e., an image-generation generator and a guidance-generation generator. Both generators are mutually connected and trained in an end-to-end fashion and explicitly form three cycled subnets, i.e., one image generation cycle and two guidance generation cycles. Each cycle aims at reconstructing the input domain and simultaneously produces a useful output involved in the generation of another cycle. In this way, the cycles constrain each other implicitly providing complementary information from both image and guidance modalities and bringing an extra supervision gradient across the cycles, facilitating a more robust optimization of the whole model. Extensive results on four guided image-to-image translation subtasks demonstrate that the proposed C2GAN is effective in generating more realistic images compared with state-of-the-art models. The code is available at https://github.com/Ha0Tang/C2GAN.
翻訳日:2021-06-22 15:45:43 公開日:2021-06-21
# 公共カメラのトラップ画像から動物を見つけることができるのか?

Can poachers find animals from public camera trap images? ( http://arxiv.org/abs/2106.11236v1 )

ライセンス: Link先を確認
Sara Beery, Elizabeth Bondi(参考訳) 感度の高い高目標種を含むカメラトラップデータの位置を保護するため、多くの生態学者は、データを公開する際にカメラの緯度と経度をランダムに無視する。 例えば、ネットワーク内の各カメラに対して、真のカメラ位置の半径1km以内のランダムな位置をパブリッシュすることができる。 本稿では,カメラトラップ位置のプライバシーを維持するためのジオ・オブファシケーションの堅牢性について検討し,いくつかの単純で直感的なヒューリスティックと一般公開されたサテライト・ラスタを用いて,カメラを含む可能性のある領域を87%(ランダム・オブファシケーションが1km以内であれば)削減できることを示し,ジオ・オブファシケーションが従来考えられていたよりも有効でないことを示す。

To protect the location of camera trap data containing sensitive, high-target species, many ecologists randomly obfuscate the latitude and longitude of the camera when publishing their data. For example, they may publish a random location within a 1km radius of the true camera location for each camera in their network. In this paper, we investigate the robustness of geo-obfuscation for maintaining camera trap location privacy, and show via a case study that a few simple, intuitive heuristics and publicly available satellite rasters can be used to reduce the area likely to contain the camera by 87% (assuming random obfuscation within 1km), demonstrating that geo-obfuscation may be less effective than previously believed.
翻訳日:2021-06-22 15:45:22 公開日:2021-06-21
# 損失のない予測のための損失圧縮

Lossy Compression for Lossless Prediction ( http://arxiv.org/abs/2106.10800v1 )

ライセンス: Link先を確認
Yann Dubois, Benjamin Bloem-Reddy, Karen Ullrich, Chris J. Maddison(参考訳) ほとんどのデータは自動的に収集され、アルゴリズムによってのみ表示される。 しかし、データ圧縮機は、ダウンストリームタスクを実行するアルゴリズムに必要な情報だけでなく、知覚的忠実性を保持する。 本稿では,データ拡張などの一連の変換の下で不変な全ての予測タスクにおいて,高い性能を確保するために必要なビットレートを特徴付ける。 この理論に基づき, 神経圧縮機の訓練のための教師なし目標を設計できる。 これらの目的を用いて,8つのデータセット上のjpegと比較して,実質的なレート削減(imagenet上で1000\times$以上)を実現する汎用イメージ圧縮器を,下流の分類性能を低下させることなくトレーニングする。

Most data is automatically collected and only ever "seen" by algorithms. Yet, data compressors preserve perceptual fidelity rather than just the information needed by algorithms performing downstream tasks. In this paper, we characterize the bit-rate required to ensure high performance on all predictive tasks that are invariant under a set of transformations, such as data augmentations. Based on our theory, we design unsupervised objectives for training neural compressors. Using these objectives, we train a generic image compressor that achieves substantial rate savings (more than $1000\times$ on ImageNet) compared to JPEG on 8 datasets, without decreasing downstream classification performance.
翻訳日:2021-06-22 15:41:29 公開日:2021-06-21
# 乗算を伴わない乗算行列

Multiplying Matrices Without Multiplying ( http://arxiv.org/abs/2106.10860v1 )

ライセンス: Link先を確認
Davis Blalock, John Guttag(参考訳) 行列の乗算は機械学習における最も基本的で計算集約的な操作の1つである。 その結果,行列乗法を効率的に近似する研究が盛んに行われている。 本稿では,既存の手法よりも優れた学習アルゴリズムを提案する。 様々なドメインの何百もの行列を用いた実験では、正確な行列積よりも100\times$が速く、現在の近似メソッドよりも10\times$が速いことが示されている。 1つの行列が事前に知られているという一般的な場合、我々の手法は、乗法がゼロとなるという興味深い性質を持つ。 これらの結果から,本手法のコアオペレーションであるhash,平均化,バイトシャッフルの混合は,近年研究やハードウェア投資が盛んに行われているスカラー量子化行列製品よりも,マシンラーニングにとって有望なビルディングブロックである可能性が示唆された。

Multiplying matrices is among the most fundamental and compute-intensive operations in machine learning. Consequently, there has been significant work on efficiently approximating matrix multiplies. We introduce a learning-based algorithm for this task that greatly outperforms existing methods. Experiments using hundreds of matrices from diverse domains show that it often runs $100\times$ faster than exact matrix products and $10\times$ faster than current approximate methods. In the common case that one matrix is known ahead of time, our method also has the interesting property that it requires zero multiply-adds. These results suggest that a mixture of hashing, averaging, and byte shuffling$-$the core operations of our method$-$could be a more promising building block for machine learning than the sparsified, factorized, and/or scalar quantized matrix products that have recently been the focus of substantial research and hardware investment.
翻訳日:2021-06-22 15:41:19 公開日:2021-06-21
# 構成データに関する因果的視点

A causal view on compositional data ( http://arxiv.org/abs/2106.11234v1 )

ライセンス: Link先を確認
Elisabeth Ailer, Christian L. M\"uller, Niki Kilbertus(参考訳) 多くの科学データセットは自然に構成されている。 重要な例としては、生態学における種数、地質学における岩石組成、大規模テキストコーパスにおけるトピック組成、分子生物学におけるシークエンシング数データなどがある。 ここでは,合成が原因として作用するインストゥルメンタル変数設定において,合成データの因果的視点を示す。 全体としては、介入の観点から構成的原因の解釈に特に注目し、実践者にとっての潜在的な落とし穴を微妙に明確化する。 現代の高次元マイクロバイオームシークエンシングデータをタイムリーな応用事例として分析した結果, 多様性や豊かさといった1次元情報理論的な要約統計は, 生態学的データから因果的結論を導き出すには不十分であることが明らかとなった。 代わりに,合成サンプル空間の特殊構造を考慮した統計データ変換と回帰手法を用いて,多変量代替案を提唱する。 合成データと半合成データの比較分析では,提案手法の利点と限界が示された。 我々は,本フレームワークが,構成データの文脈における原因影響推定に有用な出発点となることを示唆する。

Many scientific datasets are compositional in nature. Important examples include species abundances in ecology, rock compositions in geology, topic compositions in large-scale text corpora, and sequencing count data in molecular biology. Here, we provide a causal view on compositional data in an instrumental variable setting where the composition acts as the cause. Throughout, we pay particular attention to the interpretation of compositional causes from the viewpoint of interventions and crisply articulate potential pitfalls for practitioners. Focusing on modern high-dimensional microbiome sequencing data as a timely illustrative use case, our analysis first reveals that popular one-dimensional information-theoretic summary statistics, such as diversity and richness, may be insufficient for drawing causal conclusions from ecological data. Instead, we advocate for multivariate alternatives using statistical data transformations and regression techniques that take the special structure of the compositional sample space into account. In a comparative analysis on synthetic and semi-synthetic data we show the advantages and limitations of our proposal. We posit that our framework may provide a useful starting point for cause-effect estimation in the context of compositional data.
翻訳日:2021-06-22 15:40:45 公開日:2021-06-21
# 神経マーチングキューブ

Neural Marching Cubes ( http://arxiv.org/abs/2106.11272v1 )

ライセンス: Link先を確認
Zhiqin Chen, Hao Zhang(参考訳) 我々は、離散化された暗黙の場から三角形メッシュを抽出するデータ駆動型アプローチであるNeural Marching Cubes (NMC)を紹介する。 古典的mcは、個々の立方体に分離された粗いテッセレーションテンプレートによって定義される。 より洗練されたテッセルレーションが提案されているが、それぞれの立方体における頂点位置と局所メッシュ位相を決定する際には、トリリニアリティのようなヒューリスティックな仮定を行う。 原則として、これらのアプローチでは、近くの立方体(例えばシャープエッジ)間の一貫性や依存関係を明らかにする幾何学的特徴を再構築することはできない。 これらの課題に対処するために、我々は、幾何学的特徴の保存に適したテッセルレーションテンプレートを設計し、頂点位置とメッシュトポロジをトレーニングメッシュから学習し、近くの立方体からのコンテキスト情報を考慮し、ディープラーニングの観点からMCを再キャストする。 ニューラルネットワークと互換性のある出力トライアングルメッシュを表現するために,簡単な3次元畳み込みネットワークをトレーニングに利用できるコンパクトなキューブパラメタライゼーションを開発した。 設計に適合する各立方体におけるすべての位相的ケースは, 表現を用いて容易に抽出できることを示し, 結果のテッセルレーションは, いくつかの設計ガイドラインに従うことで, 自然かつ効率的に得られることを示す。 さらに,ネットワークは受容領域が限定された局所的な特徴を学習し,新しい形状や新しいデータセットを一般化する。 定量的および定性的な比較により, 神経MCアプローチの評価を行った。 特に,我々のネットワークがエッジやコーナーなどの鋭い特徴を回復できることを実証する。 ネットワークはまた、従来のアプローチよりも正確なローカルメッシュトポロジを再構築する。

We introduce Neural Marching Cubes (NMC), a data-driven approach for extracting a triangle mesh from a discretized implicit field. Classical MC is defined by coarse tessellation templates isolated to individual cubes. While more refined tessellations have been proposed, they all make heuristic assumptions, such as trilinearity, when determining the vertex positions and local mesh topologies in each cube. In principle, none of these approaches can reconstruct geometric features that reveal coherence or dependencies between nearby cubes (e.g., a sharp edge), as such information is unaccounted for, resulting in poor estimates of the true underlying implicit field. To tackle these challenges, we re-cast MC from a deep learning perspective, by designing tessellation templates more apt at preserving geometric features, and learning the vertex positions and mesh topologies from training meshes, to account for contextual information from nearby cubes. We develop a compact per-cube parameterization to represent the output triangle mesh, while being compatible with neural processing, so that a simple 3D convolutional network can be employed for the training. We show that all topological cases in each cube that are applicable to our design can be easily derived using our representation, and the resulting tessellations can also be obtained naturally and efficiently by following a few design guidelines. In addition, our network learns local features with limited receptive fields, hence it generalizes well to new shapes and new datasets. We evaluate our neural MC approach by quantitative and qualitative comparisons to all well-known MC variants. In particular, we demonstrate the ability of our network to recover sharp features such as edges and corners, a long-standing issue of MC and its variants. Our network also reconstructs local mesh topologies more accurately than previous approaches.
翻訳日:2021-06-22 15:40:27 公開日:2021-06-21
# 注意に基づく環境複雑度知覚のためのニューラルネットワーク

Attention-based Neural Network for Driving Environment Complexity Perception ( http://arxiv.org/abs/2106.11277v1 )

ライセンス: Link先を確認
Ce Zhang, Azim Eskandarian, Xuelai Du(参考訳) 環境認識は自動運転車(AV)の安全性に不可欠である。 既存のAV認識アルゴリズムは周囲の環境の複雑さを研究せず、環境の複雑さパラメータを含まない。 本稿では,周囲の運転環境の複雑さを予測できる新しい注意型ニューラルネットワークモデルを提案する。 提案モデルでは、自然な運転映像と対応する車両動力学パラメータを入力とする。 Yolo-v3オブジェクト検出アルゴリズム、ヒートマップ生成アルゴリズム、CNNベースの特徴抽出器、および特徴抽出のためのビデオおよび時系列車両のダイナミックスデータ入力のための注目ベースの特徴抽出器で構成される。 提案アルゴリズムの出力は環境複雑性パラメータである。 berkeley deepdriveデータセット(bddデータセット)と主観的にラベル付けされた環境複雑性レベルは、アルゴリズムを評価するためのモデルトレーニングと検証に使用される。 提案する注目型ネットワークは,周囲環境の複雑さを分類する平均分類精度91.22%を達成する。 環境複雑性レベルを正確に予測し、将来のAVの環境知覚研究に適用できることが証明された。

Environment perception is crucial for autonomous vehicle (AV) safety. Most existing AV perception algorithms have not studied the surrounding environment complexity and failed to include the environment complexity parameter. This paper proposes a novel attention-based neural network model to predict the complexity level of the surrounding driving environment. The proposed model takes naturalistic driving videos and corresponding vehicle dynamics parameters as input. It consists of a Yolo-v3 object detection algorithm, a heat map generation algorithm, CNN-based feature extractors, and attention-based feature extractors for both video and time-series vehicle dynamics data inputs to extract features. The output from the proposed algorithm is a surrounding environment complexity parameter. The Berkeley DeepDrive dataset (BDD Dataset) and subjectively labeled surrounding environment complexity levels are used for model training and validation to evaluate the algorithm. The proposed attention-based network achieves 91.22% average classification accuracy to classify the surrounding environment complexity. It proves that the environment complexity level can be accurately predicted and applied for future AVs' environment perception studies.
翻訳日:2021-06-22 15:39:55 公開日:2021-06-21
# UniTTS:音声スタイル制御のための統一埋め込み空間の残差学習

UniTTS: Residual Learning of Unified Embedding Space for Speech Style Control ( http://arxiv.org/abs/2106.11171v1 )

ライセンス: Link先を確認
Minsu Kang, Sungjae Kim and Injung Kim(参考訳) 干渉を避けるために重なり合うスタイル属性を学習し、制御する新しい高忠実表現型音声合成モデルUniTTSを提案する。 UniTTSは、属性の適用前後の音素埋め込み間の残差によって、単一の統合埋め込み空間における複数のスタイル属性を表す。 提案手法は, 話者IDと感情の差異を付加する際の冗長性を最小化し, 話者IDと感情に基づいて持続時間, ピッチ, エネルギーを予測できるため, 話者IDや感情などのクリーンな分離が難しい複数の属性を制御するのに有効である。 実験の結果,提案手法は複数の属性を同時に学習し,再分離が容易であることがわかった。 同様に、UniTTSは複数のスタイル属性を制御する高忠実度音声信号を合成した。 合成音声サンプルはhttps://jackson-kang.github.io/paper_works/UniTTS/demosで表示される。

We propose a novel high-fidelity expressive speech synthesis model, UniTTS, that learns and controls overlapping style attributes avoiding interference. UniTTS represents multiple style attributes in a single unified embedding space by the residuals between the phoneme embeddings before and after applying the attributes. The proposed method is especially effective in controlling multiple attributes that are difficult to separate cleanly, such as speaker ID and emotion, because it minimizes redundancy when adding variance in speaker ID and emotion, and additionally, predicts duration, pitch, and energy based on the speaker ID and emotion. In experiments, the visualization results exhibit that the proposed methods learned multiple attributes harmoniously in a manner that can be easily separated again. As well, UniTTS synthesized high-fidelity speech signals controlling multiple style attributes. The synthesized speech samples are presented at https://jackson-kang.github.io/paper_works/UniTTS/demos.
翻訳日:2021-06-22 15:39:38 公開日:2021-06-21
# Out of Context: アスペクトベースの知覚分析のコンテキストモデリングのための新しいキュー

Out of Context: A New Clue for Context Modeling of Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2106.10816v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor W. Tsang(参考訳) アスペクトベースの感情分析(ABSA)は、与えられた側面に関してレビューで表現された感情を予測することを目的としている。 ABSAの中核は、コンテキストと与えられたアスペクト間の相互作用をモデル化し、アスペクト関連の情報を抽出することである。 先行研究では、コンテキストと与えられたアスペクトの関係を捉えるために、注意機構と依存グラフネットワークが一般的である。 そして、コンテキスト隠れ状態の重み付き和は、分類器に供給される最後の表現として使用される。 しかし、与えられたアスペクトに関連する情報は、既に破棄され、既存のモデルのコンテキストモデリングプロセスに悪質な情報が保持される可能性がある。 この問題はその後のモジュールでは解決できず、2つの理由がある: 第一に、その操作はエンコーダが生成したコンテキスト隠れ状態上で行われ、その値はエンコーダの後に変更できない; 第二に、既存のエンコーダは与えられたアスペクトではなくコンテキストのみを考える。 この問題に対処するために、与えられたアスペクトはコンテキストモデリングプロセスにおけるコンテキストからの新しい手がかりと見なすべきである。 ソリューションとしては、アスペクト対応LSTMと3つのアスペクト対応BERTという、異なるバックボーンに基づくアスペクト対応コンテキストエンコーダを設計する。 それらはABSAタスク用に調整されたアスペクト対応の隠れ状態の生成に特化している。 これらのアスペクト対応コンテキストエンコーダでは、与えられたアスペクトのセマンティクスが情報フローの制御に使用される。 これにより、アスペクト関連情報を保持でき、生成した隠れ状態においてアスペクト関連情報を除外することができる。 我々は,いくつかのベンチマークデータセットに対して経験的解析を行い,提案するアスペクト認識コンテキストエンコーダの有効性と利点を実証した。

Aspect-based sentiment analysis (ABSA) aims to predict the sentiment expressed in a review with respect to a given aspect. The core of ABSA is to model the interaction between the context and given aspect to extract the aspect-related information. In prior work, attention mechanisms and dependency graph networks are commonly adopted to capture the relations between the context and given aspect. And the weighted sum of context hidden states is used as the final representation fed to the classifier. However, the information related to the given aspect may be already discarded and adverse information may be retained in the context modeling processes of existing models. This problem cannot be solved by subsequent modules and there are two reasons: first, their operations are conducted on the encoder-generated context hidden states, whose value cannot change after the encoder; second, existing encoders only consider the context while not the given aspect. To address this problem, we argue the given aspect should be considered as a new clue out of context in the context modeling process. As for solutions, we design several aspect-aware context encoders based on different backbones: an aspect-aware LSTM and three aspect-aware BERTs. They are dedicated to generate aspect-aware hidden states which are tailored for ABSA task. In these aspect-aware context encoders, the semantics of the given aspect is used to regulate the information flow. Consequently, the aspect-related information can be retained and aspect-irrelevant information can be excluded in the generated hidden states. We conduct extensive experiments on several benchmark datasets with empirical analysis, demonstrating the efficacies and advantages of our proposed aspect-aware context encoders.
翻訳日:2021-06-22 15:37:15 公開日:2021-06-21
# 協調学習による遠隔教師付き関係抽出の促進

Empower Distantly Supervised Relation Extraction with Collaborative Adversarial Training ( http://arxiv.org/abs/2106.10835v1 )

ライセンス: Link先を確認
Tao Chen, Haochen Shi, Liyuan Liu, Siliang Tang, Jian Shao, Zhigang Chen, Yueting Zhuang(参考訳) 近年の遠隔監視(DS)関係抽出(RE)の進歩に伴い,マルチインスタンス学習(MIL)を活用してノイズの多いDSから高品質な監視を抽出するために注目が集まっている。 ここではラベルノイズを超えてDS-MILの重要なボトルネックをその低データ利用であると同定する:MILによって高品質な監視が洗練されているため、MILは大量のトレーニングインスタンスを放棄し、データ利用が低くなり、モデルトレーニングが豊富な監視を妨げます。 本稿では,仮想対人訓練(VAT)と対人訓練(AT)を異なるレベルで協調するデータ利用を改善するための協調対人訓練を提案する。 特に、VATはラベルなしなので、MILによって放棄されたインスタンスをリサイクルするためにインスタンスレベルのVATを使用します。 さらに,ATをバッグレベルで展開し,MILが取得した高品質な監視の可能性を最大限に活用する。 提案手法は,従来の技術状況に一貫した改善(約5絶対AUCスコア)をもたらし,データ利用問題の重要性と本手法の有効性を検証した。

With recent advances in distantly supervised (DS) relation extraction (RE), considerable attention is attracted to leverage multi-instance learning (MIL) to distill high-quality supervision from the noisy DS. Here, we go beyond label noise and identify the key bottleneck of DS-MIL to be its low data utilization: as high-quality supervision being refined by MIL, MIL abandons a large amount of training instances, which leads to a low data utilization and hinders model training from having abundant supervision. In this paper, we propose collaborative adversarial training to improve the data utilization, which coordinates virtual adversarial training (VAT) and adversarial training (AT) at different levels. Specifically, since VAT is label-free, we employ the instance-level VAT to recycle instances abandoned by MIL. Besides, we deploy AT at the bag-level to unleash the full potential of the high-quality supervision got by MIL. Our proposed method brings consistent improvements (~ 5 absolute AUC score) to the previous state of the art, which verifies the importance of the data utilization issue and the effectiveness of our method.
翻訳日:2021-06-22 15:36:50 公開日:2021-06-21
# cil: 遠隔教師付き関係抽出のためのコントラストインスタンス学習フレームワーク

CIL: Contrastive Instance Learning Framework for Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2106.10855v1 )

ライセンス: Link先を確認
Tao Chen, Haizhou Shi, Siliang Tang, Zhigang Chen, Fei Wu, Yueting Zhuang(参考訳) 関係抽出(RE)タスクにDSが導入されて以来,遠距離監視(DS)から発生するトレーニングデータからノイズを除去する旅が始まっている。 過去10年間、研究者たちはmulti-instance learning(mil)フレームワークを使って、文の袋から最も信頼できる特徴を見つける。 MILバッグのパターンはDSノイズを大幅に低減させるが、データセットの他の多くの有用な文の特徴を表現できない。 多くの場合、これらの文の特徴は重いコストで追加の文レベルの人間のアノテーションによってのみ取得できる。 したがって、遠隔監視型REモデルの性能は制限される。 本稿では、典型的なmilフレームワークを超えて、新しいコントラストインスタンス学習(cil)フレームワークを提案する。 具体的には、初期MILをリレーショナルトリプルエンコーダと各インスタンスに対する負のペアに対する制約正のペアとみなす。 提案手法の有効性を実験的に検証し, 提案手法をNYT10, GDS, KBPで比較検討した。

The journey of reducing noise from distant supervision (DS) generated training data has been started since the DS was first introduced into the relation extraction (RE) task. For the past decade, researchers apply the multi-instance learning (MIL) framework to find the most reliable feature from a bag of sentences. Although the pattern of MIL bags can greatly reduce DS noise, it fails to represent many other useful sentence features in the datasets. In many cases, these sentence features can only be acquired by extra sentence-level human annotation with heavy costs. Therefore, the performance of distantly supervised RE models is bounded. In this paper, we go beyond typical MIL framework and propose a novel contrastive instance learning (CIL) framework. Specifically, we regard the initial MIL as the relational triple encoder and constraint positive pairs against negative pairs for each instance. Experiments demonstrate the effectiveness of our proposed framework, with significant improvements over the previous methods on NYT10, GDS and KBP.
翻訳日:2021-06-22 15:36:29 公開日:2021-06-21
# トランスフォーマーに基づく自然言語処理手法を用いた広告テキスト分類

Ad Text Classification with Transformer-Based Natural Language Processing Methods ( http://arxiv.org/abs/2106.10899v1 )

ライセンス: Link先を確認
Umut \"Ozdil, B\"u\c{s}ra Arslan, D. Emre Ta\c{s}ar, G\"ok\c{c}e Polat,\c{S}\"ukr\"u Ozan(参考訳) 本研究では,オンライン広告プラットフォーム上で生成した広告テキストをセクター的に自動分類するための自然言語処理(NLP)手法を提案する。 当社のデータセットは、12のセクターから約21,000のラベル付き広告テキストで構成されています。 本研究では,最近自然言語処理文献におけるテキスト分類などの分野で用いられているトランスフォーマに基づく言語モデルであるbertモデルからの双方向エンコーダ表現を用いた。 トルコ語のための事前訓練されたBERTモデルを用いて得られた分類効率を詳細に示す。

In this study, a natural language processing-based (NLP-based) method is proposed for the sector-wise automatic classification of ad texts created on online advertising platforms. Our data set consists of approximately 21,000 labeled advertising texts from 12 different sectors. In the study, the Bidirectional Encoder Representations from Transformers (BERT) model, which is a transformer-based language model that is recently used in fields such as text classification in the natural language processing literature, was used. The classification efficiencies obtained using a pre-trained BERT model for the Turkish language are shown in detail.
翻訳日:2021-06-22 15:36:16 公開日:2021-06-21
# アスペクト感情三重項抽出のための明示的インタラクションネットワーク

Explicit Interaction Network for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2106.11148v1 )

ライセンス: Link先を確認
Peiyi Wang, Lianzhe Huang, Tianyu Liu, Damai Dai, Runxin Xu, Houfeng Wang, Baobao Chang and Zhifang Sui(参考訳) Aspect Sentiment Triplet extract (ASTE) は、目標、感情の極性、文章からの感情を説明する意見を認識することを目的としている。 ASTEは自然に3つの原子サブタスク(ターゲット検出、意見検出、感情分類)に分けられる。 我々は、適切なサブタスクの組み合わせ、ターゲット-オピニオン対の合成特徴抽出、サブタスク間の相互作用が成功の鍵となると論じている。 しかしながら、事前の作業は、‘一対一’や‘一対一’の状況では失敗するか、あるいは欠陥のあるサブタスクの定式化、サブ最適な特徴表現、あるいはサブタスクの相互作用の欠如によって、存在しない感情三重項を導出することがある。 本稿では,ASTEを人間の認知に則した目標対人共同検出と感情分類サブタスクに分割し,シーケンスエンコーダとテーブルエンコーダを提案する。 テーブルエンコーダはトークンペアレベルで感情を抽出し、ターゲットと意見の合成特徴を容易に捉えることができる。 サブタスク間の明示的なインタラクションを確立するために、テーブル表現を用いてシーケンスエンコーディングをガイドし、シーケンス機能をテーブルエンコーダに注入する。 実験の結果,本モデルは6種類のasteデータセットにおいて最先端の手法よりも優れていることがわかった。

Aspect Sentiment Triplet Extraction (ASTE) aims to recognize targets, their sentiment polarities and opinions explaining the sentiment from a sentence. ASTE could be naturally divided into 3 atom subtasks, namely target detection, opinion detection and sentiment classification. We argue that the proper subtask combination, compositional feature extraction for target-opinion pairs, and interaction between subtasks would be the key to success. Prior work, however, may fail on `one-to-many' or `many-to-one' situations, or derive non-existent sentiment triplets due to defective subtask formulation, sub-optimal feature representation or the lack of subtask interaction. In this paper, we divide ASTE into target-opinion joint detection and sentiment classification subtasks, which is in line with human cognition, and correspondingly propose sequence encoder and table encoder. Table encoder extracts sentiment at token-pair level, so that the compositional feature between targets and opinions can be easily captured. To establish explicit interaction between subtasks, we utilize the table representation to guide the sequence encoding, and inject the sequence features back into the table encoder. Experiments show that our model outperforms state-of-the-art methods on six popular ASTE datasets.
翻訳日:2021-06-22 15:36:08 公開日:2021-06-21
# 特徴白化による解釈可能な顔操作検出

Interpretable Face Manipulation Detection via Feature Whitening ( http://arxiv.org/abs/2106.10834v1 )

ライセンス: Link先を確認
Yingying Hua, Daichi Zhang, Pengju Wang, Shiming Ge(参考訳) なぜ私たちは、操作された顔に対するディープニューラルネットワークの検出を信頼すべきなのか? 理由を理解することは、検出モデルの公平性、信頼性、プライバシ、信頼性を改善する上で重要である。 本研究では,信頼できる正確な推論を実現するための,解釈可能な顔操作検出手法を提案する。 このアプローチは、フィーチャーホワイトニングモジュールを埋め込むことで、顔操作検出プロセスを透明にする可能性がある。 このモジュールは、機能のデコレーションと機能制約によってディープネットワークの内部動作メカニズムを緩和することを目的としている。 実験結果から,提案手法は検出精度とモデル解釈可能性のバランスをとることができることがわかった。

Why should we trust the detections of deep neural networks for manipulated faces? Understanding the reasons is important for users in improving the fairness, reliability, privacy and trust of the detection models. In this work, we propose an interpretable face manipulation detection approach to achieve the trustworthy and accurate inference. The approach could make the face manipulation detection process transparent by embedding the feature whitening module. This module aims to whiten the internal working mechanism of deep networks through feature decorrelation and feature constraint. The experimental results demonstrate that our proposed approach can strike a balance between the detection accuracy and the model interpretability.
翻訳日:2021-06-22 15:32:26 公開日:2021-06-21
# データモードを経由するロバストプール

Robust Pooling through the Data Mode ( http://arxiv.org/abs/2106.10850v1 )

ライセンス: Link先を確認
Ayman Mukhaimar, Ruwan Tennakoon, Chow Yin Lai, Reza Hoseinnezhad, AlirezaBab-Hadiashar(参考訳) ポイントクラウドデータから学習するタスクは、データにノイズや異常が発生することが多いため、常に困難である。 このような不正確性は、最先端のディープラーニングネットワークのパフォーマンスと、オブジェクトの分類やセグメンテーション能力に大きな影響を与える可能性がある。 堅牢なディープラーニングアプローチはいくつかあるが、リアルタイムアプリケーションには計算コストがかかりすぎる。 本稿では,ネットワークのロバスト性を大幅に向上し,最先端のアプローチよりもはるかに高速な,新しいロバストプール層を含むディープラーニングソリューションを提案する。 提案するプール層では,クラスタがモデルを示すため,RANSACとヒストグラムという2つの手法を用いて,モデム/クラスタのデータを探す。 プール層をポイントベースやグラフベースのニューラルネットワークなどのフレームワークにテストし,ロバストな最先端手法に比べて堅牢性が向上した。

The task of learning from point cloud data is always challenging due to the often occurrence of noise and outliers in the data. Such data inaccuracies can significantly influence the performance of state-of-the-art deep learning networks and their ability to classify or segment objects. While there are some robust deep learning approaches, they are computationally too expensive for real-time applications. This paper proposes a deep learning solution that includes a novel robust pooling layer which greatly enhances network robustness and performs significantly faster than state-of-the-art approaches. The proposed pooling layer looks for data a mode/cluster using two methods, RANSAC, and histogram, as clusters are indicative of models. We tested the pooling layer into frameworks such as Point-based and graph-based neural networks, and the tests showed enhanced robustness as compared to robust state-of-the-art methods.
翻訳日:2021-06-22 15:32:18 公開日:2021-06-21
# 360の世界で動く:パノラマのパララックスを1つのパノラマから合成する

Moving in a 360 World: Synthesizing Panoramic Parallaxes from a Single Panorama ( http://arxiv.org/abs/2106.10859v1 )

ライセンス: Link先を確認
Ching-Yu Hsu, Cheng Sun, Hwann-Tzong Chen(参考訳) パララックスを有効とする新規パノラマビュー合成への最初の手法である全方位ニューラルラミアンスフィールド(omninerf)を提案する。 近年のビュー合成研究は、視野の限られた視点画像に焦点をあて、特定の条件下での撮影に十分な画像を必要とする。 逆に、OmniNeRFは訓練データとして単一の正方形画像が与えられた未知視点のパノラマ画像を生成することができる。 そこで本研究では,仮想カメラ位置の異なる2dパノラマ座標と3dワールドを相互に投影することにより,単一のrgb-dパノラマを増強することを提案する。 これにより、カメラ位置から新しい視野角を推定するために、固定中心における全方位視野角からの可視画素を収集した全方位ニューラルラミアンスフィールドを最適化することができる。 その結果、提案したOmniNeRFは、パララックス効果を示す新しいパノラマビューの説得力のあるレンダリングを実現する。 合成および実世界の両方のデータセットに対する提案の有効性を示す。

We present Omnidirectional Neural Radiance Fields (OmniNeRF), the first method to the application of parallax-enabled novel panoramic view synthesis. Recent works for novel view synthesis focus on perspective images with limited field-of-view and require sufficient pictures captured in a specific condition. Conversely, OmniNeRF can generate panorama images for unknown viewpoints given a single equirectangular image as training data. To this end, we propose to augment the single RGB-D panorama by projecting back and forth between a 3D world and different 2D panoramic coordinates at different virtual camera positions. By doing so, we are able to optimize an Omnidirectional Neural Radiance Field with visible pixels collecting from omnidirectional viewing angles at a fixed center for the estimation of new viewing angles from varying camera positions. As a result, the proposed OmniNeRF achieves convincing renderings of novel panoramic views that exhibit the parallax effect. We showcase the effectiveness of each of our proposals on both synthetic and real-world datasets.
翻訳日:2021-06-22 15:32:01 公開日:2021-06-21
# インスタンスレベルシーケンス学習による知識蒸留

Knowledge Distillation via Instance-level Sequence Learning ( http://arxiv.org/abs/2106.10885v1 )

ライセンス: Link先を確認
Haoran Zhao, Xin Sun, Junyu Dong, Zihe Dong and Qiong Li(参考訳) 近年,教師ネットワークから一般知識を抽出して学生ネットワークを指導する蒸留手法が提案されている。 既存の手法のほとんどは、データから一様にサンプリングされたランダムなミニバッチのシーケンスを入力して、教師ネットワークから生徒に知識を伝達する。 代わりに、我々は、意味のあるシーケンスで順序付けられたサンプルを用いて、コンパクトな学生ネットワークを徐々にガイドすべきであると主張する。 これにより、教師と生徒ネットワーク間の特徴表現のギャップを段階的に橋渡しすることができる。 本研究では,事例レベルのシーケンス学習による知識蒸留フレームワークのカリキュラムを提供する。 学生ネットワークの次のトレーニングフェーズのカリキュラムを作成するために、初期のエポックの学生ネットワークをスナップショットとして採用している。 CIFAR-10, CIFAR-100, SVHN, CINIC-10データセットについて広範な実験を行った。 いくつかの最先端のメソッドと比較して、我々のフレームワークは、少ないイテレーションで最高のパフォーマンスを実現します。

Recently, distillation approaches are suggested to extract general knowledge from a teacher network to guide a student network. Most of the existing methods transfer knowledge from the teacher network to the student via feeding the sequence of random mini-batches sampled uniformly from the data. Instead, we argue that the compact student network should be guided gradually using samples ordered in a meaningful sequence. Thus, it can bridge the gap of feature representation between the teacher and student network step by step. In this work, we provide a curriculum learning knowledge distillation framework via instance-level sequence learning. It employs the student network of the early epoch as a snapshot to create a curriculum for the student network's next training phase. We carry out extensive experiments on CIFAR-10, CIFAR-100, SVHN and CINIC-10 datasets. Compared with several state-of-the-art methods, our framework achieves the best performance with fewer iterations.
翻訳日:2021-06-22 15:31:48 公開日:2021-06-21
# 信頼誘導放射線学報告

Confidence-Guided Radiology Report Generation ( http://arxiv.org/abs/2106.10887v1 )

ライセンス: Link先を確認
Yixin Wang, Zihao Lin, Jiang Tian, zhongchao shi, Yang Zhang, Jianping Fan, Zhiqiang He(参考訳) 医療画像は臨床における診断と治療において重要な役割を担っている。 画像の自動キャプションの大幅な進歩に触発されて,医療画像の放射線学レポートを作成するための様々なディープラーニング(DL)アーキテクチャが提案されている。 しかし、モデル不確実性(すなわち、レポート生成におけるモデル信頼性/信頼)は未解決の問題である。 本稿では,放射線学レポート作成作業における視覚的不確実性とテキスト的不確実性の両方を明確に定量化する手法を提案する。 このようなマルチモーダル不確実性は、レポートレベルと文レベルの両方でモデルの信頼性スコアを十分に捉えることができ、より包括的なモデル最適化を達成するために損失を重くするためにさらに活用される。 実験結果から,提案手法は放射線レポート生成に信頼性の高い信頼性スコアを与えることが可能であり,提案手法はより包括的なモデル最適化を実現することができ,パブリック放射線レポートデータセットにおける最新性能が得られている。

Medical imaging plays a pivotal role in diagnosis and treatment in clinical practice. Inspired by the significant progress in automatic image captioning, various deep learning (DL)-based architectures have been proposed for generating radiology reports for medical images. However, model uncertainty (i.e., model reliability/confidence on report generation) is still an under-explored problem. In this paper, we propose a novel method to explicitly quantify both the visual uncertainty and the textual uncertainty for the task of radiology report generation. Such multi-modal uncertainties can sufficiently capture the model confidence scores at both the report-level and the sentence-level, and thus they are further leveraged to weight the losses for achieving more comprehensive model optimization. Our experimental results have demonstrated that our proposed method for model uncertainty characterization and estimation can provide more reliable confidence scores for radiology report generation, and our proposed uncertainty-weighted losses can achieve more comprehensive model optimization and result in state-of-the-art performance on a public radiology report dataset.
翻訳日:2021-06-22 15:31:36 公開日:2021-06-21
# ピアノ:磁気共鳴画像を用いたパラメトリック手骨モデル

PIANO: A Parametric Hand Bone Model from Magnetic Resonance Imaging ( http://arxiv.org/abs/2106.10893v1 )

ライセンス: Link先を確認
Yuwei Li, Minye Wu, Yuyao Zhang, Lan Xu, Jingyi Yu(参考訳) ハンドモデリングは没入型VR/AR、アクション理解、あるいは人間の医療にとって重要である。 既存のパラメトリックモデルでは、骨のような解剖学的特性をモデル化することなく、手の形、ポーズ、テクスチャのみが説明されている。 本稿では,MRIデータから人手の最初のパラメトリック骨モデルであるPIANOについて述べる。 我々のPIANOモデルは生物学的に正確で、アニメーション化が容易で、微分可能であり、外面のみに基づく従来の手モデルよりも、データ駆動方式で内手運動構造のより解剖学的に精密なモデリングを実現する。 さらに、当社のPIANOモデルはニューラルネットワーク層に適用して、きめ細かい意味喪失によるトレーニングを可能にすることで、データ駆動の手骨解剖学およびMRIやRGB画像からのセマンティック理解の新しいタスクを開放する。 モデルを公開しています。

Hand modeling is critical for immersive VR/AR, action understanding, or human healthcare. Existing parametric models account only for hand shape, pose, or texture, without modeling the anatomical attributes like bone, which is essential for realistic hand biomechanics analysis. In this paper, we present PIANO, the first parametric bone model of human hands from MRI data. Our PIANO model is biologically correct, simple to animate, and differentiable, achieving more anatomically precise modeling of the inner hand kinematic structure in a data-driven manner than the traditional hand models based on the outer surface only. Furthermore, our PIANO model can be applied in neural network layers to enable training with a fine-grained semantic loss, which opens up the new task of data-driven fine-grained hand bone anatomic and semantic understanding from MRI or even RGB images. We make our model publicly available.
翻訳日:2021-06-22 15:31:20 公開日:2021-06-21
# Crop-Transform-Paste:視覚追跡のための自己監督型学習

Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking ( http://arxiv.org/abs/2106.10900v1 )

ライセンス: Link先を確認
Xin Li, Wenjie Pei, Zikun Zhou, Zhenyu He, Huchuan Lu, Ming-Hsuan Yang(参考訳) ビジュアルトラッキングのためのディープラーニングベースの手法は大きな進歩を遂げているが、これらのスキームは十分なトレーニングのために大規模で高品質な注釈付きデータを必要とする。 本研究では,視覚追跡のための自己教師あり学習について検討する。 本研究では,対象物の外観変化や背景変化など,追跡中の各種シーン変動をシミュレートして十分なトレーニングデータを合成できる作物変換・ペースト操作を開発した。 オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカは人間のアノテーションなしでルーチン的にトレーニングすることができる。 視覚表現学習を個別のステップとして行う典型的な自己教師学習方法とは異なり、提案した自己教師学習機構は既存のトラッキングフレームワークにシームレスに統合してトレーニングを行うことができる。 広範な実験により,1) マイショット追跡シナリオにおける教師付き学習よりも良好な性能を実現すること,2) 設計による物体変形, 咬合, 背景クラッタなどの様々な追跡課題を対処できること, 3) 教師付き学習と組み合わせることで, とくにマイショット追跡シナリオにおいて有効であること, が示されている。

While deep-learning based methods for visual tracking have achieved substantial progress, these schemes entail large-scale and high-quality annotated data for sufficient training. To eliminate expensive and exhaustive annotation, we study self-supervised learning for visual tracking. In this work, we develop the Crop-Transform-Paste operation, which is able to synthesize sufficient training data by simulating various kinds of scene variations during tracking, including appearance variations of objects and background changes. Since the object state is known in all synthesized data, existing deep trackers can be trained in routine ways without human annotation. Different from typical self-supervised learning methods performing visual representation learning as an individual step, the proposed self-supervised learning mechanism can be seamlessly integrated into any existing tracking framework to perform training. Extensive experiments show that our method 1) achieves favorable performance than supervised learning in few-shot tracking scenarios; 2) can deal with various tracking challenges such as object deformation, occlusion, or background clutter due to its design; 3) can be combined with supervised learning to further boost the performance, particularly effective in few-shot tracking scenarios.
翻訳日:2021-06-22 15:31:06 公開日:2021-06-21
# 安全な胆嚢摘出のための外科データサイエンス : 肝嚢胞解剖学の分節化と安全性の批判的視点の評価

Surgical data science for safe cholecystectomy: a protocol for segmentation of hepatocystic anatomy and assessment of the critical view of safety ( http://arxiv.org/abs/2106.10916v1 )

ライセンス: Link先を確認
Pietro Mascagni and Deepak Alapatt, Alain Garcia, Nariaki Okamoto, Armine Vardazaryan, Guido Costamagna, Bernard Dallemagne, Nicolas Padoy(参考訳) 最小侵襲画像ガイド下手術は視力に大きく依存する。 したがって、外科的ビデオ解析のための深層学習モデルは、腹腔鏡下胆嚢摘出術(LC)における安全性(CVS)のクリティカルビューを評価するなどの視覚的タスクをサポートし、外科的安全性と効率に寄与する可能性がある。 しかし、これらのモデルの性能、信頼性、再現性は、開発で使用されるデータの品質とアノテーションに大きく依存する。 本稿では,肝嚢胞性解剖学とCVS基準の整合性アノテーションを促進するためのプロトコル,チェックリスト,視覚例を提案する。 アノテーションガイドラインの共有は、パフォーマンスの汎用性を評価するための信頼できるマルチセントリックデータセットの構築に役立ち、手術ビデオ解析のためのディープラーニングモデルの臨床的翻訳を促進できると考えています。

Minimally invasive image-guided surgery heavily relies on vision. Deep learning models for surgical video analysis could therefore support visual tasks such as assessing the critical view of safety (CVS) in laparoscopic cholecystectomy (LC), potentially contributing to surgical safety and efficiency. However, the performance, reliability and reproducibility of such models are deeply dependent on the quality of data and annotations used in their development. Here, we present a protocol, checklists, and visual examples to promote consistent annotation of hepatocystic anatomy and CVS criteria. We believe that sharing annotation guidelines can help build trustworthy multicentric datasets for assessing generalizability of performance, thus accelerating the clinical translation of deep learning models for surgical video analysis.
翻訳日:2021-06-22 15:30:44 公開日:2021-06-21
# きめ細かい視覚分類のための層間ナビゲーション畳み込みニューラルネットワーク

Cross-layer Navigation Convolutional Neural Network for Fine-grained Visual Classification ( http://arxiv.org/abs/2106.10920v1 )

ライセンス: Link先を確認
Chenyu Guo, Jiyang Xie, Kongming Liang, Xian Sun, Zhanyu Ma(参考訳) きめ細かい視覚分類(FGVC)は、同じスーパークラスのオブジェクトのサブクラス(例えば、鳥類の種類、車のモデル)を分類することを目的としている。 FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。 従来のFGVCモデルは、高度な特徴、すなわち認識に高レベルな意味情報を使うことを好んでおり、低レベルな情報を使用することはめったにない。 しかし,より詳細な情報を含む低レベル情報も性能向上に寄与することが判明した。 そこで本稿では,機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。 まず、バックボーンネットワークによって抽出された特徴マップを、高レベルから低レベルまで順次畳み込み長短期記憶モデルに入力して特徴集約を行う。 次に,高レベルの意味情報と低レベルのテクスチャ特徴をリンクしながら,特徴融合後の注意機構を用いて空間情報とチャネル情報を抽出し,FGVCの識別領域をよりよく特定する。 実験では、cub-200-2011、stanford-cars、およびfgvc-aircraftデータセットを含む3つの一般的なfgvcデータセットを用いて評価を行い、他の参照したfgvc法と比較することにより、この方法が優れた結果が得られることを示すことにより、提案手法の優越性を示す。

Fine-grained visual classification (FGVC) aims to classify sub-classes of objects in the same super-class (e.g., species of birds, models of cars). For the FGVC tasks, the essential solution is to find discriminative subtle information of the target from local regions. TraditionalFGVC models preferred to use the refined features,i.e., high-level semantic information for recognition and rarely use low-level in-formation. However, it turns out that low-level information which contains rich detail information also has effect on improving performance. Therefore, in this paper, we propose cross-layer navigation convolutional neural network for feature fusion. First, the feature maps extracted by the backbone network are fed into a convolutional long short-term memory model sequentially from high-level to low-level to perform feature aggregation. Then, attention mechanisms are used after feature fusion to extract spatial and channel information while linking the high-level semantic information and the low-level texture features, which can better locate the discriminative regions for the FGVC. In the experiments, three commonly used FGVC datasets, including CUB-200-2011, Stanford-Cars, andFGVC-Aircraft datasets, are used for evaluation and we demonstrate the superiority of the proposed method by comparing it with other referred FGVC methods to show that this method achieves superior results.
翻訳日:2021-06-22 15:30:30 公開日:2021-06-21
# 自動運転の100万シーン:ONCEデータセット

One Million Scenes for Autonomous Driving: ONCE Dataset ( http://arxiv.org/abs/2106.11037v1 )

ライセンス: Link先を確認
Jiageng Mao, Minzhe Niu, Chenhan Jiang, Hanxue Liang, Xiaodan Liang, Yamin Li, Chaoqiang Ye, Wei Zhang, Zhenguo Li, Jie Yu, Hang Xu, Chunjing Xu(参考訳) 自動運転における現在の認識モデルは、未発見のケースをカバーし、ロングテール問題に対処するために注釈付きデータの大量に依存することで悪名高い。 一方、ラベルのない大規模収集データや漸進的に自己学習する強力な認識モデルからの学習は注目され、自動運転における次世代の産業レベルの強力で堅牢な認識モデルの解決策となりうる。 しかし、研究コミュニティは一般的に、これらの重要な現実世界のシーンデータの不十分さに悩まされ、将来の3D知覚のための完全/半自己管理手法の探求を妨げている。 本稿では,自動運転シナリオにおける3次元物体検出のためのONCEデータセットについて紹介する。 ONCEデータセットは100万のLiDARシーンと700万の対応するカメライメージで構成されている。 データは、利用可能な最大の3D自動運転データセット(例)よりも20倍長い144時間の運転時間から選択される。 ヌッセン (nuscenes) とウェイモ (waymo) は、様々な地域、期間、気象条件にまたがって収集される。 3次元検出のためのラベルなしデータの利用に関する今後の研究を容易にするため、ONCEデータセット上で様々な自己監督的および半監督的手法を再現し評価するベンチマークも提供する。 これらの手法を広範囲に分析し,使用データの規模に関連する性能に関する貴重な知見を提供する。 データ、コード、その他の情報はhttps://once-for-auto-driving.github.io/index.htmlで確認できる。

Current perception models in autonomous driving have become notorious for greatly relying on a mass of annotated data to cover unseen cases and address the long-tail problem. On the other hand, learning from unlabeled large-scale collected data and incrementally self-training powerful recognition models have received increasing attention and may become the solutions of next-generation industry-level powerful and robust perception models in autonomous driving. However, the research community generally suffered from data inadequacy of those essential real-world scene data, which hampers the future exploration of fully/semi/self-supervised methods for 3D perception. In this paper, we introduce the ONCE (One millioN sCenEs) dataset for 3D object detection in the autonomous driving scenario. The ONCE dataset consists of 1 million LiDAR scenes and 7 million corresponding camera images. The data is selected from 144 driving hours, which is 20x longer than the largest 3D autonomous driving dataset available (e.g. nuScenes and Waymo), and it is collected across a range of different areas, periods and weather conditions. To facilitate future research on exploiting unlabeled data for 3D detection, we additionally provide a benchmark in which we reproduce and evaluate a variety of self-supervised and semi-supervised methods on the ONCE dataset. We conduct extensive analyses on those methods and provide valuable observations on their performance related to the scale of used data. Data, code, and more information are available at https://once-for-auto-driving.github.io/index.html.
翻訳日:2021-06-22 15:30:05 公開日:2021-06-21
# CataNet:白内障手術期間の予測

CataNet: Predicting remaining cataract surgery duration ( http://arxiv.org/abs/2106.11048v1 )

ライセンス: Link先を確認
Andr\'es Marafioti, Michel Hayoz, Mathias Gallardo, Pablo M\'arquez Neila, Sebastian Wolf, Martin Zinkernagel, and Raphael Sznitman(参考訳) 白内障手術は、世界中で毎年1000万回以上実施されている視力保護手術である。 外科的病棟や手術室の組織化を効果的に行うことは,このような治療を日常的な臨床医療で行う上で重要である。 この文脈では、手術中の残りの手術期間(rsd)を推定することは患者のスループットとワークフローを合理化する1つの方法である。 そこで本研究では, 外科医の経験と手術の現段階の2つの要素を併用して, rsdをリアルタイムに予測する白内障手術の方法であるcatanetを提案する。 CataNetを最先端のRSD推定法と比較し、位相や経験が考慮されていない場合でも性能が向上することを示した。 この改善について検討し、CataNetの機能抽出器に経過時間を統合する方法として、重要な貢献者がいることを示す。

Cataract surgery is a sight saving surgery that is performed over 10 million times each year around the world. With such a large demand, the ability to organize surgical wards and operating rooms efficiently is critical to delivery this therapy in routine clinical care. In this context, estimating the remaining surgical duration (RSD) during procedures is one way to help streamline patient throughput and workflows. To this end, we propose CataNet, a method for cataract surgeries that predicts in real time the RSD jointly with two influential elements: the surgeon's experience, and the current phase of the surgery. We compare CataNet to state-of-the-art RSD estimation methods, showing that it outperforms them even when phase and experience are not considered. We investigate this improvement and show that a significant contributor is the way we integrate the elapsed time into CataNet's feature extractor.
翻訳日:2021-06-22 15:29:43 公開日:2021-06-21
# CLIP2Video: Image CLIPによるビデオテキスト検索のマスタリング

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP ( http://arxiv.org/abs/2106.11097v1 )

ライセンス: Link先を確認
Han Fang, Pengfei Xiong, Luhui Xu, Yu Chen(参考訳) 本稿では,CLIP2ビデオネットワークを用いて,画像言語による事前学習モデルをエンドツーエンドでビデオテキスト検索に転送する。 ビデオと言語学習の領域における主要なアプローチは、大規模なビデオテキストデータセットからビデオと言語間の時空間的特徴とマルチモーダルな相互作用を抽出しようとすることである。 これらと異なり、事前訓練された画像言語モデルを活用し、画像テキストの共学習とビデオフレームとビデオテキストの時間的関係の強化による2段階のフレームワークとして単純化し、比較的小さなデータセットでトレーニングすることができる。 具体的には,コントラスト・ランゲージ・イメージ・プリトレーニング(clip)モデルが捉えた空間的意味論に基づき,ファインテンポラルビデオフレームにおける動きをキャプチャする時間的差分ブロックと,ビデオクリップやフレーズのトークンを再認識し,マルチモーダル相関を向上させる時間的アライメントブロックを含む。 我々は,MSR-VTT,MSVD,VATEXにおける検索精度の新たな記録を含む,大規模なテキスト・ビデオ・ビデオ・ビデオ・テキストの検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。

We present CLIP2Video network to transfer the image-language pre-training model to video-text retrieval in an end-to-end manner. Leading approaches in the domain of video-and-language learning try to distill the spatio-temporal video features and multi-modal interaction between videos and languages from a large-scale video-text dataset. Different from them, we leverage pretrained image-language model, simplify it as a two-stage framework with co-learning of image-text and enhancing temporal relations between video frames and video-text respectively, make it able to train on comparatively small datasets. Specifically, based on the spatial semantics captured by Contrastive Language-Image Pretraining (CLIP) model, our model involves a Temporal Difference Block to capture motions at fine temporal video frames, and a Temporal Alignment Block to re-align the tokens of video clips and phrases and enhance the multi-modal correlation. We conduct thorough ablation studies, and achieve state-of-the-art performance on major text-to-video and video-to-text retrieval benchmarks, including new records of retrieval accuracy on MSR-VTT, MSVD and VATEX.
翻訳日:2021-06-22 15:29:28 公開日:2021-06-21
# BVLOSドローンの障害物検出

Obstacle Detection for BVLOS Drones ( http://arxiv.org/abs/2106.11098v1 )

ライセンス: Link先を確認
Jan Moros Esteban(参考訳) 欧州連合(EU)に新たな規制が導入されることで、Beyond Visual Line Of Sight(BVLOS)ドローンの未来が開花する。 これによりBEASTプロジェクトは、これらの規制と安全性に焦点を当てた自律型セキュリティドローンの開発を目的としている。 この技術論文では、このプロジェクトにおけるモジュールの最初のステップについて記述し、障害検出を中心に回転することで、フェールセーフランディングで回避できるようにする。 ディープラーニングを利用した物体検出手法は,様々なデータ拡張手法やyolov3,yolov5の比較など,その性能を最大化するための様々な実験が行われている。 実験の結果,オブジェクト検出はこの問題を解決するための有望なアプローチであるが,実際のアプリケーションでの利用にはより多くのデータが必要であると結論づけた。

With the introduction of new regulations in the European Union, the future of Beyond Visual Line Of Sight (BVLOS) drones is set to bloom. This led to the creation of the theBEAST project, which aims to create an autonomous security drone, with focus on those regulations and on safety. This technical paper describes the first steps of a module within this project, which revolves around detecting obstacles so they can be avoided in a fail-safe landing. A deep learning powered object detection method is the subject of our research, and various experiments are held to maximize its performance, such as comparing various data augmentation techniques or YOLOv3 and YOLOv5. According to the results of the experiments, we conclude that although object detection is a promising approach to resolve this problem, more volume of data is required for potential usage in a real-life application.
翻訳日:2021-06-22 15:28:59 公開日:2021-06-21
# ノイズラベルを用いたロバストな医用画像分割のための有効監督

Distilling effective supervision for robust medical image segmentation with noisy labels ( http://arxiv.org/abs/2106.11099v1 )

ライセンス: Link先を確認
Jialin Shi and Ji Wu(参考訳) 医用画像セグメンテーションタスクにおけるディープラーニング手法の成功にもかかわらず、人間レベルのパフォーマンスは、高い品質のアノテーションを持つ大量のトレーニングデータに依存している。 実際、ラベルノイズを伴う低品質アノテーションが存在するため、学習モデルの最適化性能が低下する。 雑音ラベルを用いたセグメンテーション学習には,画素単位の雑音ロバストトレーニングと画像レベルの雑音ロバストトレーニングの2つの特徴がある。 本研究では,画素レベルと画像レベルの両方から効果的な監督情報を蒸留することにより,ノイズラベルによるセグメント化に対処する新しい枠組みを提案する。 特に,各画素の不確かさを画素単位の雑音推定として明確に推定し,元のラベルと擬似ラベルの両方を用いて画素単位の頑健な学習を提案する。 さらに,画素レベル学習の補足として,より多くの情報に対応するための画像レベルロバスト学習法を提案する。 シミュレーションデータと実世界のノイズデータセットの両方について広範な実験を行う。 その結果, ノイズラベルによる医用画像のセグメンテーションにおいて, 最先端のベースラインと比較した。

Despite the success of deep learning methods in medical image segmentation tasks, the human-level performance relies on massive training data with high-quality annotations, which are expensive and time-consuming to collect. The fact is that there exist low-quality annotations with label noise, which leads to suboptimal performance of learned models. Two prominent directions for segmentation learning with noisy labels include pixel-wise noise robust training and image-level noise robust training. In this work, we propose a novel framework to address segmenting with noisy labels by distilling effective supervision information from both pixel and image levels. In particular, we explicitly estimate the uncertainty of every pixel as pixel-wise noise estimation, and propose pixel-wise robust learning by using both the original labels and pseudo labels. Furthermore, we present an image-level robust learning method to accommodate more information as the complements to pixel-level learning. We conduct extensive experiments on both simulated and real-world noisy datasets. The results demonstrate the advantageous performance of our method compared to state-of-the-art baselines for medical image segmentation with noisy labels.
翻訳日:2021-06-22 15:28:46 公開日:2021-06-21
# SODA10M: 自律運転のための大規模物体検出ベンチマークを目指して

SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving ( http://arxiv.org/abs/2106.11118v1 )

ライセンス: Link先を確認
Jianhua Han, Xiwen Liang, Hang Xu, Kai Chen, Lanqing Hong, Chaoqiang Ye, Wei Zhang, Zhenguo Li, Chunjing Xu, Xiaodan Liang(参考訳) 本稿では,実世界で進化し,進化し,スケーラブルな自動運転システムを実現することを目指して,これまでで1番目かつ最大のベンチマークである生データから学習することにより,異なる自己教師あり・半教師ありアプローチの評価を標準化する大規模ベンチマークを提案する。 既存の自動運転システムは、安全を確保するために広範囲の注釈データを使用して訓練された「完璧な」視覚知覚モデル(例えば、検出)に大きく依存している。 しかしながら、堅牢な自動運転システムを展開する場合、すべてのシナリオや状況(例えば、夜間、極端な天候、都市)のインスタンスを精巧にラベルするのは現実的ではない。 近年の自己教師型・半教師型学習の強力な進歩により,大規模未ラベルデータとラベル付きデータの少ないデータを協調的に活用することにより,堅牢な検出モデルを学ぶことが期待できる。 既存のデータセット(例えば、KITTI、Waymo)は、少量のデータしか提供しないか、あるいは完全なアノテーションで限られたドメインをカバーするため、大規模な事前訓練モデルの探索を妨げている。 そこで我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークを公開し,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。 多様性を改善するため、画像は天候、期間、場所の異なる32都市で、フレームごとに10秒ごとに収集される。 我々は,既存の監視状態検出モデル,一般的な自己監視型および半監督型アプローチの広範な実験と深い分析を行い,今後のモデルの開発方法についての知見を提供する。 データと最新情報はhttps://soda-2d.github.ioで公開されている。

Aiming at facilitating a real-world, ever-evolving and scalable autonomous driving system, we present a large-scale benchmark for standardizing the evaluation of different self-supervised and semi-supervised approaches by learning from raw data, which is the first and largest benchmark to date. Existing autonomous driving systems heavily rely on `perfect' visual perception models (e.g., detection) trained using extensive annotated data to ensure the safety. However, it is unrealistic to elaborately label instances of all scenarios and circumstances (e.g., night, extreme weather, cities) when deploying a robust autonomous driving system. Motivated by recent powerful advances of self-supervised and semi-supervised learning, a promising direction is to learn a robust detection model by collaboratively exploiting large-scale unlabeled data and few labeled data. Existing dataset (e.g., KITTI, Waymo) either provides only a small amount of data or covers limited domains with full annotation, hindering the exploration of large-scale pre-trained models. Here, we release a Large-Scale Object Detection benchmark for Autonomous driving, named as SODA10M, containing 10 million unlabeled images and 20K images labeled with 6 representative object categories. To improve diversity, the images are collected every ten seconds per frame within 32 different cities under different weather conditions, periods and location scenes. We provide extensive experiments and deep analyses of existing supervised state-of-the-art detection models, popular self-supervised and semi-supervised approaches, and some insights about how to develop future models. The data and more up-to-date information have been released at https://soda-2d.github.io.
翻訳日:2021-06-22 15:28:29 公開日:2021-06-21
# OadTR: トランスフォーマーによるオンラインアクション検出

OadTR: Online Action Detection with Transformers ( http://arxiv.org/abs/2106.11149v1 )

ライセンス: Link先を確認
Xiang Wang, Shiwei Zhang, Zhiwu Qing, Yuanjie Shao, Zhengrong Zuo, Changxin Gao, Nong Sang(参考訳) 最近のオンライン行動検出のアプローチは、長い時間的構造を捉えるためにrecurrent neural network (rnn)を適用する傾向がある。 しかし、rnnはパラレル主義や勾配消失に苦しむため、最適化することは困難である。 本稿では,OadTRというトランスフォーマーをベースとした新しいエンコーダデコーダフレームワークを提案する。 タスクトークンを付加したエンコーダは、歴史的観測間の関係とグローバルな相互作用をキャプチャすることを目的としている。 デコーダは、期待される将来のクリップ表現を集約して補助情報を抽出する。 したがって、oadtrは、過去の情報をエンコードし、将来の状況を同時に予測することで、現在の行動を認識することができる。 提案するOadTRをHDD,TVSeries,THUMOS14の3つの挑戦的データセットで評価した。 実験の結果,OadTRは現在のRNNベースアプローチよりも高いトレーニングと推論速度を実現し,mAPとmcAPの両面で最先端の手法よりも優れていた。 コードはhttps://github.com/wangxiang1230/oadtrで入手できる。

Most recent approaches for online action detection tend to apply Recurrent Neural Network (RNN) to capture long-range temporal structure. However, RNN suffers from non-parallelism and gradient vanishing, hence it is hard to be optimized. In this paper, we propose a new encoder-decoder framework based on Transformers, named OadTR, to tackle these problems. The encoder attached with a task token aims to capture the relationships and global interactions between historical observations. The decoder extracts auxiliary information by aggregating anticipated future clip representations. Therefore, OadTR can recognize current actions by encoding historical information and predicting future context simultaneously. We extensively evaluate the proposed OadTR on three challenging datasets: HDD, TVSeries, and THUMOS14. The experimental results show that OadTR achieves higher training and inference speeds than current RNN based approaches, and significantly outperforms the state-of-the-art methods in terms of both mAP and mcAP. Code is available at https://github.com/wangxiang1230/OadTR.
翻訳日:2021-06-22 15:28:00 公開日:2021-06-21
# 畳み込みニューラルネットワークを用いたCNNによる植物被覆自動推定

Automatic Plant Cover Estimation with CNNs Automatic Plant Cover Estimation with Convolutional Neural Networks ( http://arxiv.org/abs/2106.11154v1 )

ライセンス: Link先を確認
Matthias K\"orschens, Paul Bodesheim, Christine R\"omermann, Solveig Franziska Bucher, Mirco Migliavacca, Josephine Ulrich, Joachim Denzler(参考訳) 植物の環境変化に対する反応のモニタリングは植物生物多様性研究に不可欠である。 しかし、現在はまだ現場の植物学者によって手作業で行われている。 この研究は非常に精力的であり、得られたデータは植物被覆を推定する標準的な方法に従っており、通常は主観的であり、粗い時間分解能を有する。 植物群落の構成と9種の草本植物の種被覆に着目し, 画像から関連データを自動的に抽出するために, 畳み込みニューラルネットワーク(CNN)を用いたアプローチを検討する。 そこで本研究では,いくつかの標準CNNアーキテクチャと事前学習手法について検討する。 我々は、平均絶対誤差5.16%のカスタムCNNを用いて、より高解像度の画像分解能で過去のアプローチより優れていることを発見した。 これらの調査に加えて,植物被覆画像の時間的側面に基づく誤差解析も行った。 この分析は、咬合や時間的変化によって引き起こされる可能性のある誤分類など、自動アプローチの問題点がどこにあるのかを洞察する。

Monitoring the responses of plants to environmental changes is essential for plant biodiversity research. This, however, is currently still being done manually by botanists in the field. This work is very laborious, and the data obtained is, though following a standardized method to estimate plant coverage, usually subjective and has a coarse temporal resolution. To remedy these caveats, we investigate approaches using convolutional neural networks (CNNs) to automatically extract the relevant data from images, focusing on plant community composition and species coverages of 9 herbaceous plant species. To this end, we investigate several standard CNN architectures and different pretraining methods. We find that we outperform our previous approach at higher image resolutions using a custom CNN with a mean absolute error of 5.16%. In addition to these investigations, we also conduct an error analysis based on the temporal aspect of the plant cover images. This analysis gives insight into where problems for automatic approaches lie, like occlusion and likely misclassifications caused by temporal changes.
翻訳日:2021-06-22 15:27:45 公開日:2021-06-21
# 効率的なビデオオブジェクト検出のための時間的早期出力

Temporal Early Exits for Efficient Video Object Detection ( http://arxiv.org/abs/2106.11208v1 )

ライセンス: Link先を確認
Amin Sabet, Jonathon Hare, Bashir Al-Hashimi, Geoff V. Merrett(参考訳) 画像に基づく物体検出器をビデオ領域に転送することは、資源制約下では依然として困難である。 しかし、監視のようなアプリケーションから非常にゆっくりと変化するシーンを扱う場合、オーバーヘッドはかなり大きい。 本稿では,フレーム単位のビデオオブジェクト検出の計算量を削減するため,時間的早期出口を提案する。 計算オーバーヘッドの少ない複数の時間的早期出口モジュールをバックボーンネットワークの初期層に挿入し、連続するフレーム間の意味的差異を特定する。 完全な計算は、フレームが前のフレームに意味的変化を持つと認識される場合にのみ必要であり、さもないと、前のフレームからの検出結果が再利用される。 CDnet上での実験により,本手法は,mAPの2.2\%を許容できる既存の手法と比較して,フレーム単位の動画オブジェクト検出の計算複雑性と実行を最大34 \times$まで大幅に低減することが示された。

Transferring image-based object detectors to the domain of video remains challenging under resource constraints. Previous efforts utilised optical flow to allow unchanged features to be propagated, however, the overhead is considerable when working with very slowly changing scenes from applications such as surveillance. In this paper, we propose temporal early exits to reduce the computational complexity of per-frame video object detection. Multiple temporal early exit modules with low computational overhead are inserted at early layers of the backbone network to identify the semantic differences between consecutive frames. Full computation is only required if the frame is identified as having a semantic change to previous frames; otherwise, detection results from previous frames are reused. Experiments on CDnet show that our method significantly reduces the computational complexity and execution of per-frame video object detection up to $34 \times$ compared to existing methods with an acceptable reduction of 2.2\% in mAP.
翻訳日:2021-06-22 15:27:29 公開日:2021-06-21
# スポーツ選手の再識別のためのビデオ歩行認識におけるアームスイングの判別

The Arm-Swing Is Discriminative in Video Gait Recognition for Athlete Re-Identification ( http://arxiv.org/abs/2106.11280v1 )

ライセンス: Link先を確認
Yapkan Choi, Yeshwanth Napolean, Jan C. van Gemert(参考訳) 本稿では,長距離走行イベントにおける映像人物再識別の属性として,走行歩行を評価する。 歩行認識は、カメラ間検索タスクにおける外観に基づくアプローチと比較して競争性能が向上し、歩行特徴と外観特徴が相補的であることを示す。 歩行の場合、走行中のアームスイングは、胴部の曖昧さのため、二元歩行シルエットを使用すると区別がつかない。 我々は,人間の意味解析を用いて,胴体が取り残されている部分歩行シルエットを作成することを提案する。 胴体を外すことで、前や斜めの角度で腕のスイングがより見えるようになり、腕のスイングがある程度個人的なものであるというヒントが得られる。 実験では、キャンパスランでの3.2%の地図の増加と、カシアbの前方および後方の4.8%の精度の向上が示されている。

In this paper we evaluate running gait as an attribute for video person re-identification in a long-distance running event. We show that running gait recognition achieves competitive performance compared to appearance-based approaches in the cross-camera retrieval task and that gait and appearance features are complementary to each other. For gait, the arm swing during running is less distinguishable when using binary gait silhouettes, due to ambiguity in the torso region. We propose to use human semantic parsing to create partial gait silhouettes where the torso is left out. Leaving out the torso improves recognition results by allowing the arm swing to be more visible in the frontal and oblique viewing angles, which offers hints that arm swings are somewhat personal. Experiments show an increase of 3.2% mAP on the CampusRun and increased accuracy with 4.8% in the frontal and rear view on CASIA-B, compared to using the full body silhouettes.
翻訳日:2021-06-22 15:27:14 公開日:2021-06-21
# 対話型画像-映像合成のためのオブジェクトダイナミクスの理解

Understanding Object Dynamics for Interactive Image-to-Video Synthesis ( http://arxiv.org/abs/2106.11303v1 )

ライセンス: Link先を確認
Andreas Blattmann, Timo Milbich, Michael Dorkenwald, Bj\"orn Ommer(参考訳) 静的なシーンをローカルにポーキングする効果は何でしょうか? 本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。 トレーニングには、動くオブジェクトのビデオのみが必要だが、物理的なシーンの基本的な操作に関する情報は必要ない。 生成モデルは、ユーザのインタラクションに対する応答として自然オブジェクトのダイナミクスを推測し、異なるオブジェクトボディ領域間の相互関係について学習する。 オブジェクトの静的イメージとピクセルの局所的なポーキングが与えられた場合、アプローチは時間とともにオブジェクトがどのように変形するかを予測する。 ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオを合成するのではなく、変形の局所的インタラクティブ制御を可能にする。 我々のモデルは特定のオブジェクトカテゴリに限定されず、新しい未発見のオブジェクトインスタンスにダイナミクスを転送できる。 多様なオブジェクトに対する大規模な実験は、一般的なビデオ予測フレームワークと比較して、我々のアプローチの有効性を示す。 プロジェクトページはhttps://bit.ly/3cxfa2l。

What would be the effect of locally poking a static scene? We present an approach that learns naturally-looking global articulations caused by a local manipulation at a pixel level. Training requires only videos of moving objects but no information of the underlying manipulation of the physical scene. Our generative model learns to infer natural object dynamics as a response to user interaction and learns about the interrelations between different object body regions. Given a static image of an object and a local poking of a pixel, the approach then predicts how the object would deform over time. In contrast to existing work on video prediction, we do not synthesize arbitrary realistic videos but enable local interactive control of the deformation. Our model is not restricted to particular object categories and can transfer dynamics onto novel unseen object instances. Extensive experiments on diverse objects demonstrate the effectiveness of our approach compared to common video prediction frameworks. Project page is available at https://bit.ly/3cxfA2L .
翻訳日:2021-06-22 15:26:56 公開日:2021-06-21
# 小さな自己監督モデル改善のための簡易蒸留ベースライン

Simple Distillation Baselines for Improving Small Self-supervised Models ( http://arxiv.org/abs/2106.11304v1 )

ライセンス: Link先を確認
Jindong Gu, Wei Liu, Yonglong Tian(参考訳) 大きな自己監督型モデルが監督型モデルのパフォーマンスに匹敵する一方で、小型モデルはいまだに苦戦している。 本報告では,SimDis と呼ばれる蒸留による小型自己監督モデルの改良のための簡易ベースラインについて検討する。 具体的には,オフライン蒸留ベースラインを新たに確立し,計算オーバーヘッドを最小限にして同様の性能を実現するオンライン蒸留ベースラインを提案する。 これらのベースラインが今後の研究に役立つことを願っている。 https://github.com/jindonggu/simdis/

While large self-supervised models have rivalled the performance of their supervised counterparts, small models still struggle. In this report, we explore simple baselines for improving small self-supervised models via distillation, called SimDis. Specifically, we present an offline-distillation baseline, which establishes a new state-of-the-art, and an online-distillation baseline, which achieves similar performance with minimal computational overhead. We hope these baselines will provide useful experience for relevant future research. Code is available at: https://github.com/JindongGu/SimDis/
翻訳日:2021-06-22 15:26:42 公開日:2021-06-21
# 複数点集合の高速同時重力アライメント

Fast Simultaneous Gravitational Alignment of Multiple Point Sets ( http://arxiv.org/abs/2106.11308v1 )

ライセンス: Link先を確認
Vladislav Golyanik and Soshi Shimada and Christian Theobalt(参考訳) 入力に対して偏りのない複数の非順序点集合の同時的剛性アライメントの問題が近年注目され, 信頼性の高い手法がいくつか提案されている。 ノイズや異常値のクラスタ化に対して極めて堅牢だが、現在のアプローチでは高度な初期化スキームが必要であり、大きなポイントセットにはスケールしない。 本稿では,複数点集合の同時登録のための新しいレジリエントな手法を提案し,後者を相互誘導力場内で厳格に動く粒子群として解釈する。 改良された物理法則と2^D-ツリーによる大域的多重連結点相互作用(Dは空間次元)の加速によるシミュレーションにより、我々のMulti-Body Gravitational Approach(MBGA)は、従来の手法(10^5点以上)よりも大きな点集合をサポートしながら、ノイズや欠落データに対して堅牢である。 様々な実験環境では、MBGAは精度と実行時間の観点から、いくつかの基準点セットアライメントアプローチより優れていることが示されている。 結果の再現性を促進するために、私たちのソースコードをコミュニティに公開しています。

The problem of simultaneous rigid alignment of multiple unordered point sets which is unbiased towards any of the inputs has recently attracted increasing interest, and several reliable methods have been newly proposed. While being remarkably robust towards noise and clustered outliers, current approaches require sophisticated initialisation schemes and do not scale well to large point sets. This paper proposes a new resilient technique for simultaneous registration of multiple point sets by interpreting the latter as particle swarms rigidly moving in the mutually induced force fields. Thanks to the improved simulation with altered physical laws and acceleration of globally multiply-linked point interactions with a 2^D-tree (D is the space dimensionality), our Multi-Body Gravitational Approach (MBGA) is robust to noise and missing data while supporting more massive point sets than previous methods (with 10^5 points and more). In various experimental settings, MBGA is shown to outperform several baseline point set alignment approaches in terms of accuracy and runtime. We make our source code available for the community to facilitate the reproducibility of the results.
翻訳日:2021-06-22 15:26:33 公開日:2021-06-21
# 長文映像理解に向けて

Towards Long-Form Video Understanding ( http://arxiv.org/abs/2106.11310v1 )

ライセンス: Link先を確認
Chao-Yuan Wu, Philipp Kr\"ahenb\"uhl(参考訳) 私たちの世界は、絶え間ない視覚刺激の流れを提供しますが、今日の視覚システムは、数秒でパターンを正確に認識するだけです。 これらのシステムは現在のことを理解しているが、過去や将来の出来事ではコンテキスト化できない。 本稿では,長大な映像理解について考察する。 本稿では,長文ビデオのモデリングと大規模データセット評価プロトコルの開発を行うフレームワークを提案する。 現状の短期モデルでは長期の作業に制限があることを示す。 オブジェクト中心のトランスフォーマーに基づく新しいビデオ認識アーキテクチャは、7つの多様なタスクで大幅に向上する。 また、AVAデータセットにおいて、同等の最先端をパフォーマンスします。

Our world offers a never-ending stream of visual stimuli, yet today's vision systems only accurately recognize patterns within a few seconds. These systems understand the present, but fail to contextualize it in past or future events. In this paper, we study long-form video understanding. We introduce a framework for modeling long-form videos and develop evaluation protocols on large-scale datasets. We show that existing state-of-the-art short-term models are limited for long-form tasks. A novel object-centric transformer-based video recognition architecture performs significantly better on 7 diverse tasks. It also outperforms comparable state-of-the-art on the AVA dataset.
翻訳日:2021-06-22 15:26:11 公開日:2021-06-21
# ロバストネスは公正性を改善するか? 単語置換ロバスト性を用いたテキスト分類の公平性へのアプローチ

Does Robustness Improve Fairness? Approaching Fairness with Word Substitution Robustness Methods for Text Classification ( http://arxiv.org/abs/2106.10826v1 )

ライセンス: Link先を確認
Yada Pruksachatkun and Satyapriya Krishna and Jwala Dhamala and Rahul Gupta and Kai-Wei Chang(参考訳) コホート全体のモデル結果の格差を減らす既存のバイアス緩和手法は、データの強化、モデルの埋め込みの偏り解消、トレーニング中の公平性に基づく最適化目標の追加に重点を置いている。 単語置換ロバストネス法は,素早い特徴や同義語置換がモデル予測に与える影響を低減するために開発されている。 最終目標は異なるが、どちらも入力の特定の変更に対して同じ予測を行うようモデルに促すことを目指している。 本稿では,複数のテキスト分類タスクにおけるオッズと機会の平等性を改善するための単語置換ロバストネス手法の有用性について検討する。 我々は,認定ロバストネス法が公平性を改善し,ロバストネスとバイアス緩和法の両方をトレーニング結果に用いた場合,双方が改善するのを確認した。

Existing bias mitigation methods to reduce disparities in model outcomes across cohorts have focused on data augmentation, debiasing model embeddings, or adding fairness-based optimization objectives during training. Separately, certified word substitution robustness methods have been developed to decrease the impact of spurious features and synonym substitutions on model predictions. While their end goals are different, they both aim to encourage models to make the same prediction for certain changes in the input. In this paper, we investigate the utility of certified word substitution robustness methods to improve equality of odds and equality of opportunity on multiple text classification tasks. We observe that certified robustness methods improve fairness, and using both robustness and bias mitigation methods in training results in an improvement in both fronts
翻訳日:2021-06-22 15:26:04 公開日:2021-06-21
# ソフトウェア工学における会話エージェント:調査,分類,課題

Conversational Agents in Software Engineering: Survey, Taxonomy and Challenges ( http://arxiv.org/abs/2106.10901v1 )

ライセンス: Link先を確認
Quim Motger, Xavier Franch and Jordi Marco(参考訳) 人-コンピュータ相互作用の分野における自然言語インタフェースの利用は、専門の科学・産業研究を通じて激しい研究が進められている。 この分野での最新のコントリビューションは、リカレントニューラルネットワークやコンテキスト認識戦略の可能性、ユーザ中心の設計アプローチといったディープラーニングアプローチを含む、コミュニティの関心を、会話エージェントやチャットボットとして知られるソフトウェアベースの対話システムへと引き戻すものだ。 それにもかかわらず、この分野の新規性を考えると、関連するすべての研究の観点をカバーする会話エージェントの研究の現状に関する、一般的な文脈に依存しない概要が欠落している。 本稿では,この文脈に動機づけられ,二次研究の体系的文献レビューを通して,対話型エージェント研究の現状について概説する。 本研究は,最近の文献から得られた知識を,様々な領域,研究の焦点,文脈において明確に提示することで,徹底的な視点を育むように設計されている。 そこで本研究では,対話エージェントの分野における異なる次元の包括的分類法を提案し,研究者を支援するとともに,自然言語インタフェースの分野における今後の研究の基盤となることを期待する。

The use of natural language interfaces in the field of human-computer interaction is undergoing intense study through dedicated scientific and industrial research. The latest contributions in the field, including deep learning approaches like recurrent neural networks, the potential of context-aware strategies and user-centred design approaches, have brought back the attention of the community to software-based dialogue systems, generally known as conversational agents or chatbots. Nonetheless, and given the novelty of the field, a generic, context-independent overview on the current state of research of conversational agents covering all research perspectives involved is missing. Motivated by this context, this paper reports a survey of the current state of research of conversational agents through a systematic literature review of secondary studies. The conducted research is designed to develop an exhaustive perspective through a clear presentation of the aggregated knowledge published by recent literature within a variety of domains, research focuses and contexts. As a result, this research proposes a holistic taxonomy of the different dimensions involved in the conversational agents' field, which is expected to help researchers and to lay the groundwork for future research in the field of natural language interfaces.
翻訳日:2021-06-22 15:25:49 公開日:2021-06-21
# iDARTS:確率的命令勾配を用いた微分可能なアーキテクチャ探索

iDARTS: Differentiable Architecture Search with Stochastic Implicit Gradients ( http://arxiv.org/abs/2106.10784v1 )

ライセンス: Link先を確認
Miao Zhang, Steven Su, Shirui Pan, Xiaojun Chang, Ehsan Abbasnejad, Reza Haffari(参考訳) \textit{Differentiable ARchiTecture Search} (DARTS)は、その効率性と単純さから、最近、ニューラルアーキテクチャサーチ(NAS)の主流となっている。 勾配に基づく双レベル最適化により、DARTSは重み共有スーパーネットにおける内部モデル重みと外部アーキテクチャパラメータを交互に最適化する。 学習したアーキテクチャのスケーラビリティと品質に対する重要な課題は、インナーループ最適化による差別化の必要性である。 DARTSのいくつかの致命的な要因、すなわちアーキテクチャ勾配について多くの議論がなされてきた。 過度に緩やかに 注目は減りました 本稿では,暗黙の関数定理に基づくDARTSの過次計算に取り組み,インナーループ最適化の解にのみ依存し,最適化経路に非依存であることを示す。 さらに計算要求を減らし,微分可能なNASに対する確率的過次近似を定式化し,iDARTSという手法を用いたアーキテクチャ最適化が定常点に収束することを理論的に示す。 2つのNASベンチマーク検索空間と共通のNAS検索空間に関する総合的な実験により,提案手法の有効性が検証された。 アーキテクチャは、ベースラインメソッドによって学習された大きなマージンで、パフォーマンスを向上します。

\textit{Differentiable ARchiTecture Search} (DARTS) has recently become the mainstream of neural architecture search (NAS) due to its efficiency and simplicity. With a gradient-based bi-level optimization, DARTS alternately optimizes the inner model weights and the outer architecture parameter in a weight-sharing supernet. A key challenge to the scalability and quality of the learned architectures is the need for differentiating through the inner-loop optimisation. While much has been discussed about several potentially fatal factors in DARTS, the architecture gradient, a.k.a. hypergradient, has received less attention. In this paper, we tackle the hypergradient computation in DARTS based on the implicit function theorem, making it only depends on the obtained solution to the inner-loop optimization and agnostic to the optimization path. To further reduce the computational requirements, we formulate a stochastic hypergradient approximation for differentiable NAS, and theoretically show that the architecture optimization with the proposed method, named iDARTS, is expected to converge to a stationary point. Comprehensive experiments on two NAS benchmark search spaces and the common NAS search space verify the effectiveness of our proposed method. It leads to architectures outperforming, with large margins, those learned by the baseline methods.
翻訳日:2021-06-22 15:23:57 公開日:2021-06-21
# LSTMを用いた経路重み付けによるグラフ注意ネットワーク

Graph Attention Networks with LSTM-based Path Reweighting ( http://arxiv.org/abs/2106.10866v1 )

ライセンス: Link先を確認
Jianpeng Chen, Yujing Wang, Ming Zeng, Zongyi Xiang, Yazhou Ren(参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データのマイニングに広く利用されている。 しかし、従来のGNNは、過度なスムース、非破壊性、過度に適合する問題に悩まされている。 これらの弱点を解決するために,新しいgnnソリューション,すなわちlstmベースのパス重み付け(pr-gat)を用いたグラフアテンションネットワークを設計した。 PR-GATは自動的に複数のホップ情報を集約し、重要な経路をハイライトし、ノイズを除去する。 さらに,PR-GATにおけるランダムパスサンプリングをデータ拡張に活用する。 拡張データは、対応するラベルの分布を予測するために使用される。 最後に,PR-GATが過度なスムース,非ロバスト性,過度な適合の問題を緩和できることを示す。 7つのデータセットのうち5つが最先端の精度であり、他の2つのデータセットが競合する精度である。 7つのデータセットの平均精度は、文献の最高のSOTAよりも0.55%向上している。

Graph Neural Networks (GNNs) have been extensively used for mining graph-structured data with impressive performance. However, traditional GNNs suffer from over-smoothing, non-robustness and over-fitting problems. To solve these weaknesses, we design a novel GNN solution, namely Graph Attention Network with LSTM-based Path Reweighting (PR-GAT). PR-GAT can automatically aggregate multi-hop information, highlight important paths and filter out noises. In addition, we utilize random path sampling in PR-GAT for data augmentation. The augmented data is used for predicting the distribution of corresponding labels. Finally, we demonstrate that PR-GAT can mitigate the issues of over-smoothing, non-robustness and overfitting. We achieve state-of-the-art accuracy on 5 out of 7 datasets and competitive accuracy for other 2 datasets. The average accuracy of 7 datasets have been improved by 0.5\% than the best SOTA from literature.
翻訳日:2021-06-22 15:23:38 公開日:2021-06-21
# FedCM: クライアントレベルのモメンタムによるフェデレーション学習

FedCM: Federated Learning with Client-level Momentum ( http://arxiv.org/abs/2106.10874v1 )

ライセンス: Link先を確認
Jing Xu, Sen Wang, Liwei Wang, Andrew Chi-Chih Yao(参考訳) Federated Learningは、データ共有なしでモデルトレーニングを可能にする分散機械学習アプローチである。 本稿では,実世界のフェデレーション学習アプリケーションにおいて,部分的参加とクライアントの不均一性の問題に取り組むために,クライアントレベルモメンタム(fedcm)を用いたフェデレーション平均化手法を提案する。 FedCMは、以前の通信ラウンドにおけるグローバルな勾配情報を集約し、モーメントのような用語でクライアントの勾配降下を修正し、バイアスを効果的に補正し、局所的なSGDの安定性を向上させる。 fedcmの利点を強調するために理論的分析を行う。 また,feedcmが様々なタスクにおいて優れた性能を達成し,クライアント数,参加率,クライアントの不均一性といったさまざまなレベルに対して堅牢であることを実証した。

Federated Learning is a distributed machine learning approach which enables model training without data sharing. In this paper, we propose a new federated learning algorithm, Federated Averaging with Client-level Momentum (FedCM), to tackle problems of partial participation and client heterogeneity in real-world federated learning applications. FedCM aggregates global gradient information in previous communication rounds and modifies client gradient descent with a momentum-like term, which can effectively correct the bias and improve the stability of local SGD. We provide theoretical analysis to highlight the benefits of FedCM. We also perform extensive empirical studies and demonstrate that FedCM achieves superior performance in various tasks and is robust to different levels of client numbers, participation rate and client heterogeneity.
翻訳日:2021-06-22 15:23:25 公開日:2021-06-21
# ポジティブデータとラベルなしデータによるフェデレーション学習

Federated Learning with Positive and Unlabeled Data ( http://arxiv.org/abs/2106.10904v1 )

ライセンス: Link先を確認
Xinyang Lin, Hanting Chen, Yixing Xu, Chao Xu, Xiaolin Gui, Yiping Deng, Yunhe Wang(参考訳) 我々は、各クライアントがリソースと時間の制限のためにデータセットのごく一部のみをラベル付けするフェデレーション環境で、正およびラベルなし(PU)データから学習する問題を調査する。 負のクラスが単一のクラスで構成されている従来のPU学習の設定とは異なり、フェデレートされた設定でクライアントによって識別できない負のサンプルは、クライアントに未知の複数のクラスから来ることがある。 そのため、この状況では既存のPU学習手法をほとんど適用できない。 そこで,本研究では,ラベル付きデータを他のクライアントで活用することで,複数の否定クラスが想定されるリスクを最小限に抑えるための新しいフレームワーク,federated learning with positive and unlabeled data (fedpu)を提案する。 理論上、提案されたfeedpu は完全教師付きモデルの $c\sqrt{c}$ times (ここで $c$ はクラス数を表す) 以下の一般化を実現できることを証明している。 実証実験により、FedPUは前向きなデータしか利用できない従来の学習方法よりもはるかに優れた性能が得られることが示された。

We study the problem of learning from positive and unlabeled (PU) data in the federated setting, where each client only labels a little part of their dataset due to the limitation of resources and time. Different from the settings in traditional PU learning where the negative class consists of a single class, the negative samples which cannot be identified by a client in the federated setting may come from multiple classes which are unknown to the client. Therefore, existing PU learning methods can be hardly applied in this situation. To address this problem, we propose a novel framework, namely Federated learning with Positive and Unlabeled data (FedPU), to minimize the expected risk of multiple negative classes by leveraging the labeled data in other clients. We theoretically prove that the proposed FedPU can achieve a generalization bound which is no worse than $C\sqrt{C}$ times (where $C$ denotes the number of classes) of the fully-supervised model. Empirical experiments show that the FedPU can achieve much better performance than conventional learning methods which can only use positive data.
翻訳日:2021-06-22 15:23:11 公開日:2021-06-21
# 測度保存ニューラルネットワークの近似能力

Approximation capabilities of measure-preserving neural networks ( http://arxiv.org/abs/2106.10911v1 )

ライセンス: Link先を確認
Aiqing Zhu, Pengzhan Jin, Yifa Tang(参考訳) 測定保存ニューラルネットワークはよく発達した可逆モデルであるが、近似能力は未探索のままである。 本稿では,測度保存ニューラルネットワークを用いた測度保存マップの一般的な条件を厳格に確立する。 d\geq 2$ のコンパクトな $u \subset \r^d$ に対して、すべての測度保存写像 $\psi: u\to \r^d$ は単射で有界であり、測度保存ニューラルネットワークによって $l^p$-norm で近似できる。 具体的には、$\pm 1$ のジャコビアン行列式を持つ微分可能写像は測度保存、単射、$u$ 上の有界であり、従って近似性を持つ。

Measure-preserving neural networks are well-developed invertible models, however, the approximation capabilities remain unexplored. This paper rigorously establishes the general sufficient conditions for approximating measure-preserving maps using measure-preserving neural networks. It is shown that for compact $U \subset \R^D$ with $D\geq 2$, every measure-preserving map $\psi: U\to \R^D$ which is injective and bounded can be approximated in the $L^p$-norm by measure-preserving neural networks. Specifically, the differentiable maps with $\pm 1$ determinants of Jacobians are measure-preserving, injective and bounded on $U$, thus hold the approximation property.
翻訳日:2021-06-22 15:22:54 公開日:2021-06-21
# 電気自動車充電需要の時空間予測

Deep Spatio-Temporal Forecasting of Electrical Vehicle Charging Demand ( http://arxiv.org/abs/2106.10940v1 )

ライセンス: Link先を確認
Frederik Boe H\"uttel, Inon Peled, Filipe Rodrigues and Francisco C. Pereira(参考訳) 電気自動車は、上昇傾向を逆転させる低炭素排出ソリューションを提供することができる。 しかし、これは需要を満たすのに使用されるエネルギーが緑色であることが要求される。 この要件を満たすためには、充電需要の正確な予測が不可欠である。 短期および長期の充電需要予測は、電力網の最適化と将来のインフラ拡張を可能にするだろう。 本稿では,電気自動車の充電需要を予測するために,公開データを利用することを提案する。 充電ステーション間の複雑な空間的時間的相関をモデル化するために、時間的グラフ畳み込みモデルは相関を捉えるのに最も適していると論じる。 提案した時間グラフ畳み込みネットワークは,他の予測手法と比較して,短期および長期予測において最も正確な予測を提供する。

Electric vehicles can offer a low carbon emission solution to reverse rising emission trends. However, this requires that the energy used to meet the demand is green. To meet this requirement, accurate forecasting of the charging demand is vital. Short and long-term charging demand forecasting will allow for better optimisation of the power grid and future infrastructure expansions. In this paper, we propose to use publicly available data to forecast the electric vehicle charging demand. To model the complex spatial-temporal correlations between charging stations, we argue that Temporal Graph Convolution Models are the most suitable to capture the correlations. The proposed Temporal Graph Convolutional Networks provide the most accurate forecasts for short and long-term forecasting compared with other forecasting methods.
翻訳日:2021-06-22 15:22:34 公開日:2021-06-21
# フレンドリーなトレーニング:ニューラルネットワークがデータに適応して学習を容易にする

Friendly Training: Neural Networks Can Adapt Data To Make Learning Easier ( http://arxiv.org/abs/2106.10974v1 )

ライセンス: Link先を確認
Simone Marullo, Matteo Tiezzi, Marco Gori, Stefano Melacci(参考訳) この10年間で、Deep Learningの成功に動機づけられた科学コミュニティは、ニューラルネットワークの学習手順をより効果的にするためのいくつかのアプローチを提案した。 学習機械にトレーニングデータを提供する方法に焦点を合わせると、確率的勾配に基づく最適化の古典的なランダムな選択と、データを整理するキュリキュラを考案するより複雑なテクニックを区別し、トレーニングセットの複雑さを徐々に増すことができる。 本稿では,前述した手法と異なり,モデルが学習基準を満たすのを助けるために,トレーニング例を変更することを含む,フレンドリートレーニングという新しいトレーニング手順を提案する。 このモデルは、トレーニング手順の特定の段階で分類するのが難しい例を単純化することが許されている。 データ変換は、トレーニング中に徐々に影響を減らし、完全に消滅するまで、開発計画によって制御されます。 ある意味では、これは敵の例、すなわち敵の訓練に対する堅牢性を高めるために一般的に行われていることとは逆である。 複数のデータセットに関する実験を行い、特に深い畳み込みアーキテクチャにおいて、インフォームドデータ選択ルーチンとランダム選択に関して、フレンドリーなトレーニングが改善をもたらすことを示した。 その結果,入力データの適応は学習を安定させ,ネットワークの一般化スキルを向上させるための有効な方法であることが示唆された。

In the last decade, motivated by the success of Deep Learning, the scientific community proposed several approaches to make the learning procedure of Neural Networks more effective. When focussing on the way in which the training data are provided to the learning machine, we can distinguish between the classic random selection of stochastic gradient-based optimization and more involved techniques that devise curricula to organize data, and progressively increase the complexity of the training set. In this paper, we propose a novel training procedure named Friendly Training that, differently from the aforementioned approaches, involves altering the training examples in order to help the model to better fulfil its learning criterion. The model is allowed to simplify those examples that are too hard to be classified at a certain stage of the training procedure. The data transformation is controlled by a developmental plan that progressively reduces its impact during training, until it completely vanishes. In a sense, this is the opposite of what is commonly done in order to increase robustness against adversarial examples, i.e., Adversarial Training. Experiments on multiple datasets are provided, showing that Friendly Training yields improvements with respect to informed data sub-selection routines and random selection, especially in deep convolutional architectures. Results suggest that adapting the input data is a feasible way to stabilize learning and improve the generalization skills of the network.
翻訳日:2021-06-22 15:22:24 公開日:2021-06-21
# 転炉学習によるシェールガス生産予測の改善に向けて

Towards Better Shale Gas Production Forecasting Using Transfer Learning ( http://arxiv.org/abs/2106.11051v1 )

ライセンス: Link先を確認
Omar S. Alolayan, Samuel J. Raymond, Justin B. Montgomery and John R. Williams(参考訳) ディープニューラルネットワークは、転送学習を利用することで、限られたサンプル井戸数を持つ郡でより正確なシェールガス生産予測を生成することができる。 本稿では、隣接する郡で訓練された他のディープニューラルネットワークモデルから得られた知識を、関心のある郡に転送する方法を提供する。 この論文は、テキサス・バーネットとペンシルバニア・マーセルス・シェール・フォーメーションから17郡にまたがる6000以上のシェールガス井戸のデータを使って、トランスファーラーニングの能力をテストする。 その結果,Arps減少曲線モデルと比較すると,予測誤差は11%から47%に減少した。

Deep neural networks can generate more accurate shale gas production forecasts in counties with a limited number of sample wells by utilizing transfer learning. This paper provides a way of transferring the knowledge gained from other deep neural network models trained on adjacent counties into the county of interest. The paper uses data from more than 6000 shale gas wells across 17 counties from Texas Barnett and Pennsylvania Marcellus shale formations to test the capabilities of transfer learning. The results reduce the forecasting error between 11% and 47% compared to the widely used Arps decline curve model.
翻訳日:2021-06-22 15:22:02 公開日:2021-06-21
# ユニモーダル教師によるマルチモーダル学習の改善

Improving Multi-Modal Learning with Uni-Modal Teachers ( http://arxiv.org/abs/2106.11059v1 )

ライセンス: Link先を確認
Chenzhuang Du, Tingle Li, Yichen Liu, Zixin Wen, Tianyu Hua, Yue Wang, Hang Zhao(参考訳) マルチモーダル表現の学習は,実世界のロボット応用に向けた重要なステップであり,そのために様々なマルチモーダル融合モデルが開発されている。 しかし, 既存のモデルでは, ほとんどが共同学習に基づくモデルであり, それぞれのモダリティの劣等な表現の学習に苦しむことが多い。 この問題モダリティの失敗を命名し、融合法におけるモダリティの不均衡と共通の目的の暗黙のバイアスは、各モダリティのエンコーダが十分な特徴学習を妨げると仮定する。 そこで本研究では, 融合目的とユニモーダル蒸留を組み合わせたマルチモーダル学習法であるuni-modal teacherを提案する。 提案手法は各モードの表現を劇的に改善するだけでなく,全体のマルチモーダルタスク性能も向上することを示す。 我々の方法は、ほとんどのマルチモーダル融合アプローチに効果的に一般化することができる。 我々は、VGGSound音声視覚分類タスクにおいて3%以上の改善を達成し、NYU深度V2 RGB-D画像セグメンテーションタスクの性能を改善した。

Learning multi-modal representations is an essential step towards real-world robotic applications, and various multi-modal fusion models have been developed for this purpose. However, we observe that existing models, whose objectives are mostly based on joint training, often suffer from learning inferior representations of each modality. We name this problem Modality Failure, and hypothesize that the imbalance of modalities and the implicit bias of common objectives in fusion method prevent encoders of each modality from sufficient feature learning. To this end, we propose a new multi-modal learning method, Uni-Modal Teacher, which combines the fusion objective and uni-modal distillation to tackle the modality failure problem. We show that our method not only drastically improves the representation of each modality, but also improves the overall multi-modal task performance. Our method can be effectively generalized to most multi-modal fusion approaches. We achieve more than 3% improvement on the VGGSound audio-visual classification task, as well as improving performance on the NYU depth V2 RGB-D image segmentation task.
翻訳日:2021-06-22 15:21:51 公開日:2021-06-21
# 相互作用系の条件付きニューラルリレーショナル推論

Conditional Neural Relational Inference for Interacting Systems ( http://arxiv.org/abs/2106.11083v1 )

ライセンス: Link先を確認
Joao A. Candido Ramos, Lionel Blond\'e, St\'ephane Armand and Alexandros Kalousis(参考訳) この研究では、類似しているが異なる相互作用するオブジェクトのグループのダイナミクスをモデル化することを学びたい。 これらの群は、ベクトル記述によって捕獲される特異性を示すいくつかの一般的な物理法則に従う。 ベクトル記述を前提として,任意の群から条件付き生成を行うことができるモデルを開発した。 軌道完了のみ可能で、軌道ダイナミクスの一部を生成時の入力として提供する必要がある以前の力学系の学習と異なり、私たちは生成時間の軌跡へのアクセスのない条件付きベクトルのみを使用して生成する。 我々は,人間の歩行,特に病的歩行のモデル化において,モデルを評価する。

In this work, we want to learn to model the dynamics of similar yet distinct groups of interacting objects. These groups follow some common physical laws that exhibit specificities that are captured through some vectorial description. We develop a model that allows us to do conditional generation from any such group given its vectorial description. Unlike previous work on learning dynamical systems that can only do trajectory completion and require a part of the trajectory dynamics to be provided as input in generation time, we do generation using only the conditioning vector with no access to generation time's trajectories. We evaluate our model in the setting of modeling human gait and, in particular pathological human gait.
翻訳日:2021-06-22 15:21:31 公開日:2021-06-21
# 跳躍パターン可視化による多変量データ記述

Multivariate Data Explanation by Jumping Emerging Patterns Visualization ( http://arxiv.org/abs/2106.11112v1 )

ライセンス: Link先を確認
M\'ario Popolin Neto and Fernando V. Paulovich(参考訳) visual analytics (va)のツールやテクニックは、より優れた分類モデルの構築、モデル決定の解釈、監査結果の支援に役立つことが示されている。 異なる方向において、VAは予測ではなく、分類モデルを記述的なメカニズムに変換するために最近応用されている。 データパターンの代理としてそのようなモデルを使用し、データによって表される現象を理解するためにモデルを視覚化する。 非常に有用で刺激的なアプローチがいくつか提案されているが、単純な解釈を促進するために低複雑な分類モデルを使用することを選択し、複雑なデータパターンを捉えるための制限を提示している。 本稿では,多変量データセットにおけるパターンの識別と視覚的解釈を支援する新しいVA法であるVAX(multiVariate dAta eXplanation)を提案する。 既存の類似のアプローチとは異なり、VAXはJumping Emerging Patternsという概念を使って、複数の多様化したパターンを特定し、集約し、データ変数のロジックの組み合わせを通して説明を生成する。 複雑な多変量データセットを解釈するvaxのポテンシャルは、異なるシナリオをカバーする2つの実世界のデータセットを用いた研究によって実証される。

Visual Analytics (VA) tools and techniques have shown to be instrumental in supporting users to build better classification models, interpret model decisions and audit results. In a different direction, VA has recently been applied to transform classification models into descriptive mechanisms instead of predictive. The idea is to use such models as surrogates for data patterns, visualizing the model to understand the phenomenon represented by the data. Although very useful and inspiring, the few proposed approaches have opted to use low complex classification models to promote straightforward interpretation, presenting limitations to capture intricate data patterns. In this paper, we present VAX (multiVariate dAta eXplanation), a new VA method to support the identification and visual interpretation of patterns in multivariate data sets. Unlike the existing similar approaches, VAX uses the concept of Jumping Emerging Patterns to identify and aggregate several diversified patterns, producing explanations through logic combinations of data variables. The potential of VAX to interpret complex multivariate datasets is demonstrated through study-cases using two real-world data sets covering different scenarios.
翻訳日:2021-06-22 15:21:18 公開日:2021-06-21
# ニューラルネットワーク最適化のためのマトリックス符号化ネットワーク

Matrix Encoding Networks for Neural Combinatorial Optimization ( http://arxiv.org/abs/2106.11113v1 )

ライセンス: Link先を確認
Yeong-Dae Kwon, Jinho Choo, Iljoo Yoon, Minah Park, Duwon Park, Youngjune Gwon(参考訳) 機械学習(ML)は組合せ最適化(CO)問題を解決するのに役立つ。 一般的なアプローチは、与えられたCO問題のパラメータをニューラルネットで計算し、優れた解を探すための有用な情報を抽出することである。 実用上重要な多くのco問題は、2つの群間の関係を定量化するパラメータの行列形式で特定できる。 しかし、現在ではそのような行列式関係データを入力として取り込むニューラルネットモデルはない。 その結果、この種のCO問題はMLエンジニアには届かなかった。 本稿では,マトリクス符号化ネットワーク(matnet)を紹介し,そのような複雑なco問題のパラメータの処理にどの程度便利かを示す。 MatNetに基づくエンドツーエンドモデルを用いて、非対称走行セールスマン(ATSP)とフレキシブルフローショップ(FFSP)の問題を最初期のニューラルネットワークとして解決する。 特に、私たちがMatchNetでテストしたFFSPのクラスでは、現在知られているどのメソッド(神経か、そうでないか)よりもはるかに優れた経験的パフォーマンスを示します。

Machine Learning (ML) can help solve combinatorial optimization (CO) problems better. A popular approach is to use a neural net to compute on the parameters of a given CO problem and extract useful information that guides the search for good solutions. Many CO problems of practical importance can be specified in a matrix form of parameters quantifying the relationship between two groups of items. There is currently no neural net model, however, that takes in such matrix-style relationship data as an input. Consequently, these types of CO problems have been out of reach for ML engineers. In this paper, we introduce Matrix Encoding Network (MatNet) and show how conveniently it takes in and processes parameters of such complex CO problems. Using an end-to-end model based on MatNet, we solve asymmetric traveling salesman (ATSP) and flexible flow shop (FFSP) problems as the earliest neural approach. In particular, for a class of FFSP we have tested MatNet on, we demonstrate a far superior empirical performance to any methods (neural or not) known to date.
翻訳日:2021-06-22 15:21:00 公開日:2021-06-21
# 正則化は必要なすべてだ:単純なニューラルネットワークは表データに優れている

Regularization is all you Need: Simple Neural Nets can Excel on Tabular Data ( http://arxiv.org/abs/2106.11189v1 )

ライセンス: Link先を確認
Arlind Kadra, Marius Lindauer, Frank Hutter, Josif Grabocka(参考訳) タブラルデータセットはディープラーニングのための最後の"不整合キャッスル"であり、Gradient-Boosted Decision Treeのような従来のMLメソッドは、最近の特殊なニューラルネットワークアーキテクチャに対してさえ強く機能している。 本稿では,ニューラルネットワークの性能向上の鍵は,多数の現代的な正規化手法の結合と同時適用を再考することにある,という仮説を立てる。 その結果,正則化器が適用すべき決定とその補助パラメータに対して共同最適化を行い,各データセットに対する13の正則化手法の最適組み合わせ/カクテルを探索することにより,平板多層パーセプトロン(MLP)ネットワークの正則化を提案する。 我々は,MLPの正規化カクテルが40の表付きデータセットからなる大規模実証研究に与える影響を実証的に評価し,(i)高度に規則化されたプレーンなMLが最近の最先端の専門的ニューラルネットワークアーキテクチャを著しく上回り,(ii)XGBoostのような強力なML手法よりも優れていることを示す。

Tabular datasets are the last "unconquered castle" for deep learning, with traditional ML methods like Gradient-Boosted Decision Trees still performing strongly even against recent specialized neural architectures. In this paper, we hypothesize that the key to boosting the performance of neural networks lies in rethinking the joint and simultaneous application of a large set of modern regularization techniques. As a result, we propose regularizing plain Multilayer Perceptron (MLP) networks by searching for the optimal combination/cocktail of 13 regularization techniques for each dataset using a joint optimization over the decision on which regularizers to apply and their subsidiary hyperparameters. We empirically assess the impact of these regularization cocktails for MLPs on a large-scale empirical study comprising 40 tabular datasets and demonstrate that (i) well-regularized plain MLPs significantly outperform recent state-of-the-art specialized neural network architectures, and (ii) they even outperform strong traditional ML methods, such as XGBoost.
翻訳日:2021-06-22 15:20:44 公開日:2021-06-21
# AOMD:ソーシャルメディア上での攻撃的ミーム検出のためのアナロジー対応アプローチ

AOMD: An Analogy-aware Approach to Offensive Meme Detection on Social Media ( http://arxiv.org/abs/2106.11229v1 )

ライセンス: Link先を確認
Lanyu Shang, Yang Zhang, Yuheng Zha, Yingxi Chen, Christina Youn, Dong Wang(参考訳) 本稿では,オンラインソーシャルメディア上でのアグレッシブ・アナロジー・ミームの検出において,視覚コンテンツとミームのテキスト・字幕を併用してアグレッシブ情報を伝達する重要な課題について述べる。 既存の攻撃的ミーム検出ソリューションは、しばしばミームの視覚的内容とテキスト的内容の間の暗黙的な関係を無視し、攻撃的類似ミームを特定するのに不十分である。 攻撃的アナロジーミームを正確に検出する上で2つの重要な課題が存在する: i) ミームによって暗黙的に伝達されるアナロジーを捉えることは自明ではない; i) ミーム内の異なるデータモダリティ間で複雑なアナロジーを効果的に整合させることも困難である。 このような課題に対処するため,我々は,ミームのマルチモーダルな内容から暗黙的な類似を学習し,攻撃的類似を効果的に検出する,深層学習に基づくAOMD(Analogy-aware Offensive Meme Detection)フレームワークを開発した。 オンラインソーシャルメディアから2つの実世界のデータセット上でAOMDを評価する。 評価結果から,AOMDは,攻撃的アナログミームをより正確に検出することにより,最先端のベースラインと比較して高い性能向上を達成することが示された。

This paper focuses on an important problem of detecting offensive analogy meme on online social media where the visual content and the texts/captions of the meme together make an analogy to convey the offensive information. Existing offensive meme detection solutions often ignore the implicit relation between the visual and textual contents of the meme and are insufficient to identify the offensive analogy memes. Two important challenges exist in accurately detecting the offensive analogy memes: i) it is not trivial to capture the analogy that is often implicitly conveyed by a meme; ii) it is also challenging to effectively align the complex analogy across different data modalities in a meme. To address the above challenges, we develop a deep learning based Analogy-aware Offensive Meme Detection (AOMD) framework to learn the implicit analogy from the multi-modal contents of the meme and effectively detect offensive analogy memes. We evaluate AOMD on two real-world datasets from online social media. Evaluation results show that AOMD achieves significant performance gains compared to state-of-the-art baselines by detecting offensive analogy memes more accurately.
翻訳日:2021-06-22 15:20:21 公開日:2021-06-21
# 遅延フィードバックによる円滑な逐次最適化

Smooth Sequential Optimisation with Delayed Feedback ( http://arxiv.org/abs/2106.11294v1 )

ライセンス: Link先を確認
Srivas Chennu, Jamie Martin, Puli Liyanagama, Phil Mohr(参考訳) フィードバックの確率的遅延は、マルチアームのバンディットを用いた不安定な逐次学習につながる。 近年,経験的ベイズ縮小はバンディット学習における報酬推定を改善することが示されている。 本稿では,遅延フィードバックと非定常報酬による不完全な知識に対処するため,窓付き累積入力からの報酬推定を円滑に見積もる,新しい縮小適応を提案する。 数値シミュレーションを用いて, この適応が収縮の利点を保ち, 報酬推定の安定性を50%以上向上させることを示した。 提案手法は, 最善の腕への治療割り当ての変動を最大3.8倍削減し, 統計的精度を最大8%改善し, 37%の偽陽性率を低下させる。 これらの利点は、速度と適応の安定性の間のトレードオフを制御し、ループ内シーケンシャル最適化を容易にする。

Stochastic delays in feedback lead to unstable sequential learning using multi-armed bandits. Recently, empirical Bayesian shrinkage has been shown to improve reward estimation in bandit learning. Here, we propose a novel adaptation to shrinkage that estimates smoothed reward estimates from windowed cumulative inputs, to deal with incomplete knowledge from delayed feedback and non-stationary rewards. Using numerical simulations, we show that this adaptation retains the benefits of shrinkage, and improves the stability of reward estimation by more than 50%. Our proposal reduces variability in treatment allocations to the best arm by up to 3.8x, and improves statistical accuracy - with up to 8% improvement in true positive rates and 37% reduction in false positive rates. Together, these advantages enable control of the trade-off between speed and stability of adaptation, and facilitate human-in-the-loop sequential optimisation.
翻訳日:2021-06-22 15:19:58 公開日:2021-06-21
# datalog$^\neg$による解消可能な推論

Defeasible Reasoning via Datalog$^\neg$ ( http://arxiv.org/abs/2106.10946v1 )

ライセンス: Link先を確認
Michael J. Maher(参考訳) 我々は,datalog$^\neg$ プログラムに難解な理論をコンパイルする問題に対処する。 このコンパイルの正確性は、defeasible logic $dl(\partial_{||})$ に対して証明するが、我々が使用する技法は、他の多くのdefeasible logicに適用される。 $dl(\partial_{||})$の構造的性質は、他の相反論理と比較して、論理における相反する理論の帰結の効率的な実装と/または近似をサポートする。 私たちはまた、不完全なdatalog$^\neg$の実装に適応するために、論理プログラムの構造的特性もよく研究しました。

We address the problem of compiling defeasible theories to Datalog$^\neg$ programs. We prove the correctness of this compilation, for the defeasible logic $DL(\partial_{||})$, but the techniques we use apply to many other defeasible logics. Structural properties of $DL(\partial_{||})$ are identified that support efficient implementation and/or approximation of the conclusions of defeasible theories in the logic, compared with other defeasible logics. We also use previously well-studied structural properties of logic programs to adapt to incomplete Datalog$^\neg$ implementations.
翻訳日:2021-06-22 15:18:57 公開日:2021-06-21
# バイリンガル音声合成のための非ネイティブ英語語彙生成

Non-native English lexicon creation for bilingual speech synthesis ( http://arxiv.org/abs/2106.10870v1 )

ライセンス: Link先を確認
Arun Baby, Pranav Jawale, Saranya Vinnaitherthan, Sumukh Badam, Nagaraj Adiga, Sharath Adavanne(参考訳) バイリンガル英語話者は彼らの言語の1つとして英語を話します。 彼らの英語は非ネイティブであり、彼らの会話はコードミキシング方式である。 非ネイティブな英語話者に対するバイリンガルテキスト音声(TTS)システムの知性は、非ネイティブな話者が使用する音素配列をキャプチャする語彙に依存する。 しかし、非ネイティブな英語語彙が欠如しているため、既存のバイリンガル TTS システムは、母語語彙に加えて、広く利用できる英語語彙を使用している。 音声中の非ネイティブ英語発音とテキスト中のネイティブ英語語彙の矛盾により、このようなTSシステムにおける合成音声の理解性が著しく低下する。 本論文は、話者の母国語が非母国英語の発音に強い影響を与えるという知識に動機付けられている。 本稿では,母語英語の語彙を非母語バージョンにマッピングするために,音素アライメントに対する文字に基づく規則を得るための汎用的手法を提案する。 このようなマッピングの有効性は、提案した規則と無条件で訓練されたバイリンガル (インド英語とヒンディー語) TTS システムを比較して検討する。 主観評価の結果,非母語英語レキシコン規則で学習したバイリンガルttsシステムは,6%の絶対的嗜好改善が得られた。

Bilingual English speakers speak English as one of their languages. Their English is of a non-native kind, and their conversations are of a code-mixed fashion. The intelligibility of a bilingual text-to-speech (TTS) system for such non-native English speakers depends on a lexicon that captures the phoneme sequence used by non-native speakers. However, due to the lack of non-native English lexicon, existing bilingual TTS systems employ native English lexicons that are widely available, in addition to their native language lexicon. Due to the inconsistency between the non-native English pronunciation in the audio and native English lexicon in the text, the intelligibility of synthesized speech in such TTS systems is significantly reduced. This paper is motivated by the knowledge that the native language of the speaker highly influences non-native English pronunciation. We propose a generic approach to obtain rules based on letter to phoneme alignment to map native English lexicon to their non-native version. The effectiveness of such mapping is studied by comparing bilingual (Indian English and Hindi) TTS systems trained with and without the proposed rules. The subjective evaluation shows that the bilingual TTS system trained with the proposed non-native English lexicon rules obtains a 6% absolute improvement in preference.
翻訳日:2021-06-22 15:18:44 公開日:2021-06-21
# 抽象幾何計算11:信号機における傾斜射撃部隊同期

Abstract Geometrical Computation 11: Slanted Firing Squad Synchronisation on Signal Machines ( http://arxiv.org/abs/2106.11176v1 )

ライセンス: Link先を確認
J\'er\^ome Durand-Lose and Aur\'elien Emmanuel(参考訳) セルオートマトン上での発射部隊同期は、その範囲を事前に知ることなく、有限個のセルの動的同期である。 これは無限の速度を持つ信号と見なすことができる。 提案された構成の多くは信号機の連続的な設定に自然に変換され、水平線上に蓄積したフラクタルフィギュアを生成する。 同期的に、時空図で。 信号機は抽象幾何学計算と呼ばれる一連の論文で研究されている。 本稿では,任意の非無限斜面上で同期・蓄積可能な信号機を設計する。 斜面は初期配置で符号化される。 これは、各ノードがツリーの展開の仕方を計算するような無限木を構築することによって行われる。 抽象幾何学計算の関心は、連続空間からの新たな困難に対処しながら、離散空間の制約を取り除くことである。 特に本論文は,信号機械モデルにおける計算可能集積線のさらなる研究のための基本的なツールを提供することを目的とする。

Firing Squad Synchronisation on Cellular Automata is the dynamical synchronisation of finitely many cells without any prior knowledge of their range. This can be conceived as a signal with an infinite speed. Most of the proposed constructions naturally translate to the continuous setting of signal machines and generate fractal figures with an accumulation on a horizontal line, i.e. synchronously, in the space-time diagram. Signal machines are studied in a series of articles named Abstract Geometrical Computation. In the present article, we design a signal machine that is able to synchronise/accumulate on any non-infinite slope. The slope is encoded in the initial configuration. This is done by constructing an infinite tree such that each node computes the way the tree expands. The interest of Abstract Geometrical computation is to do away with the constraint of discrete space, while tackling new difficulties from continuous space. The interest of this paper in particular is to provide basic tools for further study of computable accumulation lines in the signal machine model.
翻訳日:2021-06-22 15:18:21 公開日:2021-06-21
# 低ランク・スパースプリデント注入による教師なし深層学習

Unsupervised Deep Learning by Injecting Low-Rank and Sparse Priors ( http://arxiv.org/abs/2106.10923v1 )

ライセンス: Link先を確認
Tomoya Sakai(参考訳) 深層ニューラルネットワークがスパーシティ誘導優先から学べるとしたらどうだろう? ネットワークがレイヤーモジュール(CNN、RNNなど)を組み合わせることで設計される場合、エンジニアは、注釈付きトレーニングデータセット以外の既存のよく知られたルールや事前知識といった誘導バイアスをあまり利用しない。 我々は、ネットワークが教師なしの方法で高次元データの性質を簡潔に捉えることを奨励するために、深層学習に疎結合に先立って採用することに注力する。 非微分可能空間誘導ノルムを損失関数として使用するために、それらの近位写像を自動微分フレームワークにプラグインする。 背景減算のためのu-netの教師なし学習を低ランクとスパースプリミティブを用いて実演する。 U-Netは、アノテーションなしでトレーニングシーケンスで動くオブジェクトを学習し、テストシーケンスで前景オブジェクトを正常に検出できる。

What if deep neural networks can learn from sparsity-inducing priors? When the networks are designed by combining layer modules (CNN, RNN, etc), engineers less exploit the inductive bias, i.e., existing well-known rules or prior knowledge, other than annotated training data sets. We focus on employing sparsity-inducing priors in deep learning to encourage the network to concisely capture the nature of high-dimensional data in an unsupervised way. In order to use non-differentiable sparsity-inducing norms as loss functions, we plug their proximal mappings into the automatic differentiation framework. We demonstrate unsupervised learning of U-Net for background subtraction using low-rank and sparse priors. The U-Net can learn moving objects in a training sequence without any annotation, and successfully detect the foreground objects in test sequences.
翻訳日:2021-06-22 15:17:08 公開日:2021-06-21
# 画像再構成不確かさによるMRI画像品質の推定

Estimating MRI Image Quality via Image Reconstruction Uncertainty ( http://arxiv.org/abs/2106.10992v1 )

ライセンス: Link先を確認
Richard Shaw, Carole H. Sudre, Sebastien Ourselin, M. Jorge Cardoso(参考訳) 医用画像解析における品質管理(qc)は時間と労力がかかり、自動化手法への関心が高まる。 しかし、アルゴリズム処理に適した品質と見なされるものは、視覚品質の知覚指標とは異なる可能性がある。 本研究では,画像再構成の観点からMR画像の品質評価を行う。 我々は,不確実性モデルを用いてベイジアンCNNを訓練し,ノイズデータからクリーンな画像を復元し,予測の不確実性を評価する。 このフレームワークにより、データの破損を学習可能かつ非学習可能なコンポーネントに分割し、予測の不確実性を画像の達成可能な回復の推定として解釈することができる。 したがって,視覚評価における品質制御は,アルゴリズム処理における品質制御と同一視できない。 我々は,人工物回収と不確実性予測,灰白質セグメンテーションを組み合わせたマルチタスク実験において,このステートメントを検証する。 この視覚的品質とアルゴリズム的品質の区別を認識することは、下流のタスクによって、‘visual quality’の理由だけで、少ないデータを排除することができるという影響をもたらす。

Quality control (QC) in medical image analysis is time-consuming and laborious, leading to increased interest in automated methods. However, what is deemed suitable quality for algorithmic processing may be different from human-perceived measures of visual quality. In this work, we pose MR image quality assessment from an image reconstruction perspective. We train Bayesian CNNs using a heteroscedastic uncertainty model to recover clean images from noisy data, providing measures of uncertainty over the predictions. This framework enables us to divide data corruption into learnable and non-learnable components and leads us to interpret the predictive uncertainty as an estimation of the achievable recovery of an image. Thus, we argue that quality control for visual assessment cannot be equated to quality control for algorithmic processing. We validate this statement in a multi-task experiment combining artefact recovery with uncertainty prediction and grey matter segmentation. Recognising this distinction between visual and algorithmic quality has the impact that, depending on the downstream task, less data can be excluded based on ``visual quality" reasons alone.
翻訳日:2021-06-22 15:16:54 公開日:2021-06-21
# 移動ロボットにおけるLiDARによる人物検出のための領域とモダリティギャップ

Domain and Modality Gaps for LiDAR-based Person Detection on Mobile Robots ( http://arxiv.org/abs/2106.11239v1 )

ライセンス: Link先を確認
Dan Jia and Alexander Hermans and Bastian Leibe(参考訳) 人検出は人混みの環境での移動ロボットにとって重要なタスクであり、LiDARセンサーは正確な深度測定と視野の広さから、このタスクを約束している。 本稿では,移動ロボットのシナリオ(例)に着目した既存のLiDARに基づく人検出装置について検討する。 サービスロボットまたはソーシャルロボット) 運転シナリオと比較して、人がより頻繁に、より近い範囲で観察される。 最近リリースされたjackrabbotデータセットと,3dおよび2dlidarセンサ(centerpointとdr-spaam)に基づく最先端検出器を用いて,一連の実験を行った。 これらの実験は、3Dと2DのLiDARセンサー間のモダリティのギャップと同様に、運転と移動ロボットのシナリオ間の領域ギャップを取り巻く。 ドメインギャップのために、私たちは、運転データセットに事前訓練された検出器が、現在トレーニング済みのモデルがないモバイルロボットのシナリオにおいて、優れたパフォーマンスを達成することができるかどうかを理解することを目的としています。 モダリティギャップについては、性能、ランタイム、ローカライゼーション精度、レンジに対する堅牢性、混雑性など、様々な側面から、3Dまたは2D LiDARを使用する検出器を比較する。 実験の結果は,LiDARに基づく人物検出の実践的洞察を与え,関連する移動ロボットの設計と応用に関する情報決定を容易にする。

Person detection is a crucial task for mobile robots navigating in human-populated environments and LiDAR sensors are promising for this task, given their accurate depth measurements and large field of view. This paper studies existing LiDAR-based person detectors with a particular focus on mobile robot scenarios (e.g. service robot or social robot), where persons are observed more frequently and in much closer ranges, compared to the driving scenarios. We conduct a series of experiments, using the recently released JackRabbot dataset and the state-of-the-art detectors based on 3D or 2D LiDAR sensors (CenterPoint and DR-SPAAM respectively). These experiments revolve around the domain gap between driving and mobile robot scenarios, as well as the modality gap between 3D and 2D LiDAR sensors. For the domain gap, we aim to understand if detectors pretrained on driving datasets can achieve good performance on the mobile robot scenarios, for which there are currently no trained models readily available. For the modality gap, we compare detectors that use 3D or 2D LiDAR, from various aspects, including performance, runtime, localization accuracy, robustness to range and crowdedness. The results from our experiments provide practical insights into LiDAR-based person detection and facilitate informed decisions for relevant mobile robot designs and applications.
翻訳日:2021-06-22 15:16:37 公開日:2021-06-21
# EML Online Speech Activity Detection for the Fearless Steps Challenge-III

EML Online Speech Activity Detection for the Fearless Steps Challenge Phase-III ( http://arxiv.org/abs/2106.11075v1 )

ライセンス: Link先を確認
Omid Ghahabi, Volker Fischer(参考訳) 音声中の音声セグメントを同定する音声活動検出(sad)は、ほとんどの音声技術応用の主要な部分である。 ロバストSADは通常、信号対雑音比 (SNR) の異なる雑音条件下では困難である。 Fearless Stepsチャレンジは、SADを含むさまざまな音声処理タスクのために、NASAのアポロ11号ミッションからそのようなデータを最近提供した。 ほとんどのオーディオ録音は、チャンネル内およびチャンネル間で異なる種類のノイズレベルによって劣化する。 本稿では,この課題の最新段階のEMLオンラインアルゴリズムについて述べる。 提案アルゴリズムは教師なしと教師なしの両方で訓練でき、約0.1秒毎に実行時に音声ラベルと非音声ラベルを割り当てる。 実験の結果,単一のcpuマシンを用いて,実時間係数約0.002で開発・評価データセットの競合精度を示した。

Speech Activity Detection (SAD), locating speech segments within an audio recording, is a main part of most speech technology applications. Robust SAD is usually more difficult in noisy conditions with varying signal-to-noise ratios (SNR). The Fearless Steps challenge has recently provided such data from the NASA Apollo-11 mission for different speech processing tasks including SAD. Most audio recordings are degraded by different kinds and levels of noise varying within and between channels. This paper describes the EML online algorithm for the most recent phase of this challenge. The proposed algorithm can be trained both in a supervised and unsupervised manner and assigns speech and non-speech labels at runtime approximately every 0.1 sec. The experimental results show a competitive accuracy on both development and evaluation datasets with a real-time factor of about 0.002 using a single CPU machine.
翻訳日:2021-06-22 15:15:46 公開日:2021-06-21
# 敵対的な例は強い毒を作る

Adversarial Examples Make Strong Poisons ( http://arxiv.org/abs/2106.10807v1 )

ライセンス: Link先を確認
Liam Fowl, Micah Goldblum, Ping-yeh Chiang, Jonas Geiping, Wojtek Czaja, Tom Goldstein(参考訳) 敵対的な機械学習の文献は、テストデータに対する回避攻撃と、トレーニングデータに対する中毒攻撃に分けられる。 本研究では,前訓練モデルに対する攻撃を意図した攻撃例が,近年の中毒対策よりもデータ中毒に有効であることを示す。 以上の結果から,自然ベース画像の原ラベルを割り当てた例では,自然画像の分類器の訓練には使用できないことが示唆された。 さらに、敵の例が敵のクラスラベルに割り当てられると、それらはトレーニングに役立ちます。 これは、敵の例が `wrong' ラベル(ネットワークによるが人間ではない)と同様に有用な意味的内容を含んでいることを示唆している。 本手法は,データセットのセキュアなリリースにおいて,既存の中毒法よりも極めて効果的であり,この形式のデータ難読化の研究を促進するために,ImageNetの有毒バージョンである ImageNet-P をリリースする。

The adversarial machine learning literature is largely partitioned into evasion attacks on testing data and poisoning attacks on training data. In this work, we show that adversarial examples, originally intended for attacking pre-trained models, are even more effective for data poisoning than recent methods designed specifically for poisoning. Our findings indicate that adversarial examples, when assigned the original label of their natural base image, cannot be used to train a classifier for natural images. Furthermore, when adversarial examples are assigned their adversarial class label, they are useful for training. This suggests that adversarial examples contain useful semantic content, just with the ``wrong'' labels (according to a network, but not a human). Our method, adversarial poisoning, is substantially more effective than existing poisoning methods for secure dataset release, and we release a poisoned version of ImageNet, ImageNet-P, to encourage research into the strength of this form of data obfuscation.
翻訳日:2021-06-22 15:12:30 公開日:2021-06-21
# Pandaのデモ: かなり監視されたエンティティマッチングシステム

Demonstration of Panda: A Weakly Supervised Entity Matching System ( http://arxiv.org/abs/2106.10821v1 )

ライセンス: Link先を確認
Renzhi Wu, Prem Sakala, Peng Li, Xu Chu, Yeye He(参考訳) エンティティマッチング(em)は、同じ現実世界のエンティティを参照する1つ以上の関係においてタプルペアを識別する問題を指す。 Supervised Machine Learning(ML)アプローチ、特にディープラーニングベースのアプローチは、通常、最先端のマッチング結果を達成する。 しかし、これらのアプローチには多くのラベル付き例が必要であり、マッチングと非マッチングペアという形でラベル付けには高価で時間がかかる。 本稿では,EM用に設計された弱教師付きシステムであるPandaを紹介する。 Panda は Snorkel と同じラベリング関数の抽象化を用いており、ラベル付け関数 (LF) は大量のラベルを迅速かつ安価に生成できるユーザが提供するプログラムであり、ラベル付けモデルを使って正確な最終的な予測を生成することができる。 Pandaは、ユーザがEM用のLFを開発するのをサポートするため、モダンなブラウザアーキテクチャで動く統合開発環境(IDE)を提供する。 PandaのIDEは、汎用プログラミングにおいてVisual StudioやEclipseのようなIDEが優れているのと同じように、EMタスクのコンテキストにおけるLFの開発、デバッグ、ライフサイクル管理を容易にする。 PandaのIDEには、スマートデータサンプリング、EMユーティリティ関数の組み込みライブラリ、自動生成されたLF、LFのビジュアルデバッギング、最後にEM固有のラベルモデルなど、EM用に構築された多くの新機能が含まれている。 このデモでは、Panda IDEが弱い監督力を使って高品質なEMソリューションの開発を大幅に加速できることを示す。

Entity matching (EM) refers to the problem of identifying tuple pairs in one or more relations that refer to the same real world entities. Supervised machine learning (ML) approaches, and deep learning based approaches in particular, typically achieve state-of-the-art matching results. However, these approaches require many labeled examples, in the form of matching and non-matching pairs, which are expensive and time-consuming to label. In this paper, we introduce Panda, a weakly supervised system specifically designed for EM. Panda uses the same labeling function abstraction as Snorkel, where labeling functions (LF) are user-provided programs that can generate large amounts of (somewhat noisy) labels quickly and cheaply, which can then be combined via a labeling model to generate accurate final predictions. To support users developing LFs for EM, Panda provides an integrated development environment (IDE) that lives in a modern browser architecture. Panda's IDE facilitates the development, debugging, and life-cycle management of LFs in the context of EM tasks, similar to how IDEs such as Visual Studio or Eclipse excel in general-purpose programming. Panda's IDE includes many novel features purpose-built for EM, such as smart data sampling, a builtin library of EM utility functions, automatically generated LFs, visual debugging of LFs, and finally, an EM-specific labeling model. We show in this demo that Panda IDE can greatly accelerate the development of high-quality EM solutions using weak supervision.
翻訳日:2021-06-22 15:12:14 公開日:2021-06-21
# BanditMF:マルチArmed Bandit-based Matrix Factorization Recommender System

BanditMF: Multi-Armed Bandit Based Matrix Factorization Recommender System ( http://arxiv.org/abs/2106.10898v1 )

ライセンス: Link先を確認
Shenghao Xu(参考訳) マルチアームバンディット(MAB)は、探索と搾取のバランスをとるための原則的オンライン学習手法であり、複数の状況で行動する学習を伴わない優れたパフォーマンスと低フィードバック学習のため、レコメンダシステムなどのアプリケーションに広く注目を集めている。 同様に、リコメンダシステム内では、コラボレーティブフィルタリング(cf)はおそらくリコメンダシステムにおいて最も早く、最も影響力のある方法である。 重要なことは、新しいユーザーと推奨アイテムのプールが、レコメンデーターシステムに対処する必要がある課題だ。 協調フィルタリングでは、従来の方法はモデルをオフラインでトレーニングし、オンラインテストを実行するが、このアプローチでは、いわゆる \textit{cold start}と呼ばれるユーザの好みの動的な変更を処理できない。 では、効果的な情報がないユーザに対して、効果的にアイテムを推奨する方法? 上記の問題に対処するため、BanditMFというマルチアームバンディットに基づく協調フィルタリング推薦システムが提案されている。 BanditMF は,(1) 有効情報の不足条件下での協調フィルタリングにおけるコールドスタート問題の解法,(2) ユーザと関係する未知のパラメータを独立に推定し,ユーザ間の相関を無視することによる,強い関係領域におけるバンディットアルゴリズムの最適部分問題の解法,という2つの課題に対処するように設計されている。

Multi-armed bandits (MAB) provide a principled online learning approach to attain the balance between exploration and exploitation.Due to the superior performance and low feedback learning without the learning to act in multiple situations, Multi-armed Bandits drawing widespread attention in applications ranging such as recommender systems. Likewise, within the recommender system, collaborative filtering (CF) is arguably the earliest and most influential method in the recommender system. Crucially, new users and an ever-changing pool of recommended items are the challenges that recommender systems need to address. For collaborative filtering, the classical method is training the model offline, then perform the online testing, but this approach can no longer handle the dynamic changes in user preferences which is the so-called \textit{cold start}. So how to effectively recommend items to users in the absence of effective information? To address the aforementioned problems, a multi-armed bandit based collaborative filtering recommender system has been proposed, named BanditMF. BanditMF is designed to address two challenges in the multi-armed bandits algorithm and collaborative filtering: (1) how to solve the cold start problem for collaborative filtering under the condition of scarcity of valid information, (2) how to solve the sub-optimal problem of bandit algorithms in strong social relations domains caused by independently estimating unknown parameters associated with each user and ignoring correlations between users.
翻訳日:2021-06-22 15:11:46 公開日:2021-06-21
# ウェアラブルを用いた強制的身体中心反復行動の予測検出

Anticipatory Detection of Compulsive Body-focused Repetitive Behaviors with Wearables ( http://arxiv.org/abs/2106.10970v1 )

ライセンス: Link先を確認
Benjamin Lucas Searle, Dimitris Spathis, Marios Constantinides, Daniele Quercia, Cecilia Mascolo(参考訳) 身体に焦点をあてた反復行動(BFRBs)は、顔の触覚やスキンピッキングのような手動行動であり、早期に特定され治療されない場合、その外見を損なう可能性がある。 自動検出技術はまだ未開発であり、以前の研究は単一のモード(例えばモーション)を持つウェアラブルに限られていた。 本稿では,モーションセンサと方向センサ,心拍センサを組み合わせたマルチセンサによるbfrb検出手法を提案する。 被験者 (N=10) がBFRBの誘導作業に曝露される可能性調査を行い, 380分間の信号の解析を行い, 感度, クロスバリデーション法, 観察窓の評価を行った。 モデルでは, bfrbs の識別において auc > 0.90 を達成し, 1-min ではなく windows 5 分前の観察ではより顕著であった。 bfrbsを予防するためにジャスト・イン・タイムの介入を設計する場合,検出タイミングだけでなく,モデルもコンテキスト認識が必要であることがわかった。

Body-focused repetitive behaviors (BFRBs), like face-touching or skin-picking, are hand-driven behaviors which can damage one's appearance, if not identified early and treated. Technology for automatic detection is still under-explored, with few previous works being limited to wearables with single modalities (e.g., motion). Here, we propose a multi-sensory approach combining motion, orientation, and heart rate sensors to detect BFRBs. We conducted a feasibility study in which participants (N=10) were exposed to BFRBs-inducing tasks, and analyzed 380 mins of signals under an extensive evaluation of sensing modalities, cross-validation methods, and observation windows. Our models achieved an AUC > 0.90 in distinguishing BFRBs, which were more evident in observation windows 5 mins prior to the behavior as opposed to 1-min ones. In a follow-up qualitative survey, we found that not only the timing of detection matters but also models need to be context-aware, when designing just-in-time interventions to prevent BFRBs.
翻訳日:2021-06-22 15:11:19 公開日:2021-06-21
# ディープラーニング推薦システムのためのデータ最適化

Data Optimisation for a Deep Learning Recommender System ( http://arxiv.org/abs/2106.11218v1 )

ライセンス: Link先を確認
Gustav Hertz, Sandhya Sachidanandan, Bal\'azs T\'oth, Emil S. J{\o}rgensen and Martin Tegn\'er(参考訳) 本稿では,レコメンデーションシステムにおけるユーザデータの収集に関するプライバシー保護要件を提案する。 私たちの研究の目的は2つある。 まず、データ収集の制限がRNNベースのレコメンデーションのテスト品質を損なうかどうかを問う。 検証性能は利用可能なトレーニングデータの量に依存するか検討する。 この目的のために私たちは、トップkの精度、カタログのカバレッジ、ノベルティの組み合わせを使っています。 第2に,二次データソースを使用することで,最小限のデータで品質を向上できるかどうかを問う。 この目的のために知識伝達を提案し,データの購入行動間の類似性を測定する表現を構築する。 これにより、どのソースドメインが最も貢献するかの判断を下すことができる。 以上の結果から, トレーニングサイズが臨界点を超えると, テスト性能が飽和していることが示唆された。 また、異なるパフォーマンス指標とデータの特性の相互作用についても論じる。 さらに, (ii) 購買行動の測定には, 当社の表現が有意であることを示す。 特に、同様の測定値に従って関連するソースドメインを選択すると、セカンダリデータを利用して検証性能を向上できることを示す。

This paper advocates privacy preserving requirements on collection of user data for recommender systems. The purpose of our study is twofold. First, we ask if restrictions on data collection will hurt test quality of RNN-based recommendations. We study how validation performance depends on the available amount of training data. We use a combination of top-K accuracy, catalog coverage and novelty for this purpose, since good recommendations for the user is not necessarily captured by a traditional accuracy metric. Second, we ask if we can improve the quality under minimal data by using secondary data sources. We propose knowledge transfer for this purpose and construct a representation to measure similarities between purchase behaviour in data. This to make qualified judgements of which source domain will contribute the most. Our results show that (i) there is a saturation in test performance when training size is increased above a critical point. We also discuss the interplay between different performance metrics, and properties of data. Moreover, we demonstrate that (ii) our representation is meaningful for measuring purchase behaviour. In particular, results show that we can leverage secondary data to improve validation performance if we select a relevant source domain according to our similarly measure.
翻訳日:2021-06-22 15:10:31 公開日:2021-06-21
# 密度U-netセグメンテーションを用いた磁気共鳴エラストグラフィーによる前立腺領域の生体内粘弾性の完全自動定量

Fully automated quantification of in vivo viscoelasticity of prostate zones using magnetic resonance elastography with Dense U-net segmentation ( http://arxiv.org/abs/2106.11284v1 )

ライセンス: Link先を確認
Nader Aldoj, Federico Biavati, Marc Dewey, Anja Hennemuth, Patrick Asbach, Ingolf Sack(参考訳) 粘弾性測定のための磁気共鳴エラストグラフィー(MRE)は、特に前立腺などの異種臓器において、適切な組織セグメント化に大きく依存する。 前立腺の粒子力学的特性を自動集計するために,MREデータで解剖学的および粘弾性情報を抽出するのに十分かどうかを検討した。 良性前立腺肥大症(BPH)または前立腺癌(PCa)の40例について,T2強調MRI(T2w),拡散強調MRI(DWI),MREベースの断層撮影(T2w,DWI,見かけ拡散係数(ADC),MRE大,せん断波速度,損失角マップ)を用いて検討した。 これらのデータの組み合わせは、30例の前立腺全層(pg)、中枢部(cz)、末梢部(pz)の手動分割マスクを用いた密集したu-netを訓練し、10例で検証するために用いられた。 味覚スコア (DS) , 感度, 特異度, ハウスドルフ距離を測定した。 我々は、MRE大域写像のみ(DS, PG: 0.93$\pm$0.04, CZ: 0.95$\pm$0.03, PZ: 0.77$\pm$0.05)は、T2wとDWI_b(DS, PG: 0.91$\pm$0.04, CZ: 0.91$\pm$0.06, PZ: 0.63$\pm$0.16)またはT2w単独(DS, PG: 0.92$\pm$0.03, CZ: 0.91$\pm$0.04, PZ: 0.65$\pm$0.08)よりも精度が高かった。 自動集計mre値は接地値と違いなかった(p>0.05)。 結論:MREとDense U-netのセグメンテーションを組み合わせることで、手動解析なしで定量的イメージングマーカーを集計し、他のMRIシーケンスとは独立して、PCaの検出と分類に寄与することができる。

Magnetic resonance elastography (MRE) for measuring viscoelasticity heavily depends on proper tissue segmentation, especially in heterogeneous organs such as the prostate. Using trained network-based image segmentation, we investigated if MRE data suffice to extract anatomical and viscoelastic information for automatic tabulation of zonal mechanical properties of the prostate. Overall, 40 patients with benign prostatic hyperplasia (BPH) or prostate cancer (PCa) were examined with three magnetic resonance imaging (MRI) sequences: T2-weighted MRI (T2w), diffusion-weighted imaging (DWI), and MRE-based tomoelastography yielding six independent sets of imaging data per patient (T2w, DWI, apparent diffusion coefficient (ADC), MRE magnitude, shear wave speed, and loss angle maps). Combinations of these data were used to train Dense U-nets with manually segmented masks of the entire prostate gland (PG), central zone (CZ), and peripheral zone (PZ) in 30 patients and to validate them in 10 patients. Dice score (DS), sensitivity, specificity, and Hausdorff distance were determined. We found that segmentation based on MRE magnitude maps alone (DS, PG: 0.93$\pm$0.04, CZ: 0.95$\pm$0.03, PZ: 0.77$\pm$0.05) was more accurate than magnitude maps combined with T2w and DWI_b (DS, PG: 0.91$\pm$0.04, CZ: 0.91$\pm$0.06, PZ: 0.63$\pm$0.16) or T2w alone (DS, PG: 0.92$\pm$0.03, CZ: 0.91$\pm$0.04, PZ: 0.65$\pm$0.08). Automatically tabulated MRE values were not different from ground-truth values (P>0.05). In conclusion: MRE combined with Dense U-net segmentation allows tabulation of quantitative imaging markers without manual analysis and independent of other MRI sequences and can thus contribute to PCa detection and classification.
翻訳日:2021-06-22 15:10:15 公開日:2021-06-21
# DisenHAN: Recommendationのための不均一グラフ注意ネットワーク

DisenHAN: Disentangled Heterogeneous Graph Attention Network for Recommendation ( http://arxiv.org/abs/2106.10879v1 )

ライセンス: Link先を確認
Yifan Wang, Suyao Tang, Yuntong Lei, Weiping Song, Sheng Wang, Ming Zhang(参考訳) 不均一な情報ネットワークは、ユーザとイテムのインタラクションにおいてリッチなコンテキスト情報をモデル化できるため、レコメンデータシステムにおいて、スパーシリティやコールドスタートの問題を軽減するために広く利用されている。 グラフニューラルネットワークは、グラフ上の伝播を通じて、このリッチなコンテキスト情報をエンコードすることができる。 しかし、既存の異種グラフニューラルネットワークは、異なる側面から生じる潜在因子の絡み合いを無視している。 さらに、既存のアプローチのメタパスは、パス内のリッチなセマンティック情報を見渡すために、ノードペア間のパスまたはサイド情報を接続するように単純化されている。 本稿では,ヘテロジニアス情報ネットワークにおいて,異なる局面から異質なユーザ/項目表現を学習するtop-n$レコメンデーションのための,新たな異種グラフアテンションネットワークdisenhanを提案する。 特に,メタリレーションを用いてノード間の高次接続を分解し,メタリレーションの主要な側面を反復的に識別できるアンタングル埋め込み伝搬層を提案する。 本モデルでは,対象ユーザ/項目の各メタ関係から対応するアスペクト特徴を集約する。 埋め込み伝搬の異なるレイヤにより、DisenHANは協調フィルタリング効果を意味的に捉えることができる。 3つの実世界のデータセットに関する広範な実験は、disenhanが最先端のアプローチを一貫して上回っていることを示している。 さらに,洞察に富んだケーススタディと可視化により,学習した不連続表現の有効性と解釈可能性を示す。

Heterogeneous information network has been widely used to alleviate sparsity and cold start problems in recommender systems since it can model rich context information in user-item interactions. Graph neural network is able to encode this rich context information through propagation on the graph. However, existing heterogeneous graph neural networks neglect entanglement of the latent factors stemming from different aspects. Moreover, meta paths in existing approaches are simplified as connecting paths or side information between node pairs, overlooking the rich semantic information in the paths. In this paper, we propose a novel disentangled heterogeneous graph attention network DisenHAN for top-$N$ recommendation, which learns disentangled user/item representations from different aspects in a heterogeneous information network. In particular, we use meta relations to decompose high-order connectivity between node pairs and propose a disentangled embedding propagation layer which can iteratively identify the major aspect of meta relations. Our model aggregates corresponding aspect features from each meta relation for the target user/item. With different layers of embedding propagation, DisenHAN is able to explicitly capture the collaborative filtering effect semantically. Extensive experiments on three real-world datasets show that DisenHAN consistently outperforms state-of-the-art approaches. We further demonstrate the effectiveness and interpretability of the learned disentangled representations via insightful case studies and visualization.
翻訳日:2021-06-22 15:06:17 公開日:2021-06-21
# scmaシステムのためのディープラーニングに基づくアクティブユーザ検出

Deep Learning-Based Active User Detection for Grant-free SCMA Systems ( http://arxiv.org/abs/2106.11198v1 )

ライセンス: Link先を確認
Thushan Sivalingam, Samad Ali, Nurul Huda Mahmood, Nandana Rajatheva, and Matti Latva-Aho(参考訳) 大量機械型通信(mMTC)における伝送遅延と信号のオーバヘッドを低減するため, グラントフリーなランダムアクセスとアップリンク非直交多重アクセス(NOMA)が導入されている。 本稿では,mMTCアップリンクフレームワークにおける助成不要スパースコード多重アクセス(SCMA)システムのための,グループベースディープニューラルネットワークアクティブユーザ検出(AUD)方式を2つ提案する。 提案するオードスキームは非線形写像、すなわち多次元符号帳構造とチャネル特性を学習する。 これは、デバイスアクティビティのスパース構造をトレーニングデータセットに組み込んだ受信信号を通じて実現される。 さらに、オフライン事前訓練モデルでは、チャネル状態情報やデバイス間隔レベルの事前知識を必要とせず、アクティブなデバイスを検出することができる。 シミュレーションの結果,提案手法は複数のアクティブデバイスにおいて,信号から雑音比の範囲に対する従来のAUD方式に比べて検出確率が2倍以上であることがわかった。

Grant-free random access and uplink non-orthogonal multiple access (NOMA) have been introduced to reduce transmission latency and signaling overhead in massive machine-type communication (mMTC). In this paper, we propose two novel group-based deep neural network active user detection (AUD) schemes for the grant-free sparse code multiple access (SCMA) system in mMTC uplink framework. The proposed AUD schemes learn the nonlinear mapping, i.e., multi-dimensional codebook structure and the channel characteristic. This is accomplished through the received signal which incorporates the sparse structure of device activity with the training dataset. Moreover, the offline pre-trained model is able to detect the active devices without any channel state information and prior knowledge of the device sparsity level. Simulation results show that with several active devices, the proposed schemes obtain more than twice the probability of detection compared to the conventional AUD schemes over the signal to noise ratio range of interest.
翻訳日:2021-06-22 15:05:54 公開日:2021-06-21
# 機械学習による区間不確かさ伝播の最適化とビブロ音響モデルへの応用

Machine Learning based optimization for interval uncertainty propagation with application to vibro-acoustic models ( http://arxiv.org/abs/2106.11215v1 )

ライセンス: Link先を確認
Alice Cicirello and Filippo Giunta(参考訳) 2つの非侵入的不確実性伝播手法が,区間変数として定義されたパラメータを持つ高価な決定論的計算機モデルによって記述された工学系の性能解析のために提案される。 これらの手法は機械学習に基づく最適化戦略、いわゆるベイズ最適化を用いて、各間隔変数が範囲によって独立に異なるときに得られる可能な応答の集合に対して、ジェネリック応答変数の上下境界を評価する。 ガウス過程回帰モデルを用いて応答変数自体の確率論的記述を開発することにより、区間変数の全ての組み合わせに対する応答関数を評価できないことに起因する知識の欠如が説明される。 この統計モデルを更新するために, 確立された獲得関数を用いて少数のシミュレーションを選択し, 応答境界を評価する反復手順を開発した。 両方のアプローチで、初期トレーニングデータセットが定義される。 1つのアプローチは、応答変数の上下境界を別々に評価するために2つの異なるトレーニングデータセットを反復的に構築する一方で、もう1つは反復的に1つのトレーニングデータセットを構築する。 その結果、2つのアプローチは各イテレーションで異なる有界推定を生成する。 上と下の境界応答は、後部分布の平均関数から得られる点推定として表現される。 さらに、決定論的シミュレーションが実行されていない区間変数の組み合わせに対して、これらの推定値が得られると、各推定値に対する信頼区間がエンジニアと効果的に通信するために提供される。 最後に,予測された境界推定が満足できるものと考えられるかどうかを評価するための条件を定義するために,二つの指標が提案されている。

Two non-intrusive uncertainty propagation approaches are proposed for the performance analysis of engineering systems described by expensive-to-evaluate deterministic computer models with parameters defined as interval variables. These approaches employ a machine learning based optimization strategy, the so-called Bayesian optimization, for evaluating the upper and lower bounds of a generic response variable over the set of possible responses obtained when each interval variable varies independently over its range. The lack of knowledge caused by not evaluating the response function for all the possible combinations of the interval variables is accounted for by developing a probabilistic description of the response variable itself by using a Gaussian Process regression model. An iterative procedure is developed for selecting a small number of simulations to be evaluated for updating this statistical model by using well-established acquisition functions and to assess the response bounds. In both approaches, an initial training dataset is defined. While one approach builds iteratively two distinct training datasets for evaluating separately the upper and lower bounds of the response variable, the other builds iteratively a single training dataset. Consequently, the two approaches will produce different bound estimates at each iteration. The upper and lower bound responses are expressed as point estimates obtained from the mean function of the posterior distribution. Moreover, a confidence interval on each estimate is provided for effectively communicating to engineers when these estimates are obtained for a combination of the interval variables for which no deterministic simulation has been run. Finally, two metrics are proposed to define conditions for assessing if the predicted bound estimates can be considered satisfactory.
翻訳日:2021-06-22 15:05:40 公開日:2021-06-21
# 弱教師付き音響イベント検出のための親和性混合

Affinity Mixup for Weakly Supervised Sound Event Detection ( http://arxiv.org/abs/2106.11233v1 )

ライセンス: Link先を確認
Mohammad Rasool Izadi, Robert Stevenson, Laura N. Kloepper(参考訳) 弱教師付き音声イベント検出問題は、弱ラベル付きデータセットにおける音響イベントの存在とそれらに対応する開始点と終了点を予測するタスクである。 弱いデータセットは、各トレーニングサンプル(短い記録)を1つ以上の現在ソースに関連付ける。 畳み込み層とリカレント層のみに依存するネットワークは、記録中の複数のフレームに直接関連できない。 注意とグラフニューラルネットワークに動機づけられ,時間レベルの類似性を取り入れたアフィニティミックスアップの概念を導入し,フレーム間を接続する。 この正規化技法は適応親和性行列を用いて異なる層に特徴を混合する。 提案するアフィニティ・ミックスアップ・ネットワークは、最先端技術によるイベントF1スコアを8.2\%$で改善する。

The weakly supervised sound event detection problem is the task of predicting the presence of sound events and their corresponding starting and ending points in a weakly labeled dataset. A weak dataset associates each training sample (a short recording) to one or more present sources. Networks that solely rely on convolutional and recurrent layers cannot directly relate multiple frames in a recording. Motivated by attention and graph neural networks, we introduce the concept of an affinity mixup to incorporate time-level similarities and make a connection between frames. This regularization technique mixes up features in different layers using an adaptive affinity matrix. Our proposed affinity mixup network improves over state-of-the-art techniques event-F1 scores by $8.2\%$.
翻訳日:2021-06-22 15:05:17 公開日:2021-06-21
# スケールでのセキュアな分散トレーニング

Secure Distributed Training at Scale ( http://arxiv.org/abs/2106.11257v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Alexander Borzunov, Michael Diskin, Max Ryabinin(参考訳) ディープラーニングの最も難しい問題は、ボランティアコンピューティングや連合学習の場合のように、多くの独立した当事者の協力によって解決することができる。 これらのセットアップは、計算リソースの提供や分散データセットのトレーニングのために、多数のピアに依存する。 残念ながら、このようなシステムの参加者は必ずしも信頼できない。 任意の参加者は、意図的であれ、誤ってであれ、不正なアップデートを送信することによって、トレーニング全体の障害を回避できる。 このようなピアの存在下でのトレーニングには、ビザンチン耐性を持つ特別な分散トレーニングアルゴリズムが必要である。 これらのアルゴリズムは、冗長な通信を導入したり、すべての更新を信頼できるサーバに渡すことで効率を犠牲にすることが多い。 その結果、モデルが数十億のパラメータを持つ大規模分散ディープラーニングにそのようなアルゴリズムを適用することは不可能である。 本稿では,通信効率を重視したセキュア(ビザンチン耐性)分散トレーニングのための新しいプロトコルを提案する。 我々は、このプロトコルを厳格に分析し、特に、ビザンツとシビルの攻撃に対する抵抗の理論的限界を提供し、通信オーバーヘッドが極端であることを示す。 実効性を示すために,ビザンチン攻撃者の存在下で,画像分類と言語モデルに関する大規模実験を行った。

Some of the hardest problems in deep learning can be solved with the combined effort of many independent parties, as is the case for volunteer computing and federated learning. These setups rely on high numbers of peers to provide computational resources or train on decentralized datasets. Unfortunately, participants in such systems are not always reliable. Any single participant can jeopardize the entire training run by sending incorrect updates, whether deliberately or by mistake. Training in presence of such peers requires specialized distributed training algorithms with Byzantine tolerance. These algorithms often sacrifice efficiency by introducing redundant communication or passing all updates through a trusted server. As a result, it can be infeasible to apply such algorithms to large-scale distributed deep learning, where models can have billions of parameters. In this work, we propose a novel protocol for secure (Byzantine-tolerant) decentralized training that emphasizes communication efficiency. We rigorously analyze this protocol: in particular, we provide theoretical bounds for its resistance against Byzantine and Sybil attacks and show that it has a marginal communication overhead. To demonstrate its practical effectiveness, we conduct large-scale experiments on image classification and language modeling in presence of Byzantine attackers.
翻訳日:2021-06-22 15:05:07 公開日:2021-06-21
# 構成的フェデレーション学習:分散ロバスト平均化とメタ学習への応用

Compositional Federated Learning: Applications in Distributionally Robust Averaging and Meta Learning ( http://arxiv.org/abs/2106.11264v1 )

ライセンス: Link先を確認
Feihu Huang, Junyi Li, Heng Huang(参考訳) 本稿では,分散的頑健なフェデレーション学習やモデル非依存型メタ学習(maml)といった階層構造を持つ多くの機械学習問題で頻繁に発生する新しい構成的フェデレーション学習(fl)フレームワークの解法として有効かつ効率的な構成的フェデレーション学習(comfedl)アルゴリズムを提案する。 さらに,いくつかの穏やかな条件下でのcomfedlアルゴリズムの収束解析を行い,$t$ が反復数を表す場合の$o(\frac{1}{\sqrt{t}})$ の高速収束率を達成することを証明した。 我々の知る限り、我々のアルゴリズムは、合成確率最適化で連合学習を橋渡しする最初の試みである。 特に、分布的に堅牢なFL(ミニマックス最適化問題)をKL分散正規化を用いて単純な合成最適化問題に変換する。 同時に,まず分布非依存maml問題(すなわちミニマックス最適化問題)を単純な合成最適化問題に変換する。 最後に、分布的に堅牢なFLとMAMLの2つの機械学習タスクを適用し、アルゴリズムの有効性を実証する。

In the paper, we propose an effective and efficient Compositional Federated Learning (ComFedL) algorithm for solving a new compositional Federated Learning (FL) framework, which frequently appears in many machine learning problems with a hierarchical structure such as distributionally robust federated learning and model-agnostic meta learning (MAML). Moreover, we study the convergence analysis of our ComFedL algorithm under some mild conditions, and prove that it achieves a fast convergence rate of $O(\frac{1}{\sqrt{T}})$, where $T$ denotes the number of iteration. To the best of our knowledge, our algorithm is the first work to bridge federated learning with composition stochastic optimization. In particular, we first transform the distributionally robust FL (i.e., a minimax optimization problem) into a simple composition optimization problem by using KL divergence regularization. At the same time, we also first transform the distribution-agnostic MAML problem (i.e., a minimax optimization problem) into a simple composition optimization problem. Finally, we apply two popular machine learning tasks, i.e., distributionally robust FL and MAML to demonstrate the effectiveness of our algorithm.
翻訳日:2021-06-22 15:04:48 公開日:2021-06-21
# (参考訳) 自然度解析を用いた視覚立体視品質評価のためのマルチタスク畳み込みニューラルネットワーク

A Multi-task convolutional neural network for blind stereoscopic image quality assessment using naturalness analysis ( http://arxiv.org/abs/2106.09303v3 )

ライセンス: CC BY 4.0
Salima Bourbia, Ayoub Karine, Aladine Chetouani, Mohammed El Hassouni(参考訳) 本稿では,新しいマルチタスク深層学習手法を用いた視覚ステレオ画像品質評価(NR-SIQA)の問題に対処する。 立体視の分野では、情報は両眼現象と同様に左右の視点の間でかなり分布する。 本研究では,これらの特徴を統合し,畳み込みニューラルネットワークによる参照のない立体画像の品質を推定する。 本手法は,ステレオ画像に適応した自然度解析に基づく特徴量予測と,その品質予測の2つのタスクを主課題とする。 前者、いわゆる補助タスクは、品質予測を改善するために、より堅牢で関連する機能を見つけることを目的としている。 そこで我々は,複雑なウェーブレット領域における自然シーン統計モデルを用いて自然性に基づく特徴量を計算する。 立体画像間の統計的依存関係を捉えることができる。 LIVE PHASE I と LIVE PHASE II のデータベース上で実験を行った。 その結果,最新技術との比較において,本手法の妥当性が示された。 私たちのコードはhttps://github.com/bourbia-salima/multitask-cnn-nrsiqa_2021で利用可能です。

This paper addresses the problem of blind stereoscopic image quality assessment (NR-SIQA) using a new multi-task deep learning based-method. In the field of stereoscopic vision, the information is fairly distributed between the left and right views as well as the binocular phenomenon. In this work, we propose to integrate these characteristics to estimate the quality of stereoscopic images without reference through a convolutional neural network. Our method is based on two main tasks: the first task predicts naturalness analysis based features adapted to stereo images, while the second task predicts the quality of such images. The former, so-called auxiliary task, aims to find more robust and relevant features to improve the quality prediction. To do this, we compute naturalness-based features using a Natural Scene Statistics (NSS) model in the complex wavelet domain. It allows to capture the statistical dependency between pairs of the stereoscopic images. Experiments are conducted on the well known LIVE PHASE I and LIVE PHASE II databases. The results obtained show the relevance of our method when comparing with those of the state-of-the-art. Our code is available online on https://github.com/Bourbia-Salima/multitask-cnn-nrsiqa_2021.
翻訳日:2021-06-22 12:26:32 公開日:2021-06-21
# (参考訳) ヘイトスピーチ検出のためのデータセット構築のための情報検索手法

An Information Retrieval Approach to Building Datasets for Hate Speech Detection ( http://arxiv.org/abs/2106.09775v2 )

ライセンス: CC BY 4.0
Md Mustafizur Rahman, Dinesh Balakrishnan, Dhiraj Murthy, Mucahid Kutlu, Matthew Lease(参考訳) ヘイトスピーチ検出のためのベンチマークデータセットの構築にはいくつかの課題がある。 第一に、ヘイトスピーチは比較的稀である - 例えば、Twitter投稿の3\%未満はヘイトフル \citep{founta2018large} である。 一般的な方法は、既知の‘hate words’を含むツイートに注釈を付けるだけであるが、これは現実世界の関心現象を部分的に捉えたバイアス付きベンチマークをもたらす。 2つめの課題は、ヘイトスピーチの定義が非常に可変で主観的である傾向があることである。 ヘイトスピーチの様々な先行概念を持つアノテーションは、互いに同意するだけでなく、特定のラベル付けガイドラインに従うのにも苦労する。 我々の重要な洞察は、ヘイトスピーチの希少性と主観性が情報検索(IR)の関連性に類似していることである。 この接続は、IRテストコレクションを作成するための確立された方法論が、ヘイトスピーチ検出のためのより良いベンチマークデータセットを作成するために有用である可能性を示唆している。 まず,アノテートすべきツイートをインテリジェントかつ効率的に選択するために,"em pooling} と "em active learning" という確立されたir技術を適用する。 第二に、アノテーションの一貫性と値の両方を改善するために、 {\em Task decomposition} \cite{Zhang-sigir14} と {\em annotator rationale} \cite{mcdonnell16-hcomp} の技法を適用する。 上記のテクニックを使用して、新しいベンチマークデータセット\footnote{We will release the dataset upon Publish} を作成し、共有する。 以前のデータセットよりも広い範囲をカバーするヘイトスピーチ検出のために。 また,これらより広い形態の憎悪に対して,既存の検出モデルの精度が劇的に低下することを示した。 収集された注釈器の合理化はラベル付け決定に対する文書化されたサポートを提供するだけでなく、モデリングにおける二重スーパービジョンおよび/または説明生成のためのエキサイティングな将来の作業機会を生み出す。

Building a benchmark dataset for hate speech detection presents several challenges. Firstly, because hate speech is relatively rare -- e.g., less than 3\% of Twitter posts are hateful \citep{founta2018large} -- random sampling of tweets to annotate is inefficient in capturing hate speech. A common practice is to only annotate tweets containing known ``hate words'', but this risks yielding a biased benchmark that only partially captures the real-world phenomenon of interest. A second challenge is that definitions of hate speech tend to be highly variable and subjective. Annotators having diverse prior notions of hate speech may not only disagree with one another but also struggle to conform to specified labeling guidelines. Our key insight is that the rarity and subjectivity of hate speech are akin to that of relevance in information retrieval (IR). This connection suggests that well-established methodologies for creating IR test collections might also be usefully applied to create better benchmark datasets for hate speech detection. Firstly, to intelligently and efficiently select which tweets to annotate, we apply established IR techniques of {\em pooling} and {\em active learning}. Secondly, to improve both consistency and value of annotations, we apply {\em task decomposition} \cite{Zhang-sigir14} and {\em annotator rationale} \cite{mcdonnell16-hcomp} techniques. Using the above techniques, we create and share a new benchmark dataset\footnote{We will release the dataset upon publication.} for hate speech detection with broader coverage than prior datasets. We also show a dramatic drop in accuracy of existing detection models when tested on these broader forms of hate. Collected annotator rationales not only provide documented support for labeling decisions but also create exciting future work opportunities for dual-supervision and/or explanation generation in modeling.
翻訳日:2021-06-22 12:17:37 公開日:2021-06-21
# (参考訳) BinarizedAttack: グラフベースの異常検出に対する構造的攻撃

BinarizedAttack: Structural Poisoning Attacks to Graph-based Anomaly Detection ( http://arxiv.org/abs/2106.09989v2 )

ライセンス: CC BY 4.0
Yulin Zhu, Yuni Lai, Kaifa Zhao, Xiapu Luo, Mingquan Yuan, Jian Ren, Kai Zhou(参考訳) グラフに基づく異常検出(GAD)は,グラフの強力な表現能力と近年のグラフマイニング技術の進歩により普及しつつある。 しかし、これらのGADツールは、データ間の関係を活用できるというユニークな利点のために、新たな攻撃面を公開する。 つまり、攻撃者はこれらの関係(すなわちグラフの構造)を操作でき、いくつかのターゲットノードが検出を回避できる。 本稿では,この脆弱性を,代表的な回帰型gadシステムであるoddballに対して,新しい種類の標的構造中毒攻撃を設計することで活用する。 特に,二段階最適化問題としてオッドボールに対する攻撃を定式化し,離散領域において問題を効率的に解くことが重要な技術的課題である。 勾配降下に基づくBinarizedAttackと呼ばれる新しい攻撃手法を提案する。 先行技術と比較して、BinarizedAttackは勾配情報をうまく利用でき、組合せ最適化問題の解決に特に適している。 さらに,BinarizedAttackの攻撃伝達性を他の表現学習に基づくGADシステムへの攻撃に利用して検討する。 我々は,攻撃者の予算を制限したグラフに基づく異常検出ツールの回避にbinarizedattackが有効であることを示すとともに,black-box transfer attack設定ではbinarizedattackも効果的にテストされ,特にgadシステムによって学習されたノード埋め込みを著しく変えることができることを示した。 我々の研究は、グラフデータに依存するセキュリティ分析ツールに対する新たなタイプの攻撃を研究するための扉を開く。

Graph-based Anomaly Detection (GAD) is becoming prevalent due to the powerful representation abilities of graphs as well as recent advances in graph mining techniques. These GAD tools, however, expose a new attacking surface, ironically due to their unique advantage of being able to exploit the relations among data. That is, attackers now can manipulate those relations (i.e., the structure of the graph) to allow some target nodes to evade detection. In this paper, we exploit this vulnerability by designing a new type of targeted structural poisoning attacks to a representative regression-based GAD system termed OddBall. Specially, we formulate the attack against OddBall as a bi-level optimization problem, where the key technical challenge is to efficiently solve the problem in a discrete domain. We propose a novel attack method termed BinarizedAttack based on gradient descent. Comparing to prior arts, BinarizedAttack can better use the gradient information, making it particularly suitable for solving combinatorial optimization problems. Furthermore, we investigate the attack transferability of BinarizedAttack by employing it to attack other representation-learning-based GAD systems. Our comprehensive experiments demonstrate that BinarizedAttack is very effective in enabling target nodes to evade graph-based anomaly detection tools with limited attackers' budget, and in the black-box transfer attack setting, BinarizedAttack is also tested effective and in particular, can significantly change the node embeddings learned by the GAD systems. Our research thus opens the door to studying a new type of attack against security analytic tools that rely on graph data.
翻訳日:2021-06-22 11:55:49 公開日:2021-06-21
# ランダム林からの重要度評価--特徴化と拡張

Importance measures derived from random forests: characterisation and extension ( http://arxiv.org/abs/2106.09473v2 )

ライセンス: Link先を確認
Antonio Sutera(参考訳) 今日では、新しい技術、特に人工知能が社会にますます定着しています。 ビッグデータ分析と機械学習(人工知能の2つのサブフィールド)は、多くのアプリケーション分野(医学、コミュニケーション、金融など)における最近の多くのブレークスルーの中核であり、その中には日々の生活(ソーシャルネットワーク、コンピュータ、スマートフォンなど)に強く関係しているものも含まれる。 機械学習では、大きなデータセットのおかげで、計算の複雑さが増大する価格で、大きな改善がなされることが多い。 現在、最も先進的な機械学習アルゴリズムによって構築された最先端モデルは通常、非常に効率的で利益を上げながら非常に複雑になった。 彼らの複雑さは、これらのモデルが解釈や正当化ができない予測や決定を提供するブラックボックスとして一般的に見られる程度である。 それでも、これらのモデルが自律的に使われているか、あるいは単純な意思決定支援ツールとして使われているかは、健康と人間の命がかかっている機械学習アプリケーションですでに使われている。 したがって、予測や決定を詳細に理解することなく、これらのモデルから生じるすべてのことを盲目的に信じないことは明らかである。 したがって、この論文は、いわゆるツリーベース手法である機械学習アルゴリズムの特定のファミリーによって構築されたモデルの解釈可能性を改善することを目的としている。 これらのモデルを解釈するためにいくつかのメカニズムが提案されており、その理解を改善し、特性を研究し、制限を定義するためにこの論文に沿っている。

Nowadays new technologies, and especially artificial intelligence, are more and more established in our society. Big data analysis and machine learning, two sub-fields of artificial intelligence, are at the core of many recent breakthroughs in many application fields (e.g., medicine, communication, finance, ...), including some that are strongly related to our day-to-day life (e.g., social networks, computers, smartphones, ...). In machine learning, significant improvements are usually achieved at the price of an increasing computational complexity and thanks to bigger datasets. Currently, cutting-edge models built by the most advanced machine learning algorithms typically became simultaneously very efficient and profitable but also extremely complex. Their complexity is to such an extent that these models are commonly seen as black-boxes providing a prediction or a decision which can not be interpreted or justified. Nevertheless, whether these models are used autonomously or as a simple decision-making support tool, they are already being used in machine learning applications where health and human life are at stake. Therefore, it appears to be an obvious necessity not to blindly believe everything coming out of those models without a detailed understanding of their predictions or decisions. Accordingly, this thesis aims at improving the interpretability of models built by a specific family of machine learning algorithms, the so-called tree-based methods. Several mechanisms have been proposed to interpret these models and we aim along this thesis to improve their understanding, study their properties, and define their limitations.
翻訳日:2021-06-22 10:27:59 公開日:2021-06-21
# shape prior non-uniform sampling guided real-time stereo 3d object detection

Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object Detection ( http://arxiv.org/abs/2106.10013v2 )

ライセンス: Link先を確認
Aqi. Gao, Jiale. Cao, and Yanwei. Pang(参考訳) 擬似LiDARベースの3Dオブジェクト検出器は高い精度で人気を博している。 しかし,これらの手法では深度監視が必要であり,低速化に苦しむ。 これら2つの問題を解決するため、最近発表されたRTS3Dは、深度監督なしでオブジェクトの中間表現のための効率的な4D特徴-一貫性埋め込み(FCE)空間を構築した。 fce空間は、異なるオブジェクト領域の重要性を無視する特徴サンプリングポイント生成のために、オブジェクト領域全体を3次元一様グリッド潜在空間に分割する。 しかし, 内部領域と比較すると, 外側領域は正確な3d検出に重要な役割を担っている。 外側領域からより多くの情報をエンコードするために,外側領域で密サンプリングを行い,内側領域でスパースサンプリングを行う,事前の非一様サンプリング戦略を提案する。 その結果、外部領域からより多くの点をサンプリングし、3次元検出に有用な特徴を抽出する。 さらに,各サンプリング点の特徴識別を強化するために,よりコンテキスト情報を活用し,ノイズを抑える高レベルな意味強化FCEモジュールを提案する。 提案手法の有効性を示すため,KITTIデータセットの実験を行った。 ベースラインRTS3Dと比較して,提案手法はネットワークパラメータをほとんど含まないAP3dに対して2.57%改善されている。 さらに,提案手法は,リアルタイムに余分な監視を行わず,最先端の手法よりも優れた性能を示す。

Pseudo-LiDAR based 3D object detectors have gained popularity due to their high accuracy. However, these methods need dense depth supervision and suffer from inferior speed. To solve these two issues, a recently introduced RTS3D builds an efficient 4D Feature-Consistency Embedding (FCE) space for the intermediate representation of object without depth supervision. FCE space splits the entire object region into 3D uniform grid latent space for feature sampling point generation, which ignores the importance of different object regions. However, we argue that, compared with the inner region, the outer region plays a more important role for accurate 3D detection. To encode more information from the outer region, we propose a shape prior non-uniform sampling strategy that performs dense sampling in outer region and sparse sampling in inner region. As a result, more points are sampled from the outer region and more useful features are extracted for 3D detection. Further, to enhance the feature discrimination of each sampling point, we propose a high-level semantic enhanced FCE module to exploit more contextual information and suppress noise better. Experiments on the KITTI dataset are performed to show the effectiveness of the proposed method. Compared with the baseline RTS3D, our proposed method has 2.57% improvement on AP3d almost without extra network parameters. Moreover, our proposed method outperforms the state-of-the-art methods without extra supervision at a real-time speed.
翻訳日:2021-06-22 10:27:34 公開日:2021-06-21
# ストリーム横断型コントラストを用いた自己教師付きビデオ表現学習

Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting ( http://arxiv.org/abs/2106.10137v2 )

ライセンス: Link先を確認
Martine Toering, Ioannis Gatopoulos, Maarten Stol, Vincent Tao Hu(参考訳) データ拡張と対照的な損失関数に依存するインスタンスレベルのコントラスト学習技術は、視覚表現学習の分野において大きな成功を収めている。 しかし、多くの拡張インスタンス上で操作を行うため、ビデオのリッチな動的構造を利用するには適していない。 本稿では,RGBと光フロービューの両方から一貫したプロトタイプ割り当てを予測し,サンプルセット上で動作させる新しい手法である"Video Cross-Stream Prototypeal Contrasting"を提案する。 具体的には、最適化プロセスに代えて、ストリームの1つを最適化しながら、すべてのビューをストリームプロトタイプベクターの1セットにマッピングします。 それぞれの割り当ては、予測に一致するものを除いてすべてのビューで予測され、割り当てられたプロトタイプに近く表現をプッシュする。 その結果、推論中に光学フロー計算を明示的に必要とせずに、より効率的な動き情報付きビデオ埋め込みが学習される。 s3d バックボーン (90.5% top-1 acc) を用いて ucf101 で+3.2%, r(2+1)d バックボーンを用いて ucf101 で+7.2%, hmdb51 で+15.1% と, 最寄りの映像検索と行動認識に関する最先端の結果を得た。

Instance-level contrastive learning techniques, which rely on data augmentation and a contrastive loss function, have found great success in the domain of visual representation learning. They are not suitable for exploiting the rich dynamical structure of video however, as operations are done on many augmented instances. In this paper we propose "Video Cross-Stream Prototypical Contrasting", a novel method which predicts consistent prototype assignments from both RGB and optical flow views, operating on sets of samples. Specifically, we alternate the optimization process; while optimizing one of the streams, all views are mapped to one set of stream prototype vectors. Each of the assignments is predicted with all views except the one matching the prediction, pushing representations closer to their assigned prototypes. As a result, more efficient video embeddings with ingrained motion information are learned, without the explicit need for optical flow computation during inference. We obtain state-of-the-art results on nearest neighbour video retrieval and action recognition, outperforming previous best by +3.2% on UCF101 using the S3D backbone (90.5% Top-1 acc), and by +7.2% on UCF101 and +15.1% on HMDB51 using the R(2+1)D backbone.
翻訳日:2021-06-22 10:27:11 公開日:2021-06-21
# 実世界画像エンハンスメントの偏差主観評価

Debiased Subjective Assessment of Real-World Image Enhancement ( http://arxiv.org/abs/2106.10080v2 )

ライセンス: Link先を確認
Cao Peibei, Wang Zhangyang, Ma Kede(参考訳) 実世界の画像エンハンスメントでは、接地データを取得することはしばしば困難であり(不可能ではないにせよ)、客観的品質評価のための距離メトリクスの採用を妨げている。 結果として、画像エンハンスメントを評価する最も単純で信頼性の高い方法である主観的品質評価に頼ることが多い。 従来の主観的テストでは、画像空間における選択されたサンプルの極めてスパースな分布によるバイアスのサンプリング、選択されたサンプルの潜在的な過剰によるアルゴリズム的バイアス、さらなるチェリーピッキングテスト結果による主観的バイアスの3つのバイアスを、手動で事前選択する必要がある。 これにより、現実世界の画像エンハンスメントの分野は、科学よりも芸術的になる。 ここでは, 適応的, 多様な画像を自動的にサンプリングすることにより, 従来の主観的評価を逸脱させる。 これにより、サンプル選択を、選択された入力画像間のエンハンサー間の差分と多様性の結合最大化にキャストする。 得られた拡張画像の注意深い視覚検査は、拡張アルゴリズムの偏りのないランキングを提供する。 我々は,デハジング,スーパーレゾリューション,低光度エンハンスメントという3つの画像エンハンスメントタスクを用いて主観評価手法を示す。

In real-world image enhancement, it is often challenging (if not impossible) to acquire ground-truth data, preventing the adoption of distance metrics for objective quality assessment. As a result, one often resorts to subjective quality assessment, the most straightforward and reliable means of evaluating image enhancement. Conventional subjective testing requires manually pre-selecting a small set of visual examples, which may suffer from three sources of biases: 1) sampling bias due to the extremely sparse distribution of the selected samples in the image space; 2) algorithmic bias due to potential overfitting the selected samples; 3) subjective bias due to further potential cherry-picking test results. This eventually makes the field of real-world image enhancement more of an art than a science. Here we take steps towards debiasing conventional subjective assessment by automatically sampling a set of adaptive and diverse images for subsequent testing. This is achieved by casting sample selection into a joint maximization of the discrepancy between the enhancers and the diversity among the selected input images. Careful visual inspection on the resulting enhanced images provides a debiased ranking of the enhancement algorithms. We demonstrate our subjective assessment method using three popular and practically demanding image enhancement tasks: dehazing, super-resolution, and low-light enhancement.
翻訳日:2021-06-22 10:26:38 公開日:2021-06-21