このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211026となっている論文です。

PDF登録状況(公開日: 20211026)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) マルチエージェントアドバイザーQラーニング

Multi-Agent Advisor Q-Learning ( http://arxiv.org/abs/2111.00345v1 )

ライセンス: CC BY 4.0
Sriram Ganapathi Subramanian, Matthew E. Taylor, Kate Larson, Mark Crowley(参考訳) 過去10年間で、マルチエージェント強化学習(MARL)に大きな進歩があったが、高サンプルの複雑さや安定したポリシーへの緩やかな収束など、広範に展開できる前に克服する必要がある多くの課題がまだ残っている。 しかし、現実の環境の多くは、実際には、ポリシーを生成するための準最適またはヒューリスティックなアプローチを展開している。 興味深い質問は、マルチエージェントドメインでの強化学習を改善するためにアドバイザーのようなアプローチを最大限に活用する方法である。 本稿では,オンラインの準最適アドバイザからのアクションレコメンデーションをマルチエージェント設定に組み込むための原則的フレームワークを提案する。 本稿では,非制限型一般確率ゲーム環境における多元知能強化エージェント(ADMIRAL)の適応問題について述べるとともに,アドバイザ(ADMIRAL-DM)とADMIRAL-AE(ADMIRAL-A E)の2つの新しいQ学習アルゴリズムについて述べる。 アルゴリズムを理論的に解析し、一般確率ゲームにおける学習に関する定点保証を提供する。 さらに、大規模な実験では、これらのアルゴリズムが様々な環境で使用でき、他の関連するベースラインと好適に比較可能なパフォーマンスを持ち、大きなステートアクション空間にスケールでき、アドバイザーのアドバイスが乏しいことを示している。

In the last decade, there have been significant advances in multi-agent reinforcement learning (MARL) but there are still numerous challenges, such as high sample complexity and slow convergence to stable policies, that need to be overcome before wide-spread deployment is possible. However, many real-world environments already, in practice, deploy sub-optimal or heuristic approaches for generating policies. An interesting question which arises is how to best use such approaches as advisors to help improve reinforcement learning in multi-agent domains. In this paper, we provide a principled framework for incorporating action recommendations from online sub-optimal advisors in multi-agent settings. We describe the problem of ADvising Multiple Intelligent Reinforcement Agents (ADMIRAL) in nonrestrictive general-sum stochastic game environments and present two novel Q-learning based algorithms: ADMIRAL - Decision Making (ADMIRAL-DM) and ADMIRAL - Advisor Evaluation (ADMIRAL-AE), which allow us to improve learning by appropriately incorporating advice from an advisor (ADMIRAL-DM), and evaluate the effectiveness of an advisor (ADMIRAL-AE). We analyze the algorithms theoretically and provide fixed-point guarantees regarding their learning in general-sum stochastic games. Furthermore, extensive experiments illustrate that these algorithms: can be used in a variety of environments, have performances that compare favourably to other related baselines, can scale to large state-action spaces, and are robust to poor advice from advisors.
翻訳日:2021-11-07 13:02:49 公開日:2021-10-26
# (参考訳) 農業における環境ストレスをモデル化するためのエキスパート知識とニューラルネットワークの組み合わせ [全文訳有]

Combining expert knowledge and neural networks to model environmental stresses in agriculture ( http://arxiv.org/abs/2111.00918v1 )

ライセンス: CC BY 4.0
Kostadin Cvejoski, Jannis Schuecker, Anne-Katrin Mahlein, Bogdan Georgiev(参考訳) 本研究では,ニューラルネットワークの表現学習能力を専門家の農業知識と組み合わせ,環境熱と干ばつストレスをモデル化する。 まず、ベンチマークとして機能する決定論的エキスパートモデルを設計し、柔軟なニューラルネットワークアーキテクチャの設計を知らせる。 最後に、後者の感度分析により、ハイブリッドを感受性および耐性のあるものにクラスタリングすることができる。

In this work we combine representation learning capabilities of neural network with agricultural knowledge from experts to model environmental heat and drought stresses. We first design deterministic expert models which serve as a benchmark and inform the design of flexible neural-network architectures. Finally, a sensitivity analysis of the latter allows a clustering of hybrids into susceptible and resistant ones.
翻訳日:2021-11-07 13:01:30 公開日:2021-10-26
# (参考訳) 静的解析によるニューラルプログラム生成 [全文訳有]

Neural Program Generation Modulo Static Analysis ( http://arxiv.org/abs/2111.01633v1 )

ライセンス: CC BY 4.0
Rohan Mukherjee, Yeming Wen, Dipak Chaudhari, Thomas W. Reps, Swarat Chaudhuri, Chris Jermaine(参考訳) ソースコードの最先端のニューラルモデルは、個々の表現やコード行の生成で評価される傾向があり、一般的に、メソッドボディ全体の生成のような長い水平タスクでは失敗する。 本稿では,静的プログラムアナライザの弱い監視手法を用いて,この欠陥に対処することを提案する。 我々のニューロシンボリックな手法は、静的解析ツールを呼び出し、すでに生成されたコード内の長距離意味関係を利用して、深い生成モデルを象徴的に計算することができる。 トレーニング中、モデルはこれらの関係を観察し、それらに条件付きプログラムを生成することを学ぶ。 我々は、メソッドを含むクラスの残りの部分からJavaメソッド全体を生成する問題にアプローチを適用します。 提案手法は, 基本的な意味的誤りのないプログラムの生成と, 基礎的真理の構文的マッチングという両面で, 最先端のトランスフォーマーや, このタスクのプログラム意味論を明示的に学習しようとするモデルを大きく上回っていることを示す。

State-of-the-art neural models of source code tend to be evaluated on the generation of individual expressions and lines of code, and commonly fail on long-horizon tasks such as the generation of entire method bodies. We propose to address this deficiency using weak supervision from a static program analyzer. Our neurosymbolic method allows a deep generative model to symbolically compute, using calls to a static-analysis tool, long-distance semantic relationships in the code that it has already generated. During training, the model observes these relationships and learns to generate programs conditioned on them. We apply our approach to the problem of generating entire Java methods given the remainder of the class that contains the method. Our experiments show that the approach substantially outperforms state-of-the-art transformers and a model that explicitly tries to learn program semantics on this task, both in terms of producing programs free of basic semantic errors and in terms of syntactically matching the ground truth.
翻訳日:2021-11-07 12:45:20 公開日:2021-10-26
# Fuzzy Conceptual Graphs: 比較議論

Fuzzy Conceptual Graphs: a comparative discussion ( http://arxiv.org/abs/2111.00229v1 )

ライセンス: Link先を確認
Adam Faci (LFI, TRT), Marie-Jeanne Lesot (LFI), Claire Laudy (TRT)(参考訳) 概念グラフ(cg)はグラフに基づく知識表現と推論形式であり、ファジィ概念グラフ(fcg)は表現力を高める拡張であり、ファジィ集合論を利用して様々なレベルで制約を緩和する。 本稿では,それぞれの利点と限界に対する既存手法の比較研究を提案する。 議論は3つの軸で行われます (a)各アプローチの批判的見解及び技術状況からの先行命題との比較 b) その可能性及び限界を説明するために,各定義の多くの可能な解釈を提示すること (c) 緩やかな制約とともに, CGの一部が定義に影響を及ぼすことの明確化。

Conceptual Graphs (CG) are a graph-based knowledge representation and reasoning formalism; fuzzy Conceptual Graphs (fCG) constitute an extension that enriches their expressiveness, exploiting the fuzzy set theory so as to relax their constraints at various levels. This paper proposes a comparative study of existing approaches over their respective advantages and possible limitations. The discussion revolves around three axes: (a) Critical view of each approach and comparison with previous propositions from the state of the art; (b) Presentation of the many possible interpretations of each definition to illustrate its potential and its limits; (c) Clarification of the part of CG impacted by the definition as well as the relaxed constraint.
翻訳日:2021-11-07 11:45:27 公開日:2021-10-26
# 分子最適化のためのフラグメントに基づく逐次変換

Fragment-based Sequential Translation for Molecular Optimization ( http://arxiv.org/abs/2111.01009v1 )

ライセンス: Link先を確認
Benson Chen, Xiang Fu, Regina Barzilay, Tommi Jaakkola(参考訳) 望ましい性質を持つ新規な分子化合物の探索は、薬物発見の重要な問題である。 多くの既存のフレームワークは一度に1つの原子を生成する。 代わりに、学習された分子断片を用いて分子を生成するフレキシブルな編集パラダイムを提案する。 そこで我々は,変分オートエンコーダ(VAE)を訓練して,分子断片をコヒーレントな潜在空間にエンコードし,分子を編集して複雑な化学特性空間を探索する語彙として利用する。 学習されたフラグメント語彙を用いて,モデル発見分子を望ましい性質を満たしながら,新たな分子へと反復的に翻訳する強化学習(rl)ポリシーを学習するフラグメントに基づく逐次翻訳(fast)を提案する。 実証評価の結果, 単目的/多目的の分子最適化タスクにおいて, FaSTは最先端の手法よりも大幅に改善されている。

Searching for novel molecular compounds with desired properties is an important problem in drug discovery. Many existing frameworks generate molecules one atom at a time. We instead propose a flexible editing paradigm that generates molecules using learned molecular fragments--meaningfu l substructures of molecules. To do so, we train a variational autoencoder (VAE) to encode molecular fragments in a coherent latent space, which we then utilize as a vocabulary for editing molecules to explore the complex chemical property space. Equipped with the learned fragment vocabulary, we propose Fragment-based Sequential Translation (FaST), which learns a reinforcement learning (RL) policy to iteratively translate model-discovered molecules into increasingly novel molecules while satisfying desired properties. Empirical evaluation shows that FaST significantly improves over state-of-the-art methods on benchmark single/multi-objecti ve molecular optimization tasks.
翻訳日:2021-11-07 11:45:00 公開日:2021-10-26
# CARSスペクトルの高速マルチパラメータフィッティングにおける適応モデリングパワー

Adaptive Modeling Powers Fast Multi-parameter Fitting of CARS Spectra ( http://arxiv.org/abs/2111.00917v1 )

ライセンス: Link先を確認
Gregory J. Hunt, Cody R. Ground, Andrew D. Cutler(参考訳) コヒーレント反ストークスラマン分光法(Coherent anti-Stokes Raman Spectroscopy, CARS)は、レーザーによる計測技術であり、多くの科学分野や工学分野に広く応用されている。 CARSは燃焼の研究によく用いられ、測定されたスペクトルを用いて温度や相対種モル分数などの反応ガスから複数の流れパラメータを同時に回収することができる。 これは典型的には、自動車スペクトルの理論モデルが実際の測定と最も一致する流れパラメータを見つけるために数値最適化を用いて行われる。 最も一般的に用いられる理論モデルはcarsft spectrum calculatorである。 残念なことに、このカーフトスペクトル発生器は計算コストが高く、複数のフローパラメータを回収するために使用することは、特に時間や空間に数百から数千の計測値が分散している場合、非常に時間がかかる。 これらの問題を克服するため、事前計算された理論スペクトルのライブラリを用いてCARSFTを近似する手法が開発されている。 本稿では,適応的に滑らかなカーネルベースの近似器を構築するために,機械学習文献のアイデアを活用する新しい手法を提案する。 h_2/$air火炎を模擬した2ポンプ車実験では,少数のライブラリースペクトルを用いて温度を迅速かつ正確に回復し,ガス種4種のモル分画を抽出できることを示した。 この手法の柔軟性は、速度と精度のトレードオフを微調整したナビゲーションを可能にし、幅広い問題やフローレジームに適している。

Coherent anti-Stokes Raman Spectroscopy (CARS) is a laser-based measurement technique widely applied across many science and engineering disciplines to perform non-intrusive gas diagnostics. CARS is often used to study combustion, where the measured spectra can be used to simultaneously recover multiple flow parameters from the reacting gas such as temperature and relative species mole fractions. This is typically done by using numerical optimization to find the flow parameters for which a theoretical model of the CARS spectra best matches the actual measurements. The most commonly used theoretical model is the CARSFT spectrum calculator. Unfortunately, this CARSFT spectrum generator is computationally expensive and using it to recover multiple flow parameters can be prohibitively time-consuming, especially when experiments have hundreds or thousands of measurements distributed over time or space. To overcome these issues, several methods have been developed to approximate CARSFT using a library of pre-computed theoretical spectra. In this work we present a new approach that leverages ideas from the machine learning literature to build an adaptively smoothed kernel-based approximator. In application on a simulated dual-pump CARS experiment probing a $H_2/$air flame, we show that the approach can use a small number library spectra to quickly and accurately recover temperature and four gas species' mole fractions. The method's flexibility allows fine-tuned navigation of the trade-off between speed and accuracy, and makes the approach suitable for a wide range of problems and flow regimes.
翻訳日:2021-11-07 11:44:42 公開日:2021-10-26
# (参考訳) astrocyte-modulated plasticity によるエッジ・オブ・カオス・ダイナミクスによる液体状態機械の性能向上 [全文訳有]

Increasing Liquid State Machine Performance with Edge-of-Chaos Dynamics Organized by Astrocyte-modulated Plasticity ( http://arxiv.org/abs/2111.01760v1 )

ライセンス: CC BY 4.0
Vladimir A. Ivanov, Konstantinos P. Michmizos(参考訳) 液体状態機械(LSM)は、訓練の複雑さと生物学的な妥当性を組み合わせ、エッジおよびニューロモルフィックコンピューティングパラダイムのための魅力的な機械学習フレームワークとなった。 もともと脳計算のモデルとして提案されたLSMは、勾配のバックプロパゲーションなしで内部重みを調整し、多層ニューラルネットワークと比較して性能が低下する。 神経科学の最近の知見は、長い無視された非神経性脳細胞であるアストロサイトがシナプス可塑性と脳のダイナミクスを調節し、秩序とカオスの間の計算上最適な臨界相転移の近傍に脳ネットワークをチューニングしていることを示唆している。 脳のネットワークの自己構造に関するこの破壊的理解に触発されて、自己組織化された近臨界ダイナミクスによる性能不足に対処するニューロン・アストロサイト液体状態機械(nalsm)を提案する。 astrocyteモデルはその生物学的な機能と同様に、神経活動を統合し、spike-timing-depende nt plasticity(stdp)へのグローバルなフィードバックを提供する。 我々は,NALSMがデータ固有の手動チューニングを必要とせずに,同等のLSM法に対して最先端の精度を実現することを示す。 MNISTで97.61%、N-MNISTで97.51%、Fashion-MNISTで85.84%の精度で、NALSMはバックプロパゲーションで訓練された現在の完全接続型マルチ層スパイクニューラルネットワークと同等のパフォーマンスを達成した。 脳にインスパイアされた機械学習手法のさらなる発展は、強固でエネルギー効率の良いニューロモルフィックコンピューティングをエッジでサポートすることで、ディープラーニングのパフォーマンスに到達できる可能性が示唆された。

The liquid state machine (LSM) combines low training complexity and biological plausibility, which has made it an attractive machine learning framework for edge and neuromorphic computing paradigms. Originally proposed as a model of brain computation, the LSM tunes its internal weights without backpropagation of gradients, which results in lower performance compared to multi-layer neural networks. Recent findings in neuroscience suggest that astrocytes, a long-neglected non-neuronal brain cell, modulate synaptic plasticity and brain dynamics, tuning brain networks to the vicinity of the computationally optimal critical phase transition between order and chaos. Inspired by this disruptive understanding of how brain networks self-tune, we propose the neuron-astrocyte liquid state machine (NALSM) that addresses under-performance through self-organized near-critical dynamics. Similar to its biological counterpart, the astrocyte model integrates neuronal activity and provides global feedback to spike-timing-depende nt plasticity (STDP), which self-organizes NALSM dynamics around a critical branching factor that is associated with the edge-of-chaos. We demonstrate that NALSM achieves state-of-the-art accuracy versus comparable LSM methods, without the need for data-specific hand-tuning. With a top accuracy of 97.61% on MNIST, 97.51% on N-MNIST, and 85.84% on Fashion-MNIST, NALSM achieved comparable performance to current fully-connected multi-layer spiking neural networks trained via backpropagation. Our findings suggest that the further development of brain-inspired machine learning methods has the potential to reach the performance of deep learning, with the added benefits of supporting robust and energy-efficient neuromorphic computing on the edge.
翻訳日:2021-11-07 11:37:15 公開日:2021-10-26
# CLAUSEREC: AI支援契約オーサリングのためのクローズ勧告フレームワーク

CLAUSEREC: A Clause Recommendation Framework for AI-aided Contract Authoring ( http://arxiv.org/abs/2110.15794v1 )

ライセンス: Link先を確認
Vinay Aggarwal, Aparna Garimella, Balaji Vasan Srinivasan, Anandhavelu N, Rajiv Jain(参考訳) 契約は、日々の業務ワークフローで頻繁に発生する一般的な法的文書である。 しかし、そのような文書の処理には非常に限定的なNLP研究があり、その生成はより少ない。 これらの契約は節で構成されており、これらの条項のユニークな性質は、そのような文書を理解して生成するための特定の方法を要求する。 本稿では,契約書作成の促進と支援に向けた第一歩として,条項推薦の課題を紹介する。 まず、特定の節タイプがコントラクトに追加されるかどうかを予測し、次に、契約コンテキストに基づいて所定の型のトップ節を推奨する2段階パイプラインを提案する。 既存の節のライブラリに2つの追加タスクでBERTを事前訓練し、予測とレコメンデーションに使用します。 節関連性予測のための分類法と類似性に基づくヒューリスティックス、節推薦のための生成法を実験し、複数の節タイプで様々な方法から結果を評価する。 結果の分析を行い,本研究における各種手法の利点と限界について概説する。

Contracts are a common type of legal document that frequent in several day-to-day business workflows. However, there has been very limited NLP research in processing such documents, and even lesser in generating them. These contracts are made up of clauses, and the unique nature of these clauses calls for specific methods to understand and generate such documents. In this paper, we introduce the task of clause recommendation, asa first step to aid and accelerate the author-ing of contract documents. We propose a two-staged pipeline to first predict if a specific clause type is relevant to be added in a contract, and then recommend the top clauses for the given type based on the contract context. We pretrain BERT on an existing library of clauses with two additional tasks and use it for our prediction and recommendation. We experiment with classification methods and similarity-based heuristics for clause relevance prediction, and generation-based methods for clause recommendation, and evaluate the results from various methods on several clause types. We provide analyses on the results, and further outline the advantages and limitations of the various methods for this line of research.
翻訳日:2021-11-07 11:08:41 公開日:2021-10-26
# 対人ロバストネスの周波数的視点

A Frequency Perspective of Adversarial Robustness ( http://arxiv.org/abs/2111.00861v1 )

ライセンス: Link先を確認
Shishira R Maiya, Max Ehrlich, Vatsal Agarwal, Ser-Nam Lim, Tom Goldstein, Abhinav Shrivastava(参考訳) 敵対的な例は、ディープラーニングシステムに固有の課題をもたらす。 近年の攻撃と防衛の進展にもかかわらず、敵の例の真の性質と根底にある性質について、コミュニティには明確さとコンセンサスがない。 これらの例を深く理解することで、より効果的な攻撃と防御の開発に対する新たな洞察を得ることができる。 逆例が高周波雑音であるという一般的な誤解に触発され,理論的および経験的知見によって支持される逆例の周波数ベースの理解を示す。 分析の結果,逆転例は高周波でも低周波成分でもないが,単にデータセット依存であることがわかった。 特に,CIFAR-10でトレーニングされたモデルとImageNet由来のデータセットとの相違点を強調した。 この枠組みを用いて,周波数制約付きロバストモデルの多くの興味をそそる特性を解析し,ロバスト性トレードオフに対する一般観測精度の周波数ベース説明を提案する。

Adversarial examples pose a unique challenge for deep learning systems. Despite recent advances in both attacks and defenses, there is still a lack of clarity and consensus in the community about the true nature and underlying properties of adversarial examples. A deep understanding of these examples can provide new insights towards the development of more effective attacks and defenses. Driven by the common misconception that adversarial examples are high-frequency noise, we present a frequency-based understanding of adversarial examples, supported by theoretical and empirical findings. Our analysis shows that adversarial examples are neither in high-frequency nor in low-frequency components, but are simply dataset dependent. Particularly, we highlight the glaring disparities between models trained on CIFAR-10 and ImageNet-derived datasets. Utilizing this framework, we analyze many intriguing properties of training robust models with frequency constraints, and propose a frequency-based explanation for the commonly observed accuracy vs. robustness trade-off.
翻訳日:2021-11-07 11:08:11 公開日:2021-10-26
# (参考訳) 銀行取引の埋め込みが現在のマクロ経済学の解明に役立つ [全文訳有]

Bank transactions embeddings help to uncover current macroeconomics ( http://arxiv.org/abs/2110.12000v2 )

ライセンス: CC0 1.0
Maria Begicheva, Alexey Zaytsev(参考訳) マクロ経済指標は銀行にとって非常に重要であり、リスク管理決定の多くはこれらの指標を利用する。 これらの指標評価の典型的なワークフローはコストがかかり、引き延ばされ、実際の日付と利用可能なインデックスの遅延は数ヶ月である。 銀行は今、自己回帰モデルを使って急速に変化する環境で意思決定をしている。 しかし、自己回帰モデルは危機の出現に関連する複雑なシナリオで失敗する。 我々は,ロシア大手銀行からの顧客の金融取引データを用いて,これらの指標を取得することを提案する。 金融取引は長く、多くのクライアントは巨大であるため、我々は数百万の取引からなる取引の流れに基づいてマクロ経済指標を迅速かつ正確に推定できる効率的なアプローチを開発します。 このアプローチでは、ニューラルネットワークパラダイムとスマートサンプリングスキームを使用する。 その結果,我々のニューラルネットワークアプローチは,トランザクションに基づく手作り特徴のベースライン手法よりも優れていることがわかった。 計算された埋め込みは、クライアントのトランザクションアクティビティと銀行マクロ経済指標との時間的相関を示す。

Macroeconomic indexes are of high importance for banks: many risk-control decisions utilize these indexes. A typical workflow of these indexes evaluation is costly and protracted, with a lag between the actual date and available index being a couple of months. Banks predict such indexes now using autoregressive models to make decisions in a rapidly changing environment. However, autoregressive models fail in complex scenarios related to appearances of crises. We propose to use clients' financial transactions data from a large Russian bank to get such indexes. Financial transactions are long, and a number of clients is huge, so we develop an efficient approach that allows fast and accurate estimation of macroeconomic indexes based on a stream of transactions consisting of millions of transactions. The approach uses a neural networks paradigm and a smart sampling scheme. The results show that our neural network approach outperforms the baseline method on hand-crafted features based on transactions. Calculated embeddings show the correlation between the client's transaction activity and bank macroeconomic indexes over time.
翻訳日:2021-11-01 09:14:14 公開日:2021-10-26
# (参考訳) 抽象化と推論のためのニューラル誘導双方向プログラム探索 [全文訳有]

Neural-guided, Bidirectional Program Search for Abstraction and Reasoning ( http://arxiv.org/abs/2110.11536v2 )

ライセンス: CC BY 4.0
Simon Alford, Anshula Gandhi, Akshay Rangamani, Andrzej Banburski, Tony Wang, Sylee Dandekar, John Chin, Tomaso Poggio, and Peter Chin(参考訳) 今日の人工知能研究が直面する課題の1つは、体系的な推論を利用して新しいタスクを一般化できるシステムを設計することだ。 ARC(Abstraction and Reasoning Corpus)は、視覚的推論タスクを通じてそのような能力を測定する。 本稿では,arcに関する漸進的な進歩を報告し,ブルートフォース検索を基盤としない2つの抽象化と推論の基礎を述べる。 まずDreamCoderと呼ばれる既存のプログラム合成システムを用いて、これまで解決されてきたタスクからシンボリックな抽象化を作成し、より困難なARCタスクの解決を可能にする方法を示す。 第二に、人間がARCに近づく方法によって動機付けられた推論アルゴリズムを設計する。 アルゴリズムは探索グラフを構築し,このグラフ構造上の理由からタスクソリューションを探索する。 より具体的には,関数逆セマンティクスに基づく帰納的推論を用いて,既存の実行誘導型プログラム合成手法を拡張し,ニューラルネットワークによる双方向探索アルゴリズムを実現する。 本稿では,ARC,24ゲームタスク,および'double-and-add'算術パズルの3つの領域におけるアルゴリズムの有効性を示す。

One of the challenges facing artificial intelligence research today is designing systems capable of utilizing systematic reasoning to generalize to new tasks. The Abstraction and Reasoning Corpus (ARC) measures such a capability through a set of visual reasoning tasks. In this paper we report incremental progress on ARC and lay the foundations for two approaches to abstraction and reasoning not based in brute-force search. We first apply an existing program synthesis system called DreamCoder to create symbolic abstractions out of tasks solved so far, and show how it enables solving of progressively more challenging ARC tasks. Second, we design a reasoning algorithm motivated by the way humans approach ARC. Our algorithm constructs a search graph and reasons over this graph structure to discover task solutions. More specifically, we extend existing execution-guided program synthesis approaches with deductive reasoning based on function inverse semantics to enable a neural-guided bidirectional search algorithm. We demonstrate the effectiveness of the algorithm on three domains: ARC, 24-Game tasks, and a 'double-and-add' arithmetic puzzle.
翻訳日:2021-11-01 05:23:37 公開日:2021-10-26
# (参考訳) 形状表現を用いた知識グラフサブセットの作成

Creating Knowledge Graphs Subsets using Shape Expressions ( http://arxiv.org/abs/2110.11709v3 )

ライセンス: CC BY 4.0
Jose Emilio Labra Gayo(参考訳) Googleとその後の大企業による知識グラフの導入は、その採用と人気を高めている。 本稿では,rdfベースのグラフ,プロパティグラフ,wikibaseグラフと呼ばれる3種類の知識グラフの形式モデルを提案する。 知識グラフの質を高めるために、いくつかのアプローチでその内容の説明と検証がなされている。 形状表現(ShEx)はRDF検証のための簡潔な言語として提案されている。 本稿では、ShExの簡単な紹介と、プロパティグラフ(PShEx)とwikibaseグラフ(WShEx)の記述および検証に使用できる2つの拡張について述べる。 知識グラフの1つの問題は、それらに含まれる大量のデータである。 この問題を緩和するために、ある領域の知識グラフのサブセットを作成するというアプローチがある。 エンティティマッチング、単純なマッチング、ShExマッチング、ShExプラスSlurpおよびShExプラスPregelは、いくつかのコンテンツまたはシェイプ式を一致させることで、サブセットを宣言的に定義する。 最後のアプローチは、ビッグデータグラフを処理でき、Apache Spark GraphXに実装されているPregelアルゴリズムに基づいた、ShExの新たなバリデーションアルゴリズムに基づいている。

The initial adoption of knowledge graphs by Google and later by big companies has increased their adoption and popularity. In this paper we present a formal model for three different types of knowledge graphs which we call RDF-based graphs, property graphs and wikibase graphs. In order to increase the quality of Knowledge Graphs, several approaches have appeared to describe and validate their contents. Shape Expressions (ShEx) has been proposed as concise language for RDF validation. We give a brief introduction to ShEx and present two extensions that can also be used to describe and validate property graphs (PShEx) and wikibase graphs (WShEx). One problem of knowledge graphs is the large amount of data they contain, which jeopardizes their practical application. In order to palliate this problem, one approach is to create subsets of those knowledge graphs for some domains. We propose the following approaches to generate those subsets: Entity-matching, simple matching, ShEx matching, ShEx plus Slurp and ShEx plus Pregel which are based on declaratively defining the subsets by either matching some content or by Shape Expressions. The last approach is based on a novel validation algorithm for ShEx based on the Pregel algorithm that can handle big data graphs and has been implemented on Apache Spark GraphX.
翻訳日:2021-11-01 04:08:49 公開日:2021-10-26
# (参考訳) 非IIDデータを用いた連合型対人訓練 [全文訳有]

Ensemble Federated Adversarial Training with Non-IID data ( http://arxiv.org/abs/2110.14814v1 )

ライセンス: CC BY 4.0
Shuang Luo and Didi Zhu and Zexi Li and Chao Wu(参考訳) データプライバシとセキュリティを保護するという前提の下で、相互学習型エンドウズ(federated learning endows)が分散クライアントを協調トレーニングモードとして配布しているにも関わらず、クライアントは堅牢性の欠如により、敵対的なサンプルに遭遇しても脆弱である。 敵のサンプルはクライアントモデルを混同して騙し、通常の入力に精巧なノイズを注入することで悪意のある目的を達成することができる。 本稿では, EFATと呼ばれる, 効果的で堅牢な協調学習機構を実現するための, 包括的対人訓練手法を提案する。 我々の中核となる考え方は、他の参加顧客から異なる障害を伴うトレーニングデータを拡張することで、敵のサンプルの多様性を高めることである。 特徴分布スキューやラベル分布スキューなど,異なる非IID状況における実験結果から,本手法は,フェデレート学習と対角的アプローチを単独で組み合わせることで,有望な結果が得られることを示した。

Despite federated learning endows distributed clients with a cooperative training mode under the premise of protecting data privacy and security, the clients are still vulnerable when encountering adversarial samples due to the lack of robustness. The adversarial samples can confuse and cheat the client models to achieve malicious purposes via injecting elaborate noise into normal input. In this paper, we introduce a novel Ensemble Federated Adversarial Training Method, termed as EFAT, that enables an efficacious and robust coupled training mechanism. Our core idea is to enhance the diversity of adversarial examples through expanding training data with different disturbances generated from other participated clients, which helps adversarial training perform well in Non-IID settings. Experimental results on different Non-IID situations, including feature distribution skew and label distribution skew, show that our proposed method achieves promising results compared with solely combining federated learning with adversarial approaches.
翻訳日:2021-10-31 13:22:07 公開日:2021-10-26
# (参考訳) 連続学習のための生成的リプレイにおける脳誘発的特徴誇張 [全文訳有]

Brain-inspired feature exaggeration in generative replay for continual learning ( http://arxiv.org/abs/2110.15056v1 )

ライセンス: CC BY 4.0
Jack Millichamp, Xi Chen(参考訳) これまでに学んだクラスの破滅的な忘れは、信頼性があり正確な生成的連続学習モデルの開発に成功するための大きな障害の1つである。 新しいクラスを学習する場合、事前に学習したクラスの内部表現はしばしば上書きされ、結果としてモデルの以前のクラスの"メモリ"は時間とともに失われる。 近年の神経科学の発展により、脳が自身の記憶干渉を回避できる方法が発見されている。 類似しているが競合する記憶の特徴の違いを的確に誇張することで、脳はそれらをより容易に識別し思い出すことができる。 本稿では,このような誇張の応用を,競合するクラスに属するリプレイされたサンプルの反発を通じて検討する。 そこで,本稿では,組込み学習データセットcifar100における初期クラスの分類に関する新たな最先端性能について述べる。

The catastrophic forgetting of previously learnt classes is one of the main obstacles to the successful development of a reliable and accurate generative continual learning model. When learning new classes, the internal representation of previously learnt ones can often be overwritten, resulting in the model's "memory" of earlier classes being lost over time. Recent developments in neuroscience have uncovered a method through which the brain avoids its own form of memory interference. Applying a targeted exaggeration of the differences between features of similar, yet competing memories, the brain can more easily distinguish and recall them. In this paper, the application of such exaggeration, via the repulsion of replayed samples belonging to competing classes, is explored. Through the development of a 'reconstruction repulsion' loss, this paper presents a new state-of-the-art performance on the classification of early classes in the class-incremental learning dataset CIFAR100.
翻訳日:2021-10-31 13:10:02 公開日:2021-10-26
# (参考訳) 反対例に対する周波数心防御機構 [全文訳有]

Frequency Centric Defense Mechanisms against Adversarial Examples ( http://arxiv.org/abs/2110.13935v1 )

ライセンス: CC BY-SA 4.0
Sanket B. Shah, Param Raval, Harin Khakhi, Mehul S. Raval(参考訳) 本稿では,入力画像に小さな摂動を導入することで畳み込みニューラルネットワークを騙すことを目標とし,フーリエスペクトルの大きさと位相と,画像のエントロピーを用いてAEを防御する手法を提案する。 対向検知器の訓練と対向効果の認知という2つの方法による防御の実証を行った。 低分解能CIFAR-10と高分解能画像Netデータセットで実験を行った。 対向検出器は、CIFAR-10データセットに対するFGSMおよびPGD攻撃の99%の精度を持つ。 しかし、検出精度は、高度なDeepFoolとCarini & WagnerによるImageNet攻撃の50%に低下する。 オートエンコーダによる制限を克服し,AEsの70%が正常に分類されていることを示す。

Adversarial example (AE) aims at fooling a Convolution Neural Network by introducing small perturbations in the input image.The proposed work uses the magnitude and phase of the Fourier Spectrum and the entropy of the image to defend against AE. We demonstrate the defense in two ways: by training an adversarial detector and denoising the adversarial effect. Experiments were conducted on the low-resolution CIFAR-10 and high-resolution ImageNet datasets. The adversarial detector has 99% accuracy for FGSM and PGD attacks on the CIFAR-10 dataset. However, the detection accuracy falls to 50% for sophisticated DeepFool and Carlini & Wagner attacks on ImageNet. We overcome the limitation by using autoencoder and show that 70% of AEs are correctly classified after denoising.
翻訳日:2021-10-31 13:03:29 公開日:2021-10-26
# (参考訳) 臨界決定過程の確率的ロバストモデル中心説明法 [全文訳有]

Provably Robust Model-Centric Explanations for Critical Decision-Making ( http://arxiv.org/abs/2110.13937v1 )

ライセンス: CC BY-SA 4.0
Cecilia G. Morales, Nicholas Gisolfi, Robert Edman, James K. Miller, Artur Dubrawski(参考訳) 人工知能(AI)における一般的なデータ中心の説明ツールであるLIMEやSHAPとの違いと相補的なモデル行動の有用な説明を得るために、モデル中心のSAT(Boolean Satisfiability)形式を使うことを推奨する。 これらの手法を比較して比較し,データ中心の手法が実用性に乏しい説明をもたらすことを示す。 しかし、モデル中心のフレームワークは、実際にAIモデルを使用するリスクに関する実用的な洞察を提供することができる。 aiの重要なアプリケーションでは、分割2次意思決定は、モデル中心のフレームワークが提供する能力であるデータの性質に不変なロバストな説明によって最もよくわかる。

We recommend using a model-centric, Boolean Satisfiability (SAT) formalism to obtain useful explanations of trained model behavior, different and complementary to what can be gleaned from LIME and SHAP, popular data-centric explanation tools in Artificial Intelligence (AI). We compare and contrast these methods, and show that data-centric methods may yield brittle explanations of limited practical utility. The model-centric framework, however, can offer actionable insights into risks of using AI models in practice. For critical applications of AI, split-second decision making is best informed by robust explanations that are invariant to properties of data, the capability offered by model-centric frameworks.
翻訳日:2021-10-31 12:54:57 公開日:2021-10-26
# (参考訳) Boosted CVaR 分類 [全文訳有]

Boosted CVaR Classification ( http://arxiv.org/abs/2110.13948v1 )

ライセンス: CC BY 4.0
Runtian Zhai, Chen Dan, Arun Sai Suggala, Zico Kolter, Pradeep Ravikumar(参考訳) 現代の機械学習タスクの多くは、データセットの最悪のサンプルよりも高いパフォーマンス、すなわち高いテールパフォーマンスのモデルを必要とする。 この問題はアルゴリズム的公正性、クラス不均衡、リスクに敏感な意思決定などの分野で広く研究されている。 モデルのテール性能を最大化するための一般的なアプローチは、損失のテール平均リスクを計算するCVaR(Conditional Value at Risk)損失を最小限にすることである。 しかし,ゼロ・ワン損失によってモデルが評価される分類タスクでは,分類器が決定論的であれば,ゼロ・ワン損失の最小化もCVaRゼロ・ワン損失の最小化であり,CVaR損失の最小化は追加の仮定なしでは役に立たないことを示す。 我々は、平均ゼロワン損失とcvarゼロワン損失の最小値がもはや同じではないランダム化分類器に対するcvar損失を最小化することで、この負の結果を回避し、後者を最小化することで末尾性能を改善することができる。 このようなランダム化分類を学習するために,CVaRとLPBoostという古典的ブースティングアルゴリズムとの直接的な関係を動機としたBoosted CVaR分類フレームワークを提案する。 このフレームワークに基づいて,$\alpha$-AdaLPBoost というアルゴリズムを設計する。 提案アルゴリズムを4つのベンチマークデータセット上で実証的に評価し,決定論的モデルトレーニング手法よりも高いテール性能を実現することを示す。

Many modern machine learning tasks require models with high tail performance, i.e. high performance over the worst-off samples in the dataset. This problem has been widely studied in fields such as algorithmic fairness, class imbalance, and risk-sensitive decision making. A popular approach to maximize the model's tail performance is to minimize the CVaR (Conditional Value at Risk) loss, which computes the average risk over the tails of the loss. However, for classification tasks where models are evaluated by the zero-one loss, we show that if the classifiers are deterministic, then the minimizer of the average zero-one loss also minimizes the CVaR zero-one loss, suggesting that CVaR loss minimization is not helpful without additional assumptions. We circumvent this negative result by minimizing the CVaR loss over randomized classifiers, for which the minimizers of the average zero-one loss and the CVaR zero-one loss are no longer the same, so minimizing the latter can lead to better tail performance. To learn such randomized classifiers, we propose the Boosted CVaR Classification framework which is motivated by a direct relationship between CVaR and a classical boosting algorithm called LPBoost. Based on this framework, we design an algorithm called $\alpha$-AdaLPBoost. We empirically evaluate our proposed algorithm on four benchmark datasets and show that it achieves higher tail performance than deterministic model training methods.
翻訳日:2021-10-31 12:48:18 公開日:2021-10-26
# (参考訳) Can't Fool Me: ビデオ理解のための逆ロバスト変換器 [全文訳有]

Can't Fool Me: Adversarially Robust Transformer for Video Understanding ( http://arxiv.org/abs/2110.13950v1 )

ライセンス: CC BY 4.0
Divya Choudhary, Palash Goyal, Saurabh Sahu(参考訳) ディープニューラルネットワークは、逆の例ではパフォーマンスが悪いことが示されている。 これを解決するために,画像分類タスクに対するモデルの堅牢性を高めるために,いくつかの手法が提案されている。 しかし、ビデオ理解タスクでは、逆向きに堅牢なモデルを開発することは未だ未定である。 本稿では,このギャップを埋めることを目的とする。 まず,画像ベースの可逆ロバストモデルの単純な拡張により,最悪の場合のパフォーマンスがわずかに向上することを示す。 さらに,注意モジュールのロバスト性を改善するために,トランスフォーマの時空間的注意正規化方式を提案する。 本稿では, 大規模ビデオデータセット YouTube-8M を用いて, 最終モデル (A-ART) が, 敵の例集合上での非敵的性能に近い結果が得られることを示す。 一方, ベースライントランスフォーマーと単純な逆数拡張は72.9%, 82%であり, 最先端技術に対する堅牢性は著しく向上した。

Deep neural networks have been shown to perform poorly on adversarial examples. To address this, several techniques have been proposed to increase robustness of a model for image classification tasks. However, in video understanding tasks, developing adversarially robust models is still unexplored. In this paper, we aim to bridge this gap. We first show that simple extensions of image based adversarially robust models slightly improve the worst-case performance. Further, we propose a temporal attention regularization scheme in Transformer to improve the robustness of attention modules to adversarial examples. We illustrate using a large-scale video data set YouTube-8M that the final model (A-ART) achieves close to non-adversarial performance on its adversarial example set. We achieve 91% GAP on adversarial examples, whereas baseline Transformer and simple adversarial extensions achieve 72.9% and 82% respectively, showing significant improvement in robustness over the state-of-the-art.
翻訳日:2021-10-31 12:27:15 公開日:2021-10-26
# (参考訳) テンソルネットワークを用いたラデマチャーランダム射影 [全文訳有]

Rademacher Random Projections with Tensor Networks ( http://arxiv.org/abs/2110.13970v1 )

ライセンス: CC BY 4.0
Beheshteh T. Rakhshan and Guillaume Rabusseau(参考訳) ランダム・プロジェクション(RP)は、最近、超高次元テンソルの次元を縮小する能力のために、機械学習コミュニティで人気のテクニックとして登場した。 29] の作業に続いて, コアテンソルの各要素がラデマッハ分布から引き出されるテンソルトレイン(TT)分解に依存するテンソル化ランダム射影を考える。 我々の理論は、[29] の圧縮フォルミンTT形式で表されるガウスの低ランクテンソルを、同じ埋め込みサイズでラデマッハ分布から引き出されたコア要素を持つTTテンソルに置き換えることができることを示した。 合成データの実験により、テンソル化ラデマッハrpは[29]で研究されたテンソル化ガウスrpよりも優れることが示された。 さらに, 行列積作用素 (mpo) のテンソル化 rp が[5] で提案されている大きな行列上でのsvd は, ジョンソン・リンデンシュトラウス変換 (jlt) ではなく, 適当なランダム射影写像ではないことを理論的に実験的に示す。

Random projection (RP) have recently emerged as popular techniques in themachine learning community for their ability in reducing the dimension of veryhigh-dimensional tensors. Following the work in [29], we consider a tensorizedrandom projection relying on Tensor Train (TT) decomposition where each elementof the core tensors is drawn from a Rademacher distribution. Our theoreticalresults reveal that the Gaussian low-rank tensor represented in compressed formin TT format in [29] can be replaced by a TT tensor with core elements drawnfrom a Rademacher distribution with the same embedding size. Experiments onsynthetic data demonstrate that tensorized Rademacher RP can outperform thetensorized Gaussian RP studied in [29]. In addition, we show both theoreticallyand experimentally, that the tensorized RP in the Matrix Product Operator (MPO)format proposed in [5] for performing SVD on large matrices is not a Johnson-Lindenstraus s transform (JLT) and therefore not a well-suited random projectionmap
翻訳日:2021-10-31 12:03:20 公開日:2021-10-26
# (参考訳) ダイアクロニックテキストマイニングによるcovid-19治療候補の検討 [全文訳有]

Diachronic Text Mining Investigation of Therapeutic Candidates for COVID-19 ( http://arxiv.org/abs/2110.13971v1 )

ライセンス: CC BY 4.0
James Powell, Kari Sentz(参考訳) ダイアクロニックテキストマイニングは、単語の意味と使用法の変化の長期にわたる言語調査にしばしば適用されてきた。 本稿では,CORD-19データセットに記録された新型コロナウイルスに関する研究論文のコーパスに,短時間のダイアクロニックテキストマイニングを適用し,コクレンスを同定し,潜在的治療の行動を解析する。 オークリッジ国立研究所(Oak Ridge National Laboratory)のCOVID-19薬物再購入研究に関連するデータセットを使用した。 この研究では、SARS-COV-2ウイルスがヒト細胞に侵入する能力を阻害する可能性に基づいて分析され、ランキングされた薬物や承認された化合物を含む、既存の新型コロナウイルス治療候補を特定した。 CORD-19コーパスの時間的事例におけるこれらの候補の発生について検討した。 検出された用語の少なくとも25%がコーパスの時間的インスタンスで発生し、その頻度と文脈的ダイナミクスが評価可能であることが判明した。 行動は,頻度と文脈の変化が小さく正の相関関係にあるもの,頻度と文脈の変化の間に相関がないもの,頻度と文脈の変化の間に負の相関があるもの,の3種類を同定した。 後者の2つのパターンは、ターゲット候補治療が積極的な評価を受けていることを示すものであると推測する。 ダイアクロニックテキストマイニング技術と大規模ダイナミックテキストコーパスを併用し,国際臨床・実験室における薬物再資源化活動の追跡に有用である可能性が示唆された。

Diachronic text mining has frequently been applied to long-term linguistic surveys of word meaning and usage shifts over time. In this paper we apply short-term diachronic text mining to a rapidly growing corpus of scientific publications on COVID-19 captured in the CORD-19 dataset in order to identify co-occurrences and analyze the behavior of potential candidate treatments. We used a data set associated with a COVID-19 drug re-purposing study from Oak Ridge National Laboratory. This study identified existing candidate coronavirus treatments, including drugs and approved compounds, which had been analyzed and ranked according to their potential for blocking the ability of the SARS-COV-2 virus to invade human cells. We investigated the occurrence of these candidates in temporal instances of the CORD-19 corpus. We found that at least 25% of the identified terms occurred in temporal instances of the corpus to the extent that their frequency and contextual dynamics could be evaluated. We identified three classes of behaviors: those where frequency and contextual shifts were small and positively correlated; those where there was no correlation between frequency and contextual changes; and those where there was a negative correlation between frequency and contextual shift. We speculate that the latter two patterns are indicative that a target candidate therapeutics is undergoing active evaluation. The patterns we detected demonstrate the potential benefits of using diachronic text mining techniques with a large dynamic text corpus to track drug-repurposing activities across international clinical and laboratory settings.
翻訳日:2021-10-31 11:49:03 公開日:2021-10-26
# (参考訳) 何を学ぶかを決めるときの情報の価値 [全文訳有]

The Value of Information When Deciding What to Learn ( http://arxiv.org/abs/2110.13973v1 )

ライセンス: CC BY 4.0
Dilip Arumugam and Benjamin Van Roy(参考訳) すべての意思決定エージェントは、特定のターゲットに関する知識を取得するために探索します。 リッチで複雑な環境では、このターゲットを構成するのはエージェントデザイナーの責任であり、環境自体の完全な知識がなければ、設計者は、エージェントがターゲットが関連するパフォーマンスの不足に対してターゲットを特定するために取得しなければならない情報量とバランスが取れない、最適以下の学習ターゲットをフォージすることができる。 近年の研究では、この課題に対処するための学習目標とレート歪曲理論の関連性を開発し、自動化された方法で何を学ぶかを決定するエージェントに権限を与える一方で、提案アルゴリズムは効率的な情報取得の等しく重要な課題に最適に対処していない。 本稿では,情報指向サンプリング(russo & van roy, 2014)の独創的な設計原理に基づいて,学習目標の最適設計と最適な情報獲得を組み合わせるために,この欠点を直接解決する。 その過程で,何を学ぶかを決定する際に,情報の価値を確認する経験的結果に目を向ける前に,レートゆがみ理論に関する文献から学習目標への新たな洞察を提供する。

All sequential decision-making agents explore so as to acquire knowledge about a particular target. It is often the responsibility of the agent designer to construct this target which, in rich and complex environments, constitutes a onerous burden; without full knowledge of the environment itself, a designer may forge a sub-optimal learning target that poorly balances the amount of information an agent must acquire to identify the target against the target's associated performance shortfall. While recent work has developed a connection between learning targets and rate-distortion theory to address this challenge and empower agents that decide what to learn in an automated fashion, the proposed algorithm does not optimally tackle the equally important challenge of efficient information acquisition. In this work, building upon the seminal design principle of information-directed sampling (Russo & Van Roy, 2014), we address this shortcoming directly to couple optimal information acquisition with the optimal design of learning targets. Along the way, we offer new insights into learning targets from the literature on rate-distortion theory before turning to empirical results that confirm the value of information when deciding what to learn.
翻訳日:2021-10-31 11:38:55 公開日:2021-10-26
# (参考訳) ソーシャルネットワークテキスト処理アプリケーションにおける敵対的攻撃と防御:技術,課題,今後の研究方向 [全文訳有]

Adversarial Attacks and Defenses for Social Network Text Processing Applications: Techniques, Challenges and Future Research Directions ( http://arxiv.org/abs/2110.13980v1 )

ライセンス: CC BY 4.0
Izzat Alsmadi, Kashif Ahmad, Mahmoud Nazzal, Firoj Alam, Ala Al-Fuqaha, Abdallah Khreishah, and Abdulelah Algosaibi(参考訳) ソーシャルメディアの利用が増加し、いくつかの機械学習(ML)と自然言語処理(NLP)ツールが開発され、ソーシャルメディアコンテンツを前代未聞の量で処理して実行可能な意思決定ができるようになった。 しかし、これらのMLおよびNLPアルゴリズムは敵攻撃に弱いことが広く示されている。 これらの脆弱性により、ソーシャルメディアのテキスト処理のさまざまな応用において、敵のアルゴリズムに対する多様な攻撃を開始することができる。 本稿では,ソーシャルメディアアプリケーションにおける敵の攻撃と防衛に対する主要なアプローチについて,特に重要な課題と今後の研究方向性に焦点をあてた総合的なレビューを行う。 詳しくは、6つの主要な応用、すなわち、文献について述べる。 (i)うわさの検出。 (ii)検出を風刺する。 (iii)クリックベイトとスパムの識別。 (iv)ヘイトスピーチ検出。 (v)誤情報検出、及び (vi)感情分析。 次に、同時に予想される今後の研究課題を強調し、今後の作業に対する推奨と指示を提供します。

The growing use of social media has led to the development of several Machine Learning (ML) and Natural Language Processing(NLP) tools to process the unprecedented amount of social media content to make actionable decisions. However, these MLand NLP algorithms have been widely shown to be vulnerable to adversarial attacks. These vulnerabilities allow adversaries to launch a diversified set of adversarial attacks on these algorithms in different applications of social media text processing. In this paper, we provide a comprehensive review of the main approaches for adversarial attacks and defenses in the context of social media applications with a particular focus on key challenges and future research directions. In detail, we cover literature on six key applications, namely (i) rumors detection, (ii) satires detection, (iii) clickbait & spams identification, (iv) hate speech detection, (v)misinformation detection, and (vi) sentiment analysis. We then highlight the concurrent and anticipated future research questions and provide recommendations and directions for future work.
翻訳日:2021-10-31 11:11:04 公開日:2021-10-26
# (参考訳) CHIP: コンパクトニューラルネットワークのためのチャンネル独立型プルーニング [全文訳有]

CHIP: CHannel Independence-based Pruning for Compact Neural Networks ( http://arxiv.org/abs/2110.13981v1 )

ライセンス: CC BY 4.0
Yang Sui, Miao Yin, Yi Xie, Huy Phan, Saman Zonouz, Bo Yuan(参考訳) フィルタプルーニングは実用的加速を可能にするため、ニューラルネットワークの圧縮に広く使われている。 現在までに、既存のフィルタプルーニング作業の多くは、チャネル内情報を用いてフィルタの重要性を探求している。 本稿では,チャネル間の観点から,異なる特徴写像間の相関を計測する指標であるチャネル独立性を用いた効率的なフィルタプルーニングを提案する。 独立性の低い特徴マップは、より有用な情報$/$knowledgeを含むと解釈されるため、対応するフィルタはモデル容量に影響を与えずに刈り取ることができる。 フィルタプルーニングの文脈におけるチャネル独立性の定量化指標,測定方法,感度$/$信頼性について系統的に検討する。 各種データセットの異なるモデルに対する評価結果は,提案手法の優れた性能を示す。 特に、CIFAR-10データセットでは、ベースラインのResNet-56およびResNet-110モデルよりも0.75\%$と0.94\%$の精度が向上し、モデルサイズとFLOPは、それぞれ42.8\%$と47.4\%$(ResNet-56用)と48.3\%$(ResNet-110用)と52.1\%$(ResNet-110用)に減少する。 ImageNetデータセットでは、ベースラインのResNet-50モデルよりも0.15\%の精度で、それぞれ40.8\%と444.8\%のストレージと計算の削減を実現しています。 コードはhttps://github.com/E clipsess/CHIP_NeurIP S2021で公開されている。

Filter pruning has been widely used for neural network compression because of its enabled practical acceleration. To date, most of the existing filter pruning works explore the importance of filters via using intra-channel information. In this paper, starting from an inter-channel perspective, we propose to perform efficient filter pruning using Channel Independence, a metric that measures the correlations among different feature maps. The less independent feature map is interpreted as containing less useful information$/$knowle dge, and hence its corresponding filter can be pruned without affecting model capacity. We systematically investigate the quantification metric, measuring scheme and sensitiveness$/$reli ability of channel independence in the context of filter pruning. Our evaluation results for different models on various datasets show the superior performance of our approach. Notably, on CIFAR-10 dataset our solution can bring $0.75\%$ and $0.94\%$ accuracy increase over baseline ResNet-56 and ResNet-110 models, respectively, and meanwhile the model size and FLOPs are reduced by $42.8\%$ and $47.4\%$ (for ResNet-56) and $48.3\%$ and $52.1\%$ (for ResNet-110), respectively. On ImageNet dataset, our approach can achieve $40.8\%$ and $44.8\%$ storage and computation reductions, respectively, with $0.15\%$ accuracy increase over the baseline ResNet-50 model. The code is available at https://github.com/E clipsess/CHIP_NeurIP S2021.
翻訳日:2021-10-31 10:19:06 公開日:2021-10-26
# (参考訳) CAFE: 垂直的フェデレーション学習における破滅的なデータ漏洩 [全文訳有]

CAFE: Catastrophic Data Leakage in Vertical Federated Learning ( http://arxiv.org/abs/2110.15122v1 )

ライセンス: CC BY 4.0
Xiao Jin, Pin-Yu Chen, Chia-Yi Hsu, Chia-Mu Yu, Tianyi Chen(参考訳) 近年の研究では,フェデレートラーニング(FL)などの分散機械学習システムに展開される勾配共有機構を通じて,プライベートトレーニングデータを漏洩させることが示されている。 データリカバリを複雑にするバッチサイズの増加は、データ漏洩に対する有望な防御戦略と見なされることが多い。 本稿では,この防御的前提を再検討し,共有した集計勾配からバッチデータを効率的に回収するための理論的正当性を備えた高度なデータ漏洩攻撃を提案する。 提案手法は, 垂直方向の 'textit{\underline{c}atastrophic d\underline{a}ta leakage in vertical \underline{f}ederated l\underline{e}arning} (CAFE) と命名した。 既存のデータ漏洩攻撃と比較し,垂直fl設定における広範囲な実験結果から,cafeがデータ回復品質を改善した大規模データ漏洩攻撃を行うことの有効性を実証した。 また,カフェを緩和するための実用的な対策を提案する。 以上の結果から,標準fl,特に垂直の場合における個人データは,トレーニング勾配から漏洩するリスクが高いことが示唆された。 分析は,これらの学習環境において,前例のない実用的なデータ漏洩リスクを示唆する。 私たちの作業のコードは、 \href{https://github.com/D eRafael/CAFE}{\textcolor{blue}{\url{https://github.com/D eRafael/CAFE}}}で公開されています。

Recent studies show that private training data can be leaked through the gradients sharing mechanism deployed in distributed machine learning systems, such as federated learning (FL). Increasing batch size to complicate data recovery is often viewed as a promising defense strategy against data leakage. In this paper, we revisit this defense premise and propose an advanced data leakage attack with theoretical justification to efficiently recover batch data from the shared aggregated gradients. We name our proposed method as \textit{\underline{c}atastrophic d\underline{a}ta leakage in vertical \underline{f}ederated l\underline{e}arning} (CAFE). Comparing to existing data leakage attacks, our extensive experimental results on vertical FL settings demonstrate the effectiveness of CAFE to perform large-batch data leakage attack with improved data recovery quality. We also propose a practical countermeasure to mitigate CAFE. Our results suggest that private data participated in standard FL, especially the vertical case, have a high risk of being leaked from the training gradients. Our analysis implies unprecedented and practical data leakage risks in those learning settings. The code of our work is available at \href{https://github.com/D eRafael/CAFE}{\textcolor{blue}{\url{https://github.com/D eRafael/CAFE}}}.
翻訳日:2021-10-31 09:59:54 公開日:2021-10-26
# ルールを全て規定する人はいない:訓練方法の重複する特徴

No One Representation to Rule Them All: Overlapping Features of Training Methods ( http://arxiv.org/abs/2110.12899v2 )

ライセンス: Link先を確認
Raphael Gontijo-Lopes, Yann Dauphin, Ekin D. Cubuk(参考訳) データの様々な特徴を捉えることができるにもかかわらず、監督の下で訓練された高精度なモデルは、同様の予測を行う傾向がある。 これは、高いパフォーマンスモデルがトレーニング方法論にかかわらず同様のバイアスを共有していることを示唆しているように思われる。 この背景に対して、最近の研究では、大規模なコントラスト学習のような非常に異なるトレーニングテクニックが、一般化と堅牢性ベンチマークにおいて競争力の高い精度をもたらしている。 これは、モデルが必ずしも同様の関数を学ぶ必要があるという仮定を再考する動機となる。 ハイパーパラメータ、アーキテクチャ、フレームワーク、データセットにわたるモデルの大規模な実証的研究を行います。 トレーニング手法の多様化にともなうモデルペアは,分類的に異なる一般化行動を示し,非相関的な誤りを生じる。 これらのモデルはデータのサブドメインに特化しており、2つのモデル(いずれも画像Netの精度が76.5%)で83.4%(+7%)のアンサンブルを生成することができる。 驚くべきことに、精度の低いモデルでも高いモデルを改善することができる。 最後に、重なり合う(しかし重なり合わせではない)特徴集合をキャプチャする学習手法の偏りが、下流のパフォーマンスを向上させることを示す。

Despite being able to capture a range of features of the data, high accuracy models trained with supervision tend to make similar predictions. This seemingly implies that high-performing models share similar biases regardless of training methodology, which would limit ensembling benefits and render low-accuracy models as having little practical use. Against this backdrop, recent work has made very different training techniques, such as large-scale contrastive learning, yield competitively-high accuracy on generalization and robustness benchmarks. This motivates us to revisit the assumption that models necessarily learn similar functions. We conduct a large-scale empirical study of models across hyper-parameters, architectures, frameworks, and datasets. We find that model pairs that diverge more in training methodology display categorically different generalization behavior, producing increasingly uncorrelated errors. We show these models specialize in subdomains of the data, leading to higher ensemble performance: with just 2 models (each with ImageNet accuracy ~76.5%), we can create ensembles with 83.4% (+7% boost). Surprisingly, we find that even significantly low-accuracy models can be used to improve high-accuracy models. Finally, we show diverging training methodology yield representations that capture overlapping (but not supersetting) feature sets which, when combined, lead to increased downstream performance.
翻訳日:2021-10-31 09:10:50 公開日:2021-10-26
# 深層学習のための安定アンダーソン加速度

Stable Anderson Acceleration for Deep Learning ( http://arxiv.org/abs/2110.14813v1 )

ライセンス: Link先を確認
Massimiliano Lupo Pasini, Junqi Yin, Viktor Reshniak, Miroslav Stoyanov(参考訳) AndersonAcceleration (AA) は、DLモデルの反復訓練から生じるような固定点反復を高速化するために設計された外挿技術である。 DLモデルのトレーニングには、ランダムにサンプリングされたバッチで処理される大規模なデータセットが必要である。 これらの振動はAAの正の効果を減少させる。 AAの利点を回復するために、振動を滑らかにし、より規則的な勾配降下更新をもたらす適応的な移動平均手順と組み合わせる。 連続するイテレーション間の相対的な標準偏差を監視することにより、移動平均が必要かどうかを自動的に評価する基準も導入する。 本手法を以下のDLインスタンス化に適用した。 (i)オープンソースの大学院受験データセットを用いた回帰学習のための多層パーセプトロン(MLP) (II)2dおよび100d Burgers偏微分方程式(PDE)を解くために音源データに基づいて訓練された物理情報ニューラルネットワーク(PINN) (iii)画像分類のためのオープンソースのimagenet1kデータセットでトレーニングされたresnet50。 OLCFスーパーコンピュータサミットで最大1,536個のNVIDIA V100 GPUを用いて得られた数値結果は、上記すべての問題に対して移動平均の安定化効果を示した。

Anderson acceleration (AA) is an extrapolation technique designed to speed-up fixed-point iterations like those arising from the iterative training of DL models. Training DL models requires large datasets processed in randomly sampled batches that tend to introduce in the fixed-point iteration stochastic oscillations of amplitude roughly inversely proportional to the size of the batch. These oscillations reduce and occasionally eliminate the positive effect of AA. To restore AA's advantage, we combine it with an adaptive moving average procedure that smoothes the oscillations and results in a more regular sequence of gradient descent updates. By monitoring the relative standard deviation between consecutive iterations, we also introduce a criterion to automatically assess whether the moving average is needed. We applied the method to the following DL instantiations: (i) multi-layer perceptrons (MLPs) trained on the open-source graduate admissions dataset for regression, (ii) physics informed neural networks (PINNs) trained on source data to solve 2d and 100d Burgers' partial differential equations (PDEs), and (iii) ResNet50 trained on the open-source ImageNet1k dataset for image classification. Numerical results obtained using up to 1,536 NVIDIA V100 GPUs on the OLCF supercomputer Summit showed the stabilizing effect of the moving average on AA for all the problems above.
翻訳日:2021-10-29 16:54:23 公開日:2021-10-26
# 一般化目標シフト下における領域適応のための写像条件分布

Mapping conditional distributions for domain adaptation under generalized target shift ( http://arxiv.org/abs/2110.15057v1 )

ライセンス: Link先を確認
Matthieu Kirchmeyer (MLIA), Alain Rakotomamonjy (LITIS), Emmanuel de Bezenac (MLIA), Patrick Gallinari (MLIA)(参考訳) 条件付きおよびラベルシフト a.k.a general target shift (getars) 下でのソースとターゲットドメイン間の教師なしドメイン適応 (uda) の問題を考える。 単純なUDA設定とは異なり、この問題に対処する作業はほとんどない。 最近のアプローチでは、ドメイン不変表現を学習するが、実際的な制限があり、実際には成り立たない強い仮定に依存している。 本稿では,既存の欠点を回避し,事前学習された表現を整列する新しい手法と一般的な手法について検討する。 表現不変性を制約する代わりに、NNとして実装された最適なトランスポートマップを学び、ソース表現をターゲットにマップする。 我々のアプローチは柔軟でスケーラブルであり、問題の構造を保ち、穏やかな仮定の下で強力な理論的保証を持つ。 特に、我々の解は一意であり、ドメイン間の条件分布と一致し、ターゲット比率を回復し、ターゲットの一般化リスクを明示的に制御します。 いくつかのデータセットの徹底的な比較を通じて、GeTarSの最先端技術に挑戦する。

We consider the problem of unsupervised domain adaptation (UDA) between a source and a target domain under conditional and label shift a.k.a Generalized Target Shift (GeTarS). Unlike simpler UDA settings, few works have addressed this challenging problem. Recent approaches learn domain-invariant representations, yet they have practical limitations and rely on strong assumptions that may not hold in practice. In this paper, we explore a novel and general approach to align pretrained representations, which circumvents existing drawbacks. Instead of constraining representation invariance, it learns an optimal transport map, implemented as a NN, which maps source representations onto target ones. Our approach is flexible and scalable, it preserves the problem's structure and it has strong theoretical guarantees under mild assumptions. In particular, our solution is unique, matches conditional distributions across domains, recovers target proportions and explicitly controls the target generalization risk. Through an exhaustive comparison on several datasets, we challenge the state-of-the-art in GeTarS.
翻訳日:2021-10-29 15:37:36 公開日:2021-10-26
# cgSpan: 概念グラフにおけるパターンマイニング

cgSpan: Pattern Mining in Conceptual Graphs ( http://arxiv.org/abs/2110.15058v1 )

ライセンス: Link先を確認
Adam Faci (LFI, TRT), Marie-Jeanne Lesot (LFI), Claire Laudy (TRT)(参考訳) 概念グラフ(cgs)は、グラフに基づく知識表現形式である。 本稿では,CG頻出パターンマイニングアルゴリズムであるcgSpanを提案する。 分類に基づくラベル付きグラフを入力とするdmgm-gsmアルゴリズムを拡張し、cg形式に関する3種類の知識を含んでいる。 (a)ノードのグラフではなく関係を中心とした近傍のグラフを扱う関係ノードの固定アリティ。 b)シグネチャ,シグネチャで指定された最大型よりも一般的な概念型パターンを避けること (c)パターンマイニングの過程で推論規則を適用して適用すること。 実験の結果, cgspanはcgの頻繁なパターンマイニングアルゴリズムであり, cgsの特異性を含めると, より表現力に富み, 語彙の冗長性が低下するより高速なアルゴリズムとなることがわかった。

Conceptual Graphs (CGs) are a graph-based knowledge representation formalism. In this paper we propose cgSpan a CG frequent pattern mining algorithm. It extends the DMGM-GSM algorithm that takes taxonomy-based labeled graphs as input; it includes three more kinds of knowledge of the CG formalism: (a) the fixed arity of relation nodes, handling graphs of neighborhoods centered on relations rather than graphs of nodes, (b) the signatures, avoiding patterns with concept types more general than the maximal types specified in signatures and (c) the inference rules, applying them during the pattern mining process. The experimental study highlights that cgSpan is a functional CG Frequent Pattern Mining algorithm and that including CGs specificities results in a faster algorithm with more expressive results and less redundancy with vocabulary.
翻訳日:2021-10-29 15:28:50 公開日:2021-10-26
# 多体系モデリングのための等変ベクトル場ネットワーク

Equivariant vector field network for many-body system modeling ( http://arxiv.org/abs/2110.14811v1 )

ライセンス: Link先を確認
Weitao Du, He Zhang, Yuanqi Du, Qi Meng, Wei Chen, Bin Shao, Tie-Yan Liu(参考訳) 多体系のモデリングは、古典物理学や量子物理学から計算生物学まで、科学における長年の課題であった。 等分散は多体力学系の臨界物理的対称性であり、任意の参照変換の下でロバストで正確な予測を可能にする。 これを踏まえて、この対称性をディープニューラルネットワークにエンコードすることには大きな努力が払われており、ダウンストリームタスクの予測性能が大幅に向上している。 計算効率のよい一般同値モデルがいくつか提案されているが、これらのモデルは近似のパワーに対する保証がなく、情報損失をもたらす可能性がある。 本稿では,微分幾何学におけるスカラー化手法の知見を活用し,SE(3)および置換同変の勾配ベクトル場を学習することにより,多体系をモデル化する。 具体的には、同変ベースの新しいタプルと関連するスキャラライズおよびベクトル化層上に構築されたEquivariant Vector Field Network (EVFN)を提案する。 我々のタプル同変基底は完全な基底を形成するので、EVFNで力学を学ぶことは情報損失がなく、最終的なベクトル化の前にテンソル演算は関与せず、テンソルの複雑な最適化を最小限に抑える。 我々は, シミュレーションされたニュートン力学系の軌道を, 完全かつ部分的に観測されたデータと, 統計力学系として進化する小分子(分子配座)の平衡状態を用いて予測する方法について検討した。 複数のタスクにまたがる実験の結果、我々のモデルは様々な種類のデータセットのベースラインモデル上で最高の、または競争的な性能を達成できることを示した。

Modeling many-body systems has been a long-standing challenge in science, from classical and quantum physics to computational biology. Equivariance is a critical physical symmetry for many-body dynamic systems, which enables robust and accurate prediction under arbitrary reference transformations. In light of this, great efforts have been put on encoding this symmetry into deep neural networks, which significantly boosts the prediction performance of down-streaming tasks. Some general equivariant models which are computationally efficient have been proposed, however, these models have no guarantee on the approximation power and may have information loss. In this paper, we leverage insights from the scalarization technique in differential geometry to model many-body systems by learning the gradient vector fields, which are SE(3) and permutation equivariant. Specifically, we propose the Equivariant Vector Field Network (EVFN), which is built on a novel tuple of equivariant basis and the associated scalarization and vectorization layers. Since our tuple equivariant basis forms a complete basis, learning the dynamics with our EVFN has no information loss and no tensor operations are involved before the final vectorization, which reduces the complex optimization on tensors to a minimum. We evaluate our method on predicting trajectories of simulated Newton mechanics systems with both full and partially observed data, as well as the equilibrium state of small molecules (molecular conformation) evolving as a statistical mechanics system. Experimental results across multiple tasks demonstrate that our model achieves best or competitive performance on baseline models in various types of datasets.
翻訳日:2021-10-29 14:43:43 公開日:2021-10-26
# マルチタスク学習における敵対的ロバスト性:約束と錯覚

Adversarial Robustness in Multi-Task Learning: Promises and Illusions ( http://arxiv.org/abs/2110.15053v1 )

ライセンス: Link先を確認
Salah Ghamizi, Maxime Cordy, Mike Papadakis and Yves Le Traon(参考訳) 敵の攻撃に対する脆弱性は、ディープニューラルネットワークのよく知られた弱点である。 研究の大部分は、コンピュータビジョンデータセットを備えたシングルタスクニューラルネットワークに焦点を当てているが、実際のアプリケーションで一般的な複雑なマルチタスクモデルを考える研究はほとんどない。 本稿では,マルチタスク深層学習ネットワークの堅牢性に影響を与える設計選択について検討する。 補助的なタスクを盲目的に追加したり、タスクを重み付けすることで、堅牢性の誤った感覚が得られるという証拠を提供する。 そこで,これまでの研究で得られた主張を整理し,ロバスト性に影響を与える要因について検討する。 特に、損失関数に組み込むタスクの選択は、より堅牢なモデルを生み出すために活用できる重要な要素であることを示す。

Vulnerability to adversarial attacks is a well-known weakness of Deep Neural networks. While most of the studies focus on single-task neural networks with computer vision datasets, very little research has considered complex multi-task models that are common in real applications. In this paper, we evaluate the design choices that impact the robustness of multi-task deep learning networks. We provide evidence that blindly adding auxiliary tasks, or weighing the tasks provides a false sense of robustness. Thereby, we tone down the claim made by previous research and study the different factors which may affect robustness. In particular, we show that the choice of the task to incorporate in the loss function are important factors that can be leveraged to yield more robust models.
翻訳日:2021-10-29 13:42:10 公開日:2021-10-26
# (参考訳) 教師付き学習モデルを用いたフェアシーケンシャル選択 [全文訳有]

Fair Sequential Selection Using Supervised Learning Models ( http://arxiv.org/abs/2110.13986v1 )

ライセンス: CC BY 4.0
Mohammad Mahdi Khalili, Xueru Zhang, Mahed Abroshan(参考訳) 我々は、連続して到着した応募者が限られた数の位置/ジョブを申請する選択問題を考える。 各段階において、意思決定者は、すべての空き位置が満たされるまで、予め訓練された教師付き学習モデルを用いて、所定の申請を受理又は拒絶する。 本稿では,分類問題において一般的に用いられるフェアネス概念(等機会,統計パリティなど)が逐次選択問題に適しているかについて議論する。 特に,共通の公平性概念を満たす事前学習されたモデルであっても,選択結果が特定の集団群に対して偏りがあることを示す。 この観察は、分類問題で使われる公平性の概念は、応募者が限られた数を争う選択問題には適さないことを示している。 連続選択問題に適した「平等選択(ES)」という新しいフェアネス概念を導入し、ESフェアネス概念を満たすための後処理アプローチを提案する。 また,利用者がプライバシの懸念を抱くような設定も検討し,意思決定者は機密属性のノイズの多いバージョンのみにアクセスできるようにした。 この設定では、完全なESフェアネスが一定の条件下でも達成可能であることを示すことができる。

We consider a selection problem where sequentially arrived applicants apply for a limited number of positions/jobs. At each time step, a decision maker accepts or rejects the given applicant using a pre-trained supervised learning model until all the vacant positions are filled. In this paper, we discuss whether the fairness notions (e.g., equal opportunity, statistical parity, etc.) that are commonly used in classification problems are suitable for the sequential selection problems. In particular, we show that even with a pre-trained model that satisfies the common fairness notions, the selection outcomes may still be biased against certain demographic groups. This observation implies that the fairness notions used in classification problems are not suitable for a selection problem where the applicants compete for a limited number of positions. We introduce a new fairness notion, ``Equal Selection (ES),'' suitable for sequential selection problems and propose a post-processing approach to satisfy the ES fairness notion. We also consider a setting where the applicants have privacy concerns, and the decision maker only has access to the noisy version of sensitive attributes. In this setting, we can show that the perfect ES fairness can still be attained under certain conditions.
翻訳日:2021-10-29 12:55:02 公開日:2021-10-26
# (参考訳) バッチ正規化の再検討 [全文訳有]

Revisiting Batch Normalization ( http://arxiv.org/abs/2110.13989v1 )

ライセンス: CC BY 4.0
Jim Davis and Logan Frank(参考訳) バッチ正規化(bn)は正規化成分とアフィン変換で構成され、ディープニューラルネットワークのトレーニングに必須となっている。 ネットワークにおける各BNの標準初期化は、アフィン変換スケールをそれぞれ1と0にシフトさせる。 しかし、訓練後、これらのパラメータは初期化から大きく変化しないことがわかった。 さらに, 正規化過程は, トレーニングに好ましくない, 過大な値を与える可能性があることに注意した。 我々は、BNの定式化を再検討し、上記の問題に対処するため、BNの新たな初期化手法と更新アプローチを提案する。 提案するbnへの変更による実験結果は,様々なシナリオにおいて統計的に有意な性能向上を示した。 このアプローチは、追加の計算コストなしで既存の実装で使用できる。 また,オンラインbnベースの入力データ正規化手法を提案し,他のオフラインあるいは固定メソッドの必要性を緩和する。 ソースコードはhttps://github.com/o su-cvl/revisiting-bn で入手できる。

Batch normalization (BN) is comprised of a normalization component followed by an affine transformation and has become essential for training deep neural networks. Standard initialization of each BN in a network sets the affine transformation scale and shift to 1 and 0, respectively. However, after training we have observed that these parameters do not alter much from their initialization. Furthermore, we have noticed that the normalization process can still yield overly large values, which is undesirable for training. We revisit the BN formulation and present a new initialization method and update approach for BN to address the aforementioned issues. Experimental results using the proposed alterations to BN show statistically significant performance gains in a variety of scenarios. The approach can be used with existing implementations at no additional computational cost. We also present a new online BN-based input data normalization technique to alleviate the need for other offline or fixed methods. Source code is available at https://github.com/o su-cvl/revisiting-bn .
翻訳日:2021-10-29 11:20:43 公開日:2021-10-26
# (参考訳) 局所時間情報を活用したマルチモーダルシーン分類 [全文訳有]

Leveraging Local Temporal Information for Multimodal Scene Classification ( http://arxiv.org/abs/2110.13992v1 )

ライセンス: CC BY 4.0
Saurabh Sahu, Palash Goyal(参考訳) ロバストなビデオシーン分類モデルは、ビデオの空間的(ピクセル的)特性と時間的(フレーム的)特性を効果的に捉えるべきである。 トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。 しかし、ビデオ理解におけるTransformerベースのモデルの使用は、いまだに未検討である。 さらに、これらのモデルは、隣接するビデオフレーム間の強い時間的関係を利用して、強力なフレームレベルの表現を得ることができない。 本稿では,ビデオフレーム間の局所的および大域的な時間的関係を利用して,個々のフレームの文脈的表現性を向上させる新しいセルフアテンションブロックを提案する。 これにより、モデルは様々な粒度でビデオを理解することができる。 ビデオ分類課題に設定した大規模youttube-8mデータを用いて,本モデルの性能を解説し,改善を示すためにさらに分析を行った。

Robust video scene classification models should capture the spatial (pixel-wise) and temporal (frame-wise) characteristics of a video effectively. Transformer models with self-attention which are designed to get contextualized representations for individual tokens given a sequence of tokens, are becoming increasingly popular in many computer vision tasks. However, the use of Transformer based models for video understanding is still relatively unexplored. Moreover, these models fail to exploit the strong temporal relationships between the neighboring video frames to get potent frame-level representations. In this paper, we propose a novel self-attention block that leverages both local and global temporal relationships between the video frames to obtain better contextualized representations for the individual frames. This enables the model to understand the video at various granularities. We illustrate the performance of our models on the large scale YoutTube-8M data set on the task of video categorization and further analyze the results to showcase improvement.
翻訳日:2021-10-29 11:07:07 公開日:2021-10-26
# (参考訳) tod:テンソルに基づく異常検出 [全文訳有]

TOD: Tensor-based Outlier Detection ( http://arxiv.org/abs/2110.14007v1 )

ライセンス: CC BY 4.0
Yue Zhao, George H. Chen, Zhihao Jia(参考訳) 大規模で高次元なデータセットに外乱検出(OD)をスケールするために,効率的なGPUアクセラレーションのためにODアルゴリズムを基本テンソル演算に抽象化するTODを提案する。 TODを時間と空間の両方で高効率にするために、ハードウェアとソフトウェアの両方におけるディープラーニングインフラストラクチャの最近の進歩を活用します。 メモリに制限のあるgpu上に大規模odアプリケーションをデプロイするには,2つの重要な技術を導入する。 第1に、証明可能な量子化はod計算を高速化し、特定のod計算を少ない精度で実行することでメモリ要求を低減し、精度の低下を保証できる。 第二に、複数のGPUの集約された計算資源とメモリ容量を活用するために、複数のGPU上で並列に実行できる小さなバッチにOD計算を分解する自動バッチ処理を導入する。 TODはODアルゴリズムとユーティリティ関数の包括的なセットをサポートする。 実および合成のodデータセットの広範な評価により、todは最先端の総合odシステムpyodよりも平均11.9倍高速であり、100万サンプル以内の異常検出に1時間もかからないことがわかった。 todは、追加のodアルゴリズムの簡単な統合を可能にし、古典的なodアルゴリズムとディープラーニングメソッドを組み合わせるための統一フレームワークを提供する。 これらの組み合わせは無限に多くのODメソッドをもたらし、その多くが新しいもので、TODで容易にプロトタイプ化できる。

To scale outlier detection (OD) to large-scale, high-dimensional datasets, we propose TOD, a novel system that abstracts OD algorithms into basic tensor operations for efficient GPU acceleration. To make TOD highly efficient in both time and space, we leverage recent advances in deep learning infrastructure in both hardware and software. To deploy large OD applications on GPUs with limited memory, we introduce two key techniques. First, provable quantization accelerates OD computation and reduces the memory requirement by performing specific OD computations in lower precision while provably guaranteeing no accuracy loss. Second, to exploit the aggregated compute resources and memory capacity of multiple GPUs, we introduce automatic batching, which decomposes OD computations into small batches that can be executed on multiple GPUs in parallel. TOD supports a comprehensive set of OD algorithms and utility functions. Extensive evaluation on both real and synthetic OD datasets shows that TOD is on average 11.9X faster than the state-of-the-art comprehensive OD system PyOD, and takes less than an hour to detect outliers within a million samples. TOD enables straightforward integration for additional OD algorithms and provides a unified framework for combining classical OD algorithms with deep learning methods. These combinations result in an infinite number of OD methods, many of which are novel and can be easily prototyped in TOD.
翻訳日:2021-10-29 10:57:39 公開日:2021-10-26
# (参考訳) MisConv: データ不足のための畳み込みニューラルネットワーク [全文訳有]

MisConv: Convolutional Neural Networks for Missing Data ( http://arxiv.org/abs/2110.14010v1 )

ライセンス: CC BY 4.0
Marcin Przewi\k{e}\'zlikowski, Marek \'Smieja, {\L}ukasz Struski, Jacek Tabor(参考訳) cnnのような現代のニューラルネットワークによるデータの処理は、画像インペインティングや自動運転車、ロボットなど、多くの実用的な応用において自然に発生する、基本的な、しかし未解決の課題である。 命令ベースのテクニックは依然として最も一般的なソリューションの1つだが、信頼できない情報をデータに頻繁に導入し、機械学習モデルにとって破壊的な推定の不確実性を考慮していない。 本稿では,不完全画像処理に様々なCNNアーキテクチャを適用するための一般的なメカニズムであるMisConvを提案する。 因子分析器の混合による欠落値の分布をモデル化することにより、置換可能なスペクトルを網羅し、不完全画像に適用される畳み込み演算子の期待値の解析式を求める。 フレームワーク全体がマトリックス操作によって実現されているため、実際にはMisConvは非常に効率的である。 様々な画像処理タスクで行った実験では、MisConvは最先端の手法よりも優れているか同等のパフォーマンスを達成している。

Processing of missing data by modern neural networks, such as CNNs, remains a fundamental, yet unsolved challenge, which naturally arises in many practical applications, like image inpainting or autonomous vehicles and robots. While imputation-based techniques are still one of the most popular solutions, they frequently introduce unreliable information to the data and do not take into account the uncertainty of estimation, which may be destructive for a machine learning model. In this paper, we present MisConv, a general mechanism, for adapting various CNN architectures to process incomplete images. By modeling the distribution of missing values by the Mixture of Factor Analyzers, we cover the spectrum of possible replacements and find an analytical formula for the expected value of convolution operator applied to the incomplete image. The whole framework is realized by matrix operations, which makes MisConv extremely efficient in practice. Experiments performed on various image processing tasks demonstrate that MisConv achieves superior or comparable performance to the state-of-the-art methods.
翻訳日:2021-10-29 10:30:15 公開日:2021-10-26
# (参考訳) Cluster-and-Conquer: 時系列予測のためのフレームワーク [全文訳有]

Cluster-and-Conquer: A Framework For Time-Series Forecasting ( http://arxiv.org/abs/2110.14011v1 )

ライセンス: CC BY 4.0
Reese Pathak, Rajat Sen, Nikhil Rao, N. Benjamin Erichson, Michael I. Jordan, and Inderjit S. Dhillon(参考訳) 本稿では,高次元時系列データを予測するための3段階フレームワークを提案する。 本手法はまず,各単変数時系列のパラメータを推定する。 次に、これらのパラメータを使って時系列をクラスタ化する。 これらのクラスタは多変量時系列と見なすことができ、パラメータを計算します。 単一時系列の予測値は、クラスタ間効果を無視して予測における潜在的なノイズを最小限に抑えながら、クラスタ内の類似性を考慮し、クラスタ内の他の時系列の履歴に依存することができる。 私たちのフレームワークは、"cluster-and-conquer& quot;と呼ばれ、非常に一般的なもので、各ステップで時系列予測とクラスタリングメソッドが使用できます。 計算効率が高く、恥ずかしいほど並列である。 理想化された混合線形回帰設定で理論解析を行うことで,提案手法の動機付けを行い,評価の質に関する保証を提供する。 単純な線形自己回帰モデルでインスタンス化されると、いくつかのベンチマークデータセットで最先端の結果が得られ、時にディープラーニングベースのアプローチよりも優れています。

We propose a three-stage framework for forecasting high-dimensional time-series data. Our method first estimates parameters for each univariate time series. Next, we use these parameters to cluster the time series. These clusters can be viewed as multivariate time series, for which we then compute parameters. The forecasted values of a single time series can depend on the history of other time series in the same cluster, accounting for intra-cluster similarity while minimizing potential noise in predictions by ignoring inter-cluster effects. Our framework -- which we refer to as "cluster-and-conquer& quot; -- is highly general, allowing for any time-series forecasting and clustering method to be used in each step. It is computationally efficient and embarrassingly parallel. We motivate our framework with a theoretical analysis in an idealized mixed linear regression setting, where we provide guarantees on the quality of the estimates. We accompany these guarantees with experimental results that demonstrate the advantages of our framework: when instantiated with simple linear autoregressive models, we are able to achieve state-of-the-art results on several benchmark datasets, sometimes outperforming deep-learning-based approaches.
翻訳日:2021-10-29 10:13:03 公開日:2021-10-26
# (参考訳) 乳房超音波画像からの乳がん自動検出のための分類による分節の深部集積パイプライン [全文訳有]

Deep Integrated Pipeline of Segmentation Leading to Classification for Automated Detection of Breast Cancer from Breast Ultrasound Images ( http://arxiv.org/abs/2110.14013v1 )

ライセンス: CC BY 4.0
Muhammad Sakib Khan Inan, Fahim Irfan Alam, Rizwan Hasan(参考訳) 乳がんは、世界中のがん死亡の主な原因の1つであるため、現代世界では深刻な懸念の象徴となっている。 この懸念により, 早期に診断し, 治療により死亡率を低下させるため, 乳がんのスクリーニングが頻繁に行われている。 乳腺超音波画像は、乳がんの早期診断に医師が頻繁に利用する。 しかし、複雑なアーティファクトと非常にノイズの強い乳房超音波画像は、乳癌の検出を困難にしている。 また,乳がん検診の患者数の増加に伴い,高精度診断のための自動コンピュータ支援技術の使用が安価かつ短時間で必要となる。 医療画像分析・医療分野における人工知能(AI)の現在の進歩は、人類にとって朗報である。 本研究では,VGG 16モデルを用いた伝達学習手法と密結合型ニューラルネットワークアーキテクチャを用いて,乳房腫瘍分類を頑健な特徴抽出に導く,乳房超音波画像の複雑なアーティファクトを補うために,超音波画像前処理と単純な線形反復クラスタリング(SLIC)を統合した,コンパクトな統合型自動パイプライニングフレームワークを提案する。 提案する自動化パイプラインは,乳がんをより正確かつタイムリーに診断する医療従事者を支援するために効果的に実施できる。

Breast cancer has become a symbol of tremendous concern in the modern world, as it is one of the major causes of cancer mortality worldwide. In this concern, many people are frequently screening for breast cancer in order to be identified early and avert mortality from the disease by receiving treatment. Breast Ultrasonography Images are frequently utilized by doctors to diagnose breast cancer at an early stage. However, the complex artifacts and heavily noised Breast Ultrasonography Images make detecting Breast Cancer a tough challenge. Furthermore, the ever-increasing number of patients being screened for Breast Cancer necessitates the use of automated Computer Aided Technology for high accuracy diagnosis at a cheap cost and in a short period of time. The current progress of Artificial Intelligence (AI) in the fields of Medical Image Analysis and Health Care is a boon to humanity. In this study, we have proposed a compact integrated automated pipelining framework which integrates ultrasonography image preprocessing with Simple Linear Iterative Clustering (SLIC) to tackle the complex artifact of Breast Ultrasonography Images complementing semantic segmentation with Modified U-Net leading to Breast Tumor classification with robust feature extraction using a transfer learning approach with pretrained VGG 16 model and densely connected neural network architecture. The proposed automated pipeline can be effectively implemented to assist medical practitioners in making more accurate and timely diagnoses of breast cancer.
翻訳日:2021-10-29 09:47:21 公開日:2021-10-26
# (参考訳) データセットシフト検出を用いた健康のための信頼性と信頼性の高い機械学習 [全文訳有]

Reliable and Trustworthy Machine Learning for Health Using Dataset Shift Detection ( http://arxiv.org/abs/2110.14019v1 )

ライセンス: CC BY 4.0
Chunjong Park, Anas Awadalla, Tadayoshi Kohno, Shwetak Patel(参考訳) 予期せぬデータ、特に健康領域における予測不能なmlモデル行動は、その安全性に関する深刻な懸念を引き起こす。 本稿では,信頼性と信頼性の高い診断予測に最先端の分散検出器の利用の可能性について検討する。 我々は,様々な入力データ型(画像,音声,モーションデータなど)を用いて,様々な健康状態(皮膚がん,肺音,パーキンソン病など)に関する公開可能なディープラーニングモデルを選択する。 これらのモデルが分布外のデータセットに不合理な予測を示すことを示す。 マハラノビス距離とグラム行列に基づく分布外検出手法は,異なる形態の健康モデルに対して高い精度で分布外データを検出できることを示した。 次に、アウト・オブ・ディストリビューションスコアを人間の解釈可能なConFIDENCE SCOREに変換し、ユーザーの健康MLアプリケーションとのインタラクションに与える影響を調査する。 ユーザスタディでは,「textsc{confidence score」が,高得点のみを信頼し,医療的判断を下し,低得点で結果を無視する上で有効であった。 この研究を通じて、我々は、データセットシフトが、医療診断や医療など、高度なMLアプリケーションにとって重要な情報であり、ユーザに対して信頼性と信頼性のある予測を提供することを実証した。

Unpredictable ML model behavior on unseen data, especially in the health domain, raises serious concerns about its safety as repercussions for mistakes can be fatal. In this paper, we explore the feasibility of using state-of-the-art out-of-distribution detectors for reliable and trustworthy diagnostic predictions. We select publicly available deep learning models relating to various health conditions (e.g., skin cancer, lung sound, and Parkinson's disease) using various input data types (e.g., image, audio, and motion data). We demonstrate that these models show unreasonable predictions on out-of-distribution datasets. We show that Mahalanobis distance- and Gram matrices-based out-of-distribution detection methods are able to detect out-of-distribution data with high accuracy for the health models that operate on different modalities. We then translate the out-of-distribution score into a human interpretable CONFIDENCE SCORE to investigate its effect on the users' interaction with health ML applications. Our user study shows that the \textsc{confidence score} helped the participants only trust the results with a high score to make a medical decision and disregard results with a low score. Through this work, we demonstrate that dataset shift is a critical piece of information for high-stake ML applications, such as medical diagnosis and healthcare, to provide reliable and trustworthy predictions to the users.
翻訳日:2021-10-29 09:24:45 公開日:2021-10-26
# (参考訳) 深層強化学習における受動学習の難しさ [全文訳有]

The Difficulty of Passive Learning in Deep Reinforcement Learning ( http://arxiv.org/abs/2110.14020v1 )

ライセンス: CC BY 4.0
Georg Ostrovski, Pablo Samuel Castro, Will Dabney(参考訳) 環境相互作用のない観測データから行動する学習は、強化学習(RL)においてよく知られている課題である。 最近のアプローチでは、学習したポリシーや保守的な更新に対する制約が伴い、データセットのステートアクション分布からの強い逸脱を防ぐ。 これらの手法は非線形関数近似を用いて評価されるが、理論的正当化は主に表式や線形の場合に限られる。 深層強化学習の印象的な結果を考えると、我々はこの設定における課題をより明確に理解する必要があると論じている。 ヘルド・アンド・ハインの1963年の古典的実験において、オフライン強化学習の難しさを実証分析するための「タンデム学習」実験パラダイムを提案する。 固定データ分布と連動して関数近似を最強因子として同定し,過去の研究で述べられた仮説を拡張しながらも挑戦する。 本研究は,オンライン学習制御の事例において観察される現象に新たな光を当てつつ,オフラインの深層強化学習に関する関連知見を提供する。

Learning to act from observational data without active environmental interaction is a well-known challenge in Reinforcement Learning (RL). Recent approaches involve constraints on the learned policy or conservative updates, preventing strong deviations from the state-action distribution of the dataset. Although these methods are evaluated using non-linear function approximation, theoretical justifications are mostly limited to the tabular or linear cases. Given the impressive results of deep reinforcement learning, we argue for a need to more clearly understand the challenges in this setting. In the vein of Held & Hein's classic 1963 experiment, we propose the "tandem learning" experimental paradigm which facilitates our empirical analysis of the difficulties in offline reinforcement learning. We identify function approximation in conjunction with fixed data distributions as the strongest factors, thereby extending but also challenging hypotheses stated in past work. Our results provide relevant insights for offline deep reinforcement learning, while also shedding new light on phenomena observed in the online case of learning control.
翻訳日:2021-10-29 09:02:13 公開日:2021-10-26
# (参考訳) MEST:Edge上の正確で高速なメモリ-経済スパーストレーニングフレームワーク [全文訳有]

MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the Edge ( http://arxiv.org/abs/2110.14032v1 )

ライセンス: CC BY 4.0
Geng Yuan, Xiaolong Ma, Wei Niu, Zhengang Li, Zhenglun Kong, Ning Liu, Yifan Gong, Zheng Zhan, Chaoyang He, Qing Jin, Siyue Wang, Minghai Qin, Bin Ren, Yanzhi Wang, Sijia Liu, Xue Lin(参考訳) 近年、ニューラルネットワークトレーニングを加速する余地を探索する新たなトレンドが出現し、エッジでのトレーニングのパラダイムが取り入れられている。 本稿では,エッジデバイス上での正確な高速実行を目的とした,新たなメモリ経済スパーストレーニング(mest)フレームワークを提案する。 提案するMESTフレームワークは,高間隔比での精度向上を実現するため,Elastic Mutation (EM) と Soft Memory Bound (&S) による拡張で構成されている。 スパーストレーニングの既存の作業と異なり、この研究は、スパーストレーニングの精度と実際のエッジデバイスでのトレーニング速度の観点から、スパーストレーニングのパフォーマンスにおけるスパーススキームの重要性を明らかにしている。 その上で,スパーストレーニングのさらなる高速化のために,データ効率を活用することを提案する。 本研究は,スパーストレーニングプロセスにおいて,スペーサマスクの動的探索を行う際にも,忘れられない例をその場で特定できることを示唆し,エッジデバイス上でのさらなるトレーニング高速化のために除去できることを示した。 state-of-the-art (sota) と比較すると,同じ非構造化スパーシティスキームを用いた場合,imagenet の top-1 精度が有意に向上する。 精度, トレーニング速度, メモリフットプリントの体系的評価を行い, 提案するMESTフレームワークは, 代表的SOTAよりも一貫して優れていた。 誤った仮定と誤解に基づいて、我々の仕事に強く反対するレビュアー。 前回の提出に加えて、スパーストレーニングのさらなる加速にデータ効率を用いる。 また, モデル疎度, 疎度スキーム, スパーストレーニングアルゴリズムが除去可能なトレーニング例数に与える影響について検討する。 私たちのコードは、https://github.com/b oone891214/MESTで公開されています。

Recently, a new trend of exploring sparsity for accelerating neural network training has emerged, embracing the paradigm of training on the edge. This paper proposes a novel Memory-Economic Sparse Training (MEST) framework targeting for accurate and fast execution on edge devices. The proposed MEST framework consists of enhancements by Elastic Mutation (EM) and Soft Memory Bound (&S) that ensure superior accuracy at high sparsity ratios. Different from the existing works for sparse training, this current work reveals the importance of sparsity schemes on the performance of sparse training in terms of accuracy as well as training speed on real edge devices. On top of that, the paper proposes to employ data efficiency for further acceleration of sparse training. Our results suggest that unforgettable examples can be identified in-situ even during the dynamic exploration of sparsity masks in the sparse training process, and therefore can be removed for further training speedup on edge devices. Comparing with state-of-the-art (SOTA) works on accuracy, our MEST increases Top-1 accuracy significantly on ImageNet when using the same unstructured sparsity scheme. Systematical evaluation on accuracy, training speed, and memory footprint are conducted, where the proposed MEST framework consistently outperforms representative SOTA works. A reviewer strongly against our work based on his false assumptions and misunderstandings. On top of the previous submission, we employ data efficiency for further acceleration of sparse training. And we explore the impact of model sparsity, sparsity schemes, and sparse training algorithms on the number of removable training examples. Our codes are publicly available at: https://github.com/b oone891214/MEST.
翻訳日:2021-10-29 08:37:09 公開日:2021-10-26
# (参考訳) 大規模グラフニューラルネットワークのロバスト性

Robustness of Graph Neural Networks at Scale ( http://arxiv.org/abs/2110.14038v1 )

ライセンス: CC BY 4.0
Simon Geisler, Tobias Schmidt, Hakan \c{S}irin, Daniel Z\"ugner, Aleksandar Bojchevski and Stephan G\"unnemann(参考訳) グラフニューラルネットワーク(GNN)はその人気とアプリケーションの多様性から、ますます重要になっている。 しかし、敵攻撃に対する脆弱性に関する既存の研究は、比較的小さなグラフに依存している。 このギャップに対処し、大規模にGNNを攻撃し、防御する方法を研究する。 本稿では,ノード数で2次となるパラメータを最適化しながら,効率の良い表現を維持する2つのスポーサリティ対応一階最適化攻撃を提案する。 一般的な代理損失はgnnに対する世界的な攻撃には適していない。 我々の代替手段は 攻撃力を2倍にできる さらに,GNNの信頼性を向上させるために,頑健な集約機能であるSoft Medianを設計した。 我々は,従来の研究の100倍以上のグラフ上の標準GNNによる攻撃と防御を評価した。 技術を拡張可能なGNNに拡張することで、さらに1桁のスケールを行ないます。

Graph Neural Networks (GNNs) are increasingly important given their popularity and the diversity of applications. Yet, existing studies of their vulnerability to adversarial attacks rely on relatively small graphs. We address this gap and study how to attack and defend GNNs at scale. We propose two sparsity-aware first-order optimization attacks that maintain an efficient representation despite optimizing over a number of parameters which is quadratic in the number of nodes. We show that common surrogate losses are not well-suited for global attacks on GNNs. Our alternatives can double the attack strength. Moreover, to improve GNNs' reliability we design a robust aggregation function, Soft Median, resulting in an effective defense at all scales. We evaluate our attacks and defense with standard GNNs on graphs more than 100 times larger compared to previous work. We even scale one order of magnitude further by extending our techniques to a scalable GNN.
翻訳日:2021-10-29 08:09:36 公開日:2021-10-26
# (参考訳) マルチタスク学習のためのコンフリクト逆勾配降下 [全文訳有]

Conflict-Averse Gradient Descent for Multi-task Learning ( http://arxiv.org/abs/2110.14048v1 )

ライセンス: CC BY 4.0
Bo Liu and Xingchao Liu and Xiaojie Jin and Peter Stone and Qiang Liu(参考訳) マルチタスク学習の目標は、多様なタスクのモデル構造を共有することで、単一タスク学習よりも効率的な学習を可能にすることである。 標準的なマルチタスク学習の目的は、すべてのタスクの平均損失を最小限に抑えることである。 単純ではあるが、この目的を使用すると、個別に学習するよりも、各タスクの最終的なパフォーマンスがずっと悪くなります。 マルチタスクモデルの最適化における大きな課題は、異なるタスク目的の勾配が、特定のタスクのパフォーマンスを損なうような平均的な勾配方向に従うために適切に調整されていない、矛盾する勾配である。 以前の研究では、この問題を緩和するためにタスク勾配を操作するいくつかのヒューリスティックを提案している。 しかし、それらの多くは収束保証がなく、あるいは任意のパレート定常点に収束することができる。 本稿では,平均損失関数の最小化を図り,アルゴリズムの軌道を正規化するために,個々のタスクの局部的改善を最大限に活用する衝突-逆勾配降下(CAGrad)を提案する。 CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。 多目的最適化(MOO)文学における正規勾配降下(GD)と多重勾配降下アルゴリズム(MGDA)を特別な場合として含む。 一連の挑戦的なマルチタスク教師付き学習と強化学習タスクにおいて、cagradは以前の最先端のマルチ目的勾配操作法よりもパフォーマンスが向上する。

The goal of multi-task learning is to enable more efficient learning than single task learning by sharing model structures for a diverse set of tasks. A standard multi-task learning objective is to minimize the average loss across all tasks. While straightforward, using this objective often results in much worse final performance for each task than learning them independently. A major challenge in optimizing a multi-task model is the conflicting gradients, where gradients of different task objectives are not well aligned so that following the average gradient direction can be detrimental to specific tasks' performance. Previous work has proposed several heuristics to manipulate the task gradients for mitigating this problem. But most of them lack convergence guarantee and/or could converge to any Pareto-stationary point. In this paper, we introduce Conflict-Averse Gradient descent (CAGrad) which minimizes the average loss function, while leveraging the worst local improvement of individual tasks to regularize the algorithm trajectory. CAGrad balances the objectives automatically and still provably converges to a minimum over the average loss. It includes the regular gradient descent (GD) and the multiple gradient descent algorithm (MGDA) in the multi-objective optimization (MOO) literature as special cases. On a series of challenging multi-task supervised learning and reinforcement learning tasks, CAGrad achieves improved performance over prior state-of-the-art multi-objective gradient manipulation methods.
翻訳日:2021-10-29 08:08:17 公開日:2021-10-26
# (参考訳) Beta Shapley: マシンラーニングのための統一されたノイズ低減データ評価フレームワーク [全文訳有]

Beta Shapley: a Unified and Noise-reduced Data Valuation Framework for Machine Learning ( http://arxiv.org/abs/2110.14049v1 )

ライセンス: CC BY 4.0
Yongchan Kwon, James Zou(参考訳) data shapleyは最近、機械学習における個々のデームの寄与を定量化する原則付きフレームワークとして提案されている。 学習アルゴリズムの有用な、あるいは有害なデータポイントを効果的に特定できる。 本稿では,data shapley の実質的な一般化である beta shapley を提案する。 beta shapleyは、機械学習の設定では重要ではないshapley値の効率公理を緩和することによって自然に発生する。 beta shapleyはいくつかの一般的なデータバリュエーション手法を統合し、特別なケースとしてdata shapleyを含む。 さらに,β shapley には望ましい統計特性がいくつかあることを証明し,その推定に効率的なアルゴリズムを提案する。 Beta Shapleyは、以下のような下流MLタスクにおいて、最先端のデータアセスメント手法よりも優れていることを示す。 1) 誤ラベル付き訓練データの検出 2)サブサンプルによる学習,及び 3) 付加または除去がモデルに最もプラスまたはマイナスの影響を与える点の同定。

Data Shapley has recently been proposed as a principled framework to quantify the contribution of individual datum in machine learning. It can effectively identify helpful or harmful data points for a learning algorithm. In this paper, we propose Beta Shapley, which is a substantial generalization of Data Shapley. Beta Shapley arises naturally by relaxing the efficiency axiom of the Shapley value, which is not critical for machine learning settings. Beta Shapley unifies several popular data valuation methods and includes data Shapley as a special case. Moreover, we prove that Beta Shapley has several desirable statistical properties and propose efficient algorithms to estimate it. We demonstrate that Beta Shapley outperforms state-of-the-art data valuation methods on several downstream ML tasks such as: 1) detecting mislabeled training data; 2) learning with subsamples; and 3) identifying points whose addition or removal have the largest positive or negative impact on the model.
翻訳日:2021-10-29 07:42:24 公開日:2021-10-26
# (参考訳) 厳密な積分を持つ多項式スプラインニューラルネットワーク

Polynomial-Spline Neural Networks with Exact Integrals ( http://arxiv.org/abs/2110.14055v1 )

ライセンス: CC BY 4.0
Jonas A. Actor and Andy Huang and Nathaniel Trask(参考訳) ニューラルネットワークを使って変分問題や、他の科学的な機械学習タスクを解決するのは、一貫性の欠如と、ニューラルネットワークアーキテクチャに関わる表現を正確に統合できないためである。 これらの制約に対処するため, 自由結び目B1-スプライン基底関数と, 演算子混合モデルを組み合わせた新しいニューラルネットワークアーキテクチャを定式化する。 効果的に、我々のアーキテクチャは、訓練可能なユニティの分割のそれぞれのセル上で分割多項式近似を行う。 我々のアーキテクチャは、近似理論から期待される収束率での回帰問題を$h$-と$p$-に洗練し、変分問題を解くための一貫性を与える。 さらに、このアーキテクチャ、モーメント、部分微分はすべて正確に統合でき、サンプリングや二次に依存し、変分形式の誤りのない計算を可能にする。 ネットワークアーキテクチャの一貫性と正確な統合性を示す様々な回帰問題と変分問題において、我々のネットワークの成功を実証する。

Using neural networks to solve variational problems, and other scientific machine learning tasks, has been limited by a lack of consistency and an inability to exactly integrate expressions involving neural network architectures. We address these limitations by formulating a novel neural network architecture that combines a polynomial mixture-of-experts model with free knot B1-spline basis functions. Effectively, our architecture performs piecewise polynomial approximation on each cell of a trainable partition of unity. Our architecture exhibits both $h$- and $p$- refinement for regression problems at the convergence rates expected from approximation theory, allowing for consistency in solving variational problems. Moreover, this architecture, its moments, and its partial derivatives can all be integrated exactly, obviating a reliance on sampling or quadrature and enabling error-free computation of variational forms. We demonstrate the success of our network on a range of regression and variational problems that illustrate the consistency and exact integrability of our network architecture.
翻訳日:2021-10-29 07:15:05 公開日:2021-10-26
# (参考訳) 新しいアルゴリズムを学ぶためにアルゴリズム推論知識を伝達する方法 [全文訳有]

How to transfer algorithmic reasoning knowledge to learn new algorithms? ( http://arxiv.org/abs/2110.14056v1 )

ライセンス: CC BY 4.0
Louis-Pascal A. C. Xhonneux, Andreea Deac, Petar Velickovic, Jian Tang(参考訳) アルゴリズムの学習は、広く研究されている基本的な問題である。 先行研究~\cite{veli19neural} は、グラフアルゴリズムの体系的な一般化を可能にするためには、プログラム/アルゴリズムの中間ステップにアクセスすることが重要であることを示した。 アルゴリズム的な推論が重要である多くの推論タスクでは、入力と出力の例のみにアクセスできます。 そこで我々は,自然言語処理(NLP)やコンピュータビジョンにおける類似のタスクやデータに対する事前学習の成功に触発され,アルゴリズム推論の知識を伝達する方法を探究した。 具体的には,実行トレースにアクセス可能なアルゴリズムを使用して,同じようなタスクの解決法を学ぶ方法を検討する。 グラフアルゴリズムの2つの主要なクラス,例えばブロードスファーストサーチやベルマンフォードのような並列アルゴリズム,およびPrimやDijkstraのようなシーケンシャルグリーディアルゴリズムについて検討する。 アルゴリズム推論知識とコンピュータビジョンやNLPなどの特徴抽出器の基本的な違いから,標準転送技術は体系的な一般化を実現するのに十分ではないと仮定する。 これを調べるために、9つのアルゴリズムと3つの異なるグラフタイプを含むデータセットを作成します。 これを実証的に検証し,その代わりにマルチタスク学習を用いてアルゴリズム推論知識の伝達を実現する方法を示す。

Learning to execute algorithms is a fundamental problem that has been widely studied. Prior work~\cite{veli19neural} has shown that to enable systematic generalisation on graph algorithms it is critical to have access to the intermediate steps of the program/algorithm. In many reasoning tasks, where algorithmic-style reasoning is important, we only have access to the input and output examples. Thus, inspired by the success of pre-training on similar tasks or data in Natural Language Processing (NLP) and Computer Vision, we set out to study how we can transfer algorithmic reasoning knowledge. Specifically, we investigate how we can use algorithms for which we have access to the execution trace to learn to solve similar tasks for which we do not. We investigate two major classes of graph algorithms, parallel algorithms such as breadth-first search and Bellman-Ford and sequential greedy algorithms such as Prim and Dijkstra. Due to the fundamental differences between algorithmic reasoning knowledge and feature extractors such as used in Computer Vision or NLP, we hypothesise that standard transfer techniques will not be sufficient to achieve systematic generalisation. To investigate this empirically we create a dataset including 9 algorithms and 3 different graph types. We validate this empirically and show how instead multi-task learning can be used to achieve the transfer of algorithmic reasoning knowledge.
翻訳日:2021-10-29 07:13:41 公開日:2021-10-26
# (参考訳) 物理インフォームドPDEを用いたスウィング方程式のモデル化 [全文訳有]

Model Reduction of Swing Equations with Physics Informed PDE ( http://arxiv.org/abs/2110.14066v1 )

ライセンス: CC BY 4.0
Laurent Pagnier, Michael Chertkov, Julian Fritzsch, Philippe Jacquod(参考訳) この原稿は、トランスミッションレベル電力系統における過渡的ダイナミクスを捉えるために、堅牢で効率的なモデル削減手法を構築するための最初のステップである。 このような力学は通常、パワーグリッドの空間的離散モデル上で定義される通常の微分方程式であるスイング方程式(swing equation)によって数秒から数秒の時間スケールでモデル化される。 Seymlyen (1974) と Thorpe, Seyler and Phadke (1999) に従って、2つの空間と時間非依存係数と適切に定義された境界条件を持つ1次元の放物型偏微分方程式(PDE)にスイング方程式を写像することを提案する。 連続2次元空間領域は、電力グリッドによって提供される領域の地理的マップで定義され、サセプタンス、機械慣性、減衰のスムーズなグラフ-ラプラシアンのPDE係数に関連付けられる。 不均質なソース用語は、空間的に分布した電力の注入/消費を表す。 本稿ではPanTaGruEl(Pan-Europ ean Transmission Grid and ELectricity Generation model)について述べる。 本研究では,各離散係数の空間的畳み込み過程から抽出したPDE係数とソース項を適切に粗い粒度にすると,結果のPDEは元のスイングダイナミクスを忠実かつ効率的に再現することを示す。 提案するpdeベースの縮小モデリングは,実時間モデリング,n-1$実現可能性評価,電力システムの過渡的安定性解析のための物理モデルによる機械学習アプローチを初期化する。

This manuscript is the first step towards building a robust and efficient model reduction methodology to capture transient dynamics in a transmission level electric power system. Such dynamics is normally modeled on seconds-to-tens-of-s econds time scales by the so-called swing equations, which are ordinary differential equations defined on a spatially discrete model of the power grid. We suggest, following Seymlyen (1974) and Thorpe, Seyler and Phadke (1999), to map the swing equations onto a linear, inhomogeneous Partial Differential Equation (PDE) of parabolic type in two space and one time dimensions with time-independent coefficients and properly defined boundary conditions. The continuous two-dimensional spatial domain is defined by a geographical map of the area served by the power grid, and associated with the PDE coefficients derived from smoothed graph-Laplacian of susceptances, machine inertia and damping. Inhomogeneous source terms represent spatially distributed injection/consumptio n of power. We illustrate our method on PanTaGruEl (Pan-European Transmission Grid and ELectricity generation model). We show that, when properly coarse-grained, i.e. with the PDE coefficients and source terms extracted from a spatial convolution procedure of the respective discrete coefficients in the swing equations, the resulting PDE reproduces faithfully and efficiently the original swing dynamics. We finally discuss future extensions of this work, where the presented PDE-based reduced modeling will initialize a physics-informed machine learning approach for real-time modeling, $n-1$ feasibility assessment and transient stability analysis of power systems.
翻訳日:2021-10-29 06:54:06 公開日:2021-10-26
# エッジにおける高速IoTデバイス識別

Rapid IoT Device Identification at the Edge ( http://arxiv.org/abs/2110.13941v1 )

ライセンス: Link先を確認
Oliver Thompson, Anna Maria Mandalari, Hamed Haddadi(参考訳) 消費者向けモノのインターネット(IoT)デバイスは、スマートスピーカーからセキュリティカメラに至るまで、日常の家庭ではますます一般的になっている。 そのメリットに加えて、潜在的なプライバシーとセキュリティの脅威も伴う。 これらの脅威を制限するには、エッジでのIoTトラフィックをフィルタリングするソリューションを実装しなければなりません。 この目的のために、IoTデバイスの識別は、最初の自然なステップである。 本稿では,デバイスDNSトラフィックに基づいてトレーニングされたニューラルネットワークを用いて,ローカルネットワーク上のDNSサーバから取得可能な高速IoTデバイス識別手法を提案する。 本手法は,第1接続後のDNS第2レベルドメイントラフィックの第1秒にモデルを適合させてデバイスを特定する。 セキュリティとプライバシの脅威検出はデバイス固有のレベルで実行されることが多いため、迅速な識別はこれらの戦略を直ちに実行可能にする。 51,000の厳格な自動実験を通じて、27の異なるメーカーから30の消費者向けIoTデバイスをそれぞれ82%と93%の精度で分類した。

Consumer Internet of Things (IoT) devices are increasingly common in everyday homes, from smart speakers to security cameras. Along with their benefits come potential privacy and security threats. To limit these threats we must implement solutions to filter IoT traffic at the edge. To this end the identification of the IoT device is the first natural step. In this paper we demonstrate a novel method of rapid IoT device identification that uses neural networks trained on device DNS traffic that can be captured from a DNS server on the local network. The method identifies devices by fitting a model to the first seconds of DNS second-level-domain traffic following their first connection. Since security and privacy threat detection often operate at a device specific level, rapid identification allows these strategies to be implemented immediately. Through a total of 51,000 rigorous automated experiments, we classify 30 consumer IoT devices from 27 different manufacturers with 82% and 93% accuracy for product type and device manufacturers respectively.
翻訳日:2021-10-28 15:10:37 公開日:2021-10-26
# 項目推薦ベンチマークにおけるiALSの性能見直し

Revisiting the Performance of iALS on Item Recommendation Benchmarks ( http://arxiv.org/abs/2110.14037v1 )

ライセンス: Link先を確認
Steffen Rendle, Walid Krichene, Li Zhang, Yehuda Koren(参考訳) 行列分解は暗黙の交互最小二乗(iALS)によって学習され、レコメンデーターシステム研究の出版物で人気がある。 iALSは計算効率が良くスケーラブルな協調フィルタリング手法の1つとして知られている。 しかし、近年の研究では、その予測品質は現在の技術、特にオートエンコーダや他のアイテムベースの協調フィルタリング手法と競合しないことが示唆されている。 本研究では,iALSアルゴリズムを再検討し,iALSを適用する際に有用なトリックの袋を提示する。 我々は、iALSが性能が良くないことが報告された4つのよく研究されたベンチマークを再検討し、適切なチューニングを行うことで、iALSは競争力が高く、比較の少なくとも半分でどの方法よりも優れていることを示す。 これらの高品質な結果とiALSの既知のスケーラビリティが、この10年前の技術の適用と改善に新たな関心を喚起することを期待しています。

Matrix factorization learned by implicit alternating least squares (iALS) is a popular baseline in recommender system research publications. iALS is known to be one of the most computationally efficient and scalable collaborative filtering methods. However, recent studies suggest that its prediction quality is not competitive with the current state of the art, in particular autoencoders and other item-based collaborative filtering methods. In this work, we revisit the iALS algorithm and present a bag of tricks that we found useful when applying iALS. We revisit four well-studied benchmarks where iALS was reported to perform poorly and show that with proper tuning, iALS is highly competitive and outperforms any method on at least half of the comparisons. We hope that these high quality results together with iALS's known scalability spark new interest in applying and further improving this decade old technique.
翻訳日:2021-10-28 15:10:22 公開日:2021-10-26
# iALS++: サブスペース最適化による行列係数化の高速化

iALS++: Speeding up Matrix Factorization with Subspace Optimization ( http://arxiv.org/abs/2110.14044v1 )

ライセンス: Link先を確認
Steffen Rendle, Walid Krichene, Li Zhang, Yehuda Koren(参考訳) iALSは最小二乗の暗黙のフィードバックから行列分解モデルを学習するための一般的なアルゴリズムである。 このアルゴリズムは10年以上前に発明されたが、VAE、EASE、SLIM、NCFといった最近のアプローチと比較しても競争力がある。 負のサンプリングを避ける計算トリックのため、iALSは特に大きな項目カタログにとって非常に効率的である。 しかし、iALS は d 上の立方体ランタイム依存性のため、大きな埋め込み次元 d ではうまくスケールしない。 座標降下変分(iCD)は、dの2次構造に複雑性を下げるために提案されている。 本研究は,iCD のアプローチが現代のプロセッサにはあまり適していないことを示し,小型・中規模の埋め込みサイズ (d ~ 100) に対する注意深い iALS 実装よりも桁違いに遅いことを示し,大規模な埋め込みサイズ (d ~ 1000) では iALS よりも優れた性能を示す。 本稿では, ialsの利点をベクトル処理とicdのような計算量の低い計算量と組み合わせた新しい解法 ials++ を提案する。 iALS++は、小型および大型の埋め込みディメンションにおいて、iCDよりも桁違いに高速である。 数分間で1000次元の埋め込みベクトルであっても、Movielens 20MやMillion Song Datasetのようなベンチマーク問題を解決することができる。

iALS is a popular algorithm for learning matrix factorization models from implicit feedback with alternating least squares. This algorithm was invented over a decade ago but still shows competitive quality compared to recent approaches like VAE, EASE, SLIM, or NCF. Due to a computational trick that avoids negative sampling, iALS is very efficient especially for large item catalogues. However, iALS does not scale well with large embedding dimensions, d, due to its cubic runtime dependency on d. Coordinate descent variations, iCD, have been proposed to lower the complexity to quadratic in d. In this work, we show that iCD approaches are not well suited for modern processors and can be an order of magnitude slower than a careful iALS implementation for small to mid scale embedding sizes (d ~ 100) and only perform better than iALS on large embeddings d ~ 1000. We propose a new solver iALS++ that combines the advantages of iALS in terms of vector processing with a low computational complexity as in iCD. iALS++ is an order of magnitude faster than iCD both for small and large embedding dimensions. It can solve benchmark problems like Movielens 20M or Million Song Dataset even for 1000 dimensional embedding vectors in a few minutes.
翻訳日:2021-10-28 15:10:09 公開日:2021-10-26
# ロバストなスクラッチチケットの描画:生まれながらのロバスト性を持つサブネットワークはランダムに初期化されたネットワークで見つかる

Drawing Robust Scratch Tickets: Subnetworks with Inborn Robustness Are Found within Randomly Initialized Networks ( http://arxiv.org/abs/2110.14068v1 )

ライセンス: Link先を確認
Yonggan Fu, Qixuan Yu, Yang Zhang, Shang Wu, Xu Ouyang, David Cox, Yingyan Lin(参考訳) ディープニューラルネットワーク(dnn)は、敵の攻撃に対して脆弱であることが知られており、入力に対する不可避な摂動は、クリーンな画像に訓練されたdnnを誤解させ、誤った予測を行う。 これを解決するために、現在最も効果的な防御方法として、ハエで発生した敵のサンプルでトレーニングセットを増強している。 興味深いことに、モデルトレーニングなしでランダムに初期化されたネットワーク内に、モデルサイズに匹敵する敵のトレーニングされたネットワークの頑健な精度を一致または超える、生まれつきのロバスト性を持つサブネットワークが存在することが初めて明らかになった。 我々はそのようなサブネットワークであるRobust Scratch Tickets (RSTs) を自然に効率よく命名する。 一般的な宝くじ券の仮説とは別として、元の密集ネットワークや特定されたRTTをトレーニングする必要はない。 この興味深い発見を検証し理解するために、我々はさらに、異なるモデル、データセット、スパーシティパターン、およびアタックにおけるrstの存在と特性を研究するための広範囲な実験を行い、dnnの堅牢性と初期化/過パラメータ化の関係についての洞察を引き出す。 さらに、同一の初期化高密度ネットワークから引き出された疎度比の異なるRTT間の不適切な逆転送性を同定し、R2S(Random RST Switch)技術を提案し、R2S上に構築された新しい防御手法として、異なるRTT間のランダムに切り替える。 RSTに関する我々の発見は、モデルロバスト性を研究し、宝くじの仮説を拡張する新しい視点を開いたと信じている。

Deep Neural Networks (DNNs) are known to be vulnerable to adversarial attacks, i.e., an imperceptible perturbation to the input can mislead DNNs trained on clean images into making erroneous predictions. To tackle this, adversarial training is currently the most effective defense method, by augmenting the training set with adversarial samples generated on the fly. Interestingly, we discover for the first time that there exist subnetworks with inborn robustness, matching or surpassing the robust accuracy of the adversarially trained networks with comparable model sizes, within randomly initialized networks without any model training, indicating that adversarial training on model weights is not indispensable towards adversarial robustness. We name such subnetworks Robust Scratch Tickets (RSTs), which are also by nature efficient. Distinct from the popular lottery ticket hypothesis, neither the original dense networks nor the identified RSTs need to be trained. To validate and understand this fascinating finding, we further conduct extensive experiments to study the existence and properties of RSTs under different models, datasets, sparsity patterns, and attacks, drawing insights regarding the relationship between DNNs' robustness and their initialization/overp arameterization. Furthermore, we identify the poor adversarial transferability between RSTs of different sparsity ratios drawn from the same randomly initialized dense network, and propose a Random RST Switch (R2S) technique, which randomly switches between different RSTs, as a novel defense method built on top of RSTs. We believe our findings about RSTs have opened up a new perspective to study model robustness and extend the lottery ticket hypothesis.
翻訳日:2021-10-28 14:48:25 公開日:2021-10-26
# データ支援のためのメタ学習の感度について

On sensitivity of meta-learning to support data ( http://arxiv.org/abs/2110.13953v1 )

ライセンス: Link先を確認
Mayank Agarwal, Mikhail Yurochkin, Yuekai Sun(参考訳) メタラーニングアルゴリズムは、少数の学習に広く使われている。 例えば、いくつかのラベル付き例を見て、見当たらないクラスに容易に適応する画像認識システムなどです。 その成功にもかかわらず、現代のメタ学習アルゴリズムは適応に使用されるデータ、すなわちサポートデータに非常に敏感であることを示す。 特に, 適応に使用する場合, 標準の少数ショット画像分類ベンチマークにおいて, 精度が4\%, または95\%まで低下する画像が存在することを実証する。 我々は,授業マージンの観点で経験的知見を説明することにより,堅牢で安全なメタラーニングには教師付き学習よりも大きなマージンが必要であることを示唆する。

Meta-learning algorithms are widely used for few-shot learning. For example, image recognition systems that readily adapt to unseen classes after seeing only a few labeled examples. Despite their success, we show that modern meta-learning algorithms are extremely sensitive to the data used for adaptation, i.e. support data. In particular, we demonstrate the existence of (unaltered, in-distribution, natural) images that, when used for adaptation, yield accuracy as low as 4\% or as high as 95\% on standard few-shot image classification benchmarks. We explain our empirical findings in terms of class margins, which in turn suggests that robust and safe meta-learning requires larger margins than supervised learning.
翻訳日:2021-10-28 14:22:10 公開日:2021-10-26
# データ歪みがモデル解析および訓練に及ぼす影響について

On the Effects of Data Distortion on Model Analysis and Training ( http://arxiv.org/abs/2110.13968v1 )

ライセンス: Link先を確認
Antonia Marcu and Adam Pr\"ugel-Bennett(参考訳) データ修正は人工情報を導入することができる。 結果として得られる成果物は、モデルを分析する際に無視できる一方で、トレーニングに有害であると考えられることが多い。 これらの仮定を調査し、いくつかのケースでは、それらが根拠がなく、誤った結果をもたらすと結論付ける。 具体的には,現在の形状バイアス同定法と咬合ロバスト性尺度の偏りを示し,後者に対する公平な代替案を提案する。 その後,一連の実験を通じて,データのゆがみが学習に与える影響に対するコミュニティの認識を正し,強化することを目指す。 経験的な結果に基づいて、アーティファクトの影響は排除されるよりも理解され、悪用されなければならないと主張する。

Data modification can introduce artificial information. It is often assumed that the resulting artefacts are detrimental to training, whilst being negligible when analysing models. We investigate these assumptions and conclude that in some cases they are unfounded and lead to incorrect results. Specifically, we show current shape bias identification methods and occlusion robustness measures are biased and propose a fairer alternative for the latter. Subsequently, through a series of experiments we seek to correct and strengthen the community's perception of how distorting data affects learning. Based on our empirical results we argue that the impact of the artefacts must be understood and exploited rather than eliminated.
翻訳日:2021-10-28 14:21:57 公開日:2021-10-26
# 適応型タスクスケジューリングによるメタ学習

Meta-learning with an Adaptive Task Scheduler ( http://arxiv.org/abs/2110.14057v1 )

ライセンス: Link先を確認
Huaxiu Yao, Yu Wang, Ying Wei, Peilin Zhao, Mehrdad Mahdavi, Defu Lian, Chelsea Finn(参考訳) 新しいタスクの学習に役立てるために,様々なメタ学習タスクから学習した高度なメタモデルを伝達するメタ学習が提案されている。 既存のメタ学習アルゴリズムは、タスクが等しく重要であるという仮定の下で、一様確率でランダムにメタ学習タスクをサンプリングする。 しかし、メタトレーニングタスクの数が限られているため、タスクはノイズや不均衡を伴う可能性がある。 本稿では, メタモデルがこのような有害なタスクやタスクに支配されるのを防止するため, メタトレーニングプロセスのための適応型タスクスケジューラ(ATS)を提案する。 ATSでは,まず,候補タスク毎にサンプリングされる確率を予測し,次に使用するメタトレーニングタスクを決定するニューラルスケジューラを設計し,メタモデルの一般化能力を最適化するためにスケジューラを訓練する。 2つのメタモデル関連因子を神経スケジューラの入力として同定し、候補タスクの難易度をメタモデルに特徴付ける。 理論的には、この2つの要因を考慮に入れたスケジューラは、メタトレーニング損失と最適化ランドスケープを改善する。 ノイズと予算の制限によるメタラーニングの設定の下で、ATSは、最先端タスクスケジューラと比較して、miniImageNetと実世界の薬物発見ベンチマークの両方のパフォーマンスを最大13%と18%改善する。

To benefit the learning of a new task, meta-learning has been proposed to transfer a well-generalized meta-model learned from various meta-training tasks. Existing meta-learning algorithms randomly sample meta-training tasks with a uniform probability, under the assumption that tasks are of equal importance. However, it is likely that tasks are detrimental with noise or imbalanced given a limited number of meta-training tasks. To prevent the meta-model from being corrupted by such detrimental tasks or dominated by tasks in the majority, in this paper, we propose an adaptive task scheduler (ATS) for the meta-training process. In ATS, for the first time, we design a neural scheduler to decide which meta-training tasks to use next by predicting the probability being sampled for each candidate task, and train the scheduler to optimize the generalization capacity of the meta-model to unseen tasks. We identify two meta-model-related factors as the input of the neural scheduler, which characterize the difficulty of a candidate task to the meta-model. Theoretically, we show that a scheduler taking the two factors into account improves the meta-training loss and also the optimization landscape. Under the setting of meta-learning with noise and limited budgets, ATS improves the performance on both miniImageNet and a real-world drug discovery benchmark by up to 13% and 18%, respectively, compared to state-of-the-art task schedulers.
翻訳日:2021-10-28 14:21:45 公開日:2021-10-26
# マルチエージェント軌道予測における協調的不確かさ

Collaborative Uncertainty in Multi-Agent Trajectory Forecasting ( http://arxiv.org/abs/2110.13947v1 )

ライセンス: Link先を確認
Bohan Tang, Yiqi Zhong, Ulrich Neumann, Gang Wang, Ya Zhang, Siheng Chen(参考訳) 不確実性モデリングは、解釈と安全性の両方の理由から軌道予測システムにおいて重要である。 複数のエージェントの将来の軌道を予測するために、最近の研究ではエージェント間のインタラクションをキャプチャするインタラクションモジュールが導入されている。 このアプローチは予測された軌道間の相関をもたらす。 しかし、この相関による不確実性は無視される。 このギャップを埋めるために,インタラクションモジュールから生じる不確かさをモデル化する新しい概念であるコラボレーティブ不確実性(cu)を提案する。 我々は、将来の軌跡とそれに対応する不確実性を学ぶための予測モデルを構築するための一般的なCUベースのフレームワークを構築した。 CUベースのフレームワークは、現在の最先端(SOTA)システムのプラグインモジュールとして統合され、多変量ガウス分布とラプラス分布に基づく2つの特別なケースでデプロイされる。 いずれの場合も,2つの合成データセットと2つの公開ベンチマークによる軌道予測に関する広範な実験を行う。 結果は有望だ。 1) 合成データセットの結果から, cuベースのフレームワークにより, 地中分布を適切に近似できることがわかった。 2) 軌跡予測ベンチマークの結果から, CU ベースのフレームワークがSOTA システムの性能向上に有効であることが示された。 特に,提案するcuベースのフレームワークは,nuscenesデータセットにおける最終変位誤差の57cm改善を支援する。 3)CUの可視化結果から,CUの価値はエージェント間の対話情報量と高い相関関係があることが示唆された。

Uncertainty modeling is critical in trajectory forecasting systems for both interpretation and safety reasons. To better predict the future trajectories of multiple agents, recent works have introduced interaction modules to capture interactions among agents. This approach leads to correlations among the predicted trajectories. However, the uncertainty brought by such correlations is neglected. To fill this gap, we propose a novel concept, collaborative uncertainty(CU), which models the uncertainty resulting from the interaction module. We build a general CU-based framework to make a prediction model to learn the future trajectory and the corresponding uncertainty. The CU-based framework is integrated as a plugin module to current state-of-the-art (SOTA) systems and deployed in two special cases based on multivariate Gaussian and Laplace distributions. In each case, we conduct extensive experiments on two synthetic datasets and two public, large-scale benchmarks of trajectory forecasting. The results are promising: 1) The results of synthetic datasets show that CU-based framework allows the model to appropriately approximate the ground-truth distribution. 2) The results of trajectory forecasting benchmarks demonstrate that the CU-based framework steadily helps SOTA systems improve their performances. Especially, the proposed CU-based framework helps VectorNet improve by 57cm regarding Final Displacement Error on nuScenes dataset. 3) The visualization results of CU illustrate that the value of CU is highly related to the amount of the interactive information among agents.
翻訳日:2021-10-28 13:29:09 公開日:2021-10-26
# ビデオによる開手術縫合スキルの完全自動評価

Video-based fully automatic assessment of open surgery suturing skills ( http://arxiv.org/abs/2110.13972v1 )

ライセンス: Link先を確認
Adam Goldbraikh, Anne-Lise D'Angelo, Carla M. Pugh, Shlomi Laufer(参考訳) 本研究の目的は, 資源が限られている場合や, 家庭内施設において, 医療学生を訓練するための, 信頼性の高い手術縫合シミュレーションシステムを開発することである。 そこで我々は,簡単なWebカメラ映像データに基づいて,ツールと手のローカライゼーションのためのアルゴリズムを開発し,手術技術の評価のための動作指標を算出した。 25名の被験者がシミュレータを用いて複数の縫合作業を行った。 YOLOネットワークは、ツールのローカライゼーションとツールハンドインタラクション検出を目的としたマルチタスクネットワークに修正されている。 これは、YOLO検出ヘッドを分割して、コンピュータ実行時間に最小限の追加で両方のタスクをサポートすることで達成された。 さらに, システムの結果から, 動きの計測値が算出された。 これらのメトリクスには、時間やパスの長さといった従来のメトリクスと、参加者がツールを保持するために使用するテクニックを評価する新しいメトリクスが含まれていました。 デュアルタスクネットワークの性能は2つのネットワークと似ているが、計算負荷は1つのネットワークよりわずかに大きい。 さらに, 運動測定値には, 専門家と初心者の間に有意な差が認められた。 ビデオキャプチャーは最小侵襲手術の不可欠な部分であるが、開腹手術の不可欠な要素ではない。 したがって,オープン手術ビデオのユニークな課題に焦点をあてた新しいアルゴリズムが必要である。 本研究では,ローカライズタスクとハンドツールインタラクションタスクの両方を解決するために,デュアルタスクネットワークを開発した。 デュアルネットワークはマルチタスクネットワークに容易に拡張でき、複数のレイヤを持つ画像や、これらの異なるレイヤ間の相互作用を評価するのに有用である。

The goal of this study was to develop new reliable open surgery suturing simulation system for training medical students in situation where resources are limited or in the domestic setup. Namely, we developed an algorithm for tools and hands localization as well as identifying the interactions between them based on simple webcam video data, calculating motion metrics for assessment of surgical skill. Twenty-five participants performed multiple suturing tasks using our simulator. The YOLO network has been modified to a multi-task network, for the purpose of tool localization and tool-hand interaction detection. This was accomplished by splitting the YOLO detection heads so that they supported both tasks with minimal addition to computer run-time. Furthermore, based on the outcome of the system, motion metrics were calculated. These metrics included traditional metrics such as time and path length as well as new metrics assessing the technique participants use for holding the tools. The dual-task network performance was similar to that of two networks, while computational load was only slightly bigger than one network. In addition, the motion metrics showed significant differences between experts and novices. While video capture is an essential part of minimally invasive surgery, it is not an integral component of open surgery. Thus, new algorithms, focusing on the unique challenges open surgery videos present, are required. In this study, a dual-task network was developed to solve both a localization task and a hand-tool interaction task. The dual network may be easily expanded to a multi-task network, which may be useful for images with multiple layers and for evaluating the interaction between these different layers.
翻訳日:2021-10-28 13:28:45 公開日:2021-10-26
# ディープリライトによる制御可能なデータ拡張

Controllable Data Augmentation Through Deep Relighting ( http://arxiv.org/abs/2110.13996v1 )

ライセンス: Link先を確認
George Chogovadze and R\'emi Pautrat and Marc Pollefeys(参考訳) ディープラーニングの成功の核心は、データの品質です。 データ拡張により、より良い一般化能力でモデルを訓練し、興味のある分野においてより大きな結果を得ることができる。 本研究では,既存のモデルの照明変化に対する不変性,すなわち学習用ディスクリプタの能力を向上させるため,画像データセットの多種多様な拡張方法について検討する。 我々は,エンコーダ・デコーダネットワークをベースとしたツールを開発し,様々な入力シーンの照明の様々なバリエーションを迅速に生成すると同時に,入射角や強度などのパラメータをユーザが定義できるようにする。 パイプラインで拡張されたデータセットのモデルをトレーニングすることで、ローカライズベンチマークでより高いパフォーマンスを達成できることを実証する。

At the heart of the success of deep learning is the quality of the data. Through data augmentation, one can train models with better generalization capabilities and thus achieve greater results in their field of interest. In this work, we explore how to augment a varied set of image datasets through relighting so as to improve the ability of existing models to be invariant to illumination changes, namely for learned descriptors. We develop a tool, based on an encoder-decoder network, that is able to quickly generate multiple variations of the illumination of various input scenes whilst also allowing the user to define parameters such as the angle of incidence and intensity. We demonstrate that by training models on datasets that have been augmented with our pipeline, it is possible to achieve higher performance on localization benchmarks.
翻訳日:2021-10-28 13:27:31 公開日:2021-10-26
# グローバルロバストトレーニングにおける局所的効果の改善

Improving Local Effectiveness for Global robust training ( http://arxiv.org/abs/2110.14030v1 )

ライセンス: Link先を確認
Jingyue Lu, M. Pawan Kumar(参考訳) その人気にもかかわらず、ディープニューラルネットワークは簡単に騙される。 この欠陥を緩和するために、研究者は、小さな入力摂動に対して堅牢なモデルを促進する新しいトレーニング戦略を積極的に開発している。 堅牢な訓練方法がいくつか提案されている。 しかし、それらの多くは強い敵に依存しており、入力次元が高く、モデル構造が複雑である場合には、非常に高価である。 我々は,ロバスト性に対する新しい視点を採用し,敵をより効果的に利用するための新しいトレーニングアルゴリズムを提案する。 本手法は, 敵球を中心にした各局所球のモデルロバスト性を向上し, それらの局所球を大域的に組み合わせることで, 全体ロバスト性を実現する。 我々は,局所球に焦点をあてて敵の利用を最大化することで,弱い敵に対して高いロバストな精度を実現することを実証する。 具体的には,MNIST, CIFAR-10, CIFAR-100において, 強敵に対して訓練した手法と同等の精度に達する。 これにより、全体のトレーニング時間が短縮される。 さらに,強い敵で訓練すると,本手法はMNISTの最先端技術と一致し,CIFAR-10やCIFAR-100よりも優れていた。

Despite its popularity, deep neural networks are easily fooled. To alleviate this deficiency, researchers are actively developing new training strategies, which encourage models that are robust to small input perturbations. Several successful robust training methods have been proposed. However, many of them rely on strong adversaries, which can be prohibitively expensive to generate when the input dimension is high and the model structure is complicated. We adopt a new perspective on robustness and propose a novel training algorithm that allows a more effective use of adversaries. Our method improves the model robustness at each local ball centered around an adversary and then, by combining these local balls through a global term, achieves overall robustness. We demonstrate that, by maximizing the use of adversaries via focusing on local balls, we achieve high robust accuracy with weak adversaries. Specifically, our method reaches a similar robust accuracy level to the state of the art approaches trained on strong adversaries on MNIST, CIFAR-10 and CIFAR-100. As a result, the overall training time is reduced. Furthermore, when trained with strong adversaries, our method matches with the current state of the art on MNIST and outperforms them on CIFAR-10 and CIFAR-100.
翻訳日:2021-10-28 13:27:18 公開日:2021-10-26
# 異常・ノベルティ・オープンセット・アウト・オブ・ディストリビューション検出に関する統一調査:解決策と今後の課題

A Unified Survey on Anomaly, Novelty, Open-Set, and Out-of-Distribution Detection: Solutions and Future Challenges ( http://arxiv.org/abs/2110.14051v1 )

ライセンス: Link先を確認
Mohammadreza Salehi, Hossein Mirzaei, Dan Hendrycks, Yixuan Li, Mohammad Hossein Rohban, Mohammad Sabokrou(参考訳) 機械学習モデルは、トレーニング分布から分岐したサンプルに遭遇することが多い。 out-of-distribution (ood) サンプルを認識できず、結果としてそのサンプルをクラス内ラベルに割り当てることがモデルの信頼性を損なう。 この問題は、オープンワールド設定における安全配置モデルの重要性から、大きな注目を集めている。 OODサンプルの検出は、未知の分布をモデル化することの難しさから難しい。 これまで、いくつかの研究領域では、異常検出、新奇性検出、一級学習、オープンセット認識、分散検出など、不慣れなサンプル検出の問題に取り組んできた。 類似した共有概念にもかかわらず、アウト・オブ・ディストリビューション、オープン・セット、異常検出は独立して研究されている。 したがって、これらの研究の道は交差してはおらず、研究の障壁を生み出している。 これらのアプローチの概要を提供する調査もあるが、異なるドメイン間の関係を調べることなく、特定のドメインのみに焦点を当てているようだ。 本調査は,共通点を特定しつつ,各分野における多数の傑出した作品のクロスドメインかつ包括的レビューを行うことを目的とする。 研究者は、様々な分野の研究の進歩の概要から恩恵を受け、将来の方法論を相乗的に開発することができる。 さらに,我々の知る限りでは,異常検出や一級学習における調査は存在するものの,分散検出に関する包括的あるいは最新の調査は行われていない。 最後に、ドメイン間を統一した視点で、これらの分野をより緊密にすることを目的として、今後の研究線について議論し、光を当てる。

Machine learning models often encounter samples that are diverged from the training distribution. Failure to recognize an out-of-distribution (OOD) sample, and consequently assign that sample to an in-class label significantly compromises the reliability of a model. The problem has gained significant attention due to its importance for safety deploying models in open-world settings. Detecting OOD samples is challenging due to the intractability of modeling all possible unknown distributions. To date, several research domains tackle the problem of detecting unfamiliar samples, including anomaly detection, novelty detection, one-class learning, open set recognition, and out-of-distribution detection. Despite having similar and shared concepts, out-of-distribution, open-set, and anomaly detection have been investigated independently. Accordingly, these research avenues have not cross-pollinated, creating research barriers. While some surveys intend to provide an overview of these approaches, they seem to only focus on a specific domain without examining the relationship between different domains. This survey aims to provide a cross-domain and comprehensive review of numerous eminent works in respective areas while identifying their commonalities. Researchers can benefit from the overview of research advances in different fields and develop future methodology synergistically. Furthermore, to the best of our knowledge, while there are surveys in anomaly detection or one-class learning, there is no comprehensive or up-to-date survey on out-of-distribution detection, which our survey covers extensively. Finally, having a unified cross-domain perspective, we discuss and shed light on future lines of research, intending to bring these fields closer together.
翻訳日:2021-10-28 13:26:59 公開日:2021-10-26
# 片側共変量を用いた非パラメトリック行列推定

Nonparametric Matrix Estimation with One-Sided Covariates ( http://arxiv.org/abs/2110.13969v1 )

ライセンス: Link先を確認
Christina Lee Yu(参考訳) データセット $x \in \mathbb{r}^{n\times m}$ がスパーシティ $p$ で観測され、$\mathbb{e}[x]$, ここで$\mathbb{e}[x_{ui}] = f(\alpha_u, \beta_i)$ のある保留滑らかな関数 $f$ を推定したいとする行列推定のタスクを考える。 我々は、行 covariates $\alpha$ が観測されないが、列 covariates $\beta$ が観測されるような設定を考える。 本稿では,行数が小さすぎる場合に,各行を別々に推定することで,アルゴリズムの精度が向上することを示すアルゴリズムと解析手法を提案する。 さらに,行列が適度に比例すると,行の共変量を知っているオラクルアルゴリズムの極小最適非パラメトリックレートが達成される。 シミュレーション実験では,本アルゴリズムが低データ領域の他のベースラインよりも優れていることを示す。

Consider the task of matrix estimation in which a dataset $X \in \mathbb{R}^{n\times m}$ is observed with sparsity $p$, and we would like to estimate $\mathbb{E}[X]$, where $\mathbb{E}[X_{ui}] = f(\alpha_u, \beta_i)$ for some Holder smooth function $f$. We consider the setting where the row covariates $\alpha$ are unobserved yet the column covariates $\beta$ are observed. We provide an algorithm and accompanying analysis which shows that our algorithm improves upon naively estimating each row separately when the number of rows is not too small. Furthermore when the matrix is moderately proportioned, our algorithm achieves the minimax optimal nonparametric rate of an oracle algorithm that knows the row covariates. In simulated experiments we show our algorithm outperforms other baselines in low data regimes.
翻訳日:2021-10-28 13:09:53 公開日:2021-10-26
# NPハードルーティング問題を解決するための協調政策の学習

Learning Collaborative Policies to Solve NP-hard Routing Problems ( http://arxiv.org/abs/2110.13987v1 )

ライセンス: Link先を確認
Minsu Kim, Jinkyoo Park and Joungho Kim(参考訳) 近年、深層強化学習(DRL)フレームワークは、問題固有の専門知識のない旅行セールスマン問題(TSP)のようなNPハードルーティング問題を解く可能性を示している。 DRLは複雑な問題を解決するのに使えるが、DRLフレームワークは依然として最先端のヒューリスティックと競合するのに苦戦している。 本稿では,2つの反復型drlポリシ(シーダーとリバイザ)を用いて,最適に近い解を効果的に見つけることができる階層的問題解決戦略である学習協調政策(lcp)を提案する。 シーダーは、全組合せ作用空間(すなわち割当行動のシーケンス)を探索することに専念しながら、可能な限り多様化した候補解(シード)を生成する。 この目的のために、我々はシーダーのポリシーを、単純かつ効果的なエントロピー正規化報酬を用いて訓練し、シーダーが多様な解決策を見つけるように促す。 一方、リバイザはシーダーが生成する各候補解を修正し、全軌道をサブターに分割し、同時に各サブターを修正して走行距離を最小化する。 したがって、リバイザは、(利用に有利な)削減されたソリューション空間に焦点を当てて、候補ソリューションの品質を改善するために訓練される。 大規模実験により,TSP,PCTSP,キャパシタン化車両ルーティング問題(CVRP)など,NPハードルーティング問題に対する単一政治DRLフレームワークよりも優れた2都市協調方式が提案されている。

Recently, deep reinforcement learning (DRL) frameworks have shown potential for solving NP-hard routing problems such as the traveling salesman problem (TSP) without problem-specific expert knowledge. Although DRL can be used to solve complex problems, DRL frameworks still struggle to compete with state-of-the-art heuristics showing a substantial performance gap. This paper proposes a novel hierarchical problem-solving strategy, termed learning collaborative policies (LCP), which can effectively find the near-optimum solution using two iterative DRL policies: the seeder and reviser. The seeder generates as diversified candidate solutions as possible (seeds) while being dedicated to exploring over the full combinatorial action space (i.e., sequence of assignment action). To this end, we train the seeder's policy using a simple yet effective entropy regularization reward to encourage the seeder to find diverse solutions. On the other hand, the reviser modifies each candidate solution generated by the seeder; it partitions the full trajectory into sub-tours and simultaneously revises each sub-tour to minimize its traveling distance. Thus, the reviser is trained to improve the candidate solution's quality, focusing on the reduced solution space (which is beneficial for exploitation). Extensive experiments demonstrate that the proposed two-policies collaboration scheme improves over single-policy DRL framework on various NP-hard routing problems, including TSP, prize collecting TSP (PCTSP), and capacitated vehicle routing problem (CVRP).
翻訳日:2021-10-28 13:09:34 公開日:2021-10-26
# SurvITE: 時系列データによる不均一な治療効果の学習

SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event Data ( http://arxiv.org/abs/2110.14001v1 )

ライセンス: Link先を確認
Alicia Curth, Changhee Lee and Mihaela van der Schaar(参考訳) イベントデータから異種処理効果を推測する問題について検討する。 関連する2つの問題は (i)二次的又は連続的な結果に対する治療効果の推定 (II)近年の機械学習の文献では生存結果がよく研究されていると予測されているが、それらの組み合わせ(実際的な関連性が高いにもかかわらず)は、かなり注目を集めていない。 治療が瞬時リスクと生存確率に与える影響を確実に推定する究極の目標は、学習(離散時間)による治療固有の条件付ハザード関数の問題に焦点をあてる。 この文脈でユニークな課題が生じるのは、さまざまな共変量シフトの問題が、十分な調査と偏見の検閲の組み合わせを越えているからである。 ドメイン適応から治療効果推定までの最近の一般化境界を設定に適応させ,その効果を理論的に解析し,モデル設計への示唆について議論する。 得られた知見を用いて, バランス表現に基づく治療特異的ハザード推定のための新しい深層学習法を提案する。 本手法は,様々な実験環境における性能を検証し,様々なソースからの共変量シフトに対処し,ベースラインよりも優れていることを実証的に確認する。

We study the problem of inferring heterogeneous treatment effects from time-to-event data. While both the related problems of (i) estimating treatment effects for binary or continuous outcomes and (ii) predicting survival outcomes have been well studied in the recent machine learning literature, their combination -- albeit of high practical relevance -- has received considerably less attention. With the ultimate goal of reliably estimating the effects of treatments on instantaneous risk and survival probabilities, we focus on the problem of learning (discrete-time) treatment-specific conditional hazard functions. We find that unique challenges arise in this context due to a variety of covariate shift issues that go beyond a mere combination of well-studied confounding and censoring biases. We theoretically analyse their effects by adapting recent generalization bounds from domain adaptation and treatment effect estimation to our setting and discuss implications for model design. We use the resulting insights to propose a novel deep learning method for treatment-specific hazard estimation based on balancing representations. We investigate performance across a range of experimental settings and empirically confirm that our method outperforms baselines by addressing covariate shifts from various sources.
翻訳日:2021-10-28 13:09:06 公開日:2021-10-26
# CARMS:カテゴリ・アンティテティック・ReINFORCEマルチサンプル勾配推定器

CARMS: Categorical-Antithet ic-REINFORCE Multi-Sample Gradient Estimator ( http://arxiv.org/abs/2110.14002v1 )

ライセンス: Link先を確認
Alek Dimitriev and Mingyuan Zhou(参考訳) カテゴリ変数による勾配の正確な再伝播は、離散潜在変数モデルのトレーニングなど、さまざまな領域で発生する課題である。 そこで本研究では, 相互に負に相関した複数のサンプルに基づく分類確率変数の非バイアス推定器であるCARMSを提案する。 CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。 2つのカテゴリのCARMSであるARMSアンチテーゼ推定器と、独立したサンプルを持つCARMSであるREINFORCE推定器であるLOORF/VarGradの両方を一般化する。 生成的モデリングタスクや構造化出力予測タスクにおける複数のベンチマークデータセットのカルムを評価し,強力な自己制御ベースラインを含む競合手法よりも優れることを示す。 コードは公開されている。

Accurately backpropagating the gradient through categorical variables is a challenging task that arises in various domains, such as training discrete latent variable models. To this end, we propose CARMS, an unbiased estimator for categorical random variables based on multiple mutually negatively correlated (jointly antithetic) samples. CARMS combines REINFORCE with copula based sampling to avoid duplicate samples and reduce its variance, while keeping the estimator unbiased using importance sampling. It generalizes both the ARMS antithetic estimator for binary variables, which is CARMS for two categories, as well as LOORF/VarGrad, the leave-one-out REINFORCE estimator, which is CARMS with independent samples. We evaluate CARMS on several benchmark datasets on a generative modeling task, as well as a structured output prediction task, and find it to outperform competing methods including a strong self-control baseline. The code is publicly available.
翻訳日:2021-10-28 13:08:46 公開日:2021-10-26
# Graph Posterior Network: ノード分類のためのベイジアン予測不確実性

Graph Posterior Network: Bayesian Predictive Uncertainty for Node Classification ( http://arxiv.org/abs/2110.14012v1 )

ライセンス: Link先を確認
Maximilian Stadler, Bertrand Charpentier, Simon Geisler, Daniel Z\"ugner, Stephan G\"unnemann(参考訳) グラフ内のノード間の相互依存は、ノードのクラス予測を改善する鍵であり、ラベル伝搬(LP)やグラフニューラルネットワーク(GNN)のようなアプローチで利用される。 それでも、非独立ノードレベルの予測に対する不確実性の推定は未探索である。 本研究では,ノード分類における不確かさの定量化について,(1)親和性帰属グラフの予測不確実性挙動を明示的に特徴付ける3つの公理を導出する。 2) 相互依存ノードの予測のためにベイズ後続更新を明示的に行う新しいモデルグラフ後続ネットワーク(gpn)を提案する。 GPNは確実に提案された公理に従う。 (3) GPNと強いベースラインを半教師付きノード分類に基づいて広範囲に評価し, 異常な特徴の検出, 左翼クラスの検出を行った。 gpnは実験における既存の不確実性推定手法を上回っている。

The interdependence between nodes in graphs is key to improve class predictions on nodes and utilized in approaches like Label Propagation (LP) or in Graph Neural Networks (GNN). Nonetheless, uncertainty estimation for non-independent node-level predictions is under-explored. In this work, we explore uncertainty quantification for node classification in three ways: (1) We derive three axioms explicitly characterizing the expected predictive uncertainty behavior in homophilic attributed graphs. (2) We propose a new model Graph Posterior Network (GPN) which explicitly performs Bayesian posterior updates for predictions on interdependent nodes. GPN provably obeys the proposed axioms. (3) We extensively evaluate GPN and a strong set of baselines on semi-supervised node classification including detection of anomalous features, and detection of left-out classes. GPN outperforms existing approaches for uncertainty estimation in the experiments.
翻訳日:2021-10-28 13:08:30 公開日:2021-10-26
# 多面体損失に対するサロゲートレグレト境界

Surrogate Regret Bounds for Polyhedral Losses ( http://arxiv.org/abs/2110.14031v1 )

ライセンス: Link先を確認
Rafael Frongillo, Bo Waggoner(参考訳) サロゲートリスク最小化は教師付き機械学習においてユビキタスなパラダイムであり、データセット上のサロゲート損失を最小化することでターゲット問題は解決される。 surrogate regret bounds(過度リスク境界とも呼ばれる)は、過度リスク最小化のための一般化率を証明する一般的なツールである。 損失関数の特定のクラス(例えば適切な損失など)に対して、サロゲート後悔境界が開発されたが、一般的な結果は比較的希薄である。 結果は2つある。 第一に、任意の多面体(一方向線型および凸体)のサロゲートに対して線形なサロゲート後悔を与えるので、サロゲート一般化率は直接ターゲットレートに変換される。 第二に、十分に非多面体サロゲートの場合、後悔の束縛は正方根であり、高速なサロゲート一般化速度はターゲットのスローレートに変換される。 これらの結果は多面体置換基が最適であることを示す。

Surrogate risk minimization is an ubiquitous paradigm in supervised machine learning, wherein a target problem is solved by minimizing a surrogate loss on a dataset. Surrogate regret bounds, also called excess risk bounds, are a common tool to prove generalization rates for surrogate risk minimization. While surrogate regret bounds have been developed for certain classes of loss functions, such as proper losses, general results are relatively sparse. We provide two general results. The first gives a linear surrogate regret bound for any polyhedral (piecewise-linear and convex) surrogate, meaning that surrogate generalization rates translate directly to target rates. The second shows that for sufficiently non-polyhedral surrogates, the regret bound is a square root, meaning fast surrogate generalization rates translate to slow rates for the target. Together, these results suggest polyhedral surrogates are optimal in many cases.
翻訳日:2021-10-28 13:08:14 公開日:2021-10-26
# CoFiNet:ロバストポイントクラウド登録のための信頼性の高い粗大な対応

CoFiNet: Reliable Coarse-to-fine Correspondences for Robust Point Cloud Registration ( http://arxiv.org/abs/2110.14076v1 )

ライセンス: Link先を確認
Hao Yu, Fu Li, Mahdi Saleh, Benjamin Busam, Slobodan Ilic(参考訳) 登録のための一対の点雲間の対応を抽出する問題について検討する。 対応検索のために、既存の作業は、密度の高い点から検出されたスパースキーポイントと一致するが、通常、その再現性を保証するのに苦労する。 この問題に対処するために,キーポイント検出を行なわずに,階層的な対応を粗から細に抽出するCoFiNetCoarse-to-Fin eネットワークを提案する。 粗いスケールで重み付けスキームに導かれたモデルでは,まず,近傍点が重なり合うようなダウンサンプリングノードをマッチングすることを学び,連続ステージの探索空間を著しく縮小する。 より細かいスケールでは、ノードの提案は、関連する記述子とともにポイントのグループからなるパッチに連続的に拡張される。 ポイント対応は対応するパッチの重なり領域から洗練され、異なるポイント密度に対応する密度適応マッチングモジュールによって洗練される。 室内および屋外の標準ベンチマークにおけるcofinetの広範な評価は,既存の方法よりも優れていることを示している。 特に3DLoMatchでは、ポイントクラウドのオーバーラップが少ないため、CoFiNetは、登録リコール時に、少なくとも5%以上のパラメータで、最先端のアプローチを著しく上回ります。

We study the problem of extracting correspondences between a pair of point clouds for registration. For correspondence retrieval, existing works benefit from matching sparse keypoints detected from dense points but usually struggle to guarantee their repeatability. To address this issue, we present CoFiNet - Coarse-to-Fine Network which extracts hierarchical correspondences from coarse to fine without keypoint detection. On a coarse scale and guided by a weighting scheme, our model firstly learns to match down-sampled nodes whose vicinity points share more overlap, which significantly shrinks the search space of a consecutive stage. On a finer scale, node proposals are consecutively expanded to patches that consist of groups of points together with associated descriptors. Point correspondences are then refined from the overlap areas of corresponding patches, by a density-adaptive matching module capable to deal with varying point density. Extensive evaluation of CoFiNet on both indoor and outdoor standard benchmarks shows our superiority over existing methods. Especially on 3DLoMatch where point clouds share less overlap, CoFiNet significantly outperforms state-of-the-art approaches by at least 5% on Registration Recall, with at most two-third of their parameters.
翻訳日:2021-10-28 12:53:32 公開日:2021-10-26
# バイアスグラフ観察による非バイアスグラフ埋め込み

Unbiased Graph Embedding with Biased Graph Observations ( http://arxiv.org/abs/2110.13957v1 )

ライセンス: Link先を確認
Nan Wang, Lu Lin, Jundong Li, Hongning Wang(参考訳) グラフ埋め込み技術は、ソーシャルレコメンデーションやタンパク質構造モデリングなど、グラフ構造化データ上の現実の機械学習タスクにますます採用されている。 グラフの生成は、必然的にいくつかのセンシティブなノード属性(例えば、ソーシャルネットワークのユーザーの性別や年齢)に影響されるため、学習されたグラフ表現は、そのようなセンシティブな情報を継承し、下流タスクに望ましくないバイアスをもたらすことができる。 グラフ表現のデバイアスに関する既存の作業の多くは、その分布を制限するために学習された埋め込みにアドホックな制約を与えるが、ダウンストリームタスクにおけるグラフ表現の実用性は損なわれる。 本稿では,敏感な属性の影響を受けないバイアスフリーグラフから学習することにより,バイアスのない表現を得るための原理的な新しい方法を提案する。 この新たな視点に基づき,下流タスクにおける学習表現の有用性に最小の影響を導入することを目的として,基礎となるグラフを明らかにするための2つの補完的手法を提案する。 提案手法の有効性を実証し, 理論的正当性および最先端解との比較を行った。

Graph embedding techniques have been increasingly employed in real-world machine learning tasks on graph-structured data, such as social recommendations and protein structure modeling. Since the generation of a graph is inevitably affected by some sensitive node attributes (such as gender and age of users in a social network), the learned graph representations can inherit such sensitive information and introduce undesirable biases in downstream tasks. Most existing works on debiasing graph representations add ad-hoc constraints on the learned embeddings to restrict their distributions, which however compromise the utility of resulting graph representations in downstream tasks. In this paper, we propose a principled new way for obtaining unbiased representations by learning from an underlying bias-free graph that is not influenced by sensitive attributes. Based on this new perspective, we propose two complementary methods for uncovering such an underlying graph with the goal of introducing minimum impact on the utility of learned representations in downstream tasks. Both our theoretical justification and extensive experiment comparisons against state-of-the-art solutions demonstrate the effectiveness of our proposed methods.
翻訳日:2021-10-28 12:51:03 公開日:2021-10-26
# リカレント、畳み込み、連続時間モデルと線形状態空間層を組み合わせる

Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers ( http://arxiv.org/abs/2110.13985v1 )

ライセンス: Link先を確認
Albert Gu, Isys Johnson, Karan Goel, Khaled Saab, Tri Dao, Atri Rudra, Christopher R\'e(参考訳) recurrent neural network(rnn)、temporal convolutions(時相畳み込み)、neural differential equation(ndes)は、時系列データのためのディープラーニングモデルの一般的なファミリーであり、それぞれがモデリング能力と計算効率に特有の強みとトレードオフを持っている。 制御系にインスパイアされた単純なシーケンスモデルを導入し、それらの欠点に対処しながらこれらのアプローチを一般化する。 Linear State-Space Layer (LSSL) は、線形連続時間状態空間表現 $\dot{x} = Ax + Bu, y = Cx + Du$ を単純にシミュレートすることで、シーケンス $u \mapsto y$ をマッピングする。 理論的には、LSSLモデルは上記のモデルの3つのファミリーと密接な関係を示し、その強みを継承する。 例えば、畳み込みを連続時間に一般化し、一般的なRNNヒューリスティックを説明し、時間スケール適応のようなNDEの特徴を共有する。 次に、連続時間記憶に関する最近の理論を取り入れて一般化し、長いメモリを持つlsslを提供する構造化行列の訓練可能なサブセット$a$を導入する。 経験的に、単純なディープニューラルネットワークにLSSLレイヤを積み重ねることで、シーケンシャルなイメージ分類、現実のヘルスケアレグレッションタスク、スピーチにおける長い依存関係に関する時系列ベンチマークを通じて、最先端の結果が得られる。 長さ-16000列の難しい音声分類タスクでは、LSSLは従来のアプローチを24の精度ポイントで上回り、100倍の短いシーケンスで手作りの特徴を使用するベースラインよりも上回ります。

Recurrent neural networks (RNNs), temporal convolutions, and neural differential equations (NDEs) are popular families of deep learning models for time-series data, each with unique strengths and tradeoffs in modeling power and computational efficiency. We introduce a simple sequence model inspired by control systems that generalizes these approaches while addressing their shortcomings. The Linear State-Space Layer (LSSL) maps a sequence $u \mapsto y$ by simply simulating a linear continuous-time state-space representation $\dot{x} = Ax + Bu, y = Cx + Du$. Theoretically, we show that LSSL models are closely related to the three aforementioned families of models and inherit their strengths. For example, they generalize convolutions to continuous-time, explain common RNN heuristics, and share features of NDEs such as time-scale adaptation. We then incorporate and generalize recent theory on continuous-time memorization to introduce a trainable subset of structured matrices $A$ that endow LSSLs with long-range memory. Empirically, stacking LSSL layers into a simple deep neural network obtains state-of-the-art results across time series benchmarks for long dependencies in sequential image classification, real-world healthcare regression tasks, and speech. On a difficult speech classification task with length-16000 sequences, LSSL outperforms prior approaches by 24 accuracy points, and even outperforms baselines that use hand-crafted features on 100x shorter sequences.
翻訳日:2021-10-28 12:50:44 公開日:2021-10-26
# 疾患進行モデルのための連続時間隠れマルコフモデルの効率的な学習と復号

Efficient Learning and Decoding of the Continuous-Time Hidden Markov Model for Disease Progression Modeling ( http://arxiv.org/abs/2110.13998v1 )

ライセンス: Link先を確認
Yu-Ying Liu, Alexander Moreno, Maxwell A. Xu, Shuang Li, Jena C. McDaniel, Nancy C. Brady, Agata Rozga, Fuxin Li, Le Song, James M. Rehg(参考訳) 連続時間隠れマルコフモデル(ct-hmm)は、不規則に到着するノイズの観測を記述できるため、疾患の進行をモデル化する魅力的なアプローチである。 しかし、CT-HMMの効率的なパラメータ学習アルゴリズムが欠如していることは、その使用を非常に小さなモデルに制限したり、状態遷移に非現実的な制約を必要とする。 本稿では,CT-HMMモデルのための効率的なEMベースの学習手法の完全な特徴付けと,最適状態遷移シーケンスと対応する状態の居住時間を復号する最初のソリューションを提案する。 EMに基づく学習は,後状態確率の推定と終状態条件付き統計計算の2つの課題からなることを示す。 推定問題を等価な離散時間不均質隠れマルコフモデルとして再構成することにより,最初の課題を解決する。 第2の課題は、連続時間マルコフ連鎖(CTMC)文献からCT-HMMドメインへの3つの異なるアプローチを適用することで解決される。 さらに,最も効率的な手法の効率を,状態数の係数によってさらに向上させる。 次に,CTMC文献から最先端の手法を組み込んで,最終状態条件付き最適状態列デコーディングをCT-HMMケースに拡張し,予測状態の定時計算を行う。 我々は,100以上の状態を持つCT-HMMを用いて,緑内障データセットとアルツハイマー病データセットを用いて疾患の進行を可視化し,予測し,緑内障データセット上で個人にとって最も可能性の高い状態遷移軌跡をデコードし,視覚化することにより,進行する表現型を包括的に同定する。 最後に,CT-HMMモデリングと復号化手法を適用し,言語習得と開発の進展について検討する。

The Continuous-Time Hidden Markov Model (CT-HMM) is an attractive approach to modeling disease progression due to its ability to describe noisy observations arriving irregularly in time. However, the lack of an efficient parameter learning algorithm for CT-HMM restricts its use to very small models or requires unrealistic constraints on the state transitions. In this paper, we present the first complete characterization of efficient EM-based learning methods for CT-HMM models, as well as the first solution to decoding the optimal state transition sequence and the corresponding state dwelling time. We show that EM-based learning consists of two challenges: the estimation of posterior state probabilities and the computation of end-state conditioned statistics. We solve the first challenge by reformulating the estimation problem as an equivalent discrete time-inhomogeneous hidden Markov model. The second challenge is addressed by adapting three distinct approaches from the continuous time Markov chain (CTMC) literature to the CT-HMM domain. Additionally, we further improve the efficiency of the most efficient method by a factor of the number of states. Then, for decoding, we incorporate a state-of-the-art method from the (CTMC) literature, and extend the end-state conditioned optimal state sequence decoding to the CT-HMM case with the computation of the expected state dwelling time. We demonstrate the use of CT-HMMs with more than 100 states to visualize and predict disease progression using a glaucoma dataset and an Alzheimer's disease dataset, and to decode and visualize the most probable state transition trajectory for individuals on the glaucoma dataset, which helps to identify progressing phenotypes in a comprehensive way. Finally, we apply the CT-HMM modeling and decoding strategy to investigate the progression of language acquisition and development.
翻訳日:2021-10-28 12:50:12 公開日:2021-10-26
# グラフニューラルネットワークによるSAT解決の改善

Improving SAT Solving with Graph Neural Networks ( http://arxiv.org/abs/2110.14053v1 )

ライセンス: Link先を確認
Wenxi Wang, Yang Hu, Mohit Tiwari, Sarfraz Khurshid, Kenneth McMillan, Risto Miikkulainen(参考訳) 提案的満足度(SAT)は、計画、検証、セキュリティなど、多くの研究分野に影響を与えるNP完全問題である。 現代的なSATソルバの顕著な成功にもかかわらず、スケーラビリティは依然として課題である。 主要なストリーム SAT ソルバは Conflict-Driven Clause Learning (CDCL) アルゴリズムに基づいている。 グラフニューラルネットワーク(gnns)による予測による可変分岐ヒューリスティックの改善によるcdcl satソルバの向上を目的とした最近の研究 しかし、これまでのところこのアプローチは、解決をより効果的にしないか、あるいは大量のgpuリソースへの頻繁にオンラインアクセスを必要としていた。 本論文はgnnの改善を実用的にするためのアプローチとして,(1)重要な変数と節の予測を,より効果的な分岐戦略に動的分岐と組み合わせることが可能であり,(2)sat解の開始前に1回だけニューラルネットワークに問い合わせるだけで十分である,という2つの洞察に基づくneurocombを提案する。 古典的なMiniSatソルバの強化として実装されたNeuroCombは、最近のSATCOMP-2020の競合問題の18.5%の問題を解決した。 それゆえNeuroCombは、現代的な機械学習によるSAT問題解決のための実践的なアプローチである。

Propositional satisfiability (SAT) is an NP-complete problem that impacts many research fields, such as planning, verification, and security. Despite the remarkable success of modern SAT solvers, scalability still remains a challenge. Main stream modern SAT solvers are based on the Conflict-Driven Clause Learning (CDCL) algorithm. Recent work aimed to enhance CDCL SAT solvers by improving its variable branching heuristics through predictions generated by Graph Neural Networks (GNNs). However, so far this approach either has not made solving more effective, or has required frequent online accesses to substantial GPU resources. Aiming to make GNN improvements practical, this paper proposes an approach called NeuroComb, which builds on two insights: (1) predictions of important variables and clauses can be combined with dynamic branching into a more effective hybrid branching strategy, and (2) it is sufficient to query the neural model only once for the predictions before the SAT solving starts. Implemented as an enhancement to the classic MiniSat solver, NeuroComb allowed it to solve 18.5% more problems on the recent SATCOMP-2020 competition problem set. NeuroComb is therefore a practical approach to improving SAT solving through modern machine learning.
翻訳日:2021-10-28 12:49:42 公開日:2021-10-26
# 理論的保証によるフォールトトレラントフェデレーション強化学習

Fault-Tolerant Federated Reinforcement Learning with Theoretical Guarantee ( http://arxiv.org/abs/2110.14074v1 )

ライセンス: Link先を確認
Flint Xiaofeng Fan, Yining Ma, Zhongxiang Dai, Wei Jing, Cheston Tan, Bryan Kian Hsiang Low(参考訳) フェデレーション学習(fl)は近年,複数のエージェントが生のトラジェクタを共有することなく,より優れた意思決定ポリシをフェデレーション的に構築するように促すために,フェデレーション強化学習(frl)に影響を与えている。 その有望な応用にもかかわらず、FRLに関する既存の研究(I)は、その収束に関する理論的分析を提供し、II)はランダムなシステム障害と敵攻撃を考慮に入れている。 そこで本研究では,システム障害や敵攻撃による攻撃者の半分未満のエージェントに対して,その収束を保証し,許容できる最初のFRLフレームワークを提案する。 我々は,提案フレームワークのサンプル効率がエージェント数で向上することを保証し,そのような潜在的な障害や攻撃を考慮できることを実証する。 すべての理論的結果は様々なRLベンチマークタスクで実証的に検証される。

The growing literature of Federated Learning (FL) has recently inspired Federated Reinforcement Learning (FRL) to encourage multiple agents to federatively build a better decision-making policy without sharing raw trajectories. Despite its promising applications, existing works on FRL fail to I) provide theoretical analysis on its convergence, and II) account for random system failures and adversarial attacks. Towards this end, we propose the first FRL framework the convergence of which is guaranteed and tolerant to less than half of the participating agents being random system failures or adversarial attackers. We prove that the sample efficiency of the proposed framework is guaranteed to improve with the number of agents and is able to account for such potential failures or attacks. All theoretical results are empirically verified on various RL benchmark tasks.
翻訳日:2021-10-28 12:49:21 公開日:2021-10-26
# 遊戯・侵略ゲームにおける可変プレイによる対戦型オンライン学習 : 接続型・自動車両サイバーセキュリティの理論的基礎と応用

Adversarial Online Learning with Variable Plays in the Pursuit-Evasion Game: Theoretical Foundations and Application in Connected and Automated Vehicle Cybersecurity ( http://arxiv.org/abs/2110.14078v1 )

ライセンス: Link先を確認
Yiyang Wang, Neda Masoud(参考訳) 我々は,マルチアームバンディット(mpmab,adversarial/n on-stochastic multi-armed bandit)を,アーム数が可変の場合まで拡張する。 この作業は、相互接続された輸送システム内の異なる重要な場所をスキャンするために割り当てられたリソースが、時間とともに環境によって動的に変化するという事実によって動機づけられる。 悪意あるハッカーと侵入監視システムをそれぞれ攻撃者および防御者としてモデル化することにより、両プレイヤーの問題を逐次追撃ゲームとして定式化する。 戦略ゲームのナッシュ均衡が存在する条件を導出する。 ディフェンダー側では,sublinear pseudo-regretを用いた指数重み付きアルゴリズムを提案する。 我々はさらに、我々のモデルを両プレイヤーの異種報酬に拡張し、攻撃者に対する平均報酬に対する下限と上限を得る。 可変アームプレイの有効性を示す数値実験を行う。

We extend the adversarial/non-stoc hastic multi-play multi-armed bandit (MPMAB) to the case where the number of arms to play is variable. The work is motivated by the fact that the resources allocated to scan different critical locations in an interconnected transportation system change dynamically over time and depending on the environment. By modeling the malicious hacker and the intrusion monitoring system as the attacker and the defender, respectively, we formulate the problem for the two players as a sequential pursuit-evasion game. We derive the condition under which a Nash equilibrium of the strategic game exists. For the defender side, we provide an exponential-weighted based algorithm with sublinear pseudo-regret. We further extend our model to heterogeneous rewards for both players, and obtain lower and upper bounds on the average reward for the attacker. We provide numerical experiments to demonstrate the effectiveness of a variable-arm play.
翻訳日:2021-10-28 12:49:07 公開日:2021-10-26
# (参考訳) CausalAF:ゴール指向型安全クリティカルシーン生成のための因果自己回帰流 [全文訳有]

CausalAF: Causal Autoregressive Flow for Goal-Directed Safety-Critical Scenes Generation ( http://arxiv.org/abs/2110.13939v1 )

ライセンス: CC BY 4.0
Wenhao Ding, Haohong Lin, Bo Li, Ding Zhao(参考訳) 多様なデータを生成することによって下流タスクの解決を目的としたゴール指向生成は、現実世界で幅広い応用が期待できる。 従来の研究は、目的を満たすサンプルの分布を直接検索または近似する純粋にデータ駆動問題としてゴール指向生成を定式化する傾向にある。 しかしながら、既存の作業の生成能力は、非効率なサンプリング、特に既成のデータセットにほとんど現れないスパース目標によって大きく制限されている。 例えば、衝突のリスクを高めることを目的として安全クリティカルな交通シーンを生成することは、自動運転車を評価する上で非常に重要であるが、そのようなシーンの稀さは最大の抵抗である。 本稿では,先行する因果関係を安全クリティカルシーン生成プロセスに統合し,causalaf(caous autoregressive flow)というフローベースの生成フレームワークを提案する。 CausalAFは、観測データのみからサンプルを検索する代わりに、新しい因果マスク操作によって生成されたオブジェクト間の因果関係を発見し、追跡することを生成モデルに推奨する。 生成したシーンが単にデータから相関を学習するだけでなく、目的を達成するための原因と効果のメカニズムを学ぶことで、CausalAFは学習効率を大幅に改善する。 ヘテロジニアスな3つの交通シーンに関する大規模な実験は、安全評価タスクのためにゴール指向のシーンを効果的に生成するために、CausalAFがはるかに少ない最適化リソースを必要とすることを示している。

Goal-directed generation, aiming for solving downstream tasks by generating diverse data, has a potentially wide range of applications in the real world. Previous works tend to formulate goal-directed generation as a purely data-driven problem, which directly searches or approximates the distribution of samples satisfying the goal. However, the generation ability of preexisting work is heavily restricted by inefficient sampling, especially for sparse goals that rarely show up in off-the-shelf datasets. For instance, generating safety-critical traffic scenes with the goal of increasing the risk of collision is critical to evaluate autonomous vehicles, but the rareness of such scenes is the biggest resistance. In this paper, we integrate causality as a prior into the safety-critical scene generation process and propose a flow-based generative framework - Causal Autoregressive Flow (CausalAF). CausalAF encourages the generative model to uncover and follow the causal relationship among generated objects via novel causal masking operations instead of searching the sample only from observational data. By learning the cause-and-effect mechanism of how the generated scene achieves the goal rather than just learning correlations from data, CausalAF significantly improves the learning efficiency. Extensive experiments on three heterogeneous traffic scenes illustrate that CausalAF requires much fewer optimization resources to effectively generate goal-directed scenes for safety evaluation tasks.
翻訳日:2021-10-28 12:47:03 公開日:2021-10-26
# オフライン強化学習のためのハイパーパラメータフリーポリシー選択に向けて

Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning ( http://arxiv.org/abs/2110.14000v1 )

ライセンス: Link先を確認
Siyuan Zhang, Nan Jiang(参考訳) オフライン強化学習(RL)において、異なるトレーニングアルゴリズムが生み出すポリシーと価値関数をどのように選択するか -- ハイパーパレーメータチューニングに欠かせない -- は、重要なオープンな問題である。 既存のオフ・ポリシー・アセスメント(OPE)に基づくアプローチは、しばしば追加の関数近似とハイパーパラメータを必要とするため、ニワトリと卵の状況が生じる。 本稿では、近年の値関数選択の理論的進歩であるBVFT[XJ21]に基づく政策選択のためのハイパーパラメータフリーアルゴリズムを設計し、アタリなどの離散作用ベンチマークにおいてその効果を実証する。 連続作用領域における批判の欠如による性能劣化に対処するため,BVFT と OPE を併用して両世界の長所を得るとともに,Q関数に基づく OPE のハイパーパラメータチューニング法を理論的に保証する。

How to select between policies and value functions produced by different training algorithms in offline reinforcement learning (RL) -- which is crucial for hyperpa-rameter tuning -- is an important open question. Existing approaches based on off-policy evaluation (OPE) often require additional function approximation and hence hyperparameters, creating a chicken-and-egg situation. In this paper, we design hyperparameter-free algorithms for policy selection based on BVFT [XJ21], a recent theoretical advance in value-function selection, and demonstrate their effectiveness in discrete-action benchmarks such as Atari. To address performance degradation due to poor critics in continuous-action domains, we further combine BVFT with OPE to get the best of both worlds, and obtain a hyperparameter-tunin g method for Q-function based OPE with theoretical guarantees as a side product.
翻訳日:2021-10-28 12:30:33 公開日:2021-10-26
# Myelin: 極端なディープラーニングのための非同期メッセージ駆動並列フレームワーク

Myelin: An asynchronous, message-driven parallel framework for extreme-scale deep learning ( http://arxiv.org/abs/2110.13005v2 )

ライセンス: Link先を確認
Siddharth Singh, Abhinav Bhatele(参考訳) ここ数年、最先端のニューラルネットワークをトレーニングするためのメモリ要件は、現代のハードウェアアクセラレーターのDRAM能力を大きく超えてきた。 これにより、大規模なGPUベースのクラスタ上でこれらのニューラルネットワークを並列にトレーニングする効率的なアルゴリズムの開発が必要になった。 現代のgpuでは計算コストは比較的安価であるため、並列トレーニングアルゴリズムにおける極めて効率的な通信の設計と実装は、最大性能の抽出に不可欠である。 本稿では、各gpu上でのニューラルネットワーク操作をスケジュールするために、非同期およびメッセージ駆動実行を利用する並列ディープラーニングフレームワークmyelinを提案する。 トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、MyelinはGPUメモリ使用量を4倍削減することができる。 これにより、GPUあたりのパラメータ数を4倍に増やすことができ、通信量と性能を13%以上向上させることができる。 48-384 NVIDIA Tesla V100 GPU上で12-1000億のパラメータを持つ大きなトランスフォーマーモデルに対してテストすると、Myelinは理論ピークの49.4-54.78%のGPU当たりのスループットを達成し、最先端と比較して22-37日(15-25%のスピードアップ)のトレーニング時間を短縮する。

In the last few years, the memory requirements to train state-of-the-art neural networks have far exceeded the DRAM capacities of modern hardware accelerators. This has necessitated the development of efficient algorithms to train these neural networks in parallel on large-scale GPU-based clusters. Since computation is relatively inexpensive on modern GPUs, designing and implementing extremely efficient communication in these parallel training algorithms is critical for extracting the maximum performance. This paper presents Myelin, a parallel deep learning framework that exploits asynchrony and message-driven execution to schedule neural network operations on each GPU, thereby reducing GPU idle time and maximizing hardware efficiency. By using the CPU memory as a scratch space for offloading data periodically during training, Myelin is able to reduce GPU memory consumption by four times. This allows us to increase the number of parameters per GPU by four times, thus reducing the amount of communication and increasing performance by over 13%. When tested against large transformer models with 12-100 billion parameters on 48-384 NVIDIA Tesla V100 GPUs, Myelin achieves a per-GPU throughput of 49.4-54.78% of theoretical peak and reduces the training time by 22-37 days (15-25% speedup) as compared to the state-of-the-art.
翻訳日:2021-10-28 10:43:35 公開日:2021-10-26
# (参考訳) 物理学情報付きニューラルネットワークのロバスト学習 [全文訳有]

Robust Learning of Physics Informed Neural Networks ( http://arxiv.org/abs/2110.13330v1 )

ライセンス: CC BY 4.0
Chandrajit Bajaj, Luke McLennan, Timothy Andeen, Avik Roy(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、トレーニング損失関数の一部として物理誘起制約を捕捉することにより偏微分方程式の解法に有効であることが示されている。 本稿では、PINNがトレーニングデータのエラーに敏感であり、これらのエラーをPDEの解領域上で動的に伝播させるのに過度に適合していることを示す。 また、連続性基準と保存則に基づく物理正規化がこの問題にどのように対処できず、むしろ深層ネットワークが大域的最小値ではなく物理学的に観測される局所的最小値に収束する独自の問題を導入するかを示す。 本稿では、PINNの性能を回復し、計測におけるノイズ/エラーに対する堅牢なアーキテクチャを約束するガウスプロセス(GP)に基づくスムース化を提案する。 さらに,境界データに対するgpsの分散推定に基づいて不確実性の進化を定量化する安価な手法を提案する。 ロバストなPINN性能は、スパース的に誘導されるGPに基づく誘導点のスパースセットの選択によっても達成可能である。 提案手法の性能を実演し、時間依存型シュリンガー方程式とバーガース方程式の文献における既存のベンチマークモデルの結果を比較する。

Physics-informed Neural Networks (PINNs) have been shown to be effective in solving partial differential equations by capturing the physics induced constraints as a part of the training loss function. This paper shows that a PINN can be sensitive to errors in training data and overfit itself in dynamically propagating these errors over the domain of the solution of the PDE. It also shows how physical regularizations based on continuity criteria and conservation laws fail to address this issue and rather introduce problems of their own causing the deep network to converge to a physics-obeying local minimum instead of the global minimum. We introduce Gaussian Process (GP) based smoothing that recovers the performance of a PINN and promises a robust architecture against noise/errors in measurements. Additionally, we illustrate an inexpensive method of quantifying the evolution of uncertainty based on the variance estimation of GPs on boundary data. Robust PINN performance is also shown to be achievable by choice of sparse sets of inducing points based on sparsely induced GPs. We demonstrate the performance of our proposed methods and compare the results from existing benchmark models in literature for time-dependent Schr\"odinger and Burgers' equations.
翻訳日:2021-10-28 06:59:38 公開日:2021-10-26
# (参考訳) 指数グラフはおそらく分散深層学習に有効である

Exponential Graph is Provably Efficient for Decentralized Deep Training ( http://arxiv.org/abs/2110.13363v1 )

ライセンス: CC BY 4.0
Bicheng Ying, Kun Yuan, Yiming Chen, Hanbin Hu, Pan Pan, Wotao Yin(参考訳) 分散sgdは、平均化ステップを並列sgdで緩和し平均化を不可能にする、反復当たりの通信がはるかに少ない(非常に速い)ことで知られる、ディープラーニングのための新たなトレーニング方法である。 しかし平均化の正確さが低ければ低いほど、トレーニングに必要な総イテレーションはより多くなる。 したがって、分散sgdを効率的にするための鍵は、ほとんどコミュニケーションを使わずにほぼ実効的な平均化を実現することである。 これは分散最適化の未熟なトピックであるコミュニケーショントポロジーを巧みに選択する必要がある。 本稿では,すべてのノードが$O(\log(n))$ 近傍に連結され,$n$ がノードの総数であるようないわゆる指数グラフについて検討する。 この研究は、そのようなグラフが高速通信と効果的な平均化の両方を同時にもたらすことを証明している。 また、各ノードが反復ごとに1つの隣接ノードと通信する$\log(n)$ 1-peer指数グラフの列は、共に正確な平均化を達成することができる。 この好ましい性質により、1ピア指数グラフは静的グラフと同等に有効であるが、より効率的に通信できる。 我々は,これらの指数グラフを分散化(モーメント)sgdに応用し,文単位のコミュニケーションと一般に使用されるトポロジー間の反復複雑性との最先端のバランスを得る。 様々なタスクやモデルに関する実験結果は、指数グラフ上の分散(モメンタム)SGDが高速かつ高品質なトレーニングを約束することを示している。 私たちのコードはBlueFogを通じて実装され、https://github.com/B luefog-Lib/NeurIPS20 21-Exponential-Graph で利用可能です。

Decentralized SGD is an emerging training method for deep learning known for its much less (thus faster) communication per iteration, which relaxes the averaging step in parallel SGD to inexact averaging. The less exact the averaging is, however, the more the total iterations the training needs to take. Therefore, the key to making decentralized SGD efficient is to realize nearly-exact averaging using little communication. This requires a skillful choice of communication topology, which is an under-studied topic in decentralized optimization. In this paper, we study so-called exponential graphs where every node is connected to $O(\log(n))$ neighbors and $n$ is the total number of nodes. This work proves such graphs can lead to both fast communication and effective averaging simultaneously. We also discover that a sequence of $\log(n)$ one-peer exponential graphs, in which each node communicates to one single neighbor per iteration, can together achieve exact averaging. This favorable property enables one-peer exponential graph to average as effective as its static counterpart but communicates more efficiently. We apply these exponential graphs in decentralized (momentum) SGD to obtain the state-of-the-art balance between per-iteration communication and iteration complexity among all commonly-used topologies. Experimental results on a variety of tasks and models demonstrate that decentralized (momentum) SGD over exponential graphs promises both fast and high-quality training. Our code is implemented through BlueFog and available at https://github.com/B luefog-Lib/NeurIPS20 21-Exponential-Graph .
翻訳日:2021-10-28 06:41:24 公開日:2021-10-26
# (参考訳) 注意3D U-Netを用いた時空磁気共鳴血管造影画像における脳動脈瘤の自動検出法 [全文訳有]

An Automatic Detection Method Of Cerebral Aneurysms In Time-Of-Flight Magnetic Resonance Angiography Images Based On Attention 3D U-Net ( http://arxiv.org/abs/2110.13367v1 )

ライセンス: CC BY 4.0
Chen Geng, Meng Chen, Ruoyu Di, Dongdong Wang, Liqin Yang, Wei Xia, Yuxin Li, Daoying Geng(参考訳) Background:Subarachn oid hemorrhage caused by ruptured cerebral aneurysm often leads to fatal consequences.However ,if the aneurysm can be found and treated during asymptomatic periods,the probability of rupture can be greatly reduced.At present,time-of-flig ht magnetic resonance angiography is one of the most commonly used non-invasive screening techniques for cerebral aneurysm,and the application of deep learning technology in aneurysm detection can effectively improve the screening effect of aneurysm.Existing studies have found that three-dimensional features play an important role in aneurysm detection,but they require a large amount of training data and have problems such as a high false positive rate. 方法:本論文では,脳動脈瘤検出のための新しい手法を提案する。第1に,訓練データを持たない完全自動脳動脈瘤分割アルゴリズムを用いて関心量を抽出するとともに,3次元senetモジュールにより3d u-netを改善し,動脈瘤検出モデルを構築した。 結果:本研究では,132セット,34セット,65セットの計231磁気共鳴血管造影画像データを用いて,5次元交差評価において97.89%の感度を示し,外部テストセットの検出において2.48例の偽陽性率/ケースで91.0%の感度を得た。 結論:本研究の手法は,これまでの研究や研究と対比して,より少ない訓練データで非常に競争力のある感度を得られ,偽陽性率を低く保ちつつ,動脈瘤検出に3d u-netを使用する唯一の手法として,動脈瘤検出におけるこのネットワークの有効性と優れた性能を示すとともに,この課題におけるチャネル注意メカニズムの可能性についても検討する。

Background:Subarachn oid hemorrhage caused by ruptured cerebral aneurysm often leads to fatal consequences.However ,if the aneurysm can be found and treated during asymptomatic periods,the probability of rupture can be greatly reduced.At present,time-of-flig ht magnetic resonance angiography is one of the most commonly used non-invasive screening techniques for cerebral aneurysm,and the application of deep learning technology in aneurysm detection can effectively improve the screening effect of aneurysm.Existing studies have found that three-dimensional features play an important role in aneurysm detection,but they require a large amount of training data and have problems such as a high false positive rate. Methods:This paper proposed a novel method for aneurysm detection.First,a fully automatic cerebral artery segmentation algorithm without training data was used to extract the volume of interest,and then the 3D U-Net was improved by the 3D SENet module to establish an aneurysm detection model.Eventually a set of fully automated,end-to-end aneurysm detection methods have been formed. Results:A total of 231 magnetic resonance angiography image data were used in this study,among which 132 were training sets,34 were internal test sets and 65 were external test sets.The presented method obtained 97.89% sensitivity in the five-fold cross-validation and obtained 91.0% sensitivity with 2.48 false positives/case in the detection of the external test sets. Conclusions:Compared with the results of our previous studies and other studies,the method in this paper achieves a very competitive sensitivity with less training data and maintains a low false positive rate.As the only method currently using 3D U-Net for aneurysm detection,it proves the feasibility and superior performance of this network in aneurysm detection,and also explores the potential of the channel attention mechanism in this task.
翻訳日:2021-10-28 06:39:59 公開日:2021-10-26
# (参考訳) アスペクトベース感情分析のための統一インスタンスと知識アライメント事前学習 [全文訳有]

Unified Instance and Knowledge Alignment Pretraining for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2110.13398v1 )

ライセンス: CC BY 4.0
Juhua Liu, Qihuang Zhong, Liang Ding, Hua Jin, Bo Du, Dacheng Tao(参考訳) Aspect-based Sentiment Analysis (ABSA)は、ある側面に対する感情の極性を決定することを目的としている。 ラベル付きデータが高価で制限されているため、プレトレーニング戦略はABSAのデファクトスタンダードになっている。 しかしながら、プレトレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在し、下流タスクを直接微調整し、下流タスクを準最適にする際の効果的な知識伝達を妨げる。 このようなドメインシフトを軽減するために,インスタンスレベルのアライメントと知識レベルのアライメントを併用した,バニラプレトレイン・ファインチューンパイプラインにアライメント事前トレーニングフレームワークを導入する。 具体的には、まず、大規模事前学習データセットから対象ドメイン関連インスタンスを選択するために、新しい粗大な検索サンプリング手法を考案し、事前学習と対象ドメインを整列させる(\textit{First Stage})。 次に、知識レベルでのドメインギャップをさらに橋渡しするための知識ガイダンスに基づく戦略を導入する。 実際に,サンプルインスタンス上で事前学習したモデルを,知識指導モデルと学習者モデルにそれぞれ定式化する。 対象データセットに基づいて,知識指導モデルから学習者モデル(\textit{Second Stage})に知識を段階的に伝達する,オンザフライの教師-学生共同微調整アプローチを設計する。 これにより、学習者モデルは、対象データセットから新たな知識を学習する際に、より多くのドメイン不変知識を維持できる。 textit{Third Stage} では、学習者は学習した知識をターゲットデータセットに適応させるために微調整される。 複数のabsaベンチマークにおける広範囲な実験と解析は、提案する事前学習フレームワークの有効性と普遍性を示している。 我々の事前トレーニングフレームワークは、いくつかの強力なベースラインモデルを新しい最先端レコードに押し上げる。 コードとモデルをリリースします。

Aspect-based Sentiment Analysis (ABSA) aims to determine the sentiment polarity towards an aspect. Because of the expensive and limited labelled data, the pretraining strategy has become the de-facto standard for ABSA. However, there always exists severe domain shift between the pretraining and downstream ABSA datasets, hindering the effective knowledge transfer when directly finetuning and making the downstream task performs sub-optimal. To mitigate such domain shift, we introduce a unified alignment pretraining framework into the vanilla pretrain-finetune pipeline with both instance- and knowledge-level alignments. Specifically, we first devise a novel coarse-to-fine retrieval sampling approach to select target domain-related instances from the large-scale pretraining dataset, thus aligning the instances between pretraining and target domains (\textit{First Stage}). Then, we introduce a knowledge guidance-based strategy to further bridge the domain gap at the knowledge level. In practice, we formulate the model pretrained on the sampled instances into a knowledge guidance model and a learner model, respectively. On the target dataset, we design an on-the-fly teacher-student joint fine-tuning approach to progressively transfer the knowledge from the knowledge guidance model to the learner model (\textit{Second Stage}). Thereby, the learner model can maintain more domain-invariant knowledge when learning new knowledge from the target dataset. In the \textit{Third Stage,} the learner model is finetuned to better adapt its learned knowledge to the target dataset. Extensive experiments and analyses on several ABSA benchmarks demonstrate the effectiveness and universality of our proposed pretraining framework. Notably, our pretraining framework pushes several strong baseline models up to the new state-of-the-art records. We release our code and models.
翻訳日:2021-10-28 06:30:58 公開日:2021-10-26
# (参考訳) 任意フィードバック遅延を有するスケールフリーの多元帯域 [全文訳有]

Scale-Free Adversarial Multi-Armed Bandit with Arbitrary Feedback Delays ( http://arxiv.org/abs/2110.13400v1 )

ライセンス: CC BY-SA 4.0
Jiatai Huang, Yan Dai, Longbo Huang(参考訳) 制限のないフィードバック遅延を伴うMAB(Scale-Free Adversarial Multi Armed Bandit)問題を考える。 すべての損失が$[0,1]$-boundedであるという標準的な仮定とは対照的に、我々の設定では、損失は一般に有界な区間$[-L, L]$に落ちる可能性がある。 さらに、各アームプルのフィードバックは任意の遅延を経験できる。 本稿では,近年のバンカーのオンラインミラー降下手法と,精巧に設計された二重化手法を組み合わせた新しい設定法を提案する。 すると、\textt{sfbanker} は$\mathcal o(\sqrt{k(d+t)}l)\cdot {\rm polylog}(t, l)$ total regret となり、ここで$t$ はステップの総数、$d$ は総フィードバック遅延となる。 \texttt{SFBanker} は、非遅延(すなわち$D=0$)スケールフリーのMAB問題インスタンスに対して、既存のアルゴリズムよりも優れている。 また、非負の損失を持つ問題インスタンスに対する \textt{sfbanker} の変種(例えば、いくつかの未知の $l$ に対して $[0, l]$ の範囲)を示し、$\tilde{\mathcal o}(\sqrt{k(d+t)}l)$ total regret が $\omega(\sqrt{kt}+\sqrt{d\log k}l)$ lower-bound ([cesa-bianchi et al., 2016]) とほぼ最適である。

We consider the Scale-Free Adversarial Multi Armed Bandit (MAB) problem with unrestricted feedback delays. In contrast to the standard assumption that all losses are $[0,1]$-bounded, in our setting, losses can fall in a general bounded interval $[-L, L]$, unknown to the agent before-hand. Furthermore, the feedback of each arm pull can experience arbitrary delays. We propose an algorithm named \texttt{SFBanker} for this novel setting, which combines a recent banker online mirror descent technique and elaborately designed doubling tricks. We show that \texttt{SFBanker} achieves $\mathcal O(\sqrt{K(D+T)}L)\cdot {\rm polylog}(T, L)$ total regret, where $T$ is the total number of steps and $D$ is the total feedback delay. \texttt{SFBanker} also outperforms existing algorithm for non-delayed (i.e., $D=0$) scale-free adversarial MAB problem instances. We also present a variant of \texttt{SFBanker} for problem instances with non-negative losses (i.e., they range in $[0, L]$ for some unknown $L$), achieving an $\tilde{\mathcal O}(\sqrt{K(D+T)}L)$ total regret, which is near-optimal compared to the $\Omega(\sqrt{KT}+\sqrt{D\log K}L)$ lower-bound ([Cesa-Bianchi et al., 2016]).
翻訳日:2021-10-28 06:10:01 公開日:2021-10-26
# (参考訳) タスク対応メタ学習に基づく難読マルウェア分類のためのシームズニューラルネットワーク [全文訳有]

Task-Aware Meta Learning-based Siamese Neural Network for Classifying Obfuscated Malware ( http://arxiv.org/abs/2110.13409v1 )

ライセンス: CC BY 4.0
Jinting Zhu, Julian Jang-Jaccard, Amardeep Singh, Paul A. Watters, Seyit Camtepe(参考訳) マルウェアの作者は、マルウェアの一般的な機能(例えば、ユニークなマルウェアシグネチャ)に異なる難読化技術を適用して、検出を避けるために新しい変種を作成する。 既存のシームズニューラルネットワーク(SNN)ベースのマルウェア検出手法では、類似の汎用機能が複数のマルウェアで共有されている場合、偽陽性率の高い場合、異なるマルウェアファミリーを正しく分類できない。 そこで本研究では,1つまたは数個のトレーニングサンプルで訓練されたマルウェアを検出できると同時に,難読化マルウェアに対してレジリエントなタスクアウェアなメタ学習ベースのシアムニューラルネットワークを提案する。 画像特徴をタスク入力とする各マルウェア署名のエントロピー特徴を用いて,タスク認識メタレダは,特徴層に対するパラメータを生成し,異なるマルウェアファミリーに対する機能埋め込みをより正確に調整する。 さらに,本モデルでは,事前学習ネットワーク(例えばVGG-16)の特徴を抽出したメタラーニングを用いて,限られた数のトレーニングサンプルでトレーニングしたモデルに典型的なバイアスを回避する。 提案手法は, マルウェアに対する難読化技術が存在する場合でも, 同一のマルウェア群に属するマルウェアを正しく分類し, マルウェアの識別に極めて有効である。 n-wayをn-shot学習で検証した実験結果から,本モデルは他の類似法と比較して91%以上の精度で分類精度が高いことがわかった。

Malware authors apply different obfuscation techniques on the generic feature of malware (i.e., unique malware signature) to create new variants to avoid detection. Existing Siamese Neural Network (SNN) based malware detection methods fail to correctly classify different malware families when similar generic features are shared across multiple malware variants resulting in high false-positive rates. To address this issue, we propose a novel Task-Aware Meta Learning-based Siamese Neural Network resilient against obfuscated malware while able to detect malware trained with one or a few training samples. Using entropy features of each malware signature alongside image features as task inputs, our task-aware meta leaner generates the parameters for the feature layers to more accurately adjust the feature embedding for different malware families. In addition, our model utilizes meta-learning with the extracted features of a pre-trained network (e.g., VGG-16) to avoid the bias typically associated with a model trained with a limited number of training samples. Our proposed approach is highly effective in recognizing unique malware signatures, thus correctly classifying malware samples that belong to the same malware family even in the presence of obfuscation technique applied to malware. Our experimental results, validated with N-way on N-shot learning, show that our model is highly effective in classification accuracy exceeding the rate>91% compared to other similar methods.
翻訳日:2021-10-28 05:31:46 公開日:2021-10-26
# (参考訳) 表型ノード特徴を用いたグラフデータモデリングのためのconvergent boosted smoothing [全文訳有]

Convergent Boosted Smoothing for Modeling Graph Data with Tabular Node Features ( http://arxiv.org/abs/2110.13413v1 )

ライセンス: CC BY 4.0
Jiuhai Chen, Jonas Mueller, Vassilis N. Ioannidis, Soji Adeshina, Yangkun Wang, Tom Goldstein, David Wipf(参考訳) 表形式のデータを用いた教師あり学習では、強化技術によって生成された決定木アンサンブルが、一般にidトレーニング/テストセットを含む現実世界のアプリケーションを支配している。 しかし, サンプル間の構造的関係から, iid仮定に違反するグラフデータについては, この構造を既存のブースティングパイプラインに組み込む方法が不明である。 そこで本研究では,関連するサンプルを接続するエッジ間でノード/サンプル情報を共有するグラフ伝搬ステップによるブースティングを反復する汎用フレームワークを提案する。 グラフベースのモデルとブースティングを統合する以前の取り組みとは異なり、このアプローチは、比較的穏やかな仮定の下で証明可能な収束を保証できるように、原則付きメタ損失関数に固定されている。 グラフノード特徴を持つ様々な非イドグラフデータセットに対して,本手法は,グラフニューラルネットワークモデルとグラフニューラルネットワークモデルの両方と同等あるいは優れた性能を実現するとともに,この2つを組み合わせた既存ハイブリッド戦略を実現する。 最近提案されたグラフモデルよりも優れた予測性能が得られるだけでなく、提案手法は実装が容易で、計算効率が良く、より強力な理論的保証を享受できます。

For supervised learning with tabular data, decision tree ensembles produced via boosting techniques generally dominate real-world applications involving iid training/test sets. However for graph data where the iid assumption is violated due to structured relations between samples, it remains unclear how to best incorporate this structure within existing boosting pipelines. To this end, we propose a generalized framework for iterating boosting with graph propagation steps that share node/sample information across edges connecting related samples. Unlike previous efforts to integrate graph-based models with boosting, our approach is anchored in a principled meta loss function such that provable convergence can be guaranteed under relatively mild assumptions. Across a variety of non-iid graph datasets with tabular node features, our method achieves comparable or superior performance than both tabular and graph neural network models, as well as existing hybrid strategies that combine the two. Beyond producing better predictive performance than recently proposed graph models, our proposed techniques are easy to implement, computationally more efficient, and enjoy stronger theoretical guarantees (which make our results more reproducible).
翻訳日:2021-10-28 05:14:33 公開日:2021-10-26
# (参考訳) セマンティック・ホストレストロイの木馬攻撃 [全文訳有]

Semantic Host-free Trojan Attack ( http://arxiv.org/abs/2110.13414v1 )

ライセンス: CC BY 4.0
Haripriya Harikumar, Kien Do, Santu Rana, Sunil Gupta, Svetha Venkatesh(参考訳) 本稿では,意味空間に固定されているが,必ずしもピクセル空間に固定されていないトリガーを用いた新規なホストフリートロイア攻撃を提案する。 クリーンな入力イメージをホストとして使用する既存のトロイの木馬攻撃とは対照的に、我々の攻撃はトリガーを意味論的に意味のあるオブジェクトクラスに属するフルサイズのイメージとみなす。 我々の攻撃では、バックドア分類器は特定の固定パターンよりもトリガー画像の抽象的な意味を記憶するよう奨励されるので、後で意味的に似ているが異なる外観の画像によってトリガーすることができる。 これにより、我々の攻撃は現実世界に適用され、防御が困難になる。 大規模実験の結果,訓練用トロイの木馬のパターンは少ないが,この攻撃は同一のトロイの木馬クラスの新しいパターンによく適応でき,最先端の防御手法をバイパスできることがわかった。

In this paper, we propose a novel host-free Trojan attack with triggers that are fixed in the semantic space but not necessarily in the pixel space. In contrast to existing Trojan attacks which use clean input images as hosts to carry small, meaningless trigger patterns, our attack considers triggers as full-sized images belonging to a semantically meaningful object class. Since in our attack, the backdoored classifier is encouraged to memorize the abstract semantics of the trigger images than any specific fixed pattern, it can be later triggered by semantically similar but different looking images. This makes our attack more practical to be applied in the real-world and harder to defend against. Extensive experimental results demonstrate that with only a small number of Trojan patterns for training, our attack can generalize well to new patterns of the same Trojan class and can bypass state-of-the-art defense methods.
翻訳日:2021-10-28 04:41:58 公開日:2021-10-26
# (参考訳) より一般化したワンショット視覚模倣学習に向けて [全文訳有]

Towards More Generalizable One-shot Visual Imitation Learning ( http://arxiv.org/abs/2110.13423v1 )

ライセンス: CC BY 4.0
Zhao Mandi, Fangchen Liu, Kimin Lee, Pieter Abbeel(参考訳) 汎用ロボットは、過去の経験を活かして、幅広いタスクを習得し、新しいタスクを素早く学ぶことができるべきである。 ワンショット模倣学習(one-shot imitation learning, osil)は、(複数の)専門家によるデモンストレーションでエージェントを訓練することで、この目標にアプローチする。 しかしながら、これまでこのフレームワークは、1つのタスクの多くのバリエーションのトレーニングと、他の目に見えないが同じタスクの類似のバリエーションのテストに限定されてきた。 本研究では,より野心的なマルチタスク構成を探求することにより,より高度な一般化能力を実現する。 7つのタスク、61のバリエーション、各バリエーションにおけるインスタンスの連続からなる多様な視覚ベースのロボット操作タスクを紹介した。 一貫性と比較のために、まずはシングルタスクエージェントをトレーニングし、評価します。 次に、マルチタスクトレーニングをフォローするマルチタスク設定について検討する。 (i)訓練作業におけるバリエーションに関する一発の模倣 (ii)新規課題に対するワンショット模倣、及び (iii)新しい作業の微調整。 従来の最先端では、特定のタスクでうまく機能する一方で、これらの難しいマルチタスク設定で苦労しています。 これらの制約に対処するため,我々は,自己着脱モデルアーキテクチャと時間的コントラストモジュールを統合したモザイク(多タスクワンショット模倣と自己着脱とコントラスト学習)を提案する。 実験の結果,MOSAICは学習効率,最終性能において先行技術よりも優れており,新しいタスクを微調整することで,有望な一般化能力を持つマルチタスクポリシーを学習していることがわかった。

A general-purpose robot should be able to master a wide range of tasks and quickly learn a novel one by leveraging past experiences. One-shot imitation learning (OSIL) approaches this goal by training an agent with (pairs of) expert demonstrations, such that at test time, it can directly execute a new task from just one demonstration. However, so far this framework has been limited to training on many variations of one task, and testing on other unseen but similar variations of the same task. In this work, we push for a higher level of generalization ability by investigating a more ambitious multi-task setup. We introduce a diverse suite of vision-based robot manipulation tasks, consisting of 7 tasks, a total of 61 variations, and a continuum of instances within each variation. For consistency and comparison purposes, we first train and evaluate single-task agents (as done in prior few-shot imitation work). We then study the multi-task setting, where multi-task training is followed by (i) one-shot imitation on variations within the training tasks, (ii) one-shot imitation on new tasks, and (iii) fine-tuning on new tasks. Prior state-of-the-art, while performing well within some single tasks, struggles in these harder multi-task settings. To address these limitations, we propose MOSAIC (Multi-task One-Shot Imitation with self-Attention and Contrastive learning), which integrates a self-attention model architecture and a temporal contrastive module to enable better task disambiguation and more robust representation learning. Our experiments show that MOSAIC outperforms prior state of the art in learning efficiency, final performance, and learns a multi-task policy with promising generalization ability via fine-tuning on novel tasks.
翻訳日:2021-10-28 04:31:35 公開日:2021-10-26
# (参考訳) ニューラルネットワークを用いた高精度URLフィッシング検出 [全文訳有]

Precise URL Phishing Detection Using Neural Networks ( http://arxiv.org/abs/2110.13424v1 )

ライセンス: CC BY 4.0
Aman Rangapur, Dr Ajith Jubilson(参考訳) インターネットの発展に伴い、パスワードやログイン、機密データなどの重要なデータを取得する方法が増加している。 このような情報を抽出する方法の1つは、フィッシング(phishing)とも呼ばれるページ偽造である。 このようなWebサイトはサービスを提供しないが、ユーザから機密情報を収集する。 本稿では,このような悪質なurlをニューラルネットワークを用いて精度良く検出する方法を提案する。 Webコンテンツ、URL、トラフィック統計を検査する以前の研究とは異なり、私たちはURLテキストのみを分析し、より速く、ゼロデイ攻撃を検出する。 ネットワークは最適化され、ras-piのような小さなデバイスでも性能が変化せずに使用できる。

With the development of the Internet, ways of obtaining important data such as passwords and logins or sensitive personal data have increased. One of the ways to extract such information is page impersonation, also called phishing. Such websites do not provide service but collect sensitive details from the user. Here, we present you with ways to detect such malicious URLs with state of art accuracy with neural networks. Different from previous works, where web content, URL or traffic statistics are examined, we analyse only the URL text, making it faster and which detects zero-day attacks. The network is optimised and can be used even on small devices such as Ras-Pi without a change in performance.
翻訳日:2021-10-28 04:11:10 公開日:2021-10-26
# (参考訳) OCTA画像における容器分割のための画像拡大ネットワーク [全文訳有]

Image Magnification Network for Vessel Segmentation in OCTA Images ( http://arxiv.org/abs/2110.13428v1 )

ライセンス: CC BY 4.0
Mingchao Li, Yerui Chen, Weiwei Zhang and Qiang Chen(参考訳) 光コヒーレンストモグラフィ(optical coherence tomography angiography、オクター)は、マイクロnレベルの解像度で網膜の微小血管を可視化できる新しい非侵襲的イメージングモードである。 OCTA画像における網膜血管のセグメンテーションは依然として未解決の問題であり,特に毛細血管の細い高密度構造はこの問題の重要な課題である。 本研究では,OCTA画像における血管分割のための新しい画像拡大ネットワーク(IMN)を提案する。 ダウンサンプリングエンコーダとアップサンプリングデコーダを備えたU-Net構造とは異なり、提案したIMNはアップサンプリングエンコーダとダウンサンプリングデコーダの設計を採用する。 この設計は、画像の詳細を捉え、薄くて小さな構造物の欠落を減らすことを目的としている。 3つのオープンOCTAデータセットによる実験結果から、平均ダイススコア90.2%のIMNが、OCTA画像の血管分割において最高の性能を発揮することが示された。 また,クロスフィールド画像の血管分割と血管骨格抽出におけるIMNの優れた性能を示す。

Optical coherence tomography angiography (OCTA) is a novel non-invasive imaging modality that allows micron-level resolution to visualize the retinal microvasculature. The retinal vessel segmentation in OCTA images is still an open problem, and especially the thin and dense structure of the capillary plexus is an important challenge of this problem. In this work, we propose a novel image magnification network (IMN) for vessel segmentation in OCTA images. Contrary to the U-Net structure with a down-sampling encoder and up-sampling decoder, the proposed IMN adopts the design of up-sampling encoding and then down-sampling decoding. This design is to capture more image details and reduce the omission of thin-and-small structures. The experimental results on three open OCTA datasets show that the proposed IMN with an average dice score of 90.2% achieves the best performance in vessel segmentation of OCTA images. Besides, we also demonstrate the superior performance of IMN in cross-field image vessel segmentation and vessel skeleton extraction.
翻訳日:2021-10-28 04:04:01 公開日:2021-10-26
# (参考訳) 3次元TOF-MRAにおける大脳動脈瘤の深い学習に基づく分節 [全文訳有]

Deep Learning-based Segmentation of Cerebral Aneurysms in 3D TOF-MRA using Coarse-to-Fine Framework ( http://arxiv.org/abs/2110.13432v1 )

ライセンス: CC0 1.0
Meng Chen, Chen Geng, Dongdong Wang, Jiajun Zhang, Ruoyu Di, Fengmei Li, Zhiyong Zhou, Sirong Piao, Yuxin Li, Yaikang Dai(参考訳) BACKGROUND and PURPOSE:脳動脈瘤は最も一般的な脳血管疾患の1つであり、その破裂によるSAHは極めて高い死亡率と障害率を有する。 既存のTOF-MRAモダリティを用いたDLMを用いた自動分節法では, エッジボクセルの分節化がうまく行えないため, DLMの助けを借りて, 3次元TOF-MRAにおける脳動脈瘤のより正確な分節化を実現することが目的である。 材料と方法:本研究では3DTOF-MRAにおける脳動脈瘤の自動分画フレームワークを提案する。 このフレームワークは粗いものから細かいものまで2つのセグメンテーションネットワークで構成されていた。 粗いセグメンテーションネットワーク、すなわちDeepMedicは、大脳動脈瘤の粗いセグメンテーションを完了し、処理結果を微細セグメンテーションネットワーク、すなわち、重み付き損失関数で訓練された2チャネルSE_3D U-Netに供給した。 ADAM2020(n=113)の画像はトレーニングと検証に使われ、別のセンター(n=45)の画像はテストに使用された。 DSC、HD、VS. RESULTS:訓練された脳動脈瘤セグメンテーションモデルは、DSC 0.75、HD 1.52、VS 0.91、バリデーションコホートで達成された。 完全独立テストコホートでは,最高dscが0.12,最低hdが11.61,最高vsが0.16であった。 ConCLUSIONS: DeepMedicとデュアルチャネルSE_3D U-Netから構成される粗粒間フレームワークは、3D TOF-MRAでより精度良く脳動脈瘤を分断することができる。

BACKGROUND AND PURPOSE: Cerebral aneurysm is one of the most common cerebrovascular diseases, and SAH caused by its rupture has a very high mortality and disability rate. Existing automatic segmentation methods based on DLMs with TOF-MRA modality could not segment edge voxels very well, so that our goal is to realize more accurate segmentation of cerebral aneurysms in 3D TOF-MRA with the help of DLMs. MATERIALS AND METHODS: In this research, we proposed an automatic segmentation framework of cerebral aneurysm in 3D TOF-MRA. The framework was composed of two segmentation networks ranging from coarse to fine. The coarse segmentation network, namely DeepMedic, completed the coarse segmentation of cerebral aneurysms, and the processed results were fed into the fine segmentation network, namely dual-channel SE_3D U-Net trained with weighted loss function, for fine segmentation. Images from ADAM2020 (n=113) were used for training and validation and images from another center (n=45) were used for testing. The segmentation metrics we used include DSC, HD, and VS. RESULTS: The trained cerebral aneurysm segmentation model achieved DSC of 0.75, HD of 1.52, and VS of 0.91 on validation cohort. On the totally independent test cohort, our method achieved the highest DSC of 0.12, the lowest HD of 11.61, and the highest VS of 0.16 in comparison with state-of-the-art segmentation networks. CONCLUSIONS: The coarse-to-fine framework, which composed of DeepMedic and dual-channel SE_3D U-Net can segment cerebral aneurysms in 3D TOF-MRA with a superior accuracy.
翻訳日:2021-10-28 03:56:44 公開日:2021-10-26
# (参考訳) 分散検出タスクにおける自己教師あり学習の役割の理解 [全文訳有]

Understanding the Role of Self-Supervised Learning in Out-of-Distribution Detection Task ( http://arxiv.org/abs/2110.13435v1 )

ライセンス: CC BY 4.0
Jiuhai Chen, Chen Zhu, Bin Dai(参考訳) 自己教師付き学習(SSL)は様々なコンピュータビジョンタスクで大きな成功を収めた。 しかし、これらのタスクにおけるSSLの仕組みは謎のままである。 本稿では,SSL がout-of-distriion (OOD) 検出タスクの性能を向上する方法について検討する。 まず、良いOOD検出器が持つべき2つの一般的な特性を指摘した。 1) 全体的な機能空間は、大きく、そして、 2)不利な特徴空間は小さくなければならない。 そして、SSLが機能空間全体の本質的な次元を実際に増加させることができることを示す。 一方SSLには、不適切な機能領域を縮小する可能性さえある。 その結果、OOD検出がより容易になるように、アウトリーチのためにより多くのスペースが確保されることになる。 SSLが不利な特徴空間を縮小できる条件についても議論し、検証する。 OOD検出タスクにおけるSSLの役割を理解することにより、より優れたOOD検出アルゴリズムを設計するためのガイドラインを提供することができる。 さらに、SSLがパフォーマンスを改善する他のタスクにも光を当てることができる。

Self-supervised learning (SSL) has achieved great success in a variety of computer vision tasks. However, the mechanism of how SSL works in these tasks remains a mystery. In this paper, we study how SSL can enhance the performance of the out-of-distribution (OOD) detection task. We first point out two general properties that a good OOD detector should have: 1) the overall feature space should be large and 2) the inlier feature space should be small. Then we demonstrate that SSL can indeed increase the intrinsic dimension of the overall feature space. In the meantime, SSL even has the potential to shrink the inlier feature space. As a result, there will be more space spared for the outliers, making OOD detection much easier. The conditions when SSL can shrink the inlier feature space is also discussed and validated. By understanding the role of SSL in the OOD detection task, our study can provide a guideline for designing better OOD detection algorithms. Moreover, this work can also shed light to other tasks where SSL can improve the performance.
翻訳日:2021-10-28 03:46:06 公開日:2021-10-26
# (参考訳) 深層学習による擬似スペクトルPCEに基づく複雑な組織のためのFFT均質化アルゴリズム

A deep learning driven pseudospectral PCE based FFT homogenization algorithm for complex microstructures ( http://arxiv.org/abs/2110.13440v1 )

ライセンス: CC BY 4.0
Alexander Henkes, Ismail Caylak, Rolf Mahnken(参考訳) 本研究は, 複合三次元構造を有する複合材料の均質化有効物性の不確かさの定量化に向けられた。 この不確実性は、単一成分の材料パラメータや繊維体積率にも生じる。 それらは多変量確率変数によって考慮される。 不確かさの定量化は、疑似スペクトル多項式カオス展開と人工ニューラルネットワークに基づく効率的なサロゲートモデルによって達成される。 人工ニューラルネットワークは、不確定な三次元構造、不確定な線形弾性材料パラメータ、異なる荷重方向を有する複合材料の合成二元ボクセル化単位セル上で訓練される。 ニューラルネットワークの予測目標は弾性テンソルの対応する有効成分であり、高速フーリエ変換に基づく数値均質化法によりトレーニング用ラベルを生成する。 訓練されたニューラルネットワークは、擬似スペクトル多項式カオス展開に基づくサロゲートモデルのための決定論的解法として使われ、有効特性の対応する統計量を達成する。 3つの数値的な例は、提案手法と文献の比較、および異なるミクロ構造への応用に対処する。 その結果,提案手法は従来の手法よりも高速に評価できると同時に,中心的関心モーメントを予測できることがわかった。

This work is directed to uncertainty quantification of homogenized effective properties for composite materials with complex, three dimensional microstructure. The uncertainties arise in the material parameters of the single constituents as well as in the fiber volume fraction. They are taken into account by multivariate random variables. Uncertainty quantification is achieved by an efficient surrogate model based on pseudospectral polynomial chaos expansion and artificial neural networks. An artificial neural network is trained on synthetic binary voxelized unit cells of composite materials with uncertain three dimensional microstructures, uncertain linear elastic material parameters and different loading directions. The prediction goals of the artificial neural network are the corresponding effective components of the elasticity tensor, where the labels for training are generated via a fast Fourier transform based numerical homogenization method. The trained artificial neural network is then used as a deterministic solver for a pseudospectral polynomial chaos expansion based surrogate model to achieve the corresponding statistics of the effective properties. Three numerical examples deal with the comparison of the presented method to the literature as well as the application to different microstructures. It is shown, that the proposed method is able to predict central moments of interest while being magnitudes faster to evaluate than traditional approaches.
翻訳日:2021-10-28 03:33:30 公開日:2021-10-26
# (参考訳) 最大平均差の最適化景観について [全文訳有]

On the Optimization Landscape of Maximum Mean Discrepancy ( http://arxiv.org/abs/2110.13452v1 )

ライセンス: CC BY 4.0
Itai Alon and Amir Globerson and Ami Wiesel(参考訳) 生成モデルは現実的な信号の生成に成功している。 確率関数は典型的にはこれらのモデルの多くで難解であるため、一般的には「単純な」モデルを用いて、確率計算を避ける。 しかし、そのようなモデルに対する理論的保証を得るのは難しい。 特に,非凸目標をグローバルに最適化する方法については理解されていない。 ここでは、生成モデルの最大平均離散性(MMD)学習について、そのような分析を行う。 我々は、(可能性が適用できない)低階の共分散を持つガウス分布と、ガウス分布の混合を含む、いくつかの最適性結果を示す。 その結果,mmdの最適化環境は良好であり,勾配に基づく手法はmmdの目的をグローバルに最小化できることがわかった。

Generative models have been successfully used for generating realistic signals. Because the likelihood function is typically intractable in most of these models, the common practice is to use "implicit" models that avoid likelihood calculation. However, it is hard to obtain theoretical guarantees for such models. In particular, it is not understood when they can globally optimize their non-convex objectives. Here we provide such an analysis for the case of Maximum Mean Discrepancy (MMD) learning of generative models. We prove several optimality results, including for a Gaussian distribution with low rank covariance (where likelihood is inapplicable) and a mixture of Gaussians. Our analysis shows that that the MMD optimization landscape is benign in these cases, and therefore gradient based methods will globally minimize the MMD objective.
翻訳日:2021-10-28 03:32:06 公開日:2021-10-26
# (参考訳) インクリメンタル物体検出のための応答型蒸留 [全文訳有]

Response-based Distillation for Incremental Object Detection ( http://arxiv.org/abs/2110.13471v1 )

ライセンス: CC BY 4.0
Tao Feng, Mang Wang(参考訳) 従来のオブジェクト検出は、インクリメンタルな学習には不十分である。 しかし、新しいデータのみを訓練された検出モデルで直接微調整すると、破滅的な忘れることになる。 知識蒸留は壊滅的な忘れを和らげる簡単な方法である。 インクリメンタルオブジェクト検出(iod)では、従来の研究は主に機能レベルの知識の蒸留に焦点を当てているが、検出器の異なる反応はまだ完全には検討されていない。 本稿では,検出バウンディングボックスからの学習応答と分類予測に着目した完全応答型増分蒸留法を提案する。 まず,インクリメンタル学習中に,学習者モデルに局所的知識を保持する能力を持たせながらカテゴリ知識を伝達する手法を提案する。 さらに,すべての場所の特性をさらに評価し,aps(adaptive pseudo-label selection)戦略による有用な応答を提供する。 最後に,増分蒸留中に異なる応答からの知識を異なる重要性で割り当てるべきであることを解明した。 また,MS COCOを用いた大規模実験により,本手法の有意な利点が示され,フルトレーニングに向けた性能ギャップが著しく狭められた。

Traditional object detection are ill-equipped for incremental learning. However, fine-tuning directly on a well-trained detection model with only new data will leads to catastrophic forgetting. Knowledge distillation is a straightforward way to mitigate catastrophic forgetting. In Incremental Object Detection (IOD), previous work mainly focuses on feature-level knowledge distillation, but the different response of detector has not been fully explored yet. In this paper, we propose a fully response-based incremental distillation method focusing on learning response from detection bounding boxes and classification predictions. Firstly, our method transferring category knowledge while equipping student model with the ability to retain localization knowledge during incremental learning. In addition, we further evaluate the qualities of all locations and provides valuable response by adaptive pseudo-label selection (APS) strategies. Finally, we elucidate that knowledge from different responses should be assigned with different importance during incremental distillation. Extensive experiments conducted on MS COCO demonstrate significant advantages of our method, which substantially narrow the performance gap towards full training.
翻訳日:2021-10-28 02:36:35 公開日:2021-10-26
# (参考訳) 対称正定値行列の空間上のベクトル値距離とジャイロ係数 [全文訳有]

Vector-valued Distance and Gyrocalculus on the Space of Symmetric Positive Definite Matrices ( http://arxiv.org/abs/2110.13475v1 )

ライセンス: CC BY-SA 4.0
Federico L\'opez, Beatrice Pozzetti, Steve Trettel, Michael Strube, Anna Wienhard(参考訳) 本研究では,ベクトル値距離を用いて対称正定値行列(SPD)の多様体から距離を計算し,幾何学的情報を抽出し,この曲線空間におけるベクトル空間演算のアナログを構成するジャイロベクトル計算を開発する。 これらの操作を実装し,知識グラフの補完,項目推薦,質問応答といったタスクにおいて,それらの汎用性を示す。 実験では、spdモデルはユークリッド空間と双曲空間の等価値を上回る。 ベクトル値距離は埋め込みを可視化し、モデルが正のサンプルを負のサンプルから切り離すことを学ぶことを示す。

We propose the use of the vector-valued distance to compute distances and extract geometric information from the manifold of symmetric positive definite matrices (SPD), and develop gyrovector calculus, constructing analogs of vector space operations in this curved space. We implement these operations and showcase their versatility in the tasks of knowledge graph completion, item recommendation, and question answering. In experiments, the SPD models outperform their equivalents in Euclidean and hyperbolic space. The vector-valued distance allows us to visualize embeddings, showing that the models learn to disentangle representations of positive samples from negative ones.
翻訳日:2021-10-28 02:23:51 公開日:2021-10-26
# (参考訳) 構成ラベル予測を用いた同時ニューラルマシン翻訳 [全文訳有]

Simultaneous Neural Machine Translation with Constituent Label Prediction ( http://arxiv.org/abs/2110.13480v1 )

ライセンス: CC BY 4.0
Yasumasa Kano, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 同時翻訳とは、話者が話す前に翻訳が始まるタスクであり、翻訳プロセスの開始時期を決定することが重要である。 しかし、英語や日本語などの単語順が異なる言語対では、より多くの入力語を読むか翻訳を始めるかは難しい。 事前注文の概念に動機づけられ,次成分のラベルをインクリメンタル成分ラベル予測によって予測する,いくつかの簡単な決定規則を提案する。 日英同時翻訳実験において,提案手法は品質・レイテンシトレードオフにおいてベースラインを上回った。

Simultaneous translation is a task in which translation begins before the speaker has finished speaking, so it is important to decide when to start the translation process. However, deciding whether to read more input words or start to translate is difficult for language pairs with different word orders such as English and Japanese. Motivated by the concept of pre-reordering, we propose a couple of simple decision rules using the label of the next constituent predicted by incremental constituent label prediction. In experiments on English-to-Japanese simultaneous translation, the proposed method outperformed baselines in the quality-latency trade-off.
翻訳日:2021-10-28 01:43:33 公開日:2021-10-26
# (参考訳) 結論生成による議論の不十分性の評価 [全文訳有]

Assessing the Sufficiency of Arguments through Conclusion Generation ( http://arxiv.org/abs/2110.13495v1 )

ライセンス: CC BY 4.0
Timon Gurcke, Milad Alshomary, Henning Wachsmuth(参考訳) 議論の前提は、結論を支持する証拠または他の理由を与える。 しかし、必要な支援の量は、結論の一般性、個々の前提の性質などによって異なる。 議論の品質研究において、その前提が引き出すに値する結論を合理的に示す論証は十分である。 これまでの研究は、前提と結論の関係をモデル化せず、標準テキスト分類問題として十分性評価に取り組んできた。 本稿では,その前提から十分な議論の結論を導き出すことができると仮定する。 この仮説を考察するために,大規模事前学習言語モデルの出力に基づいて,十分性を評価する可能性を検討する。 我々の最良のモデル変種は、.885のF1スコアを達成し、以前の最先端を上回り、人間の専門家と同等である。 手動による評価は生成した結論の品質を明らかにするが、その影響は最終的に低いままである。

The premises of an argument give evidence or other reasons to support a conclusion. However, the amount of support required depends on the generality of a conclusion, the nature of the individual premises, and similar. An argument whose premises make its conclusion rationally worthy to be drawn is called sufficient in argument quality research. Previous work tackled sufficiency assessment as a standard text classification problem, not modeling the inherent relation of premises and conclusion. In this paper, we hypothesize that the conclusion of a sufficient argument can be generated from its premises. To study this hypothesis, we explore the potential of assessing sufficiency based on the output of large-scale pre-trained language models. Our best model variant achieves an F1-score of .885, outperforming the previous state-of-the-art and being on par with human experts. While manual evaluation reveals the quality of the generated conclusions, their impact remains low ultimately.
翻訳日:2021-10-28 01:30:18 公開日:2021-10-26
# (参考訳) 大規模LS-SVMのためのテンソルネットワークカルマンフィルタ [全文訳有]

Tensor Network Kalman Filtering for Large-Scale LS-SVMs ( http://arxiv.org/abs/2110.13501v1 )

ライセンス: CC BY 4.0
Maximilian Lucassen, Johan A.K. Suykens, Kim Batselier(参考訳) 最小二乗支援ベクトルマシンは、非線形回帰と分類のための教師あり学習法である。 それらは原始形または双対形に実装できる。 後者は、データの無限次元特徴空間への明示的なマッピングが避けられるという利点を持つ線形システムを解く必要がある。 しかし、大規模アプリケーションでは、現在の低ランク近似手法が不十分に実行可能である。 例えば、現在の手法はサンプリング手順のため確率的であり、そして/またはランクと近似パワーのトレードオフが貧弱である。 本稿では,テンソルネットワークに基づく再帰的ベイズフィルタフレームワークとカルマンフィルタを用いて,大規模二重問題を解く際の要求メモリと計算複雑性を緩和する。 提案手法は反復的であり,カーネルマトリクスの明示的な保存を必要とせず,早期停止条件の定式化を可能にする。 さらに、このフレームワークは代替手法とは異なり、得られたモデルの信頼度を推定する。 2つの回帰実験と3つの分類実験で実験を行い、Nystr\om法と固定サイズLS-SVM法と比較した。 提案手法は, カーネル行列スペクトルが緩やかに減衰しているため, 計算が不可能な場合に特に有用であることを示す。

Least squares support vector machines are a commonly used supervised learning method for nonlinear regression and classification. They can be implemented in either their primal or dual form. The latter requires solving a linear system, which can be advantageous as an explicit mapping of the data to a possibly infinite-dimensional feature space is avoided. However, for large-scale applications, current low-rank approximation methods can perform inadequately. For example, current methods are probabilistic due to their sampling procedures, and/or suffer from a poor trade-off between the ranks and approximation power. In this paper, a recursive Bayesian filtering framework based on tensor networks and the Kalman filter is presented to alleviate the demanding memory and computational complexities associated with solving large-scale dual problems. The proposed method is iterative, does not require explicit storage of the kernel matrix, and allows the formulation of early stopping conditions. Additionally, the framework yields confidence estimates of obtained models, unlike alternative methods. The performance is tested on two regression and three classification experiments, and compared to the Nystr\"om and fixed size LS-SVM methods. Results show that our method can achieve high performance and is particularly useful when alternative methods are computationally infeasible due to a slowly decaying kernel matrix spectrum.
翻訳日:2021-10-28 01:15:40 公開日:2021-10-26
# (参考訳) 伝達学習のためのモジュラーガウス過程 [全文訳有]

Modular Gaussian Processes for Transfer Learning ( http://arxiv.org/abs/2110.13515v1 )

ライセンス: CC BY 4.0
Pablo Moreno-Mu\~noz, Antonio Art\'es-Rodr\'iguez and Mauricio A. \'Alvarez(参考訳) 本稿では,モジュール変動ガウス過程(GP)に基づく移動学習フレームワークを提案する。 我々は,gpsによく適合した辞書を持つモジュールベースの手法を開発し,データを再訪することなくアンサンブルgpモデルを構築することができた。 各モデルはハイパーパラメータ、擬似入力、対応する後方密度によって特徴づけられる。 提案手法は,望ましくないデータの集中化を回避し,計算コストの増大を低減し,学習後の不確実性メトリクスの転送を可能にする。 確率過程間のkullback-leiblerの発散に基づく高次元積分作用素の強化を活用し,全てのばらばらな変分gpsの下で効率的な下界を導入する。 この手法は多出力GPにも有効であり、独立モジュール間の後続関係を学習する。 広範な結果から,大規模マルチタスク実験におけるフレームワークの有用性を示すとともに,文献における正確な推論手法との比較を行った。

We present a framework for transfer learning based on modular variational Gaussian processes (GP). We develop a module-based method that having a dictionary of well fitted GPs, one could build ensemble GP models without revisiting any data. Each model is characterised by its hyperparameters, pseudo-inputs and their corresponding posterior densities. Our method avoids undesired data centralisation, reduces rising computational costs and allows the transfer of learned uncertainty metrics after training. We exploit the augmentation of high-dimensional integral operators based on the Kullback-Leibler divergence between stochastic processes to introduce an efficient lower bound under all the sparse variational GPs, with different complexity and even likelihood distribution. The method is also valid for multi-output GPs, learning correlations a posteriori between independent modules. Extensive results illustrate the usability of our framework in large-scale and multi-task experiments, also compared with the exact inference methods in the literature.
翻訳日:2021-10-28 00:57:56 公開日:2021-10-26
# (参考訳) 知識グラフ上の連鎖推論のための確率的実体表現モデル [全文訳有]

Probabilistic Entity Representation Model for Chain Reasoning over Knowledge Graphs ( http://arxiv.org/abs/2110.13522v1 )

ライセンス: CC BY 4.0
Nurendra Choudhary, Nikhil Rao, Sumeet Katariya, Karthik Subbian, Chandan K. Reddy(参考訳) 知識グラフ(KG)に対する論理的推論は、大規模で不完全なデータベースに対して効率的なクエリメカニズムを提供するための基本的な技術である。 現在のアプローチでは、ボックスのような空間的ジオメトリを使用して、応答エンティティを包含するクエリ表現を学習し、投影と交叉の論理演算をモデル化している。 しかし、それらの幾何学は制限的であり、非スムースな厳密な境界につながり、さらに曖昧な答え実体をもたらす。 さらに、従来の研究は、非閉包となりストリームに連鎖できない結合を扱うための変換トリックを提案している。 本稿では,エンティティを平均と共分散パラメータを持つ多変量ガウス密度として符号化し,その意味的位置と滑らかな決定境界をそれぞれ捉える確率的実体表現モデル(perm)を提案する。 さらに、エンド・ツー・エンドの目的関数を使って集約できる射影、交叉、結合の閉論理演算も定義する。 論理的クエリ推論問題において,提案したPERMは,標準評価指標のKGデータセットに対して,最先端の手法よりも優れていることを示す。 また, PERMの薬剤再服用ケーススタディにおける能力を評価し, 提案された研究は, 現行の方法よりもはるかに優れたF1薬剤を推奨できることを示した。 最後に、ガウス表現の低次元可視化を通して、PERMの問合せ応答プロセスの動作を実演する。

Logical reasoning over Knowledge Graphs (KGs) is a fundamental technique that can provide efficient querying mechanism over large and incomplete databases. Current approaches employ spatial geometries such as boxes to learn query representations that encompass the answer entities and model the logical operations of projection and intersection. However, their geometry is restrictive and leads to non-smooth strict boundaries, which further results in ambiguous answer entities. Furthermore, previous works propose transformation tricks to handle unions which results in non-closure and, thus, cannot be chained in a stream. In this paper, we propose a Probabilistic Entity Representation Model (PERM) to encode entities as a Multivariate Gaussian density with mean and covariance parameters to capture its semantic position and smooth decision boundary, respectively. Additionally, we also define the closed logical operations of projection, intersection, and union that can be aggregated using an end-to-end objective function. On the logical query reasoning problem, we demonstrate that the proposed PERM significantly outperforms the state-of-the-art methods on various public benchmark KG datasets on standard evaluation metrics. We also evaluate PERM's competence on a COVID-19 drug-repurposing case study and show that our proposed work is able to recommend drugs with substantially better F1 than current methods. Finally, we demonstrate the working of our PERM's query answering process through a low-dimensional visualization of the Gaussian representations.
翻訳日:2021-10-28 00:40:56 公開日:2021-10-26
# (参考訳) 連続強化学習のための過大評価バイアスの自動制御 [全文訳有]

Automating Control of Overestimation Bias for Continuous Reinforcement Learning ( http://arxiv.org/abs/2110.13523v1 )

ライセンス: CC BY 4.0
Arsenii Kuznetsov, Alexander Grishin, Artem Tsypin, Arsenii Ashukha, Dmitry Vetrov(参考訳) バイアス補正技術は、オフポリシー強化学習の高パフォーマンス手法の多くで使用されている。 しかし、これらの手法は、十分に柔軟でない、あるいは環境固有のハイパーパラメータのチューニングを必要とする、事前に定義されたバイアス補正ポリシーに依存している。 本稿では,バイアス修正を導くための単純なデータ駆動アプローチを提案する。 我々は、最先端の連続制御アルゴリズムであるTrncated Quantile Criticsの有効性を実証する。 提案手法は,環境間のバイアス補正を自動的に調整する。 その結果、広範にハイパーパラメーター探索を行う必要がなくなり、実際の相互作用数や計算量が大幅に削減される。

Bias correction techniques are used by most of the high-performing methods for off-policy reinforcement learning. However, these techniques rely on a pre-defined bias correction policy that is either not flexible enough or requires environment-specific tuning of hyperparameters. In this work, we present a simple data-driven approach for guiding bias correction. We demonstrate its effectiveness on the Truncated Quantile Critics -- a state-of-the-art continuous control algorithm. The proposed technique can adjust the bias correction across environments automatically. As a result, it eliminates the need for an extensive hyperparameter search, significantly reducing the actual number of interactions and computation.
翻訳日:2021-10-28 00:23:57 公開日:2021-10-26
# (参考訳) てんかん、偶然、プロビデンスにおけるコヒーレント偽発作予測 [全文訳有]

Coherent False Seizure Prediction in Epilepsy, Coincidence or Providence? ( http://arxiv.org/abs/2110.13550v1 )

ライセンス: CC BY-SA 4.0
Jens M\"uller, Hongliu Yang, Matthias Eberlein, Georg Leonhardt, Ortrud Uckermann, Levin Kuhlmann, Ronald Tetzlaff(参考訳) 機械学習を用いた発作予測は可能であるが、多くの誤った予測と低い特異性によって示されるように、その性能は理想とは程遠い。 ここでは、長期データセット上の2つのアルゴリズムの誤報と欠落を検証し、制限が分類器や特徴とは関係がなく、データに固有の変化があることを示す。 偽予測の相関を計算し, 両分類法間の情報伝達を推定することで, 3つのデータセット上の2つのアルゴリズムを評価した。 12人中9人が、どちらの方法も、チャンスよりも優れたパフォーマンスを示した。 すべての個人に対して,予測に正の相関が認められた。 偽予測の相関が強い個人に対しては,第2の手法の結果に基づいてテストサンプルを除外することで,一つの手法の性能を高めることができた。 実質的に異なるアルゴリズムは、誤ったアラームと行方不明のアラームにおいて高い一貫性と強い一貫性を示す。 したがって、各発作前の固定時間長の事前状態の仮説を原状態に変更することは、より最適化された分類器よりも有用である。 この結果は連続データを用いた発作予測アルゴリズムの評価に重要である。

Seizure forecasting using machine learning is possible, but the performance is far from ideal, as indicated by many false predictions and low specificity. Here, we examine false and missing alarms of two algorithms on long-term datasets to show that the limitations are less related to classifiers or features, but rather to intrinsic changes in the data. We evaluated two algorithms on three datasets by computing the correlation of false predictions and estimating the information transfer between both classification methods. For 9 out of 12 individuals both methods showed a performance better than chance. For all individuals we observed a positive correlation in predictions. For individuals with strong correlation in false predictions we were able to boost the performance of one method by excluding test samples based on the results of the second method. Substantially different algorithms exhibit a highly consistent performance and a strong coherency in false and missing alarms. Hence, changing the underlying hypothesis of a preictal state of fixed time length prior to each seizure to a proictal state is more helpful than further optimizing classifiers. The outcome is significant for the evaluation of seizure prediction algorithms on continuous data.
翻訳日:2021-10-27 23:47:44 公開日:2021-10-26
# (参考訳) Few-Shot回帰のための非ガウスガウス過程 [全文訳有]

Non-Gaussian Gaussian Processes for Few-Shot Regression ( http://arxiv.org/abs/2110.13561v1 )

ライセンス: CC BY 4.0
Marcin Sendera, Jacek Tabor, Aleksandra Nowak, Andrzej Bedychaj, Massimiliano Patacchiola, Tomasz Trzci\'nski, Przemys{\l}aw Spurek, Maciej Zi\k{e}ba(参考訳) ガウス過程(GP)は、多モード回帰、時系列予測、少数ショット学習を含む、関数上の分布をモデル化するために機械学習で広く使われている。 GPは正規分布に依存し、後続確率関数の閉形式計算を可能にするため、最後のアプリケーションでは特に有用である。 残念ながら、結果として生じる後部は複雑な分布を捉えるのに十分な柔軟性がないため、GPはその後のタスクと高い類似性を仮定する。 本研究では,GPの後方予測分布を変調するために正規化フローの柔軟性を活用することで,この制限に対処する。 したがって、GP は局所的に非ガウス過程(英語版)(Non-Gaussian Gaussian Processes,NGGPs)と呼ばれる。 より正確には、確率変数ベクトルの各成分上で動作し、それらのパラメータを全て共有する可逆 ode-based mapping を提案する。 我々はnggpsの柔軟性を多種多種多様なマイズショット学習回帰データセットで実証的に検証し,周期関数の異なるノイズレベルをモデル化するためにコンテキスト埋め込み情報を組み込むことができることを示した。 その結果,本手法はタスク間の問題構造を共有するが,文脈化により相似性への適応が可能となる。 NGGPは、様々なベンチマークとアプリケーションに対する競合する最先端のアプローチよりも優れている。

Gaussian Processes (GPs) have been widely used in machine learning to model distributions over functions, with applications including multi-modal regression, time-series prediction, and few-shot learning. GPs are particularly useful in the last application since they rely on Normal distributions and enable closed-form computation of the posterior probability function. Unfortunately, because the resulting posterior is not flexible enough to capture complex distributions, GPs assume high similarity between subsequent tasks - a requirement rarely met in real-world conditions. In this work, we address this limitation by leveraging the flexibility of Normalizing Flows to modulate the posterior predictive distribution of the GP. This makes the GP posterior locally non-Gaussian, therefore we name our method Non-Gaussian Gaussian Processes (NGGPs). More precisely, we propose an invertible ODE-based mapping that operates on each component of the random variable vectors and shares the parameters across all of them. We empirically tested the flexibility of NGGPs on various few-shot learning regression datasets, showing that the mapping can incorporate context embedding information to model different noise levels for periodic functions. As a result, our method shares the structure of the problem between subsequent tasks, but the contextualization allows for adaptation to dissimilarities. NGGPs outperform the competing state-of-the-art approaches on a diversified set of benchmarks and applications.
翻訳日:2021-10-27 23:26:58 公開日:2021-10-26
# (参考訳) ペアワイド半グラフ判別:事前学習型グラフニューラルネットワークのための簡易グラフレベル自己教師戦略 [全文訳有]

Pairwise Half-graph Discrimination: A Simple Graph-level Self-supervised Strategy for Pre-training Graph Neural Networks ( http://arxiv.org/abs/2110.13567v1 )

ライセンス: CC BY 4.0
Pengyong Li, Jun Wang, Ziliang Li, Yixuan Qiao, Xianggen Liu, Fei Ma, Peng Gao, Seng Song, Guotong Xie(参考訳) 自己教師付き学習はグラフ表現学習の強力な技術として徐々に現れてきた。 しかし、グラフデータの転送可能、一般化、堅牢な表現学習は、グラフニューラルネットワークの事前学習にとって依然として課題である。 本稿では,グラフレベルでグラフニューラルネットワークを明示的に事前学習するPairwise Half-graph Discrimination(PHD)という,シンプルで効果的な自己教師付き事前学習戦略を提案する。 PHDは、2つの半グラフが同じソースから来ているかどうかを識別するための単純なバイナリ分類タスクとして設計されている。 実験により、PHDは13のグラフ分類タスクに匹敵するあるいは優れたパフォーマンスを提供する効果的な事前学習戦略であり、ノードレベルの戦略と組み合わせた場合の顕著な改善が示されている。 さらに、学習表現の可視化により、phd戦略が実際にモデルに分子足場のようなグラフレベルの知識を学ぶ力を与えていることが明らかとなった。 これらの結果は,グラフレベルの表現学習において,PHDを強力かつ効果的な自己教師型学習戦略として確立した。

Self-supervised learning has gradually emerged as a powerful technique for graph representation learning. However, transferable, generalizable, and robust representation learning on graph data still remains a challenge for pre-training graph neural networks. In this paper, we propose a simple and effective self-supervised pre-training strategy, named Pairwise Half-graph Discrimination (PHD), that explicitly pre-trains a graph neural network at graph-level. PHD is designed as a simple binary classification task to discriminate whether two half-graphs come from the same source. Experiments demonstrate that the PHD is an effective pre-training strategy that offers comparable or superior performance on 13 graph classification tasks compared with state-of-the-art strategies, and achieves notable improvements when combined with node-level strategies. Moreover, the visualization of learned representation revealed that PHD strategy indeed empowers the model to learn graph-level knowledge like the molecular scaffold. These results have established PHD as a powerful and effective self-supervised learning strategy in graph-level representation learning.
翻訳日:2021-10-27 23:08:32 公開日:2021-10-26
# (参考訳) パーソナリティ自動認識のための視聴覚行動からの認知過程の学習グラフ表現

Learning Graph Representation of Person-specific Cognitive Processes from Audio-visual Behaviours for Automatic Personality Recognition ( http://arxiv.org/abs/2110.13570v1 )

ライセンス: CC0 1.0
Siyang Song, Zilong Shao, Shashank Jaiswal, Linlin Shen, Michel Valstar and Hatice Gunes(参考訳) このアプローチは認知科学における2つの発見に基づいている。 一 人間の認知が表現行動の一部を部分的に決定し、真人格の特徴に直接関連していること。 (ii) 対話行動における個人の非言語行動は会話相手の行動に影響される。 この文脈では、ディヤド相互作用の間、対象者の顔面反応は、その内的(人固有の)認知過程と、会話相手の外部化された非言語的行動という2つの主要な要因によって駆動されると仮定する。 そこで本研究では,対話相手(話者)が提示する聴覚的非言語的手がかりを入力とし,対象者の表情反応を再現可能な,ユニークなアーキテクチャパラメータと深さを有する人固有のcnnアーキテクチャを用いて対象対象者(聞き手として定義)の個人別認知を表現することを提案する。 それぞれの人物固有のCNNは、ニューラルネットワーク探索(NAS)と新しい適応損失関数によって探索され、対象者の真の性格を認識するグラフ表現として表現される。 実験の結果, 生成したグラフ表現は, 人間と機械の対話シナリオにおいて対象者の性格特性とよく関連し, 既存のアプローチを著しく上回るだけでなく, 適応損失やエンド・ツー・エンドの頂点・エッジ特徴学習といった新しい手法が, より信頼性の高いパーソナリティ表現を学ぶ上で有効であることが示された。

This approach builds on two following findings in cognitive science: (i) human cognition partially determines expressed behaviour and is directly linked to true personality traits; and (ii) in dyadic interactions individuals' nonverbal behaviours are influenced by their conversational partner behaviours. In this context, we hypothesise that during a dyadic interaction, a target subject's facial reactions are driven by two main factors, i.e. their internal (person-specific) cognitive process, and the externalised nonverbal behaviours of their conversational partner. Consequently, we propose to represent the target subjects (defined as the listener) person-specific cognition in the form of a person-specific CNN architecture that has unique architectural parameters and depth, which takes audio-visual non-verbal cues displayed by the conversational partner (defined as the speaker) as input, and is able to reproduce the target subject's facial reactions. Each person-specific CNN is explored by the Neural Architecture Search (NAS) and a novel adaptive loss function, which is then represented as a graph representation for recognising the target subject's true personality. Experimental results not only show that the produced graph representations are well associated with target subjects' personality traits in both human-human and human-machine interaction scenarios, and outperform the existing approaches with significant advantages, but also demonstrate that the proposed novel strategies such as adaptive loss, and the end-to-end vertices/edges feature learning, help the proposed approach in learning more reliable personality representations.
翻訳日:2021-10-27 22:57:18 公開日:2021-10-26
# (参考訳) ユニットテスト生成のための自動サポート:チュートリアルブック [全文訳有]

Automated Support for Unit Test Generation: A Tutorial Book Chapter ( http://arxiv.org/abs/2110.13575v1 )

ライセンス: CC BY 4.0
Afonso Fontes, Gregory Gay, Francisco Gomes de Oliveira Neto, Robert Feldt(参考訳) 単体テストはテストの段階であり、システムの他の部分(しばしばクラス)から独立してテストできる最小のコードのセグメントがテストされる。 単体テストは通常実行可能なコードとして書かれ、Pythonのpytestのようなユニットテストフレームワークが提供する形式で書かれる。 単体テストの作成は、多くの反復的な手動要素を持つ時間と労力のかかるプロセスです。 この章では、AIがユニットテストをどのようにサポートするかを説明するために、検索ベースのユニットテスト生成の概念を紹介します。 この手法は,テスト入力の選択を最適化問題として,テスト担当者の目標を測る一連のテストケースを求め,制限された時間枠内で可能なテストケースを識別するために,強力なメタヒューリスティック検索アルゴリズムを導出する。 この章では、ソースコードステートメントのカバレッジに合わせて、pytest形式のユニットテストを生成する2つのアルゴリズムを紹介します。 この章は、より高度な概念について議論し、人工知能がソフトウェアを単体テストするときに開発者とテスターをどのようにサポートするか、さらに読むための指針を与える。

Unit testing is a stage of testing where the smallest segment of code that can be tested in isolation from the rest of the system - often a class - is tested. Unit tests are typically written as executable code, often in a format provided by a unit testing framework such as pytest for Python. Creating unit tests is a time and effort-intensive process with many repetitive, manual elements. To illustrate how AI can support unit testing, this chapter introduces the concept of search-based unit test generation. This technique frames the selection of test input as an optimization problem - we seek a set of test cases that meet some measurable goal of a tester - and unleashes powerful metaheuristic search algorithms to identify the best possible test cases within a restricted timeframe. This chapter introduces two algorithms that can generate pytest-formatted unit tests, tuned towards coverage of source code statements. The chapter concludes by discussing more advanced concepts and gives pointers to further reading for how artificial intelligence can support developers and testers when unit testing software.
翻訳日:2021-10-27 22:53:48 公開日:2021-10-26
# (参考訳) 確率モデルに基づくポリシー探索によるロバスト制御の学習 [全文訳有]

Learning Robust Controllers Via Probabilistic Model-Based Policy Search ( http://arxiv.org/abs/2110.13576v1 )

ライセンス: CC BY 4.0
Valentin Charvet, Bj{\o}rn Sand Jensen, Roderick Murray-Smith(参考訳) モデルに基づく強化学習は、最適なポリシーを近似するために、世界モデルを通して真の環境を推定する。 このアルゴリズムの族は通常、モデルなしのアルゴリズムよりもサンプル効率が良い。 このような方法で学習したコントローラが、環境の小さな摂動の下で頑健で一般化できるかどうかを検討する。 我々の研究は、確率的ポリシー探索の手法であるPILCOアルゴリズムにインスパイアされている。 ガウス過程のダイナミックスモデルにおける確率雑音に対する低拘束がポリシー更新を規則化し、より堅牢なコントローラが得られることを示す。 シミュレーションベンチマークにおいて,本手法の利点を実証した。

Model-based Reinforcement Learning estimates the true environment through a world model in order to approximate the optimal policy. This family of algorithms usually benefits from better sample efficiency than their model-free counterparts. We investigate whether controllers learned in such a way are robust and able to generalize under small perturbations of the environment. Our work is inspired by the PILCO algorithm, a method for probabilistic policy search. We show that enforcing a lower bound to the likelihood noise in the Gaussian Process dynamics model regularizes the policy updates and yields more robust controllers. We demonstrate the empirical benefits of our method in a simulation benchmark.
翻訳日:2021-10-27 22:23:47 公開日:2021-10-26
# (参考訳) 類似関数としてのReLUネットワークにおける勾配表現 [全文訳有]

Gradient representations in ReLU networks as similarity functions ( http://arxiv.org/abs/2110.13581v1 )

ライセンス: CC BY 4.0
D\'aniel R\'acz, B\'alint Dar\'oczy(参考訳) フィードフォワードネットワークは、最後の層のレベルで線形決定曲面を持つマッピングとして解釈できる。 本稿では,ReLU(Rectified Linear Unit)アクティベート時にネットワークの接点空間をどのように利用して決定を洗練させるかを検討する。 ネットワークのパラメータにパラメトリ化された単純なリーマン計量は、少なくとも元のネットワークと同等の類似度関数を形成し、類似度ギャップを増加させるためのスパース計量を提案する。

Feed-forward networks can be interpreted as mappings with linear decision surfaces at the level of the last layer. We investigate how the tangent space of the network can be exploited to refine the decision in case of ReLU (Rectified Linear Unit) activations. We show that a simple Riemannian metric parametrized on the parameters of the network forms a similarity function at least as good as the original network and we suggest a sparse metric to increase the similarity gap.
翻訳日:2021-10-27 22:15:41 公開日:2021-10-26
# (参考訳) EDLaaS - ニューラルネットワークグラフの完全同型暗号化 [全文訳有]

EDLaaS; Fully Homomorphic Encryption Over Neural Network Graphs ( http://arxiv.org/abs/2110.13638v1 )

ライセンス: CC BY-SA 4.0
George Onoufriou, Marc Hanheide, Georgios Leontidis(参考訳) ニューラルネットワーク推論のためのFHE(Fully Homomorphic Encryption)を自動パラメータ化する。 我々は、FHE互換ニューラルネットワークに対する推論を、我々のオープンソースフレームワークと再現可能なステップバイステップの例で提示し、実証する。 我々は,Microsoft Simple Encrypted Arithmetic Library (MS-SEAL)が提供する固定点上で,第4世代Cheon,Kim,Kim,Song (CKKS) FHE方式を使用する。 我々は、深層学習におけるFHEのユーザビリティと適用性を大幅に向上させ、構成グラフ、トラバース、最適化に焦点を当てた。 FHEは、プライバシ保護機械学習(PPML)のすべての問題に対するパナセアではなく、モデルトレーニングのような特定の制限がまだ残っていることが分かっています。 しかし、ある文脈では、FHEは完全にプライベートな予測をニューラルネットワークで計算するのに適している。 我々は、畳み込みニューラルネットワーク(CNN)、ファッションMNIST、およびレベル付きFHE操作に焦点を当てる。 機密性のある問題をプライベートに計算しやすくすると同時に、侵入障壁を低くする能力によって、過度に敏感なフィールドが、パフォーマンスのよいサードパーティのニューラルネットワークのアドバンテージとなる。 最後に、Agri-foodのセンシティブな現実世界問題に適用された暗号化されたディープラーニングと、これが食品の無駄に大きく影響し、多くのデータ共有を促進する方法を示す。

We present automatically parameterised Fully Homomorphic Encryption (FHE), for encrypted neural network inference. We present and exemplify our inference over FHE compatible neural networks with our own open-source framework and reproducible step-by-step examples. We use the 4th generation Cheon, Kim, Kim and Song (CKKS) FHE scheme over fixed points provided by the Microsoft Simple Encrypted Arithmetic Library (MS-SEAL). We significantly enhance the usability and applicability of FHE in deep learning contexts, with a focus on the constituent graphs, traversal, and optimisation. We find that FHE is not a panacea for all privacy preserving machine learning (PPML) problems, and that certain limitations still remain, such as model training. However we also find that in certain contexts FHE is well suited for computing completely private predictions with neural networks. We focus on convolutional neural networks (CNNs), fashion-MNIST, and levelled FHE operations. The ability to privately compute sensitive problems more easily, while lowering the barriers to entry, can allow otherwise too-sensitive fields to begin advantaging themselves of performant third-party neural networks. Lastly we show encrypted deep learning, applied to a sensitive real world problem in agri-food, and how this can have a large positive impact on food-waste and encourage much-needed data sharing.
翻訳日:2021-10-27 22:09:12 公開日:2021-10-26
# (参考訳) ディープラーニングを用いた全スライディング画像の腎細胞癌の高精度診断フレームワーク [全文訳有]

A Precision Diagnostic Framework of Renal Cell Carcinoma on Whole-Slide Images using Deep Learning ( http://arxiv.org/abs/2110.13652v1 )

ライセンス: CC BY 4.0
Jialun Wu, Haichuan Zhang, Zeyu Gao, Xinrui Bao, Tieliang Gong, Chunbao Wang, and Chen Li(参考訳) がん診断の基礎と金の基準である診断病理学は、疾患の予後と臨床治療のための重要な証拠に関する重要な情報を提供する。 腎細胞癌 (RCC) の診断には, 腫瘍領域の検出, サブタイプ, グレード分類が重要である。 しかし,病理診断は主観的であり,診断能力が不十分な病院では観察と診断の違いが一般的である。 ディープラーニングベースのRCC診断システムを開発する上での大きな課題は、正確なアノテーションを備えた大規模データセットの欠如である。 本研究では,腎細胞癌患者の病理像を分析するための深層学習に基づく枠組みを提案する。 深層畳み込みニューラルネットワーク (inceptionv3) を, 癌領域検出, rccサブタイプの分類, 明細胞癌サブタイプのisupグレード分類のための, 癌ゲノムアトラス(tcga)全スライダー病理像の高品質な注釈付きデータセットで訓練した。 以上より, 病理組織学的手法は, 癌領域の検出やサブタイプ, 等級の分類に有用であり, 診断の補助や臨床コンセンサスの促進に有用であることが示唆された。

Diagnostic pathology, which is the basis and gold standard of cancer diagnosis, provides essential information on the prognosis of the disease and vital evidence for clinical treatment. Tumor region detection, subtype and grade classification are the fundamental diagnostic indicators for renal cell carcinoma (RCC) in whole-slide images (WSIs). However, pathological diagnosis is subjective, differences in observation and diagnosis between pathologists is common in hospitals with inadequate diagnostic capacity. The main challenge for developing deep learning based RCC diagnostic system is the lack of large-scale datasets with precise annotations. In this work, we proposed a deep learning-based framework for analyzing histopathological images of patients with renal cell carcinoma, which has the potential to achieve pathologist-level accuracy in diagnosis. A deep convolutional neural network (InceptionV3) was trained on the high-quality annotated dataset of The Cancer Genome Atlas (TCGA) whole-slide histopathological image for accurate tumor area detection, classification of RCC subtypes, and ISUP grades classification of clear cell carcinoma subtypes. These results suggest that our framework can help pathologists in the detection of cancer region and classification of subtypes and grades, which could be applied to any cancer type, providing auxiliary diagnosis and promoting clinical consensus.
翻訳日:2021-10-27 21:46:53 公開日:2021-10-26
# (参考訳) 小型ニューラルネットワークにおけるブートストラップの概念形成 [全文訳有]

Bootstrapping Concept Formation in Small Neural Networks ( http://arxiv.org/abs/2110.13665v1 )

ライセンス: CC BY 4.0
Minija Tamosiunaite, Tomas Kulvicius, and Florentin W\"org\"otter(参考訳) 人間の)神経系がどのように推論を行うのかという問題は、まだ解決されていない。 我々は、概念形成のプロセスがそれに必要な基本的なステップであると仮定する。 まず、概念は閉じた表現として形成され、それらを相互に関連付けることで統合される。 本稿では,現実的な学習ルールを用いて,エージェントが仮想動作を行う環境からのみフィードバックを受ける,小さなニューラルネットワークを用いたモデルシステム(エージェント)を提案する。 第一に、エージェントの作用は反射的である。 学習の過程において、入力の統計的規則性は、エージェントが人工世界から観察した実体間の関係を表すニューロンプールの形成に繋がる。 この情報は、これらの関係表現によって駆動されるアクションによって初期反射を置き換えるフィードバック接続を介してエージェントの挙動に影響を与える。 我々は、関係情報を表すニューロンプールは原始的な概念と見なすことができると仮定する。 このようなシステムは、概念を構成するものに関する議論の形式化に役立ち、人工的な協調システム構築の出発点となる。

The question how neural systems (of humans) can perform reasoning is still far from being solved. We posit that the process of forming Concepts is a fundamental step required for this. We argue that, first, Concepts are formed as closed representations, which are then consolidated by relating them to each other. Here we present a model system (agent) with a small neural network that uses realistic learning rules and receives only feedback from the environment in which the agent performs virtual actions. First, the actions of the agent are reflexive. In the process of learning, statistical regularities in the input lead to the formation of neuronal pools representing relations between the entities observed by the agent from its artificial world. This information then influences the behavior of the agent via feedback connections replacing the initial reflex by an action driven by these relational representations. We hypothesize that the neuronal pools representing relational information can be considered as primordial Concepts, which may in a similar way be present in some pre-linguistic animals, too. We argue that systems such as this can help formalizing the discussion about what constitutes Concepts and serve as a starting point for constructing artificial cogitating systems.
翻訳日:2021-10-27 21:30:27 公開日:2021-10-26
# (参考訳) W-Net: 病理組織像における核検出のための2段階畳み込みネットワーク [全文訳有]

W-Net: A Two-Stage Convolutional Network for Nucleus Detection in Histopathology Image ( http://arxiv.org/abs/2110.13670v1 )

ライセンス: CC BY 4.0
Anyu Mao, Jialun Wu, Xinrui Bao, Zeyu Gao, Tieliang Gong, and Chen Li(参考訳) 病理診断はがん診断における金の標準であるが、特に細胞検出、分類、計数などのタスクが顕著である労働集約型である。 これらのタスクを自動化する一般的な解決策は、核セグメンテーション技術である。 しかし、いくつかの困難な問題、核の接着、積み重ね、背景との過剰な融合などにより、堅牢な核分節モデルの訓練は困難である。 近年、いくつかの研究者が点アノテーションに基づく一連の核セグメンテーション手法を提案し、モデルの性能を著しく向上させた。 それにもかかわらず、ポイントアノテーションは経験豊富な病理学者によってマークされる必要がある。 ポイントアノテーションに基づくセグメンテーション手法の活用,手作業負荷の軽減,がん診断の効率化と精度向上のためには,病理画像中の核の位置を自動的にかつ効率的に検出し,病理医に有用な情報を抽出する自動核検出アルゴリズムを開発する必要がある。 本稿では,核自動検出のためのW字型ネットワークを提案する。 従来のu-netベースの手法と異なり、元の病理像をターゲットマスクに直接マッピングすることで、提案手法では検出タスクを2つのサブタスクに分割した。 最初のサブタスクは元の病理画像をバイナリマスクにマッピングし、次にバイナリマスクを第2サブタスクの密度マスクにマッピングする。 タスクが分割された後、タスクの難易度が大幅に低下し、ネットワーク全体のパフォーマンスが向上する。

Pathological diagnosis is the gold standard for cancer diagnosis, but it is labor-intensive, in which tasks such as cell detection, classification, and counting are particularly prominent. A common solution for automating these tasks is using nucleus segmentation technology. However, it is hard to train a robust nucleus segmentation model, due to several challenging problems, the nucleus adhesion, stacking, and excessive fusion with the background. Recently, some researchers proposed a series of automatic nucleus segmentation methods based on point annotation, which can significant improve the model performance. Nevertheless, the point annotation needs to be marked by experienced pathologists. In order to take advantage of segmentation methods based on point annotation, further alleviate the manual workload, and make cancer diagnosis more efficient and accurate, it is necessary to develop an automatic nucleus detection algorithm, which can automatically and efficiently locate the position of the nucleus in the pathological image and extract valuable information for pathologists. In this paper, we propose a W-shaped network for automatic nucleus detection. Different from the traditional U-Net based method, mapping the original pathology image to the target mask directly, our proposed method split the detection task into two sub-tasks. The first sub-task maps the original pathology image to the binary mask, then the binary mask is mapped to the density mask in the second sub-task. After the task is split, the task's difficulty is significantly reduced, and the network's overall performance is improved.
翻訳日:2021-10-27 21:09:12 公開日:2021-10-26
# (参考訳) 多元異種データに基づくパーソナライズされた診断生成フレームワーク [全文訳有]

A Personalized Diagnostic Generation Framework Based on Multi-source Heterogeneous Data ( http://arxiv.org/abs/2110.13677v1 )

ライセンス: CC BY 4.0
Jialun Wu, Zeyu Gao, Haichuan Zhang, Ruonan Zhang, Tieliang Gong, Chunbao Wang, and Chen Li(参考訳) 個人化された診断は、データ病理医が日々のルーチンで耐える必要があるため不可能である。 これは、新しい発見が報告されるにつれて継続的に更新される現在の一般的な標準につながります。 これらの有効な基準が, 全身スライダー画像, 病理, 臨床報告を含む多元異種データに基づいて開発されていることは明らかである。 本研究では,病理画像と医療報告を組み合わせることで,個別の患者に対してパーソナライズされた診断結果を生成する枠組みを提案する。 核レベルの画像特徴の類似性と内容に基づく深層学習法を用いて、類似した病理特徴を持つパーソナライズされた集団を探索し、類似した患者の記述的病理報告から構造化された予後情報を抽出し、異なる予後因子の重要性を割り当て、パーソナライズされた病理診断結果を生成する。 TCGA(The Cancer Genome Atlas)データベースからのマルチソース異種データを用いる。 その結果,腎細胞癌の診断における病理組織学的手法の有用性が一致した。 このフレームワークは汎用的に設計されており、他の種類のがんにも適用できる。 体重は既知の予後因子の洞察を与え、さらに正確な治療プロトコルを導くことができる。

Personalized diagnoses have not been possible due to sear amount of data pathologists have to bear during the day-to-day routine. This lead to the current generalized standards that are being continuously updated as new findings are reported. It is noticeable that these effective standards are developed based on a multi-source heterogeneous data, including whole-slide images and pathology and clinical reports. In this study, we propose a framework that combines pathological images and medical reports to generate a personalized diagnosis result for individual patient. We use nuclei-level image feature similarity and content-based deep learning method to search for a personalized group of population with similar pathological characteristics, extract structured prognostic information from descriptive pathology reports of the similar patient population, and assign importance of different prognostic factors to generate a personalized pathological diagnosis result. We use multi-source heterogeneous data from TCGA (The Cancer Genome Atlas) database. The result demonstrate that our framework matches the performance of pathologists in the diagnosis of renal cell carcinoma. This framework is designed to be generic, thus could be applied for other types of cancer. The weights could provide insights to the known prognostic factors and further guide more precise clinical treatment protocols.
翻訳日:2021-10-27 20:55:12 公開日:2021-10-26
# (参考訳) BioIE:マルチヘッドアテンション強化グラフ畳み込みネットワークを用いた生体情報抽出 [全文訳有]

BioIE: Biomedical Information Extraction with Multi-head Attention Enhanced Graph Convolutional Network ( http://arxiv.org/abs/2110.13683v1 )

ライセンス: CC BY 4.0
Jialun Wu, Yang Liu, Zeyu Gao, Tieliang Gong, Chunbao Wang and Chen Li(参考訳) 大規模医療知識グラフの構築は、医療監視のための医療応用を著しく向上させる可能性がある。 大規模MKGの構築における重要なステップは、医療報告から情報を抽出することである。 近年,情報抽出技術が提案され,生体情報抽出において有望な性能を示した。 しかし,これらの手法は,複雑な実体相関を持つノイズの多いバイオメディカルテキストデータにより,限られた種類の実体と関係性しか考慮しない。 したがって、MKGの構築や下流アプリケーションを制限するのに十分な情報を提供していない。 本稿では,バイオメディカルテキストと非構造化医療報告から関係を抽出するハイブリッドニューラルネットワークであるバイオメディカル情報抽出を提案する。 本モデルでは,マルチヘッド注意強化グラフ畳み込みネットワークを用いて,データからの雑音に抵抗しながら複雑な関係と文脈情報をキャプチャする。 本研究は,2つの主要な生医学的関係抽出タスク,化学物質とタンパク質の相互作用,およびクロスホスピタル・パン・カンノロジー報告コーパスについて検討した。 その結果,本手法はベースラインよりも優れた性能を示した。 さらに,移動学習環境下での本手法の適用性を評価し,BioIEが様々な書式や書体から医療用テキストを処理する上で有望な性能を発揮することを示す。

Constructing large-scaled medical knowledge graphs can significantly boost healthcare applications for medical surveillance, bring much attention from recent research. An essential step in constructing large-scale MKG is extracting information from medical reports. Recently, information extraction techniques have been proposed and show promising performance in biomedical information extraction. However, these methods only consider limited types of entity and relation due to the noisy biomedical text data with complex entity correlations. Thus, they fail to provide enough information for constructing MKGs and restrict the downstream applications. To address this issue, we propose Biomedical Information Extraction, a hybrid neural network to extract relations from biomedical text and unstructured medical reports. Our model utilizes a multi-head attention enhanced graph convolutional network to capture the complex relations and context information while resisting the noise from the data. We evaluate our model on two major biomedical relationship extraction tasks, chemical-disease relation and chemical-protein interaction, and a cross-hospital pan-cancer pathology report corpus. The results show that our method achieves superior performance than baselines. Furthermore, we evaluate the applicability of our method under a transfer learning setting and show that BioIE achieves promising performance in processing medical text from different formats and writing styles.
翻訳日:2021-10-27 20:39:22 公開日:2021-10-26
# (参考訳) 因果関係を有する議論における暗黙の推論 [全文訳有]

Annotating Implicit Reasoning in Arguments with Causal Links ( http://arxiv.org/abs/2110.13692v1 )

ライセンス: CC BY 4.0
Keshav Singh, Naoya Inoue, Farjana Sultana Mim, Shoichi Naitoh and Kentaro Inui(参考訳) 議論における暗黙の知識の同定に焦点を当てた既存の研究の多くは、一般的に、常識や事実の知識という形で暗黙の知識を表す。 しかし、そのような知識は個々の議論的要素(すなわちクレームと前提)の間の暗黙の推論リンクを理解するのに十分ではない。 本研究では,議論中の推論リンクを理解するのに役立つ議論知識の形で,暗黙の知識を識別することに焦点を当てる。 本稿では, 因果関係による議論における暗黙的推論を明示する議論知識を表現するための, 半構造化テンプレートを提案する。 簡易なガイドラインを用いた新しい2段階アノテーションプロセスを作成し,クラウドソーシングによる高品質な暗黙的推論の収集とフィルタリング方法を示す。 専門家間の品質評価について,実質的なアノテータ間の合意が得られたが,クラウドソーシングプロセスを通じて,高品質な半構造的暗黙的推論を収集できる可能性について,いくつかの疑問を投げかける証拠が見つかった。 我々は,議論知識の構造化表現に向けたさらなる研究を促進するために,資料(クラウドソーシングガイドラインと暗黙的推論)をリリースする。

Most of the existing work that focus on the identification of implicit knowledge in arguments generally represent implicit knowledge in the form of commonsense or factual knowledge. However, such knowledge is not sufficient to understand the implicit reasoning link between individual argumentative components (i.e., claim and premise). In this work, we focus on identifying the implicit knowledge in the form of argumentation knowledge which can help in understanding the reasoning link in arguments. Being inspired by the Argument from Consequences scheme, we propose a semi-structured template to represent such argumentation knowledge that explicates the implicit reasoning in arguments via causality. We create a novel two-phase annotation process with simplified guidelines and show how to collect and filter high-quality implicit reasonings via crowdsourcing. We find substantial inter-annotator agreement for quality evaluation between experts, but find evidence that casts a few questions on the feasibility of collecting high-quality semi-structured implicit reasoning through our crowdsourcing process. We release our materials(i.e., crowdsourcing guidelines and collected implicit reasonings) to facilitate further research towards the structured representation of argumentation knowledge.
翻訳日:2021-10-27 20:21:43 公開日:2021-10-26
# (参考訳) 海上監視のための水平検出アルゴリズム [全文訳有]

A Horizon Detection Algorithm for Maritime Surveillance ( http://arxiv.org/abs/2110.13694v1 )

ライセンス: CC BY 4.0
Yassir Zardoua, Astito Abdelali, Boulaala Mohammed(参考訳) 地平線は他の特徴(海岸の角、波など)と比較して高い持続性を持つため、海洋環境において貴重な特徴である。 様々な用途、特に海上監視に用いられている。 地平線検出の作業は人間にとって容易であるが,海洋環境における色やテクスチャの変化が大きいため,コンピュータでは困難である。 さらに、計算複雑性はアルゴリズムの開発において考慮すべき重要な制約である。 本稿では,最先端技術の向上を期待する新しい手法を提案する。

The horizon line is a valuable feature in the maritime environment as it has a high persistence when compared to other features (e.g., shore corners, waves). It is used in several applications, especially in maritime surveillance. The task of horizon detection may be easy for humans, but it is hard on computers due to the high change of color and texture on maritime scenes. Moreover, the computational complexity is an important constraint to take into account while developing the algorithm. In this paper, we propose a new method that we expect to enhance the state-of-the-art.
翻訳日:2021-10-27 20:11:17 公開日:2021-10-26
# (参考訳) dasentimental:感情リコール、認知ネットワーク、機械学習によるテキスト中の抑うつ、不安、ストレスの検出 [全文訳有]

DASentimental: Detecting depression, anxiety and stress in texts via emotional recall, cognitive networks and machine learning ( http://arxiv.org/abs/2110.13710v1 )

ライセンス: CC BY 4.0
Asra Fatima, Li Ying, Thomas Hills and Massimo Stella(参考訳) 現在の影響尺度や文章の感情分析のほとんどは、感情の最も重要な次元である価(感性)の定量化に重点を置いている。 しかし、感情は原子価よりも広く複雑である。 類似の原子価による否定的な感情の排除は、メンタルヘルスのような文脈において重要である。 本稿では,文章から抑うつ,不安,ストレスを抽出する半教師付き機械学習モデル(DASentimental)を提案する。 まず,抑うつ不安ストレス尺度 (DASS-21) に対する反応と,N=200$の個人によるリコール感情単語のシーケンスがどのように相関しているかを学習した。 コグニティブ・ネットワーク・サイエンスの枠組みでは、リコールされた感情のすべてのリストを、人の記憶の自由な関連によって接続された感情と、意味記憶のネットワーク化された精神的表現のウォークとしてモデル化する。 テストされた機械学習アプローチのうち、単語シーケンスとセマンティックネットワーク距離に基づいてトレーニングされた多層パーセプトロンニューラルネットワークは、うつ病(R = 0.7$)、不安(R = 0.44$)、ストレス(R = 0.52$)の最先端、クロスバリデーション予測を実現することができる。 サンプルサイズによって制限されているが、この第一種アプローチは、DASレベルの背後にある重要な意味的次元の定量的な探索を可能にする。 想起された感情と「サド・ハッピー」のセマンティックな距離はうつ病レベルを推定する上で重要な特徴であるが、不安やストレスには重要でない。 また,"fear"からのリコールの意味的距離は不安の予測を増加させるが,"sad-happy"ダイナドを考慮すれば冗長になることがわかった。 半教師付き学習ツールとしてDASentimentalを用いてテキスト中のDASを推定し,142の自殺ノートのデータセットに適用する。 我々は、人工知能がストレス、不安、抑うつを検出できる将来の研究の鍵となる方向性について論じる。

Most current affect scales and sentiment analysis on written text focus on quantifying valence (sentiment) -- the most primary dimension of emotion. However, emotions are broader and more complex than valence. Distinguishing negative emotions of similar valence could be important in contexts such as mental health. This project proposes a semi-supervised machine learning model (DASentimental) to extract depression, anxiety and stress from written text. First, we trained the model to spot how sequences of recalled emotion words by $N=200$ individuals correlated with their responses to the Depression Anxiety Stress Scale (DASS-21). Within the framework of cognitive network science, we model every list of recalled emotions as a walk over a networked mental representation of semantic memory, with emotions connected according to free associations in people's memory. Among several tested machine learning approaches, we find that a multilayer perceptron neural network trained on word sequences and semantic network distances can achieve state-of-art, cross-validated predictions for depression ($R = 0.7$), anxiety ($R = 0.44$) and stress ($R = 0.52$). Though limited by sample size, this first-of-its-kind approach enables quantitative explorations of key semantic dimensions behind DAS levels. We find that semantic distances between recalled emotions and the dyad "sad-happy" are crucial features for estimating depression levels but are less important for anxiety and stress. We also find that semantic distance of recalls from "fear" can boost the prediction of anxiety but it becomes redundant when the "sad-happy" dyad is considered. Adopting DASentimental as a semi-supervised learning tool to estimate DAS in text, we apply it to a dataset of 142 suicide notes. We conclude by discussing key directions for future research enabled by artificial intelligence detecting stress, anxiety and depression.
翻訳日:2021-10-27 20:06:02 公開日:2021-10-26
# (参考訳) YOLO-ReT:エッジGPUにおける高精度リアルタイムオブジェクト検出を目指して [全文訳有]

YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs ( http://arxiv.org/abs/2110.13713v1 )

ライセンス: CC BY 4.0
Prakhar Ganesh, Yao Chen, Yin Yang, Deming Chen, Marianne Winslett(参考訳) オブジェクト検出モデルの性能は、モデル精度と効率の2つの主要な面で急速に向上している。 しかし、ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、そのようなモデルを大幅に圧縮する必要があるため、モデルの精度が向上する。 本稿では,既存手法における様々な特徴尺度間の組合せ接続の欠如を利用して,マルチスケール機能インタラクションのためのエッジgpuフレンドリなモジュールを提案する。 さらに,様々なタスクにまたがる翻訳情報の流れの変化に触発されて,機能インタラクションモジュールを補完し,市場で利用可能なさまざまなエッジgpuデバイス上での精度と実行速度を両立させる,新しいトランスファーラーニングバックボーンを提案する。 例えば、MobileNetV2x0.75バックボーンのYOLO-ReTはJetson Nanoでリアルタイムに動作し、Pascal VOCで68.75 mAP、COCOで34.91 mAPを達成し、それぞれ3.05 mAPと0.91 mAPを上回り、高速に実行している。 さらに, YOLOv4-tiny と YOLOv4-tiny (3l) のマルチスケール機能相互作用モジュールの導入により, COCO 上での 41.5 と 48.1 mAP のパフォーマンスが向上し, オリジナルバージョンよりも 1.3 と 0.9 mAP が向上した。

Performance of object detection models has been growing rapidly on two major fronts, model accuracy and efficiency. However, in order to map deep neural network (DNN) based object detection models to edge devices, one typically needs to compress such models significantly, thus compromising the model accuracy. In this paper, we propose a novel edge GPU friendly module for multi-scale feature interaction by exploiting missing combinatorial connections between various feature scales in existing state-of-the-art methods. Additionally, we propose a novel transfer learning backbone adoption inspired by the changing translational information flow across various tasks, designed to complement our feature interaction module and together improve both accuracy as well as execution speed on various edge GPU devices available in the market. For instance, YOLO-ReT with MobileNetV2x0.75 backbone runs real-time on Jetson Nano, and achieves 68.75 mAP on Pascal VOC and 34.91 mAP on COCO, beating its peers by 3.05 mAP and 0.91 mAP respectively, while executing faster by 3.05 FPS. Furthermore, introducing our multi-scale feature interaction module in YOLOv4-tiny and YOLOv4-tiny (3l) improves their performance to 41.5 and 48.1 mAP respectively on COCO, outperforming the original versions by 1.3 and 0.9 mAP.
翻訳日:2021-10-27 19:48:28 公開日:2021-10-26
# (参考訳) ConE: 知識グラフ上のマルチホップ推論のためのコーン埋め込み [全文訳有]

ConE: Cone Embeddings for Multi-Hop Reasoning over Knowledge Graphs ( http://arxiv.org/abs/2110.13715v1 )

ライセンス: CC BY 4.0
Zhanqiu Zhang, Jie Wang, Jiajun Chen, Shuiwang Ji, Feng Wu(参考訳) 低次元空間にエンティティと一階論理的(FOL)クエリを埋め込むことを目的としたクエリ埋め込み(QE)は、知識グラフに対するマルチホップ推論において大きな力を示している。 近年、幾何学的形状の要素やクエリが有望な方向となり、幾何学的形状は問合せの解集合やそれらの間の論理的関係を自然に表現することができる。 しかし、既存の幾何モデルでは否定を伴うクエリのモデリングが困難であり、適用性が著しく制限されている。 この課題に対処するために,コラボレーション,切断,否定を含むすべてのfol操作を処理できる最初の幾何学ベースのqeモデルである,コーン埋め込み(conne embeddeds,cone)という新しいクエリ埋め込みモデルを提案する。 具体的には、コーンは2次元円錐の直交積として実体とクエリを表し、円錐の交叉と結合は自然に結合と連結演算をモデル化する。 さらにコーンの補集合の閉包がコーンであることに気付くことにより、ネゲーション演算の埋め込み空間における幾何学的補作用素を設計する。 実験により、ConEは既存の最先端メソッドをベンチマークデータセットで大幅に上回っていることが示された。

Query embedding (QE) -- which aims to embed entities and first-order logical (FOL) queries in low-dimensional spaces -- has shown great power in multi-hop reasoning over knowledge graphs. Recently, embedding entities and queries with geometric shapes becomes a promising direction, as geometric shapes can naturally represent answer sets of queries and logical relationships among them. However, existing geometry-based models have difficulty in modeling queries with negation, which significantly limits their applicability. To address this challenge, we propose a novel query embedding model, namely Cone Embeddings (ConE), which is the first geometry-based QE model that can handle all the FOL operations, including conjunction, disjunction, and negation. Specifically, ConE represents entities and queries as Cartesian products of two-dimensional cones, where the intersection and union of cones naturally model the conjunction and disjunction operations. By further noticing that the closure of complement of cones remains cones, we design geometric complement operators in the embedding space for the negation operations. Experiments demonstrate that ConE significantly outperforms existing state-of-the-art methods on benchmark datasets.
翻訳日:2021-10-27 19:30:31 公開日:2021-10-26
# (参考訳) HIST:マイニングコンセプト指向共有情報による株価トレンド予測のためのグラフベースのフレームワーク [全文訳有]

HIST: A Graph-based Framework for Stock Trend Forecasting via Mining Concept-Oriented Shared Information ( http://arxiv.org/abs/2110.13716v1 )

ライセンス: CC BY 4.0
Wentao Xu, Weiqing Liu, Lewen Wang, Yingce Xia, Jiang Bian, Jian Yin, Tie-Yan Liu(参考訳) 株価の将来のトレンドを予測する株価予測は、投資において重要な役割を果たす。 市場の株価は情報を共有することができ、株価が極めて相関している。 近年,Webから抽出したストックコンセプト(技術,インターネット小売など)を用いて共有情報をマイニングし,予測結果を改善する手法が提案されている。 しかし、以前の研究では、株と概念のつながりは定常であり、株と概念のダイナミックな関連性を無視し、予測結果を制限している。 さらに,既存手法は,手動で定義した株式概念を超えて,株式の共通性を計測する,隠蔽概念が持つ貴重な共有情報を見落としている。 先行研究の欠点を克服するために,概念指向の共有情報を,事前定義された概念と隠れた概念から適切にマイニングできる,新たな株価トレンド予測フレームワークを提案する。 提案手法は,株の共有情報と個別情報とを併用して株価トレンド予測性能を向上させる。 実世界の課題に対する実験結果から,ストックトレンド予測におけるフレームワークの有効性が示された。 投資シミュレーションは、我々のフレームワークがベースラインよりも高い投資リターンを達成することを示す。

Stock trend forecasting, which forecasts stock prices' future trends, plays an essential role in investment. The stocks in a market can share information so that their stock prices are highly correlated. Several methods were recently proposed to mine the shared information through stock concepts (e.g., technology, Internet Retail) extracted from the Web to improve the forecasting results. However, previous work assumes the connections between stocks and concepts are stationary, and neglects the dynamic relevance between stocks and concepts, limiting the forecasting results. Moreover, existing methods overlook the invaluable shared information carried by hidden concepts, which measure stocks' commonness beyond the manually defined stock concepts. To overcome the shortcomings of previous work, we proposed a novel stock trend forecasting framework that can adequately mine the concept-oriented shared information from predefined concepts and hidden concepts. The proposed framework simultaneously utilize the stock's shared information and individual information to improve the stock trend forecasting performance. Experimental results on the real-world tasks demonstrate the efficiency of our framework on stock trend forecasting. The investment simulation shows that our framework can achieve a higher investment return than the baselines.
翻訳日:2021-10-27 19:03:46 公開日:2021-10-26
# (参考訳) エンドツーエンド分子特性予測のための幾何学変換器 [全文訳有]

Geometric Transformer for End-to-End Molecule Properties Prediction ( http://arxiv.org/abs/2110.13721v1 )

ライセンス: CC BY 4.0
Yoni Choukroun and Lior Wolf(参考訳) トランスフォーマーは、要素間の複雑な相互作用を表現する能力のおかげで、多くのアプリケーションで選択の方法となっている。 しかし、Transformerアーキテクチャを分子などの非逐次データに拡張し、小さなデータセットでのトレーニングを可能にすることは依然として課題である。 本稿では,分子の幾何構造を捉えることができる分子特性予測のためのトランスフォーマーアーキテクチャを提案する。 分子幾何学の初期符号化による古典的な位置エンコーダと、学習されたゲート自己保持機構を改変する。 さらに,オーバーパラメータ化アーキテクチャによって引き起こされる過剰フィッティングを回避できる分子データの拡張手法を提案する。 提案手法は、純粋機械学習のみをベースにした最先端の手法よりも優れており、量子化学の分野知識を取り入れておらず、原子距離の両側に拡張された幾何学的入力を使用しない。

Transformers have become methods of choice in many applications thanks to their ability to represent complex interaction between elements. However, extending the Transformer architecture to non-sequential data such as molecules and enabling its training on small datasets remain a challenge. In this work, we introduce a Transformer-based architecture for molecule property prediction, which is able to capture the geometry of the molecule. We modify the classical positional encoder by an initial encoding of the molecule geometry, as well as a learned gated self-attention mechanism. We further suggest an augmentation scheme for molecular data capable of avoiding the overfitting induced by the overparameterized architecture. The proposed framework outperforms the state-of-the-art methods while being based on pure machine learning solely, i.e. the method does not incorporate domain knowledge from quantum chemistry and does not use extended geometric inputs beside the pairwise atomic distances.
翻訳日:2021-10-27 18:46:45 公開日:2021-10-26
# (参考訳) ヘテロジニアスデータセットを用いた心拍検出のためのディープラーニングモデルの有効性向上 [全文訳有]

Improving the efficacy of Deep Learning models for Heart Beat detection on heterogeneous datasets ( http://arxiv.org/abs/2110.13732v1 )

ライセンス: CC BY 4.0
Andrea Bizzego, Giulio Gabrieli, Michelle Jin-Yee Neoh and Gianluca Esposito(参考訳) 深層学習(DL)は生体電気信号処理、特に生理的マーカーの抽出に大きく貢献している。 しかし、文献で提案された結果の有効性と適用性は、しばしばモデルを訓練するために使用されるデータによって表される人口に制限される。 本研究では,異種データセットにDLモデルを適用する際の問題点について検討する。 特に心電図信号(ECG)から心拍を検出することで、心疾患患者や異なる装置で収集した信号に適用した場合、健常者からのデータに基づいてトレーニングしたモデルの性能が低下することを示す。 次に、異なるデータセットにモデルを適応させるために、Transfer Learning(TL)の使用を評価します。 特に,サンプルサイズが小さいデータセットであっても,分類性能が向上していることを示す。 これらの結果は, 生体電気信号に適用したdlモデルの一般化可能性, 特に代表データセットの検索において, さらなる努力が必要であることを示唆する。

Deep Learning (DL) have greatly contributed to bioelectric signals processing, in particular to extract physiological markers. However, the efficacy and applicability of the results proposed in the literature is often constrained to the population represented by the data used to train the models. In this study, we investigate the issues related to applying a DL model on heterogeneous datasets. In particular, by focusing on heart beat detection from Electrocardiogram signals (ECG), we show that the performance of a model trained on data from healthy subjects decreases when applied to patients with cardiac conditions and to signals collected with different devices. We then evaluate the use of Transfer Learning (TL) to adapt the model to the different datasets. In particular, we show that the classification performance is improved, even with datasets with a small sample size. These results suggest that a greater effort should be made towards generalizability of DL models applied on bioelectric signals, in particular by retrieving more representative datasets.
翻訳日:2021-10-27 18:34:24 公開日:2021-10-26
# (参考訳) ハーミング精度のない深層不確かさ推定 [全文訳有]

Disrupting Deep Uncertainty Estimation Without Harming Accuracy ( http://arxiv.org/abs/2110.13741v1 )

ライセンス: CC BY 4.0
Ido Galil, Ran El-Yaniv(参考訳) ディープニューラルネットワーク(dnn)は強力な予測器であり、様々なタスクに広く使われている。 しかし、その予測の信頼できる不確実性は、多くのリスクに敏感なアプリケーションへのデプロイに不可欠である。 本稿では,敵の攻撃と異なり,誤った予測を起こさず,ネットワークの不確実性推定能力に支障をきたす,新しい単純な攻撃を提案する。 その結果、攻撃後、DNNは正確さを低下させることなく、正しい予測よりも誤った予測を確信している。 攻撃の2つのバージョンを示す。 第1のシナリオはブラックボックスシステム(攻撃者はターゲットネットワークを知らない)に焦点を当て、第2のシナリオはホワイトボックス設定を攻撃します。 提案した攻撃は、重大な不確実性推定損傷を引き起こすために、その摂動の最小等級しか必要としないが、大きめの攻撃は、完全に使用不能な不確実性推定をもたらす。 我々は,バニラソフトマックススコア,ディープアンサンブル,MC-Dropoutの3つの最も一般的な不確実性評価手法に対する攻撃に成功した。 さらに,選択的分類アーキテクチャであるselectivenetへの攻撃を示す。 我々は,MobileNetV2 や EfficientNetB0 など,複数の現代的なアーキテクチャに対する攻撃をテストした。

Deep neural networks (DNNs) have proven to be powerful predictors and are widely used for various tasks. Credible uncertainty estimation of their predictions, however, is crucial for their deployment in many risk-sensitive applications. In this paper we present a novel and simple attack, which unlike adversarial attacks, does not cause incorrect predictions but instead cripples the network's capacity for uncertainty estimation. The result is that after the attack, the DNN is more confident of its incorrect predictions than about its correct ones without having its accuracy reduced. We present two versions of the attack. The first scenario focuses on a black-box regime (where the attacker has no knowledge of the target network) and the second scenario attacks a white-box setting. The proposed attack is only required to be of minuscule magnitude for its perturbations to cause severe uncertainty estimation damage, with larger magnitudes resulting in completely unusable uncertainty estimations. We demonstrate successful attacks on three of the most popular uncertainty estimation methods: the vanilla softmax score, Deep Ensembles and MC-Dropout. Additionally, we show an attack on SelectiveNet, the selective classification architecture. We test the proposed attack on several contemporary architectures such as MobileNetV2 and EfficientNetB0, all trained to classify ImageNet.
翻訳日:2021-10-27 18:23:34 公開日:2021-10-26
# (参考訳) ラプラス混合モデルによる点集合のロバスト多視点登録 [全文訳有]

Robust Multi-view Registration of Point Sets with Laplacian Mixture Model ( http://arxiv.org/abs/2110.13744v1 )

ライセンス: CC BY 4.0
Jin Zhang, Mingyang Zhao, Xin Jiang and Dong-Ming Yan(参考訳) ポイントセット登録は、3D再構成やSLAMといった多くのコンピュータビジョンアプリケーションにおいて重要なステップである。 異なる目的のための登録アルゴリズムは数多く存在するが、重騒音や異常汚染など、様々な現実世界のシナリオの複雑さが増すため、この話題は依然として困難である。 本論文では,重み付きラプラシアン分布に基づく複数点集合を同時に整列する新しい確率的生成法を提案する。 提案手法では,各データポイントはラプラス混合モデル(LMM)によって生成され,その中心は他の点集合の対応する点によって決定される。 ガウス確率密度の点と中心の間の2次距離を最小化するガウス混合モデル(GMM)に基づく従来の手法とは異なり、LMMはスパーシリティによって誘導されるL1距離を最小化し、ノイズや外れ値に対してより堅牢である。 我々は,LMMパラメータと剛性変換を解くために,期待最大化(EM)フレームワークを採用する。 我々は、L1最適化をリー代数の指数写像による線形計画問題として近似し、内部点法により効果的に解ける。 また,効率向上のために,alternating Direction Multiplier Method (ADMM) によるL1最適化も行う。 本手法の利点を,ロバスト性と正確性の観点から,データ集合のベンチマークにおける代表的な手法と比較することで実証する。

Point set registration is an essential step in many computer vision applications, such as 3D reconstruction and SLAM. Although there exist many registration algorithms for different purposes, however, this topic is still challenging due to the increasing complexity of various real-world scenarios, such as heavy noise and outlier contamination. In this paper, we propose a novel probabilistic generative method to simultaneously align multiple point sets based on the heavy-tailed Laplacian distribution. The proposed method assumes each data point is generated by a Laplacian Mixture Model (LMM), where its centers are determined by the corresponding points in other point sets. Different from the previous Gaussian Mixture Model (GMM) based method, which minimizes the quadratic distance between points and centers of Gaussian probability density, LMM minimizes the sparsity-induced L1 distance, thereby it is more robust against noise and outliers. We adopt Expectation-Maximiza tion (EM) framework to solve LMM parameters and rigid transformations. We approximate the L1 optimization as a linear programming problem by exponential mapping in Lie algebra, which can be effectively solved through the interior point method. To improve efficiency, we also solve the L1 optimization by Alternating Direction Multiplier Method (ADMM). We demonstrate the advantages of our method by comparing it with representative state-of-the-art approaches on benchmark challenging data sets, in terms of robustness and accuracy.
翻訳日:2021-10-27 18:05:08 公開日:2021-10-26
# (参考訳) クリーンデータを用いない前処理レーザー誘起破壊分光信号の学習 [全文訳有]

Learning to Pre-process Laser Induced Breakdown Spectroscopy Signals Without Clean Data ( http://arxiv.org/abs/2110.13748v1 )

ライセンス: CC BY 4.0
Juan Castorena and Diane Oyen(参考訳) 本研究は, レーザー誘起分解分光法(LIBS)信号の浄化を, 悪質な生測値のみを用いて行うことができるかどうかを検証した。 この問題に対する我々の見解は、LIBSデータと提案した学習定式化の膨大な冗長性を活用することにより、興味の対象が(非ゼロ平均の)ニュアンス要因からの影響を逸脱することを考える。 これは、ターゲットの繰り返し測定ビュー間の一貫性を促進すると同時に、機器の歴史を通して取られた他のすべてのlibs測定とのコンピテンシーも同時に排除することを目的としている。 火星探査機キュリオシティに搭載されたChemCamの実際のデータによる評価は、ChemCamチームが使用している標準手法と比較して、LIBS信号のクリーニングにおいて優れた性能を示している。

This work tests whether deep neural networks can clean laser induced breakdown spectroscopy (LIBS) signals by using only uncleaned raw measurements. Our view of this problem considers a disentanglement of the effects of the target of interest from those of the nuisance factors (with non-zero mean) by leveraging the vast amounts of redundancies in LIBS data and our proposed learning formulation. This later aims at promoting consistency between repeated measurement views of a target while simultaneously removing consistencies with all other LIBS measurements taken throughout the history of the instrument. Evaluations on real data from the ChemCam instrument onboard the Martian Curiosity rover show a superior performance in cleaning LIBS signals compared to the standard approaches being used by the ChemCam team.
翻訳日:2021-10-27 17:51:56 公開日:2021-10-26
# (参考訳) SGLDにおける異方性雑音による情報理論一般化境界の最適化 [全文訳有]

Optimizing Information-theoreti cal Generalization Bounds via Anisotropic Noise in SGLD ( http://arxiv.org/abs/2110.13750v1 )

ライセンス: CC BY 4.0
Bohan Wang, Huishuai Zhang, Jieyu Zhang, Qi Meng, Wei Chen, Tie-Yan Liu(参考訳) 近年、情報理論の枠組みは、SGLD(Stochastic Gradient Langevin Dynamics)によって訓練された大きなモデルに対して、等方性雑音を伴う非空一般化境界が得られることが証明されている。 本稿では,SGLDにおける雑音構造を操作することにより,情報理論の一般化を最適化する。 実験的リスクを低く抑えるために制約を課すことで、前と後の両方が共同最適化された場合、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。 これは、最適雑音が経験的勾配共分散にかなり近いことを検証する。 技術的には、そのような最適化分析を可能にする新しい情報理論境界を開発する。 次に、最適雑音共分散の形式を導出するために行列解析を適用する。 提示された制約と結果は経験的観察によって検証される。

Recently, the information-theoreti cal framework has been proven to be able to obtain non-vacuous generalization bounds for large models trained by Stochastic Gradient Langevin Dynamics (SGLD) with isotropic noise. In this paper, we optimize the information-theoreti cal generalization bound by manipulating the noise structure in SGLD. We prove that with constraint to guarantee low empirical risk, the optimal noise covariance is the square root of the expected gradient covariance if both the prior and the posterior are jointly optimized. This validates that the optimal noise is quite close to the empirical gradient covariance. Technically, we develop a new information-theoreti cal bound that enables such an optimization analysis. We then apply matrix analysis to derive the form of optimal noise covariance. Presented constraint and results are validated by the empirical observations.
翻訳日:2021-10-27 17:43:24 公開日:2021-10-26
# (参考訳) DPCOVID:プライバシー保護のコビッドウイルス検出 [全文訳有]

DPCOVID: Privacy-Preserving Federated Covid-19 Detection ( http://arxiv.org/abs/2110.13760v1 )

ライセンス: CC BY 4.0
Trang-Thi Ho, Yennun-Huang(参考訳) コロナウイルス(COVID-19)は、世界経済と健康に対する有害な影響により、前例のない世界的な危機を経験している。 新型コロナウイルスの感染者は急速に増えており、停止の兆しはない。 これにより、テストキットと正確な検出モデルが大幅に不足する。 最近の研究では、胸部X線X線撮影は、新型コロナウイルス検出実験より優れていることが示されている。 したがって、胸部x線レントゲン分析は、新型コロナウイルスの疑いのある患者を早期に発見するのに役立つ。 さらに、患者データはセンシティブであり、悪意のある攻撃者からのモデル更新や再構築による暴露を避けるために保護されなければならない。 本稿では,胸部X線画像に基づく新型コロナウイルス検出のためのプライバシ保護フェデレーション学習システムを提案する。 まず,胸部X線画像からフェデレート学習システムを構築する。 主なアイデアは、複数の病院にまたがって、病院間でデータを共有せずに分散モデルを構築することだ。 第2に、covid-19識別のための連合学習の精度は、非iidデータにおいて著しく低下することを示した。 次に、クライアントの総数、並列性(クライアント数)、クライアント毎の計算量を増やすことにより、非IID COVID-19データのモデル精度を向上させる戦略を提案する。 最後に,差分プライバシ確率勾配勾配勾配(dp-sgd)を適用し,連合学習モデルにおける患者データプライバシの保存性を高める。 モデルの安全性と正確性を保証するために、連合学習の堅牢性を維持するための戦略も提案されている。

Coronavirus (COVID-19) has shown an unprecedented global crisis by the detrimental effect on the global economy and health. The number of COVID-19 cases has been rapidly increasing, and there is no sign of stopping. It leads to a severe shortage of test kits and accurate detection models. A recent study demonstrated that the chest X-ray radiography outperformed laboratory testing in COVID-19 detection. Therefore, using chest X-ray radiography analysis can help to screen suspected COVID-19 cases at an early stage. Moreover, the patient data is sensitive, and it must be protected to avoid revealing through model updates and reconstruction from the malicious attacker. In this paper, we present a privacy-preserving Federated Learning system for COVID-19 detection based on chest X-ray images. First, a Federated Learning system is constructed from chest X-ray images. The main idea is to build a decentralized model across multiple hospitals without sharing data among hospitals. Second, we first show that the accuracy of Federated Learning for COVID-19 identification reduces significantly for Non-IID data. We then propose a strategy to improve model's accuracy on Non-IID COVID-19 data by increasing the total number of clients, parallelism (client fraction), and computation per client. Finally, we apply a Differential Privacy Stochastic Gradient Descent (DP-SGD) to enhance the preserving of patient data privacy for our Federated Learning model. A strategy is also proposed to keep the robustness of Federated Learning to ensure the security and accuracy of the model.
翻訳日:2021-10-27 16:46:12 公開日:2021-10-26
# CS-Rep:再パラメータ化を考慮した話者検証ネットワークの構築

CS-Rep: Making Speaker Verification Networks Embracing Re-parameterization ( http://arxiv.org/abs/2110.13465v1 )

ライセンス: Link先を確認
Ruiteng Zhang, Jianguo Wei, Wenhuan Lu, Lin Zhang, Yantao Ji, Junhai Xu, Xugang Lu(参考訳) 2つの音声が同一話者であるかどうかを判定する自動話者照合(asv)システムは、主に推論速度を無視しながら検証精度に重点を置いている。 しかし、実際のアプリケーションでは、推論速度と検証精度の両方が不可欠である。 本研究では,マルチタイプネットワークのための新しいトポロジー再パラメータ化戦略であるcs-rep(cross-sequent ial re-parameterization) を提案する。 CS-Repは、既存の再パラメータ化手法が典型的なASVバックボーンには適さないという問題を解決する。 モデルがCS-Repを適用すると、トレーニング周期ネットワークは話者情報をキャプチャするためにマルチブランチトポロジを利用するが、推論周期モデルはTDNN層を積み重ねた時間遅延ニューラルネットワーク(TDNN)のようなプレーンバックボーンに変換して高速な推論速度を実現する。 CS-Repに基づいて、Rep-TDNNと呼ばれるフレンドリーなテストとデプロイメントを備えた改良されたTDNNを提案する。 業界で広く認知されている最先端のECAPA-TDNNと比較して、Rep-TDNNは実際の推論速度を約50%向上し、EERを10%削減する。 コードはリリースされます。

Automatic speaker verification (ASV) systems, which determine whether two speeches are from the same speaker, mainly focus on verification accuracy while ignoring inference speed. However, in real applications, both inference speed and verification accuracy are essential. This study proposes cross-sequential re-parameterization (CS-Rep), a novel topology re-parameterization strategy for multi-type networks, to increase the inference speed and verification accuracy of models. CS-Rep solves the problem that existing re-parameterization methods are unsuitable for typical ASV backbones. When a model applies CS-Rep, the training-period network utilizes a multi-branch topology to capture speaker information, whereas the inference-period model converts to a time-delay neural network (TDNN)-like plain backbone with stacked TDNN layers to achieve the fast inference speed. Based on CS-Rep, an improved TDNN with friendly test and deployment called Rep-TDNN is proposed. Compared with the state-of-the-art model ECAPA-TDNN, which is highly recognized in the industry, Rep-TDNN increases the actual inference speed by about 50% and reduces the EER by 10%. The code will be released.
翻訳日:2021-10-27 16:32:44 公開日:2021-10-26
# TUNet:変圧器と自己教師型事前学習に基づくブロックオンライン帯域拡張モデル

TUNet: A Block-online Bandwidth Extension Model based on Transformers and Self-supervised Pretraining ( http://arxiv.org/abs/2110.13492v1 )

ライセンス: Link先を確認
Viet-Anh Nguyen, Anh H. T. Nguyen, Andy W. H. Khong(参考訳) 帯域幅拡張を実現するために,時間的特徴軸線形変調(tfilm)モデルのブロックオンライン変種を提案する。 提案するアーキテクチャは,tfilm の unet バックボーンを単純化して推論時間を短縮し,性能劣化を緩和するためのボトルネックに効率的なトランスフォーマーを用いる。 また、自己教師付き事前学習とデータ拡張により帯域幅拡張信号の品質が向上し、ダウンサンプリング法に対する感度が低下する。 VCTKデータセットによる実験結果から,提案手法はスペクトル距離および音源歪み比において,近年のベースラインを上回っていることがわかった。 事前トレーニングとフィルタ拡張は、全体的なパフォーマンスの安定化と向上にも役立ちます。

We introduce a block-online variant of the temporal feature-wise linear modulation (TFiLM) model to achieve bandwidth extension. The proposed architecture simplifies the UNet backbone of the TFiLM to reduce inference time and employs an efficient transformer at the bottleneck to alleviate performance degradation. We also utilize self-supervised pretraining and data augmentation to enhance the quality of bandwidth extended signals and reduce the sensitivity with respect to downsampling methods. Experiment results on the VCTK dataset show that the proposed method outperforms several recent baselines in terms of spectral distance and source-to-distortion ratio. Pretraining and filter augmentation also help stabilize and enhance the overall performance.
翻訳日:2021-10-27 16:32:21 公開日:2021-10-26
# パラメトリック最適制御問題の予備解析のための拡張物理情報ニューラルネットワーク

An extended physics informed neural network for preliminary analysis of parametric optimal control problems ( http://arxiv.org/abs/2110.13530v1 )

ライセンス: Link先を確認
Nicola Demo, Maria Strazzullo and Gianluigi Rozza(参考訳) 本研究では,パラメトリック偏微分方程式に対する教師付き学習戦略の拡張を提案する。 実際、もし後者が多くのアプリケーションで不可分に有用であるとしても、そのほとんどがリアルタイムおよびマルチクエリ環境で計算的に高価である。 したがって、我々の主な目標は、短時間でパラメトリゼーション現象をシミュレートする物理学的インフォームド学習パラダイムを提供することです。 物理情報は、損失関数(標準物理学インフォームドニューラルネットワーク)、追加入力(極端な特徴雇用)、ニューラルネットワーク(物理インフォームドアーキテクチャ)の効果的な構造を構築するためのガイドラインとして、様々な方法で活用される。 これら3つの側面を組み合わせることで、より高速なトレーニングフェーズとより正確なパラメトリック予測が可能になる。 この手法はいくつかの方程式や最適制御フレームワークでテストされている。

In this work we propose an extension of physics informed supervised learning strategies to parametric partial differential equations. Indeed, even if the latter are indisputably useful in many applications, they can be computationally expensive most of all in a real-time and many-query setting. Thus, our main goal is to provide a physics informed learning paradigm to simulate parametrized phenomena in a small amount of time. The physics information will be exploited in many ways, in the loss function (standard physics informed neural networks), as an augmented input (extra feature employment) and as a guideline to build an effective structure for the neural network (physics informed architecture). These three aspects, combined together, will lead to a faster training phase and to a more accurate parametric prediction. The methodology has been tested for several equations and also in an optimal control framework.
翻訳日:2021-10-27 16:32:07 公開日:2021-10-26
# 多様体上の位相的ペナル化回帰

Topologically penalized regression on manifolds ( http://arxiv.org/abs/2110.13749v1 )

ライセンス: Link先を確認
Olympio Hacquard (LMO, DATASHAPE), Krishnakumar Balasubramanian (UC Davis), Gilles Blanchard (LMO, DATASHAPE), Wolfgang Polonik (UC Davis), Cl\'ement Levrard (LPSM (UMR\_8001))(参考訳) コンパクト多様体 M 上の回帰問題について検討し、データの基底幾何学と位相を利用するために、その回帰処理は、位相的ペナルティで正規化される多様体のラプラス・ベルトラミ作用素の最初の数個の固有関数に基づいて行われる。 提案するペナルティは、固有関数または推定関数のサブレベル集合のトポロジーに基づいている。 全体的なアプローチは、合成データと実データの両方に様々なアプリケーションで有望で競争力のあるパフォーマンスをもたらすことが示されています。 また,回帰関数推定の予測誤差と(位相的な意味で)滑らかさの両方について理論的に保証する。 これらの結果は,対象関数が「トポロジカルに滑らか」である場合のアプローチの妥当性を裏付けるものである。

We study a regression problem on a compact manifold M. In order to take advantage of the underlying geometry and topology of the data, the regression task is performed on the basis of the first several eigenfunctions of the Laplace-Beltrami operator of the manifold, that are regularized with topological penalties. The proposed penalties are based on the topology of the sub-level sets of either the eigenfunctions or the estimated function. The overall approach is shown to yield promising and competitive performance on various applications to both synthetic and real data sets. We also provide theoretical guarantees on the regression function estimates, on both its prediction error and its smoothness (in a topological sense). Taken together, these results support the relevance of our approach in the case where the targeted function is "topologically smooth".
翻訳日:2021-10-27 16:30:55 公開日:2021-10-26
# ニューラルネットワークの多様性と一般化

Diversity and Generalization in Neural Network Ensembles ( http://arxiv.org/abs/2110.13786v1 )

ライセンス: Link先を確認
Luis A. Ortega, Rafael Caba\~nas, Andr\'es R. Masegosa(参考訳) アンサンブルは機械学習で広く使われ、通常、多くの予測タスクで最先端のパフォーマンスを提供する。 初期から、アンサンブルの多様性は、これらのモデルの優れた性能の鍵要因として認識されてきた。 しかし、アンサンブルモデルにおいて多様性が果たす正確な役割は、特にニューラルネットワークの文脈では理解されていない。 本研究では,様々なアンサンブル手法の多様性とアンサンブル性能の関係を記述した理論的に健全な枠組みを用いて,先行した結果を合成・拡張する。 より正確には、多様性を測定する方法、アンサンブルの一般化誤差に多様性がどのように関係するか、そしてニューラルネットワークアンサンブルアルゴリズムによって多様性がどのように促進されるかである。 この分析は、二乗損失、クロスエントロピー損失、0-1損失という3つの広く使われている損失関数と、モデル平均化と重み付き多数決という2つの一般的なモデル組み合わせ戦略を含む。 ニューラルネットワークアンサンブルを用いた理論的解析を実証的に検証する。

Ensembles are widely used in machine learning and, usually, provide state-of-the-art performance in many prediction tasks. From the very beginning, the diversity of an ensemble has been identified as a key factor for the superior performance of these models. But the exact role that diversity plays in ensemble models is poorly understood, specially in the context of neural networks. In this work, we combine and expand previously published results in a theoretically sound framework that describes the relationship between diversity and ensemble performance for a wide range of ensemble methods. More precisely, we provide sound answers to the following questions: how to measure diversity, how diversity relates to the generalization error of an ensemble, and how diversity is promoted by neural network ensemble algorithms. This analysis covers three widely used loss functions, namely, the squared loss, the cross-entropy loss, and the 0-1 loss; and two widely used model combination strategies, namely, model averaging and weighted majority vote. We empirically validate this theoretical analysis with neural network ensembles.
翻訳日:2021-10-27 16:30:40 公開日:2021-10-26
# 格子QCDにおける機械学習スペクトル関数

Machine learning spectral functions in lattice QCD ( http://arxiv.org/abs/2110.13521v1 )

ライセンス: Link先を確認
S.-Y. Chen, H.-T. Ding, F.-Y. Liu, G. Papp, C.-B. Yang(参考訳) ユークリッド相関関数からのスペクトル関数を機械学習で再構成する逆問題について検討する。 本稿では,変分オートエンコーダ(vae)に基づく新しいニュートラルネットワークであるsveeを提案する。 svaeの特徴は、スペクトル関数の先行情報として基底真理値を持つシャノン・ジェインズエントロピー項が最小化される損失関数に含まれることである。 ガウス混合モデルから生成した一般スペクトル関数を用いてネットワークを訓練する。 実験では, 共振ピーク, 連続項, 摂動スペクトル関数の4種類の物理的モチベーションスペクトル関数から生成した相関子を用いて, 非相対論的qcdを用いた。 モックデータテストから、ほとんどの場合のsVAEはスペクトル関数を再構成する際の最大エントロピー法(MEM)に匹敵するものであり、スペクトル関数のピークが鋭く、コレレータ内のデータポイントが不足している場合にはMEMよりも優れることがわかった。 By applying to temporal correlation functions of charmonium in the pseudoscalar channel obtained in the quenched lattice QCD at 0.75 $T_c$ on $128^3\times96$ lattices and $1.5$ $T_c$ on $128^3\times48$ lattices, we find that the resonance peak of $\eta_c$ extracted from both the sVAE and MEM has a substantial dependence on the number of points in the temporal direction ($N_\tau$) adopted in the lattice simulation and $N_\tau$ larger than 48 is needed to resolve the fate of $\eta_c$ at 1.5 $T_c$.

We study the inverse problem of reconstructing spectral functions from Euclidean correlation functions via machine learning. We propose a novel neutral network, sVAE, which is based on the variational autoencoder (VAE) and can be naturally applied to the inverse problem. The prominent feature of the sVAE is that a Shannon-Jaynes entropy term having the ground truth values of spectral functions as prior information is included in the loss function to be minimized. We train the network with general spectral functions produced from a Gaussian mixture model. As a test, we use correlators generated from four different types of physically motivated spectral functions made of one resonance peak, a continuum term and perturbative spectral function obtained using non-relativistic QCD. From the mock data test we find that the sVAE in most cases is comparable to the maximum entropy method (MEM) in the quality of reconstructing spectral functions and even outperforms the MEM in the case where the spectral function has sharp peaks with insufficient number of data points in the correlator. By applying to temporal correlation functions of charmonium in the pseudoscalar channel obtained in the quenched lattice QCD at 0.75 $T_c$ on $128^3\times96$ lattices and $1.5$ $T_c$ on $128^3\times48$ lattices, we find that the resonance peak of $\eta_c$ extracted from both the sVAE and MEM has a substantial dependence on the number of points in the temporal direction ($N_\tau$) adopted in the lattice simulation and $N_\tau$ larger than 48 is needed to resolve the fate of $\eta_c$ at 1.5 $T_c$.
翻訳日:2021-10-27 16:30:24 公開日:2021-10-26
# (参考訳) 近代電力システム研究のためのデータ駆動時系列再構成 [全文訳有]

Data-Driven Time Series Reconstruction for Modern Power Systems Research ( http://arxiv.org/abs/2110.13772v1 )

ライセンス: CC BY 4.0
Minas Chatzos, Mathieu Tanneau, Pascal Van Hentenryck(参考訳) 電力システム研究の重要な側面は、プライバシーの懸念とエネルギーインフラの繊細な性質によって制限される適切なデータの利用である。 このデータの欠如は、機械学習アプローチや確率的定式化のような近代的な研究の進路を妨げている。 この課題を克服するために,送信システムオペレータが公開するグリッドスナップショットと履歴データを用いて,高忠実度時系列を再構築するための体系的データ駆動型フレームワークを提案する。 提案手法は, 地理空間データから生成容量再構成, 時系列分解に至るまで, フランスの伝送網に適用できる。 これにより、各成分レベルでは5分間の粒度で複数年にまたがる合成だが高度に現実的な時系列データを生成する。

A critical aspect of power systems research is the availability of suitable data, access to which is limited by privacy concerns and the sensitive nature of energy infrastructure. This lack of data, in turn, hinders the development of modern research avenues such as machine learning approaches or stochastic formulations. To overcome this challenge, this paper proposes a systematic, data-driven framework for reconstructing high-fidelity time series, using publicly-available grid snapshots and historical data published by transmission system operators. The proposed approach, from geo-spatial data and generation capacity reconstruction, to time series disaggregation, is applied to the French transmission grid. Thereby, synthetic but highly realistic time series data, spanning multiple years with a 5-minute granularity, is generated at the individual component level.
翻訳日:2021-10-27 16:29:08 公開日:2021-10-26
# 自動エンコーダを用いたプライバシー保護型マルチドメインレコメンダシステム

Privacy-Preserving Multi-Target Multi-Domain Recommender Systems with Assisted AutoEncoders ( http://arxiv.org/abs/2110.13340v1 )

ライセンス: Link先を確認
Enmao Diao, Vahid Tarokh, Jie Ding(参考訳) Recommender Systems(RC)における長年の課題は、ユーザがほとんどアイテムを評価しないときにしばしば発生するデータ空間の問題である。 マルチターゲットマルチドメインレコメンダシステム(MTMDR)は,複数のドメインにおけるレコメンデーション性能を同時に向上することを目的としている。 既存の作業では、異なるドメインのデータを完全に共有でき、計算を集中的に行うことができると仮定している。 しかし、多くの現実的なシナリオでは、個別のレコメンデータシステムは異なる組織によって運用され、プライベートデータ、モデル、レコメンデーションタスクの共有は許可されない。 本研究は,組織学習者がセンシティブな資産を共有することなく,同時にレコメンデーション性能を向上させるための支援型オートエンコーダ(aae)と多目的学習(mtal)に基づくmtmdrを提案する。 さらに、AAEは、明示的または暗黙的なフィードバック、ユーザまたはアイテムベースのアライメント、およびサイド情報の有無を許容するため、幅広いアプリケーション範囲を持っています。 広範な実験により,各ドメインがローカルにトレーニングされている場合を有意に上回り,全データを共有する集中型トレーニングと競合することを示した。 その結果、AAEは異なるドメインの組織を効果的に統合し、共有関心のコミュニティを形成することができる。

A long-standing challenge in Recommender Systems (RCs) is the data sparsity problem that often arises when users rate very few items. Multi-Target Multi-Domain Recommender Systems (MTMDR) aim to improve the recommendation performance in multiple domains simultaneously. The existing works assume that the data of different domains can be fully shared, and the computation can be performed in a centralized manner. However, in many realistic scenarios, separate recommender systems are operated by different organizations, which do not allow the sharing of private data, models, and recommendation tasks. This work proposes an MTMDR based on Assisted AutoEncoders (AAE) and Multi-Target Assisted Learning (MTAL) to help organizational learners improve their recommendation performance simultaneously without sharing sensitive assets. Moreover, AAE has a broad application scope since it allows explicit or implicit feedback, user- or item-based alignment, and with or without side information. Extensive experiments demonstrate that our method significantly outperforms the case where each domain is locally trained, and it performs competitively with the centralized training where all data are shared. As a result, AAE can effectively integrate organizations from different domains to form a community of shared interest.
翻訳日:2021-10-27 16:13:59 公開日:2021-10-26
# パラメータ化PDEのための物理インフォームドニューラルネットワーク(PINN)-メタラーニングアプローチ

Physics-Informed Neural Networks (PINNs) for Parameterized PDEs: A Metalearning Approach ( http://arxiv.org/abs/2110.13361v1 )

ライセンス: Link先を確認
Michael Penwarden, Shandian Zhe, Akil Narayan, Robert M. Kirby(参考訳) 偏微分方程式(PDE)を離散化するための物理インフォームドニューラルネットワーク(PINN)は、CS&E(Computational Science and Engineering)の世界において注目されている。 現在、PINNには、調整可能なパラメータに対する精度と収束特性の理解と、PINNを他の計算科学ツールと同じくらい効率的にする最適化戦略の同定の2つの課題が存在する。 pinnsトレーニングのコストは、物理インフォームド機械学習(piml)や、マシンラーニング(ml)全般において、依然として大きな課題となっている。 本論文は、パラメータ化PDEのためのPINNの研究を通して、後者に対処することを目的としている。 ML の世界に続き,パラメータ化 PDE のための PINN のメタラーニングを導入する。 メタラーニングとトランスファー学習の概念を導入することで、pinns最適化プロセスを大幅に加速することができる。 本稿では,モデル非依存型メタラーニングに関する調査を行い,pinnに適用したモデル認識型メタラーニングについて述べる。 メタラーニングアプローチを可能にする理論的な動機付けと実証的な裏付けを提供する。 次に、新しいPINN文献で提示された様々な標準前方パラメータ化PDEについて、本手法を検証した。

Physics-informed neural networks (PINNs) as a means of discretizing partial differential equations (PDEs) are garnering much attention in the Computational Science and Engineering (CS&E) world. At least two challenges exist for PINNs at present: an understanding of accuracy and convergence characteristics with respect to tunable parameters and identification of optimization strategies that make PINNs as efficient as other computational science tools. The cost of PINNs training remains a major challenge of Physics-informed Machine Learning (PiML) -- and, in fact, machine learning (ML) in general. This paper is meant to move towards addressing the latter through the study of PINNs for parameterized PDEs. Following the ML world, we introduce metalearning of PINNs for parameterized PDEs. By introducing metalearning and transfer learning concepts, we can greatly accelerate the PINNs optimization process. We present a survey of model-agnostic metalearning, and then discuss our model-aware metalearning applied to PINNs. We provide theoretically motivated and empirically backed assumptions that make our metalearning approach possible. We then test our approach on various canonical forward parameterized PDEs that have been presented in the emerging PINNs literature.
翻訳日:2021-10-27 16:13:35 公開日:2021-10-26
# MarS-FL:Federated Learningに参加するためのマーケットシェアベースの意思決定支援フレームワーク

MarS-FL: A Market Share-based Decision Support Framework for Participation in Federated Learning ( http://arxiv.org/abs/2110.13464v1 )

ライセンス: Link先を確認
Xiaohu Wu and Han Yu(参考訳) フェデレートラーニング(FL)は、複数の参加者(PT)がデータを共有せずに集約的で強力な学習モデルを構築することを可能にする。 主要なアプリケーションシナリオの1つは、市場シェアがPTの競争力を表す競争市場である。 市場シェアの発展におけるflの役割を理解することは、ptsによるflの採用を進める上で重要な役割を果たす。 モデリングの面では、FLの状況に一般的な経済モデルを適用し、FLの生存可能性とFLの市場受容性を測定するために$\delta$-stable Marketとフレンドリーな2つの概念を導入する。 さらに,FLデザイナとPTの関連意思決定問題に対処する。 まず,各ptがflに参加する過程を非協力的ゲームとして特徴付け,その支配的戦略を証明する。 第2に、FLデザイナとして、各PTの最終的なモデルパフォーマンス改善は、特定のFLアプリケーションシナリオの市場条件に関係し、市場を維持するのに十分な条件である$Q$を与え、フレンドラインを$\kappa$に定量化する。 Q$という条件は特定の要件を与え、FLデザイナはPTのパフォーマンス改善を割り当てます。 oligopoly の典型的な場合、$q$ と $\kappa$ の閉形式式が与えられる。 最後に, 幅広い市場条件下でのflの有効性を示すために, 数値的な結果が得られた。 本研究は, 最適PT戦略, FLデザイナの実行可能な運用空間, FLが特に有益である市場条件の同定に有効である。

Federated learning (FL) enables multiple participants (PTs) to build an aggregate and more powerful learning model without sharing data, thus maintaining data privacy and security. Among the key application scenarios is a competitive market where market shares represent PTs' competitiveness. An understanding of the role of FL in evolving market shares plays a key role in advancing the adoption of FL by PTs. In terms of modeling, we adapt a general economic model to the FL context and introduce two notions of $\delta$-stable market and friendliness to measure the viability of FL and the market acceptability to FL. Further, we address related decision-making issues with FL designer and PTs. First, we characterize the process by which each PT participates in FL as a non-cooperative game and prove its dominant strategy. Second, as an FL designer, the final model performance improvement of each PT should be bounded, which relates to the market conditions of a particular FL application scenario; we give a sufficient and necessary condition $Q$ to maintain the market $\delta$-stability and quantify the friendliness $\kappa$. The condition $Q$ gives a specific requirement while an FL designer allocates performance improvements among PTs. In a typical case of oligopoly, closed-form expressions of $Q$ and $\kappa$ are given. Finally, numerical results are given to show the viability of FL in a wide range of market conditions. Our results help identify optimal PT strategies, the viable operational space of an FL designer, and the market conditions under which FL is especially beneficial.
翻訳日:2021-10-27 16:13:19 公開日:2021-10-26
# dpdkを用いた分散強化学習体験サンプリングのための高速化手法

A DPDK-Based Acceleration Method for Experience Sampling of Distributed Reinforcement Learning ( http://arxiv.org/abs/2110.13506v1 )

ライセンス: Link先を確認
Masaki Furukawa, Hiroki Matsutani(参考訳) 複数の計算ノードを相互接続するコンピューティングクラスタは、dqn(deep q-network)に基づく分散強化学習を加速するために使用される。 分散強化学習では、アクターノードは所定の環境と相互作用して経験を得、学習ノードはDQNモデルを最適化する。 アクタノードと学習ノード間のデータ転送はアクタノードの数とそのエクスペリエンスサイズによって増加するため、アクタノード間の通信オーバーヘッドは大きなパフォーマンスボトルネックの1つである。 本稿では, DPDKベースのネットワーク最適化により通信が高速化され, 40GbE (40Gbit Ethernet)ネットワークに接続されたActorノードとLearnerノードの間に, DPDKベースの低レイテンシ体験リプレイメモリサーバが配置される。 評価の結果、ネットワーク最適化手法として、DPDKによるカーネルバイパスは共有メモリサーバへのネットワークアクセスレイテンシを32.7%削減し58.9%に削減した。 別のネットワーク最適化手法として、アクタノードと学習ノード間のネットワーク内エクスペリエンスリプレイメモリサーバは、エクスペリエンスリプレイメモリへのアクセス遅延を11.7%から28.1%に削減し、優先されたエクスペリエンスサンプリングのための通信遅延を21.9%から29.1%に削減する。

A computing cluster that interconnects multiple compute nodes is used to accelerate distributed reinforcement learning based on DQN (Deep Q-Network). In distributed reinforcement learning, Actor nodes acquire experiences by interacting with a given environment and a Learner node optimizes their DQN model. Since data transfer between Actor and Learner nodes increases depending on the number of Actor nodes and their experience size, communication overhead between them is one of major performance bottlenecks. In this paper, their communication is accelerated by DPDK-based network optimizations, and DPDK-based low-latency experience replay memory server is deployed between Actor and Learner nodes interconnected with a 40GbE (40Gbit Ethernet) network. Evaluation results show that, as a network optimization technique, kernel bypassing by DPDK reduces network access latencies to a shared memory server by 32.7% to 58.9%. As another network optimization technique, an in-network experience replay memory server between Actor and Learner nodes reduces access latencies to the experience replay memory by 11.7% to 28.1% and communication latencies for prioritized experience sampling by 21.9% to 29.1%.
翻訳日:2021-10-27 16:12:04 公開日:2021-10-26
# Qu-ANTI-zation:敵対的成果を達成するための量子化アーティファクトの爆発

Qu-ANTI-zation: Exploiting Quantization Artifacts for Achieving Adversarial Outcomes ( http://arxiv.org/abs/2110.13541v1 )

ライセンス: Link先を確認
Sanghyun Hong, Michael-Andrei Panaitescu-Liess, Yi\u{g}itcan Kaya, Tudor Dumitra\c{s}(参考訳) 量子化(quantization)は、ニューラルネットワークのパラメータ表現を浮動小数点数から低い精度(例えば8ビット整数)に変換する一般的なテクニックである。 これにより、メモリフットプリントと推論の計算コストが削減され、リソースハングモデルのデプロイが容易になる。 しかし、この変換によって引き起こされるパラメータの摂動は、量子化前後のモデル間で$behavioral$$dispari ties$となる。 例えば、量子化モデルは、他の方法で正しく分類されたテスト時間サンプルを誤って分類することができる。 このような違いが新たなセキュリティ脆弱性につながるかどうかは不明だ。 我々は、敵対者がこの格差を制御し、量子化時に活性化する特定の行動を導入することができると仮定する。 この仮説を研究するために,量子化認識トレーニングを武器化し,逆量子化結果を実現するための新しい学習枠組みを提案する。 この枠組みに従うと、量子化で行う3つの攻撃を示す。 (i)相当な精度の損失に対する無差別な攻撃 (ii)特定の試料に対する標的攻撃 (iii)入力トリガーでモデルを制御するバックドア攻撃。 さらに,単一モデルが複数の量子化スキーム(ロバスト量子化手法を含む)を打ち破ることを示した。 さらに,フェデレーション学習シナリオでは,コンスパイアした悪意のある参加者が,量子化によって活性化されたバックドアを注入できることを実証する。 最後に,潜在的な対策策を議論し,再トレーニングのみが攻撃成果物を取り除くことを実証する。 私たちのコードはhttps://github.com/S ecure-AI-Systems-Gro up/Qu-ANTI-zationで利用可能です。

Quantization is a popular technique that $transforms$ the parameter representation of a neural network from floating-point numbers into lower-precision ones ($e.g.$, 8-bit integers). It reduces the memory footprint and the computational cost at inference, facilitating the deployment of resource-hungry models. However, the parameter perturbations caused by this transformation result in $behavioral$ $disparities$ between the model before and after quantization. For example, a quantized model can misclassify some test-time samples that are otherwise classified correctly. It is not known whether such differences lead to a new security vulnerability. We hypothesize that an adversary may control this disparity to introduce specific behaviors that activate upon quantization. To study this hypothesis, we weaponize quantization-aware training and propose a new training framework to implement adversarial quantization outcomes. Following this framework, we present three attacks we carry out with quantization: (i) an indiscriminate attack for significant accuracy loss; (ii) a targeted attack against specific samples; and (iii) a backdoor attack for controlling the model with an input trigger. We further show that a single compromised model defeats multiple quantization schemes, including robust quantization techniques. Moreover, in a federated learning scenario, we demonstrate that a set of malicious participants who conspire can inject our quantization-activat ed backdoor. Lastly, we discuss potential counter-measures and show that only re-training consistently removes the attack artifacts. Our code is available at https://github.com/S ecure-AI-Systems-Gro up/Qu-ANTI-zation
翻訳日:2021-10-27 16:11:39 公開日:2021-10-26
# 非インタラクティブデータ駆動モデル還元法を用いた実時間人間応答予測

Real-time Human Response Prediction Using a Non-intrusive Data-driven Model Reduction Scheme ( http://arxiv.org/abs/2110.13583v1 )

ライセンス: Link先を確認
Jonas Kneifl, Julian Hay, J\"org Fehr(参考訳) 近年の非侵入型データ駆動モデルオーダーリダクション(MOR)の研究は、パラメータ化常微分方程式(ODE)の正確かつ効率的な近似を可能にした。 しかし、以前の研究では定数パラメータに重点を置いていたが、時間依存パラメータは無視されている。 本稿では,この問題に取り組むために,新たな2段階モースキームを提案する。 最初のステップでは、シミュレーションデータの最も重要な特徴を抽出する高次元ODEソリューションの低次元表現を計算するために、古典的MORアプローチを適用した。 この表現に基づいて、長い短期記憶(LSTM)を訓練し、第2ステップで減少するダイナミクスを反復的に予測する。 これにより、各時間ステップ中にパラメータを考慮に入れることができる。 このアプローチのポテンシャルは、自動車運転シナリオ内の占有モデル上で実証される。 時間変動加速度に対する低減モデルの応答は、限られた時間で高い精度で参照データと一致する。 さらに、リアルタイム機能を実現する。 その結果,提案手法は近似パラメータ化ODEに適しており,共通手法と対照的に時間依存パラメータを扱えることがわかった。

Recent research in non-intrusive data-driven model order reduction (MOR) enabled accurate and efficient approximation of parameterized ordinary differential equations (ODEs). However, previous studies have focused on constant parameters, whereas time-dependent parameters have been neglected. The purpose of this paper is to introduce a novel two-step MOR scheme to tackle this issue. In a first step, classic MOR approaches are applied to calculate a low-dimensional representation of high-dimensional ODE solutions, i.e. to extract the most important features of simulation data. Based on this representation, a long short-term memory (LSTM) is trained to predict the reduced dynamics iteratively in a second step. This enables the parameters to be taken into account during the respective time step. The potential of this approach is demonstrated on an occupant model within a car driving scenario. The reduced model's response to time-varying accelerations matches the reference data with high accuracy for a limited amount of time. Furthermore, real-time capability is achieved. Accordingly, it is concluded that the presented method is well suited to approximate parameterized ODEs and can handle time-dependent parameters in contrast to common methods.
翻訳日:2021-10-27 16:11:18 公開日:2021-10-26
# スマートグリッドアプリケーションにおける自動機械学習の概念

Concepts for Automated Machine Learning in Smart Grid Applications ( http://arxiv.org/abs/2110.13585v1 )

ライセンス: Link先を確認
Stefan Meisenbacher, Janik Pinter, Tim Martin, Veit Hagenmeyer, Ralf Mikut(参考訳) 間違いなく、利用可能なデータと競合する機械学習アルゴリズムの増加は、エネルギーシステムにおけるデータ駆動モデリングの人気を高めている。 応用は再生可能エネルギーとエネルギー消費の予測である。 エネルギー消費セクターは電力システムに柔軟性を加えることで電力貯蔵の課題に対処するために発電セクターと相互接続される。 しかし、エネルギーシステムにおける機械学習手法の大規模適用は、機械学習の専門知識とアプリケーションプロセスの深い理解を網羅する専門家の知識の必要性に障害がある。 プロセス知識は、問題の形式化やモデルの検証、適用に必要です。 機械学習のスキルは、処理ステップを含む i) データ前処理 二 特色工学、抽出及び選択 iii)アルゴリズムの選択, 四 ハイパーパラメータの最適化及び可能 五 モデルの出力の後処理 特定のアプリケーションにモデルを配置するには、データの選択、さまざまな候補モデルの設計、処理ステップ間のデータフローの整理、最も適切なモデルの選択、運用中のモデル監視、反復的かつ時間を要する手順が必要です。 機械学習の自動設計と運用は、データ駆動モデルの需要増加に対応するための人的努力を減らすことを目的としている。 自動走行車両のSAE標準に沿った予測のための5つの自動化レベルを定義し、手動設計と応用は自動化レベル0を反映する。

Undoubtedly, the increase of available data and competitive machine learning algorithms has boosted the popularity of data-driven modeling in energy systems. Applications are forecasts for renewable energy generation and energy consumption. Forecasts are elementary for sector coupling, where energy-consuming sectors are interconnected with the power-generating sector to address electricity storage challenges by adding flexibility to the power system. However, the large-scale application of machine learning methods in energy systems is impaired by the need for expert knowledge, which covers machine learning expertise and a profound understanding of the application's process. The process knowledge is required for the problem formalization, as well as the model validation and application. The machine learning skills include the processing steps of i) data pre-processing, ii) feature engineering, extraction, and selection, iii) algorithm selection, iv) hyperparameter optimization, and possibly v) post-processing of the model's output. Tailoring a model for a particular application requires selecting the data, designing various candidate models and organizing the data flow between the processing steps, selecting the most suitable model, and monitoring the model during operation - an iterative and time-consuming procedure. Automated design and operation of machine learning aim to reduce the human effort to address the increasing demand for data-driven models. We define five levels of automation for forecasting in alignment with the SAE standard for autonomous vehicles, where manual design and application reflect Automation level 0.
翻訳日:2021-10-27 16:11:01 公開日:2021-10-26
# TME-BNA : 隣接アグリゲーションを用いた一時的モチフ保存ネットワーク

TME-BNA: Temporal Motif-Preserving Network Embedding with Bicomponent Neighbor Aggregation ( http://arxiv.org/abs/2110.13596v1 )

ライセンス: Link先を確認
Ling Chen, Da Wang, Dandan Lyu, Xing Tang, Hongyu Shi(参考訳) 時間ネットワークの進化は、ソーシャルネットワークやeコマースなど、多くの現実の動的システムの抽象化として機能する。 時間的ネットワーク埋め込みの目的は、リンク予測やノード分類など、下流タスクの時間発展する低次元ベクトルに各ノードをマッピングすることである。 時間的ネットワークの埋め込みの難しさは、時間的ネットワークの進化を捉えるためにトポロジーと時間情報を協調的に利用する方法にある。 この課題に対応するために,TME-BNA という2成分の隣接アグリゲーションを用いた時間的モチーフ保存ネットワーク埋め込み手法を提案する。 時間的モチーフが時間的ネットワークの位相法則や機能的性質の理解に不可欠であることを考えると、TME-BNAは時間的モチーフに基づいて追加のエッジ特徴を構築し、時間的情報とともに複雑なトポロジーを明示的に活用する。 ノードのトポロジのダイナミクスを捉えるため、TME-BNAはグラフニューラルネットワーク(GNN)を使用して、接続されたエッジのタイムスタンプに応じて、それぞれの履歴と現在の隣人を集約する。 3つの公共時間ネットワークデータセットを用いて実験を行い,TME-BNAの有効性を示した。

Evolving temporal networks serve as the abstractions of many real-life dynamic systems, e.g., social network and e-commerce. The purpose of temporal network embedding is to map each node to a time-evolving low-dimension vector for downstream tasks, e.g., link prediction and node classification. The difficulty of temporal network embedding lies in how to utilize the topology and time information jointly to capture the evolution of a temporal network. In response to this challenge, we propose a temporal motif-preserving network embedding method with bicomponent neighbor aggregation, named TME-BNA. Considering that temporal motifs are essential to the understanding of topology laws and functional properties of a temporal network, TME-BNA constructs additional edge features based on temporal motifs to explicitly utilize complex topology with time information. In order to capture the topology dynamics of nodes, TME-BNA utilizes Graph Neural Networks (GNNs) to aggregate the historical and current neighbors respectively according to the timestamps of connected edges. Experiments are conducted on three public temporal network datasets, and the results show the effectiveness of TME-BNA.
翻訳日:2021-10-27 16:10:40 公開日:2021-10-26
# PARIS:睡眠改善のための個人化活動勧告

PARIS: Personalized Activity Recommendation for Improving Sleep Quality ( http://arxiv.org/abs/2110.13745v1 )

ライセンス: Link先を確認
Meghna Singh, Saksham Goel, Abhiraj Mohan, Louis Kazaglis and Jaideep Srivastava(参考訳) 睡眠の質は人々の身体的および精神的な健康に大きな影響を及ぼす。 睡眠不足の人は、身体的および精神的な苦痛、活動の制限、不安、痛みを報告しやすい。 さらに、ここ数年、活動監視や健康管理のためのアプリケーションやデバイスが爆発的に増えている。 これらのウェアラブルデバイスから収集された信号は、睡眠品質の研究と改善に使用できる。 本稿では,身体活動と睡眠の質の関係を利用して,機械学習技術を用いて睡眠改善を支援する方法を提案する。 人は通常、生体機能を分割できるいくつかの行動モードを持っている。 アクティビティデータに基づいて時系列クラスタリングを行うと、特定の対象に対して最も明白な行動モードと相関するクラスタセンターが見つかる。 アクティビティレシピが生成されると、各クラスタ内の各動作モードの睡眠品質が向上する。 これらのアクティビティレシピはアクティビティレコメンデーションエンジンに提供され、日常のルーチン中に被験者にリラックスして集中的なアクティビティを混合することを提案します。 推奨は、睡眠の質の向上を目的とし、年齢、性別、体重指数(BMI)、安静時心拍数など、被験者のライフスタイルの制約に基づいてさらにパーソナライズされる。 これは、心拍数を下げたり、睡眠の全体的な品質を改善したりといった長期的な健康目標に役立ちます。

The quality of sleep has a deep impact on people's physical and mental health. People with insufficient sleep are more likely to report physical and mental distress, activity limitation, anxiety, and pain. Moreover, in the past few years, there has been an explosion of applications and devices for activity monitoring and health tracking. Signals collected from these wearable devices can be used to study and improve sleep quality. In this paper, we utilize the relationship between physical activity and sleep quality to find ways of assisting people improve their sleep using machine learning techniques. People usually have several behavior modes that their bio-functions can be divided into. Performing time series clustering on activity data, we find cluster centers that would correlate to the most evident behavior modes for a specific subject. Activity recipes are then generated for good sleep quality for each behavior mode within each cluster. These activity recipes are supplied to an activity recommendation engine for suggesting a mix of relaxed to intense activities to subjects during their daily routines. The recommendations are further personalized based on the subjects' lifestyle constraints, i.e. their age, gender, body mass index (BMI), resting heart rate, etc, with the objective of the recommendation being the improvement of that night's quality of sleep. This would in turn serve a longer-term health objective, like lowering heart rate, improving the overall quality of sleep, etc.
翻訳日:2021-10-27 16:09:07 公開日:2021-10-26
# 不均一時間グラフニューラルネットワーク

Heterogeneous Temporal Graph Neural Network ( http://arxiv.org/abs/2110.13889v1 )

ライセンス: Link先を確認
Yujie Fan, Mingxuan Ju, Chuxu Zhang, Liang Zhao, Yanfang Ye(参考訳) グラフニューラルネットワーク(gnns)は、その表現学習のために動的グラフに広く研究されており、その大半は空間領域に均質な構造を持つグラフに焦点を当てている。 しかし、多くの現実世界の graphsi.e。 ヘテロジニアス・テンポラルグラフ(HTG)は、ヘテロジニアス・グラフ構造において動的に進化する。 異種性に関連するダイナミクスは、htg表現学習に新たな課題をもたらした。 そこで本稿では,HTG上でノード表現を学習する不均一性を保ちながら,空間的および時間的依存を両立させるヘテロジニアス時間グラフニューラルネットワーク(HTGNN)を提案する。 具体的には,htgnnの各層において,ヘテロジニアスな空間的依存性と時間的次元を協調的にモデル化する階層的集約機構を提案する。 この不均一性を維持するために、まずHTGの各スライス上で相関内アグリゲーションを行い、同じ種類の関係を持つ隣人の情報を注意深く集約し、その後、相関内アグリゲーションを利用して異なる種類の関係に関する情報を収集し、時間的依存関係を処理するために、HTG上の異なるグラフスライス間で情報交換を行う。 提案したHTGNNは、HTG表現学習のための時間と空間の進化を伴う不均一性に適した全体論的フレームワークである。 実世界の異なるデータセットから構築したHTGに対して大規模な実験を行い、最先端のベースラインと比較して、HTGNNの優れた性能を示す有望な結果を得た。 私たちの構築したHTGとコードは、https://github.com/Y esLab-Code/HTGNNで公開されています。

Graph neural networks (GNNs) have been broadly studied on dynamic graphs for their representation learning, majority of which focus on graphs with homogeneous structures in the spatial domain. However, many real-world graphs - i.e., heterogeneous temporal graphs (HTGs) - evolve dynamically in the context of heterogeneous graph structures. The dynamics associated with heterogeneity have posed new challenges for HTG representation learning. To solve this problem, in this paper, we propose heterogeneous temporal graph neural network (HTGNN) to integrate both spatial and temporal dependencies while preserving the heterogeneity to learn node representations over HTGs. Specifically, in each layer of HTGNN, we propose a hierarchical aggregation mechanism, including intra-relation, inter-relation, and across-time aggregations, to jointly model heterogeneous spatial dependencies and temporal dimensions. To retain the heterogeneity, intra-relation aggregation is first performed over each slice of HTG to attentively aggregate information of neighbors with the same type of relation, and then intra-relation aggregation is exploited to gather information over different types of relations; to handle temporal dependencies, across-time aggregation is conducted to exchange information across different graph slices over the HTG. The proposed HTGNN is a holistic framework tailored heterogeneity with evolution in time and space for HTG representation learning. Extensive experiments are conducted on the HTGs built from different real-world datasets and promising results demonstrate the outstanding performance of HTGNN by comparison with state-of-the-art baselines. Our built HTGs and code have been made publicly accessible at: https://github.com/Y esLab-Code/HTGNN.
翻訳日:2021-10-27 16:08:45 公開日:2021-10-26
# deep dic: エンドツーエンド変位とひずみ測定のためのディープラーニングベースのデジタル画像相関

Deep DIC: Deep Learning-Based Digital Image Correlation for End-to-End Displacement and Strain Measurement ( http://arxiv.org/abs/2110.13720v1 )

ライセンス: Link先を確認
Ru Yang, Yang Li, Danielle Zeng, Ping Guo(参考訳) デジタル画像相関(DIC)は, 引張試験などの材料特性評価において, 正確な変位・ひずみ測定を行うための業界標準となっている。 従来のDICは、一般的な引張試験ケースの変形を高精度に推定するが、大きな変形やスペックルパターンが破れ始めると予測が不安定になる。 加えて、従来の dic は長い計算時間を必要とし、フィルタリングやスペックルパターンの品質に影響された低い空間分解能の出力をしばしば発生する。 そこで本研究では,2つの畳み込みニューラルネットワークであるdislocationnet と strainnet を併用して,変位・ひずみのエンドツーエンド予測を行うdeep dic 手法を提案する。 DisplacementNetは、変位場を予測し、関心領域の変化を適応的に追跡する。 strainnetは、変位予測に頼ることなく、画像入力から直接ひずみ場を予測し、ひずみ予測精度を大幅に向上させる。 人工スペックルパターン,ランダムに生成された変位・ひずみ場,与えられた変形に基づく変形画像を含む,現実的で包括的なデータセットを合成する新しいデータセット生成法を提案する。 提案されたDeep DICは、純粋に合成データセットに基づいて訓練されるが、シミュレーションデータと実験データの両方で実行されるように設計されている。 その性能は体系的に評価され、商用のdicソフトウェアと比較される。 ディープDICは、商業用DICソフトウェアから得られたものとの変位とひずみの高度に一貫した予測を提供する一方で、大規模かつ局所的な変形やパターン特性の異なる場合でも、非常に堅牢なひずみ予測で商業用ソフトウェアより優れている。

Digital image correlation (DIC) has become an industry standard to retrieve accurate displacement and strain measurement in tensile testing and other material characterization. Though traditional DIC offers a high precision estimation of deformation for general tensile testing cases, the prediction becomes unstable at large deformation or when the speckle patterns start to tear. In addition, traditional DIC requires a long computation time and often produces a low spatial resolution output affected by filtering and speckle pattern quality. To address these challenges, we propose a new deep learning-based DIC approach -- Deep DIC, in which two convolutional neural networks, DisplacementNet and StrainNet, are designed to work together for end-to-end prediction of displacements and strains. DisplacementNet predicts the displacement field and adaptively tracks the change of a region of interest. StrainNet predicts the strain field directly from the image input without relying on the displacement prediction, which significantly improves the strain prediction accuracy. A new dataset generation method is proposed to synthesize a realistic and comprehensive dataset including artificial speckle patterns, randomly generated displacement and strain fields, and deformed images based on the given deformation. Proposed Deep DIC is trained purely on a synthetic dataset, but designed to perform both on simulated and experimental data. Its performance is systematically evaluated and compared with commercial DIC software. Deep DIC gives highly consistent and comparable predictions of displacement and strain with those obtained from commercial DIC software, while it outperforms commercial software with very robust strain prediction even with large and localized deformation and varied pattern qualities.
翻訳日:2021-10-27 16:07:57 公開日:2021-10-26
# (参考訳) プログレッシブネットワークを用いたリアルタイム焦点偏光イメージングシステム [全文訳有]

Real-time division-of-focal-pl ane polarization imaging system with progressive networks ( http://arxiv.org/abs/2110.13823v1 )

ライセンス: CC BY 4.0
Rongyuan Wu, Yongqiang Zhao, Ning Li, and Seong G.Kong(参考訳) 近年,多くの分野に焦点偏光イメージング技術が応用されている。 しかし、このようなセンサーが捉えた画像は、即時視野誤差や解像度の低い問題に悩まされるため、直接は利用できない。 本稿では,navidia jetson tx2のようなエッジサイドgpuデバイス用に特別に設計された,progressive polarization demosaicing convolutional neural network (ppdn)を提案する高速dofp復調システムを構築する。 提案するネットワークは,復元段階と精製段階の2つの部分からなる。 前者は、単一のDoFP画像から4つの分極チャネルを復元する。 後者は4つのチャネルを微調整し、より正確な分極情報を得る。 PPDNは別のバージョンで実装できる: PPDN-L (large) - ハイ・コンピューティング・リソースのプラットフォーム用。 実験により、PDNはパラメータが少なく、推論速度が速く、撮像システムのリアルタイム要求を満たす最も優れた既存の手法と競合できることが示された。

Division-of-focal-pl ane (DoFP) polarization imaging technical recently has been applied in many fields. However, the images captured by such sensors cannot be used directly because they suffer from instantaneous field-of-view errors and low resolution problem. This paper builds a fast DoFP demosaicing system with proposed progressive polarization demosaicing convolutional neural network (PPDN), which is specifically designed for edge-side GPU devices like Navidia Jetson TX2. The proposed network consists of two parts: reconstruction stage and refining stage. The former recovers four polarization channels from a single DoFP image. The latter fine-tune the four channels to obtain more accurate polarization information. PPDN can be implemented in another version: PPDN-L (large), for the platforms of high computing resources. Experiments show that PPDN can compete with the best existing methods with fewer parameters and faster inference speed and meet the real-time demands of imaging system.
翻訳日:2021-10-27 16:05:45 公開日:2021-10-26
# 変動情報ボトルネックを用いた因果効果推定

Causal Effect Estimation using Variational Information Bottleneck ( http://arxiv.org/abs/2110.13705v1 )

ライセンス: Link先を確認
Zhenyu Lu, Yurong Cheng, Mingjun Zhong, George Stoian, Ye Yuan and Guoren Wang(参考訳) 因果推論とは、介入が適用されるときの因果関係における因果効果を推定することである。 正確には、二元的介入(制御と治療)を伴う因果的モデルでは、因果的効果は単に事実と反事実の差である。 難しいのは、その反事実が決して得られないことであり、従って因果効果は推定値に過ぎなかったことである。 カウンターファクトを推定する上で重要な課題は、結果と治療の両方に影響を及ぼす共同ファウンダーを特定することだ。 典型的なアプローチは、教師付き学習問題として因果推論を定式化することである。 線形回帰やディープラーニングモデルを含む最近の機械学習手法は因果推論に適応している。 本稿では,変分情報ボトルネック(CEVIB)を用いて因果効果を推定する手法を提案する。 期待できる点は、VIBが自然にデータから共起変数を抽出することができ、観測データを用いて因果効果を推定できるということである。 我々は,CEVIBを3つのデータセットに適用することにより,CEVIBを他の手法と比較した。 また,本手法のロバスト性についても実験的に示した。

Causal inference is to estimate the causal effect in a causal relationship when intervention is applied. Precisely, in a causal model with binary interventions, i.e., control and treatment, the causal effect is simply the difference between the factual and counterfactual. The difficulty is that the counterfactual may never been obtained which has to be estimated and so the causal effect could only be an estimate. The key challenge for estimating the counterfactual is to identify confounders which effect both outcomes and treatments. A typical approach is to formulate causal inference as a supervised learning problem and so counterfactual could be predicted. Including linear regression and deep learning models, recent machine learning methods have been adapted to causal inference. In this paper, we propose a method to estimate Causal Effect by using Variational Information Bottleneck (CEVIB). The promising point is that VIB is able to naturally distill confounding variables from the data, which enables estimating causal effect by using observational data. We have compared CEVIB to other methods by applying them to three data sets showing that our approach achieved the best performance. We also experimentally showed the robustness of our method.
翻訳日:2021-10-27 15:49:38 公開日:2021-10-26
# コントラスト学習によるGNNの過剰処理

Tackling Oversmoothing of GNNs with Contrastive Learning ( http://arxiv.org/abs/2110.13798v1 )

ライセンス: Link先を確認
Lecheng Zheng, Dongqi Fu, Jingrui He(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータの包括的な関係とニューラルネットワークの表現学習能力を統合し、最も人気のあるディープラーニング手法のひとつであり、自然言語処理やコンピュータビジョンなどの多くのアプリケーションで最先端のパフォーマンスを達成する。 実世界のシナリオでは、GNNの深さ(すなわち層数)を増大させることで、入力データに対するより潜伏した知識を捉え、欠落した値による不確実性を軽減する必要がある。 しかし、より複雑な構造やパラメータを含むと、GNNモデルの性能は低下する。 オーバースムーシング(oversmoothing)と呼ばれる理由が最近紹介されているが、関連する研究はまだ始まったばかりである。 一般に、オーバースムーシングはノードの最終的な表現を識別不能にし、ノード分類とリンク予測性能を劣化させる。 本稿では,現状のデオーバ・スムーシング法をまず調査し,デオーバ・スムーシング法,すなわち一定発散指標,簡易発散指標,モデル非依存戦略を評価するための3つの主要な指標を提案する。 次に,3つの指標すべてを保持する最初のデオーバモーニング法であるtgclと呼ばれるトポロジー誘導グラフコントラスト層を提案する。 対照的な学習方法により,提案したTGCLの有効性を理論的に解析する。 最後に,最先端のベースラインと比較して,TGCLの実証性能を示す広範な実験を設計する。

Graph neural networks (GNNs) integrate the comprehensive relation of graph data and the representation learning capability of neural networks, which is one of the most popular deep learning methods and achieves state-of-the-art performance in many applications, such as natural language processing and computer vision. In real-world scenarios, increasing the depth (i.e., the number of layers) of GNNs is sometimes necessary to capture more latent knowledge of the input data to mitigate the uncertainty caused by missing values. However, involving more complex structures and more parameters will decrease the performance of GNN models. One reason called oversmoothing is recently introduced but the relevant research remains nascent. In general, oversmoothing makes the final representations of nodes indiscriminative, thus deteriorating the node classification and link prediction performance. In this paper, we first survey the current de-oversmoothing methods and propose three major metrics to evaluate a de-oversmoothing method, i.e., constant divergence indicator, easy-to-determine divergence indicator, and model-agnostic strategy. Then, we propose the Topology-guided Graph Contrastive Layer, named TGCL, which is the first de-oversmoothing method maintaining all three mentioned metrics. With the contrastive learning manner, we provide the theoretical analysis of the effectiveness of the proposed TGCL. Last but not least, we design extensive experiments to illustrate the empirical performance of TGCL comparing with state-of-the-art baselines.
翻訳日:2021-10-27 15:49:19 公開日:2021-10-26
# ヒンジ政策最適化:政策改善とPPOの再検討

Hinge Policy Optimization: Rethinking Policy Improvement and Reinterpreting PPO ( http://arxiv.org/abs/2110.13799v1 )

ライセンス: Link先を確認
Hsuan-Yu Yao, Ping-Chun Hsieh, Kuo-Hao Ho, Kai-Chun Hu, Liang-Chun Ouyang, I-Chen Wu(参考訳) 政策最適化は、強化学習アルゴリズムを設計するための基本原理であり、そのシンプルさと有効性から、深い強化学習に広く用いられているクリッピングサロゲート目的 (PPO-clip) を持つ近似的政策最適化アルゴリズムである。 優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。 本稿では,政策最適化を再考し,ヒンジ政策最適化(HPO)に基づくPPO-clip理論を再解釈し,ヒンジ損失による政策改善を訴える。 具体的には、まず国家政策改善の十分な条件を特定し、その後、政策更新をヒンジロスを伴う大規模分類問題の解決として再考する。 各種の分類器を活用することで、PPO-clipを含むポリシーベースのアルゴリズムの全く新しいファミリーを特別なケースとして開放する。 この構成に基づき、これらのアルゴリズムが漸近的にグローバルに最適なポリシーに達することを証明する。 我々の知る限り、これはPPO-clipの変種に対する最適ポリシーへのグローバル収束を証明できる初めてのものである。 我々は,実験とアブレーション研究を通じて,様々なHPOアルゴリズムの性能を相関づける。

Policy optimization is a fundamental principle for designing reinforcement learning algorithms, and one example is the proximal policy optimization algorithm with a clipped surrogate objective (PPO-clip), which has been popularly used in deep reinforcement learning due to its simplicity and effectiveness. Despite its superior empirical performance, PPO-clip has not been justified via theoretical proof up to date. This paper proposes to rethink policy optimization and reinterpret the theory of PPO-clip based on hinge policy optimization (HPO), called to improve policy by hinge loss in this paper. Specifically, we first identify sufficient conditions of state-wise policy improvement and then rethink policy update as solving a large-margin classification problem with hinge loss. By leveraging various types of classifiers, the proposed design opens up a whole new family of policy-based algorithms, including the PPO-clip as a special case. Based on this construct, we prove that these algorithms asymptotically attain a globally optimal policy. To our knowledge, this is the first ever that can prove global convergence to an optimal policy for a variant of PPO-clip. We corroborate the performance of a variety of HPO algorithms through experiments and an ablation study.
翻訳日:2021-10-27 15:48:53 公開日:2021-10-26
# 協調ポリシー最適化による自己駆動粒子システムシミュレーションの学習

Learning to Simulate Self-Driven Particles System with Coordinated Policy Optimization ( http://arxiv.org/abs/2110.13827v1 )

ライセンス: Link先を確認
Zhenghao Peng, Quanyi Li, Ka Ming Hui, Chunxiao Liu, Bolei Zhou(参考訳) 自己駆動粒子 (Self-Driven Particles, SDP) は、鳥類の群れや交通の流れなど、日常生活に共通するマルチエージェントシステムのカテゴリである。 SDPシステムでは、各エージェントは自身の目標を追求し、近くのエージェントと協調的または競争的な振る舞いを常に変更する。 このようなSDPシステムのコントローラを手動で設計するのは時間を要するが、結果として生じる行動は現実的で一般化できないことが多い。 したがって、SDPシステムの現実的なシミュレーションは依然として困難である。 強化学習は、SDP用コントローラの開発を自動化するための魅力的な代替手段を提供する。 しかし、従来のマルチエージェント強化学習(MARL)手法では、エージェントを手前のチームメイトや敵と定義しており、各エージェントの役割が1回でも協調的または競争的であるようなSDPの本質を捉えていない。 MARLでSDPをシミュレートするには、エージェントの行動を調整し、個々の目的を最大化する。 本研究は,交通シミュレーションをテストベッドとし,SDPの神経制御を学習するための社会心理学的原理を取り入れた,CoPO(Coordinated Policy Optimization)と呼ばれる新しいMARL手法を開発した。 実験により,提案手法は様々な指標においてMARLベースラインよりも優れた性能が得られることが示された。 訓練された車両は、人口全体のパフォーマンスと安全性を向上させる複雑な多様な社会的行動を示す。 デモビデオとソースコードは、https://decisionforc e.github.io/copo/で入手できる。

Self-Driven Particles (SDP) describe a category of multi-agent systems common in everyday life, such as flocking birds and traffic flows. In a SDP system, each agent pursues its own goal and constantly changes its cooperative or competitive behaviors with its nearby agents. Manually designing the controllers for such SDP system is time-consuming, while the resulting emergent behaviors are often not realistic nor generalizable. Thus the realistic simulation of SDP systems remains challenging. Reinforcement learning provides an appealing alternative for automating the development of the controller for SDP. However, previous multi-agent reinforcement learning (MARL) methods define the agents to be teammates or enemies before hand, which fail to capture the essence of SDP where the role of each agent varies to be cooperative or competitive even within one episode. To simulate SDP with MARL, a key challenge is to coordinate agents' behaviors while still maximizing individual objectives. Taking traffic simulation as the testing bed, in this work we develop a novel MARL method called Coordinated Policy Optimization (CoPO), which incorporates social psychology principle to learn neural controller for SDP. Experiments show that the proposed method can achieve superior performance compared to MARL baselines in various metrics. Noticeably the trained vehicles exhibit complex and diverse social behaviors that improve performance and safety of the population as a whole. Demo video and source code are available at: https://decisionforc e.github.io/CoPO/
翻訳日:2021-10-27 15:48:33 公開日:2021-10-26
# 平均回帰学習とオプションによる計画

Average-Reward Learning and Planning with Options ( http://arxiv.org/abs/2110.13855v1 )

ライセンス: Link先を確認
Yi Wan, Abhishek Naik, Richard S. Sutton(参考訳) 我々は,減算マルコフ決定過程(MDP)から平均回帰MDPへの強化学習における時間的抽象化の枠組みを拡張した。 コントリビューションには、一般の外部選択型学習アルゴリズム、学習値とモデルのためのオプション内アルゴリズム、および学習アルゴリズムのサンプルベースの計画バリエーションが含まれている。 我々のアルゴリズムと収束証明は、最近Wan, Naik, Suttonによって開発されたものを拡張する。 また,オプション中断行動の概念を,ディスカウントから平均回帰定式化まで拡張する。 本稿では,提案アルゴリズムの有効性を,Four-Roomドメインの継続バージョンに対する実験により示す。

We extend the options framework for temporal abstraction in reinforcement learning from discounted Markov decision processes (MDPs) to average-reward MDPs. Our contributions include general convergent off-policy inter-option learning algorithms, intra-option algorithms for learning values and models, as well as sample-based planning variants of our learning algorithms. Our algorithms and convergence proofs extend those recently developed by Wan, Naik, and Sutton. We also extend the notion of option-interrupting behavior from the discounted to the average-reward formulation. We show the efficacy of the proposed algorithms with experiments on a continuing version of the Four-Room domain.
翻訳日:2021-10-27 15:48:07 公開日:2021-10-26
# モーメント・コンディション・バリアを破る:超大型ペイオフバンドの非回帰アルゴリズム

Breaking the Moments Condition Barrier: No-Regret Algorithm for Bandits with Super Heavy-Tailed Payoffs ( http://arxiv.org/abs/2110.13876v1 )

ライセンス: Link先を確認
Han Zhong, Jiayi Huang, Lin F. Yang, Liwei Wang(参考訳) 機械学習における重み付きエラーの処理には多大な労力がかかるが、エラーのモーメントが存在しない場合はほとんど知られていない: ランダムノイズ $\eta$ satisfies Pr$\left[|\eta| > |y|\right] \le 1/|y|^{\alpha}$ for some $\alpha > 0$。 我々は,このような超重み付き雑音をバンディット学習問題において積極的に扱うための最初の試みとして,経験的中央値列の経験平均を計算し,確率変数を推定する新しい頑健な統計推定器,中央値平均を提案する。 次に,バンディット学習問題(多腕および線形バンディット問題を含む)を解決するための汎用的還元主義的アルゴリズムフレームワークを提案する。 報酬信号に対するブラックボックスフィルタリングとして,ほぼすべてのバンディット学習アルゴリズムに適用できる。 非常に重い音でも、後悔の限界はほぼ最適であることを示す。 また,提案アルゴリズムの有効性を実証的に実証し,理論的結果をさらに裏付ける。

Despite a large amount of effort in dealing with heavy-tailed error in machine learning, little is known when moments of the error can become non-existential: the random noise $\eta$ satisfies Pr$\left[|\eta| > |y|\right] \le 1/|y|^{\alpha}$ for some $\alpha > 0$. We make the first attempt to actively handle such super heavy-tailed noise in bandit learning problems: We propose a novel robust statistical estimator, mean of medians, which estimates a random variable by computing the empirical mean of a sequence of empirical medians. We then present a generic reductionist algorithmic framework for solving bandit learning problems (including multi-armed and linear bandit problem): the mean of medians estimator can be applied to nearly any bandit learning algorithm as a black-box filtering for its reward signals and obtain similar regret bound as if the reward is sub-Gaussian. We show that the regret bound is near-optimal even with very heavy-tailed noise. We also empirically demonstrate the effectiveness of the proposed algorithm, which further corroborates our theoretical results.
翻訳日:2021-10-27 15:47:58 公開日:2021-10-26
# 時系列の深部明示的継続時間切替モデル

Deep Explicit Duration Switching Models for Time Series ( http://arxiv.org/abs/2110.13878v1 )

ライセンス: Link先を確認
Abdul Fatir Ansari, Konstantinos Benidis, Richard Kurle, Ali Caner Turkmen, Harold Soh, Alexander J. Smola, Yuyang Wang, Tim Januschowski(参考訳) 多くの複雑な時系列は、永続力学を示す異なるレギュレーションに効果的に分割することができる。 これらのレジームにおけるスイッチング挙動と統計パターンの発見は、基礎となる力学系を理解する上で重要である。 本稿では,状態依存と時間依存の切り替えを両立できるフレキシブルモデルであるRecurrent Explicit Duration Switching Dynamical System (RED-SDS)を提案する。 状態依存スイッチングは、繰り返し状態-スイッチ接続によって可能となり、時間依存スイッチング動作を改善するために明示的な期間カウント変数が使用される。 提案手法は,連続状態の後部を推論ネットワークで近似し,離散スイッチとカウントの正確な推論を行うハイブリッドアルゴリズムを用いて,効率的な推論を行う方法を示す。 このモデルは、推論ルーチンの副産物として効率的に計算できる限界ログ類似性のモンテカルロ下限を最大化することによって訓練される。 複数のデータセットに対する実験結果から,RED-SDSは時系列セグメンテーションおよび競合予測性能において,技術状況に対する大幅な改善を実現することが示された。

Many complex time series can be effectively subdivided into distinct regimes that exhibit persistent dynamics. Discovering the switching behavior and the statistical patterns in these regimes is important for understanding the underlying dynamical system. We propose the Recurrent Explicit Duration Switching Dynamical System (RED-SDS), a flexible model that is capable of identifying both state- and time-dependent switching dynamics. State-dependent switching is enabled by a recurrent state-to-switch connection and an explicit duration count variable is used to improve the time-dependent switching behavior. We demonstrate how to perform efficient inference using a hybrid algorithm that approximates the posterior of the continuous states via an inference network and performs exact inference for the discrete switches and counts. The model is trained by maximizing a Monte Carlo lower bound of the marginal log-likelihood that can be computed efficiently as a byproduct of the inference routine. Empirical results on multiple datasets demonstrate that RED-SDS achieves considerable improvement in time series segmentation and competitive forecasting performance against the state of the art.
翻訳日:2021-10-27 15:47:35 公開日:2021-10-26
# 2層ネット上のグラディエントDescent:Margin MaximizationとSimplicity Bias

Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity Bias ( http://arxiv.org/abs/2110.13905v1 )

ライセンス: Link先を確認
Kaifeng Lyu, Zhiyuan Li, Runzhe Wang, Sanjeev Arora(参考訳) 過度にパラメータ化されたディープネットの一般化ミステリーは、勾配降下(GD)がよく一般化される低損失解にどのように収束するかを理解するために動機づけられた。 実生活のニューラルネットワークは、小さなランダムな値から初期化され、分類のためのクロスエントロピー損失(分析がより成功した「怠慢」や「NTK」の体系とは違って)で訓練され、最近の一連の結果(Lyu and Li, 2020; Chizat and Bach, 2020; Ji and Telgarsky, 2020)は、GDがゼロ損失の「マックスマージン」解に収束できるという理論的証拠を提供する。 しかし、マージンのグローバルな最適性は、ニューラルネットが無限にまたは指数関数的に広い設定でのみ証明される。 本論文は, 線形分離性と対称性によらず, 勾配流で訓練された2層リーク型リルーネットのこの大域的最適性を確立することができる。 この分析はまた、gdが線形あるいは他の「単純」な解のクラス、特にトレーニングの早い段階に対して、いわゆる単純バイアスについて、最近の経験的知見(kalimeris et al., 2019)に対する理論的正当性も与えている。 悲観的な側面から、論文はそのような結果は壊れやすいことを示唆している。 単純なデータ操作により、勾配フローを最適化マージンの線形分類器に収束させることができる。

The generalization mystery of overparametrized deep nets has motivated efforts to understand how gradient descent (GD) converges to low-loss solutions that generalize well. Real-life neural networks are initialized from small random values and trained with cross-entropy loss for classification (unlike the "lazy" or "NTK" regime of training where analysis was more successful), and a recent sequence of results (Lyu and Li, 2020; Chizat and Bach, 2020; Ji and Telgarsky, 2020) provide theoretical evidence that GD may converge to the "max-margin" solution with zero loss, which presumably generalizes well. However, the global optimality of margin is proved only in some settings where neural nets are infinitely or exponentially wide. The current paper is able to establish this global optimality for two-layer Leaky ReLU nets trained with gradient flow on linearly separable and symmetric data, regardless of the width. The analysis also gives some theoretical justification for recent empirical findings (Kalimeris et al., 2019) on the so-called simplicity bias of GD towards linear or other "simple" classes of solutions, especially early in training. On the pessimistic side, the paper suggests that such results are fragile. A simple data manipulation can make gradient flow converge to a linear classifier with suboptimal margin.
翻訳日:2021-10-27 15:47:15 公開日:2021-10-26
# AIはルールをどう解釈すべきか? 最小限の解釈的議論の防御

How Should AI Interpret Rules? A Defense of Minimally Defeasible Interpretive Argumentation ( http://arxiv.org/abs/2110.13341v1 )

ライセンス: Link先を確認
John Licato(参考訳) 人工知能システムはルールに従うことができるか? すべての(現在)aiが、高度に形式化され、明確に定義されたルールセットで構築されたプログラミングコードに従って厳密に行動するという意味で、この答えは明白な‘yes’に思える。 しかし、ここでは、法律、規則、行動規範、倫理ガイドラインなどの基礎となる、人間の言語で表現される規則の種類について言及します。 そのようなルールに従う能力、そしてそれらを推論する能力は、最初の分析で見られるほど明確ではない。 現実世界の規則は必然的にオープンテクスチャ付き用語で区切られ、その規則はおそらく無限の解釈を持つ。 このセットを絞り込むには、現在のAIの範囲内にない複雑な推論プロセスが必要です。 これは自律aiにとって深刻な問題となる。オープンテキストの用語を推論できない場合、現実世界のルールに合致する(あるいは従う)ことはできない。 そして、もし現実世界の規則について説明できないなら、人間法に従うこと、規則に従うこと、書面による合意に従って行動すること、あるいは簡単なこと以上のミッション固有の命令に従うことさえできない。 しかし、これらの問題に取り組む前に、私たちはまず、より根本的な質問に答えなければならない。 それとももっと正確に言えば、我々の人工知能システムはどの解釈を正しいと判断すべきか? このエッセイにおいて、私は以下の答えを擁護する: ルールに従うAIは、最小限のデファシブル解釈論(MDIA)によって最も支持される解釈に従って行動すべきである。

Can artificially intelligent systems follow rules? The answer might seem an obvious `yes', in the sense that all (current) AI strictly acts in accordance with programming code constructed from highly formalized and well-defined rulesets. But here I refer to the kinds of rules expressed in human language that are the basis of laws, regulations, codes of conduct, ethical guidelines, and so on. The ability to follow such rules, and to reason about them, is not nearly as clear-cut as it seems on first analysis. Real-world rules are unavoidably rife with open-textured terms, which imbue rules with a possibly infinite set of possible interpretations. Narrowing down this set requires a complex reasoning process that is not yet within the scope of contemporary AI. This poses a serious problem for autonomous AI: If one cannot reason about open-textured terms, then one cannot reason about (or in accordance with) real-world rules. And if one cannot reason about real-world rules, then one cannot: follow human laws, comply with regulations, act in accordance with written agreements, or even obey mission-specific commands that are anything more than trivial. But before tackling these problems, we must first answer a more fundamental question: Given an open-textured rule, what is its correct interpretation? Or more precisely: How should our artificially intelligent systems determine which interpretation to consider correct? In this essay, I defend the following answer: Rule-following AI should act in accordance with the interpretation best supported by minimally defeasible interpretive arguments (MDIA).
翻訳日:2021-10-27 15:46:04 公開日:2021-10-26
# 音声音声翻訳における評価基準の評価

Assessing Evaluation Metrics for Speech-to-Speech Translation ( http://arxiv.org/abs/2110.13877v1 )

ライセンス: Link先を確認
Elizabeth Salesky, Julian M\"ader, Severin Klinger(参考訳) 音声音声翻訳は、機械翻訳と音声合成を組み合わせて、どちらのタスクにも存在しない評価課題を導入する。 音声から音声への翻訳を自動的に評価する方法は、これまで検討されていないオープンな質問である。 テキストではなく音声に翻訳することは、しばしば標準化された正書法を使わずに書かれた言語や言語によって動機づけられる。 しかし,本稿では,これまで使用されていた自動メトリクスが,標準化された高リソース言語のみに最も適していることを示す。 本研究では,まず音声音声翻訳の現在の指標を評価し,第2に,標準言語よりも方言変種への翻訳が様々な評価方法に与える影響を評価する。

Speech-to-speech translation combines machine translation with speech synthesis, introducing evaluation challenges not present in either task alone. How to automatically evaluate speech-to-speech translation is an open question which has not previously been explored. Translating to speech rather than to text is often motivated by unwritten languages or languages without standardized orthographies. However, we show that the previously used automatic metric for this task is best equipped for standardized high-resource languages only. In this work, we first evaluate current metrics for speech-to-speech translation, and second assess how translation to dialectal variants rather than to standardized languages impacts various evaluation methods.
翻訳日:2021-10-27 15:45:37 公開日:2021-10-26
# WavLM:フルスタック音声処理のための大規模自己監督型事前訓練

WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing ( http://arxiv.org/abs/2110.13900v1 )

ライセンス: Link先を確認
Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Micheal Zeng, Furu Wei(参考訳) 自己教師付き学習(SSL)は音声認識において大きな成功を収め、他の音声処理タスクに対しては限定的な探索が試みられている。 音声信号には、話者識別、パラ言語学、音声コンテンツなど多面的情報が含まれているため、全ての音声タスクの普遍表現を学ぶことは困難である。 本稿では,フルスタックのダウンストリーム音声タスクを解決するための新しい事前学習モデルwavlmを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。 まず, トランス構造にゲート相対位置バイアスを適用し, 認識タスクの能力を向上させる。 話者識別を改善するために,モデルの学習中に重なり合う発話を教師なしに生成し,組み込む発話混合訓練戦略を提案する。 最後に、トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、トレーニング手順を最適化して表現抽出を改善する。 WavLM LargeはSUPERBベンチマークで最先端のパフォーマンスを実現し、代表ベンチマークで様々な音声処理タスクに大幅な改善をもたらす。

Self-supervised learning (SSL) achieves great success in speech recognition, while limited exploration has been attempted for other speech processing tasks. As speech signal contains multi-faceted information including speaker identity, paralinguistics, spoken content, etc., learning universal representations for all speech tasks is challenging. In this paper, we propose a new pre-trained model, WavLM, to solve full-stack downstream speech tasks. WavLM is built based on the HuBERT framework, with an emphasis on both spoken content modeling and speaker identity preservation. We first equip the Transformer structure with gated relative position bias to improve its capability on recognition tasks. For better speaker discrimination, we propose an utterance mixing training strategy, where additional overlapped utterances are created unsupervisely and incorporated during model training. Lastly, we scale up the training dataset from 60k hours to 94k hours of public audio data, and optimize its training procedure for better representation extraction. WavLM Large achieves state-of-the-art performance on the SUPERB benchmark, and brings significant improvements for various speech processing tasks on their representative benchmarks.
翻訳日:2021-10-27 15:45:25 公開日:2021-10-26
# カメラを用いた生理センシング : 課題と今後の展望

Camera-Based Physiological Sensing: Challenges and Future Directions ( http://arxiv.org/abs/2110.13362v1 )

ライセンス: Link先を確認
Xin Liu, Shwetak Patel, Daniel McDuff(参考訳) 最近の人工知能(AI)のアルゴリズムの進歩によって、多くの現実世界の応用が推進されている。 ヘルスケアは例外ではなく、AI技術は業界に革命をもたらす大きな可能性を秘めている。 リモート光胸腺撮影(remote photoplethysmography , RPPG)は、通常のRGBカメラ(例えばウェブカメラやスマートフォンカメラ)を利用して、生理学的プロセスによって反射される身体からの電磁波(例えば、光)の微妙な変化を捉える画像のセットである。 カメラの相対的なユビキタス性のため、これらの方法は、身体に接触せずに信号を計測するだけでなく、同じセンサーから複数のモーダル情報(例えば、表情、アクティビティ、その他のコンテキスト)をキャプチャする機会を持っている。 しかし、アクセシブルで公平で有用なカメラベースの生理学的センシングシステムの開発には様々な課題が伴う。 本稿では、カメラベースの生理学的センシングとより広範なAI駆動型医療コミュニティの分野における4つの研究課題を特定し、これらに取り組むための今後の方向性を提案する。 これらの課題の解決は、現実と臨床の状況において実践的な医療のための正確で公平で汎用的なAIシステムを実現するのに役立ちます。

Numerous real-world applications have been driven by the recent algorithmic advancement of artificial intelligence (AI). Healthcare is no exception and AI technologies have great potential to revolutionize the industry. Non-contact camera-based physiological sensing, including remote photoplethysmography (rPPG), is a set of imaging methods that leverages ordinary RGB cameras (e.g., webcam or smartphone camera) to capture subtle changes in electromagnetic radiation (e.g., light) reflected by the body caused by physiological processes. Because of the relative ubiquity of cameras, these methods not only have the ability to measure the signals without contact with the body but also have the opportunity to capture multimodal information (e.g., facial expressions, activities and other context) from the same sensor. However, developing accessible, equitable and useful camera-based physiological sensing systems comes with various challenges. In this article, we identify four research challenges for the field of camera-based physiological sensing and broader AI driven healthcare communities and suggest future directions to tackle these. We believe solving these challenges will help deliver accurate, equitable and generalizable AI systems for healthcare that are practical in real-world and clinical contexts.
翻訳日:2021-10-27 15:43:29 公開日:2021-10-26
# 持続的エントロピーとニューラルネットワークを用いた音声映像における感情認識

Emotion recognition in talking-face videos using persistent entropy and neural networks ( http://arxiv.org/abs/2110.13571v1 )

ライセンス: Link先を確認
Eduardo Paluzo-Hidalgo, Guillermo Aguirre-Carrazana, Rocio Gonzalez-Diaz(参考訳) 人の感情状態の自動認識は、人工知能、コンピュータビジョン、心理学など、さまざまな分野の科学者が関与する非常に活発な研究分野となっている。 この研究の主な目的は、永続的エントロピーとニューラルネットワークを主要なツールとして、会話のビデオから感情を認識し分類する、新しいアプローチを開発することです。 具体的には、音声信号と画像シーケンス情報を組み合わせて、各ビデオのトポロジーシグネチャ(9次元ベクトル)を計算する。 ビデオの小さな変化は、署名に小さな変化をもたらすことを証明している。 これらのトポロジカルなシグネチャは、ニューラルネットワークに餌を与え、以下の感情を区別するために使用される: 中性、穏やか、幸福、悲しい、怒り、恐れ、嫌悪、驚き。 成果は有望で競争力があり、文献にある他の最先端作品のパフォーマンスを上回っています。

The automatic recognition of a person's emotional state has become a very active research field that involves scientists specialized in different areas such as artificial intelligence, computer vision or psychology, among others. Our main objective in this work is to develop a novel approach, using persistent entropy and neural networks as main tools, to recognise and classify emotions from talking-face videos. Specifically, we combine audio-signal and image-sequence information to compute a topology signature(a 9-dimensional vector) for each video. We prove that small changes in the video produce small changes in the signature. These topological signatures are used to feed a neural network to distinguish between the following emotions: neutral, calm, happy, sad, angry, fearful, disgust, and surprised. The results reached are promising and competitive, beating the performance reached in other state-of-the-art works found in the literature.
翻訳日:2021-10-27 15:42:12 公開日:2021-10-26
# NeRV: ビデオのためのニューラル表現

NeRV: Neural Representations for Videos ( http://arxiv.org/abs/2110.13903v1 )

ライセンス: Link先を確認
Hao Chen, Bo He, Hanyu Wang, Yixuan Ren, Ser-Nam Lim, Abhinav Shrivastava(参考訳) 本稿では,ニューラルネットワークに映像をエンコードするビデオ用ニューラル表現(nerv)を提案する。 ビデオをフレームシーケンスとして扱う従来の表現とは異なり、ビデオはフレームインデックスを入力とするニューラルネットワークとして表現する。 フレームインデックスが与えられた場合、NeRVは対応するRGB画像を出力する。 NeRVのビデオ符号化は、単にニューラルネットワークをビデオフレームに適合させることであり、デコーディングプロセスは単純なフィードフォワード操作である。 画像単位の暗示表現として、NeRVは画像全体を出力し、ピクセル単位の暗示表現と比較して高い効率を示し、符号化速度を25倍から70倍、復号速度を38倍から132倍に改善し、画質の向上を実現した。 このような表現によって、ビデオはニューラルネットワークとして扱うことができ、複数のビデオ関連タスクを単純化できる。 例えば、従来のビデオ圧縮手法は、タスク用に特別に設計された長く複雑なパイプラインによって制限される。 対照的に、NERVでは、任意のニューラルネットワーク圧縮をビデオ圧縮のプロキシとして使用することができ、従来のフレームベースのビデオ圧縮アプローチ(H.264, HEVC \etc)と同等のパフォーマンスを実現することができる。 圧縮に加えて,ビデオデノーミングのためのNeRVの一般化を示す。 ソースコードと事前トレーニングされたモデルはhttps://github.com/h aochen-rye/NeRV.git. comにある。

We propose a novel neural representation for videos (NeRV) which encodes videos in neural networks. Unlike conventional representations that treat videos as frame sequences, we represent videos as neural networks taking frame index as input. Given a frame index, NeRV outputs the corresponding RGB image. Video encoding in NeRV is simply fitting a neural network to video frames and decoding process is a simple feedforward operation. As an image-wise implicit representation, NeRV output the whole image and shows great efficiency compared to pixel-wise implicit representation, improving the encoding speed by 25x to 70x, the decoding speed by 38x to 132x, while achieving better video quality. With such a representation, we can treat videos as neural networks, simplifying several video-related tasks. For example, conventional video compression methods are restricted by a long and complex pipeline, specifically designed for the task. In contrast, with NeRV, we can use any neural network compression method as a proxy for video compression, and achieve comparable performance to traditional frame-based video compression approaches (H.264, HEVC \etc). Besides compression, we demonstrate the generalization of NeRV for video denoising. The source code and pre-trained model can be found at https://github.com/h aochen-rye/NeRV.git.
翻訳日:2021-10-27 15:41:55 公開日:2021-10-26
# (参考訳) x-cornerチェスボード検出器を用いたピラミッド型ぼやけ検出 [全文訳有]

Pyramidal Blur Aware X-Corner Chessboard Detector ( http://arxiv.org/abs/2110.13793v1 )

ライセンス: CC BY 4.0
Peter Abeles(参考訳) カメラの解像度が向上し、ロボットプラットフォームを理想的な環境以下で迅速に再調整する必要があるため、より高速で堅牢なチェスボードフィデューシャルマーカー検出器が必要である。 高分解能画像、焦点/動きのぼやき、厳しい照明条件、背景クラッタなどに特化した新しいチェス盤検出器が提案されている。 これは新しいx-corner検出器を使用して実現され、初めてぼかしを推定し、コーナーのローカライズ、エッジ検証、接続性を高める新しい方法で使用する。 パフォーマンスは、複数のサードパーティデータセットを組み合わせて作成された多様なイメージセットを使用して測定され、他のライブラリと比較される。 提案された検出器はF1-Scoreが0.97で、次の最速よりも1.9倍速く動作し、コーナー精度の最高性能であり、全てのシナリオで一貫した性能を持つ唯一の検出器である。

With camera resolution ever increasing and the need to rapidly recalibrate robotic platforms in less than ideal environments, there is a need for faster and more robust chessboard fiducial marker detectors. A new chessboard detector is proposed that is specifically designed for: high resolution images, focus/motion blur, harsh lighting conditions, and background clutter. This is accomplished using a new x-corner detector, where for the first time blur is estimated and used in a novel way to enhance corner localization, edge validation, and connectivity. Performance is measured and compared against other libraries using a diverse set of images created by combining multiple third party datasets and including new specially crafted scenarios designed to stress the state-of-the-art. The proposed detector has the best F1- Score of 0.97, runs 1.9x faster than next fastest, and is a top performer for corner accuracy, while being the only detector to have consistent good performance in all scenarios.
翻訳日:2021-10-27 15:39:00 公開日:2021-10-26
# H-NeRF:人間の動作におけるレンダリングと時間再構成のための神経放射場

H-NeRF: Neural Radiance Fields for Rendering and Temporal Reconstruction of Humans in Motion ( http://arxiv.org/abs/2110.13746v1 )

ライセンス: Link先を確認
Hongyi Xu, Thiemo Alldieck, Cristian Sminchisescu(参考訳) 本研究では,低周波カメラや単眼ビデオで捉えた人間の動作をレンダリング・時間的(4D)再構成するためのH-NeRF,神経放射場について述べる。 nerfにインスパイアされたアプローチは、ニューラルネットワークのシーン表現、新しい視点合成、暗黙の統計幾何学的人間表現からアイデアを組み合わせる。 h-nerfは、観察対象の画像を新しいカメラビューと人間のポーズで正確に合成することができる。 空の空間で放射場を学習する代わりに、符号付き距離関数を用いて表される暗黙の人体モデルにそれを付加する。 これにより、スパースビューから情報を堅牢に融合し、テスト時に観測されたポーズやビューを超えて外挿することが可能になります。 さらに, 観測対象の構造(体と衣服の両方を含む)を共学習し, 放射場を幾何学的可算解に正則化するために幾何学的制約を適用する。 複数のデータセットに関する広範囲な実験によって、我々のアプローチの堅牢性と正確性が、ポーズとビューのスパースなトレーニングセットを超えた一般化能力を示している。

We present H-NeRF, neural radiance fields for rendering and temporal (4D) reconstruction of a human in motion as captured by a sparse set of cameras or even from a monocular video. Our NeRF-inspired approach combines ideas from neural scene representation, novel-view synthesis, and implicit statistical geometric human representations. H-NeRF allows to accurately synthesize images of the observed subject under novel camera views and human poses. Instead of learning a radiance field in empty space, we attach it to a structured implicit human body model, represented using signed distance functions. This allows us to robustly fuse information from sparse views and, at test time, to extrapolate beyond the observed poses or views. Moreover, we apply geometric constraints to co-learn the structure of the observed subject (including both body and clothing) and to regularize the radiance field to geometrical plausible solutions. Extensive experiments on multiple datasets demonstrate the robustness and accuracy of our approach and its generalization capabilities beyond the sparse training set of poses and views.
翻訳日:2021-10-27 15:26:26 公開日:2021-10-26
# 核検出と弱教師付きセグメンテーションのための軽量解釈可能な合成ネットワーク

A Light-weight Interpretable CompositionalNetwork for Nuclei Detection and Weakly-supervised Segmentation ( http://arxiv.org/abs/2110.13846v1 )

ライセンス: Link先を確認
Yixiao Zhang, Adam Kortylewski, Qing Liu, Seyoun Park, Benjamin Green, Elizabeth Engle, Guillermo Almodovar, Ryan Walk, Sigfredo Soto-Diaz, Janis Taube, Alex Szalay, and Alan Yuille(参考訳) ディープニューラルネットワークが広く適用されて以来、計算病理学の分野は大きな進歩を遂げている。 これらの深層ニューラルネットワークは通常、膨大なパラメータをトレーニングするために大量の注釈付きデータを必要とする。 しかしながら、大きな病理組織学データセットに注釈をつけるにはかなりの労力を要する。 スライド画像全体ではなく,特に孤立した核に部分的なアノテーションのみを必要とするデータ効率モデルを構築することを提案する。 バックボーンとして浅い特徴を利用し、軽量であるため、少数のデータがトレーニングに十分である。 さらに、それは生成的構成モデルであり、その予測において解釈可能性を楽しむ。 提案手法は,深層学習におけるデータ・ハングリー問題に対する代替手法となる可能性がある。

The field of computational pathology has witnessed great advancements since deep neural networks have been widely applied. These deep neural networks usually require large numbers of annotated data to train vast parameters. However, it takes significant effort to annotate a large histopathology dataset. We propose to build a data-efficient model, which only requires partial annotation, specifically on isolated nucleus, rather than on the whole slide image. It exploits shallow features as its backbone and is light-weight, therefore a small number of data is sufficient for training. What's more, it is a generative compositional model, which enjoys interpretability in its prediction. The proposed method could be an alternative solution for the data-hungry problem of deep learning methods.
翻訳日:2021-10-27 15:26:05 公開日:2021-10-26
# HR-RCNN:オブジェクト検出のための階層的関係推論

HR-RCNN: Hierarchical Relational Reasoning for Object Detection ( http://arxiv.org/abs/2110.13892v1 )

ライセンス: Link先を確認
Hao Chen, Abhinav Shrivastava(参考訳) 物体認識のためのニューラルネットワークにリレーショナル推論を組み込むことは、未解決の問題である。 関係推論のために多くの試みがなされているが、一般的には1種類の関係のみを考える。 例えば、自己注意(例えば非局所ネットワーク)による画素関係、特徴融合(例えば、特徴ピラミッドネットワーク)によるスケール関係、グラフ畳み込み(例えば、推論-RCNN)によるオブジェクト関係などである。 これらの関係を推論できるより一般的なフレームワークにはほとんど注意が払われていない。 本稿では,新しいグラフアテンションモジュール(GAM)を用いたオブジェクト検出のための階層型リレーショナル推論フレームワーク(HR-RCNN)を提案する。 このGAMは、グラフエッジを直接操作することで、異種ノード間の推論を可能にする簡潔なモジュールである。 異種関係を利用したHR-RCNNでは,オブジェクト検出とインスタンスセグメンテーションの両方においてCOCOデータセットが大幅に改善されている。

Incorporating relational reasoning in neural networks for object recognition remains an open problem. Although many attempts have been made for relational reasoning, they generally only consider a single type of relationship. For example, pixel relations through self-attention (e.g., non-local networks), scale relations through feature fusion (e.g., feature pyramid networks), or object relations through graph convolutions (e.g., reasoning-RCNN). Little attention has been given to more generalized frameworks that can reason across these relationships. In this paper, we propose a hierarchical relational reasoning framework (HR-RCNN) for object detection, which utilizes a novel graph attention module (GAM). This GAM is a concise module that enables reasoning across heterogeneous nodes by operating on the graph edges directly. Leveraging heterogeneous relationships, our HR-RCNN shows great improvement on COCO dataset, for both object detection and instance segmentation.
翻訳日:2021-10-27 15:25:54 公開日:2021-10-26
# 正弦波流:高速非可逆自己回帰流

Sinusoidal Flow: A Fast Invertible Autoregressive Flow ( http://arxiv.org/abs/2110.13344v1 )

ライセンス: Link先を確認
Yumou Wei(参考訳) 正規化フローは連続確率分布をモデリングする柔軟な方法を提供する。 正規化フローが持つべき3つの望ましい性質として,表現性,高速反転,ジャコビアン行列式を考える。 しかし、これらの特性の中で適切なバランスをとることができるフローモデルはほとんどない。 二乗正弦関数の凸和の積分が単射残差変換をもたらすことを認識し、バナッハの不動点定理によって保証されながら完全自己回帰流から表現力と三角ヤコビアンを継承し、完全自己回帰流において通常必要とされる逐次インバージョンの必要性を回避できる新しいタイプの正弦波流を提案する。 実験の結果,Sinusoidal Flowは複雑な分布をモデル化できるだけでなく,多数の変換層を積み重ねた場合でも,現実的なサンプルを生成するために確実に逆転できることがわかった。

Normalising flows offer a flexible way of modelling continuous probability distributions. We consider expressiveness, fast inversion and exact Jacobian determinant as three desirable properties a normalising flow should possess. However, few flow models have been able to strike a good balance among all these properties. Realising that the integral of a convex sum of sinusoidal functions squared leads to a bijective residual transformation, we propose Sinusoidal Flow, a new type of normalising flows that inherits the expressive power and triangular Jacobian from fully autoregressive flows while guaranteed by Banach fixed-point theorem to remain fast invertible and thereby obviate the need for sequential inversion typically required in fully autoregressive flows. Experiments show that our Sinusoidal Flow is not only able to model complex distributions, but can also be reliably inverted to generate realistic-looking samples even with many layers of transformations stacked.
翻訳日:2021-10-27 15:22:25 公開日:2021-10-26
# 多次元関係を持つ多数のタスクに対する多面階層型マルチタスク学習

Multi-Faceted Hierarchical Multi-Task Learning for a Large Number of Tasks with Multi-dimensional Relations ( http://arxiv.org/abs/2110.13365v1 )

ライセンス: Link先を確認
Junning Liu, Zijie Xia, Yu Lei, Xinjian Li, Xu Wang(参考訳) マルチタスク学習(MTL)における共有学習の効率化に関する研究が数多く行われている。 以前の作業では、少数のタスクの"マイクロ"共有の観点から焦点を当てていたが、レコメンデータシステム(rs)や他のaiアプリケーションでは、多次元タスク関係を持つ多数のタスクをモデル化する必要がある場合が多い。 例えば、mtlを使ってrsの様々なユーザー動作をモデル化する場合、新しいユーザーと新しいアイテムを古いものと区別すると、多次元関係を持つタスクのデカルト的な製品スタイルが増加する。 本研究は,共有学習ネットワーク設計の「マクロ」視点を考察し,MFH(Multi-Faceted Hierarchical MTL model)を提案する。 MFHは、共有学習を最大化するネスト付き階層木構造とマルチ次元タスク関係を利用する。 我々は,100億サンプルの大規模産業ビデオプラットフォームにおけるmfhおよびsomaモデルを評価し,その結果,mfhは全ユーザグループにおけるオフラインおよびオンライン評価においてsata mtlモデルを大幅に上回り,特にオンラインユーザでは1ユーザあたりのアプリタイムが9.1\%,翌日の保持率は1.85\%と,特に顕著であった。 MFHは現在、大規模なオンラインビデオレコメンデーションシステムにデプロイされている。 MFHは、新しいユーザや新しいアイテムが"ローカルなオーバーフィット"現象に苦しむRSのコールドスタート問題に特に有益である。 しかし、このアイデアは実際には一般的なものであり、他のMTLシナリオにも広く適用できる。

There has been many studies on improving the efficiency of shared learning in Multi-Task Learning(MTL). Previous work focused on the "micro" sharing perspective for a small number of tasks, while in Recommender Systems(RS) and other AI applications, there are often demands to model a large number of tasks with multi-dimensional task relations. For example, when using MTL to model various user behaviors in RS, if we differentiate new users and new items from old ones, there will be a cartesian product style increase of tasks with multi-dimensional relations. This work studies the "macro" perspective of shared learning network design and proposes a Multi-Faceted Hierarchical MTL model(MFH). MFH exploits the multi-dimension task relations with a nested hierarchical tree structure which maximizes the shared learning. We evaluate MFH and SOTA models in a large industry video platform of 10 billion samples and results show that MFH outperforms SOTA MTL models significantly in both offline and online evaluations across all user groups, especially remarkable for new users with an online increase of 9.1\% in app time per user and 1.85\% in next-day retention rate. MFH now has been deployed in a large scale online video recommender system. MFH is especially beneficial to the cold-start problems in RS where new users and new items often suffer from a "local overfitting" phenomenon. However, the idea is actually generic and widely applicable to other MTL scenarios.
翻訳日:2021-10-27 15:22:06 公開日:2021-10-26
# 部分順序:不確実な特徴属性の一致を見つける

Partial order: Finding Consensus among Uncertain Feature Attributions ( http://arxiv.org/abs/2110.13369v1 )

ライセンス: Link先を確認
Gabriel Laberge, Yann Pequignot, Foutse Khomh, Mario Marchand, Alexandre Mathieu(参考訳) ポストホック機能の重要性は、複雑な機械学習モデルの決定を説明するために徐々に採用されている。 しかし、実際には、トレーニングアルゴリズムと/または説明器の再実行は、機能の重要性の矛盾するステートメントをもたらす可能性がある。 この問題に対処するための可能な手段は、機能の重要性に関するさまざまな説明を集約する戦略を開発することだ。 全順序を持つ算術平均は進歩してきたが、複数のモデル間のコンセンサスという別の方法を導入する。 この2つのアグリゲーション戦略を2つの回帰データセット上で統合的グラディエントとシェープリー値を用いて比較し、平均アグリゲーションが提供する情報の大部分は各モデルのコンセンサスによって支持されず、このプラクティスの信頼性に対する疑念を提起する。

Post-hoc feature importance is progressively being employed to explain decisions of complex machine learning models. Yet in practice, reruns of the training algorithm and/or the explainer can result in contradicting statements of feature importance, henceforth reducing trust in those techniques. A possible avenue to address this issue is to develop strategies to aggregate diverse explanations about feature importance. While the arithmetic mean, which yields a total order, has been advanced, we introduce an alternative: the consensus among multiple models, which results in partial orders. The two aggregation strategies are compared using Integrated Gradients and Shapley values on two regression datasets, and we show that a large portion of the information provided by the mean aggregation is not supported by the consensus of each individual model, raising suspicion on the trustworthiness of this practice.
翻訳日:2021-10-27 15:21:40 公開日:2021-10-26
# EnTRPO: エントロピー規則化による信頼領域政策最適化手法

EnTRPO: Trust Region Policy Optimization Method with Entropy Regularization ( http://arxiv.org/abs/2110.13373v1 )

ライセンス: Link先を確認
Sahar Roostaie, Mohammad Mehdi Ebadzadeh(参考訳) 信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、強化学習(RL)における政策探索アルゴリズムである。 連立政策を互いに近いものに制限する代理問題を反復的に解決した。 trpoはオンポリシーアルゴリズムである。 オンポリシーメソッドには、それぞれのポリシーを評価できるなど、多くのメリットがある。 しかし、彼らは通常、それまで存在した政策に関するすべての知識を捨てる。 本研究では、リプレイバッファを用いて、政治以外の学習環境からTRPOに借用する。 エントロピー正則化は通常、強化学習におけるポリシー最適化を改善するために使われる。 よりランダムな政策選択を奨励することで、探索と一般化を支援すると考えられている。 時間ステップで蓄積された {\pi} よりも有利なエントロピー正規化項をtrpoに付加する。 このアップデートをEnTRPOと呼びます。 実験により,entrpoはオリジナルのtrpoと比較してカートポール制御性能が向上することを示した。

Trust Region Policy Optimization (TRPO) is a popular and empirically successful policy search algorithm in reinforcement learning (RL). It iteratively solved the surrogate problem which restricts consecutive policies to be close to each other. TRPO is an on-policy algorithm. On-policy methods bring many benefits, like the ability to gauge each resulting policy. However, they typically discard all the knowledge about the policies which existed before. In this work, we use a replay buffer to borrow from the off-policy learning setting to TRPO. Entropy regularization is usually used to improve policy optimization in reinforcement learning. It is thought to aid exploration and generalization by encouraging more random policy choices. We add an Entropy regularization term to advantage over {\pi}, accumulated over time steps, in TRPO. We call this update EnTRPO. Our experiments demonstrate EnTRPO achieves better performance for controlling a Cart-Pole system compared with the original TRPO
翻訳日:2021-10-27 15:21:24 公開日:2021-10-26
# 非IIDデータを用いた半教師付きフェデレーション学習:アルゴリズムとシステム設計

Semi-Supervised Federated Learning with non-IID Data: Algorithm and System Design ( http://arxiv.org/abs/2110.13388v1 )

ライセンス: Link先を確認
Zhe Zhang, Shiyao Ma, Jiangtian Nie, Yi Wu, Qiang Yan, Xiaoke Xu and Dusit Niyato(参考訳) フェデレートラーニング(FL)は、エッジデバイス(またはクライアント)がデータをローカルに保持し、同時に高品質なグローバルモデルをトレーニングすることを可能にする。 しかし、現在の研究は一般的に、現地のクライアントのトレーニングデータが真面目であるという仮定に基づいている。 さらに、flは、統計的不均一性の課題、すなわち、クライアントのローカルトレーニングデータの分布は、非独立な同一分散(非iid)である。 本稿では,FLにおけるデータ可用性と非IIDの問題を解決することを目的とした,堅牢な半教師付きFLシステム設計を提案する。 特に本稿では,サーバ上のラベル付きデータとクライアント上のラベル付きデータのみを限定する,ラベル付きサーバのシナリオについて検討する。 本システム設計では,フェデレート混合 (fedmix) と呼ばれる問題に対処する新しい手法を提案する。 FedMix は、FL と半教師付き学習手法の単純な組み合わせを改善し、ラベル付き、ラベルなし、グローバルなモデルの解離学習のためのパラメータ分解戦略を設計する。 非iid問題を緩和するため,我々は,その頻度に応じて対応する局所モデルの重みを調整可能なfeedfreqアグリゲーションアルゴリズムという,クライアントのトレーニング参加頻度に基づく新しいアグリゲーションルールを提案する。 CIFAR-10データセットを総合評価した結果,提案手法の性能は現在のベースラインよりも有意に向上した。 当社のシステムは,非IIDレベルのクライアントデータに対して堅牢である点に注意が必要だ。

Federated Learning (FL) allows edge devices (or clients) to keep data locally while simultaneously training a shared high-quality global model. However, current research is generally based on an assumption that the training data of local clients have ground-truth. Furthermore, FL faces the challenge of statistical heterogeneity, i.e., the distribution of the client's local training data is non-independent identically distributed (non-IID). In this paper, we present a robust semi-supervised FL system design, where the system aims to solve the problem of data availability and non-IID in FL. In particular, this paper focuses on studying the labels-at-server scenario where there is only a limited amount of labeled data on the server and only unlabeled data on the clients. In our system design, we propose a novel method to tackle the problems, which we refer to as Federated Mixing (FedMix). FedMix improves the naive combination of FL and semi-supervised learning methods and designs parameter decomposition strategies for disjointed learning of labeled, unlabeled data, and global models. To alleviate the non-IID problem, we propose a novel aggregation rule based on the frequency of the client's participation in training, namely the FedFreq aggregation algorithm, which can adjust the weight of the corresponding local model according to this frequency. Extensive evaluations conducted on CIFAR-10 dataset show that the performance of our proposed method is significantly better than those of the current baseline. It is worth noting that our system is robust to different non-IID levels of client data.
翻訳日:2021-10-27 15:21:10 公開日:2021-10-26
# マルチサブジェクトニューロイメージングのための共有独立成分分析

Shared Independent Component Analysis for Multi-Subject Neuroimaging ( http://arxiv.org/abs/2110.13502v1 )

ライセンス: Link先を確認
Hugo Richard, Pierre Ablin, Bertrand Thirion, Alexandre Gramfort, Aapo Hyv\"arinen(参考訳) 共有応答モデリングは、複数のデータセットやビューから共通コンポーネントを識別したいという多視点学習問題である。 我々は,各ビューを混合ガウス雑音によって汚染された共有独立成分の線形変換としてモデル化する共有独立成分分析(shica)を提案する。 このモデルは, 成分が非ガウス的であるか, 雑音分散の多様性が十分ある場合, 同定可能であることを示す。 そこで, マルチセット正準相関解析により, 正しい混合行列を復元できることが示されるが, 少量のサンプリングノイズでも, マルチセットCCAは失敗する。 そこで本研究では,マルチセットCAA後の共同対角化手法を提案し,ShICA-Jと呼ばれる新しいアプローチを提案する。 シミュレーションにより,ShICA-Jは極めて高速に適合し,良好な結果が得られることを示す。 また,ShICA-Jは2次統計量に基づくものであるが,より正確かつ高コストなShICA-MLを用いて,コンポーネントの非ガウス性を活用することを提案する。 さらに、ShICAは共有コンポーネント推定の原則的な方法を備えている。 最後に,fmri と meg データセットにおいて,shica が代替品よりも正確な成分推定をもたらすことを実証的に示す。

We consider shared response modeling, a multi-view learning problem where one wants to identify common components from multiple datasets or views. We introduce Shared Independent Component Analysis (ShICA) that models each view as a linear transform of shared independent components contaminated by additive Gaussian noise. We show that this model is identifiable if the components are either non-Gaussian or have enough diversity in noise variances. We then show that in some cases multi-set canonical correlation analysis can recover the correct unmixing matrices, but that even a small amount of sampling noise makes Multiset CCA fail. To solve this problem, we propose to use joint diagonalization after Multiset CCA, leading to a new approach called ShICA-J. We show via simulations that ShICA-J leads to improved results while being very fast to fit. While ShICA-J is based on second-order statistics, we further propose to leverage non-Gaussianity of the components using a maximum-likelihood method, ShICA-ML, that is both more accurate and more costly. Further, ShICA comes with a principled method for shared components estimation. Finally, we provide empirical evidence on fMRI and MEG datasets that ShICA yields more accurate estimation of the components than alternatives.
翻訳日:2021-10-27 15:20:07 公開日:2021-10-26
# autodeuq: 不確実性定量化による自動ディープアンサンブル

AutoDEUQ: Automated Deep Ensemble with Uncertainty Quantification ( http://arxiv.org/abs/2110.13511v1 )

ライセンス: Link先を確認
Romain Egele, Romit Maulik, Krishnan Raghavan, Prasanna Balaprakash, Bethany Lusch(参考訳) ディープニューラルネットワークは、さまざまなタスクの強力な予測手段である。 しかし、直接不確かさを捉えていない。 ニューラルネットワークアンサンブルを使って不確実性を定量化することは、ベイジアンニューラルネットワークに基づくアプローチと競合すると同時に、より良い計算スケーラビリティの恩恵を受ける。 しかしながら、ニューラルネットワークのアンサンブルの構築は、アンサンブルの各メンバーに対して適切なニューラルネットワークアーキテクチャやハイパーパラメータを選択することに加えて、各モデルをトレーニングするコストが加算されるため、難しい作業である。 本稿では,深層ニューラルネットワークのアンサンブルを生成するための自動アプローチであるAutoDEUQを提案する。 提案手法は,結合型ニューラルアーキテクチャとハイパーパラメータ探索を利用してアンサンブルを生成する。 総分散の法則を用いて、深層アンサンブルの予測分散をアレエータ(データ)と認識(モデル)の不確かさに分解する。 我々は,AutoDEUQが確率論的バックプロパゲーション,モンテカルロのドロップアウト,ディープアンサンブル,分布自由アンサンブル,ハイパーアンサンブルメソッドを多くの回帰ベンチマークで上回ることを示す。

Deep neural networks are powerful predictors for a variety of tasks. However, they do not capture uncertainty directly. Using neural network ensembles to quantify uncertainty is competitive with approaches based on Bayesian neural networks while benefiting from better computational scalability. However, building ensembles of neural networks is a challenging task because, in addition to choosing the right neural architecture or hyperparameters for each member of the ensemble, there is an added cost of training each model. We propose AutoDEUQ, an automated approach for generating an ensemble of deep neural networks. Our approach leverages joint neural architecture and hyperparameter search to generate ensembles. We use the law of total variance to decompose the predictive variance of deep ensembles into aleatoric (data) and epistemic (model) uncertainties. We show that AutoDEUQ outperforms probabilistic backpropagation, Monte Carlo dropout, deep ensemble, distribution-free ensembles, and hyper ensemble methods on a number of regression benchmarks.
翻訳日:2021-10-27 15:19:44 公開日:2021-10-26
# 多次元リワード関数に対する分布強化学習

Distributional Reinforcement Learning for Multi-Dimensional Reward Functions ( http://arxiv.org/abs/2110.13578v1 )

ライセンス: Link先を確認
Pushi Zhang, Xiaoyu Chen, Li Zhao, Wei Xiong, Tao Qin, Tie-Yan Liu(参考訳) 値ベース強化学習(RL)アルゴリズムのトレンドは、値ネットワーク内のスカラー値関数よりも多くの情報を取得することである。 このブランチで最もよく知られている方法の1つは分布RLであり、スカラー値の代わりに分布をモデルとして返却する。 別の研究で、RLのハイブリッド報酬アーキテクチャ(HRA)は、各報酬源のソース固有値関数をモデル化し、性能にも有益であることを示した。 分散RLとハイブリッド報酬アーキテクチャの利点を完全に継承するために,分散RLを拡張した多次元分散DQN(MD3QN)を導入する。 共同分布モデリングの副産物として、MD3QNは報酬源ごとのリターンのランダム性だけでなく、異なるソースのランダム性の間のリッチな報酬相関も捉えることができる。 結合分布演算子の収束性を証明し、結合戻り分布とベルマン目標との最大平均差を最小化して経験的アルゴリズムを構築する。 実験では,多次元報酬関数を用いた前回のrl法と比較して,報奨関数が豊富な環境下での合同リターン分布を正確にモデル化した。

A growing trend for value-based reinforcement learning (RL) algorithms is to capture more information than scalar value functions in the value network. One of the most well-known methods in this branch is distributional RL, which models return distribution instead of scalar value. In another line of work, hybrid reward architectures (HRA) in RL have studied to model source-specific value functions for each source of reward, which is also shown to be beneficial in performance. To fully inherit the benefits of distributional RL and hybrid reward architectures, we introduce Multi-Dimensional Distributional DQN (MD3QN), which extends distributional RL to model the joint return distribution from multiple reward sources. As a by-product of joint distribution modeling, MD3QN can capture not only the randomness in returns for each source of reward, but also the rich reward correlation between the randomness of different sources. We prove the convergence for the joint distributional Bellman operator and build our empirical algorithm by minimizing the Maximum Mean Discrepancy between joint return distribution and its Bellman target. In experiments, our method accurately models the joint return distribution in environments with richly correlated reward functions, and outperforms previous RL methods utilizing multi-dimensional reward functions in the control setting.
翻訳日:2021-10-27 15:19:25 公開日:2021-10-26
# リアルタイム入札広告における検閲による任意分布モデリング

Arbitrary Distribution Modeling with Censorship in Real-Time Bidding Advertising ( http://arxiv.org/abs/2110.13587v1 )

ライセンス: Link先を確認
Xu Li, Michelle Ma Zhang, Youjun Tong, Zhenya Wang(参考訳) 在庫価格の目的は、オンライン広告の機会に適切な価格を入札することであり、リアルタイム入札(rtb)で広告オークションに勝つために需要側プラットフォーム(dsp)にとって重要である。 計画段階では、広告主は入札決定を行うために確率モデルを予測する必要がある。 しかし、以前の作品の多くは、勝利価格の分配形式を強く仮定しており、その正確さを低下させ、一般化する能力を弱めていた。 最近、いくつかの作品が直接分布に適合させようとしたが、その複雑な構造はオンライン推論の効率に欠けていた。 本稿では,新たな損失関数であるNLL(Neighborhood Likelihood Loss)を考案し,提案フレームワークである任意分布モデリング(Arbitrary Distribution Modeling, ADM)と協調して,事前推定なしで検閲下での勝利価格分布を予測する。 実世界の2つの実験データセットと大規模で非シミュレーションされた1つの生産データセットについて実験を行った。 実験の結果、ADMはアルゴリズムとビジネスメトリクスの両方でベースラインを上回った。 本手法は,生産環境の履歴データを再生することにより,システムに良好な収量をもたらすことを示した。 予測された特定の分布形式がなければ、ADMは有効性と効率に大きな利点を示し、洗練された価格景観をモデル化する優れた能力を示した。

The purpose of Inventory Pricing is to bid the right prices to online ad opportunities, which is crucial for a Demand-Side Platform (DSP) to win advertising auctions in Real-Time Bidding (RTB). In the planning stage, advertisers need the forecast of probabilistic models to make bidding decisions. However, most of the previous works made strong assumptions on the distribution form of the winning price, which reduced their accuracy and weakened their ability to make generalizations. Though some works recently tried to fit the distribution directly, their complex structure lacked efficiency on online inference. In this paper, we devise a novel loss function, Neighborhood Likelihood Loss (NLL), collaborating with a proposed framework, Arbitrary Distribution Modeling (ADM), to predict the winning price distribution under censorship with no pre-assumption required. We conducted experiments on two real-world experimental datasets and one large-scale, non-simulated production dataset in our system. Experiments showed that ADM outperformed the baselines both on algorithm and business metrics. By replaying historical data of the production environment, this method was shown to lead to good yield in our system. Without any pre-assumed specific distribution form, ADM showed significant advantages in effectiveness and efficiency, demonstrating its great capability in modeling sophisticated price landscapes.
翻訳日:2021-10-27 15:19:01 公開日:2021-10-26
# 階層型強化学習におけるランドマーク誘導サブゴアル生成

Landmark-Guided Subgoal Generation in Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2110.13625v1 )

ライセンス: Link先を確認
Junsu Kim, Younggyo Seo, Jinwoo Shin(参考訳) 目標条件付き階層強化学習(hrl)は,複雑かつ長期のrlタスクを解決するための有望な結果を示している。 しかし、目標条件付きHRLにおける高レベル政策の行動空間は、しばしば大きいため、探索が不十分になり、訓練の効率が低下する。 本稿では,ランドマーク(higl)に導かれる階層的強化学習について述べる。ランドマークに導かれるアクション空間を縮小したハイレベルなポリシーを学習するための新しい枠組みである。 HIGLのキーコンポーネントは2つです。 (a)調査や調査に有用なランドマークを採集すること (b)選択されたランドマークに向かってサブゴールを生成するよう高水準の政策を奨励する。 のために a) 訪問状態空間全体(すなわち状態の分散)のカバレッジと状態の新規性(すなわち状態の予測誤差)の2つの基準を考慮する。 のために b) ノードがランドマークであるグラフにおいて,最短経路における最初のランドマークとしてランドマークを選択する。 私たちの実験では、ランドマークによる効率的な探索によって、フレームワークがさまざまなコントロールタスクで先行技術を上回ることが示されています。

Goal-conditioned hierarchical reinforcement learning (HRL) has shown promising results for solving complex and long-horizon RL tasks. However, the action space of high-level policy in the goal-conditioned HRL is often large, so it results in poor exploration, leading to inefficiency in training. In this paper, we present HIerarchical reinforcement learning Guided by Landmarks (HIGL), a novel framework for training a high-level policy with a reduced action space guided by landmarks, i.e., promising states to explore. The key component of HIGL is twofold: (a) sampling landmarks that are informative for exploration and (b) encouraging the high-level policy to generate a subgoal towards a selected landmark. For (a), we consider two criteria: coverage of the entire visited state space (i.e., dispersion of states) and novelty of states (i.e., prediction error of a state). For (b), we select a landmark as the very first landmark in the shortest path in a graph whose nodes are landmarks. Our experiments demonstrate that our framework outperforms prior-arts across a variety of control tasks, thanks to efficient exploration guided by landmarks.
翻訳日:2021-10-27 15:18:37 公開日:2021-10-26
# (参考訳) CloudFindr:衛星DEMデータのためのディープラーニングクラウドアーティファクトマスク [全文訳有]

CloudFindr: A Deep Learning Cloud Artifact Masker for Satellite DEM Data ( http://arxiv.org/abs/2110.13819v1 )

ライセンス: CC BY 4.0
Kalina Borkiewicz, Viraj Shah, J.P. Naiman, Chuanyue Shen, Stuart Levy, Jeff Carpenter(参考訳) アーティファクトの除去は、映画の科学的な視覚化に不可欠な要素であり、特にアーティファクトの定義が難しいビッグデータでは難しい。 本稿では,従来の画像処理とu-netに基づくディープラーニングを組み合わせて,衛星画像からアーティファクトを除去するためのクラウドアーティファクトマスクの作成手法について述べる。 従来の手法と比較して,本手法はマルチチャンネルスペクトル画像を必要としないが,シングルチャンネルディジタル標高モデル(DEM)ではうまく機能する。 DEMは地球の地形の表現であり、惑星科学、地質学、洪水モデリング、都市計画など様々な応用がある。

Artifact removal is an integral component of cinematic scientific visualization, and is especially challenging with big datasets in which artifacts are difficult to define. In this paper, we describe a method for creating cloud artifact masks which can be used to remove artifacts from satellite imagery using a combination of traditional image processing together with deep learning based on U-Net. Compared to previous methods, our approach does not require multi-channel spectral imagery but performs successfully on single-channel Digital Elevation Models (DEMs). DEMs are a representation of the topography of the Earth and have a variety applications including planetary science, geology, flood modeling, and city planning.
翻訳日:2021-10-27 15:16:08 公開日:2021-10-26
# フーリエ位相検索のための参照学習について

A Closer Look at Reference Learning for Fourier Phase Retrieval ( http://arxiv.org/abs/2110.13688v1 )

ライセンス: Link先を確認
Tobias Uelwer, Nick Rucks, Stefan Harmeling(参考訳) フーリエマグニチュード測定から画像を再構成することは、異なる研究領域でしばしば発生する問題である。 この過程は位相探索とも呼ばれる。 本研究では、フーリエ等級が測定される前に、画像に参照画像を追加することができる位相検索問題の修正版について検討する。 我々は、データセットから良い参照画像を学ぶのに使用できる未学習のGerchberg-Saxton(GS) アルゴリズムを解析する。 さらに、学習した参照画像についてより詳しく検討し、参照画像を構築するための単純で効率的なヒューリスティックを提案する。 私たちのコードはhttps://github.com/t uelwer/reference-lea rningで利用可能です。

Reconstructing images from their Fourier magnitude measurements is a problem that often arises in different research areas. This process is also referred to as phase retrieval. In this work, we consider a modified version of the phase retrieval problem, which allows for a reference image to be added onto the image before the Fourier magnitudes are measured. We analyze an unrolled Gerchberg-Saxton (GS) algorithm that can be used to learn a good reference image from a dataset. Furthermore, we take a closer look at the learned reference images and propose a simple and efficient heuristic to construct reference images that, in some cases, yields reconstructions of comparable quality as approaches that learn references. Our code is available at https://github.com/t uelwer/reference-lea rning.
翻訳日:2021-10-27 15:05:02 公開日:2021-10-26
# タスク依存型単語埋め込み手法

Task-Specific Dependency-based Word Embedding Methods ( http://arxiv.org/abs/2110.13376v1 )

ライセンス: Link先を確認
Chengwei Wei, Bin Wang, C.-C. Jay Kuo(参考訳) 本研究では,2つのタスク依存型単語埋め込み手法を提案する。 汎用タスクに適した普遍的な単語埋め込み方式とは対照的に,タスク固有の単語埋め込み方式を設計し,タスクの性能を向上させる。 提案手法はPPMI行列分解フレームワークに従って,依存関係解析木から単語コンテキストを導出する。 最初のものは依存性ベースの単語埋め込み(dwe)と呼ばれ、依存構文解析ツリー内の対象単語のキーワードと隣接単語をコンテキストとして選択し、単語コンテキストマトリックスを構築する。 CEDWE(class-enhanced dependency-based word embedded)と呼ばれる2つ目の方法は、単語コンテキストと単語クラス共起統計から学習する。 DWEとCEDWEは、一般的なテキスト分類データセットで評価され、その有効性を示す。 実験結果により, 最先端の単語埋め込み法よりも優れた性能を示した。

Two task-specific dependency-based word embedding methods are proposed for text classification in this work. In contrast with universal word embedding methods that work for generic tasks, we design task-specific word embedding methods to offer better performance in a specific task. Our methods follow the PPMI matrix factorization framework and derive word contexts from the dependency parse tree. The first one, called the dependency-based word embedding (DWE), chooses keywords and neighbor words of a target word in the dependency parse tree as contexts to build the word-context matrix. The second method, named class-enhanced dependency-based word embedding (CEDWE), learns from word-context as well as word-class co-occurrence statistics. DWE and CEDWE are evaluated on popular text classification datasets to demonstrate their effectiveness. It is shown by experimental results they outperform several state-of-the-art word embedding methods.
翻訳日:2021-10-27 15:04:38 公開日:2021-10-26
# AVocaDo: 下流ドメインへの語彙適応戦略

AVocaDo: Strategy for Adapting Vocabulary to Downstream Domain ( http://arxiv.org/abs/2110.13434v1 )

ライセンス: Link先を確認
Jimin Hong, Taehee Kim, Hyesu Lim and Jaegul Choo(参考訳) 転写学習の微調整段階では、事前訓練された語彙は変化せず、モデルパラメータは更新される。 事前訓練されたデータに基づいて生成された語彙は、ドメインの相違が存在する場合、下流データに最適である。 我々は,この語彙を最適化可能なパラメータとして考慮し,トークン化統計に基づいたドメイン固有語彙に拡張することで,語彙の更新を可能にすることを提案する。 さらに,正規化項を持つ事前学習された言語モデルから学習した知識を活用して,追加単語の埋め込みを下流データへの過剰適合から保存する。 本手法は多様な領域(生物医学,コンピュータ科学,ニュース,レビュー)において一貫した性能改善を達成した。

During the fine-tuning phase of transfer learning, the pretrained vocabulary remains unchanged, while model parameters are updated. The vocabulary generated based on the pretrained data is suboptimal for downstream data when domain discrepancy exists. We propose to consider the vocabulary as an optimizable parameter, allowing us to update the vocabulary by expanding it with domain-specific vocabulary based on a tokenization statistic. Furthermore, we preserve the embeddings of the added words from overfitting to downstream data by utilizing knowledge learned from a pretrained language model with a regularization term. Our method achieved consistent performance improvements on diverse domains (i.e., biomedical, computer science, news, and reviews).
翻訳日:2021-10-27 15:04:25 公開日:2021-10-26
# 複雑な質問を分解することで、マルチホップqaがより簡単に解釈できるようになる

Decomposing Complex Questions Makes Multi-Hop QA Easier and More Interpretable ( http://arxiv.org/abs/2110.13472v1 )

ライセンス: Link先を確認
Ruiliu Fu, Han Wang, Xuejun Zhang, Jun Zhou and Yonghong Yan(参考訳) マルチホップQAでは、複数の手がかりと推論を見つけ、マシンの推論過程を実証するための説明的証拠を提供することによって、複雑な質問に答える必要がある。 本稿では,複雑な質問分解に基づく3段階のフレームワークであるRelation Extractor-Reader and Comparator(RERC)を提案する。 リレーション・エクストラクタは複雑な質問を分解し、次に読者は順番にサブクエストに答え、最後にコンパレータは数値比較を行い、最終回答を得るために全てを要約する。 2WikiMultiHopQAデータセットでは、我々のRERCモデルは最も高度なパフォーマンスを達成し、勝利した合同F1スコアはリーダーボード上で53.58である。 我々のRERCの指標はすべて人的パフォーマンスに近く、F1の支持率において人間レベルの差はわずか1.95である。 同時に、RERCフレームワークが提供するエビデンスパスは、可読性と忠実性に優れています。

Multi-hop QA requires the machine to answer complex questions through finding multiple clues and reasoning, and provide explanatory evidence to demonstrate the machine reasoning process. We propose Relation Extractor-Reader and Comparator (RERC), a three-stage framework based on complex question decomposition, which is the first work that the RERC model has been proposed and applied in solving the multi-hop QA challenges. The Relation Extractor decomposes the complex question, and then the Reader answers the sub-questions in turn, and finally the Comparator performs numerical comparison and summarizes all to get the final answer, where the entire process itself constitutes a complete reasoning evidence path. In the 2WikiMultiHopQA dataset, our RERC model has achieved the most advanced performance, with a winning joint F1 score of 53.58 on the leaderboard. All indicators of our RERC are close to human performance, with only 1.95 behind the human level in F1 score of support fact. At the same time, the evidence path provided by our RERC framework has excellent readability and faithfulness.
翻訳日:2021-10-27 15:04:14 公開日:2021-10-26
# パート&全体抽出:テキスト中のパーセンテージの量的事実の深い理解に向けて

Part & Whole Extraction: Towards A Deep Understanding of Quantitative Facts for Percentages in Text ( http://arxiv.org/abs/2110.13505v1 )

ライセンス: Link先を確認
Lei Fang and Jian-Guang Lou(参考訳) テキストの量的事実抽出の問題点について検討した。 例えば、「アメリカ人の30%がサッカーが好きであり、20%がNBAを好んでいる」という文を考えると、我々のゴールは、その量的事実を抽出することで、その割合(「30%」と「20%」)を深く理解することである。 これらの定量的事実は、自動インフォグラフィック生成のような新しい応用に役立つ。 シーケンスタギング問題として,部分抽出と全体抽出を定式化する。 パーシャル/ホールと対応するパーセンテージとの間に大きなギャップがあるため、シーケンスモデリングにおけるスキップ機構を導入し、我々のタスクとCoNLL-2003の名前付きエンティティ認識タスクの両方で性能改善を実現した。 実験の結果,シーケンスタギングをスキップする学習が有望であることが判明した。

We study the problem of quantitative facts extraction for text with percentages. For example, given the sentence "30 percent of Americans like watching football, while 20% prefer to watch NBA.", our goal is to obtain a deep understanding of the percentage numbers ("30 percent" and "20%") by extracting their quantitative facts: part ("like watching football" and "prefer to watch NBA") and whole ("Americans). These quantitative facts can empower new applications like automated infographic generation. We formulate part and whole extraction as a sequence tagging problem. Due to the large gap between part/whole and its corresponding percentage, we introduce skip mechanism in sequence modeling, and achieved improved performance on both our task and the CoNLL-2003 named entity recognition task. Experimental results demonstrate that learning to skip in sequence tagging is promising.
翻訳日:2021-10-27 15:02:32 公開日:2021-10-26
# オープンルール誘導

Open Rule Induction ( http://arxiv.org/abs/2110.13577v1 )

ライセンス: Link先を確認
Wanyun Cui, Xingran Chen(参考訳) 規則には多くの望ましい性質がある。 理解し、新しい知識を推論し、他の推論システムと通信するのは簡単です。 従来のルール誘導システムの弱点の1つは、知識ベース(KB)内でのみルールを見つけ、したがってよりオープンで複雑な現実世界のルールに一般化できないことである。 近年,ルールの表現力を高めるために,言語モデル(lm)に基づくルール生成が提案されている。 本稿では,KBベースのルール生成とLMベースのルール生成の違いを再考する。 KBベースの手法は、データの共通点を発見することによってルールを誘導するが、現在のLMベースの手法は「ルールからの学習ルール」である。 これにより、これらの手法は、注釈付き規則によって制約されたパターンを持つ「缶詰」ルールのみを生成するのに制限される。 そこで本稿では,LMにおける知識を活用したオープンルールの導出を目的としたオープンルール誘導問題を提案する。 さらに,アノテーション付きルールの監督なしにLMからオープンルールを自動的にマイニングするOrion(\underline{o}pen \underline{r}ule \underline{i}nducti\underline{on})システムを提案する。 インダクタンスしたオープンルールの品質と量を検証するための広範な実験を行った。 驚いたことに、下流のタスク(つまり関係抽出)にオープンルールを適用すると、自動的に誘導されたルールは手動で注釈付けされたルールよりも優れていた。

Rules have a number of desirable properties. It is easy to understand, infer new knowledge, and communicate with other inference systems. One weakness of the previous rule induction systems is that they only find rules within a knowledge base (KB) and therefore cannot generalize to more open and complex real-world rules. Recently, the language model (LM)-based rule generation are proposed to enhance the expressive power of the rules. In this paper, we revisit the differences between KB-based rule induction and LM-based rule generation. We argue that, while KB-based methods inducted rules by discovering data commonalities, the current LM-based methods are "learning rules from rules". This limits these methods to only produce "canned" rules whose patterns are constrained by the annotated rules, while discarding the rich expressive power of LMs for free text. Therefore, in this paper, we propose the open rule induction problem, which aims to induce open rules utilizing the knowledge in LMs. Besides, we propose the Orion (\underline{o}pen \underline{r}ule \underline{i}nducti\underline{on}) system to automatically mine open rules from LMs without supervision of annotated rules. We conducted extensive experiments to verify the quality and quantity of the inducted open rules. Surprisingly, when applying the open rules in downstream tasks (i.e. relation extraction), these automatically inducted rules even outperformed the manually annotated rules.
翻訳日:2021-10-27 15:02:16 公開日:2021-10-26
# s2s-ft:シーケンス列学習のための微調整事前学習トランスエンコーダ

s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning ( http://arxiv.org/abs/2110.13640v1 )

ライセンス: Link先を確認
Hangbo Bao, Li Dong, Wenhui Wang, Nan Yang, Furu Wei(参考訳) BERTのような事前訓練された双方向トランスフォーマーは、様々な言語理解タスクにおいて大幅に改善されているが、自然言語生成に直接適用することは容易ではない。 本稿では,条件付き生成タスクにプリトレーニングトランスを用いたs2s-ftについて述べる。 unilmに触発され,因果的微調整,マスク付き微調整,擬似マスク微調整という3つの逐次的微調整アルゴリズムを実装した。 既存の事前訓練された双方向変換器を利用することで、s2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を発揮することを示す。 さらに、s2s-ftパッケージは単言語および多言語NLGタスクの両方をサポートすることを示した。 s2s-ftツールキットはhttps://github.com/m icrosoft/unilm/tree/ master/s2s-ftで入手できる。

Pretrained bidirectional Transformers, such as BERT, have achieved significant improvements in a wide variety of language understanding tasks, while it is not straightforward to directly apply them for natural language generation. In this paper, we present a sequence-to-sequence fine-tuning toolkit s2s-ft, which adopts pretrained Transformers for conditional generation tasks. Inspired by UniLM, we implement three sequence-to-sequence fine-tuning algorithms, namely, causal fine-tuning, masked fine-tuning, and pseudo-masked fine-tuning. By leveraging the existing pretrained bidirectional Transformers, experimental results show that s2s-ft achieves strong performance on several benchmarks of abstractive summarization, and question generation. Moreover, we demonstrate that the package s2s-ft supports both monolingual and multilingual NLG tasks. The s2s-ft toolkit is available at https://github.com/m icrosoft/unilm/tree/ master/s2s-ft.
翻訳日:2021-10-27 15:01:48 公開日:2021-10-26
# 期待最大化によるロバスト楕円体特異的フィッティング

Robust Ellipsoid-specific Fitting via Expectation Maximization ( http://arxiv.org/abs/2110.13337v1 )

ライセンス: Link先を確認
Zhao Mingyang, Jia Xiaohong, Ma Lei, Qiu Xinlin, Jiang Xin, and Yan Dong-Ming(参考訳) 楕円体フィッティングは、物体検出や形状近似など、機械視覚に一般的に興味を持つ。 既存のアプローチのほとんどは二次の最小二乗法に依存し、代数的あるいは幾何学的距離を最小化し、二次を楕円体として強制する追加の制約を課している。 しかし、軸比が一定のしきい値を超えると、異常値や非楕円型や偏りのある結果に影響を受けやすい。 これらの問題に対処するため, 騒音に富んだ3次元環境下での楕円体フィッティング法を提案する。 入力データのカーネル密度推定(KDE)により楕円体を明示的にモデル化する。 楕円型フィッティングは、余分な制約なく最大度推定(mle)問題としてキャスティングされ、重み付け項が加わり、減圧外乱項が加わり、期待最大化(em)フレームワークによって効果的に解決される。 さらに、元のEMの収束を加速するベクトル {\epsilon} 技術を導入する。 提案手法は,広範囲な実験により代表的な最先端手法と比較し,本手法は楕円型でパラメータフリーであり,雑音,異常値,大軸比に対してより頑健であることを示した。 実装はhttps://zikai1.githu b.io/で利用可能です。

Ellipsoid fitting is of general interest in machine vision, such as object detection and shape approximation. Most existing approaches rely on the least-squares fitting of quadrics, minimizing the algebraic or geometric distances, with additional constraints to enforce the quadric as an ellipsoid. However, they are susceptible to outliers and non-ellipsoid or biased results when the axis ratio exceeds certain thresholds. To address these problems, we propose a novel and robust method for ellipsoid fitting in a noisy, outlier-contaminated 3D environment. We explicitly model the ellipsoid by kernel density estimation (KDE) of the input data. The ellipsoid fitting is cast as a maximum likelihood estimation (MLE) problem without extra constraints, where a weighting term is added to depress outliers, and then effectively solved via the Expectation-Maximiza tion (EM) framework. Furthermore, we introduce the vector {\epsilon} technique to accelerate the convergence of the original EM. The proposed method is compared with representative state-of-the-art approaches by extensive experiments, and results show that our method is ellipsoid-specific, parameter free, and more robust against noise, outliers, and the large axis ratio. Our implementation is available at https://zikai1.githu b.io/.
翻訳日:2021-10-27 15:01:30 公開日:2021-10-26
# メタ戦略と明示的位置推定を用いたプラグ・アンド・プレイ物体検出

Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit Localization Inference ( http://arxiv.org/abs/2110.13377v1 )

ライセンス: Link先を確認
Junying Huang, Fan Chen, Liang Lin, Dongyu Zhang(参考訳) いくつかの参照サンプルによる新しいカテゴリのオブジェクトの認識とローカライズを目指して、少数ショットオブジェクト検出は非常に難しい作業である。 以前の作品は、モデルを新しいカテゴリに移すための微調整プロセスに依存しており、微調整の欠陥をほとんど考慮しないため、多くの欠点が生じる。 例えば、オブジェクト検出の微調整プロセスには多くの時間と高ショットのサポートデータが必要であるため、これらの手法は低ショットやエピソードベースのシナリオでは満足できない。 そこで本研究では,新しいカテゴリのオブジェクトを精密かつ直接検出できるPnP-FSOD(Plug-and-pl ay few-shot Object Detection)フレームワークを提案する。 この目的を達成するために、PnP-FSODフレームワークには、2つの並列技術が含まれており、いくつかのショット学習におけるコア課題に対処している。 具体的には,まず,ボックス分類器とrpnモジュールの2つの簡易かつ効果的なメタ戦略を提案する。 次に,局所化プロセスに2つの明示的な推論を導入することで,明示的局所化スコアや半指数ボックス回帰といった注釈付きデータへの依存度を低減する。 pnp-fsodフレームワークに加えて,微調整の欠陥を回避するための新しい一段階チューニング手法を提案する。 提案手法とチューニング手法は,従来のFSOD法と容易に互換性があるため,他の手法を使わずに汎用オブジェクト検出器をベースとしている。 広範な実験により、pnp-fsodフレームワークは、チューニング方法なしで最先端の少数ショットオブジェクト検出性能を達成した。 ワンステップチューニング法を適用した結果,様々な評価プロトコルにおいて,効率,精度,リコールともに有意なリードを示した。

Aiming at recognizing and localizing the object of novel categories by a few reference samples, few-shot object detection is a quite challenging task. Previous works often depend on the fine-tuning process to transfer their model to the novel category and rarely consider the defect of fine-tuning, resulting in many drawbacks. For example, these methods are far from satisfying in the low-shot or episode-based scenarios since the fine-tuning process in object detection requires much time and high-shot support data. To this end, this paper proposes a plug-and-play few-shot object detection (PnP-FSOD) framework that can accurately and directly detect the objects of novel categories without the fine-tuning process. To accomplish the objective, the PnP-FSOD framework contains two parallel techniques to address the core challenges in the few-shot learning, i.e., across-category task and few-annotation support. Concretely, we first propose two simple but effective meta strategies for the box classifier and RPN module to enable the across-category object detection without fine-tuning. Then, we introduce two explicit inferences into the localization process to reduce its dependence on the annotated data, including explicit localization score and semi-explicit box regression. In addition to the PnP-FSOD framework, we propose a novel one-step tuning method that can avoid the defects in fine-tuning. It is noteworthy that the proposed techniques and tuning method are based on the general object detector without other prior methods, so they are easily compatible with the existing FSOD methods. Extensive experiments show that the PnP-FSOD framework has achieved the state-of-the-art few-shot object detection performance without any tuning method. After applying the one-step tuning method, it further shows a significant lead in both efficiency, precision, and recall, under varied evaluation protocols.
翻訳日:2021-10-27 15:00:58 公開日:2021-10-26
# ViDA-MAN: デジタル人間を用いたビジュアルダイアログ

ViDA-MAN: Visual Dialog with Digital Humans ( http://arxiv.org/abs/2110.13384v1 )

ライセンス: Link先を確認
Tong Shen, Jiawei Zuo, Fan Shi, Jin Zhang, Liqin Jiang, Meng Chen, Zhengchen Zhang, Wei Zhang, Xiaodong He, Tao Mei(参考訳) 提案するvida-manは,マルチモーダルインタラクションのためのディジタル・ヒューマンエージェントであり,即時音声問合せに対してリアルタイムの音声・視覚応答を提供する。 従来のテキストや音声ベースのシステムと比較して、ViDA-MANは人間のようなインタラクション(例えば、鮮やかな声、自然な表情、身体のジェスチャー)を提供する。 音声要求が与えられたら、デモは秒以下のレイテンシで高品質なビデオに応答できる。 没入型ユーザエクスペリエンスを実現するために、ViDA-MANは、音響音声認識(ASR)、マルチターンダイアログ、テキスト音声(TTS)、音声ヘッドビデオ生成などのマルチモーダル技術をシームレスに統合する。 vida-manには大きな知識ベースがあり、chit-chat、天気予報、デバイスコントロール、ニュースレコメンデーション、ホテル予約、構造化された知識による質問に答えるなど、さまざまなトピックのユーザとチャットできる。

We demonstrate ViDA-MAN, a digital-human agent for multi-modal interaction, which offers realtime audio-visual responses to instant speech inquiries. Compared to traditional text or voice-based system, ViDA-MAN offers human-like interactions (e.g, vivid voice, natural facial expression and body gestures). Given a speech request, the demonstration is able to response with high quality videos in sub-second latency. To deliver immersive user experience, ViDA-MAN seamlessly integrates multi-modal techniques including Acoustic Speech Recognition (ASR), multi-turn dialog, Text To Speech (TTS), talking heads video generation. Backed with large knowledge base, ViDA-MAN is able to chat with users on a number of topics including chit-chat, weather, device control, News recommendations, booking hotels, as well as answering questions via structured knowledge.
翻訳日:2021-10-27 15:00:25 公開日:2021-10-26
# IIP変換器:骨格に基づく行動認識のためのインターパート変換器

IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2110.13385v1 )

ライセンス: Link先を確認
Qingtian Wang, Jianlin Peng, Shuze Shi, Tingxi Liu, Jiabin He, Renliang Weng(参考訳) 近年、トランスフォーマーベースのネットワークは、スケルトンベースのアクション認識タスクに大きな期待を寄せている。 グローバルとローカルの依存関係をキャプチャする能力は成功の鍵であり、二次計算とメモリコストももたらす。 もう一つの問題は、センサのノイズ入力や不正確な推定によって生じるノイズの多い骨格関節に悩まされる個々の関節間の関係に主に焦点が当てられていることである。 上記の課題に対処するため,新しいトランスフォーマーネットワーク(IIP-Transformer)を提案する。 我々のIIP-Transformerは、個々の関節間の相互作用を利用する代わりに、ボディジョイントとパーツインタラクションを同時に組み込むことで、ジョイントレベル(イントラパート)とパートレベル(インターパート)の両方の依存関係を効率的に効果的にキャプチャすることができる。 データの観点から、計算複雑性を著しく低減し、関節レベルのスケルトンノイズに対してより堅牢な部分レベルスケルトンデータ符号化を導入する。 さらに、モデルの性能を向上させるために、新しい部分レベルのデータ拡張を提案する。 NTU-RGB+D 60 と NTU RGB+D 120 の2つの大規模データセットにおいて、提案した IIP-Transformer は、SOTA Transformer ベースの手法である DSTA-Net よりも8倍以上の計算量で、最先端の性能を達成する。

Recently, Transformer-based networks have shown great promise on skeleton-based action recognition tasks. The ability to capture global and local dependencies is the key to success while it also brings quadratic computation and memory cost. Another problem is that previous studies mainly focus on the relationships among individual joints, which often suffers from the noisy skeleton joints introduced by the noisy inputs of sensors or inaccurate estimations. To address the above issues, we propose a novel Transformer-based network (IIP-Transformer). Instead of exploiting interactions among individual joints, our IIP-Transformer incorporates body joints and parts interactions simultaneously and thus can capture both joint-level (intra-part) and part-level (inter-part) dependencies efficiently and effectively. From the data aspect, we introduce a part-level skeleton data encoding that significantly reduces the computational complexity and is more robust to joint-level skeleton noise. Besides, a new part-level data augmentation is proposed to improve the performance of the model. On two large-scale datasets, NTU-RGB+D 60 and NTU RGB+D 120, the proposed IIP-Transformer achieves the-state-of-art performance with more than 8x less computational complexity than DSTA-Net, which is the SOTA Transformer-based method.
翻訳日:2021-10-27 14:58:54 公開日:2021-10-26
# 微小物体検出のための正規化ガウス距離

A Normalized Gaussian Wasserstein Distance for Tiny Object Detection ( http://arxiv.org/abs/2110.13389v1 )

ライセンス: Link先を確認
Jinwang Wang, Chang Xu, Wen Yang, Lei Yu(参考訳) 小さなオブジェクトはサイズが数ピクセルしかないため、小さなオブジェクトの検出は非常に難しい問題である。 現状の検出器は外観情報の欠如により、小さな物体に対して良好な結果が得られないことを実証する。 我々の重要な観察は、IoU(Intersection over Union)に基づく測定値とその拡張値が、微小物体の位置偏差に非常に敏感であり、アンカーベース検出器での使用時の検出性能を劇的に低下させることである。 そこで本研究では,Wasserstein 距離を用いた微小物体検出のための新しい評価指標を提案する。 具体的には、まず境界ボックスを2次元ガウス分布としてモデル化し、それに対応するガウス分布によってそれらの類似性を計算するために正規化ワッサーシュタイン距離(NWD)と呼ばれる新しい計量を提案する。 提案するnwdメトリックは、一般的なiouメトリックを置き換えるアンカーベースの検出器の割り当て、非最大抑制、損失関数に容易に組み込むことができる。 我々は、既存のオブジェクト検出データセットよりも平均オブジェクトサイズがはるかに小さい、小さなオブジェクト検出(ai-tod)のための新しいデータセットでメトリクスを評価する。 広汎な実験により,NWD測定器を装着すると,標準的な微調整ベースラインよりも6.7APポイント,最先端の競合他社より6.0APポイント高い性能が得られることがわかった。

Detecting tiny objects is a very challenging problem since a tiny object only contains a few pixels in size. We demonstrate that state-of-the-art detectors do not produce satisfactory results on tiny objects due to the lack of appearance information. Our key observation is that Intersection over Union (IoU) based metrics such as IoU itself and its extensions are very sensitive to the location deviation of the tiny objects, and drastically deteriorate the detection performance when used in anchor-based detectors. To alleviate this, we propose a new evaluation metric using Wasserstein distance for tiny object detection. Specifically, we first model the bounding boxes as 2D Gaussian distributions and then propose a new metric dubbed Normalized Wasserstein Distance (NWD) to compute the similarity between them by their corresponding Gaussian distributions. The proposed NWD metric can be easily embedded into the assignment, non-maximum suppression, and loss function of any anchor-based detector to replace the commonly used IoU metric. We evaluate our metric on a new dataset for tiny object detection (AI-TOD) in which the average object size is much smaller than existing object detection datasets. Extensive experiments show that, when equipped with NWD metric, our approach yields performance that is 6.7 AP points higher than a standard fine-tuning baseline, and 6.0 AP points higher than state-of-the-art competitors.
翻訳日:2021-10-27 14:58:28 公開日:2021-10-26
# スケルトンとシルエットの統合による歩行認識のための豊富な特徴の学習

Learning Rich Features for Gait Recognition by Integrating Skeletons and Silhouettes ( http://arxiv.org/abs/2110.13408v1 )

ライセンス: Link先を確認
Yunjie Peng, Saihui Hou, Kang Ma, Yang Zhang, Yongzhen Huang, Zhiqiang He(参考訳) 歩行認識は、個人の歩行シーケンスから歩行パターンをキャプチャして識別する。 既存の歩容認識法は、衣服、運搬、その他の外部要因に対する頑健さのためにシルエットや骨格から特徴を学ぶ。 しかし、2つのデータモダリティの組み合わせは、完全には悪用されていない。 本稿では,骨格とシルエットの相補的な手がかりをマイニングし,歩行識別のための豊富な特徴を学習する,単純で効果的なバイモーダル融合(BiFusion)ネットワークを提案する。 特に、骨格における身体関節の固有の階層的意味論を利用して、骨格の特徴抽出のための新しいマルチスケールゲイトグラフ(MSGG)ネットワークを設計する。 CASIA-BとOUMVLPの広範囲にわたる実験により、骨格モデリングにおける提案したMSGGネットワークの優位性と歩行認識におけるバイモーダル融合の有効性が示された。 CASIA-B上を歩行する最も困難な条件下では,ランク1の精度は92.1%である。

Gait recognition captures gait patterns from the walking sequence of an individual for identification. Most existing gait recognition methods learn features from silhouettes or skeletons for the robustness to clothing, carrying, and other exterior factors. The combination of the two data modalities, however, is not fully exploited. This paper proposes a simple yet effective bimodal fusion (BiFusion) network, which mines the complementary clues of skeletons and silhouettes, to learn rich features for gait identification. Particularly, the inherent hierarchical semantics of body joints in a skeleton is leveraged to design a novel Multi-scale Gait Graph (MSGG) network for the feature extraction of skeletons. Extensive experiments on CASIA-B and OUMVLP demonstrate both the superiority of the proposed MSGG network in modeling skeletons and the effectiveness of the bimodal fusion for gait recognition. Under the most challenging condition of walking in different clothes on CASIA-B, our method achieves the rank-1 accuracy of 92.1%.
翻訳日:2021-10-27 14:58:03 公開日:2021-10-26
# TriBERT:視覚分離のための人中心型音声視覚表現学習

TriBERT: Full-body Human-centric Audio-visual Representation Learning for Visual Sound Separation ( http://arxiv.org/abs/2110.13412v1 )

ライセンス: Link先を確認
Tanzila Rahman, Mengyu Yang, Leonid Sigal(参考訳) BERTのような言語におけるトランスフォーマーモデルの成功は、マルチモーダルな特徴学習やタスクにそのようなアーキテクチャを使うことを動機付けている。 しかし、ほとんどのマルチモーダル変種(例えば、ViLBERT)は視覚言語データに制限されている。 音声と視覚のモダリティでの利用を探求した者は比較的少なく、我々の知る限りでは、音源分離やローカライゼーションのような粒度のオーディオ・ビジュアル検出やセグメンテーションタスクの文脈でそれらを説明する者はいない。 本研究では,VLBERTにヒントを得たトランスフォーマーベースのアーキテクチャであるTriBERTを紹介し,視覚,ポーズ,オーディオの3つのモードにわたるコンテキスト的特徴学習を実現する。 ポーズキーポイントの使用は、そのような表現が、しばしば1人または複数の人が明示的に音(例えば、会話)または暗黙的に(例えば、物体を操作する人間の機能として生成される音)に責任を負う多くの音声視覚シナリオにおいて、パフォーマンスを著しく向上させることができることを示す最近の作品に触発されたものである。 技術的観点からは、TriBERTアーキテクチャの一部として、空間的注意に基づく学習された視覚的トークン化スキームを導入し、弱スーパービジョンを活用して、視覚的およびポーズ的モダリティのための粒度のクロスモーダルな相互作用を可能にする。 さらに,3つのストリームにまたがって構成された音源分離損失による学習を補完する。 我々は、大規模なmusic21データセットでモデルを事前学習し、そのデータセットと他のデータセットの微調整による音声-視覚音源分離の性能向上を実証する。 さらに,学習したTriBERT表現は汎用的であり,音声-視覚間検索などの他の音響-視覚的タスクの性能を最大66.7%向上させることを示す。

The recent success of transformer models in language, such as BERT, has motivated the use of such architectures for multi-modal feature learning and tasks. However, most multi-modal variants (e.g., ViLBERT) have limited themselves to visual-linguistic data. Relatively few have explored its use in audio-visual modalities, and none, to our knowledge, illustrate them in the context of granular audio-visual detection or segmentation tasks such as sound source separation and localization. In this work, we introduce TriBERT -- a transformer-based architecture, inspired by ViLBERT, which enables contextual feature learning across three modalities: vision, pose, and audio, with the use of flexible co-attention. The use of pose keypoints is inspired by recent works that illustrate that such representations can significantly boost performance in many audio-visual scenarios where often one or more persons are responsible for the sound explicitly (e.g., talking) or implicitly (e.g., sound produced as a function of human manipulating an object). From a technical perspective, as part of the TriBERT architecture, we introduce a learned visual tokenization scheme based on spatial attention and leverage weak-supervision to allow granular cross-modal interactions for visual and pose modalities. Further, we supplement learning with sound-source separation loss formulated across all three streams. We pre-train our model on the large MUSIC21 dataset and demonstrate improved performance in audio-visual sound source separation on that dataset as well as other datasets through fine-tuning. In addition, we show that the learned TriBERT representations are generic and significantly improve performance on other audio-visual tasks such as cross-modal audio-visual-pose retrieval by as much as 66.7% in top-1 accuracy.
翻訳日:2021-10-27 14:57:47 公開日:2021-10-26
# 視覚的再分類のための自己注意を伴う文脈的類似性集約

Contextual Similarity Aggregation with Self-attention for Visual Re-ranking ( http://arxiv.org/abs/2110.13430v1 )

ライセンス: Link先を確認
Jianbo Ouyang, Hui Wu, Min Wang, Wengang Zhou, Houqiang Li(参考訳) コンテンツに基づく画像検索では、単純な視覚的特徴比較による第1ラウンドの検索結果に満足できない場合がある。 画像検索において,トップランク画像間の文脈的類似性は,意味的関連性を識別するための重要な手がかりとなる。 本稿では,この観察に触発されて,文脈的類似性集約と自己注意による視覚的再評価手法を提案する。 我々のアプローチでは、トップkランキングリストの各画像に対して、アンカー画像の集合と比較することにより、アフィニティ特徴ベクトルとして表現する。 そして、コンテクスト情報を変換器エンコーダで集約することにより、トップK画像の親和性特性を洗練する。 最後に、親和性機能はクエリとトップKイメージの類似点を再計算し、後者を再ランク付けするために使用される。 再ランクモデルの堅牢性をさらに向上し,提案手法の性能を向上させるため,新しいデータ拡張方式を設計した。 我々の再ランク付けモデルは初期検索で使用される視覚的特徴に直接関係しないので、様々な検索アルゴリズムから得られた検索結果リストに適用できる。 提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。

In content-based image retrieval, the first-round retrieval result by simple visual feature comparison may be unsatisfactory, which can be refined by visual re-ranking techniques. In image retrieval, it is observed that the contextual similarity among the top-ranked images is an important clue to distinguish the semantic relevance. Inspired by this observation, in this paper, we propose a visual re-ranking method by contextual similarity aggregation with self-attention. In our approach, for each image in the top-K ranking list, we represent it into an affinity feature vector by comparing it with a set of anchor images. Then, the affinity features of the top-K images are refined by aggregating the contextual information with a transformer encoder. Finally, the affinity features are used to recalculate the similarity scores between the query and the top-K images for re-ranking of the latter. To further improve the robustness of our re-ranking model and enhance the performance of our method, a new data augmentation scheme is designed. Since our re-ranking model is not directly involved with the visual feature used in the initial retrieval, it is ready to be applied to retrieval result lists obtained from various retrieval algorithms. We conduct comprehensive experiments on four benchmark datasets to demonstrate the generality and effectiveness of our proposed visual re-ranking method.
翻訳日:2021-10-27 14:57:13 公開日:2021-10-26
# 異種オブジェクトシーン構成からのゼロショット動作認識

Zero-Shot Action Recognition from Diverse Object-Scene Compositions ( http://arxiv.org/abs/2110.13479v1 )

ライセンス: Link先を確認
Carlo Bretti and Pascal Mettes(参考訳) 本稿では,実写映像が存在しない場面において,ゼロショット動作認識の問題点について検討する。 この困難なシナリオのために、現在の主要なアプローチは、事前学習されたネットワークを使用してビデオ内のオブジェクトを認識し、オブジェクトとアクション間のセマンティックマッチングによって、画像ドメインから知識を転送することだ。 オブジェクトがビデオの内容のローカルなビューを提供する場合、この作業では、アクションが発生するシーンのグローバルなビューも含もうとしています。 また,シーンの認識能力は物体よりも微妙に向上し,オブジェクトベースとシーンベースのスコアの直接的な組み合わせにより,動作認識性能が低下することが分かった。 オブジェクトとシーンから最高のものを得るため、我々はそれらを全ての可能な構成のデカルト積として構成することを提案する。 ビデオにおけるオブジェクトシーン構成の可能性の判定方法と、アクションごとに最も関連性の高い構成の多様性を強制するアクションへのオブジェクトシーン構成のセマンティックマッチングについて概説する。 私たちのコンポジションベースのアプローチはシンプルですが、オブジェクトベースのアプローチや、トレーニングや知識の転送に何百ものアクションを持つ大規模なビデオデータセットに依存する最先端のゼロショットアプローチよりも優れています。

This paper investigates the problem of zero-shot action recognition, in the setting where no training videos with seen actions are available. For this challenging scenario, the current leading approach is to transfer knowledge from the image domain by recognizing objects in videos using pre-trained networks, followed by a semantic matching between objects and actions. Where objects provide a local view on the content in videos, in this work we also seek to include a global view of the scene in which actions occur. We find that scenes on their own are also capable of recognizing unseen actions, albeit more marginally than objects, and a direct combination of object-based and scene-based scores degrades the action recognition performance. To get the best out of objects and scenes, we propose to construct them as a Cartesian product of all possible compositions. We outline how to determine the likelihood of object-scene compositions in videos, as well as a semantic matching from object-scene compositions to actions that enforces diversity among the most relevant compositions for each action. While simple, our composition-based approach outperforms object-based approaches and even state-of-the-art zero-shot approaches that rely on large-scale video datasets with hundreds of seen actions for training and knowledge transfer.
翻訳日:2021-10-27 14:56:51 公開日:2021-10-26
# マルチラベルフットショット分類のためのメタラーニング

Meta-Learning for Multi-Label Few-Shot Classification ( http://arxiv.org/abs/2110.13494v1 )

ライセンス: Link先を確認
Christian Simon, Piotr Koniusz, Mehrtash Harandi(参考訳) 豊富なデータを持つという豪華さにもかかわらず、マルチラベル分類は対処すべき課題として広く知られている。 この研究は、モデルがクエリ内の複数のラベル(例えば画像)を、サポート対象のサンプルを観察するだけで予測できることを学ぶマルチラベルメタラーニングの問題をターゲットにしている。 そこで我々はまず,Few-Shot Learning (FSL) のベンチマークをサンプル毎に複数のラベルで提案する。 次に,従来のfslと単一ラベルfslに対応するために特別に設計された複数のソリューションについて議論し,拡張する。 最後に,関係推論を活用し,与えられたサンプルのラベル数を推定するニューラルモジュールを提案する。 我々は,MS-COCO,iMaterialis t,Open MICの3つの挑戦データセットに対して,ラベルカウントモジュール,ラベル伝搬アルゴリズム,従来のFSL手法の拡張のメリットを実証的に示す。 総合的な実験により,提案手法とニューラルラベルカウントモジュール(NLC)を併用したラベルプロパゲーションアルゴリズムが選択方法として検討されることが示唆された。

Even with the luxury of having abundant data, multi-label classification is widely known to be a challenging task to address. This work targets the problem of multi-label meta-learning, where a model learns to predict multiple labels within a query (e.g., an image) by just observing a few supporting examples. In doing so, we first propose a benchmark for Few-Shot Learning (FSL) with multiple labels per sample. Next, we discuss and extend several solutions specifically designed to address the conventional and single-label FSL, to work in the multi-label regime. Lastly, we introduce a neural module to estimate the label count of a given sample by exploiting the relational inference. We will show empirically the benefit of the label count module, the label propagation algorithm, and the extensions of conventional FSL methods on three challenging datasets, namely MS-COCO, iMaterialist, and Open MIC. Overall, our thorough experiments suggest that the proposed label-propagation algorithm in conjunction with the neural label count module (NLC) shall be considered as the method of choice.
翻訳日:2021-10-27 14:56:29 公開日:2021-10-26
# 特徴選択と相互情報に基づく視覚化を用いた単一モーフィング攻撃検出

Single Morphing Attack Detection using Feature Selection and Visualisation based on Mutual Information ( http://arxiv.org/abs/2110.13552v1 )

ライセンス: Link先を確認
Juan Tapia and Christoph Busch(参考訳) 顔のモーフィング攻撃検出は難しい課題である。 自動分類法と手動検査は自動境界制御ゲートで実現され、モーフィング攻撃を検出する。 機械学習システムが、変形した顔と最も関連する顔領域をどのように検出できるかを理解することは重要である。 関連する領域にはテクスチャ信号が含まれており、ボナファイドとモルフイメージを分離することができます。 また、手動検査でモルヒド画像で生成されたパスポートを検出するのに役立つ。 本稿では,強度,形状,テクスチャから抽出した特徴を探索し,相互情報フィルタに基づく特徴選択ステージを提案する。 この選択により、作業量を削減し、そのような領域の正確な局所化を知り、モーフィングの影響を理解し、堅牢な分類器を作成することができる。 その結果,feret画像では500点,frgcv2画像では800点,1,048点では800点の条件付き相互情報と形状特徴が得られた。 目と鼻は、分析される最も重要な領域として識別される。

Face morphing attack detection is a challenging task. Automatic classification methods and manual inspection are realised in automatic border control gates to detect morphing attacks. Understanding how a machine learning system can detect morphed faces and the most relevant facial areas is crucial. Those relevant areas contain texture signals that allow us to separate the bona fide and the morph images. Also, it helps in the manual examination to detect a passport generated with morphed images. This paper explores features extracted from intensity, shape, texture, and proposes a feature selection stage based on the Mutual Information filter to select the most relevant and less redundant features. This selection allows us to reduce the workload and know the exact localisation of such areas to understand the morphing impact and create a robust classifier. The best results were obtained for the method based on Conditional Mutual Information and Shape features using only 500 features for FERET images and 800 features for FRGCv2 images from 1,048 features available. The eyes and nose are identified as the most critical areas to be analysed.
翻訳日:2021-10-27 14:56:10 公開日:2021-10-26
# リスク画像強化のための方向性自己教師型学習

Directional Self-supervised Learning for Risky Image Augmentations ( http://arxiv.org/abs/2110.13555v1 )

ライセンス: Link先を確認
Yalong Bai, Yifan Yang, Wei Zhang, Tao Mei(参考訳) チェリーピックされた頑健な拡大政策は、大規模な拡大家族にもかかわらず、標準的な自己監督型画像表現学習にとって有益である。 本稿では,より一層の強化と互換性のある指向性自己教師付き学習パラダイム(dssl)を提案する。 具体的には、ロバストな拡張によって強化された標準ビューの後にリスクの増大ポリシーを適用し、より困難なリスクビュー(RV)を生成する。 リスク・ビューは通常、標準のロバスト・ビュー(SV)よりも原画像との偏差が大きい。 対称的自己教師型トレーニングのためのすべての拡張ビューを等しく組み合わせてそれらの類似性を最大化する従来の方法とは異なり、DSSLは、部分的に順序付けられた集合(SV$\leftrightarrow $SV, SV$\leftarrow$RV)と同じインスタンスの強化ビューを扱い、ビュー間の派生関係に関する目的目的関数を割り当てる。 DSSLは数行のPseudocodeで簡単に実装でき、SimCLR、SimSiam、BYOLといった一般的な自己教師型学習フレームワークに非常に柔軟である。 CIFARとImageNetの広範な実験結果は、DSSLがこれらのフレームワークをより広範な拡張に互換性を持って安定的に改善できることを示した。

Only a few cherry-picked robust augmentation policies are beneficial to standard self-supervised image representation learning, despite the large augmentation family. In this paper, we propose a directional self-supervised learning paradigm (DSSL), which is compatible with significantly more augmentations. Specifically, we adapt risky augmentation policies after standard views augmented by robust augmentations, to generate harder risky view (RV). The risky view usually has a higher deviation from the original image than the standard robust view (SV). Unlike previous methods equally pairing all augmented views for symmetrical self-supervised training to maximize their similarities, DSSL treats augmented views of the same instance as a partially ordered set (SV$\leftrightarrow $SV, SV$\leftarrow$RV), and then equips directional objective functions respecting to the derived relationships among views. DSSL can be easily implemented with a few lines of Pseudocode and is highly flexible to popular self-supervised learning frameworks, including SimCLR, SimSiam, BYOL. The extensive experimental results on CIFAR and ImageNet demonstrated that DSSL can stably improve these frameworks with compatibility to a wider range of augmentations.
翻訳日:2021-10-27 14:55:50 公開日:2021-10-26
# 対数整合性を利用した衛星画像のクロスリージョン化

Cross-Region Building Counting in Satellite Imagery using Counting Consistency ( http://arxiv.org/abs/2110.13558v1 )

ライセンス: Link先を確認
Muaaz Zakria, Hamza Rawal, Waqas Sultani, Mohsen Ali(参考訳) 地理的な地域における建物数の推定は、都市分析、防災管理、公共政策決定の重要な要素である。 衛星画像のローカライズとカウントのためのディープラーニング手法は、実現可能で安価な代替手段として機能する。 しかし、これらのアルゴリズムは、訓練されていない領域に適用した場合、性能劣化に悩まされる。 現在の大規模なデータセットは、主に開発済みのリージョンをカバーし、すべてのリージョンでそのようなデータセットを収集している。 本稿では,ラベル付きソースドメイン(開発領域)を用いて建物を数え,ラベル付きターゲットドメイン(開発領域)にトレーニングされたモデルを適応させる,教師なしドメイン適応手法を提案する。 まず、逆損失を通して出力空間分布を整列することで、領域間の分布マップを整列する。 次に、ドメインシフトを減らすために、カウント一貫性の制約、イン・イメージカウントの一貫性、およびクロス・イメージカウントの一貫性を利用する。 イメージ内の一貫性は、イメージ全体のビルド数は、そのサブイメージのいずれかのカウントよりも大きいか等しいべきであることを強制する。 画像間の整合性制約は、ある画像が他の画像よりもかなり多くの建物を含む場合、それらのサブイメージも同じ順序を持つように強制する。 これらの2つの制約は、スケールに関係なく、行動が画像全体と内部に一貫性を持つように促します。 提案手法の性能を評価するため,既存のデータセットと比較して高い建物密度と不規則構造を有する南アジア地域を挑戦する大規模データセットを収集,注釈した。 提案手法の有効性を検証するために広範な実験を行い,競合ベースライン法と比較して約7%から20%の改善を報告した。

Estimating the number of buildings in any geographical region is a vital component of urban analysis, disaster management, and public policy decision. Deep learning methods for building localization and counting in satellite imagery, can serve as a viable and cheap alternative. However, these algorithms suffer performance degradation when applied to the regions on which they have not been trained. Current large datasets mostly cover the developed regions and collecting such datasets for every region is a costly, time-consuming, and difficult endeavor. In this paper, we propose an unsupervised domain adaptation method for counting buildings where we use a labeled source domain (developed regions) and adapt the trained model on an unlabeled target domain (developing regions). We initially align distribution maps across domains by aligning the output space distribution through adversarial loss. We then exploit counting consistency constraints, within-image count consistency, and across-image count consistency, to decrease the domain shift. Within-image consistency enforces that building count in the whole image should be greater than or equal to count in any of its sub-image. Across-image consistency constraint enforces that if an image contains considerably more buildings than the other image, then their sub-images shall also have the same order. These two constraints encourage the behavior to be consistent across and within the images, regardless of the scale. To evaluate the performance of our proposed approach, we collected and annotated a large-scale dataset consisting of challenging South Asian regions having higher building densities and irregular structures as compared to existing datasets. We perform extensive experiments to verify the efficacy of our approach and report improvements of approximately 7% to 20% over the competitive baseline methods.
翻訳日:2021-10-27 14:55:06 公開日:2021-10-26
# RBF k-DPPを用いた動物行動推定のためのインクリメンタルラーニング

Incremental Learning for Animal Pose Estimation using RBF k-DPP ( http://arxiv.org/abs/2110.13598v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Het Shah, Anirban Chakraborty(参考訳) ポーズ推定は、画像に興味のある対象のキーポイントを特定するタスクである。 動物のポーズ推定は、動物における種間および種内変動が高いため、人間のポーズを推定するよりも難しい。 既存の研究は、あらかじめ定義された動物カテゴリーの固定された集合に対してこの問題を解決する。 このようなセットでトレーニングされたモデルは、通常、新しい動物カテゴリではうまく機能しない。 新しいカテゴリでモデルを再トレーニングすることで、モデルが過度に適合し、破滅的な忘れることになる。 そこで本研究では,「動物のポーズ推定のためのインクリメンタルラーニング」という新しい問題を提案する。 提案手法は,DPP(Determinantal Point Processes)を用いてサンプル化したメモリを用いて,古いものを忘れずに新しい動物カテゴリーに継続的に適応する。 さらに,従来のk-DPPよりも性能が向上するRBFカーネル(RBF k-DPP)を用いたk-DPPの新たな変種を提案する。 メモリの制約のため、新しいクラスのデータとともに、限られた数の例がクラス不均衡を引き起こす可能性がある。 画像ウォーピングを補足技術として行うことで緩和する。 これは多彩なポーズの作成に役立ち、過剰フィッティングを減らし、パフォーマンスをさらに向上させる。 提案手法の有効性は,最先端のベースライン法よりも大幅に向上した,広範囲な実験と改善によって実証された。

Pose estimation is the task of locating keypoints for an object of interest in an image. Animal Pose estimation is more challenging than estimating human pose due to high inter and intra class variability in animals. Existing works solve this problem for a fixed set of predefined animal categories. Models trained on such sets usually do not work well with new animal categories. Retraining the model on new categories makes the model overfit and leads to catastrophic forgetting. Thus, in this work, we propose a novel problem of "Incremental Learning for Animal Pose Estimation". Our method uses an exemplar memory, sampled using Determinantal Point Processes (DPP) to continually adapt to new animal categories without forgetting the old ones. We further propose a new variant of k-DPP that uses RBF kernel (termed as "RBF k-DPP") which gives more gain in performance over traditional k-DPP. Due to memory constraints, the limited number of exemplars along with new class data can lead to class imbalance. We mitigate it by performing image warping as an augmentation technique. This helps in crafting diverse poses, which reduces overfitting and yields further improvement in performance. The efficacy of our proposed approach is demonstrated via extensive experiments and ablations where we obtain significant improvements over state-of-the-art baseline methods.
翻訳日:2021-10-27 14:54:37 公開日:2021-10-26
# Alpha-IoU: ボックス回帰をバウンディングするためのユニオン損失に対するパワーインターセクションの家族

Alpha-IoU: A Family of Power Intersection over Union Losses for Bounding Box Regression ( http://arxiv.org/abs/2110.13675v1 )

ライセンス: Link先を確認
Jiabo He, Sarah Erfani, Xingjun Ma, James Bailey, Ying Chi, Xian-Sheng Hua(参考訳) バウンディングボックス(bbox regression)は、コンピュータビジョンにおける基本的なタスクである。 これまでのところ、bbox回帰の最もよく使われる損失関数は、結合損失(iou)とその変種との交叉である。 本稿では、既存のIoUベースの損失を、パワーIoU項と1つのパワーパラメータ$\alpha$を持つ追加のパワー正規化項を有する新しいIoU損失ファミリーに一般化する。 我々はこの損失のファミリーを$\alpha$-iou損失と呼び、秩序保持性や損失/段階的重み付けなどの特性を分析する。 複数のオブジェクト検出ベンチマークとモデルの実験では、$\alpha$-IoUの損失が示されている。 1) 既存のIoUベースの損失を顕著なパフォーマンスマージンで上回ることができる。 2)bboxのレグレッション精度の異なるレベルを$\alpha$を変調することで、検出器の柔軟性を高める。 3)小さなデータセットや騒がしいbboxに対して、より堅牢である。

Bounding box (bbox) regression is a fundamental task in computer vision. So far, the most commonly used loss functions for bbox regression are the Intersection over Union (IoU) loss and its variants. In this paper, we generalize existing IoU-based losses to a new family of power IoU losses that have a power IoU term and an additional power regularization term with a single power parameter $\alpha$. We call this new family of losses the $\alpha$-IoU losses and analyze properties such as order preservingness and loss/gradient reweighting. Experiments on multiple object detection benchmarks and models demonstrate that $\alpha$-IoU losses, 1) can surpass existing IoU-based losses by a noticeable performance margin; 2) offer detectors more flexibility in achieving different levels of bbox regression accuracy by modulating $\alpha$; and 3) are more robust to small datasets and noisy bboxes.
翻訳日:2021-10-27 14:54:18 公開日:2021-10-26
# web ラベルデータにおける分散ラベルノイズの解消

Addressing out-of-distribution label noise in webly-labelled data ( http://arxiv.org/abs/2110.13699v1 )

ライセンス: Link先を確認
Paul Albert and Diego Ortego and Eric Arazo and Noel O'Connor and Kevin McGuinness(参考訳) ディープラーニングコミュニティの繰り返しの焦点は、ラベル付けの労力を減らすことだ。 検索エンジンを用いたデータ収集とアノテーションは、完全な人間アノテーションと人集合データセットを生成するための単純な代替手段である。 ウェブクローリングは非常に時間効率が良いが、検索された画像のいくつかは避けられないほどノイズが多い。 webから収集したノイズの多いデータをトレーニングするためのロバストなアルゴリズムを設計することは、データセットの構築を容易にする重要な研究視点である。 本稿では,検索エンジンを用いたデータセット構築時に期待されるラベルノイズの種類を理解するための研究を行う。 本稿では,Webノイズ分布における画像分類タスクのノイズラベル処理における最先端手法の限界について概説する。 我々は、CIFAR-100データセットの破損したバージョンを設計したDynamic Softening of Out-of-distriion Samples (DSOS) を用いて、完全にクリーンなデータセットでギャップを埋める簡単なソリューションを提案し、Webノイズを乱したMiniImageNetとStanfordデータセット、および実際のラベルノイズデータセットであるWebVision 1.0とCloting1Mの最先端アルゴリズムと比較した。 私たちの仕事は、完全に再現できます https://git.io/JKGcj

A recurring focus of the deep learning community is towards reducing the labeling effort. Data gathering and annotation using a search engine is a simple alternative to generating a fully human-annotated and human-gathered dataset. Although web crawling is very time efficient, some of the retrieved images are unavoidably noisy, i.e. incorrectly labeled. Designing robust algorithms for training on noisy data gathered from the web is an important research perspective that would render the building of datasets easier. In this paper we conduct a study to understand the type of label noise to expect when building a dataset using a search engine. We review the current limitations of state-of-the-art methods for dealing with noisy labels for image classification tasks in the case of web noise distribution. We propose a simple solution to bridge the gap with a fully clean dataset using Dynamic Softening of Out-of-distribution Samples (DSOS), which we design on corrupted versions of the CIFAR-100 dataset, and compare against state-of-the-art algorithms on the web noise perturbated MiniImageNet and Stanford datasets and on real label noise datasets: WebVision 1.0 and Clothing1M. Our work is fully reproducible https://git.io/JKGcj
翻訳日:2021-10-27 14:54:02 公開日:2021-10-26
# TNTC:歩行に基づく感情認識のためのトランスフォーマーを用いた2ストリームネットワーク

TNTC: two-stream network with transformer-based complementarity for gait-based emotion recognition ( http://arxiv.org/abs/2110.13708v1 )

ライセンス: Link先を確認
Chuanfei Hu, Weijie Sheng, Bo Dong, Xinde Li(参考訳) 視覚特性から自動的に人間の感情を認識することは、多くの知的アプリケーションにおいて重要な役割を果たす。 近年,歩行に基づく感情認識,特に歩行骨格に基づく特徴が注目されている。 一般的なパイプラインは、まず関節骨格から感情的特徴を抽出し、その後、感情を分類する特徴ベクトルとして、骨格的特徴と感情的特徴を集約する。 しかし、これらの出現した方法の凝集手順は堅いため、骨格関節と情緒的特徴の相補的な関係を十分に活用できない。 一方、歩行シーケンスの空間領域と時間領域の長い範囲依存性はほとんど考慮されていない。 そこで本稿では,tntcと呼ばれる変圧器に基づく相補性を持つ新しい2ストリームネットワークを提案する。 骨格関節と情緒的特徴はそれぞれ2つのストリームの入力として2つの個別画像に符号化される。 TCM(Transformer-base d complementarity Module)は、2つのストリーム間の相補性を階層的に橋渡しする。 実験により、TNTCは最新のデータセットの最先端手法よりも精度が高いことを示した。

Recognizing the human emotion automatically from visual characteristics plays a vital role in many intelligent applications. Recently, gait-based emotion recognition, especially gait skeletons-based characteristic, has attracted much attention, while many available methods have been proposed gradually. The popular pipeline is to first extract affective features from joint skeletons, and then aggregate the skeleton joint and affective features as the feature vector for classifying the emotion. However, the aggregation procedure of these emerged methods might be rigid, resulting in insufficiently exploiting the complementary relationship between skeleton joint and affective features. Meanwhile, the long range dependencies in both spatial and temporal domains of the gait sequence are scarcely considered. To address these issues, we propose a novel two-stream network with transformer-based complementarity, termed as TNTC. Skeleton joint and affective features are encoded into two individual images as the inputs of two streams, respectively. A new transformer-based complementarity module (TCM) is proposed to bridge the complementarity between two streams hierarchically via capturing long range dependencies. Experimental results demonstrate TNTC outperforms state-of-the-art methods on the latest dataset in terms of accuracy.
翻訳日:2021-10-27 14:53:41 公開日:2021-10-26
# 自動データと合成画像を用いた半教師付き乾草量推定

Semi-supervised dry herbage mass estimation using automatic data and synthetic images ( http://arxiv.org/abs/2110.13719v1 )

ライセンス: Link先を確認
Paul Albert and Mohamed Saadeldin and Badri Narayanan and Brian Mac Namee and Deirdre Hennessy and Aisling O'Connor and Noel O'Connor and Kevin McGuinness(参考訳) 種別乾燥草本バイオマスのモニタリングは、牧草地ベースの乳生産システムにおいて重要な側面である。 畑の草本バイオマスに気付いて、農家は草本供給の余剰と不足を管理し、必要に応じて窒素の施肥を標的とする。 コンピュータビジョンのためのディープラーニングは、ポータブルデバイスを用いて撮影された草の天蓋の画像を用いて、草原の乾いたバイオマスを正確に推定できるため、この文脈において強力なツールである。 しかし、ディープラーニングのパフォーマンスは、広範囲で、この場合、破壊的なデータ収集プロセスのコストがかかる。 本研究は, 草本パルセルの正確な種別バイオマス推定は, 労働集約的かつ破壊的であるため, コンピュータビジョンを用いた乾性バイオマス推定の低監督手法について検討する。 提案手法は, 草本高さを考慮したセマンティクスセグメンテーションタスクのためのデータを生成する合成データ生成アルゴリズム, セマンティクスセグメンテーションマップを用いたデータラベル付けのための自動処理, 近似バイオマスラベルとゴールド標準ラベルを用いた小型信頼データセットを用いた乾燥バイオマス予測を訓練したロバスト回帰ネットワークである。 我々は,アイルランドで収集した草本量推定データセットのアプローチをデザインし,デンマークから公開された草本量推定データセットについて最新結果を報告する。 私たちのコードはhttps://git.io/j0l2a で利用可能です。

Monitoring species-specific dry herbage biomass is an important aspect of pasture-based milk production systems. Being aware of the herbage biomass in the field enables farmers to manage surpluses and deficits in herbage supply, as well as using targeted nitrogen fertilization when necessary. Deep learning for computer vision is a powerful tool in this context as it can accurately estimate the dry biomass of a herbage parcel using images of the grass canopy taken using a portable device. However, the performance of deep learning comes at the cost of an extensive, and in this case destructive, data gathering process. Since accurate species-specific biomass estimation is labor intensive and destructive for the herbage parcel, we propose in this paper to study low supervision approaches to dry biomass estimation using computer vision. Our contributions include: a synthetic data generation algorithm to generate data for a herbage height aware semantic segmentation task, an automatic process to label data using semantic segmentation maps, and a robust regression network trained to predict dry biomass using approximate biomass labels and a small trusted dataset with gold standard labels. We design our approach on a herbage mass estimation dataset collected in Ireland and also report state-of-the-art results on the publicly released Grass-Clover biomass estimation dataset from Denmark. Our code is available at https://git.io/J0L2a
翻訳日:2021-10-27 14:53:22 公開日:2021-10-26
# DP-SSL: ラベル付きサンプルによるロバストな半教師あり学習を目指して

DP-SSL: Towards Robust Semi-supervised Learning with A Few Labeled Samples ( http://arxiv.org/abs/2110.13740v1 )

ライセンス: Link先を確認
Yi Xu, Jiandong Ding, Lu Zhang, Shuigeng Zhou(参考訳) ラベル付きデータの不足は、ディープラーニングにとって重要な障害である。 semi-supervised learning (ssl)は、擬似ラベルによるラベルなしデータを活用する有望な方法を提供する。 しかし、ラベル付きデータのサイズが非常に小さい場合(例えばクラスごとのいくつかのラベル付きサンプル)、sslは貧弱で不安定であり、おそらく学習済みの擬似ラベルの低品質のためである。 本稿では,非ラベルデータに対する確率的ラベルを生成するための革新的なデータプログラミング(dp)方式を採用する,dp-sslと呼ばれる新しいssl手法を提案する。 人手による初期ラベリング機能(LF)を提供する既存のDPメソッドとは違い,SSLスタイルでLFをスクラッチから自動生成するマルチチョイス学習(MCL)ベースのアプローチを開発した。 LFが生成するノイズラベルを用いて,ノイズラベル間の競合を解消し重なり合うラベルモデルを設計し,最終的にラベル付きサンプルに対して確率ラベルを推定する。 4つの標準SSLベンチマークの大規模な実験は、DP-SSLが既存のSSLメソッドよりも信頼性の高いラベルを提供し、テストセットの分類性能が向上していることを示している。 具体的には、40のラベル付きサンプルしか持たないcifar-10では、dp-sslはラベルなしデータでは93.82%、テストデータでは93.46%の分類精度を達成している。

The scarcity of labeled data is a critical obstacle to deep learning. Semi-supervised learning (SSL) provides a promising way to leverage unlabeled data by pseudo labels. However, when the size of labeled data is very small (say a few labeled samples per class), SSL performs poorly and unstably, possibly due to the low quality of learned pseudo labels. In this paper, we propose a new SSL method called DP-SSL that adopts an innovative data programming (DP) scheme to generate probabilistic labels for unlabeled data. Different from existing DP methods that rely on human experts to provide initial labeling functions (LFs), we develop a multiple-choice learning~(MCL) based approach to automatically generate LFs from scratch in SSL style. With the noisy labels produced by the LFs, we design a label model to resolve the conflict and overlap among the noisy labels, and finally infer probabilistic labels for unlabeled samples. Extensive experiments on four standard SSL benchmarks show that DP-SSL can provide reliable labels for unlabeled data and achieve better classification performance on test sets than existing SSL methods, especially when only a small number of labeled samples are available. Concretely, for CIFAR-10 with only 40 labeled samples, DP-SSL achieves 93.82% annotation accuracy on unlabeled data and 93.46% classification accuracy on test data, which are higher than the SOTA results.
翻訳日:2021-10-27 14:52:55 公開日:2021-10-26
# (参考訳) インターバル型2ファジィ推論システムと複数専門家意思決定を用いた運転スタイル認識 [全文訳有]

Driving Style Recognition Using Interval Type-2 Fuzzy Inference System and Multiple Experts Decision Making ( http://arxiv.org/abs/2110.13805v1 )

ライセンス: CC BY 4.0
Iago Pach\^eco Gomes and Denis Fernando Wolf(参考訳) 運転スタイルは、車両の動きを反映する様々な運転行動を要約する。 これらの行動は、よりリスクの高い操作を行い、より多くの燃料やエネルギーを消費し、交通規則を破り、慎重に運転する傾向を示す。 そこで本稿では,運転者を穏やか・中等・アグレッシブに分類するために,複数専門家によるファジィ推論システムを用いた運転スタイル認識を提案する。 本システムは車両運動の縦・横運動パラメータを入力として受信する。 タイプ2ファジィ集合は、そのメンバーシップ関数もファジィ集合であるため、ノイズデータを扱うときのタイプ1ファジィ集合よりも頑丈である。 さらに、複数の専門家のアプローチにより、ファジィシステムの知識を格納するファジィルールベースを構築しながら、バイアスと不正確性を低減できる。 提案手法は記述統計解析を用いて評価し,クラスタリングアルゴリズムとタイプ1ファジィ推論システムと比較した。 その結果、他のアルゴリズムと比較すると、2型ファジィ推論システムに分類された運転スタイルの低体型プロファイルを関連付ける傾向を示し、これは専門家の意見の集約に採用されるより保守的なアプローチと一致している。

Driving styles summarize different driving behaviors that reflect in the movements of the vehicles. These behaviors may indicate a tendency to perform riskier maneuvers, consume more fuel or energy, break traffic rules, or drive carefully. Therefore, this paper presents a driving style recognition using Interval Type-2 Fuzzy Inference System with Multiple Experts Decision-Making for classifying drivers into calm, moderate and aggressive. This system receives as input features longitudinal and lateral kinematic parameters of the vehicle motion. The type-2 fuzzy sets are more robust than type-1 fuzzy sets when handling noisy data, because their membership function are also fuzzy sets. In addition, a multiple experts approach can reduce the bias and imprecision while building the fuzzy rulebase, which stores the knowledge of the fuzzy system. The proposed approach was evaluated using descriptive statistics analysis, and compared with clustering algorithms and a type-1 fuzzy inference system. The results show the tendency to associate lower kinematic profiles for the driving styles classified with the type-2 fuzzy inference system when compared to other algorithms, which is in line with the more conservative approach adopted in the aggregation of the experts' opinions.
翻訳日:2021-10-27 14:50:54 公開日:2021-10-26
# 周期的活性化関数は定常性を引き起こす

Periodic Activation Functions Induce Stationarity ( http://arxiv.org/abs/2110.13572v1 )

ライセンス: Link先を確認
Lassi Meronen, Martin Trapp, Arno Solin(参考訳) ニューラルネットワークモデルは、隠されたデータのバイアスを強化することで知られ、信頼性が低く、解釈が難しい。 関数空間に帰納バイアスを導入することによって、'彼らが知らないことを知る'モデルを構築したいのです。 ベイジアンニューラルネットワークにおける周期的活性化関数は、ネットワーク重みの事前と翻訳不変な定常ガウス過程の事前の接続を確立する。 さらに、このリンクは三角波と周期的ReLU活性化関数をカバーし、正弦波(フーリエ)の活性化を超えることを示す。 一連の実験において、周期的アクティベーション関数はドメイン内のデータに匹敵する性能を示し、ドメイン外検出のための深層ニューラルネットワークにおける摂動入力に対する感度を捉える。

Neural network models are known to reinforce hidden data biases, making them unreliable and difficult to interpret. We seek to build models that `know what they do not know' by introducing inductive biases in the function space. We show that periodic activation functions in Bayesian neural networks establish a connection between the prior on the network weights and translation-invarian t, stationary Gaussian process priors. Furthermore, we show that this link goes beyond sinusoidal (Fourier) activations by also covering triangular wave and periodic ReLU activation functions. In a series of experiments, we show that periodic activation functions obtain comparable performance for in-domain data and capture sensitivity to perturbed inputs in deep neural networks for out-of-domain detection.
翻訳日:2021-10-27 14:24:54 公開日:2021-10-26
# Wasserstein-GANによる機械的サブモデルの不確かさ定量化

Uncertainty quantification in a mechanical submodel driven by a Wasserstein-GAN ( http://arxiv.org/abs/2110.13680v1 )

ライセンス: Link先を確認
Hamza Boukraichi, Nissrine Akkari, Fabien Casenave, David Ryckelynck(参考訳) 非常に大きな力学系のパラメトリックおよび非パラメトリック不確実性の解析には、その系の確率モデルを構築する必要がある。 ランダム行列理論と主共振解析に依存する線形アプローチは、システムが低周波振動を受けるときに使用できる。 高速ダイナミクスと波動伝搬の場合には、機械学習を用いて高速サブモデルの境界条件のランダム生成について検討する。 機械学習やデータ駆動手法における非線形手法の利用は極めて重要であることを示す。 物理インフォームドニューラルネットワークは、線形モーダル解析を置き換えるデータ駆動方式の選択肢である。 非パラメトリック不確実性のための物理系の確率モデルを構築するためには、ランダムなコンポーネントをサポートするアーキテクチャが必要である。 このような応用にはGAN(Generative Adversarial Networks)が適しており、Wasserstein-GANは勾配ペナルティの変種である。 本研究の目的は,有限要素法符号(Fenics)のデータに基づいてGANを訓練し,より高速な有限要素予測のための確率境界条件を抽出することである。 サブモデルとトレーニングデータはどちらも同じ幾何学的支持を有する。 不確実性定量化の分野であり、工学的な目的に関係している。 搾取フェーズでは、このフレームワークは、モンテカルロ推定器として使用できるサブモデル上のランダム化およびパラメータ化されたシミュレーションジェネレータと見なすことができる。

The analysis of parametric and non-parametric uncertainties of very large dynamical systems requires the construction of a stochastic model of said system. Linear approaches relying on random matrix theory and principal componant analysis can be used when systems undergo low-frequency vibrations. In the case of fast dynamics and wave propagation, we investigate a random generator of boundary conditions for fast submodels by using machine learning. We show that the use of non-linear techniques in machine learning and data-driven methods is highly relevant. Physics-informed neural networks is a possible choice for a data-driven method to replace linear modal analysis. An architecture that support a random component is necessary for the construction of the stochastic model of the physical system for non-parametric uncertainties, since the goal is to learn the underlying probabilistic distribution of uncertainty in the data. Generative Adversarial Networks (GANs) are suited for such applications, where the Wasserstein-GAN with gradient penalty variant offers improved convergence results for our problem. The objective of our approach is to train a GAN on data from a finite element method code (Fenics) so as to extract stochastic boundary conditions for faster finite element predictions on a submodel. The submodel and the training data have both the same geometrical support. It is a zone of interest for uncertainty quantification and relevant to engineering purposes. In the exploitation phase, the framework can be viewed as a randomized and parametrized simulation generator on the submodel, which can be used as a Monte Carlo estimator.
翻訳日:2021-10-27 14:24:40 公開日:2021-10-26
# 再発性ED患者と入院患者の過去の相同性同定のための類似性関連ルール

Min-similarity association rules for identifying past comorbidities of recurrent ED and inpatient patients ( http://arxiv.org/abs/2110.13769v1 )

ライセンス: Link先を確認
Luoluo Liu, Eran Simhon, Chaitanya Kulkarni, Ronny Mans(参考訳) 病院では, 頻繁な患者の割合が, 医療資源の利用量に比例する割合に寄与する。 さらに, 薬物乱用, メンタルヘルス, および社会的行動介入, 外来医療, 予防医療によって改善される医療要因に関連がある場合において, 再来院を減らし, 患者の成果を大幅に改善することができる。 そこで我々は,高利用率の反復性患者を同定し,反復的訪問に最も寄与する相補性を決定する,計算効率が高く解釈可能なフレームワークを開発した。 具体的には,最少類似度関連規則 (MSAR) と呼ばれる新たなアルゴリズムを提案する。 大規模な電気健康記録(EHR)データセット上でMSARを検証する。 ソリューションの一部はPhilips製品であるPatent Flow Capacity Suite (PFCS)にデプロイされている。

In the hospital setting, a small percentage of recurrent frequent patients contribute to a disproportional amount of healthcare resource usage. Moreover, in many of these cases, patient outcomes can be greatly improved by reducing reoccurring visits, especially when they are associated with substance abuse, mental health, and medical factors that could be improved by social-behavioral interventions, outpatient or preventative care. To address this, we developed a computationally efficient and interpretable framework that both identifies recurrent patients with high utilization and determines which comorbidities contribute most to their recurrent visits. Specifically, we present a novel algorithm, called the minimum similarity association rules (MSAR), balancing confidence-support trade-off, to determine the conditions most associated with reoccurring Emergency department (ED) and inpatient visits. We validate MSAR on a large Electric Health Record (EHR) dataset. Part of the solution is deployed in Philips product Patient Flow Capacity Suite (PFCS).
翻訳日:2021-10-27 14:24:19 公開日:2021-10-26
# 個別公正のためのポストプロセッシング

Post-processing for Individual Fairness ( http://arxiv.org/abs/2110.13796v1 )

ライセンス: Link先を確認
Felix Petersen, Debarghya Mukherjee, Yuekai Sun, Mikhail Yurochkin(参考訳) アルゴリズムフェアネスにおける後処理は、既にプロダクションで使用されているMLシステムのバイアスを修正するための汎用的なアプローチである。 後処理の主な魅力は、高価な再トレーニングを避けることである。 本研究では,個別公平性(IF)のための一般的なポストプロセッシングアルゴリズムを提案する。 我々は、学習者が元のモデルと個人間の類似性グラフの予測のみにアクセスし、所望の公平さの制約を導くような設定を考える。 我々はIF後処理問題をグラフ平滑化問題として、所望の「類似した個人を同様に扱う」解釈を保存するラプラシアン正規化問題とした。 理論的な結果は,新しい目的関数と元の個人的公正の局所的緩和の関連性を示すものである。 実験的に,我々の後処理アルゴリズムは,BERTなどの大規模NLPモデルにおいて,精度を保ちながら個々のバイアスを補正する。

Post-processing in algorithmic fairness is a versatile approach for correcting bias in ML systems that are already used in production. The main appeal of post-processing is that it avoids expensive retraining. In this work, we propose general post-processing algorithms for individual fairness (IF). We consider a setting where the learner only has access to the predictions of the original model and a similarity graph between individuals, guiding the desired fairness constraints. We cast the IF post-processing problem as a graph smoothing problem corresponding to graph Laplacian regularization that preserves the desired "treat similar individuals similarly" interpretation. Our theoretical results demonstrate the connection of the new objective function to a local relaxation of the original individual fairness. Empirically, our post-processing algorithms correct individual biases in large-scale NLP models such as BERT, while preserving accuracy.
翻訳日:2021-10-27 14:24:02 公開日:2021-10-26
# 動的因果ベイズ最適化

Dynamic Causal Bayesian Optimization ( http://arxiv.org/abs/2110.13891v1 )

ライセンス: Link先を確認
Virginia Aglietti, Neil Dhir, Javier Gonz\'alez, Theodoros Damoulas(参考訳) 本稿では,対象変数と入力値の両方が時間とともに進化する因果力学系において,最適介入の系列を行う問題について検討する。 この問題は、システム生物学や運用研究など、さまざまな領域で発生する。 動的因果ベイズ最適化(DCBO)は、逐次意思決定、因果推論、ガウス過程(GP)エミュレーションのアイデアをまとめる。 DCBOは、グラフ内のすべての因果効果が時間とともに変化するシナリオで有用である。 ステップ毎のDCBOは、システムから収集された観測データと過去の干渉データの両方を統合することにより、局所的な最適な介入を特定する。 時間ステップをまたいで介入情報を伝達し、不確かさを定量化し、実際に最適な介入を見つけるために使用できる動的因果gpモデルを定義するための理論的結果を与える。 我々は、DCBOが複数の設定やアプリケーションにおいて競合するアプローチよりも迅速に最適な介入を特定する方法を示す。

This paper studies the problem of performing a sequence of optimal interventions in a causal dynamical system where both the target variable of interest and the inputs evolve over time. This problem arises in a variety of domains e.g. system biology and operational research. Dynamic Causal Bayesian Optimization (DCBO) brings together ideas from sequential decision making, causal inference and Gaussian process (GP) emulation. DCBO is useful in scenarios where all causal effects in a graph are changing over time. At every time step DCBO identifies a local optimal intervention by integrating both observational and past interventional data collected from the system. We give theoretical results detailing how one can transfer interventional information across time steps and define a dynamic causal GP model which can be used to quantify uncertainty and find optimal interventions in practice. We demonstrate how DCBO identifies optimal interventions faster than competing approaches in multiple settings and applications.
翻訳日:2021-10-27 14:23:36 公開日:2021-10-26
# AugMax:ロバストトレーニングのためのランダム拡張の逆合成

AugMax: Adversarial Composition of Random Augmentations for Robust Training ( http://arxiv.org/abs/2110.13771v1 )

ライセンス: Link先を確認
Haotao Wang, Chaowei Xiao, Jean Kossaifi, Zhiding Yu, Anima Anandkumar, Zhangyang Wang(参考訳) データ拡張は、ディープニューラルネットワーク(dnn)の堅牢性を改善するためのシンプルかつ効果的な方法である。 多様性と硬さは、堅牢性を達成するためのデータ拡張の相補的な2つの次元である。 例えば、AugMixは多種多様な拡張のランダムな構成を探索して範囲を広げ、一方、敵の訓練は弱さを見つけるために逆向きに硬いサンプルを生成する。 そこで本研究では,多様性と硬さの両面を統合するために,AugMaxと呼ばれるデータ拡張フレームワークを提案する。 AugMaxはまず複数の拡張演算子をランダムにサンプリングし、選択した演算子の逆混合を学習する。 augmaxはデータ拡張のより強固な形式であるため、モデルのトレーニングをより難しくする入力分布が大幅に増大する。 この問題を解決するために、AugMaxから生じるインスタンスワイド特徴の不均一性を解消するDuBIN(Dual-Batch-and -Instance Normalization)と呼ばれる非絡み付き正規化モジュールをさらに設計する。 AugMax-DuBINは、CIFAR10-C、CIFAR100-C、Tiny ImageNet-C、ImageNet-Cで、前作より3.03%、3.49%、1.82%、0.71%向上した。 コードと事前訓練されたモデルは、https://github.com/V ITA-Group/AugMax.com で入手できる。

Data augmentation is a simple yet effective way to improve the robustness of deep neural networks (DNNs). Diversity and hardness are two complementary dimensions of data augmentation to achieve robustness. For example, AugMix explores random compositions of a diverse set of augmentations to enhance broader coverage, while adversarial training generates adversarially hard samples to spot the weakness. Motivated by this, we propose a data augmentation framework, termed AugMax, to unify the two aspects of diversity and hardness. AugMax first randomly samples multiple augmentation operators and then learns an adversarial mixture of the selected operators. Being a stronger form of data augmentation, AugMax leads to a significantly augmented input distribution which makes model training more challenging. To solve this problem, we further design a disentangled normalization module, termed DuBIN (Dual-Batch-and-Inst ance Normalization), that disentangles the instance-wise feature heterogeneity arising from AugMax. Experiments show that AugMax-DuBIN leads to significantly improved out-of-distribution robustness, outperforming prior arts by 3.03%, 3.49%, 1.82% and 0.71% on CIFAR10-C, CIFAR100-C, Tiny ImageNet-C and ImageNet-C. Codes and pretrained models are available: https://github.com/V ITA-Group/AugMax.
翻訳日:2021-10-27 14:22:13 公開日:2021-10-26
# HVAC制御のための分散マルチエージェント深部強化学習フレームワーク

Distributed Multi-Agent Deep Reinforcement Learning Framework for Whole-building HVAC Control ( http://arxiv.org/abs/2110.13450v1 )

ライセンス: Link先を確認
Vinay Hanumaiah, Sahika Genc(参考訳) 商業ビルにおける総電力消費量の約40%-50%は、暖房・換気・空調(HVAC)システムによるものと推定されている。 居住者の熱的快適性を考慮したエネルギーコストの最小化は、様々な空調制御と建物内の熱力学の関係が不明で複雑なため、非常に困難である。 この目的のために,商業ビルにおけるHVACを最適化するためのEnergy Plusシミュレーション環境に基づく多エージェント分散深部強化学習(DRL)フレームワークを提案する。 この枠組みは建物内の複雑な熱力学を学習し、建物内の冷却と暖房システムの異なる効果を利用してエネルギーコストを低減し、居住者の熱的快適性を維持している。 適応的なペナルティにより、RLアルゴリズムは省エネや熱的快適性を維持するために優先順位付けすることができる。 DRLを用いることで、エネルギー消費の75%以上を節約できる。 分散DRLフレームワークは、異種タイプの複数のGPUとCPUにスケールすることができる。

It is estimated that about 40%-50% of total electricity consumption in commercial buildings can be attributed to Heating, Ventilation, and Air Conditioning (HVAC) systems. Minimizing the energy cost while considering the thermal comfort of the occupants is very challenging due to unknown and complex relationships between various HVAC controls and thermal dynamics inside a building. To this end, we present a multi-agent, distributed deep reinforcement learning (DRL) framework based on Energy Plus simulation environment for optimizing HVAC in commercial buildings. This framework learns the complex thermal dynamics in the building and takes advantage of the differential effect of cooling and heating systems in the building to reduce energy costs, while maintaining the thermal comfort of the occupants. With adaptive penalty, the RL algorithm can be prioritized for energy savings or maintaining thermal comfort. Using DRL, we achieve more than 75\% savings in energy consumption. The distributed DRL framework can be scaled to multiple GPUs and CPUs of heterogeneous types.
翻訳日:2021-10-27 14:18:37 公開日:2021-10-26
# 次世代インターネットにおけるマルチエージェント強化学習の応用:包括的調査

Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey ( http://arxiv.org/abs/2110.13484v1 )

ライセンス: Link先を確認
Tianxu Li, Kun Zhu, Nguyen Cong Luong, Dusit Niyato, Qihui Wu, Yang Zhang, Bing Chen(参考訳) 将来のインターネットには、5G以降の5Gネットワーク、車両ネットワーク、無人航空機(UAV)ネットワーク、IoT(Internet of Things)など、いくつかの新興技術が含まれている。 さらに、将来のインターネットは、多数のネットワークエンティティを持つ異質で分散化される。 各エンティティは、動的かつ不確定なネットワーク環境下でのネットワークパフォーマンスを改善するために、ローカルな決定を行う必要がある。 シングルエージェント強化学習(RL)やディープ強化学習(DRL)のような標準学習アルゴリズムは、エージェントとして各ネットワークエンティティが未知の環境と対話することで最適な意思決定ポリシーを適応的に学習できるようにするために最近使用されている。 しかし、そのようなアルゴリズムはネットワークエンティティ間の協調や競合のモデル化に失敗し、他のエンティティを非定常問題の原因となる可能性のある環境の一部として扱う。 マルチエージェント強化学習(MARL)により、各ネットワークエンティティは環境だけでなく、他のエンティティのポリシーも観察することで、最適なポリシーを学ぶことができる。 その結果、marlはネットワークエンティティの学習効率を大幅に向上させ、近年、新興ネットワークにおける様々な問題を解決するために使用されている。 本稿では,新興ネットワークにおけるMARLの適用について概説する。 特に、MARLのチュートリアルと次世代インターネットにおけるMARLの応用に関する総合的な調査を提供する。 特に,まず単一エージェントRLとMARLを紹介する。 そこで我々は,今後のインターネットの課題を解決するために,MARLの多くの応用をレビューする。 問題は、ネットワークアクセス、送信電力制御、計算オフロード、コンテンツキャッシュ、パケットルーティング、UAV支援ネットワークの軌道設計、ネットワークセキュリティの問題である。

Future Internet involves several emerging technologies such as 5G and beyond 5G networks, vehicular networks, unmanned aerial vehicle (UAV) networks, and Internet of Things (IoTs). Moreover, future Internet becomes heterogeneous and decentralized with a large number of involved network entities. Each entity may need to make its local decision to improve the network performance under dynamic and uncertain network environments. Standard learning algorithms such as single-agent Reinforcement Learning (RL) or Deep Reinforcement Learning (DRL) have been recently used to enable each network entity as an agent to learn an optimal decision-making policy adaptively through interacting with the unknown environments. However, such an algorithm fails to model the cooperations or competitions among network entities, and simply treats other entities as a part of the environment that may result in the non-stationarity issue. Multi-agent Reinforcement Learning (MARL) allows each network entity to learn its optimal policy by observing not only the environments, but also other entities' policies. As a result, MARL can significantly improve the learning efficiency of the network entities, and it has been recently used to solve various issues in the emerging networks. In this paper, we thus review the applications of MARL in the emerging networks. In particular, we provide a tutorial of MARL and a comprehensive survey of applications of MARL in next generation Internet. In particular, we first introduce single-agent RL and MARL. Then, we review a number of applications of MARL to solve emerging issues in future Internet. The issues consist of network access, transmit power control, computation offloading, content caching, packet routing, trajectory design for UAV-aided networks, and network security issues.
翻訳日:2021-10-27 14:18:22 公開日:2021-10-26
# オンライン変動フィルタリングとパラメータ学習

Online Variational Filtering and Parameter Learning ( http://arxiv.org/abs/2110.13549v1 )

ライセンス: Link先を確認
Andrew Campbell, Yuyang Shi, Tom Rainforth, Arnaud Doucet(参考訳) 逐次データに対する潜在変数モデルのユビキタスクラスである状態空間モデル(SSM)におけるオンライン状態推定とパラメータ学習のための変分法を提案する。 標準バッチ変分法と同様に、我々は確率勾配を用いて、モデルパラメータと状態の後方分布の変動近似の両方に関して、ログエビデンス上の下限を同時に最適化する。 しかし,従来の手法とは違って,過去の観測では組み込まれてから修正する必要がなく,各段階の更新コストが一定でありながら,共同後続分布の次元が増大しているため,完全にオンラインで運用することが可能である。 これは、この結合後部分布と変分近似の後方分解と、証拠の下界とその勾配に対するベルマン型再帰を併用することにより達成される。 高次元ssmや逐次変分オートエンコーダなど,いくつかの例でこの手法の性能を示す。

We present a variational method for online state estimation and parameter learning in state-space models (SSMs), a ubiquitous class of latent variable models for sequential data. As per standard batch variational techniques, we use stochastic gradients to simultaneously optimize a lower bound on the log evidence with respect to both model parameters and a variational approximation of the states' posterior distribution. However, unlike existing approaches, our method is able to operate in an entirely online manner, such that historic observations do not require revisitation after being incorporated and the cost of updates at each time step remains constant, despite the growing dimensionality of the joint posterior distribution of the states. This is achieved by utilizing backward decompositions of this joint posterior distribution and of its variational approximation, combined with Bellman-type recursions for the evidence lower bound and its gradients. We demonstrate the performance of this methodology across several examples, including high-dimensional SSMs and sequential Variational Auto-Encoders.
翻訳日:2021-10-27 14:17:19 公開日:2021-10-26
# 多目的追跡アルゴリズムを評価するための軌道集合の時間重み付き計量

A time-weighted metric for sets of trajectories to assess multi-object tracking algorithms ( http://arxiv.org/abs/2110.13444v1 )

ライセンス: Link先を確認
\'Angel F. Garc\'ia-Fern\'andez, Abu Sajana Rahmathullah, Lennart Svensson(参考訳) 本稿では,誤検出された対象の局所化誤差に対する時間重み付きコストを含む複数対象追従アルゴリズムを評価するためのトラジェクタ集合の指標を提案する。 提案した計量は、異なる時間ステップに関連するコストに対する重みを含めることで、[1]で計量を拡張する。 時間重み付きコストはメトリック[1]の柔軟性を高め、より多くのアプリケーションとユーザーの好みに合うようにします。 まず、多次元代入に基づく計量を導入し、次に多項式時間で計算可能で計量でもある線形計画緩和を導入する。 メトリクスは無作為な有限軌跡の測度にまで拡張することができ、異なるシナリオでアルゴリズムを評価し、ランク付けすることができる。

This paper proposes a metric for sets of trajectories to evaluate multi-object tracking algorithms that includes time-weighted costs for localisation errors of properly detected targets, for false targets, missed targets and track switches. The proposed metric extends the metric in [1] by including weights to the costs associated to different time steps. The time-weighted costs increase the flexibility of the metric [1] to fit more applications and user preferences. We first introduce a metric based on multi-dimensional assignments, and then its linear programming relaxation, which is computable in polynomial time and is also a metric. The metrics can also be extended to metrics on random finite sets of trajectories to evaluate and rank algorithms across different scenarios, each with a ground truth set of trajectories.
翻訳日:2021-10-27 14:17:02 公開日:2021-10-26
# (参考訳) 低リソースおよびノイズの多い言語シナリオにおいて、文字ベースの言語モデルはダウンストリームタスクパフォーマンスを改善することができるか? [全文訳有]

Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? ( http://arxiv.org/abs/2110.13658v1 )

ライセンス: CC BY 4.0
Arij Riabi, Beno\^it Sagot, Djam\'e Seddah(参考訳) 最近のnlpの印象的な改善は、主に文脈ニューラル言語モデルの成功に基づいているが、多くの高リソース言語で実証されている。 言語モデルやより一般的には、標準化されていない低リソース言語のためのNLPシステムの構築は、依然として困難な課題である。 本研究では、主にソーシャルメディアやメッセージ通信で見られるラテン文字の拡張であるNArabiziを用いて、北アフリカ方言のアラビア語に焦点をあてる。 高いレベルの可変性を示すデータを含むこの低リソースシナリオでは、文字ベースの言語モデルの下流のパフォーマンスを、単言語および多言語モデルのそれと比較する。 ナラビジの99k文のみをトレーニングし,この言語の小さな木バンクで微調整した文字ベースモデルが,大規模多言語および単言語モデルで事前学習した同じアーキテクチャで得られたものに近い性能を示すことを示す。 これらの結果が、ノイズの多いフランスのユーザ生成コンテンツのデータセットであることを確認した上で、このような文字ベースの言語モデルは、低リソースおよび高言語可変セットにおけるNLPの資産になり得ると論じる。

Recent impressive improvements in NLP, largely based on the success of contextual neural language models, have been mostly demonstrated on at most a couple dozen high-resource languages. Building language models and, more generally, NLP systems for non-standardized and low-resource languages remains a challenging task. In this work, we focus on North-African colloquial dialectal Arabic written using an extension of the Latin script, called NArabizi, found mostly on social media and messaging communication. In this low-resource scenario with data displaying a high level of variability, we compare the downstream performance of a character-based language model on part-of-speech tagging and dependency parsing to that of monolingual and multilingual models. We show that a character-based model trained on only 99k sentences of NArabizi and fined-tuned on a small treebank of this language leads to performance close to those obtained with the same architecture pre-trained on large multilingual and monolingual models. Confirming these results a on much larger data set of noisy French user-generated content, we argue that such character-based language models can be an asset for NLP in low-resource and high language variability set-tings.
翻訳日:2021-10-27 14:14:35 公開日:2021-10-26
# FL-WBC: クライアントの視点からのフェデレート学習におけるモデル中毒攻撃に対するロバスト性向上

FL-WBC: Enhancing Robustness against Model Poisoning Attacks in Federated Learning from a Client Perspective ( http://arxiv.org/abs/2110.13864v1 )

ライセンス: Link先を確認
Jingwei Sun, Ang Li, Louis DiValentin, Amin Hassanzadeh, Yiran Chen, Hai Li(参考訳) Federated Learning(FL)は,中央サーバとエッジデバイス間の反復的な通信を通じてグローバルモデルをトレーニングする,人気のある分散学習フレームワークである。 近年の研究では、FLはモデル中毒攻撃に弱いことが示されている。 いくつかのサーバベースの防御アプローチ(例えばロバストアグリゲーション)がそのような攻撃を軽減するために提案されている。 しかし,極めて強い攻撃下では,これらの防御手法はFLの堅牢性を保証できないことを実証的に示す。 さらに重要なことは、グローバルモデルが汚染されている限り、その後の攻撃がなくても、グローバルモデルへの攻撃の影響は続くラウンドにとどまることである。 本研究では,すでにグローバルモデルに汚染されているモデル中毒攻撃を緩和するクライアントベースの防御手法であるWhite Blood Cell for Federated Learning (FL-WBC)を提案する。 FL-WBCの鍵となる考え方は、パラメータに対する長期間の攻撃効果が局所訓練中にその空間を摂動させるパラメータ空間を特定することである。 さらに, FL-WBCの適用後, モデル中毒に対する堅牢性保証とFedAvgの収束保証を導出した。 本研究はFasionMNISTとCIFAR10の実験を行い,最先端のモデル中毒に対する防御効果を評価する。 以上の結果から,IIDおよび非IID条件下での精度低下がほとんどなく,グローバルモデルに対するモデル中毒攻撃の影響を効果的に軽減できることが示唆された。 我々の防御は、既存のサーバベースのロバストアグリゲーションアプローチを補完するものであり、非常に強力な攻撃の下でflのロバスト性をさらに改善することができる。

Federated learning (FL) is a popular distributed learning framework that trains a global model through iterative communications between a central server and edge devices. Recent works have demonstrated that FL is vulnerable to model poisoning attacks. Several server-based defense approaches (e.g. robust aggregation), have been proposed to mitigate such attacks. However, we empirically show that under extremely strong attacks, these defensive methods fail to guarantee the robustness of FL. More importantly, we observe that as long as the global model is polluted, the impact of attacks on the global model will remain in subsequent rounds even if there are no subsequent attacks. In this work, we propose a client-based defense, named White Blood Cell for Federated Learning (FL-WBC), which can mitigate model poisoning attacks that have already polluted the global model. The key idea of FL-WBC is to identify the parameter space where long-lasting attack effect on parameters resides and perturb that space during local training. Furthermore, we derive a certified robustness guarantee against model poisoning attacks and a convergence guarantee to FedAvg after applying our FL-WBC. We conduct experiments on FasionMNIST and CIFAR10 to evaluate the defense against state-of-the-art model poisoning attacks. The results demonstrate that our method can effectively mitigate model poisoning attack impact on the global model within 5 communication rounds with nearly no accuracy drop under both IID and Non-IID settings. Our defense is also complementary to existing server-based robust aggregation approaches and can further improve the robustness of FL under extremely strong attacks.
翻訳日:2021-10-27 13:53:13 公開日:2021-10-26
# Few-Shot Intent Classification and Slot Fillingのための明示的・教師付きコントラスト学習フレームワーク

An Explicit-Joint and Supervised-Contrasti ve Learning Framework for Few-Shot Intent Classification and Slot Filling ( http://arxiv.org/abs/2110.13691v1 )

ライセンス: Link先を確認
Han Liu, Feng Zhang, Xiaotong Zhang, Siyang Zhao and Xianchao Zhang(参考訳) Intent Classification (IC) と slot fill (SF) はタスク指向対話システムにおいて重要なビルディングブロックである。 これら2つのタスクは密接に関連しており、互いに繁栄することができる。 高速に出現する新しい意図やスロットを特定するために、わずかな発話しか利用できないため、ICやSFを実装する際にデータ不足の問題が発生することが多い。 しかし、クラスごとのトレーニングサンプルの数が非常に少ない場合、IC/SFモデルはほとんど機能しない。 本稿では,数ショットの意図分類とスロットフィリングのための,新しい明示的結合と教師付きコントラスト学習フレームワークを提案する。 ハイライトは以下の通り。 (i)このモデルは双方向インタラクションを通じて意図やスロット表現を抽出し、プロトタイプネットワークを拡張して明示的な協調学習を実現し、icとsfのタスクが相互に強化できることを保証する。 (ii)このモデルは教師付きコントラスト学習と統合され、同じクラスからのサンプルがまとめられ、異なるクラスからのサンプルが押しつぶされるようにする。 さらに、このモデルは、伝統的な設定を固定的な方法とショットで取り除き、バランスのとれないデータセットを可能にする、エピソードを構築するための一般的で実用的な方法に従う。 3つのパブリックデータセットに関する広範な実験は、モデルが有望なパフォーマンスを達成できることを示しています。

Intent classification (IC) and slot filling (SF) are critical building blocks in task-oriented dialogue systems. These two tasks are closely-related and can flourish each other. Since only a few utterances can be utilized for identifying fast-emerging new intents and slots, data scarcity issue often occurs when implementing IC and SF. However, few IC/SF models perform well when the number of training samples per class is quite small. In this paper, we propose a novel explicit-joint and supervised-contrasti ve learning framework for few-shot intent classification and slot filling. Its highlights are as follows. (i) The model extracts intent and slot representations via bidirectional interactions, and extends prototypical network to achieve explicit-joint learning, which guarantees that IC and SF tasks can mutually reinforce each other. (ii) The model integrates with supervised contrastive learning, which ensures that samples from same class are pulled together and samples from different classes are pushed apart. In addition, the model follows a not common but practical way to construct the episode, which gets rid of the traditional setting with fixed way and shot, and allows for unbalanced datasets. Extensive experiments on three public datasets show that our model can achieve promising performance.
翻訳日:2021-10-27 13:52:31 公開日:2021-10-26
# ショット学習のための自己否定型ニューラルネットワーク

Self-Denoising Neural Networks for Few Shot Learning ( http://arxiv.org/abs/2110.13386v1 )

ライセンス: Link先を確認
Steven Schwarcz, Sai Saketh Rambhatla, Rama Chellappa(参考訳) 本稿では,1つまたは5つのラベル付き例からニューラルネットワークを教えるタスクである,ショット学習の少ない新しいアーキテクチャを提案する。 Alaineらの理論的な結果から着想を得たオートエンコーダは、真のデータ多様体に近い特徴を洗練し、既存のニューラルアーキテクチャの複数段階でノイズを付加すると同時に、この付加ノイズに頑健であることを学習する新たなトレーニングスキームを提案する。 このアーキテクチャは、SDNN(Self-Denoising Neural Network)と呼ばれ、現代のほとんどの畳み込みニューラルネットワークに容易に適用でき、既存の数発の学習技術の補足として使用することができる。 SDNNが従来の画像認識手法より優れていることを実証的に示しており、Wide-ResNetアーキテクチャは、‘textit{mini} ImageNet, tiered-ImageNet, CIFAR-FS few shot learning data で示している。 また,SDNNアーキテクチャの構築を実証的に正当化するために,一連のアブレーション実験を行った。 最後に, SDNNは, ActEV SDLサプライズアクティビティ(SDLサプライズアクティビティ)の課題において, ビデオ中のヒューマンアクション検出のタスクにおいて, ショット性能が向上することを示した。

In this paper, we introduce a new architecture for few shot learning, the task of teaching a neural network from as few as one or five labeled examples. Inspired by the theoretical results of Alaine et al that Denoising Autoencoders refine features to lie closer to the true data manifold, we present a new training scheme that adds noise at multiple stages of an existing neural architecture while simultaneously learning to be robust to this added noise. This architecture, which we call a Self-Denoising Neural Network (SDNN), can be applied easily to most modern convolutional neural architectures, and can be used as a supplement to many existing few-shot learning techniques. We empirically show that SDNNs out-perform previous state-of-the-art methods for few shot image recognition using the Wide-ResNet architecture on the \textit{mini}ImageNet, tiered-ImageNet, and CIFAR-FS few shot learning datasets. We also perform a series of ablation experiments to empirically justify the construction of the SDNN architecture. Finally, we show that SDNNs even improve few shot performance on the task of human action detection in video using experiments on the ActEV SDL Surprise Activities challenge.
翻訳日:2021-10-27 13:51:39 公開日:2021-10-26
# ビデオ質問応答におけるドメインに依存しない知識の伝達

Transferring Domain-Agnostic Knowledge in Video Question Answering ( http://arxiv.org/abs/2110.13395v1 )

ライセンス: Link先を確認
Tianran Wu, Noa Garcia, Mayu Otani, Chenhui Chu, Yuta Nakashima and Haruo Takemura(参考訳) ビデオ質問応答(Video QA)は、関連するビデオクリップに基づいて所定の質問に答えるように設計されている。 現在利用可能な大規模なデータセットにより、視覚情報と言語情報の合同理解としてVideoQAを定式化することが可能になった。 しかし、この訓練手順は費用がかかり、人間の能力には及ばない。 本稿では,ドメインに依存しない知識とドメイン固有の知識を導入することによって,伝達学習手法を検討する。 まず,ドメインに依存しない知識を媒体として,事前学習モデルの微調整を行う。 第2に,21,412個の人間生成質問応答サンプルを用いた新たなビデオqaデータセットを構築し,それと同等の知識の伝達を行う。 私たちの実験では、 (i)ドメインに依存しない知識は伝達可能で、 (II)提案する転送学習フレームワークは,ビデオQA性能を効果的に向上させることができる。

Video question answering (VideoQA) is designed to answer a given question based on a relevant video clip. The current available large-scale datasets have made it possible to formulate VideoQA as the joint understanding of visual and language information. However, this training procedure is costly and still less competent with human performance. In this paper, we investigate a transfer learning method by the introduction of domain-agnostic knowledge and domain-specific knowledge. First, we develop a novel transfer learning framework, which finetunes the pre-trained model by applying domain-agnostic knowledge as the medium. Second, we construct a new VideoQA dataset with 21,412 human-generated question-answer samples for comparable transfer of knowledge. Our experiments show that: (i) domain-agnostic knowledge is transferable and (ii) our proposed transfer learning framework can boost VideoQA performance effectively.
翻訳日:2021-10-27 13:51:17 公開日:2021-10-26
# 適応型脳波に基づく視覚認識

Subject Adaptive EEG-based Visual Recognition ( http://arxiv.org/abs/2110.13470v1 )

ライセンス: Link先を確認
Pilhyeon Lee, Sunhee Hwang, Seogkyu Jeon, Hyeran Byun(参考訳) 本稿では,脳波信号に基づいて被験者が観察する視覚物体クラスを予測することを目的とした,脳波に基づく視覚認識について述べる。 主な課題の1つは、異なる主題からの信号の大きなばらつきである。 認識システムは、モデルトレーニングに関わる被験者のみに限るが、これは、新しい被験者が頻繁に追加される現実のシナリオでは望ましくない。 この制限は、新しいユーザーごとに大量のデータを集めることで緩和できるが、コストがかかり、時には実現できない。 タスクをより実用的なものにするために,適応型脳波に基づく視覚認識という新たな問題設定を導入する。 この設定では、既存のユーザ(ソース)の事前記録されたデータの束が利用可能であり、新しいユーザ(ターゲット)からのトレーニングデータのみが提供される。 推定時には、モデルが対象ユーザからの信号のみに基づいて評価される。 この設定は、特に、対象者からのデータ上でモデルを評価する際に、情報源からのトレーニングサンプルが役に立たないため、難しい。 新たな問題に取り組むため,我々は,異なる対象からの特徴分布間の不一致を最小限に抑える,単純かつ効果的なベースラインを設計した。 これにより,対象者間で共有される共通知識を学習でき,対象者の認識性能が大幅に向上する。 実験では,様々な条件下で本手法の有効性を示す。 私たちのコードはhttps://github.com/D eepBCI/Deep-BCI/tree /master/1_Intelligen t_BCI/Subject_Adapti ve_EEG_based_Visual_ Recognitionで利用可能です。

This paper focuses on EEG-based visual recognition, aiming to predict the visual object class observed by a subject based on his/her EEG signals. One of the main challenges is the large variation between signals from different subjects. It limits recognition systems to work only for the subjects involved in model training, which is undesirable for real-world scenarios where new subjects are frequently added. This limitation can be alleviated by collecting a large amount of data for each new user, yet it is costly and sometimes infeasible. To make the task more practical, we introduce a novel problem setting, namely subject adaptive EEG-based visual recognition. In this setting, a bunch of pre-recorded data of existing users (source) is available, while only a little training data from a new user (target) are provided. At inference time, the model is evaluated solely on the signals from the target user. This setting is challenging, especially because training samples from source subjects may not be helpful when evaluating the model on the data from the target subject. To tackle the new problem, we design a simple yet effective baseline that minimizes the discrepancy between feature distributions from different subjects, which allows the model to extract subject-independent features. Consequently, our model can learn the common knowledge shared among subjects, thereby significantly improving the recognition performance for the target subject. In the experiments, we demonstrate the effectiveness of our method under various settings. Our code is available at https://github.com/D eepBCI/Deep-BCI/tree /master/1_Intelligen t_BCI/Subject_Adapti ve_EEG_based_Visual_ Recognition.
翻訳日:2021-10-27 13:51:05 公開日:2021-10-26
# CTRN:行動検出のためのクラス時間関係ネットワーク

CTRN: Class-Temporal Relational Network for Action Detection ( http://arxiv.org/abs/2110.13473v1 )

ライセンス: Link先を確認
Rui Dai, Srijan Das, Francois Bremond(参考訳) アクション検出は、特に未トリミングビデオの密にラベル付けされたデータセットにおいて、必須かつ困難なタスクである。 これらのデータセットには、複合アクション、共起アクション、インスタンス持続時間の時間的変動など、多くの現実世界の課題がある。 これらの課題に対処するため,検出された行動のクラスと時間的関係について検討する。 本研究では,エンドツーエンドネットワークであるCTRN(Class-Temporal Relational Network)を紹介する。 1) Representation Transform Moduleは、混合表現からクラス固有の機能をフィルタリングし、グラフ構造化データを構築する。 2) クラステンポラルモジュールは、クラスと時間的関係を逐次的にモデル化する。 3) g分類器は、スニペットワイズ共起動作ペアの特権知識を活用して、共起動作検出をさらに改善する。 我々は,3つの難解なラベル付きデータセット上でCTRNを評価し,提案手法の有効性とロバスト性を反映して最先端の性能を実現する。

Action detection is an essential and challenging task, especially for densely labelled datasets of untrimmed videos. There are many real-world challenges in those datasets, such as composite action, co-occurring action, and high temporal variation of instance duration. For handling these challenges, we propose to explore both the class and temporal relations of detected actions. In this work, we introduce an end-to-end network: Class-Temporal Relational Network (CTRN). It contains three key components: (1) The Representation Transform Module filters the class-specific features from the mixed representations to build graph-structured data. (2) The Class-Temporal Module models the class and temporal relations in a sequential manner. (3) G-classifier leverages the privileged knowledge of the snippet-wise co-occurring action pairs to further improve the co-occurring action detection. We evaluate CTRN on three challenging densely labelled datasets and achieve state-of-the-art performance, reflecting the effectiveness and robustness of our method.
翻訳日:2021-10-27 13:50:40 公開日:2021-10-26
# 階層型トランスフォーマーはより効率的な言語モデルである

Hierarchical Transformers Are More Efficient Language Models ( http://arxiv.org/abs/2110.13711v1 )

ライセンス: Link先を確認
Piotr Nawrot, Szymon Tworkowski, Micha{\l} Tyrolski, {\L}ukasz Kaiser, Yuhuai Wu, Christian Szegedy, Henryk Michalewski(参考訳) トランスフォーマーモデルは、多くのNLPおよびシーケンスモデリングタスクにおいて印象的な結果をもたらす。 注目すべきなのは、Transformerは長いシーケンスを処理して、長いコヒーレントな出力を生成することができることだ。 これらの大きな言語モデルは印象的だが、非常に非効率でコストがかかり、アプリケーションとアクセシビリティが制限される。 我々は、明示的な階層構造を持つことが、長いシーケンスを効率的に処理するトランスフォーマーの鍵であると仮定する。 この主張を検証するために、まずトランスフォーマーのアクティベーションを階層的にするために、ダウンサンプルとアップサンプルの異なる方法を研究します。 最高のパフォーマンスアップサンプリングとダウンサンプリングレイヤを使用して、階層的トランスフォーマー言語モデルであるhourglassを作成します。 hourglassは、同じ計算量でトランスフォーマーのベースラインを改善し、トランスフォーマーと同じ結果をより効率的に得ることができる。 特に、HourglassはImageNet32生成タスクでTransformerモデルの最先端を新たに設定し、広く研究されているenwik8ベンチマークで言語モデリングの効率を改善する。

Transformer models yield impressive results on many NLP and sequence modeling tasks. Remarkably, Transformers can handle long sequences which allows them to produce long coherent outputs: full paragraphs produced by GPT-3 or well-structured images produced by DALL-E. These large language models are impressive but also very inefficient and costly, which limits their applications and accessibility. We postulate that having an explicit hierarchical architecture is the key to Transformers that efficiently handle long sequences. To verify this claim, we first study different ways to downsample and upsample activations in Transformers so as to make them hierarchical. We use the best performing upsampling and downsampling layers to create Hourglass - a hierarchical Transformer language model. Hourglass improves upon the Transformer baseline given the same amount of computation and can yield the same results as Transformers more efficiently. In particular, Hourglass sets new state-of-the-art for Transformer models on the ImageNet32 generation task and improves language modeling efficiency on the widely studied enwik8 benchmark.
翻訳日:2021-10-27 13:48:57 公開日:2021-10-26
# c$^2$sp-net:てんかん発作予測のための統合圧縮分類ネットワーク

C$^2$SP-Net: Joint Compression and Classification Network for Epilepsy Seizure Prediction ( http://arxiv.org/abs/2110.13674v1 )

ライセンス: Link先を確認
Di Wu, Yi Shi, Ziyu Wang, Jie Yang, Mohamad Sawan(参考訳) 脳-機械インタフェース技術の最近の進歩は発作予測を可能にした。 しかし,センサと処理装置間の大量の電気生理学的信号の通信と関連する計算は,特にウェアラブル・組込み医療機器において,帯域の制限と計算資源の制限により,発作予測システムにおいて2つの大きなボトルネックとなる。 コンプレッシブセンシング(cs)は、通信帯域幅の要求を減らすために信号を圧縮するために用いられるが、信号が発作予測に使用される前に複雑な再構成手順が必要である。 本稿では,単一のニューラルネットワークを用いて圧縮,予測,再構成を共同で解くc$^2$sp-netを提案する。 伝送帯域幅要求を低減するために、プラグアンドプレイインセンサ圧縮マトリックスを構築する。 圧縮信号は、追加の再構成ステップなしで発作予測に使用できる。 元の信号の再構成も高忠実度で行うことができる。 提案フレームワークの予測精度,感度,偽予測率,再構成品質を,種々の圧縮比で評価した。 実験の結果,本モデルは予測精度の大きな差で競争状態のベースラインを上回っていることがわかった。 特に,提案手法では,予測精度が1/2から1/16の圧縮比で0.35 %の損失を発生させる。

Recent development in brain-machine interface technology has made seizure prediction possible. However, the communication of large volume of electrophysiological signals between sensors and processing apparatus and related computation become two major bottlenecks for seizure prediction systems due to the constrained bandwidth and limited computation resource, especially for wearable and implantable medical devices. Although compressive sensing (CS) can be adopted to compress the signals to reduce communication bandwidth requirement, it needs a complex reconstruction procedure before the signal can be used for seizure prediction. In this paper, we propose C$^2$SP-Net, to jointly solve compression, prediction, and reconstruction with a single neural network. A plug-and-play in-sensor compression matrix is constructed to reduce transmission bandwidth requirement. The compressed signal can be used for seizure prediction without additional reconstruction steps. Reconstruction of the original signal can also be carried out in high fidelity. Prediction accuracy, sensitivity, false prediction rate, and reconstruction quality of the proposed framework are evaluated under various compression ratios. The experimental results illustrate that our model outperforms the competitive state-of-the-art baselines by a large margin in prediction accuracy. In particular, our proposed method produces an average loss of 0.35 % in prediction accuracy with a compression ratio ranging from 1/2 to 1/16.
翻訳日:2021-10-27 13:46:21 公開日:2021-10-26
# MaxSAT を用いた最適決定木学習

Learning Optimal Decision Trees Using MaxSAT ( http://arxiv.org/abs/2110.13854v1 )

ライセンス: Link先を確認
Josep Alos, Carlos Ansotegui, Eduard Torres(参考訳) 本稿では, 最小決定木(mpdts)を計算するための最大充足可能性技術に基づく組合せ最適化手法を提案する。 我々は,MPDTを計算するための従来の実行時アプローチにおいて,我々のアプローチが明らかに優れていることを示す。 また,これらのMPDTはスケルンで生成したDT分類器の平均値よりも精度が高いことを示す。 したがって,本手法は解釈可能性と精度のバランスをとるという課題に対処する。

We present a Combinatorial Optimization approach based on Maximum Satisfiability technology to compute Minimum Pure Decision Trees (MPDTs) for the sake of interpretability. We show that our approach outperforms clearly in terms of runtime previous approaches to compute MPDTs. We additionally show that these MPDTs can outperform on average the DT classifiers generated with sklearn in terms of accuracy. Therefore, our approach tackles favourably the challenge of balancing interpretability and accuracy.
翻訳日:2021-10-27 13:46:03 公開日:2021-10-26
# 孤立林におけるランダム選択の再検討

Revisiting randomized choices in isolation forests ( http://arxiv.org/abs/2110.13402v1 )

ライセンス: Link先を確認
David Cortes(参考訳) アイソレーションフォレスト(英: isolation forest)または「iforest」は、単純かつ効果的なアイデアに従う、直感的で広く使用される異常検出のアルゴリズムであり、与えられたデータ分布において、ある変数の範囲内でランダムに閾値(スリット点)が選択され、その閾値よりも大きいか小さいかに応じてデータポイントが分割された場合、外れ点が単独かより小さい分割で終わる可能性が高い。 元々の手順では,変数内の分割点と分割点を各ステップでランダムに選択することを提案したが,本論文では,変数やしきい値の非一様ランダムな選択を適用することで,多種多様な外れ点 – しばしば他の方法よりも興味深い外れ値のクラス – がより容易に識別できることを示す。 異なる分割誘導基準が比較され、あるクラスの外れ値のクラスに対して、より優れた外れ値識別をもたらすことが判明している。

Isolation forest or "iForest" is an intuitive and widely used algorithm for anomaly detection that follows a simple yet effective idea: in a given data distribution, if a threshold (split point) is selected uniformly at random within the range of some variable and data points are divided according to whether they are greater or smaller than this threshold, outlier points are more likely to end up alone or in the smaller partition. The original procedure suggested the choice of variable to split and split point within a variable to be done uniformly at random at each step, but this paper shows that "clustered" diverse outliers - oftentimes a more interesting class of outliers than others - can be more easily identified by applying a non-uniformly-random choice of variables and/or thresholds. Different split guiding criteria are compared and some are found to result in significantly better outlier discrimination for certain classes of outliers.
翻訳日:2021-10-27 13:45:36 公開日:2021-10-26
# (参考訳) 協調合理化の連動ダイナミクスの理解 [全文訳有]

Understanding Interlocking Dynamics of Cooperative Rationalization ( http://arxiv.org/abs/2110.13880v1 )

ライセンス: CC BY 4.0
Mo Yu, Yang Zhang, Shiyu Chang, Tommi S. Jaakkola(参考訳) 選択的合理化は、ニューラルネットワークの出力を予測するのに十分な入力の小さなサブセットを見つけることによって、複雑なニューラルネットワークの予測を説明する。 選択機構は、入力特徴(論理)の2元選択を行うrationeジェネレータと、選択された特徴のみに基づいて出力を予測する予測器とからなる2成分カスケードシステムを指定することで、モデル自体に一般的に統合される。 コンポーネントは共同でトレーニングされ、予測性能を最適化する。 本稿では、このような協調合理化パラダイム(モデルインターロック)の大きな問題を明らかにする。 インターロックは、予測者がジェネレータによって選択された特徴に過度に適合すると発生し、選択された論理が準最適であってもジェネレータの選択を補強する。 インターロッキング問題の根本的な原因は、最小化される合理化の目的が発電機の選択方針に関して凹凸になっていることである。 A2Rと呼ばれる新しい合理化フレームワークを提案し、アーキテクチャに第3のコンポーネントを導入し、選択とは対照的にソフトアテンションによって駆動される予測器を提案する。 ジェネレータは、特徴に対してソフトとハードの両方の注意を払っており、これらは2つの異なる予測器に供給される。 ジェネレータは依然として元の予測器のパフォーマンスをサポートしようとしているが、2つの予測器間のギャップを最小化している。 理論的に示すように、注意に基づく予測器はより良い凸性を示すので、A2Rは凹性障壁を克服できる。 2つのベンチマークと2つの実際のデータセットに関する実験は、A2Rがインターロック問題を著しく軽減し、人間の判断によく適合する説明を見つけることを実証している。 私たちはコードをhttps://github.com/g orov/understanding_i nterlockingでリリースします。

Selective rationalization explains the prediction of complex neural networks by finding a small subset of the input that is sufficient to predict the neural model output. The selection mechanism is commonly integrated into the model itself by specifying a two-component cascaded system consisting of a rationale generator, which makes a binary selection of the input features (which is the rationale), and a predictor, which predicts the output based only on the selected features. The components are trained jointly to optimize prediction performance. In this paper, we reveal a major problem with such cooperative rationalization paradigm -- model interlocking. Interlocking arises when the predictor overfits to the features selected by the generator thus reinforcing the generator's selection even if the selected rationales are sub-optimal. The fundamental cause of the interlocking problem is that the rationalization objective to be minimized is concave with respect to the generator's selection policy. We propose a new rationalization framework, called A2R, which introduces a third component into the architecture, a predictor driven by soft attention as opposed to selection. The generator now realizes both soft and hard attention over the features and these are fed into the two different predictors. While the generator still seeks to support the original predictor performance, it also minimizes a gap between the two predictors. As we will show theoretically, since the attention-based predictor exhibits a better convexity property, A2R can overcome the concavity barrier. Our experiments on two synthetic benchmarks and two real datasets demonstrate that A2R can significantly alleviate the interlock problem and find explanations that better align with human judgments. We release our code at https://github.com/G orov/Understanding_I nterlocking.
翻訳日:2021-10-27 13:42:48 公開日:2021-10-26
# リレー変分推論:エンコーダレスVIの高速化手法

Relay Variational Inference: A Method for Accelerated Encoderless VI ( http://arxiv.org/abs/2110.13422v1 )

ライセンス: Link先を確認
Amir Zadeh, Santiago Benoit, Louis-Philippe Morency(参考訳) 変分推論(vi)は、難解な確率を近似する方法を提供する。 ニューラルVIでは、近似後部の推論は通常エンコーダを用いて行われる。 あるいは、エンコーダレスVIは、エンコーダ(例えば、欠落または不確実なデータが存在する場合)による償却によって生じる過度な最適化に遭遇することなく、データから生成モデルを学習するためのフレームワークを提供する。 しかし、エンコーダが存在しない場合、近似後続パラメータの学習に必要な勾配ステップの遅い性質のため、このような手法は収束することが多い。 本稿では,エンコーダレスVIの収束と性能を劇的に向上させるフレームワークであるRelay VI(RVI)を紹介する。 複数のデータセットに対する実験では、収束速度、損失、表現力、欠落データ計算の観点からRVIの有効性を検討した。 rviは,従来提案していたエンコーダレスモデルやvaeモデル(amortized vi model)よりも性能と収束速度に優れる,ユニークなツールであると考えられる。

Variational Inference (VI) offers a method for approximating intractable likelihoods. In neural VI, inference of approximate posteriors is commonly done using an encoder. Alternatively, encoderless VI offers a framework for learning generative models from data without encountering suboptimalities caused by amortization via an encoder (e.g. in presence of missing or uncertain data). However, in absence of an encoder, such methods often suffer in convergence due to the slow nature of gradient steps required to learn the approximate posterior parameters. In this paper, we introduce Relay VI (RVI), a framework that dramatically improves both the convergence and performance of encoderless VI. In our experiments over multiple datasets, we study the effectiveness of RVI in terms of convergence speed, loss, representation power and missing data imputation. We find RVI to be a unique tool, often superior in both performance and convergence speed to previously proposed encoderless as well as amortized VI models (e.g. VAE).
翻訳日:2021-10-27 13:22:12 公開日:2021-10-26
# 防御テンソル化

Defensive Tensorization ( http://arxiv.org/abs/2110.13859v1 )

ライセンス: Link先を確認
Adrian Bulat and Jean Kossaifi and Sourav Bhattacharya and Yannis Panagakis and Timothy Hospedales and Georgios Tzimiropoulos and Nicholas D Lane and Maja Pantic(参考訳) ネットワークの遅延高次分解を利用した対角防御技術である防御的テンソル化を提案する。 ネットワークの層はまず因子化されたテンソル層として表される。 テンソル・ドロップアウトは潜伏部分空間に適用されるため、通常ランダム化によって引き起こされるスパーシティや摂動を伴わずに、密に再構成された重量となり、我々のアプローチは任意のニューラルネットワークアーキテクチャと容易に統合でき、敵の訓練のような技術と組み合わせることができる。 標準画像分類ベンチマークにおける提案手法の有効性を実証的に実証する。 我々は,音声分類タスクとバイナリネットワークを考慮して,ドメイン間および低精度アーキテクチャ間のアプローチの汎用性を検証する。 いずれの場合も,従来の作業よりも性能が向上したことを示す。

We propose defensive tensorization, an adversarial defence technique that leverages a latent high-order factorization of the network. The layers of a network are first expressed as factorized tensor layers. Tensor dropout is then applied in the latent subspace, therefore resulting in dense reconstructed weights, without the sparsity or perturbations typically induced by the randomization.Our approach can be readily integrated with any arbitrary neural architecture and combined with techniques like adversarial training. We empirically demonstrate the effectiveness of our approach on standard image classification benchmarks. We validate the versatility of our approach across domains and low-precision architectures by considering an audio classification task and binary networks. In all cases, we demonstrate improved performance compared to prior works.
翻訳日:2021-10-27 13:21:05 公開日:2021-10-26
# 勾配に基づく擬似多形分離

Gradient-based Quadratic Multiform Separation ( http://arxiv.org/abs/2110.13006v2 )

ライセンス: Link先を確認
Wen-Teng Chang(参考訳) 教師付き学習概念としての分類は、機械学習において重要なコンテンツである。 データのセットをクラスに分類することを目的としている。 現在、k-アネレスト隣人、ランダムフォレスト、サポートベクターマシンなどの一般的な分類方法がいくつかある。 それぞれに独自の長所と短所があり、あらゆる種類の問題に対して無敵ではない。 本稿では,Michael Fan et al. (2019) が最近提案した分類法である Quadratic Multiform separation (QMS) に焦点を当てる。 その新しい概念、リッチな数学的構造、および損失関数の革新的な定義は、既存の分類法とは分離した。 QMSにインスパイアされた我々は、QMS固有の損失関数を最小限に抑える分類器を得るために勾配に基づく最適化手法Adamを提案する。 さらに,ハイパーパラメータとアキュラティシーの関係を探究し,モデルチューニングに関する提案を行う。 実験の結果,QMSは精度の点で,ほとんどの分類法に匹敵する性能を示した。 その優れたパフォーマンスは、大規模な機械学習コンペで優勝した勾配向上アルゴリズムにほぼ匹敵する。

Classification as a supervised learning concept is an important content in machine learning. It aims at categorizing a set of data into classes. There are several commonly-used classification methods nowadays such as k-nearest neighbors, random forest, and support vector machine. Each of them has its own pros and cons, and none of them is invincible for all kinds of problems. In this thesis, we focus on Quadratic Multiform Separation (QMS), a classification method recently proposed by Michael Fan et al. (2019). Its fresh concept, rich mathematical structure, and innovative definition of loss function set it apart from the existing classification methods. Inspired by QMS, we propose utilizing a gradient-based optimization method, Adam, to obtain a classifier that minimizes the QMS-specific loss function. In addition, we provide suggestions regarding model tuning through explorations of the relationships between hyperparameters and accuracies. Our empirical result shows that QMS performs as good as most classification methods in terms of accuracy. Its superior performance is almost comparable to those of gradient boosting algorithms that win massive machine learning competitions.
翻訳日:2021-10-27 11:47:17 公開日:2021-10-26
# 多目的強化学習のためのゴール対応クロスエントロピー

Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning ( http://arxiv.org/abs/2110.12985v2 )

ライセンス: Link先を確認
Kibeom Kim, Min Whoo Lee, Yoonsung Kim, Je-Hwan Ryu, Minsu Lee, Byoung-Tak Zhang(参考訳) 対象に関する事前知識のないマルチターゲット環境で学習するには,大量のサンプルが必要となるため,一般化が困難になる。 この問題を解決するには、意味理解を通じて目標を判別することが重要である。 本稿では,強化学習と共に自動ラベルされた目標状態を用いて自己教師あり方式で活用できる目標認識クロスエントロピー(gace)損失を提案する。 この損失に基づいて、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。 マルチターゲット環境下での視覚ナビゲーションとロボットアーム操作タスクに関する提案手法を評価し,タスク成功率,サンプル効率,一般化の観点から,GDANが最先端の手法より優れていることを示す。 さらに質的分析により,提案手法はエージェントが与えられた指示を明確に認識し,目標指向行動を促進するのに役立つことを示した。

Learning in a multi-target environment without prior knowledge about the targets requires a large amount of samples and makes generalization difficult. To solve this problem, it is important to be able to discriminate targets through semantic understanding. In this paper, we propose goal-aware cross-entropy (GACE) loss, that can be utilized in a self-supervised way using auto-labeled goal states alongside reinforcement learning. Based on the loss, we then devise goal-discriminative attention networks (GDAN) which utilize the goal-relevant information to focus on the given instruction. We evaluate the proposed methods on visual navigation and robot arm manipulation tasks with multi-target environments and show that GDAN outperforms the state-of-the-art methods in terms of task success ratio, sample efficiency, and generalization. Additionally, qualitative analyses demonstrate that our proposed method can help the agent become aware of and focus on the given instruction clearly, promoting goal-directed behavior.
翻訳日:2021-10-27 11:47:01 公開日:2021-10-26
# 非凸分布ロバスト最適化:非漸近解析

Non-convex Distributionally Robust Optimization: Non-asymptotic Analysis ( http://arxiv.org/abs/2110.12459v2 )

ライセンス: Link先を確認
Jikai Jin and Bohang Zhang and Haiyang Wang and Liwei Wang(参考訳) 分散ロバスト最適化(DRO)は、分散シフトに対して堅牢なモデルを学ぶために広く利用されている手法である。 標準最適化設定と比較すると、DROの目的関数の最適化は困難であり、既存の理論結果のほとんどは損失関数について強い仮定を下している。 本研究はDROアルゴリズムを用いて,一般の滑らかな非凸損失に対するギャップを埋めるものである。 DRO対象の特定の形式を慎重に活用することにより、目的関数が非凸で非滑らかであり、非有界勾配雑音を持つとしても、非漸近収束を保証することができる。 特に、運動量を持つミニバッチ正規化勾配降下と呼ばれる特別なアルゴリズムは、$o( \epsilon^{-4} )$勾配複雑性内で$\epsilon$ 1次定常点を見つけることができる。 また,条件付き値-値-リスク(CVaR)の設定についても論じるとともに,CVaRのスムーズなバージョンに基づいて,同様の収束保証が得られるようなDRO目標を提案する。 最終的にいくつかのタスクにおいて理論結果を検証し,提案アルゴリズムが連続的に顕著な加速を達成できることを示す。

Distributionally robust optimization (DRO) is a widely-used approach to learn models that are robust against distribution shift. Compared with the standard optimization setting, the objective function in DRO is more difficult to optimize, and most of the existing theoretical results make strong assumptions on the loss function. In this work we bridge the gap by studying DRO algorithms for general smooth non-convex losses. By carefully exploiting the specific form of the DRO objective, we are able to provide non-asymptotic convergence guarantees even though the objective function is possibly non-convex, non-smooth and has unbounded gradient noise. In particular, we prove that a special algorithm called the mini-batch normalized gradient descent with momentum, can find an $\epsilon$ first-order stationary point within $O( \epsilon^{-4} )$ gradient complexity. We also discuss the conditional value-at-risk (CVaR) setting, where we propose a penalized DRO objective based on a smoothed version of the CVaR that allows us to obtain a similar convergence guarantee. We finally verify our theoretical results in a number of tasks and find that the proposed algorithm can consistently achieve prominent acceleration.
翻訳日:2021-10-27 11:46:44 公開日:2021-10-26
# 画像ベースCLIP-Guided Essence Transfer

Image-Based CLIP-Guided Essence Transfer ( http://arxiv.org/abs/2110.12427v2 )

ライセンス: Link先を確認
Hila Chefer, Sagie Benaim, Roni Paiss, Lior Wolf(参考訳) 2つの信号の概念的混合は、創造性と知性の両方を基盤とする意味的タスクである。 本稿では,生成ネットワークと意味ネットワークの2つの潜在空間を組み込んだブレンド手法を提案する。 第1のネットワークは強力なStyleGANジェネレータを使用し、第2のネットワークはCLIPの強力な画像言語マッチングネットワークである。 この新しい方法は、両方の潜在空間に同時に加法されるように最適化されたブレンディング演算子を生成する。 その結果、各空間で個別に得られるものよりもずっと自然なブレンドに繋がることが示された。

The conceptual blending of two signals is a semantic task that may underline both creativity and intelligence. We propose to perform such blending in a way that incorporates two latent spaces: that of the generator network and that of the semantic network. For the first network, we employ the powerful StyleGAN generator, and for the second, the powerful image-language matching network of CLIP. The new method creates a blending operator that is optimized to be simultaneously additive in both latent spaces. Our results demonstrate that this leads to blending that is much more natural than what can be obtained in each space separately.
翻訳日:2021-10-27 11:46:23 公開日:2021-10-26
# hSDB-Instrument: 腹腔鏡下・ロボット用計器位置データベース

hSDB-instrument: Instrument Localization Database for Laparoscopic and Robotic Surgeries ( http://arxiv.org/abs/2110.12555v2 )

ライセンス: Link先を確認
Jihun Yoon, Jiwon Lee, Sunghwan Heo, Hayeong Yu, Jayeon Lim, Chi Hyun Song, SeulGi Hong, Seungbum Hong, Bokyung Park, SungHyun Park, Woo Jin Hyung and Min-Kook Choi(参考訳) 自動手術器具の定位は手術過程を理解する上で重要な技術であり、手術中や手術後の手術指標に有意義な指導を与えるために分析を行う。 そこで本研究では,手術映像の自動計測のための手術器具の運動特性を反映する新しいデータセットを提案する。 hSDB (hutom Surgery DataBase)-Instrument データセットは腹腔鏡下胆嚢摘出術24例と腹腔鏡下胆嚢摘出術24例からなる。 すべての機器のローカライズ情報は、オブジェクト検出のためのバウンディングボックスの形式で提供される。 楽器間のクラス不均衡問題に対処するために、訓練データとして3dモデルのユニティでモデル化された合成機器を含む。 さらに、3D機器データには、ツールのインスタンスセグメンテーションを可能にするポリゴンアノテーションが提供される。 全ての楽器のキネマティックな特性を反映するために、腹腔鏡機器の頭部と体部、ロボット機器の頭、手首、体部を別々にアノテートする。 手術に頻繁に使用される補助具(特別袋、針等)の注釈データも含む。 さらに,hSDB-Instrumentデータセットの統計情報と,MMDetectionライブラリでトレーニングしたオブジェクト検出ネットワークのベースラインローカライゼーション性能について分析を行った。

Automated surgical instrument localization is an important technology to understand the surgical process and in order to analyze them to provide meaningful guidance during surgery or surgical index after surgery to the surgeon. We introduce a new dataset that reflects the kinematic characteristics of surgical instruments for automated surgical instrument localization of surgical videos. The hSDB(hutom Surgery DataBase)-instrument dataset consists of instrument localization information from 24 cases of laparoscopic cholecystecomy and 24 cases of robotic gastrectomy. Localization information for all instruments is provided in the form of a bounding box for object detection. To handle class imbalance problem between instruments, synthesized instruments modeled in Unity for 3D models are included as training data. Besides, for 3D instrument data, a polygon annotation is provided to enable instance segmentation of the tool. To reflect the kinematic characteristics of all instruments, they are annotated with head and body parts for laparoscopic instruments, and with head, wrist, and body parts for robotic instruments separately. Annotation data of assistive tools (specimen bag, needle, etc.) that are frequently used for surgery are also included. Moreover, we provide statistical information on the hSDB-instrument dataset and the baseline localization performances of the object detection networks trained by the MMDetection library and resulting analyses.
翻訳日:2021-10-27 11:46:13 公開日:2021-10-26
# インスタンス依存部分ラベル学習

Instance-Dependent Partial Label Learning ( http://arxiv.org/abs/2110.12911v2 )

ライセンス: Link先を確認
Ning Xu, Congyu Qiao, Xin Geng, Min-Ling Zhang(参考訳) 部分ラベル学習(pll)は典型的な弱い教師付き学習問題であり、各トレーニングサンプルは1つだけが真である候補ラベルの集合に関連付けられている。 既存のPLLアプローチの多くは、トレーニングサンプルの誤りラベルがランダムに候補ラベルとして選択されていると仮定している。 しかし、候補ラベルは常にインスタンス依存であるため、この仮定は現実的ではない。 本稿では,インスタンス依存型PLLについて考察し,各例が各ラベルの実数で構成された潜在ラベル分布と関連付けられていると仮定し,特徴を記述した各ラベルの次数を表す。 高いレベルの誤ラベルは、候補ラベルとして注釈付けされることが多い。 したがって、潜在ラベル分布は部分的にラベル付けされた例において必須ラベル情報であり、予測モデルトレーニングに活用する価値がある。 そこで本研究では,ラベル拡張(LE)プロセスとしてラベル分布を復元し,各エポックにおいて予測モデルを反復的に訓練する新しいPLL手法を提案する。 具体的には、潜在ラベル分布の真の後続密度は、推論モデルによりパラメータ化された変分近似ディリクレ密度を仮定する。 そして、推定モデルを最適化するために下限の証拠を導出し、変動後段から生成されたラベル分布を予測モデルのトレーニングに利用する。 ベンチマークおよび実世界のデータセットを用いた実験により,提案手法の有効性が検証された。 ソースコードはhttps://github.com/p alm-ml/valen.comで入手できる。

Partial label learning (PLL) is a typical weakly supervised learning problem, where each training example is associated with a set of candidate labels among which only one is true. Most existing PLL approaches assume that the incorrect labels in each training example are randomly picked as the candidate labels. However, this assumption is not realistic since the candidate labels are always instance-dependent. In this paper, we consider instance-dependent PLL and assume that each example is associated with a latent label distribution constituted by the real number of each label, representing the degree to each label describing the feature. The incorrect label with a high degree is more likely to be annotated as the candidate label. Therefore, the latent label distribution is the essential labeling information in partially labeled examples and worth being leveraged for predictive model training. Motivated by this consideration, we propose a novel PLL method that recovers the label distribution as a label enhancement (LE) process and trains the predictive model iteratively in every epoch. Specifically, we assume the true posterior density of the latent label distribution takes on the variational approximate Dirichlet density parameterized by an inference model. Then the evidence lower bound is deduced for optimizing the inference model and the label distributions generated from the variational posterior are utilized for training the predictive model. Experiments on benchmark and real-world datasets validate the effectiveness of the proposed method. Source code is available at https://github.com/p alm-ml/valen.
翻訳日:2021-10-27 11:45:49 公開日:2021-10-26
# 強化学習における動的アウェア報酬を用いた教師なしドメイン適応

Unsupervised Domain Adaptation with Dynamics-Aware Rewards in Reinforcement Learning ( http://arxiv.org/abs/2110.12997v2 )

ライセンス: Link先を確認
Jinxin Liu, Hao Shen, Donglin Wang, Yachen Kang, Qiangxing Tian(参考訳) 教師なし強化学習は、エージェントが目標を表現し、目標条件を学習するためのオープンな環境を自動で探索する、事前の目標表現なしでスキルを獲得することを目的としている。 しかし、この手順はしばしば時間がかかり、潜在的に高価なターゲット環境でのロールアウトを制限する。 他の相互作用に富んだ環境におけるトレーニングの直感的なアプローチは、ダイナミックスシフトによる目標環境におけるトレーニングスキルの再現性を阻害し、直接の転送を阻害する。 ソース環境への自由アクセスを仮定し、動的にスキルを識別し獲得するための教師なしドメイン適応手法を提案する。 特に,KLの正規化の対象は,スキルの出現を奨励し,エージェントにスキルの発見とダイナミックスシフトに関する行動の整合を報いる。 これは、ダイナミクス(ソースとターゲット)が報酬を形作り、適応スキルの学習を促進することを示唆している。 また,本手法が目標にスムーズに展開できるスキルを効果的に学習できることを実証する実験を行った。

Unsupervised reinforcement learning aims to acquire skills without prior goal representations, where an agent automatically explores an open-ended environment to represent goals and learn the goal-conditioned policy. However, this procedure is often time-consuming, limiting the rollout in some potentially expensive target environments. The intuitive approach of training in another interaction-rich environment disrupts the reproducibility of trained skills in the target environment due to the dynamics shifts and thus inhibits direct transferring. Assuming free access to a source environment, we propose an unsupervised domain adaptation method to identify and acquire skills across dynamics. Particularly, we introduce a KL regularized objective to encourage emergence of skills, rewarding the agent for both discovering skills and aligning its behaviors respecting dynamics shifts. This suggests that both dynamics (source and target) shape the reward to facilitate the learning of adaptive skills. We also conduct empirical experiments to demonstrate that our method can effectively learn skills that can be smoothly deployed in target.
翻訳日:2021-10-27 11:45:26 公開日:2021-10-26
# サンプル通信のためのアルゴリズム

Algorithms for the Communication of Samples ( http://arxiv.org/abs/2110.12805v2 )

ライセンス: Link先を確認
Lucas Theis, Noureldin Yosri(参考訳) 本稿では,ディジタルチャネル上のノイズチャネルを効率的にシミュレートする方法という,逆チャネル符号化の問題を考える。 従来の手法よりも実用上有利な2つの新しい符号化方式を提案する。 まず,従来の手法の符号化コストを重要度サンプリングに基づいて削減するために,単純なトリックを用いた順序付きランダム符号化(orc)を導入する。 我々の導出はまた、これらのスキームといわゆるポアソン汎函数表現の間の接続を照らしている。 第2に,ディザド量子化(dithered quantization)を応用したハイブリッド符号化方式について述べる。

We consider the problem of reverse channel coding, that is, how to simulate a noisy channel over a digital channel efficiently. We propose two new coding schemes with practical advantages over previous approaches. First, we introduce ordered random coding (ORC) which uses a simple trick to reduce the coding cost of previous approaches based on importance sampling. Our derivation also illuminates a connection between these schemes and the so-called Poisson functional representation. Second, we describe a hybrid coding scheme which uses dithered quantization to efficiently communicate samples from distributions with bounded support.
翻訳日:2021-10-27 11:45:07 公開日:2021-10-26
# ランクワン原子分解(ROAD)を用いた辞書学習

Dictionary Learning Using Rank-One Atomic Decomposition (ROAD) ( http://arxiv.org/abs/2110.12786v2 )

ライセンス: Link先を確認
Cheng Cheng and Wei Dai(参考訳) 辞書学習は、訓練データを疎に表現できる辞書を求めることを目的としている。 文献の方法は通常、辞書学習問題を2つの変数、すなわち辞書とスパース係数として定式化し、スパース符号と辞書更新の2つの段階を交互に交互に組み合わせて解決する。 この研究の重要な貢献は、ランク1の原子分解(road)形式であり、辞書学習をランク1の行列の集合である1つの変数の最適化w.r.t.としてキャストする。 結果として得られるアルゴリズムは単段である。 2段階のアルゴリズムと比較して、ROADは学習プロセス全体を通してデータ一貫性の制約を保ちながら係数の空間性を最小化する。 最適化問題を解くために乗算器の交互方向法(ADMM)を導出し、最適化定式化の非凸性にもかかわらず大域収束を保証するためにペナルティパラメータの下限を計算する。 実用的な観点からすると、ROADは他のベンチマークアルゴリズムに必要なチューニングパラメータの数を減らすことができる。 数値テストでは、特にトレーニングサンプルの数が少ない場合には、ロードが合成データと実データの両方のベンチマークアルゴリズムを上回っていることが示されている。

Dictionary learning aims at seeking a dictionary under which the training data can be sparsely represented. Methods in the literature typically formulate the dictionary learning problem as an optimization w.r.t. two variables, i.e., dictionary and sparse coefficients, and solve it by alternating between two stages: sparse coding and dictionary update. The key contribution of this work is a Rank-One Atomic Decomposition (ROAD) formulation where dictionary learning is cast as an optimization w.r.t. a single variable which is a set of rank one matrices. The resulting algorithm is hence single-stage. Compared with two-stage algorithms, ROAD minimizes the sparsity of the coefficients whilst keeping the data consistency constraint throughout the whole learning process. An alternating direction method of multipliers (ADMM) is derived to solve the optimization problem and the lower bound of the penalty parameter is computed to guarantees a global convergence despite non-convexity of the optimization formulation. From practical point of view, ROAD reduces the number of tuning parameters required in other benchmark algorithms. Numerical tests demonstrate that ROAD outperforms other benchmark algorithms for both synthetic data and real data, especially when the number of training samples is small.
翻訳日:2021-10-27 11:44:20 公開日:2021-10-26
# チャネル獲得とハイブリッドプリコーディングのための2段階エンドツーエンド学習

Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid Precoding ( http://arxiv.org/abs/2110.12059v2 )

ライセンス: Link先を確認
Qiyu Hu, Yunlong Cai, Kai Kang, Guanding Yu, Jakob Hoydis, Yonina C. Eldar(参考訳) 本稿では,deep neural network (dnn) 支援パイロットトレーニング,チャネルフィードバック,ハイブリッドアナログデジタル(had)プリコーディングからなるミリ波多入力多重出力(mimo)システムのための,エンドツーエンドのディープラーニングに基づく統合トランシーバ設計アルゴリズムを提案する。 具体的には、受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発する。 送信遅延に起因する信号処理オーバーヘッドとチャネル状態情報(CSI)ミスマッチを低減するため、長期DNNと短期DNNからなる2時間DNNを開発する。 アナログプリコーダは、CSI統計に基づいて長期DNNによって設計され、複数のタイムスロットからなるフレームで一度更新される。 一方、ディジタルプリコーダは、推定された低次元等価csi行列に基づいて、各タイムスロットにおける短期dnnにより最適化される。 また,二層構造を持つDNNに対して2段階の訓練手法を開発した。 次に,提案したDNNアルゴリズムの一般化能力とシグナリングオーバーヘッドを解析する。 シミュレーションの結果,提案手法は,信号のオーバーヘッドを低減し,パイロットシーケンスの短いビット誤り率性能において,従来の手法よりも大幅に優れていた。

In this paper, we propose an end-to-end deep learning-based joint transceiver design algorithm for millimeter wave (mmWave) massive multiple-input multiple-output (MIMO) systems, which consists of deep neural network (DNN)-aided pilot training, channel feedback, and hybrid analog-digital (HAD) precoding. Specifically, we develop a DNN architecture that maps the received pilots into feedback bits at the receiver, and then further maps the feedback bits into the hybrid precoder at the transmitter. To reduce the signaling overhead and channel state information (CSI) mismatch caused by the transmission delay, a two-timescale DNN composed of a long-term DNN and a short-term DNN is developed. The analog precoders are designed by the long-term DNN based on the CSI statistics and updated once in a frame consisting of a number of time slots. In contrast, the digital precoders are optimized by the short-term DNN at each time slot based on the estimated low-dimensional equivalent CSI matrices. A two-timescale training method is also developed for the proposed DNN with a binary layer. We then analyze the generalization ability and signaling overhead for the proposed DNN based algorithm. Simulation results show that our proposed technique significantly outperforms conventional schemes in terms of bit-error rate performance with reduced signaling overhead and shorter pilot sequences.
翻訳日:2021-10-27 11:43:57 公開日:2021-10-26