このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210923となっている論文です。

PDF登録状況(公開日: 20210923)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) IRMAC: ルーフトップのPV所有者のための解釈可能な精製モチーフとバイナリ分類 [全文訳有]

IRMAC: Interpretable Refined Motifs and Binary Classification for Rooftops PV Owners ( http://arxiv.org/abs/2109.13732v1 )

ライセンス: CC BY 4.0
Rui Yuan, S. Ali Pourmousavi, Wen L. Soong, Giang Nguyen, Jon A. R. Liisberg(参考訳) 本稿では,輸入エネルギーデータを用いて住宅用屋根上太陽光発電の所有者を特定する。 この問題を解決するために,我々はRefined Motif (RM)と呼ばれる形状に基づく次元削減技術と,太陽の所有者を特定する線形複雑度を持つ分類技術を含む,解釈可能なRefined Motifs And binary Classification (IRMAC)法を提案する。 さらに、オーストラリアとデンマークの実際のデータを用いて、PV所有者の同定と電気暖房システム利用者の同定において、提案手法を検証・検証した。 提案手法の性能について検討し,提案手法が代替案を上回る様々な最先端手法と比較した。

In this paper, we seek to identify residential rooftop solar PV owners using imported energy data. To solve this problem with an interpretable, fast, secure, and maintainable solution, we propose Interpretable Refined Motifs And binary Classification (IRMAC) method, which includes a shape-based dimensionality reduction technique we call Refined Motif (RM), and a classification technique with linear complexity to identify solar owners. Furthermore, with the real data from Australia and Denmark, the proposed method is tested and verified in identifying PV owners as well as identifying electrical heating system users. The performances of the proposed method is studied and compared with various of state-of-the-art methods, where the proposed method outperformed the alternatives.
翻訳日:2021-10-10 14:11:56 公開日:2021-09-23
# (参考訳) ナラティブ・インフォメーションのためのモデル : 研究 [全文訳有]

Models for Narrative Information: A Study ( http://arxiv.org/abs/2110.02084v1 )

ライセンス: CC BY 4.0
Udaya Varadarajan and Biswanath Dutta(参考訳) 本研究の主な目的は、物語情報に対する既存のオントロジー駆動モデルの研究と報告である。 本稿は,これらのモデルを様々な領域にまたがって分析することを目的としている。 本研究の目的は、関連する文献とオントロジーモデルを一つの傘の下に置き、パラメトリック比較研究を行うことである。 体系的な文献レビュー手法を広範な文献選択に適用した。 文献からモデルを選択するためにランダムな階層化サンプリング手法が用いられた。 この知見は、ドメイン間での物語モデルの比較ビューを詳述する。 オントロジーに基づく物語情報モデルの場合,ドメイン間の知識表現の違いと類似性が確認された。 オントロジーに基づく物語モデルをレビューする研究は極めて少ない。 この研究は、物語コンポーネントのパラメータを使ってオントロジーを評価することでさらに進む。 本稿では,モデルの基本概念と上位概念について考察する。 また,本研究は,現在進行中の研究の文脈における物語理論の包括的研究を提供する。 この研究の結果は、ドメイン間のオントロジーの要素間の類似点と相違点を示している。 また、オントロジーに基づく物語情報に対する芸術文学の状況を特定する。

The major objective of this work is to study and report the existing ontology-driven models for narrative information. The paper aims to analyze these models across various domains. The goal of this work is to bring the relevant literature, and ontology models under one umbrella, and perform a parametric comparative study. A systematic literature review methodology was adopted for an extensive literature selection. A random stratified sampling technique was used to select the models from the literature. The findings explicate a comparative view of the narrative models across domains. The differences and similarities of knowledge representation across domains, in case of narrative information models based on ontology was identified. There are significantly fewer studies that reviewed the ontology-based narrative models. This work goes a step further by evaluating the ontologies using the parameters from narrative components. This paper will explore the basic concepts and top-level concepts in the models. Besides, this study provides a comprehensive study of the narrative theories in the context of ongoing research. The findings of this work demonstrate the similarities and differences among the elements of the ontology across domains. It also identifies the state of the art literature for ontology-based narrative information.
翻訳日:2021-10-10 13:56:22 公開日:2021-09-23
# (参考訳) 一般学習におけるバイオインスパイアモジュラリティの役割 [全文訳有]

The Role of Bio-Inspired Modularity in General Learning ( http://arxiv.org/abs/2109.15097v1 )

ライセンス: CC BY 4.0
Rachel A. StClair, William Edward Hahn, and Elan Barenholtz(参考訳) 汎用知能の1つの目標は、事前学習を上書きすることなく新しい情報を学ぶことである。 CF(Learning without forgeting)のメリットは2つあります。まず最初に,何か新しいことを学習した後で,以前に学習したタスクに戻ることができるのです。 さらに、以前の知識をブートストラップすることで、新しいタスクを素早く学習することができる。 CFとブートストラップに対する従来のアプローチは主に、モデルを現在のタスクにチューニングするために重みを変更する形で学習を変更することに基づいており、以前のタスクから調整された重みを上書きしている。 ここでは、生物学的脳のトポロジーは、この種の情報保存を達成するために設計された特定の特徴を進化させた可能性が高いと論じる。 特に、モジュラリティの高度に保存された特性は、破滅的な放棄やブートストラップの制約なしに学習に固執する重み付け学習方法の解決策となるかもしれない。 次に,この2つの学習目標を動的,汎用的な学習システムに組み合わせる方法について検討する。

One goal of general intelligence is to learn novel information without overwriting prior learning. The utility of learning without forgetting (CF) is twofold: first, the system can return to previously learned tasks after learning something new. In addition, bootstrapping previous knowledge may allow for faster learning of a novel task. Previous approaches to CF and bootstrapping are primarily based on modifying learning in the form of changing weights to tune the model to the current task, overwriting previously tuned weights from previous tasks.However, another critical factor that has been largely overlooked is the initial network topology, or architecture. Here, we argue that the topology of biological brains likely evolved certain features that are designed to achieve this kind of informational conservation. In particular, we consider that the highly conserved property of modularity may offer a solution to weight-update learning methods that adheres to the learning without catastrophic forgetting and bootstrapping constraints. Final considerations are then made on how to combine these two learning objectives in a dynamical, general learning system.
翻訳日:2021-10-10 13:35:21 公開日:2021-09-23
# (参考訳) 不確実性定量化を用いた正確な残余有用生命予測--深層学習と非定常ガウス過程アプローチ

Accurate Remaining Useful Life Prediction with Uncertainty Quantification: a Deep Learning and Nonstationary Gaussian Process Approach ( http://arxiv.org/abs/2109.12111v1 )

ライセンス: CC BY 4.0
Zhaoyi Xu, Yanjie Guo, Joseph Homer Saleh(参考訳) 残りの有用な生活(retaining useful life、rul)は、コンポーネントやシステムの期待される寿命を指す。 正確なRUL予測は、予後および健康管理およびメンテナンス計画に重要である。 本研究では,データ駆動型RUL予測における3つの課題,すなわち高次元入力特徴の扱い,センサデータと予測データセットのノイズに対する堅牢性,システム劣化とRUL予測の間の時間依存性の取得について述べる。 深層学習と非定常ガウス過程回帰(dl-nsgpr)の利点を統合し,活用する不確実性定量化を用いた高精度rul予測モデルを開発した。 我々は,NASAの予測レポジトリのターボファンエンジンデータセットを用いて,他の先進的なデータ駆動型RUL予測モデルと比較し,ベンチマークを行った。 計算実験の結果,DL-NSGPR予測はルート平均2乗誤差1.7~6.2倍の精度で精度が高いことがわかった。 さらに、提案したDL-NSGPRとRULの不確実性境界は、他の確率的RUL予測モデルよりも有効かつ極めて厳密であることを示した。 本稿では,DL-NSGPRの優れた性能の理由について論じる。

Remaining useful life (RUL) refers to the expected remaining lifespan of a component or system. Accurate RUL prediction is critical for prognostic and health management and for maintenance planning. In this work, we address three prevalent challenges in data-driven RUL prediction, namely the handling of high dimensional input features, the robustness to noise in sensor data and prognostic datasets, and the capturing of the time-dependency between system degradation and RUL prediction. We devise a highly accurate RUL prediction model with uncertainty quantification, which integrates and leverages the advantages of deep learning and nonstationary Gaussian process regression (DL-NSGPR). We examine and benchmark our model against other advanced data-driven RUL prediction models using the turbofan engine dataset from the NASA prognostic repository. Our computational experiments show that the DL-NSGPR predictions are highly accurate with root mean square error 1.7 to 6.2 times smaller than those of competing RUL models. Furthermore, the results demonstrate that RUL uncertainty bounds with the proposed DL-NSGPR are both valid and significantly tighter than other stochastic RUL prediction models. We unpack and discuss the reasons for this excellent performance of the DL-NSGPR.
翻訳日:2021-10-01 12:10:31 公開日:2021-09-23
# nlp4if-2021における新型コロナウイルスインフォデミック対策と検閲対策の共通課題

Findings of the NLP4IF-2021 Shared Tasks on Fighting the COVID-19 Infodemic and Censorship Detection ( http://arxiv.org/abs/2109.12986v1 )

ライセンス: Link先を確認
Shaden Shaar, Firoj Alam, Giovanni Da San Martino, Alex Nikolov, Wajdi Zaghouani, Preslav Nakov, Anna Feldman(参考訳) NLP4IF-2021共有タスクの結果と主な成果を報告する。 タスク1はソーシャルメディアで新型コロナウイルスのインフォデミックと戦うことに焦点を当て、アラビア語、ブルガリア語、英語で提供された。 ツイートをすると、そのツイートが検証可能なクレームを含んでいるかどうかを予測し、もしそうであれば、それが偽である可能性があり、一般的に利益があり、有害であり、手作業による事実確認に値する可能性があり、社会に有害であるかどうか、政策立案者の注意が必要であるかどうかを判断した。 Task~2は検閲検出に焦点を当て、中国語で提供された。 合計10チームがタスク1のシステムに参加し、1チームがタスク2に参加し、9チームがシステム記述の論文を提出した。 ここでは,タスクを提示し,結果を解析し,システム提案と使用する方法について議論する。 ほとんどの投稿はいくつかのベースラインに対して相当な改善を達成し、最良のシステムは事前訓練されたトランスフォーマーとアンサンブルを使用した。 データ、スコア、タスクのリーダーボードはhttp://gitlab.com/NL P4IF/nlp4if-2021で入手できる。

We present the results and the main findings of the NLP4IF-2021 shared tasks. Task 1 focused on fighting the COVID-19 infodemic in social media, and it was offered in Arabic, Bulgarian, and English. Given a tweet, it asked to predict whether that tweet contains a verifiable claim, and if so, whether it is likely to be false, is of general interest, is likely to be harmful, and is worthy of manual fact-checking; also, whether it is harmful to society, and whether it requires the attention of policy makers. Task~2 focused on censorship detection, and was offered in Chinese. A total of ten teams submitted systems for task 1, and one team participated in task 2; nine teams also submitted a system description paper. Here, we present the tasks, analyze the results, and discuss the system submissions and the methods they used. Most submissions achieved sizable improvements over several baselines, and the best systems used pre-trained Transformers and ensembles. The data, the scorers and the leaderboards for the tasks are available at http://gitlab.com/NL P4IF/nlp4if-2021.
翻訳日:2021-09-28 15:46:38 公開日:2021-09-23
# CLEF--2021 CheckThat! 検査価値のあるクレーム、以前に事実確認されたクレーム、偽ニュースを検出するラボ

Overview of the CLEF--2021 CheckThat! Lab on Detecting Check-Worthy Claims, Previously Fact-Checked Claims, and Fake News ( http://arxiv.org/abs/2109.12987v1 )

ライセンス: Link先を確認
Preslav Nakov, Giovanni Da San Martino, Tamer Elsayed, Alberto Barr\'on-Cede\~no, Rub\'en M\'iguez, Shaden Shaar, Firoj Alam, Fatima Haouari, Maram Hasanain, Watheq Mansour, Bayan Hamdan, Zien Sheikh Ali, Nikolay Babulkov, Alex Nikolov, Gautam Kishore Shahi, Julia Maria Stru{\ss}, Thomas Mandl, Mucahid Kutlu, Yavuz Selim Kartal(参考訳) CheckThatの第4版について説明する。 labは2021年のカンファレンスの一部であり、評価フォーラム(clef)のラボでもある。 同研究所は、事実性に関連する技術支援タスクを評価し、アラビア語、ブルガリア語、英語、スペイン語、トルコ語をカバーしている。 タスク1は、Twitterストリーム内のどの投稿が事実チェックに値するかを予測し、新型コロナウイルスと政治(全5言語で)に焦点を当てる。 タスク2は、前の事実チェックされたクレーム(アラビア語と英語)を使って、ツイート中のクレームが検証できるかどうかを判断する。 タスク3は、ニュース記事とそのトピックドメイン(英語)の正確性を予測する。 評価は、ランキングタスクのランクkにおける平均精度または精度、分類タスクのマクロf1に基づいて行う。 これは最も人気のあるclef-2021ラボであり、チームの登録数は132チームであった。 参加者の3分の1近くが参加しており、それぞれ15チーム、5チーム、25チームがタスク1、2、3のオフィシャルランを行った。

We describe the fourth edition of the CheckThat! Lab, part of the 2021 Conference and Labs of the Evaluation Forum (CLEF). The lab evaluates technology supporting tasks related to factuality, and covers Arabic, Bulgarian, English, Spanish, and Turkish. Task 1 asks to predict which posts in a Twitter stream are worth fact-checking, focusing on COVID-19 and politics (in all five languages). Task 2 asks to determine whether a claim in a tweet can be verified using a set of previously fact-checked claims (in Arabic and English). Task 3 asks to predict the veracity of a news article and its topical domain (in English). The evaluation is based on mean average precision or precision at rank k for the ranking tasks, and macro-F1 for the classification tasks. This was the most popular CLEF-2021 lab in terms of team registrations: 132 teams. Nearly one-third of them participated: 15, 5, and 25 teams submitted official runs for tasks 1, 2, and 3, respectively.
翻訳日:2021-09-28 15:46:18 公開日:2021-09-23
# recsys 2021でのシナジー:高速なニューラルモデルによるtwitterユーザーのエンゲージメント予測

Synerise at RecSys 2021: Twitter user engagement prediction with a fast neural model ( http://arxiv.org/abs/2109.12985v1 )

ライセンス: Link先を確認
Micha{\l} Daniluk, Jacek D\k{a}browski, Barbara Rychalska, Konrad Go{\l}uchowski(参考訳) 本稿では,Twitterが主催したACM RecSys 2021 Challengeの2位となるソリューションについて紹介する。 この課題は、ツイートの集合に対するユーザーのエンゲージメントを予測することを目的としており、Twitterの実際の4週間の対話から採取された10億データポイントの非常に大きなデータセットを提供する。 各データポイントには、ツイートテキストやエンゲージメント機能、ユーザ機能、ツイート機能など、複数の情報ソースが含まれている。 この課題は、モデル評価フェーズに厳格なレイテンシ制約を導入することで、実際の運用環境に近い問題をもたらす。単一のツイートエンゲージメント予測の平均推論時間は、64GBメモリを持つ単一のCPUコア上で6msに制限される。 提案手法は,局所性に敏感なハッシュ法やフーリエ特徴エンコーディングを基本としたアルゴリズムである,効率的な多様体密度推定器 (emde) を用いた広範な機能工学に依拠している。 合計して、ユーザのTwitterアカウントの状態とツイートの内容を記述する多数の機能を作成します。 厳格なレイテンシ制約に従うために、基礎となるモデルは単純なフィードフォワードニューラルネットワークである。 このシステムは、kdd cup 2021、wsdm challenge 2021、sigir ecom challenge 2020で成功したこれまでの方法の変種である。 ソースコードはhttps://github.com/s ynerise/recsys-chall enge-2021。

In this paper we present our 2nd place solution to ACM RecSys 2021 Challenge organized by Twitter. The challenge aims to predict user engagement for a set of tweets, offering an exceptionally large data set of 1 billion data points sampled from over four weeks of real Twitter interactions. Each data point contains multiple sources of information, such as tweet text along with engagement features, user features, and tweet features. The challenge brings the problem close to a real production environment by introducing strict latency constraints in the model evaluation phase: the average inference time for single tweet engagement prediction is limited to 6ms on a single CPU core with 64GB memory. Our proposed model relies on extensive feature engineering performed with methods such as the Efficient Manifold Density Estimator (EMDE) - our previously introduced algorithm based on Locality Sensitive Hashing method, and novel Fourier Feature Encoding, among others. In total, we create numerous features describing a user's Twitter account status and the content of a tweet. In order to adhere to the strict latency constraints, the underlying model is a simple residual feed-forward neural network. The system is a variation of our previous methods which proved successful in KDD Cup 2021, WSDM Challenge 2021, and SIGIR eCom Challenge 2020. We release the source code at: https://github.com/S ynerise/recsys-chall enge-2021
翻訳日:2021-09-28 15:09:12 公開日:2021-09-23
# (参考訳) デュアルメモリリカレント自己組織化ネットワークを用いた生涯3次元物体認識と把持合成 [全文訳有]

Lifelong 3D Object Recognition and Grasp Synthesis Using Dual Memory Recurrent Self-Organization Networks ( http://arxiv.org/abs/2109.11544v1 )

ライセンス: CC BY 4.0
Krishnakumar Santhakumar, Hamidreza Kasaei(参考訳) 人間は、非定常および逐次的な条件下で得られた知識を忘れることなく、生涯の環境で新しい物体を認識して操作することを学ぶ。 自律システムでは、エージェントは、新しいオブジェクトカテゴリを継続的に学習し、新しい環境に適応するために、同様の行動を緩和する必要がある。 従来のディープニューラルネットワークでは、新たに得られた知識が既存の表現を上書きする、破滅的な忘れ方の問題のため、これは不可能である。 さらに、ほとんどの最先端モデルはオブジェクトの認識や予測の把握に優れており、どちらのタスクも視覚入力を使用する。 両方のタスクに対処する統合アーキテクチャは非常に限定的です。 本稿では,動的に増大するデュアルメモリリカレントニューラルネットワーク(GDM)と,オブジェクト認識と把握を同時に行うオートエンコーダを組み合わせたハイブリッドモデルアーキテクチャを提案する。 オートエンコーダネットワークは、GDM学習の入力として機能し、画素単位の対ポッドグリップ構成を予測するための、所定のオブジェクトのコンパクト表現を抽出する責務を負う。 GDM部分は、インスタンスとカテゴリのレベルでオブジェクトを認識するように設計されています。 本稿では、内因性記憶リプレイを用いた破滅的記憶の障害に対処し、外的感覚情報がない場合に、エピソード記憶が定期的に神経活性化軌跡を再生する。 提案モデルを生涯にわたって広範囲に評価するために,シーケンシャルな3dオブジェクトデータセットの欠如により合成データセットを生成する。 実験の結果,提案モデルは連続学習シナリオにおいて,物体表現と把持の両方を同時に学習できることがわかった。

Humans learn to recognize and manipulate new objects in lifelong settings without forgetting the previously gained knowledge under non-stationary and sequential conditions. In autonomous systems, the agents also need to mitigate similar behavior to continually learn the new object categories and adapt to new environments. In most conventional deep neural networks, this is not possible due to the problem of catastrophic forgetting, where the newly gained knowledge overwrites existing representations. Furthermore, most state-of-the-art models excel either in recognizing the objects or in grasp prediction, while both tasks use visual input. The combined architecture to tackle both tasks is very limited. In this paper, we proposed a hybrid model architecture consists of a dynamically growing dual-memory recurrent neural network (GDM) and an autoencoder to tackle object recognition and grasping simultaneously. The autoencoder network is responsible to extract a compact representation for a given object, which serves as input for the GDM learning, and is responsible to predict pixel-wise antipodal grasp configurations. The GDM part is designed to recognize the object in both instances and categories levels. We address the problem of catastrophic forgetting using the intrinsic memory replay, where the episodic memory periodically replays the neural activation trajectories in the absence of external sensory information. To extensively evaluate the proposed model in a lifelong setting, we generate a synthetic dataset due to lack of sequential 3D objects dataset. Experiment results demonstrated that the proposed model can learn both object representation and grasping simultaneously in continual learning scenarios.
翻訳日:2021-09-28 07:17:04 公開日:2021-09-23
# (参考訳) ベイジアン能動学習によるロボット知覚における最後のマイルのブリッジ [全文訳有]

Bridging the Last Mile in Sim-to-Real Robot Perception via Bayesian Active Learning ( http://arxiv.org/abs/2109.11547v1 )

ライセンス: CC BY 4.0
Jianxiang Feng, Jongseok Lee, Maximilian Durner, Rudolph Triebel(参考訳) 人工データからの学習は、人間のアノテーションなしで大量のデータを生成することができるため、物体検出などのロボットビジョンタスクで一般的である。 しかし, 合成データのみに依存する場合, シミュレーションと現実(sim-to-real)のギャップの既知の問題に遭遇し, 完全に解決することは困難である。 このような場合、実際の人間による注釈付きデータは、このギャップを埋めるために必要であり、我々の研究では、このデータを効率的に取得する方法にフォーカスしています。 そこで本研究では,ベイジアン能動学習に基づくシム・トゥ・リアルパイプラインを提案し,手動アノテーションの取り組みを最小化することを目的とする。 我々は、人間が注釈を付けるのに役立つと考えられるデータを自律的に選択する学習パラダイムを考案した。 これを実現するために、信頼できる不確実性推定を提供するベイズニューラルネットワーク(bnn)オブジェクト検出器を用いて、ラベルなしデータの非形成性を推定し、アクティブな学習を行う。 2つのオブジェクト検出データセットに関する実験で、そのギャップを埋めるのに必要なラベリングの労力を少量に削減できることを示しました。 さらに,支援ロボットのグリーディングタスクにおいて,このアイデアの有効性を実証する。

Learning from synthetic data is popular in avariety of robotic vision tasks such as object detection, becauselarge amount of data can be generated without annotationsby humans. However, when relying only on synthetic data,we encounter the well-known problem of the simulation-to-realit y (Sim-to-Real) gap, which is hard to resolve completelyin practice. For such cases, real human-annotated data isnecessary to bridge this gap, and in our work we focus on howto acquire this data efficiently. Therefore, we propose a Sim-to-Real pipeline that relies on deep Bayesian active learningand aims to minimize the manual annotation efforts. We devisea learning paradigm that autonomously selects the data thatis considered useful for the human expert to annotate. Toachieve this, a Bayesian Neural Network (BNN) object detectorproviding reliable uncertain estimates is adapted to infer theinformativeness of the unlabeled data, in order to performactive learning. In our experiments on two object detectiondata sets, we show that the labeling effort required to bridge thereality gap can be reduced to a small amount. Furthermore, wedemonstrate the practical effectiveness of this idea in a graspingtask on an assistive robot.
翻訳日:2021-09-28 06:55:56 公開日:2021-09-23
# (参考訳) 角度依存特性に対する効率よく解釈可能な原子性グラフニューラルネットワークの表現と光分光予測への応用 [全文訳有]

Efficient, Interpretable Atomistic Graph Neural Network Representation for Angle-dependent Properties and its Application to Optical Spectroscopy Prediction ( http://arxiv.org/abs/2109.11576v1 )

ライセンス: CC BY 4.0
Tim Hsu, Nathan Keilbart, Stephen Weitzner, James Chapman, Penghao Xiao, Tuan Anh Pham, S. Roger Qiu, Xiao Chen, Brandon C. Wood(参考訳) グラフニューラルネットワーク(gnns)は、原子と結合の直感的かつ物理的にインフォームドされたグラフエンコーディングのおかげで、原子構造の学習に魅力的である。 しかし、従来のGNNエンコーディングでは、乱れた材料、界面、分子歪みの複雑な原子配列を記述するのに重要な角情報を説明できない。 本研究では,最近提案された結合角を組み込んだALIGNN符号化を2面角 (ALIGNN-d) も含むように拡張し,このモデルを用いて赤銅錯体の構造を解析し,分光予測を行う。 この単純な拡張は、原子構造の完全な幾何学的情報をキャプチャできるメモリ効率のよいグラフ表現につながることが示されている。 具体的には、ALIGNN-dエンコーディングは、すべての結合がエンコードされる密度の大きい最大連結グラフと比較して、スパースで等しく表現的な表現である。 また,銅錯体の光学応答に対する個々の構造成分の相対的寄与を解明し,ALIGNN-dに基づくモデル解釈可能性についても検討した。 最後に、計算効率を検証し、ALIGNN-dの解釈可能性を拡張するための今後の開発について概説する。

Graph neural networks (GNNs) are attractive for learning properties of atomic structures thanks to their intuitive, physically informed graph encoding of atoms and bonds. However, conventional GNN encodings do not account for angular information, which is critical for describing complex atomic arrangements in disordered materials, interfaces, and molecular distortions. In this work, we extend the recently proposed ALIGNN encoding, which incorporates bond angles, to also include dihedral angles (ALIGNN-d), and we apply the model to capture the structures of aqua copper complexes for spectroscopy prediction. This simple extension is shown to lead to a memory-efficient graph representation capable of capturing the full geometric information of atomic structures. Specifically, the ALIGNN-d encoding is a sparse yet equally expressive representation compared to the dense, maximally-connected graph, in which all bonds are encoded. We also explore model interpretability based on ALIGNN-d by elucidating the relative contributions of individual structural components to the optical response of the copper complexes. Lastly, we briefly discuss future developments to validate the computational efficiency and to extend the interpretability of ALIGNN-d.
翻訳日:2021-09-28 06:36:33 公開日:2021-09-23
# (参考訳) データ圧縮を用いたテキストランキングと分類 [全文訳有]

Text Ranking and Classification using Data Compression ( http://arxiv.org/abs/2109.11577v1 )

ライセンス: CC BY 4.0
Nitya Kasturi, Igor L. Markov(参考訳) テキスト分類には、データ圧縮ツールを用いて計算された条件付きエントロピー推定を用いる。 圧縮サイズから得られたテキスト親和性スコアは、分類やランキングタスクに使用できるが、その成功は使用する圧縮ツールに依存する。 我々は、Zstandard圧縮機を使用し、これらのアイデアをいくつかの方法で強化し、結果の言語に依存しないテクニックをZestと呼ぶ。 アプリケーションでは、注意深い特徴抽出と大規模なMLモデルを避けることにより、構成を単純化する。 我々のアブレーション研究は、導入する個別の強化の価値を裏付けるものである。 zestは本番環境では言語固有の多次元コンテンツ埋め込みと競合できるが、公開データセット上の他のカウントメソッドを上回ることはできない。

A well-known but rarely used approach to text categorization uses conditional entropy estimates computed using data compression tools. Text affinity scores derived from compressed sizes can be used for classification and ranking tasks, but their success depends on the compression tools used. We use the Zstandard compressor and strengthen these ideas in several ways, calling the resulting language-agnostic technique Zest. In applications, this approach simplifies configuration, avoiding careful feature extraction and large ML models. Our ablation studies confirm the value of individual enhancements we introduce. We show that Zest complements and can compete with language-specific multidimensional content embeddings in production, but cannot outperform other counting methods on public datasets.
翻訳日:2021-09-28 06:21:50 公開日:2021-09-23
# (参考訳) 不確実性定量化による生活予測の残留:回転機械の高精度モデルの開発

Remaining useful life prediction with uncertainty quantification: development of a highly accurate model for rotating machinery ( http://arxiv.org/abs/2109.11579v1 )

ライセンス: CC BY 4.0
Zhaoyi Xu, Yanjie Guo, Joseph Homer Saleh(参考訳) 回転する機械は、発電から輸送、その他多くの産業用途に至るまで、現代生活に不可欠である。 このような機器は、通常、不定期な故障につながる困難な作業条件下で運用されるため、メンテナンス計画や破滅的な失敗を防ぐために、正確な有効寿命(RUL)予測が不可欠である。 本研究では、回転機械におけるデータ駆動型RUL予測における現在の課題に対処する。 課題は,予測の正確性と不確かさの定量化,センサデータによるシステム劣化とrul推定の非定常性に関するものである。 我々は,時間周波数解析,ディープラーニング画像認識,非定常ガウス過程回帰を統合した,不確実性定量化を伴う新しいアーキテクチャとrul予測モデルであるvisproを開発した。 phm12軸受振動データセットを用いた回転機械の他の高度データ駆動型rul予測モデルに対して,本モデルで得られた結果を分析し,ベンチマークを行った。 計算実験により,(1)VisPro予測は精度が高く,既存の予測モデル(第2ベットモデルより3倍高い精度)よりも大幅に改善され,(2)RULの不確実性境界が有効かつ有益であることが示された。 VisProの優れた予測性能を説明するアーキテクチャとモデリングの選択肢を特定し,議論する。

Rotating machinery is essential to modern life, from power generation to transportation and a host of other industrial applications. Since such equipment generally operates under challenging working conditions, which can lead to untimely failures, accurate remaining useful life (RUL) prediction is essential for maintenance planning and to prevent catastrophic failures. In this work, we address current challenges in data-driven RUL prediction for rotating machinery. The challenges revolve around the accuracy and uncertainty quantification of the prediction, and the non-stationarity of the system degradation and RUL estimation given sensor data. We devise a novel architecture and RUL prediction model with uncertainty quantification, termed VisPro, which integrates time-frequency analysis, deep learning image recognition, and nonstationary Gaussian process regression. We analyze and benchmark the results obtained with our model against those of other advanced data-driven RUL prediction models for rotating machinery using the PHM12 bearing vibration dataset. The computational experiments show that (1) the VisPro predictions are highly accurate and provide significant improvements over existing prediction models (three times more accurate than the second-best model), and (2) the RUL uncertainty bounds are valid and informative. We identify and discuss the architectural and modeling choices made that explain this excellent predictive performance of VisPro.
翻訳日:2021-09-28 06:15:34 公開日:2021-09-23
# (参考訳) モノのインターネットエコシステムにおける攻撃的リスク行動の評価 [全文訳有]

Evaluating Attacker Risk Behavior in an Internet of Things Ecosystem ( http://arxiv.org/abs/2109.11592v1 )

ライセンス: CC BY 4.0
Erick Galinkin and John Carter and Spiros Mancoridis(参考訳) サイバーセキュリティでは、攻撃者は真面目なスクリプトキッズやサイバー犯罪者から、忍び寄る、忍耐強い脅威まで幅広い。 これらの攻撃者をモデル化する場合、異なるリスクシーキングとリスク回避行動を示すことが観察できる。 本研究は,モノのインターネット(Internet of Things)エコシステムにおける攻撃者のリスク検索やリスク回避行動が,検出最適化ディフェンダーに対する操作にどのように影響するかを考察する。 実測可能なマルウェアを用いた評価フレームワークを用いて,より攻撃的かつステルス性のあるマルウェア群を用いて,攻撃者に対してディフェンダーがプレイするゲームを開発した。 これらの結果は、リスクを受け入れる意志に応じて指数的効用の枠組みで評価される。 攻撃者が前もって1つの戦略を選択しなければならない被告に対して、特に2人の攻撃者が予想するよりも優れた装備を有する場合において、リスクを問う攻撃者はリスク回避攻撃者よりも現実的な実用性を得る。 さらに、我々は、高リスクで高リスクなシナリオがサイバー犯罪者のようなリスクを探す攻撃者にとってより有益であることを実証的に確認した。

In cybersecurity, attackers range from brash, unsophisticated script kiddies and cybercriminals to stealthy, patient advanced persistent threats. When modeling these attackers, we can observe that they demonstrate different risk-seeking and risk-averse behaviors. This work explores how an attacker's risk seeking or risk averse behavior affects their operations against detection-optimizing defenders in an Internet of Things ecosystem. Using an evaluation framework which uses real, parametrizable malware, we develop a game that is played by a defender against attackers with a suite of malware that is parameterized to be more aggressive and more stealthy. These results are evaluated under a framework of exponential utility according to their willingness to accept risk. We find that against a defender who must choose a single strategy up front, risk-seeking attackers gain more actual utility than risk-averse attackers, particularly in cases where the defender is better equipped than the two attackers anticipate. Additionally, we empirically confirm that high-risk, high-reward scenarios are more beneficial to risk-seeking attackers like cybercriminals, while low-risk, low-reward scenarios are more beneficial to risk-averse attackers like advanced persistent threats.
翻訳日:2021-09-28 06:14:27 公開日:2021-09-23
# (参考訳) SPNet: ポイントクラウドセマンティックセマンティックセグメンテーションのためのマルチシェルカーネルコンボリューション [全文訳有]

SPNet: Multi-Shell Kernel Convolution for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2109.11610v1 )

ライセンス: CC BY 4.0
Yuyan Li, Chuanmao Fan, Xu Wang, Ye Duan(参考訳) 特徴符号化はポイントクラウド分析に不可欠である。 本稿では,形状符号化と局所文脈学習のための新たな点畳み込み演算子であるShell Point Convolution(SPConv)を提案する。 具体的には、SPConvは3D近傍空間をシェルに分割し、手動で設計されたカーネルポイント上のローカル特徴を集約し、シェル上で畳み込みを行う。 さらに、spconvには、局所的な機能集約を強化するシンプルで効果的なアテンションモジュールが組み込まれている。 SPConvに基づいて、SPNetという名前のディープニューラルネットワークが構築され、大規模なポイントクラウドを処理する。 ポアソンディスクサンプリングと特徴伝搬はSPNetに組み込まれ、効率と精度が向上する。 シェル設計の詳細を提供し,大規模ポイントクラウドデータセットへの挑戦に関する広範な実験を行った。 実験の結果,spconvは局所的な形状エンコーディングに有効であり,spnetは意味セグメンテーションタスクにおいて上位のパフォーマンスを達成できることがわかった。

Feature encoding is essential for point cloud analysis. In this paper, we propose a novel point convolution operator named Shell Point Convolution (SPConv) for shape encoding and local context learning. Specifically, SPConv splits 3D neighborhood space into shells, aggregates local features on manually designed kernel points, and performs convolution on the shells. Moreover, SPConv incorporates a simple yet effective attention module that enhances local feature aggregation. Based upon SPConv, a deep neural network named SPNet is constructed to process large-scale point clouds. Poisson disk sampling and feature propagation are incorporated in SPNet for better efficiency and accuracy. We provided details of the shell design and conducted extensive experiments on challenging large-scale point cloud datasets. Experimental results show that SPConv is effective in local shape encoding, and our SPNet is able to achieve top-ranking performances in semantic segmentation tasks.
翻訳日:2021-09-28 06:06:06 公開日:2021-09-23
# (参考訳) 高次元文脈線形バンディットに対する後悔の下限と最適アルゴリズム

Regret Lower Bound and Optimal Algorithm for High-Dimensional Contextual Linear Bandit ( http://arxiv.org/abs/2109.11612v1 )

ライセンス: CC BY 4.0
Ke Li, Yun Yang, Naveen N. Narisetty(参考訳) 本稿では,高次元特徴を持つマルチアームバンディット問題を考察する。 まず、最小値の下限である$\mathcal{o}\big((\log d)^{\frac{\alpha+1}{2}}t^{\frac{1-\alpha}{2}}+\log t\big)$ を証明し、累積後悔に対して、ホライズン$t$、次元$d$、マージンパラメータ$\alpha\in[0,1]$ を用いて、最適アームと準最適アームの分離を制御する。 この新しい下限は、マージンパラメータの異なる値である$\alpha$の使用によって、t に異なる依存性を持つ既存の後悔の束縛結果を統一する。 第2に,下界にマッチする後悔の上界を実現する汎用上界境界(UCB)戦略に着想を得た,単純で効率的なアルゴリズムを提案する。 提案アルゴリズムは、一般的に使用される楕円体信頼セットとは対照的な信頼セットとして、適切な中心となる$\ell_1$-ballを使用する。 さらに、このアルゴリズムは強制サンプリングステップを必要とせず、実質的に未知のマージンパラメータに適応する。 提案手法を既存の文献と比較するためにシミュレーションと実データ解析を行った。

In this paper, we consider the multi-armed bandit problem with high-dimensional features. First, we prove a minimax lower bound, $\mathcal{O}\big((\log d)^{\frac{\alpha+1}{2}}T^{\frac{1-\alpha}{2}}+\log T\big)$, for the cumulative regret, in terms of horizon $T$, dimension $d$ and a margin parameter $\alpha\in[0,1]$, which controls the separation between the optimal and the sub-optimal arms. This new lower bound unifies existing regret bound results that have different dependencies on T due to the use of different values of margin parameter $\alpha$ explicitly implied by their assumptions. Second, we propose a simple and computationally efficient algorithm inspired by the general Upper Confidence Bound (UCB) strategy that achieves a regret upper bound matching the lower bound. The proposed algorithm uses a properly centered $\ell_1$-ball as the confidence set in contrast to the commonly used ellipsoid confidence set. In addition, the algorithm does not require any forced sampling step and is thereby adaptive to the practically unknown margin parameter. Simulations and a real data analysis are conducted to compare the proposed method with existing ones in the literature.
翻訳日:2021-09-28 05:57:12 公開日:2021-09-23
# (参考訳) ポイントクラウドセマンティクスセグメンテーションのための選択的特徴融合を用いた高速点ボクセル畳み込みニューラルネットワーク [全文訳有]

Fast Point Voxel Convolution Neural Network with Selective Feature Fusion for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2109.11614v1 )

ライセンス: CC BY 4.0
Xu Wang, Yuyan Li, Ye Duan(参考訳) 本稿では,ポイントクラウド解析のための軽量畳み込みニューラルネットワークを提案する。 点群をダウンサンプリングすることで受容場を増大させる多くのCNNとは対照的に,本手法はサンプリングなしで点集合全体を直接操作し,効率よく性能を向上する。 私たちのネットワークは、ビルディングブロックとしてポイントボクセル畳み込み(PVC)層で構成されています。 各層は2つの平行分岐、すなわちボクセル分岐と点分岐を持つ。 特にvoxelブランチでは、空でないvoxelセンタに局所的な特徴を集約し、voxel化による幾何学的情報損失を低減し、ボリューム的畳み込みを適用して局所近傍幾何エンコーディングを強化する。 点分枝では,多層パーセプトロン (MLP) を用いて細かな点次特徴を抽出する。 これら2つのブランチからの出力は、機能選択モジュールを介して適応的に融合される。 さらに、各pvc層からの出力を監督し、異なる意味情報のレベルを学習する。 最終的な予測は、すべての中間予測を平均化する。 提案手法は,高速かつメモリ効率を保ちながら,同等の結果が得られることを示す。 本手法は,オブジェクト分類と意味セグメンテーションタスクのためのpopular point cloudデータセット上で評価する。

We present a novel lightweight convolutional neural network for point cloud analysis. In contrast to many current CNNs which increase receptive field by downsampling point cloud, our method directly operates on the entire point sets without sampling and achieves good performances efficiently. Our network consists of point voxel convolution (PVC) layer as building block. Each layer has two parallel branches, namely the voxel branch and the point branch. For the voxel branch specifically, we aggregate local features on non-empty voxel centers to reduce geometric information loss caused by voxelization, then apply volumetric convolutions to enhance local neighborhood geometry encoding. For the point branch, we use Multi-Layer Perceptron (MLP) to extract fine-detailed point-wise features. Outputs from these two branches are adaptively fused via a feature selection module. Moreover, we supervise the output from every PVC layer to learn different levels of semantic information. The final prediction is made by averaging all intermediate predictions. We demonstrate empirically that our method is able to achieve comparable results while being fast and memory efficient. We evaluate our method on popular point cloud datasets for object classification and semantic segmentation tasks.
翻訳日:2021-09-28 05:55:58 公開日:2021-09-23
# (参考訳) 組合せマスキングゲームにおける生成的デセプション戦略の学習 [全文訳有]

Learning Generative Deception Strategies in Combinatorial Masking Games ( http://arxiv.org/abs/2109.11637v1 )

ライセンス: CC BY 4.0
Junlin Wu, Charles Kamhoua, Murat Kantarcioglu, Yevgeniy Vorobeychik(参考訳) 偽装はサイバー防御のレパートリーにおいて重要なツールであり、防御者は情報的優位性を利用して攻撃を成功させる可能性を減らすことができる。 騙す方法の1つは、システムの構成方法に関する情報を隠したりマスキングしたりすることで、攻撃者の標的に対する不確実性を高めたりすることである。 攻撃者は攻撃者が攻撃者を選択することで応答する一方で,攻撃者はマスクに対する属性のサブセットを選択するという,ディフェンダー・アタッカー相互作用の新たなゲーム理論モデルを提案する。 両プレイヤーの戦略は複雑な情報依存を持つ組合せ構造を持ち、そのためこれらの戦略を表現することは自明ではない。 まず,ゼロサムディフェンダー・アタッカーゲームの平衡計算の問題を,システム構成変数と制約の組合せ数を持つ線形プログラムとして表現し,この問題を解決するための制約生成手法を開発した。 次に,両プレイヤーの戦略をニューラルネットワークとして表現することにより,ゲームをほぼ解決するための新しい高度にスケーラブルな手法を提案する。 鍵となる考え方は、ディープニューラルネットワークジェネレータを使用してディフェンダーの混成戦略を表現し、その後、ジェネレータネットワークのトレーニングに類似した交互勾配差分アルゴリズムを使用することである。 本研究は,提案手法の有効性を実証するものである。

Deception is a crucial tool in the cyberdefence repertoire, enabling defenders to leverage their informational advantage to reduce the likelihood of successful attacks. One way deception can be employed is through obscuring, or masking, some of the information about how systems are configured, increasing attacker's uncertainty about their targets. We present a novel game-theoretic model of the resulting defender-attacker interaction, where the defender chooses a subset of attributes to mask, while the attacker responds by choosing an exploit to execute. The strategies of both players have combinatorial structure with complex informational dependencies, and therefore even representing these strategies is not trivial. First, we show that the problem of computing an equilibrium of the resulting zero-sum defender-attacker game can be represented as a linear program with a combinatorial number of system configuration variables and constraints, and develop a constraint generation approach for solving this problem. Next, we present a novel highly scalable approach for approximately solving such games by representing the strategies of both players as neural networks. The key idea is to represent the defender's mixed strategy using a deep neural network generator, and then using alternating gradient-descent-asc ent algorithm, analogous to the training of Generative Adversarial Networks. Our experiments, as well as a case study, demonstrate the efficacy of the proposed approach.
翻訳日:2021-09-28 05:46:31 公開日:2021-09-23
# (参考訳) 長距離自動駐車のための学習経路計画 [全文訳有]

Learning-Based Path Planning for Long-Range Autonomous Valet Parking ( http://arxiv.org/abs/2109.11661v1 )

ライセンス: CC BY 4.0
Muhammad Khalid, Liang Wang, Kezhi Wang, Cunhua Pan, Nauman Aslam and Yue Cao(参考訳) 本稿では,都市中心部の混雑率を低減し,各利用者の体験の質(QoE)を高めるため,長距離自動駐車(LAVP)の枠組みを提示し,都市内に電気自動車(EAV)を配備し,必要な場所で利用者を拾い上げ,降ろし,都市中心部から駐車場まで自律的に運転する。 本フレームワークでは,EAVの経路計画の最適化とサービス時間スロットの数の最適化により,すべてのユーザが必要な場所でサービスを受けられることを保証しながら,EAVの全体距離を最小化することを目的としている。 そこで本研究では,この問題を反復的に解くために,Double-Layer Ant Colony Optimization (DL-ACO)アルゴリズムと呼ばれる学習ベースアルゴリズムを提案する。 次に、動的環境(eavは異なる場所からユーザーを拾い上げ、降ろすかもしれない)を考慮しつつ、リアルタイムな意思決定を行うために、deep q network(dqn)として知られるdeep reinforcement learning(drl)ベースのアルゴリズムも提示する。 実験の結果,DL-ACOとDQNに基づくアルゴリズムはともに高い性能を示した。

In this paper, to reduce the congestion rate at the city center and increase the quality of experience (QoE) of each user, the framework of long-range autonomous valet parking (LAVP) is presented, where an Electric Autonomous Vehicle (EAV) is deployed in the city, which can pick up, drop off users at their required spots, and then drive to the car park out of city center autonomously. In this framework, we aim to minimize the overall distance of the EAV, while guarantee all users are served, i.e., picking up, and dropping off users at their required spots through optimizing the path planning of the EAV and number of serving time slots. To this end, we first propose a learning based algorithm, which is named as Double-Layer Ant Colony Optimization (DL-ACO) algorithm to solve the above problem in an iterative way. Then, to make the real-time decision, while consider the dynamic environment (i.e., the EAV may pick up and drop off users from different locations), we further present a deep reinforcement learning (DRL) based algorithm, which is known as deep Q network (DQN). The experimental results show that the DL-ACO and DQN-based algorithms both achieve the considerable performance.
翻訳日:2021-09-28 03:30:39 公開日:2021-09-23
# (参考訳) クラウドソーシングによる障害レポートによるAIエラーの発見と検証 [全文訳有]

Discovering and Validating AI Errors With Crowdsourced Failure Reports ( http://arxiv.org/abs/2109.11690v1 )

ライセンス: CC BY 4.0
\'Angel Alexander Cabrera, Abraham J. Druck, Jason I. Hong, Adam Perer(参考訳) aiシステムは重要な行動の学習に失敗し、安全性やバイアスといった現実世界の問題に繋がる可能性がある。 これらの系統的な失敗を発見するには、潜在的なエッジケースの仮説から証拠の収集、パターンの検証に至るまで、開発者の注意を要することが多い。 このプロセスのスケールアップと合理化のために、クラウドソースの障害レポートや、モデルが失敗した理由や理由に関するエンドユーザの説明を導入し、開発者がAIエラーを検出できる方法を示します。 また,システム障害の発見と検証に使用可能な,障害レポートを合成するビジュアル分析システムdeblinderの設計と実装も行っています。 半構造化インタビューと10人のai実践者によるシンクアルード研究において、デブリンダーシステムの余裕と、実際の環境での障害報告の適用性について検討する。 最後に、開発者が特定したグループから追加データを集めることで、モデルの性能が向上することを示す。

AI systems can fail to learn important behaviors, leading to real-world issues like safety concerns and biases. Discovering these systematic failures often requires significant developer attention, from hypothesizing potential edge cases to collecting evidence and validating patterns. To scale and streamline this process, we introduce crowdsourced failure reports, end-user descriptions of how or why a model failed, and show how developers can use them to detect AI errors. We also design and implement Deblinder, a visual analytics system for synthesizing failure reports that developers can use to discover and validate systematic failures. In semi-structured interviews and think-aloud studies with 10 AI practitioners, we explore the affordances of the Deblinder system and the applicability of failure reports in real-world settings. Lastly, we show how collecting additional data from the groups identified by developers can improve model performance.
翻訳日:2021-09-28 03:03:38 公開日:2021-09-23
# (参考訳) 多エージェント強化学習における自然政策の次元自由率

Dimension-Free Rates for Natural Policy Gradient in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2109.11692v1 )

ライセンス: CC BY 4.0
Carlo Alfano, Patrick Rebeschini(参考訳) 協調型マルチエージェント強化学習(collaborative multi-agent reinforcement learning)は、ネットワーク上に分散したエージェントが隣人と反復的に協力し、グローバル(ネットワーク全体)の報酬概念を最大化する、シーケンシャル意思決定における分散パラダイムである。 正確な計算は通常、エージェントの数に指数関数的にスケールする複雑性を伴う。 この次元の呪いに対処するために,我々は,局所情報を使用し,特定の範囲内の近隣者とのみ通信を行う自然政策勾配フレームワークに基づくスケーラブルなアルゴリズムを設計した。 基礎となるマルコフ過程の遷移力学と局所学習ポリシーの相関関係の空間的減衰に関する標準的な仮定の下で、我々のアルゴリズムは、次元のない統計的および計算の複雑さで大域的最適ポリシーに収束し、エージェントの数に依存しない局所化誤差を生じ、通信範囲の関数として指数関数的に高速に収束することを示す。

Cooperative multi-agent reinforcement learning is a decentralized paradigm in sequential decision making where agents distributed over a network iteratively collaborate with neighbors to maximize global (network-wide) notions of rewards. Exact computations typically involve a complexity that scales exponentially with the number of agents. To address this curse of dimensionality, we design a scalable algorithm based on the Natural Policy Gradient framework that uses local information and only requires agents to communicate with neighbors within a certain range. Under standard assumptions on the spatial decay of correlations for the transition dynamics of the underlying Markov process and the localized learning policy, we show that our algorithm converges to the globally optimal policy with a dimension-free statistical and computational complexity, incurring a localization error that does not depend on the number of agents and converges to zero exponentially fast as a function of the range of communication.
翻訳日:2021-09-28 02:38:57 公開日:2021-09-23
# CSAGN:対話型セマンティックロールラベリングのための対話型構造認識グラフネットワーク

CSAGN: Conversational Structure Aware Graph Network for Conversational Semantic Role Labeling ( http://arxiv.org/abs/2109.11541v1 )

ライセンス: Link先を確認
Han Wu, Kun Xu, Linqi Song(参考訳) 対話的意味的役割ラベリング(csrl)は対話理解への重要なステップであると考えられている。 しかし、既存のCSRLパーサが会話構造情報を扱うことは依然として大きな課題である。 本稿では,この問題に対処するために,csrlの簡易かつ効果的なアーキテクチャを提案する。 本モデルは,話者依存情報を明示的にエンコードする対話型構造認識グラフネットワークに基づいている。 また,モデルをさらに改善するためのマルチタスク学習手法を提案する。 評価実験の結果,提案したトレーニング目標を用いたモデルでは,従来のベースラインよりも有意に優れていた。

Conversational semantic role labeling (CSRL) is believed to be a crucial step towards dialogue understanding. However, it remains a major challenge for existing CSRL parser to handle conversational structural information. In this paper, we present a simple and effective architecture for CSRL which aims to address this problem. Our model is based on a conversational structure-aware graph network which explicitly encodes the speaker dependent information. We also propose a multi-task learning method to further improve the model. Experimental results on benchmark datasets show that our model with our proposed training objectives significantly outperforms previous baselines.
翻訳日:2021-09-27 14:29:29 公開日:2021-09-23
# Chess AI - マシンインテリジェンスのためのパラダイム競合

Chess AI: Competing Paradigms for Machine Intelligence ( http://arxiv.org/abs/2109.11602v1 )

ライセンス: Link先を確認
Shiva Maharaj, Nick Polson, Alex Turk(参考訳) エンドゲームの研究は、人間の創造性と知性をテストするツールとして長く使われてきた。 マシンの能力をテストするツールとしても機能することが分かっています。 主要なチェスエンジンの2つ、ストックフィッシュとリーラチェスゼロ(LCZero)はプレイ中にかなり異なる方法を採用している。 1970年代後半の有名なエンドゲーム研究であるプラケットのパズルを使って、2つのエンジンを比較した。 実験の結果,StockfishはLCZeroよりも優れていた。 エンジン間のアルゴリズム的差異を調べ,実験結果を慎重に解釈するための基礎として,実験結果を用いた。 人間がチェスの問題を解く方法からインスピレーションを得て、機械が想像力を持つかどうかを尋ねる。 理論的には、ベルマン方程式がどのようにして勝利の確率を最適化するかを説明する。 結論として,人工知能(AI)と人工知能(AGI)の研究の意義を考察し,今後の研究への道筋を示唆する。

Endgame studies have long served as a tool for testing human creativity and intelligence. We find that they can serve as a tool for testing machine ability as well. Two of the leading chess engines, Stockfish and Leela Chess Zero (LCZero), employ significantly different methods during play. We use Plaskett's Puzzle, a famous endgame study from the late 1970s, to compare the two engines. Our experiments show that Stockfish outperforms LCZero on the puzzle. We examine the algorithmic differences between the engines and use our observations as a basis for carefully interpreting the test results. Drawing inspiration from how humans solve chess problems, we ask whether machines can possess a form of imagination. On the theoretical side, we describe how Bellman's equation may be applied to optimize the probability of winning. To conclude, we discuss the implications of our work on artificial intelligence (AI) and artificial general intelligence (AGI), suggesting possible avenues for future research.
翻訳日:2021-09-27 14:28:32 公開日:2021-09-23
# 家庭におけるロボット操作のためのステレオ深度学習システム

A Learned Stereo Depth System for Robotic Manipulation in Homes ( http://arxiv.org/abs/2109.11644v1 )

ライセンス: Link先を確認
Krishna Shankar, Mark Tjersland, Jeremy Ma, Kevin Stone, Max Bajracharya(参考訳) 本システムでは,2560×2048の解像度で,384の差がみられ,2560×2048の解像度で,暗さ,テクスチャレス,薄さ,反射面,鏡面,物体など,人間の環境に最適化された高密度で正確な点雲を30msで生成するパッシブステレオ深度システムを提案する。このシステムは,学習ステレオマッチングとエンジニアによるフィルタリング,トレーニングとデータ混合手法,センサハードウェア設計を組み合わせたアルゴリズムである。 私たちのアーキテクチャは、MiddleburyとFlying Things Stereo Benchmarksで同じように機能するアプローチよりも15倍高速です。 このモデルのトレーニングを効果的に監督するために,市販の奥行きセンサでラベル付けされた実データと,さまざまなレンダリングされたラベル付きデータセットを組み合わせる。 本システムの有効性を,深度マップとポイントクラウドの形式で多数の質的結果を示し,測定精度の検証実験を行い,挑戦対象やシーンにおける他のセンサとの比較を行った。 また, middlebury と flyingthings データセットを用いた最先端学習モデルと比較して,アルゴリズムの競争力を示す。

We present a passive stereo depth system that produces dense and accurate point clouds optimized for human environments, including dark, textureless, thin, reflective and specular surfaces and objects, at 2560x2048 resolution, with 384 disparities, in 30 ms. The system consists of an algorithm combining learned stereo matching with engineered filtering, a training and data-mixing methodology, and a sensor hardware design. Our architecture is 15x faster than approaches that perform similarly on the Middlebury and Flying Things Stereo Benchmarks. To effectively supervise the training of this model, we combine real data labelled using off-the-shelf depth sensors, as well as a number of different rendered, simulated labeled datasets. We demonstrate the efficacy of our system by presenting a large number of qualitative results in the form of depth maps and point-clouds, experiments validating the metric accuracy of our system and comparisons to other sensors on challenging objects and scenes. We also show the competitiveness of our algorithm compared to state-of-the-art learned models using the Middlebury and FlyingThings datasets.
翻訳日:2021-09-27 14:27:37 公開日:2021-09-23
# paint4poem:漢詩の芸術的視覚化のためのデータセット

Paint4Poem: A Dataset for Artistic Visualization of Classical Chinese Poems ( http://arxiv.org/abs/2109.11682v1 )

ライセンス: Link先を確認
Dan Li, Shuai Wang, Jie Zou, Chang Tian, Elisha Nieuwburg, Fengyuan Sun, Evangelos Kanoulas(参考訳) 本論では、古典漢詩の芸術的可視化という新しい課題を提案する。 そこで我々はPaint4Poemという新しいデータセットを構築した。 ペイント4ポエムの第1部は、中国の影響力ある画家・風海から手作業で集めた、高品質な詩画301点からなる。 そこで,本研究では,Feng Zikaiの絵画から手作業で収集した3,648対と,ウェブから自動的に収集された89,204対からなるPaint4Poemの2部について紹介する。 前者は最も多くの絵画を含む画家のスタイルを学ぶのに役立ち、後者は詩と絵画の間の意味的関連性を学ぶのに役立つと期待する。 さらに,詩の多様性,絵画様式,詩と絵画の意味的関連について,Paint4Poemを分析した。 本研究では,2つの代表的なテキスト・画像生成モデルである「AttnGAN」と「MirrorGAN」を訓練し,絵画の質,絵画の様式的関連性,絵画と絵画の意味的関連性について評価する。 このデータセットは、転送学習、少数ショット学習、低リソースデータのためのテキストから画像への生成など、このタスクに関する興味深い研究の方向も示している。 データセットは公開されている。 (https://github.com/ paint4poem/paint4poe m)

In this work we propose a new task: artistic visualization of classical Chinese poems, where the goal is to generatepaintings of a certain artistic style for classical Chinese poems. For this purpose, we construct a new dataset called Paint4Poem. Thefirst part of Paint4Poem consists of 301 high-quality poem-painting pairs collected manually from an influential modern Chinese artistFeng Zikai. As its small scale poses challenges for effectively training poem-to-painting generation models, we introduce the secondpart of Paint4Poem, which consists of 3,648 caption-painting pairs collected manually from Feng Zikai's paintings and 89,204 poem-painting pairs collected automatically from the web. We expect the former to help learning the artist painting style as it containshis most paintings, and the latter to help learning the semantic relevance between poems and paintings. Further, we analyze Paint4Poem regarding poem diversity, painting style, and the semantic relevance between poems and paintings. We create abenchmark for Paint4Poem: we train two representative text-to-image generation models: AttnGAN and MirrorGAN, and evaluate theirperformance regarding painting pictorial quality, painting stylistic relevance, and semantic relevance between poems and paintings.The results indicate that the models are able to generate paintings that have good pictorial quality and mimic Feng Zikai's style, but thereflection of poem semantics is limited. The dataset also poses many interesting research directions on this task, including transferlearning, few-shot learning, text-to-image generation for low-resource data etc. The dataset is publicly available.(https://g ithub.com/paint4poem /paint4poem)
翻訳日:2021-09-27 14:25:13 公開日:2021-09-23
# 文書自動化アーキテクチャと技術:調査

Document Automation Architectures and Technologies: A Survey ( http://arxiv.org/abs/2109.11603v1 )

ライセンス: Link先を確認
Mohammad Ahmadi Achachlouei, Omkar Patil, Tarun Joshi, Vijayan N. Nair(参考訳) 本稿では,文書自動化技術(da)の現状について概説する。 DAの目的は、異なるソースからの入力を自動的に統合し、定義されたテンプレートに従って文書を組み立てることにより、文書作成時の手作業を削減することである。 DAの商業的ソリューションのレビューは、特に法律分野において行われているが、これまでDAアーキテクチャと技術に関する学術研究の包括的なレビューは行われていない。 DAの現在の調査は学術文献をレビューし、DAとその特徴を明確に定義し、学術研究における最先端のDAアーキテクチャと技術を特定し、人工知能とディープニューラルネットワークの最近の進歩を踏まえて、DA分野における新たな研究機会につながるアイデアを提供する。

This paper surveys the current state of the art in document automation (DA). The objective of DA is to reduce the manual effort during the generation of documents by automatically integrating input from different sources and assembling documents conforming to defined templates. There have been reviews of commercial solutions of DA, particularly in the legal domain, but to date there has been no comprehensive review of the academic research on DA architectures and technologies. The current survey of DA reviews the academic literature and provides a clearer definition and characterization of DA and its features, identifies state-of-the-art DA architectures and technologies in academic research, and provides ideas that can lead to new research opportunities within the DA field in light of recent advances in artificial intelligence and deep neural networks.
翻訳日:2021-09-27 14:23:55 公開日:2021-09-23
# 時系列予測のためのカーネルフロー正規化によるディープラーニング

Deep Learning with Kernel Flow Regularization for Time Series Forecasting ( http://arxiv.org/abs/2109.11649v1 )

ライセンス: Link先を確認
Mahdy Shirdel, Reza Asadi, Duc Do, Micheal Hintlian(参考訳) 長期記憶(LSTM)ニューラルネットワークは時系列予測問題に広く利用されている。 しかし、LSTMはテストフェーズで過度に適合し、性能が低下する傾向にある。 ニューラルネットワークの過剰フィッティング問題を防ぐために、いくつかの異なる正規化技術が文献に示されている。 本稿では,まず,時系列予測におけるカーネルフロー手法の応用について概説する。 その後,LSTM層にカーネルフロー正規化を適用し,オーバーフィッティング問題を回避する効果を検討した。 LSTM層にカーネルフロー損失関数を適用することで正規化を行う。 実験の結果,カーネルフローは時系列予測ベンチマークでベースラインモデルを上回ることがわかった。 また、LSTMに対するドロップアウトとカーネルフロー正則化手法の効果を比較した。 実験の結果,カーネルフローはドロップアウトと同じような正規化効果を実現できることがわかった。 また、ある時系列データセット(例えば電力負荷需要予測)上のLSTM層を早期に停止させるカーネルフローとドロップアウト正規化の両方を用いて、最良の結果が得られることを示す。

Long Short-Term Memory (LSTM) neural networks have been widely used for time series forecasting problems. However, LSTMs are prone to overfitting and performance reduction during test phases. Several different regularization techniques have been shown in literature to prevent overfitting problems in neural networks. In this paper, first, we introduce application of kernel flow methods for time series forecasting in general. Afterward, we examine the effectiveness of applying kernel flow regularization on LSTM layers to avoid overfitting problems. We describe a regularization method by applying kernel flow loss function on LSTM layers. In experimental results, we show that kernel flow outperforms baseline models on time series forecasting benchmarks. We also compare the effect of dropout and kernel flow regularization techniques on LSTMs. The experimental results illustrate that kernel flow achieves similar regularization effect to dropout. It also shows that the best results is obtained using both kernel flow and dropout regularizations with early stopping on LSTM layers on some time series datasets (e.g. power-load demand forecasts).
翻訳日:2021-09-27 14:23:15 公開日:2021-09-23
# 単純かつ効果的なゼロショットクロスリンガル音素認識

Simple and Effective Zero-shot Cross-lingual Phoneme Recognition ( http://arxiv.org/abs/2109.11680v1 )

ライセンス: Link先を確認
Qiantong Xu, Alexei Baevski, Michael Auli(参考訳) 自己学習,自己教師あり事前学習,教師なし学習の最近の進歩は,ラベル付きデータ無しの音声認識システムの実現を可能にした。 しかし、多くの場合、これらの手法では利用できない関連言語で利用可能なラベル付きデータが存在する。 本稿では,多言語に事前学習されたwav2vec 2.0モデルを微調整することにより,ゼロショット言語間転送学習に関する先行研究を拡張した。 これは、調音機能を用いて訓練言語の音素を対象言語にマッピングすることで行われる。 実験により、この単純な手法は、タスク固有のアーキテクチャを導入し、単言語で事前学習されたモデルの一部のみを使用する以前の作業を大幅に上回ることがわかった。

Recent progress in self-training, self-supervised pretraining and unsupervised learning enabled well performing speech recognition systems without any labeled data. However, in many cases there is labeled data available for related languages which is not utilized by these methods. This paper extends previous work on zero-shot cross-lingual transfer learning by fine-tuning a multilingually pretrained wav2vec 2.0 model to transcribe unseen languages. This is done by mapping phonemes of the training languages to the target language using articulatory features. Experiments show that this simple method significantly outperforms prior work which introduced task-specific architectures and used only part of a monolingually pretrained model.
翻訳日:2021-09-27 14:22:07 公開日:2021-09-23
# ADVERSARIALuscator: Adversarial-DRL-base d Obfuscator and Metamorphic Malware Swarm Generator

ADVERSARIALuscator: An Adversarial-DRL Based Obfuscator and Metamorphic Malware SwarmGenerator ( http://arxiv.org/abs/2109.11542v1 )

ライセンス: Link先を確認
Mohit Sewak, Sanjay K. Sahay, Hemant Rathore(参考訳) 高度なメタモルフィックマルウェアとランサムウェアは、難読化を用いて、攻撃毎に内部構造を変更することができる。 そのようなマルウェアがIoTネットワークに侵入しても、元のマルウェアインスタンスが検出されたとしても、その時点ではネットワーク全体に感染する可能性がある。 このような回避マルウェアのトレーニングデータを得ることは困難である。 そこで本稿では,adversarialuscatorを提案する。adversarial-drlを用いてマルウェアをopcodeレベルで隠蔽し,同一の複数のメタモルフィックインスタンスを生成するシステムである。 私たちの知る限りでは、ADVERSARIALuscatorはMarkov Decision Processベースのアプローチを採用して、オプコードレベルで個々の難読化を発生させる問題の解を見つけ出す最初のシステムです。 これは、マシン言語レベルが、実際の攻撃を効果的に模倣するために機能を保存できる最小限のものであるため重要である。 adversarialuscatorはまた、サイバーセキュリティ分野における近位政策最適化のような深層強化学習エージェントが可能な効率的な継続的アクション制御を初めて使用するシステムである。 実験の結果、ADVERSARIALuscatorは、マルウェアのコーパスの変成確率を >0.45 に上昇させる可能性が示唆された。 さらにADVERSARIALuscatorが生成する変成体の33%以上が、最も強力なIDSを回避することができた。 そのようなマルウェアがIoTネットワークに侵入しても、元のマルウェアインスタンスが検出されたとしても、その時点ではネットワーク全体に感染する可能性がある。 したがってADVERSARIALuscatorは、非常に強力で協調的なAIベースの変成マルウェア攻撃の群を表すデータを生成するために使用できる。 生成されたデータとシミュレーションは、先進的なマルウェアやランサムウェアからのAIベースのメタモルフィック攻撃に対するIDSの防御を強化するために使用できる。

Advanced metamorphic malware and ransomware, by using obfuscation, could alter their internal structure with every attack. If such malware could intrude even into any of the IoT networks, then even if the original malware instance gets detected, by that time it can still infect the entire network. It is challenging to obtain training data for such evasive malware. Therefore, in this paper, we present ADVERSARIALuscator, a novel system that uses specialized Adversarial-DRL to obfuscate malware at the opcode level and create multiple metamorphic instances of the same. To the best of our knowledge, ADVERSARIALuscator is the first-ever system that adopts the Markov Decision Process-based approach to convert and find a solution to the problem of creating individual obfuscations at the opcode level. This is important as the machine language level is the least at which functionality could be preserved so as to mimic an actual attack effectively. ADVERSARIALuscator is also the first-ever system to use efficient continuous action control capable of deep reinforcement learning agents like the Proximal Policy Optimization in the area of cyber security. Experimental results indicate that ADVERSARIALuscator could raise the metamorphic probability of a corpus of malware by >0.45. Additionally, more than 33% of metamorphic instances generated by ADVERSARIALuscator were able to evade the most potent IDS. If such malware could intrude even into any of the IoT networks, then even if the original malware instance gets detected, by that time it can still infect the entire network. Hence ADVERSARIALuscator could be used to generate data representative of a swarm of very potent and coordinated AI-based metamorphic malware attacks. The so generated data and simulations could be used to bolster the defenses of an IDS against an actual AI-based metamorphic attack from advanced malware and ransomware.
翻訳日:2021-09-27 14:21:14 公開日:2021-09-23
# 統合道路における連結車両と自動車両のマルチエージェント深部強化学習協調フレームワーク

A Multi-Agent Deep Reinforcement Learning Coordination Framework for Connected and Automated Vehicles at Merging Roadways ( http://arxiv.org/abs/2109.11672v1 )

ライセンス: Link先を確認
Sai Krishna Sumanth Nakka, Behdad Chalaki, Andreas Malikopoulos(参考訳) 高速道路で運行する車両の数は着実に増加し続けており、渋滞、事故、エネルギー消費、温室効果ガス排出が悪化している。 新たなモビリティシステム、例えばコネクテッド・アンド・オートマチック・ビークル(CAV)は、これらの問題に直接対処し、輸送ネットワークの効率と安全性を改善する可能性がある。 本稿では,高速道路の合併シナリオを考察し,停止運転を排除したCAVを調整するための枠組みを提案する。 我々は、深層強化学習にアクター批判的アプローチの分散形式を、多元的決定主義的政策勾配として用いている。 数値シミュレーションによりCAVの協調性を実証し,停止運転を排除してスムーズな交通流を実現することを示す。 シミュレーション結果のビデオとプロットはこの補足的な$\href{https://sites.google .com/view/ud-ids-lab /MADRL}{site}$で見ることができる。

The steady increase in the number of vehicles operating on the highways continues to exacerbate congestion, accidents, energy consumption, and greenhouse gas emissions. Emerging mobility systems, e.g., connected and automated vehicles (CAVs), have the potential to directly address these issues and improve transportation network efficiency and safety. In this paper, we consider a highway merging scenario and propose a framework for coordinating CAVs such that stop-and-go driving is eliminated. We use a decentralized form of the actor-critic approach to deep reinforcement learning$-$multi-age nt deep deterministic policy gradient. We demonstrate the coordination of CAVs through numerical simulations and show that a smooth traffic flow is achieved by eliminating stop-and-go driving. Videos and plots of the simulation results can be found at this supplemental $\href{https://sites.google .com/view/ud-ids-lab /MADRL}{site}$.
翻訳日:2021-09-27 14:20:44 公開日:2021-09-23
# 量子ニューラルネットワークにおけるオーバーパラメトリゼーションの理論

Theory of overparametrization in quantum neural networks ( http://arxiv.org/abs/2109.11676v1 )

ライセンス: Link先を確認
Martin Larocca, Nathan Ju, Diego Garc\'ia-Mart\'in, Patrick J. Coles, M. Cerezo(参考訳) 量子ニューラルネットワーク(Quantum Neural Networks, QNN)による量子アドバンテージの実現の見通しはエキサイティングだ。 QNNのプロパティ(例えば$M$のパラメータの数など)が損失環境に与える影響を理解することは、スケーラブルなQNNアーキテクチャの設計に不可欠である。 本稿では,周期構造を有するqnnの過パラメータ化現象を厳密に解析する。 オーバーパラメトリゼーション(overparametrization )とは、QNNが、状態空間内のすべての関連する方向を探索できるパラメータの臨界数$M_c$以上のレギュレーションとして定義する。 本結果は,QNN の生成元から得られるリー代数の次元が$M_c$ の上限であり,量子フィッシャー情報やヘッセン行列が到達できる最大ランクに対して有意であることを示す。 過度にパラメータ化されたQNNは、損失ランドスケープにおいて、M\geq M_c$のときに消え始める、急激なローカルミニマを持つ。 したがって、オーバーパラメトリゼーションのオンセットは、QNNトレーサビリティがより好ましい景観によって大幅に改善される計算相転移に対応する。 次に、過パラメータ化の概念をQNNキャパシティに結びつけることにより、QNNが過パラメータ化されると、そのキャパシティはその最大値を達成する。 固有解法, コンパイル法, 自動符号化法について数値シミュレーションを行い, 過パラメータ化計算相転移を例示する。 この結果は、変動量子アルゴリズムや量子最適制御にも適用される。

The prospect of achieving quantum advantage with Quantum Neural Networks (QNNs) is exciting. Understanding how QNN properties (e.g., the number of parameters $M$) affect the loss landscape is crucial to the design of scalable QNN architectures. Here, we rigorously analyze the overparametrization phenomenon in QNNs with periodic structure. We define overparametrization as the regime where the QNN has more than a critical number of parameters $M_c$ that allows it to explore all relevant directions in state space. Our main results show that the dimension of the Lie algebra obtained from the generators of the QNN is an upper bound for $M_c$, and for the maximal rank that the quantum Fisher information and Hessian matrices can reach. Underparametrized QNNs have spurious local minima in the loss landscape that start disappearing when $M\geq M_c$. Thus, the overparametrization onset corresponds to a computational phase transition where the QNN trainability is greatly improved by a more favorable landscape. We then connect the notion of overparametrization to the QNN capacity, so that when a QNN is overparametrized, its capacity achieves its maximum possible value. We run numerical simulations for eigensolver, compilation, and autoencoding applications to showcase the overparametrization computational phase transition. We note that our results also apply to variational quantum algorithms and quantum optimal control.
翻訳日:2021-09-27 14:20:28 公開日:2021-09-23
# iFacetSum:マルチドキュメント探索のためのコアベース対話型顔要約

iFacetSum: Coreference-based Interactive Faceted Summarization for Multi-Document Exploration ( http://arxiv.org/abs/2109.11621v1 )

ライセンス: Link先を確認
Eran Hirsch and Alon Eirew and Ori Shapira and Avi Caciularu and Arie Cattan and Ori Ernst and Ramakanth Pasunuru and Hadar Ronen and Mohit Bansal and Ido Dagan(参考訳) iFacetSumは、トピックの文書集合を探索するウェブアプリケーションである。 ifacetsumは対話型要約と対面検索を統合し、ユーザの選択に抽象的要約を与える新しい対面ナビゲーションスキームを提供する。 このアプローチは、包括的な概要と、選択のサブトピックに関する簡潔な詳細を提供する。 詳細なファセットは、ドキュメント間のコリファレンスパイプラインに基づいて自動的に生成され、ソーステキストに表わされる汎用概念、エンティティ、ステートメントをレンダリングする。 我々は,本手法の有効性を示唆する小規模ユーザスタディを通じて,アプリケーションの有効性を分析した。

We introduce iFacetSum, a web application for exploring topical document sets. iFacetSum integrates interactive summarization together with faceted search, by providing a novel faceted navigation scheme that yields abstractive summaries for the user's selections. This approach offers both a comprehensive overview as well as concise details regarding subtopics of choice. Fine-grained facets are automatically produced based on cross-document coreference pipelines, rendering generic concepts, entities and statements surfacing in the source texts. We analyze the effectiveness of our application through small-scale user studies, which suggest the usefulness of our approach.
翻訳日:2021-09-27 14:17:06 公開日:2021-09-23
# 一様情報密度仮説の再検討

Revisiting the Uniform Information Density Hypothesis ( http://arxiv.org/abs/2109.11635v1 )

ライセンス: Link先を確認
Clara Meister, Tiago Pimentel, Patrick Haller, Lena J\"ager, Ryan Cotterell, Roger Levy(参考訳) 均一情報密度(UID)仮説は、情報を信号に均一に分散するように構造化された発話に対して、言語利用者の間での好みを示す。 言語生産への影響はよく研究されているが、この仮説は言語理解と言語受容性についても予測する可能性を秘めている。 さらに、言語信号における一様性(あるいはその欠如)がどの程度測定されるべきかは不明確であり、どの言語単位(例えば、文や言語レベル)でこの一様性を保持するべきかは定かではない。 本稿では,読解時間と受容性データを用いて,uid仮説のこれらの側面について検討する。 私たちの読書時間の結果は、概して以前の作業と一致していますが、uidの予測と互換性のある超線形効果であるsurprisalとも一致しています。 受理性判定では,情報密度の非均一性が受理性低下の予測であることを示す。 次に,元仮説の異なる解釈に動機づけられたuidの複数の操作を探索し,一様性に対する圧力が課される範囲を分析する。 提案手法のサブセットの説明力は、最も強い傾向は、句、文、文書ではなく、言語全体の平均超越への回帰であるかもしれないことを示唆している -- uidの典型的な解釈をサポートする発見、すなわち(仮説的な)コミュニケーションチャネルの使用を最大化する言語ユーザの副産物である。

The uniform information density (UID) hypothesis posits a preference among language users for utterances structured such that information is distributed uniformly across a signal. While its implications on language production have been well explored, the hypothesis potentially makes predictions about language comprehension and linguistic acceptability as well. Further, it is unclear how uniformity in a linguistic signal -- or lack thereof -- should be measured, and over which linguistic unit, e.g., the sentence or language level, this uniformity should hold. Here we investigate these facets of the UID hypothesis using reading time and acceptability data. While our reading time results are generally consistent with previous work, they are also consistent with a weakly super-linear effect of surprisal, which would be compatible with UID's predictions. For acceptability judgments, we find clearer evidence that non-uniformity in information density is predictive of lower acceptability. We then explore multiple operationalizations of UID, motivated by different interpretations of the original hypothesis, and analyze the scope over which the pressure towards uniformity is exerted. The explanatory power of a subset of the proposed operationalizations suggests that the strongest trend may be a regression towards a mean surprisal across the language, rather than the phrase, sentence, or document -- a finding that supports a typical interpretation of UID, namely that it is the byproduct of language users maximizing the use of a (hypothetical) communication channel.
翻訳日:2021-09-27 14:16:56 公開日:2021-09-23
# 会員問合せによる質的制約ネットワークの厳密な学習

Exact Learning of Qualitative Constraint Networks from Membership Queries ( http://arxiv.org/abs/2109.11668v1 )

ライセンス: Link先を確認
Malek Mouhoub, Hamad Al Marri and Eisa Alanazi(参考訳) 定性的制約ネットワーク(Quilitative Constraint Network, QCN)は、質的時間的および空間的関係の下の問題を表現するための制約グラフである。 より正式には、QCNはエンティティのセットと、これらのエンティティ間のシナリオを定義する定性的制約のリストを含む。 これらの後者の制約は、関連するエンティティ間の(不完全な)知識をキャプチャする二項関係の解離として表現される。 QCNはスケジューリングや計画、構成、地理情報システム(GIS)など、さまざまな現実世界のアプリケーションを表現するのに非常に効果的である。 しかし、ユーザーから特定の問題を表すQCNを抽出することは困難である。 この難しさを克服するために,非専門家からのQCNである会員クエリを学習するための新しいアルゴリズムを提案する。 本稿では,時間的・空間的エンティティのペア間の時間的・空間的関係を明らかにするために,メンバシップクエリを問う。 現実の学習アルゴリズムの時間的性能を改善するため,過渡的クロージャによる制約伝搬とヒューリスティックスの順序付けが実施される。 ここでの目標は、ターゲットのQCNに到達するのに必要なメンバシップクエリの数を減らすことだ。 制約伝搬と順序ヒューリスティックスの実践的効果を評価するために,ランダムに生成された時間的および空間的制約ネットワークインスタンスについていくつかの実験を行った。 実験の結果はとてもエキサイティングで有望です。

A Qualitative Constraint Network (QCN) is a constraint graph for representing problems under qualitative temporal and spatial relations, among others. More formally, a QCN includes a set of entities, and a list of qualitative constraints defining the possible scenarios between these entities. These latter constraints are expressed as disjunctions of binary relations capturing the (incomplete) knowledge between the involved entities. QCNs are very effective in representing a wide variety of real-world applications, including scheduling and planning, configuration and Geographic Information Systems (GIS). It is however challenging to elicit, from the user, the QCN representing a given problem. To overcome this difficulty in practice, we propose a new algorithm for learning, through membership queries, a QCN from a non expert. In this paper, membership queries are asked in order to elicit temporal or spatial relationships between pairs of temporal or spatial entities. In order to improve the time performance of our learning algorithm in practice, constraint propagation, through transitive closure, as well as ordering heuristics, are enforced. The goal here is to reduce the number of membership queries needed to reach the target QCN. In order to assess the practical effect of constraint propagation and ordering heuristics, we conducted several experiments on randomly generated temporal and spatial constraint network instances. The results of the experiments are very encouraging and promising.
翻訳日:2021-09-27 14:14:17 公開日:2021-09-23
# 分解能ミスマッチデータを用いた弱教師付き単眼深度推定

Weakly-Supervised Monocular Depth Estimationwith Resolution-Mismatche d Data ( http://arxiv.org/abs/2109.11573v1 )

ライセンス: Link先を確認
Jialei Xu, Yuanchao Bai, Xianming Liu, Junjun Jiang and Xiangyang Ji(参考訳) 単一画像からの深さ推定はコンピュータビジョンにおける活発な研究課題である。 最も正確なアプローチは、大量の高密度高分解能(hr)地中深度マップに依存する、完全に教師ありの学習モデルに基づいている。 しかし、実際には、カラー画像は通常、深度マップよりもはるかに高解像度で撮影され、解像度ミスマッチ効果をもたらす。 本稿では,モノクラー深度推定ネットワークをトレーニングして,低解像度(LR)深度マップ(HR色画像)と低解像度(LR)深度マップ(HR色画像)を用いてHR深度マップを生成する手法を提案する。 提案する弱教師付きフレームワークは, 共有重み単眼深度推定ネットワークと蒸留用深さ再構成ネットワークから構成される。 具体的には、単眼深度推定ネットワークにおいて、入力色画像をまずダウンサンプリングし、地上深度と同じ解像度のLRバージョンを得る。 そして、提案した単眼深度推定ネットワークにHR画像とLR画像の両方を入力し、対応する推定深度マップを得る。 ネットワークを訓練するために3つの損失を導入します 1) 推定LR深さと地上構造LR深さとの再構成損失 2) ダウンサンプリングされたhr深さと地下lr深さとの再構成損失 3) 推定LR深度と推定HR深度との整合性損失について検討した。 さらに,深度から深度までの深度復元ネットワークを設計する。 蒸留損失により、2つのネットワーク間の特徴は親和性空間における構造的整合性を維持し、最終的に推定ネットワーク性能を向上する。 実験結果から,本手法は教師なしおよび半教師付き学習ベース方式よりも優れた性能を示し,教師付き手法よりも競争力や性能が優れていることが示された。

Depth estimation from a single image is an active research topic in computer vision. The most accurate approaches are based on fully supervised learning models, which rely on a large amount of dense and high-resolution (HR) ground-truth depth maps. However, in practice, color images are usually captured with much higher resolution than depth maps, leading to the resolution-mismatche d effect. In this paper, we propose a novel weakly-supervised framework to train a monocular depth estimation network to generate HR depth maps with resolution-mismatche d supervision, i.e., the inputs are HR color images and the ground-truth are low-resolution (LR) depth maps. The proposed weakly supervised framework is composed of a sharing weight monocular depth estimation network and a depth reconstruction network for distillation. Specifically, for the monocular depth estimation network the input color image is first downsampled to obtain its LR version with the same resolution as the ground-truth depth. Then, both HR and LR color images are fed into the proposed monocular depth estimation network to obtain the corresponding estimated depth maps. We introduce three losses to train the network: 1) reconstruction loss between the estimated LR depth and the ground-truth LR depth; 2) reconstruction loss between the downsampled estimated HR depth and the ground-truth LR depth; 3) consistency loss between the estimated LR depth and the downsampled estimated HR depth. In addition, we design a depth reconstruction network from depth to depth. Through distillation loss, features between two networks maintain the structural consistency in affinity space, and finally improving the estimation network performance. Experimental results demonstrate that our method achieves superior performance than unsupervised and semi-supervised learning based schemes, and is competitive or even better compared to supervised ones.
翻訳日:2021-09-27 14:13:54 公開日:2021-09-23
# コントラスト映像表現学習による長視野特徴の分解

Long Short View Feature Decomposition via Contrastive Video Representation Learning ( http://arxiv.org/abs/2109.11593v1 )

ライセンス: Link先を確認
Nadine Behrmann and Mohsen Fayyaz and Juergen Gall and Mehdi Noroozi(参考訳) 自己監督型ビデオ表現法は通常、ビデオにおける時間属性の表現に焦点を当てる。 しかし、静止特性と非静止特性の役割は明らかにされていない: 静止特性はビデオ全体を通して類似しており、ビデオレベルのアクションクラスの予測を可能にする。 時間的に異なる属性を表す非定常特徴は、アクションセグメンテーションのようなよりきめ細かい時間的理解を伴う下流タスクにとってより有益である。 両特徴を捕捉する単一の表現は準最適であり,長大・短大からのコントラスト学習,すなわち長大の映像シーケンスと短短のサブシーケンスから,静止的・非定常的特徴へと表現空間を分解することを提案する。 静止機能はショートビューとロングビューの間で共有され、非静止ビューは、対応するロングビューにマッチするショートビューを集約する。 提案手法を実証的に検証するため,動作認識下流タスクでは静止機能が特にうまく動作し,非定常機能は動作セグメンテーションにおいてよりよく機能することを示す。 さらに、学習した表現を分析し、定常的特徴が時間的に安定な静的属性を捕えるのに対し、静止的でない特徴は時間的に変化する特徴を捕える。

Self-supervised video representation methods typically focus on the representation of temporal attributes in videos. However, the role of stationary versus non-stationary attributes is less explored: Stationary features, which remain similar throughout the video, enable the prediction of video-level action classes. Non-stationary features, which represent temporally varying attributes, are more beneficial for downstream tasks involving more fine-grained temporal understanding, such as action segmentation. We argue that a single representation to capture both types of features is sub-optimal, and propose to decompose the representation space into stationary and non-stationary features via contrastive learning from long and short views, i.e. long video sequences and their shorter sub-sequences. Stationary features are shared between the short and long views, while non-stationary features aggregate the short views to match the corresponding long view. To empirically verify our approach, we demonstrate that our stationary features work particularly well on an action recognition downstream task, while our non-stationary features perform better on action segmentation. Furthermore, we analyse the learned representations and find that stationary features capture more temporally stable, static attributes, while non-stationary features encompass more temporally varying ones.
翻訳日:2021-09-27 14:13:26 公開日:2021-09-23
# キーポイントを用いた自動運転の協調車両検出のための深部特徴融合

Keypoints-Based Deep Feature Fusion for Cooperative Vehicle Detection of Autonomous Driving ( http://arxiv.org/abs/2109.11615v1 )

ライセンス: Link先を確認
Yunshuang Yuan, Hao Cheng, Monika Sester(参考訳) 車両間での集団認識メッセージ(CPM)の共有は、自動運転の認識精度と安全性を向上させるために、閉塞を減少させる。 しかし、特にコネクテッドおよび自動車両間のリアルタイム通信が必要な場合、高精度なデータ共有と低通信オーバーヘッドは集団認識の大きな課題である。 本稿では, 3次元物体検出器PV-RCNN上に構築した, FPV-RCNNと呼ばれる, 効率的なキーポイントに基づく深部特徴融合フレームワークを提案する。 我々は,cpmサイズを圧縮するバウンディングボックス提案マッチングモジュールとキーポイント選択戦略を導入し,多車種データ融合問題を解く。 鳥眼視(BEV)キーポイントの特徴融合と比較して、FPV-RCNNは、集合認識専用の合成データセットCOMAP上で、高い評価基準(IoU 0.7)において、検出精度を約14%向上させる。 また、そのパフォーマンスは、データ損失のない2つの生データ融合ベースラインに匹敵する。 さらに,本手法ではCPMのサイズを0.3KB以下に削減し,従来のBEV機能マップの約50倍の小型化を実現した。 さらにcpm機能チャネル数が128から32に減少しても、検出性能は1%程度しか低下しない。 このメソッドのコードはhttps://github.com/y uanyunshuang/fpv_rcn nで入手できる。

Sharing collective perception messages (CPM) between vehicles is investigated to decrease occlusions, so as to improve perception accuracy and safety of autonomous driving. However, highly accurate data sharing and low communication overhead is a big challenge for collective perception, especially when real-time communication is required among connected and automated vehicles. In this paper, we propose an efficient and effective keypoints-based deep feature fusion framework, called FPV-RCNN, for collective perception, which is built on top of the 3D object detector PV-RCNN. We introduce a bounding box proposal matching module and a keypoints selection strategy to compress the CPM size and solve the multi-vehicle data fusion problem. Compared to a bird's-eye view (BEV) keypoints feature fusion, FPV-RCNN achieves improved detection accuracy by about 14% at a high evaluation criterion (IoU 0.7) on a synthetic dataset COMAP dedicated to collective perception. Also, its performance is comparable to two raw data fusion baselines that have no data loss in sharing. Moreover, our method also significantly decreases the CPM size to less than 0.3KB, which is about 50 times smaller than the BEV feature map sharing used in previous works. Even with a further decreased number of CPM feature channels, i.e., from 128 to 32, the detection performance only drops about 1%. The code of our method is available at https://github.com/Y uanYunshuang/FPV_RCN N.
翻訳日:2021-09-27 14:13:03 公開日:2021-09-23
# ドメイン特化を考慮したPMDPを用いた適応サンプリング

Adaptive Sampling using POMDPs with Domain-Specific Considerations ( http://arxiv.org/abs/2109.11595v1 )

ライセンス: Link先を確認
Gautam Salhotra, Christopher E. Denniston, David A. Caron, Gaurav S. Sukhatme(参考訳) 適応サンプリング問題に適用した場合に,モンテカルロ木探索に基づく部分観測可能なマルコフ決定プロセス(POMDPs)の改善について検討する。 我々は,ロールアウト割り当て,行動探索アルゴリズム,計画コミットメントの改善を提案する。 1回目は、エージェントがエピソードで取ってきたアクションの数に応じて、異なる数のロールアウトを割り当てる。 環境に関する最初の情報が得られた後、ロールアウトがより価値があることが分かりました。 したがって、各ステップで固定数を割り当てるロールアウト数の線形増加は、適応的なサンプリングタスクには適さない。 2つ目は、プランニングツリーを構築する際にエージェントが探索するアクションを変更する。 割り当てられたロールアウト数の知識を利用することで、エージェントはより効果的に探索するアクションを選択することができる。 3つ目の改善は、エージェントが1つの計画から取るべきアクションの数を決定することである。 通常、エージェントは計画ツリーから最初のアクションを取り、それから新しい状態から再びプランナーを呼び出す計画です。 統計的手法を用いて,エージェントの最終報酬に影響を与えることなく,単一のプランニングツリーからのアクション数を増加させることで,ロールアウト数を大幅に削減できることを示す。 最後に,水中ロボットのシミュレーションおよび実水中データを用いて,これらの改良が組み合わされ,適応サンプリングの精度が向上することを示した。 この作業のコードはhttps://github.com/u scresl/adaptivesampl ingpomcpで入手できる。

We investigate improving Monte Carlo Tree Search based solvers for Partially Observable Markov Decision Processes (POMDPs), when applied to adaptive sampling problems. We propose improvements in rollout allocation, the action exploration algorithm, and plan commitment. The first allocates a different number of rollouts depending on how many actions the agent has taken in an episode. We find that rollouts are more valuable after some initial information is gained about the environment. Thus, a linear increase in the number of rollouts, i.e. allocating a fixed number at each step, is not appropriate for adaptive sampling tasks. The second alters which actions the agent chooses to explore when building the planning tree. We find that by using knowledge of the number of rollouts allocated, the agent can more effectively choose actions to explore. The third improvement is in determining how many actions the agent should take from one plan. Typically, an agent will plan to take the first action from the planning tree and then call the planner again from the new state. Using statistical techniques, we show that it is possible to greatly reduce the number of rollouts by increasing the number of actions taken from a single planning tree without affecting the agent's final reward. Finally, we demonstrate experimentally, on simulated and real aquatic data from an underwater robot, that these improvements can be combined, leading to better adaptive sampling. The code for this work is available at https://github.com/u scresl/AdaptiveSampl ingPOMCP
翻訳日:2021-09-27 14:07:53 公開日:2021-09-23
# 次世代バスケットレコメンデーションのための動的属性のモデリング

Modeling Dynamic Attributes for Next Basket Recommendation ( http://arxiv.org/abs/2109.11654v1 )

ライセンス: Link先を確認
Yongjun Chen, Jia Li, Chenghao Liu, Chenxi Li, Markus Anderle, Julian McAuley, Caiming Xiong(参考訳) 次のアイテムや次のバスケットの推奨に対する従来のアプローチは、通常、過去のインタラクションと関連する静的なコンテキスト情報(例えば、ユーザIDやアイテムカテゴリ)に基づいて、ユーザの興味を抽出する。 しかし、抽出された利益は不正確であり、時代遅れになる。 ユーザの収入の変化、アイテムの価格の変化(例)、時間とともに変化する動的属性。 このようなダイナミクスは、ユーザーの興味の進化を本質的に反映することができる。 このような動的属性のモデリングはレコメンデーション性能を高めることができる。 しかし、属性のダイナミクスは時間内認識や周期パターン(例)など多種多様であり、異なる視点からユーザの振る舞いを表現し、インタラクションと非同期に発生するため、ユーザ関心モデルに適切に統合することは困難である。 動的属性の他に、各バスケット内のアイテムには複雑な相互依存性が含まれており、効果的にキャプチャするには有益だが非自明である。 これらの課題に対処するために、動的属性(AnDa)をモデル化する新しい注意ネットワークを提案する。 AnDaは動的属性とバスケットアイテムシーケンスを別々にエンコードする。 モデルが動的属性から様々な時間パターンをキャプチャできるように周期的に認識するエンコーダを設計した。 有用なアイテム関係を効果的に学習するために,バスケット内注目モジュールを提案する。 3つの実世界のデータセットにおける実験結果は、この手法が最先端の手法を一貫して上回っていることを示している。

Traditional approaches to next item and next basket recommendation typically extract users' interests based on their past interactions and associated static contextual information (e.g. a user id or item category). However, extracted interests can be inaccurate and become obsolete. Dynamic attributes, such as user income changes, item price changes (etc.), change over time. Such dynamics can intrinsically reflect the evolution of users' interests. We argue that modeling such dynamic attributes can boost recommendation performance. However, properly integrating them into user interest models is challenging since attribute dynamics can be diverse such as time-interval aware, periodic patterns (etc.), and they represent users' behaviors from different perspectives, which can happen asynchronously with interactions. Besides dynamic attributes, items in each basket contain complex interdependencies which might be beneficial but nontrivial to effectively capture. To address these challenges, we propose a novel Attentive network to model Dynamic attributes (named AnDa). AnDa separately encodes dynamic attributes and basket item sequences. We design a periodic aware encoder to allow the model to capture various temporal patterns from dynamic attributes. To effectively learn useful item relationships, intra-basket attention module is proposed. Experimental results on three real-world datasets demonstrate that our method consistently outperforms the state-of-the-art.
翻訳日:2021-09-27 14:07:30 公開日:2021-09-23
# 高次元点過程の複数実験ネットワークの合同推定と推定

Joint Estimation and Inference for Multi-Experiment Networks of High-Dimensional Point Processes ( http://arxiv.org/abs/2109.11634v1 )

ライセンス: Link先を確認
Xu Wang and Ali Shojaie(参考訳) 現代の高次元の点過程データ、特に神経科学の実験では、しばしば複数の条件や実験から観測される。 これらの条件に対応する相互作用のネットワークは多くのエッジを共有することが期待されている。 しかし、異なる条件下でのネットワーク間の類似度は一般に不明である。 既存の多変量点過程のアプローチはこれらの構造を考慮に入れず、共同推定ネットワークの推論を提供しない。 これらのニーズに対処するために、推定されたネットワーク間の類似性をデータ適応的に促進するために、計算が容易な重みを組み込んだ高次元点過程のネットワークに対する共同推定手法を提案する。 また,マルチ実験ネットワークのデータ駆動類似性構造を考慮した,すべての推定ネットワークのエッジに対する強力な階層的多重テスト手法を提案する。 従来の多重検査法と比較して,提案手法はテスト数を大幅に削減し,出力向上を図り,家族毎の誤差率を厳しく制御した。 既存の手順とは異なり,本手法ではテスト間の依存関係の仮定が不要であり,階層構造に沿って計算されたp値の柔軟性を提供し,階層構造の不特定に頑健である。 シミュレーション研究により理論的結果を検証し,神経スパイクトレインデータを用いた提案手法の適用性を示す。

Modern high-dimensional point process data, especially those from neuroscience experiments, often involve observations from multiple conditions and/or experiments. Networks of interactions corresponding to these conditions are expected to share many edges, but also exhibit unique, condition-specific ones. However, the degree of similarity among the networks from different conditions is generally unknown. Existing approaches for multivariate point processes do not take these structures into account and do not provide inference for jointly estimated networks. To address these needs, we propose a joint estimation procedure for networks of high-dimensional point processes that incorporates easy-to-compute weights in order to data-adaptively encourage similarity between the estimated networks. We also propose a powerful hierarchical multiple testing procedure for edges of all estimated networks, which takes into account the data-driven similarity structure of the multi-experiment networks. Compared to conventional multiple testing procedures, our proposed procedure greatly reduces the number of tests and results in improved power, while tightly controlling the family-wise error rate. Unlike existing procedures, our method is also free of assumptions on dependency between tests, offers flexibility on p-values calculated along the hierarchy, and is robust to misspecification of the hierarchical structure. We verify our theoretical results via simulation studies and demonstrate the application of the proposed procedure using neuronal spike train data.
翻訳日:2021-09-27 14:06:44 公開日:2021-09-23
# 自己監督型解剖学的埋め込みに基づく変形可能な画像登録

SAME: Deformable Image Registration based on Self-supervised Anatomical Embeddings ( http://arxiv.org/abs/2109.11572v1 )

ライセンス: Link先を確認
Fengze Liu, Ke Yan, Adam Harrison, Dazhou Guo, Le Lu, Alan Yuille, Lingyun Huang, Guotong Xie, Jing Xiao, Xianghua Ye, Dakai Jin(参考訳) 本研究では,教師なし3次元医用画像の高速かつ正確な登録方法を提案する。 この研究は、ピクセルレベルで2つの画像間の密集した解剖学的/意味的対応を計算できる最近のアルゴリズムsam上に構築されている。 本手法は, 画像登録をアフィン変換, 粗変形, 深部変形可能な3段階に分割する。 SAM埋め込みを用いて、よりコヒーレントな対応を見つけ、セマンティックガイダンスを改良した特徴と損失関数を提供することにより、これらのステップを強化する。 各患者に35個のアノテート臓器を有する多相胸部ctデータセットを収集し,定量評価のためにサブジェクト間登録を行う。 その結果, 従来の登録手法(Elastix FFD, ANTs SyN)と学習に基づくVoxelMorph法(VoxelMorph法)は, それぞれ, コントラスト内相およびコントラスト間相の2つの異なるタスクに対するDiceスコアの少なくとも4.7%, 2.7%に優れていた。 従来の登録手法であるDEEDSと同等の性能を達成し(我々の評価から)、桁違いに高速な(45秒から1.2秒)。

In this work, we introduce a fast and accurate method for unsupervised 3D medical image registration. This work is built on top of a recent algorithm SAM, which is capable of computing dense anatomical/semantic correspondences between two images at the pixel level. Our method is named SAME, which breaks down image registration into three steps: affine transformation, coarse deformation, and deep deformable registration. Using SAM embeddings, we enhance these steps by finding more coherent correspondences, and providing features and a loss function with better semantic guidance. We collect a multi-phase chest computed tomography dataset with 35 annotated organs for each patient and conduct inter-subject registration for quantitative evaluation. Results show that SAME outperforms widely-used traditional registration techniques (Elastix FFD, ANTs SyN) and learning based VoxelMorph method by at least 4.7% and 2.7% in Dice scores for two separate tasks of within-contrast-phas e and across-contrast-phas e registration, respectively. SAME achieves the comparable performance to the best traditional registration method, DEEDS (from our evaluation), while being orders of magnitude faster (from 45 seconds to 1.2 seconds).
翻訳日:2021-09-27 14:06:00 公開日:2021-09-23
# 高出力仮想スクリーニングパイプラインにおける最適決定法

Optimal Decision Making in High-Throughput Virtual Screening Pipelines ( http://arxiv.org/abs/2109.11683v1 )

ライセンス: Link先を確認
Hyun-Myung Woo, Xiaoning Qian, Li Tan, Shantenu Jha, Francis J. Alexander, Edward R. Dougherty, Byung-Jun Yoon(参考訳) 巨大な検索空間で特定の条件を満たす可能性のある候補の効果的な選択は、多くの現実世界アプリケーションにおいて主要な関心事の1つである。 ほぼ無限大の探索空間に加えて、信頼性のある実験や計算プラットフォームに基づくサンプルの厳密な評価は、しばしば高額であり、スクリーニング問題をより困難にしている。 このような場合、効率的な早期段階を通じて潜在的候補となる可能性のあるサンプルをプレシフティングする高スループットスクリーニング(HTS)パイプラインを構築し、リソースの大幅な節約につながる。 しかしながら、私たちの知る限りでは、多くの成功したアプリケーションにもかかわらず、最適なパイプライン設計や最適なパイプライン操作を研究している人はいません。 本研究では,HTSパイプラインのスクリーニング閾値を最適に決定するために,実験および/および計算評価を含むほとんどのスクリーニングキャンペーンに適用する2つの最適化フレームワークを提案する。 分析シナリオと実用シナリオの両方で提案したフレームワークを検証する。 特に、長い非コーディングRNA(lncRNA)分類のための最適な計算キャンペーンを実例として考察する。 そこで我々は,lncRNAを分類するための高スループット仮想スクリーニング(HTVS)パイプラインを構築した。 シミュレーションの結果,提案フレームワークは潜在的な候補に対する有効選択コストを大幅に低減し,HTSパイプラインの構造変化に対する感度を低下させることを示した。 検証に加えて,シミュレーション結果に基づいて,より優れたHTSパイプラインの構築に関する洞察を提供する。

Effective selection of the potential candidates that meet certain conditions in a tremendously large search space has been one of the major concerns in many real-world applications. In addition to the nearly infinitely large search space, rigorous evaluation of a sample based on the reliable experimental or computational platform is often prohibitively expensive, making the screening problem more challenging. In such a case, constructing a high-throughput screening (HTS) pipeline that pre-sifts the samples expected to be potential candidates through the efficient earlier stages, results in a significant amount of savings in resources. However, to the best of our knowledge, despite many successful applications, no one has studied optimal pipeline design or optimal pipeline operations. In this study, we propose two optimization frameworks, applying to most (if not all) screening campaigns involving experimental or/and computational evaluations, for optimally determining the screening thresholds of an HTS pipeline. We validate the proposed frameworks on both analytic and practical scenarios. In particular, we consider the optimal computational campaign for the long non-coding RNA (lncRNA) classification as a practical example. To accomplish this, we built the high-throughput virtual screening (HTVS) pipeline for classifying the lncRNA. The simulation results demonstrate that the proposed frameworks significantly reduce the effective selection cost per potential candidate and make the HTS pipelines less sensitive to their structural variations. In addition to the validation, we provide insights on constructing a better HTS pipeline based on the simulation results.
翻訳日:2021-09-27 14:03:45 公開日:2021-09-23
# Turn-to-Diarize: Transformer Transducer Speaker Turn Detection によるオンライン話者ダイアリゼーション

Turn-to-Diarize: Online Speaker Diarization Constrained by Transformer Transducer Speaker Turn Detection ( http://arxiv.org/abs/2109.11641v1 )

ライセンス: Link先を確認
Wei Xia, Han Lu, Quan Wang, Anshuman Tripathi, Ignacio Lopez Moreno, Hasim Sak(参考訳) 本稿では,デバイス上でストリーミングを行うための新しい話者ダイアリゼーションシステムを提案する。 本システムでは、トランスデューサを用いて話者回転を検出し、各話者回転を話者埋め込みにより表現し、検出された話者回転からの制約でこれらの埋め込みをクラスタ化する。 従来のクラスタリングに基づくダイアリゼーションシステムと比較して,本システムは話者交代のスパース性によりクラスタリングの計算コストを大幅に削減する。 学習にタイムスタンプ付き話者ラベルのアノテーションを必要とする他の教師付き話者ダイアリゼーションシステムとは異なり、我々のシステムは、データ収集に関わる人的労力を大幅に削減するために、翻訳プロセス中に話者のターントークンを含めることしか必要としない。

In this paper, we present a novel speaker diarization system for streaming on-device applications. In this system, we use a transformer transducer to detect the speaker turns, represent each speaker turn by a speaker embedding, then cluster these embeddings with constraints from the detected speaker turns. Compared with conventional clustering-based diarization systems, our system largely reduces the computational cost of clustering due to the sparsity of speaker turns. Unlike other supervised speaker diarization systems which require annotations of time-stamped speaker labels for training, our system only requires including speaker turn tokens during the transcribing process, which largely reduces the human efforts involved in data collection.
翻訳日:2021-09-27 14:01:09 公開日:2021-09-23
# STITとポアソン超平面ランダム林のミニマックス速度

Minimax Rates for STIT and Poisson Hyperplane Random Forests ( http://arxiv.org/abs/2109.10541v2 )

ライセンス: Link先を確認
Eliza O'Reilly and Ngoc Mai Tran(参考訳) 12] において、mourtada, ga\"{i}ffas and scornet は、複雑性パラメータの適切なチューニングの下で、$\mathbb{r}^d$ でモンドリアン過程から構築されたランダムな木と森は、$\beta$-h\"{o}lder連続関数のミニマックスレートを達成し、ランダムな森は任意の次元で $(1+\beta)$-h\"{o}lder 関数の最小化率を達成し、$\beta \in (0,1]$ であることを示した。 本研究では,ランダムな分割である$\mathbb{r}^d$ から構築したランダムな森林群が,これらの極小化率を達成することを実証する。 このクラスにはSTITランダム・フォレスト(英語版)が含まれ、これは超平面切断により$\mathbb{R}^d$の自己相似かつ定常な分割から構築される最も一般的なランダム・フォレストと、ポアソン・ハイパープレーン・テッセルレーションに由来する森林を含んでいる。 我々の証明手法は古典的結果と、確率幾何学における定常ランダムテッセレーションの最近の進歩に依拠している。

In [12], Mourtada, Ga\"{i}ffas and Scornet showed that, under proper tuning of the complexity parameters, random trees and forests built from the Mondrian process in $\mathbb{R}^d$ achieve the minimax rate for $\beta$-H\"{o}lder continuous functions, and random forests achieve the minimax rate for $(1+\beta)$-H\"{o}lder functions in arbitrary dimension, where $\beta \in (0,1]$. In this work, we show that a much larger class of random forests built from random partitions of $\mathbb{R}^d$ also achieve these minimax rates. This class includes STIT random forests, the most general class of random forests built from a self-similar and stationary partition of $\mathbb{R}^d$ by hyperplane cuts possible, as well as forests derived from Poisson hyperplane tessellations. Our proof technique relies on classical results as well as recent advances on stationary random tessellations in stochastic geometry.
翻訳日:2021-09-27 11:02:16 公開日:2021-09-23
# 生命、宇宙、そしてあらゆるものの隠れた意味

Life, the universe and the hidden meaning of everything ( http://arxiv.org/abs/2109.10241v2 )

ライセンス: Link先を確認
Zhi-Wei Wang and Samuel L. Braunstein(参考訳) 宇宙を見るのは困難で、その意味、つまり、すべてについて不思議に思ってはいない。 自然な疑問は、私たちが見ているものがインテリジェントデザインの兆候であるかどうかである。 設計のアンチテーゼは、ランダムな宇宙か、物理の法則を仮定して、基本的な物理パラメータがランダムに選択されたが、ここでは生命(地球)が観察される。 英国の物理学者デニス・シャマ(英語版)は未発表の論文の中で、そのようなランダムに選択された宇宙は統計的な兆候を示すだろうと主張した。 彼は、無作為宇宙は、生命の可能性のみを許容するパラメータを持つと結論づけた。 ここでは、この署名が確定するかどうかを検討する。 我々の宇宙がランダムであれば、知的に設計されているという誤った印象を与えることができ、基本的な定数は生命が出現し維持される強い確率に微調整されているように見える。

It is hard to look at the universe and not wonder about the meaning, of, well, everything. A natural question is whether what we see is a sign of intelligent design. The antithesis of design would be a random universe or, assuming laws of physics, one whose fundamental physical parameters were randomly selected, but conditioned on life (ourselves) being here to observe it. In unpublished work, the British physicist Dennis Sciama argued that such a randomly selected universe would display a statistical signature. He concluded that a random universe would almost certainly have parameters only just allowing for the possibility of life. Here we consider whether this signature is definitive. We find that with plausible additional assumptions Sciama's signature would appear to reverse: Were our universe random, it could give the false impression of being intelligently designed, with the fundamental constants appearing to be fine-tuned to a strong probability for life to emerge and be maintained.
翻訳日:2021-09-26 22:31:25 公開日:2021-09-23
# (参考訳) オープンドメイン質問応答のためのユニバーサルデンス検索に向けて

Towards Universal Dense Retrieval for Open-domain Question Answering ( http://arxiv.org/abs/2109.11085v1 )

ライセンス: CC BY 4.0
Christopher Sciavolino(参考訳) オープンドメイン質問応答において、モデルはテキスト質問を入力として受信し、大きな証拠コーパスを用いて正しい回答を検索する。 検索ステップは、コーパスが文書の<textit{million}を持っているという典型的な証拠から、特に難しい。 近ごろ、密度密モデルがデファクト検索法としてスパース法を置き換えている。 類似性を決定するために語彙重なりに焦点をあてるのではなく、密集したメソッドは、質問応答や質問コンテキストのペアの小さな集合から学習することで意味的類似性をキャプチャする符号化関数を構築する。 本稿では,異なる入力分布にまたがるオープンドメイン質問応答の文脈における高密度検索モデルについて検討する。 まず、Wikidataの事実から構築されたエンティティに富んだ質問応答データセットを導入し、密集モデルが未知の質問分布に一般化できないことを示す。 第2に,問題の原因の理解を深める分析を行い,多種多様なデータセットにおけるドメイン外性能を改善するための新しいトレーニング手法を提案する。 我々は,すべての入力分布にまたがってよく一般化した,単一の普遍的な検索モデルの作成をさらに検討することを推奨する。

In open-domain question answering, a model receives a text question as input and searches for the correct answer using a large evidence corpus. The retrieval step is especially difficult as typical evidence corpora have \textit{millions} of documents, each of which may or may not have the correct answer to the question. Very recently, dense models have replaced sparse methods as the de facto retrieval method. Rather than focusing on lexical overlap to determine similarity, dense methods build an encoding function that captures semantic similarity by learning from a small collection of question-answer or question-context pairs. In this paper, we investigate dense retrieval models in the context of open-domain question answering across different input distributions. To do this, first we introduce an entity-rich question answering dataset constructed from Wikidata facts and demonstrate dense models are unable to generalize to unseen input question distributions. Second, we perform analyses aimed at better understanding the source of the problem and propose new training techniques to improve out-of-domain performance on a wide variety of datasets. We encourage the field to further investigate the creation of a single, universal dense retrieval model that generalizes well across all input distributions.
翻訳日:2021-09-25 00:49:47 公開日:2021-09-23
# (参考訳) 階層的オクルージョンモデルによるオブジェクト・アモーダル・インスタンスのセグメンテーション [全文訳有]

Unseen Object Amodal Instance Segmentation via Hierarchical Occlusion Modeling ( http://arxiv.org/abs/2109.11103v1 )

ライセンス: CC BY 4.0
Seunghyeok Back, Joosoon Lee, Taewon Kim, Sangjun Noh, Raeyoung Kang, Seongho Bak, Kyoobin Lee(参考訳) 非構造環境におけるロボットシステムには,非構造オブジェクトのインスタンス対応セグメンテーションが不可欠である。 以前の作品は奨励的な結果を得たが、それらは見えない物体の可視領域のみを分割することに限定された。 散らかったシーンでロボット操作を行うには、周囲の物体を扱うためにアモーダル認識が必要である。 本稿では,unseen object amodal instance segmentation (uoais) について述べる。 1)目に見えるマスク、 2)アモーダルマスク、及び 3)未確認のオブジェクトインスタンスへのオクルージョン。 そこで本稿では,階層構造を特徴融合と予測順序に割り当てることで,隠蔽を推論する階層オクルージョンモデリング(HOM)手法を提案する。 提案手法を3つのベンチマーク(テーブルトップ,屋内,ビン環境)で評価し,SOTA(State-of-the-a rt)性能を得た。 occluded objects、codes、datasetsを拾うロボットデモは、https://sites.google .com/view/uoaisで入手できる。

Instance-aware segmentation of unseen objects is essential for a robotic system in an unstructured environment. Although previous works achieved encouraging results, they were limited to segmenting the only visible regions of unseen objects. For robotic manipulation in a cluttered scene, amodal perception is required to handle the occluded objects behind others. This paper addresses Unseen Object Amodal Instance Segmentation (UOAIS) to detect 1) visible masks, 2) amodal masks, and 3) occlusions on unseen object instances. For this, we propose a Hierarchical Occlusion Modeling (HOM) scheme designed to reason about the occlusion by assigning a hierarchy to a feature fusion and prediction order. We evaluated our method on three benchmarks (tabletop, indoors, and bin environments) and achieved state-of-the-art (SOTA) performance. Robot demos for picking up occluded objects, codes, and datasets are available at https://sites.google .com/view/uoais
翻訳日:2021-09-25 00:48:47 公開日:2021-09-23
# (参考訳) Distiller:自然言語処理におけるモデル蒸留法の体系的研究 [全文訳有]

Distiller: A Systematic Study of Model Distillation Methods in Natural Language Processing ( http://arxiv.org/abs/2109.11105v1 )

ライセンス: CC BY 4.0
Haoyu He, Xingjian Shi, Jonas Mueller, Zha Sheng, Mu Li, George Karypis(参考訳) 我々は,KDパイプラインの異なるコンポーネントが結果のパフォーマンスに与える影響と,データ拡張ポリシや損失関数,教師と学生間の知識伝達の中間表現など,データセット/タスク間で最適なKDパイプラインがどの程度変化するかを明らかにすることを目的とする。 これらの効果を区別するために,我々は,KDパイプラインのさまざまな段階にわたる幅広いテクニックを体系的に組み合わせたメタKDフレームワークであるDistillerを提案し,各コンポーネントの貢献度を定量化する。 Distiller内では、共通相互情報(MI)目的下で中間表現を蒸留する目的を統一し、教師と学生のMIを推定するためのバイアス/分散トレードオフがより優れたMI-$alpha$目的関数のクラスを提案する。 NLPデータセットの多種多様なセットでは、Distiller設定が大規模ハイパーパラメータ最適化によって識別される。 実験の結果,以下のことが判明した。 1) 中間表現を蒸留する手法はKD性能において最も重要な要素である。 2)中間蒸留の異なる目的のうち、MI-$\alpha$が最善を尽くし、 3)データ拡張により、小さなトレーニングデータセットや小さな学生ネットワークが大幅に向上する。 さらに、異なるデータセット/タスクは異なるKDアルゴリズムを好んでおり、新しいデータセットに対して優れたKDパイプラインを推奨できる単純なAutoDistillerアルゴリズムを提案する。

We aim to identify how different components in the KD pipeline affect the resulting performance and how much the optimal KD pipeline varies across different datasets/tasks, such as the data augmentation policy, the loss function, and the intermediate representation for transferring the knowledge between teacher and student. To tease apart their effects, we propose Distiller, a meta KD framework that systematically combines a broad range of techniques across different stages of the KD pipeline, which enables us to quantify each component's contribution. Within Distiller, we unify commonly used objectives for distillation of intermediate representations under a universal mutual information (MI) objective and propose a class of MI-$\alpha$ objective functions with better bias/variance trade-off for estimating the MI between the teacher and the student. On a diverse set of NLP datasets, the best Distiller configurations are identified via large-scale hyperparameter optimization. Our experiments reveal the following: 1) the approach used to distill the intermediate representations is the most important factor in KD performance, 2) among different objectives for intermediate distillation, MI-$\alpha$ performs the best, and 3) data augmentation provides a large boost for small training datasets or small student networks. Moreover, we find that different datasets/tasks prefer different KD algorithms, and thus propose a simple AutoDistiller algorithm that can recommend a good KD pipeline for a new dataset.
翻訳日:2021-09-25 00:27:44 公開日:2021-09-23
# (参考訳) 自己二項分離非負行列分解のためのメモリ効率の良い凸最適化:フランク・ウルフアプローチ [全文訳有]

Memory-Efficient Convex Optimization for Self-Dictionary Separable Nonnegative Matrix Factorization: A Frank-Wolfe Approach ( http://arxiv.org/abs/2109.11135v1 )

ライセンス: CC BY 4.0
Tri Nguyen, Xiao Fu and Ruiyuan Wu(参考訳) 非負行列分解(NMF)は、しばしばトラクタブルアルゴリズムの設計における分離性条件に依存する。 分離性に基づくNMFは主に2種類のアプローチ、すなわち欲求追従と凸プログラミングによって処理される。 注目すべき凸 NMF の定式化は、いわゆる自己二項多重測定ベクトル (SD-MMV) であり、行列のランクを事前に知らなくても機能し、強欲な追従に対する誤差の伝播に対してより弾力性が高い。 しかし、凸SD-MMVは、問題サイズと2乗スケールする大きなメモリコストを発生させる。 このメモリ課題は10年ほど前からあり、ビッグデータ分析に凸SD-MMVを適用する上で大きな障害となっている。 本研究では,convex sd-mmvのメモリ効率向上アルゴリズムを提案する。 われわれのアルゴリズムは、1950年代の古典的アルゴリズム、すなわちフランク・ウルフ(FW)アルゴリズムの特別な更新規則を生かしている。 妥当な条件下では、FWアルゴリズムは、データ量とともに線形に増大するメモリコストでノイズの多いSD-MMV問題を解決する。 noisierのシナリオに対処するために、低メモリフットプリントを保証しながらロバスト性を改善するために、平滑化群スパーシティ調整器が提案されている。 提案手法は,コンベックスSD-MMVベースのNMFのための最初の線形メモリ複雑性アルゴリズムフレームワークを提案する。 本手法は,テキストマイニングとコミュニティ検出という,教師なしの学習課題に対して,その有効性と記憶効率を示すために試験される。

Nonnegative matrix factorization (NMF) often relies on the separability condition for tractable algorithm design. Separability-based NMF is mainly handled by two types of approaches, namely, greedy pursuit and convex programming. A notable convex NMF formulation is the so-called self-dictionary multiple measurement vectors (SD-MMV), which can work without knowing the matrix rank a priori, and is arguably more resilient to error propagation relative to greedy pursuit. However, convex SD-MMV renders a large memory cost that scales quadratically with the problem size. This memory challenge has been around for a decade, and a major obstacle for applying convex SD-MMV to big data analytics. This work proposes a memory-efficient algorithm for convex SD-MMV. Our algorithm capitalizes on the special update rules of a classic algorithm from the 1950s, namely, the Frank-Wolfe (FW) algorithm. It is shown that, under reasonable conditions, the FW algorithm solves the noisy SD-MMV problem with a memory cost that grows linearly with the amount of data. To handle noisier scenarios, a smoothed group sparsity regularizer is proposed to improve robustness while maintaining the low memory footprint with guarantees. The proposed approach presents the first linear memory complexity algorithmic framework for convex SD-MMV based NMF. The method is tested over a couple of unsupervised learning tasks, i.e., text mining and community detection, to showcase its effectiveness and memory efficiency.
翻訳日:2021-09-25 00:02:38 公開日:2021-09-23
# (参考訳) 統一テキスト・トリプル翻訳としてのゼロショット情報抽出 [全文訳有]

Zero-Shot Information Extraction as a Unified Text-to-Triple Translation ( http://arxiv.org/abs/2109.11171v1 )

ライセンス: CC BY 4.0
Chenguang Wang, Xiao Liu, Zui Chen, Haoyun Hong, Jie Tang, Dawn Song(参考訳) テキストから3つの翻訳フレームワークに一連の情報抽出タスクを投入した。 タスク固有のデータセットとモデルに依存する各タスクを解決する代わりに、タスクをタスク固有の入力テキストと出力トリプル間の変換として定式化する。 タスク固有の入力を取ることで、事前学習された言語モデルがそのタスクについて持つ潜在知識を活用することでタスクに依存しない翻訳を可能にする。 さらに,どの入力テキストに対応する関係情報をタスク固有の出力に効果的な方法として予測する,簡単な事前学習タスクを提示する。 これにより、下流タスクへのフレームワークのゼロショット転送が可能になります。 我々はオープン情報抽出(OIE2016, NYT, WEB, PENN)、関係分類(FewRel, TACRED)、事実探索(Google-RE, T-REx)のゼロショット性能について検討した。 モデルは非自明にほとんどのタスクに転送され、タスク固有のトレーニングを必要とせず、完全に監督されたメソッドと競合することが多い。 例えば、教師付きオープン情報抽出のF1スコアは、トレーニングセットを使わずに大幅に向上する。

We cast a suite of information extraction tasks into a text-to-triple translation framework. Instead of solving each task relying on task-specific datasets and models, we formalize the task as a translation between task-specific input text and output triples. By taking the task-specific input, we enable a task-agnostic translation by leveraging the latent knowledge that a pre-trained language model has about the task. We further demonstrate that a simple pre-training task of predicting which relational information corresponds to which input text is an effective way to produce task-specific outputs. This enables the zero-shot transfer of our framework to downstream tasks. We study the zero-shot performance of this framework on open information extraction (OIE2016, NYT, WEB, PENN), relation classification (FewRel and TACRED), and factual probe (Google-RE and T-REx). The model transfers non-trivially to most tasks and is often competitive with a fully supervised method without the need for any task-specific training. For instance, we significantly outperform the F1 score of the supervised open information extraction without needing to use its training set.
翻訳日:2021-09-24 23:05:31 公開日:2021-09-23
# (参考訳) Stiefel Manifold 上での最適化による高速かつ効率的なMDDベースFair PCA [全文訳有]

Fast and Efficient MMD-based Fair PCA via Optimization over Stiefel Manifold ( http://arxiv.org/abs/2109.11196v1 )

ライセンス: CC BY 4.0
Junghyun Lee, Gwangsu Kim, Matt Olfat, Mark Hasegawa-Johnson, Chang D. Yoo(参考訳) 本稿では,異なる保護クラスにおける最大平均偏差 (mmd) を最小化するために,fair principal component analysis (pca) を定義する。 MMD の組み入れは自然に、統計的性質のよい公正性の正確かつ引き算可能な数学的定式化につながる。 シュティーフェル多様体上の非凸最適化としてMDD制約を受ける公平PCAの問題を定式化し、Smoothing (REPMS; Liu and Boumal, 2019) を用いたリーマン排他法を用いて解決する。 重要となるのは,局所最適性保証を提供し,各ハイパーパラメータの理論的効果を実環境下で明示的に示すことである。 合成データセットとuciデータセットに基づく実験的比較により,提案手法は,分散性,公平性,実行時の説明作業よりも優れることが示された。

This paper defines fair principal component analysis (PCA) as minimizing the maximum mean discrepancy (MMD) between dimensionality-reduc ed conditional distributions of different protected classes. The incorporation of MMD naturally leads to an exact and tractable mathematical formulation of fairness with good statistical properties. We formulate the problem of fair PCA subject to MMD constraints as a non-convex optimization over the Stiefel manifold and solve it using the Riemannian Exact Penalty Method with Smoothing (REPMS; Liu and Boumal, 2019). Importantly, we provide local optimality guarantees and explicitly show the theoretical effect of each hyperparameter in practical settings, extending previous results. Experimental comparisons based on synthetic and UCI datasets show that our approach outperforms prior work in explained variance, fairness, and runtime.
翻訳日:2021-09-24 22:45:45 公開日:2021-09-23
# (参考訳) 本物のシャミール秘密共有によるpacベイズ回帰の安全性 [全文訳有]

Secure PAC Bayesian Regression via Real Shamir Secret Sharing ( http://arxiv.org/abs/2109.11200v1 )

ライセンス: CC BY 4.0
Jaron Skovsted Gundersen, Bulut Kuskonmaz, Rafael Wisniewski(参考訳) 機械学習の一般的なアプローチは、大量のトレーニングデータを使用して、テストデータインスタンスを可能な限り正確に予測することでモデルを生成することである。 それでも、データのプライバシーに関する懸念はますます高まっている。 本稿では,最近紹介した実数シークレット共有技術に基づく線形モデルを得るためのセキュアなプロトコルを提案する。 我々はPACベイズ境界を出発点として、PACベイズ境界からデータと先行に依存するモデルパラメータの閉形式を導出する。 モデルパラメータを得るためには、線形システムを解く必要がある。 しかし、複数の当事者が異なるデータインスタンスを持っていて、データのプライバシを諦めたくないという状況を考える。 したがって、データのプライバシーを侵害することなく、実数秘密共有とマルチパーティ計算を用いてデータを共有し、線形回帰を安全に解決することを提案する。 逆法とガウス除去法という2つの方法を提案し,最後にこれらの方法を比較する。

Common approach of machine learning is to generate a model by using huge amount of training data to predict the test data instances as accurate as possible. Nonetheless, concerns about data privacy are increasingly raised, but not always addressed. We present a secure protocol for obtaining a linear model relying on recently described technique called real number secret sharing. We take as our starting point the PAC Bayesian bounds and deduce a closed form for the model parameters which depends on the data and the prior from the PAC Bayesian bounds. To obtain the model parameters one need to solve a linear system. However, we consider the situation where several parties hold different data instances and they are not willing to give up the privacy of the data. Hence, we suggest to use real number secret sharing and multiparty computation to share the data and solve the linear regression in a secure way without violating the privacy of data. We suggest two methods; an inverse method and a Gaussian elimination method, and compare these methods at the end.
翻訳日:2021-09-24 22:13:30 公開日:2021-09-23
# (参考訳) すべての正当化の結合と交差 [全文訳有]

Union and Intersection of all Justifications ( http://arxiv.org/abs/2109.11216v1 )

ライセンス: CC BY 4.0
Jieying Chen, Yue Ma, Rafael Pe\~naloza, Hui Yang(参考訳) 我々は,まずすべての正当性の集合を計算せずに,与えられた存在論的結果に対するすべての正当性の結合と交差を計算するための新しいアルゴリズムを提案する。 経験的評価を通して,我々のアプローチが表現力のあるdlsではうまく機能することを示す。 特に、すべての正当化の結合は、既存の正当化列挙アプローチよりもはるかに高速に計算できる。 さらに、これらの結果をオントロジの効率よく修復する方法についても論じる。

We present new algorithm for computing the union and intersection of all justifications for a given ontological consequence without first computing the set of all justifications. Through an empirical evaluation, we show that our approach works well in practice for expressive DLs. In particular, the union of all justifications can be computed much faster than with existing justification-enumer ation approaches. We further discuss how to use these results to repair ontologies efficiently.
翻訳日:2021-09-24 22:00:10 公開日:2021-09-23
# (参考訳) 個人的・集団的自律開発 [全文訳有]

Individual and Collective Autonomous Development ( http://arxiv.org/abs/2109.11223v1 )

ライセンス: CC BY 4.0
Marco Lippi, Stefano Mariani, Matteo Martinelli and Franco Zambonelli(参考訳) 多くのICTシナリオの複雑さと予測不可能さの増大により、将来のシステムは、個々のコンポーネントのレベルと集団レベルで、ほとんどまたは全く事前知識を持って、進化する状況に直面する方法を動的に学習し、適応しなければなりません。 言い換えれば、そのようなシステムは自分自身のモデルと環境を自律的に開発できるようになります。 自律開発には、自身の能力のモデルを学ぶこと、特定の目標達成に向けて意図的に行動する方法を学ぶこと、集団で行動する方法、すなわち他者の存在を説明することが含まれる。 本稿では、ICTシステムにおける自律的開発というビジョンを紹介し、その鍵となる概念をフレーミングし、適切なアプリケーションドメインを図示する。 次に、ビジョンの実現に寄与し、潜在的に貢献できる多くの研究領域の概要と、重要な研究課題の特定を行う。

The increasing complexity and unpredictability of many ICT scenarios let us envision that future systems will have to dynamically learn how to act and adapt to face evolving situations with little or no a priori knowledge, both at the level of individual components and at the collective level. In other words, such systems should become able to autonomously develop models of themselves and of their environment. Autonomous development includes: learning models of own capabilities; learning how to act purposefully towards the achievement of specific goals; and learning how to act collectively, i.e., accounting for the presence of others. In this paper, we introduce the vision of autonomous development in ICT systems, by framing its key concepts and by illustrating suitable application domains. Then, we overview the many research areas that are contributing or can potentially contribute to the realization of the vision, and identify some key research challenges.
翻訳日:2021-09-24 21:41:11 公開日:2021-09-23
# (参考訳) カテゴリー構成分布意味論における自然言語用ファジィ一般化量子化器 [全文訳有]

Fuzzy Generalised Quantifiers for Natural Language in Categorical Compositional Distributional Semantics ( http://arxiv.org/abs/2109.11227v1 )

ライセンス: CC BY 4.0
Matej Dostal, Mehrnoosh Sadrzadeh, Gijs Wijnholds(参考訳) 構成分布モデルに関する最近の研究は、有限次元ベクトル空間上の双代数を自然言語の一般化量化器に応用できることを示している。 この手法では、パワーセット上のベクトル空間を構築する必要があり、従って計算コストがかかる。 本稿では,多くの値付き関係の圏内で,ザデフ線に沿った量化子のファジィバージョンを考えることにより,この問題を克服する。 このカテゴリは構成分布モデルの具体的なインスタンス化であることを示す。 このモデルで得られた意味論は、ザデのファジィ量化器の意味論と等価であることを示す。 その結果,電源構成を必要とせずにファジィ量子化を扱えるようになった。

Recent work on compositional distributional models shows that bialgebras over finite dimensional vector spaces can be applied to treat generalised quantifiers for natural language. That technique requires one to construct the vector space over powersets, and therefore is computationally costly. In this paper, we overcome this problem by considering fuzzy versions of quantifiers along the lines of Zadeh, within the category of many valued relations. We show that this category is a concrete instantiation of the compositional distributional model. We show that the semantics obtained in this model is equivalent to the semantics of the fuzzy quantifiers of Zadeh. As a result, we are now able to treat fuzzy quantification without requiring a powerset construction.
翻訳日:2021-09-24 21:24:17 公開日:2021-09-23
# (参考訳) 前群文法とその構文と意味論 [全文訳有]

Pregroup Grammars, their Syntax and Semantics ( http://arxiv.org/abs/2109.11237v1 )

ライセンス: CC BY 4.0
Mehrnoosh Sadrzadeh(参考訳) プレグループ文法は1999年に開発され、ランベックの好ましい代数的文法モデルを維持した。 しかし、前群の集合論的意味論は曖昧性の問題に直面している。 ランベックは最新の著書で、この問題は集合ではなく有限次元ベクトル空間を使って克服できるかもしれないと示唆している。 この設定、直和、あるいは空間のテンソル積における合成の正しい概念は何でしょうか。

Pregroup grammars were developed in 1999 and stayed Lambek's preferred algebraic model of grammar. The set-theoretic semantics of pregroups, however, faces an ambiguity problem. In his latest book, Lambek suggests that this problem might be overcome using finite dimensional vector spaces rather than sets. What is the right notion of composition in this setting, direct sum or tensor product of spaces?
翻訳日:2021-09-24 20:59:33 公開日:2021-09-23
# (参考訳) foobar: ニューラルネットワークトレーニングにおけるバックドア攻撃の失敗 [全文訳有]

FooBaR: Fault Fooling Backdoor Attack on Neural Network Training ( http://arxiv.org/abs/2109.11249v1 )

ライセンス: CC BY 4.0
Jakub Breier, Xiaolu Hou, Mart\'in Ochoa and Jesus Solano(参考訳) ニューラルネットワークの実装は、障害注入攻撃のような物理的攻撃ベクトルに対して脆弱であることが知られている。 現在、これらの攻撃は推論段階でのみ利用されており、誤分類を引き起こす意図があった。 本研究では,ニューラルネットワークのトレーニングフェーズ中に障害を注入することで,さらに障害を発生させることなく,ネットワークを展開中に攻撃できる新たな攻撃パラダイムを探求する。 特に,reluアクティベーション関数に対する攻撃について検討し,不正入力と呼ばれる悪質な入力を発生させ,その入力を推論時に使用し,制御された誤分類を誘発できるようにする。 このような悪意のある入力は、攻撃された活性化関数に特定の振る舞いを引き起こす線形方程式のシステムを数学的に解くことで得られる。 トレーニングフェーズの障害攻撃がネットワークにバックドアを注入し、攻撃者が不正な入力を生成できるようにするため、このような攻撃をバックドアを騙すとします。 本研究は,多層パーセプトロンネットワークと畳み込みネットワークに対するアプローチを,攻撃成功率(60%から100%)の高い画像分類タスクで評価し,25個のニューロンを攻撃した場合の分類信頼度を,本来意図した分類タスクの精度を維持しながら評価する。

Neural network implementations are known to be vulnerable to physical attack vectors such as fault injection attacks. As of now, these attacks were only utilized during the inference phase with the intention to cause a misclassification. In this work, we explore a novel attack paradigm by injecting faults during the training phase of a neural network in a way that the resulting network can be attacked during deployment without the necessity of further faulting. In particular, we discuss attacks against ReLU activation functions that make it possible to generate a family of malicious inputs, which are called fooling inputs, to be used at inference time to induce controlled misclassifications. Such malicious inputs are obtained by mathematically solving a system of linear equations that would cause a particular behaviour on the attacked activation functions, similar to the one induced in training through faulting. We call such attacks fooling backdoors as the fault attacks at the training phase inject backdoors into the network that allow an attacker to produce fooling inputs. We evaluate our approach against multi-layer perceptron networks and convolutional networks on a popular image classification task obtaining high attack success rates (from 60% to 100%) and high classification confidence when as little as 25 neurons are attacked while preserving high accuracy on the originally intended classification task.
翻訳日:2021-09-24 20:33:36 公開日:2021-09-23
# (参考訳) 事前学習型言語モデルの動的知識蒸留 [全文訳有]

Dynamic Knowledge Distillation for Pre-trained Language Models ( http://arxiv.org/abs/2109.11295v1 )

ライセンス: CC BY 4.0
Lei Li, Yankai Lin, Shuhuai Ren, Peng Li, Jie Zhou, Xu Sun(参考訳) 知識蒸留〜(KD)は大規模事前学習言語モデルの圧縮に有効であることが証明されている。 しかし、既存の方法ではKDを静的に実行し、例えば、学生モデルは、事前に定義されたトレーニングデータセット上で、選択した教師モデルの出力分布と整列する。 本稿では,学生の能力に応じて学習手順を調整するための動的知識蒸留法について,学生のパフォーマンスと学習効率について検討する。 教師モデルの採用,データ選択,kd客観的適応という3つの側面から動的適応について検討する。 実験の結果,(1)教師モデルの適切な選択により,生徒モデルのパフォーマンスが向上し,(2)10%のインフォメーションインスタンスによるkdの実行は,トレーニングを大いに加速しながら,同等のパフォーマンスを達成し,(3)異なるアライメント目標の監督貢献を調整して学生の成績を向上できることがわかった。 動的知識蒸留が期待でき、より効率的なKD法に向けた今後の方向性について議論する。 私たちのコードはhttps://github.com/l ancopku/dynamickdで利用可能です。

Knowledge distillation~(KD) has been proved effective for compressing large-scale pre-trained language models. However, existing methods conduct KD statically, e.g., the student model aligns its output distribution to that of a selected teacher model on the pre-defined training dataset. In this paper, we explore whether a dynamic knowledge distillation that empowers the student to adjust the learning procedure according to its competency, regarding the student performance and learning efficiency. We explore the dynamical adjustments on three aspects: teacher model adoption, data selection, and KD objective adaptation. Experimental results show that (1) proper selection of teacher model can boost the performance of student model; (2) conducting KD with 10% informative instances achieves comparable performance while greatly accelerates the training; (3) the student performance can be boosted by adjusting the supervision contribution of different alignment objective. We find dynamic knowledge distillation is promising and provide discussions on potential future directions towards more efficient KD methods. Our code is available at https://github.com/l ancopku/DynamicKD.
翻訳日:2021-09-24 20:10:21 公開日:2021-09-23
# (参考訳) BERTを破る - 敵攻撃による名前付きエンティティ認識の脆弱性を理解する [全文訳有]

Breaking BERT: Understanding its Vulnerabilities for Named Entity Recognition through Adversarial Attack ( http://arxiv.org/abs/2109.11308v1 )

ライセンス: CC BY-SA 4.0
Anne Dirkson, Suzan Verberne, Wessel Kraaij(参考訳) 汎用とドメイン固有のBERTモデルは、自然言語処理(NLP)タスクに広く使われている。 本稿では,識別エンティティ認識(NER)の入力データの変化に対するBERTモデルの脆弱性について,敵攻撃による検証を行った。 実験の結果、原本とドメイン固有のBERTモデルは、エンティティ置換に対して非常に脆弱であることが示されている。 20.2から45.0%のエンティティが完全に間違っていると予測され、29.3から53.3%のエンティティが部分的に間違っていると予測されている。 多くの場合、1つの変更はモデルを騙すのに十分です。 BERTモデルは、エンティティのローカルコンテキストの変化に対して最も脆弱であるように見える。 2つのドメイン固有のBERTモデルのうち、BioBERTの脆弱性はオリジナルのBERTモデルに匹敵するが、SciBERTはさらに脆弱である。 NER の BERT モデルの脆弱性をグラフ化し,これらの脆弱性の解明と低減に向けたさらなる研究の重要性を強調した。

Both generic and domain-specific BERT models are widely used for natural language processing (NLP) tasks. In this paper we investigate the vulnerability of BERT models to variation in input data for Named Entity Recognition (NER) through adversarial attack. Experimental results show that the original as well as the domain-specific BERT models are highly vulnerable to entity replacement: They can be fooled in 89.2 to 99.4% of the cases to mislabel previously correct entities. BERT models are also vulnerable to variation in the entity context with 20.2 to 45.0% of entities predicted completely wrong and another 29.3 to 53.3% of entities predicted wrong partially. Often a single change is sufficient to fool the model. BERT models seem most vulnerable to changes in the local context of entities. Of the two domain-specific BERT models, the vulnerability of BioBERT is comparable to the original BERT model whereas SciBERT is even more vulnerable. Our results chart the vulnerabilities of BERT models for NER and emphasize the importance of further research into uncovering and reducing these weaknesses.
翻訳日:2021-09-24 19:53:09 公開日:2021-09-23
# (参考訳) parashoot: ヘブライ語の質問応答データセット [全文訳有]

ParaShoot: A Hebrew Question Answering Dataset ( http://arxiv.org/abs/2109.11314v1 )

ライセンス: CC0 1.0
Omri Keren and Omer Levy(参考訳) ヘブライ語におけるNLP研究は主に形態学と構文に焦点を当てており、Universal Dependenciesの精神における豊富な注釈付きデータセットが利用可能である。 しかし、セマンティックデータセットは不足しており、ヘブライにおけるNLP技術の発展において重要な進歩を妨げる。 本稿では,現代ヘブライ語における最初の質問応答データセットであるParaShootを紹介する。 データセットはsquadのフォーマットとクラウドソーシングの方法論に従っており、約3000の注釈付き例が含まれている。 我々は,最近リリースされたヘブライ語版BERTスタイルのモデルを用いて,最初のベースライン結果を提供する。

NLP research in Hebrew has largely focused on morphology and syntax, where rich annotated datasets in the spirit of Universal Dependencies are available. Semantic datasets, however, are in short supply, hindering crucial advances in the development of NLP technology in Hebrew. In this work, we present ParaShoot, the first question answering dataset in modern Hebrew. The dataset follows the format and crowdsourcing methodology of SQuAD, and contains approximately 3000 annotated examples, similar to other question-answering datasets in low-resource languages. We provide the first baseline results using recently-released BERT-style models for Hebrew, showing that there is significant room for improvement on this task.
翻訳日:2021-09-24 19:40:31 公開日:2021-09-23
# (参考訳) 引数強度推定のためのアクティブラーニング [全文訳有]

Active Learning for Argument Strength Estimation ( http://arxiv.org/abs/2109.11319v1 )

ライセンス: CC BY 4.0
Nataliia Kees and Michael Fromm and Evgeniy Faerman and Thomas Seidl(参考訳) 高品質な議論は意思決定の重要な部分です。 議論の品質を自動的に予測することは、最近議論のマイニングで注目を集めた複雑なタスクである。 しかし,この課題に対するアノテーションの取り組みは極めて高い。 そこで我々は2つの一般的な議論強度データセット上で不確実性に基づくアクティブラーニング(AL)手法を検証し,サンプル効率のよい学習が可能かどうかを推定する。 我々は,不確実性に基づく取得関数が,これらのデータセットのランダムな取得に到達した精度を超えないことを示す。

High-quality arguments are an essential part of decision-making. Automatically predicting the quality of an argument is a complex task that recently got much attention in argument mining. However, the annotation effort for this task is exceptionally high. Therefore, we test uncertainty-based active learning (AL) methods on two popular argument-strength data sets to estimate whether sample-efficient learning can be enabled. Our extensive empirical evaluation shows that uncertainty-based acquisition functions can not surpass the accuracy reached with the random acquisition on these data sets.
翻訳日:2021-09-24 19:30:45 公開日:2021-09-23
# (参考訳) 視覚から言語への知識の移譲:それをどうやって達成し、どのように測定するか? [全文訳有]

Transferring Knowledge from Vision to Language: How to Achieve it and how to Measure it? ( http://arxiv.org/abs/2109.11321v1 )

ライセンス: CC BY 4.0
Tobias Norlund, Lovisa Hagstr\"om, Richard Johanssom(参考訳) 大規模な言語モデルは、知識の欠如を示す誤った文や一貫性のない文を出力する傾向にあるという幻覚の問題に悩まされていることが知られている。 これに対する提案された解決策は、テキストによって得られた知識を補完する追加のデータモダリティをモデルに提供することである。 本稿では,テキストへの視覚知識伝達の評価手法を提案することにより,大言語モデルの知識を補完する視覚データの利用について検討する。 この方法は2つのステップに基づいています 1) 記憶色、すなわちよく知られた物体の典型的な色を知るための新しいタスククエリ 2) モデルトレーニングデータのフィルタリングにより、知識貢献を明確に分離する。 さらに,視覚的なイマジネーションステップを伴うモデルアーキテクチャを導入し,提案手法を用いて評価する。 提案手法は,モデルにおける視覚的知識伝達能力の測定に有効であり,新しいモデルアーキテクチャは,マルチモーダルな知識を一元的に活用するための有望な結果を示す。

Large language models are known to suffer from the hallucination problem in that they are prone to output statements that are false or inconsistent, indicating a lack of knowledge. A proposed solution to this is to provide the model with additional data modalities that complements the knowledge obtained through text. We investigate the use of visual data to complement the knowledge of large language models by proposing a method for evaluating visual knowledge transfer to text for uni- or multimodal language models. The method is based on two steps, 1) a novel task querying for knowledge of memory colors, i.e. typical colors of well-known objects, and 2) filtering of model training data to clearly separate knowledge contributions. Additionally, we introduce a model architecture that involves a visual imagination step and evaluate it with our proposed method. We find that our method can successfully be used to measure visual knowledge transfer capabilities in models and that our novel model architecture shows promising results for leveraging multimodal knowledge in a unimodal setting.
翻訳日:2021-09-24 19:21:28 公開日:2021-09-23
# (参考訳) フィンランドNLPの現状 [全文訳有]

The Current State of Finnish NLP ( http://arxiv.org/abs/2109.11326v1 )

ライセンス: CC BY 4.0
Mika H\"am\"al\"ainen and Khalid Alnajjar(参考訳) フィンランド語を処理するためのツールやリソースはたくさんあります。 本稿では,解析,生成,意味論,発話など,NLPの様々なサブカテゴリに関連するフィンランドのNLPに焦点を当てた最近の論文について調査する。 NLP研究はフィンランドの多くの異なる研究グループで行われており、学術研究から得られたNLPツールやモデルがGithubなどのプラットフォームで他の人に利用可能である場合が多い。

There are a lot of tools and resources available for processing Finnish. In this paper, we survey recent papers focusing on Finnish NLP related to many different subcategories of NLP such as parsing, generation, semantics and speech. NLP research is conducted in many different research groups in Finland, and it is frequently the case that NLP tools and models resulting from academic research are made available for others to use on platforms such as Github.
翻訳日:2021-09-24 19:01:43 公開日:2021-09-23
# (参考訳) モデル選好学習によるパターンと事実に基づく偽ニュース検出の統合 [全文訳有]

Integrating Pattern- and Fact-based Fake News Detection via Model Preference Learning ( http://arxiv.org/abs/2109.11333v1 )

ライセンス: CC BY-SA 4.0
Qiang Sheng, Xueyao Zhang, Juan Cao, Lei Zhong(参考訳) 偽ニュースを防御するために、研究者はテキストに基づいた様々な方法を開発した。 これらの方法はグループ化できる 1) クレーム自体よりも偽ニュース投稿間の共有パターンに着目したパターンベース手法 2) パターンを考慮せずに,外部から情報を取得し,クレームの妥当性を確認するファクトベース手法。 テキストの手がかりの好みが異なる2つの方法群は、偽ニュースの検出に相補的な役割を担っている。 しかし、それらの統合を考える作品はほとんどない。 本稿では,その嗜好の違いをモデル化することで,パターンと事実に基づくモデルを一つのフレームワークに統合する問題,すなわち,パターンと事実に基づくモデルをポストのそれぞれの好む部分に集中させ,予測されない部分からの干渉を可能な限り緩和する問題について検討する。 この目的のために,パターンと事実に基づく協調検出モデルのそれぞれの選好を学習する選好認識型フェイクニュース検出フレームワーク(pref-fend)を構築した。 まず、各好みマップを生成するために不均一な動的グラフ畳み込みネットワークを設計し、次にこれらのマップを使用してパターンモデルと事実モデルの共同学習を最終予測に導く。 実世界の2つのデータセットの実験によると、Pref-FENDはモデルの好みを効果的に捉え、パターンや事実、あるいはその両方に基づいてモデルのパフォーマンスを改善する。

To defend against fake news, researchers have developed various methods based on texts. These methods can be grouped as 1) pattern-based methods, which focus on shared patterns among fake news posts rather than the claim itself; and 2) fact-based methods, which retrieve from external sources to verify the claim's veracity without considering patterns. The two groups of methods, which have different preferences of textual clues, actually play complementary roles in detecting fake news. However, few works consider their integration. In this paper, we study the problem of integrating pattern- and fact-based models into one framework via modeling their preference differences, i.e., making the pattern- and fact-based models focus on respective preferred parts in a post and mitigate interference from non-preferred parts as possible. To this end, we build a Preference-aware Fake News Detection Framework (Pref-FEND), which learns the respective preferences of pattern- and fact-based models for joint detection. We first design a heterogeneous dynamic graph convolutional network to generate the respective preference maps, and then use these maps to guide the joint learning of pattern- and fact-based models for final prediction. Experiments on two real-world datasets show that Pref-FEND effectively captures model preferences and improves the performance of models based on patterns, facts, or both.
翻訳日:2021-09-24 18:49:38 公開日:2021-09-23
# (参考訳) 演算子ニューラルネットワークに対する任意次元普遍近似理論 [全文訳有]

Arbitrary-Depth Universal Approximation Theorems for Operator Neural Networks ( http://arxiv.org/abs/2109.11354v1 )

ライセンス: CC BY 4.0
Annan Yu, Chlo\'e Becquey, Diana Halikias, Matthew Esmaili Mallory, Alex Townsend(参考訳) オペレータニューラルネットワーク(NN)の標準的なユニバーサル近似理論は、任意の幅と境界深さを保持する。 ここでは、境界幅と任意の深さを持つ作用素NNが連続非線形作用素に対する普遍近似であることを示す。 その結果,非零導関数のある点において連続的に微分可能な非多項活性化関数に対しては,任意の連続非線形作用素に任意に近い有限の十進表現を持つ実数である幅5の作用素nnを構成できることが証明された。 非アフィン多項式活性化関数の類似結果を得る。 また,深さ 2k^3+8$ の演算子 relu nn と、深さ $k$ のオペレータ relu nn が近似できない定数幅を、その幅が指数関数的に 0k$ でない限り構成することにより、深さは理論的に有利であることを示した。

The standard Universal Approximation Theorem for operator neural networks (NNs) holds for arbitrary width and bounded depth. Here, we prove that operator NNs of bounded width and arbitrary depth are universal approximators for continuous nonlinear operators. In our main result, we prove that for non-polynomial activation functions that are continuously differentiable at a point with a nonzero derivative, one can construct an operator NN of width five, whose inputs are real numbers with finite decimal representations, that is arbitrarily close to any given continuous nonlinear operator. We derive an analogous result for non-affine polynomial activation functions. We also show that depth has theoretical advantages by constructing operator ReLU NNs of depth $2k^3+8$ and constant width that cannot be well-approximated by any operator ReLU NN of depth $k$, unless its width is exponential in $k$.
翻訳日:2021-09-24 18:23:27 公開日:2021-09-23
# (参考訳) 密度に基づくクラスタリング手法の高速密度推定 [全文訳有]

Fast Density Estimation for Density-based Clustering Methods ( http://arxiv.org/abs/2109.11383v1 )

ライセンス: CC BY 4.0
Difei Cheng, Ruihang Xu, Bo Zhang(参考訳) 密度ベースのクラスタリングアルゴリズムは、非超球性クラスタに対処できるため、パターン認識や機械学習におけるクラスタの発見に広く使用されている。 しかし、密度に基づくアルゴリズムのランタイムは、隣人を見つけ、時間を要する各点の密度を計算することで大きく支配されている。 そこで本研究では, 高速主成分分析を用いて, 隣り合って密度を推定する際, 不必要な距離計算を行うための密度ベース手法に適用可能な密度ベースクラスタリングフレームワークを提案する。 このクラスタリングフレームワークを、ノイズ(dbscan)アルゴリズムを用いたアプリケーションの密度ベースの空間クラスタリングに適用することにより、dbscanの利点を保ちながら冗長距離の計算を大幅に削減する改良dbscan(dbscan)が得られた。 5つのベンチマークデータセットを用いた実験により,提案手法が計算効率を大幅に向上することを示す。

Density-based clustering algorithms are widely used for discovering clusters in pattern recognition and machine learning since they can deal with non-hyperspherical clusters and are robustness to handle outliers. However, the runtime of density-based algorithms is heavily dominated by finding neighbors and calculating the density of each point which is time-consuming. To address this issue, this paper proposes a density-based clustering framework by using the fast principal component analysis, which can be applied to density based methods to prune unnecessary distance calculations when finding neighbors and estimating densities. By applying this clustering framework to the Density Based Spatial Clustering of Applications with Noise (DBSCAN) algorithm, an improved DBSCAN (called IDBSCAN) is obtained, which preserves the advantage of DBSCAN and meanwhile, greatly reduces the computation of redundant distances. Experiments on five benchmark datasets demonstrate that the proposed IDBSCAN algorithm improves the computational efficiency significantly.
翻訳日:2021-09-24 18:07:38 公開日:2021-09-23
# (参考訳) 名前付きエンティティの曖昧化のためのクラスタベースメンションタイピング

Cluster-based Mention Typing for Named Entity Disambiguation ( http://arxiv.org/abs/2109.11389v1 )

ライセンス: CC BY 4.0
Arda \c{C}elebi and Arzucan \"Ozg\"ur(参考訳) ワシントン」のようなテキストで言及される実体は、「ワシントンd.c.」や「ワシントンポスト」といった多くの異なる名前の実体に対応している。 名前付きエンティティの曖昧さの目標は、上記の名前付きエンティティをすべての候補の中から正しく識別することである。 上記のエンティティの型(例えば、場所や人物)がコンテキストから正しく予測できるならば、起こりそうにない候補に低い確率を割り当てることで、適切な候補を選択する機会を増加させることができる。 本稿では、名前付きエンティティの曖昧さに対するクラスタベースの参照型付けを提案する。 言及型付けの目的は、その文脈に基づいて与えられた言及の型を予測することである。 一般的に、ウィキペディアのカテゴリなどの手作業による分類が用いられる。 名前付きエンティティは、そのコンテキストの類似性に基づいてクラスタ化され、クラスタidは型として割り当てられる。 ハイパーリンクされた言及とウィキペディアのコンテキストは、これらのクラスタベースの型を取得するために使用される。 次に、参照型付けモデルをこれらの言及に基づいてトレーニングし、遠方の監督を通じてクラスタベースの型にラベル付けする。 名前付きエンティティ曖昧化フェーズでは、まず、与えられた参照のクラスタベースのタイプを予測し、これらのタイプをランキングモデルの特徴として使用し、候補の中から最高のエンティティを選択する。 複数のコンテキストレベルでエンティティを表現し、各レベルに基づいて異なるクラスタリング(と型付けモデル)を取得します。 各クラスタリングがエンティティ空間を別々に分割すると、各クラスタリングに基づく型付けが参照を別々に識別する。 全てのタイピングモデルからの予測が一緒に使われる場合、システムは4つのデファクトテストセットの最先端レベルに対してランダム化テストに基づいて、より良い結果または比較結果を得る。

An entity mention in text such as "Washington" may correspond to many different named entities such as the city "Washington D.C." or the newspaper "Washington Post." The goal of named entity disambiguation is to identify the mentioned named entity correctly among all possible candidates. If the type (e.g. location or person) of a mentioned entity can be correctly predicted from the context, it may increase the chance of selecting the right candidate by assigning low probability to the unlikely ones. This paper proposes cluster-based mention typing for named entity disambiguation. The aim of mention typing is to predict the type of a given mention based on its context. Generally, manually curated type taxonomies such as Wikipedia categories are used. We introduce cluster-based mention typing, where named entities are clustered based on their contextual similarities and the cluster ids are assigned as types. The hyperlinked mentions and their context in Wikipedia are used in order to obtain these cluster-based types. Then, mention typing models are trained on these mentions, which have been labeled with their cluster-based types through distant supervision. At the named entity disambiguation phase, first the cluster-based types of a given mention are predicted and then, these types are used as features in a ranking model to select the best entity among the candidates. We represent entities at multiple contextual levels and obtain different clusterings (and thus typing models) based on each level. As each clustering breaks the entity space differently, mention typing based on each clustering discriminates the mention differently. When predictions from all typing models are used together, our system achieves better or comparable results based on randomization tests with respect to the state-of-the-art levels on four defacto test sets.
翻訳日:2021-09-24 17:57:37 公開日:2021-09-23
# (参考訳) 画像キャプション改善のためのシーングラフ生成 [全文訳有]

Scene Graph Generation for Better Image Captioning? ( http://arxiv.org/abs/2109.11398v1 )

ライセンス: CC BY 4.0
Maximilian Mozes, Martin Schmitt, Vladimir Golkov, Hinrich Sch\"utze, Daniel Cremers(参考訳) 自然言語で画像を記述するために,検出された物体と自動生成された視覚関係を利用したモデルを提案することにより,視覚関係を教師あり画像キャプション生成タスクに組み込む。 そこで我々はまず,個々の物体を識別し,それらの画像間の視覚的関係からシーングラフを生成する。 このシーングラフは、最後のキャプションを生成するグラフからテキストモデルへの入力として機能します。 従来の手法とは対照的に,本モデルは画像中の物体の検出と視覚的関係を明示的にモデル化する。 実験では,視覚ゲノムとMS COCOの交差点から新たなデータセットを構築し,対応するゴールドシーングラフと人間によるキャプションの両方で画像を構成する。 提案手法は,BLEU および METEOR 評価指標と比較した場合,原画像から画像記述を直接生成する既存の最先端モデルよりも優れていることを示す。

We investigate the incorporation of visual relationships into the task of supervised image caption generation by proposing a model that leverages detected objects and auto-generated visual relationships to describe images in natural language. To do so, we first generate a scene graph from raw image pixels by identifying individual objects and visual relationships between them. This scene graph then serves as input to our graph-to-text model, which generates the final caption. In contrast to previous approaches, our model thus explicitly models the detection of objects and visual relationships in the image. For our experiments we construct a new dataset from the intersection of Visual Genome and MS COCO, consisting of images with both a corresponding gold scene graph and human-authored caption. Our results show that our methods outperform existing state-of-the-art end-to-end models that generate image descriptions directly from raw input pixels when compared in terms of the BLEU and METEOR evaluation metrics.
翻訳日:2021-09-24 17:56:27 公開日:2021-09-23
# (参考訳) 量子デバイスのノイズフィンガープリントの学習 [全文訳有]

Learning the noise fingerprint of quantum devices ( http://arxiv.org/abs/2109.11405v1 )

ライセンス: CC BY 4.0
Stefano Martina, Lorenzo Buffoni, Stefano Gherardini and Filippo Caruso(参考訳) ノイズ源はいかなる量子技術デバイスにも必然的に影響を及ぼす。 ノイズの主な特徴は、識別可能な指紋の形で量子デバイスが実現される物理プラットフォームに厳密に依存することが期待されている。 騒音源も進化し、時間とともに変化すると予想されている。 ここでは、まず、測定結果確率の時間順列を用いてノイズ分布を分類する機械学習技術を用いて、IBMクラウド利用可能な量子コンピュータのノイズ指紋を実験的に識別し、特徴付ける。

Noise sources unavoidably affect any quantum technological device. Noise's main features are expected to strictly depend on the physical platform on which the quantum device is realized, in the form of a distinguishable fingerprint. Noise sources are also expected to evolve and change over time. Here, we first identify and then characterize experimentally the noise fingerprint of IBM cloud-available quantum computers, by resorting to machine learning techniques designed to classify noise distributions using time-ordered sequences of measured outcome probabilities.
翻訳日:2021-09-24 17:43:12 公開日:2021-09-23
# (参考訳) 名前付き実体認識と歴史的文書の分類:調査

Named Entity Recognition and Classification on Historical Documents: A Survey ( http://arxiv.org/abs/2109.11406v1 )

ライセンス: CC BY-SA 4.0
Maud Ehrmann, Ahmed Hamdi, Elvys Linhares Pontes, Matteo Romanello, Antoine Doucet(参考訳) 数十年にわたる膨大なデジタル化の後、前例のない量の歴史的文書が、機械で読めるテキストとともにデジタルフォーマットで入手できる。 これは、保存性やアクセシビリティに関する大きな進歩であると同時に、コンテンツマイニングの面での新しい機会も開き、次の根本的な課題は、この「過去の大きなデータ」から情報を効率的に検索、検索、探索するための適切な技術を開発することである。 セマンティックな索引付けの機会の中で、名前付きエンティティの認識と分類は人文科学研究者の間で大きな需要がある。 しかし、名前付きエンティティ認識(ner)システムは、多様で歴史的、ノイズの多い入力に強く挑戦されている。 本稿では,過去の資料から生じる課題を整理し,既存の資源をインベントリし,これまで展開してきた主要なアプローチを説明し,今後の開発において重要な課題を特定する。

After decades of massive digitisation, an unprecedented amount of historical documents is available in digital format, along with their machine-readable texts. While this represents a major step forward with respect to preservation and accessibility, it also opens up new opportunities in terms of content mining and the next fundamental challenge is to develop appropriate technologies to efficiently search, retrieve and explore information from this 'big data of the past'. Among semantic indexing opportunities, the recognition and classification of named entities are in great demand among humanities scholars. Yet, named entity recognition (NER) systems are heavily challenged with diverse, historical and noisy inputs. In this survey, we present the array of challenges posed by historical documents to NER, inventory existing resources, describe the main approaches deployed so far, and identify key priorities for future developments.
翻訳日:2021-09-24 17:22:33 公開日:2021-09-23
# (参考訳) 超音波ビームフォーミングのための深層学習

Deep Learning for Ultrasound Beamforming ( http://arxiv.org/abs/2109.11431v1 )

ライセンス: CC BY 4.0
Ruud JG van Sloun, Jong Chul Ye, Yonina C Eldar(参考訳) 画像診断は医療において重要な役割を担い、タイムリーな診断、病気のステージング、管理、治療の選択、計画、指導、フォローアップの基本的な資産として機能する。 診断画像の選択肢のうち、超音波画像は一意に位置決めされており、臨床医がリアルタイムの性質によって実現される、不整合で貴重な相互作用レベルを提供する非常に費用効果の高いモードである。 超音波プローブのコンパクト化とポータブル化が進み、低価格のポケットサイズの小型デバイスへの需要が高まっている。 同時に、3次元イメージングや高フレームレート撮像方式への強いトレンドがあり、同時にプローブ-システム通信やその後の画像再構成アルゴリズムに重荷を負うデータレートが劇的に増加する。 高速撮像を容易にする(焦点を絞らないまたは平行な)伝送からの高品質な画像再構成と信号抽出の需要とコンパクトプローブへの推進により、現代の超音波イメージングは強力なデジタル受信チャネル処理の革新に大きく依存している。 受信した超音波エコーを空間画像領域にマッピングするビームフォーミング(ビームフォーミング)は、超音波画像形成チェーンの心臓に自然に存在する。 超音波ビームフォーミングの深層学習に関する章では、デジタルビームフォーミングパイプラインにおいてディープラーニング手法が魅力的な役割を果たす理由と方法について議論し、これらのデータ駆動システムをどのように活用して超音波画像再構成を改善するかを示す。

Diagnostic imaging plays a critical role in healthcare, serving as a fundamental asset for timely diagnosis, disease staging and management as well as for treatment choice, planning, guidance, and follow-up. Among the diagnostic imaging options, ultrasound imaging is uniquely positioned, being a highly cost-effective modality that offers the clinician an unmatched and invaluable level of interaction, enabled by its real-time nature. Ultrasound probes are becoming increasingly compact and portable, with the market demand for low-cost pocket-sized and (in-body) miniaturized devices expanding. At the same time, there is a strong trend towards 3D imaging and the use of high-frame-rate imaging schemes; both accompanied by dramatically increasing data rates that pose a heavy burden on the probe-system communication and subsequent image reconstruction algorithms. With the demand for high-quality image reconstruction and signal extraction from less (e.g unfocused or parallel) transmissions that facilitate fast imaging, and a push towards compact probes, modern ultrasound imaging leans heavily on innovations in powerful digital receive channel processing. Beamforming, the process of mapping received ultrasound echoes to the spatial image domain, naturally lies at the heart of the ultrasound image formation chain. In this chapter on Deep Learning for Ultrasound Beamforming, we discuss why and when deep learning methods can play a compelling role in the digital beamforming pipeline, and then show how these data-driven systems can be leveraged for improved ultrasound image reconstruction.
翻訳日:2021-09-24 17:21:18 公開日:2021-09-23
# (参考訳) 子どもとの機械教育の探求 [全文訳有]

Exploring Machine Teaching with Children ( http://arxiv.org/abs/2109.11434v1 )

ライセンス: CC BY 4.0
Utkarsh Dwivedi, Jaina Gandhi, Raj Parikh, Merijke Coenraad, Elizabeth Bonsignore, and Hernisa Kacorri(参考訳) 反復的な機械学習モデルの構築とテストは、子供たちが創造性、柔軟性、および機械学習と人工知能を快適に開発するのに役立つ。 本研究では,14人の子供(7~13歳)と大人の共同設計者を対象に,機械教育インタフェースの活用方法を検討する。 子どもたちは画像分類器を訓練し、互いのモデルの堅牢性をテストした。 本研究は、子どもたちがml概念をどう考えるかを照らし、子どもたちに機械教育体験を設計するための洞察を提供する。 (i)MLメトリクス(例えば、信頼性スコア)は実験のために見えなければならない。 (二)ML活動は、子どもが反射・パターン認識を促進するためのモデル交換を可能にすること。 (iii)インターフェースは、迅速なデータ検査(画像対ジェスチャーなど)を可能にするべきである。

Iteratively building and testing machine learning models can help children develop creativity, flexibility, and comfort with machine learning and artificial intelligence. We explore how children use machine teaching interfaces with a team of 14 children (aged 7-13 years) and adult co-designers. Children trained image classifiers and tested each other's models for robustness. Our study illuminates how children reason about ML concepts, offering these insights for designing machine teaching experiences for children: (i) ML metrics (e.g. confidence scores) should be visible for experimentation; (ii) ML activities should enable children to exchange models for promoting reflection and pattern recognition; and (iii) the interface should allow quick data inspection (e.g. images vs. gestures).
翻訳日:2021-09-24 17:20:10 公開日:2021-09-23
# (参考訳) deeprare: 一般的な教師なし視覚注意モデル

DeepRare: Generic Unsupervised Visual Attention Models ( http://arxiv.org/abs/2109.11439v1 )

ライセンス: CC BY 4.0
Phutphalla Kong, Matei Mancas, Bernard Gosselin, Kimtho Po(参考訳) 人間の視覚システムは、画像へのコントラスト付き/サプライズ/unusualなデータを検出する特徴工学的手法を提供する工学領域でモデル化されている。 このデータは人間にとって「興味深い」ものであり、多くの応用をもたらす。 ディープラーニング(DNN)は、主要なベンチマークデータセットのアルゴリズム効率を大幅に改善した。 しかし、dnnベースのモデルは直観に反する:驚きまたは異常なデータは、その発生確率が低いため、定義上は学習が困難である。 実際、dnnベースのモデルは、主に人間の注意を引く顔、テキスト、人、動物といったトップダウンの特徴を学習するが、画像内の驚くべきデータや異常なデータを抽出する効率は低い。 本稿では,DNNの機能抽出と特徴工学アルゴリズムの汎用性を利用したDeepRare2021 (DR21) と呼ばれる新しい視覚的注意モデルを提案する。 このアルゴリズムは、共通のフレームワークに基づいたDeepRare2019(DR19)と呼ばれる以前のバージョンの進化である。 DR21 1) トレーニングは不要で、デフォルトのImageNetトレーニングを使用する。 2)cpu上でも高速である。 3) は4つの異なる視線追跡データセットでテストされ、dr21がジェネリックであり、常にすべてのデータセットとメトリクスの上位モデル内にあることを示している。 ついに dr21 4) vgg16 (v16)、vgg19 (v19)、mobilenetv2 (mn2) などのいくつかのネットワークアーキテクチャでテストされ、dnnベースの特徴抽出器を使用しても、画像のどの部分が最も驚くべきのかの説明と透明性を提供する。 DeepRare2021コードはhttps://github.com/n umediart/VisualAtten tion-RareFamil}で見ることができる。

Human visual system is modeled in engineering field providing feature-engineered methods which detect contrasted/surprisin g/unusual data into images. This data is "interesting" for humans and leads to numerous applications. Deep learning (DNNs) drastically improved the algorithms efficiency on the main benchmark datasets. However, DNN-based models are counter-intuitive: surprising or unusual data is by definition difficult to learn because of its low occurrence probability. In reality, DNN-based models mainly learn top-down features such as faces, text, people, or animals which usually attract human attention, but they have low efficiency in extracting surprising or unusual data in the images. In this paper, we propose a new visual attention model called DeepRare2021 (DR21) which uses the power of DNNs feature extraction and the genericity of feature-engineered algorithms. This algorithm is an evolution of a previous version called DeepRare2019 (DR19) based on a common framework. DR21 1) does not need any training and uses the default ImageNet training, 2) is fast even on CPU, 3) is tested on four very different eye-tracking datasets showing that the DR21 is generic and is always in the within the top models on all datasets and metrics while no other model exhibits such a regularity and genericity. Finally DR21 4) is tested with several network architectures such as VGG16 (V16), VGG19 (V19) and MobileNetV2 (MN2) and 5) it provides explanation and transparency on which parts of the image are the most surprising at different levels despite the use of a DNN-based feature extractor. DeepRare2021 code can be found at https://github.com/n umediart/VisualAtten tion-RareFamil}.
翻訳日:2021-09-24 16:57:38 公開日:2021-09-23
# (参考訳) 古フランス語の文法化とPOSタグ付けのためのコーパスとモデル [全文訳有]

Corpus and Models for Lemmatisation and POS-tagging of Old French ( http://arxiv.org/abs/2109.11442v1 )

ライセンス: CC BY 4.0
Jean-Baptiste Camps, Thibault Cl\'erice, Fr\'ed\'eric Duval, Lucence Ing, Naomi Kanaoka and Ariane Pinche(参考訳) 古フランス語は、未資源の歴史的言語の典型例であり、さらに重要な量の言語変化を示す。 本稿では, 長期化プロジェクト (2015-...) の現状について述べるとともに, ニューラルネットワークタガーと専用コーパスのプログレッシブな構成を用いて, 古フランス語の補間と提案モデルを提供することの難しさについて述べる。

Old French is a typical example of an under-resourced historic languages, that furtherly displays animportant amount of linguistic variation. In this paper, we present the current results of a long going project (2015-...) and describe how we broached the difficult question of providing lemmatisation andPOS models for Old French with the help of neural taggers and the progressive constitution of dedicated corpora.
翻訳日:2021-09-24 16:56:19 公開日:2021-09-23
# (参考訳) runge-kutta制約付きディープラーニングによるノイズ測定からの学習ダイナミクス [全文訳有]

Learning Dynamics from Noisy Measurements using Deep Learning with a Runge-Kutta Constraint ( http://arxiv.org/abs/2109.11446v1 )

ライセンス: CC BY 4.0
Pawan Goyal and Peter Benner(参考訳) 測定ノイズは、物理プロセスのデータを収集しながら、積分部分である。 したがって、ノイズ除去はこれらのデータから結論を引き出すために必要となるステップであり、これらのデータを用いて動的モデルを構築するためには、しばしば極めて重要である。 そこで本研究では,雑音と疎サンプルを用いた微分方程式の学習手法について論じる。 我々の方法論では、ディープニューラルネットワークと古典的な数値積分法の統合において、大きな革新が見られる。 正確には、データを暗黙的に表現するニューラルネットワークと、依存する変数のベクトルフィールドをモデル化する追加のニューラルネットワークの学習を目指している。 この2つのネットワークは,次段階のデータを4階のルンゲ・クッタスキームのような数値積分スキームに従えば得られるという制約を強制することによって結合する。 ベクトル場予測モデルを学ぶための提案手法は, 騒音測定において非常に有効である。 このアプローチは、同じテンポラリグリッドで依存変数が利用できないシナリオを扱うことができる。 様々な微分方程式から得られたデータを用いた学習モデルに対する提案手法の有効性を示す。 提案されたアプローチは、第一原理の理解が不透明である動的モデルを学ぶための有望な方法論を提供する。

Measurement noise is an integral part while collecting data of a physical process. Thus, noise removal is a necessary step to draw conclusions from these data, and it often becomes quite essential to construct dynamical models using these data. We discuss a methodology to learn differential equation(s) using noisy and sparsely sampled measurements. In our methodology, the main innovation can be seen in of integration of deep neural networks with a classical numerical integration method. Precisely, we aim at learning a neural network that implicitly represents the data and an additional neural network that models the vector fields of the dependent variables. We combine these two networks by enforcing the constraint that the data at the next time-steps can be given by following a numerical integration scheme such as the fourth-order Runge-Kutta scheme. The proposed framework to learn a model predicting the vector field is highly effective under noisy measurements. The approach can handle scenarios where dependent variables are not available at the same temporal grid. We demonstrate the effectiveness of the proposed method to learning models using data obtained from various differential equations. The proposed approach provides a promising methodology to learn dynamic models, where the first-principle understanding remains opaque.
翻訳日:2021-09-24 16:32:20 公開日:2021-09-23
# (参考訳) LiDAR点雲のセマンティックセグメンテーション支援シーン補完 [全文訳有]

Semantic Segmentation-assiste d Scene Completion for LiDAR Point Clouds ( http://arxiv.org/abs/2109.11453v1 )

ライセンス: CC BY 4.0
Xuemeng Yang, Hao Zou, Xin Kong, Tianxin Huang, Yong Liu, Wanlong Li, Feng Wen, and Hongbo Zhang(参考訳) 屋外シーンの完成は、3Dシーン理解において難しい問題であり、インテリジェントなロボット工学と自動運転において重要な役割を果たす。 LiDARの買収の幅が広いため、3Dシーンの完了とセマンティックセグメンテーションははるかに複雑である。 セマンティクス機能は完了タスクに制約やセマンティクス優先を提供するため、それらの関係を探求する価値がある。 そこで本稿では,2次元完了ブランチと3次元意味セグメンテーションブランチを含む,エンド・ツー・エンド意味セグメンテーション支援シーン補完ネットワークを提案する。 具体的には、ネットワークは生のポイントクラウドを入力として、セグメンテーションブランチの機能を階層的に補完ブランチにマージして意味情報を提供する。 BEV表現と3次元スパース畳み込みを併用することにより,効率的な表現を維持しつつ下肢の便益を享受できる。 また、セグメンテーションブランチのデコーダを補助として使用し、計算消費を節約するために推論段階で破棄することができる。 本手法は,低レイテンシでSemanticKITTIデータセット上での競合性能を実現する。 コードとモデルはhttps://github.com/j okester-zzz/ssa-scでリリースされる。

Outdoor scene completion is a challenging issue in 3D scene understanding, which plays an important role in intelligent robotics and autonomous driving. Due to the sparsity of LiDAR acquisition, it is far more complex for 3D scene completion and semantic segmentation. Since semantic features can provide constraints and semantic priors for completion tasks, the relationship between them is worth exploring. Therefore, we propose an end-to-end semantic segmentation-assiste d scene completion network, including a 2D completion branch and a 3D semantic segmentation branch. Specifically, the network takes a raw point cloud as input, and merges the features from the segmentation branch into the completion branch hierarchically to provide semantic information. By adopting BEV representation and 3D sparse convolution, we can benefit from the lower operand while maintaining effective expression. Besides, the decoder of the segmentation branch is used as an auxiliary, which can be discarded in the inference stage to save computational consumption. Extensive experiments demonstrate that our method achieves competitive performance on SemanticKITTI dataset with low latency. Code and models will be released at https://github.com/j okester-zzz/SSA-SC.
翻訳日:2021-09-24 16:16:11 公開日:2021-09-23
# (参考訳) 半教師付き時間言語接地のための自己指導型学習 [全文訳有]

Self-supervised Learning for Semi-supervised Temporal Language Grounding ( http://arxiv.org/abs/2109.11475v1 )

ライセンス: CC BY 4.0
Fan Luo, Shaoxiang Chen, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) テキスト記述が与えられた場合、temporal language grounding (tlg) は、特定の意味を含むセグメントの時間境界を未トリミングビデオにローカライズすることを目的としている。 TLGは本質的に難しい課題であり、ビデオの内容と文章の両方を包括的に理解する必要がある。 以前の作業では、大量の手動アノテーションを必要とする完全に監督された設定や、十分なパフォーマンスを達成することができない弱い監督された設定でこのタスクに取り組んだ。 アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。 stlgは,(1)教師モデルからの予測に基づくラベルなしデータに対して適応型インスタント擬似ラベルを生成する疑似ラベル生成モジュール,(2)逐次摂動を2つ有する自己教師付き特徴学習モジュール,すなわち,モード間およびモード内コントラスト学習による映像表現の改善,の2つの部分からなる。 我々は, activitynet-cd-ood と charades-cd-ood のデータセットについて実験を行い,提案する stlg フレームワークが,時間的アノテーションのごく一部しか持たない完全教師付き最先端の手法と比較して,競争力を発揮できることを実証した。

Given a text description, Temporal Language Grounding (TLG) aims to localize temporal boundaries of the segments that contain the specified semantics in an untrimmed video. TLG is inherently a challenging task, as it requires to have comprehensive understanding of both video contents and text sentences. Previous works either tackle this task in a fully-supervised setting that requires a large amount of manual annotations or in a weakly supervised setting that cannot achieve satisfactory performance. To achieve good performance with limited annotations, we tackle this task in a semi-supervised way and propose a unified Semi-supervised Temporal Language Grounding (STLG) framework. STLG consists of two parts: (1) A pseudo label generation module that produces adaptive instant pseudo labels for unlabeled data based on predictions from a teacher model; (2) A self-supervised feature learning module with two sequential perturbations, i.e., time lagging and time scaling, for improving the video representation by inter-modal and intra-modal contrastive learning. We conduct experiments on the ActivityNet-CD-OOD and Charades-CD-OOD datasets and the results demonstrate that our proposed STLG framework achieve competitive performance compared to fully-supervised state-of-the-art methods with only a small portion of temporal annotations.
翻訳日:2021-09-24 16:02:14 公開日:2021-09-23
# (参考訳) 合成ct画像を用いた結核(tb)予測の改善 [全文訳有]

Improving Tuberculosis (TB) Prediction using Synthetically Generated Computed Tomography (CT) Images ( http://arxiv.org/abs/2109.11480v1 )

ライセンス: CC BY 4.0
Ashia Lewis, Evanjelin Mahmoodi, Yuyue Zhou, Megan Coffee, Elena Sizikova(参考訳) 放射線画像における感染症プロセスの評価は医用画像解析において重要かつ困難な課題である。 肺感染症は、ctスキャン(ctスキャン)によって最もよく撮影され、評価されるが、これは低リソース環境では利用できず、重篤な患者には入手が困難である。 一方で、異なるタイプの撮像手順であるx線は安価であり、しばしばベッドサイドで入手でき、より広く利用可能であるが、よりシンプルで2次元の画像を提供する。 我々は,X線画像からCT画像を生成することを学習するモデルに頼って,自動疾患分類の精度を向上し,肺疾患プロセスの異なる視点で臨床医に提供できることを実証した。 具体的には、肺に主に影響を及ぼす致死性細菌感染症である結核(TB)や、他の臓器系についても検討する。 合成CTを用いた場合, TBの識別精度は7.50%向上し, TB特性はX線ベースラインよりも12.16%向上した。

The evaluation of infectious disease processes on radiologic images is an important and challenging task in medical image analysis. Pulmonary infections can often be best imaged and evaluated through computed tomography (CT) scans, which are often not available in low-resource environments and difficult to obtain for critically ill patients. On the other hand, X-ray, a different type of imaging procedure, is inexpensive, often available at the bedside and more widely available, but offers a simpler, two dimensional image. We show that by relying on a model that learns to generate CT images from X-rays synthetically, we can improve the automatic disease classification accuracy and provide clinicians with a different look at the pulmonary disease process. Specifically, we investigate Tuberculosis (TB), a deadly bacterial infectious disease that predominantly affects the lungs, but also other organ systems. We show that relying on synthetically generated CT improves TB identification by 7.50% and distinguishes TB properties up to 12.16% better than the X-ray baseline.
翻訳日:2021-09-24 15:46:04 公開日:2021-09-23
# (参考訳) 多次元スケーリング:近似と複雑性

Multidimensional Scaling: Approximation and Complexity ( http://arxiv.org/abs/2109.11505v1 )

ライセンス: CC BY 4.0
Erik Demaine, Adam Hesterberg, Frederic Koehler, Jayson Lynch, John Urschel(参考訳) 計量多次元スケーリング(mds)は、高次元データの有意義な(非線形)低次元埋め込みを生成する古典的な手法である。 MDSは統計学、機械学習、グラフ描画コミュニティで長い歴史を持っている。 特に、釜田-河井強制グラフ描画法はMDSと等価であり、グラフを低次元に埋め込むのに最も一般的な方法の1つである。 汎用性にもかかわらず、MDSの理論的理解は、目的関数が極めて非凸であるため制限され続けている。 本稿では, カマダカワイ目標の最小化がnpハードであること, 最適化のための証明可能な近似アルゴリズム, 特に低径グラフ上のptasについて述べる。 我々はこの結果を, グリーディ近似アルゴリズムと勾配に基づく手法との接続の可能性を示す実験で補う。

Metric Multidimensional scaling (MDS) is a classical method for generating meaningful (non-linear) low-dimensional embeddings of high-dimensional data. MDS has a long history in the statistics, machine learning, and graph drawing communities. In particular, the Kamada-Kawai force-directed graph drawing method is equivalent to MDS and is one of the most popular ways in practice to embed graphs into low dimensions. Despite its ubiquity, our theoretical understanding of MDS remains limited as its objective function is highly non-convex. In this paper, we prove that minimizing the Kamada-Kawai objective is NP-hard and give a provable approximation algorithm for optimizing it, which in particular is a PTAS on low-diameter graphs. We supplement this result with experiments suggesting possible connections between our greedy approximation algorithm and gradient-based methods.
翻訳日:2021-09-24 15:34:32 公開日:2021-09-23
# WRENCH:Weak Supervisionの総合ベンチマーク

WRENCH: A Comprehensive Benchmark for Weak Supervision ( http://arxiv.org/abs/2109.11377v1 )

ライセンス: Link先を確認
Jieyu Zhang, Yue Yu, Yinghao Li, Yujing Wang, Yaming Yang, Mao Yang, Alexander Ratner(参考訳) 近年の 'emph{Weak Supervision (WS)} アプローチは、複数の潜在的ノイズのある監督ソースからラベルを合成することで、機械学習のためのトレーニングデータのラベル付けのボトルネックを緩和することに成功した。 しかし、これらのアプローチの適切な測定と分析は依然として課題である。 まず、既存の作品で使用されるデータセットは、しばしばプライベートまたはカスタムであり、標準化を制限する。 次に、同じ名前とベースデータを持つwsデータセットは、しばしば使用されているラベルと弱い監督ソースの観点で異なります。 最後に、WS研究は、しばしば、使用される評価プロトコルとアブリケーションの観点でばらつきます。 これらの問題に対処するために、wsアプローチを徹底的かつ標準化した評価のために、ベンチマークプラットフォームである \benchmark を紹介します。 分類とシーケンスタグ付けのための22の現実世界のデータセット、実際の、合成され、手続き的に生成される弱い監督ソースの範囲、および人気のあるWSメソッドの実装を含むWS評価のためのモジュール化された拡張可能なフレームワークで構成されています。 ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うために、Shabenchmarkを使用します。 コードは \url{https://github.com/j ieyuz2/wrench} で入手できる。

Recent \emph{Weak Supervision (WS)} approaches have had widespread success in easing the bottleneck of labeling training data for machine learning by synthesizing labels from multiple potentially noisy supervision sources. However, proper measurement and analysis of these approaches remain a challenge. First, datasets used in existing works are often private and/or custom, limiting standardization. Second, WS datasets with the same name and base data often vary in terms of the labels and weak supervision sources used, a significant "hidden" source of evaluation variance. Finally, WS studies often diverge in terms of the evaluation protocol and ablations used. To address these problems, we introduce a benchmark platform, \benchmark, for a thorough and standardized evaluation of WS approaches. It consists of 22 varied real-world datasets for classification and sequence tagging; a range of real, synthetic, and procedurally-generat ed weak supervision sources; and a modular, extensible framework for WS evaluation, including implementations for popular WS methods. We use \benchmark to conduct extensive comparisons over more than 100 method variants to demonstrate its efficacy as a benchmark platform. The code is available at \url{https://github.com/J ieyuZ2/wrench}.
翻訳日:2021-09-24 15:18:31 公開日:2021-09-23
# 切替状態空間モデルにおける話者ダイアリゼーションと追跡

Joint speaker diarisation and tracking in switching state-space model ( http://arxiv.org/abs/2109.11140v1 )

ライセンス: Link先を確認
Jeremy H. M. Wong and Yifan Gong(参考訳) ダイアリゼーションが行われている間、スピーカーは動き回ることができます。 マイクロホンアレイを使用すると、発声源の瞬時に位置を推定でき、以前の調査では、このような情報はダイアリゼーションタスクにおける話者埋め込みと相補的であることが示されている。 しかしながら、これらのアプローチは会議を通して話者がかなり静止していると仮定することが多い。 本稿では,統合モデル内でのダイアリゼーションを共同実行しながら,話者の動きを明示的に追跡することで,この仮定を緩和する。 隠れ状態が現在のアクティブ話者の身元と予測されたすべての話者の位置を表現する状態空間モデルを提案する。 このモデルは粒子フィルターとして実装されている。 microsoft rich meetingの書き起こしタスクの実験では、提案された共同のロケーショントラッキングとダイアリゼーションアプローチが、位置情報を使用する他の方法と互換性があることを示している。

Speakers may move around while diarisation is being performed. When a microphone array is used, the instantaneous locations of where the sounds originated from can be estimated, and previous investigations have shown that such information can be complementary to speaker embeddings in the diarisation task. However, these approaches often assume that speakers are fairly stationary throughout a meeting. This paper relaxes this assumption, by proposing to explicitly track the movements of speakers while jointly performing diarisation within a unified model. A state-space model is proposed, where the hidden state expresses the identity of the current active speaker and the predicted locations of all speakers. The model is implemented as a particle filter. Experiments on a Microsoft rich meeting transcription task show that the proposed joint location tracking and diarisation approach is able to perform comparably with other methods that use location information.
翻訳日:2021-09-24 15:18:11 公開日:2021-09-23
# 多変量時系列における異常検出と診断の評価

An Evaluation of Anomaly Detection and Diagnosis in Multivariate Time Series ( http://arxiv.org/abs/2109.11428v1 )

ライセンス: Link先を確認
Astha Garg, Wenyu Zhang, Jules Samaran, Savitha Ramasamy and Chuan-Sheng Foo(参考訳) 多変量時系列異常検出のためのいくつかの手法が近年提案されているが、共通のデータセットとメトリクスの体系的な比較は不十分である。 本稿では,サイバー物理システムによる多変量時系列データの異常検出と診断のための,教師なしおよび半教師付きディープラーニングに基づく手法の体系的および包括的評価を行う。 従来の手法と異なり、我々は10モデルと4つのスコアリング関数のグリッドを通じて、モデルエラーのモデルと後処理、すなわちスコアリング関数を相互に独立に変更し、これらの変種を技術手法の状態と比較する。 時系列異常検出では、個々の異常点を検出するよりも異常事象を検出することが重要である。 実験により,既存の評価指標は事象を考慮しないか,あるいは良検出器と無作為検出器や全陽性検出器のような自明な検出器を区別できないことがわかった。 本稿では,これらの欠点,すなわち,時系列異常検出を評価するための合成Fスコア(Fc_1$)を克服する新しい指標を提案する。 本研究では,多変量時系列異常検出において動的スコアリング関数は静的関数よりもずっとよく機能し,スコアリング関数の選択は基礎となるモデルの選択よりも重要であることを強調する。 また, 動的ガウススコア関数を付加した, 単純かつチャネルワイドなモデルであるUnivariate Fully-Connected Auto-Encoderが, 異常検出と診断の両方の候補として出現し, 技術アルゴリズムの精度を損なう。

Several techniques for multivariate time series anomaly detection have been proposed recently, but a systematic comparison on a common set of datasets and metrics is lacking. This paper presents a systematic and comprehensive evaluation of unsupervised and semi-supervised deep-learning based methods for anomaly detection and diagnosis on multivariate time series data from cyberphysical systems. Unlike previous works, we vary the model and post-processing of model errors, i.e. the scoring functions independently of each other, through a grid of 10 models and 4 scoring functions, comparing these variants to state of the art methods. In time-series anomaly detection, detecting anomalous events is more important than detecting individual anomalous time-points. Through experiments, we find that the existing evaluation metrics either do not take events into account, or cannot distinguish between a good detector and trivial detectors, such as a random or an all-positive detector. We propose a new metric to overcome these drawbacks, namely, the composite F-score ($Fc_1$), for evaluating time-series anomaly detection. Our study highlights that dynamic scoring functions work much better than static ones for multivariate time series anomaly detection, and the choice of scoring functions often matters more than the choice of the underlying model. We also find that a simple, channel-wise model - the Univariate Fully-Connected Auto-Encoder, with the dynamic Gaussian scoring function emerges as a winning candidate for both anomaly detection and diagnosis, beating state of the art algorithms.
翻訳日:2021-09-24 15:17:37 公開日:2021-09-23
# 新しい相関型クラスタ妥当性指標を用いたクラスタリング性能解析

Clustering performance analysis using new correlation based cluster validity indices ( http://arxiv.org/abs/2109.11172v1 )

ライセンス: Link先を確認
Nathakhun Wiroonsri(参考訳) クラスタリング結果の評価には様々なクラスタ妥当性尺度が用いられる。 これらの測度を使用する主な目的の1つは、最適な未知数のクラスターを求めることである。 いくつかの測定は、密度、サイズ、形状の異なるクラスタでうまく機能する。 しかし、これらの妥当性尺度が共有する弱点の1つは、クラスタの最適な数を1つだけ提供することである。 この数字は実際には不明であり、ユーザが異なるアプリケーションに基づいて選択したいと思われる選択肢が1つ以上ある可能性がある。 本研究では,2つのデータポイント間の実際の距離と,2つのポイントが位置するクラスタのセントロイド距離との相関に基づく2つの新しいクラスタ妥当性指標を開発した。 提案した指標は, 前述した弱点を克服する異なる数のクラスタにおいて, 常にピークとなる。 さらに、導入した相関は、選択されたクラスタリング結果の品質を評価するためにも使用できる。 有名なアイリスデータセットや実世界のマーケティングアプリケーションなど、さまざまなシナリオにおけるいくつかの実験は、提案された妥当性指標とよく知られた指標を比較するために行われた。

There are various cluster validity measures used for evaluating clustering results. One of the main objective of using these measures is to seek the optimal unknown number of clusters. Some measures work well for clusters with different densities, sizes and shapes. Yet, one of the weakness that those validity measures share is that they sometimes provide only one clear optimal number of clusters. That number is actually unknown and there might be more than one potential sub-optimal options that a user may wish to choose based on different applications. We develop two new cluster validity indices based on a correlation between an actual distance between a pair of data points and a centroid distance of clusters that the two points locate in. Our proposed indices constantly yield several peaks at different numbers of clusters which overcome the weakness previously stated. Furthermore, the introduced correlation can also be used for evaluating the quality of a selected clustering result. Several experiments in different scenarios including the well-known iris data set and a real-world marketing application have been conducted in order to compare the proposed validity indices with several well-known ones.
翻訳日:2021-09-24 15:17:09 公開日:2021-09-23
# MARMOT:視覚・言語タスクのためのマルチモーダル表現構築のためのディープラーニングフレームワーク

MARMOT: A Deep Learning Framework for Constructing Multimodal Representations for Vision-and-Language Tasks ( http://arxiv.org/abs/2109.11526v1 )

ライセンス: Link先を確認
Patrick Y. Wu, Walter R. Mebane Jr(参考訳) ソーシャルメディア上での政治活動は、データ豊富な行動を示すが、膨大な量のデータは、ソーシャルメディアのほとんどのコンテンツ分析が、データラベリングのステップを必要とすることを意味する。 しかし、ほとんどの自動機械分類手法は、テキストや画像に焦点をあてて、投稿されたコンテンツの多重性を無視している。 最先端のビジョン・アンド・ランゲージモデルは、ほとんどの政治科学研究では利用できない。 本稿では,モダリティ翻訳(marmot)を用いたマルチモーダル表現と呼ばれる新しい視覚言語フレームワークを提案する。 MARMOTは、画像やテキストの欠如を観察するための表現を構築することができ、計算に高価な事前学習をモダリティ翻訳に置き換えることができる。 MARMOTは、2016年アメリカ合衆国大統領選挙における選挙事件を報告しているツイートのマルチラベル分類において、20のカテゴリの19のアンサンブルテキストのみの分類器を上回っている。 さらに、MARMOTはHateful Memesデータセットのベンチマークマルチモーダルモデルよりも大幅に改善され、精度は0.6473から0.6760に改善され、受信機の動作特性曲線(AUC)の面積は0.7141から0.7530に改善された。

Political activity on social media presents a data-rich window into political behavior, but the vast amount of data means that almost all content analyses of social media require a data labeling step. However, most automated machine classification methods ignore the multimodality of posted content, focusing either on text or images. State-of-the-art vision-and-language models are unusable for most political science research: they require all observations to have both image and text and require computationally expensive pretraining. This paper proposes a novel vision-and-language framework called multimodal representations using modality translation (MARMOT). MARMOT presents two methodological contributions: it can construct representations for observations missing image or text, and it replaces the computationally expensive pretraining with modality translation. MARMOT outperforms an ensemble text-only classifier in 19 of 20 categories in multilabel classifications of tweets reporting election incidents during the 2016 U.S. general election. Moreover, MARMOT shows significant improvements over the results of benchmark multimodal models on the Hateful Memes dataset, improving the best result set by VisualBERT in terms of accuracy from 0.6473 to 0.6760 and area under the receiver operating characteristic curve (AUC) from 0.7141 to 0.7530.
翻訳日:2021-09-24 15:16:54 公開日:2021-09-23
# 質問生成デビアス質問応答モデルは可能か? 質問文脈の語彙オーバーラップに関する事例研究

Can Question Generation Debias Question Answering Models? A Case Study on Question-Context Lexical Overlap ( http://arxiv.org/abs/2109.11256v1 )

ライセンス: Link先を確認
Kazutoshi Shinoda and Saku Sugawara and Akiko Aizawa(参考訳) 質問応答(QA)モデルは、質問内容の語彙重なりのような意図しないデータセットバイアスを利用するために実証されている。 これは、QAモデルを一般化することから、語彙重なりの低い質問のような、表現不足のサンプルに妨げる。 質問生成(QG)は、QGがQAデータセットを適切にデバイアスできる場合、QGデータセットを増大させる方法である。 しかし,近年のニューラルqgモデルは,語彙重なりの高い質問生成に偏り,データセットのバイアスを増幅することが判明した。 さらに,これらのqgモデルを用いたデータ拡張は,語彙重複度の低い質問の性能を損なうと同時に,語彙重複度の高い質問に対する性能を向上させる。 この問題に対処するために,同義語置換に基づくアプローチを用いて,語彙重なりの少ない質問を増補する。 提案手法は, 簡易かつ有効であり, 70kの合成例のみを用いて, 劣化問題を軽減できることを実証した。 我々のデータはhttps://github.com/K azutoshiShinoda/Syno nym-Replacement.comで公開されています。

Question answering (QA) models for reading comprehension have been demonstrated to exploit unintended dataset biases such as question-context lexical overlap. This hinders QA models from generalizing to under-represented samples such as questions with low lexical overlap. Question generation (QG), a method for augmenting QA datasets, can be a solution for such performance degradation if QG can properly debias QA datasets. However, we discover that recent neural QG models are biased towards generating questions with high lexical overlap, which can amplify the dataset bias. Moreover, our analysis reveals that data augmentation with these QG models frequently impairs the performance on questions with low lexical overlap, while improving that on questions with high lexical overlap. To address this problem, we use a synonym replacement-based approach to augment questions with low lexical overlap. We demonstrate that the proposed data augmentation approach is simple yet effective to mitigate the degradation problem with only 70k synthetic examples. Our data is publicly available at https://github.com/K azutoshiShinoda/Syno nym-Replacement.
翻訳日:2021-09-24 15:16:28 公開日:2021-09-23
# 要約評価のためのバランスのとれた自動化の探索

Finding a Balanced Degree of Automation for Summary Evaluation ( http://arxiv.org/abs/2109.11503v1 )

ライセンス: Link先を確認
Shiyue Zhang, Mohit Bansal(参考訳) 要約タスクに対する人的評価は信頼性が高いが、再現性やコストの問題がある。 自動メトリクスは安価で再現可能であるが、時には人間の判断と相関する。 本研究では,ピラミッド型人間評価手法に準拠した柔軟な半自動的自動要約評価指標を提案する。 半自動lite2pyramidは、参照のための再利用可能な人間ラベル要約コンテンツ単位(scu)を保ちながら、システム要約におけるscusの存在を自然言語推論(nli)モデルで判断する手作業を置き換える。 完全な自動Lite3Pyramidは、意味的役割ラベル付け(SRL)モデルを介して自動的に抽出されたセマンティックトリプルユニット(STU)をSCUに置き換える。 最後に、STUがSCUをいかにうまくシミュレートし、よりシミュレートしにくいSCUを維持できるかを予測するための単純な回帰器であるLite2.xPyramidを提案し、自動化と手動評価のスムーズな遷移とバランスを提供する。 既存の15の指標と比較して,既存の3つのメタ評価データセットと新たに収集したPyrXSum(100/10 XSumの例/システム)の人間メトリック相関を評価した。 Lite2.xPyramidは、手作業の削減のために小さな相関をオフにして、将来のデータ収集のコストを削減することができる。 私たちのコードとデータは、https://github.com/Z hangShiyue/Lite2-3Py ramidで公開されています。

Human evaluation for summarization tasks is reliable but brings in issues of reproducibility and high costs. Automatic metrics are cheap and reproducible but sometimes poorly correlated with human judgment. In this work, we propose flexible semiautomatic to automatic summary evaluation metrics, following the Pyramid human evaluation method. Semi-automatic Lite2Pyramid retains the reusable human-labeled Summary Content Units (SCUs) for reference(s) but replaces the manual work of judging SCUs' presence in system summaries with a natural language inference (NLI) model. Fully automatic Lite3Pyramid further substitutes SCUs with automatically extracted Semantic Triplet Units (STUs) via a semantic role labeling (SRL) model. Finally, we propose in-between metrics, Lite2.xPyramid, where we use a simple regressor to predict how well the STUs can simulate SCUs and retain SCUs that are more difficult to simulate, which provides a smooth transition and balance between automation and manual evaluation. Comparing to 15 existing metrics, we evaluate human-metric correlations on 3 existing meta-evaluation datasets and our newly-collected PyrXSum (with 100/10 XSum examples/systems). It shows that Lite2Pyramid consistently has the best summary-level correlations; Lite3Pyramid works better than or comparable to other automatic metrics; Lite2.xPyramid trades off small correlation drops for larger manual effort reduction, which can reduce costs for future data collection. Our code and data are publicly available at: https://github.com/Z hangShiyue/Lite2-3Py ramid
翻訳日:2021-09-24 15:16:09 公開日:2021-09-23
# 直交グラフニューラルネットワーク

Orthogonal Graph Neural Networks ( http://arxiv.org/abs/2109.11338v1 )

ライセンス: Link先を確認
Kai Guo, Kaixiong Zhou, Xia Hu, Yu Li, Yi Chang, Xin Wang(参考訳) グラフニューラルネットワーク(GNN)は,ノード表現の学習において優れていたため,大きな注目を集めている。 これらのモデルは、メッセージパッシングと機能変換関数に依存して、隣接する構造情報と特徴情報をエンコードする。 しかし、より畳み込み層を積み重ねることで、GNNの性能が大幅に低下する。 最近の研究では、ノード埋め込みが区別できないベクトルに収束するオーバースムーシングの問題にこの制限が当てはまる。 多くの実験的な観察を通して、特に過度なスムーシングが起こらなかった浅いGNNにおいて、性能を劣化させる主な要因は不安定な前方正規化と後方勾配であり、特徴変換の不適切な設計によるものであると論じている。 そこで我々は,モデルトレーニングの安定化と一般化性能の向上のために,既存のGNNバックボーンを拡張可能なOrtho-GConvという新しい直交特徴変換を提案する。 具体的には,ハイブリッドウェイト初期化,直交変換,直交正規化という3つの視点から,特徴変換の直交性を包括的に維持する。 既存のGNN(例えば、GCN, JKNet, GCNII)をOrtho-GConvと組み合わせることで、直交特徴変換の汎用性を実証し、安定したトレーニングを可能にし、ノード分類およびグラフ分類タスクの有効性を示す。

Graph neural networks (GNNs) have received tremendous attention due to their superiority in learning node representations. These models rely on message passing and feature transformation functions to encode the structural and feature information from neighbors. However, stacking more convolutional layers significantly decreases the performance of GNNs. Most recent studies attribute this limitation to the over-smoothing issue, where node embeddings converge to indistinguishable vectors. Through a number of experimental observations, we argue that the main factor degrading the performance is the unstable forward normalization and backward gradient resulted from the improper design of the feature transformation, especially for shallow GNNs where the over-smoothing has not happened. Therefore, we propose a novel orthogonal feature transformation, named Ortho-GConv, which could generally augment the existing GNN backbones to stabilize the model training and improve the model's generalization performance. Specifically, we maintain the orthogonality of the feature transformation comprehensively from three perspectives, namely hybrid weight initialization, orthogonal transformation, and orthogonal regularization. By equipping the existing GNNs (e.g. GCN, JKNet, GCNII) with Ortho-GConv, we demonstrate the generality of the orthogonal feature transformation to enable stable training, and show its effectiveness for node and graph classification tasks.
翻訳日:2021-09-24 15:15:26 公開日:2021-09-23
# ベイズネットワーク構造学習の実態調査

A survey of Bayesian Network structure learning ( http://arxiv.org/abs/2109.11415v1 )

ライセンス: Link先を確認
Neville K. Kitson, Anthony C. Constantinou, Zhigao Guo, Yang Liu, and Kiattikun Chobtham(参考訳) ベイズネットワーク(BN)は、医学、生物学、疫学、経済学、社会科学などの分野における不確実性に基づく推論ツールとして、ここ数十年で人気が高まっている。 これは、我々が介入のための行動を決定する仮説的証拠に基づいて複雑な質問に答えようとする現実世界の分野で特に当てはまる。 しかしながら、BNのグラフィカル構造を決定することは、特に因果的仮定の下で問題をモデル化する場合、大きな課題である。 この問題の解決策には、データからBNグラフを自動的に発見すること、専門家の知識に基づいてそれらを構築すること、これら2つの組み合わせが含まれる。 本稿では,データからBN構造を学習するために提案されたコンビネータアルゴリズムの総合的なレビューを行い,プロトタイプ,確立された,最先端のアプローチを含む61のアルゴリズムについて述べる。 各アルゴリズムの基本的アプローチは一貫性のある言葉で説明され、それらの類似点と相違点が強調された。 論文におけるクレームの整合性を含む,アルゴリズムの評価方法とその比較性能について論じる。 現実世界のデータセットでデータノイズを扱うためのアプローチや、学習プロセスに専門家の知識を取り入れるアプローチも取り上げている。

Bayesian Networks (BNs) have become increasingly popular over the last few decades as a tool for reasoning under uncertainty in fields as diverse as medicine, biology, epidemiology, economics and the social sciences. This is especially true in real-world areas where we seek to answer complex questions based on hypothetical evidence to determine actions for intervention. However, determining the graphical structure of a BN remains a major challenge, especially when modelling a problem under causal assumptions. Solutions to this problem include the automated discovery of BN graphs from data, constructing them based on expert knowledge, or a combination of the two. This paper provides a comprehensive review of combinatoric algorithms proposed for learning BN structure from data, describing 61 algorithms including prototypical, well-established and state-of-the-art approaches. The basic approach of each algorithm is described in consistent terms, and the similarities and differences between them highlighted. Methods of evaluating algorithms and their comparative performance are discussed including the consistency of claims made in the literature. Approaches for dealing with data noise in real-world datasets and incorporating expert knowledge into the learning process are also covered.
翻訳日:2021-09-24 15:15:02 公開日:2021-09-23
# 欠落ラベルを用いた多ラベル分類における不偏損失関数

Unbiased Loss Functions for Multilabel Classification with Missing Labels ( http://arxiv.org/abs/2109.11282v1 )

ライセンス: Link先を確認
Erik Schultheis and Rohit Babbar(参考訳) 本稿では,ラベルが独立に欠落し,既知のレートで,バイナリとマルチラベルの分類問題を考察する。 欠落ラベルは、ウィキペディアの記事と数十万の可能なタグの小さなサブセットをマッチングするなど、極端なマルチラベル分類(XMC)タスクにおいてユビキタスな現象である。 このことから、既知のノイズモデルの下での精度-at-kの偏りのない推定値である確率-scored precisionが、XMCの標準指標の1つとなっている。 トレーニング期間中にこの問題を考慮に入れているメソッドはほとんどなく、各ラベルからのコントリビューションの合計に分解可能な損失関数に制限されている。 トレーニングの典型的なアプローチは、マルチラベル問題を一連のバイナリやマルチクラスの問題に還元することであり、サロゲートタスクがリコールの最適化に一貫性があるならば、結果として生じる損失関数はラベルよりも分解できないことが示されている。 そこで本論文は,非可逆性を含む異なるマルチラベル還元に対する一意な偏りのない推定器を導出する。 これらの推定器はばらつきの増大に苦しめられ、不適切な最適化問題を引き起こす可能性がある。 理論的な考察はさらに、偏りのない推定器への切り替えがバイアス分散のトレードオフを著しく変化させ、より強固な正則化が必要となり、偏りのない推定の利点を無効にする可能性があることを示す実験的研究によって補足される。

This paper considers binary and multilabel classification problems in a setting where labels are missing independently and with a known rate. Missing labels are a ubiquitous phenomenon in extreme multi-label classification (XMC) tasks, such as matching Wikipedia articles to a small subset out of the hundreds of thousands of possible tags, where no human annotator can possibly check the validity of all the negative samples. For this reason, propensity-scored precision -- an unbiased estimate for precision-at-k under a known noise model -- has become one of the standard metrics in XMC. Few methods take this problem into account already during the training phase, and all are limited to loss functions that can be decomposed into a sum of contributions from each individual label. A typical approach to training is to reduce the multilabel problem into a series of binary or multiclass problems, and it has been shown that if the surrogate task should be consistent for optimizing recall, the resulting loss function is not decomposable over labels. Therefore, this paper derives the unique unbiased estimators for the different multilabel reductions, including the non-decomposable ones. These estimators suffer from increased variance and may lead to ill-posed optimization problems, which we address by switching to convex upper-bounds. The theoretical considerations are further supplemented by an experimental study showing that the switch to unbiased estimators significantly alters the bias-variance trade-off and may thus require stronger regularization, which in some cases can negate the benefits of unbiased estimation.
翻訳日:2021-09-24 15:14:07 公開日:2021-09-23
# 分類における能動学習のための選択アルゴリズムにおけるコストタイプ,インタラクション方式,アノテーションの性能モデルの検討

A Survey on Cost Types, Interaction Schemes, and Annotator Performance Models in Selection Algorithms for Active Learning in Classification ( http://arxiv.org/abs/2109.11301v1 )

ライセンス: Link先を確認
Marek Herde, Denis Huseljic, Bernhard Sick, Adrian Calma(参考訳) プールベースのアクティブラーニング(AL)は、アノテーションの取得が時間を要するためコストがかかるため、アノテーションプロセス(ラベル付け)を最適化することを目的としている。 この目的のために、al戦略はアノテーションをアノテーションからインテリジェントにクエリし、低いアノテーションコストで高性能な分類モデルをトレーニングします。 従来のal戦略は理想的な枠組みで機能する。 彼らは、クエリの難しさに関わらず、疲れたり、均一に課金されることのない、完全なアノテータを1つと仮定する。 しかし、現実世界のアプリケーションでは、アノテーションのミスを犯し、疲れたり複雑なクエリに直面すると反応しない人や社内の労働者など、人間のアノテータに直面することが多い。 近年,これらの問題に対処する新たなAL戦略が提案されている。 従来のALとは以下の3つの中心的な側面のうちの少なくとも1つが異なる: 1) 専門知識の欠如など様々な要因によってパフォーマンスに影響を及ぼす可能性のある(複数の)人間のアノテータを明示的に検討する。 2) 推論された分類規則に対するフィードバックを求める注釈者など, 異なる問合せ型とアノテーション型を考慮し, 人間の注釈者とのインタラクションを一般化する。 3)アノテーションや誤分類に関する複雑なコストスキームを考慮に入れます。 この調査はこれらのAL戦略の概要を提供し、それらを現実世界のALと呼んでいる。 そこで本研究では,学習サイクルの一部として,一般的な実世界のAL戦略を導入し,クエリとアノテータ選択アルゴリズムなどの要素を用いて約60の実世界のAL戦略を分類する。 最後に,AL分野における今後の研究の方向性について概説する。

Pool-based active learning (AL) aims to optimize the annotation process (i.e., labeling) as the acquisition of annotations is often time-consuming and therefore expensive. For this purpose, an AL strategy queries annotations intelligently from annotators to train a high-performance classification model at a low annotation cost. Traditional AL strategies operate in an idealized framework. They assume a single, omniscient annotator who never gets tired and charges uniformly regardless of query difficulty. However, in real-world applications, we often face human annotators, e.g., crowd or in-house workers, who make annotation mistakes and can be reluctant to respond if tired or faced with complex queries. Recently, a wide range of novel AL strategies has been proposed to address these issues. They differ in at least one of the following three central aspects from traditional AL: (1) They explicitly consider (multiple) human annotators whose performances can be affected by various factors, such as missing expertise. (2) They generalize the interaction with human annotators by considering different query and annotation types, such as asking an annotator for feedback on an inferred classification rule. (3) They take more complex cost schemes regarding annotations and misclassifications into account. This survey provides an overview of these AL strategies and refers to them as real-world AL. Therefore, we introduce a general real-world AL strategy as part of a learning cycle and use its elements, e.g., the query and annotator selection algorithm, to categorize about 60 real-world AL strategies. Finally, we outline possible directions for future research in the field of AL.
翻訳日:2021-09-24 15:13:37 公開日:2021-09-23
# 高密度大規模点雲のためのマルチレゾリューション深層学習パイプライン

Multi-resolution deep learning pipeline for dense large scale point clouds ( http://arxiv.org/abs/2109.11311v1 )

ライセンス: Link先を確認
Thomas Richard, Florent Dupont and Guillaume Lavoue(参考訳) 近年の3Dセンサの開発により,大規模シーンの高密度な3D点雲の取得が可能となった。 このような大きな点のクラウドを処理する主な課題は、高価な計算とメモリコストをもたらすデータのサイズである。 この文脈では、フル解像度のクラウドは特に処理が難しく、それがもたらす詳細はめったに利用されない。 細部の詳細は小さな物体の検出に重要であるが、大きな構造部品の局所形状や、誤解を招く深層学習ネットワークを変更することができる。 本稿では,大規模ポイントクラウドの精度を最大限に活用する新しい汎用的ディープラーニングパイプラインを提案する。 私たちのアプローチの核となる考え方は、プロセスを複数のサブネットワークに分割し、異なる解像度で動作し、それぞれのクラスを検索することです。 これにより、各クラスはサブサンプリングのノイズとメモリコストの削減、あるいはきめ細かい詳細の恩恵を受けることができる。

Recent development of 3D sensors allows the acquisition of extremely dense 3D point clouds of large-scale scenes. The main challenge of processing such large point clouds remains in the size of the data, which induce expensive computational and memory cost. In this context, the full resolution cloud is particularly hard to process, and details it brings are rarely exploited. Although fine-grained details are important for detection of small objects, they can alter the local geometry of large structural parts and mislead deep learning networks. In this paper, we introduce a new generic deep learning pipeline to exploit the full precision of large scale point clouds, but only for objects that require details. The core idea of our approach is to split up the process into multiple sub-networks which operate on different resolutions and with each their specific classes to retrieve. Thus, the pipeline allows each class to benefit either from noise and memory cost reduction of a sub-sampling or from fine-grained details.
翻訳日:2021-09-24 15:12:30 公開日:2021-09-23
# Robin HoodとMatthew Effects -- 差分プライバシーは合成データに異なる影響を与える

Robin Hood and Matthew Effects -- Differential Privacy Has Disparate Impact on Synthetic Data ( http://arxiv.org/abs/2109.11429v1 )

ライセンス: Link先を確認
Georgi Ganev, Bristena Oprisanu, and Emiliano De Cristofaro(参考訳) 微分プライバシ(DP)を使用してトレーニングされた生成モデルは、プライバシフレンドリーな方法で合成データの生成と共有にますます利用されている。 本稿では,これらのモデルに対するDPの影響を分析することを目的とした。 2つの角度からそうします 1) 合成データにおけるクラスおよびサブグループの大きさ、及び 2) 分類の正確性。 また、様々なレベルの不均衡とプライバシー予算の効果も評価する。 3つの最先端dpモデル (privbayes, dp-wgan, pate-gan) を用いて実験を行った結果, dpは生成した合成データで反対のサイズ分布となることがわかった。 より正確には、多数派と少数派のクラスとサブグループの間のギャップに影響し、それを減少させる(ロビンフッド効果)か、または増加させる("matthew"効果)。 しかし、これら2つのサイズシフトは、分類器の精度に類似した影響をもたらし、不釣り合いにデータの下位部分に影響を与える。 その結果、合成データ上でモデルの解析や訓練を行う場合や、異なるサブポピュレーションを不均一に扱う場合など、信頼性の低い結論につながる可能性がある。

Generative models trained using Differential Privacy (DP) are increasingly used to produce and share synthetic data in a privacy-friendly manner. In this paper, we set out to analyze the impact of DP on these models vis-a-vis underrepresented classes and subgroups of data. We do so from two angles: 1) the size of classes and subgroups in the synthetic data, and 2) classification accuracy on them. We also evaluate the effect of various levels of imbalance and privacy budgets. Our experiments, conducted using three state-of-the-art DP models (PrivBayes, DP-WGAN, and PATE-GAN), show that DP results in opposite size distributions in the generated synthetic data. More precisely, it affects the gap between the majority and minority classes and subgroups, either reducing it (a "Robin Hood" effect) or increasing it ("Matthew" effect). However, both of these size shifts lead to similar disparate impacts on a classifier's accuracy, affecting disproportionately more the underrepresented subparts of the data. As a result, we call for caution when analyzing or training a model on synthetic data, or risk treating different subpopulations unevenly, which might also lead to unreliable conclusions.
翻訳日:2021-09-24 15:11:40 公開日:2021-09-23
# ランク過特定ロバストマトリックスの回復 : 下位法とエクサクサリカバリ

Rank Overspecified Robust Matrix Recovery: Subgradient Method and Exact Recovery ( http://arxiv.org/abs/2109.11154v1 )

ライセンス: Link先を確認
Lijun Ding, Liwei Jiang, Yudong Chen, Qing Qu, Zhihui Zhu(参考訳) 本研究は,低位行列のロバストな回復について,本質的階数に関する知識を必要とせず,粗弱で粗悪なガウス的測定値から検討した。 我々はロバストな行列分解手法を考える。 我々は、ロバストな$\ell_1$損失関数を採用し、行列変数の過剰な因子表現を用いて未知ランクの挑戦に対処する。 次に、ステップが減少する部分勾配法を用いて、関連する非凸非スムース問題を解く。 我々は, 制限方向保存特性 (rdpp) と呼ばれる知覚行列と腐敗に関する規則性条件下では, ランクが過度に定まっても, 下位勾配法は完全低ランク解にサブリニアレートで収束することを示す。 さらに, 因子のランクが未知のランクと一致すると, 自動的に線形速度に上昇するという意味では, 結果がより一般的である。 一方, rdpp条件は, 独立あるいは敵対的スパース破壊下でのガウス計測など, 汎用的な設定下では成立し, 結果が独立な利害関係にあることを示す。 提案手法の厳密な回復と収束率の両方を過度に特定された状況下で数値的に検証する。 さらに,本実験では,ロバストマトリックスセンシングや学習用深部画像の事前学習といった過パラメータモデル下でのロバスト回復の過剰フィッティングを効果的に防止することを示す。 この正規化効果はさらなる調査に値する。

We study the robust recovery of a low-rank matrix from sparsely and grossly corrupted Gaussian measurements, with no prior knowledge on the intrinsic rank. We consider the robust matrix factorization approach. We employ a robust $\ell_1$ loss function and deal with the challenge of the unknown rank by using an overspecified factored representation of the matrix variable. We then solve the associated nonconvex nonsmooth problem using a subgradient method with diminishing stepsizes. We show that under a regularity condition on the sensing matrices and corruption, which we call restricted direction preserving property (RDPP), even with rank overspecified, the subgradient method converges to the exact low-rank solution at a sublinear rate. Moreover, our result is more general in the sense that it automatically speeds up to a linear rate once the factor rank matches the unknown rank. On the other hand, we show that the RDPP condition holds under generic settings, such as Gaussian measurements under independent or adversarial sparse corruptions, where the result could be of independent interest. Both the exact recovery and the convergence rate of the proposed subgradient method are numerically verified in the overspecified regime. Moreover, our experiment further shows that our particular design of diminishing stepsize effectively prevents overfitting for robust recovery under overparameterized models, such as robust matrix sensing and learning robust deep image prior. This regularization effect is worth further investigation.
翻訳日:2021-09-24 15:10:38 公開日:2021-09-23
# 未知データとクラス重なりを持つ逆転送攻撃

Adversarial Transfer Attacks With Unknown Data and Class Overlap ( http://arxiv.org/abs/2109.11125v1 )

ライセンス: Link先を確認
Luke E. Richards, Andr\'e Nguyen, Ryan Capps, Steven Forsythe, Cynthia Matuszek, Edward Raff(参考訳) あるモデル(サロゲート)から別のモデル(犠牲者)に敵攻撃を転送する能力は、機械学習(ML)コミュニティにおいて問題となっている。 目に見えないモデルを避ける能力は、攻撃を実装するための不快なレベルの容易さを示している。 この研究では、現在の転送攻撃の研究は攻撃者にとって非現実的な利点を持っていることに注意する。 本稿では,攻撃者や被害者が不完全な設定で使用可能なデータに焦点を絞った攻撃を,被害者に問い合わせることなく転送する最初の研究について述べる。 この脅威モデルは、医学、マルウェアなどの応用に関係している。 この新たな脅威モデルの下では、攻撃の成功率はデータやクラスの重複と相関せず、データセットによって異なる。 これにより、アタッカーとディフェンダーが互いに推論することが難しくなり、モデルの堅牢性とセキュリティに関するより広範な研究に寄与する。 我々は、攻撃者が攻撃の成功に対して確実に低いバウンドを推定できるクラス格差をシミュレートする、プロジェクテッド・グラディエント・ダイス(英語版)のマスク版を開発することでこれを改善した。

The ability to transfer adversarial attacks from one model (the surrogate) to another model (the victim) has been an issue of concern within the machine learning (ML) community. The ability to successfully evade unseen models represents an uncomfortable level of ease toward implementing attacks. In this work we note that as studied, current transfer attack research has an unrealistic advantage for the attacker: the attacker has the exact same training data as the victim. We present the first study of transferring adversarial attacks focusing on the data available to attacker and victim under imperfect settings without querying the victim, where there is some variable level of overlap in the exact data used or in the classes learned by each model. This threat model is relevant to applications in medicine, malware, and others. Under this new threat model attack success rate is not correlated with data or class overlap in the way one would expect, and varies with dataset. This makes it difficult for attacker and defender to reason about each other and contributes to the broader study of model robustness and security. We remedy this by developing a masked version of Projected Gradient Descent that simulates class disparity, which enables the attacker to reliably estimate a lower-bound on their attack's success.
翻訳日:2021-09-24 15:09:35 公開日:2021-09-23
# 人工ニューラルネットワークを用いたロボット支援手術における機器の運動からカメラ動作のタイミング予測

Predicting the Timing of Camera Movements From the Kinematics of Instruments in Robotic-Assisted Surgery Using Artificial Neural Networks ( http://arxiv.org/abs/2109.11192v1 )

ライセンス: Link先を確認
Hanna Kossowsky and Ilana Nisky(参考訳) ロボット支援手術は外科医と患者の両方に利益をもたらすが、外科医は良好な視点を得るために内視鏡カメラを調整する必要がある。 同時にカメラと手術器具を制御することは不可能であり、これらの調整は繰り返し手術を中断する。 自動カメラ制御は、この課題を克服するのに役立つが、既存のシステムのほとんどは、例えば、カメラを手術器具に従わせることによって、リアクティブである。 本稿では,ニューラルネットワークを用いたカメラ動作の予測手法を提案する。 ブタモデルを用いたロボット支援手術訓練中に記録した手術器具のキネマティクスデータを用いて検討した。 データをセグメントに分割し、各セグメントをカメラの動きに先行するセグメント、あるいはそうでないセグメントにラベル付けしました。 大きなクラス不均衡のため、トレーニングデータのバランスのとれたサブセットに基づいて、ネットワークのアンサンブルをトレーニングしました。 その結果,装置のキネマティックデータを用いて,カメラの動きがいつ起こるかを予測することができ,セグメント間隔やアンサンブルサイズの異なる性能を評価することができた。 また,カメラの動きを事前に予測できるかどうかについても検討し,カメラの動きを0.25,0.5,1秒前に予測すると,差し迫ったカメラの動きの予測と比較して98%,94%,84%の精度が得られた。 これは、カメラムーブメントイベントが計算と自律カメラムーブメントの実行に十分な時間を残せるほど早く予測できることを示し、RAMIS用の自律カメラコントローラがいつか実現可能であることを示唆している。

Robotic-assisted surgeries benefit both surgeons and patients, however, surgeons frequently need to adjust the endoscopic camera to achieve good viewpoints. Simultaneously controlling the camera and the surgical instruments is impossible, and consequentially, these camera adjustments repeatedly interrupt the surgery. Autonomous camera control could help overcome this challenge, but most existing systems are reactive, e.g., by having the camera follow the surgical instruments. We propose a predictive approach for anticipating when camera movements will occur using artificial neural networks. We used the kinematic data of the surgical instruments, which were recorded during robotic-assisted surgical training on porcine models. We split the data into segments, and labeled each either as a segment that immediately precedes a camera movement, or one that does not. Due to the large class imbalance, we trained an ensemble of networks, each on a balanced sub-set of the training data. We found that the instruments' kinematic data can be used to predict when camera movements will occur, and evaluated the performance on different segment durations and ensemble sizes. We also studied how much in advance an upcoming camera movement can be predicted, and found that predicting a camera movement 0.25, 0.5, and 1 second before they occurred achieved 98%, 94%, and 84% accuracy relative to the prediction of an imminent camera movement. This indicates that camera movement events can be predicted early enough to leave time for computing and executing an autonomous camera movement and suggests that an autonomous camera controller for RAMIS may one day be feasible.
翻訳日:2021-09-24 15:09:11 公開日:2021-09-23
# 物理インフォームド・ジェネレーティブ・逆学習の新たな視点における地球物理画像の再検討

Revisit Geophysical Imaging in A New View of Physics-informed Generative Adversarial Learning ( http://arxiv.org/abs/2109.11452v1 )

ライセンス: Link先を確認
Fangshu Yang, Jianwei Ma(参考訳) 地震波全波形インバージョン(fwi)は、シミュレーションと観測された地震計のミスフィットを反復的に最小化し、高分解能地下モデルを生成する強力な地球物理イメージング技術である。 残念なことに、最小二乗関数を持つ従来のfwiは、局所最小問題や明示的な勾配の計算といった多くの欠点に悩まされている。 特に汚染された測定値や貧弱な開始モデルでは困難である。 偏微分方程式とニューラルネットワークに依存する最近の研究は、2次元fwiに有望な性能を示している。 生成的敵ネットワークの競合学習に触発されて,波動方程式を識別ネットワークに統合し,分布感覚における物理的に一貫したモデルを正確に推定する,教師なし学習パラダイムを提案した。 我々のフレームワークは、ラベル付きトレーニングデータやネットワークの事前トレーニングは必要とせず、最小限のユーザインタラクションでマルチパラメータの反転を実現するために柔軟です。 提案手法は, 古典的アルゴリズムに勝るよく知られた合成モデルを忠実に復元する。 さらに,初期モデルやノイズに対する感度を低減し,局所ミニマ問題を回避する方法を提案する。

Seismic full waveform inversion (FWI) is a powerful geophysical imaging technique that produces high-resolution subsurface models by iteratively minimizing the misfit between the simulated and observed seismograms. Unfortunately, conventional FWI with least-squares function suffers from many drawbacks such as the local-minima problem and computation of explicit gradient. It is particularly challenging with the contaminated measurements or poor starting models. Recent works relying on partial differential equations and neural networks show promising performance for two-dimensional FWI. Inspired by the competitive learning of generative adversarial networks, we proposed an unsupervised learning paradigm that integrates wave equation with a discriminate network to accurately estimate the physically consistent models in a distribution sense. Our framework needs no labelled training data nor pretraining of the network, is flexible to achieve multi-parameters inversion with minimal user interaction. The proposed method faithfully recovers the well-known synthetic models that outperforms the classical algorithms. Furthermore, our work paves the way to sidestep the local-minima issue via reducing the sensitivity to initial models and noise.
翻訳日:2021-09-24 15:08:43 公開日:2021-09-23
# 現在の自己教師付き学習アルゴリズムは、人間レベルのオブジェクト認識を達成するためにどのくらいの“人間的”な視覚体験が必要か?

How much "human-like" visual experience do current self-supervised learning algorithms need to achieve human-level object recognition? ( http://arxiv.org/abs/2109.11523v1 )

ライセンス: Link先を確認
A. Emin Orhan(参考訳) 本稿は、人間に対する現在の自己教師型視覚表現学習アルゴリズムがどの程度優れているかという根本的な疑問に対処する。 より具体的には、imagenetのような複雑で現実的なビジュアルオブジェクト認識タスクで人間レベルのパフォーマンスに到達するために、これらのアルゴリズムがどれだけの「人間のような」自然な視覚体験が必要か? スケーリング実験によって、この答えは人間の寿命よりも数桁長い、100万年に及ぶ自然視覚体験の順序にあると推定する。 しかし、この推定はいくつかの前提に非常に敏感であり、注意深く制御された人間の実験を実行する必要性を裏付けている。 我々は、見積もりに関する主な注意事項と、この驚くべき結果の意義について論じる。

This paper addresses a fundamental question: how good are our current self-supervised visual representation learning algorithms relative to humans? More concretely, how much "human-like", natural visual experience would these algorithms need in order to reach human-level performance in a complex, realistic visual object recognition task such as ImageNet? Using a scaling experiment, here we estimate that the answer is on the order of a million years of natural visual experience, in other words several orders of magnitude longer than a human lifetime. However, this estimate is quite sensitive to some underlying assumptions, underscoring the need to run carefully controlled human experiments. We discuss the main caveats surrounding our estimate and the implications of this rather surprising result.
翻訳日:2021-09-24 15:08:23 公開日:2021-09-23
# ディープラーニング画像再構成のためのエンドツーエンドAIベースMRI再構成と病変検出パイプライン

End-to-End AI-based MRI Reconstruction and Lesion Detection Pipeline for Evaluation of Deep Learning Image Reconstruction ( http://arxiv.org/abs/2109.11524v1 )

ライセンス: Link先を確認
Ruiyang Zhao, Yuxin Zhang, Burhaneddin Yaman, Matthew P. Lungren, Michael S. Hansen(参考訳) ディープラーニング技術は、高度に加速されたMRIに対する有望なアプローチとして現れている。 しかし、近年の再構築課題は、グローバルな品質指標の点でよく機能するモデルであっても、詳細な画像が失われるなど、現在のディープラーニングアプローチにおけるいくつかの欠点を示している。 本研究では,画像再構成と病理診断のためのエンドツーエンドのディープラーニングフレームワークを提案する。 この方法は, 膝関節mri検査で半月板断裂を検出できる使用例を示し, 半月板断裂などの重要な病理を検知する能力の低下を表わす共通再構成法を用いて, 詳細な画像詳細の欠如を究明した。 SSIMなどの指標を用いた定量的再構成手法評価の一般的な実践にもかかわらず, 自動診断法としての病理診断は, 既存の定量化手法が臨床的に重要な再建成果を捉えていないことを示唆している。

Deep learning techniques have emerged as a promising approach to highly accelerated MRI. However, recent reconstruction challenges have shown several drawbacks in current deep learning approaches, including the loss of fine image details even using models that perform well in terms of global quality metrics. In this study, we propose an end-to-end deep learning framework for image reconstruction and pathology detection, which enables a clinically aware evaluation of deep learning reconstruction quality. The solution is demonstrated for a use case in detecting meniscal tears on knee MRI studies, ultimately finding a loss of fine image details with common reconstruction methods expressed as a reduced ability to detect important pathology like meniscal tears. Despite the common practice of quantitative reconstruction methodology evaluation with metrics such as SSIM, impaired pathology detection as an automated pathology-based reconstruction evaluation approach suggests existing quantitative methods do not capture clinically important reconstruction outcomes.
翻訳日:2021-09-24 15:08:11 公開日:2021-09-23
# 深部強化学習と解析的把持安定性指標を用いた触覚把握

Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic Grasp Stability Metrics ( http://arxiv.org/abs/2109.11234v1 )

ライセンス: Link先を確認
Alexander Koenig, Zixi Liu, Lucas Janson, Robert Howe(参考訳) リワード関数は、強化学習(RL)アルゴリズムの中心にある。 ロボットグルーピングでは、報酬はしばしば複雑で手動で操作される機能であり、グルーピング分析から適切な物理モデルに依存しない。 本研究は, 触覚情報と関節位置情報のみを用いて三指ハンドのグリップを精密化するRLアルゴリズムにおいて, 解析的グリップ安定度が強力な最適化目標となることを示す。 我々は2進法ベースラインを42.9%上回り、幾何的・非力的グリップ安定性の指標を組み合わせると、キュービイドの平均成功率は95.4%、シリンダー93.1%、手首位置誤差0~7cm、回転誤差0~14度となる62.3%となる。 第2の実験では、接触フィードバック(接触位置、正常値、力)で訓練されたグラブリファインメントアルゴリズムが、触覚情報を受け付けないベースラインよりも最大6.6%優れていることを示した。

Reward functions are at the heart of every reinforcement learning (RL) algorithm. In robotic grasping, rewards are often complex and manually engineered functions that do not rely on well-justified physical models from grasp analysis. This work demonstrates that analytic grasp stability metrics constitute powerful optimization objectives for RL algorithms that refine grasps on a three-fingered hand using only tactile and joint position information. We outperform a binary-reward baseline by 42.9% and find that a combination of geometric and force-agnostic grasp stability metrics yields the highest average success rates of 95.4% for cuboids, 93.1% for cylinders, and 62.3% for spheres across wrist position errors between 0 and 7 centimeters and rotational errors between 0 and 14 degrees. In a second experiment, we show that grasp refinement algorithms trained with contact feedback (contact positions, normals, and forces) perform up to 6.6% better than a baseline that receives no tactile information.
翻訳日:2021-09-24 15:07:52 公開日:2021-09-23
# 不等式制約付き確率的非線形最適化

Inequality Constrained Stochastic Nonlinear Optimization via Active-Set Sequential Quadratic Programming ( http://arxiv.org/abs/2109.11502v1 )

ライセンス: Link先を確認
Sen Na, Mihai Anitescu, Mladen Kolar(参考訳) 本研究では,金融,製造,電力システム,最近ではディープニューラルネットワークなど,多くの応用において現れる確率的目標と決定論的等式と不等式制約を用いた非線形最適化問題について検討する。 本稿では,拡張ラグランジアンをメリット関数として用いるアクティブセット確率二次計画アルゴリズムを提案する。 アルゴリズムは、拡張ラグランジアンのペナルティパラメータを適応的に選択し、確率線探索を行い、ステップサイズを決定する。 任意の初期化に対して、KKT残基の「極限」はほぼ確実にゼロに収束する。 我々のアルゴリズムと解析は、非線形不等式制約を許容することにより、先行研究である{Na2021Adaptive}をさらに発展させる。 CUTEstテストセットで収集した非線形問題のサブセットに対して,アルゴリズムの性能を示す。

We study nonlinear optimization problems with stochastic objective and deterministic equality and inequality constraints, which emerge in numerous applications including finance, manufacturing, power systems and, recently, deep neural networks. We propose an active-set stochastic sequential quadratic programming algorithm, using a differentiable exact augmented Lagrangian as the merit function. The algorithm adaptively selects the penalty parameters of augmented Lagrangian and performs stochastic line search to decide the stepsize. The global convergence is established: for any initialization, the "liminf" of the KKT residuals converges to zero almost surely. Our algorithm and analysis further develop the prior work \cite{Na2021Adaptive} by allowing nonlinear inequality constraints. We demonstrate the performance of the algorithm on a subset of nonlinear problems collected in the CUTEst test set.
翻訳日:2021-09-24 15:07:18 公開日:2021-09-23
# 非凸最適化による外乱スパース推定

Outlier-Robust Sparse Estimation via Non-Convex Optimization ( http://arxiv.org/abs/2109.11515v1 )

ライセンス: Link先を確認
Yu Cheng, Ilias Diakonikolas, Daniel M. Kane, Rong Ge, Shivam Gupta, Mahdi Soltanolkotabi(参考訳) 本研究では, スパース平均推定とロバストスパースpcaの基本的なタスクに着目し, スパース制約の存在下での非凸最適化と外乱ロバスト高次元統計の関係を考察する。 そこで本研究では,これらの問題に対する新しい簡単な最適化定式化法を考案し,関連する最適化問題の近似定常点が,基礎となるロバスト推定タスクに対する近似最適解を導出する。 結論として、定常性に効率よく収束する一階法は、これらのタスクに効率的なアルゴリズムをもたらす。 得られたアルゴリズムは単純で実践的であり、以前の研究に比べて広い分布仮定の下で成功している。

We explore the connection between outlier-robust high-dimensional statistics and non-convex optimization in the presence of sparsity constraints, with a focus on the fundamental tasks of robust sparse mean estimation and robust sparse PCA. We develop novel and simple optimization formulations for these problems such that any approximate stationary point of the associated optimization problem yields a near-optimal solution for the underlying robust estimation task. As a corollary, we obtain that any first-order method that efficiently converges to stationarity yields an efficient algorithm for these tasks. The obtained algorithms are simple, practical, and succeed under broader distributional assumptions compared to prior work.
翻訳日:2021-09-24 15:06:43 公開日:2021-09-23
# BiRdQA:トリッキーリドルに関する質問回答のためのバイリンガルデータセット

BiRdQA: A Bilingual Dataset for Question Answering on Tricky Riddles ( http://arxiv.org/abs/2109.11087v1 )

ライセンス: Link先を確認
Yunxiang Zhang, Xiaojun Wan(参考訳) 謎は、二重の意味または拒否された意味を持つ質問または文であり、そして予期せぬ答えである。 謎を解くことは、機械と人間の両方にとって困難な課題であり、比定的で創造的な自然言語や常識的な知識を持つ推論を理解する能力をテストする。 6614個の英語のリドルと8751個の中国語のリドルからなる,多言語多言語質問応答データセットであるbirdqaを紹介する。 それぞれの解答に対して、ウィキペディアから追加情報を4つ提供します。 気晴らしは、最小限のバイアスで自動的に生成される。 既存のモノリンガルQAモデルとマルチリンガルQAモデルは、我々のデータセットではうまく機能せず、機械が難解な謎を解くために人間を倒すには長い道のりがあることを示している。 データセットはコミュニティにリリースされている。

A riddle is a question or statement with double or veiled meanings, followed by an unexpected answer. Solving riddle is a challenging task for both machine and human, testing the capability of understanding figurative, creative natural language and reasoning with commonsense knowledge. We introduce BiRdQA, a bilingual multiple-choice question answering dataset with 6614 English riddles and 8751 Chinese riddles. For each riddle-answer pair, we provide four distractors with additional information from Wikipedia. The distractors are automatically generated at scale with minimal bias. Existing monolingual and multilingual QA models fail to perform well on our dataset, indicating that there is a long way to go before machine can beat human on solving tricky riddles. The dataset has been released to the community.
翻訳日:2021-09-24 15:05:54 公開日:2021-09-23
# 言語間メタプリトレーニング

Cross-Lingual Language Model Meta-Pretraining ( http://arxiv.org/abs/2109.11129v1 )

ライセンス: Link先を確認
Zewen Chi, Heyan Huang, Luyang Liu, Yu Bai, Xian-Ling Mao(参考訳) 事前学習された言語間モデルの成功は、ソース言語で下流タスクを学ぶための一般化能力と、タスク知識を他の言語に転送する言語間転送能力という2つの重要な能力に依存している。 しかし、現在の手法では、単相の言語間プリトレーニングプロセスで2つの能力を共同学習し、一般化と言語間転送のトレードオフを生じさせる。 本稿では,異なる学習段階において2つの能力を学習する言語間メタプリトレーニングを提案する。 本手法では,大規模単言語コーパス上での一般化能力を学習するクロスリンガルプリトレーニング前のメタプリトレーニングフェーズを導入する。 そして,多言語コーパス上での言語間移動学習に焦点をあてる。 実験の結果, 一般化と言語間伝達の両立が改善され, 異なる言語間での対応性が向上した。

The success of pretrained cross-lingual language models relies on two essential abilities, i.e., generalization ability for learning downstream tasks in a source language, and cross-lingual transferability for transferring the task knowledge to other languages. However, current methods jointly learn the two abilities in a single-phase cross-lingual pretraining process, resulting in a trade-off between generalization and cross-lingual transfer. In this paper, we propose cross-lingual language model meta-pretraining, which learns the two abilities in different training phases. Our method introduces an additional meta-pretraining phase before cross-lingual pretraining, where the model learns generalization ability on a large-scale monolingual corpus. Then, the model focuses on learning cross-lingual transfer on a multilingual corpus. Experimental results show that our method improves both generalization and cross-lingual transfer, and produces better-aligned representations across different languages.
翻訳日:2021-09-24 15:05:40 公開日:2021-09-23
# ニューラルマシン翻訳のための人間フィードバックによる非パラメトリックオンライン学習

Non-Parametric Online Learning from Human Feedback for Neural Machine Translation ( http://arxiv.org/abs/2109.11136v1 )

ライセンス: Link先を確認
Dongqi Wang, Haoran Wei, Zhirui Zhang, Shujian Huang, Jun Xie, Weihua Luo, Jiajun Chen(参考訳) そこで,人間の翻訳者が機械翻訳を改訂し,修正された翻訳を用いてニューラルネットワーク翻訳(NMT)システムを改善するという,人間のフィードバックによるオンライン学習の課題について検討する。 しかし、従来の手法では、高品質な性能を実現するために、オンラインモデル更新や追加の翻訳メモリネットワークが必要であるため、実際には非フレキシブルで非効率である。 本稿では,モデル構造を変更することなく,新しい非パラメトリックオンライン学習手法を提案する。 このアプローチでは、k-nearest-neighbor(k nn)モジュールが2つ導入されている。1つのモジュールは人間のフィードバックを記憶する。 EMEAおよびJRC-Acquisベンチマークで行った実験により,提案手法は翻訳精度を大幅に向上し,人間の修正操作を繰り返すことなく適応性が向上することを示した。

We study the problem of online learning with human feedback in the human-in-the-loop machine translation, in which the human translators revise the machine-generated translations and then the corrected translations are used to improve the neural machine translation (NMT) system. However, previous methods require online model updating or additional translation memory networks to achieve high-quality performance, making them inflexible and inefficient in practice. In this paper, we propose a novel non-parametric online learning method without changing the model structure. This approach introduces two k-nearest-neighbor (KNN) modules: one module memorizes the human feedback, which is the correct sentences provided by human translators, while the other balances the usage of the history human feedback and original NMT models adaptively. Experiments conducted on EMEA and JRC-Acquis benchmarks demonstrate that our proposed method obtains substantial improvements on translation accuracy and achieves better adaptation performance with less repeating human correction operations.
翻訳日:2021-09-24 15:05:23 公開日:2021-09-23
# 教師なしニューラルネットワーク翻訳におけるカリキュラム学習

Exploiting Curriculum Learning in Unsupervised Neural Machine Translation ( http://arxiv.org/abs/2109.11177v1 )

ライセンス: Link先を確認
Jinliang Lu and Jiajun Zhang(参考訳) バックトランスレーション (BT) はunsupervised neural machine translation (UNMT) において事実上の構成要素の一つとなり、UNMTに翻訳能力を持たせる。 しかし、bt が生成する疑似 bi-text はすべて、品質の多様性を考慮せずに、最適化時にクリーンデータとして扱われ、収束が遅く翻訳性能が制限される。 この問題に対処するために,複数の粒度から擬似バイテキストを徐々に活用するカリキュラム学習手法を提案する。 具体的には、まず言語間単語埋め込みを適用し、単言語文の翻訳困難度(品質)を計算する。 そして、文章は、バッチごとに、簡単から硬いバッチからUNMTに送られます。 さらに、特定のバッチにおける文/ケンの質も多様であり、さらに、計算損失時の異なる部分の貢献のバランスをとるための学習要因として提供される細粒度品質スコアを計算し、unmtモデルに高品質な擬似データに焦点を当てるように促すモデルも採用する。 WMT 14 En-Fr, WMT 16 En-De, WMT 16 En-Ro, LDC En-Zh 翻訳タスクの実験結果から,提案手法が高速収束速度で一貫した改善を実現することを示す。

Back-translation (BT) has become one of the de facto components in unsupervised neural machine translation (UNMT), and it explicitly makes UNMT have translation ability. However, all the pseudo bi-texts generated by BT are treated equally as clean data during optimization without considering the quality diversity, leading to slow convergence and limited translation performance. To address this problem, we propose a curriculum learning method to gradually utilize pseudo bi-texts based on their quality from multiple granularities. Specifically, we first apply cross-lingual word embedding to calculate the potential translation difficulty (quality) for the monolingual sentences. Then, the sentences are fed into UNMT from easy to hard batch by batch. Furthermore, considering the quality of sentences/tokens in a particular batch are also diverse, we further adopt the model itself to calculate the fine-grained quality scores, which are served as learning factors to balance the contributions of different parts when computing loss and encourage the UNMT model to focus on pseudo data with higher quality. Experimental results on WMT 14 En-Fr, WMT 16 En-De, WMT 16 En-Ro, and LDC En-Zh translation tasks demonstrate that the proposed method achieves consistent improvements with faster convergence speed.
翻訳日:2021-09-24 15:05:06 公開日:2021-09-23
# 抽象的多文書要約のための言語知識の導入

Incorporating Linguistic Knowledge for Abstractive Multi-document Summarization ( http://arxiv.org/abs/2109.11199v1 )

ライセンス: Link先を確認
Congbo Ma, Wei Emma Zhang, Hu Wang, Shubham Gupta, Mingyu Guo(参考訳) 自然言語処理タスクの中で、言語知識は、モデルがexcel表現を学習し、自然言語生成をより良く導くのを助ける上で、常に重要な役割を果たす。 本研究では, 依存関係解析を利用したニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを構築し, クロスポジション依存や文法構造を捉える。 より具体的には、依存関係情報を言語誘導型アテンション機構に処理し、さらにマルチヘッドアテンションで融合して特徴表現を改善する。 言語信号の助けを借りて文レベルの関係を正しく捉え、MDSの性能を向上させることができる。 我々のモデルはフラットトランスフォーマーと階層トランスフォーマーの2つのバージョンを持つ。 両方のバージョンに関する実証的研究は、この単純だが効果的な方法がベンチマークデータセットの既存の作業より優れていることを示している。 広範な分析は、コミュニティへの適切な参照を提供する提案モデルのさまざまな設定と構成を調査します。

Within natural language processing tasks, linguistic knowledge can always serve an important role in assisting the model to learn excel representations and better guide the natural language generation. In this work, we develop a neural network based abstractive multi-document summarization (MDS) model which leverages dependency parsing to capture cross-positional dependencies and grammatical structures. More concretely, we process the dependency information into the linguistic-guided attention mechanism and further fuse it with the multi-head attention for better feature representation. With the help of linguistic signals, sentence-level relations can be correctly captured, thus improving MDS performance. Our model has two versions based on Flat-Transformer and Hierarchical Transformer respectively. Empirical studies on both versions demonstrate that this simple but effective method outperforms existing works on the benchmark dataset. Extensive analyses examine different settings and configurations of the proposed model which provide a good reference to the community.
翻訳日:2021-09-24 15:04:39 公開日:2021-09-23
# Volctrans GLATシステム:非自己回帰翻訳とWMT21

The Volctrans GLAT System: Non-autoregressive Translation Meets WMT21 ( http://arxiv.org/abs/2109.11247v1 )

ライセンス: Link先を確認
Lihua Qian, Yi Zhou, Zaixiang Zheng, Yaoming Zhu, Zehui Lin, Jiangtao Feng, Shanbo Cheng, Lei Li, Mingxuan Wang and Hao Zhou(参考訳) 本稿では、WMT21ニュース翻訳共有タスクへのVolctransの提出について述べる。 我々はGlancing Transformerを用いて並列(非自己回帰)翻訳システムを構築し、現在普及している自己回帰モデルとは対照的に高速かつ正確な並列復号を可能にする。 我々の知る限りでは、これはWMT競合のような現実的なシナリオにスケールできる最初の並列翻訳システムである。 より重要なことに、我々の並列翻訳システムは、ドイツ語と英語の翻訳タスクにおいて最高のbleuスコア(35.0)を達成し、すべての強力な自己回帰処理を上回っています。

This paper describes the Volctrans' submission to the WMT21 news translation shared task for German->English translation. We build a parallel (i.e., non-autoregressive) translation system using the Glancing Transformer, which enables fast and accurate parallel decoding in contrast to the currently prevailing autoregressive models. To the best of our knowledge, this is the first parallel translation system that can be scaled to such a practical scenario like WMT competition. More importantly, our parallel translation system achieves the best BLEU score (35.0) on German->English translation task, outperforming all strong autoregressive counterparts.
翻訳日:2021-09-24 15:04:26 公開日:2021-09-23
# 何とも矛盾するな! CI-ToD:タスク指向対話システムにおけるベンチマーク一貫性を目指して

Don't be Contradicted with Anything! CI-ToD: Towards Benchmarking Consistency for Task-oriented Dialogue System ( http://arxiv.org/abs/2109.11292v1 )

ライセンス: Link先を確認
Libo Qin, Tianbao Xie, Shijue Huang, Qiguang Chen, Xiao Xu, Wanxiang Che(参考訳) 整合性同定は、整合性応答生成の防止に使用できるオープンドメイン対話において顕著な成功を収めた。 しかし,オープンドメイン対話の急速な発展とは対照的に,タスク指向対話への取り組みはほとんど行われていない。 本稿では,タスク指向領域において,一貫性問題はより緊急である,と論じる。 本研究では,タスク指向対話システムにおける一貫性同定のための新しいデータセットCI-ToDを紹介する。 さらに,システム応答が矛盾しているかどうかを判断するために単一ラベルをアノテートするだけでなく,よりきめ細かいラベル(対話履歴不一貫性,ユーザクエリ不一貫性,知識ベース不一貫性)を提供し,モデルに一貫性のないソースが何をもたらすかを知るように促す。 実証的な結果から、最先端の手法は51.3%しか達成できず、これは93.2%の人間のパフォーマンスをはるかに上回っている。 最後に, 課題を理解するために, 徹底的な実験と質的分析を行い, 今後の方向性について指導する。 すべてのデータセットとモデルは、 \url{https://github.com/y izhen20133868/CI-ToD }で公開されている。

Consistency Identification has obtained remarkable success on open-domain dialogue, which can be used for preventing inconsistent response generation. However, in contrast to the rapid development in open-domain dialogue, few efforts have been made to the task-oriented dialogue direction. In this paper, we argue that consistency problem is more urgent in task-oriented domain. To facilitate the research, we introduce CI-ToD, a novel dataset for Consistency Identification in Task-oriented Dialog system. In addition, we not only annotate the single label to enable the model to judge whether the system response is contradictory, but also provide more fine-grained labels (i.e., Dialogue History Inconsistency, User Query Inconsistency and Knowledge Base Inconsistency) to encourage model to know what inconsistent sources lead to it. Empirical results show that state-of-the-art methods only achieve 51.3%, which is far behind the human performance of 93.2%, indicating that there is ample room for improving consistency identification ability. Finally, we conduct exhaustive experiments and qualitative analysis to comprehend key challenges and provide guidance for future directions. All datasets and models are publicly available at \url{https://github.com/y izhen20133868/CI-ToD }.
翻訳日:2021-09-24 15:04:14 公開日:2021-09-23
# 自動ファクトチェック:調査

Automated Fact-Checking: A Survey ( http://arxiv.org/abs/2109.11427v1 )

ライセンス: Link先を確認
Xia Zeng, Amani S. Abumansour, Arkaitz Zubiaga(参考訳) オンラインの偽情報が増え続けている中、自動化された事実チェックが近年注目を集めている。 自然言語処理(NLP)の分野の研究者たちは、ファクトチェックデータセットの構築、自動化されたファクトチェックパイプラインの開発、さまざまなコンポーネントの開発をさらに研究するためのNLPメソッドの提案を通じて、このタスクに貢献している。 本稿では,クレーム検出とクレーム検証の両方をカバーする自動ファクトチェックに関する関連研究についてレビューする。

As online false information continues to grow, automated fact-checking has gained an increasing amount of attention in recent years. Researchers in the field of Natural Language Processing (NLP) have contributed to the task by building fact-checking datasets, devising automated fact-checking pipelines and proposing NLP methods to further research in the development of different components. This paper reviews relevant research on automated fact-checking covering both the claim detection and claim validation components.
翻訳日:2021-09-24 15:03:53 公開日:2021-09-23
# BERTのモースにおける単語の配置:擬単語を用いた文脈化されたベクトル空間のナビゲーション

Putting Words in BERT's Mouth: Navigating Contextualized Vector Spaces with Pseudowords ( http://arxiv.org/abs/2109.11491v1 )

ライセンス: Link先を確認
Taelin Karidi, Yichu Zhou, Nathan Schneider, Omri Abend, Vivek Srikumar(参考訳) 本研究では,文脈化されたベクトル空間(特にBERT空間)における個々の点周辺の領域を探索する手法を提案する。 入力層に静的な埋め込みを行うためのスタンドインとして文脈化された「疑似単語」を誘導し、文中の単語のマスキング予測を行うことで、個々のインスタンスを中心に制御された方法でBERT空間の幾何学を調査することができる。 本手法は,不明瞭な英単語を対象とする一組の文を用いて,異なる単語感覚に対応する領域を含む文脈化空間においてかなりの規則性を示すが,これらの領域の間には時として「センス・ヴォイド」が存在する。

We present a method for exploring regions around individual points in a contextualized vector space (particularly, BERT space), as a way to investigate how these regions correspond to word senses. By inducing a contextualized "pseudoword" as a stand-in for a static embedding in the input layer, and then performing masked prediction of a word in the sentence, we are able to investigate the geometry of the BERT-space in a controlled manner around individual instances. Using our method on a set of carefully constructed sentences targeting ambiguous English words, we find substantial regularity in the contextualized space, with regions that correspond to distinct word senses; but between these regions there are occasionally "sense voids" -- regions that do not correspond to any intelligible sense.
翻訳日:2021-09-24 15:03:42 公開日:2021-09-23
# oh-former: 人物再同定のための全相関高次変圧器

OH-Former: Omni-Relational High-Order Transformer for Person Re-Identification ( http://arxiv.org/abs/2109.11159v1 )

ライセンス: Link先を確認
Xianing Chen, Jialang Xu, Jiale Xu, Shenghua Gao(参考訳) トランスフォーマーは多くの視覚タスクで望ましい性能を示している。 しかし、人物再同定作業(reid)では、バニラ変圧器は、歩行者の劇的な変動により不十分な、高階特徴関係の豊かな文脈を残して、局所的特徴詳細を掘り下げる。 本稿では,reidのための全相関特徴をモデル化する全相関高次変換器(oh-former)を提案する。 まず、視覚的表現の能力を強化するため、各空間的位置における一対のクエリと孤立鍵に基づく注意行列を得る代わりに、非局所的機構のための高次統計情報をモデル化する。 計算コストを低減するために,各順序の対応する層に,先行混合機構で注目重みを共有する。 次に,局所関係と2次元位置情報を抽出するために畳み込みに基づく局所関係知覚モジュールを提案する。 実験結果は,market-1501,dukemtm c,msmt17,occluded-du keデータセットにおいて最先端の性能を示す。

Transformers have shown preferable performance on many vision tasks. However, for the task of person re-identification (ReID), vanilla transformers leave the rich contexts on high-order feature relations under-exploited and deteriorate local feature details, which are insufficient due to the dramatic variations of pedestrians. In this work, we propose an Omni-Relational High-Order Transformer (OH-Former) to model omni-relational features for ReID. First, to strengthen the capacity of visual representation, instead of obtaining the attention matrix based on pairs of queries and isolated keys at each spatial location, we take a step further to model high-order statistics information for the non-local mechanism. We share the attention weights in the corresponding layer of each order with a prior mixing mechanism to reduce the computation cost. Then, a convolution-based local relation perception module is proposed to extract the local relations and 2D position information. The experimental results of our model are superior promising, which show state-of-the-art performance on Market-1501, DukeMTMC, MSMT17 and Occluded-Duke datasets.
翻訳日:2021-09-24 15:02:27 公開日:2021-09-23
# きめ細かい3次元顔料登録に向けて:最適分割法と拡散法

Towards Fine-grained 3D Face Dense Registration: An Optimal Dividing and Diffusing Method ( http://arxiv.org/abs/2109.11204v1 )

ライセンス: Link先を確認
Zhenfeng Fan, Silong Peng, Shihong Xia(参考訳) 3D&2D顔解析における3D面間の高密度頂点対頂点対応は基本的な課題である。 スパースランドマークは解剖学的に接地真実対応を持つが、ほとんどの顔領域における高密度頂点対応は未知である。 この観点では、現在の文献は一般的に妥当だが多様であり、最適値から3次元の密度登録問題へと逸脱する。 本稿では,次元分解問題,すなわち直線の比例分節化による密分布を再検討し,最終解に一意に到達するために反復分割拡散法を用いる。 この方法は、分割する局所的な登録問題と拡散する線形最小二乗問題とを固定した特徴に制約を加えて、3次元に拡張する。 そこで本研究では,計算処理を高速化するマルチレゾリューションアルゴリズムを提案する。 提案手法は,3次元顔形状の局所細胞のスムーズな再配置として物理的意味を記述した,新しい局所スケーリング指標とリンクする。 公開データセットに対する大規模な実験は,提案手法の有効性を様々な面で示している。 一般に,提案手法は,粒度の細かい3d顔濃密な登録を行うためのコヒーレントな局所登録とエレガントなメッシュグリッドルーチンに繋がる。 また、顔に限定されない他の形式のデータに対する密接な対応にも適用できる。 コアコードはhttps://github.com/N aughtyZZ/3D_face_den se_registrationで公開される。

Dense vertex-to-vertex correspondence between 3D faces is a fundamental and challenging issue for 3D&2D face analysis. While the sparse landmarks have anatomically ground-truth correspondence, the dense vertex correspondences on most facial regions are unknown. In this view, the current literatures commonly result in reasonable but diverse solutions, which deviate from the optimum to the 3D face dense registration problem. In this paper, we revisit dense registration by a dimension-degraded problem, i.e. proportional segmentation of a line, and employ an iterative dividing and diffusing method to reach the final solution uniquely. This method is then extended to 3D surface by formulating a local registration problem for dividing and a linear least-square problem for diffusing, with constraints on fixed features. On this basis, we further propose a multi-resolution algorithm to accelerate the computational process. The proposed method is linked to a novel local scaling metric, where we illustrate the physical meaning as smooth rearrangement for local cells of 3D facial shapes. Extensive experiments on public datasets demonstrate the effectiveness of the proposed method in various aspects. Generally, the proposed method leads to coherent local registrations and elegant mesh grid routines for fine-grained 3D face dense registrations, which benefits many downstream applications significantly. It can also be applied to dense correspondence for other format of data which are not limited to face. The core code will be publicly available at https://github.com/N aughtyZZ/3D_face_den se_registration.
翻訳日:2021-09-24 15:02:05 公開日:2021-09-23
# ドラマ映像における感情的関係認識:データセットとベンチマーク

Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and Benchmark ( http://arxiv.org/abs/2109.11243v1 )

ライセンス: Link先を確認
Xun Gao, Yin Zhao, Jie Zhang, Longjun Cai(参考訳) 人々の感情状態を認識することは、ビデオ理解においてベーシックだが挑戦的なタスクである。 本稿では,この分野における新しい課題として,ペアワイズ感情関係認識(perr)を提案する。 本課題は,ビデオクリップ中の2つの対話的キャラクタ間の感情的関係を認識することである。 これは伝統的な感情や社会的関係認識タスクとは異なる。 キャラクターの外観、行動、顔の感情、対話、背景音楽、およびサブタイトルからなる様々な情報が最終結果に異なる形で寄与するので、より困難だがより高度なマルチモーダルモデルを開発する上で有意義なタスクとなる。 そこで本研究では,演劇や映画に基づく対話の感情的関係(erato)と呼ばれる新しいデータセットを開発した。 ERATOは、PERRタスク用の大規模マルチモーダルデータセットで、31,182本のビデオクリップを持ち、約203時間持続する。 既存のデータセットとは異なり、eratoにはマルチショット、さまざまなビデオ長、ビジュアル、オーディオ、テキストを含む複数のモダリティを備えたインタラクション中心のビデオが含まれている。 そこで本研究では,Synchronous Modal-Temporal Attention (SMTA) ユニットで構成されるベースラインモデルを提案する。 他の一般的な注意機構とは対照的に,提案するSMTAでは,約1倍の性能向上が期待できる。 ERATOと提案したSMTAは,映像理解におけるPERRタスクの新しい手法を開拓し,マルチモーダル融合手法の研究をさらに改善することを期待している。

Recognizing the emotional state of people is a basic but challenging task in video understanding. In this paper, we propose a new task in this field, named Pairwise Emotional Relationship Recognition (PERR). This task aims to recognize the emotional relationship between the two interactive characters in a given video clip. It is different from the traditional emotion and social relation recognition task. Varieties of information, consisting of character appearance, behaviors, facial emotions, dialogues, background music as well as subtitles contribute differently to the final results, which makes the task more challenging but meaningful in developing more advanced multi-modal models. To facilitate the task, we develop a new dataset called Emotional RelAtionship of inTeractiOn (ERATO) based on dramas and movies. ERATO is a large-scale multi-modal dataset for PERR task, which has 31,182 video clips, lasting about 203 video hours. Different from the existing datasets, ERATO contains interaction-centric videos with multi-shots, varied video length, and multiple modalities including visual, audio and text. As a minor contribution, we propose a baseline model composed of Synchronous Modal-Temporal Attention (SMTA) unit to fuse the multi-modal information for the PERR task. In contrast to other prevailing attention mechanisms, our proposed SMTA can steadily improve the performance by about 1\%. We expect the ERATO as well as our proposed SMTA to open up a new way for PERR task in video understanding and further improve the research of multi-modal fusion methodology.
翻訳日:2021-09-24 15:01:41 公開日:2021-09-23
# 並列回帰によるエンド・ツー・エンド高密度ビデオグラウンド

End-to-End Dense Video Grounding via Parallel Regression ( http://arxiv.org/abs/2109.11265v1 )

ライセンス: Link先を確認
Fengyuan Shi, Limin Wang, Weilin Huang(参考訳) video groundingは、言語クエリが与えられたビデオの中で、対応するビデオモーメントをローカライズすることを目的としている。 既存のメソッドは、プロポーザル・アンド・マッチや融合・アンド・検出問題としてキャストすることで、間接的にこのタスクに対処することが多い。 これらのサロゲート問題の解決には、トレーニング中の高度なラベル割り当てと、ほぼ重複した結果の手作りの削除が必要となることが多い。 一方、既存の作品では、単一の文を入力としてスパースビデオのグラウンド化に重点を置いており、不明瞭な記述のため、不明瞭なローカライゼーションをもたらす可能性がある。 本稿では,複数のモーメントと段落を同時に入力としてローカライズすることにより,高密度ビデオグラウンドングの新たな問題に取り組む。 言語条件付回帰としてのビデオグラウンドングの観点から、トランスフォーマライクアーキテクチャ(prvg)を再提案することにより、エンドツーエンドの並列デコーディングパラダイムを提案する。 私たちのPRVGのキーデザインは、言語をクエリとして使用し、言語に変調された視覚表現に基づいてモーメント境界を直接回帰することです。 設計の単純さにより、我々のPRVGフレームワークは異なるテストスキーム(疎あるいは密接なグラウンド)に適用でき、後処理のテクニックを使わずに効率的な推論が可能になる。 さらに,モデルの収束に寄与するモーメント持続時間に不変なprvgのトレーニングのガイドとして,堅牢な提案レベルの注意損失を考案する。 我々は、ActivityNet CaptionsとTACoSの2つのビデオグラウンドベンチマークで実験を行い、PRVGが従来の手法を大幅に上回ることを示す。 また,ビデオグラウンディングにおける並列回帰パラダイムの有効性を検討するために,詳細な研究を行った。

Video grounding aims to localize the corresponding video moment in an untrimmed video given a language query. Existing methods often address this task in an indirect way, by casting it as a proposal-and-match or fusion-and-detection problem. Solving these surrogate problems often requires sophisticated label assignment during training and hand-crafted removal of near-duplicate results. Meanwhile, existing works typically focus on sparse video grounding with a single sentence as input, which could result in ambiguous localization due to its unclear description. In this paper, we tackle a new problem of dense video grounding, by simultaneously localizing multiple moments with a paragraph as input. From a perspective on video grounding as language conditioned regression, we present an end-to-end parallel decoding paradigm by re-purposing a Transformer-alike architecture (PRVG). The key design in our PRVG is to use languages as queries, and directly regress the moment boundaries based on language-modulated visual representations. Thanks to its simplicity in design, our PRVG framework can be applied in different testing schemes (sparse or dense grounding) and allows for efficient inference without any post-processing technique. In addition, we devise a robust proposal-level attention loss to guide the training of PRVG, which is invariant to moment duration and contributes to model convergence. We perform experiments on two video grounding benchmarks of ActivityNet Captions and TACoS, demonstrating that our PRVG can significantly outperform previous methods. We also perform in-depth studies to investigate the effectiveness of parallel regression paradigm on video grounding.
翻訳日:2021-09-24 15:01:15 公開日:2021-09-23
# 産業用表面欠陥検出システムの深層学習戦略

Deep Learning Strategies for Industrial Surface Defect Detection Systems ( http://arxiv.org/abs/2109.11304v1 )

ライセンス: Link先を確認
Dominik Martin, Simon Heinzel, Johannes Kunze von Bischhoffshausen, Niklas K\"uhl(参考訳) 深層学習法は、画像処理の様々な分野で従来のコンピュータビジョン法より優れていることが証明されている。 しかし, 工業用表面欠陥検出システムにおける深層学習の適用は, 訓練データの不足, 高価なデータ生成プロセス, 小型化, まれな表面欠陥の発生などにより困難である。 文献や高分子製品製造のユースケースから,上記の課題を反映した設計要件を特定した。 これらの課題に対処し,ディープラーニング研究から得られる設計原則と特徴を概念化する。 最後に, 産業用表面欠陥検出ユースケースに基づく実用的なガイドラインと戦略の形式で, 得られた設計知識をインスタンス化し, 評価する。 そこで本論文は,(1)深層学習に基づく表面欠陥検出の産業的応用に向けた課題を体系的に特定すること,(2)これらを克服するための戦略,(3)戦略の適用性および有用性を評価する実験事例研究により,学界と実践に寄与する。

Deep learning methods have proven to outperform traditional computer vision methods in various areas of image processing. However, the application of deep learning in industrial surface defect detection systems is challenging due to the insufficient amount of training data, the expensive data generation process, the small size, and the rare occurrence of surface defects. From literature and a polymer products manufacturing use case, we identify design requirements which reflect the aforementioned challenges. Addressing these, we conceptualize design principles and features informed by deep learning research. Finally, we instantiate and evaluate the gained design knowledge in the form of actionable guidelines and strategies based on an industrial surface defect detection use case. This article, therefore, contributes to academia as well as practice by (1) systematically identifying challenges for the industrial application of deep learning-based surface defect detection, (2) strategies to overcome these, and (3) an experimental case study assessing the strategies' applicability and usefulness.
翻訳日:2021-09-24 15:00:42 公開日:2021-09-23
# 一般化・インクリメンタルFew-Shotオブジェクト検出に向けて

Towards Generalized and Incremental Few-Shot Object Detection ( http://arxiv.org/abs/2109.11336v1 )

ライセンス: Link先を確認
Yiting Li, Haiyue Zhu, Jun Ma, Chek Sing Teo, Cheng Xiang, Prahlad Vadakkepat, Tong Heng Lee(参考訳) 実世界のオブジェクト検出は、その検出クラスを漸進的に拡大できる学習拡張性を備えることが望まれる。 さらに、数少ない注釈付きトレーニングサンプルからの学習は、自律運転やロボティクスなど多くのアプリケーションで期待されているオブジェクト検出器の柔軟性をさらに向上させる。 しかし、このような連続的な学習シナリオでは、わずかなショットのトレーニングサンプルが一般的に壊滅的な忘れや劇的な過度な過失を引き起こす。 本稿では,上述した増分的な数ショット学習問題に対処するため,数ショットサンプルからの効果的な連続学習を実現するために,新たにiFSOD法を提案する。 特に、古い知識の保持と新しいクラスへの適応を同時に行うために、base と novel (few-shot) クラスの特徴表現を分離するために、double-branch framework (dbf) が提案されている。 さらに、シーケンシャルな新しいクラスに適応する際に、古いクラスの長期記憶を効果的に保存するプログレッシブモデル更新ルールを実行する。 さらに,新しいクラスの決定領域を拡張し,特徴の識別を改善するために,タスク間分離損失を提案する。 我々はPascal VOCとMS-COCOの両方で実験を行い、本手法がインクリメンタル・ショット検出の問題を効果的に解決し、ベースクラスと新規クラスの両方で検出精度を大幅に向上できることを実証した。

Real-world object detection is highly desired to be equipped with the learning expandability that can enlarge its detection classes incrementally. Moreover, such learning from only few annotated training samples further adds the flexibility for the object detector, which is highly expected in many applications such as autonomous driving, robotics, etc. However, such sequential learning scenario with few-shot training samples generally causes catastrophic forgetting and dramatic overfitting. In this paper, to address the above incremental few-shot learning issues, a novel Incremental Few-Shot Object Detection (iFSOD) method is proposed to enable the effective continual learning from few-shot samples. Specifically, a Double-Branch Framework (DBF) is proposed to decouple the feature representation of base and novel (few-shot) class, which facilitates both the old-knowledge retention and new-class adaption simultaneously. Furthermore, a progressive model updating rule is carried out to preserve the long-term memory on old classes effectively when adapt to sequential new classes. Moreover, an inter-task class separation loss is proposed to extend the decision region of new-coming classes for better feature discrimination. We conduct experiments on both Pascal VOC and MS-COCO, which demonstrate that our method can effectively solve the problem of incremental few-shot detection and significantly improve the detection accuracy on both base and novel classes.
翻訳日:2021-09-24 15:00:24 公開日:2021-09-23
# pranet: 人工エージェントによるポイントクラウド登録

PRANet: Point Cloud Registration with an Artificial Agent ( http://arxiv.org/abs/2109.11349v1 )

ライセンス: Link先を確認
Lisa Tse, Abdoul Aziz Amadou, Axen Georget, Ahmet Tuysuzoglu(参考訳) ポイントクラウド登録は、ポーズ推定や3dローカライズなど、多数のコンピュータビジョンタスクにおいて重要な役割を果たす。 近年,この問題に取り組むための深層学習手法が多数提案されている。 これらのアプローチのほとんどは、変換が計算される点または特徴対応を見つける。 我々は、異なる視点を示し、登録問題をマルコフ決定プロセスとして構成する。 問題は変換を直接探索する代わりに、この変換と等価な変換および回転作用の列を見つけることの1つとなる。 そこで本研究では,深層教師あり学習を用いたエンドツーエンド学習エージェントを提案する。 従来の強化学習技術とは対照的に、観察はサンプル化されるため、経験的再生バッファは不要であり、より合理化されたトレーニングプロセスとなる。 modelnet40の実験では、クリーンでノイズの多い、部分的に見えるデータセットの場合、最先端の技術に匹敵する、あるいは優れている結果が示されている。

Point cloud registration plays a critical role in a multitude of computer vision tasks, such as pose estimation and 3D localization. Recently, a plethora of deep learning methods were formulated that aim to tackle this problem. Most of these approaches find point or feature correspondences, from which the transformations are computed. We give a different perspective and frame the registration problem as a Markov Decision Process. Instead of directly searching for the transformation, the problem becomes one of finding a sequence of translation and rotation actions that is equivalent to this transformation. To this end, we propose an artificial agent trained end-to-end using deep supervised learning. In contrast to conventional reinforcement learning techniques, the observations are sampled i.i.d. and thus no experience replay buffer is required, resulting in a more streamlined training process. Experiments on ModelNet40 show results comparable or superior to the state of the art in the case of clean, noisy and partially visible datasets.
翻訳日:2021-09-24 14:59:56 公開日:2021-09-23
# コンピュータビジョンにおける連続学習の最近の進歩:概要

Recent Advances of Continual Learning in Computer Vision: An Overview ( http://arxiv.org/abs/2109.11369v1 )

ライセンス: Link先を確認
Haoxuan Qu, Hossein Rahmani, Li Xu, Bryan Williams, Jun Liu(参考訳) すべてのトレーニングデータが一度に利用できるバッチ学習とは対照的に、連続学習は知識を蓄積し、逐次的に利用可能なデータで継続的に学習する手法のファミリーを表す。 異なる時間ステップで新しい知識を学習し、融合し、蓄積する能力を持つ人間の学習プロセスと同様に、連続学習は高い実用的意義を持つと考えられている。 したがって、連続学習は様々な人工知能タスクで研究されてきた。 本稿では,コンピュータビジョンにおける連続学習の最近の進歩について概観する。 特に、作品群は、正規化、知識蒸留、記憶、生成再生、パラメータ分離、および上記の技法の組み合わせを含む代表的技術によってグループ化されている。 これらの技術の各カテゴリについて,その特性とコンピュータビジョンへの応用について述べる。 この概要の最後には、連続的な学習が十分に研究されていない間、連続的な知識蓄積が潜在的に有用であるいくつかの亜領域について論じる。

In contrast to batch learning where all training data is available at once, continual learning represents a family of methods that accumulate knowledge and learn continuously with data available in sequential order. Similar to the human learning process with the ability of learning, fusing, and accumulating new knowledge coming at different time steps, continual learning is considered to have high practical significance. Hence, continual learning has been studied in various artificial intelligence tasks. In this paper, we present a comprehensive review of the recent progress of continual learning in computer vision. In particular, the works are grouped by their representative techniques, including regularization, knowledge distillation, memory, generative replay, parameter isolation, and a combination of the above techniques. For each category of these techniques, both its characteristics and applications in computer vision are presented. At the end of this overview, several subareas, where continuous knowledge accumulation is potentially helpful while continual learning has not been well studied, are discussed.
翻訳日:2021-09-24 14:59:41 公開日:2021-09-23
# 画像融合のためのクロス注意誘導高密度ネットワーク

Cross Attention-guided Dense Network for Images Fusion ( http://arxiv.org/abs/2109.11393v1 )

ライセンス: Link先を確認
Zhengwen Shen, Jun Wang, Zaiyu Pan, Yulian Li, Jiangyu Wang(参考訳) 近年,コンピュータビジョンにおける様々な応用が,画像融合に広く用いられ,十分な性能を示す深層学習によって大きな進歩を遂げている。 しかし、異なるソース画像の空間的対応をモデル化する能力に限界があるため、既存の教師なし画像融合モデルが適切な特徴を抽出し、適応的かつバランスの取れた融合を実現するためには、依然として大きな課題である。 本稿では,マルチモーダル画像融合,マルチ露光画像融合,マルチフォーカス画像融合のための統一的で教師なしのフレームワークであるクロスアテンション誘導画像融合ネットワークを提案する。 既存のセルフアテンションモジュールとは異なり、クロスアテンションモジュールは異なるソースイメージ間の相互相関をモデル化することにフォーカスしています。 提案するクロスアテンションモジュールをコアブロックとして,空間対応を動的に学習し,異なる入力画像から重要な詳細のアライメントを改善するために,密結合型クロスアテンション誘導ネットワークを構築した。 一方、遠距離情報をモデル化する補助ブランチも設計され、融合画像の再構築のためにマージネットワークが接続される。 公開データセット上では広範な実験が行われており,提案手法が定量的かつ定性的に最先端のモデルを上回ることを実証した。

In recent years, various applications in computer vision have achieved substantial progress based on deep learning, which has been widely used for image fusion and shown to achieve adequate performance. However, suffering from limited ability in modelling the spatial correspondence of different source images, it still remains a great challenge for existing unsupervised image fusion models to extract appropriate feature and achieves adaptive and balanced fusion. In this paper, we propose a novel cross attention-guided image fusion network, which is a unified and unsupervised framework for multi-modal image fusion, multi-exposure image fusion, and multi-focus image fusion. Different from the existing self-attention module, our cross attention module focus on modelling the cross-correlation between different source images. Using the proposed cross attention module as core block, a densely connected cross attention-guided network is built to dynamically learn the spatial correspondence to derive better alignment of important details from different input images. Meanwhile, an auxiliary branch is also designed to model the long-range information, and a merging network is attached to finally reconstruct the fusion image. Extensive experiments have been carried out on publicly available datasets, and the results demonstrate that the proposed model outperforms the state-of-the-art quantitatively and qualitatively.
翻訳日:2021-09-24 14:59:25 公開日:2021-09-23
# 構音手に対する骨格駆動型神経占有表現

A Skeleton-Driven Neural Occupancy Representation for Articulated Hands ( http://arxiv.org/abs/2109.11399v1 )

ライセンス: Link先を確認
Korrawe Karunratanakul, Adrian Spurr, Zicong Fan, Otmar Hilliges, Siyu Tang(参考訳) 本稿では,3dキーポイントと神経暗示面の利点を橋渡しし,エンドツーエンドのトレーニング可能なアーキテクチャで使用できる手関節占有(halo)について述べる。 既存の統計パラメトリックハンドモデル(例えば~MANO)とは異なり、HALOは直接3D関節骨格を入力として利用し、ポーズした手の表面を表す神経占有量を生成する。 HALOの主な利点は、(1)精度の点で利点があり、潜伏するハンドモデルパラメータよりもニューラルネットワークで学習しやすい3Dキーポイントによって駆動され、(2)ポーズハンドの異なるボリューム占有率表現を提供し、(3)エンドツーエンドでトレーニングでき、3Dキーポイントの学習に役立つ手表面での損失の定式化を可能にする。 3dオブジェクトを把持する手の条件生成タスクにおけるhaloの適用性を示す。 HALOの識別可能な性質は、身体的妥当性とユーザの好みの両方の観点から、合成された手の品質を向上させることが示されている。

We present Hand ArticuLated Occupancy (HALO), a novel representation of articulated hands that bridges the advantages of 3D keypoints and neural implicit surfaces and can be used in end-to-end trainable architectures. Unlike existing statistical parametric hand models (e.g.~MANO), HALO directly leverages 3D joint skeleton as input and produces a neural occupancy volume representing the posed hand surface. The key benefits of HALO are (1) it is driven by 3D key points, which have benefits in terms of accuracy and are easier to learn for neural networks than the latent hand-model parameters; (2) it provides a differentiable volumetric occupancy representation of the posed hand; (3) it can be trained end-to-end, allowing the formulation of losses on the hand surface that benefit the learning of 3D keypoints. We demonstrate the applicability of HALO to the task of conditional generation of hands that grasp 3D objects. The differentiable nature of HALO is shown to improve the quality of the synthesized hands both in terms of physical plausibility and user preference.
翻訳日:2021-09-24 14:59:02 公開日:2021-09-23
# ビデオオブジェクトセグメンテーションのための階層的メモリマッチングネットワーク

Hierarchical Memory Matching Network for Video Object Segmentation ( http://arxiv.org/abs/2109.11404v1 )

ライセンス: Link先を確認
Hongje Seong, Seoung Wug Oh, Joon-Young Lee, Seongwon Lee, Suhyeon Lee, Euntai Kim(参考訳) 半教師付きビデオオブジェクトセグメンテーションのための階層型メモリマッチングネットワーク(HMMN)を提案する。 近年のメモリベース手法 [33] に基づき, 時間的平滑さを生かしながら, 複数スケールでメモリ読み取りが可能な2つの先進的メモリ読み取りモジュールを提案する。 まず,従来のメモリベース手法で広く採用されている非局所的な高密度メモリリードを代替するカーネル誘導型メモリマッチングモジュールを提案する。 モジュールはメモリ読み込みに時間的滑らかさの制約を課し、正確なメモリ検索につながる。 さらに,階層的メモリマッチングスキームを導入し,細かなスケールで読み出したメモリを粗いスケールでガイドするtop-k誘導型メモリマッチングモジュールを提案する。 モジュールでは,複数のスケールでメモリ読み出しを効率的に行い,高レベルセマンティクスと低レベル細粒度のメモリ機能を両立して詳細なオブジェクトマスクを予測する。 我々のネットワークは、DAVIS 2016/2017(90.8%と84.7%)とYouTube-VOS 2018/2019(82.6%と82.5%)の検証セットと、DAVIS 2017(78.6%)のテストデブセットの最先端のパフォーマンスを達成する。 ソースコードとモデルはオンラインで入手できる。 https://github.com/H ongje/HMMN。

We present Hierarchical Memory Matching Network (HMMN) for semi-supervised video object segmentation. Based on a recent memory-based method [33], we propose two advanced memory read modules that enable us to perform memory reading in multiple scales while exploiting temporal smoothness. We first propose a kernel guided memory matching module that replaces the non-local dense memory read, commonly adopted in previous memory-based methods. The module imposes the temporal smoothness constraint in the memory read, leading to accurate memory retrieval. More importantly, we introduce a hierarchical memory matching scheme and propose a top-k guided memory matching module in which memory read on a fine-scale is guided by that on a coarse-scale. With the module, we perform memory read in multiple scales efficiently and leverage both high-level semantic and low-level fine-grained memory features to predict detailed object masks. Our network achieves state-of-the-art performance on the validation sets of DAVIS 2016/2017 (90.8% and 84.7%) and YouTube-VOS 2018/2019 (82.6% and 82.5%), and test-dev set of DAVIS 2017 (78.6%). The source code and model are available online: https://github.com/H ongje/HMMN.
翻訳日:2021-09-24 14:58:40 公開日:2021-09-23
# LGD:ラベル誘導型自己蒸留による物体検出

LGD: Label-guided Self-distillation for Object Detection ( http://arxiv.org/abs/2109.11496v1 )

ライセンス: Link先を確認
Peizhen Zhang, Zijian Kang, Tong Yang, Xiangyu Zhang, Nanning Zheng, Jian Sun(参考訳) 本稿では,LGD(Label-Guided Self-Distillation)と呼ばれる汎用オブジェクト検出のための最初の自己蒸留フレームワークを提案する。 以前の研究では、蒸留の指導的知識を提供するために、強い事前教育を受けた教師に頼っていた。 しかし、これは現実世界では利用できない。 その代わり、オブジェクト間の相互関係モデリングによって指示的知識を生成し、学生表現と正規ラベルのみを必要とする。 詳細は,ラベル出現エンコーディングのスパース,オブジェクト間関係適応,オブジェクト内知識マッピングを用いて指導的知識を得る。 LGDのモジュールは、学生検出器でエンドツーエンドに訓練され、推論で破棄される。 経験的に、lgdは様々な検出器、データセット、およびインスタンスセグメンテーションのような広範囲なタスクで適切な結果を得る。 例えば、MS-COCOデータセットでは、LGDはResNet-50でRetinaNetを36.2%から39.0% mAP (+ 2.8%)に改善している。 ResNeXt-101 DCN v2 の ResNeXt-101 DCN v2 (46.1%) のような強力な検出器では、LGD は47.9% (+ 1.8%) に達する。 CrowdHumanデータセットの歩行者検出では、LGDはResNet-50でより高速なR-CNNでmMRを2.3%向上させる。 従来の教師ベースのFGFIと比較すると、LGDは予習された教師を必要とせず、本質的な学生学習よりも51%低い訓練コストで性能が向上する。

In this paper, we propose the first self-distillation framework for general object detection, termed LGD (Label-Guided self-Distillation). Previous studies rely on a strong pretrained teacher to provide instructive knowledge for distillation. However, this could be unavailable in real-world scenarios. Instead, we generate an instructive knowledge by inter-and-intra relation modeling among objects, requiring only student representations and regular labels. In detail, our framework involves sparse label-appearance encoding, inter-object relation adaptation and intra-object knowledge mapping to obtain the instructive knowledge. Modules in LGD are trained end-to-end with student detector and are discarded in inference. Empirically, LGD obtains decent results on various detectors, datasets, and extensive task like instance segmentation. For example in MS-COCO dataset, LGD improves RetinaNet with ResNet-50 under 2x single-scale training from 36.2% to 39.0% mAP (+ 2.8%). For much stronger detectors like FCOS with ResNeXt-101 DCN v2 under 2x multi-scale training (46.1%), LGD achieves 47.9% (+ 1.8%). For pedestrian detection in CrowdHuman dataset, LGD boosts mMR by 2.3% for Faster R-CNN with ResNet-50. Compared with a classical teacher-based method FGFI, LGD not only performs better without requiring pretrained teacher but also with 51% lower training cost beyond inherent student learning.
翻訳日:2021-09-24 14:58:16 公開日:2021-09-23
# アルゴリズムによる強化学習

Reinforcement Learning Under Algorithmic Triage ( http://arxiv.org/abs/2109.11328v1 )

ライセンス: Link先を確認
Eleni Straitouri, Adish Singla, Vahid Balazadeh Meresht, Manuel Gomez-Rodriguez(参考訳) アルゴリズムトリアージの下で学習する方法は主に、各決定または予測が互いに独立している教師付き学習環境に焦点を当てている。 アルゴリズムのトリアージの下では、教師付き学習モデルがインスタンスのごく一部を予測し、人間が残りのインスタンスを予測する。 本研究では,アルゴリズム的トリアージ下での運用に最適化された強化学習モデルの開発に向けて,第一歩を踏み出す。 この目的のために,選択肢の枠組みを通じて問題を考察し,トリアージの下で強化学習モデルを学ぶための2段階アクター批判手法を開発した。 第1ステージは、人間が単独で操作した環境で収集された人間データを使用して、オフライン、オフポリシートレーニングを行う。 第2段階は、上記人間のデータから予測することが難しい人間の政策に切り替えが与える影響を考慮し、政治上の訓練を行う。 合成自動車運転タスクにおける広範囲なシミュレーション実験により,二段階法を用いて訓練した機械モデルとトリアージポリシーが,人間の政策を効果的に補完し,いくつかの競合ベースラインで提供されるものを上回ることを示した。

Methods to learn under algorithmic triage have predominantly focused on supervised learning settings where each decision, or prediction, is independent of each other. Under algorithmic triage, a supervised learning model predicts a fraction of the instances and humans predict the remaining ones. In this work, we take a first step towards developing reinforcement learning models that are optimized to operate under algorithmic triage. To this end, we look at the problem through the framework of options and develop a two-stage actor-critic method to learn reinforcement learning models under triage. The first stage performs offline, off-policy training using human data gathered in an environment where the human has operated on their own. The second stage performs on-policy training to account for the impact that switching may have on the human policy, which may be difficult to anticipate from the above human data. Extensive simulation experiments in a synthetic car driving task show that the machine models and the triage policies trained using our two-stage method effectively complement human policies and outperform those provided by several competitive baselines.
翻訳日:2021-09-24 14:55:51 公開日:2021-09-23
# 半教師付きデータプログラミングのためのラベリング関数のロバスト集約学習

Learning to Robustly Aggregate Labeling Functions for Semi-supervised Data Programming ( http://arxiv.org/abs/2109.11410v1 )

ライセンス: Link先を確認
Ayush Maheshwari, Krishnateja Killamsetty, Ganesh Ramakrishnan, Rishabh Iyer, Marina Danilevsky and Lucian Popa(参考訳) 教師付き機械学習における重要なボトルネックは、大量のラベル付きデータを必要とすることだ。 しかし、モデルの再訓練に不十分な少量のラベル付きデータが、人間の解釈可能なラベル付け関数(LF)を生成するために効果的に使用できることが示されている。 これらのLFは、現在では一般的にデータプログラミングと呼ばれるパラダイムにおいて、大量のノイズ付きラベル付きデータを生成するために使われてきた。 しかし、LFを自動生成する以前のアプローチでは、与えられたラベル付きデータをモデルトレーニングにさらに利用しようとはしないため、パフォーマンス改善の機会が与えられる。 さらに、lfは、比較的小さなラベル付きデータセットから生成されるため、ノイズが発生しやすく、これらのlfをナイーブに集約することで、実際には非常にパフォーマンスが低下する可能性がある。 本研究では,この2つの限界を解くために,LFベースの再重み付けフレームワーク \ouralgo{} を提案する。 本アルゴリズムは,lf誘導に使用する(同じ)ラベル付きデータセットとラベル付きデータとの結合モデルを半教師付きで学習し,より批判的に,頑健な2レベル最適化アルゴリズムを用いた半教師付き損失への寄与に影響を及ぼす。 提案手法は,複数のテキスト分類データセットにおける先行手法を有意に上回っていることを示す。

A critical bottleneck in supervised machine learning is the need for large amounts of labeled data which is expensive and time consuming to obtain. However, it has been shown that a small amount of labeled data, while insufficient to re-train a model, can be effectively used to generate human-interpretable labeling functions (LFs). These LFs, in turn, have been used to generate a large amount of additional noisy labeled data, in a paradigm that is now commonly referred to as data programming. However, previous approaches to automatically generate LFs make no attempt to further use the given labeled data for model training, thus giving up opportunities for improved performance. Moreover, since the LFs are generated from a relatively small labeled dataset, they are prone to being noisy, and naively aggregating these LFs can lead to very poor performance in practice. In this work, we propose an LF based reweighting framework \ouralgo{} to solve these two critical limitations. Our algorithm learns a joint model on the (same) labeled dataset used for LF induction along with any unlabeled data in a semi-supervised manner, and more critically, reweighs each LF according to its goodness, influencing its contribution to the semi-supervised loss using a robust bi-level optimization algorithm. We show that our algorithm significantly outperforms prior approaches on several text classification datasets.
翻訳日:2021-09-24 14:55:32 公開日:2021-09-23
# マルチエージェント強化学習における信頼領域政策の最適化

Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2109.11251v1 )

ライセンス: Link先を確認
Jakub Grudzien Kuba, Ruiqing Chen, Munning Wen, Ying Wen, Fanglei Sun, Jun Wang, Yaodong Yang(参考訳) 信頼領域法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができ、様々なタスクにおいて優れたパフォーマンスが得られる。 残念なことに、マルチエージェント強化学習(marl:multi-agent reinforcement learning)に関しては、単調改善の性質は単純に適用されない可能性がある。 その結果、各エージェントが個別に行動する共同政策の改善を保証することは、未解決の課題である。 本稿では,信頼領域学習の理論をMARLに拡張する。 我々の発見の中心は、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームである。 そこで我々は,不均一信頼地域政策最適化 (HATPRO) と不均一信頼地域政策最適化 (HAPPO) アルゴリズムを開発した。 多くの既存のMARLアルゴリズムとは異なり、HATRPO/HAPPOはパラメータを共有するエージェントを必要としない。 最も重要なことは、理論上HATRPO/HAPPOの単調改善特性を正当化することである。 提案手法をMulti-Agent MuJoCoとStarCraftIIの一連のタスクで評価する。 その結果, HATRPO と HAPPO はIPPO, MAPPO, MADDPG などの試験作業において, 高いベースラインを著しく上回り, 新たな最先端技術が確立された。

Trust region methods rigorously enabled reinforcement learning (RL) agents to learn monotonically improving policies, leading to superior performance on a variety of tasks. Unfortunately, when it comes to multi-agent reinforcement learning (MARL), the property of monotonic improvement may not simply apply; this is because agents, even in cooperative games, could have conflicting directions of policy updates. As a result, achieving a guaranteed improvement on the joint policy where each agent acts individually remains an open challenge. In this paper, we extend the theory of trust region learning to MARL. Central to our findings are the multi-agent advantage decomposition lemma and the sequential policy update scheme. Based on these, we develop Heterogeneous-Agent Trust Region Policy Optimisation (HATPRO) and Heterogeneous-Agent Proximal Policy Optimisation (HAPPO) algorithms. Unlike many existing MARL algorithms, HATRPO/HAPPO do not need agents to share parameters, nor do they need any restrictive assumptions on decomposibility of the joint value function. Most importantly, we justify in theory the monotonic improvement property of HATRPO/HAPPO. We evaluate the proposed methods on a series of Multi-Agent MuJoCo and StarCraftII tasks. Results show that HATRPO and HAPPO significantly outperform strong baselines such as IPPO, MAPPO and MADDPG on all tested tasks, therefore establishing a new state of the art.
翻訳日:2021-09-24 14:55:08 公開日:2021-09-23
# Safe-Planner: 完全に観測可能な非決定論的ドメインにおける強サイクルポリシの計算のための単一アウトカムリプランナ

Safe-Planner: A Single-Outcome Replanner for Computing Strong Cyclic Policies in Fully Observable Non-Deterministic Domains ( http://arxiv.org/abs/2109.11471v1 )

ライセンス: Link先を確認
Vahid Mokhtari, Ajay Suresha Sathya, Nikolaos Tsiogkas, Wilm Decre(参考訳) リプランナーは非決定論的計画問題を解決する効率的な方法である。 優れたスケーラビリティを示すにもかかわらず、既存の計画立案者は、多くの誤解を招く計画、すなわち強い解決に繋がらない弱い計画に関わる問題を解決できないことが多い。 このような問題におけるリプランナのパフォーマンスの低さは、その全アウトカム決定が原因である。 つまり、非決定論的から古典的へコンパイルするとき、それらはすべてのコンパイルされた古典的演算子を単一の決定論的ドメインに含める。 本研究では,非決定性ドメインを古典的ドメインの集合にコンパイルする単元決定化と,得られた古典的ドメインのランク付けのためのヒューリスティックスを順序付けする,オフライン再計画器であるsafe-planner (sp)を導入する。 提案する単元決定とヒューリスティックは、異なる古典的領域間の交代を可能にする。 提案手法により,提案手法は誤った計画の生成を回避できるが,強解に直接導く弱い計画を生成することができることを示す。 実験の結果,SPはより広い範囲の問題を解くことにより,最先端の非決定論的解法よりも優れていた。 また,実世界の非決定論的ロボット作業におけるSPの実用性を検証する。

Replanners are efficient methods for solving non-deterministic planning problems. Despite showing good scalability, existing replanners often fail to solve problems involving a large number of misleading plans, i.e., weak plans that do not lead to strong solutions, however, due to their minimal lengths, are likely to be found at every replanning iteration. The poor performance of replanners in such problems is due to their all-outcome determinization. That is, when compiling from non-deterministic to classical, they include all compiled classical operators in a single deterministic domain which leads replanners to continually generate misleading plans. We introduce an offline replanner, called Safe-Planner (SP), that relies on a single-outcome determinization to compile a non-deterministic domain to a set of classical domains, and ordering heuristics for ranking the obtained classical domains. The proposed single-outcome determinization and the heuristics allow for alternating between different classical domains. We show experimentally that this approach can allow SP to avoid generating misleading plans but to generate weak plans that directly lead to strong solutions. The experiments show that SP outperforms state-of-the-art non-deterministic solvers by solving a broader range of problems. We also validate the practical utility of SP in real-world non-deterministic robotic tasks.
翻訳日:2021-09-24 14:54:21 公開日:2021-09-23
# 深層学習に基づく衛星多視点ステレオマッチングのための有理多項式カメラモデルウォーピング

Rational Polynomial Camera Model Warping for Deep Learning Based Satellite Multi-View Stereo Matching ( http://arxiv.org/abs/2109.11121v1 )

ライセンス: Link先を確認
Jian Gao, Jin Liu, Shunping Ji(参考訳) 衛星マルチビューステレオ(MVS)画像は、特に大規模な地球表面の再構成に適している。 近距離および空中カメラで一般的に使用される遠近法カメラモデル(ピンホールモデル)とは異なり、立方体有理多項式カメラ(rpc)モデルは、プッシュ・ブルーのリニアアレイ衛星カメラの主流モデルである。 しかし、一般的な学習ベースのmvs法で使われるホモグラフィウォーピングはピンホールカメラにのみ適用できる。 衛星MVSタスクにSOTA学習に基づくMVS技術を適用して地球表面の大規模再構築を行うためには,RPCワープを考慮すべきである。 本研究では,厳格なRPCワープモジュールを初めて提案する。 有理多項式係数はテンソルとして記録され、RPCワープは一連のテンソル変換として定式化される。 RPCワープに基づく大規模・広域地球表面再構成のための深層学習ベースの衛星MVS(SatMVS)フレームワークを提案する。 また、TLC SatMVSデータセットと呼ばれる5195120${\times}$5120の画像からなる大規模な衛星画像データセットも導入した。 衛星画像は3点カメラ(TLC)から取得され、同時に3点ビューの画像を捉え、既存のオープンソースのWorldView-3データセットに単一のスキャン画像で価値あるサプリメントを形成した。 実験により,提案したRPC整流モジュールと SatMVS フレームワークはピンホールフィッティング法や従来のMVS法よりも優れた再構成精度が得られることが示された。 コードとデータはhttps://github.com/w hu-gpcv/satmvsで入手できる。

Satellite multi-view stereo (MVS) imagery is particularly suited for large-scale Earth surface reconstruction. Differing from the perspective camera model (pin-hole model) that is commonly used for close-range and aerial cameras, the cubic rational polynomial camera (RPC) model is the mainstream model for push-broom linear-array satellite cameras. However, the homography warping used in the prevailing learning based MVS methods is only applicable to pin-hole cameras. In order to apply the SOTA learning based MVS technology to the satellite MVS task for large-scale Earth surface reconstruction, RPC warping should be considered. In this work, we propose, for the first time, a rigorous RPC warping module. The rational polynomial coefficients are recorded as a tensor, and the RPC warping is formulated as a series of tensor transformations. Based on the RPC warping, we propose the deep learning based satellite MVS (SatMVS) framework for large-scale and wide depth range Earth surface reconstruction. We also introduce a large-scale satellite image dataset consisting of 519 5120${\times}$5120 images, which we call the TLC SatMVS dataset. The satellite images were acquired from a three-line camera (TLC) that catches triple-view images simultaneously, forming a valuable supplement to the existing open-source WorldView-3 datasets with single-scanline images. Experiments show that the proposed RPC warping module and the SatMVS framework can achieve a superior reconstruction accuracy compared to the pin-hole fitting method and conventional MVS methods. Code and data are available at https://github.com/W HU-GPCV/SatMVS.
翻訳日:2021-09-24 14:53:39 公開日:2021-09-23
# Hilti SLAM Challengeデータセット

The Hilti SLAM Challenge Dataset ( http://arxiv.org/abs/2109.11316v1 )

ライセンス: Link先を確認
Michael Helmberger, Kristian Morin, Nitish Kumar, Danwei Wang, Yufeng Yue, Giovanni Cioffi, Davide Scaramuzza(参考訳) 正確で堅牢なポーズ推定は、自律システムがタスクをナビゲート、マップ、実行するための基本的な能力である。 特に、構成環境は、スパーシティ、照明条件の変化、動的オブジェクトなどにより、同時ローカライゼーション・マッピング(slam)アルゴリズムに困難な問題を引き起こす。 SLAMにおける現在の学術研究は、例えば異なるセンサーのモダリティを融合させることによって、より正確で堅牢なアルゴリズムの開発に焦点を当てている。 本研究を支援するために,Hilti SLAM Challenge Datasetという新しいデータセットを提案する。 このデータセットの収集に使用されるセンサープラットフォームには、視覚的、ライダー的、慣性的なセンサーが多数含まれている。 すべてのデータは時間的に整列し、正確なマルチセンサー融合をサポートする。 各データセットは、slam結果を直接テストできる正確な根拠真理を含んでいる。 各種環境における12のデータセットからの生データ及び内在及び外在的なセンサキャリブレーションデータを提供する。 各環境は、完成の様々な段階で建設現場で見られる一般的なシナリオを表している。

Accurate and robust pose estimation is a fundamental capability for autonomous systems to navigate, map and perform tasks. Particularly, construction environments pose challenging problem to Simultaneous Localization and Mapping (SLAM) algorithms due to sparsity, varying illumination conditions, and dynamic objects. Current academic research in SLAM is focused on developing more accurate and robust algorithms for example by fusing different sensor modalities. To help this research, we propose a new dataset, the Hilti SLAM Challenge Dataset. The sensor platform used to collect this dataset contains a number of visual, lidar and inertial sensors which have all been rigorously calibrated. All data is temporally aligned to support precise multi-sensor fusion. Each dataset includes accurate ground truth to allow direct testing of SLAM results. Raw data as well as intrinsic and extrinsic sensor calibration data from twelve datasets in various environments is provided. Each environment represents common scenarios found in building construction sites in various stages of completion.
翻訳日:2021-09-24 14:53:13 公開日:2021-09-23
# 映像編集のための階層型ニューラルアトラス

Layered Neural Atlases for Consistent Video Editing ( http://arxiv.org/abs/2109.11418v1 )

ライセンス: Link先を確認
Yoni Kasten, Dolev Ofri, Oliver Wang, Tali Dekel(参考訳) 本稿では,入力映像を階層化された2次元アトラスの集合に分解し,映像上のオブジェクト(あるいは背景)の外観を統一的に表現する手法を提案する。 ビデオ中の各画素について,それぞれのアトラスにおける対応する2d座標を推定し,関連するアルファ(opacity)値とともにビデオの一貫したパラメータ化を行う。 重要なのは、atlasドメインで簡単に直感的に編集できるように、最小限の手動作業でatlasを解釈可能でセマンティックに設計することです。 単一の2Dアトラス(または入力ビデオフレーム)に適用される編集は、シャドーやリフレクションなどの複雑なシーン効果を保ちながら、自動的に、一貫して元のビデオフレームにマッピングされる。 本手法では,ビデオ再構成と正規化損失の組み合わせを用いて,ビデオ毎に共同最適化されたマッピング,アトラス,アルファの座標に基づく多層パーセプトロン(MLP)表現を用いる。 純粋に2dで操作することで,シーン形状やカメラポーズに関する事前の3d知識を必要とせず,複雑なダイナミックな実世界映像を処理できる。 本研究では,テクスチャマッピング,ビデオスタイル転送,映像から映像へのテクスチャ転送,セグメンテーション/ラベル伝達など,様々な映像編集アプリケーションをデモした。

We present a method that decomposes, or "unwraps", an input video into a set of layered 2D atlases, each providing a unified representation of the appearance of an object (or background) over the video. For each pixel in the video, our method estimates its corresponding 2D coordinate in each of the atlases, giving us a consistent parameterization of the video, along with an associated alpha (opacity) value. Importantly, we design our atlases to be interpretable and semantic, which facilitates easy and intuitive editing in the atlas domain, with minimal manual work required. Edits applied to a single 2D atlas (or input video frame) are automatically and consistently mapped back to the original video frames, while preserving occlusions, deformation, and other complex scene effects such as shadows and reflections. Our method employs a coordinate-based Multilayer Perceptron (MLP) representation for mappings, atlases, and alphas, which are jointly optimized on a per-video basis, using a combination of video reconstruction and regularization losses. By operating purely in 2D, our method does not require any prior 3D knowledge about scene geometry or camera poses, and can handle complex dynamic real world videos. We demonstrate various video editing applications, including texture mapping, video style transfer, image-to-video texture transfer, and segmentation/labelin g propagation, all automatically produced by editing a single 2D atlas image.
翻訳日:2021-09-24 14:53:00 公開日:2021-09-23
# すべり検出のための分散接触力測定の活用--データ駆動触覚センサによる物理的アプローチ

Leveraging distributed contact force measurements for slip detection: a physics-based approach enabled by a data-driven tactile sensor ( http://arxiv.org/abs/2109.11504v1 )

ライセンス: Link先を確認
Pietro Griffa, Carmelo Sferrazza, Raffaello D'Andrea(参考訳) 物理的性質が不明なオブジェクトをグラッピングすることは、ロボティクスにおいて依然として大きな課題である。 ほとんどのソリューションは、最善の把握戦略を計画するために、視覚データに完全に依存しています。 しかし、人間の能力と一致し、未知の物体を確実に選択し保持できるためには、ロボットシステムにおける人工的なタッチ感覚の統合が重要である。 本稿では, 実時間での把持不良を予測し, 把持力の増加を知らせる新しいモデルベーススリップ検出パイプラインについて述べる。 そのため、スリップ検出器は手動で収集したデータに頼るのではなく、物理を利用して様々なタスクを一般化する。 このアプローチを評価するため,6自由度コボットと2フィンガーグリップパーからなる把握装置に,分散力を正確に推定する最先端の視覚ベース触覚センサを組み込んだ。 その結果, 形状, 材料, 重量の異なる物体を操作しながら, スリップを確実に予測できることがわかった。 センサは様々なシナリオで翻訳スリップと回転スリップの両方を検出することができ、把持の安定性を向上させるのに適している。

Grasping objects whose physical properties are unknown is still a great challenge in robotics. Most solutions rely entirely on visual data to plan the best grasping strategy. However, to match human abilities and be able to reliably pick and hold unknown objects, the integration of an artificial sense of touch in robotic systems is pivotal. This paper describes a novel model-based slip detection pipeline that can predict possibly failing grasps in real-time and signal a necessary increase in grip force. As such, the slip detector does not rely on manually collected data, but exploits physics to generalize across different tasks. To evaluate the approach, a state-of-the-art vision-based tactile sensor that accurately estimates distributed forces was integrated into a grasping setup composed of a six degrees-of-freedom cobot and a two-finger gripper. Results show that the system can reliably predict slip while manipulating objects of different shapes, materials, and weights. The sensor can detect both translational and rotational slip in various scenarios, making it suitable to improve the stability of a grasp.
翻訳日:2021-09-24 14:52:32 公開日:2021-09-23
# 有限因子集合による時間的推論

Temporal Inference with Finite Factored Sets ( http://arxiv.org/abs/2109.11513v1 )

ライセンス: Link先を確認
Scott Garrabrant(参考訳) 我々はパール因果推論パラダイムにインスパイアされた時間的推論に対する新しいアプローチを提案するが、パールのアプローチは公式にはパールのアプローチとは全く異なる。 有向非巡回グラフを使うのではなく、カルテシアン積として表される集合である因子集合を利用する。 有限因子集合は時間関係を推論するための強力なツールであることを示す。 因子集合,条件付き直交性に対するd-分離の類似性を導入し,有限因子集合上のすべての確率分布における条件付き独立性と同値であることを示す。

We propose a new approach to temporal inference, inspired by the Pearlian causal inference paradigm - though quite different from Pearl's approach formally. Rather than using directed acyclic graphs, we make use of factored sets, which are sets expressed as Cartesian products. We show that finite factored sets are powerful tools for inferring temporal relations. We introduce an analog of d-separation for factored sets, conditional orthogonality, and we demonstrate that this notion is equivalent to conditional independence in all probability distributions on a finite factored set.
翻訳日:2021-09-24 14:52:14 公開日:2021-09-23
# 可変重要性の事前情報を用いた高次元回帰

High-dimensional regression with potential prior information on variable importance ( http://arxiv.org/abs/2109.11281v1 )

ライセンス: Link先を確認
Benjamin G. Stokell, Rajen D. Shah(参考訳) 高次元回帰設定における予測器の重要性について、曖昧な事前情報が得られる様々な設定がある。 例えば、経験的分散(通常は標準化によって破棄される)によって提供される変数の順序付け、時系列設定に自己回帰モデルを適用する際の予測子の遅延、変数の欠落のレベルなどである。 このような順序付けは変数の真の重要性に合致しないかもしれないが、それらを使用することで失われることはほとんどなく、得られるものも少なくなる。 順序付けによって示されるモデルの列に適合する簡単なスキームを提案する。 リッジ回帰を用いた場合の全てのモデル適合の計算コストは、リッジ回帰の1つの適合に留まらず、モデル全体の整合性を大幅に向上させるために、以前の整合性を利用したラッソ回帰の戦略を記述する。 高次元線形回帰設定の競合推定器の数$m$の中から選択したテストセットにおいて、クロスバリデーションにより最終推定器を選択し、最高の実行推定器の品質に関する一般的な結果を提供する。 この結果、空間的仮定を必要とせず、未知の最適推定値と比較すると、$\log M$の価格しか得られないことが示される。 行方不明データや破損データや時系列設定に適用した場合,提案手法の有効性を実証する。 Rパッケージはgithubで入手できる。

There are a variety of settings where vague prior information may be available on the importance of predictors in high-dimensional regression settings. Examples include ordering on the variables offered by their empirical variances (which is typically discarded through standardisation), the lag of predictors when fitting autoregressive models in time series settings, or the level of missingness of the variables. Whilst such orderings may not match the true importance of variables, we argue that there is little to be lost, and potentially much to be gained, by using them. We propose a simple scheme involving fitting a sequence of models indicated by the ordering. We show that the computational cost for fitting all models when ridge regression is used is no more than for a single fit of ridge regression, and describe a strategy for Lasso regression that makes use of previous fits to greatly speed up fitting the entire sequence of models. We propose to select a final estimator by cross-validation and provide a general result on the quality of the best performing estimator on a test set selected from among a number $M$ of competing estimators in a high-dimensional linear regression setting. Our result requires no sparsity assumptions and shows that only a $\log M$ price is incurred compared to the unknown best estimator. We demonstrate the effectiveness of our approach when applied to missing or corrupted data, and time series settings. An R package is available on github.
翻訳日:2021-09-24 14:51:39 公開日:2021-09-23
# predictionnet: 計画・制御・シミュレーションのためのリアルタイム確率的トラヒック予測

PredictionNet: Real-Time Joint Probabilistic Traffic Prediction for Planning, Control, and Simulation ( http://arxiv.org/abs/2109.11094v1 )

ライセンス: Link先を確認
Alexey Kamenev, Lirui Wang, Ollin Boer Bohan, Ishwar Kulkarni, Bilal Kartal, Artem Molchanov, Stan Birchfield, David Nist\'er, Nikolai Smolyanskiy(参考訳) 交通機関の将来の動きを予測することは安全かつ効率的な自動運転に不可欠である。 この目的のために, ディープニューラルネットワーク(DNN)であるPredictionNetを紹介し, エゴ車両の動きとともに周囲の交通機関の動作を予測する。 すべての予測は確率的であり、任意の数のエージェントを許容する単純なトップダウンラスタ化で表される。 レーン情報付き多層マップに条件付きで、ネットワークは、エゴ車を含む全てのエージェントに対して、将来の位置、速度、バックトレースベクトルを単一のパスで出力する。 その後、トラジェクトリは出力から抽出される。 このネットワークは現実的なトラフィックをシミュレートするために使用することができ、人気のあるベンチマークで競合する結果を生成する。 さらに重要なことは、現実の車両を数百kmにわたって制御するために、モーションプランニング/コントロールサブシステムと組み合わせて使用されてきたことだ。 ネットワークは組み込みGPU上でリアルタイムよりも高速に動作し、システムは入力表現の選択により、優れた一般化(官能的なモダリティと位置)を示す。 さらに、強化学習(RL)でDNNを拡張することで、アグレッシブな操作やクラッシュといったレアまたはアンセーフなイベントをよりうまく処理できることを示す。

Predicting the future motion of traffic agents is crucial for safe and efficient autonomous driving. To this end, we present PredictionNet, a deep neural network (DNN) that predicts the motion of all surrounding traffic agents together with the ego-vehicle's motion. All predictions are probabilistic and are represented in a simple top-down rasterization that allows an arbitrary number of agents. Conditioned on a multilayer map with lane information, the network outputs future positions, velocities, and backtrace vectors jointly for all agents including the ego-vehicle in a single pass. Trajectories are then extracted from the output. The network can be used to simulate realistic traffic, and it produces competitive results on popular benchmarks. More importantly, it has been used to successfully control a real-world vehicle for hundreds of kilometers, by combining it with a motion planning/control subsystem. The network runs faster than real-time on an embedded GPU, and the system shows good generalization (across sensory modalities and locations) due to the choice of input representation. Furthermore, we demonstrate that by extending the DNN with reinforcement learning (RL), it can better handle rare or unsafe events like aggressive maneuvers and crashes.
翻訳日:2021-09-24 14:50:17 公開日:2021-09-23
# 参照ラベルの存在下でのクラスタと分類器評価のためのフレームワーク

A Framework for Cluster and Classifier Evaluation in the Absence of Reference Labels ( http://arxiv.org/abs/2109.11126v1 )

ライセンス: Link先を確認
Robert J. Joyce, Edward Raff, Charles Nicholas(参考訳) いくつかの問題領域では、基底真理ラベルを得るための高コストは、低品質の参照データセットを使用する必要がある。 これらのデータセットを使用してモデルパフォーマンスをベンチマークすることは困難である。 本稿では, 基準ラベルを用いるためのサプリメントを提案し, 近似基底真理補正 (AGTR) と呼ぶ。 agtrを用いて、クラスタリングアルゴリズムやマルチクラス分類器の評価に使用される特定のメトリクスの境界が、参照ラベルなしで計算可能であることを証明した。 また,疑わしい品質のデータセットから得られた不正確な評価結果をagtrを用いて識別する手法を提案する。 AGTRの作成にはドメイン知識が必要であり、マルウェアの家族分類はAGTRの構築を支援する堅牢なドメイン知識アプローチのタスクである。 我々は、AGTR評価フレームワークを一般的なマルウェアラベルツールに適用し、事前試験における過度な適合を診断し、前回のデータでは有意に定量化できない変化を評価することで実証した。

In some problem spaces, the high cost of obtaining ground truth labels necessitates use of lower quality reference datasets. It is difficult to benchmark model performance using these datasets, as evaluation results may be biased. We propose a supplement to using reference labels, which we call an approximate ground truth refinement (AGTR). Using an AGTR, we prove that bounds on specific metrics used to evaluate clustering algorithms and multi-class classifiers can be computed without reference labels. We also introduce a procedure that uses an AGTR to identify inaccurate evaluation results produced from datasets of dubious quality. Creating an AGTR requires domain knowledge, and malware family classification is a task with robust domain knowledge approaches that support the construction of an AGTR. We demonstrate our AGTR evaluation framework by applying it to a popular malware labeling tool to diagnose over-fitting in prior testing and evaluate changes whose impact could not be meaningfully quantified under previous data.
翻訳日:2021-09-24 14:49:55 公開日:2021-09-23
# Gray-boxモデルデバッグのための統一フレームワーク

Toward a Unified Framework for Debugging Gray-box Models ( http://arxiv.org/abs/2109.11160v1 )

ライセンス: Link先を確認
Andrea Bontempelli, Fausto Giunchiglia, Andrea Passerini, Stefano Teso(参考訳) 概念ベースグレーボックスモデル(GBM)のデバッグについて検討している。 これらのモデルは、入力に現れるタスク関連概念を取得し、概念アクティベーションを集約して予測を計算する。 この研究は、GBMにおいて、概念と集約関数の両方が異なるバグの影響を受け得ること、そしてこれらのバグを修正するには異なる種類の補正監督が必要であることに由来する。 この目的のために,両コンポーネントのバグを識別し,優先順位付けし,可能な実装とオープン問題を議論するためのシンプルなスキーマを導入する。 同時に、学習中に概念がどのように変化するかに堅牢にすることで、モデルの説明をgbmに合わせるための既存のアプローチを拡張する、集約ステップをデバッグするための新しい損失関数を導入する。

We are concerned with debugging concept-based gray-box models (GBMs). These models acquire task-relevant concepts appearing in the inputs and then compute a prediction by aggregating the concept activations. This work stems from the observation that in GBMs both the concepts and the aggregation function can be affected by different bugs, and that correcting these bugs requires different kinds of corrective supervision. To this end, we introduce a simple schema for identifying and prioritizing bugs in both components, discuss possible implementations and open problems. At the same time, we introduce a new loss function for debugging the aggregation step that extends existing approaches to align the model's explanations to GBMs by making them robust to how the concepts change during training.
翻訳日:2021-09-24 14:49:37 公開日:2021-09-23
# ロボットナビゲーションのための計画・強化学習の階層化

Hierarchies of Planning and Reinforcement Learning for Robot Navigation ( http://arxiv.org/abs/2109.11178v1 )

ライセンス: Link先を確認
Jan W\"ohlke, Felix Schmitt, Herke van Hoof(参考訳) 強化学習(RL)によるロボットナビゲーションタスクの解決は、その細かな報酬と長い意思決定の地平線の性質のために難しい。 しかし、多くのナビゲーションタスクでは、粗いフロアプランのように高レベル(HL)タスク表現が利用可能である。 これまでの研究は、HL表現における経路計画と、RLポリシーを指示する計画から派生したサブゴールからなる階層的アプローチによる効率的な学習を実証してきた。 しかしながら、これらのアプローチは通常、計画中にロボットの複雑なダイナミクスや準最適ゴール取得能力を無視している。 この研究は、HL表現のための訓練可能な計画ポリシーを利用する新しい階層的枠組みを提案することによって、これらの制限を克服する。 これにより、収集したロールアウトデータを利用してロボット能力と環境条件を学習することができる。 具体的には、学習された遷移モデル(VI-RL)を用いた価値反復に基づく計画方針を紹介する。 シミュレーションされたロボットナビゲーションタスクでは、VI-RLはバニラRLよりも一貫して改善され、単一のレイアウトではバニラ階層RLと同等であるが、複数のレイアウトではより広く適用でき、トレーニング可能なHLパス計画ベースラインと同等である。

Solving robotic navigation tasks via reinforcement learning (RL) is challenging due to their sparse reward and long decision horizon nature. However, in many navigation tasks, high-level (HL) task representations, like a rough floor plan, are available. Previous work has demonstrated efficient learning by hierarchal approaches consisting of path planning in the HL representation and using sub-goals derived from the plan to guide the RL policy in the source task. However, these approaches usually neglect the complex dynamics and sub-optimal sub-goal-reaching capabilities of the robot during planning. This work overcomes these limitations by proposing a novel hierarchical framework that utilizes a trainable planning policy for the HL representation. Thereby robot capabilities and environment conditions can be learned utilizing collected rollout data. We specifically introduce a planning policy based on value iteration with a learned transition model (VI-RL). In simulated robotic navigation tasks, VI-RL results in consistent strong improvement over vanilla RL, is on par with vanilla hierarchal RL on single layouts but more broadly applicable to multiple layouts, and is on par with trainable HL path planning baselines except for a parking task with difficult non-holonomic dynamics where it shows marked improvements.
翻訳日:2021-09-24 14:49:24 公開日:2021-09-23
# 下流聴取課題に対する会計データ表現のマルチビューコントラスト自己監督学習

Multi-view Contrastive Self-Supervised Learning of Accounting Data Representations for Downstream Audit Tasks ( http://arxiv.org/abs/2109.11201v1 )

ライセンス: Link先を確認
Marco Schreyer, Timur Sattarov, Damian Borth(参考訳) 国際監査基準では、財務諸表の基礎となる会計取引を直接評価する必要がある。 近年、人工知能の進歩によって、大量のジャーナルエントリデータを監査する分野において、ディープラーニングにインスパイアされた監査技術が出現している。 今日では、こうした手法の大半は、特定の監査タスクのために訓練された専門的なモデルのセットに依存している。 同時に、財務報告監査を行う場合、監査チームは対決される。 (i)時間予算制約に挑戦すること。 (ii)広範な文書の義務、及び (iii)厳格なモデル解釈要件。 その結果、監査人は監査活動を通じて、望ましい「多目的」の1つのモデルのみを利用するのを好む。 本稿では,監査タスク不変会計データ表現を学習し,この要件を満たすための自己教師付き学習フレームワークを提案する。 このフレームワークは、ジャーナルエントリデータの属性特性を利用する故意に相互作用するデータ拡張ポリシーを含む。 都市支払いの2つの実世界のデータセット上でフレームワークを評価し、学習した表現を3つのダウンストリーム監査タスク(異常検出、監査サンプリング、監査ドキュメント)に転送する。 実験結果から,提案フレームワークは,リッチで解釈可能な「マルチタスク」表現を学習することにより,監査の効率を向上させることができることを示す。

International audit standards require the direct assessment of a financial statement's underlying accounting transactions, referred to as journal entries. Recently, driven by the advances in artificial intelligence, deep learning inspired audit techniques have emerged in the field of auditing vast quantities of journal entry data. Nowadays, the majority of such methods rely on a set of specialized models, each trained for a particular audit task. At the same time, when conducting a financial statement audit, audit teams are confronted with (i) challenging time-budget constraints, (ii) extensive documentation obligations, and (iii) strict model interpretability requirements. As a result, auditors prefer to harness only a single preferably `multi-purpose' model throughout an audit engagement. We propose a contrastive self-supervised learning framework designed to learn audit task invariant accounting data representations to meet this requirement. The framework encompasses deliberate interacting data augmentation policies that utilize the attribute characteristics of journal entry data. We evaluate the framework on two real-world datasets of city payments and transfer the learned representations to three downstream audit tasks: anomaly detection, audit sampling, and audit documentation. Our experimental results provide empirical evidence that the proposed framework offers the ability to increase the efficiency of audits by learning rich and interpretable `multi-task' representations.
翻訳日:2021-09-24 14:49:00 公開日:2021-09-23
# channelaugment: 入力チャネルランダム化によるトレーニングによるマルチチャネルasrの一般化

ChannelAugment: Improving generalization of multi-channel ASR by training with input channel randomization ( http://arxiv.org/abs/2109.11225v1 )

ライセンス: Link先を確認
Marco Gaudesi, Felix Weninger, Dushyant Sharma, Puming Zhan(参考訳) E2E(End-to-end)マルチチャネルASRシステムは、マルチチャネルフロントエンドとASRモデルとの協調トレーニングにより、遠距離ASRタスクにおける最先端の性能を示す。 このようなシステムの主な制限は、通常は固定配列幾何のデータで訓練されるため、異なる配列がテストで使用される場合、精度が低下する可能性があることである。 これにより、さまざまな配列構成でさまざまなモデルを再トレーニングし、デプロイするコストがかかるため、これらのシステムを実際にデプロイするのは難しくなります。 そこで本研究では,学習中のマルチチャンネル音声入力のチャンネルをランダムにドロップすることで,テスト時の様々な配列構成に対するロバスト性を向上する,シンプルで効果的なデータ拡張手法を提案する。 この手法をChannelAugmentと呼び、SpecAugment(SA)とは対照的に、単一チャネル入力オーディオの時間および/または周波数成分を減少させる。 本稿では,ChannelAugmentをSpatial Filtering (SF)およびMinimum Variance Distortionless Response (MVDR)ニューラルビームフォーミングアプローチに適用する。 SFでは、異なる数のマイクロホンを用いて、様々な配列構成における10.6%のWER改善を観察する。 MVDRでは,認識精度を低下させることなく,トレーニング時間の74%削減を実現している。

End-to-end (E2E) multi-channel ASR systems show state-of-the-art performance in far-field ASR tasks by joint training of a multi-channel front-end along with the ASR model. The main limitation of such systems is that they are usually trained with data from a fixed array geometry, which can lead to degradation in accuracy when a different array is used in testing. This makes it challenging to deploy these systems in practice, as it is costly to retrain and deploy different models for various array configurations. To address this, we present a simple and effective data augmentation technique, which is based on randomly dropping channels in the multi-channel audio input during training, in order to improve the robustness to various array configurations at test time. We call this technique ChannelAugment, in contrast to SpecAugment (SA) which drops time and/or frequency components of a single channel input audio. We apply ChannelAugment to the Spatial Filtering (SF) and Minimum Variance Distortionless Response (MVDR) neural beamforming approaches. For SF, we observe 10.6% WER improvement across various array configurations employing different numbers of microphones. For MVDR, we achieve a 74% reduction in training time without causing degradation of recognition accuracy.
翻訳日:2021-09-24 14:48:38 公開日:2021-09-23
# セマンティックディープ強化学習による群集環境のナビゲーション安全向上

Enhancing Navigational Safety in Crowded Environments using Semantic-Deep-Reinfo rcement-Learning-bas ed Navigation ( http://arxiv.org/abs/2109.11288v1 )

ライセンス: Link先を確認
Linh K\"astner, Junhui Li, Zhengcheng Shen, and Jens Lambrecht(参考訳) ソーシャルな群衆間のインテリジェントなナビゲーションは、配達、医療、支援といったアプリケーションのためのモバイルロボティクスの重要な側面である。 深層強化学習は保守的なアプローチに代わる計画手法として現れ、より効率的で柔軟なナビゲーションを約束した。 しかし、異なる種類の障害物クラスを利用する非常にダイナミックな環境では、安全なナビゲーションは依然として大きな課題である。 本稿では,高レベルの障害物情報を考慮し,オブジェクト固有の安全ルールを教える,深層強化学習に基づくナビゲーション手法を提案する。 特にエージェントは、危険ゾーンを考慮し、脆弱なオブジェクトクラスの安全性を高めることによって、オブジェクト固有の振る舞いを学習する。 ベンチマーク障害物回避アプローチに対するアプローチを検証した結果,安全性が向上した。 さらに,個々の安全距離をセマンティック情報に依存させることにより,エージェントがより安全に移動できることを実証した。

Intelligent navigation among social crowds is an essential aspect of mobile robotics for applications such as delivery, health care, or assistance. Deep Reinforcement Learning emerged as an alternative planning method to conservative approaches and promises more efficient and flexible navigation. However, in highly dynamic environments employing different kinds of obstacle classes, safe navigation still presents a grand challenge. In this paper, we propose a semantic Deep-reinforcement-l earning-based navigation approach that teaches object-specific safety rules by considering high-level obstacle information. In particular, the agent learns object-specific behavior by contemplating the specific danger zones to enhance safety around vulnerable object classes. We tested the approach against a benchmark obstacle avoidance approach and found an increase in safety. Furthermore, we demonstrate that the agent could learn to navigate more safely by keeping an individual safety distance dependent on the semantic information.
翻訳日:2021-09-24 14:48:18 公開日:2021-09-23
# サイバー物理システムのためのフェデレーション機能選択

Federated Feature Selection for Cyber-Physical Systems of Systems ( http://arxiv.org/abs/2109.11323v1 )

ライセンス: Link先を確認
Pietro Cassar\`a, Alberto Gotta, Lorenzo Valerio(参考訳) 自律システムは、AIベースのサービスを実現するために、Edge上で収集され、処理される大量のマルチモーダルデータを生成する。 収集されたデータセットは、AIアルゴリズムのフィードに使用される特徴と呼ばれる情報属性を抽出するために、前処理される。 自動運転車のような一部のCPSの計算および通信資源が限られているため、学習方法による結果の改善と計算と通信コストの削減のために、データセットから関連する機能のサブセットを選択することが最も重要である。 正確には、機能選択は候補アプローチであり、データには削除可能な冗長または無関係な属性がある程度含まれていると仮定する。 2つの異なるデータセットで得られた有望な結果から,提案手法の品質を確認した。 本研究では,分散的に実行されるのに適したフェデレートされた特徴選択法を初めて提案する。 より正確には、自動運転車の一群が、データ伝送を99%まで減らし、無視できない情報損失を抑えるために利用する、最適な機能セットについて、コンセンサスを得られることを示す。

Autonomous systems generate a huge amount of multimodal data that are collected and processed on the Edge, in order to enable AI-based services. The collected datasets are pre-processed in order to extract informative attributes, called features, which are used to feed AI algorithms. Due to the limited computational and communication resources of some CPS, like autonomous vehicles, selecting the subset of relevant features from a dataset is of the utmost importance, in order to improve the result achieved by learning methods and to reduce computation and communication costs. Precisely, feature selection is the candidate approach, which assumes that data contain a certain number of redundant or irrelevant attributes that can be eliminated. The quality of our methods is confirmed by the promising results achieved on two different data sets. In this work, we propose, for the first time, a federated feature selection method suitable for being executed in a distributed manner. Precisely, our results show that a fleet of autonomous vehicles finds a consensus on the optimal set of features that they exploit to reduce data transmission up to 99% with negligible information loss.
翻訳日:2021-09-24 14:48:03 公開日:2021-09-23
# 逆問題に対する確率正規化フロー:マルコフチェイン視点

Stochastic Normalizing Flows for Inverse Problems: a Markov Chains Viewpoint ( http://arxiv.org/abs/2109.11375v1 )

ライセンス: Link先を確認
Paul Hagemann, Johannes Hertrich, Gabriele Steidl(参考訳) 位相的制約を克服し、フローアーキテクチャの正規化の表現性を向上させるため、wu, k\"ohler, no\'e は決定論的で学習可能なフロー変換と確率的サンプリング法を組み合わせた確率的正規化フローを導入した。 本稿では,マルコフ連鎖の観点からの確率正規化の流れを考える。 特に、遷移密度を一般マルコフカーネルに置き換え、Radon-Nikodym微分を通じて証明を確立することで、密度のない分布を健全な方法で組み込むことができる。 さらに,逆問題において必要となる後方分布からのサンプリング結果を一般化する。 提案する条件付き確率正規化流の性能を数値例で示す。

To overcome topological constraints and improve the expressiveness of normalizing flow architectures, Wu, K\"ohler and No\'e introduced stochastic normalizing flows which combine deterministic, learnable flow transformations with stochastic sampling methods. In this paper, we consider stochastic normalizing flows from a Markov chain point of view. In particular, we replace transition densities by general Markov kernels and establish proofs via Radon-Nikodym derivatives which allows to incorporate distributions without densities in a sound way. Further, we generalize the results for sampling from posterior distributions as required in inverse problems. The performance of the proposed conditional stochastic normalizing flow is demonstrated by numerical examples.
翻訳日:2021-09-24 14:47:43 公開日:2021-09-23
# DeepAID: セキュリティアプリケーションにおけるディープラーニングベースの異常検出の解釈と改善

DeepAID: Interpreting and Improving Deep Learning-based Anomaly Detection in Security Applications ( http://arxiv.org/abs/2109.11495v1 )

ライセンス: Link先を確認
Dongqi Han, Zhiliang Wang, Wenqi Chen, Ying Zhong, Su Wang, Han Zhang, Jiahai Yang, Xingang Shi, and Xia Yin(参考訳) 監視されていないディープラーニング(DL)技術は、予期せぬ脅威を検出し、Deep Neural Networks(DNN)によって提供される優れたパフォーマンスを実現するという大きな約束のために、様々なセキュリティ関連の異常検出アプリケーションで広く利用されている。 しかし、解釈可能性の欠如は、実際にDLモデルを採用する上で重要な障壁を生み出します。 残念ながら、教師なしdlモデルには適応できず、セキュリティドメインの特別な要件を満たすことができない教師なし学習モデルや非セキュリティドメインに対して、既存の解釈アプローチが提案されている。 本稿では,(1)セキュリティ領域におけるDLベースの異常検出システムを解釈するための一般的なフレームワークであるDeepAIDを提案する。 まず,セキュリティ領域に制約のある最適化問題の定式化と解法により,教師なしDNNの新たな解釈法を提案する。 次に,我々のインタプリタに基づくいくつかのアプリケーションとモデルベースの拡張蒸留器を提供し,ドメイン固有の問題を解決することによりセキュリティシステムを改善する。 本稿では,3種類のセキュリティ関連異常検出システムにDeepAIDを適用し,代表的先行研究による解釈を広範囲に評価する。 実験の結果,DeepAIDはセキュリティドメインの特別な要件を満たしつつ,教師なしDLモデルに対して高品質な解釈を提供することができた。 また、DeepAIDは、セキュリティオペレーターがモデル決定を理解し、システムミスを診断し、モデルにフィードバックを与え、偽陽性を低減できることを示すいくつかのユースケースも提供します。

Unsupervised Deep Learning (DL) techniques have been widely used in various security-related anomaly detection applications, owing to the great promise of being able to detect unforeseen threats and superior performance provided by Deep Neural Networks (DNN). However, the lack of interpretability creates key barriers to the adoption of DL models in practice. Unfortunately, existing interpretation approaches are proposed for supervised learning models and/or non-security domains, which are unadaptable for unsupervised DL models and fail to satisfy special requirements in security domains. In this paper, we propose DeepAID, a general framework aiming to (1) interpret DL-based anomaly detection systems in security domains, and (2) improve the practicality of these systems based on the interpretations. We first propose a novel interpretation method for unsupervised DNNs by formulating and solving well-designed optimization problems with special constraints for security domains. Then, we provide several applications based on our Interpreter as well as a model-based extension Distiller to improve security systems by solving domain-specific problems. We apply DeepAID over three types of security-related anomaly detection systems and extensively evaluate our Interpreter with representative prior works. Experimental results show that DeepAID can provide high-quality interpretations for unsupervised DL models while meeting the special requirements of security domains. We also provide several use cases to show that DeepAID can help security operators to understand model decisions, diagnose system mistakes, give feedback to models, and reduce false positives.
翻訳日:2021-09-24 14:47:31 公開日:2021-09-23
# マルウェア検出のためのLSTMハイパーパラメータ選択:相互作用効果と階層的選択アプローチ

LSTM Hyper-Parameter Selection for Malware Detection: Interaction Effects and Hierarchical Selection Approach ( http://arxiv.org/abs/2109.11500v1 )

ライセンス: Link先を確認
Mohit Sewak, Sanjay K. Sahay, Hemant Rathore(参考訳) Long-Short-Term-Memo ry (LSTM)ネットワークは人工知能(AI)ベースの言語モデリングにおいて大きな可能性を秘めている。 近年、LSTMネットワークはAIベースの侵入検知システム(IDS)の設計にも人気がある。 しかし、IDSにおける適用性は、言語モデルで使用されるデフォルト設定で主に研究されている。 セキュリティアプリケーションは異なる条件を提供するため、このような再帰的なネットワークを適用する際に慎重に考慮する必要がある。 IDS用LSTMハイパーパラメータにおいて,最も徹底的な研究の1つを行い,近似実験を行った。 150 lstm構成 ハイパーパラメータの相対的重要性、相互作用効果、およびids設計のための最適選択アプローチを決定する。 これらの実験の結果を複数回分析し、異なるハイパーパラメーター共変量レベルの相互作用効果を実験的に制御した。 セキュリティアプリケーション,特にids設計においては,言語モデルに適用できるような相対的重要性は認められず,またハイパーパラメータ選択イデアルの標準的な線形手法であることも判明した。 我々は、相互作用効果がハイパーパラメーターの相対的重要性を決定する上で重要な役割を果たすことを確かめた。 また, 相互作用効果の制御後, IDSにおけるLSTMの相対的重要性はバッチサイズであり, その後はドロップアウト比とパディングが続いた。 LSTMが最初に言語モデルに使われたとき、主にパフォーマンスを高めるためにレイヤーの数を増やすことに焦点が当てられていたため、この発見は重要である。

Long-Short-Term-Memo ry (LSTM) networks have shown great promise in artificial intelligence (AI) based language modeling. Recently, LSTM networks have also become popular for designing AI-based Intrusion Detection Systems (IDS). However, its applicability in IDS is studied largely in the default settings as used in language models. Whereas security applications offer distinct conditions and hence warrant careful consideration while applying such recurrent networks. Therefore, we conducted one of the most exhaustive works on LSTM hyper-parameters for IDS and experimented with approx. 150 LSTM configurations to determine its hyper-parameters relative importance, interaction effects, and optimal selection approach for designing an IDS. We conducted multiple analyses of the results of these experiments and empirically controlled for the interaction effects of different hyper-parameters covariate levels. We found that for security applications, especially for designing an IDS, neither similar relative importance as applicable to language models is valid, nor is the standard linear method for hyper-parameter selection ideal. We ascertained that the interaction effect plays a crucial role in determining the relative importance of hyper-parameters. We also discovered that after controlling for the interaction effect, the correct relative importance for LSTMs for an IDS is batch-size, followed by dropout ratio and padding. The findings are significant because when LSTM was first used for language models, the focus had mostly been on increasing the number of layers to enhance performance.
翻訳日:2021-09-24 14:47:04 公開日:2021-09-23
# パラボリックPIDEのためのディープニューラルネットワークアルゴリズムと保険数学への応用

Deep Neural Network Algorithms for Parabolic PIDEs and Applications in Insurance Mathematics ( http://arxiv.org/abs/2109.11403v1 )

ライセンス: Link先を確認
R\"udiger Frey and Verena K\"ock(参考訳) 近年,数値解偏微分方程式の深層学習法に関する研究が盛んに行われており,一方で積分微分方程式の結果は乏しい。 本稿では,線形および半線形放物型部分積分微分方程式を高次元境界条件で解くディープニューラルネットワークアルゴリズムについて検討する。 本研究の実施可能性を示すため,保険と金融のケーススタディについて論じる。

In recent years a large literature on deep learning based methods for the numerical solution partial differential equations has emerged; results for integro-differential equations on the other hand are scarce. In this paper we study deep neural network algorithms for solving linear and semilinear parabolic partial integro-differential equations with boundary conditions in high dimension. To show the viability of our approach we discuss several case studies from insurance and finance.
翻訳日:2021-09-24 14:46:43 公開日:2021-09-23
# シナリオ認識型音声認識:Apollo Fearless Steps & CHiME-4 Corporaの進歩

Scenario Aware Speech Recognition: Advancements for Apollo Fearless Steps & CHiME-4 Corpora ( http://arxiv.org/abs/2109.11086v1 )

ライセンス: Link先を確認
Szu-Jui Chen, Wei Xia, John H.L. Hansen(参考訳) 本研究では,ASRの代替特徴表現を目的とした三重項損失について検討する。 本稿では,音声の音響特性を表現するための音響モデルとして,TRILLと呼ばれる三重項損失に基づく自己指示基準で訓練された一般非意味音声表現について考察する。 この戦略はchime-4コーパスとcrss-utdallas fearless stepsコーパスに適用され、nasaの5つの選択されたapollo-11チャンネルからなる100時間のチャレンジコーパスに重点を置いている。 抽出された埋め込みの分析は、音響的識別特性に基づいて異なるグループに訓練発話を特徴付けるために必要な基礎を提供する。 さらに, 音響モデルにおけるi-Vectorよりも, 3重項損失が話者特徴よりも効果的であることを確認する。 発音やサイレント確率モデリングなどの追加技術とマルチスタイルのトレーニングにより、Fearless Steps Corpusの開発および評価セットに対して、+5.42%と+3.18%の相対的なWER改善を達成する。 一般化を探求するため、CHiME-4の1チャンネルトラックで同様の手法を検証し、実データに対する相対的なWER改善を+11.90%観測する。

In this study, we propose to investigate triplet loss for the purpose of an alternative feature representation for ASR. We consider a general non-semantic speech representation, which is trained with a self-supervised criteria based on triplet loss called TRILL, for acoustic modeling to represent the acoustic characteristics of each audio. This strategy is then applied to the CHiME-4 corpus and CRSS-UTDallas Fearless Steps Corpus, with emphasis on the 100-hour challenge corpus which consists of 5 selected NASA Apollo-11 channels. An analysis of the extracted embeddings provides the foundation needed to characterize training utterances into distinct groups based on acoustic distinguishing properties. Moreover, we also demonstrate that triplet-loss based embedding performs better than i-Vector in acoustic modeling, confirming that the triplet loss is more effective than a speaker feature. With additional techniques such as pronunciation and silence probability modeling, plus multi-style training, we achieve a +5.42% and +3.18% relative WER improvement for the development and evaluation sets of the Fearless Steps Corpus. To explore generalization, we further test the same technique on the 1 channel track of CHiME-4 and observe a +11.90% relative WER improvement for real test data.
翻訳日:2021-09-24 14:46:34 公開日:2021-09-23
# 通信遅延を考慮した共有異種労働者の符号化計算

Coded Computation across Shared Heterogeneous Workers with Communication Delay ( http://arxiv.org/abs/2109.11246v1 )

ライセンス: Link先を確認
Yuxuan Sun, Fan Zhang, Junlin Zhao, Sheng Zhou, Zhisheng Niu, Deniz G\"und\"uz(参考訳) 分散コンピューティングにより、大規模計算タスクを複数のワーカ上で並列に処理できる。 しかし、作業者間の通信のランダム性と計算遅延がストラグラー効果を引き起こし、性能が低下する可能性がある。 コード化された計算はストラグラー効果を軽減するのに役立つが、冗長な負荷の量とワーカーへの割り当ては慎重に最適化されるべきである。 本研究では,並列計算のために複数の行列乗算タスクを符号化し,ワーカーに割り当てるマルチマスターヘテロジニアス・ワーカー分散コンピューティングシナリオを検討する。 目標は、最も遅いタスクの通信と計算遅延を最小化することです。 本稿では、各ワーカーが1つのマスタまたは複数のマスタのエンコードされたタスクをそれぞれ処理できる、専用および分数的なワーカー割当ポリシーの下で、ワーカー割当、リソース割当およびロード割当アルゴリズムを提案する。 そして、マルコフの不等式に基づく近似、カルーシュ・クーン・タッカー条件、および連続凸近似を用いて非凸遅延最小化問題を解く。 シミュレーションにより,提案アルゴリズムはベンチマークよりもタスク完了遅延を低減できることを示すとともに,専用および分数的なワーカー割り当てポリシーがアプリケーションのスコープが異なることを観察する。

Distributed computing enables large-scale computation tasks to be processed over multiple workers in parallel. However, the randomness of communication and computation delays across workers causes the straggler effect, which may degrade the performance. Coded computation helps to mitigate the straggler effect, but the amount of redundant load and their assignment to the workers should be carefully optimized. In this work, we consider a multi-master heterogeneous-worker distributed computing scenario, where multiple matrix multiplication tasks are encoded and allocated to workers for parallel computation. The goal is to minimize the communication plus computation delay of the slowest task. We propose worker assignment, resource allocation and load allocation algorithms under both dedicated and fractional worker assignment policies, where each worker can process the encoded tasks of either a single master or multiple masters, respectively. Then, the non-convex delay minimization problem is solved by employing the Markov's inequality-based approximation, Karush-Kuhn-Tucker conditions, and successive convex approximation methods. Through extensive simulations, we show that the proposed algorithms can reduce the task completion delay compared to the benchmarks, and observe that dedicated and fractional worker assignment policies have different scopes of applications.
翻訳日:2021-09-24 14:46:07 公開日:2021-09-23
# IoT環境のためのネットワークエッジにおけるエネルギー効率のよい分散分析

Energy efficient distributed analytics at the edge of the network for IoT environments ( http://arxiv.org/abs/2109.11386v1 )

ライセンス: Link先を確認
Lorenzo Valerio, Marco Conti, Andrea Passarella(参考訳) パーソナルなモバイルデバイスやiotデバイスの普及により、多くの"スマート環境"(スマートシティやスマートファクトリーなど)が、膨大なデータを生成するようになるでしょう。 現在、このデータ分析は通常、集中型クラウドベースのサービスを通じて行われる。 しかし、多くの研究によれば、このアプローチは無線ネットワーク容量だけでなくデータ所有の観点からも重大な問題をもたらす可能性がある。 本稿では,フォグコンピューティングのパラダイムを利用して,データ生成場所に近い位置で計算を行う。 我々は、よく知られた分散機械学習フレームワーク(Hypothesis Transfer Learning)を活用し、ネットワークインフラストラクチャのエッジにある霧のゲートウェイに加えて、IoTデバイスを通過するモバイルノードのデータ分析を行います。 分散学習フレームワークのさまざまな構成のパフォーマンスを,その観点で分析する。 一 学習課題及び学習課題において得られる精度 (ii)関係ノード間のデータ送信に費やしたエネルギー。 具体的には、LTE、Nb-IoT、802.15.4、802.11など、さまざまなタイプのノード間の通信のための参照無線技術を検討する。 この結果から,802.15.4や802.11といった短距離通信技術を用いて,移動ノードを通じてデータを収集し,分散分析を行うことで,集中型クラウドソリューションの精度を損なうことなく,システムのエネルギー消費を9,4\%まで強く削減できることがわかった。

Due to the pervasive diffusion of personal mobile and IoT devices, many "smart environments" (e.g., smart cities and smart factories) will be, generators of huge amounts of data. Currently, analysis of this data is typically achieved through centralised cloud-based services. However, according to many studies, this approach may present significant issues from the standpoint of data ownership, as well as wireless network capacity. In this paper, we exploit the fog computing paradigm to move computation close to where data is produced. We exploit a well-known distributed machine learning framework (Hypothesis Transfer Learning), and perform data analytics on mobile nodes passing by IoT devices, in addition to fog gateways at the edge of the network infrastructure. We analyse the performance of different configurations of the distributed learning framework, in terms of (i) accuracy obtained in the learning task and (ii) energy spent to send data between the involved nodes. Specifically, we consider reference wireless technologies for communication between the different types of nodes we consider, e.g. LTE, Nb-IoT, 802.15.4, 802.11, etc. Our results show that collecting data through the mobile nodes and executing the distributed analytics using short-range communication technologies, such as 802.15.4 and 802.11, allows to strongly reduce the energy consumption of the system up to $94\%$ with a loss in accuracy w.r.t. a centralised cloud solution up to $2\%$.
翻訳日:2021-09-24 14:45:47 公開日:2021-09-23
# 群畳み込み、相互相関および同変変換のための量子アルゴリズム

Quantum algorithms for group convolution, cross-correlation, and equivariant transformations ( http://arxiv.org/abs/2109.11330v1 )

ライセンス: Link先を確認
Grecia Castelazo, Quynh T. Nguyen, Giacomo De Palma, Dirk Englund, Seth Lloyd, Bobak T. Kiani(参考訳) 群の畳み込みと相互相関は群要素の作用に同変であり、数学において与えられた問題設定に内在する対称性を解析または活用するために一般的に用いられる。 ここでは,量子状態として格納されたデータの線形群畳み込みと相互相関を行うための効率的な量子アルゴリズムを提案する。 入力データが量子状態として提供され、線形演算が良好に条件付けられた場合、我々のアルゴリズムの実行時間は、古典的なアルゴリズムと比較して指数的なスピードアップを提供する。 代数的問題を解くための量子アルゴリズムに関する豊富な文献により、我々の理論フレームワークは、群演算を用いる機械学習や数値法において、多くのアルゴリズムを定量化する道を開く。

Group convolutions and cross-correlations, which are equivariant to the actions of group elements, are commonly used in mathematics to analyze or take advantage of symmetries inherent in a given problem setting. Here, we provide efficient quantum algorithms for performing linear group convolutions and cross-correlations on data stored as quantum states. Runtimes for our algorithms are logarithmic in the dimension of the group thus offering an exponential speedup compared to classical algorithms when input data is provided as a quantum state and linear operations are well conditioned. Motivated by the rich literature on quantum algorithms for solving algebraic problems, our theoretical framework opens a path for quantizing many algorithms in machine learning and numerical methods that employ group operations.
翻訳日:2021-09-24 14:44:35 公開日:2021-09-23
# 新しいQ-Newton法バックトラックの一般化と改善

Generalisations and improvements of New Q-Newton's method Backtracking ( http://arxiv.org/abs/2109.11395v1 )

ライセンス: Link先を確認
Tuyen Trung Truong(参考訳) 本稿では,著者の先行研究で開発された新しいq-newton法バックトラッキングアルゴリズムの汎用フレームワークを提案する。 対称な正方行列 $A$ に対して、$minsp(A):=\min _{||e||=1} ||Ae||$ を定義する。 Given a $C^2$ cost function $f:\mathbb{R}^m\rightarrow \mathbb{R}$ and a real number $0<\tau $, as well as $m+1$ fixed real numbers $\delta _0,\ldots ,\delta _m$, we define for each $x\in \mathbb{R}^m$ with $\nabla f(x)\not= 0$ the following quantities: $\kappa :=\min _{i\not= j}|\delta _i-\delta _j|$; $A(x):=\nabla ^2f(x)+\delta ||\nabla f(x)||^{\tau}Id$, where $\delta$ is the first element in the sequence $\{\delta _0,\ldots ,\delta _m\}$ for which $minsp(A(x))\geq \kappa ||\nabla f(x)||^{\tau}$; $e_1(x),\ldots ,e_m(x)$ are an orthonormal basis of $\mathbb{R}^m$, chosen appropriately; $w(x)=$ the step direction, given by the formula: $$w(x)=\sum _{i=1}^m\frac{<\nabla f(x),e_i(x)>}{||A(x)e_i(x)||}e_i(x);$$ (we can also normalise by $w(x)/\max \{1,||w(x)||\}$ when needed) $\gamma (x)>0$ learning rate chosen by Backtracking line search so that Armijo's condition is satisfied: $$f(x-\gamma (x)w(x))-f(x)\leq -\frac{1}{3}\gamma (x)<\nabla f(x),w(x)>. $$ 我々のアルゴリズムの更新ルールは$x\mapsto H(x)=x-\gamma (x)w(x)$である。 new q-newton's method backtrackingでは、$\tau =1+\alpha >1$と$e_1(x),\ldots ,e_m(x)$'sは$\nabla ^2f(x)$の固有ベクトルである。 例えば、$\tau$ は $<1$ または $e_1(x),\ldots ,e_m(x)$'s は必ずしも $\nabla ^2f(x)$ の固有ベクトルではない。 新しいQ-ニュートン法(バックトラック勾配降下法)は特別な場合であり、いくつかのバージョンは準ニュートン法の風味を持つ。 いくつかのバージョンでは理論上の保証が良い。 多項式方程式の解系への応用が与えられる。

In this paper, we propose a general framework for the algorithm New Q-Newton's method Backtracking, developed in the author's previous work. For a symmetric, square real matrix $A$, we define $minsp(A):=\min _{||e||=1} ||Ae||$. Given a $C^2$ cost function $f:\mathbb{R}^m\rightarrow \mathbb{R}$ and a real number $0<\tau $, as well as $m+1$ fixed real numbers $\delta _0,\ldots ,\delta _m$, we define for each $x\in \mathbb{R}^m$ with $\nabla f(x)\not= 0$ the following quantities: $\kappa :=\min _{i\not= j}|\delta _i-\delta _j|$; $A(x):=\nabla ^2f(x)+\delta ||\nabla f(x)||^{\tau}Id$, where $\delta$ is the first element in the sequence $\{\delta _0,\ldots ,\delta _m\}$ for which $minsp(A(x))\geq \kappa ||\nabla f(x)||^{\tau}$; $e_1(x),\ldots ,e_m(x)$ are an orthonormal basis of $\mathbb{R}^m$, chosen appropriately; $w(x)=$ the step direction, given by the formula: $$w(x)=\sum _{i=1}^m\frac{<\nabla f(x),e_i(x)>}{||A(x)e_i(x)||}e_i(x);$$ (we can also normalise by $w(x)/\max \{1,||w(x)||\}$ when needed) $\gamma (x)>0$ learning rate chosen by Backtracking line search so that Armijo's condition is satisfied: $$f(x-\gamma (x)w(x))-f(x)\leq -\frac{1}{3}\gamma (x)<\nabla f(x),w(x)>.$$ The update rule for our algorithm is $x\mapsto H(x)=x-\gamma (x)w(x)$. In New Q-Newton's method Backtracking, the choices are $\tau =1+\alpha >1$ and $e_1(x),\ldots ,e_m(x)$'s are eigenvectors of $\nabla ^2f(x)$. In this paper, we allow more flexibility and generality, for example $\tau$ can be chosen to be $<1$ or $e_1(x),\ldots ,e_m(x)$'s are not necessarily eigenvectors of $\nabla ^2f(x)$. New Q-Newton's method Backtracking (as well as Backtracking gradient descent) is a special case, and some versions have flavours of quasi-Newton's methods. Several versions allow good theoretical guarantees. An application to solving systems of polynomial equations is given.
翻訳日:2021-09-24 14:44:21 公開日:2021-09-23
# (参考訳) オフラインモデルフリーロボット強化学習のためのワークフロー [全文訳有]

A Workflow for Offline Model-Free Robotic Reinforcement Learning ( http://arxiv.org/abs/2109.10813v2 )

ライセンス: CC BY 4.0
Aviral Kumar, Anikait Singh, Stephen Tian, Chelsea Finn, Sergey Levine(参考訳) オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することにより、学習制御ポリシを可能にする。 これにより、ロボットは、高価な、あるいは安全でないオンラインデータ収集なしに、大規模で多様なデータセットから一般化可能なスキルを取得できる。 近年のオフラインRLのアルゴリズム的な進歩にもかかわらず、これらの手法を現実世界の問題に適用することは困難であることが証明された。 オフラインのRLメソッドは事前のデータから学習することができるが、学習したポリシーをオンラインで実際に評価することなく、モデルアーキテクチャからアルゴリズムハイパーパラメータまで、さまざまな設計選択を行うための明確で理解されたプロセスはない。 本稿では,教師付き学習問題に対する比較的よく理解されたワークフローに類似したオフラインRLを用いた実践的ワークフローを開発することを目的とする。 この目的のために、オフライントレーニングを通じて追跡可能なメトリクスと条件のセットを考案し、最終的なパフォーマンスを改善するためにアルゴリズムとモデルアーキテクチャをどのように調整すべきかを実践者に知らせる。 我々のワークフローは、保守的なオフラインRLアルゴリズムの動作と教師あり学習におけるクロスバリデーションの概念的理解から導かれる。 本研究では,複数のシミュレーションロボット学習シナリオと2つの異なる実ロボットにおける3つのタスクの両方において,オンラインチューニングを伴わない効果的なポリシー作成において,このワークフローの有効性を実証する。 説明ビデオと追加結果はsites.google.com/vie w/offline-rl-workflo wで見ることができる。

Offline reinforcement learning (RL) enables learning control policies by utilizing only prior experience, without any online interaction. This can allow robots to acquire generalizable skills from large and diverse datasets, without any costly or unsafe online data collection. Despite recent algorithmic advances in offline RL, applying these methods to real-world problems has proven challenging. Although offline RL methods can learn from prior data, there is no clear and well-understood process for making various design choices, from model architecture to algorithm hyperparameters, without actually evaluating the learned policies online. In this paper, our aim is to develop a practical workflow for using offline RL analogous to the relatively well-understood workflows for supervised learning problems. To this end, we devise a set of metrics and conditions that can be tracked over the course of offline training, and can inform the practitioner about how the algorithm and model architecture should be adjusted to improve final performance. Our workflow is derived from a conceptual understanding of the behavior of conservative offline RL algorithms and cross-validation in supervised learning. We demonstrate the efficacy of this workflow in producing effective policies without any online tuning, both in several simulated robotic learning scenarios and for three tasks on two distinct real robots, focusing on learning manipulation skills with raw image observations with sparse binary rewards. Explanatory video and additional results can be found at sites.google.com/vie w/offline-rl-workflo w
翻訳日:2021-09-24 12:41:17 公開日:2021-09-23
# (参考訳) Small-Bench NLP: 自然言語処理における単一GPU訓練モデルのベンチマーク [全文訳有]

Small-Bench NLP: Benchmark for small single GPU trained models in Natural Language Processing ( http://arxiv.org/abs/2109.10847v2 )

ライセンス: CC BY 4.0
Kamal Raj Kanakarajan and Bhuvana Kundumani and Malaikannan Sankarasubbu(参考訳) 自然言語処理領域の最近の進歩により、特定のタスク用に微調整可能ないくつかの最先端(sota)事前学習モデルが提供されています。 数週間にわたって多数のGPU/TPUでトレーニングされた数十億のパラメータを持つこれらの大きなモデルは、ベンチマークのリーダーボードに導かれる。 本稿では,1つのGPUでトレーニングした小型モデルに対して,コストと時間に対するベンチマークの必要性について論じる。 これにより、リソース制約のある研究者は、トークン化、事前訓練タスク、アーキテクチャ、微調整メソッドなどに関する、新しく革新的なアイデアを試すことができる。 Small-Bench NLPは、単一のGPUでトレーニングされた小さな効率のよいニューラルネットワークモデルのベンチマークです。 Small-Bench NLPベンチマークは、一般公開されているGLUEデータセット上の8つのNLPタスクと、コミュニティの進捗を追跡するためのリーダボードで構成される。 ELECTRA-DeBERTa (15Mパラメータ)の小型モデルアーキテクチャは,BERT-Baseの82.20(110Mパラメータ)に匹敵する平均スコア81.53を達成する。 私たちのモデル、コード、リーダーボードはhttps://github.com/s mallbenchnlpで利用可能です。

Recent progress in the Natural Language Processing domain has given us several State-of-the-Art (SOTA) pretrained models which can be finetuned for specific tasks. These large models with billions of parameters trained on numerous GPUs/TPUs over weeks are leading in the benchmark leaderboards. In this paper, we discuss the need for a benchmark for cost and time effective smaller models trained on a single GPU. This will enable researchers with resource constraints experiment with novel and innovative ideas on tokenization, pretraining tasks, architecture, fine tuning methods etc. We set up Small-Bench NLP, a benchmark for small efficient neural language models trained on a single GPU. Small-Bench NLP benchmark comprises of eight NLP tasks on the publicly available GLUE datasets and a leaderboard to track the progress of the community. Our ELECTRA-DeBERTa (15M parameters) small model architecture achieves an average score of 81.53 which is comparable to that of BERT-Base's 82.20 (110M parameters). Our models, code and leaderboard are available at https://github.com/s mallbenchnlp
翻訳日:2021-09-24 11:55:38 公開日:2021-09-23
# 決定論的アクター臨界法による深部強化学習における誤差補正

Estimation Error Correction in Deep Reinforcement Learning for Deterministic Actor-Critic Methods ( http://arxiv.org/abs/2109.10736v2 )

ライセンス: Link先を確認
Baturay Saglam, Enes Duran, Dogan C. Cicek, Furkan B. Mutlu, Suleyman S. Kozat(参考訳) 価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。 過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号のばらつきが大きい場合,顕著な過大評価バイアスが発生する。 過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。 我々のQ値更新ルールは、最大演算子と最小演算子のネストした組み合わせにより、評価目標を計算し、近似値推定をバウンドする、Clipped Double Q-learningとMaxmin Q-learningの背景にある概念を組み合わせる。 我々は,いくつかのopenai体育館連続制御タスクのスイートの修正を評価し,テスト環境における最新技術を改善した。

In value-based deep reinforcement learning methods, approximation of value functions induces overestimation bias and leads to suboptimal policies. We show that in deep actor-critic methods that aim to overcome the overestimation bias, if the reinforcement signals received by the agent have a high variance, a significant underestimation bias arises. To minimize the underestimation, we introduce a parameter-free, novel deep Q-learning variant. Our Q-value update rule combines the notions behind Clipped Double Q-learning and Maxmin Q-learning by computing the critic objective through the nested combination of maximum and minimum operators to bound the approximate value estimates. We evaluate our modification on the suite of several OpenAI Gym continuous control tasks, improving the state-of-the-art in every environment tested.
翻訳日:2021-09-24 11:46:04 公開日:2021-09-23
# ディープネットワークとノックオフカウンタを用いた非線形時系列の因果推論

Causal Inference in Non-linear Time-series using Deep Networks and Knockoff Counterfactuals ( http://arxiv.org/abs/2109.10817v2 )

ライセンス: Link先を確認
Wasim Ahmad, Maha Shadaydeh, Joachim Denzler(参考訳) 多変量時系列における複雑な相互作用を理解するには因果関係の推定が不可欠である。 変数の非線形結合は、因果関係の正確な推定が難しい大きな課題の1つである。 本稿では,多変量時系列における非線形因果関係を推定するために,DeepAR(Deep Autoregressive Network)を反実解析と併用することを提案する。 我々は、DeepARを用いた確率予測を用いて、Granger因果関係の概念を拡張した。 深層ネットワークは入力の欠如や配布外介入を扱えないため、介入変数の生成と結果の偽確率予測にKnockoffsフレームワーク(Barberand Cand`es, 2015)を使用することを提案する。 ノックオフサンプルは、観測された変数の出力とは独立であり、データの基盤となる分布を変更することなく、対応する変数と交換可能である。 本手法を合成および実世界の時系列データセット上でテストする。 本手法は,多変量時系列における非線形因果依存性の検出において,広く用いられているベクトル自己回帰的グランガー因果性およびPCMCIよりも優れる。

Estimating causal relations is vital in understanding the complex interactions in multivariate time series. Non-linear coupling of variables is one of the major challenges inaccurate estimation of cause-effect relations. In this paper, we propose to use deep autoregressive networks (DeepAR) in tandem with counterfactual analysis to infer nonlinear causal relations in multivariate time series. We extend the concept of Granger causality using probabilistic forecasting with DeepAR. Since deep networks can neither handle missing input nor out-of-distribution intervention, we propose to use the Knockoffs framework (Barberand Cand`es, 2015) for generating intervention variables and consequently counterfactual probabilistic forecasting. Knockoff samples are independent of their output given the observed variables and exchangeable with their counterpart variables without changing the underlying distribution of the data. We test our method on synthetic as well as real-world time series datasets. Overall our method outperforms the widely used vector autoregressive Granger causality and PCMCI in detecting nonlinear causal dependency in multivariate time series.
翻訳日:2021-09-24 11:45:47 公開日:2021-09-23
# FCM:マルチターン対話推論のためのきめ細かい比較モデル

FCM: A Fine-grained Comparison Model for Multi-turn Dialogue Reasoning ( http://arxiv.org/abs/2109.10510v2 )

ライセンス: Link先を確認
Xu Wang, Hainan Zhang, Shuai Zhao, Yanyan Zou, Hongshen Chen, Zhuoye Ding, Bo Cheng, Yanyan Lan(参考訳) リーダボードでのハイパフォーマンスを達成するためのニューラル対話システムの成功にもかかわらず、推論スキルの不足のため、実際にユーザの要件を満たすことはできない。 根本的な理由は、ほとんどのニューラル対話モデルが構文的および意味的情報をキャプチャするだけでなく、対話履歴と生成された応答の論理的一貫性をモデル化できないためである。 近年,対話推論研究を容易にするために,マルチターン対話推論タスクが提案されている。 しかし, この課題は, 非論理的応答と対話履歴の差がわずかしかないため, 困難である。 この課題を効果的に解決する方法はまだ検討する価値がある。 本稿では,この問題に対処するための細粒度比較モデル(FCM)を提案する。 読解における人間の行動に触発され,各応答候補の表現の微妙な相違に着目した比較機構が提案されている。 具体的には、各候補表現を履歴全体と比較して履歴一貫性表現を得る。 さらに、各候補と話者自身の履歴との整合性信号は、話者の履歴論理と論理的に整合した候補を優先するモデルを駆動すると考えられる。 最後に、上記一貫性表現を用いて、マルチターン対話推論のための候補応答のランキングリストを出力する。 2つの公開対話データセットを用いた実験の結果,本手法はベースラインモデルよりも高いランキングスコアを得た。

Despite the success of neural dialogue systems in achieving high performance on the leader-board, they cannot meet users' requirements in practice, due to their poor reasoning skills. The underlying reason is that most neural dialogue models only capture the syntactic and semantic information, but fail to model the logical consistency between the dialogue history and the generated response. Recently, a new multi-turn dialogue reasoning task has been proposed, to facilitate dialogue reasoning research. However, this task is challenging, because there are only slight differences between the illogical response and the dialogue history. How to effectively solve this challenge is still worth exploring. This paper proposes a Fine-grained Comparison Model (FCM) to tackle this problem. Inspired by human's behavior in reading comprehension, a comparison mechanism is proposed to focus on the fine-grained differences in the representation of each response candidate. Specifically, each candidate representation is compared with the whole history to obtain a history consistency representation. Furthermore, the consistency signals between each candidate and the speaker's own history are considered to drive a model to prefer a candidate that is logically consistent with the speaker's history logic. Finally, the above consistency representations are employed to output a ranking list of the candidate responses for multi-turn dialogue reasoning. Experimental results on two public dialogue datasets show that our method obtains higher ranking scores than the baseline models.
翻訳日:2021-09-24 11:45:01 公開日:2021-09-23
# 皮膚深部学習 : メラノーマ分類における人工物と楽器のデバイアス

Skin Deep Unlearning: Artefact and Instrument Debiasing in the Context of Melanoma Classification ( http://arxiv.org/abs/2109.09818v2 )

ライセンス: Link先を確認
Peter J. Bevan and Amir Atapour-Abarghouei(参考訳) 畳み込みニューラルネットワークは、メラノーマやその他の皮膚病変の分類において皮膚科レベルの性能を示すが、トレーニングデータに見られるバイアスによる予測の不規則性は、広く展開される前に対処すべき問題である。 本研究では,2つの主要なバイアスアンラーニング手法を用いて,自動メラノーマ分類パイプラインからバイアスと急激な変動を確実に除去する。 これらの偏り除去法を用いて,従来研究で提示された外科的マーキングや定規によるバイアスを合理的に緩和できることを示す。 また,病変画像の撮影に用いられる撮像装置に関する無学習スプリアス変動の一般化効果を示す。 この研究の貢献は、人工物バイアス除去のための異なるデバイアス技術の適用と、メラノーマ検出におけるドメイン一般化のための計測バイアスアンラーニングの概念を含む。 実験の結果,各バイアスの影響が顕著に減少し,異なるデバイアス技術が異なるタスクに優れていることが明らかとなった。

Convolutional Neural Networks have demonstrated dermatologist-level performance in the classification of melanoma and other skin lesions, but prediction irregularities due to biases seen within the training data are an issue that should be addressed before widespread deployment is possible. In this work, we robustly remove bias and spurious variation from an automated melanoma classification pipeline using two leading bias unlearning techniques. We show that the biases introduced by surgical markings and rulers presented in previous studies can be reasonably mitigated using these bias removal methods. We also demonstrate the generalisation benefits of unlearning spurious variation relating to the imaging instrument used to capture lesion images. Contributions of this work include the application of different debiasing techniques for artefact bias removal and the concept of instrument bias unlearning for domain generalisation in melanoma detection. Our experimental results provide evidence that the effects of each of the aforementioned biases are notably reduced, with different debiasing techniques excelling at different tasks.
翻訳日:2021-09-24 11:44:39 公開日:2021-09-23
# 非局所Dense Prediction Transformerと共同監督型自己教師型学習による360度単眼深度推定の改善

Improving 360 Monocular Depth Estimation via Non-local Dense Prediction Transformer and Joint Supervised and Self-supervised Learning ( http://arxiv.org/abs/2109.10563v2 )

ライセンス: Link先を確認
Ilwi Yun, Hyuk-Jae Lee, Chae Eun Rhee(参考訳) 等方形(360)画像の真理深度を取得するのが難しいため、現在の等方形深度データの品質と量は世界の様々な場面を表現するには不十分である。 したがって、教師付き学習のみに頼った360度深度推定研究は、不満足な結果を生み出すために運命づけられる。 等方形画像(EIs)に焦点をあてた自己教師付き学習手法が導入されたが、誤りや非特異な解がしばしばあり、不安定な性能を引き起こす。 本稿では,従来の研究を限定した領域を改良した360度単眼深度推定法を提案する。 まず,重力対応ビデオのみを利用する自己教師付き360度深度学習手法を提案する。 次に,教師付き学習と自己指導型学習を組み合わせた共同学習手法を提案する。 各学習の弱点は補償され、より正確な深さ推定につながる。 第3に,視覚トランスフォーマによって符号化された大域的な情報を奥行き再構成時に保持する非局所融合ブロックを提案する。 提案手法では,これまでに試されていない知識のすべてに変換器を360度深度推定に適用することに成功した。 いくつかのベンチマークにおいて,本手法は従来よりも大幅に改善され,最先端技術が確立された。

Due to difficulties in acquiring ground truth depth of equirectangular (360) images, the quality and quantity of equirectangular depth data today is insufficient to represent the various scenes in the world. Therefore, 360 depth estimation studies, which relied solely on supervised learning, are destined to produce unsatisfactory results. Although self-supervised learning methods focusing on equirectangular images (EIs) are introduced, they often have incorrect or non-unique solutions, causing unstable performance. In this paper, we propose 360 monocular depth estimation methods which improve on the areas that limited previous studies. First, we introduce a self-supervised 360 depth learning method that only utilizes gravity-aligned videos, which has the potential to eliminate the needs for depth data during the training procedure. Second, we propose a joint learning scheme realized by combining supervised and self-supervised learning. The weakness of each learning is compensated, thus leading to more accurate depth estimation. Third, we propose a non-local fusion block, which retains global information encoded by vision transformer when reconstructing the depths. With the proposed methods, we successfully apply the transformer to 360 depth estimations, to the best of our knowledge, which has not been tried before. On several benchmarks, our approach achieves significant improvements over previous works and establishes a state of the art.
翻訳日:2021-09-24 11:44:22 公開日:2021-09-23
# 機械学習分類器における効率的な能動学習のための逆例の探索

Exploring Adversarial Examples for Efficient Active Learning in Machine Learning Classifiers ( http://arxiv.org/abs/2109.10770v2 )

ライセンス: Link先を確認
Honggang Yu, Shihfeng Zeng, Teng Zhang, Ing-Chao Lin, Yier Jin(参考訳) 機械学習の研究者は、トレーニングサンプルが下層の判断境界付近で密にサンプル化されると、モデルトレーニングプロセスがより効果的で効率的になる、という現象に長い間気づいてきた。 この観察はすでにさまざまな機械学習セキュリティ技術に広く適用されているが、観測の正確性に関する理論的分析が欠けている。 この課題に対処するために、我々はまず、逆アタック手法を用いて、元のトレーニング例に特定の摂動を加えて、生成された例がML分類器の判定境界にほぼ沿うようにした。 次に、アクティブラーニングとこれらのトレーニング例との関係について検討する。 k-NN分類器、カーネル法、深層ニューラルネットワークなどの代表分類器を解析することにより、観測の理論的基礎を確立する。 その結果、我々の理論的証明は、敵の例がしばしば破壊的な解として使用される以前の研究とは対照的に、敵の例の助けを借りて、より効率的な能動的学習手法の支援を提供する。 実験結果から, 理論基盤の確立により, 対戦型事例に基づくより良い学習戦略が導かれることが示された。

Machine learning researchers have long noticed the phenomenon that the model training process will be more effective and efficient when the training samples are densely sampled around the underlying decision boundary. While this observation has already been widely applied in a range of machine learning security techniques, it lacks theoretical analyses of the correctness of the observation. To address this challenge, we first add particular perturbation to original training examples using adversarial attack methods so that the generated examples could lie approximately on the decision boundary of the ML classifiers. We then investigate the connections between active learning and these particular training examples. Through analyzing various representative classifiers such as k-NN classifiers, kernel methods as well as deep neural networks, we establish a theoretical foundation for the observation. As a result, our theoretical proofs provide support to more efficient active learning methods with the help of adversarial examples, contrary to previous works where adversarial examples are often used as destructive solutions. Experimental results show that the established theoretical foundation will guide better active learning strategies based on adversarial examples.
翻訳日:2021-09-24 11:44:01 公開日:2021-09-23
# AI-HRI 2021の成果

AI-HRI 2021 Proceedings ( http://arxiv.org/abs/2109.10836v2 )

ライセンス: Link先を確認
Reuth Mirsky, Megan Zimmerman, Muneed Ahmad, Shelly Bagchi, Felix Gervits, Zhao Han, Justin Hart, Daniel Hern\'andez Garc\'ia, Matteo Leonetti, Ross Mead, Emmanuel Senft, Jivko Sinapov, Jason Wilson(参考訳) The Artificial Intelligence (AI) for Human-Robot Interaction (HRI) Symposiumは2014年以来、議論とコラボレーションの場として成功している。 この間、これらのシンポジウムは多くの共同研究の基盤となり、HRIへの信頼、HRIのためのXAI、サービスロボット、対話型学習など多くの議論の先駆者となった。 今年は、過去10年間のAI-HRIコミュニティの成果をレビューし、今後の課題を特定し、この成長するコミュニティに参加したいと考えている新しい研究者を歓迎することを目指している。 この広い視点から見れば、今年のシンポジウムをリードするテーマはひとつもなく、私たちは、分野や研究の関心事からAI-HRIの提出を奨励します。 さらに、交流の一環としてARやVRへの関心が高まり、パンデミック中の物理実験の難しさに続き、今年は研究者に対して、物理ロボットを評価に含まない作品の提出を奨励するとともに、一般のHRI研究を促進することを推奨しています。 さらに、倫理が人間とロボットの相互作用の本質的な部分であることを認め、HRIの倫理に関する著作の提出を奨励する。 2日間のミーティングを通じて、AI-HRIの現在の取り組みに関する議論のための共同フォーラムを開催し、HRIとユビキタスHRIの倫理に関するトピックに焦点を当てた追加の講演を行う。

The Artificial Intelligence (AI) for Human-Robot Interaction (HRI) Symposium has been a successful venue of discussion and collaboration since 2014. During that time, these symposia provided a fertile ground for numerous collaborations and pioneered many discussions revolving trust in HRI, XAI for HRI, service robots, interactive learning, and more. This year, we aim to review the achievements of the AI-HRI community in the last decade, identify the challenges facing ahead, and welcome new researchers who wish to take part in this growing community. Taking this wide perspective, this year there will be no single theme to lead the symposium and we encourage AI-HRI submissions from across disciplines and research interests. Moreover, with the rising interest in AR and VR as part of an interaction and following the difficulties in running physical experiments during the pandemic, this year we specifically encourage researchers to submit works that do not include a physical robot in their evaluation, but promote HRI research in general. In addition, acknowledging that ethics is an inherent part of the human-robot interaction, we encourage submissions of works on ethics for HRI. Over the course of the two-day meeting, we will host a collaborative forum for discussion of current efforts in AI-HRI, with additional talks focused on the topics of ethics in HRI and ubiquitous HRI.
翻訳日:2021-09-24 11:43:41 公開日:2021-09-23
# 線虫Caenorhabditis elegansにおける脳活動の迅速検出と認識

Rapid detection and recognition of whole brain activity in a freely behaving Caenorhabditis elegans ( http://arxiv.org/abs/2109.10474v2 )

ライセンス: Link先を確認
Yuxiang Wu, Shang Wu, Xin Wang, Chengtian Lang, Quanshi Zhang, Quan Wen, Tianqi Xu(参考訳) 高度な体積イメージング法と遺伝的にコードされた活性指標は、単一ニューロン分解能における全脳活動の包括的特徴付けを許している。 しかし、軟体神経系の一定の運動と変形は、行動する動物における密集した神経細胞の一貫した同定に大きな課題を課す。 本稿では,自由移動する \textit{c] において頭部神経節ニューロンを長期かつ迅速に認識するためのカスケード解を提案する。 elegans (複数形 elegans) まず、深層学習アルゴリズムにより、蛍光画像のスタックから電位ニューロン領域を検出する。 次に、2次元ニューロン領域を3次元ニューロン実体に融合させる。 第3に、ニューロンを取り巻く神経細胞の密度分布と、ニューロン間の相対的な位置情報の活用により、多クラス人工ニューラルネットワークは、エンジニアリングしたニューロン特徴ベクトルをデジタル神経アイデンティティに変換する。 少数のトレーニングサンプル(20~40ボリューム)の制約の下で、ボトムアップアプローチでは、各ボリューム — 1024 \times 1024 \times 18$ in voxels — を1秒足らずで処理することが可能で、ニューロン検出に9,1\$、ニューロン認識に7,4\$という精度を実現しています。 我々の研究は、動物行動に基づく脳の活動全体をデコードするための、迅速かつ完全に自動化されたアルゴリズムに向けた重要な発展を示している。

Advanced volumetric imaging methods and genetically encoded activity indicators have permitted a comprehensive characterization of whole brain activity at single neuron resolution in \textit{Caenorhabditis elegans}. The constant motion and deformation of the mollusc nervous system, however, impose a great challenge for a consistent identification of densely packed neurons in a behaving animal. Here, we propose a cascade solution for long-term and rapid recognition of head ganglion neurons in a freely moving \textit{C. elegans}. First, potential neuronal regions from a stack of fluorescence images are detected by a deep learning algorithm. Second, 2 dimensional neuronal regions are fused into 3 dimensional neuron entities. Third, by exploiting the neuronal density distribution surrounding a neuron and relative positional information between neurons, a multi-class artificial neural network transforms engineered neuronal feature vectors into digital neuronal identities. Under the constraint of a small number (20-40 volumes) of training samples, our bottom-up approach is able to process each volume - $1024 \times 1024 \times 18$ in voxels - in less than 1 second and achieves an accuracy of $91\%$ in neuronal detection and $74\%$ in neuronal recognition. Our work represents an important development towards a rapid and fully automated algorithm for decoding whole brain activity underlying natural animal behaviors.
翻訳日:2021-09-24 11:43:16 公開日:2021-09-23
# 深部畳み込みニューラルネットワークを組み合わせた非圧縮性流体解法の性能と精度評価

Performance and accuracy assessments of an incompressible fluid solver coupled with a deep Convolutional Neural Network ( http://arxiv.org/abs/2109.09363v2 )

ライセンス: Link先を確認
Ekhi Ajuria Illarramendi, Micha\"el Bauerheim and B\'en\'edicte Cuenot(参考訳) ポアソン方程式の解法は通常、非圧縮性流体解法で最も計算集約的なステップの1つである。 近年、ディープラーニング、特に畳み込みニューラルネットワーク(CNN)がこの方程式を解くために導入され、解の正確性に対する保証の欠如による推論時間の大幅な削減につながっている。 この欠点は不正確で不安定なシミュレーションにつながる可能性がある。 また、ネットワークアーキテクチャを変更する際に、異なるエラーレベルでの評価を行うため、CNNのスピードアップを公平に評価することは不可能である。 この問題を回避するために、CNNと従来の反復解法を結合してユーザ定義の精度レベルを確保するハイブリッド戦略を開発した。 CNNハイブリット法は, 変動密度の羽根と障害物のない2つの流れに対して試験を行い, 顕著な一般化能力の低下, シミュレーションの精度と安定性の両立を保証した。 複数のネットワークアーキテクチャを用いた予測の誤差分布について検討した。 その結果,速度場の平均偏差として定義されたハイブリッド戦略のしきい値は,CNNに基づくハイブリッド計算戦略における一貫した物理挙動を確実にすることを示した。 この戦略により、様々なネットワークアーキテクチャにおいて、CNNの性能を同じ精度で体系的に評価することができる。 特に、ネットワークアーキテクチャに複数のスケールを組み込むことの重要性は、feedforward cnnアーキテクチャに比べて精度と推論性能が向上し、これらのネットワークは、従来の反復型解法よりも110-25の高速解を提供することができるため、実証されている。

The resolution of the Poisson equation is usually one of the most computationally intensive steps for incompressible fluid solvers. Lately, Deep Learning, and especially Convolutional Neural Networks (CNN), has been introduced to solve this equation, leading to significant inference time reduction at the cost of a lack of guarantee on the accuracy of the solution. This drawback might lead to inaccuracies and potentially unstable simulations. It also makes impossible a fair assessment of the CNN speedup, for instance, when changing the network architecture, since evaluated at different error levels. To circumvent this issue, a hybrid strategy is developed, which couples a CNN with a traditional iterative solver to ensure a user-defined accuracy level. The CNN hybrid method is tested on two flow cases, consisting of a variable-density plume with and without obstacles, demostrating remarkable generalization capabilities, ensuring both the accuracy and stability of the simulations. The error distribution of the predictions using several network architectures is further investigated. Results show that the threshold of the hybrid strategy defined as the mean divergence of the velocity field is ensuring a consistent physical behavior of the CNN-based hybrid computational strategy. This strategy allows a systematic evaluation of the CNN performance at the same accuracy level for various network architectures. In particular, the importance of incorporating multiple scales in the network architecture is demonstrated, since improving both the accuracy and the inference performance compared with feedforward CNN architectures, as these networks can provide solutions 1 10-25 faster than traditional iterative solvers.
翻訳日:2021-09-24 11:42:54 公開日:2021-09-23