このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201011となっている論文です。

PDF登録状況(公開日: 20201011)

TitleAuthorsAbstract論文公表日・翻訳日
# 言語間距離を用いた多言語文書アライメント

Massively Multilingual Document Alignment with Cross-lingual Sentence-Mover's Distance ( http://arxiv.org/abs/2002.00761v2 )

ライセンス: Link先を確認
Ahmed El-Kishky, Francisco Guzm\'an(参考訳) ドキュメントアライメントは、2つの異なる言語における文書のペアを特定することを目的としている。 このようなアライメントされたデータは、言語間表現のトレーニングから機械翻訳のための並列データマイニングまで、さまざまなNLPタスクに使用できる。 本稿では,言語間文埋め込みを利用した教師なしスコアリング機能を開発し,言語間文書間の意味的距離を計算する。 これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。 提案したスコアリング関数や他の技術手法が長いウェブ文書に対して計算的に抽出可能であることを認識して,より難解なグリージーアルゴリズムを用いて比較を行った。 我々は,高リソース言語ペアでは7%,中リソース言語ペアでは15%,低リソース言語ペアでは22%,現在のベースラインよりも高いアライメントを実現することを実験的に実証した。

Document alignment aims to identify pairs of documents in two distinct languages that are of comparable content or translations of each other. Such aligned data can be used for a variety of NLP tasks from training cross-lingual representations to mining parallel data for machine translation. In this paper we develop an unsupervised scoring function that leverages cross-lingual sentence embeddings to compute the semantic distance between documents in different languages. These semantic distances are then used to guide a document alignment algorithm to properly pair cross-lingual web documents across a variety of low, mid, and high-resource language pairs. Recognizing that our proposed scoring function and other state of the art methods are computationally intractable for long web documents, we utilize a more tractable greedy algorithm that performs comparably. We experimentally demonstrate that our distance metric performs better alignment than current baselines outperforming them by 7% on high-resource language pairs, 15% on mid-resource language pairs, and 22% on low-resource language pairs.
翻訳日:2023-01-05 05:35:25 公開日:2020-10-11
# ランダム学習率による確率勾配降下

Stochastic gradient descent with random learning rate ( http://arxiv.org/abs/2003.06926v4 )

ライセンス: Link先を確認
Daniele Musso(参考訳) 我々は一様分散ランダム学習率でニューラルネットワークを最適化することを提案する。 関連する確率勾配降下アルゴリズムは連続確率方程式によって近似することができ、フォッカー・プランク形式の中で解析される。 学習速度の小さい環境では、平均学習率、ミニバッチサイズ、最適化アルゴリズムの運動量に依存する有効温度によって学習過程が特徴づけられる。 ランダムな学習率プロトコルを周期的かつ定常的なプロトコルと比較することにより、ランダムな選択は一般に小さな学習率体系の最良の戦略であり、余分な計算コストを伴わずにより良い正規化が得られることを示唆する。 mnistおよびcifar10データセット上の画像分類のための、浅層、完全接続、深層、畳み込みニューラルネットワークの両方の実験を通じて、証拠を提供する。

We propose to optimize neural networks with a uniformly-distributed random learning rate. The associated stochastic gradient descent algorithm can be approximated by continuous stochastic equations and analyzed within the Fokker-Planck formalism. In the small learning rate regime, the training process is characterized by an effective temperature which depends on the average learning rate, the mini-batch size and the momentum of the optimization algorithm. By comparing the random learning rate protocol with cyclic and constant protocols, we suggest that the random choice is generically the best strategy in the small learning rate regime, yielding better regularization without extra computational cost. We provide supporting evidence through experiments on both shallow, fully-connected and deep, convolutional neural networks for image classification on the MNIST and CIFAR10 datasets.
翻訳日:2022-12-23 08:36:30 公開日:2020-10-11
# ソーステキストの復元による要約文書要約のための事前学習

Pre-training for Abstractive Document Summarization by Reinstating Source Text ( http://arxiv.org/abs/2004.01853v4 )

ライセンス: Link先を確認
Yanyan Zou, Xingxing Zhang, Wei Lu, Furu Wei and Ming Zhou(参考訳) 抽象文書要約は通常、シーケンス対シーケンス(Seq2Seq)学習問題としてモデル化される。 残念ながら、限定的な教師付き要約データに基づく大規模なSeq2Seqベースの要約モデルのトレーニングは困難である。 本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。 主な考え方は、文書から人工的に構築された入力テキストが与えられた場合、元の文書を復元するためにモデルが事前訓練されるということである。 これらの目的には、文書要約タスクと密接な関係を持つ文の再順序付け、次の文生成、マスク文書生成が含まれる。 2つのベンチマーク要約データセット(例えばCNN/DailyMailとNew York Times)の実験では、3つの目的はすべてベースラインのパフォーマンスを改善することができる。 大規模データ(160GB以上)で事前学習したモデルと比較すると,本手法は19GBの事前学習用テキストしか持たないが,本手法の有効性を示す。

Abstractive document summarization is usually modeled as a sequence-to-sequence (Seq2Seq) learning problem. Unfortunately, training large Seq2Seq based summarization models on limited supervised summarization data is challenging. This paper presents three pre-training objectives which allow us to pre-train a Seq2Seq based abstractive summarization model on unlabeled text. The main idea is that, given an input text artificially constructed from a document, a model is pre-trained to reinstate the original document. These objectives include sentence reordering, next sentence generation, and masked document generation, which have close relations with the abstractive document summarization task. Experiments on two benchmark summarization datasets (i.e., CNN/DailyMail and New York Times) show that all three objectives can improve performance upon baselines. Compared to models pre-trained on large-scale data (more than 160GB), our method, with only 19GB text for pre-training, achieves comparable results, which demonstrates its effectiveness.
翻訳日:2022-12-16 23:01:27 公開日:2020-10-11
# Optimus: 潜在空間の事前学習モデルによる文の整理

Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space ( http://arxiv.org/abs/2004.04092v4 )

ライセンス: Link先を確認
Chunyuan Li, Xiang Gao, Yuan Li, Baolin Peng, Xiujun Li, Yizhe Zhang, Jianfeng Gao(参考訳) 効果的に訓練すると、変分オートエンコーダ(VAE)は強力な生成モデルであり、自然言語の効果的な表現学習フレームワークである。 本稿では,最初の大規模言語VAEモデルであるOptimusを提案する。 文に対する普遍的な潜在埋め込み空間は、まず大きなテキストコーパスで事前訓練され、その後様々な言語生成および理解タスクのために微調整される。 GPT-2と比較すると、Optimusは潜在ベクトルを用いて抽象レベルからガイド付き言語を生成することができる。 BERTと比較して、Optimusはスムーズな潜在空間構造のために低リソース言語理解タスクをより一般化することができる。 幅広い言語タスクにおける広範囲な実験結果がoptimusの有効性を示している。 VAE言語モデリングベンチマークの新たな最先端を実現している。 我々は,我々の最初の事前学習された大型VAE言語モデルとその成果が,大規模事前学習の時代における深層生成モデルの関心を回復し,これらの原則をより実用的なものにすることを願っている。

When trained effectively, the Variational Autoencoder (VAE) can be both a powerful generative model and an effective representation learning framework for natural language. In this paper, we propose the first large-scale language VAE model, Optimus. A universal latent embedding space for sentences is first pre-trained on large text corpus, and then fine-tuned for various language generation and understanding tasks. Compared with GPT-2, Optimus enables guided language generation from an abstract level using the latent vectors. Compared with BERT, Optimus can generalize better on low-resource language understanding tasks due to the smooth latent space structure. Extensive experimental results on a wide range of language tasks demonstrate the effectiveness of Optimus. It achieves new state-of-the-art on VAE language modeling benchmarks. We hope that our first pre-trained big VAE language model itself and results can help the NLP community renew the interests of deep generative models in the era of large-scale pre-training, and make these principled methods more practical.
翻訳日:2022-12-16 12:00:53 公開日:2020-10-11
# 意味クラス探索による単語表現の文脈化の定量化

Quantifying the Contextualization of Word Representations with Semantic Class Probing ( http://arxiv.org/abs/2004.12198v2 )

ライセンス: Link先を確認
Mengjie Zhao, Philipp Dufter, Yadollah Yaghoobzadeh, Hinrich Sch\"utze(参考訳) 事前学習された言語モデルは、多くのnlpタスクで新たな最先端を実現したが、どのように機能するのか、なぜそんなにうまく機能するのかについては、まだ多くの疑問が残されている。 BERTにおける単語の文脈化について検討する。 単語のセマンティッククラスが文脈化された埋め込みから推測できる範囲を研究することにより、文脈化の量、すなわち、単語が文脈内でどのように解釈されるかの定量化を行う。 文脈化の定量化は、事前学習された言語モデルの理解と活用に役立つ。 我々は,上位層表現が意味クラスを推論する高い精度を達成すること,下位層に最も強い文脈化効果が現れること,局所的文脈が意味クラス推論にほぼ十分であること,上位層表現が微調整後のタスク固有のこと,下位層表現がより転送可能であること,等を示す。 ファインタニングはタスクに関連する特徴を明らかにするが、事前訓練された知識はほとんど保存されている。

Pretrained language models have achieved a new state of the art on many NLP tasks, but there are still many open questions about how and why they work so well. We investigate the contextualization of words in BERT. We quantify the amount of contextualization, i.e., how well words are interpreted in context, by studying the extent to which semantic classes of a word can be inferred from its contextualized embeddings. Quantifying contextualization helps in understanding and utilizing pretrained language models. We show that top layer representations achieve high accuracy inferring semantic classes; that the strongest contextualization effects occur in the lower layers; that local context is mostly sufficient for semantic class inference; and that top layer representations are more task-specific after finetuning while lower layer representations are more transferable. Finetuning uncovers task related features, but pretrained knowledge is still largely preserved.
翻訳日:2022-12-09 21:53:06 公開日:2020-10-11
# 深層多モードニューラルアーキテクチャ探索

Deep Multimodal Neural Architecture Search ( http://arxiv.org/abs/2004.12070v2 )

ライセンス: Link先を確認
Zhou Yu, Yuhao Cui, Jun Yu, Meng Wang, Dacheng Tao, Qi Tian(参考訳) 効果的なニューラルネットワークの設計は、深層マルチモーダル学習において基本的に重要である。 既存の作品のほとんどは単一のタスクに焦点を合わせ、ニューラルネットワークアーキテクチャを手作業で設計している。 本稿では,様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルネットワーク探索(MMnas)フレームワークを提案する。 マルチモーダル入力が与えられると、まずプリミティブ操作の集合を定義し、次にディープエンコーダ-デコーダベースの統一バックボーンを構築し、各エンコーダまたはデコーダブロックは、事前定義された操作プールから検索された操作に対応する。 統合バックボーンに加えて、さまざまなマルチモーダル学習タスクに取り組むために、タスク固有のヘッドをアタッチします。 勾配に基づくNASアルゴリズムを用いて、異なるタスクに最適なアーキテクチャを効率よく学習する。 広範囲にわたるアブレーション研究、包括的分析、および比較実験の結果、得られたMMnasNetは、視覚的質問応答、画像テキストマッチング、視覚的接地を含む3つのマルチモーダル学習タスク(5つ以上のデータセット)において、既存の最先端のアプローチを著しく上回っている。

Designing effective neural networks is fundamentally important in deep multimodal learning. Most existing works focus on a single task and design neural architectures manually, which are highly task-specific and hard to generalize to different tasks. In this paper, we devise a generalized deep multimodal neural architecture search (MMnas) framework for various multimodal learning tasks. Given multimodal input, we first define a set of primitive operations, and then construct a deep encoder-decoder based unified backbone, where each encoder or decoder block corresponds to an operation searched from a predefined operation pool. On top of the unified backbone, we attach task-specific heads to tackle different multimodal learning tasks. By using a gradient-based NAS algorithm, the optimal architectures for different tasks are learned efficiently. Extensive ablation studies, comprehensive analysis, and comparative experimental results show that the obtained MMnasNet significantly outperforms existing state-of-the-art approaches across three multimodal learning tasks (over five datasets), including visual question answering, image-text matching, and visual grounding.
翻訳日:2022-12-09 21:07:57 公開日:2020-10-11
# 事前学習言語モデルにおけるファインタニングの効果的な代替手段としてのマスキング

Masking as an Efficient Alternative to Finetuning for Pretrained Language Models ( http://arxiv.org/abs/2004.12406v2 )

ライセンス: Link先を確認
Mengjie Zhao, Tao Lin, Fei Mi, Martin Jaggi, Hinrich Sch\"utze(参考訳) 本研究では,事前学習した言語モデルを利用して,事前学習した重みに対する選択的な二項マスクを,微調整によって修正する手法を提案する。 NLPタスクにおけるBERTとRoBERTaの広範囲な評価は、マスキング方式は微調整に匹敵する性能を示すが、複数のタスクを同時に推論する必要がある場合のメモリフットプリントははるかに小さいことを示している。 そこで本質的評価を通して,マスク言語モデルによって計算された表現が,下流課題の解決に必要な情報を符号化することを示す。 ロスランドスケープの分析により,マスキングと微調整は,ほぼ一定のテスト精度で線分で接続可能なミニマ(minima)に存在するモデルを生成することが示された。 これにより、マスキングをファインチューニングの効率的な代替手段として利用することができる。

We present an efficient method of utilizing pretrained language models, where we learn selective binary masks for pretrained weights in lieu of modifying them through finetuning. Extensive evaluations of masking BERT and RoBERTa on a series of NLP tasks show that our masking scheme yields performance comparable to finetuning, yet has a much smaller memory footprint when several tasks need to be inferred simultaneously. Through intrinsic evaluations, we show that representations computed by masked language models encode information necessary for solving downstream tasks. Analyzing the loss landscape, we show that masking and finetuning produce models that reside in minima that can be connected by a line segment with nearly constant test accuracy. This confirms that masking can be utilized as an efficient alternative to finetuning.
翻訳日:2022-12-09 13:27:26 公開日:2020-10-11
# KrakN: インフラメンテナンスにおけるひび割れ検出のための伝達学習フレームワーク

KrakN: Transfer Learning framework for thin crack detection in infrastructure maintenance ( http://arxiv.org/abs/2004.12337v2 )

ライセンス: Link先を確認
Mateusz \.Zarski, Bartosz W\'ojcik, Jaros{\l}aw Adam Miszczak(参考訳) インフラストラクチャの技術的状態を監視することは、そのメンテナンスにとって重要な要素です。 現在、適用方法は時代遅れ、労働集約的、不正確である。 同時に、人工知能技術を用いた最新の手法は、新しいデータセットの集約的な収集と計算能力の高要求という2つの主な要因により、その応用において著しく制限されている。 我々は、これらの制限要因を克服するために、カスタムメイドフレームワーク -- KrakN を活用することを提案する。 これはデジタル画像上のユニークなインフラストラクチャ欠陥検出装置の開発を可能にし、90%以上の精度を達成する。 このフレームワークは、新しいデータセットの半自動生成をサポートし、控えめなコンピューティングパワー要求がある。 使用可能なソフトウェアパッケージとして公開配布された形で実装されている。 そこで,本論文では,金融能力によらず,政府単位によるインフラ管理の過程で提案する手法を直ちに実装することができる。

Monitoring the technical condition of infrastructure is a crucial element to its maintenance. Currently applied methods are outdated, labour-intensive and inaccurate. At the same time, the latest methods using Artificial Intelligence techniques are severely limited in their application due to two main factors -- labour-intensive gathering of new datasets and high demand for computing power. We propose to utilize custom made framework -- KrakN, to overcome these limiting factors. It enables the development of unique infrastructure defects detectors on digital images, achieving the accuracy of above 90%. The framework supports semi-automatic creation of new datasets and has modest computing power requirements. It is implemented in the form of a ready-to-use software package openly distributed to the public. Thus, it can be used to immediately implement the methods proposed in this paper in the process of infrastructure management by government units, regardless of their financial capabilities.
翻訳日:2022-12-09 12:50:27 公開日:2020-10-11
# 時間的知識ベース補完:新しいアルゴリズムと評価プロトコル

Temporal Knowledge Base Completion: New Algorithms and Evaluation Protocols ( http://arxiv.org/abs/2005.05035v2 )

ライセンス: Link先を確認
Prachi Jain, Sushant Rathi, Mausam, Soumen Chakrabarti(参考訳) 時間的知識ベース (temporal knowledge bases) は関係性 (s,r,o) を、関係性が有効であるとき(あるいは1つの時間インスタント)にトリプルする。 経時的KB完了(KBC)は重要な研究であるのに対し、経時的KB完了(TKBC)は初期の段階である。 本稿では,欠落したエンティティ(リンク予測)と欠落した時間間隔(タイム予測)を,すべて一様で互換性のある空間に埋め込まれたTKBCタスクとして予測することを検討する。 本稿では,時間を考慮したKBC手法であるTIMEPLEXを提案する。 TIMEPLEXは、両方の予測タスクで最先端のパフォーマンスを達成する。 また,既存のTKBCモデルでは,不完全な評価機構によりリンク予測性能が過大評価されている。 そこで本研究では,金のインスタンスとシステム予測における時間間隔の部分的な重複から生じる微妙な問題に対処し,リンクおよび時間予測タスクの改善TKBC評価プロトコルを提案する。

Temporal knowledge bases associate relational (s,r,o) triples with a set of times (or a single time instant) when the relation is valid. While time-agnostic KB completion (KBC) has witnessed significant research, temporal KB completion (TKBC) is in its early days. In this paper, we consider predicting missing entities (link prediction) and missing time intervals (time prediction) as joint TKBC tasks where entities, relations, and time are all embedded in a uniform, compatible space. We present TIMEPLEX, a novel time-aware KBC method, that also automatically exploits the recurrent nature of some relations and temporal interactions between pairs of relations. TIMEPLEX achieves state-of-the-art performance on both prediction tasks. We also find that existing TKBC models heavily overestimate link prediction performance due to imperfect evaluation mechanisms. In response, we propose improved TKBC evaluation protocols for both link and time prediction tasks, dealing with subtle issues that arise from the partial overlap of time intervals in gold instances and system predictions.
翻訳日:2022-12-07 12:59:32 公開日:2020-10-11
# トラフィック領域におけるグラフベースのディープラーニングアーキテクチャの構築方法:調査

How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey ( http://arxiv.org/abs/2005.11691v6 )

ライセンス: Link先を確認
Jiexia Ye, Juanjuan Zhao, Kejiang Ye, Chengzhong Xu(参考訳) 近年,交通分野における複雑な課題(空間依存性,時間依存性など)を解決するために,様々なディープラーニングアーキテクチャが提案されている。 これらのアーキテクチャは、トラフィックタスクのさまざまな課題に取り組むために、複数のディープラーニング技術で構成されている。 伝統的に、畳み込みニューラルネットワーク(CNN)は、トラフィックネットワークをグリッドとして分解することで空間依存をモデル化するために利用される。 しかし、多くのトラフィックネットワークは本質的にグラフ構造である。 このような空間情報を十分に活用するには、トラフィックネットワークを数学的にグラフとして定式化するのがより適切である。 近年,グラフニューラルネットワーク(GNN)と呼ばれる,グラフデータを処理する新しい深層学習技術が開発されている。 GNNと他のディープラーニング技術を組み合わせて、複雑なトラフィックタスクにおいて様々な課題に対処するアーキテクチャを構築し、GNNがトラフィックネットワーク内の空間的相関を抽出する役割を担っている。 これらのグラフベースのアーキテクチャは最先端のパフォーマンスを達成した。 このような新興トレンドの包括的かつ明確な画像を提供するため,多くのトラフィックアプリケーションにおいて,グラフベースのディープラーニングアーキテクチャを慎重に検討する。 まず,グラフに基づくトラヒック問題を定式化するためのガイドラインと,各種トラヒックデータセットからのグラフの構築について述べる。 次に、これらのグラフベースのアーキテクチャを分解して、それらの共有ディープラーニング技術について議論し、トラフィックタスクにおける各テクニックの利用を明確にする。 さらに、私たちは、トラフィックの一般的な課題と、対応するグラフベースのディープラーニングソリューションをそれぞれの課題にまとめます。 最後に、この急速に成長する分野において、ベンチマークデータセット、オープンソースコード、今後の研究方向性を提供する。

In recent years, various deep learning architectures have been proposed to solve complex challenges (e.g. spatial dependency, temporal dependency) in traffic domain, which have achieved satisfactory performance. These architectures are composed of multiple deep learning techniques in order to tackle various challenges in traffic tasks. Traditionally, convolution neural networks (CNNs) are utilized to model spatial dependency by decomposing the traffic network as grids. However, many traffic networks are graph-structured in nature. In order to utilize such spatial information fully, it's more appropriate to formulate traffic networks as graphs mathematically. Recently, various novel deep learning techniques have been developed to process graph data, called graph neural networks (GNNs). More and more works combine GNNs with other deep learning techniques to construct an architecture dealing with various challenges in a complex traffic task, where GNNs are responsible for extracting spatial correlations in traffic network. These graph-based architectures have achieved state-of-the-art performance. To provide a comprehensive and clear picture of such emerging trend, this survey carefully examines various graph-based deep learning architectures in many traffic applications. We first give guidelines to formulate a traffic problem based on graph and construct graphs from various kinds of traffic datasets. Then we decompose these graph-based architectures to discuss their shared deep learning techniques, clarifying the utilization of each technique in traffic tasks. What's more, we summarize some common traffic challenges and the corresponding graph-based deep learning solutions to each challenge. Finally, we provide benchmark datasets, open source codes and future research directions in this rapidly growing field.
翻訳日:2022-11-29 13:59:07 公開日:2020-10-11
# 常識か世界知識か? プレトレーニングトランスへのアダプタベースの知識注入の検討

Common Sense or World Knowledge? Investigating Adapter-Based Knowledge Injection into Pretrained Transformers ( http://arxiv.org/abs/2005.11787v2 )

ライセンス: Link先を確認
Anne Lauscher and Olga Majewska and Leonardo F. R. Ribeiro and Iryna Gurevych and Nikolai Rozanov and Goran Glava\v{s}(参考訳) さまざまな言語理解タスクにおけるBERTやGPT-2などのニューラルネットワークモデル(LM)の大きな成功に続いて、最近の研究は、外部リソースからの(構造化された)知識をこれらのモデルに注入することに焦点を当てている。 一方、共同事前訓練(例えば、ゼロからトレーニングし、外部知識に基づく目的をLMの目的に付加する)は、計算的に高価である可能性があるが、一方、外部知識に基づくポストホック微調整は、分布知識を壊滅的に忘れてしまう可能性がある。 本研究では, BERTの分布的知識をConceptNetとそれに対応するOpen Mind Common Sense(OMCS)コーパスの概念的知識と相補するモデルについて, アダプタトレーニングを用いて検討する。 GLUEベンチマークの全体的な結果は決定性に欠けるが、より深い分析により、私たちのアダプタベースのモデルは、ConceptNetやOMCSに明示的に存在する概念的知識のタイプを必要とする推論タスクにおいてBERT(最大15~20パフォーマンスポイント)を大幅に上回っていることが明らかになった。 すべてのコードと実験は、https://github.com/wluper/retrograph.comで公開されている。

Following the major success of neural language models (LMs) such as BERT or GPT-2 on a variety of language understanding tasks, recent work focused on injecting (structured) knowledge from external resources into these models. While on the one hand, joint pretraining (i.e., training from scratch, adding objectives based on external knowledge to the primary LM objective) may be prohibitively computationally expensive, post-hoc fine-tuning on external knowledge, on the other hand, may lead to the catastrophic forgetting of distributional knowledge. In this work, we investigate models for complementing the distributional knowledge of BERT with conceptual knowledge from ConceptNet and its corresponding Open Mind Common Sense (OMCS) corpus, respectively, using adapter training. While overall results on the GLUE benchmark paint an inconclusive picture, a deeper analysis reveals that our adapter-based models substantially outperform BERT (up to 15-20 performance points) on inference tasks that require the type of conceptual knowledge explicitly present in ConceptNet and OMCS. All code and experiments are open sourced under: https://github.com/wluper/retrograph .
翻訳日:2022-11-29 13:41:23 公開日:2020-10-11
# MomentumRNN: Momentumをリカレントニューラルネットワークに統合する

MomentumRNN: Integrating Momentum into Recurrent Neural Networks ( http://arxiv.org/abs/2006.06919v2 )

ライセンス: Link先を確認
Tan M. Nguyen, Richard G. Baraniuk, Andrea L. Bertozzi, Stanley J. Osher, Bao Wang(参考訳) ディープニューラルネットワークの設計は、しばしば候補アーキテクチャを検索する高価な技術である。 これを解決するために、リカレントニューラルネットワーク(RNN)において、RNNの隠れ状態ダイナミクスと勾配降下(GD)との接続を確立する。 次に、このフレームワークに運動量を統合するとともに、新しいRNNファミリーである {\em MomentumRNNsを提案する。 理論的には、MomentumRNNがRNNのトレーニングにおいて消滅する勾配問題を緩和することを証明し、数値的に示す。 モーメントムLSTM(Momentum long-short term memory)について検討し,様々なベンチマークにおいてLSTMのコンバージェンス速度と精度の優位性を検証した。 我々はまた、MomentumRNNが、最先端の直交RNNを含む、様々な種類の再発細胞に適用可能であることを実証した。 最後に,adam や nesterov といった他の先進的なモーメントベース最適化手法は,再帰セルの設計のためのmomentumrnn フレームワークに容易に組み込むことができ,さらに優れた性能が得られることを示す。 コードはhttps://github.com/minhtannguyen/MomentumRNNで公開されている。

Designing deep neural networks is an art that often involves an expensive search over candidate architectures. To overcome this for recurrent neural nets (RNNs), we establish a connection between the hidden state dynamics in an RNN and gradient descent (GD). We then integrate momentum into this framework and propose a new family of RNNs, called {\em MomentumRNNs}. We theoretically prove and numerically demonstrate that MomentumRNNs alleviate the vanishing gradient issue in training RNNs. We study the momentum long-short term memory (MomentumLSTM) and verify its advantages in convergence speed and accuracy over its LSTM counterpart across a variety of benchmarks. We also demonstrate that MomentumRNN is applicable to many types of recurrent cells, including those in the state-of-the-art orthogonal RNNs. Finally, we show that other advanced momentum-based optimization methods, such as Adam and Nesterov accelerated gradients with a restart, can be easily incorporated into the MomentumRNN framework for designing new recurrent cells with even better performance. The code is available at https://github.com/minhtannguyen/MomentumRNN.
翻訳日:2022-11-22 03:25:13 公開日:2020-10-11
# カーネルマシンの補間において、ERM法則の最小化は安定性を最小化する

For interpolating kernel machines, minimizing the norm of the ERM solution minimizes stability ( http://arxiv.org/abs/2006.15522v2 )

ライセンス: Link先を確認
Akshay Rangamani, Lorenzo Rosasco, Tomaso Poggio(参考訳) 我々は、カーネルリッジレス回帰の平均$\mbox{CV}_{loo}$安定性を調べ、対応するリスク境界を導出する。 最小ノルムの補間解は$\mbox{CV}_{loo}$安定性の制限を最小化し、これは経験的カーネル行列の条件数によって制御されることを示す。 後者は、データの次元と濃度が無限大となる漸近的レジームによって特徴づけられる。 ランダムなカーネル行列を仮定すると、対応するテスト誤差は二重降下曲線に従うことが期待される。

We study the average $\mbox{CV}_{loo}$ stability of kernel ridge-less regression and derive corresponding risk bounds. We show that the interpolating solution with minimum norm minimizes a bound on $\mbox{CV}_{loo}$ stability, which in turn is controlled by the condition number of the empirical kernel matrix. The latter can be characterized in the asymptotic regime where both the dimension and cardinality of the data go to infinity. Under the assumption of random kernel matrices, the corresponding test error should be expected to follow a double descent curve.
翻訳日:2022-11-16 02:05:22 公開日:2020-10-11
# 医用画像分割のための弾性相互作用に基づく損失関数

An Elastic Interaction-Based Loss Function for Medical Image Segmentation ( http://arxiv.org/abs/2007.02663v2 )

ライセンス: Link先を確認
Yuan Lan, Yang Xiang, Luchan Zhang(参考訳) 深層学習技術は、様々な種類のデータセットを操作しやすく、堅牢であるため、医療画像セグメンテーションの成功を示している。 ディープセグメンテーションタスクでよく使われる損失関数はピクセル単位の損失関数である。 これにより、これらのモデルがバイオメディカル画像の複雑な構造に対して高い精度を達成するためのボトルネックとなる。 例えば、網膜画像の予測された小さな血管はしばしば切断されるか、ピクセル単位の損失の監督の下で見逃される。 本稿では,長距離弾性相互作用に基づくトレーニング戦略を導入することでこの問題に対処する。 この戦略において、畳み込みニューラルネットワーク(CNN)は、予測領域の境界と実際の物体の境界との間の弾性相互作用エネルギーの誘導の下で対象領域を学習する。 提案する損失の監督下では、予測された領域の境界は対象の境界に強く惹かれ、接続され続ける傾向がある。 実験の結果,本手法は3つの網膜血管セグメンテーションデータセット(drive, stare, chasedb1)において,一般の画素分割損失関数(クロスエントロピーとダイス損失)および近年の損失関数と比較して相当な改善が得られた。

Deep learning techniques have shown their success in medical image segmentation since they are easy to manipulate and robust to various types of datasets. The commonly used loss functions in the deep segmentation task are pixel-wise loss functions. This results in a bottleneck for these models to achieve high precision for complicated structures in biomedical images. For example, the predicted small blood vessels in retinal images are often disconnected or even missed under the supervision of the pixel-wise losses. This paper addresses this problem by introducing a long-range elastic interaction-based training strategy. In this strategy, convolutional neural network (CNN) learns the target region under the guidance of the elastic interaction energy between the boundary of the predicted region and that of the actual object. Under the supervision of the proposed loss, the boundary of the predicted region is attracted strongly by the object boundary and tends to stay connected. Experimental results show that our method is able to achieve considerable improvements compared to commonly used pixel-wise loss functions (cross entropy and dice Loss) and other recent loss functions on three retinal vessel segmentation datasets, DRIVE, STARE and CHASEDB1.
翻訳日:2022-11-13 03:03:24 公開日:2020-10-11
# voice@srib at semeval-2020 task 9 and 12: stacked ensembling method for sentiment and offensiveness detection in social media

Voice@SRIB at SemEval-2020 Task 9 and 12: Stacked Ensembling method for Sentiment and Offensiveness detection in Social Media ( http://arxiv.org/abs/2007.10021v3 )

ライセンス: Link先を確認
Abhishek Singh and Surya Pratap Singh Parmar(参考訳) Twitter、Facebook、Redditのようなソーシャルメディアプラットフォームでは、人々は自分の意見を表現するためにスペイン語、ヒンディー語などの混成言語を使うのを好む。 本稿では,組込みのトレーニングに外部データセットを使用し,sendimixのセンシングメソッドやoffensevalタスクを記述したモデルについて述べる。 事前訓練された埋め込みの使用は、通常、文分類や機械翻訳といった複数のタスクに役立つ。 この実験では、トレーニング済みのコードミックス埋め込みと、SemEvalタスクに予めトレーニング済みの埋め込みを利用した。 我々は、マクロF1スコア、精度、精度、およびデータセットのリコールでモデルを評価する。 ハイパーパラメータのチューニングとデータ前処理のステップがスコアの改善に大いに役立つことを示そうとしています。 実験では,OffenEval のギリシア語サブタスクで 0.886 F1-Macro を達成できたが,評価期間中の最高は 0.852 であった。 われわれのF1スコアは0.756で、Spanglishのコンペでは3位だった。 Codalabのユーザーネームは28。

In social-media platforms such as Twitter, Facebook, and Reddit, people prefer to use code-mixed language such as Spanish-English, Hindi-English to express their opinions. In this paper, we describe different models we used, using the external dataset to train embeddings, ensembling methods for Sentimix, and OffensEval tasks. The use of pre-trained embeddings usually helps in multiple tasks such as sentence classification, and machine translation. In this experiment, we haveused our trained code-mixed embeddings and twitter pre-trained embeddings to SemEval tasks. We evaluate our models on macro F1-score, precision, accuracy, and recall on the datasets. We intend to show that hyper-parameter tuning and data pre-processing steps help a lot in improving the scores. In our experiments, we are able to achieve 0.886 F1-Macro on OffenEval Greek language subtask post-evaluation, whereas the highest is 0.852 during the Evaluation Period. We stood third in Spanglish competition with our best F1-score of 0.756. Codalab username is asking28.
翻訳日:2022-11-08 12:38:58 公開日:2020-10-11
# 世界規模の新型コロナウイルス情報収集システム

A System for Worldwide COVID-19 Information Aggregation ( http://arxiv.org/abs/2008.01523v2 )

ライセンス: Link先を確認
Akiko Aizawa, Frederic Bergeron, Junjie Chen, Fei Cheng, Katsuhiko Hayashi, Kentaro Inui, Hiroyoshi Ito, Daisuke Kawahara, Masaru Kitsuregawa, Hirokazu Kiyomaru, Masaki Kobayashi, Takashi Kodama, Sadao Kurohashi, Qianying Liu, Masaki Matsubara, Yusuke Miyao, Atsuyuki Morishima, Yugo Murawaki, Kazumasa Omura, Haiyue Song, Eiichiro Sumita, Shinji Suzuki, Ribeka Tanaka, Yu Tanaka, Masashi Toyoda, Nobuhiro Ueda, Honai Ueoka, Masao Utiyama, Ying Zhong(参考訳) 新型コロナウイルス(COVID-19)の世界的なパンデミックにより、公衆は、衛生、治療、教育への影響などさまざまな分野をカバーし、関連するニュースに注意を払っている。 一方、新型コロナウイルス(covid-19)の状況は国によって大きく異なる(例えば、流行の政策や発展)ため、市民は外国のニュースに興味を持つだろう。 我々は7つの言語に10の信頼できる記事を含む世界的な新型コロナウイルス情報集約システムを構築し,トピックを分類した。 クラウドソーシングを通じて収集した信頼性の高いcovid-19関連webサイトデータセットは、記事の品質を確保します。 ニューラルマシン翻訳モジュールは、他の言語の記事を日本語と英語に翻訳する。 記事トピックペアデータセットに基づいてトレーニングされたBERTベースのトピック分類器は、異なるカテゴリに記事を置くことで、ユーザが興味のある情報を効率的に見つけるのに役立つ。

The global pandemic of COVID-19 has made the public pay close attention to related news, covering various domains, such as sanitation, treatment, and effects on education. Meanwhile, the COVID-19 condition is very different among the countries (e.g., policies and development of the epidemic), and thus citizens would be interested in news in foreign countries. We build a system for worldwide COVID-19 information aggregation containing reliable articles from 10 regions in 7 languages sorted by topics. Our reliable COVID-19 related website dataset collected through crowdsourcing ensures the quality of the articles. A neural machine translation module translates articles in other languages into Japanese and English. A BERT-based topic-classifier trained on our article-topic pair dataset helps users find their interested information efficiently by putting articles into different categories.
翻訳日:2022-11-06 02:20:07 公開日:2020-10-11
# 低ランク学習可能な局所フィルタによるグラフ畳み込み

Graph Convolution with Low-rank Learnable Local Filters ( http://arxiv.org/abs/2008.01818v2 )

ライセンス: Link先を確認
Xiuyuan Cheng, Zichen Miao, Qiang Qiu(参考訳) 回転、スケーリング、視点の変化といった幾何学的変化は、視覚的な理解にとって大きな課題となる。 共通の解決策の1つは、ランドマークを使って特定の内在的な構造を直接モデル化することである。 しかし、特に根底にある非ユークリッド格子が不規則で粗い場合、効果的な深層モデルを構築することは非自明になる。 グラフ畳み込みを用いた最近の深層モデルは、そのような非ユークリッドデータを扱うための適切なフレームワークを提供するが、それらの多くは、特にグローバルグラフラプラシアンに基づくもので、非ユークリッドグリッド上にある信号の表現に必要な局所的な特徴を捉えるための表現力に欠ける。 本稿では,従来のスペクトルグラフ畳み込み法よりも明らかに表現力が高い,学習可能な低ランク局所フィルタを用いた新しいグラフ畳み込み法を提案する。 このモデルは、スペクトルグラフと空間グラフの畳み込みの両方に統一されたフレームワークを提供する。 モデルロバスト性を改善するために、局所グラフラプラシアンによる正規化を導入する。 グラフフィルタ局所性と局所グラフ正規化を用いて,入力グラフデータの摂動に対する表現安定性を理論的に証明した。 球状メッシュデータ, 実世界の表情認識/骨格に基づく行動認識データ, およびグラフノイズシミュレーションを用いた実験は, 提案モデルの実証的利点を示している。

Geometric variations like rotation, scaling, and viewpoint changes pose a significant challenge to visual understanding. One common solution is to directly model certain intrinsic structures, e.g., using landmarks. However, it then becomes non-trivial to build effective deep models, especially when the underlying non-Euclidean grid is irregular and coarse. Recent deep models using graph convolutions provide an appropriate framework to handle such non-Euclidean data, but many of them, particularly those based on global graph Laplacians, lack expressiveness to capture local features required for representation of signals lying on the non-Euclidean grid. The current paper introduces a new type of graph convolution with learnable low-rank local filters, which is provably more expressive than previous spectral graph convolution methods. The model also provides a unified framework for both spectral and spatial graph convolutions. To improve model robustness, regularization by local graph Laplacians is introduced. The representation stability against input graph data perturbation is theoretically proved, making use of the graph filter locality and the local graph regularization. Experiments on spherical mesh data, real-world facial expression recognition/skeleton-based action recognition data, and data with simulated graph noise show the empirical advantage of the proposed model.
翻訳日:2022-11-02 23:20:20 公開日:2020-10-11
# EM-RBR:推論の観点からの知識グラフ補完のための強化フレームワーク

EM-RBR: a reinforced framework for knowledge graph completion from reasoning perspective ( http://arxiv.org/abs/2009.08656v2 )

ライセンス: Link先を確認
Zhaochong An, Bozhou Chen, Houde Quan, Qihui Lin, Hongzhi Wang(参考訳) 知識グラフ補完は、知識グラフ(KG)内の与えられたエンティティ内の新しいリンクを予測することを目的としている。 ほとんどの主流の埋め込み手法は、与えられたKGに含まれる事実三重項に焦点を当て、知識ベースから暗黙的に駆動される論理規則によって提供される豊富な背景情報を無視する。 そこで本稿では,em-rbr(embedding and rule-based reasoning)と呼ばれる汎用フレームワークを提案する。 EM-RBRは, 埋め込みモデルにおける表面ベクトル三角形リンクよりも, 多関係推論リンク予測を行うために, 規則に含まれる関係背景知識を活用することを目的としている。 このようにして、より深い文脈で2つのエンティティ間の関係を探索し、高い精度を達成することができる。 実験では,従来のFB15kやWN18,新たなデータセットであるFB15k-Rと比較して,EM-RBRの性能が向上することが実証された。 EM-RBRの実装はhttps://github.com/1173710224/link-prediction-with-rule-based-reasoningで公開しています。

Knowledge graph completion aims to predict the new links in given entities among the knowledge graph (KG). Most mainstream embedding methods focus on fact triplets contained in the given KG, however, ignoring the rich background information provided by logic rules driven from knowledge base implicitly. To solve this problem, in this paper, we propose a general framework, named EM-RBR(embedding and rule-based reasoning), capable of combining the advantages of reasoning based on rules and the state-of-the-art models of embedding. EM-RBR aims to utilize relational background knowledge contained in rules to conduct multi-relation reasoning link prediction rather than superficial vector triangle linkage in embedding models. By this way, we can explore relation between two entities in deeper context to achieve higher accuracy. In experiments, we demonstrate that EM-RBR achieves better performance compared with previous models on FB15k, WN18 and our new dataset FB15k-R, especially the new dataset where our model perform futher better than those state-of-the-arts. We make the implementation of EM-RBR available at https://github.com/1173710224/link-prediction-with-rule-based-reasoning.
翻訳日:2022-10-17 02:58:12 公開日:2020-10-11
# ラジオグラフィーレポートの自動構造化のためのアンサンブルアプローチ

An Ensemble Approach for Automatic Structuring of Radiology Reports ( http://arxiv.org/abs/2010.02256v2 )

ライセンス: Link先を確認
Morteza Pourreza Shahri, Amir Tahmasebi, Bingyang Ye, Henghui Zhu, Javed Aslam, Timothy Ferris(参考訳) 電子カルテの自動構造化は、患者のケア情報の抽出、保存、問い合わせを容易にするために、臨床ワークフローソリューションの需要が高い。 しかし、多くの医療機関ではテンプレートや部門/機関固有のテンプレートを使用しないため、特に放射線学の報告では、スケーラブルなソリューションの開発は非常に難しい。 さらに、電文は電文であり、一般的な英語の文法規則に従わないため、放射線学者の報告スタイルは様々である。 本稿では,3つのモデルの予測を集約し,文の自動ラベル付けのためのテキスト情報の様々な属性を抽出するアンサンブル手法を提案する。 これら3つのモデルは 1) 対象文の文脈を捉えた文モデルに焦点を当てる。 2) 文脈モデルを取り囲む, 対象文の隣接する文脈を捉え, そして最後に 3)レポートフォーマッティングの学習を目的としたフォーマッティング/レイアウトモデル。 両方向LSTMと文エンコーダを併用してコンテキストを取得する。 さらに,レポートの構造を組み込んだ特徴をいくつか定義する。 提案手法を,プロプライエタリなデータセットに対する複数のベースラインと最先端のアプローチ,MIMIC-IIIデータセットから手動で注釈付ラジオロジーノート100点と比較した。 提案手法は97.1%の精度で他の手法を大きく上回っている。

Automatic structuring of electronic medical records is of high demand for clinical workflow solutions to facilitate extraction, storage, and querying of patient care information. However, developing a scalable solution is extremely challenging, specifically for radiology reports, as most healthcare institutes use either no template or department/institute specific templates. Moreover, radiologists' reporting style varies from one to another as sentences are telegraphic and do not follow general English grammar rules. We present an ensemble method that consolidates the predictions of three models, capturing various attributes of textual information for automatic labeling of sentences with section labels. These three models are: 1) Focus Sentence model, capturing context of the target sentence; 2) Surrounding Context model, capturing the neighboring context of the target sentence; and finally, 3) Formatting/Layout model, aimed at learning report formatting cues. We utilize Bi-directional LSTMs, followed by sentence encoders, to acquire the context. Furthermore, we define several features that incorporate the structure of reports. We compare our proposed approach against multiple baselines and state-of-the-art approaches on a proprietary dataset as well as 100 manually annotated radiology notes from the MIMIC-III dataset, which we are making publicly available. Our proposed approach significantly outperforms other approaches by achieving 97.1% accuracy.
翻訳日:2022-10-10 20:21:17 公開日:2020-10-11
# kgpt: テキスト間データ生成のための知識接地事前学習

KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation ( http://arxiv.org/abs/2010.02307v2 )

ライセンス: Link先を確認
Wenhu Chen, Yu Su, Xifeng Yan, William Yang Wang(参考訳) データからテキストへの生成は最近、幅広いアプリケーションのためにかなりの関心を集めている。 既存の手法は、タスクの配列で素晴らしいパフォーマンスを示している。 しかし、各タスクにかなりの量のラベル付きデータに依存しているため、取得にコストがかかり、新たなタスクやドメインへのアプリケーションの適用が制限される。 本稿では,本課題に対処するために,事前学習と転校学習の活用を提案する。 本稿では,2つのパートからなる知識基礎事前学習(KGPT)を提案する。 1)知識豊富なテキストを生成する一般的な知識基盤生成モデル。 2) web からクロールした膨大な知識に基づくテキストコーパスの事前学習パラダイム。 事前訓練されたモデルは、様々なデータ・テキスト生成タスクで微調整してタスク固有のテキストを生成することができる。 我々は,その効果を評価するために,全監督,ゼロショット,少数ショットという3つの設定を採用する。 完全な教師付き設定の下では、我々のモデルは既知のベースラインよりも顕著な成果を得られる。 ゼロショット設定では、実例のないモデルでは、WebNLG上で30 ROUGE-Lを達成できます。 少数の設定では、ベースラインモデルと同等の性能を達成するためにラベル付きサンプルの約5分の1しか必要としない。 これらの実験は、提案したフレームワーク https://github.com/wenhuchen/KGPT の強力な一般化能力を一貫して証明している。

Data-to-text generation has recently attracted substantial interests due to its wide applications. Existing methods have shown impressive performance on an array of tasks. However, they rely on a significant amount of labeled data for each task, which is costly to acquire and thus limits their application to new tasks and domains. In this paper, we propose to leverage pre-training and transfer learning to address this issue. We propose a knowledge-grounded pre-training (KGPT), which consists of two parts, 1) a general knowledge-grounded generation model to generate knowledge-enriched text. 2) a pre-training paradigm on a massive knowledge-grounded text corpus crawled from the web. The pre-trained model can be fine-tuned on various data-to-text generation tasks to generate task-specific text. We adopt three settings, namely fully-supervised, zero-shot, few-shot to evaluate its effectiveness. Under the fully-supervised setting, our model can achieve remarkable gains over the known baselines. Under zero-shot setting, our model without seeing any examples achieves over 30 ROUGE-L on WebNLG while all other baselines fail. Under the few-shot setting, our model only needs about one-fifteenth as many labeled examples to achieve the same level of performance as baseline models. These experiments consistently prove the strong generalization ability of our proposed framework https://github.com/wenhuchen/KGPT.
翻訳日:2022-10-10 20:11:42 公開日:2020-10-11
# Few-shot Intent Detectionのための動的セマンティックマッチングとアグリゲーションネットワーク

Dynamic Semantic Matching and Aggregation Network for Few-shot Intent Detection ( http://arxiv.org/abs/2010.02481v2 )

ライセンス: Link先を確認
Hoang Nguyen, Chenwei Zhang, Congying Xia, Philip S. Yu(参考訳) 利用可能な注釈付き発話が不足しているため、インテント検出は困難である。 最近の研究は、学習知識を学習クラスから新しいテストクラスに移行する際には、マルチレベルマッチングが重要な役割を果たすことを示しているが、それらは静的な類似度尺度と過度にきめ細かなマッチングコンポーネントに依存している。 これらの制限は、見かけクラスと新規クラスの両方が共存する一般化ファウショット学習設定への一般化能力を阻害する。 本稿では,動的正規化制約を付加したマルチヘッド自己アテンションによる発話から意味成分を抽出するセマンティックマッチング・アグリゲーションネットワークを提案する。 これらのセマンティックコンポーネントは高レベルの情報をキャプチャし、インスタンス間のより効果的なマッチングをもたらす。 マルチパースペクティブマッチング手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化する包括的なマッチング手段を提供する。 また,共同ラベル空間の分類を考慮に入れた,より困難な評価設定を提案する。 本手法の有効性を実験的に検証した。 私たちのコードとデータは公開されています。

Few-shot Intent Detection is challenging due to the scarcity of available annotated utterances. Although recent works demonstrate that multi-level matching plays an important role in transferring learned knowledge from seen training classes to novel testing classes, they rely on a static similarity measure and overly fine-grained matching components. These limitations inhibit generalizing capability towards Generalized Few-shot Learning settings where both seen and novel classes are co-existent. In this paper, we propose a novel Semantic Matching and Aggregation Network where semantic components are distilled from utterances via multi-head self-attention with additional dynamic regularization constraints. These semantic components capture high-level information, resulting in more effective matching between instances. Our multi-perspective matching method provides a comprehensive matching measure to enhance representations of both labeled and unlabeled instances. We also propose a more challenging evaluation setting that considers classification on the joint all-class label space. Extensive experimental results demonstrate the effectiveness of our method. Our code and data are publicly available.
翻訳日:2022-10-10 05:17:48 公開日:2020-10-11
# 十分かつ必要な特徴集合を用いた深層ニューラルネットワークの説明:テキスト分類の場合

Simplifying the explanation of deep neural networks with sufficient and necessary feature-sets: case of text classification ( http://arxiv.org/abs/2010.03724v2 )

ライセンス: Link先を確認
Jiechieu Kameni Florentin Flambeau and Tsopze Norbert(参考訳) 過去10年間、ディープニューラルネットワーク(DNN)は、医学、金融、法律など、さまざまな領域で幅広い問題を解決する素晴らしいパフォーマンスを誇示してきた。 その優れたパフォーマンスにもかかわらず、それらは長い間ブラックボックスシステムと見なされており、それらを説明せずに良い結果を提供する。 しかし、システム決定を説明できないことは、人の命がかかっている医療などの重要な領域に深刻なリスクをもたらす。 ディープニューラルネットワークの内部的推論を明らかにするために、いくつかの研究が行われている。 分類器決定への寄与を反映した入力特徴に重みを割り当てることでモデル決定を説明する。 しかし、すべての機能がモデル決定を説明するために必要ではない。 実際には、分類器は特定の決定を説明するのに十分な機能のサブセットに強く依存するかもしれない。 本稿では,1次元(1次元)畳み込みニューラルネットワーク(CNN)の予測説明を,十分かつ必要な特徴セットを同定して単純化する手法を提案する。 また,1d-cnnに対する層間相関伝播の適応法を提案する。 複数のデータセットで行った実験は、特徴間の関連性の分布が、アートモデルのよく知られた状態で得られたものと類似していることを示している。 さらに、抽出された十分かつ必要な特徴は、人間に説得力があるように見える。

During the last decade, deep neural networks (DNN) have demonstrated impressive performances solving a wide range of problems in various domains such as medicine, finance, law, etc. Despite their great performances, they have long been considered as black-box systems, providing good results without being able to explain them. However, the inability to explain a system decision presents a serious risk in critical domains such as medicine where people's lives are at stake. Several works have been done to uncover the inner reasoning of deep neural networks. Saliency methods explain model decisions by assigning weights to input features that reflect their contribution to the classifier decision. However, not all features are necessary to explain a model decision. In practice, classifiers might strongly rely on a subset of features that might be sufficient to explain a particular decision. The aim of this article is to propose a method to simplify the prediction explanation of One-Dimensional (1D) Convolutional Neural Networks (CNN) by identifying sufficient and necessary features-sets. We also propose an adaptation of Layer-wise Relevance Propagation for 1D-CNN. Experiments carried out on multiple datasets show that the distribution of relevance among features is similar to that obtained with a well known state of the art model. Moreover, the sufficient and necessary features extracted perceptually appear convincing to humans.
翻訳日:2022-10-09 11:23:42 公開日:2020-10-11
# 5G-V2V通信のためのマルチエージェント深部強化学習による分散リソース割り当て

Distributed Resource Allocation with Multi-Agent Deep Reinforcement Learning for 5G-V2V Communication ( http://arxiv.org/abs/2010.05290v1 )

ライセンス: Link先を確認
Alperen G\"undogan, H. Murat G\"ursu, Volker Pauli, Wolfgang Kellerer(参考訳) 基地局のない車両間通信(v2v)における分散資源選択問題を考える。 各車両は、共有リソースのプールから送信リソースを自律的に選択し、協調認識メッセージ(CAM)を広める。 これは、各車両がユニークなリソースを選択するというコンセンサスの問題である。 移動性により、互いに近接する車両の数が動的に変化している場合、問題はより困難になる。 渋滞シナリオでは、各車両に固有のリソースを割り当てることが不可能になり、混雑したリソース割り当て戦略を開発する必要がある。 5Gの標準化されたアプローチ、すなわち半永続スケジューリング(SPS)は、車両の空間分布に起因する影響に悩まされる。 私たちのアプローチでは、これを利点にしています。 本稿では,一意な状態表現に基づくマルチエージェント強化学習(diral)を用いた分散リソース割り当て機構を提案する。 課題の1つは、マルチエージェント学習システムにおいて収束問題を引き起こす同時学習エージェントによって導入された非定常性に対処することである。 我々は特異な状態表現で非定常性に取り組むことを目指していた。 具体的には,非定常性に取り組み,分散的に複雑な共同動作を行う状態表現として,ビューベースの位置分布を展開する。 以上の結果より,DIRALは難易度の高いシナリオではPSSに比べてPRRを20%改善することがわかった。

We consider the distributed resource selection problem in Vehicle-to-vehicle (V2V) communication in the absence of a base station. Each vehicle autonomously selects transmission resources from a pool of shared resources to disseminate Cooperative Awareness Messages (CAMs). This is a consensus problem where each vehicle has to select a unique resource. The problem becomes more challenging when---due to mobility---the number of vehicles in vicinity of each other is changing dynamically. In a congested scenario, allocation of unique resources for each vehicle becomes infeasible and a congested resource allocation strategy has to be developed. The standardized approach in 5G, namely semi-persistent scheduling (SPS) suffers from effects caused by spatial distribution of the vehicles. In our approach, we turn this into an advantage. We propose a novel DIstributed Resource Allocation mechanism using multi-agent reinforcement Learning (DIRAL) which builds on a unique state representation. One challenging issue is to cope with the non-stationarity introduced by concurrently learning agents which causes convergence problems in multi-agent learning systems. We aimed to tackle non-stationarity with unique state representation. Specifically, we deploy view-based positional distribution as a state representation to tackle non-stationarity and perform complex joint behavior in a distributed fashion. Our results showed that DIRAL improves PRR by 20% compared to SPS in challenging congested scenarios.
翻訳日:2022-10-08 14:07:00 公開日:2020-10-11
# ヘテロシデスティックベイズ型ニューラルネットワークアンサンブルを用いた低次火炎モデルのリアルタイムパラメータ推定

Real-time parameter inference in reduced-order flame models with heteroscedastic Bayesian neural network ensembles ( http://arxiv.org/abs/2011.02838v1 )

ライセンス: Link先を確認
Ushnish Sengupta, Maximilian L. Croci, Matthew P. Juniper(参考訳) 観測データから不確実性を持つモデルパラメータの推定は、科学および工学におけるユビキタスな逆問題である。 本稿では,アンカー付きアンサンブルを用いて学習したヘテロ代用ベイズニューラルネットワークを用いた,安価で簡単なパラメータ推定手法を提案する。 逆問題におけるパラメータの縮退による既約不確かさをネットワークの非定常的アレター的誤差がモデル化する一方、ベイズモデルのエピステマティック不確かさは、入力観測の分布外の性質から生じる不確かさを捉える。 本手法は,ダクト状予混合火炎の6パラメータg系列モデルにおいて,音響励起火炎の観測から実時間パラメータ推定を行う。 ネットワークの訓練は 210万本の 模擬火炎ビデオのライブラリーで行われます その結果,0.97から0.99までの予測パラメータと真のパラメータの相関係数と,不確実性推定値との相関関係から,ネットワークが火炎モデルパラメータを復元できることが確認された。 トレーニングされたニューラルネットワークは、私たちの研究室で高速カメラを使って撮影した、プレミックスされたブンゼン火炎の実ビデオからモデルパラメータを推測するために使用される。 推定パラメータを用いた再シミュレーションは実火炎と模擬火炎との間に優れた一致を示す。 燃焼文献でこの問題に提案されているkalmanフィルタベースのツールと比較して,ニューラルネットワークアンサンブルはより優れたデータ効率を実現し,サブミリ秒の推論時間は数桁の計算コストの節約を示す。 これにより, 劣化した火炎モデルをリアルタイムにキャリブレーションし, 火炎の熱音響不安定挙動をより正確に予測することができる。

The estimation of model parameters with uncertainties from observed data is a ubiquitous inverse problem in science and engineering. In this paper, we suggest an inexpensive and easy to implement parameter estimation technique that uses a heteroscedastic Bayesian Neural Network trained using anchored ensembling. The heteroscedastic aleatoric error of the network models the irreducible uncertainty due to parameter degeneracies in our inverse problem, while the epistemic uncertainty of the Bayesian model captures uncertainties which may arise from an input observation's out-of-distribution nature. We use this tool to perform real-time parameter inference in a 6 parameter G-equation model of a ducted, premixed flame from observations of acoustically excited flames. We train our networks on a library of 2.1 million simulated flame videos. Results on the test dataset of simulated flames show that the network recovers flame model parameters, with the correlation coefficient between predicted and true parameters ranging from 0.97 to 0.99, and well-calibrated uncertainty estimates. The trained neural networks are then used to infer model parameters from real videos of a premixed Bunsen flame captured using a high-speed camera in our lab. Re-simulation using inferred parameters shows excellent agreement between the real and simulated flames. Compared to Ensemble Kalman Filter-based tools that have been proposed for this problem in the combustion literature, our neural network ensemble achieves better data-efficiency and our sub-millisecond inference times represent a savings on computational costs by several orders of magnitude. This allows us to calibrate our reduced-order flame model in real-time and predict the thermoacoustic instability behaviour of the flame more accurately.
翻訳日:2022-10-08 14:06:23 公開日:2020-10-11
# 二次計測からの高速信号回復

Fast signal recovery from quadratic measurements ( http://arxiv.org/abs/2010.07012v1 )

ライセンス: Link先を確認
Miguel Moscoso, Alexei Novikov, George Papanicolaou and Chrysoula Tsogka(参考訳) 本稿では,相関データからスパース信号を復元する新しい手法を提案する。 相互相関は光学、ホログラフィ、地震干渉計など多くの分野において自然に生じる。 線形測定を用いたスパース信号回復問題と比較すると、未知の信号は未知の信号の相互相関によって形成される行列である。 したがって、反転のボトルネックは二次的に成長する未知数である。 提案手法の主な考え方は,問題の大きさとともに次元が直線的に大きくなる未知行列の対角線のみを復元することにより,問題の次元性を低減することである。 この方法論のキーストーンは、未知行列の対角線外要素から得られるデータを吸収し、信号の支持に関する余分な情報を持たない効率的なノイズ収集装置を使用することである。 これにより、コストが線形測定を使用するのと類似した線形問題が発生する。 本理論では,提案手法は,ノイズが多すぎる場合に正確なサポートリカバリを提供し,ノイズレベルに偽陽性は生じないことを示す。 さらに, クロスコラージュデータを用いることで, 回復可能な空間レベルが増加し, データ数とほぼ直線的にスケールすることが示唆された。 論文で示された数値実験はこれらの知見を裏付けるものである。

We present a novel approach for recovering a sparse signal from cross-correlated data. Cross-correlations naturally arise in many fields of imaging, such as optics, holography and seismic interferometry. Compared to the sparse signal recovery problem that uses linear measurements, the unknown is now a matrix formed by the cross correlation of the unknown signal. Hence, the bottleneck for inversion is the number of unknowns that grows quadratically. The main idea of our proposed approach is to reduce the dimensionality of the problem by recovering only the diagonal of the unknown matrix, whose dimension grows linearly with the size of the problem. The keystone of the methodology is the use of an efficient {\em Noise Collector} that absorbs the data that come from the off-diagonal elements of the unknown matrix and that do not carry extra information about the support of the signal. This results in a linear problem whose cost is similar to the one that uses linear measurements. Our theory shows that the proposed approach provides exact support recovery when the data is not too noisy, and that there are no false positives for any level of noise. Moreover, our theory also demonstrates that when using cross-correlated data, the level of sparsity that can be recovered increases, scaling almost linearly with the number of data. The numerical experiments presented in the paper corroborate these findings.
翻訳日:2022-10-08 14:05:54 公開日:2020-10-11
# 深層学習に基づく標準マッピングを用いた医用画像の調和 : 画像のロバスト化と一般化学習に向けて

Medical Image Harmonization Using Deep Learning Based Canonical Mapping: Toward Robust and Generalizable Learning in Imaging ( http://arxiv.org/abs/2010.05355v1 )

ライセンス: Link先を確認
Vishnu M. Bashyam, Jimit Doshi, Guray Erus, Dhivya Srinivasan, Ahmed Abdulkadir, Mohamad Habes, Yong Fan, Colin L. Masters, Paul Maruff, Chuanjun Zhuo, Henry V\"olzke, Sterling C. Johnson, Jurgen Fripp, Nikolaos Koutsouleris, Theodore D. Satterthwaite, Daniel H. Wolf, Raquel E. Gur, Ruben C. Gur, John C. Morris, Marilyn S. Albert, Hans J. Grabe, Susan M. Resnick, R. Nick Bryan, David A. Wolk, Haochang Shou, Ilya M. Nasrallah, and Christos Davatzikos(参考訳) 診断、予後、予測的バイオマーカーの導出、精密医療への貢献など、従来の深層学習に基づく手法は医療画像領域において大きな可能性を秘めている。 しかし、これらの手法は、様々な撮像装置、取得プロトコル、患者人口にまたがる一般化性能が制限されたため、広く臨床採用されていない。 本研究では,多種多様な取得条件のデータを,正確なモデル学習と予測が可能な共通参照領域へ"調和"する新しいパラダイムを提案する。 生成的深層学習モデルを用いて,多種多様なデータセットから参照領域への正準マッピングを教師なし画像から学習することにより,意味情報を保存しつつデータ変動の縮減を図り,参照領域における学習タスクの容易化を図る。 本研究は,MRIによる脳年齢予測と統合失調症の分類と,9部位と9701被験者にまたがる神経画像MRIデータのプール化コホートを利用した2つの例を用いて,本手法を検証した。 この結果から,トレーニングが1つのサイトに限定された場合でも,サンプル外データにおけるタスクの大幅な改善が示唆された。

Conventional and deep learning-based methods have shown great potential in the medical imaging domain, as means for deriving diagnostic, prognostic, and predictive biomarkers, and by contributing to precision medicine. However, these methods have yet to see widespread clinical adoption, in part due to limited generalization performance across various imaging devices, acquisition protocols, and patient populations. In this work, we propose a new paradigm in which data from a diverse range of acquisition conditions are "harmonized" to a common reference domain, where accurate model learning and prediction can take place. By learning an unsupervised image to image canonical mapping from diverse datasets to a reference domain using generative deep learning models, we aim to reduce confounding data variation while preserving semantic information, thereby rendering the learning task easier in the reference domain. We test this approach on two example problems, namely MRI-based brain age prediction and classification of schizophrenia, leveraging pooled cohorts of neuroimaging MRI data spanning 9 sites and 9701 subjects. Our results indicate a substantial improvement in these tasks in out-of-sample data, even when training is restricted to a single site.
翻訳日:2022-10-08 14:01:02 公開日:2020-10-11
# 水中におけるマーカー型拡張現実の課題

Tackling problems of marker-based augmented reality under water ( http://arxiv.org/abs/2010.11691v1 )

ライセンス: Link先を確認
Jan \v{C}ejka, Fotis Liarokapis(参考訳) 水中サイトは拡張現実アプリケーションにとって厳しい環境です。 戦わなければならない障害には、視界の悪さ、ナビゲーションの難しさ、水中機器のハード操作などが含まれる。 本章では,マーカーを用いて水中に装置を配置する問題に焦点をあてる。 水中で記録された画像の強調と改善、およびマーカーベースの追跡に影響を及ぼす様々なフィルタについて論じている。 10個の画像改善アルゴリズムと4つのマーカー検出アルゴリズムの組み合わせを提示し、実環境での性能をテストする。 すべてのソリューションはモバイルデバイス上でリアルタイムに動作し、拡張現実の確かな基盤を提供するように設計されている。 このソリューションの使用性は地中海の地域で評価される。 注意深く選択されたパラメータを用いた画像改善アルゴリズムは,水中の視認性の問題を低減し,マーカーの検出を改善する。 最も優れた結果は、特に水中環境向けに設計されたマーカー検出アルゴリズムを用いて得られる。

Underwater sites are a harsh environment for augmented reality applications. Obstacles that must be battled include poor visibility conditions, difficult navigation, and hard manipulation with devices under water. This chapter focuses on the problem of localizing a device under water using markers. It discusses various filters that enhance and improve images recorded under water, and their impact on marker-based tracking. It presents various combinations of 10 image improving algorithms and 4 marker detecting algorithms, and tests their performance in real situations. All solutions are designed to run real-time on mobile devices to provide a solid basis for augmented reality. Usability of this solution is evaluated on locations in Mediterranean Sea. It is shown that image improving algorithms with carefully chosen parameters can reduce the problems with visibility under water and improve the detection of markers. The best results are obtained with marker detecting algorithms that are specifically designed for underwater environments.
翻訳日:2022-10-08 14:00:38 公開日:2020-10-11
# 代替ビッグデータを用いたマクロ経済分析のための知識グラフ

The Knowledge Graph for Macroeconomic Analysis with Alternative Big Data ( http://arxiv.org/abs/2010.05172v1 )

ライセンス: Link先を確認
Yucheng Yang, Yue Pang, Guanhua Huang, Weinan E(参考訳) 現在のマクロ経済学の知識システムは、少数の変数間の相互作用に基づいて構築されている。 ビッグデータを用いた最近の研究は、集約経済のダイナミクスを駆動する変数がはるかに多いことを示唆している。 本稿では,従来の経済変数間のリンクだけでなく,新たな代替ビッグデータ変数からなる知識グラフ(KG)を提案する。 学術論文や研究報告の膨大なテキストデータに高度な自然言語処理(NLP)ツールを適用することで,これらの新しい変数とリンクを抽出する。 潜在的な応用の例として、マクロ経済学における経済予測モデルの変数を選択するための事前知識として使用します。 統計的変数選択法と比較して、KG法は予測精度が著しく高く、特に長期予測では高い。

The current knowledge system of macroeconomics is built on interactions among a small number of variables, since traditional macroeconomic models can mostly handle a handful of inputs. Recent work using big data suggests that a much larger number of variables are active in driving the dynamics of the aggregate economy. In this paper, we introduce a knowledge graph (KG) that consists of not only linkages between traditional economic variables but also new alternative big data variables. We extract these new variables and the linkages by applying advanced natural language processing (NLP) tools on the massive textual data of academic literature and research reports. As one example of the potential applications, we use it as the prior knowledge to select variables for economic forecasting models in macroeconomics. Compared to statistical variable selection methods, KG-based methods achieve significantly higher forecasting accuracy, especially for long run forecasts.
翻訳日:2022-10-08 14:00:25 公開日:2020-10-11
# プラズマシミュレーションにおける自動粒子軌道分類

Automatic Particle Trajectory Classification in Plasma Simulations ( http://arxiv.org/abs/2010.05348v1 )

ライセンス: Link先を確認
Stefano Markidis and Ivy Peng and Artur Podobas and Itthinat Jongsuebchoke and Gabriel Bengtsson and Pawel Herman(参考訳) プラズマ流の数値シミュレーションは、核融合装置、宇宙、天体物理学系における大域的なプラズマダイナミクスを駆動する微視的過程の理解に不可欠である。 粒子軌道の同定と分類により, 本態性プラズマプロセスに光を流し, 進行中の加速機構を特定できる。 我々の全体的な目標は、粒子軌道空間を探索し、プラズマシミュレーションから自動的に粒子軌道を分類するための一般的なワークフローを提供することである。 我々は、Fast Fourier Transform(FFT)のような前処理技術と、主成分分析(PCA)やk平均クラスタリングアルゴリズム、シルエット解析といった機械学習手法を組み合わせる。 磁気リコネクション問題における電子軌道の分類によるワークフローの実証を行う。 本手法は,従来の文献からの既存結果の復元に成功している。 我々のワークフローは、磁気リコネクション、衝撃、磁気圏の流れなど、様々な現象の粒子軌道解析に応用できる。 ワークフローはいかなる物理モデルにも依存せず、これまで検出されなかった粒子軌道や加速機構を識別できる。

Numerical simulations of plasma flows are crucial for advancing our understanding of microscopic processes that drive the global plasma dynamics in fusion devices, space, and astrophysical systems. Identifying and classifying particle trajectories allows us to determine specific on-going acceleration mechanisms, shedding light on essential plasma processes. Our overall goal is to provide a general workflow for exploring particle trajectory space and automatically classifying particle trajectories from plasma simulations in an unsupervised manner. We combine pre-processing techniques, such as Fast Fourier Transform (FFT), with Machine Learning methods, such as Principal Component Analysis (PCA), k-means clustering algorithms, and silhouette analysis. We demonstrate our workflow by classifying electron trajectories during magnetic reconnection problem. Our method successfully recovers existing results from previous literature without a priori knowledge of the underlying system. Our workflow can be applied to analyzing particle trajectories in different phenomena, from magnetic reconnection, shocks to magnetospheric flows. The workflow has no dependence on any physics model and can identify particle trajectories and acceleration mechanisms that were not detected before.
翻訳日:2022-10-08 13:59:10 公開日:2020-10-11
# 提出前にarxivingは全員を助ける

ArXiving Before Submission Helps Everyone ( http://arxiv.org/abs/2010.05365v1 )

ライセンス: Link先を確認
Dmytro Mishkin and Amy Tabb and Jiri Matas(参考訳) 我々は、会議やジャーナルの提出前にarXivの出版を許可することは、研究者、特に初期のキャリア、そして科学コミュニティ全体に利益をもたらすと主張する。 具体的には、arXivingはプロのアイデンティティ構築を支援し、独立した再発見、アイデアの盗難、ゲートキーピングを防ぐ。 この利点は、主に有名な著者の論文の受理率の相対的な増加という欠点を軽視している。 論文の長所と短所を分析することで,プレプリントの匿名化が許可されないほど有害であると結論づけた。 著者以外がarxivを選択すべきかどうかを決める理由はありません。

We claim, and present evidence, that allowing arXiv publication before a conference or journal submission benefits researchers, especially early career, as well as the whole scientific community. Specifically, arXiving helps professional identity building, protects against independent re-discovery, idea theft and gate-keeping; it facilitates open research result distribution and reduces inequality. The advantages dwarf the drawbacks -- mainly the relative increase in acceptance rate of papers of well-known authors -- which studies show to be marginal. Analyzing the pros and cons of arXiving papers, we conclude that requiring preprints be anonymous is nearly as detrimental as not allowing them. We see no reasons why anyone but the authors should decide whether to arXiv or not.
翻訳日:2022-10-08 13:58:53 公開日:2020-10-11
# 文書画像におけるキー値検出のためのFUNSDデータセットの改訂

Revising FUNSD dataset for key-value detection in document images ( http://arxiv.org/abs/2010.05322v1 )

ライセンス: Link先を確認
Hieu M. Vu, Diep Thi-Ngoc Nguyen(参考訳) FUNSDは、ドキュメントのイモージョンから情報を取り出すための、限られた公開データセットの1つである。 FUNSDデータセットの情報は、4つのカテゴリ(key, "value", "header", "other", "background")のテキスト領域と、キーと値の関係として領域間の接続によって定義される。 in-specting funsd ではラベリングの不整合がいくつか見出され,キー値抽出問題への適用性が示唆された。 このレポートでは、funsdとtherevisionでデータセットにラベリングの問題をいくつか記述した。 また,UNetモデルとChannel-InvariantDeformable Convolutionを用いた改良UNetモデルを用いて,FUNSDにおけるキー値検出の実装についても報告した。

FUNSD is one of the limited publicly available datasets for information extraction from document im-ages. The information in the FUNSD dataset is defined by text areas of four categories ("key", "value", "header", "other", and "background") and connectivity between areas as key-value relations. In-specting FUNSD, we found several inconsistency in labeling, which impeded its applicability to thekey-value extraction problem. In this report, we described some labeling issues in FUNSD and therevision we made to the dataset. We also reported our implementation of for key-value detection onFUNSD using a UNet model as baseline results and an improved UNet model with Channel-InvariantDeformable Convolution.
翻訳日:2022-10-08 13:52:17 公開日:2020-10-11
# ビデオ顔表現と認識のためのセルフアテンションアグリゲーションネットワーク

Self-attention aggregation network for video face representation and recognition ( http://arxiv.org/abs/2010.05340v1 )

ライセンス: Link先を確認
Ihor Protsenko, Taras Lehinevych, Dmytro Voitekh, Ihor Kroosh, Nick Hasty, Anthony Johnson(参考訳) 自己注意機構に基づくモデルは、時間的データの解析に成功し、自然言語領域で広く利用されている。 自己着脱機構に基づくビデオ顔表現と認識のための新しいモデルアーキテクチャを提案する。 このアプローチは、シングルおよび複数IDのビデオに使用することができる。 私たちの知る限りでは、複数のidを持つビデオを考える集約アプローチを探求した人はいません。 提案手法では,既存のモデルを用いて各映像フレーム,例えばarcfaceおよびmobilefacenetの表情表現を取得し,アグリゲーションモジュールはフレームの順序とその品質スコアを考慮し,映像の集約された顔表現ベクトルを生成する。 我々は、IJB-Cと呼ばれるビデオ顔認識のための公開データセット上で実験結果を示し、自己注意集約ネットワーク(SAAN)がネイブ平均プールよりも優れていることを示す。 さらに,公開されているUDDFacesデータセットとGiphyから収集したGIFに基づいて,新しいマルチアイデンティティビデオデータセットを提案する。 ビデオにおいて,SAANは単一人物と複数人物の両方に対して,コンパクトな顔表現を生成可能であることを示す。 データセットとソースコードは公開される予定だ。

Models based on self-attention mechanisms have been successful in analyzing temporal data and have been widely used in the natural language domain. We propose a new model architecture for video face representation and recognition based on a self-attention mechanism. Our approach could be used for video with single and multiple identities. To the best of our knowledge, no one has explored the aggregation approaches that consider the video with multiple identities. The proposed approach utilizes existing models to get the face representation for each video frame, e.g., ArcFace and MobileFaceNet, and the aggregation module produces the aggregated face representation vector for video by taking into consideration the order of frames and their quality scores. We demonstrate empirical results on a public dataset for video face recognition called IJB-C to indicate that the self-attention aggregation network (SAAN) outperforms naive average pooling. Moreover, we introduce a new multi-identity video dataset based on the publicly available UMDFaces dataset and collected GIFs from Giphy. We show that SAAN is capable of producing a compact face representation for both single and multiple identities in a video. The dataset and source code will be publicly available.
翻訳日:2022-10-08 13:52:03 公開日:2020-10-11
# google landmark recognition 2020コンペティション3位決定

Google Landmark Recognition 2020 Competition Third Place Solution ( http://arxiv.org/abs/2010.05350v1 )

ライセンス: Link先を確認
Qishen Ha, Bo Liu, Fuxu Liu, Peiyuan Liao(参考訳) われわれは、Google Landmark Recognition 2020コンペティションの3位となるソリューションを提示する。 サブセンターのArcFaceモデルのみのグローバル機能のアンサンブルである。 GLDv2データセットの極端不均衡に対処するために設計された,クラスサイズのチューニング可能なマージン関数のファミリーであるArcFace損失の動的マージンを導入する。 プログレッシブな微調整と注意深い後処理もソリューションの鍵です。 2つの提案は、プライベート・リーダーボードで 0.6344 と 0.6289 を記録し、どちらも736チーム中3位にランクインした。

We present our third place solution to the Google Landmark Recognition 2020 competition. It is an ensemble of global features only Sub-center ArcFace models. We introduce dynamic margins for ArcFace loss, a family of tune-able margin functions of class size, designed to deal with the extreme imbalance in GLDv2 dataset. Progressive finetuning and careful postprocessing are also key to the solution. Our two submissions scored 0.6344 and 0.6289 on private leaderboard, both ranking third place out of 736 teams.
翻訳日:2022-10-08 13:51:47 公開日:2020-10-11
# efficientnetアンサンブルを用いたメラノーマ画像の同定:sim-isic melanoma classification challengeの勝利解

Identifying Melanoma Images using EfficientNet Ensemble: Winning Solution to the SIIM-ISIC Melanoma Classification Challenge ( http://arxiv.org/abs/2010.05351v1 )

ライセンス: Link先を確認
Qishen Ha, Bo Liu, Fuxu Liu(参考訳) 我々はSIIM-ISICメラノーマ分類チャレンジに勝利のソリューションを提示する。 様々なバックボーンと入力サイズを持つ畳み込みニューラルネットワーク(cnn)モデルのアンサンブルであり、そのほとんどは画像のみのモデルであり、一部は画像レベルと患者レベルのメタデータを使用している。 勝利の鍵は、(1)安定な検証スキーム(2)モデルターゲットの選択が良いこと(3)慎重に調整されたパイプライン、(4)非常に多様なモデルで組み立てることである。 受賞者は、クロス・検証で0.9600 AUC、プライベート・リーダーボードで0.9490 AUCを獲得した。

We present our winning solution to the SIIM-ISIC Melanoma Classification Challenge. It is an ensemble of convolutions neural network (CNN) models with different backbones and input sizes, most of which are image-only models while a few of them used image-level and patient-level metadata. The keys to our winning are: (1) stable validation scheme (2) good choice of model target (3) carefully tuned pipeline and (4) ensembling with very diverse models. The winning submission scored 0.9600 AUC on cross validation and 0.9490 AUC on private leaderboard.
翻訳日:2022-10-08 13:51:38 公開日:2020-10-11
# 大規模軌道データによるトラック小隊列のマイニング

Mining Truck Platooning Patterns Through Massive Trajectory Data ( http://arxiv.org/abs/2010.05142v1 )

ライセンス: Link先を確認
Xiaolei Ma, Enze Huo, Haiyang Yu, Honghai Li(参考訳) トラック小隊(英: truck platooning)とは、通信技術を介して近接して走行する一連のトラックのことであり、コネクテッド・オートマチック・カーの最も実現可能なシステムの一つと見なされ、大幅な省エネと安全性の向上をもたらす。 トラック小隊の可能性を適切に計画し、評価することは、トラック会社や交通機関にとって不可欠である。 本研究では,大規模軌道からトラック小隊パターンを学習するための一連のデータマイニング手法を提案する。 ディジタルマップデータを用いてトラックの進路を識別する拡張マップマッチングアルゴリズムを開発し,適応的空間クラスタリングアルゴリズムを用いて同時移動するトラック群を検出する。 これらの集合は、計算効率のために頻繁なアイテムセットマイニングを通じてネットワーク全体の最大小隊の長さと大きさを見つけるために集約される。 我々は,中国梁寧省のトラック輸送システムから収集した実GPSデータを利用して,小隊成績を評価し,時空間小隊パターンの抽出に成功した。 その結果, 走行経路やスケジュールを変更することなく, 速度調整により約36%の自発トラックプラトンを調整できることが示唆された。 これらの小隊トラックの平均小隊距離と持続期間比はそれぞれ9.6%と9.9%であり、総燃料消費量は2.8%減少した。 また,幹線道路や幹線道路の最適小隊化時期と空間道路を区別し,トラック小隊化の可能性の高い道路セグメントを優先する。 得られた結果は再現可能であり,大規模トラック小隊計画や道路インフラストラクチャ構築に有用な政策と運用戦略を提供する。

Truck platooning refers to a series of trucks driving in close proximity via communication technologies, and it is considered one of the most implementable systems of connected and automated vehicles, bringing huge energy savings and safety improvements. Properly planning platoons and evaluating the potential of truck platooning are crucial to trucking companies and transportation authorities. This study proposes a series of data mining approaches to learn spontaneous truck platooning patterns from massive trajectories. An enhanced map matching algorithm is developed to identify truck headings by using digital map data, followed by an adaptive spatial clustering algorithm to detect instantaneous co-moving truck sets. These sets are then aggregated to find the network-wide maximum platoon duration and size through frequent itemset mining for computational efficiency. We leverage real GPS data collected from truck fleeting systems in Liaoning Province, China, to evaluate platooning performance and successfully extract spatiotemporal platooning patterns. Results show that approximately 36% spontaneous truck platoons can be coordinated by speed adjustment without changing routes and schedules. The average platooning distance and duration ratios for these platooned trucks are 9.6% and 9.9%, respectively, leading to a 2.8% reduction in total fuel consumption. We also distinguish the optimal platooning periods and space headways for national freeways and trunk roads, and prioritize the road segments with high possibilities of truck platooning. The derived results are reproducible, providing useful policy implications and operational strategies for large-scale truck platoon planning and roadside infrastructure construction.
翻訳日:2022-10-08 13:51:00 公開日:2020-10-11
# SMYRF:非対称クラスタリングによる効率的な注意

SMYRF: Efficient Attention using Asymmetric Clustering ( http://arxiv.org/abs/2010.05315v1 )

ライセンス: Link先を確認
Giannis Daras, Nikita Kitaev, Augustus Odena, Alexandros G. Dimakis(参考訳) 本稿では,注目度を近似する新しいタイプのバランスクラスタリングアルゴリズムを提案する。 注意の複雑さは$o(n^2)$から$o(n \log n)$に減らされ、ここで$n$はシーケンス長である。 我々のアルゴリズムSMYRFは、新しい非対称変換とバランスの取れたクラスタを生成する適応スキームを定義することによって、新しい方法で局所性感性ハッシュ(LSH)を用いる。 SMYRFの最大の利点は、再トレーニングせずに高密度の注意層をドロップインで置き換えることである。 それとは対照的に、事前の高速注意メソッドは制約(クエリとキーは同じベクトル表現を共有している)を課し、スクラッチから再トレーニングする必要がある。 本手法を事前学習した自然言語処理およびコンピュータビジョンモデルに適用し,メモリと速度の利点を報告した。 特に、SMYRF-BERTは、GLUE上で(わずかに)BERTより優れ、50\%$以下のメモリを使用する。 また, SMYRFは, トレーニング前後の集中的注意を伴って使用することができることを示した。 最後に,SMYRFを用いて高解像度のGANを訓練する。 単一のtpuを使用することで,celeba-hq上の128x128=16kと256x256=65kトークンに注意を向けることができた。

We propose a novel type of balanced clustering algorithm to approximate attention. Attention complexity is reduced from $O(N^2)$ to $O(N \log N)$, where $N$ is the sequence length. Our algorithm, SMYRF, uses Locality Sensitive Hashing (LSH) in a novel way by defining new Asymmetric transformations and an adaptive scheme that produces balanced clusters. The biggest advantage of SMYRF is that it can be used as a drop-in replacement for dense attention layers without any retraining. On the contrary, prior fast attention methods impose constraints (e.g. queries and keys share the same vector representations) and require re-training from scratch. We apply our method to pre-trained state-of-the-art Natural Language Processing and Computer Vision models and we report significant memory and speed benefits. Notably, SMYRF-BERT outperforms (slightly) BERT on GLUE, while using $50\%$ less memory. We also show that SMYRF can be used interchangeably with dense attention before and after training. Finally, we use SMYRF to train GANs with attention in high resolutions. Using a single TPU, we were able to scale attention to 128x128=16k and 256x256=65k tokens on BigGAN on CelebA-HQ.
翻訳日:2022-10-08 13:50:34 公開日:2020-10-11
# 早期放棄型pruneddtwとその類似性探索への応用

Early Abandoning PrunedDTW and its application to similarity search ( http://arxiv.org/abs/2010.05371v1 )

ライセンス: Link先を確認
Matthieu Herrmann and Geoffrey I. Webb(参考訳) 動的時間ワープ(DTW)距離は、分類、クラスタリング、類似性探索などの時系列解析に広く用いられている。 しかし、その二次時間の複雑さはスケーリングを妨げている。 DTWを早期に放棄するか、あるいは低い境界によって完全に計算をスキップする戦略は、近接探索のような特定のユースケースのために開発されている。 しかし,ベクトル化や近似はさておき,最近PrunedDTWが導入されるまでDTW自体に進展はなかった。 このアルゴリズムは未完成のアライメントを創り出すことができ、後に早期に放棄された。 PrunedDTWの新バージョンである"EAPrunedDTW"を紹介します。 EAPrunedDTW は UCR Suite における類似性探索の計算時間を大幅に改善し,下位境界を許容できることを示す。

The Dynamic Time Warping ("DTW") distance is widely used in time series analysis, be it for classification, clustering or similarity search. However, its quadratic time complexity prevents it from scaling. Strategies, based on early abandoning DTW or skipping its computation altogether thanks to lower bounds, have been developed for certain use cases such as nearest neighbour search. But vectorization and approximation aside, no advance was made on DTW itself until recently with the introduction of PrunedDTW. This algorithm, able to prune unpromising alignments, was later fitted with early abandoning. We present a new version of PrunedDTW, "EAPrunedDTW", designed with early abandon in mind from the start, and able to early abandon faster than before. We show that EAPrunedDTW significantly improves the computation time of similarity search in the UCR Suite, and renders lower bounds dispensable.
翻訳日:2022-10-08 13:50:09 公開日:2020-10-11
# 切り替え可能なアクション依存グラフの永続的最適化によるマルチエージェント実行スケジュールの順序変更のためのフィードバックスキーム

A Feedback Scheme to Reorder a Multi-Agent Execution Schedule by Persistently Optimizing a Switchable Action Dependency Graph ( http://arxiv.org/abs/2010.05254v1 )

ライセンス: Link先を確認
Alexander Berndt, Niels Van Duijkeren, Luigi Palmieri and Tamas Keviczky(参考訳) 本稿では,複数の自動誘導車両 (AGV) が共通作業空間をナビゲートして様々な内科的タスクをこなし,一般的にMAPF(Multi-Agent Path Finding)問題として定式化される。 計画実行をデッドロックフリーに保つために、あるアプローチでは、Action Dependency Graph (ADG)を構築し、そのルートに沿って進むAGVの順序をエンコードする。 この方法を用いることで、遅延AGVは時として交差点でそれらを待たなければならないため、計画の実行効率に影響を及ぼす。 ワークスペースが人間やサードパーティロボットのような動的障害によって共有されている場合、AGVは大きな遅延を経験することができる。 一般的な緩和アプローチは、現在のAGV位置を用いてMAPFを再解決することである。 しかしながら、MAPFの解決には時間がかかり、特に大規模AGVチームでは、このアプローチを非効率にする。 本稿では,各AGVの経路完了時間を最小化するために,与えられた非循環ADGを繰り返し修正するオンライン手法を提案する。 提案手法はデッドロックフリープラン実行に必要な非循環ADGを持続的に維持する。 提案手法は,実行時のランダムな乱れを伴うシミュレーションを考慮し,ベースラインADGベースの実行管理手法と比較して高速な経路完了時間を示す。

In this paper we consider multiple Automated Guided Vehicles (AGVs) navigating a common workspace to fulfill various intralogistics tasks, typically formulated as the Multi-Agent Path Finding (MAPF) problem. To keep plan execution deadlock-free, one approach is to construct an Action Dependency Graph (ADG) which encodes the ordering of AGVs as they proceed along their routes. Using this method, delayed AGVs occasionally require others to wait for them at intersections, thereby affecting the plan execution efficiency. If the workspace is shared by dynamic obstacles such as humans or third party robots, AGVs can experience large delays. A common mitigation approach is to re-solve the MAPF using the current, delayed AGV positions. However, solving the MAPF is time-consuming, making this approach inefficient, especially for large AGV teams. In this work, we present an online method to repeatedly modify a given acyclic ADG to minimize route completion times of each AGV. Our approach persistently maintains an acyclic ADG, necessary for deadlock-free plan execution. We evaluate the approach by considering simulations with random disturbances on the execution and show faster route completion times compared to the baseline ADG-based execution management approach.
翻訳日:2022-10-08 13:49:54 公開日:2020-10-11
# 非定常確率的グローバル最適化アルゴリズム

Non-Stationary Stochastic Global Optimization Algorithms ( http://arxiv.org/abs/2010.05343v1 )

ライセンス: Link先を確認
Jonatan Gomez and Carlos Rivera(参考訳) Gomez氏は確率的大域最適化アルゴリズムを特徴付ける形式的で体系的なアプローチを提案する。 これを用いて、ゴメスはアルゴリズムを固定次人口統計法、すなわち定常マルコフ過程として定義されるアルゴリズムで定式化する。 これらは、ヒルクライミング、並列ヒルクライミング、世代遺伝、定常遺伝、微分進化アルゴリズムの標準的なバージョンである。 本稿ではこのような体系的なアプローチを継続する。 まず, 定常マルコフ過程から非定常マルコフ過程への十分条件収束補題を一般化する。 第二に、いくつかの選択スキームのためのマルコフカーネルを開発する。 最後に、シミュレートアニーリングと進化ストラテジーの両方を体系的な形式的アプローチで定式化する。

Gomez proposes a formal and systematic approach for characterizing stochastic global optimization algorithms. Using it, Gomez formalizes algorithms with a fixed next-population stochastic method, i.e., algorithms defined as stationary Markov processes. These are the cases of standard versions of hill-climbing, parallel hill-climbing, generational genetic, steady-state genetic, and differential evolution algorithms. This paper continues such a systematic formal approach. First, we generalize the sufficient conditions convergence lemma from stationary to non-stationary Markov processes. Second, we develop Markov kernels for some selection schemes. Finally, we formalize both simulated-annealing and evolutionary-strategies using the systematic formal approach.
翻訳日:2022-10-08 13:43:38 公開日:2020-10-11
# セグメンテーションエピポーラライン

Segmenting Epipolar Line ( http://arxiv.org/abs/2010.05131v1 )

ライセンス: Link先を確認
Shengjie Li, Qi Cai and Yuanxin Wu(参考訳) 2つの画像の特徴対応を識別することは3次元コンピュータビジョンの基本的な手順である。 通常、特徴探索空間はエピポーラ線によって制限される。 本稿では, 特徴探索空間を, エピポーラといわゆる仮想無限点によって定義されるエピポーララインの2つないし3つのセグメントの1つに抑えることができることを示す。

Identifying feature correspondence between two images is a fundamental procedure in three-dimensional computer vision. Usually the feature search space is confined by the epipolar line. Using the cheirality constraint, this paper finds that the feature search space can be restrained to one of two or three segments of the epipolar line that are defined by the epipole and a so-called virtual infinity point.
翻訳日:2022-10-08 13:43:29 公開日:2020-10-11
# sdmtl:半分離多粒軌道学習による3次元運動予測

SDMTL: Semi-Decoupled Multi-grained Trajectory Learning for 3D human motion prediction ( http://arxiv.org/abs/2010.05133v1 )

ライセンス: Link先を確認
Xiaoli Liu and Jianqin Yin(参考訳) 未来の人間の動きを予測することは、知的なロボットが現実世界で人間と対話する上で非常に重要である。 しかし、既存の作品の多くは固定モードによる暗黙的にマルチグラニュラ情報をモデル化するか、単一の粒度をモデル化することに集中しており、正確な予測のためにこの性質をうまく把握することは困難である。 そこで,本稿では,多結晶軌道情報を柔軟に取得するだけでなく,予測のための多粒度情報を集約する,新しいエンド・ツー・エンドネットワークであるsdmtlを提案する。 具体的には、まず脳にインスパイアされたセミデカップリング・モーションセンシティブ・エンコーディング・モジュール(BSME)を導入し、半デカップリング方式で時空間の特徴を効果的に捉えた。 次に, 微粒度と粗粒度を含む多粒度運動軌跡の時間的ダイナミクスを捉えた。 我々はBSMEを階層的に学習し、各粒度でBSMEの出力を収集し、運動軌跡に沿って時間的畳み込みを適用することにより、各粒度における時間的進化方向の情報を取得する。 次に、重み付け和スキームで多粒性の情報を集約することにより、捕捉された運動力学をさらに強化することができる。 最後に,Human3.6MとCMU-Mocapの2つのベンチマークによる実験結果から,提案手法の有効性を実証した。 論文が受け入れられれば、コードは利用可能になる。

Predicting future human motion is critical for intelligent robots to interact with humans in the real world, and human motion has the nature of multi-granularity. However, most of the existing work either implicitly modeled multi-granularity information via fixed modes or focused on modeling a single granularity, making it hard to well capture this nature for accurate predictions. In contrast, we propose a novel end-to-end network, Semi-Decoupled Multi-grained Trajectory Learning network (SDMTL), to predict future poses, which not only flexibly captures rich multi-grained trajectory information but also aggregates multi-granularity information for predictions. Specifically, we first introduce a Brain-inspired Semi-decoupled Motion-sensitive Encoding module (BSME), effectively capturing spatiotemporal features in a semi-decoupled manner. Then, we capture the temporal dynamics of motion trajectory at multi-granularity, including fine granularity and coarse granularity. We learn multi-grained trajectory information using BSMEs hierarchically and further capture the information of temporal evolutional directions at each granularity by gathering the outputs of BSMEs at each granularity and applying temporal convolutions along the motion trajectory. Next, the captured motion dynamics can be further enhanced by aggregating the information of multi-granularity with a weighted summation scheme. Finally, experimental results on two benchmarks, including Human3.6M and CMU-Mocap, show that our method achieves state-of-the-art performance, demonstrating the effectiveness of our proposed method. The code will be available if the paper is accepted.
翻訳日:2022-10-08 13:43:22 公開日:2020-10-11
# SDE-AWB:第2回国際照明推定問題のための総合解法

SDE-AWB: a Generic Solution for 2nd International Illumination Estimation Challenge ( http://arxiv.org/abs/2010.05149v1 )

ライセンス: Link先を確認
Yanlin Qian and Sibo Feng and Kang Qian and Miaofeng Wang(参考訳) 第2回国際照明評価課題(chromaticity.iitp.ru)の3つの異なるトラックに対するニューラルネットワークに基づく解法を提案する。 本手法は,事前学習したSqueeze-Netバックボーン,差分2Dクロマトグラフィー層,およびExif情報を利用した浅部MLPを用いて構築した。 意味的特徴,色特徴,Exifメタデータを組み合わせることで,SDE-AWBは室内2照度線,一般2照度線ともに第1位となる。

We propose a neural network-based solution for three different tracks of 2nd International Illumination Estimation Challenge (chromaticity.iitp.ru). Our method is built on pre-trained Squeeze-Net backbone, differential 2D chroma histogram layer and a shallow MLP utilizing Exif information. By combining semantic feature, color feature and Exif metadata, the resulting method -- SDE-AWB -- obtains 1st place in both indoor and two-illuminant tracks and 2nd place in general track.
翻訳日:2022-10-08 13:42:51 公開日:2020-10-11
# 属性転送のための形状認識型生成逆ネットワーク

Shape-aware Generative Adversarial Networks for Attribute Transfer ( http://arxiv.org/abs/2010.05259v1 )

ライセンス: Link先を確認
Lei Luo, William Hsu, and Shangxian Wang(参考訳) generative adversarial networks (gans) は、人間の顔画像を含む多くの領域における視覚的属性の転送に成功している。 この成功は、人間の顔の形状が似ており、目、鼻、口の位置が異なる人々の間で固定されているという事実に起因する。 ソースとターゲットドメインが異なる形状を共有する場合、属性転送はより難しい。 本稿では,属性の転送時に形状を保存できる形状認識ganモデルを提案し,その実世界領域への応用を提案する。 従来のgansベースの画像から画像への変換モデルと比較すると,トランスファー学習の結果の質を維持しつつ,視覚的に魅力的な結果を生成することができる。

Generative adversarial networks (GANs) have been successfully applied to transfer visual attributes in many domains, including that of human face images. This success is partly attributable to the facts that human faces have similar shapes and the positions of eyes, noses, and mouths are fixed among different people. Attribute transfer is more challenging when the source and target domain share different shapes. In this paper, we introduce a shape-aware GAN model that is able to preserve shape when transferring attributes, and propose its application to some real-world domains. Compared to other state-of-art GANs-based image-to-image translation models, the model we propose is able to generate more visually appealing results while maintaining the quality of results from transfer learning.
翻訳日:2022-10-08 13:42:16 公開日:2020-10-11
# 近距離ロバスト主成分分析法による赤外目標追跡

Infrared target tracking based on proximal robust principal component analysis method ( http://arxiv.org/abs/2010.05260v1 )

ライセンス: Link先を確認
Chao Ma, Guohua Gu, Xin Miao, Minjie Wan, Weixian Qian, Kan Ren, and Qian Chen(参考訳) 赤外線標的追跡は、民間と軍事の両方において重要な役割を果たす。 赤外線シーケンスのための堅牢で高精度なトラッカーの設計における主な課題は、重複、閉塞、外観変化である。 そこで本研究では,近位頑健な主成分分析法に基づく赤外線ターゲットトラッカーを提案する。 まず、観察行列をスパース閉塞行列とローランク目標行列に分解し、L1ノルムよりも良い接近近位ノルムで制約最適化を行う。 この凸最適化問題を解くために、変数を交互に推定するために、乗算器の交互方向法(ADMM)を用いる。 最後に, モデル更新戦略を用いた粒子フィルタのフレームワークを利用して, ターゲットの特定を行う。 実赤外目標系列に関する一連の実験を通じて,本アルゴリズムの有効性とロバスト性を実証した。

Infrared target tracking plays an important role in both civil and military fields. The main challenges in designing a robust and high-precision tracker for infrared sequences include overlap, occlusion and appearance change. To this end, this paper proposes an infrared target tracker based on proximal robust principal component analysis method. Firstly, the observation matrix is decomposed into a sparse occlusion matrix and a low-rank target matrix, and the constraint optimization is carried out with an approaching proximal norm which is better than L1-norm. To solve this convex optimization problem, Alternating Direction Method of Multipliers (ADMM) is employed to estimate the variables alternately. Finally, the framework of particle filter with model update strategy is exploited to locate the target. Through a series of experiments on real infrared target sequences, the effectiveness and robustness of our algorithm are proved.
翻訳日:2022-10-08 13:42:05 公開日:2020-10-11
# クロスモダリティ拡張による連続手話認識の促進

Boosting Continuous Sign Language Recognition via Cross Modality Augmentation ( http://arxiv.org/abs/2010.05264v1 )

ライセンス: Link先を確認
Junfu Pu, Wengang Zhou, Hezhen Hu, Houqiang Li(参考訳) 連続手話認識(SLR)は、アンアラインなビデオテキストペアを扱い、ワードエラー率(WER)、すなわち編集距離を主要な評価指標として使用する。 微分可能ではないため、典型的には、逐次アライメントによる後続確率を最大化するコネクショニスト時間的分類(CTC)目標損失による学習モデルを最適化する。 最適化のギャップのため、最も高い復号確率の予測文は、WER計量の下では最良の選択ではないかもしれない。 この問題に取り組むため,我々はクロスモダリティ拡張を用いた新しいアーキテクチャを提案する。 具体的には、WERの計算手順、すなわちテキストラベルとその対応するビデオの置換、削除、挿入をシミュレートして、クロスモーダルデータを初めて拡張する。 これらの実および生成された擬似ビデオテキストペアを用いて,ビデオとグランドの真理ラベル間のクロスモダリティ距離を最小化するために,複数の損失項を提案し,実と偽のモダリティの違いをネットワークに区別する。 提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。 RWTH-PHOENIX-Weather と CSL の2つの連続SLRベンチマークによる実験により,提案手法の有効性が検証された。

Continuous sign language recognition (SLR) deals with unaligned video-text pair and uses the word error rate (WER), i.e., edit distance, as the main evaluation metric. Since it is not differentiable, we usually instead optimize the learning model with the connectionist temporal classification (CTC) objective loss, which maximizes the posterior probability over the sequential alignment. Due to the optimization gap, the predicted sentence with the highest decoding probability may not be the best choice under the WER metric. To tackle this issue, we propose a novel architecture with cross modality augmentation. Specifically, we first augment cross-modal data by simulating the calculation procedure of WER, i.e., substitution, deletion and insertion on both text label and its corresponding video. With these real and generated pseudo video-text pairs, we propose multiple loss terms to minimize the cross modality distance between the video and ground truth label, and make the network distinguish the difference between real and pseudo modalities. The proposed framework can be easily extended to other existing CTC based continuous SLR architectures. Extensive experiments on two continuous SLR benchmarks, i.e., RWTH-PHOENIX-Weather and CSL, validate the effectiveness of our proposed method.
翻訳日:2022-10-08 13:41:52 公開日:2020-10-11
# pi-net:多人数単眼3次元ポーズ推定のためのポーズインタラクションネットワーク

PI-Net: Pose Interacting Network for Multi-Person Monocular 3D Pose Estimation ( http://arxiv.org/abs/2010.05302v1 )

ライセンス: Link先を確認
Wen Guo, Enric Corona, Francesc Moreno-Noguer, Xavier Alameda-Pineda(参考訳) 近年の文献では、単眼の3Dポーズ推定が極めて良好である。 これらの研究において、異なる人物は通常、推定のための独立したポーズインスタンスとして扱われる。 しかし、毎日の多くの状況において、人々は相互作用し、個人のポーズは、その相互作用者のポーズに依存する。 本稿では,この依存性を活用して,現在およびおそらく将来の深層ネットワークを3次元単眼的ポーズ推定に活用する方法について検討する。 我々のポーズ相互作用ネットワーク(PI-Net)は、対話者の変動数の初期ポーズ推定値を、興味のある人のポーズを洗練するために使用される繰り返しアーキテクチャに入力する。 このような方法の評価は、公開注釈付きマルチパーソン3dポーズデータセットの可用性が限られているため、難しい。 本手法の有効性をmupotsデータセットで実証し,その上で新たな最先端の設定を行う。 他のマルチパーソンデータセット(3dポーズは使用できない)の質的結果が提案されているpi-netを示している。 pi-netはpytorchで実装されており、コードは論文が受け入れられると利用可能になる。

Recent literature addressed the monocular 3D pose estimation task very satisfactorily. In these studies, different persons are usually treated as independent pose instances to estimate. However, in many every-day situations, people are interacting, and the pose of an individual depends on the pose of his/her interactees. In this paper, we investigate how to exploit this dependency to enhance current - and possibly future - deep networks for 3D monocular pose estimation. Our pose interacting network, or PI-Net, inputs the initial pose estimates of a variable number of interactees into a recurrent architecture used to refine the pose of the person-of-interest. Evaluating such a method is challenging due to the limited availability of public annotated multi-person 3D human pose datasets. We demonstrate the effectiveness of our method in the MuPoTS dataset, setting the new state-of-the-art on it. Qualitative results on other multi-person datasets (for which 3D pose ground-truth is not available) showcase the proposed PI-Net. PI-Net is implemented in PyTorch and the code will be made available upon acceptance of the paper.
翻訳日:2022-10-08 13:41:07 公開日:2020-10-11
# 中世アラビア語ダイアクリットの自動予測

Automated Prediction of Medieval Arabic Diacritics ( http://arxiv.org/abs/2010.05269v1 )

ライセンス: Link先を確認
Khalid Alnajjar, Mika H\"am\"al\"ainen, Niko Partanen, Jack Rueter(参考訳) 本研究では,長期記憶型双方向リカレントニューラルネットワークを用いた文字レベルのニューラルネットワーク翻訳手法を用いて,中世アラビア語のダイアリゼーションを行う。 結果は、ベースラインとして使用されるオンラインツールから改善される。 pypiとzenodoで利用可能なpythonパッケージを通じて、ダイアクリタイズモデルが公開されている。 予測モデルを最適化する場合,コンテキストサイズを考慮すべきであることがわかった。

This study uses a character level neural machine translation approach trained on a long short-term memory-based bi-directional recurrent neural network architecture for diacritization of Medieval Arabic. The results improve from the online tool used as a baseline. A diacritization model have been published openly through an easy to use Python package available on PyPi and Zenodo. We have found that context size should be considered when optimizing a feasible prediction model.
翻訳日:2022-10-08 13:34:24 公開日:2020-10-11
# WMT2020のTransQuest: Sentence-Level Direct Assessment

TransQuest at WMT2020: Sentence-Level Direct Assessment ( http://arxiv.org/abs/2010.05318v1 )

ライセンス: Link先を確認
Tharindu Ranasinghe, Constantin Orasan, Ruslan Mitkov(参考訳) 本稿では,WMT 2020におけるTransQuestのSentence-Level Direct Assessment共有タスクへの参加について述べる。 言語間変換をベースとした簡単なQEフレームワークを導入し、2つの異なるニューラルアーキテクチャの実装と評価に使用します。 提案手法は,共有タスクで使用されるベースラインであるOpenKiwiの結果を上回り,最先端の結果が得られる。 我々はさらに、アンサンブルとデータ拡張を行い、QEフレームワークを微調整する。 私たちのアプローチは、wmt 2020の公式結果によると、すべての言語ペアの勝利ソリューションです。

This paper presents the team TransQuest's participation in Sentence-Level Direct Assessment shared task in WMT 2020. We introduce a simple QE framework based on cross-lingual transformers, and we use it to implement and evaluate two different neural architectures. The proposed methods achieve state-of-the-art results surpassing the results obtained by OpenKiwi, the baseline used in the shared task. We further fine tune the QE framework by performing ensemble and data augmentation. Our approach is the winning solution in all of the language pairs according to the WMT 2020 official results.
翻訳日:2022-10-08 13:34:18 公開日:2020-10-11
# 非インクリメンタルエンコーダ時代のインクリメンタル処理:インクリメンタルnluのための双方向モデルの実証的評価

Incremental Processing in the Age of Non-Incremental Encoders: An Empirical Assessment of Bidirectional Models for Incremental NLU ( http://arxiv.org/abs/2010.05330v1 )

ライセンス: Link先を確認
Brielen Madureira and David Schlangen(参考訳) 人間は言語を漸進的に処理するが、現在NLPで使われている最高の言語エンコーダはそうではない。 双方向LSTMとトランスフォーマーの両方は、エンコードされるシーケンスが完全に利用可能であり、フォワードとバックワード(BiLSTM)または全体(トランスフォーマー)として処理されると仮定している。 対話型システムにおいて発生しうる一定の時間ステップまでの部分入力に基づいて部分的な出力を行なわなければならない場合,インクリメンタルなインタフェース下でどのように振る舞うかを検討する。 様々なNLUデータセット上で5つのモデルをテストし、3つのインクリメンタル評価指標を用いて性能を比較した。 その結果、インクリメンタルモードにおける双方向エンコーダの使用が可能となり、その非インクリメンタル品質が維持される。 非インクリメンタルなパフォーマンスを向上する"全方向"BERTモデルは、インクリメンタルアクセスによってより影響を受けます。 トレーニングレジーム(意図的なトレーニング)やテスト手順を適用することで、正しいコンテキストが利用可能になるまでアウトプットを遅らせたり、gpt-2のような言語モデルによって生成された仮説上の右コンテキストを組み込むことで、これを軽減することができる。

While humans process language incrementally, the best language encoders currently used in NLP do not. Both bidirectional LSTMs and Transformers assume that the sequence that is to be encoded is available in full, to be processed either forwards and backwards (BiLSTMs) or as a whole (Transformers). We investigate how they behave under incremental interfaces, when partial output must be provided based on partial input seen up to a certain time step, which may happen in interactive systems. We test five models on various NLU datasets and compare their performance using three incremental evaluation metrics. The results support the possibility of using bidirectional encoders in incremental mode while retaining most of their non-incremental quality. The "omni-directional" BERT model, which achieves better non-incremental performance, is impacted more by the incremental access. This can be alleviated by adapting the training regime (truncated training), or the testing procedure, by delaying the output until some right context is available or by incorporating hypothetical right contexts generated by a language model like GPT-2.
翻訳日:2022-10-08 13:34:11 公開日:2020-10-11
# ドキュメント最小リスクトレーニングによる暴露バイアスに対処する - cambridge at the wmt20 biomedical translation task

Addressing Exposure Bias With Document Minimum Risk Training: Cambridge at the WMT20 Biomedical Translation Task ( http://arxiv.org/abs/2010.05333v1 )

ライセンス: Link先を確認
Danielle Saunders and Bill Byrne(参考訳) 2020年のWMT生物医学翻訳は、メドラインの抽象翻訳を評価した。 これは、非常に異なるスタイルと語彙を持つ限られた関連するトレーニングデータを意味する、小さなドメイン翻訳タスクである。 このようなデータに基づいてトレーニングされたモデルは、特にトレーニングされた文ペアが互いに不完全な翻訳である場合、露出バイアス効果に影響を受けやすい。 これにより、モデルが原文を無視することを学ぶと、推論中の振る舞いが悪くなる可能性がある。 UNICAMのエントリーは、最小リスクトレーニングの堅牢なバリエーションを使用して微調整中にこの問題に対処する。 このアプローチをデータフィルタリングと対比して,‘problem’トレーニング例を削除する。 MRTファインチューニングでは,英語・ドイツ語・英語・スペイン語の両文の翻訳が良好な結果を得た。 特に、アンサンブルのない単一のモデルのみを使用しながら、英語とスペイン語の最高の翻訳結果とスペイン語と英語の2番目に良い結果を達成する。

The 2020 WMT Biomedical translation task evaluated Medline abstract translations. This is a small-domain translation task, meaning limited relevant training data with very distinct style and vocabulary. Models trained on such data are susceptible to exposure bias effects, particularly when training sentence pairs are imperfect translations of each other. This can result in poor behaviour during inference if the model learns to neglect the source sentence. The UNICAM entry addresses this problem during fine-tuning using a robust variant on Minimum Risk Training. We contrast this approach with data-filtering to remove `problem' training examples. Under MRT fine-tuning we obtain good results for both directions of English-German and English-Spanish biomedical translation. In particular we achieve the best English-to-Spanish translation result and second-best Spanish-to-English result, despite using only single models with no ensembling.
翻訳日:2022-10-08 13:33:27 公開日:2020-10-11
# バイアスを検出できます ニュース記事の政治的イデオロギーを

We Can Detect Your Bias: Predicting the Political Ideology of News Articles ( http://arxiv.org/abs/2010.05338v1 )

ライセンス: Link先を確認
Ramy Baly, Giovanni Da San Martino, James Glass and Preslav Nakov(参考訳) 我々は、主要な政治イデオロギーやニュース記事のバイアスを予測するタスクを探求する。 まず、政治イデオロギー(左、中央、右)に手動で注釈付けされた34,737記事からなる大規模なデータセットを収集し、公開します。 さらに,テスト例がトレーニング中に見られなかったメディアから来るという,難解な実験的なセットアップを用いて,モデルが対象ニュース記事のソースを学習することを防止し,政治的なイデオロギーを予測することなく検出する。 モデリングの観点からは,敵メディアへの適応と,特殊に適応した三重項損失を提案する。 さらに、ソースに関する背景情報を加え、記事レベルの予測を改善するのに非常に役立つことを示す。 実験結果から,この挑戦的なセットアップにおいて,最先端の事前学習型トランスに比べて非常に大きな改善が得られた。

We explore the task of predicting the leading political ideology or bias of news articles. First, we collect and release a large dataset of 34,737 articles that were manually annotated for political ideology -left, center, or right-, which is well-balanced across both topics and media. We further use a challenging experimental setup where the test examples come from media that were not seen during training, which prevents the model from learning to detect the source of the target news article instead of predicting its political ideology. From a modeling perspective, we propose an adversarial media adaptation, as well as a specially adapted triplet loss. We further add background information about the source, and we show that it is quite helpful for improving article-level prediction. Our experimental results show very sizable improvements over using state-of-the-art pre-trained Transformers in this challenging setup.
翻訳日:2022-10-08 13:33:12 公開日:2020-10-11
# 物事を特徴付ける学習:ロベルタは(実際に)言語一般化を好む

Learning Which Features Matter: RoBERTa Acquires a Preference for Linguistic Generalizations (Eventually) ( http://arxiv.org/abs/2010.05358v1 )

ライセンス: Link先を確認
Alex Warstadt, Yian Zhang, Haau-Sing Li, Haokun Liu, Samuel R. Bowman(参考訳) 自己指導型言語課題の事前学習が効果的である理由は、言語理解に役立つモデル機能を教えることである。 しかし, 事前学習モデルでは, 言語的特徴の表現だけでなく, その特徴を優先的に活用することが望ましい。 この目的を念頭に置いて,事前学習されたモデルが言語的あるいは表面的一般化を好むかどうかをテストするために20のあいまいな二分分類タスクからなる,msgs(the mixed signal generalization set)と呼ばれる新しい英語診断セットを導入する。 我々は,RoBERTaモデルを1Mから10Bまでのデータ量でスクラッチからプレトレーニングし,MSGS上でのパフォーマンスをRoBERTaベースと比較する。 モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすにははるかに多くのデータが必要である。 最終的に、約30億ワードの事前学習データを用いて、RoBERTaベースは規則性のある言語バイアスを示す。 自己教師付き事前学習は、有益な帰納的バイアスを学習する効果的な方法であるが、どの特徴が重要かをモデルが学習する速度を改善する余地がある。

One reason pretraining on self-supervised linguistic tasks is effective is that it teaches models features that are helpful for language understanding. However, we want pretrained models to learn not only to represent linguistic features, but also to use those features preferentially during fine-turning. With this goal in mind, we introduce a new English-language diagnostic set called MSGS (the Mixed Signals Generalization Set), which consists of 20 ambiguous binary classification tasks that we use to test whether a pretrained model prefers linguistic or surface generalizations during fine-tuning. We pretrain RoBERTa models from scratch on quantities of data ranging from 1M to 1B words and compare their performance on MSGS to the publicly available RoBERTa-base. We find that models can learn to represent linguistic features with little pretraining data, but require far more data to learn to prefer linguistic generalizations over surface ones. Eventually, with about 30B words of pretraining data, RoBERTa-base does demonstrate a linguistic bias with some regularity. We conclude that while self-supervised pretraining is an effective way to learn helpful inductive biases, there is likely room to improve the rate at which models learn which features matter.
翻訳日:2022-10-08 13:32:44 公開日:2020-10-11
# 量的引数要約とbeyond:クロスドメインキーポイント分析

Quantitative Argument Summarization and Beyond: Cross-Domain Key Point Analysis ( http://arxiv.org/abs/2010.05369v1 )

ライセンス: Link先を確認
Roy Bar-Haim, Yoav Kantor, Lilach Eden, Roni Friedman, Dan Lahav and Noam Slonim(参考訳) あるトピックについての見解、議論、意見の集合を要約する場合、最も健全な点を抽出するだけでなく、その頻度を定量化することが望ましい。 マルチドキュメント要約の研究は伝統的に、この定量的な側面を欠いたテキスト要約の作成に重点を置いてきた。 近年の研究では、各キーポイントのサリエンスがその一致する引数の数に対応するような、専門家生成キーポイントの小さなセットにマッピングすることで、議論を要約する提案がなされている。 本研究は,キーポイントの自動抽出手法を開発し,完全自動解析が可能であり,人的専門家に匹敵する性能を発揮することを示す。 第2に, キーポイント解析の適用性は, 議論データを超えていることを示す。 公開可能な議論データセットに基づいてトレーニングされたモデルを用いて、市町村の調査とユーザレビューという2つの領域で有望な結果を得る。 さらなる貢献は、議論からキーまでのポイントマッチングモデルの詳細な評価であり、我々は以前の結果を大幅に上回っている。

When summarizing a collection of views, arguments or opinions on some topic, it is often desirable not only to extract the most salient points, but also to quantify their prevalence. Work on multi-document summarization has traditionally focused on creating textual summaries, which lack this quantitative aspect. Recent work has proposed to summarize arguments by mapping them to a small set of expert-generated key points, where the salience of each key point corresponds to the number of its matching arguments. The current work advances key point analysis in two important respects: first, we develop a method for automatic extraction of key points, which enables fully automatic analysis, and is shown to achieve performance comparable to a human expert. Second, we demonstrate that the applicability of key point analysis goes well beyond argumentation data. Using models trained on publicly available argumentation datasets, we achieve promising results in two additional domains: municipal surveys and user reviews. An additional contribution is an in-depth evaluation of argument-to-key point matching models, where we substantially outperform previous results.
翻訳日:2022-10-08 13:32:21 公開日:2020-10-11
# WMT20ニュース翻訳タスクのためのSJTU-NICTの監視・教師なしニューラルネットワーク翻訳システム

SJTU-NICT's Supervised and Unsupervised Neural Machine Translation Systems for the WMT20 News Translation Task ( http://arxiv.org/abs/2010.05122v1 )

ライセンス: Link先を確認
Zuchao Li, Hai Zhao, Rui Wang, Kehai Chen, Masao Utiyama, Eiichiro Sumita(参考訳) 本稿では,wmt 2020機械翻訳共有タスクにおける共同チームsjtu-nictの参加について紹介する。 この共有タスクでは、英語、中国語、英語、ドイツ語、ドイツ語、ドイツ語、ドイツ語の3つの言語対の4つの翻訳方向に参加した。 文書化nmt, xlm事前学習型言語モデル強化nmt, 事前学習のための双方向翻訳, 参照言語ベースunmt, データ依存ガウス優先目標, bt-ブレウ協調フィルタリング自己学習など, 言語ペアの異なる条件に基づき, 多様なニューラルマシン翻訳(nmt)手法を実験した。 また、TF-IDFアルゴリズムを用いてトレーニングセットをフィルタリングし、テストセットと類似したドメインセットをファインタニングに利用した。 我々の提案では、主要なシステムは、中国語、ポーランド語、英語、ドイツ語から上ソルベ語への翻訳指示において、第一位を獲得した。

In this paper, we introduced our joint team SJTU-NICT 's participation in the WMT 2020 machine translation shared task. In this shared task, we participated in four translation directions of three language pairs: English-Chinese, English-Polish on supervised machine translation track, German-Upper Sorbian on low-resource and unsupervised machine translation tracks. Based on different conditions of language pairs, we have experimented with diverse neural machine translation (NMT) techniques: document-enhanced NMT, XLM pre-trained language model enhanced NMT, bidirectional translation as a pre-training, reference language based UNMT, data-dependent gaussian prior objective, and BT-BLEU collaborative filtering self-training. We also used the TF-IDF algorithm to filter the training set to obtain a domain more similar set with the test set for finetuning. In our submissions, the primary systems won the first place on English to Chinese, Polish to English, and German to Upper Sorbian translation directions.
翻訳日:2022-10-08 13:26:18 公開日:2020-10-11
# 学校文書における文書レベル定義検出:既存のモデル,エラー解析,今後の方向性

Document-Level Definition Detection in Scholarly Documents: Existing Models, Error Analyses, and Future Directions ( http://arxiv.org/abs/2010.05129v1 )

ライセンス: Link先を確認
Dongyeop Kang, Andrew Head, Risham Sidhu, Kyle Lo, Daniel S. Weld, Marti A. Hearst(参考訳) 論文は、読者になじみのない技術用語をしばしば利用するため、学術論文にとって定義検出のタスクは重要である。 定義検出に関する以前の作業にもかかわらず、現在のアプローチは現実のアプリケーションで使えるほど正確ではない。 本稿では,まず,現在の最適定義検出システムの深度誤差解析を行い,誤りの主な原因を明らかにする。 本研究では,構文特徴量,トランスフォーマーエンコーダ,ヒューリスティックフィルタを用いた新しい定義検出システムheddexを開発し,標準文レベルのベンチマークで評価する。 現在のベンチマークはランダムにサンプリングされた文を評価するため、文書内の各文を評価する代替評価を提案する。 これにより、精度に加えてリコールを評価することができる。 HEDDEx は文レベルと文書レベルの両方のタスクにおいて、それぞれ 12.7 F1 点と 14.4 F1 点を上回っている。 文書構造を特徴として組み込む必要があるため,高リコール文書レベルのタスクの性能は,標準評価手法よりもはるかに低いことに留意する。 本稿では,文書レベルの定義検出,改善のためのアイデア,読解支援アプリケーション開発における潜在的な課題について論じる。

The task of definition detection is important for scholarly papers, because papers often make use of technical terminology that may be unfamiliar to readers. Despite prior work on definition detection, current approaches are far from being accurate enough to use in real-world applications. In this paper, we first perform in-depth error analysis of the current best performing definition detection system and discover major causes of errors. Based on this analysis, we develop a new definition detection system, HEDDEx, that utilizes syntactic features, transformer encoders, and heuristic filters, and evaluate it on a standard sentence-level benchmark. Because current benchmarks evaluate randomly sampled sentences, we propose an alternative evaluation that assesses every sentence within a document. This allows for evaluating recall in addition to precision. HEDDEx outperforms the leading system on both the sentence-level and the document-level tasks, by 12.7 F1 points and 14.4 F1 points, respectively. We note that performance on the high-recall document-level task is much lower than in the standard evaluation approach, due to the necessity of incorporation of document structure as features. We discuss remaining challenges in document-level definition detection, ideas for improvements, and potential issues for the development of reading aid applications.
翻訳日:2022-10-08 13:25:58 公開日:2020-10-11
# 今後の計画:段落完成作業のための自己監督型テキスト計画

Plan ahead: Self-Supervised Text Planning for Paragraph Completion Task ( http://arxiv.org/abs/2010.05141v1 )

ライセンス: Link先を確認
Dongyeop Kang, Eduard Hovy(参考訳) 近年のNLPタスクにおける文脈化言語モデルの成功にもかかわらず、言語モデル自体が長い多文文書(例えば1段落)のテキストコヒーレンスをキャプチャすることはできない。 人間は発話する前に、しばしば構造的な決定を下す。 このようなハイレベルな決定とテキストのコヒーレントな構造化で表面実現を導くことは、本質的には計画プロセスと呼ばれる。 モデルはこのようなハイレベルなコヒーレンスをどこで学べますか? パラグラフ自体は、文の順序、話題キーワード、修辞構造など、この作品において自己スーパービジョンと呼ばれる様々な帰納的コヒーレンス信号を含んでいる。 そこで本研究では,新しい段落補完タスクparcomを提案し,段落内のマスキング文の予測を行う。 しかし、タスクは与えられたコンテキストに関して適切なトピックコンテンツの予測と選択に苦しむ。 そこで本研究では,まず何を言おうか(コンテンツ予測)を予測し,次に予測内容を用いて事前学習した言語モデル(表面実現)を導出する自己教師付きテキストプランナーssplannerを提案する。 ssplannerは、自動評価と人間評価の両方において、段落完了タスクのベースライン生成モデルを上回る。 また,キーワードの名詞型と動詞型の組み合わせが,コンテンツ選択に最も有効であることも判明した。 コンテンツキーワードの数が増えるにつれて、全体の生成品質も向上する。

Despite the recent success of contextualized language models on various NLP tasks, language model itself cannot capture textual coherence of a long, multi-sentence document (e.g., a paragraph). Humans often make structural decisions on what and how to say about before making utterances. Guiding surface realization with such high-level decisions and structuring text in a coherent way is essentially called a planning process. Where can the model learn such high-level coherence? A paragraph itself contains various forms of inductive coherence signals called self-supervision in this work, such as sentence orders, topical keywords, rhetorical structures, and so on. Motivated by that, this work proposes a new paragraph completion task PARCOM; predicting masked sentences in a paragraph. However, the task suffers from predicting and selecting appropriate topical content with respect to the given context. To address that, we propose a self-supervised text planner SSPlanner that predicts what to say first (content prediction), then guides the pretrained language model (surface realization) using the predicted content. SSPlanner outperforms the baseline generation models on the paragraph completion task in both automatic and human evaluation. We also find that a combination of noun and verb types of keywords is the most effective for content selection. As more number of content keywords are provided, overall generation quality also increases.
翻訳日:2022-10-08 13:25:22 公開日:2020-10-11
# PHICON:データ拡張による臨床テキスト識別モデルの一般化の改善

PHICON: Improving Generalization of Clinical Text De-identification Models via Data Augmentation ( http://arxiv.org/abs/2010.05143v1 )

ライセンス: Link先を確認
Xiang Yue and Shuang Zhou(参考訳) 脱識別は、臨床テキストで保護された健康情報(PHI)を識別するタスクである。 既存のニューラルネットワークの非識別モデルは、しばしば新しいデータセットへの一般化に失敗する。 一般化問題を緩和するために,単純で効果的なデータ拡張手法PHICONを提案する。 PHICONはPHI拡張とコンテキスト拡張で構成されており、PHIエンティティを外部ソースからサンプリングされた名前付きエンティティに置き換え、背景コンテキストを同義置換またはランダムな単語挿入に変更することにより、強化トレーニングコーパスを生成する。 i2b2 2006と2014の非識別チャレンジデータセットの実験結果は、phiconが3つの選択された非識別モデルのf1-score(最大8.6%)を、クロスデータセットのテスト設定で強化できることを示しています。 また,各拡張方法が性能に与える影響についても検討した。

De-identification is the task of identifying protected health information (PHI) in the clinical text. Existing neural de-identification models often fail to generalize to a new dataset. We propose a simple yet effective data augmentation method PHICON to alleviate the generalization issue. PHICON consists of PHI augmentation and Context augmentation, which creates augmented training corpora by replacing PHI entities with named-entities sampled from external sources, and by changing background context with synonym replacement or random word insertion, respectively. Experimental results on the i2b2 2006 and 2014 de-identification challenge datasets show that PHICON can help three selected de-identification models boost F1-score (by at most 8.6%) on cross-dataset test setting. We also discuss how much augmentation to use and how each augmentation method influences the performance.
翻訳日:2022-10-08 13:24:58 公開日:2020-10-11
# 会話力学の一般モデルと重篤な病気コミュニケーションへの応用例

A General Model of Conversational Dynamics and an Example Application in Serious Illness Communication ( http://arxiv.org/abs/2010.05164v1 )

ライセンス: Link先を確認
Laurence A. Clarfeld, Robert Gramling, Donna M. Rizzo, Margaret J. Eppstein(参考訳) 会話は古来から情報交換の主要な手段であった。 会話における情報フローのパターンを理解することは、コミュニケーション品質を評価し改善するための重要なステップである。 本稿では,会話中の情報フローのパターンを研究するための新しい手法である会話動力学モデル(codym)分析について述べる。 CODYMは、話者ターンの長さの逐次的依存関係をキャプチャするマルコフモデルである。 提案手法は自動化され,スケーラブルであり,会話参加者のプライバシーを保っている。 codym分析の主な機能は、情報フローのパターンを定量化し視覚化することであり、1つ以上の会話からの順番に簡潔に要約される。 我々のアプローチは一般的なものであり、既存の手法を補完し、あらゆる種類の会話の分析に使える新しいツールを提供する。 重要な第1の応用として, 緩和医療医と重病患者の会話の転写モデルを示す。 これらの会話は動的で複雑で、激しい感情の中で行われ、終末期の嗜好や患者の価値といった難しいトピックを含んでいる。 我々はCODYM分析を多目的に行う。 (a)会話のターンテイクや単語使用の既知のパターンを確認することにより、モデルの妥当性を確立する。 b)重度の病的会話における情報の流れの規範的パターンを特定し、 (c)これらのパターンが物語の時間によってどう変化するかを示し、怒り、恐怖、悲しみの表現で異なる。 CODYMの潜在的な応用は、効果的な医療コミュニケーションの評価と訓練から、言語と文化における会話のダイナミクスの比較まで多岐にわたる。

Conversation has been a primary means for the exchange of information since ancient times. Understanding patterns of information flow in conversations is a critical step in assessing and improving communication quality. In this paper, we describe COnversational DYnamics Model (CODYM) analysis, a novel approach for studying patterns of information flow in conversations. CODYMs are Markov Models that capture sequential dependencies in the lengths of speaker turns. The proposed method is automated and scalable, and preserves the privacy of the conversational participants. The primary function of CODYM analysis is to quantify and visualize patterns of information flow, concisely summarized over sequential turns from one or more conversations. Our approach is general and complements existing methods, providing a new tool for use in the analysis of any type of conversation. As an important first application, we demonstrate the model on transcribed conversations between palliative care clinicians and seriously ill patients. These conversations are dynamic and complex, taking place amidst heavy emotions, and include difficult topics such as end-of-life preferences and patient values. We perform a versatile set of CODYM analyses that (a) establish the validity of the model by confirming known patterns of conversational turn-taking and word usage, (b) identify normative patterns of information flow in serious illness conversations, and (c) show how these patterns vary across narrative time and differ under expressions of anger, fear and sadness. Potential applications of CODYMs range from assessment and training of effective healthcare communication to comparing conversational dynamics across language and culture, with the prospect of identifying universal similarities and unique "fingerprints" of information flow.
翻訳日:2022-10-08 13:24:46 公開日:2020-10-11
# 英語注釈のみを用いた多言語における食中毒問題の検出

Detecting Foodborne Illness Complaints in Multiple Languages Using English Annotations Only ( http://arxiv.org/abs/2010.05194v1 )

ライセンス: Link先を確認
Ziyi Liu, Giannis Karamanolakis, Daniel Hsu, Luis Gravano(参考訳) 医療省は、Yelpのレストランレビューなどのソーシャルメディア文書に、食品関連疾患の早期発見のためのテキスト分類システムを展開している。 現在のシステムは英語の文書にうまく適用されており、その結果、スペイン語や中国語などの追加言語での文書を考慮し、カバレッジとリコールを高めることが期待できる。 しかし、より多くの言語に対する以前のシステムのトレーニングは、新しいターゲット言語ごとに多くのドキュメントのマニュアルアノテーションを必要とするため、コストがかかる。 この課題に対処すべく,多言語学習と多言語分類の訓練を,英語レビューのアノテーションのみを用いて検討した。 事前訓練された多言語BERT(mBERT)に基づく最近のゼロショットアプローチは、感情などの側面に対して、言語を効果的に整合させることが示されている。 興味深いことに、これらのアプローチは、私たちの公衆衛生分野である食品病のニュアンスを捉えるのにあまり効果がないことが示されています。 追加のアノテーションを使わずに、機械翻訳によってターゲット言語で人工的な訓練文書を作成し、ソース(英語)とターゲット言語を併用してmBERTを訓練する。 さらに,ラベル付き文書を複数言語に翻訳することで,対象言語の性能が向上することを示す。 Yelpのレストランレビューを7言語で広範囲に実験することで,このアプローチのメリットを実証する。 我々の分類器は、Yelp Challengeデータセットからの多言語レビューで食品由来の病気の苦情を特定し、健康部門への展開に対する私たちの一般的なアプローチの可能性を強調します。

Health departments have been deploying text classification systems for the early detection of foodborne illness complaints in social media documents such as Yelp restaurant reviews. Current systems have been successfully applied for documents in English and, as a result, a promising direction is to increase coverage and recall by considering documents in additional languages, such as Spanish or Chinese. Training previous systems for more languages, however, would be expensive, as it would require the manual annotation of many documents for each new target language. To address this challenge, we consider cross-lingual learning and train multilingual classifiers using only the annotations for English-language reviews. Recent zero-shot approaches based on pre-trained multi-lingual BERT (mBERT) have been shown to effectively align languages for aspects such as sentiment. Interestingly, we show that those approaches are less effective for capturing the nuances of foodborne illness, our public health application of interest. To improve performance without extra annotations, we create artificial training documents in the target language through machine translation and train mBERT jointly for the source (English) and target language. Furthermore, we show that translating labeled documents to multiple languages leads to additional performance improvements for some target languages. We demonstrate the benefits of our approach through extensive experiments with Yelp restaurant reviews in seven languages. Our classifiers identify foodborne illness complaints in multilingual reviews from the Yelp Challenge dataset, which highlights the potential of our general approach for deployment in health departments.
翻訳日:2022-10-08 13:24:20 公開日:2020-10-11
# 数学的テキストの機械翻訳

Machine Translation of Mathematical Text ( http://arxiv.org/abs/2010.05229v1 )

ライセンス: Link先を確認
Aditya Ohri and Tanya Schmah(参考訳) 数学的テキストを含むLaTeX文書を対象とした機械翻訳システムPolyMath Translatorを実装した。 現在の実装では、英語のLaTeXをフランス語のLaTeXに翻訳し、数学文の保留テストコーパスでBLEUスコアが53.5に達した。 LaTeX文書はPDFにコンパイルでき、編集は不要である。 システムはまず、入力されたLaTeX文書の本体を、パンドックユニバーサル文書変換器を用いて、数学トークンを含む英語の文に変換し、LaTeX入力を解析する。 我々は,opennmtを用いたトランスフォーマーベースの翻訳モデルを,ドメイン特化文のごく一部を含む複合コーパス上で訓練した。 私たちのシステムでは、このトランスフォーマーモデルとgoogle translateの両方を使用しています。後者は、トレーニングデータセットに現れない言語的特徴をよりうまく扱うために、バックアップとして使用されています。 Transformerモデルが高いパープレキシティスコアによって決定されるように、翻訳に自信を持っていない場合、Google Translateをカスタム用語集で使用します。 このバックアップは、数学文のテストコーパスで26%の時間で使用されました。 PolyMath Translatorはwww.polymathtrans.aiでWebサービスとして利用可能である。

We have implemented a machine translation system, the PolyMath Translator, for LaTeX documents containing mathematical text. The current implementation translates English LaTeX to French LaTeX, attaining a BLEU score of 53.5 on a held-out test corpus of mathematical sentences. It produces LaTeX documents that can be compiled to PDF without further editing. The system first converts the body of an input LaTeX document into English sentences containing math tokens, using the pandoc universal document converter to parse LaTeX input. We have trained a Transformer-based translator model, using OpenNMT, on a combined corpus containing a small proportion of domain-specific sentences. Our full system uses both this Transformer model and Google Translate, the latter being used as a backup to better handle linguistic features that do not appear in our training dataset. If the Transformer model does not have confidence in its translation, as determined by a high perplexity score, then we use Google Translate with a custom glossary. This backup was used 26% of the time on our test corpus of mathematical sentences. The PolyMath Translator is available as a web service at www.polymathtrans.ai.
翻訳日:2022-10-08 13:23:53 公開日:2020-10-11
# 制御可能なマルチキャラクタ心理学指向ストーリー生成

Controllable Multi-Character Psychology-Oriented Story Generation ( http://arxiv.org/abs/2010.05230v1 )

ライセンス: Link先を確認
Feifei Xu, Xinpeng Wang, Yunpu Ma, Volker Tresp, Yuyi Wang, Shanlin Zhou and Haizhou Du(参考訳) タイトルや入力文に基づいて,長く一貫性のある物語を自動生成することを目的とした物語生成は,自然言語生成分野における重要な研究分野である。 割り当てられた感情を持つストーリー生成に関する作業は、比較的少ない。 既存の作品のほとんどは、ストーリー全体の生成を制御し、ストーリーの進行過程におけるキャラクターの感情変化を無視するために、1つの特定の感情のみを使うことに焦点を当てている。 本研究の目的は,心理理論において共通する複数の感情を考慮した各キャラクターの感情線をデザインすることであり,より豊かな感情変化を伴う物語を創造することにある。 我々の知る限りでは、この作品はまずストーリー生成におけるキャラクターの感情線に焦点を当てる。 本稿では,SoCP(Storytelling of multi-Character Psychology)と呼ばれる新しいモデルに基づく注意機構を提案する。 提案モデルは,登場人物の心理状態の変化を考慮したストーリーを生成できることを示す。 モデルの特異性を考慮するために,一般的な評価指標(bleu,rougeなど)に加えて,心理状態制御の精度を新しい評価指標として導入する。 新しい指標は、モデルがストーリーキャラクタの心理状態制御に与える影響を反映している。 実験により、生成したストーリーは、自動評価と人的評価の両方に従って、各キャラクターの心理的状態に従うことが示された。

Story generation, which aims to generate a long and coherent story automatically based on the title or an input sentence, is an important research area in the field of natural language generation. There is relatively little work on story generation with appointed emotions. Most existing works focus on using only one specific emotion to control the generation of a whole story and ignore the emotional changes in the characters in the course of the story. In our work, we aim to design an emotional line for each character that considers multiple emotions common in psychological theories, with the goal of generating stories with richer emotional changes in the characters. To the best of our knowledge, this work is first to focuses on characters' emotional lines in story generation. We present a novel model-based attention mechanism that we call SoCP (Storytelling of multi-Character Psychology). We show that the proposed model can generate stories considering the changes in the psychological state of different characters. To take into account the particularity of the model, in addition to commonly used evaluation indicators(BLEU, ROUGE, etc.), we introduce the accuracy rate of psychological state control as a novel evaluation metric. The new indicator reflects the effect of the model on the psychological state control of story characters. Experiments show that with SoCP, the generated stories follow the psychological state for each character according to both automatic and human evaluations.
翻訳日:2022-10-08 13:23:35 公開日:2020-10-11
# NLPモデルの高精度かつ信頼性の高いエネルギー測定に向けて

Towards Accurate and Reliable Energy Measurement of NLP Models ( http://arxiv.org/abs/2010.05248v1 )

ライセンス: Link先を確認
Qingqing Cao, Aruna Balasubramanian, Niranjan Balasubramanian(参考訳) 大規模NLPモデルの選択および訓練において,エネルギー消費の高精度かつ信頼性の高い測定は,優れた設計選択を行う上で重要である。 本研究では,ハードウェアの差異や資源利用がエネルギー消費に与える影響を考慮せず,既存のソフトウェアベースのエネルギー測定は正確ではないことを示す。 質問応答タスクに4つの異なるモデルを用いてエネルギー測定実験を行う。 高精度なエネルギー測定を行うハードウェアパワーメータを用いて,既存のソフトウェアベースのエネルギー測定誤差を定量化する。 我々の重要な特徴は、ハードウェアの多様性と資源利用とエネルギー消費の非線形関係を考慮したより正確なエネルギー推定モデルの必要性である。 コードとデータはhttps://github.com/csarron/sustainlp2020-energyでリリースします。

Accurate and reliable measurement of energy consumption is critical for making well-informed design choices when choosing and training large scale NLP models. In this work, we show that existing software-based energy measurements are not accurate because they do not take into account hardware differences and how resource utilization affects energy consumption. We conduct energy measurement experiments with four different models for a question answering task. We quantify the error of existing software-based energy measurements by using a hardware power meter that provides highly accurate energy measurements. Our key takeaway is the need for a more accurate energy estimation model that takes into account hardware variabilities and the non-linear relationship between resource utilization and energy consumption. We release the code and data at https://github.com/csarron/sustainlp2020-energy.
翻訳日:2022-10-08 13:23:15 公開日:2020-10-11
# モバイルアプリのセキュリティとプライバシーをターゲットとしたユーザレビューに関する実証的研究

An Empirical Study on User Reviews Targeting Mobile Apps' Security & Privacy ( http://arxiv.org/abs/2010.06371v1 )

ライセンス: Link先を確認
Debjyoti Mukherjee, Alireza Ahmadi, Maryam Vahdat Pour, Joel Reardon(参考訳) アプリケーションマーケットは、アプリレビューという形で、アプリ開発者とエンドユーザの間のコミュニケーションチャネルを提供する。 モバイルアプリのセキュリティとプライバシは大きな問題だが、どの程度の人がそれを認識しているか、レビューで議論しているかは不明だ。 本研究では,Google Play Storeのレビューを用いて,ユーザのプライバシとセキュリティに関する懸念について検討する。 このために、このandroidマーケットのトップ539アプリから約220万レビューを分析して調査を行った。 これらのレビューの0.5%は、ユーザのセキュリティとプライバシの懸念に関係していることが分かりました。 さらに,これらのアプリを動的解析によって解析し,実際の動作に関する貴重な洞察を提供する。 異なる視点から、アプリを分類し、異なる要因がユーザーのアプリに対する認識にどのように影響するかを評価した。 結果から、アプリ要求のパーミッション数が、この問題において主要な役割を果たすことが明らかとなった。 また、位置情報を送信すると、アプリに対するユーザーの考えに影響を与えます。 その他の要因は、ユーザのプライバシーやセキュリティの懸念に直接は影響しない。

Application markets provide a communication channel between app developers and their end-users in form of app reviews, which allow users to provide feedback about the apps. Although security and privacy in mobile apps are one of the biggest issues, it is unclear how much people are aware of these or discuss them in reviews. In this study, we explore the privacy and security concerns of users using reviews in the Google Play Store. For this, we conducted a study by analyzing around 2.2M reviews from the top 539 apps of this Android market. We found that 0.5\% of these reviews are related to the security and privacy concerns of the users. We further investigated these apps by performing dynamic analysis which provided us valuable insights into their actual behaviors. Based on the different perspectives, we categorized the apps and evaluated how the different factors influence the users' perception of the apps. It was evident from the results that the number of permissions that the apps request plays a dominant role in this matter. We also found that sending out the location can affect the users' thoughts about the app. The other factors do not directly affect the privacy and security concerns for the users.
翻訳日:2022-10-08 13:17:37 公開日:2020-10-11
# クラスタリングにおける表現性公正性

Representativity Fairness in Clustering ( http://arxiv.org/abs/2010.07054v1 )

ライセンス: Link先を確認
Deepak P and Savitha Sam Abraham(参考訳) 機械学習アルゴリズムに公正構造を組み込むことは、社会的重要性と最近の関心のトピックである。 多くのwebデータシナリオにまたがる教師なし学習の基本タスクであるクラスタリングも、公正なml研究において注目を集めている。 本稿では,表現性公正という,クラスタリングにおける公平性の新たな概念を開発する。 代表性公平性は、公平な意思決定を支援するために、割り当てられたクラスタの代表者に対するオブジェクトの近接間の不一致を緩和する必要性によって動機付けられる。 本稿では,クラスタリングを含む実世界の意思決定シナリオにおける表現力の公平性の重要性について述べる。 我々は,クラスタリング品質とともに,表現性公正性を最適化する新たなクラスタリング形式RFKMを開発した。 K$-MeansフレームワークにインスパイアされたRFKMは、新しい損失項を組み込んで目的関数を定式化する。 RFKMの目的と最適化のアプローチは、高い表現性公正性をもたらすクラスタリング構成へと導く。 様々な公開データセットに対する経験的評価を通じて,本手法の有効性を確定する。 クラスタリングの品質に対する限界的な影響だけで、表現力の公平性を大幅に改善できることを示す。

Incorporating fairness constructs into machine learning algorithms is a topic of much societal importance and recent interest. Clustering, a fundamental task in unsupervised learning that manifests across a number of web data scenarios, has also been subject of attention within fair ML research. In this paper, we develop a novel notion of fairness in clustering, called representativity fairness. Representativity fairness is motivated by the need to alleviate disparity across objects' proximity to their assigned cluster representatives, to aid fairer decision making. We illustrate the importance of representativity fairness in real-world decision making scenarios involving clustering and provide ways of quantifying objects' representativity and fairness over it. We develop a new clustering formulation, RFKM, that targets to optimize for representativity fairness along with clustering quality. Inspired by the $K$-Means framework, RFKM incorporates novel loss terms to formulate an objective function. The RFKM objective and optimization approach guides it towards clustering configurations that yield higher representativity fairness. Through an empirical evaluation over a variety of public datasets, we establish the effectiveness of our method. We illustrate that we are able to significantly improve representativity fairness at only marginal impact to clustering quality.
翻訳日:2022-10-08 13:17:20 公開日:2020-10-11
# 取引データからのデジタル資産価格変動予測のためのディープラーニングフレームワーク

A Deep Learning Framework for Predicting Digital Asset Price Movement from Trade-by-trade Data ( http://arxiv.org/abs/2010.07404v1 )

ライセンス: Link先を確認
Qi Zhao(参考訳) 本稿では,取引毎のデータから暗号通貨の価格変動を予測する,long short-term memory network(lstm)に基づくディープラーニングフレームワークを提案する。 本研究の主な焦点は、振り返り期間から固定時間地平線における短期的価格変動の予測である。 特徴を慎重に設計し、最適なハイパーパラメーターの詳細な探索を行うことで、1年近いトレードバイトレーダデータで高いパフォーマンスを達成するよう訓練されている。 最適モデルは、サンプル外のテスト期間で安定したハイパフォーマンス(60%以上の精度)を提供する。 現実的な取引シミュレーション設定では、モデルによる予測は簡単に収益化できる。 また, lstmモデルでは, 学習パラメータがトレーニングデータに含まれない他の暗号通貨機器に対して高い性能を保っているため, 取引データから普遍的な特徴を抽出することができた。 本研究は,使用データのスケールと精度,および高い予測精度の点で,既存の研究を上回っている。

This paper presents a deep learning framework based on Long Short-term Memory Network(LSTM) that predicts price movement of cryptocurrencies from trade-by-trade data. The main focus of this study is on predicting short-term price changes in a fixed time horizon from a looking back period. By carefully designing features and detailed searching for best hyper-parameters, the model is trained to achieve high performance on nearly a year of trade-by-trade data. The optimal model delivers stable high performance(over 60% accuracy) on out-of-sample test periods. In a realistic trading simulation setting, the prediction made by the model could be easily monetized. Moreover, this study shows that the LSTM model could extract universal features from trade-by-trade data, as the learned parameters well maintain their high performance on other cryptocurrency instruments that were not included in training data. This study exceeds existing researches in term of the scale and precision of data used, as well as the high prediction accuracy achieved.
翻訳日:2022-10-08 13:17:00 公開日:2020-10-11
# 点雲の効率的な長距離畳み込み

Efficient Long-Range Convolutions for Point Clouds ( http://arxiv.org/abs/2010.05295v1 )

ライセンス: Link先を確認
Yifan Peng, Lin Lin, Lexing Ying and Leonardo Zepeda-N\'u\~nez(参考訳) 点雲に対する長距離相互作用の効率的な処理は多くの科学機械学習応用において難しい問題である。 グローバルな情報を抽出するには、通常、大きなウィンドウサイズ、多数のレイヤ、および/または多数のチャネルが必要である。 これはしばしば計算コストを大幅に増加させる。 本研究では,ポイントクラウドの長距離情報を直接組み込んだ新しいニューラルネットワーク層を提案する。 この層は長距離畳み込み(LRC)層と呼ばれ、非一様フーリエ変換と結合した畳み込み定理を利用する。 一言で言えば、lrc層はポイントクラウドを適切な大きさの正則格子にモーリングし、そのフーリエ変換を計算し、訓練可能なフーリエ乗算器のセットで結果を乗算し、逆フーリエ変換を計算し、最終的に結果をポイントクラウドに補間する。 結果のグローバルな全対全畳み込み演算は、入力点の数に関して漸近的にほぼ直線的に行うことができる。 LRC層は局所的な畳み込みと組み合わせることで、短距離と長距離の両方の相互作用を効率的かつシームレスに処理できる。 我々は,LRC層と短距離畳み込み層を組み合わせたニューラルネットワークアーキテクチャを導入し,N$ボディポテンシャルに関連するエネルギーと力の正確な学習を行った。 また,誘導された2段階の分解を活用し,サンプル数を減らすことで複合アーキテクチャを訓練するための効率的な戦略を提案する。

The efficient treatment of long-range interactions for point clouds is a challenging problem in many scientific machine learning applications. To extract global information, one usually needs a large window size, a large number of layers, and/or a large number of channels. This can often significantly increase the computational cost. In this work, we present a novel neural network layer that directly incorporates long-range information for a point cloud. This layer, dubbed the long-range convolutional (LRC)-layer, leverages the convolutional theorem coupled with the non-uniform Fourier transform. In a nutshell, the LRC-layer mollifies the point cloud to an adequately sized regular grid, computes its Fourier transform, multiplies the result by a set of trainable Fourier multipliers, computes the inverse Fourier transform, and finally interpolates the result back to the point cloud. The resulting global all-to-all convolution operation can be performed in nearly-linear time asymptotically with respect to the number of input points. The LRC-layer is a particularly powerful tool when combined with local convolution as together they offer efficient and seamless treatment of both short and long range interactions. We showcase this framework by introducing a neural network architecture that combines LRC-layers with short-range convolutional layers to accurately learn the energy and force associated with a $N$-body potential. We also exploit the induced two-level decomposition and propose an efficient strategy to train the combined architecture with a reduced number of samples.
翻訳日:2022-10-08 13:16:17 公開日:2020-10-11
# 多方向エッジを用いた線形非ガウス図形モデルの学習

Learning Linear Non-Gaussian Graphical Models with Multidirected Edges ( http://arxiv.org/abs/2010.05306v1 )

ライセンス: Link先を確認
Yiheng Liu, Elina Robeva, and Huanqing Wang(参考訳) 本稿では,観測データを用いた線形非ガウス構造方程式モデルの基礎となる非巡回混合グラフの学習法を提案する。 我々は,wang と drton によって提案されたアルゴリズムを基礎として,有向および双向のエッジのみを学習することにより,復元モデルの隠れた可変構造を拡張できることを示した。 多方向エッジは、2つ以上の観測変数が隠れた共通の原因を持つ場合に現れる。 我々は,高次累積法に注目し,マルチトランク法則を利用することにより,そのような隠れた原因の存在を検出する。 本手法は,有意な多方向エッジを持つボウフリー非環状混合グラフである場合の正しい構造を復元する。

In this paper we propose a new method to learn the underlying acyclic mixed graph of a linear non-Gaussian structural equation model given observational data. We build on an algorithm proposed by Wang and Drton, and we show that one can augment the hidden variable structure of the recovered model by learning {\em multidirected edges} rather than only directed and bidirected ones. Multidirected edges appear when more than two of the observed variables have a hidden common cause. We detect the presence of such hidden causes by looking at higher order cumulants and exploiting the multi-trek rule. Our method recovers the correct structure when the underlying graph is a bow-free acyclic mixed graph with potential multi-directed edges.
翻訳日:2022-10-08 13:15:53 公開日:2020-10-11
# 分布ロバストなパラメトリック最大度推定

Distributionally Robust Parametric Maximum Likelihood Estimation ( http://arxiv.org/abs/2010.05321v1 )

ライセンス: Link先を確認
Viet Anh Nguyen and Xuhui Zhang and Jose Blanchet and Angelos Georghiou(参考訳) 本研究では,分布の自然指数系列を用いた確率的生成モデルのパラメータ推定問題を考察する。 この問題に対して、典型的な最大可能性推定器は、通常、限られた訓練サンプルサイズで過度に適合し、ノイズに敏感であり、下流での予測タスクでは不十分である。 これらの問題を緩和するために,パラメトリックなKulback-Leibler球上での最悪の対数損失をパラメトリックな名目分布で均一に最小化する分布的に頑健な極大推定器を提案する。 同じ自然指数族内の2つの分布間のクルバック・リーブラー偏差の解析式を活用することで、分極推定問題は一般化された線形モデルのロバストなトレーニングを含む広義の設定で引き出すことができることを示す。 我々の新しいロバスト推定器も統計的一貫性を享受し,回帰と分類のタスクにおいて有望な実証結果を提供する。

We consider the parameter estimation problem of a probabilistic generative model prescribed using a natural exponential family of distributions. For this problem, the typical maximum likelihood estimator usually overfits under limited training sample size, is sensitive to noise and may perform poorly on downstream predictive tasks. To mitigate these issues, we propose a distributionally robust maximum likelihood estimator that minimizes the worst-case expected log-loss uniformly over a parametric Kullback-Leibler ball around a parametric nominal distribution. Leveraging the analytical expression of the Kullback-Leibler divergence between two distributions in the same natural exponential family, we show that the min-max estimation problem is tractable in a broad setting, including the robust training of generalized linear models. Our novel robust estimator also enjoys statistical consistency and delivers promising empirical results in both regression and classification tasks.
翻訳日:2022-10-08 13:15:02 公開日:2020-10-11
# 評価:精度・リコール・F測定からROC・情報・マーキング・相関まで

Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation ( http://arxiv.org/abs/2010.16061v1 )

ライセンス: Link先を確認
David M. W. Powers(参考訳) Recall、Precision、F-Measure、Rand Accuracyなどの一般的な評価尺度はバイアスがあり、バイアスを明確に理解せずには使用すべきではない。 これらの尺度を用いることで、客観的なインフォメーションの感覚でより良くなるシステムが、これらの一般的に使用されるいずれかの措置でより良く機能するように見える。 予測と確率の確率を反映したいくつかの概念と測度について論じる。 予測が偶然に対してマークされる確率の2つの尺度として、インフォームドネスとマークネスを導入する。 最後に, インフォームドネス, マーク性, 相関性, 重要性, およびリコールと精度との直観的関係との関係をエレガントに表現し, ディコトナスの場合から一般マルチクラスの場合への拡張を概説する。

Commonly used evaluation measures including Recall, Precision, F-Measure and Rand Accuracy are biased and should not be used without clear understanding of the biases, and corresponding identification of chance or base case levels of the statistic. Using these measures a system that performs worse in the objective sense of Informedness, can appear to perform better under any of these commonly used measures. We discuss several concepts and measures that reflect the probability that prediction is informed versus chance. Informedness and introduce Markedness as a dual measure for the probability that prediction is marked versus chance. Finally we demonstrate elegant connections between the concepts of Informedness, Markedness, Correlation and Significance as well as their intuitive relationships with Recall and Precision, and outline the extension from the dichotomous case to the general multi-class case.
翻訳日:2022-10-08 13:14:45 公開日:2020-10-11
# MammoGANesis:放射線教育のための高分解能マンモグラムの生成制御

MammoGANesis: Controlled Generation of High-Resolution Mammograms for Radiology Education ( http://arxiv.org/abs/2010.05177v1 )

ライセンス: Link先を確認
Cyril Zakka, Ghida Saheb, Elie Najem, Ghina Berjawi(参考訳) 放射線学の研修生は, 毎月数百個のマンモグラムを解釈することが求められ, 悪性病変と良性障害を区別する微妙なパターンを識別することが目的である。 残念なことに、医療法と技術的なハードルは、トレーニングのために医療画像にアクセスしクエリすることを困難にしている。 本稿では,512×512高分解能マンモグラムを合成するために,GAN(Generative Adversarial Network)を訓練する。 結果として得られたモデルは、高レベルの特徴(例えば、標準マンモグラフィービューや乳腺病変の性質)を教師なしで分離し、生成された画像(例えば、乳腺脂肪組織、石灰化)の確率的変化を伴って、ユーザーが制御するグローバルおよび局所的な属性編集を可能にする。 本研究は, 合成および編集したマンモグラムの高画質化と, 医用教育の進歩と促進に有用であることを示すため, 4人のマンモグラフィ専門医を対象とした二重盲検研究において, 平均AUC0.54を達成し, 解剖学的, 医学的に関係のあるマンモグラムを生成する能力を示す。

During their formative years, radiology trainees are required to interpret hundreds of mammograms per month, with the objective of becoming apt at discerning the subtle patterns differentiating benign from malignant lesions. Unfortunately, medico-legal and technical hurdles make it difficult to access and query medical images for training. In this paper we train a generative adversarial network (GAN) to synthesize 512 x 512 high-resolution mammograms. The resulting model leads to the unsupervised separation of high-level features (e.g. the standard mammography views and the nature of the breast lesions), with stochastic variation in the generated images (e.g. breast adipose tissue, calcification), enabling user-controlled global and local attribute-editing of the synthesized images. We demonstrate the model's ability to generate anatomically and medically relevant mammograms by achieving an average AUC of 0.54 in a double-blind study on four expert mammography radiologists to distinguish between generated and real images, ascribing to the high visual quality of the synthesized and edited mammograms, and to their potential use in advancing and facilitating medical education.
翻訳日:2022-10-08 13:14:26 公開日:2020-10-11
# 時系列回帰における動的時間ワープの影響に関する事例研究

A Case-Study on the Impact of Dynamic Time Warping in Time Series Regression ( http://arxiv.org/abs/2010.05270v1 )

ライセンス: Link先を確認
Vivek Mahato, P\'adraig Cunningham(参考訳) 動的時間ウォーピング (dtw) は, 時系列間の類似性を明らかにするのに有効であることがよく理解されている。 本稿では,分光時系列データについて述べる。 単一波長のみを考慮した場合,DTWは回帰作業の精度向上に有効であることを示す。 k-Nearest Neighbourと組み合わせると、DTWは、時系列のレベルでサンプル間の類似点と相違点を明らかにすることができるという利点が追加される。 しかし、この問題では、このデータは様々な波長で利用できると考えている。 集約統計(平均、分散)が多くの波長にわたって使用される場合、DTWの利点はもはや明らかではない。 これを、ビッグデータが機械学習の高度なモデルに挑戦する別の例として提示する。

It is well understood that Dynamic Time Warping (DTW) is effective in revealing similarities between time series that do not align perfectly. In this paper, we illustrate this on spectroscopy time-series data. We show that DTW is effective in improving accuracy on a regression task when only a single wavelength is considered. When combined with k-Nearest Neighbour, DTW has the added advantage that it can reveal similarities and differences between samples at the level of the time-series. However, in the problem, we consider here data is available across a spectrum of wavelengths. If aggregate statistics (means, variances) are used across many wavelengths the benefits of DTW are no longer apparent. We present this as another example of a situation where big data trumps sophisticated models in Machine Learning.
翻訳日:2022-10-08 13:07:38 公開日:2020-10-11
# ADABOOK & MultiBOOK: チャンス補正による適応的ブースティング

ADABOOK & MULTIBOOK: Adaptive Boosting with Chance Correction ( http://arxiv.org/abs/2010.15550v1 )

ライセンス: Link先を確認
David M. W. Powers(参考訳) AdaBoost の適応的手法とランダム選択と Bagging の代替技術の組み合わせなど、強化とバッグングにかなりの関心が寄せられている。 同時に、Kappa、Informedness、Corelation、ROC AUCなどの機会補正措置が提唱されるなど、私たちの評価方法の再検討も行われています。 これにより、適切な確率補正尺度を最適化することで、学習アルゴリズムがより良くできるかどうかが問題となる。 実際、弱い学習者は、より再帰的な機会補正措置を損なうために正確さを最適化することができ、これが起こるとブースターは早すぎる可能性がある。 この現象は従来の精度に基づくAdaBoostで発生することが知られており、MultiBoostアルゴリズムはバッグングに基づく再起動技術を用いてそのような問題を解決するために開発された。 そこで本稿は, 確率補正尺度の活用の必要性を示す理論的研究を補完するものであり, 確率補正尺度の活用が向上することを示す実証研究である。 AdaBookとMultibookが標準のMultiboostやAdaBoostを倒せるように、MultiBoostでも早期降伏問題は発生し、どの機会修正対策をいつ使うかをさらに明らかにする。

There has been considerable interest in boosting and bagging, including the combination of the adaptive techniques of AdaBoost with the random selection with replacement techniques of Bagging. At the same time there has been a revisiting of the way we evaluate, with chance-corrected measures like Kappa, Informedness, Correlation or ROC AUC being advocated. This leads to the question of whether learning algorithms can do better by optimizing an appropriate chance corrected measure. Indeed, it is possible for a weak learner to optimize Accuracy to the detriment of the more reaslistic chance-corrected measures, and when this happens the booster can give up too early. This phenomenon is known to occur with conventional Accuracy-based AdaBoost, and the MultiBoost algorithm has been developed to overcome such problems using restart techniques based on bagging. This paper thus complements the theoretical work showing the necessity of using chance-corrected measures for evaluation, with empirical work showing how use of a chance-corrected measure can improve boosting. We show that the early surrender problem occurs in MultiBoost too, in multiclass situations, so that chance-corrected AdaBook and Multibook can beat standard Multiboost or AdaBoost, and we further identify which chance-corrected measures to use when.
翻訳日:2022-10-08 13:07:13 公開日:2020-10-11
# gucnet: 分類を改善するためのクラスタリングベースのネットワーク

GuCNet: A Guided Clustering-based Network for Improved Classification ( http://arxiv.org/abs/2010.05212v1 )

ライセンス: Link先を確認
Ushasi Chaudhuri, Syomantak Chaudhuri, Subhasis Chaudhuri(参考訳) 難解で散在的なデータセットのセマンティック分類の問題に対処する。 我々は,既存の有分別データセットの分類容易性を活用して,新しい,しかも非常に単純な分類手法を提案する。 実験データセットとセマンティックな関係を持たないかもしれないガイドデータセットは、機能セットに適切に分離可能なクラスタを形成するため、提案ネットワークは、課題データセットのクラスワイズ機能をガイドセットの異なるクラスタに組み込もうとする。 可用性に応じて2種類のガイドセットを提案する。1つはテクスチャ(イメージ)ガイド、もう1つはクラスタセンターを表すプロトタイプベクターである。 RSSCN, LSUN, TU-Berlinのデータセットを用いた実験結果から, 提案手法の有効性が確立された。

We deal with the problem of semantic classification of challenging and highly-cluttered dataset. We present a novel, and yet a very simple classification technique by leveraging the ease of classifiability of any existing well separable dataset for guidance. Since the guide dataset which may or may not have any semantic relationship with the experimental dataset, forms well separable clusters in the feature set, the proposed network tries to embed class-wise features of the challenging dataset to those distinct clusters of the guide set, making them more separable. Depending on the availability, we propose two types of guide sets: one using texture (image) guides and another using prototype vectors representing cluster centers. Experimental results obtained on the challenging benchmark RSSCN, LSUN, and TU-Berlin datasets establish the efficacy of the proposed method as we outperform the existing state-of-the-art techniques by a considerable margin.
翻訳日:2022-10-08 13:06:49 公開日:2020-10-11
# 医学的会話から抽出した弱監督薬

Weakly Supervised Medication Regimen Extraction from Medical Conversations ( http://arxiv.org/abs/2010.05317v1 )

ライセンス: Link先を確認
Dhruvesh Patel, Sandeep Konam, Sai P. Selvaraj(参考訳) 医療談話から抽出したMR(Automated Medication Regimen)は、リコールを改善し、患者のケア計画に従うのを助けるだけでなく、医師のドキュメンテーション負担を軽減する。 本稿では,会話の中で議論された薬品に対応する頻度,経路,変化のスパン抽出に焦点を当てた。 まず、注釈付き医師と患者の会話のユニークなデータセットを記述し、その後、ノイズ分類データを用いてスパン抽出を行う弱教師付きモデルアーキテクチャを提案する。 このモデルは分類モデル内の注意ボトルネックを利用して抽出を行う。 注意スコアと投影関数のいくつかの変種を実験し,新しいトランスベース注意スコア関数(tascore)を提案する。 提案するtascoreとfusedmaxプロジェクションの組み合わせは,加算スコアとソフトマックスプロジェクションのベースラインと比較して,最長共通部分文字列f1が10ポイント向上する。

Automated Medication Regimen (MR) extraction from medical conversations can not only improve recall and help patients follow through with their care plan, but also reduce the documentation burden for doctors. In this paper, we focus on extracting spans for frequency, route and change, corresponding to medications discussed in the conversation. We first describe a unique dataset of annotated doctor-patient conversations and then present a weakly supervised model architecture that can perform span extraction using noisy classification data. The model utilizes an attention bottleneck inside a classification model to perform the extraction. We experiment with several variants of attention scoring and projection functions and propose a novel transformer-based attention scoring function (TAScore). The proposed combination of TAScore and Fusedmax projection achieves a 10 point increase in Longest Common Substring F1 compared to the baseline of additive scoring plus softmax projection.
翻訳日:2022-10-08 13:06:15 公開日:2020-10-11
# 製品/サービス発見を促進するための知識グラフの利用

Exploiting Knowledge Graphs for Facilitating Product/Service Discovery ( http://arxiv.org/abs/2010.05213v1 )

ライセンス: Link先を確認
Sarika Jain(参考訳) 製品発見のための既存の技術のほとんどは構文的アプローチに依存しており、そのため、プロセス中に基盤となる標準の価値と特定の意味情報を無視する。 製品データは異なる異種ソースとフォーマットから来ており、相互運用性の問題を引き起こします。 とりわけ、データの流入が継続的に増えているため、手動ラベリングはより高価になっている。 異なる製品の説明を単一の表現に統合するには、ベンダー間ですべての製品を単一の分類で整理する必要がある。 実際に関連があり、品質の高い製品分類標準は、まだ数に制限がある。そして、業界と比較してプロトタイプのみを見ることができる学術研究プロジェクトにおいても、そうである。 本研究は,データ分類のための教師なしアプローチと,マッチングのための知識グラフの活用により,データweb上の電子商取引におけるコスト効率の高いソリューションを提案する。 提案アーキテクチャでは,Webオントロジー言語OWLで利用可能な製品について記述し,それをトリプルストアに格納する。 特定の製品のユーザ入力仕様は、利用可能な製品カテゴリと一致して知識グラフを生成する。 このマルチフェーズなトップダウンアプローチは、もしカスタマイズされた製品レコメンデーションがあれば、ユーザーが選択した製品/サービスとユーザーを結びつけることができる。

Most of the existing techniques to product discovery rely on syntactic approaches, thus ignoring valuable and specific semantic information of the underlying standards during the process. The product data comes from different heterogeneous sources and formats giving rise to the problem of interoperability. Above all, due to the continuously increasing influx of data, the manual labeling is getting costlier. Integrating the descriptions of different products into a single representation requires organizing all the products across vendors in a single taxonomy. Practically relevant and quality product categorization standards are still limited in number; and that too in academic research projects where we can majorly see only prototypes as compared to industry. This work presents a cost-effective solution for e-commerce on the Data Web by employing an unsupervised approach for data classification and exploiting the knowledge graphs for matching. The proposed architecture describes available products in web ontology language OWL and stores them in a triple store. User input specifications for certain products are matched against the available product categories to generate a knowledge graph. This mullti-phased top-down approach to develop and improve existing, if any, tailored product recommendations will be able to connect users with the exact product/service of their choice.
翻訳日:2022-10-08 13:05:47 公開日:2020-10-11
# テキスト分類のためのエンドツーエンド二元化ニューラルネットワーク

End to End Binarized Neural Networks for Text Classification ( http://arxiv.org/abs/2010.05223v1 )

ライセンス: Link先を確認
Harshil Jain, Akshat Agarwal, Kumar Shridhar, Denis Kleyko(参考訳) ディープニューラルネットワークは、ほぼすべての自然言語処理タスクにおいて優れたパフォーマンスを示しているが、複雑さの増加は懸念を生じさせている。 特に、これらのネットワークは計算ハードウェアに高い費用を必要とするため、多くの人にとってトレーニング予算が問題となる。 トレーニングされたネットワークであっても、リソース制約のあるデバイスには推論フェーズがあまりにも要求されるため、適用性が制限される。 最先端のトランスモデルは、鮮やかな例である。 ネットワークによって実行される計算を単純化することは、複雑さの要件を緩和する方法のひとつです。 本稿では,目的分類タスクのためのエンドツーエンドバイナリ化ニューラルネットワークアーキテクチャを提案する。 終端バイナライゼーションの可能性を完全に活用するために、入力表現(トークン統計のベクトル埋め込み)と分類器の両方をバイナライズする。 3つのデータセット上の短いテキストの意図的な分類と、より大きなデータセットによるテキスト分類において、このようなアーキテクチャの効率性を示す。 提案するアーキテクチャは,20~40%のメモリ削減とトレーニング時間を活用しながら,標準インテント分類データセットの最先端結果に匹敵する性能を発揮する。 さらに、文書のバイナライズされたベクトル埋め込みやバイナライズされた分類器のようなアーキテクチャの個々のコンポーネントは、必ずしも完全なバイナリアーキテクチャでは、別々に使用することができる。

Deep neural networks have demonstrated their superior performance in almost every Natural Language Processing task, however, their increasing complexity raises concerns. In particular, these networks require high expenses on computational hardware, and training budget is a concern for many. Even for a trained network, the inference phase can be too demanding for resource-constrained devices, thus limiting its applicability. The state-of-the-art transformer models are a vivid example. Simplifying the computations performed by a network is one way of relaxing the complexity requirements. In this paper, we propose an end to end binarized neural network architecture for the intent classification task. In order to fully utilize the potential of end to end binarization, both input representations (vector embeddings of tokens statistics) and the classifier are binarized. We demonstrate the efficiency of such architecture on the intent classification of short texts over three datasets and for text classification with a larger dataset. The proposed architecture achieves comparable to the state-of-the-art results on standard intent classification datasets while utilizing ~ 20-40% lesser memory and training time. Furthermore, the individual components of the architecture, such as binarized vector embeddings of documents or binarized classifiers, can be used separately with not necessarily fully binary architectures.
翻訳日:2022-10-08 12:59:55 公開日:2020-10-11
# 言語間埋め込みによる多言語攻撃言語識別

Multilingual Offensive Language Identification with Cross-lingual Embeddings ( http://arxiv.org/abs/2010.05324v1 )

ライセンス: Link先を確認
Tharindu Ranasinghe, Marcos Zampieri(参考訳) 悪質なコンテンツはソーシャルメディアに広まり、企業や政府機関への懸念の理由となっている。 様々な種類のコンテンツ(ヘイトスピーチ、サイバーブリング、サイバーアグレスなど)を検出するための研究手法が最近公表されている。 これらの研究の大部分が英語を扱うのは、ほとんどの注釈付きデータセットが英語のデータを含んでいるためである。 本稿では、言語間文脈の単語埋め込みと伝達学習を適用して利用可能な英語データを利用して、リソースの少ない言語での予測を行う。 我々はベンガル語、ヒンディー語、スペイン語の同値なデータを予測し、ベンガル語で0.8415 F1マクロ、ヒンディー語で0.8568 F1マクロ、スペイン語で0.7513 F1マクロを報告した。 最後に,これらの3言語で最近共有されたタスクに対して提案された最良のシステムと比較し,言語間の文脈埋め込みや伝達学習の堅牢性を確認した。

Offensive content is pervasive in social media and a reason for concern to companies and government organizations. Several studies have been recently published investigating methods to detect the various forms of such content (e.g. hate speech, cyberbulling, and cyberaggression). The clear majority of these studies deal with English partially because most annotated datasets available contain English data. In this paper, we take advantage of English data available by applying cross-lingual contextual word embeddings and transfer learning to make predictions in languages with less resources. We project predictions on comparable data in Bengali, Hindi, and Spanish and we report results of 0.8415 F1 macro for Bengali, 0.8568 F1 macro for Hindi, and 0.7513 F1 macro for Spanish. Finally, we show that our approach compares favorably to the best systems submitted to recent shared tasks on these three languages, confirming the robustness of cross-lingual contextual embeddings and transfer learning for this task.
翻訳日:2022-10-08 12:58:57 公開日:2020-10-11
# WNUT-2020 Task 2: Transformer-based Covid-19 Informative Tweet extract

InfoMiner at WNUT-2020 Task 2: Transformer-based Covid-19 Informative Tweet Extraction ( http://arxiv.org/abs/2010.05327v1 )

ライセンス: Link先を確認
Hansi Hettiarachchi, Tharindu Ranasinghe(参考訳) ソーシャルメディアに基づく情報抽出システムを構築する上で,情報ツイートの特定は重要なステップである。 wnut-2020タスク2は、ノイズツイートからの情報ツイートを認識するために組織された。 本稿では,変圧器を用いたタスク目的への取り組みについて述べる。 総合的に,テストセットのスコアは0.9004 F1であり,最終ランキングでは10位となった。

Identifying informative tweets is an important step when building information extraction systems based on social media. WNUT-2020 Task 2 was organised to recognise informative tweets from noise tweets. In this paper, we present our approach to tackle the task objective using transformers. Overall, our approach achieves 10th place in the final rankings scoring 0.9004 F1 score for the test set.
翻訳日:2022-10-08 12:58:38 公開日:2020-10-11
# H2O-Net: Adversarial Domain Adaptation と Label Refinement による自己改善型フラッドセグメンテーション

H2O-Net: Self-Supervised Flood Segmentation via Adversarial Domain Adaptation and Label Refinement ( http://arxiv.org/abs/2010.05309v1 )

ライセンス: Link先を確認
Peri Akiva, Matthew Purri, Kristin Dana, Beth Tellman, Tyler Anderson(参考訳) 高分解能・高遅延衛星画像による洪水の正確な検出は、迅速かつ実用的な情報を提供することで、生命の喪失を防止するために不可欠である。 浸水検知に有用な機器やセンサーは、低解像度の低遅延衛星で最大16日間の再視認できるため、そのような衛星を使用する洪水警報システムでは信頼性が低い。 H2O-Networkは、低遅延衛星と高遅延衛星の領域ギャップを埋めて、衛星と空中画像から洪水を分断する自己教師型深層学習手法である。 H2O-Netは、高解像度衛星画像におけるセマンティックセグメンテーションのドメイン適応ステップとして、水の存在と関連性の高い信号を合成することを学ぶ。 また,高品質な地上真実データを生成するために,手書きアノテーションを必要としない自己監督機構を提案する。 我々は,H2O-Netが,洪水セグメンテーションのタスクにおいて,衛星画像上の最先端セグメンテーション手法を10%,12%の精度で,mIoUよりも優れていることを示した。 衛星画像で訓練されたモデル重量を、高度に異なるセンサーとドメインであるドローン画像に転送することで、モデルの一般化性を強調する。

Accurate flood detection in near real time via high resolution, high latency satellite imagery is essential to prevent loss of lives by providing quick and actionable information. Instruments and sensors useful for flood detection are only available in low resolution, low latency satellites with region re-visit periods of up to 16 days, making flood alerting systems that use such satellites unreliable. This work presents H2O-Network, a self supervised deep learning method to segment floods from satellites and aerial imagery by bridging domain gap between low and high latency satellite and coarse-to-fine label refinement. H2O-Net learns to synthesize signals highly correlative with water presence as a domain adaptation step for semantic segmentation in high resolution satellite imagery. Our work also proposes a self-supervision mechanism, which does not require any hand annotation, used during training to generate high quality ground truth data. We demonstrate that H2O-Net outperforms the state-of-the-art semantic segmentation methods on satellite imagery by 10% and 12% pixel accuracy and mIoU respectively for the task of flood segmentation. We emphasize the generalizability of our model by transferring model weights trained on satellite imagery to drone imagery, a highly different sensor and domain.
翻訳日:2022-10-08 12:58:32 公開日:2020-10-11
# ゼテティック・エージェントのための定義可能な計算法

A Defeasible Calculus for Zetetic Agents ( http://arxiv.org/abs/2010.05293v1 )

ライセンス: Link先を確認
Jared Millson(参考訳) デファシブルな推論ユニットの研究は、疫学的な合理性に関心があるため、AIに携わる人々との認識論者についての研究である。 伝統的に、信仰の形成と保持を統括すると考えられてきたが、認識的合理性は、疑問、調査、好奇心といった我々の中核的な審問の実践に関連する疑問的態度にも適用できる。 一般的にインテリジェントなシステムは合理的な調査が可能であり、ai研究者は尋問的態度を支配する規範に自然に関心を持っている。 最近発行された硬貨に続いて、我々は照会する能力に関連付けられた特性と規範を指すのに「ゼテティック」という用語を用いる。 本稿では,直観的規範は,直観的合理性の規範が相反する推論規則によって表現される方法と類似した方法で,質問に対する可解な推論を通じてモデル化できると主張する。 我々は,「erotetic defeat」のユニークな特徴を包含するシークエント計算法を提供し,ゼーテティックエージェントの設計を知らせるために必要な計算特性を示す。 ここで示される計算は、millson (2019) で提示された改良版であり、新しい分類の可逆的退化推論をカバーするために拡張されている。

The study of defeasible reasoning unites epistemologists with those working in AI, in part, because both are interested in epistemic rationality. While it is traditionally thought to govern the formation and (with)holding of beliefs, epistemic rationality may also apply to the interrogative attitudes associated with our core epistemic practice of inquiry, such as wondering, investigating, and curiosity. Since generally intelligent systems should be capable of rational inquiry, AI researchers have a natural interest in the norms that govern interrogative attitudes. Following its recent coinage, we use the term "zetetic" to refer to the properties and norms associated with the capacity to inquire. In this paper, we argue that zetetic norms can be modeled via defeasible inferences to and from questions---a.k.a erotetic inferences---in a manner similar to the way norms of epistemic rationality are represented by defeasible inference rules. We offer a sequent calculus that accommodates the unique features of "erotetic defeat" and that exhibits the computational properties needed to inform the design of zetetic agents. The calculus presented here is an improved version of the one presented in Millson (2019), extended to cover a new class of defeasible erotetic inferences.
翻訳日:2022-10-08 12:58:11 公開日:2020-10-11
# セトロイドクラスタリングにおける局所接続性

Local Connectivity in Centroid Clustering ( http://arxiv.org/abs/2010.05353v1 )

ライセンス: Link先を確認
Deepak P(参考訳) クラスタリングは教師なし学習の基本タスクであり、データセットを同様のオブジェクトのクラスタにグループ化することを目的としている。 近年、クラスタリングの定式化に公平性に関する規範的考察が組み込まれている。 本稿では,センタロイドクラスタリングにおける「局所接続性」を,会員砂漠の評価に欠かせない要因として提案する。 ローカル接続を使用して、問題のクラスタへのメンバシップをサポートするために、オブジェクトのローカル近傍が提供するサポートを参照します。 クラスタ割り当てにおけるオブジェクトのローカル接続を考慮し、所定のクラスタリングにおけるローカル接続を定量化する方法を提供する。 次に,密度に基づくクラスタリングの概念を利用して,集中型クラスタリングの枠組み内に留まりながら,クラスタリング出力の局所的な接続性を高めるクラスタリング手法であるLOFKMを考案する。 実世界のデータセットに対する経験的評価を通じて,lofkmは,クラスタ品質に対する合理的なコストで,局所接続性において顕著な改善を達成し,その効果を示す。

Clustering is a fundamental task in unsupervised learning, one that targets to group a dataset into clusters of similar objects. There has been recent interest in embedding normative considerations around fairness within clustering formulations. In this paper, we propose 'local connectivity' as a crucial factor in assessing membership desert in centroid clustering. We use local connectivity to refer to the support offered by the local neighborhood of an object towards supporting its membership to the cluster in question. We motivate the need to consider local connectivity of objects in cluster assignment, and provide ways to quantify local connectivity in a given clustering. We then exploit concepts from density-based clustering and devise LOFKM, a clustering method that seeks to deepen local connectivity in clustering outputs, while staying within the framework of centroid clustering. Through an empirical evaluation over real-world datasets, we illustrate that LOFKM achieves notable improvements in local connectivity at reasonable costs to clustering quality, illustrating the effectiveness of the method.
翻訳日:2022-10-08 12:57:45 公開日:2020-10-11
# 幾何に基づく情報サンプリングとクラス優先合成データ生成(GICaPS)による多クラス不均衡データの処理法

A Method for Handling Multi-class Imbalanced Data by Geometry based Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS) ( http://arxiv.org/abs/2010.05155v1 )

ライセンス: Link先を確認
Anima Majumder, Samrat Dutta, Swagat Kumar, Laxmidhar Behera(参考訳) 本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。 この問題は、主に特徴ベクトル間の幾何学的関係を利用する2つの新しい方法を提案することで解決される。 1つ目は、特徴ベクトル間の角度を使ってより有益なサンプルを選択しながら、より有益でないサンプルを拒否するアンダーサンプリングアルゴリズムである。 与えられたサンプルの情報性を定義するのに適した基準を提案する。 2つ目は、生成アルゴリズムを使用してすべてのクラス境界を尊重する新しい合成データを生成するオーバーサンプリングアルゴリズムである。 これは特徴ベクトル間のユークリッド距離に基づいて 'emph{no man's land} を見つけることによって達成される。 提案手法の有効性は,ガウス混合系に基づく汎用的多クラス認識問題を解いて解析した。 提案手法の優位性は,smote や adasyn など他の最先端手法と比較して,高対極のデータ不均衡を示す10以上の公開データセットと比較することで確立された。 これらの2つの手法は単一のデータ処理フレームワークに統合され、"GICaPS"とラベル付けされ、多クラスデータ不均衡問題に対処する上でのジオメトリベース情報(GI)サンプリングとクラス分割合成(CaPS)の役割を強調している。

This paper looks into the problem of handling imbalanced data in a multi-label classification problem. The problem is solved by proposing two novel methods that primarily exploit the geometric relationship between the feature vectors. The first one is an undersampling algorithm that uses angle between feature vectors to select more informative samples while rejecting the less informative ones. A suitable criterion is proposed to define the informativeness of a given sample. The second one is an oversampling algorithm that uses a generative algorithm to create new synthetic data that respects all class boundaries. This is achieved by finding \emph{no man's land} based on Euclidean distance between the feature vectors. The efficacy of the proposed methods is analyzed by solving a generic multi-class recognition problem based on mixture of Gaussians. The superiority of the proposed algorithms is established through comparison with other state-of-the-art methods, including SMOTE and ADASYN, over ten different publicly available datasets exhibiting high-to-extreme data imbalance. These two methods are combined into a single data processing framework and is labeled as ``GICaPS'' to highlight the role of geometry-based information (GI) sampling and Class-Prioritized Synthesis (CaPS) in dealing with multi-class data imbalance problem, thereby making a novel contribution in this field.
翻訳日:2022-10-08 12:57:27 公開日:2020-10-11
# 神経進化における複雑性に基づく種分化と遺伝子型表現

Complexity-based speciation and genotype representation for neuroevolution ( http://arxiv.org/abs/2010.05176v1 )

ライセンス: Link先を確認
Alexander Hadjiivanov and Alan Blair(参考訳) 本稿では,探索空間の複雑さを示す隠れたニューロンの数に基づいて,進化するネットワークを種に分類する神経進化の種分化原理を提案する。 この識別原理は、ゼロゲノム冗長性、肥大に対する高いレジリエンス、繰り返し接続の明示的なマーキング、および任意のトポロジを持つネットワークに対する効率的かつ再現可能なスタックベースの評価手順によって特徴づけられる新規な遺伝子型表現と不可分に結合される。 さらに, 種および生態系全体における多様性の促進と保全を目的として, 提案された種分化原理が採用されている。 Cortexという名前のフレームワークの競争性能は、実験を通じて実証されている。 本研究で提案する概念を実装した高度にカスタマイズ可能なソフトウェアプラットフォームは、神経進化の分野での実験に有用で信頼性の高いツールになることを期待して紹介されている。

This paper introduces a speciation principle for neuroevolution where evolving networks are grouped into species based on the number of hidden neurons, which is indicative of the complexity of the search space. This speciation principle is indivisibly coupled with a novel genotype representation which is characterised by zero genome redundancy, high resilience to bloat, explicit marking of recurrent connections, as well as an efficient and reproducible stack-based evaluation procedure for networks with arbitrary topology. Furthermore, the proposed speciation principle is employed in several techniques designed to promote and preserve diversity within species and in the ecosystem as a whole. The competitive performance of the proposed framework, named Cortex, is demonstrated through experiments. A highly customisable software platform which implements the concepts proposed in this study is also introduced in the hope that it will serve as a useful and reliable tool for experimentation in the field of neuroevolution.
翻訳日:2022-10-08 12:49:59 公開日:2020-10-11
# コピー機構を用いたレキシカル結合型ニューラルマシン翻訳

Lexically Cohesive Neural Machine Translation with Copy Mechanism ( http://arxiv.org/abs/2010.05193v1 )

ライセンス: Link先を確認
Vipul Mishra, Chenhui Chu and Yuki Arase(参考訳) 語彙的結合翻訳は、文書レベルの翻訳において単語選択の一貫性を保つ。 先行する翻訳出力から単語をコピーできるように,文脈認識型ニューラルマシン翻訳モデルにコピー機構を導入する。 従来の文脈認識型ニューラルマシン翻訳モデルと異なり,単語を一貫して出力する確率を高めることにより,語彙結合問題に明示的に対処している。 談話翻訳のための評価データセットを用いて日本語から英語への翻訳実験を行う。 その結果,従来の文脈認識モデルに比べて語彙結合性が有意に向上した。

Lexically cohesive translations preserve consistency in word choices in document-level translation. We employ a copy mechanism into a context-aware neural machine translation model to allow copying words from previous translation outputs. Different from previous context-aware neural machine translation models that handle all the discourse phenomena implicitly, our model explicitly addresses the lexical cohesion problem by boosting the probabilities to output words consistently. We conduct experiments on Japanese to English translation using an evaluation dataset for discourse translation. The results showed that the proposed model significantly improved lexical cohesion compared to previous context-aware models.
翻訳日:2022-10-08 12:49:24 公開日:2020-10-11
# 事実検証と偽ニュース検出の間に点をつなぐ

Connecting the Dots Between Fact Verification and Fake News Detection ( http://arxiv.org/abs/2010.05202v1 )

ライセンス: Link先を確認
Qifei Li and Wangchunshu Zhou(参考訳) ファクト検証モデルは、BERTのような事前訓練された言語モデルの開発とFEVERのような大規模データセットのリリースにより、過去2年間で急速に進歩した。 しかし、偽ニュース検出の難しさは、偽ニュース検出と密接に関連している事実検証モデルの改善の恩恵を受けていない。 本稿では,事実検証と偽ニュース検出の点を結合する,シンプルかつ効果的な手法を提案する。 本稿ではまず,ニュースコーパスに事前学習したテキスト要約モデルを用いて,長文記事を短い主張に要約する。 次に、FEVERデータセットに事前トレーニングされた事実検証モデルを用いて、入力されたニュース記事が本物か偽かを検出する。 提案手法は,近年のファクト検証モデルの成功を活かし,ゼロショットフェイクニュース検出を可能にし,フェイクニュース検出モデルをトレーニングするための大規模トレーニングデータの必要性を緩和する。 偽ニュース検出のためのベンチマークデータセットである fakenewsnet の実験結果は,提案手法の有効性を示している。

Fact verification models have enjoyed a fast advancement in the last two years with the development of pre-trained language models like BERT and the release of large scale datasets such as FEVER. However, the challenging problem of fake news detection has not benefited from the improvement of fact verification models, which is closely related to fake news detection. In this paper, we propose a simple yet effective approach to connect the dots between fact verification and fake news detection. Our approach first employs a text summarization model pre-trained on news corpora to summarize the long news article into a short claim. Then we use a fact verification model pre-trained on the FEVER dataset to detect whether the input news article is real or fake. Our approach makes use of the recent success of fact verification models and enables zero-shot fake news detection, alleviating the need of large-scale training data to train fake news detection models. Experimental results on FakenewsNet, a benchmark dataset for fake news detection, demonstrate the effectiveness of our proposed approach.
翻訳日:2022-10-08 12:49:13 公開日:2020-10-11
# マルチラベルインテント検出のためのマイズショット学習

Few-shot Learning for Multi-label Intent Detection ( http://arxiv.org/abs/2010.05256v1 )

ライセンス: Link先を確認
Yutai Hou, Yongkui Lai, Yushan Wu, Wanxiang Che, Ting Liu(参考訳) 本稿では,ユーザ意図検出のためのマイナショットマルチラベル分類について検討する。 マルチラベルインテント検出では、最先端の作業でラベル-インスタンス関連スコアを推定し、しきい値を使用して複数の関連するインテントラベルを選択する。 ごく少数の例で適切なしきい値を決定するために、まずデータリッチドメインの普遍的しきい値付け経験を学習し、次に非パラメトリック学習に基づいてキャリブレーションを施したいくつかのショットドメインにしきい値を適用する。 ラベル-インスタンス関連スコアのより良い計算のために,表現空間のアンカーポイントとしてラベル名埋め込みを導入し,異なるクラスの表現を互いに適切に分離する。 2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。

In this paper, we study the few-shot multi-label classification for user intent detection. For multi-label intent detection, state-of-the-art work estimates label-instance relevance scores and uses a threshold to select multiple associated intent labels. To determine appropriate thresholds with only a few examples, we first learn universal thresholding experience on data-rich domains, and then adapt the thresholds to certain few-shot domains with a calibration based on nonparametric learning. For better calculation of label-instance relevance score, we introduce label name embedding as anchor points in representation space, which refines representations of different classes to be well-separated from each other. Experiments on two datasets show that the proposed model significantly outperforms strong baselines in both one-shot and five-shot settings.
翻訳日:2022-10-08 12:48:39 公開日:2020-10-11
# TaxoNN: ディープニューラルネットワークトレーニングのための軽量加速器

TaxoNN: A Light-Weight Accelerator for Deep Neural Network Training ( http://arxiv.org/abs/2010.05197v1 )

ライセンス: Link先を確認
Reza Hojabr, Kamyar Givaki, Kossar Pourahmadi, Parsa Nooralinejad, Ahmad Khonsari, Dara Rahmati, M. Hassan Najafi(参考訳) インテリジェントな組み込みデバイスは、現実世界環境との対話を可能にするために、Deep Neural Networks(DNN)に依存している。 この相互作用には、環境条件が継続的に変化するため、DNNを再訓練する能力が伴う。 Stochastic Gradient Descent (SGD)は、トレーニングデータを反復的にパラメータに最適化することでDNNを訓練するアルゴリズムである。 本稿ではまず,SGDアルゴリズムを単純な計算要素に分割することで,ベースラインDNNアクセラレータ(推論のみ)にトレーニング能力を付加する手法を提案する。 そして、このヒューリスティックなアプローチに基づいて、DNNトレーニングのための軽量加速器であるTaxoNNを提案する。 TaxoNNは、時間多重化アプローチと低ビット幅ユニットを使用して、推論プロセスで使用されるハードウェアリソースを再利用することで、DNNの重みを容易に調整できる。 実験の結果,TaxoNNは実精度よりも平均0.97%,誤分類率が高いことがわかった。 さらに、TaxoNNは2.1$\times$省電力と1.65$\times$地域削減を提供する。

Emerging intelligent embedded devices rely on Deep Neural Networks (DNNs) to be able to interact with the real-world environment. This interaction comes with the ability to retrain DNNs, since environmental conditions change continuously in time. Stochastic Gradient Descent (SGD) is a widely used algorithm to train DNNs by optimizing the parameters over the training data iteratively. In this work, first we present a novel approach to add the training ability to a baseline DNN accelerator (inference only) by splitting the SGD algorithm into simple computational elements. Then, based on this heuristic approach we propose TaxoNN, a light-weight accelerator for DNN training. TaxoNN can easily tune the DNN weights by reusing the hardware resources used in the inference process using a time-multiplexing approach and low-bitwidth units. Our experimental results show that TaxoNN delivers, on average, 0.97% higher misclassification rate compared to a full-precision implementation. Moreover, TaxoNN provides 2.1$\times$ power saving and 1.65$\times$ area reduction over the state-of-the-art DNN training accelerator.
翻訳日:2022-10-08 12:47:41 公開日:2020-10-11
# 教師付き学習と教師なし学習の計算的・認知的に妥当なモデル

A computationally and cognitively plausible model of supervised and unsupervised learning ( http://arxiv.org/abs/2010.14618v1 )

ライセンス: Link先を確認
David M W Powers(参考訳) 確率補正尺度の重要性に関する実証的および数学的実証を議論し, 関連学習における経験的心理学的結果に基づく新しい学習モデルを提案する。 このモデルの2つの形式が開発され、Informatronはチャンス補正のPerceptron、AdaBookは確率補正のAdaBoostである。 提示された計算結果から、確率補正は学習を容易にする。

Both empirical and mathematical demonstrations of the importance of chance-corrected measures are discussed, and a new model of learning is proposed based on empirical psychological results on association learning. Two forms of this model are developed, the Informatron as a chance-corrected Perceptron, and AdaBook as a chance-corrected AdaBoost procedure. Computational results presented show chance correction facilitates learning.
翻訳日:2022-10-08 12:41:36 公開日:2020-10-11
# Visual Relation Authenticityデータセットの構築

Constructing a Visual Relationship Authenticity Dataset ( http://arxiv.org/abs/2010.05185v1 )

ライセンス: Link先を確認
Chenhui Chu, Yuto Takebayashi, Mishra Vipul, Yuta Nakashima(参考訳) 視覚的な関係とは、画像内の2つのオブジェクト間の関係を表し、(サブジェクト; 述語; オブジェクト)の三重項として表現することができる。 画像のシーン理解には視覚的関係検出が不可欠である。 既存の視覚関係検出データセットは、画像内のコンテンツを正しく記述する真の関係のみを含む。 しかし,画像理解や自然言語処理において,偽の視覚的関係を真のものと区別することが重要である。 本稿では,flickr30kエンティティ画像キャプションデータセットのキャプションに現れるすべてのオブジェクト間の真偽関係を注釈付きで表現する,視覚関係の真正性データセットを構築する。 データセットはhttps://github.com/codecreator2053/vr_classifieddatasetで利用可能である。 このデータセットが視覚と言語理解の両方の研究を促進できることを願っています。

A visual relationship denotes a relationship between two objects in an image, which can be represented as a triplet of (subject; predicate; object). Visual relationship detection is crucial for scene understanding in images. Existing visual relationship detection datasets only contain true relationships that correctly describe the content in an image. However, distinguishing false visual relationships from true ones is also crucial for image understanding and grounded natural language processing. In this paper, we construct a visual relationship authenticity dataset, where both true and false relationships among all objects appeared in the captions in the Flickr30k entities image caption dataset are annotated. The dataset is available at https://github.com/codecreator2053/VR_ClassifiedDataset. We hope that this dataset can promote the study on both vision and language understanding.
翻訳日:2022-10-08 12:41:28 公開日:2020-10-11
# 分解による適応型言語インタフェースの学習

Learning Adaptive Language Interfaces through Decomposition ( http://arxiv.org/abs/2010.05190v1 )

ライセンス: Link先を確認
Siddharth Karamcheti, Dorsa Sadigh, Percy Liang(参考訳) 私たちの目標は、シミュレーションロボット設定でタスクを完了させるために、ユーザから効率的かつ確実に学習する対話型自然言語インターフェースを作ることです。 ユーザは、新しい振る舞いを記述するハイレベルな発話を理解可能な低レベルなステップに分割することで、対話的にシステムを教えます。 残念なことに、既存の手法は文を限られた柔軟性で解析する文法や、個々の例から効率よく、確実に学習しないニューラルネットワーク列列列モデルに依存している。 私たちのアプローチは、このギャップを橋渡し、現代のニューラルネットワークの柔軟性と、文法ベースの方法の1ショット信頼できる一般化を示しています。 クラウドソースによるインタラクティブな実験は、ユーザが学習したことを活用しながら、複雑なタスクをより効率的に完了することを示唆している。 同時に、ユーザに高いレベルの発話を教えるインセンティブを与えるのに十分なシステムを信頼してもらうことは、まだ進行中の課題である。 対話的パラダイムの可能性を完全に実現するために克服する必要がある障害のいくつかについて、最後に議論する。

Our goal is to create an interactive natural language interface that efficiently and reliably learns from users to complete tasks in simulated robotics settings. We introduce a neural semantic parsing system that learns new high-level abstractions through decomposition: users interactively teach the system by breaking down high-level utterances describing novel behavior into low-level steps that it can understand. Unfortunately, existing methods either rely on grammars which parse sentences with limited flexibility, or neural sequence-to-sequence models that do not learn efficiently or reliably from individual examples. Our approach bridges this gap, demonstrating the flexibility of modern neural systems, as well as the one-shot reliable generalization of grammar-based methods. Our crowdsourced interactive experiments suggest that over time, users complete complex tasks more efficiently while using our system by leveraging what they just taught. At the same time, getting users to trust the system enough to be incentivized to teach high-level utterances is still an ongoing challenge. We end with a discussion of some of the obstacles we need to overcome to fully realize the potential of the interactive paradigm.
翻訳日:2022-10-08 12:40:53 公開日:2020-10-11
# ハードウェア非依存型ガゼトラッカーを目指して

Towards Hardware-Agnostic Gaze-Trackers ( http://arxiv.org/abs/2010.05123v1 )

ライセンス: Link先を確認
Jatin Sharma and Jon Campbell and Pete Ansell and Jay Beavers and Christopher O'Dowd(参考訳) 視線追跡(英: gaze-tracking)は、運動神経障害のある人が、コンピュータや医師がスクリーンやキーボードに触らずに患者情報と対話できるような、新しいシナリオを可能にするコンピュータとの対話方法である。 さらに,対話型ゲーム,ユーザエクスペリエンス研究,ヒューマンアテンション分析,行動研究における視線追跡の新たな応用がある。 視線の正確な推定には、頭部の位置、頭部の位置、眼球回転、物体からの距離、照明、咬合、背景雑音、およびユーザの様々な生物学的側面の操作条件などが含まれる。 市販の視線追跡装置は、通常は赤外線光源とカメラからなる特殊なセンサーアセンブリを使用する。 アクセシビリティ技術としての視線追跡の普遍的な普及には、その手頃さ、信頼性、使いやすさなど、いくつかの課題がある。 本稿では,ハードウェアに依存しない視線追跡装置の開発を通じて,これらの課題に対処する。 本稿では,一般のrgbカメラで撮影された顔画像を用いた視線追跡を,現代の全てのコンピュータデバイスで普及させた外観ベース手法として,ディープニューラルネットワークアーキテクチャを提案する。 我々のシステムは、キャリブレーションやデバイス固有の微調整なしで、GazeCaptureデータセット上で1.8073cmの誤差を達成した。 この研究は、いつかどんなコンピューター、タブレット、携帯電話でも、ディープニュートラルネットワークの予測能力によって、目だけで制御できるようになることを約束しています。

Gaze-tracking is a novel way of interacting with computers which allows new scenarios, such as enabling people with motor-neuron disabilities to control their computers or doctors to interact with patient information without touching screen or keyboard. Further, there are emerging applications of gaze-tracking in interactive gaming, user experience research, human attention analysis and behavioral studies. Accurate estimation of the gaze may involve accounting for head-pose, head-position, eye rotation, distance from the object as well as operating conditions such as illumination, occlusion, background noise and various biological aspects of the user. Commercially available gaze-trackers utilize specialized sensor assemblies that usually consist of an infrared light source and camera. There are several challenges in the universal proliferation of gaze-tracking as accessibility technologies, specifically its affordability, reliability, and ease-of-use. In this paper, we try to address these challenges through the development of a hardware-agnostic gaze-tracker. We present a deep neural network architecture as an appearance-based method for constrained gaze-tracking that utilizes facial imagery captured on an ordinary RGB camera ubiquitous in all modern computing devices. Our system achieved an error of 1.8073cm on GazeCapture dataset without any calibration or device specific fine-tuning. This research shows promise that one day soon any computer, tablet, or phone will be controllable using just your eyes due to the prediction capabilities of deep neutral networks.
翻訳日:2022-10-08 12:39:38 公開日:2020-10-11
# click and focus: 画像分類における空間冗長性低減のための動的アプローチ

Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification ( http://arxiv.org/abs/2010.05300v1 )

ライセンス: Link先を確認
Yulin Wang, Kangchen Lv, Rui Huang, Shiji Song, Le Yang, Gao Huang(参考訳) 深層畳み込みニューラルネットワーク(cnns)の精度は、高分解能画像により向上する。 しかし、これはしばしば計算コストが高く、メモリフットプリントも高い。 画像中のすべての領域がタスク関連であるとは限らないことに着想を得て,元の画像から戦略的に選択された比較的小さな入力のシーケンスを処理して,効率的な画像分類を行う新しいフレームワークを提案する。 このような動的決定プロセスは、テスト時に適応推論を自然に促進する、すなわち、モデルがその予測に十分に自信を持っていれば終了し、さらなる冗長な計算を避けることができる。 特に、私たちのフレームワークは、バックボーン機能抽出器として便利にデプロイできる最先端の軽量CNN(MobileNets、EfficientNets、RegNetsなど)のほとんどと互換性があり、汎用的で柔軟なものです。 ImageNetの実験により,提案手法は多種多様な深層モデルの計算効率を一貫して向上することが示された。 例えば、iPhone XS Max上の高効率のMobileNet-V3の平均遅延を、精度を犠牲にすることなく20%削減する。 コードと事前トレーニングされたモデルは、https://github.com/blackfeather-wang/gfnet-pytorchで入手できる。

The accuracy of deep convolutional neural networks (CNNs) generally improves when fueled with high resolution images. However, this often comes at a high computational cost and high memory footprint. Inspired by the fact that not all regions in an image are task-relevant, we propose a novel framework that performs efficient image classification by processing a sequence of relatively small inputs, which are strategically selected from the original image with reinforcement learning. Such a dynamic decision process naturally facilitates adaptive inference at test time, i.e., it can be terminated once the model is sufficiently confident about its prediction and thus avoids further redundant computation. Notably, our framework is general and flexible as it is compatible with most of the state-of-the-art light-weighted CNNs (such as MobileNets, EfficientNets and RegNets), which can be conveniently deployed as the backbone feature extractor. Experiments on ImageNet show that our method consistently improves the computational efficiency of a wide variety of deep models. For example, it further reduces the average latency of the highly efficient MobileNet-V3 on an iPhone XS Max by 20% without sacrificing accuracy. Code and pre-trained models are available at https://github.com/blackfeather-wang/GFNet-Pytorch.
翻訳日:2022-10-08 12:39:14 公開日:2020-10-11