このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210102となっている論文です。

PDF登録状況(公開日: 20210102)

TitleAuthorsAbstract論文公表日・翻訳日
# climatext: 気候変動のトピック検出のためのデータセット

ClimaText: A Dataset for Climate Change Topic Detection ( http://arxiv.org/abs/2012.00483v2 )

ライセンス: Link先を確認
Francesco S. Varini and Jordan Boyd-Graber and Massimiliano Ciaramita and Markus Leippold(参考訳) マスメディアや他のテキストソースにおける気候変動のコミュニケーションは、大衆の認識に影響を与え、形作る可能性がある。 これらのソースから気候変動情報を抽出することは、コンテンツのフィルタリングやe発見、感情分析、自動要約、質問応答、事実チェックといった重要なタスクである。 しかし、気候変動は複雑で、素早く動き、しばしば曖昧なトピックであり、人気のあるテキストベースのAIタスクのためのリソースが不足しているため、このプロセスを自動化することは難しい。 本稿では,文に基づく気候変動トピック検出のためのデータセットである \textsc{ClimaText} を紹介する。 さまざまなテキストソースで気候変動のトピックを特定するためのさまざまなアプローチを探索する。 一般的なキーワードベースのモデルは、そのような複雑で進化するタスクには不十分である。 BERT \cite{devlin2018bert}のようなコンテキストベースのアルゴリズムは、多くの自明なケースに加えて、さまざまな複雑で暗黙的なトピックパターンを検出することができる。 それにもかかわらず、気候変動の間接的影響に関する議論を捉えるなど、いくつかの方向に改善する大きな可能性を分析によって明らかにしています。 したがって、この研究が、このトピックに関するさらなる研究の出発点となることを願っている。

Climate change communication in the mass media and other textual sources may affect and shape public perception. Extracting climate change information from these sources is an important task, e.g., for filtering content and e-discovery, sentiment analysis, automatic summarization, question-answering, and fact-checking. However, automating this process is a challenge, as climate change is a complex, fast-moving, and often ambiguous topic with scarce resources for popular text-based AI tasks. In this paper, we introduce \textsc{ClimaText}, a dataset for sentence-based climate change topic detection, which we make publicly available. We explore different approaches to identify the climate change topic in various text sources. We find that popular keyword-based models are not adequate for such a complex and evolving task. Context-based algorithms like BERT \cite{devlin2018bert} can detect, in addition to many trivial cases, a variety of complex and implicit topic patterns. Nevertheless, our analysis reveals a great potential for improvement in several directions, such as, e.g., capturing the discussion on indirect effects of climate change. Hence, we hope this work can serve as a good starting point for further research on this topic.
翻訳日:2021-05-30 20:10:17 公開日:2021-01-02
# CLIMATE-FEVER: 実世界の気候問題を検証するデータセット

CLIMATE-FEVER: A Dataset for Verification of Real-World Climate Claims ( http://arxiv.org/abs/2012.00614v2 )

ライセンス: Link先を確認
Thomas Diggelmann and Jordan Boyd-Graber and Jannis Bulian and Massimiliano Ciaramita and Markus Leippold(参考訳) CLIMATE-FEVERは、気候変動関連クレームを検証するための新しい公開データセットである。 研究コミュニティにデータセットを提供することで、気候変動に対する誤った情報の影響を軽減し、基礎となる言語理解の課題に対処し、気候変動に対する明確な支持を得るためのアルゴリズムの改善を促進・促進することを目指している。 人工的に設計されたクレームの最大のデータセットであるFEVER [1]の方法論を,インターネットから収集した実生活クレームに適用する。 この過程の間、私たちは著名な気候科学者の専門知識に頼ることができたが、それは容易な作業ではないことがわかった。 我々は,実世界の気候関連クレームをモデル化する驚くべき,微妙な複雑さを,一般的な自然言語理解に有用な課題であると考える \textsc{fever} フレームワークで議論する。 私たちの研究が、気候科学とAIコミュニティによる、新たなエキサイティングな長期的な共同作業の始まりになることを期待しています。

We introduce CLIMATE-FEVER, a new publicly available dataset for verification of climate change-related claims. By providing a dataset for the research community, we aim to facilitate and encourage work on improving algorithms for retrieving evidential support for climate-specific claims, addressing the underlying language understanding challenges, and ultimately help alleviate the impact of misinformation on climate change. We adapt the methodology of FEVER [1], the largest dataset of artificially designed claims, to real-life claims collected from the Internet. While during this process, we could rely on the expertise of renowned climate scientists, it turned out to be no easy task. We discuss the surprising, subtle complexity of modeling real-world climate-related claims within the \textsc{fever} framework, which we believe provides a valuable challenge for general natural language understanding. We hope that our work will mark the beginning of a new exciting long-term joint effort by the climate science and AI community.
翻訳日:2021-05-30 20:09:45 公開日:2021-01-02
# スケールでのフラスのディエンス表現の学習

Learning Dense Representations of Phrases at Scale ( http://arxiv.org/abs/2012.12624v2 )

ライセンス: Link先を確認
Jinhyuk Lee, Mujeen Sung, Jaewoo Kang, Danqi Chen(参考訳) オープンドメイン質問応答は、推論中の文書をオンデマンドで処理する必要なく、フレーズ検索問題として再構築することができる(Seo et al., 2019)。 しかし、現在のフレーズ検索モデルは、レトリーバーリーダーアプローチがパフォーマンスが低いにもかかわらず、スパース表現に大きく依存している。 本研究では,オープンドメインのQAにおいて,より強力な性能を実現するために,単語表現のみを学習できることを初めて示す。 提案手法は,(1)質問生成と蒸留による問合せ非依存句表現の学習,(2)グローバル正規化のための新しい否定サンプリング法,(3)問合せ側微調整による転送学習を含む。 5つの一般的なqaデータセットにおいて,従来の句検索モデルを15%~25%の絶対精度で改善し,最先端の検索モデルに適合させた。 私たちのモデルは、純粋に密度の高い表現とCPU上で毎秒10問以上のプロセスのために、並列化が容易です。 最後に,2つのスロット充填タスクに対して,事前インデックスされた密接な句表現を直接使用することで,下流タスクの密集した知識ベースとして密接なフレーズを利用することを期待する。

Open-domain question answering can be reformulated as a phrase retrieval problem, without the need for processing documents on-demand during inference (Seo et al., 2019). However, current phrase retrieval models heavily depend on their sparse representations while still underperforming retriever-reader approaches. In this work, we show for the first time that we can learn dense phrase representations alone that achieve much stronger performance in open-domain QA. Our approach includes (1) learning query-agnostic phrase representations via question generation and distillation; (2) novel negative-sampling methods for global normalization; (3) query-side fine-tuning for transfer learning. On five popular QA datasets, our model DensePhrases improves previous phrase retrieval models by 15%-25% absolute accuracy and matches the performance of state-of-the-art retriever-reader models. Our model is easy to parallelize due to pure dense representations and processes more than 10 questions per second on CPUs. Finally, we directly use our pre-indexed dense phrase representations for two slot filling tasks, showing the promise of utilizing DensePhrases as a dense knowledge base for downstream tasks.
翻訳日:2021-04-25 18:11:56 公開日:2021-01-02
# 深層学習に基づく人間のポーズ推定:調査

Deep Learning-Based Human Pose Estimation: A Survey ( http://arxiv.org/abs/2012.13392v3 )

ライセンス: Link先を確認
Ce Zheng and Wenhan Wu and Taojiannan Yang and Sijie Zhu and Chen Chen and Ruixu Liu and Ju Shen and Nasser Kehtarnavaz and Mubarak Shah(参考訳) 人間のポーズ推定は、人体の部位を特定し、画像やビデオなどの入力データから人体表現(体骨格など)を構築することを目的としている。 この技術は過去10年間で注目を集め、人間とコンピュータのインタラクション、モーション分析、拡張現実、バーチャルリアリティーなど幅広い用途で利用されてきた。 最近開発されたディープラーニングベースのソリューションは、人間のポーズ推定において高いパフォーマンスを達成しているが、トレーニングデータ不足、深度あいまいさ、閉塞性などの問題はまだ残っている。 本研究の目的は,近年の深層学習に基づく2次元・3次元ポーズ推定手法の総合的なレビューを,入力データと推論手順に基づいて,体系的な解析と比較により提供することである。 2014年以降、240以上の研究論文が調査の対象となっている。 さらに、2次元および3次元の人格推定データセットおよび評価指標を含む。 一般的なデータセットに対するレビュー手法の定量的性能比較を要約し,考察した。 最後に、関連する課題、応用、今後の研究の方向性をまとめる。 また、定期的に更新されたプロジェクトページも提供しています。

Human pose estimation aims to locate the human body parts and build human body representation (e.g., body skeleton) from input data such as images and videos. It has drawn increasing attention during the past decade and has been utilized in a wide range of applications including human-computer interaction, motion analysis, augmented reality, and virtual reality. Although the recently developed deep learning-based solutions have achieved high performance in human pose estimation, there still remain challenges due to insufficient training data, depth ambiguities, and occlusion. The goal of this survey paper is to provide a comprehensive review of recent deep learning-based solutions for both 2D and 3D pose estimation via a systematic analysis and comparison of these solutions based on their input data and inference procedures. More than 240 research papers since 2014 are covered in this survey. Furthermore, 2D and 3D human pose estimation datasets and evaluation metrics are included. Quantitative performance comparisons of the reviewed methods on popular datasets are summarized and discussed. Finally, the challenges involved, applications, and future research directions are concluded. We also provide a regularly updated project page: \url{https://github.com/z czcwh/DL-HPE}
翻訳日:2021-04-25 08:05:15 公開日:2021-01-02
# (参考訳) 肺結節分類における3次元軸位置 [全文訳有]

3D Axial-Attention for Lung Nodule Classification ( http://arxiv.org/abs/2012.14117v2 )

ライセンス: CC0 1.0
Mundher Al-Shabi, Kelvin Shak, Maxine Tan(参考訳) 目的: 近年,肺結節分類に局所的でない方法が適用されている。 しかし、これらの手法は2次元の注意または低解像度の特徴地図に限られた3次元の注意を与える。 さらに、コンボリューションのような便利なローカルフィルタに依存しているため、フル3Dの注意が計算に高価であり、大きなデータセットを必要とするため、利用できない可能性がある。 方法: 通常の非局所ネットワークの計算能力のごく一部を必要とする3次元アキシアルアテンションの利用を提案する。 さらに,共有埋め込みに3次元位置符号化を追加することで,非局所ネットワークの位置不変問題を解く。 結果: LIDC-IDRIデータセット上で, 少なくとも3名の放射線技師が注記した結節のみを用いて, 厳密な実験を行った。 以上の結果から,3次元アキシャルアテンションモデルは,aucと精度を含む全評価指標において最先端の性能を得ることができた。 結論: 提案モデルでは,すべてのレイヤでローカルフィルタを必要とせずに使用可能な,完全な3dアテンションを効果的に提供する。 実験の結果,肺結節の分類における全3次元注意の重要性が示された。

Purpose: In recent years, Non-Local based methods have been successfully applied to lung nodule classification. However, these methods offer 2D attention or a limited 3D attention to low-resolution feature maps. Moreover, they still depend on a convenient local filter such as convolution as full 3D attention is expensive to compute and requires a big dataset, which might not be available. Methods: We propose to use 3D Axial-Attention, which requires a fraction of the computing power of a regular Non-Local network. Additionally, we solve the position invariant problem of the Non-Local network by proposing adding 3D positional encoding to shared embeddings. Results: We validated the proposed method on the LIDC-IDRI dataset by following a rigorous experimental setup using only nodules annotated by at least three radiologists. Our results show that the 3D Axial-Attention model achieves state-of-the-art performance on all evaluation metrics including AUC and Accuracy. Conclusions: The proposed model provides full 3D attention effectively, which can be used in all layers without the need for local filters. The experimental results show the importance of full 3D attention for classifying lung nodules.
翻訳日:2021-04-24 16:32:00 公開日:2021-01-02
# TensorX: ニューラルネットワークモデルの設計とデプロイのための拡張可能なAPI

TensorX: Extensible API for Neural Network Model Design and Deployment ( http://arxiv.org/abs/2012.14539v2 )

ライセンス: Link先を確認
Davide Nunes and Luis Antunes(参考訳) TensorXは、TensorFlowで複雑なニューラルネットワークモデルをプロトタイピング、設計、デプロイするためのPythonライブラリである。 使いやすさ、パフォーマンス、APIの一貫性に特に重点を置いている。 ニューラルネットワーク層のような、ステートフルな機能や構成や再利用が容易な高レベルなコンポーネントを提供することを目指している。 そのアーキテクチャは、研究または産業の設定でニューラルネットワークモデルを構築する際によく見られるパターンを表現することができる。 他のディープラーニングライブラリからのアイデアを取り入れることで、最先端のモデルでよく見られるコンポーネントを簡単に利用できる。 ライブラリ設計は、関数型データフロー計算グラフとオブジェクト指向ニューラルネットワークビルディングブロックを混合する。 TensorXはPythonの動的性質とTensorFlowの高性能GPU対応操作を組み合わせる。 このライブラリは、最小限のコア依存関係(TensorFlowとNumPy)を持ち、Apache License 2.0ライセンス下で配布されており、学術的および商業的な設定での使用を奨励している。 完全なドキュメント、ソースコード、バイナリはhttps://tensorx.org/ にある。

TensorX is a Python library for prototyping, design, and deployment of complex neural network models in TensorFlow. A special emphasis is put on ease of use, performance, and API consistency. It aims to make available high-level components like neural network layers that are, in effect, stateful functions, easy to compose and reuse. Its architecture allows for the expression of patterns commonly found when building neural network models either on research or industrial settings. Incorporating ideas from several other deep learning libraries, it makes it easy to use components commonly found in state-of-the-art models. The library design mixes functional dataflow computation graphs with object-oriented neural network building blocks. TensorX combines the dynamic nature of Python with the high-performance GPU-enabled operations of TensorFlow. This library has minimal core dependencies (TensorFlow and NumPy) and is distributed under Apache License 2.0 licence, encouraging its use in both an academic and commercial settings. Full documentation, source code, and binaries can be found in https://tensorx.org/ .
翻訳日:2021-04-18 20:34:26 公開日:2021-01-02
# (参考訳) 相互情報正規化政策勾配によるプライバシー保護政策 [全文訳有]

Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients ( http://arxiv.org/abs/2012.15019v2 )

ライセンス: CC BY 4.0
Chris Cundy, Stefano Ermon(参考訳) 実世界の意思決定問題に強化学習技術がますます適用されるにつれて、これらのアルゴリズムが潜在的に敏感な情報を使用する方法に注意が向けられている。 報酬を最大化するポリシーを訓練し、そのアクションを通じて特定の機密状態変数の開示を最小化するタスクを考える。 この設定が、シーケンシャルな意思決定のためのプライバシーにおける現実世界の問題をどのようにカバーしているかの例を示す。 政策グラデーションの枠組みでは、ある時点におけるセンシティブな状態と行動の間の相互情報(MI)に基づいて正規化器を導入することで、この問題を解決する。 プライバシー制約ポリシーの最適化のためのモデルベース確率勾配推定器を開発した。 また、主要なMI正則化器の上限として機能し、モデルフリー設定で最適化できる代替MI正則化器についても論じる。 我々は、情報開示の相互情報定式化と、従来の微分プライベートなRLにおける研究を対比する。 実験の結果,本手法は敏感な状態を隠蔽する方針が得られた。

As reinforcement learning techniques are increasingly applied to real-world decision problems, attention has turned to how these algorithms use potentially sensitive information. We consider the task of training a policy that maximizes reward while minimizing disclosure of certain sensitive state variables through the actions. We give examples of how this setting covers real-world problems in privacy for sequential decision-making. We solve this problem in the policy gradients framework by introducing a regularizer based on the mutual information (MI) between the sensitive state and the actions at a given timestep. We develop a model-based stochastic gradient estimator for optimization of privacy-constrained policies. We also discuss an alternative MI regularizer that serves as an upper bound to our main MI regularizer and can be optimized in a model-free setting. We contrast previous work in differentially-priva te RL to our mutual-information formulation of information disclosure. Experimental results show that our training method results in policies which hide the sensitive state.
翻訳日:2021-04-18 18:12:53 公開日:2021-01-02
# (参考訳) 内在バイアスメトリクスはアプリケーションバイアスと相関しない [全文訳有]

Intrinsic Bias Metrics Do Not Correlate with Application Bias ( http://arxiv.org/abs/2012.15859v2 )

ライセンス: CC BY 4.0
Seraphina Goldfarb-Tarrant, Rebecca Marchant, Ricardo Mu\~noz Sanchez, Mugdha Pandya, Adam Lopez(参考訳) 自然言語処理(NLP)システムは有害な社会的バイアスを学習し、ますます多くの状況に配備されるにつれて不平等が広範に拡大する。 この問題に対処し、対処するために、NLPコミュニティは、ブラックボックスモデルのバイアスを特定し、定量化し、デバイアスの取り組みをガイドするために、さまざまな指標に依存している。 これらの指標のいくつかは内在的であり、単語埋め込み空間で測定され、一部は外在的であり、単語埋め込みがプラグインされるタスクの下流に存在するバイアスを測定する。 本研究は, 測定容易な内在的指標が実世界の外在的指標とよく相関するかどうかを検討する。 異なるタスクと実験的な条件をカバーする数百のトレーニングモデルを通じて内在バイアスと外部バイアスを計測し、これらのメトリクスがタスクと言語をまたいだすべてのシナリオに持つ信頼できる相関関係がないことを発見した。 我々は、埋め込み空間をデバイアスする努力は、常に下流モデルのバイアスの測定と組み合わせることを推奨し、コミュニティは、追加のチャレンジセットと注釈付きテストデータの作成によって下流の計測をより実現可能にする努力を増すことを示唆する。 さらに、コード、新しい本質的なメトリクス、hatspeechのジェンダーバイアスのための注釈付きテストセットをリリースしました。

Natural Language Processing (NLP) systems learn harmful societal biases that cause them to widely proliferate inequality as they are deployed in more and more situations. To address and combat this, the NLP community relies on a variety of metrics to identify and quantify bias in black-box models and to guide efforts at debiasing. Some of these metrics are intrinsic, and are measured in word embedding spaces, and some are extrinsic, which measure the bias present downstream in the tasks that the word embeddings are plugged into. This research examines whether easy-to-measure intrinsic metrics correlate well to real world extrinsic metrics. We measure both intrinsic and extrinsic bias across hundreds of trained models covering different tasks and experimental conditions and find that there is no reliable correlation between these metrics that holds in all scenarios across tasks and languages. We advise that efforts to debias embedding spaces be always also paired with measurement of downstream model bias, and suggest that that community increase effort into making downstream measurement more feasible via creation of additional challenge sets and annotated test data. We additionally release code, a new intrinsic metric, and an annotated test set for gender bias for hatespeech.
翻訳日:2021-04-17 20:04:16 公開日:2021-01-02
# 量子制御のためのカリキュラムに基づく深層強化学習

Curriculum-based Deep Reinforcement Learning for Quantum Control ( http://arxiv.org/abs/2012.15427v2 )

ライセンス: Link先を確認
Hailan Ma, Daoyi Dong, Steven X. Ding, Chunlin Chen(参考訳) 深層強化学習は,制御環境の事前知識を必要とせず,複雑なシステムの最適戦略を設計するための効率的な手法として認識されてきた。 量子システムの高速かつ高精度な制御を実現するために,忠実度閾値で定義された一連の中間タスクからなるカリキュラムを構築し,新しい深層強化学習手法を提案する。 カリキュラム内のタスクは経験的知識を用いて静的に決定したり、学習プロセスで適応的に生成することができる。 本提案手法は,2つの連続タスク間の知識の伝達と課題のシークエンシングを困難さに応じて行うことで,エージェントが早期に簡単なタスクに集中し,困難なタスクに移行し,最終的に最終タスクにアプローチすることを可能にする。 クローズド量子系とオープン量子系の数値シミュレーションにより,提案手法は量子系の制御性能を向上し,制御パルスが少ない最適戦略を同定する効率的な方法を提供することを示した。

Deep reinforcement learning has been recognized as an efficient technique to design optimal strategies for different complex systems without prior knowledge of the control landscape. To achieve a fast and precise control for quantum systems, we propose a novel deep reinforcement learning approach by constructing a curriculum consisting of a set of intermediate tasks defined by a fidelity threshold. Tasks among a curriculum can be statically determined using empirical knowledge or adaptively generated with the learning process. By transferring knowledge between two successive tasks and sequencing tasks according to their difficulties, the proposed curriculum-based deep reinforcement learning (CDRL) method enables the agent to focus on easy tasks in the early stage, then move onto difficult tasks, and eventually approaches the final task. Numerical simulations on closed quantum systems and open quantum systems demonstrate that the proposed method exhibits improved control performance for quantum systems and also provides an efficient way to identify optimal strategies with fewer control pulses.
翻訳日:2021-04-17 16:56:04 公開日:2021-01-02
# (参考訳) 機械学習プロジェクトにおける最小生存モデル推定 [全文訳有]

Minimum Viable Model Estimates for Machine Learning Projects ( http://arxiv.org/abs/2101.00346v1 )

ライセンス: CC BY 4.0
John Hawkins(参考訳) 機械学習プロジェクトの優先順位付けには、ビジネスケースの潜在的なroiと必要な特性を持つモデルを構築する技術的困難の両方を見積もる必要がある。 本稿では,その利用方法に関する一連の情報から,予測モデルの最小要求性能特性を推定する手法を提案する。 この手法は潜在的プロジェクト間の堅牢で客観的な比較をもたらす。 その結果、データサイエンティストとマネージャは、モデリングを行う前に提案された機械学習プロジェクトが成功するかどうかを評価することができる。 この技術はオープンソースアプリケーションMinViME (Minimum Viable Model Estimator)に実装されており、PyPI pythonパッケージ管理システム経由でインストールするか、GitHubリポジトリから直接ダウンロードすることができる。 https://github.com/j ohn-hawkins/MinViME

Prioritization of machine learning projects requires estimates of both the potential ROI of the business case and the technical difficulty of building a model with the required characteristics. In this work we present a technique for estimating the minimum required performance characteristics of a predictive model given a set of information about how it will be used. This technique will result in robust, objective comparisons between potential projects. The resulting estimates will allow data scientists and managers to evaluate whether a proposed machine learning project is likely to succeed before any modelling needs to be done. The technique has been implemented into the open source application MinViME (Minimum Viable Model Estimator) which can be installed via the PyPI python package management system, or downloaded directly from the GitHub repository. Available at https://github.com/j ohn-hawkins/MinViME
翻訳日:2021-04-16 10:41:56 公開日:2021-01-02
# (参考訳) SDA:Self Data Augmentationによるテキスト生成の改善 [全文訳有]

SDA: Improving Text Generation with Self Data Augmentation ( http://arxiv.org/abs/2101.03236v1 )

ライセンス: CC0 1.0
Ping Yu, Ruiyi Zhang, Yang Zhao, Yizhe Zhang, Chunyuan Li, Changyou Chen(参考訳) データ拡張はコンピュータビジョンなど多くの研究分野でディープニューラルネットワークを改善するために広く使われている。 しかし、テキストの文脈では、その離散的な性質と自然言語の複雑さによって、より少ない作業がなされている。 本稿では,自動データ拡張のための自己模倣学習フェーズを組み込むことにより,mle(standard maximum likelihood estimation)パラダイムを改善することを提案する。 特定のモデルにのみ適用可能な既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,MLEベースの訓練手順にも容易に適用できる。 さらに,本フレームワークは,例えば語彙使用の制御や非自明な繰り返しの回避などにおいて,生成した文を柔軟に制御するタスク固有の評価指標を設計することができる。 広範な実験結果から,2つの合成データと数種類の標準実データに対する本手法の優位性が示され,関連するベースラインを著しく改善した。

Data augmentation has been widely used to improve deep neural networks in many research fields, such as computer vision. However, less work has been done in the context of text, partially due to its discrete nature and the complexity of natural languages. In this paper, we propose to improve the standard maximum likelihood estimation (MLE) paradigm by incorporating a self-imitation-learn ing phase for automatic data augmentation. Unlike most existing sentence-level augmentation strategies, which are only applied to specific models, our method is more general and could be easily adapted to any MLE-based training procedure. In addition, our framework allows task-specific evaluation metrics to be designed to flexibly control the generated sentences, for example, in terms of controlling vocabulary usage and avoiding nontrivial repetitions. Extensive experimental results demonstrate the superiority of our method on two synthetic and several standard real datasets, significantly improving related baselines.
翻訳日:2021-04-16 10:34:49 公開日:2021-01-02
# (参考訳) ディープニューラルネットワークを用いたマルチイメージステレオグラフィ [全文訳有]

Multi-Image Steganography Using Deep Neural Networks ( http://arxiv.org/abs/2101.00350v1 )

ライセンス: CC BY-SA 4.0
Abhishek Das, Japsimar Singh Wahi, Mansi Anand, Yugant Rana(参考訳) ステガノグラフィーは、秘密のメッセージを普通の公開メッセージの中に隠す科学である。 長年にわたり、低解像度画像をLSB操作のような単純な方法で高解像度画像に符号化するためにステガノグラフィーが用いられてきた。 本研究では,ディープニューラルネットワークを用いて,同一解像度の単一のカバー画像内の複数の秘密画像の符号化と復号を行う。

Steganography is the science of hiding a secret message within an ordinary public message. Over the years, steganography has been used to encode a lower resolution image into a higher resolution image by simple methods like LSB manipulation. We aim to utilize deep neural networks for the encoding and decoding of multiple secret images inside a single cover image of the same resolution.
翻訳日:2021-04-16 10:11:07 公開日:2021-01-02
# (参考訳) ニューラルジェネレーションのためのオンザフライアテンションモジュール化 [全文訳有]

On-the-Fly Attention Modularization for Neural Generation ( http://arxiv.org/abs/2101.00371v1 )

ライセンス: CC BY 4.0
Yue Dong, Chandra Bhagavatula, Ximing Lu, Jena D. Hwang, Antoine Bosselut, Jackie Chi Kit Cheung, Yejin Choi(参考訳) 深層言語モデル(LM)によるかなりの進歩にもかかわらず、ニューラルテキスト生成は依然として変性に悩まされている。 文章レベルの注意パターンに関する経験的分析から,神経テキストの変性は注意機構による帰納的バイアスの学習不足と関連している可能性が示唆された。 本研究は,インダクティブバイアスを推論中に注意計算に注入する簡易かつ効果的な手法である,オンザフライアテンションモダナイゼーションを動機付けている。 モジュール化に注意を向けた言語モデルによって生成された結果のテキストは、拡散性とコヒーレンスを維持しながら、多様性とコモンセンス推論を向上させることができる。

Despite considerable advancements with deep neural language models (LMs), neural text generation still suffers from degeneration: generated text is repetitive, generic, self-inconsistent, and lacking commonsense. The empirical analyses on sentence-level attention patterns reveal that neural text degeneration may be associated with insufficient learning of inductive biases by the attention mechanism. Our findings motivate on-the-fly attention modularization, a simple but effective method for injecting inductive biases into attention computation during inference. The resulting text produced by the language model with attention modularization can yield enhanced diversity and commonsense reasoning while maintaining fluency and coherence.
翻訳日:2021-04-16 10:04:10 公開日:2021-01-02
# (参考訳) riddlesense: 常識的推論としての謎の質問に答える [全文訳有]

RiddleSense: Answering Riddle Questions as Commonsense Reasoning ( http://arxiv.org/abs/2101.00376v1 )

ライセンス: CC BY 4.0
Bill Yuchen Lin, Ziyi Wu, Yichi Yang, Dong-Ho Lee, Xiang Ren(参考訳) 謎めいた、毎日のコンセプトに関する謎めいた疑問です。 例えば「私は5本の指を持っているが、私は生きているわけではない。 私は何者ですか? 手袋の概念について尋ねます 謎を解くことは人間にとって困難な認知プロセスであり、複雑なコモンセンス推論能力と図形言語を理解する必要がある。 しかしながら、これらの能力をテストするコモンセンス推論データセットは今のところ存在しない。 我々は,高階のコモンセンス推論モデルのベンチマークを行うための,新しいマルチチョイス質問応答チャレンジであるRiddleSenseを提案し,人間のアノテーションからイントラクタをクラウドソーシングする,リグルスタイルのコモンセンス質問応答のための最初の大規模データセットである。 体系的に様々な推論モデルを評価し、最高の教師付きモデルと人間のパフォーマンスの間には大きなギャップがあることを指摘した上で、高次常識推論と計算創造性に関する興味深い研究を指摘した。

A riddle is a mystifying, puzzling question about everyday concepts. For example, the riddle "I have five fingers but I am not alive. What am I?" asks about the concept of a glove. Solving riddles is a challenging cognitive process for humans, in that it requires complex commonsense reasoning abilities and an understanding of figurative language. However, there are currently no commonsense reasoning datasets that test these abilities. We propose RiddleSense, a novel multiple-choice question answering challenge for benchmarking higher-order commonsense reasoning models, which is the first large dataset for riddle-style commonsense question answering, where the distractors are crowdsourced from human annotators. We systematically evaluate a wide range of reasoning models over it and point out that there is a large gap between the best-supervised model and human performance -- pointing to interesting future research for higher-order commonsense reasoning and computational creativity.
翻訳日:2021-04-13 13:37:05 公開日:2021-01-02
# (参考訳) イメージベース繊維デコード [全文訳有]

Image-based Textile Decoding ( http://arxiv.org/abs/2101.00395v1 )

ライセンス: CC BY 4.0
Siqiang Chen, Masahiro Toyoura, Takamasa Terada, Xiaoyang Mao, Gang Xu(参考訳) 繊維織物は、無数の平行な垂直糸(ワープ)と水平糸(ウェフト)からなる。 一般的な織機は繰り返しパターンを織ることができるが、ジャカード織機は繰り返し制限なしでパターンを織ることができる。 グリッド上のワープとウェフトが交差するパターンはバイナリ行列で定義される。 二項行列は、ジャカードファブリックの各格子点の上のワープとウェフトを定義することができる。 このプロセスは、パターンから織物へのエンコーディングと見なすことができる。 本研究では,すでに編まれている織物からバイナリパターンを生成する復号法を提案する。 パターンのトレーニングセットと観測されたファブリックイメージのみに基づいて、ディープニューラルネットワークを使ってプロセスを学習することはできませんでした。 観測画像の交差点が格子点に完全に位置していたわけではないため, 深層学習の枠組みにおいて, ファブリック画像と行列で表されるパターンとを直接対応付けることは困難であった。 そこで本研究では,パターンと画像の中間表現を通じてディープラーニングの枠組みを適用する手法を提案する。 パターンを中間表現に変換する方法と、出力をパターンに変換する方法を示し、その有効性を確認する。 本実験では,実際の織物画像からパターンをデコードし,再度織ることにより,正しいパターンの93%が得られたことを確認した。

A textile fabric consists of countless parallel vertical yarns (warps) and horizontal yarns (wefts). While common looms can weave repetitive patterns, Jacquard looms can weave the patterns without repetition restrictions. A pattern in which the warps and wefts cross on a grid is defined in a binary matrix. The binary matrix can define which warp and weft is on top at each grid point of the Jacquard fabric. The process can be regarded as encoding from pattern to textile. In this work, we propose a decoding method that generates a binary pattern from a textile fabric that has been already woven. We could not use a deep neural network to learn the process based solely on the training set of patterns and observed fabric images. The crossing points in the observed image were not completely located on the grid points, so it was difficult to take a direct correspondence between the fabric images and the pattern represented by the matrix in the framework of deep learning. Therefore, we propose a method that can apply the framework of deep learning via the intermediate representation of patterns and images. We show how to convert a pattern into an intermediate representation and how to reconvert the output into a pattern and confirm its effectiveness. In this experiment, we confirmed that 93% of correct pattern was obtained by decoding the pattern from the actual fabric images and weaving them again.
翻訳日:2021-04-13 12:56:06 公開日:2021-01-02
# (参考訳) Lex-BERT: LexiconによるBERTベースのNERの強化 [全文訳有]

Lex-BERT: Enhancing BERT based NER with lexicons ( http://arxiv.org/abs/2101.00396v1 )

ライセンス: CC BY 4.0
Wei Zhu, Daniel Cheung(参考訳) 本研究は,名前付きエンティティ認識(NER)タスクに対して,辞書情報を中国語のBERTに組み込んだLex-BERTを自然な方法で表現する。 単語埋め込みと新たに設計されたトランスフォーマー層をフラットに使用する代わりに、特別なトークンを使って文中の単語の境界を識別し、修正された文はbertによって直接エンコードされる。 我々のモデルは新しいパラメータを導入せず、FLATよりも効率的です。 さらに、レキシコンコレクションに付随する単語埋め込みは不要である。 OntonotesとZhCrossNERの実験では、私たちのモデルはFLATや他のベースラインよりも優れています。

In this work, we represent Lex-BERT, which incorporates the lexicon information into Chinese BERT for named entity recognition (NER) tasks in a natural manner. Instead of using word embeddings and a newly designed transformer layer as in FLAT, we identify the boundary of words in the sentences using special tokens, and the modified sentence will be encoded directly by BERT. Our model does not introduce any new parameters and are more efficient than FLAT. In addition, we do not require any word embeddings accompanying the lexicon collection. Experiments on Ontonotes and ZhCrossNER show that our model outperforms FLAT and other baselines.
翻訳日:2021-04-13 12:41:05 公開日:2021-01-02
# (参考訳) 大規模マルチプレイヤーコンペティションのためのエロ様システム [全文訳有]

An Elo-like System for Massive Multiplayer Competitions ( http://arxiv.org/abs/2101.00400v1 )

ライセンス: CC BY 4.0
Aram Ebtekar and Paul Liu(参考訳) レーティングシステムは競技や競技において重要な役割を果たしている。 プレイヤーのスキルを測り、競争力を高め、バランスの取れた試合を可能にする。 本稿では,多数の参加者が参加するコンテストのベイズ評価システムを提案する。 オンラインプログラミング競技、障害物コースレース、いくつかのビデオゲームなど、個別のランキングマッチを持つ競技形式に広く適用されている。 システムの単純さにより、ロバスト性とランタイムに関する理論的境界を証明できます。 さらに,評価を最大化しようとするプレイヤーは,決して過度にパフォーマンスを損なうことはない。 実験的に、レーティングシステムは予測精度で既存のシステムと競合するか、あるいは上回っており、既存のシステムよりも桁違いに高速に計算する。

Rating systems play an important role in competitive sports and games. They provide a measure of player skill, which incentivizes competitive performances and enables balanced match-ups. In this paper, we present a novel Bayesian rating system for contests with many participants. It is widely applicable to competition formats with discrete ranked matches, such as online programming competitions, obstacle courses races, and some video games. The simplicity of our system allows us to prove theoretical bounds on robustness and runtime. In addition, we show that the system aligns incentives: that is, a player who seeks to maximize their rating will never want to underperform. Experimentally, the rating system rivals or surpasses existing systems in prediction accuracy, and computes faster than existing systems by up to an order of magnitude.
翻訳日:2021-04-13 12:37:42 公開日:2021-01-02
# (参考訳) クロスドキュメント言語モデリング [全文訳有]

Cross-Document Language Modeling ( http://arxiv.org/abs/2101.00406v1 )

ライセンス: CC BY 4.0
Avi Caciularu, Arman Cohan, Iz Beltagy, Matthew E. Peters, Arie Cattan, Ido Dagan(参考訳) マルチドキュメントNLPタスクをサポートする言語モデルに対して,新たな事前学習手法を提案する。 我々のクロスドキュメント言語モデル (CD-LM) は2つの重要なアイデアでこれらのタスクのマスキング言語モデリングを改善する。 まず、複数の関連文書を1つの入力で事前トレーニングし、クロスドキュメントマスキングにより、クロスドキュメントと長距離関係の学習を促す。 第二に、最近のLongformerモデルを拡張して、何千ものトークンの長いコンテキストで事前訓練を行い、シーケンシャルなグローバルな注意を用いてマスク付きトークンを予測する新しい注意パターンを導入します。 本研究のCD-LMは,クロスドキュメントイベントやエンティティコア参照解決,論文引用推薦,文書盗作検出など,複数のマルチテキストタスクに対して,従来よりも格段に少ないトレーニングパラメータを用いて,新たな最先端結果を設定する。

We introduce a new pretraining approach for language models that are geared to support multi-document NLP tasks. Our cross-document language model (CD-LM) improves masked language modeling for these tasks with two key ideas. First, we pretrain with multiple related documents in a single input, via cross-document masking, which encourages the model to learn cross-document and long-range relationships. Second, extending the recent Longformer model, we pretrain with long contexts of several thousand tokens and introduce a new attention pattern that uses sequence-level global attention to predict masked tokens, while retaining the familiar local attention elsewhere. We show that our CD-LM sets new state-of-the-art results for several multi-text tasks, including cross-document event and entity coreference resolution, paper citation recommendation, and documents plagiarism detection, while using a significantly reduced number of training parameters relative to prior works.
翻訳日:2021-04-13 10:51:01 公開日:2021-01-02
# (参考訳) シーケンススパン書き換えによるシーケンス間事前学習の改善 [全文訳有]

Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting ( http://arxiv.org/abs/2101.00416v1 )

ライセンス: CC BY 4.0
Wangchunshu Zhou, Tao Ge, Ke Xu, Furu Wei(参考訳) 本稿では,ssr(sequence span rewriting)を自己教師付きsequence-to-sequence (seq2seq)事前学習目的として提案することにより,テキストインフィルディング(例えばマスク言語モデル)を一般化する。 SSRは、不完全を真理に書き直すモデルを監督することで、テキスト表現のためのよりきめ細かい学習信号を提供し、ソース文をターゲット文に書き直す多くの下流のseq2seqタスクでテキストを埋め込むよりも一貫性がある。 各種Seq2seqタスクのT5モデルによる実験により,SSRはSeq2seq事前学習を大幅に改善できることが示された。 さらに,ssrは,大規模モデルからsseq2seqプリトレーニングモデルへ知識を移す新たな視点を示す,強力な不完全スパンジェネレータを備えた小型seq2seqモデルの事前学習を改善するのに特に有用である。

In this paper, we generalize text infilling (e.g., masked language models) by proposing Sequence Span Rewriting (SSR) as a self-supervised sequence-to-sequence (seq2seq) pre-training objective. SSR provides more fine-grained learning signals for text representations by supervising the model to rewrite imperfect spans to ground truth, and it is more consistent than text infilling with many downstream seq2seq tasks that rewrite a source sentences into a target sentence. Our experiments with T5 models on various seq2seq tasks show that SSR can substantially improve seq2seq pre-training. Moreover, we observe SSR is especially helpful to improve pre-training a small-size seq2seq model with a powerful imperfect span generator, which indicates a new perspective of transferring knowledge from a large model to a smaller model for seq2seq pre-training.
翻訳日:2021-04-13 10:33:18 公開日:2021-01-02
# (参考訳) ランダムウォークグラフ畳み込みネットワークを用いた再構成グラフの表現学習 [全文訳有]

Representation Learning of Reconstructed Graphs Using Random Walk Graph Convolutional Network ( http://arxiv.org/abs/2101.00417v1 )

ライセンス: CC BY 4.0
Xing Li, Wei Wei, Xiangnan Feng, Zhiming Zheng(参考訳) グラフは単純なトポロジ構造のため、しばしばデータを整理するために使われ、機械学習において重要な役割を果たす。 また,グラフ表現学習によって得られる低次元埋め込み表現は,ノード分類,コンテンツ推薦,リンク予測など,様々な典型的なタスクにおいて極めて有用であることがわかった。 しかし、既存の手法は主にグラフのミクロ構造(すなわちエッジ)から始まり、メソスコピック構造(高次局所構造)を無視している。 本稿では,ランダムウォークをグラフのノード固有のメソスコピック構造に利用し,これらのメソピック構造を用いてグラフを再構築し,ノードの特性情報を整理する新しい枠組みであるwgcnを提案する。 提案手法は,引用ネットワークとソーシャルネットワークで実施した一連の実験で証明された,従来未発見のデータに対するノード埋め込みを効果的に生成することができる(本手法はベースライン手法よりも優れている)。 高次局所構造情報を組み合わせることで、ニューラルネットワークの学習効率を大幅に向上し、新しい学習モデルの確立を促進するネットワークの可能性をより効率的に探求できると信じている。

Graphs are often used to organize data because of their simple topological structure, and therefore play a key role in machine learning. And it turns out that the low-dimensional embedded representation obtained by graph representation learning are extremely useful in various typical tasks, such as node classification, content recommendation and link prediction. However, the existing methods mostly start from the microstructure (i.e., the edges) in the graph, ignoring the mesoscopic structure (high-order local structure). Here, we propose wGCN -- a novel framework that utilizes random walk to obtain the node-specific mesoscopic structures of the graph, and utilizes these mesoscopic structures to reconstruct the graph And organize the characteristic information of the nodes. Our method can effectively generate node embeddings for previously unseen data, which has been proven in a series of experiments conducted on citation networks and social networks (our method has advantages over baseline methods). We believe that combining high-order local structural information can more efficiently explore the potential of the network, which will greatly improve the learning efficiency of graph neural network and promote the establishment of new learning models.
翻訳日:2021-04-13 10:20:30 公開日:2021-01-02
# (参考訳) KM-BART:ビジュアルコモンセンス生成のための知識強化型マルチモーダルBART [全文訳有]

KM-BART: Knowledge Enhanced Multimodal BART for Visual Commonsense Generation ( http://arxiv.org/abs/2101.00419v1 )

ライセンス: CC BY 4.0
Yiran Xing, Zai Shi, Zhao Meng, Yunpu Ma, Roger Wattenhofer(参考訳) 本稿では、画像やテキストのマルチモーダル入力から常識知識を推論できるトランスフォーマーベースのシーケンス・ツー・シーケンスモデルであるKM-BARTを提案する。 一般的なBARTアーキテクチャをマルチモーダルモデルに拡張する。 我々は,visual commonsense生成タスクのモデル性能を改善するために,新しい事前学習タスクを設計する。 本課題は,外部知識グラフ上で事前学習した大規模言語モデルからの知識を活用し,視覚コモンセンス生成性能を向上させる。 私たちの知る限り、私たちはVisual Commonsense Generationのモデルパフォーマンスを改善するための専用のタスクを最初に提案します。 実験の結果,事前学習により,視覚コモンセンス生成タスクにおいて最先端の性能が得られることがわかった。

We present Knowledge Enhanced Multimodal BART (KM-BART), which is a Transformer-based sequence-to-sequence model capable of reasoning about commonsense knowledge from multimodal inputs of images and texts. We extend the popular BART architecture to a multi-modal model. We design a new pretraining task to improve the model performance on Visual Commonsense Generation task. Our pretraining task improves the Visual Commonsense Generation performance by leveraging knowledge from a large language model pretrained on an external knowledge graph. To the best of our knowledge, we are the first to propose a dedicated task for improving model performance on Visual Commonsense Generation. Experimental results show that by pretraining, our model reaches state-of-the-art performance on the Visual Commonsense Generation task.
翻訳日:2021-04-13 10:05:09 公開日:2021-01-02
# (参考訳) スパン表現のない参照分解能 [全文訳有]

Coreference Resolution without Span Representations ( http://arxiv.org/abs/2101.00434v1 )

ライセンス: CC0 1.0
Yuval Kirstain, Ori Ram, Omer Levy(参考訳) 深く事前訓練された言語モデルの導入以来、ほとんどのタスク固有のNLPモデルは単純な軽量層に縮小された。 このトレンドの例外は、高度なエンドツーエンドモデルを事前訓練されたトランスフォーマーエンコーダに追加する、コア参照解決の難しいタスクである。 非常に効果的だが、モデルは非常に大きなメモリフットプリントを持ち、主に動的に構成されたスパンとスパンペアの表現によって、完全なドキュメントの処理と単一のバッチで複数のインスタンスをトレーニングする能力を妨げる。 我々は,スパン表現や手作り特徴,ヒューリスティックに依存しない軽量なコリファレンスモデルを導入する。 我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。

Since the introduction of deep pretrained language models, most task-specific NLP models were reduced to simple lightweight layers. An exception to this trend is the challenging task of coreference resolution, where a sophisticated end-to-end model is appended to a pretrained transformer encoder. While highly effective, the model has a very large memory footprint -- primarily due to dynamically-construc ted span and span-pair representations -- which hinders the processing of complete documents and the ability to train on multiple instances in a single batch. We introduce a lightweight coreference model that removes the dependency on span representations, handcrafted features, and heuristics. Our model performs competitively with the current end-to-end model, while being simpler and more efficient.
翻訳日:2021-04-13 09:51:03 公開日:2021-01-02
# (参考訳) Baleen: 凝縮検索による大規模マルチホップ推論 [全文訳有]

Baleen: Robust Multi-Hop Reasoning at Scale via Condensed Retrieval ( http://arxiv.org/abs/2101.00436v1 )

ライセンス: CC BY 4.0
Omar Khattab, Christopher Potts, Matei Zaharia(参考訳) マルチホップ推論(Multi-hop reasoning、すなわち2つ以上の文書をまたがる推論)は、大規模な文書コレクションを活用することで幅広い世界の知識を表現できるNLPモデルへの重要なステップである。 本稿では,マルチホップ推論のロバスト性と拡張性を向上させるシステムであるbaleenを提案する。 Baleen氏は、検索スペースのサイズを軽減するために、ホップ毎の縮合された検索パイプライン、複雑なマルチホップクエリをモデル化可能な集中遅延インタラクションレトリバー(FliBERT)、クエリを検索するドキュメントの限られた信号から学ぶための弱い監視戦略である潜時ホップオーダを導入した。 我々は,新たなマルチホップクレーム検証データセットであるHoVer上でバリーンを評価し,最先端の性能を確立した。

Multi-hop reasoning (i.e., reasoning across two or more documents) at scale is a key step toward NLP models that can exhibit broad world knowledge by leveraging large collections of documents. We propose Baleen, a system that improves the robustness and scalability of multi-hop reasoning over current approaches. Baleen introduces a per-hop condensed retrieval pipeline to mitigate the size of the search space, a focused late interaction retriever (FliBERT) that can model complex multi-hop queries, and a weak supervision strategy, latent hop ordering, to learn from limited signal about which documents to retrieve for a query. We evaluate Baleen on the new many-hop claim verification dataset HoVer, establishing state-of-the-art performance.
翻訳日:2021-04-13 09:45:02 公開日:2021-01-02
# (参考訳) 予備学習スパン選択による少数質問応答 [全文訳有]

Few-Shot Question Answering by Pretraining Span Selection ( http://arxiv.org/abs/2101.00438v1 )

ライセンス: CC0 1.0
Ori Ram and Yuval Kirstain and Jonathan Berant and Amir Globerson and Omer Levy(参考訳) 多くの質問応答(QA)ベンチマークでは、事前訓練されたモデルは10万の注釈付き質問と回答の順序で微調整することで人間と同等に到達している。 私たちは、数百のトレーニングサンプルしか利用できない、より現実的な数ショットの設定を探求します。 標準スパン選択モデルの性能は低いことを示し、現在の事前学習対象が質問応答から遠く離れたという事実を強調した。 そこで本研究では,質問応答の抽出に適した新しい事前学習方式を提案する。 複数の繰り返しスパンからなるパスが与えられた場合、各セットにおいて、繰り返しスパン以外のすべてのスパンをマスキングし、各マスキングスパンに対して正しいスパンを選択するようモデルに求める。 仮面のスパンは特別なトークンに置き換えられ、質問表現と見なされ、後に微調整中に答えスパンを選択するために使われる。 結果のモデルは、SQuADでわずか128例の72.7 F1のような、複数のベンチマークで驚くほど良い結果が得られる一方で、高リソース環境での競争力(時にはより良い)性能を維持している。 本研究は,事前学習方式とモデルアーキテクチャの注意深い設計が,数ショット設定における性能に劇的な影響を及ぼすことを示唆している。

In a number of question answering (QA) benchmarks, pretrained models have reached human parity through fine-tuning on an order of 100,000 annotated questions and answers. We explore the more realistic few-shot setting, where only a few hundred training examples are available. We show that standard span selection models perform poorly, highlighting the fact that current pretraining objective are far removed from question answering. To address this, we propose a new pretraining scheme that is more suitable for extractive question answering. Given a passage with multiple sets of recurring spans, we mask in each set all recurring spans but one, and ask the model to select the correct span in the passage for each masked span. Masked spans are replaced with a special token, viewed as a question representation, that is later used during fine-tuning to select the answer span. The resulting model obtains surprisingly good results on multiple benchmarks, e.g., 72.7 F1 with only 128 examples on SQuAD, while maintaining competitive (and sometimes better) performance in the high-resource setting. Our findings indicate that careful design of pretraining schemes and model architecture can have a dramatic effect on performance in the few-shot settings.
翻訳日:2021-04-13 09:32:43 公開日:2021-01-02
# (参考訳) COVID19-HPSMP:株価変動予測のためのハイブリッド・並列深層情報統合フレームワーク [全文訳有]

COVID19-HPSMP: COVID-19 Adopted Hybrid and Parallel Deep Information Fusion Framework for Stock Price Movement Prediction ( http://arxiv.org/abs/2101.02287v1 )

ライセンス: CC BY 4.0
Farnoush Ronaghi, Mohammad Salimibeni, Farnoosh Naderkhani, and Arash Mohammadi(参考訳) 新型コロナウイルス(COVID-19)は、21世紀の3世紀初頭に我々が知ったように、突然、そして突然、世界を変えた。 特に新型コロナウイルスのパンデミックは、世界中の経済指標や株式市場に悪影響を及ぼしている。 人工知能(AI)と機械学習(ML)ベースの予測モデル、特にDeep Neural Network(DNN)アーキテクチャは、新型コロナウイルス(COVID-19)パンデミックと将来の金融市場に対する悪影響を軽減する重要な要因として機能する可能性がある。 本稿では,まず,covid-19プライスムーブメント予測(covid19 primo)データセットを導入し,covid-19関連ソーシャルメディアの動向が株価変動に与える影響について考察する。 その後、異なる多様な学習アーキテクチャを統合する新しいハイブリッドかつ並列DNNベースのフレームワークが提案されている。 株価変動予測(COVID19-HPSMP)のためのハイブリッドと並列の深層融合フレームワーク(Hybrid and Parallel Deep fusion framework)として、新型コロナウイルスに関連するソーシャルメディアニュースと歴史的なマークデータを組み合わせた革新的な融合戦略が用いられている。 提案したCOVID19-HPSMPは、2つの並列パス(hence hybrid)で構成され、1つは畳み込みニューラルネットワーク(CNN)とローカル/グローバルアテンションモジュール、もう1つは統合されたCNNと双方向長短項メモリ(BLSTM)からなる。 2つの平行経路は、局所的な特徴を結合する融合中心として働く多層核融合層が続く。 提案フレームワークの優れた性能を示す COVID19 PRIMO データセットを用いて性能評価を行う。

The novel of coronavirus (COVID-19) has suddenly and abruptly changed the world as we knew at the start of the 3rd decade of the 21st century. Particularly, COVID-19 pandemic has negatively affected financial econometrics and stock markets across the globe. Artificial Intelligence (AI) and Machine Learning (ML)-based prediction models, especially Deep Neural Network (DNN) architectures, have the potential to act as a key enabling factor to reduce the adverse effects of the COVID-19 pandemic and future possible ones on financial markets. In this regard, first, a unique COVID-19 related PRIce MOvement prediction (COVID19 PRIMO) dataset is introduced in this paper, which incorporates effects of social media trends related to COVID-19 on stock market price movements. Afterwards, a novel hybrid and parallel DNN-based framework is proposed that integrates different and diversified learning architectures. Referred to as the COVID-19 adopted Hybrid and Parallel deep fusion framework for Stock price Movement Prediction (COVID19-HPSMP), innovative fusion strategies are used to combine scattered social media news related to COVID-19 with historical mark data. The proposed COVID19-HPSMP consists of two parallel paths (hence hybrid), one based on Convolutional Neural Network (CNN) with Local/Global Attention modules, and one integrated CNN and Bi-directional Long Short term Memory (BLSTM) path. The two parallel paths are followed by a multilayer fusion layer acting as a fusion centre that combines localized features. Performance evaluations are performed based on the introduced COVID19 PRIMO dataset illustrating superior performance of the proposed framework.
翻訳日:2021-04-13 09:00:26 公開日:2021-01-02
# (参考訳) 自然災害時のソーシャルメディアデータのマイニングに対するマルチモーダルアプローチ-ハリケーンイルマの事例研究

A multi-modal approach towards mining social media data during natural disasters -- a case study of Hurricane Irma ( http://arxiv.org/abs/2101.00480v1 )

ライセンス: CC BY 4.0
Somya D. Mohanty and Brown Biggers and Saed Sayedahmed and Nastaran Pourebrahim and Evan B. Goldstein and Rick Bunch and Guangqing Chi and Fereidoon Sadri and Tom P. McCoy and Arthur Cosby(参考訳) ソーシャルメディアのストリーミングは、極端な気象の影響をリアルタイムで見ることができる。 しかし、ストリーミングデータの量は、マイニング情報を緊急管理者、政策立案者、学際的な科学者にとって困難にしている。 本稿では,アメリカフロリダ州のハリケーン・イルマの地すべりから,ストリーミングソーシャルメディアデータから情報をマイニングし,フィルタリングするためのデータ学習の有効性について検討する。 我々は,2017年9月10日から12日までの16,598人のユーザから,54,383件のtwitterメッセージ(784kの位置情報メッセージのうち)を使用して,関連するデータをフィルタリングするための4つの独立したモデルを開発した。 4つのモデルはそれぞれ独立してテストされており、各サブモデルのユーザ定義しきい値に基づいてツイートを素早くフィルタリングして視覚化することができる。 このタイプのフィルタリングと可視化ルーチンは,Twitterなどのノイズの多いソースからのデータキャプチャーのベースモデルとして有用であると考えられる。 データはその後、政策立案者、環境管理者、緊急管理者、および災害の異なる段階(例えば、準備、応答、回復)で使用する特定の属性のツイートを見つけることに興味のあるドメイン科学者によって使用される。

Streaming social media provides a real-time glimpse of extreme weather impacts. However, the volume of streaming data makes mining information a challenge for emergency managers, policy makers, and disciplinary scientists. Here we explore the effectiveness of data learned approaches to mine and filter information from streaming social media data from Hurricane Irma's landfall in Florida, USA. We use 54,383 Twitter messages (out of 784K geolocated messages) from 16,598 users from Sept. 10 - 12, 2017 to develop 4 independent models to filter data for relevance: 1) a geospatial model based on forcing conditions at the place and time of each tweet, 2) an image classification model for tweets that include images, 3) a user model to predict the reliability of the tweeter, and 4) a text model to determine if the text is related to Hurricane Irma. All four models are independently tested, and can be combined to quickly filter and visualize tweets based on user-defined thresholds for each submodel. We envision that this type of filtering and visualization routine can be useful as a base model for data capture from noisy sources such as Twitter. The data can then be subsequently used by policy makers, environmental managers, emergency managers, and domain scientists interested in finding tweets with specific attributes to use during different stages of the disaster (e.g., preparedness, response, and recovery), or for detailed research.
翻訳日:2021-04-13 08:50:41 公開日:2021-01-02
# (参考訳) グラフェンのモジュラリティの最大化 [全文訳有]

Modularity maximisation for graphons ( http://arxiv.org/abs/2101.00503v1 )

ライセンス: CC BY 4.0
Florian Klimm, Nick S. Jones and Michael T. Schaub(参考訳) ネットワークは複雑なシステムにおける大規模接続構造を調べるために広く使われているツールであり、高密度ネットワークの無限大限界としてグラフェンが提案されている。 複雑なシステムにおける機能的ビルディングブロックの識別を可能にするため、ネットワーク科学におけるコミュニティや他のメソスケール構造の検出は重要なトピックである。 そのようなビルディングブロックがグラフンに存在する場合、オープンな問題である。 本稿では,graphon-modularityを定義し,graphonにおけるコミュニティの検出を最大化できることを実証する。 次に, 特定の合成グラフを解析し, 広い範囲の異なるコミュニティ構造を示すことを示す。 また、グラトンモジュラリティの最大化を連続的最適化問題として再構成し、ネットワークでは一般的に不可能であるような、いくつかのグラトンに対する最適なコミュニティ構造または欠如を証明する。 さらに,中間段階としてネットワークデータからグラフを推定することで,ネットワークのモジュール性が最大化されるのに比べ,コミュニティの検出性が向上することを示す。 グラフトン推定器の選択は,ネットワークのコミュニティ構造と推定したグラフトンとの一致に強く影響する可能性があるが,適切な推定器を使用すると,かなりの重複が存在することが分かる。 本研究は,グラフオンのコミュニティ検出が可能であり,ネットワークデータをクラスタ化するためのプライバシ保護手段として有効であることを示す。

Networks are a widely-used tool to investigate the large-scale connectivity structure in complex systems and graphons have been proposed as an infinite size limit of dense networks. The detection of communities or other meso-scale structures is a prominent topic in network science as it allows the identification of functional building blocks in complex systems. When such building blocks may be present in graphons is an open question. In this paper, we define a graphon-modularity and demonstrate that it can be maximised to detect communities in graphons. We then investigate specific synthetic graphons and show that they may show a wide range of different community structures. We also reformulate the graphon-modularity maximisation as a continuous optimisation problem and so prove the optimal community structure or lack thereof for some graphons, something that is usually not possible for networks. Furthermore, we demonstrate that estimating a graphon from network data as an intermediate step can improve the detection of communities, in comparison with exclusively maximising the modularity of the network. While the choice of graphon-estimator may strongly influence the accord between the community structure of a network and its estimated graphon, we find that there is a substantial overlap if an appropriate estimator is used. Our study demonstrates that community detection for graphons is possible and may serve as a privacy-preserving way to cluster network data.
翻訳日:2021-04-13 08:49:15 公開日:2021-01-02
# (参考訳) マルチレイヤ関連トピックモデル [全文訳有]

A Multilayer Correlated Topic Model ( http://arxiv.org/abs/2101.02028v1 )

ライセンス: CC BY 4.0
Ye Tian(参考訳) 論文の構造を理解する上で有効な,文書とそのセグメント間の主アイデアの相違を解析するための,新しい多層相関トピックモデル (MCTM) を提案する。 変動予測最大化(EM)アルゴリズムは,MCTMの後方およびパラメータを推定するために導出された。 我々は,段落レベルの文書分析とマーケットバスケットデータ分析を含む,MCTMの潜在的な2つの応用を紹介した。 文書構造理解におけるmctmの有効性は,保持文書の予測性能と直感的可視化によって検証された。 また,マーケットバスケット分析において,MCTMが顧客の一般的なショッピングパターンを捉えることができた。

We proposed a novel multilayer correlated topic model (MCTM) to analyze how the main ideas inherit and vary between a document and its different segments, which helps understand an article's structure. The variational expectation-maximiza tion (EM) algorithm was derived to estimate the posterior and parameters in MCTM. We introduced two potential applications of MCTM, including the paragraph-level document analysis and market basket data analysis. The effectiveness of MCTM in understanding the document structure has been verified by the great predictive performance on held-out documents and intuitive visualization. We also showed that MCTM could successfully capture customers' popular shopping patterns in the market basket analysis.
翻訳日:2021-04-13 08:24:55 公開日:2021-01-02
# (参考訳) 医療画像の意味セグメンテーションのためのプライバシー保護ドメイン適応 [全文訳有]

Privacy Preserving Domain Adaptation for Semantic Segmentation of Medical Images ( http://arxiv.org/abs/2101.00522v1 )

ライセンス: CC BY 4.0
Serban Stan, Mohammad Rostami(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像の意味的セグメンテーションを含むタスクを大幅に改善した。 CNNは、異なるデータモダリティを持つ2つのソースとターゲットドメイン間の分散ギャップがドメインシフトをもたらすため、バイオメディカルイメージセグメンテーションの領域で脆弱である。 ドメインシフトは、モデルをゼロから再トレーニングする必要があるため、新しいモダリティでデータアノテーションを必要とする。 非教師付きドメイン適応(UDA)は、未ラベルのターゲットドメインデータのみを用いて新しいモダリティにモデルを適用するために提案される。 共通のUDAアルゴリズムは、プライバシ上の懸念から医療画像では実現不可能なソースドメインのデータポイントへのアクセスを必要とする。 本研究では,ソースドメインデータがアクセス不能なプライバシ制約設定において,udaのアルゴリズムを開発する。 提案手法は,対象領域分布とソース領域分布を整合させる中間分布として使用される原型分布に,ソースサンプルからの情報を符号化することに基づく。 2つの医用画像意味セグメンテーションデータセットにおける最新の医用画像セグメンテーションアプローチと比較し,本アルゴリズムの有効性を示す。

Convolutional neural networks (CNNs) have led to significant improvements in tasks involving semantic segmentation of images. CNNs are vulnerable in the area of biomedical image segmentation because of distributional gap between two source and target domains with different data modalities which leads to domain shift. Domain shift makes data annotations in new modalities necessary because models must be retrained from scratch. Unsupervised domain adaptation (UDA) is proposed to adapt a model to new modalities using solely unlabeled target domain data. Common UDA algorithms require access to data points in the source domain which may not be feasible in medical imaging due to privacy concerns. In this work, we develop an algorithm for UDA in a privacy-constrained setting, where the source domain data is inaccessible. Our idea is based on encoding the information from the source samples into a prototypical distribution that is used as an intermediate distribution for aligning the target domain distribution with the source domain distribution. We demonstrate the effectiveness of our algorithm by comparing it to state-of-the-art medical image semantic segmentation approaches on two medical image semantic segmentation datasets.
翻訳日:2021-04-13 08:07:21 公開日:2021-01-02
# (参考訳) 生体認証とデバイス認証のためのワンショット表現学習 [全文訳有]

One-shot Representational Learning for Joint Biometric and Device Authentication ( http://arxiv.org/abs/2101.00524v1 )

ライセンス: CC BY 4.0
Sudipta Banerjee and Arun Ross(参考訳) 本稿では,1枚の生体画像,例えば顔画像から,(i)生体認証(すなわち個人を識別)と(ii)デバイス認識(すなわち、デバイスを識別)を同時に行う方法を提案する。 このような共同認識方式は、スマートフォンなどのデバイスでセキュリティとプライバシの向上に有用である。 生体特異的特徴とセンサ固有特徴の両方をカプセル化した共同表現を自動学習する。 近赤外線センサとスマートフォンカメラを用いて得られた虹彩, 顔, および眼周囲画像を用いて, 提案手法の評価を行った。 15個のセンサから14,451枚の画像を用いて実験した結果、rank-1の識別精度は最大99.81%、検証精度は100%と誤一致率1%であった。

In this work, we propose a method to simultaneously perform (i) biometric recognition (i.e., identify the individual), and (ii) device recognition, (i.e., identify the device) from a single biometric image, say, a face image, using a one-shot schema. Such a joint recognition scheme can be useful in devices such as smartphones for enhancing security as well as privacy. We propose to automatically learn a joint representation that encapsulates both biometric-specific and sensor-specific features. We evaluate the proposed approach using iris, face and periocular images acquired using near-infrared iris sensors and smartphone cameras. Experiments conducted using 14,451 images from 15 sensors resulted in a rank-1 identification accuracy of upto 99.81% and a verification accuracy of upto 100% at a false match rate of 1%.
翻訳日:2021-04-13 07:44:15 公開日:2021-01-02
# ボックス埋め込みによるきめ細かいエンティティ型モデリング

Modeling Fine-Grained Entity Types with Box Embeddings ( http://arxiv.org/abs/2101.00345v1 )

ライセンス: Link先を確認
Yasumasa Onoe, Michael Boratko, Greg Durrett(参考訳) ニューラルエンティティ型モデルは通常、エンティティタイプを高次元空間内のベクトルとして表現するが、そのような空間はこれらのタイプの複雑な相互依存性のモデル化には適していない。 これらの関係がオントロジーで明示的に定義されていない場合でも,d-次元超矩形として表現するボックス埋め込みが細粒度エンティティ型ラベルの階層を表現できる能力について検討した。 私たちのモデルは、型とエンティティ参照の両方をボックスとして表現します。 各参照とそのコンテキストは、bertベースのモデルに送られて、その参照をボックス空間に埋め込む;本質的に、このモデルは、参照のための型表現を仮定するために、表面テキストに存在するタイプ論的手がかりを利用する。 ソフトボックスの封じ込めは、与えられた型を示す言及の後続確率と、タイプ間の条件付き確率関係の両方を導出するために用いられる。 我々は,このアプローチをベクトル型付けモデルと比較し,いくつかのエンティティ型付けベンチマークで最先端のパフォーマンスを観察した。 競合型付け性能に加えて,ボックスベースモデルでは予測一貫性(スーパータイプとサブタイプを同時に予測する)と信頼性(キャリブレーション)が向上し,ボックスベースモデルの方がベクトルベースモデルよりも遅延型階層を捕えることが示唆された。

Neural entity typing models typically represent entity types as vectors in a high-dimensional space, but such spaces are not well-suited to modeling these types' complex interdependencies. We study the ability of box embeddings, which represent entity types as d-dimensional hyperrectangles, to represent hierarchies of fine-grained entity type labels even when these relationships are not defined explicitly in the ontology. Our model represents both types and entity mentions as boxes. Each mention and its context are fed into a BERT-based model to embed that mention in our box space; essentially, this model leverages typological clues present in the surface text to hypothesize a type representation for the mention. Soft box containment can then be used to derive probabilities, both the posterior probability of a mention exhibiting a given type and the conditional probability relations between types themselves. We compare our approach with a strong vector-based typing model, and observe state-of-the-art performance on several entity typing benchmarks. In addition to competitive typing performance, our box-based model shows better performance in prediction consistency (predicting a supertype and a subtype together) and confidence (i.e., calibration), implying that the box-based model captures the latent type hierarchies better than the vector-based model does.
翻訳日:2021-04-13 07:24:06 公開日:2021-01-02
# 低リソースエンティティ認識のためのロバストかつドメイン適応型アプローチ

A Robust and Domain-Adaptive Approach for Low-Resource Named Entity Recognition ( http://arxiv.org/abs/2101.00388v1 )

ライセンス: Link先を確認
Houjin Yu, Xian-Ling Mao, Zewen Chi, Wei Wei and Heyan Huang(参考訳) 近年,限られたアノテートデータを用いた信頼性の高いエンティティ認識(NER)システムの構築が注目されている。 既存の作業のほとんどは、外部のレキシコンや知識ベースなど、ドメイン固有のリソースに大きく依存しています。 しかし、そのようなドメイン固有のリソースは、しばしば利用できませんが、リソースを構築するのは困難で費用がかかります。 そこで本研究では,低コストかつ容易に入手可能なリソースのみを使用する低リソースNERのための,新しい堅牢でドメイン適応的なアプローチRDANERを提案する。 3つのベンチマークデータセットに関する広範な実験は、安価で容易に得られるリソースのみを使用する場合の最高のパフォーマンスを達成し、難易度の高いドメイン固有リソースを使用する最先端のメソッドに対して、競争力のある結果をもたらすことを証明します。 コードとコーポラはすべてhttps://github.com/h ouking-can/RDANER.co mにある。

Recently, it has attracted much attention to build reliable named entity recognition (NER) systems using limited annotated data. Nearly all existing works heavily rely on domain-specific resources, such as external lexicons and knowledge bases. However, such domain-specific resources are often not available, meanwhile it's difficult and expensive to construct the resources, which has become a key obstacle to wider adoption. To tackle the problem, in this work, we propose a novel robust and domain-adaptive approach RDANER for low-resource NER, which only uses cheap and easily obtainable resources. Extensive experiments on three benchmark datasets demonstrate that our approach achieves the best performance when only using cheap and easily obtainable resources, and delivers competitive results against state-of-the-art methods which use difficultly obtainable domainspecific resources. All our code and corpora can be found on https://github.com/h ouking-can/RDANER.
翻訳日:2021-04-13 07:23:42 公開日:2021-01-02
# スイッチングコストの低い線形マルコフ決定過程の確率的効率的アルゴリズム

A Provably Efficient Algorithm for Linear Markov Decision Process with Low Switching Cost ( http://arxiv.org/abs/2101.00494v1 )

ライセンス: Link先を確認
Minbo Gao, Tianle Xie, Simon S. Du, Lin F. Yang(参考訳) 医療領域やレコメンデーションシステムなど、多くの現実世界のアプリケーションは、政策変更の数の小さな予算、すなわち、スイッチングコストの低減によって、大きな状態空間強化学習問題として定式化することができる。 本稿では, 線形マルコフ決定過程 (MDP) を最近の[Yang et al 2019, Jin et al 2020] で研究し, 大規模状態空間の一般化に線形関数近似を用いる。 スイッチングコストの低い線形MDPのための最初のアルゴリズムを提案する。 我々のアルゴリズムは$\widetilde{O}\left(\sqrt{d^3H^4K}\right)$ regret bound with a near-optimal $O\left(d H\log K\right)$ global switch cost where $d$ is the feature dimension, $H$ is the planning horizon, $K$ is the number of the agent play。 我々の後悔の限界は[Jin et al 2020]による最高の多項式アルゴリズムと一致し、スイッチングコストは彼らのものよりも指数関数的に小さい。 表式MDPに特化すれば,[Bai et al 2019, Zhang et al 20020]の切り替えコストが向上します。 正の結果を$\Omega\left(dH/\log d\right)$大域的なスイッチングコストの低い非回帰アルゴリズムで補う。

Many real-world applications, such as those in medical domains, recommendation systems, etc, can be formulated as large state space reinforcement learning problems with only a small budget of the number of policy changes, i.e., low switching cost. This paper focuses on the linear Markov Decision Process (MDP) recently studied in [Yang et al 2019, Jin et al 2020] where the linear function approximation is used for generalization on the large state space. We present the first algorithm for linear MDP with a low switching cost. Our algorithm achieves an $\widetilde{O}\left(\sqrt{d^3H^4K}\right)$ regret bound with a near-optimal $O\left(d H\log K\right)$ global switching cost where $d$ is the feature dimension, $H$ is the planning horizon and $K$ is the number of episodes the agent plays. Our regret bound matches the best existing polynomial algorithm by [Jin et al 2020] and our switching cost is exponentially smaller than theirs. When specialized to tabular MDP, our switching cost bound improves those in [Bai et al 2019, Zhang et al 20020]. We complement our positive result with an $\Omega\left(dH/\log d\right)$ global switching cost lower bound for any no-regret algorithm.
翻訳日:2021-04-13 07:23:00 公開日:2021-01-02
# オープンドメイン質問応答のためのニューラルレトリバーのエンドツーエンドトレーニング

End-to-End Training of Neural Retrievers for Open-Domain Question Answering ( http://arxiv.org/abs/2101.00408v1 )

ライセンス: Link先を確認
Devendra Singh Sachan and Mostofa Patwary and Mohammad Shoeybi and Neel Kant and Wei Ping and William L Hamilton and Bryan Catanzaro(参考訳) オープンドメイン質問応答(OpenQA)のためのニューラルレトリバーのトレーニングに関する最近の研究は、教師なしと教師なしの両方のアプローチを採用している。 しかし, 神経検索において, 教師なし, 教師なしの手法が効果的に利用できるかは, いまだ不明である。 本研究では,レトリバーの事前学習を体系的に研究する。 Inverse Cloze Taskとマスク付きサルエントスパンによる教師なし事前学習のアプローチをまず提案し,続いて質問文ペアを用いた教師付き微調整を行った。 このアプローチは、Natural QuestionsとTriviaQAデータセット上のトップ20検索精度において、前回の最高値よりも2以上の絶対的なゲインをもたらす。 また,OpenQAモデルにおけるリーダとレシーバコンポーネントのエンドツーエンド教師付きトレーニングのための2つのアプローチについても検討する。 第1のアプローチでは、読者は検索した文書を別々に検討し、第2のアプローチでは、検索した文書はすべて一緒に検討する。 実験は,新たな最先端の成果を得る際に,これらの手法の有効性を示す。 また,Natural Questionsデータセットでは,最新のDPRモデルよりも5ポイント向上し,検索精度が84の上位20点を得た。 さらに,REALMやRAGといった最近のモデルよりも3点以上優れた解答抽出結果が得られる。 さらに,エンド・ツー・エンドのトレーニングを大規模モデルにスケールアップし,小規模モデルに対するパフォーマンスの一貫した向上を示す。

Recent work on training neural retrievers for open-domain question answering (OpenQA) has employed both supervised and unsupervised approaches. However, it remains unclear how unsupervised and supervised methods can be used most effectively for neural retrievers. In this work, we systematically study retriever pre-training. We first propose an approach of unsupervised pre-training with the Inverse Cloze Task and masked salient spans, followed by supervised finetuning using question-context pairs. This approach leads to absolute gains of 2+ points over the previous best result in the top-20 retrieval accuracy on Natural Questions and TriviaQA datasets. We also explore two approaches for end-to-end supervised training of the reader and retriever components in OpenQA models. In the first approach, the reader considers each retrieved document separately while in the second approach, the reader considers all the retrieved documents together. Our experiments demonstrate the effectiveness of these approaches as we obtain new state-of-the-art results. On the Natural Questions dataset, we obtain a top-20 retrieval accuracy of 84, an improvement of 5 points over the recent DPR model. In addition, we achieve good results on answer extraction, outperforming recent models like REALM and RAG by 3+ points. We further scale up end-to-end training to large models and show consistent gains in performance over smaller models.
翻訳日:2021-04-13 07:22:31 公開日:2021-01-02
# タスク固有アダプタ生成によるゼロショット学習

Zero-shot Learning by Generating Task-specific Adapters ( http://arxiv.org/abs/2101.00420v1 )

ライセンス: Link先を確認
Qinyuan Ye, Xiang Ren(参考訳) プリトレーニングされたテキストからテキストへのトランスフォーマーは、幅広いnlpタスクで印象的なパフォーマンスを実現し、入力のプロンプトとしてタスク記述を使用することで、自然にゼロショット学習(zsl)をサポートする。 しかし、このアプローチには潜在的な制限があり、タスクレベルでタスクを解決するために学習するのではなく、インスタンスレベルで入出力ペアから学習する。 あるいは、既存のZSLメソッドをテキスト・トゥ・テキスト・トランスフォーマーに適用することは、テキスト生成の目的と巨大なサイズのために簡単ではない。 タスク記述からタスク固有のアダプタを生成するためにハイパーネットワークをトレーニングすることで、ゼロショット転送性を改善するフレームワークであるHypterを導入する。 この定式化はタスクレベルでの学習を可能にし、軽量アダプタを使用することでパラメータの数を大幅に削減する。 2つのデータセットの実験は、微調整されたベースラインでHypterの改善を示す。

Pre-trained text-to-text transformers achieve impressive performance across a wide range of NLP tasks, and they naturally support zero-shot learning (ZSL) by using the task description as prompt in the input. However, this approach has potential limitations, as it learns from input-output pairs at instance level, instead of learning to solve tasks at task level. Alternatively, applying existing ZSL methods to text-to-text transformers is non-trivial due to their text generation objective and huge size. To address these issues, we introduce Hypter, a framework that improves zero-shot transferability by training a hypernetwork to generate task-specific adapters from task descriptions. This formulation enables learning at task level, and greatly reduces the number of parameters by using light-weight adapters. Experiments on two datasets demonstrate Hypter improves upon fine-tuning baselines.
翻訳日:2021-04-13 07:22:09 公開日:2021-01-02
# NLP応用における透明性の次元

Dimensions of Transparency in NLP Applications ( http://arxiv.org/abs/2101.00433v1 )

ライセンス: Link先を確認
Michael Saxon, Sharon Levy, Xinyi Wang, Alon Albalak, William Yang Wang(参考訳) aiシステムに関する記述とコミュニケーションに関する幅広い透明性が望ましいと考えられている。 これは、一般に公開されているシステムにおける公平性と説明責任に関する議論において特に当てはまる。 しかし、以前の研究は、システムの透明性向上とユーザの混乱の間にトレードオフが存在することを示唆している。 残念ながら、透明性は曖昧な概念であり、定義と定量化が難しい。 本稿では,システム記述の透明性を定量化するためのフレームワークを提案し,nlpカンファレンスの要約を用いて,透明性とエンドユーザの混乱のトレードオフを分析する。

Broader transparency in descriptions of and communication regarding AI systems is widely considered desirable. This is particularly the case in discussions of fairness and accountability in systems exposed to the general public. However, previous work has suggested that a trade-off exists between greater system transparency and user confusion, where `too much information' clouds a reader's understanding of what a system description means. Unfortunately, transparency is a nebulous concept, difficult to both define and quantify. In this work we address these two issues by proposing a framework for quantifying transparency in system descriptions and apply it to analyze the trade-off between transparency and end-user confusion using NLP conference abstracts.
翻訳日:2021-04-13 07:21:41 公開日:2021-01-02
# 予測タスクと規範タスクの統合最適化

Integrated Optimization of Predictive and Prescriptive Tasks ( http://arxiv.org/abs/2101.00354v1 )

ライセンス: Link先を確認
Mehmet Kolcu, Alper E. Murat(参考訳) 従来の機械学習技術では、真と予測値の近さの度合いは一般的に予測の質を測る。 しかし、これらの学習アルゴリズムは、予測値が決定問題への入力として使用されるような処方問題を考慮していない。 本稿では,機能変数を効率的に活用し,予測タスクを規範的タスクで直接統合し,一貫した決定を規定する新しいフレームワークを提案する。 我々は,二段階最適化手法を用いて,処方問題内の予測アルゴリズムのパラメータを訓練する。 本稿では,提案手法の構造と合成データを用いた性能を,点推定,確率的最適化といった古典的手法と比較し,最近開発された機械学習に基づく最適化手法と比較した。 さらに,異なるペナルティアプローチを用いて一般化誤差を制御し,検証データセット上での統合を最適化する。

In traditional machine learning techniques, the degree of closeness between true and predicted values generally measures the quality of predictions. However, these learning algorithms do not consider prescription problems where the predicted values will be used as input to decision problems. In this paper, we efficiently leverage feature variables, and we propose a new framework directly integrating predictive tasks under prescriptive tasks in order to prescribe consistent decisions. We train the parameters of predictive algorithm within a prescription problem via bilevel optimization techniques. We present the structure of our method and demonstrate its performance using synthetic data compared to classical methods like point-estimate-based , stochastic optimization and recently developed machine learning based optimization methods. In addition, we control generalization error using different penalty approaches and optimize the integration over validation data set.
翻訳日:2021-04-13 07:21:11 公開日:2021-01-02
# オーディオトランスフォーマーモデルは何が聞こえますか? 言語伝達のための音響表現の探索とその構造

What all do audio transformer models hear? Probing Acoustic Representations for Language Delivery and its Structure ( http://arxiv.org/abs/2101.00387v1 )

ライセンス: Link先を確認
Jui Shah, Yaman Kumar Singla, Changyou Chen, Rajiv Ratn Shah(参考訳) 近年、BERTベースのトランスモデルは、テキスト処理モデルの「技術スタック」の分離不能な部分となっている。 音声トランスフォーマモデルを用いて音声を符号化することにより, 音声領域における類似の進展が観測されている。 これは、これらのオーディオトランスフォーマーモデルが学習しているものについて疑問を呈する。 さらに、標準の方法論は、ダウンストリームタスクに埋め込む最後のレイヤを選択することですが、それは最適な選択でしょうか? 我々は、最近の2つのオーディオトランスフォーマーモデル、MockingjayとWave2vec2.0に対するこれらの質問に答えようとしている。 音声, 流音, 発音機能など, 言語提供機能と構造機能を総合的に比較した。 さらに,音声モデルのテキスト面,構文,意味的特徴に対する理解を探索し,BERTと比較する。 ネイティブ、非ネイティブ、合成、読み取り、自発的な音声データセットの完全な設定でこれを実行します。

In recent times, BERT based transformer models have become an inseparable part of the 'tech stack' of text processing models. Similar progress is being observed in the speech domain with a multitude of models observing state-of-the-art results by using audio transformer models to encode speech. This begs the question of what are these audio transformer models learning. Moreover, although the standard methodology is to choose the last layer embedding for any downstream task, but is it the optimal choice? We try to answer these questions for the two recent audio transformer models, Mockingjay and wave2vec2.0. We compare them on a comprehensive set of language delivery and structure features including audio, fluency and pronunciation features. Additionally, we probe the audio models' understanding of textual surface, syntax, and semantic features and compare them to BERT. We do this over exhaustive settings for native, non-native, synthetic, read and spontaneous speech datasets
翻訳日:2021-04-13 07:20:59 公開日:2021-01-02
# 離散生産における異常検出のための正規化に基づく連続学習

Regularization-based Continual Learning for Anomaly Detection in Discrete Manufacturing ( http://arxiv.org/abs/2101.00509v1 )

ライセンス: Link先を確認
Benjamin Maschler, Thi Thu Huong Pham, Michael Weyrich(参考訳) 個別の製造プロセスで発生する異常の早期かつ堅牢な検出により、オペレーターは害を防止できる。 生産機械や製品に欠陥があります データ駆動異常検出に対する現在のアプローチは、トレーニングされたプロセスの正確な結果をもたらすが、多くの場合、変更に柔軟に適応する能力に欠ける。 製品で 継続的学習はこのような柔軟性を約束し、以前の学習した知識を新しいタスクに自動適応させることができる。 そこで本論文では, 実産業用金属形成データセットに基づいて実装, 評価, 比較を行う正則化戦略群から, 連続学習アプローチについて述べる。

The early and robust detection of anomalies occurring in discrete manufacturing processes allows operators to prevent harm, e.g. defects in production machinery or products. While current approaches for data-driven anomaly detection provide good results on the exact processes they were trained on, they often lack the ability to flexibly adapt to changes, e.g. in products. Continual learning promises such flexibility, allowing for an automatic adaption of previously learnt knowledge to new tasks. Therefore, this article discusses different continual learning approaches from the group of regularization strategies, which are implemented, evaluated and compared based on a real industrial metal forming dataset.
翻訳日:2021-04-13 07:20:47 公開日:2021-01-02
# ロボットマッピング,知覚,インタラクションのためのセマンティクス:調査

Semantics for Robotic Mapping, Perception and Interaction: A Survey ( http://arxiv.org/abs/2101.00443v1 )

ライセンス: Link先を確認
Sourav Garg, Niko S\"underhauf, Feras Dayoub, Douglas Morrison, Akansel Cosgun, Gustavo Carneiro, Qi Wu, Tat-Jun Chin, Ian Reid, Stephen Gould, Peter Corke, Michael Milford(参考訳) ロボットが周囲の世界をナビゲートし、よりリッチに対話するためには、操作する世界についてより深く理解する必要があるだろう。 ロボット工学および関連する研究分野において、理解の研究はしばしば意味論(semantics)と呼ばれ、世界がロボットに何を「意味」するかを決定し、その意味をいかに表現するかという問題に強く結びついている。 人間とロボットが同じ世界で活動するようになるにつれ、人間とロボットの相互作用の展望は、自然言語のセマンティクスとオントロジをもたらす。 ニーズや、トレーニングデータや計算リソースの可用性向上などによって駆動されるセマンティックスは、ロボティクスにおける急速に成長している研究領域である。 この分野は、これまで研究文献で大きな注目を集めてきたが、ほとんどのレビューや調査は、そのトピックの特定の側面に焦点を当てている: マッピングやセグメンテーションのような特定のロボットトピックにおけるその使用に関する技術的研究問題、あるいは自動運転のような特定のアプリケーションドメインとの関連性。 それゆえ、新たな治療法が必要であり、多くの主要な調査が公表されて以来、多くの関連する研究が起きているため、タイムリーである。 この調査は、ロボット工学のセマンティクスが現在どこにあるのかを概観するスナップショットを提供する。 ロボット工学のセマンティクス研究のための分類学を確立し、セマンティクスを抽出、使用、または両方する4つの幅広い活動カテゴリに分けた。 これらの幅広いカテゴリの中で、コンピュータビジョン分野の基本や、マッピング、ナビゲーション、世界との対話など、セマンティクスを利用した重要なロボティクス研究領域を含む数十の主要なトピックを調査します。 この調査は、データアベイラビリティーの向上、計算ハードウェアの改善、そして主要なアプリケーション領域を含む、重要な実用的考慮事項もカバーしている。

For robots to navigate and interact more richly with the world around them, they will likely require a deeper understanding of the world in which they operate. In robotics and related research fields, the study of understanding is often referred to as semantics, which dictates what does the world "mean" to a robot, and is strongly tied to the question of how to represent that meaning. With humans and robots increasingly operating in the same world, the prospects of human-robot interaction also bring semantics and ontology of natural language into the picture. Driven by need, as well as by enablers like increasing availability of training data and computational resources, semantics is a rapidly growing research area in robotics. The field has received significant attention in the research literature to date, but most reviews and surveys have focused on particular aspects of the topic: the technical research issues regarding its use in specific robotic topics like mapping or segmentation, or its relevance to one particular application domain like autonomous driving. A new treatment is therefore required, and is also timely because so much relevant research has occurred since many of the key surveys were published. This survey therefore provides an overarching snapshot of where semantics in robotics stands today. We establish a taxonomy for semantics research in or relevant to robotics, split into four broad categories of activity, in which semantics are extracted, used, or both. Within these broad categories we survey dozens of major topics including fundamentals from the computer vision field and key robotics research areas utilizing semantics, including mapping, navigation and interaction with the world. The survey also covers key practical considerations, including enablers like increased data availability and improved computational hardware, and major application areas where...
翻訳日:2021-04-13 07:20:36 公開日:2021-01-02
# 病変予測のための教師なし学習と教師なし学習の併用

Combining unsupervised and supervised learning for predicting the final stroke lesion ( http://arxiv.org/abs/2101.00489v1 )

ライセンス: Link先を確認
Adriano Pinto, S\'ergio Pereira, Raphael Meier, Roland Wiest, Victor Alves, Mauricio Reyes, Carlos A.Silva(参考訳) 最終的な虚血性脳卒中病変の予測は、救済可能な低灌流組織量に関する重要な情報を提供する。 治療選択は、脳卒中病変の診断と脳血流動態のニューロイメージングによる特徴付けを必要とする臨床診断の影響を受けている。 しかし, 虚血性脳卒中後に発生する病変の大きさ, 形状, 位置, 脳の血行動態の変動から, 最終脳梗塞の予測は複雑な作業である。 さらに、脳卒中から治療までの経過時間が脳組織の喪失と関連しているため、最終脳卒中病変の評価と予測を短時間で行う必要があるため、作業はさらに複雑になる。 そのため、最終脳卒中病変を予測し、治療決定過程において医師を支援する自動的な方法が必要となる。 90日後の最終脳卒中病変を予測するために,教師なしおよび教師なし学習に基づく完全自動深層学習法を提案する。 本研究の目的は、脳卒中の最終病変の位置と範囲を予測し、その予測に影響を与える脳血流動態を考慮に入れることである。 そこで本研究では,標準パラメトリック磁気共鳴イメージングマップの異なるセットから,特殊なデータ駆動機能を備えた2分岐制限ボルツマンマシンを提案する。 これらのデータ駆動型特徴マップは、パラメトリック磁気共鳴イメージングマップと結合され、畳み込みおよびリカレントニューラルネットワークアーキテクチャに供給される。 公に入手可能なisles 2017テストデータセットについて評価を行い、サイススコア0.38、ハウスドルフ距離29.21mm、平均対称表面距離5.52mmとした。

Predicting the final ischaemic stroke lesion provides crucial information regarding the volume of salvageable hypoperfused tissue, which helps physicians in the difficult decision-making process of treatment planning and intervention. Treatment selection is influenced by clinical diagnosis, which requires delineating the stroke lesion, as well as characterising cerebral blood flow dynamics using neuroimaging acquisitions. Nonetheless, predicting the final stroke lesion is an intricate task, due to the variability in lesion size, shape, location and the underlying cerebral haemodynamic processes that occur after the ischaemic stroke takes place. Moreover, since elapsed time between stroke and treatment is related to the loss of brain tissue, assessing and predicting the final stroke lesion needs to be performed in a short period of time, which makes the task even more complex. Therefore, there is a need for automatic methods that predict the final stroke lesion and support physicians in the treatment decision process. We propose a fully automatic deep learning method based on unsupervised and supervised learning to predict the final stroke lesion after 90 days. Our aim is to predict the final stroke lesion location and extent, taking into account the underlying cerebral blood flow dynamics that can influence the prediction. To achieve this, we propose a two-branch Restricted Boltzmann Machine, which provides specialized data-driven features from different sets of standard parametric Magnetic Resonance Imaging maps. These data-driven feature maps are then combined with the parametric Magnetic Resonance Imaging maps, and fed to a Convolutional and Recurrent Neural Network architecture. We evaluated our proposal on the publicly available ISLES 2017 testing dataset, reaching a Dice score of 0.38, Hausdorff Distance of 29.21 mm, and Average Symmetric Surface Distance of 5.52 mm.
翻訳日:2021-04-13 07:20:06 公開日:2021-01-02
# クラス不均衡談話分類のためのマルチタスク学習

Multitask Learning for Class-Imbalanced Discourse Classification ( http://arxiv.org/abs/2101.00389v1 )

ライセンス: Link先を確認
Alexander Spangher, Jonathan May, Sz-rung Shiang and Lingjia Deng(参考訳) 談話分析のような多くのハイレベルなセマンティックタスクに共通する小さなクラス不均衡データセットは、現在のディープラーニングアーキテクチャに特に挑戦する。 本研究では,最近公表された最大レベルの意味談話データセットの一つであるNews Discourseデータセットに対して,文レベルの分類アプローチに関する広範な分析を行う。 マルチタスクアプローチは,タスク間のラベル補正によって,現在最先端のベンチマークで7%のマイクロF1スコアを向上できることを示す。 また, NLPにおける資源不足問題に対処するための追加手法の比較検討を行い, いずれの手法も分類精度を向上できないことを示した。

Small class-imbalanced datasets, common in many high-level semantic tasks like discourse analysis, present a particular challenge to current deep-learning architectures. In this work, we perform an extensive analysis on sentence-level classification approaches for the News Discourse dataset, one of the largest high-level semantic discourse datasets recently published. We show that a multitask approach can improve 7% Micro F1-score upon current state-of-the-art benchmarks, due in part to label corrections across tasks, which improve performance for underrepresented classes. We also offer a comparative review of additional techniques proposed to address resource-poor problems in NLP, and show that none of these approaches can improve classification accuracy in such a setting.
翻訳日:2021-04-13 07:19:35 公開日:2021-01-02
# どの言語学者が電球を発明したのか? 質問応答の前提検証

Which Linguist Invented the Lightbulb? Presupposition Verification for Question-Answering ( http://arxiv.org/abs/2101.00391v1 )

ライセンス: Link先を確認
Najoung Kim, Ellie Pavlick, Burcu Karagol Ayan, Deepak Ramachandran(参考訳) 多くのQAデータセットには解決不可能な質問が含まれているが、QAシステムでの扱いは原始的である。 自然問題(kwiatkowski et al.)の分析を行った。 2019年)データセットによると、未解決の質問のかなりの部分($21%)は、検証不可能な前提の存在に基づいて説明できる。 このような質問に対する現在のモデルの欠点を考察し,その対処方法について述べる。 ユーザの選好調査を通じて,既存のqaシステムのoracleの動作よりも,前提条件の失敗に基づく応答を提供する提案システムのoracleの動作が望ましいことを実証する。 次に,提案システムの実装方法について検討し,前提生成,前提検証,説明生成という3つのステップに分けた新しい枠組みを提案する。 本稿では,各サブプロブレムへの取り組みの進捗状況を報告するとともに,これらのステップを既存のQAシステムに統合するための予備的アプローチを提案する。 既存のモデルに前提条件と検証可能性を加えると、下流のパフォーマンスとアンサーバーサビリティ検出が緩やかに向上することがわかった。 最大のボトルネックは検証コンポーネントである。このコンポーネントは、理想的な振る舞いにアプローチするために、統合システムのために大幅に改善される必要がある。

Many Question-Answering (QA) datasets contain unanswerable questions, but their treatment in QA systems remains primitive. Our analysis of the Natural Questions (Kwiatkowski et al. 2019) dataset reveals that a substantial portion of unanswerable questions ($\sim$21%) can be explained based on the presence of unverifiable presuppositions. We discuss the shortcomings of current models in handling such questions, and describe how an improved system could handle them. Through a user preference study, we demonstrate that the oracle behavior of our proposed system that provides responses based on presupposition failure is preferred over the oracle behavior of existing QA systems. Then we discuss how our proposed system could be implemented, presenting a novel framework that breaks down the problem into three steps: presupposition generation, presupposition verification and explanation generation. We report our progress in tackling each subproblem, and present a preliminary approach to integrating these steps into an existing QA system. We find that adding presuppositions and their verifiability to an existing model yields modest gains in downstream performance and unanswerability detection. The biggest bottleneck is the verification component, which needs to be substantially improved for the integrated system to approach ideal behavior -- even transfer from the best entailment models currently falls short.
翻訳日:2021-04-13 07:19:23 公開日:2021-01-02
# ニューラル遷移モデルを用いたエンドツーエンドのセマンティックロールラベリング

End-to-end Semantic Role Labeling with Neural Transition-based Model ( http://arxiv.org/abs/2101.00394v1 )

ライセンス: Link先を確認
Hao Fei, Meishan Zhang, Bobo Li, Donghong Ji(参考訳) エンドツーエンドのセマンティックロールラベリング(SRL)が注目されている。 SRLの2つのサブタスク、述語識別と引数ロールのラベル付けを共同で行う。 最近の研究は主にグラフベースのニューラルモデルに焦点を当てているが、多くの密接に関連するタスクで広く使われているトランジションベースのニューラルネットワークフレームワークはまだ研究されていない。 本稿では、エンドツーエンドSRLのための遷移ベースニューラルネットワークの最初の研究について述べる。 我々の遷移モデルは、一連の遷移アクションによって、すべてのセンテンシャル述語とそれらの引数を漸進的に発見する。 2つのサブタスクのアクションは、完全なインタラクションのために相互に実行される。 さらに,非局所的な特徴を抽出するための高次合成を提案する。 CoNLL09とUniversal Proposition Bankの実験結果から、最終モデルは最先端の性能を生み出すことができ、一方、復号化には高い効率が保たれることが示された。 また,提案モデルの深い理解のために,詳細な実験分析を行う。

End-to-end semantic role labeling (SRL) has been received increasing interest. It performs the two subtasks of SRL: predicate identification and argument role labeling, jointly. Recent work is mostly focused on graph-based neural models, while the transition-based framework with neural networks which has been widely used in a number of closely-related tasks, has not been studied for the joint task yet. In this paper, we present the first work of transition-based neural models for end-to-end SRL. Our transition model incrementally discovers all sentential predicates as well as their arguments by a set of transition actions. The actions of the two subtasks are executed mutually for full interactions. Besides, we suggest high-order compositions to extract non-local features, which can enhance the proposed transition model further. Experimental results on CoNLL09 and Universal Proposition Bank show that our final model can produce state-of-the-art performance, and meanwhile keeps highly efficient in decoding. We also conduct detailed experimental analysis for a deep understanding of our proposed model.
翻訳日:2021-04-13 07:19:06 公開日:2021-01-02
# スーパービザレは最高ではない: 派生形態を持つ複雑な単語のBERT解釈を改善する

Superbizarre Is Not Superb: Improving BERT's Interpretations of Complex Words with Derivational Morphology ( http://arxiv.org/abs/2101.00403v1 )

ライセンス: Link先を確認
Valentin Hofmann, Janet B. Pierrehumbert, Hinrich Sch\"utze(参考訳) 事前学習言語モデル(PLM)の入力セグメンテーションは一般化能力にどのように影響しますか? 本稿では, bert をplm の例とし, 導出的に複雑な単語の意味表現に着目した最初の研究を行う。 PLMはシリアルな二重ルートモデルとして解釈可能であること、すなわち、複雑な単語の意味が格納されているか、あるいはそのサブワードから計算される必要があることを示し、これは最大意味のある入力トークンが新しい単語の最高の一般化を可能にすることを意味する。 この仮説は、導出的セグメンテーションがbertのワードピースセグメンテーションを大きく上回る一連の意味的プロビングタスクによって証明される。 入力トークンの形態的インフォームドボキャブラリを用いた場合, PLMの一般化能力はさらに向上する可能性が示唆された。

How does the input segmentation of pretrained language models (PLMs) affect their generalization capabilities? We present the first study investigating this question, taking BERT as the example PLM and focusing on the semantic representations of derivationally complex words. We show that PLMs can be interpreted as serial dual-route models, i.e., the meanings of complex words are either stored or else need to be computed from the subwords, which implies that maximally meaningful input tokens should allow for the best generalization on new words. This hypothesis is confirmed by a series of semantic probing tasks on which derivational segmentation consistently outperforms BERT's WordPiece segmentation by a large margin. Our results suggest that the generalization capabilities of PLMs could be further improved if a morphologically-info rmed vocabulary of input tokens were used.
翻訳日:2021-04-13 07:18:50 公開日:2021-01-02
# サブストラクチャー代替:NLPのための構造化データ拡張

Substructure Substitution: Structured Data Augmentation for NLP ( http://arxiv.org/abs/2101.00411v1 )

ライセンス: Link先を確認
Haoyue Shi, Karen Livescu, Kevin Gimpel(参考訳) 本研究では,自然言語処理(NLP)タスクのためのデータ拡張手法であるサブ構造置換(SUB2)のファミリーについて検討する。 SUB2は、サブ構造(サブツリーやサブシーケンスなど)を同じラベルのサブ構造に置換することで、新しい例を生成する。 明示的に注釈付けされた部分構造を持たないより一般的なタスク(例えばテキスト分類)については、一般のNLPタスクに構造対応データ拡張手法を導入し、選挙区解析木に基づくSUB2のバリエーションを示す。 ほとんどの場合、SUB2による強化データセットによるトレーニングは、元のトレーニングセットでのトレーニングよりも優れたパフォーマンスを達成する。 さらなる実験により、SUB2はシードデータセットのさまざまなタスクとサイズで、他の調査された拡張メソッドよりも一貫性のある性能を示している。

We study a family of data augmentation methods, substructure substitution (SUB2), for natural language processing (NLP) tasks. SUB2 generates new examples by substituting substructures (e.g., subtrees or subsequences) with ones with the same label, which can be applied to many structured NLP tasks such as part-of-speech tagging and parsing. For more general tasks (e.g., text classification) which do not have explicitly annotated substructures, we present variations of SUB2 based on constituency parse trees, introducing structure-aware data augmentation methods to general NLP tasks. For most cases, training with the augmented dataset by SUB2 achieves better performance than training with the original training set. Further experiments show that SUB2 has more consistent performance than other investigated augmentation methods, across different tasks and sizes of the seed dataset.
翻訳日:2021-04-13 07:18:34 公開日:2021-01-02
# 時間語彙領域適応によるニューラルネットワーク翻訳

Decoding Time Lexical Domain Adaptationfor Neural Machine Translation ( http://arxiv.org/abs/2101.00421v1 )

ライセンス: Link先を確認
Nikolay Bogoychev and Pinzhen Chen(参考訳) 機械翻訳システムは、特に低リソースのタスクの場合、ドメインミスマッチに対して脆弱である。 この設定では、ドメイン内翻訳はしばしば品質が悪く幻覚を起こしやすいが、これは訓練中に見た一般的な単語を予測することを好む翻訳モデルのためであり、異なるドメインのより一般的でない翻訳とは対照的である。 まず,ibmモデル計算アライメントによるニューラルネットワークの予測を制限するために,語彙的短縮リストを用いる。 次に、互いに重なり合う量に基づいて全ての翻訳を並べ替えることで、n$-bestリストの順序付けを行います。 提案手法は,他の手法よりも計算がシンプルで高速であり,ドメインテストセットの明示的な外付けで低リソース設定を適度に成功させることを示す。 しかし、ドメインミスマッチが大きすぎる場合やリソース設定が高すぎる場合、我々のメソッドは効果を失います。

Machine translation systems are vulnerable to domain mismatch, especially when the task is low-resource. In this setting, out of domain translations are often of poor quality and prone to hallucinations, due to the translation model preferring to predict common words it has seen during training, as opposed to the more uncommon ones from a different domain. We present two simple methods for improving translation quality in this particular setting: First, we use lexical shortlisting in order to restrict the neural network predictions by IBM model computed alignments. Second, we perform $n$-best list reordering by reranking all translations based on the amount they overlap with each other. Our methods are computationally simpler and faster than alternative approaches, and show a moderate success on low-resource settings with explicit out of domain test sets. However, our methods lose their effectiveness when the domain mismatch is too great, or in high resource setting.
翻訳日:2021-04-13 07:18:18 公開日:2021-01-02
# 強調する学習:プレゼンテーションスライドにおける強調選択のためのデータセットと共有タスクモデル

Learning to Emphasize: Dataset and Shared Task Models for Selecting Emphasis in Presentation Slides ( http://arxiv.org/abs/2101.03237v1 )

ライセンス: Link先を確認
Amirreza Shirani, Giai Tran, Hieu Trinh, Franck Dernoncourt, Nedim Lipka, Paul Asente, Jose Echevarria, and Thamar Solorio(参考訳) プレゼンテーションスライドは教材に共通する付加物となっている。 プレゼンテーションスライドで強力なリードワードを強調することで、聴衆はスライド全体を読むのではなく、特定の焦点に目を向けることができ、プレゼンテーション中にスピーカーに注意を向けることができます。 自動スライド生成に関する多くの研究にもかかわらず、作成過程における設計支援の自動化に関する研究はほとんどない。 この需要に動機づけられ、プレゼンテーションスライドにおける強調選択(es)の問題、すなわち強調する候補を選ぶ問題を、様々なトピックのプレゼンテーションスライドを含む新しいデータセットを導入し、クラウドソースされた設定で強調語をアノテートする。 共有タスクを編成し、複数の研究者にこの新しい領域に重きを置くように促すことにより、この新しいデータセットに関する最先端のモデルの範囲を評価した。 本研究は,これらのモデルの主な知見を提示し,それらの結果を比較し,データセットの課題を調べることにより,異なる分析成分を提供する。

Presentation slides have become a common addition to the teaching material. Emphasizing strong leading words in presentation slides can allow the audience to direct the eye to certain focal points instead of reading the entire slide, retaining the attention to the speaker during the presentation. Despite a large volume of studies on automatic slide generation, few studies have addressed the automation of design assistance during the creation process. Motivated by this demand, we study the problem of Emphasis Selection (ES) in presentation slides, i.e., choosing candidates for emphasis, by introducing a new dataset containing presentation slides with a wide variety of topics, each is annotated with emphasis words in a crowdsourced setting. We evaluate a range of state-of-the-art models on this novel dataset by organizing a shared task and inviting multiple researchers to model emphasis in this new domain. We present the main findings and compare the results of these models, and by examining the challenges of the dataset, we provide different analysis components.
翻訳日:2021-04-13 07:18:02 公開日:2021-01-02
# 圧縮ビデオにおけるビデオキャプション

Video Captioning in Compressed Video ( http://arxiv.org/abs/2101.00359v1 )

ライセンス: Link先を確認
Mingjian Zhu, Chenrui Duan, Changbin Yu(参考訳) ビデオキャプションにおける既存のアプローチは、未圧縮ビデオにおけるグローバルフレーム機能の検討に集中しているが、圧縮ビデオで既にエンコードされている無償とクリティカルなサリエンシー情報は一般的に無視されている。 本稿では,保存された圧縮映像を直接操作する映像キャプション手法を提案する。 映像キャプションのための識別的視覚表現を学習するために,残像フレームの助けを借りてIフレームへの関心領域を検出する残像支援エンコーダ (RAE) を設計する。 まず,i-frameにおける各位置のサリエンシー値として残差の特徴を抽出し,注意重みを洗練するための空間注意モジュールを設計することにより,空間注意重みを求める。 さらに,圧縮ビデオにおけるノイズ信号の乱れを抑えるために,付随する特徴がキャプション生成にどの程度寄与するかを決定するための時間ゲートモジュールを提案する。 最後に、Long Short-Term Memoryを使用して視覚表現を記述にデコードする。 本手法を2つのベンチマークデータセットで評価し,本手法の有効性を示す。

Existing approaches in video captioning concentrate on exploring global frame features in the uncompressed videos, while the free of charge and critical saliency information already encoded in the compressed videos is generally neglected. We propose a video captioning method which operates directly on the stored compressed videos. To learn a discriminative visual representation for video captioning, we design a residuals-assisted encoder (RAE), which spots regions of interest in I-frames under the assistance of the residuals frames. First, we obtain the spatial attention weights by extracting features of residuals as the saliency value of each location in I-frame and design a spatial attention module to refine the attention weights. We further propose a temporal gate module to determine how much the attended features contribute to the caption generation, which enables the model to resist the disturbance of some noisy signals in the compressed videos. Finally, Long Short-Term Memory is utilized to decode the visual representations into descriptions. We evaluate our method on two benchmark datasets and demonstrate the effectiveness of our approach.
翻訳日:2021-04-13 07:17:46 公開日:2021-01-02
# 不確かさに敏感な活動認識:信頼性ベンチマークとキャリングモデル

Uncertainty-sensitiv e Activity Recognition: a Reliability Benchmark and the CARING Models ( http://arxiv.org/abs/2101.00468v1 )

ライセンス: Link先を確認
Alina Roitberg, Monica Haurilet, Manuel Martinez and Rainer Stiefelhagen(参考訳) 正しいクラスを割り当てる以外に、アクティビティ認識モデルは、その予測にどの程度の確証があるかを判断できる必要があります。 本稿では、現代の行動認識アーキテクチャの信頼度が正しい結果の確率を実際に反映することを示す最初の研究を行い、それを改善するための学習に基づくアプローチを提案する。 まず,2つの一般的な行動認識データセットを,期待される校正誤差と信頼性図を用いて信頼性ベンチマークで拡張する。 本評価では,標準動作認識アーキテクチャの信頼性値が不確かさをよく表さないことを強調しているので,新たなキャリブレーションネットワークを通じてモデル出力を現実的な信頼度推定に変換する手法を提案する。 CARING(Callibrated Action Recognition with Input Guidance)モデルの主な考え方は、ビデオ表現に依存する最適なスケーリングパラメータを学習することである。 本モデルとネイティブな行動認識ネットワークと温度スケーリング手法を比較し,画像分類に応用した広汎なキャリブレーション手法を提案する。 温度スケーリングだけで信頼性値の信頼性が大幅に向上する一方、我々のCARing法は、全てのベンチマーク設定において、常に最良の不確実性推定結果をもたらす。

Beyond assigning the correct class, an activity recognition model should also be able to determine, how certain it is in its predictions. We present the first study of how welthe confidence values of modern action recognition architectures indeed reflect the probability of the correct outcome and propose a learning-based approach for improving it. First, we extend two popular action recognition datasets with a reliability benchmark in form of the expected calibration error and reliability diagrams. Since our evaluation highlights that confidence values of standard action recognition architectures do not represent the uncertainty well, we introduce a new approach which learns to transform the model output into realistic confidence estimates through an additional calibration network. The main idea of our Calibrated Action Recognition with Input Guidance (CARING) model is to learn an optimal scaling parameter depending on the video representation. We compare our model with the native action recognition networks and the temperature scaling approach - a wide spread calibration method utilized in image classification. While temperature scaling alone drastically improves the reliability of the confidence values, our CARING method consistently leads to the best uncertainty estimates in all benchmark settings.
翻訳日:2021-04-13 07:17:12 公開日:2021-01-02
# エッジ畳み込みニューラルネットワークを用いた点雲の回転不変表現の学習

Learning Rotation-Invariant Representations of Point Clouds Using Aligned Edge Convolutional Neural Networks ( http://arxiv.org/abs/2101.00483v1 )

ライセンス: Link先を確認
Junming Zhang, Ming-Yuan Yu, Ram Vasudevan, Matthew Johnson-Roberson(参考訳) ポイントクラウド分析は、シーンの深さを正確に測定できる3Dセンサーの開発によって、関心が高まる分野である。 残念ながら、これらの手法が目に見えない回転に一般化できないため、点雲解析にディープラーニング技術を適用することは簡単ではない。 この制限に対処するためには通常、トレーニングデータを増強する必要がある。 本稿では,局所参照フレーム(LRF)に対する点雲の特徴表現を学習し,回転の不変性を保証するニューラルネットワークであるAligned Edge Convolutional Neural Network (AECNN)を提案する。 特に、特徴は局所的に学習され、自動的に計算された基準点のLRFに対して整列される。 提案手法は,ポイントクラウド分類と部分分割タスクで評価される。 提案手法は, 付加的なデータ拡張を必要とせず, 回転の堅牢性の観点から, 各種技術(強化データセットで訓練した者でさえ)の諸特性に優れることを示す。

Point cloud analysis is an area of increasing interest due to the development of 3D sensors that are able to rapidly measure the depth of scenes accurately. Unfortunately, applying deep learning techniques to perform point cloud analysis is non-trivial due to the inability of these methods to generalize to unseen rotations. To address this limitation, one usually has to augment the training data, which can lead to extra computation and require larger model complexity. This paper proposes a new neural network called the Aligned Edge Convolutional Neural Network (AECNN) that learns a feature representation of point clouds relative to Local Reference Frames (LRFs) to ensure invariance to rotation. In particular, features are learned locally and aligned with respect to the LRF of an automatically computed reference point. The proposed approach is evaluated on point cloud classification and part segmentation tasks. This paper illustrates that the proposed technique outperforms a variety of state of the art approaches (even those trained on augmented datasets) in terms of robustness to rotation without requiring any additional data augmentation.
翻訳日:2021-04-13 07:16:52 公開日:2021-01-02
# 真実: テキスト生成における陰謀論の調査

The Truth is Out There: Investigating Conspiracy Theories in Text Generation ( http://arxiv.org/abs/2101.00379v1 )

ライセンス: Link先を確認
Sharon Levy, Michael Saxon, William Yang Wang(参考訳) 現代社会におけるテキスト生成モデルの普及に伴い、ユーザーはますます機械生成テキストに曝されている。 これにより、陰謀論のような有害な情報の発生に対してユーザーを脆弱にすることができる。 ソーシャルメディアによる陰謀論の伝播は研究されているが、以前の研究はテキスト生成による拡散を評価していない。 本研究では,共謀理論テキストを生成する言語モデルの妥当性について検討する。 本研究は,これらのモデルを用いて陰謀論を解明し,redditの人文的理論と比較することに焦点を当てた。 また,共謀説,機械生成共謀説,人文共謀説からなる新たなデータセットも紹介する。 我々の実験は、多くの有名な陰謀論のトピックが事前訓練された言語モデルに深く根付いており、異なるモデル設定によってより普及していることを示している。

With the growing adoption of text generation models in today's society, users are increasingly exposed to machine-generated text. This in turn can leave users vulnerable to the generation of harmful information such as conspiracy theories. While the propagation of conspiracy theories through social media has been studied, previous work has not evaluated their diffusion through text generation. In this work, we investigate the propensity for language models to generate conspiracy theory text. Our study focuses on testing these models for the elicitation of conspiracy theories and comparing these generations to human-written theories from Reddit. We also introduce a new dataset consisting of conspiracy theory topics, machine-generated conspiracy theories, and human-written conspiracy theories. Our experiments show that many well-known conspiracy theory topics are deeply rooted in the pre-trained language models, and can become more prevalent through different model settings.
翻訳日:2021-04-13 07:16:34 公開日:2021-01-02
# VoxPopuli: 表現学習,半教師付き学習,解釈のための大規模多言語音声コーパス

VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation ( http://arxiv.org/abs/2101.00390v1 )

ライセンス: Link先を確認
Changhan Wang, Morgane Rivi\`ere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Pino, Emmanuel Dupoux(参考訳) 提案するvoxpopuliは,23言語で10万時間分のラベルなし音声データを提供する大規模多言語コーパスである。 教師なし表現学習や半教師なし学習にとって、これまでで最大のオープンデータである。 また、VoxPopuliには16の言語で1.8Kの音声が書き起こされ、その口頭での解釈は5.1K時間である。 半教師付き学習におけるvoxpopuli unlabelledデータの汎用性を,領域外設定で検証する音声認識ベースラインを提供する。 コーパスはhttps://github.com/f acebookresearch/voxp opuliで公開します。

We introduce VoxPopuli, a large-scale multilingual corpus providing 100K hours of unlabelled speech data in 23 languages. It is the largest open data to date for unsupervised representation learning as well as semi-supervised learning. VoxPopuli also contains 1.8K hours of transcribed speeches in 16 languages and their aligned oral interpretations into 5 other languages totaling 5.1K hours. We provide speech recognition baselines and validate the versatility of VoxPopuli unlabelled data in semi-supervised learning under challenging out-of-domain settings. We will release the corpus at https://github.com/f acebookresearch/voxp opuli under an open license.
翻訳日:2021-04-13 07:16:20 公開日:2021-01-02
# 非定常環境におけるコンテキスト対応型安全強化学習

Context-Aware Safe Reinforcement Learning for Non-Stationary Environments ( http://arxiv.org/abs/2101.00531v1 )

ライセンス: Link先を確認
Baiming Chen, Zuxin Liu, Jiacheng Zhu, Mengdi Xu, Wenhao Ding, Ding Zhao(参考訳) 現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。 近年,安全性制約違反を回避しつつ,エージェントの性能を最適化する安全強化学習アルゴリズムが開発されている。 しかし、環境の非定常的障害に対処する研究はほとんどなく、破滅的な結果をもたらす可能性がある。 本稿では,非定常環境における安全な適応を実現するためのメタ学習フレームワークCASRL法を提案する。 本研究では、確率的潜在変数モデルを用いて、文脈データから後環境遷移分布を高速に推定する。 安全制約は不確実性を考慮した軌道サンプリングによって評価される。 安全性違反のコストが高いため、データセット内の安全でないレコードは稀である。 モデルトレーニング中に優先度付きサンプリングを有効にし、制約付き計画中にドメイン知識を用いて事前安全制約を定式化することでこの問題に対処する。 このアルゴリズムは、非定常障害を伴う現実的な安全クリティカル環境において評価される。 提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。

Safety is a critical concern when deploying reinforcement learning agents for realistic tasks. Recently, safe reinforcement learning algorithms have been developed to optimize the agent's performance while avoiding violations of safety constraints. However, few studies have addressed the non-stationary disturbances in the environments, which may cause catastrophic outcomes. In this paper, we propose the context-aware safe reinforcement learning (CASRL) method, a meta-learning framework to realize safe adaptation in non-stationary environments. We use a probabilistic latent variable model to achieve fast inference of the posterior environment transition distribution given the context data. Safety constraints are then evaluated with uncertainty-aware trajectory sampling. The high cost of safety violations leads to the rareness of unsafe records in the dataset. We address this issue by enabling prioritized sampling during model training and formulating prior safety constraints with domain knowledge during constrained planning. The algorithm is evaluated in realistic safety-critical environments with non-stationary disturbances. Results show that the proposed algorithm significantly outperforms existing baselines in terms of safety and robustness.
翻訳日:2021-04-13 07:16:10 公開日:2021-01-02
# 幸せな人は、それを知る: 幸せと悲しみの論理...

If You're Happy, Then You Know It: The Logic of Happiness... and Sadness ( http://arxiv.org/abs/2101.00485v1 )

ライセンス: Link先を確認
Sanaz Azimipour and Pavel Naumov(参考訳) 本稿では不完全な情報設定における幸福と悲しみの形式的意味論を提案する。 これらのモジュラリティは互いに定義できないことを示し、音を与え、それらの性質の完全な公理化を与える。

The article proposes a formal semantics of happiness and sadness modalities in imperfect information setting. It shows that these modalities are not definable through each other and gives a sound and complete axiomatization of their properties.
翻訳日:2021-04-13 07:15:55 公開日:2021-01-02
# 逆機械学習によるマルウェア防御のためのDGAに基づく悪意ドメイン分類器の改良

Improving DGA-Based Malicious Domain Classifiers for Malware Defense with Adversarial Machine Learning ( http://arxiv.org/abs/2101.00521v1 )

ライセンス: Link先を確認
Ibrahim Yilmaz, Ambareen Siraj, Denis Ulybyshev(参考訳) ドメイン生成アルゴリズム(DGA)は、サイバー攻撃中にコマンド・アンド・コントロール(C\&C)サーバー通信を確立するために敵によって使用される。 既知の/同定されたC\&Cドメインのブラックリストは、しばしば防御メカニズムの1つとして使用される。 しかし、ブラックリストは静的であり、シグネチャベースのアプローチによって生成されるため、悪質なドメイン名を維持することも検出することもできない。 このブラックリストドメインチェックの欠点のため、機械学習アルゴリズムはこの問題にある程度対処するために使われてきた。 しかし、限られたデータセットでトレーニングを行う場合、アルゴリズムは新しいDGA変種を検出するのに失敗する可能性が高い。 この弱点を緩和するため,我々は長短期メモリ(LSTM)法を用いてDGAベースの悪意のあるドメイン分類器を新しい特徴工学手法で適用した。 本モデルの性能は,先行研究で報告したモデルと比較して高い精度を示す。 さらに,この点において機械学習アルゴリズムの欠点を説明できるマルウェア関連ドメインファミリーを生成するために,敵対的機械学習を用いた新しい手法を提案する。 次に、トレーニングデータセットを新しいサンプルで強化し、機械学習モデルのトレーニングをより効果的にすることで、予期せぬ悪意のあるドメイン名変種を検出する。 最後に、悪意のあるドメイン名のブラックリストを開示や改ざんから保護するために、ブラックリストを格納し、敵のアクセスや修正に対する保護を保証するセキュアなデータコンテナを考案する。

Domain Generation Algorithms (DGAs) are used by adversaries to establish Command and Control (C\&C) server communications during cyber attacks. Blacklists of known/identified C\&C domains are often used as one of the defense mechanisms. However, since blacklists are static and generated by signature-based approaches, they can neither keep up nor detect never-seen-before malicious domain names. Due to this shortcoming of blacklist domain checking, machine learning algorithms have been used to address the problem to some extent. However, when training is performed with limited datasets, the algorithms are likely to fail in detecting new DGA variants. To mitigate this weakness, we successfully applied a DGA-based malicious domain classifier using the Long Short-Term Memory (LSTM) method with a novel feature engineering technique. Our model's performance shows a higher level of accuracy compared to a previously reported model from prior research. Additionally, we propose a new method using adversarial machine learning to generate never-before-seen malware-related domain families that can be used to illustrate the shortcomings of machine learning algorithms in this regard. Next, we augment the training dataset with new samples such that it makes training of the machine learning models more effective in detecting never-before-seen malicious domain name variants. Finally, to protect blacklists of malicious domain names from disclosure and tampering, we devise secure data containers that store blacklists and guarantee their protection against adversarial access and modifications.
翻訳日:2021-04-13 07:15:52 公開日:2021-01-02
# 現代テキスト処理ツールにおける絵文字の利用評価

Assessing Emoji Use in Modern Text Processing Tools ( http://arxiv.org/abs/2101.00430v1 )

ライセンス: Link先を確認
Abu Awal Md Shoeb and Gerard de Melo(参考訳) 絵文字は、その視覚的な魅力と、人間の感情を鮮明に伝える能力によって、デジタルコミュニケーションにおいてユビキタスになってきている。 ソーシャルメディアや他のインスタントメッセージングにおける絵文字の普及は、絵文字を含むテキストを操作するシステムやツールの必要性も高まっている。 本研究では,絵文字を用いたツイートのテストセットを検討することで,このサポートを評価する。そこでは,著名なnlpおよびテキスト処理ツールが適切に処理できるかどうかについて,一連の実験を行う。 特に、トークン化、音声タグ付け、感情分析について検討する。 以上の結果から,絵文字を含むテキストで操作する場合,多くのツールに目立った欠点があることがわかった。

Emojis have become ubiquitous in digital communication, due to their visual appeal as well as their ability to vividly convey human emotion, among other factors. The growing prominence of emojis in social media and other instant messaging also leads to an increased need for systems and tools to operate on text containing emojis. In this study, we assess this support by considering test sets of tweets with emojis, based on which we perform a series of experiments investigating the ability of prominent NLP and text processing tools to adequately process them. In particular, we consider tokenization, part-of-speech tagging, as well as sentiment analysis. Our findings show that many tools still have notable shortcomings when operating on text containing emojis.
翻訳日:2021-04-13 07:15:28 公開日:2021-01-02
# 視覚的高次元仮説テスト

Visual High Dimensional Hypothesis Testing ( http://arxiv.org/abs/2101.00362v1 )

ライセンス: Link先を確認
Xi Yang, Jan Hannig, J.S. Marron(参考訳) 高次元データの既知のクラスに関する探索データ分析では、どのクラスがどの程度異なるのかが中心的な疑問である。 Direction Projection Permutation (DiProPerm)仮説テスト(英語版)は、データの視覚的分析と直接接続されたそれに対する回答を提供する。 本稿では,オリジナル版の3つの課題を解決する改良されたDiProPermテストを提案する。 まず、強い信号を持つデータのテスト能力を高めるために、バランスの取れた置換のみを実装する。 第2に、我々の数学的解析は、バランスと従来の全置換の両方のヌル挙動を補正する調整につながる。 第三に、異なる文脈における結果の比較のために、テスト重要度に対する新しい信頼区間(置換変動の反射)も提案されている。 このDiProPerm推論の改善は、The Cancer Genome Atlasの例でがんのタイプを比較する文脈で説明されている。

In exploratory data analysis of known classes of high dimensional data, a central question is how distinct are the classes? The Direction Projection Permutation (DiProPerm) hypothesis test provides an answer to this that is directly connected to a visual analysis of the data. In this paper, we propose an improved DiProPerm test that solves 3 major challenges of the original version. First, we implement only balanced permutations to increase the test power for data with strong signals. Second, our mathematical analysis leads to an adjustment to correct the null behavior of both balanced and the conventional all permutations. Third, new confidence intervals (reflecting permutation variation) for test significance are also proposed for comparison of results across different contexts. This improvement of DiProPerm inference is illustrated in the context of comparing cancer types in examples from The Cancer Genome Atlas.
翻訳日:2021-04-13 07:15:18 公開日:2021-01-02
# 箱をより大きな箱に詰め込む空間的な定式化

A space-indexed formulation of packing boxes into a larger box ( http://arxiv.org/abs/2101.00441v1 )

ライセンス: Link先を確認
Sam D. Allen and Edmund K.Burke and Jakub Marecek(参考訳) 現在の整数プログラミングソルバは、chen/padbergの自然な緩和を用いて、1時間以内に12個の単位キューブを1x1x11ボックスに詰め込むことはできない。 箱を大きな箱に詰め込むという問題を、別の緩和策として提示することで、はるかに大きなインスタンスを解決できるようにします。

Current integer programming solvers fail to decide whether 12 unit cubes can be packed into a 1x1x11 box within an hour using the natural relaxation of Chen/Padberg. We present an alternative relaxation of the problem of packing boxes into a larger box, which makes it possible to solve much larger instances.
翻訳日:2021-04-13 07:15:04 公開日:2021-01-02
# CryoNuSeg:Cryosectio ned H&E-Stained Histological ImageのNuclei Instance Segmentationのためのデータセット

CryoNuSeg: A Dataset for Nuclei Instance Segmentation of Cryosectioned H&E-Stained Histological Images ( http://arxiv.org/abs/2101.00442v1 )

ライセンス: Link先を確認
Amirreza Mahbod, Gerald Schaefer, Benjamin Bancher, Christine L\"ow, Georg Dorffner, Rupert Ecker, Isabella Ellinger(参考訳) 核インスタンスセグメンテーションは、ヘマトキシリンとエオシン(H&E)染色画像の解析において重要な役割を果たす。 教師付きディープラーニング(DL)ベースのアプローチは、自動核インスタンスセグメンテーションの最先端を表現しているが、これらのモデルのトレーニングには注釈付きデータセットが必要である。 組織処理プロトコルには、ホルマリン固定パラフィン埋め込みサンプル(FFPE)と凍結組織サンプル(FS)の2種類がある。 FFPE由来のH&E染色組織は最も広く用いられている標本であるが,FS試料由来の凍結した部位のH&E染色は術中手術において,高速に行うことができるため重要な方法である。 これらの2種類のサンプルのプロトコルが異なるため、得られた画像と、特に核の外観は、取得した全スライド画像で異なる可能性がある。 FS領域の高速な調製, 染色, 走査により, 画質が劣化する可能性があるため, H&E染色画像の解析は困難である。 本稿では,fs-from cryosectioned および h&e-stained nuclei instance segmentation データセットである cryonuseg について述べる。 データセットには、他の公開データセットでは利用されていない10の人間の臓器の画像が含まれており、オブザーバ内およびオブザーバ間変動を測定するための3つの手動マークアップが提供されている。 さらに, 組織固定・埋め込みプロトコル(FSまたはFFPE)が, 最先端のDLアプローチの1つの自動核インスタンス分割性能に及ぼす影響について検討した。 また、将来の研究で使用できるデータセットのベースラインセグメンテーションベンチマークを作成します。 データセットやデータセット、その他の詳細な情報はhttps://github.com/m asih4/cryonuseg.comの同僚研究者に提供されている。

Nuclei instance segmentation plays an important role in the analysis of Hematoxylin and Eosin (H&E)-stained images. While supervised deep learning (DL)-based approaches represent the state-of-the-art in automatic nuclei instance segmentation, annotated datasets are required to train these models. There are two main types of tissue processing protocols, namely formalin-fixed paraffin-embedded samples (FFPE) and frozen tissue samples (FS). Although FFPE-derived H&E stained tissue sections are the most widely used samples, H&E staining on frozen sections derived from FS samples is a relevant method in intra-operative surgical sessions as it can be performed fast. Due to differences in the protocols of these two types of samples, the derived images and in particular the nuclei appearance may be different in the acquired whole slide images. Analysis of FS-derived H&E stained images can be more challenging as rapid preparation, staining, and scanning of FS sections may lead to deterioration in image quality. In this paper, we introduce CryoNuSeg, the first fully annotated FS-derived cryosectioned and H&E-stained nuclei instance segmentation dataset. The dataset contains images from 10 human organs that were not exploited in other publicly available datasets, and is provided with three manual mark-ups to allow measuring intra-observer and inter-observer variability. Moreover, we investigate the effects of tissue fixation/embedding protocol (i.e., FS or FFPE) on the automatic nuclei instance segmentation performance of one of the state-of-the-art DL approaches. We also create a baseline segmentation benchmark for the dataset that can be used in future research. A step-by-step guide to generate the dataset as well as the full dataset and other detailed information are made available to fellow researchers at https://github.com/m asih4/CryoNuSeg.
翻訳日:2021-04-13 07:14:20 公開日:2021-01-02
# 脳腫瘍セグメンテーションのための多段階深層凝集法

Multi-stage Deep Layer Aggregation for Brain Tumor Segmentation ( http://arxiv.org/abs/2101.00490v1 )

ライセンス: Link先を確認
Carlos A. Silva, Adriano Pinto, S\'ergio Pereira, and Ana Lopes(参考訳) グリオーマは最も攻撃的で致命的な脳腫瘍である。 本稿では,磁気共鳴画像を用いた脳腫瘍分割のための深層ニューラルネットワークアーキテクチャについて述べる。 アーキテクチャは、3つのディープ層アグリゲーションニューラルネットワークのカスケードで構成されており、各ステージは特徴マップと前のステージの確率を使って応答を詳細に記述し、mriチャネルを入力として使用する。 神経画像データは、BraTS 2020チャレンジデータセットの一部として公開されており、BraTS 2020 Validation and Test Setで提案した提案を評価した。 実験では, 腫瘍, コア腫瘍, 造影腫瘍全例に対して, 0.8858, 0.8297, 0.7900, ハウスドルフ距離 5.32 mm, 22.32 mm, 20.44 mmのdiceスコアを得た。

Gliomas are among the most aggressive and deadly brain tumors. This paper details the proposed Deep Neural Network architecture for brain tumor segmentation from Magnetic Resonance Images. The architecture consists of a cascade of three Deep Layer Aggregation neural networks, where each stage elaborates the response using the feature maps and the probabilities of the previous stage, and the MRI channels as inputs. The neuroimaging data are part of the publicly available Brain Tumor Segmentation (BraTS) 2020 challenge dataset, where we evaluated our proposal in the BraTS 2020 Validation and Test sets. In the Test set, the experimental results achieved a Dice score of 0.8858, 0.8297 and 0.7900, with an Hausdorff Distance of 5.32 mm, 22.32 mm and 20.44 mm for the whole tumor, core tumor and enhanced tumor, respectively.
翻訳日:2021-04-13 07:13:48 公開日:2021-01-02
# 四元数高次特異値分解とそのカラー画像処理への応用

Quaternion higher-order singular value decomposition and its applications in color image processing ( http://arxiv.org/abs/2101.00364v1 )

ライセンス: Link先を確認
Jifei Miao and Kit Ian Kou(参考訳) 高次特異値分解(HOSVD)は、最も効率的なテンソル分解手法の一つである。 高い次元のデータを表現し、特徴を抽出することができる。 近年では、四元数はカラーチャネルのクロスチャネル相関を保存できるため、カラーピクセル表現に非常に適したツールであることが証明されている。 本稿では,HOSVDと四元数ツールの利点を活かして,HOSVDを四元数ドメインに一般化し,四元数ベースのHOSVD(QHOSVD)を定義する。 四元数乗算の非可換性のため、QHOSVD は HOSVD の自明な拡張ではない。 計算手順は似ているが異なる。 定義されたQHOSVDは、カラーピクセルを用いた様々な視覚データ処理で広く利用することができる。 本稿では,カラー画像処理における定義されたqhosvdの2つの応用について述べる。 この2つの応用実験の結果は,提案手法の既存手法に対する競合性能をそれぞれ示すものである。

Higher-order singular value decomposition (HOSVD) is one of the most efficient tensor decomposition techniques. It has the salient ability to represent high_dimensional data and extract features. In more recent years, the quaternion has proven to be a very suitable tool for color pixel representation as it can well preserve cross-channel correlation of color channels. Motivated by the advantages of the HOSVD and the quaternion tool, in this paper, we generalize the HOSVD to the quaternion domain and define quaternion-based HOSVD (QHOSVD). Due to the non-commutability of quaternion multiplication, QHOSVD is not a trivial extension of the HOSVD. They have similar but different calculation procedures. The defined QHOSVD can be widely used in various visual data processing with color pixels. In this paper, we present two applications of the defined QHOSVD in color image processing: multi_focus color image fusion and color image denoising. The experimental results on the two applications respectively demonstrate the competitive performance of the proposed methods over some existing ones.
翻訳日:2021-04-13 07:13:32 公開日:2021-01-02
# ニュータイプホッフディングの不等式とテール境界への応用

New-Type Hoeffding's Inequalities and Application in Tail Bounds ( http://arxiv.org/abs/2101.00360v1 )

ライセンス: Link先を確認
Pingyi Fan(参考訳) ホッフディングの不等式が信号処理や情報処理の分野で多くの応用があることはよく知られている。 どのようにhoeffdingの不平等を改善し、そのアプリケーションの改良を見出すかは、常に多くの注目を集めている。 ホッフィング不等式の改善は、最近 hertz \cite{r1} によって与えられた。 このような改善はそれほど大きくないが、オリジナルのホーフディングの不平等、特にマーチンガルのホーフディング-東の不平等で多くの既知の結果の更新に使用できる。 しかし、ホッフィングの不等式とヘルツによる改良の結果は、確率変数の第一次モーメントのみを考慮したものであった。 本稿では,確率変数の高次モーメントを考慮したHoeffdingの不等式について述べる。 既知の結果と比較して、テールバウンドの評価が大幅に改善される可能性がある。 新たに開発されたHoeffdingの不等式は、Hoeffdingの結果を使用するいくつかの関連分野においてより興味深い応用が期待できる。

It is well known that Hoeffding's inequality has a lot of applications in the signal and information processing fields. How to improve Hoeffding's inequality and find the refinements of its applications have always attracted much attentions. An improvement of Hoeffding inequality was recently given by Hertz \cite{r1}. Eventhough such an improvement is not so big, it still can be used to update many known results with original Hoeffding's inequality, especially for Hoeffding-Azuma inequality for martingales. However, the results in original Hoeffding's inequality and its refinement one by Hertz only considered the first order moment of random variables. In this paper, we present a new type of Hoeffding's inequalities, where the high order moments of random variables are taken into account. It can get some considerable improvements in the tail bounds evaluation compared with the known results. It is expected that the developed new type Hoeffding's inequalities could get more interesting applications in some related fields that use Hoeffding's results.
翻訳日:2021-04-13 07:13:18 公開日:2021-01-02
# DEVI:インタラクティブレセプタリストシステムのためのオープンソースのヒューマンロボットインタフェース

DEVI: Open-source Human-Robot Interface for Interactive Receptionist Systems ( http://arxiv.org/abs/2101.00479v1 )

ライセンス: Link先を確認
Ramesha Karunasena, Piumi Sandarenu, Madushi Pinto, Achala Athukorala, Ranga Rodrigo, Peshala Jayasekara(参考訳) 社会的スキルを備えたヒューマンロボットインタフェースとして機能するヒューマノイドロボットは、日々の活動の多くを支援できる。 受容主義ロボットは、社会的スキルと外観が最重要となるアプリケーションである。 既存のロボット受信システムは高いコストを被り、ロボット研究者のさらなる開発のために内部アーキテクチャを開示していない。 さらに、特定のアプリケーション向けにデプロイされるカスタマイズ可能なオープンソースのロボット受信フレームワークは存在しない。 そこで,本稿では,オープンソースのロボット受話器知能コアであるdevi(means 'lady' in sinhala)について紹介する。 また,本論文では,DEVIシステムを用いた物理ロボットのプロトタイプ実装について詳述する。 ロボットは、物理的ジェスチャーによる方向案内を行い、音声認識と合成システムを使って基本的な質問に答え、顔認識を使って既知の人々を認識して挨拶し、自己学習ニューラルネットワークを使用してデータベースに新しい人を登録することができる。 DEVIを用いて行った実験は,提案方式の有効性を示した。

Humanoid robots that act as human-robot interfaces equipped with social skills can assist people in many of their daily activities. Receptionist robots are one such application where social skills and appearance are of utmost importance. Many existing robot receptionist systems suffer from high cost and they do not disclose internal architectures for further development for robot researchers. Moreover, there does not exist customizable open-source robot receptionist frameworks to be deployed for any given application. In this paper we present an open-source robot receptionist intelligence core -- "DEVI"(means 'lady' in Sinhala), that provides researchers with ease of creating customized robot receptionists according to the requirements (cost, external appearance, and required processing power). Moreover, this paper also presents details on a prototype implementation of a physical robot using the DEVI system. The robot can give directional guidance with physical gestures, answer basic queries using a speech recognition and synthesis system, recognize and greet known people using face recognition and register new people in its database, using a self-learning neural network. Experiments conducted with DEVI show the effectiveness of the proposed system.
翻訳日:2021-04-13 07:12:46 公開日:2021-01-02