このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210416となっている論文です。

PDF登録状況(公開日: 20210416)

TitleAuthorsAbstract論文公表日・翻訳日
# 単一視点画像からのホロスティックな3次元人間とシーンメッシュの推定

Holistic 3D Human and Scene Mesh Estimation from Single View Images ( http://arxiv.org/abs/2012.01591v2 )

ライセンス: Link先を確認
Zhenzhen Weng, Serena Yeung(参考訳) 3dの世界は人体のポーズを制限し、人体のポーズは周囲の物体に関する情報を伝達する。 実際、屋内に置かれている人物の1枚の画像から、人間のポーズと部屋のレイアウトの曖昧さを、物理法則の知識と、もっともらしい物体と人間のポーズの事前認識を通じて解決することに精通している。 しかし、この事実を十分に活用するコンピュータビジョンモデルはほとんどない。 本研究では,1つのrgb画像から3dシーンを知覚し,カメラのポーズと部屋のレイアウトを推定し,人体と物体のメッシュを再構築する,エンドツーエンドのトレーニング可能なモデルを提案する。 評価のすべての側面に包括的かつ洗練された損失を課すことにより,本モデルが既存の人体メッシュ法や屋内シーン再構築法より優れていることを示す。 私たちの知る限りでは、これはメッシュレベルでオブジェクトと人間の予測の両方を出力し、シーンと人間のポーズを共同で最適化する最初のモデルです。

The 3D world limits the human body pose and the human body pose conveys information about the surrounding objects. Indeed, from a single image of a person placed in an indoor scene, we as humans are adept at resolving ambiguities of the human pose and room layout through our knowledge of the physical laws and prior perception of the plausible object and human poses. However, few computer vision models fully leverage this fact. In this work, we propose an end-to-end trainable model that perceives the 3D scene from a single RGB image, estimates the camera pose and the room layout, and reconstructs both human body and object meshes. By imposing a set of comprehensive and sophisticated losses on all aspects of the estimations, we show that our model outperforms existing human body mesh methods and indoor scene reconstruction methods. To the best of our knowledge, this is the first model that outputs both object and human predictions at the mesh level, and performs joint optimization on the scene and human poses.
翻訳日:2021-05-25 03:54:19 公開日:2021-04-16
# (参考訳) 運動量を用いた確率的最適化:収束、ゆらぎ、トラップ回避

Stochastic optimization with momentum: convergence, fluctuations, and traps avoidance ( http://arxiv.org/abs/2012.04002v2 )

ライセンス: CC BY 4.0
A. Barakat, P. Bianchi, W. Hachem, and Sh. Schechtman(参考訳) 本稿では,確率勾配降下法,S-NAG,Stochastic Nesterov Accelerated Gradientアルゴリズム(S-NAG),広く使用されているAdamアルゴリズムなど,確率勾配勾配のいくつかの変種を統一した一般確率最適化手法について検討する。 このアルゴリズムは、Belotto da Silva と Gazeau が最近導入した非自明な常微分方程式のノイズの多いオイラー離散化と見なされている。 目的関数が非凸かつ微分可能であると仮定すると、イテレートの安定性とほぼ確実に臨界点の集合への収束が確立される。 注目すべき特別なケースは、非凸条件におけるS-NAGの収束証明である。 いくつかの仮定の下では、収束率は中央極限定理の形で与えられる。 最後に、アルゴリズムが所望の臨界点(例えば局所最大点やサドル点)に収束しないことが確立される。 ここでの主な要素は、独立した関心を持つ非自律的な設定に対するトラップ結果の新たな回避である。

In this paper, a general stochastic optimization procedure is studied, unifying several variants of the stochastic gradient descent such as, among others, the stochastic heavy ball method, the Stochastic Nesterov Accelerated Gradient algorithm (S-NAG), and the widely used Adam algorithm. The algorithm is seen as a noisy Euler discretization of a non-autonomous ordinary differential equation, recently introduced by Belotto da Silva and Gazeau, which is analyzed in depth. Assuming that the objective function is non-convex and differentiable, the stability and the almost sure convergence of the iterates to the set of critical points are established. A noteworthy special case is the convergence proof of S-NAG in a non-convex setting. Under some assumptions, the convergence rate is provided under the form of a Central Limit Theorem. Finally, the non-convergence of the algorithm to undesired critical points, such as local maxima or saddle points, is established. Here, the main ingredient is a new avoidance of traps result for non-autonomous settings, which is of independent interest.
翻訳日:2021-05-18 07:57:30 公開日:2021-04-16
# (参考訳) 単一画像からのポートレート神経放射場 [全文訳有]

Portrait Neural Radiance Fields from a Single Image ( http://arxiv.org/abs/2012.05903v2 )

ライセンス: CC BY 4.0
Chen Gao and Yichang Shih and Wei-Sheng Lai and Chia-Kai Liang and Jia-Bin Huang(参考訳) 本稿では,1つの頭部画像から神経放射野(nerf)を推定する手法を提案する。 NeRFは高品質なビュー合成を実証しているが、静的なシーンの複数の画像を必要とするため、カジュアルなキャプチャや移動物体には実用的ではない。 本研究では,光ステージポートレートデータセットを用いたメタラーニングフレームワークを用いて,ボリューム密度と色を暗黙的にモデル化する多層パーセプトロン(mlp)の重みを事前学習することを提案する。 非知覚面の一般化を改善するため、mlpを3次元顔変形モデルで近似した正準座標空間で訓練する。 本手法は,制御されたキャプチャを用いて定量的に評価し,実画像への一般化を実証し,最先端画像に対して良好な結果を示す。

We present a method for estimating Neural Radiance Fields (NeRF) from a single headshot portrait. While NeRF has demonstrated high-quality view synthesis, it requires multiple images of static scenes and thus impractical for casual captures and moving subjects. In this work, we propose to pretrain the weights of a multilayer perceptron (MLP), which implicitly models the volumetric density and colors, with a meta-learning framework using a light stage portrait dataset. To improve the generalization to unseen faces, we train the MLP in the canonical coordinate space approximated by 3D face morphable models. We quantitatively evaluate the method using controlled captures and demonstrate the generalization to real portrait images, showing favorable results against state-of-the-arts.
翻訳日:2021-05-15 10:10:57 公開日:2021-04-16
# 語彙単位解析による自然言語文のセグメンテーション

Segmenting Natural Language Sentences via Lexical Unit Analysis ( http://arxiv.org/abs/2012.05418v3 )

ライセンス: Link先を確認
Yangming Li, Lemao Liu, Shuming Shi(参考訳) 本稿では,一般シーケンスセグメンテーションタスクのためのフレームワークであるlexical unit analysis (lua)を提案する。 自然言語文が与えられた場合、LUAは有効なセグメンテーション候補をすべてスコアし、動的プログラミング(DP)を用いて最大スコアを抽出する。 LUAは、予測セグメンテーションが有効であることを本質的に保証し、グローバルに最適なトレーニングと推論を促進するなど、多くの魅力的な特性を享受している。 さらに、LUAの実用時間の複雑さを線形時間に減らすことができ、非常に効率的である。 我々は,構文的チャンキング,名前付きエンティティ認識(NER),スロットフィリング,中国語単語セグメンテーション,中国語部分音声タグ付け(POS)を含む5つのタスクについて,15のデータセットにわたって広範な実験を行った。 当社のモデルは,13件の最先端のパフォーマンスを達成した。 また, 長いセグメントを同定するF1スコアも顕著に改善された。

In this work, we present Lexical Unit Analysis (LUA), a framework for general sequence segmentation tasks. Given a natural language sentence, LUA scores all the valid segmentation candidates and utilizes dynamic programming (DP) to extract the maximum scoring one. LUA enjoys a number of appealing properties such as inherently guaranteeing the predicted segmentation to be valid and facilitating globally optimal training and inference. Besides, the practical time complexity of LUA can be reduced to linear time, which is very efficient. We have conducted extensive experiments on 5 tasks, including syntactic chunking, named entity recognition (NER), slot filling, Chinese word segmentation, and Chinese part-of-speech (POS) tagging, across 15 datasets. Our models have achieved the state-of-the-art performances on 13 of them. The results also show that the F1 score of identifying long-length segments is notably improved.
翻訳日:2021-05-15 06:28:34 公開日:2021-04-16
# 剛体力学の構造的学習 : ロボティクスの観点からの調査と統一的視点

Structured learning of rigid-body dynamics: A survey and unified view from a robotics perspective ( http://arxiv.org/abs/2012.06250v2 )

ライセンス: Link先を確認
A. Ren\'e Geist and Sebastian Trimpe(参考訳) 機械力学の正確なモデルはしばしばモデルに基づく制御と強化学習に重要である。 完全なデータ駆動力学モデルは、モデリングと分析のプロセスを簡単にすることを約束するが、トレーニングには大量のデータを必要とし、しばしば状態空間の見えない部分にはうまく一般化しない。 データ駆動モデリングと事前分析知識を組み合わせることは、回帰モデルに構造的知識を組み込むことで、モデルのデータの効率と物理的完全性が向上する、魅力的な選択肢である。 本稿では,剛体力学とデータ駆動モデリング技術を組み合わせた回帰モデルについて検討する。 我々は、剛体力学の共通記述の基礎となる様々な潜在関数(運動エネルギーや散逸力など)と作用素(微分作用素や射影行列など)を分析する。 この分析に基づいて、ニューラルネットワークやガウス過程などのデータ駆動回帰モデルと分析モデル事前の組合せに関する統一的な見解を提供する。 さらに, 自動微分などの構造化モデルの設計手法について検討し, 考察する。

Accurate models of mechanical system dynamics are often critical for model-based control and reinforcement learning. Fully data-driven dynamics models promise to ease the process of modeling and analysis, but require considerable amounts of data for training and often do not generalize well to unseen parts of the state space. Combining data-driven modelling with prior analytical knowledge is an attractive alternative as the inclusion of structural knowledge into a regression model improves the model's data efficiency and physical integrity. In this article, we survey supervised regression models that combine rigid-body mechanics with data-driven modelling techniques. We analyze the different latent functions (such as kinetic energy or dissipative forces) and operators (such as differential operators and projection matrices) underlying common descriptions of rigid-body mechanics. Based on this analysis, we provide a unified view on the combination of data-driven regression models, such as neural networks and Gaussian processes, with analytical model priors. Further, we review and discuss key techniques for designing structured models such as automatic differentiation.
翻訳日:2021-05-11 02:51:03 公開日:2021-04-16
# (参考訳) 高分解能スパース注意によるセマンティックレイアウトマニピュレーション [全文訳有]

Semantic Layout Manipulation with High-Resolution Sparse Attention ( http://arxiv.org/abs/2012.07288v3 )

ライセンス: CC BY 4.0
Haitian Zheng, Zhe Lin, Jingwan Lu, Scott Cohen, Jianming Zhang, Ning Xu, Jiebo Luo(参考訳) 本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。 このタスクの中核となる問題は、入力画像から新しいセマンティックレイアウトに視覚的詳細を移す方法であり、結果として得られるイメージを視覚的にリアルにする。 近年のクロスドメイン対応学習の成果は, 集中集中型ワープによるグローバルレイアウト転送に有望な結果を示している。 しかし, この手法では, 解像度制限や対応のスムーズ性制約の欠如により, テクスチャの細部が失われる傾向にある。 このパラダイムをレイアウト操作タスクに適用するために,512x512までの解像度で,視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。 視覚的品質をさらに向上させるために,セマンティックエンコーダと粗大な合成のための2段階デコーダからなる新規なジェネレータアーキテクチャを導入する。 ade20kとplaces365データセットの実験は、提案手法が既存のインペインティングおよびレイアウト操作法よりも大幅に改善されていることを示している。

We tackle the problem of semantic image layout manipulation, which aims to manipulate an input image by editing its semantic label map. A core problem of this task is how to transfer visual details from the input images to the new semantic layout while making the resulting image visually realistic. Recent work on learning cross-domain correspondence has shown promising results for global layout transfer with dense attention-based warping. However, this method tends to lose texture details due to the resolution limitation and the lack of smoothness constraint of correspondence. To adapt this paradigm for the layout manipulation task, we propose a high-resolution sparse attention module that effectively transfers visual details to new layouts at a resolution up to 512x512. To further improve visual quality, we introduce a novel generator architecture consisting of a semantic encoder and a two-stage decoder for coarse-to-fine synthesis. Experiments on the ADE20k and Places365 datasets demonstrate that our proposed approach achieves substantial improvements over the existing inpainting and layout manipulation methods.
翻訳日:2021-05-09 06:58:34 公開日:2021-04-16
# AMMU -- トランスフォーマーに基づくバイオメディカル事前学習言語モデルの調査

AMMU -- A Survey of Transformer-based Biomedical Pretrained Language Models ( http://arxiv.org/abs/2105.00827v1 )

ライセンス: Link先を確認
Katikapalli Subramanyam Kalyan, Ajit Rajasekharan, Sivanesan Sangeetha(参考訳) トランスフォーマーに基づく事前訓練型言語モデル(PLM)は、現代の自然言語処理(NLP)において新しい時代が始まった。 これらのモデルはトランスフォーマーのパワー、転送学習、自己教師付き学習(ssl)を組み合わせる。 これらのモデルが一般領域での成功に続いて、生物医学研究コミュニティはbiobertから最新のbiomegatronおよびcoderbertモデルまで様々なドメイン内plmを開発した。 我々は,様々なトランスフォーマーに基づく生物医学事前学習言語モデル (BPLM) の包括的調査を行うための調査論文の必要性を強く信じている。 本稿では,自己教師あり学習,埋め込み層,トランスフォーマーエンコーダ層といった基礎概念の概要について概説する。 本稿では, バイオメディカルドメインに特有なトランスフォーマーベースのPLMのコアコンセプト, 事前学習, 微調整, 埋め込みタイプについて論じる。 変換器をベースとしたBPLMの分類を導入し,すべてのモデルについて議論する。 様々な課題と可能な解決策について論じる。 最後に、研究コミュニティがトランスフォーマーベースのbplmsをさらに改善するためのオープンイシューをいくつか強調する。

Transformer-based pretrained language models (PLMs) have started a new era in modern natural language processing (NLP). These models combine the power of transformers, transfer learning, and self-supervised learning (SSL). Following the success of these models in the general domain, the biomedical research community has developed various in-domain PLMs starting from BioBERT to the latest BioMegatron and CoderBERT models. We strongly believe there is a need for a survey paper that can provide a comprehensive survey of various transformer-based biomedical pretrained language models (BPLMs). In this survey, we start with a brief overview of foundational concepts like self-supervised learning, embedding layer and transformer encoder layers. We discuss core concepts of transformer-based PLMs like pretraining methods, pretraining tasks, fine-tuning methods, and various embedding types specific to biomedical domain. We introduce a taxonomy for transformer-based BPLMs and then discuss all the models. We discuss various challenges and present possible solutions. We conclude by highlighting some of the open issues which will drive the research community to further improve transformer-based BPLMs.
翻訳日:2021-05-04 20:44:37 公開日:2021-04-16
# deux: 推薦ダイアログシステムのための属性誘導フレームワーク

DEUX: An Attribute-Guided Framework for Sociable Recommendation Dialog Systems ( http://arxiv.org/abs/2105.00825v1 )

ライセンス: Link先を確認
Yu Li, Shirley Anugrah Hayati, Weiyan Shi and Zhou Yu(参考訳) タスク上のコンテンツとソーシャルコンテンツの両方として動作し、ユーザを惹きつけ、その好意を得るためには、レコメンデーションダイアログシステムが重要である。 ユーザの好みを理解し,満足のいく推薦を提供することに加えて,このようなシステムは,ユーザに対して一貫性のある自然な会話を生成できなければならない。 従来のダイアログ状態追跡は、ソーシャルコンテンツの属性をトラッキングしないため、そのようなシステムには適用できない。 この課題に対処するため,映画レコメンデーションタスクを達成しつつ,より良いユーザエクスペリエンスを実現するための新しい属性誘導フレームワークであるDEUXを提案する。 DEUXには、映画の属性(例えば、お気に入りのジャンル、俳優、etc)を追跡するモジュールがある。 ユーザの発話と システム応答の両方においてです これにより、システムはソーシャルコンテンツに新しい映画属性を導入することができる。 そして、DEUXは複数の属性タイプに対して複数の値を持ち、例えばユーザが複数のジャンルを好んでいるため、リコメンデーションタスクに適合する。 実験によると、DEUXは、より一貫性のあること、ユーザの好みに合うこと、より魅力的なチャットエクスペリエンスを提供することで、すべてのベースラインを上回ります。 本手法は,タスク指向対話システムの同様の問題に対して利用できる。

It is important for sociable recommendation dialog systems to perform as both on-task content and social content to engage users and gain their favor. In addition to understand the user preferences and provide a satisfying recommendation, such systems must be able to generate coherent and natural social conversations to the user. Traditional dialog state tracking cannot be applied to such systems because it does not track the attributes in the social content. To address this challenge, we propose DEUX, a novel attribute-guided framework to create better user experiences while accomplishing a movie recommendation task. DEUX has a module that keeps track of the movie attributes (e.g., favorite genres, actors,etc.) in both user utterances and system responses. This allows the system to introduce new movie attributes in its social content. Then, DEUX has multiple values for the same attribute type which suits the recommendation task since a user may like multiple genres, for instance. Experiments suggest that DEUX outperforms all the baselines on being more consistent, fitting the user preferences better, and providing a more engaging chat experience. Our approach can be used for any similar problems of sociable task-oriented dialog system.
翻訳日:2021-05-04 20:44:21 公開日:2021-04-16
# 低リソースシナリオにおけるBERT記憶と落とし穴

BERT memorisation and pitfalls in low-resource scenarios ( http://arxiv.org/abs/2105.00828v1 )

ライセンス: Link先を確認
Michael T\"anzer, Sebastian Ruder, Marek Rei(参考訳) 最先端の事前訓練モデルは、事実を記憶し、限られたトレーニングデータでうまく機能することが示されている。 これらのモデルがどのように学習するかをより深く理解するため、ノイズと低リソースシナリオにおける一般化と記憶能力について検討する。 これらのモデルのトレーニングはラベルノイズの影響を受けず、非常にノイズの多いデータセットでもほぼ最適性能に達することができる。 逆に、少数ショット学習やまれなエンティティ認識のような低リソースタスクでテストすると、完全に失敗する。 このような制約を緩和するために,低リソースのエンティティ認識タスクの性能を向上させるbertとprototypepical networkに基づく新しいアーキテクチャを提案する。

State-of-the-art pre-trained models have been shown to memorise facts and perform well with limited amounts of training data. To gain a better understanding of how these models learn, we study their generalisation and memorisation capabilities in noisy and low-resource scenarios. We find that the training of these models is almost unaffected by label noise and that it is possible to reach near-optimal performances even on extremely noisy datasets. Conversely, we also find that they completely fail when tested on low-resource tasks such as few-shot learning and rare entity recognition. To mitigate such limitations, we propose a novel architecture based on BERT and prototypical networks that improves performance in low-resource named entity recognition tasks.
翻訳日:2021-05-04 20:43:47 公開日:2021-04-16
# TheWikiFact:Wikipedi aに対するファクトチェッキングの主張

WhatTheWikiFact: Fact-Checking Claims Against Wikipedia ( http://arxiv.org/abs/2105.00826v1 )

ライセンス: Link先を確認
Anton Chernyavskiy, Dmitry Ilvovsky, Preslav Nakov(参考訳) インターネットの普及により、インターネットは主要な情報ソースとなった。 残念ながら、オンラインの情報はすべて真実ではないため、手動と自動の両方で多くの事実チェックイニシアチブが開始されている。 ここでは,Wikipediaを用いた自動クレーム検証システムであるWhatTheWikiFactについて紹介する。 システムは、入力クレームの妥当性を予測し、さらに、検証プロセスの一部として検索した証拠を示す。 信頼度スコアと関連するウィキペディア記事のリストと、それを取得するために使用されるフレーズ、それが含んでいる最も関連性の高い文、入力されたクレームに関するそれらのスタンス、および関連する確率を含む各記事に関する詳細な情報を示す。

The rise of Internet has made it a major source of information. Unfortunately, not all information online is true, and thus a number of fact-checking initiatives have been launched, both manual and automatic. Here, we present our contribution in this regard: WhatTheWikiFact, a system for automatic claim verification using Wikipedia. The system predicts the veracity of an input claim, and it further shows the evidence it has retrieved as part of the verification process. It shows confidence scores and a list of relevant Wikipedia articles, together with detailed information about each article, including the phrase used to retrieve it, the most relevant sentences it contains, and their stances with respect to the input claim, with associated probabilities.
翻訳日:2021-05-04 20:43:36 公開日:2021-04-16
# (参考訳) 構造美: 画像の美しさを定量化するための構造的アプローチ [全文訳有]

Structural Beauty: A Structure-based Approach to Quantifying the Beauty of an Image ( http://arxiv.org/abs/2104.11100v1 )

ライセンス: CC BY 4.0
Bin Jiang and Chris de Rijke(参考訳) 美は人の目の中にあると言うことは、美は主として主観的であり、人によって異なることを意味する。 主観的視点は一般的であるが、ある量的な方法で美や美を測ろうとする客観的視点もある。 クリストファー・アレクサンダーは長い間、美やコヒーレンスがサブシンメトリやサブ構造の数と高い相関関係にあることを発見し、その信仰や文化、民族に関係なく、人々と異なる人々の間に、構造美という共通の美の概念があることを実証してきた。 この構造美の概念は、全ての空間と物質の基礎となる物理的および数学的構造である生物構造または全体性から直接生じる。 本稿では, 生活構造の概念に基づいて, 自動的に導出されるサブ構造(S)の数と, その固有の階層構造(H)に基づいて, 画像の構造美や生活を計算するためのアプローチを開発する。 このアプローチを検証するために、Leonardo da Vinci の Mona Lisa や Jackson Pollock の Blue Poles を含む8対の画像に対して一連のケーススタディを行った。 私たちは、青いポールはモナリザよりも構造的に美しく、伝統的な建物はモナリザよりも構造的に美しいことを発見しました。 この発見は、物やイメージの良さが、従来考えられていたような意見や個人の好みよりもむしろ事実の問題であることを示している。 構造美に関する研究は、画像理解やコンピュータビジョン、建築と都市デザイン、人文科学と芸術、神経生理学、心理学など、美学や美学が主要な関心事となっている多くの分野に深く影響している。 キーワード:人生、全体性、フィギュラル・グッドネス、ヘッド・テール・ブレイク、コンピュータビジョン

To say that beauty is in the eye of the beholder means that beauty is largely subjective so varies from person to person. While the subjectivity view is commonly held, there is also an objectivity view that seeks to measure beauty or aesthetics in some quantitative manners. Christopher Alexander has long discovered that beauty or coherence highly correlates to the number of subsymmetries or substructures and demonstrated that there is a shared notion of beauty - structural beauty - among people and even different peoples, regardless of their faiths, cultures, and ethnicities. This notion of structural beauty arises directly out of living structure or wholeness, a physical and mathematical structure that underlies all space and matter. Based on the concept of living structure, this paper develops an approach for computing the structural beauty or life of an image (L) based on the number of automatically derived substructures (S) and their inherent hierarchy (H). To verify this approach, we conducted a series of case studies applied to eight pairs of images including Leonardo da Vinci's Mona Lisa and Jackson Pollock's Blue Poles. We discovered among others that Blue Poles is more structurally beautiful than the Mona Lisa, and traditional buildings are in general more structurally beautiful than their modernist counterparts. This finding implies that goodness of things or images is largely a matter of fact rather than an opinion or personal preference as conventionally conceived. The research on structural beauty has deep implications on many disciplines, where beauty or aesthetics is a major concern such as image understanding and computer vision, architecture and urban design, humanities and arts, neurophysiology, and psychology. Keywords: Life; wholeness; figural goodness; head/tail breaks; computer vision
翻訳日:2021-05-04 05:56:10 公開日:2021-04-16
# 頭頸部扁平上皮癌における腫瘍細胞浸潤リンパ球のデジタルスコアによる生存予測

A digital score of tumour-associated stroma infiltrating lymphocytes predicts survival in head and neck squamous cell carcinoma ( http://arxiv.org/abs/2104.12862v1 )

ライセンス: Link先を確認
Muhammad Shaban, Shan E Ahmed Raza, Mariam Hassan, Arif Jamshed, Sajid Mushtaq, Asif Loya, Nikolaos Batis, Jill Brooks, Paul Nankivell, Neil Sharma, Max Robinson, Hisham Mehanna, Syed Ali Khurram, Nasir Rajpoot(参考訳) 線条体および腫瘍におけるTリンパ球の浸潤は、腫瘍に対する効果的な免疫反応を示し、生存率の向上をもたらす。 本研究の目的は,頭頸部扁平上皮癌(HNSCC)における腫瘍関連リンパ腫浸潤リンパ球(TASILs)の予後について,AIを用いた自動診断法を用いて検討することである。 深層学習に基づく自動化手法を用いて,HNSCC組織スライドの全スライド画像のデジタルスキャンを行い,腫瘍,ストローマ,リンパ球の分画を行った。 リンパ球と腫瘍関連組織腫の空間パターンをデジタルで定量化し,TASILスコアを算出した。 最後に, cox比例ハザード分析により, tasil-scoreの疾患特異的生存および無病生存における予後の意義について検討した。 hnscc症例 (n=537例) のhaematoxylin & eosin (h&e) 染色組織スライドの3種類のコホートについて検討した。 TASILスコアはHNSCC患者の疾患特異的生存における予後学的意義(p=0.002)を有する。 TASILスコアは、病原性および無病生存のための病理学者による手動TILスコアと比較すると、低リスクと高リスクの患者の分離も良好である。 また,cd8+t細胞の分子量の推定値とtasil-scoreの正の相関も確認できた。 我々の知る限りでは、頭頸部がんの通常のH&EスライドからTASILの定量化を自動化する最初の研究である。 我々のTASILスコアに基づく知見は, 客観的, 再現性, 予後の強い付加的優位性によって臨床知識と一致している。 提案するデジタルスコアが臨床に採用される前に, 大規模多心コホートに関する包括的評価が必要である。

The infiltration of T-lymphocytes in the stroma and tumour is an indication of an effective immune response against the tumour, resulting in better survival. In this study, our aim is to explore the prognostic significance of tumour-associated stroma infiltrating lymphocytes (TASILs) in head and neck squamous cell carcinoma (HNSCC) through an AI based automated method. A deep learning based automated method was employed to segment tumour, stroma and lymphocytes in digitally scanned whole slide images of HNSCC tissue slides. The spatial patterns of lymphocytes and tumour-associated stroma were digitally quantified to compute the TASIL-score. Finally, prognostic significance of the TASIL-score for disease-specific and disease-free survival was investigated with the Cox proportional hazard analysis. Three different cohorts of Haematoxylin & Eosin (H&E) stained tissue slides of HNSCC cases (n=537 in total) were studied, including publicly available TCGA head and neck cancer cases. The TASIL-score carries prognostic significance (p=0.002) for disease-specific survival of HNSCC patients. The TASIL-score also shows a better separation between low- and high-risk patients as compared to the manual TIL scoring by pathologists for both disease-specific and disease-free survival. A positive correlation of TASIL-score with molecular estimates of CD8+ T cells was also found, which is in line with existing findings. To the best of our knowledge, this is the first study to automate the quantification of TASIL from routine H&E slides of head and neck cancer. Our TASIL-score based findings are aligned with the clinical knowledge with the added advantages of objectivity, reproducibility and strong prognostic value. A comprehensive evaluation on large multicentric cohorts is required before the proposed digital score can be adopted in clinical practice.
翻訳日:2021-05-03 19:47:42 公開日:2021-04-16
# 近似変分ベイズによる状態空間雑音共分散行列の再帰的推定

Recursive Estimation of State-Space Noise Covariance Matrix by Approximate Variational Bayes ( http://arxiv.org/abs/2104.10777v1 )

ライセンス: Link先を確認
Joseph de Vilmarest (LPSM), Olivier Wintenberger (LPSM)(参考訳) 本研究は, 状態過程の共分散行列が未知であり, 時間変化の可能性がある状態空間モデルについて考察する。 本研究では,状態過程の状態と共分散行列を,変分ベイズと2次テイラー近似に頼って推定する適応アルゴリズムを提案する。

This working paper considers state-space models where the variance of the observation is known but the covariance matrix of the state process is unknown and potentially time-varying. We propose an adaptive algorithm to estimate jointly the state and the covariance matrix of the state process, relying on Variational Bayes and second-order Taylor approximations.
翻訳日:2021-05-03 19:46:46 公開日:2021-04-16
# 生物物理パラメータ検索とモデルインバージョンのための深いガウス過程

Deep Gaussian Processes for Biogeophysical Parameter Retrieval and Model Inversion ( http://arxiv.org/abs/2104.10638v1 )

ライセンス: Link先を確認
Daniel Heestermans Svendsen, Pablo Morales-Alvarez, Ana Belen Ruescas, Rafael Molina, Gustau Camps-Valls(参考訳) パラメータ検索とモデル反転はリモートセンシングと地球観測の重要な問題である。 現在、様々な近似が存在する: 直接的かつ費用がかかる放射移動モデル(RTM)の逆転、研究領域外の外挿問題にしばしば生じるin situデータによる統計的逆転、統計モデル(主に非線形および非パラメトリック機械学習アルゴリズム)を逆RTMシミュレーションに適用した最も広く採用されているハイブリッドモデリングである。 私たちは後者に集中します。 既存のアルゴリズムのうち、過去10年間にカーネルベースの手法、特にガウス過程(GP)は、そのようなRTM反転問題に対して有用かつ有益な解決策を提供してきた。 これは主に、彼らが提供する信頼区間と予測精度のためである。 しかし、RTMは非常に複雑で、非常に非線形で、典型的には階層的なモデルであるため、浅いGPモデルでは反転の複雑な特徴関係を捉えることができない。 これはgpsの望ましい特性を維持しながら、より深い階層アーキテクチャの使用を動機付ける。 本稿では,生物地球物理モデルインバージョンにおける深部ガウス過程(DGP)の利用について紹介する。 浅いGPモデルとは異なり、DGPは複雑な(モジュラーで階層的な)プロセスを説明し、大きなデータセットによく対応し、単一の層に対して予測精度を向上させる効率的なソリューションを提供する。 実験部では,赤外線観測データから表面温度と露点温度を推定し,センチネル-3 olciセンサで取得した多スペクトルデータからクロロフィル含量,無機懸濁物,着色溶解物を予測するための性能の実証的な証拠を提供する。 提案手法は, リモートセンシングモデルインバージョン問題において, より表現力のある形状のgpsを実現する。

Parameter retrieval and model inversion are key problems in remote sensing and Earth observation. Currently, different approximations exist: a direct, yet costly, inversion of radiative transfer models (RTMs); the statistical inversion with in situ data that often results in problems with extrapolation outside the study area; and the most widely adopted hybrid modeling by which statistical models, mostly nonlinear and non-parametric machine learning algorithms, are applied to invert RTM simulations. We will focus on the latter. Among the different existing algorithms, in the last decade kernel based methods, and Gaussian Processes (GPs) in particular, have provided useful and informative solutions to such RTM inversion problems. This is in large part due to the confidence intervals they provide, and their predictive accuracy. However, RTMs are very complex, highly nonlinear, and typically hierarchical models, so that often a shallow GP model cannot capture complex feature relations for inversion. This motivates the use of deeper hierarchical architectures, while still preserving the desirable properties of GPs. This paper introduces the use of deep Gaussian Processes (DGPs) for bio-geo-physical model inversion. Unlike shallow GP models, DGPs account for complicated (modular, hierarchical) processes, provide an efficient solution that scales well to big datasets, and improve prediction accuracy over their single layer counterpart. In the experimental section, we provide empirical evidence of performance for the estimation of surface temperature and dew point temperature from infrared sounding data, as well as for the prediction of chlorophyll content, inorganic suspended matter, and coloured dissolved matter from multispectral data acquired by the Sentinel-3 OLCI sensor. The presented methodology allows for more expressive forms of GPs in remote sensing model inversion problems.
翻訳日:2021-05-03 19:45:52 公開日:2021-04-16
# 新型コロナウイルスのモデリング : レビュー

COVID-19 Modeling: A Review ( http://arxiv.org/abs/2104.12556v1 )

ライセンス: Link先を確認
Longbing Cao and Qing Liu and Wenfeng Hou(参考訳) 新型コロナウイルス(covid-19)パンデミックに対処するため、新型コロナウイルスの感染、診断、介入、病的および影響分析などのモデリングに多大な努力が払われている。 COVID-19に関する最も包括的なリポジトリは、2020年以降に制作されたWHOが収集した世界文献160万件である。 課題にどう対処すればよいのか? 新型コロナウイルス(covid-19)のモデリングにおける大きなギャップと機会はどこにあるのか? 従って、covid-19モデリングに関するそれらの言及の統計と深いキーワードに基づく類似性分析から、疾患、データ、モデリングの課題、および対応するモデリングの進展とギャップを体系的に要約した最初の例である。 我々は、新型コロナウイルスモデリングのビジネス目標とタスクとその学習方法を要約し、一致させるために、学際的な研究の展望を思いついた。

To tackle the COVID-19 pandemic, massive efforts have been made in modeling COVID-19 transmission, diagnoses, interventions, pathological and influence analysis, etc. With the most comprehensive repository on COVID-19 research - some 160k WHO-collected global literature on COVID-19 produced since 2020, some critical question to ask include: What are the COVID-19 challenges? How do they address the challenges? Where are the significant gaps and opportunities in COVID-19 modeling?. Accordingly, informed by their statistics and a deep keyword-based similarity analysis of those references on COVID-19 modeling, this is the first to systemically summarize the disease, data and modeling challenges and the corresponding modeling progress and gaps. We come up with a transdisciplinary research landscape to summarize and match the business goals and tasks and their learning methods of COVID-19 modeling.
翻訳日:2021-05-03 19:45:21 公開日:2021-04-16
# (参考訳) 胸部X線写真による気胸の自動診断 : 文献的考察 [全文訳有]

Automatic Diagnosis of Pneumothorax from Chest Radiographs: A Systematic Literature Review ( http://arxiv.org/abs/2012.11214v2 )

ライセンス: CC BY 4.0
Tahira Iqbal, Arslan Shaukat, Usman Akram and Zartasha Mustansar(参考訳) 胸部x線撮影は胸部病変の診断に最も重要かつ広く用いられている診断ツールである。 胸部X線写真からの病理診断のための堅牢な自動診断ツールを提案するために研究が進められている。 人工知能技術、特に深層学習手法は、医療分野の自動化に有望な成果をもたらしている。 胸部x線写真から気胸を自動的に検出し、人工知能と機械学習技術に基づくいくつかのフレームワークを提案する研究が数多く行われている。 本研究は,胸部X線から気胸を自動的に検出するための文献と胸部X線写真データセットについて述べる。 文献の比較分析は、良さの観点からも示される。 研究のギャップとともに既存の文献の限界も、さらなる調査のために与えられる。 本報告では, 今後の研究に最適なアプローチの選択を支援するために, 気胸検出の取り組みについて概説する。

Among various medical imaging tools, chest radiographs are the most important and widely used diagnostic tool for detection of thoracic pathologies. Research is being carried out in order to propose robust automatic diagnostic tool for detection of pathologies from chest radiographs. Artificial Intelligence techniques especially deep learning methodologies have found to be giving promising results in automating the field of medicine. Lot of research has been done for automatic and fast detection of pneumothorax from chest radiographs while proposing several frameworks based on artificial intelligence and machine learning techniques. This study summarizes the existing literature for the automatic detection of pneumothorax from chest x-rays along with describing the available chest radiographs datasets. The comparative analysis of the literature is also provided in terms of goodness. Limitations of the existing literature along with the research gaps is also given for further investigation. The paper provides a brief overview of the present work for pneumothorax detection for helping the researchers in selection of optimal approach for future research.
翻訳日:2021-04-29 07:30:14 公開日:2021-04-16
# (参考訳) 電力系統における連続的ロバストネス制御問題の逆訓練 [全文訳有]

Adversarial Training for a Continuous Robustness Control Problem in Power Systems ( http://arxiv.org/abs/2012.11390v3 )

ライセンス: CC BY 4.0
Lo\"ic Omnes, Antoine Marot, Benjamin Donnot(参考訳) 本稿では,次世代のサイバー物理電力システム用コントローラの設計において,ロバスト性を注入する新たな対角訓練手法を提案する。 シミュレーションに深く依存する従来のアプローチでは、複雑さの増大に対処できず、計算予算の面でオンラインでの使用にはコストがかかりすぎる。 これに対し,本手法は有効なロバスト性を示しながら,オンライン上で計算効率がよいことを示す。 そこで我々は、敵のフレームワークをモデル化し、固定された反対ポリシーの実装を提案し、L2RPN(Learning to Run a Power Network)環境でテストする。 この環境は、IEEE 118グリッドの3分の1を占めるサイバー物理システムの合成だが現実的なモデリングである。 本研究は,L2RPNコンペティションのロバスト性トラックから,提案したトレーニングエージェントの結果を分析した。 さらに, 評価指標の調整により, 連続N-1問題に対するこれらのエージェントの性能を更に評価する。 敵対的な方法で訓練されたエージェントが、その点で興味深い予防行動を示すことがわかりました。

We propose a new adversarial training approach for injecting robustness when designing controllers for upcoming cyber-physical power systems. Previous approaches relying deeply on simulations are not able to cope with the rising complexity and are too costly when used online in terms of computation budget. In comparison, our method proves to be computationally efficient online while displaying useful robustness properties. To do so we model an adversarial framework, propose the implementation of a fixed opponent policy and test it on a L2RPN (Learning to Run a Power Network) environment. This environment is a synthetic but realistic modeling of a cyber-physical system accounting for one third of the IEEE 118 grid. Using adversarial testing, we analyze the results of submitted trained agents from the robustness track of the L2RPN competition. We then further assess the performance of these agents in regards to the continuous N-1 problem through tailored evaluation metrics. We discover that some agents trained in an adversarial way demonstrate interesting preventive behaviors in that regard, which we discuss.
翻訳日:2021-04-27 12:59:30 公開日:2021-04-16
# (参考訳) 生成モデルの進化的変分最適化

Evolutionary Variational Optimization of Generative Models ( http://arxiv.org/abs/2012.12294v2 )

ライセンス: CC BY 4.0
Jakob Drefs, Enrico Guiraud, J\"org L\"ucke(参考訳) 生成モデルのための学習アルゴリズムを導出するための一般的な2つの最適化手法である変分最適化と進化的アルゴリズムを組み合わせる。 この組み合わせは、乱れ後部を変動分布の族として用いて、離散潜伏子を持つ生成モデルに対して実現される。 切り刻まれた後部の変分パラメータは潜在状態の集合である。 これらの状態を個人のゲノムとして解釈し、適応性を定義するために変分下界を用いて、進化的アルゴリズムを適用し、変分ループを実現する。 使用した変分分布は非常に柔軟であり、進化的アルゴリズムが変分境界を効果的に効率的に最適化できることを示す。 さらに、変分ループは一般に適用され(ブラックボックス)、解析的な導出は必要ない。 一般的な適用性を示すために、このアプローチを3つの生成モデルに適用する(ノイズやベイズネット、バイナリスパース符号化、スパイク・アンド・スラブスパース符号化)。 新しい変分法の有効性と効率を示すために,画像のデノイジングとインパインティングの標準競合ベンチマークを用いる。 このベンチマークは、確率的アプローチ、深い決定論的および生成的ネットワーク、非局所的な画像処理方法を含む幅広い手法と定量的に比較することができる。 ゼロショット学習(破損した画像のみをトレーニングに使用する場合)のカテゴリでは、多くのベンチマーク設定で最先端を著しく改善するために進化的変分アルゴリズムを観察した。 有名なインペインティングベンチマークでは、破損したイメージのみをトレーニングしながら、すべてのアルゴリズムのカテゴリで最先端のパフォーマンスも観察しました。 本研究は, 性能向上のための生成モデルの最適化手法に関する研究の重要性を強調した。

We combine two popular optimization approaches to derive learning algorithms for generative models: variational optimization and evolutionary algorithms. The combination is realized for generative models with discrete latents by using truncated posteriors as the family of variational distributions. The variational parameters of truncated posteriors are sets of latent states. By interpreting these states as genomes of individuals and by using the variational lower bound to define a fitness, we can apply evolutionary algorithms to realize the variational loop. The used variational distributions are very flexible and we show that evolutionary algorithms can effectively and efficiently optimize the variational bound. Furthermore, the variational loop is generally applicable ("black box") with no analytical derivations required. To show general applicability, we apply the approach to three generative models (we use noisy-OR Bayes Nets, Binary Sparse Coding, and Spike-and-Slab Sparse Coding). To demonstrate effectiveness and efficiency of the novel variational approach, we use the standard competitive benchmarks of image denoising and inpainting. The benchmarks allow quantitative comparisons to a wide range of methods including probabilistic approaches, deep deterministic and generative networks, and non-local image processing methods. In the category of "zero-shot" learning (when only the corrupted image is used for training), we observed the evolutionary variational algorithm to significantly improve the state-of-the-art in many benchmark settings. For one well-known inpainting benchmark, we also observed state-of-the-art performance across all categories of algorithms although we only train on the corrupted image. In general, our investigations highlight the importance of research on optimization methods for generative models to achieve performance improvements.
翻訳日:2021-04-26 10:35:21 公開日:2021-04-16
# グラフ表現のモチーフ駆動型コントラスト学習

Motif-Driven Contrastive Learning of Graph Representations ( http://arxiv.org/abs/2012.12533v3 )

ライセンス: Link先を確認
Shichang Zhang, Ziniu Hu, Arjun Subramonian, Yizhou Sun(参考訳) 自己教師付きコントラスト学習による事前学習型グラフニューラルネットワーク(gnn)が最近注目を集めている。 しかし,既存の研究のほとんどは,グローバルグラフ構造を捉えることができないノードレベルのコントラスト学習に重点を置いている。 サブグラフレベルのコントラスト学習を行う上で重要な課題は、意味論的に意味のある情報的なサブグラフをサンプリングすることである。 そこで本研究では,グラフパターンが頻繁に発生するグラフモチーフ(例)を学習することを提案する。 分子の官能基) より優れたサブグラフサンプリングのための。 われわれのフレームワークである MotIf-driven Contrastive leaRning of Graph representations (MICRO-Graph) は、1) GNNを用いて、大きなグラフデータセットからモチーフを抽出し、2)学習モチーフを利用して、GNNのコントラスト学習のための情報サブグラフをサンプリングする。 異なるクラスタリング問題としてモチーフ学習を定式化し、EMクラスタリングを用いて類似および重要なサブグラフを複数のモチーフに分類する。 これらの学習モチーフによってガイドされ、サンプルはより情報的なサブグラフを生成するために訓練され、これらのサブグラフはグラフからサブグラフへのコントラスト学習を通じてGNNのトレーニングに使用される。 MICRO-Graphでogbg-molhivデータセットを事前トレーニングすることにより、事前トレーニングされたGNNは、さまざまなダウンストリームベンチマークデータセットで平均性能を2.04%向上させる。

Pre-training Graph Neural Networks (GNN) via self-supervised contrastive learning has recently drawn lots of attention. However, most existing works focus on node-level contrastive learning, which cannot capture global graph structure. The key challenge to conducting subgraph-level contrastive learning is to sample informative subgraphs that are semantically meaningful. To solve it, we propose to learn graph motifs, which are frequently-occurring subgraph patterns (e.g. functional groups of molecules), for better subgraph sampling. Our framework MotIf-driven Contrastive leaRning Of Graph representations (MICRO-Graph) can: 1) use GNNs to extract motifs from large graph datasets; 2) leverage learned motifs to sample informative subgraphs for contrastive learning of GNN. We formulate motif learning as a differentiable clustering problem, and adopt EM-clustering to group similar and significant subgraphs into several motifs. Guided by these learned motifs, a sampler is trained to generate more informative subgraphs, and these subgraphs are used to train GNNs through graph-to-subgraph contrastive learning. By pre-training on the ogbg-molhiv dataset with MICRO-Graph, the pre-trained GNN achieves 2.04% ROC-AUC average performance enhancement on various downstream benchmark datasets, which is significantly higher than other state-of-the-art self-supervised learning baselines.
翻訳日:2021-04-25 18:05:32 公開日:2021-04-16
# スパースガウス過程と変分推論に関するチュートリアル

A Tutorial on Sparse Gaussian Processes and Variational Inference ( http://arxiv.org/abs/2012.13962v8 )

ライセンス: Link先を確認
Felix Leibfried, Vincent Dutordoir, ST John, Nicolas Durrande(参考訳) ガウス過程(GP)はベイズ推定の枠組みを提供し、様々な問題に対して原理化された不確実性推定を提供する。 例えば、ガウス的確率を持つ回帰問題を考えると、gpモデルは後続の閉形式を楽しむ。 しかしながら、後部GPの識別はトレーニング例の数と立方的にスケールし、すべての例をメモリに格納する必要がある。 これらの障害を克服するために、擬似学習例を用いて真の後方GPを近似するスパースGPが提案されている。 重要なことに、擬似トレーニングのサンプルの数はユーザ定義であり、計算とメモリの複雑さを制御できる。 一般の場合、スパースGPは閉形式解を楽しんでおらず、近似推論に頼らなければならない。 この文脈において、近似推論の便利な選択は変分推論 (vi) であり、ベイズ推論の問題は最適化問題(すなわち、ログ周縁確率の下限を最大化するために)としてキャストされる。 これは、擬似訓練の例は、生成モデルのハイパーパラメータと共同で識別される近似後段の最適化引数として扱われる、強力で多用途なフレームワークへの道を開く。 前と後)。 このフレームワークは、非ガウス的および非ガウス的確率の回帰から、離散ラベルによる分類問題まで、教師付き学習問題の幅広い範囲を自然に扱うことができる。 本チュートリアルの目的は,GP と VI の双方で事前知識のない読者に基本事項へのアクセスを提供することである。 この主題に対する適切な説明は、新しい研究アイデアのインスピレーションとなる、より最近の進歩(重要重み付きVIやドメイン間、マルチアウトプット、ディープGPなど)へのアクセスを可能にする。

Gaussian processes (GPs) provide a framework for Bayesian inference that can offer principled uncertainty estimates for a large range of problems. For example, if we consider regression problems with Gaussian likelihoods, a GP model enjoys a posterior in closed form. However, identifying the posterior GP scales cubically with the number of training examples and requires to store all examples in memory. In order to overcome these obstacles, sparse GPs have been proposed that approximate the true posterior GP with pseudo-training examples. Importantly, the number of pseudo-training examples is user-defined and enables control over computational and memory complexity. In the general case, sparse GPs do not enjoy closed-form solutions and one has to resort to approximate inference. In this context, a convenient choice for approximate inference is variational inference (VI), where the problem of Bayesian inference is cast as an optimization problem -- namely, to maximize a lower bound of the log marginal likelihood. This paves the way for a powerful and versatile framework, where pseudo-training examples are treated as optimization arguments of the approximate posterior that are jointly identified together with hyperparameters of the generative model (i.e. prior and likelihood). The framework can naturally handle a wide scope of supervised learning problems, ranging from regression with heteroscedastic and non-Gaussian likelihoods to classification problems with discrete labels, but also multilabel problems. The purpose of this tutorial is to provide access to the basic matter for readers without prior knowledge in both GPs and VI. A proper exposition to the subject enables also access to more recent advances (like importance-weighted VI as well as interdomain, multioutput and deep GPs) that can serve as an inspiration for new research ideas.
翻訳日:2021-04-24 20:13:36 公開日:2021-04-16
# (参考訳) Cコードにおけるセキュリティ脆弱性修復のためのニューラルトランスファー学習 [全文訳有]

Neural Transfer Learning for Repairing Security Vulnerabilities in C Code ( http://arxiv.org/abs/2104.08308v1 )

ライセンス: CC BY 4.0
Zimin Chen, Steve Kommrusch and Martin Monperrus(参考訳) 本稿では,ディープラーニングを用いたソフトウェア脆弱性の自動修復の問題に対処する。 データ駆動脆弱性修復の大きな問題は、既知の既知の脆弱性の既存のデータセットが数千の例から成り立っていることだ。 しかし、ディープラーニングモデルのトレーニングには数十万のサンプルが必要になることが多い。 本研究では,バグフィックスタスクと脆弱性修正タスクが関連しているという直感を活用し,バグフィックスから得られた知識を脆弱性修正に移すことができる。 機械学習コミュニティでは、このテクニックは転送学習と呼ばれる。 本稿では,転送学習に基づくVRepairというセキュリティ脆弱性の修復手法を提案する。 VRepairは最初、大規模なバグ修正コーパスでトレーニングされ、次に脆弱性修正データセットにチューニングされる。 私たちの実験では、バグフィックスコーパスでのみトレーニングされたモデルが、すでにいくつかの脆弱性を修正できることを示しました。 次に,トランスファー学習が脆弱なC関数の修復能力を向上させることを示す。 最後に、トランスファーラーニングが脆弱性修復のためにより安定的で優れたニューラルモデルを生み出す証拠を示す。

In this paper, we address the problem of automatic repair of software vulnerabilities with deep learning. The major problem with data-driven vulnerability repair is that the few existing datasets of known confirmed vulnerabilities consist of only a few thousand examples. However, training a deep learning model often requires hundreds of thousands of examples. In this work, we leverage the intuition that the bug fixing task and the vulnerability fixing task are related, and the knowledge learned from bug fixes can be transferred to fixing vulnerabilities. In the machine learning community, this technique is called transfer learning. In this paper, we propose an approach for repairing security vulnerabilities named VRepair which is based on transfer learning. VRepair is first trained on a large bug fix corpus, and is then tuned on a vulnerability fix dataset, which is an order of magnitudes smaller. In our experiments, we show that a model trained only on a bug fix corpus can already fix some vulnerabilities. Then, we demonstrate that transfer learning improves the ability to repair vulnerable C functions. In the end, we present evidence that transfer learning produces more stable and superior neural models for vulnerability repair.
翻訳日:2021-04-24 14:18:51 公開日:2021-04-16
# (参考訳) 効率的なバッチアクティブラーニングのためのデータシェープリー評価 [全文訳有]

Data Shapley Valuation for Efficient Batch Active Learning ( http://arxiv.org/abs/2104.08312v1 )

ライセンス: CC BY 4.0
Amirata Ghorbani, James Zou, Andre Esteva(参考訳) 利用可能なすべてのデータポイントに適切なデータセットをアノテートすることは、多くの機械学習アプリケーションにおいて重要な課題である。 バッチアクティブラーニングは、ラベルなしのデータポイントのバッチがアノテーションとして選択され、基礎となる学習アルゴリズムがその後更新されるという、この問題に対処する一般的なアプローチである。 ますます大きなバッチは、データが並列にアノテートされ、モデルトレーニングが計算コストが高い設定で特に魅力的になっている。 典型的なアクティブラーニング手法は、ラベルのないプールから、注釈を付けるために様々なデータポイントを選択する多様性技術に依存している。 本研究では,ADS(Active Data Shapley)というバッチアクティブラーニングのためのフィルタリングレイヤを導入し,線形時間計算を用いて,ラベルのないデータセットから最高値のポイントを抽出することにより,アクティブラーニングの効率を大幅に向上させる。 本手法では,データのシェープ値の概念を用いて,未ラベルデータポイントの値を予測タスクに関して推定する。 ADSは、ラベルのないデータのプールが、ノイズ、異質性、ドメインシフトといった現実世界の注意点を示す場合、特に有効であることを示す。 ADSを用いてラベルなしデータセットの上位部分の事前選択を行うと、最先端のバッチアクティブラーニング手法の効率が平均6倍向上し、性能効果が保たれることを示す実験を行った。

Annotating the right set of data amongst all available data points is a key challenge in many machine learning applications. Batch active learning is a popular approach to address this, in which batches of unlabeled data points are selected for annotation, while an underlying learning algorithm gets subsequently updated. Increasingly larger batches are particularly appealing in settings where data can be annotated in parallel, and model training is computationally expensive. A key challenge here is scale - typical active learning methods rely on diversity techniques, which select a diverse set of data points to annotate, from an unlabeled pool. In this work, we introduce Active Data Shapley (ADS) -- a filtering layer for batch active learning that significantly increases the efficiency of active learning by pre-selecting, using a linear time computation, the highest-value points from an unlabeled dataset. Using the notion of the Shapley value of data, our method estimates the value of unlabeled data points with regards to the prediction task at hand. We show that ADS is particularly effective when the pool of unlabeled data exhibits real-world caveats: noise, heterogeneity, and domain shift. We run experiments demonstrating that when ADS is used to pre-select the highest-ranking portion of an unlabeled dataset, the efficiency of state-of-the-art batch active learning methods increases by an average factor of 6x, while preserving performance effectiveness.
翻訳日:2021-04-24 13:43:05 公開日:2021-04-16
# (参考訳) Surface Formのコンペティション:一番高い確率の答えはいつも正しくない理由 [全文訳有]

Surface Form Competition: Why the Highest Probability Answer Isn't Always Right ( http://arxiv.org/abs/2104.08315v1 )

ライセンス: CC BY 4.0
Ari Holtzman, Peter West, Vered Schwartz, Yejin Choi, Luke Zettlemoyer(参考訳) 大きな言語モデルはゼロショット設定で有望な結果を示している(Brown et al.,2020; Radford et al., 2019)。 例えば、質問を条件付けし、最も高い確率で答えを選択することで、複数の選択タスクを実行することができる。 しかし、弦の確率によるランク付けは、同じ基礎概念である例えば、異なる曲面形式が確率質量を競うような曲面の競合によって問題となることがある。 「コンピュータ」と「pc」。 確率質量は有限であるため、正当な解である他の文字列との競合のため、正しい解の確率は減少する(しかし、複数の選択肢のうちの1つではない)。 条件付きポイントワイズ相互情報(domain conditional pointwise mutual information)は、特定のゼロショットタスクの文脈において、その事前確率に比例する項に従って、各オプションを単に緩和することで、surface form competitionを直接補償する代替的スコアリング関数である。 キャリブレーションされた (zhao et al., 2021) と、様々な選択データセットに対して、すべての gpt-2 および gpt-3 モデルの非キャリブレーションスコアリング関数の両方に対して、ゼロショット性能の一貫した向上を達成している。

Large language models have shown promising results in zero-shot settings (Brown et al.,2020; Radford et al., 2019). For example, they can perform multiple choice tasks simply by conditioning on a question and selecting the answer with the highest probability. However, ranking by string probability can be problematic due to surface form competition-wherein different surface forms compete for probability mass, even if they represent the same underlying concept, e.g. "computer" and "PC." Since probability mass is finite, this lowers the probability of the correct answer, due to competition from other strings that are valid answers (but not one of the multiple choice options). We introduce Domain Conditional Pointwise Mutual Information, an alternative scoring function that directly compensates for surface form competition by simply reweighing each option according to a term that is proportional to its a priori likelihood within the context of the specific zero-shot task. It achieves consistent gains in zero-shot performance over both calibrated (Zhao et al., 2021) and uncalibrated scoring functions on all GPT-2 and GPT-3 models over a variety of multiple choice datasets.
翻訳日:2021-04-24 13:29:57 公開日:2021-04-16
# (参考訳) li$_x$coo$_2$位相安定性の機械学習による研究 : 電子構造、統計力学、位相場理論の橋渡し [全文訳有]

Li$_x$CoO$_2$ phase stability studied by machine learning-enabled scale bridging between electronic structure, statistical mechanics and phase field theories ( http://arxiv.org/abs/2104.08318v1 )

ライセンス: CC BY 4.0
Gregory H. Teichert, Sambit Das, Muratahan Aykol, Chirranjeevi Gopal, Vikram Gavini and Krishna Garikipati(参考訳) Li$_xTM$O$_2$ (TM={Ni, Co, Mn}) はLiイオン電池の電気化学的サイクリング性能が結晶構造と相安定性に強く支配されるカソードである。 ここでは、Li$_x$CoO$_2$(LCO)をモデルシステムとして、原子スケールでの密度汎関数理論(DFT)計算と連続スケールでの位相場モデリングを組み合わせたスケールブリッジングフレームワークをベンチマークし、相安定性がミクロ構造進化に与える影響を理解する。 このスケールブリッジングは、従来の統計力学法と積分可能なディープニューラルネットワークを組み込んだもので、特定の原子構成のための形成エネルギーを粗粒化し、物質の自由エネルギーのニューラルネットワーク記述に組み込むことができる。 結果として生じる現実的な自由エネルギー関数は、原子的に情報を得た位相場シミュレーションを可能にする。 これらの計算結果から, 温度, 形態, 粒子径の関数としてのLCO陰極劣化実験への接続が可能である。

Li$_xTM$O$_2$ (TM={Ni, Co, Mn}) are promising cathodes for Li-ion batteries, whose electrochemical cycling performance is strongly governed by crystal structure and phase stability as a function of Li content at the atomistic scale. Here, we use Li$_x$CoO$_2$ (LCO) as a model system to benchmark a scale-bridging framework that combines density functional theory (DFT) calculations at the atomistic scale with phase field modeling at the continuum scale to understand the impact of phase stability on microstructure evolution. This scale bridging is accomplished by incorporating traditional statistical mechanics methods with integrable deep neural networks, which allows formation energies for specific atomic configurations to be coarse-grained and incorporated in a neural network description of the free energy of the material. The resulting realistic free energy functions enable atomistically informed phase-field simulations. These computational results allow us to make connections to experimental work on LCO cathode degradation as a function of temperature, morphology and particle size.
翻訳日:2021-04-24 13:28:11 公開日:2021-04-16
# (参考訳) 事前学習された言語モデルを用いたベイズアクティブラーニング [全文訳有]

Bayesian Active Learning with Pretrained Language Models ( http://arxiv.org/abs/2104.08320v1 )

ライセンス: CC BY 4.0
Katerina Margatina, Loic Barrault, Nikolaos Aletras(参考訳) Active Learning (AL)は、ラベルのないデータのプールからアノテーションのためのデータを反復的に選択する手法であり、ランダム選択よりも優れたモデル性能を実現することを目的としている。 自然言語処理(NLP)における従来のALアプローチは、手元にあるラベル付きデータのみを使用して各イテレーションでスクラッチからトレーニングされたタスク固有モデルや、下流タスクに効果的に適応しない既訓練言語モデル(LM)に限られていた。 本稿では,BALM(Bayesian Active Learning with Pretrained Language Models)を導入することで,これらの制約に対処する。 まず,すべてのラベルなしデータのトレーニングを継続してalに使用することにより,学習済みlmを下流タスクに適応させる方法を提案する。 また,AL中の低資源シナリオと高資源シナリオの両方において,適応型LMが適切にトレーニングされていることを保証するため,簡易かつ効果的な微調整法を提案する。 最後にモンテカルロドロップアウトを下流モデルに適用し,不確実性サンプリングを用いたデータ選択のための信頼度スコアを得る。 5つの標準自然言語理解タスクにおける実験により,最近のAL文献で提案されている獲得関数,モデル,微調整手法の様々な組み合わせと比較して,BALMがデータ効率を大幅に向上することを示した。

Active Learning (AL) is a method to iteratively select data for annotation from a pool of unlabeled data, aiming to achieve better model performance than random selection. Previous AL approaches in Natural Language Processing (NLP) have been limited to either task-specific models that are trained from scratch at each iteration using only the labeled data at hand or using off-the-shelf pretrained language models (LMs) that are not adapted effectively to the downstream task. In this paper, we address these limitations by introducing BALM; Bayesian Active Learning with pretrained language Models. We first propose to adapt the pretrained LM to the downstream task by continuing training with all the available unlabeled data and then use it for AL. We also suggest a simple yet effective fine-tuning method to ensure that the adapted LM is properly trained in both low and high resource scenarios during AL. We finally apply Monte Carlo dropout to the downstream model to obtain well-calibrated confidence scores for data selection with uncertainty sampling. Our experiments in five standard natural language understanding tasks demonstrate that BALM provides substantial data efficiency improvements compared to various combinations of acquisition functions, models and fine-tuning methods proposed in recent AL literature.
翻訳日:2021-04-24 13:02:47 公開日:2021-04-16
# (参考訳) 技術支援レビュータスクにおけるBERT深層学習戦略の分析 [全文訳有]

An Analysis of a BERT Deep Learning Strategy on a Technology Assisted Review Task ( http://arxiv.org/abs/2104.08340v1 )

ライセンス: CC BY 4.0
Alexandros Ioannidis(参考訳) 文書スクリーニングは、医学的判断を裏付ける科学的証拠を補う臨床分野である、証拠に基づく医学における中心的な課題である。 本稿では,情報検索タスクに応用されたDL(Deep Learning)手法の最近の進歩を踏まえ,BERTやPubMedBERTを組み込んだDL文書分類手法と,SBERTを組み込んだDL類似性検索手法を提案する。 2017年と2018年のCLEF eHealth コレクションにおいて,私の DL 戦略の検索の有効性を検証し,評価した。 提案したDLストラテジーは,最近成功したBM25+RM3モデルと比較し,先述のCLEF eHealth Technologically Assisted Reviews in Empirical Medicine Taskに対して,上述のデータセットを用いた記事の初期ランク付けにおいて,先進的な検索性能を達成することを結論づける。

Document screening is a central task within Evidenced Based Medicine, which is a clinical discipline that supplements scientific proof to back medical decisions. Given the recent advances in DL (Deep Learning) methods applied to Information Retrieval tasks, I propose a DL document classification approach with BERT or PubMedBERT embeddings and a DL similarity search path using SBERT embeddings to reduce physicians' tasks of screening and classifying immense amounts of documents to answer clinical queries. I test and evaluate the retrieval effectiveness of my DL strategy on the 2017 and 2018 CLEF eHealth collections. I find that the proposed DL strategy works, I compare it to the recently successful BM25 plus RM3 model, and conclude that the suggested method accomplishes advanced retrieval performance in the initial ranking of the articles with the aforementioned datasets, for the CLEF eHealth Technologically Assisted Reviews in Empirical Medicine Task.
翻訳日:2021-04-24 12:43:25 公開日:2021-04-16
# (参考訳) Sync-Switch:分散ディープラーニングのためのハイブリッドパラメータ同期 [全文訳有]

Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep Learning ( http://arxiv.org/abs/2104.08364v1 )

ライセンス: CC BY 4.0
Shijian Li, Oren Mangoubi, Lijie Xu, Tian Guo(参考訳) Stochastic Gradient Descent (SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。 トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。 例えば、バルク同期並列(BSP)はしばしばより収束した精度を達成するが、対応するトレーニングスループットはストラグラーによって負の影響を受け得る。 対照的に、非同期並列(ASP)は高いスループットを持つことができるが、その収束と精度は安定した勾配の影響を受け得る。 同期プロトコルの性能を向上させるため、最近の研究は、ハードトゥーチューンハイパーパラメータに依存する新しいプロトコルの設計に重点を置いていることが多い。 本稿では、bspとaspの両方の利点、すなわち、収束精度を維持しながらトレーニング時間を短縮するハイブリッド同期方式を考案する。 広範な経験的プロファイリングに基づいて、同期プロトコル間の切り替え方法とタイミングを決定する適応ポリシーの集合を考案する。 当社のポリシーには、繰り返しジョブをターゲットとするオフライン版と、一時的なストラグラーを扱うオンライン版の両方が含まれています。 tensorflow上にsync-switchと呼ばれるプロトタイプシステムで提案するポリシを実装し,一般的なディープラーニングモデルとデータセットによるトレーニング性能の評価を行う。 実験の結果, Sync-Switchのスループットは最大5.13倍に向上し, BSPとの比較では類似の収束精度が得られた。 さらに、Sync-Switchは、ASP.NETでのトレーニングに比べてトレーニング時間のわずか1.23倍の収束精度を3.8%達成している。 さらに、aspでのトレーニングが分岐エラーにつながる場合、sync-switchは設定で使用できる。 Sync-Switchはこれらのすべての利点を非常に低いオーバーヘッドで実現している。例えば、フレームワークのオーバーヘッドはトレーニング時間の1.7%にも達する。

Stochastic Gradient Descent (SGD) has become the de facto way to train deep neural networks in distributed clusters. A critical factor in determining the training throughput and model accuracy is the choice of the parameter synchronization protocol. For example, while Bulk Synchronous Parallel (BSP) often achieves better converged accuracy, the corresponding training throughput can be negatively impacted by stragglers. In contrast, Asynchronous Parallel (ASP) can have higher throughput, but its convergence and accuracy can be impacted by stale gradients. To improve the performance of synchronization protocol, recent work often focuses on designing new protocols with a heavy reliance on hard-to-tune hyper-parameters. In this paper, we design a hybrid synchronization approach that exploits the benefits of both BSP and ASP, i.e., reducing training time while simultaneously maintaining the converged accuracy. Based on extensive empirical profiling, we devise a collection of adaptive policies that determine how and when to switch between synchronization protocols. Our policies include both offline ones that target recurring jobs and online ones for handling transient stragglers. We implement the proposed policies in a prototype system, called Sync-Switch, on top of TensorFlow, and evaluate the training performance with popular deep learning models and datasets. Our experiments show that Sync-Switch achieves up to 5.13X throughput speedup and similar converged accuracy when comparing to BSP. Further, we observe that Sync-Switch achieves 3.8% higher converged accuracy with just 1.23X the training time compared to training with ASP. Moreover, Sync-Switch can be used in settings when training with ASP leads to divergence errors. Sync-Switch achieves all of these benefits with very low overhead, e.g., the framework overhead can be as low as 1.7% of the total training time.
翻訳日:2021-04-24 12:04:17 公開日:2021-04-16
# (参考訳) concadia:コンテキストで画像アクセシビリティに取り組む [全文訳有]

Concadia: Tackling image accessibility with context ( http://arxiv.org/abs/2104.08376v1 )

ライセンス: CC BY 4.0
Elisa Kreiss, Noah D. Goodman, Christopher Potts(参考訳) 画像はオンラインメディアの不可欠な部分となっている。 これは自己表現と知識の普及を増大させたが、深刻なアクセシビリティ問題を引き起こす。 文章の記述は稀である。 キャプションは豊富だが、必要な記述の詳細は一貫して提供されておらず、そのようなテキストで訓練されたシステムはこれらの欠点を継承する。 そこで本研究では, 96,918枚の画像と対応する英文記述, キャプション, および周辺文脈からなるwikipediaベースのコーパス・コンカディアについて紹介する。 concadia を用いて記述とキャプションの共通性と相違をさらに特徴付けし,キャプションは記述の代わりにはならないが,効果的な記述を作成する上で有用なシグナルを与えることができるという仮説を導いた。 本仮説は,コンカディアで訓練された画像キャプションシステムにおいて,インプットの一部としてキャプション埋め込みを行うことによるメリットを示すものである。 これらの実験はまた、画像データによって引き起こされるアクセシビリティ問題に対処する上で、Concadiaが強力なツールになり得ることを示す。

Images have become an integral part of online media. This has enhanced self-expression and the dissemination of knowledge, but it poses serious accessibility challenges. Adequate textual descriptions are rare. Captions are more abundant, but they do not consistently provide the needed descriptive details, and systems trained on such texts inherit these shortcomings. To address this, we introduce the publicly available Wikipedia-based corpus Concadia, which consists of 96,918 images with corresponding English-language descriptions, captions, and surrounding context. We use Concadia to further characterize the commonalities and differences between descriptions and captions, and this leads us to the hypothesis that captions, while not substitutes for descriptions, can provide a useful signal for creating effective descriptions. We substantiate this hypothesis by showing that image captioning systems trained on Concadia benefit from having caption embeddings as part of their inputs. These experiments also begin to show how Concadia can be a powerful tool in addressing the underlying accessibility issues posed by image data.
翻訳日:2021-04-24 11:40:58 公開日:2021-04-16
# (参考訳) インスタンスレベル時間サイクル融合によるロバスト物体検出 [全文訳有]

Robust Object Detection via Instance-Level Temporal Cycle Confusion ( http://arxiv.org/abs/2104.08381v1 )

ライセンス: CC BY 4.0
Xin Wang, Thomas E. Huang, Benlin Liu, Fisher Yu, Xiaolong Wang, Joseph E. Gonzalez, Trevor Darrell(参考訳) コンテキスト、視点、オブジェクトの外観の変化など、ドメインシフトに対して堅牢な信頼性の高いオブジェクト検出器の構築は、現実世界のアプリケーションには不可欠である。 本研究では,物体検出器の分散一般化を改善するための補助的自己監視タスクの有効性について検討する。 最大エントロピーの原理に触発されて,オブジェクト検出器の領域特性に基づいて動作する,新しい自己教師付きタスクであるインスタンスレベル時間サイクル混乱 (cycconf) を導入する。 それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。 CycConfは、オブジェクト検出器が様々な動作の下でインスタンス間の不変構造を探索することを奨励し、テスト時に見えないドメインでモデルロバスト性を改善する。 大規模ビデオデータセット(BDD100KとWaymoオープンデータ)の自己教師型タスクと連動してオブジェクト検出器を訓練する場合、ドメイン外パフォーマンスの改善が一貫した。 共同トレーニングフレームワークはまた、標準の教師なしドメイン適応検出ベンチマーク(Cityscapes、Fogy Cityscapes、Sim10K)に新たな最先端技術を確立する。 プロジェクトのページはhttps://xinw.ai/cyc- confで公開されている。

Building reliable object detectors that are robust to domain shifts, such as various changes in context, viewpoint, and object appearances, is critical for real-world applications. In this work, we study the effectiveness of auxiliary self-supervised tasks to improve the out-of-distribution generalization of object detectors. Inspired by the principle of maximum entropy, we introduce a novel self-supervised task, instance-level temporal cycle confusion (CycConf), which operates on the region features of the object detectors. For each object, the task is to find the most different object proposals in the adjacent frame in a video and then cycle back to itself for self-supervision. CycConf encourages the object detector to explore invariant structures across instances under various motions, which leads to improved model robustness in unseen domains at test time. We observe consistent out-of-domain performance improvements when training object detectors in tandem with self-supervised tasks on large-scale video datasets (BDD100K and Waymo open data). The joint training framework also establishes a new state-of-the-art on standard unsupervised domain adaptative detection benchmarks (Cityscapes, Foggy Cityscapes, and Sim10K). The project page is available at https://xinw.ai/cyc- conf.
翻訳日:2021-04-24 11:24:50 公開日:2021-04-16
# (参考訳) 言語横断課題に対応した「ウィキリー」ニューラルネットワーク翻訳 [全文訳有]

"Wikily" Neural Machine Translation Tailored to Cross-Lingual Tasks ( http://arxiv.org/abs/2104.08384v1 )

ライセンス: CC BY 4.0
Mohammad Sadegh Rasooli, Chris Callison-Burch, Derry Tanti Wijaya(参考訳) 我々は、外部の並列データや対象言語の教師付きモデルからの直接の監督を使わずに、画像キャプションや依存関係解析の言語間タスクと同様に、ニューラルネットワーク翻訳にウィキペディアを活用するための単純だが効果的なアプローチを提案する。 リンクされたwikipediaページの最初の文とタイトル、およびクロスリンガル画像キャプションは、ウィキペディアからパラレルテキストをマイニングするためのバイリンガル辞書とクロスリンガル単語埋め込みを抽出するためのシード並列データのための強いシグナルであることを示す。 我々の最終モデルは、低リソース言語における強い教師付きベースラインに近いか、時には高いBLEUスコアを達成する。 英国・カザフスタンのモデルによるBLEUは4.0対12.1である。 さらに、ウィキリー翻訳モデルを教師なし画像キャプションと言語間依存関係パーサ転送に調整する。 画像キャプションでは、アラビア語の訓練データが英語のキャプションデータのウィキリー翻訳であるアラビア語と英語のマルチタスク機械翻訳と画像キャプションパイプラインを訓練する。 アラビア語の字幕化の結果は、教師付きモデルよりも若干優れている。 依存関係解析では、大量の単言語テキストを翻訳し、アノテーション投影フレームワークにおける人工的なトレーニングデータとして使用する。 我々のモデルは、依存関係パーサの言語間転送に関する最近の研究よりも優れていることを示す。

We present a simple but effective approach for leveraging Wikipedia for neural machine translation as well as cross-lingual tasks of image captioning and dependency parsing without using any direct supervision from external parallel data or supervised models in the target language. We show that first sentences and titles of linked Wikipedia pages, as well as cross-lingual image captions, are strong signals for a seed parallel data to extract bilingual dictionaries and cross-lingual word embeddings for mining parallel text from Wikipedia. Our final model achieves high BLEU scores that are close to or sometimes higher than strong supervised baselines in low-resource languages; e.g. supervised BLEU of 4.0 versus 12.1 from our model in English-to-Kazakh. Moreover, we tailor our wikily translation models to unsupervised image captioning and cross-lingual dependency parser transfer. In image captioning, we train a multi-tasking machine translation and image captioning pipeline for Arabic and English from which the Arabic training data is a wikily translation of the English captioning data. Our captioning results in Arabic are slightly better than that of its supervised model. In dependency parsing, we translate a large amount of monolingual text, and use it as an artificial training data in an annotation projection framework. We show that our model outperforms recent work on cross-lingual transfer of dependency parsers.
翻訳日:2021-04-24 11:07:39 公開日:2021-04-16
# (参考訳) Re-TACRED:TACREDデータセットの欠点に対処 [全文訳有]

Re-TACRED: Addressing Shortcomings of the TACRED Dataset ( http://arxiv.org/abs/2104.08398v1 )

ライセンス: CC BY 4.0
George Stoica, Emmanouil Antonios Platanios, Barnab\'as P\'oczos(参考訳) TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。 このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。 しかし、外部知識を活用しながら大きなエラー率を示し、大きなテキストコーパスで教師なし事前学習を行っている。 最近の研究によると、これはデータセットの品質が低いためかもしれない。 研究は、開発およびテストセットの最も難しい文の50%以上が誤ってラベル付けされており、モデル性能が平均8%f1-score低下していることを報告した。 しかし,本研究は5k文(合計106k文中)の小さな偏りのサンプルに限られており,その一般化可能性やより広い意味を著しく制限している。 本稿では,これらの欠点について,(i)tacredデータセット全体の包括的調査,(ii)クラウドソーシング戦略の改善の提案,(iii)tacredアノテーションの修正が以前公表された結果にどのように影響するかを理解するために,徹底的な分析を行う。 検証の結果,TACREDラベルの23.9%が誤りであることがわかった。 さらに、修正データセット上でいくつかのモデルを評価することで、平均f1スコアの14.3%の改善が得られ、異なるモデル間の重要な関係を明らかにするのに役立ちます。 最後に、我々の分析とは別に、関係抽出モデルの信頼性評価に使用できるTACREDデータセットの完全再注釈版であるRe-TACREDをリリースする。

TACRED is one of the largest and most widely used sentence-level relation extraction datasets. Proposed models that are evaluated using this dataset consistently set new state-of-the-art performance. However, they still exhibit large error rates despite leveraging external knowledge and unsupervised pretraining on large text corpora. A recent study suggested that this may be due to poor dataset quality. The study observed that over 50% of the most challenging sentences from the development and test sets are incorrectly labeled and account for an average drop of 8% f1-score in model performance. However, this study was limited to a small biased sample of 5k (out of a total of 106k) sentences, substantially restricting the generalizability and broader implications of its findings. In this paper, we address these shortcomings by: (i) performing a comprehensive study over the whole TACRED dataset, (ii) proposing an improved crowdsourcing strategy and deploying it to re-annotate the whole dataset, and (iii) performing a thorough analysis to understand how correcting the TACRED annotations affects previously published results. After verification, we observed that 23.9% of TACRED labels are incorrect. Moreover, evaluating several models on our revised dataset yields an average f1-score improvement of 14.3% and helps uncover significant relationships between the different models (rather than simply offsetting or scaling their scores by a constant factor). Finally, aside from our analysis we also release Re-TACRED, a new completely re-annotated version of the TACRED dataset that can be used to perform reliable evaluation of relation extraction models.
翻訳日:2021-04-24 10:29:01 公開日:2021-04-16
# (参考訳) 対話グラフとアクショングラフによる構造認識抽象会話要約 [全文訳有]

Structure-Aware Abstractive Conversation Summarization via Discourse and Action Graphs ( http://arxiv.org/abs/2104.08400v1 )

ライセンス: CC BY 4.0
Jiaao Chen, Diyi Yang(参考訳) 近年,抽象的会話要約が注目されている。 しかし、これらの生成した要約は、主に人間と人間の相互作用の非構造的で複雑な特徴のために、不十分、冗長、あるいは不正確な内容に苦しむことが多い。 この目的のために,まず発話とアクショントリプル間の会話関係(who-doing-what)を構造化グラフを通して包含し,会話のエンコードを改善すること,次に,すべてのレベルの情報を結合して要約を生成するマルチグラニュラ性デコーダを設計することで,会話のリッチな構造を明示的にモデル化することを提案する。 実験により,提案モデルが最先端手法を上回っており,自動評価と人間の判断の両面で,他の領域でもよく一般化できることを示した。 コードをhttps://github.com/G T-SALT/Structure-Awa re-BARTで公開しています。

Abstractive conversation summarization has received much attention recently. However, these generated summaries often suffer from insufficient, redundant, or incorrect content, largely due to the unstructured and complex characteristics of human-human interactions. To this end, we propose to explicitly model the rich structures in conversations for more precise and accurate conversation summarization, by first incorporating discourse relations between utterances and action triples ("who-doing-what") in utterances through structured graphs to better encode conversations, and then designing a multi-granularity decoder to generate summaries by combining all levels of information. Experiments show that our proposed models outperform state-of-the-art methods and generalize well in other domains in terms of both automatic evaluations and human judgments. We have publicly released our code at https://github.com/G T-SALT/Structure-Awa re-BART.
翻訳日:2021-04-24 10:10:51 公開日:2021-04-16
# (参考訳) 永続記憶を用いたモデル信念の豊かさ化 [全文訳有]

Enriching a Model's Notion of Belief using a Persistent Memory ( http://arxiv.org/abs/2104.08401v1 )

ライセンス: CC BY 4.0
Nora Kassner, Oyvind Tafjord, Hinrich Schutze, Peter Clark(参考訳) 事前訓練された言語モデル (PTLM) には膨大な量の世界知識が含まれていることが示されているが, 特殊な訓練手法を用いて不整合を減らした後でも, 質問に対して不整合な回答を得られる。 その結果、モデルが実際に世界について「信じている」ものを特定することは困難である。 私たちの目標はこの問題を減らすことで、システムはよりグローバルに一貫性があり、回答が正確です。 私たちのアプローチは、モデルの回答を記録するメモリコンポーネント(BeliefBank)と、それを使って信念間の一貫性を改善する2つのメカニズムを追加することです。 第一に、推論コンポーネント(重み付けSATソルバ)は、他のものと大きく衝突する回答をひっくり返すことで一貫性を向上させる。 第二に、フィードバックコンポーネントはモデルを再クエリするが、既知の信念をコンテキストとして使用する。 制御された実験環境では、これらの2つのメカニズムが精度と一貫性の両方を改善していることを示す。 これは、進化するメモリでモデルを実現するための第一歩であり、より一貫性のある世界像を構築することができるため、重要である。

Although pretrained language models (PTLMs) have been shown to contain significant amounts of world knowledge, they can still produce inconsistent answers to questions when probed, even after using specialized training techniques to reduce inconsistency. As a result, it can be hard to identify what the model actually "believes" about the world. Our goal is to reduce this problem, so systems are more globally consistent and accurate in their answers. Our approach is to add a memory component - a BeliefBank - that records a model's answers, and two mechanisms that use it to improve consistency among beliefs. First, a reasoning component - a weighted SAT solver - improves consistency by flipping answers that significantly clash with others. Second, a feedback component re-queries the model but using known beliefs as context. We show that, in a controlled experimental setting, these two mechanisms improve both accuracy and consistency. This is significant as it is a first step towards endowing models with an evolving memory, allowing them to construct a more coherent picture of the world.
翻訳日:2021-04-24 09:54:17 公開日:2021-04-16
# (参考訳) 学習に基づく教材圧縮とテクスチャ認識 [全文訳有]

Learning-based Compression for Material and Texture Recognition ( http://arxiv.org/abs/2104.10065v1 )

ライセンス: CC BY 4.0
Yingpeng Deng and Lina J. Karam(参考訳) 学習に基づく画像圧縮は、最先端の変換ベースのコーデックと競合する性能を発揮する。 これはJPEG-AIのような新しい学習ベースのビジュアル圧縮標準の開発を動機づけた。 これらの新しい標準に対する特に関心は、人間と機械の両方をターゲットにした学習ベースの画像圧縮システムの開発である。 本稿では,圧縮領域表現を用いて,圧縮領域内で直接視覚処理やコンピュータビジョンタスクを行う学習ベース圧縮方式について述べる。 このような特徴は、新しいJPEG-AI標準の範囲と要件の一部として組み込まれている。 本研究では,各ビットレートの圧縮ドメイン潜在表現を用いて,材料およびテクスチャ認識を行うための学習ベースのJPEG-AIフレームワークを採用した。 比較のために、画素領域内の圧縮画像と完全復号画像と、元の非圧縮画像とを用いて、性能結果を示す。 得られた結果から,復号化画像は原画像で訓練されたモデルの分類性能を劣化させることができるが,復号化画像でモデルを再訓練することで,採用したテクスチャデータセットのパフォーマンスギャップを大幅に低減できることがわかった。 また, 圧縮領域分類は, より小さな縮小複雑度分類モデルを用いてTop-1とTop-5の精度で競合性能が得られることを示した。

Learning-based image compression was shown to achieve a competitive performance with state-of-the-art transform-based codecs. This motivated the development of new learning-based visual compression standards such as JPEG-AI. Of particular interest to these emerging standards is the development of learning-based image compression systems targeting both humans and machines. This paper is concerned with learning-based compression schemes whose compressed-domain representations can be utilized to perform visual processing and computer vision tasks directly in the compressed domain. Such a characteristic has been incorporated as part of the scope and requirements of the new emerging JPEG-AI standard. In our work, we adopt the learning-based JPEG-AI framework for performing material and texture recognition using the compressed-domain latent representation at varing bit-rates. For comparison, performance results are presented using compressed but fully decoded images in the pixel domain as well as original uncompressed images. The obtained performance results show that even though decoded images can degrade the classification performance of the model trained with original images, retraining the model with decoded images will largely reduce the performance gap for the adopted texture dataset. It is also shown that the compressed-domain classification can yield a competitive performance in terms of Top-1 and Top-5 accuracy while using a smaller reduced-complexity classification model.
翻訳日:2021-04-24 09:40:02 公開日:2021-04-16
# (参考訳) LAMPRET:文書理解のためのレイアウト対応マルチモーダル事前調査 [全文訳有]

LAMPRET: Layout-Aware Multimodal PreTraining for Document Understanding ( http://arxiv.org/abs/2104.08405v1 )

ライセンス: CC BY 4.0
Te-Lin Wu, Cheng Li, Mingyang Zhang, Tao Chen, Spurthi Amba Hombaiah, Michael Bendersky(参考訳) ドキュメントレイアウトは構造とビジュアルの両方からなる(例)。 フォントサイズ) 重要な情報だが、機械学習モデルによって無視されることが多い。 レイアウト情報を利用する数少ない既存モデルは、テキストの内容のみを考慮し、画像などの他のモダリティにおけるコンテンツの存在を見落としている。 さらに、レイアウト内の提示されたコンテンツの空間的相互作用は、実際に完全に活用されることはなかった。 このギャップを埋めるために、文書をコンテンツブロック(例えば、)にパースします。 テキスト、テーブル、画像) と、ブロックとドキュメント全体をモデル化するレイアウト対応の新しいマルチモーダル階層フレームワーク LAMPreT を提案する。 当社のlampretは,低レベルのマルチモーダルトランスフォーマーで各ブロックをエンコードし,高レベルに特別に設計されたトランスフォーマーを使用して,ブロックレベルの表現と接続を集約する。 我々は,マルチモーダル接地モデルと同様に低レベルモデルが訓練される階層的事前学習目標を設計,高レベルモデルは提案するレイアウト認識目標を用いて訓練する。 提案する2つのレイアウト認識タスク - テキストブロック充填と画像提案 - における提案モデルを評価し,提案する階層的アーキテクチャと事前学習手法の有効性を示す。

Document layout comprises both structural and visual (eg. font-sizes) information that is vital but often ignored by machine learning models. The few existing models which do use layout information only consider textual contents, and overlook the existence of contents in other modalities such as images. Additionally, spatial interactions of presented contents in a layout were never really fully exploited. To bridge this gap, we parse a document into content blocks (eg. text, table, image) and propose a novel layout-aware multimodal hierarchical framework, LAMPreT, to model the blocks and the whole document. Our LAMPreT encodes each block with a multimodal transformer in the lower-level and aggregates the block-level representations and connections utilizing a specifically designed transformer at the higher-level. We design hierarchical pretraining objectives where the lower-level model is trained similarly to multimodal grounding models, and the higher-level model is trained with our proposed novel layout-aware objectives. We evaluate the proposed model on two layout-aware tasks -- text block filling and image suggestion and show the effectiveness of our proposed hierarchical architecture as well as pretraining techniques.
翻訳日:2021-04-24 09:33:35 公開日:2021-04-16
# EarthNet2021: ガイド付きビデオ予測タスクとしての地球表面予測のための大規模データセットと課題

EarthNet2021: A large-scale dataset and challenge for Earth surface forecasting as a guided video prediction task ( http://arxiv.org/abs/2104.10066v1 )

ライセンス: Link先を確認
Christian Requena-Mesa, Vitus Benson, Markus Reichstein, Jakob Runge, Joachim Denzler(参考訳) 衛星画像は地球表面のスナップショットである。 我々はそれらを予測することを提案する。 我々は将来の天気に合わせた衛星画像の予測作業として地球表面の予測を行う。 earthnet2021は、タスク上のディープニューラルネットワークのトレーニングに適した大きなデータセットである。 20m解像度のセンチネル2衛星画像を含み、32000サンプルにパッケージされた地形とメソスケール(1.28km)の気象変数に一致する。 さらに、モデル相互比較が可能な課題として、EarthNet2021を定めています。 結果の予測は、数値モデルで見られる空間分解能を大幅に改善する(>x50)。 これにより、極度の天候による局所的な影響を予測することができ、収穫量の予測、森林の健康評価、生物多様性モニタリングといった下流の応用をサポートすることができる。 www.earthnet.techにおけるデータ、コード、参加方法

Satellite images are snapshots of the Earth surface. We propose to forecast them. We frame Earth surface forecasting as the task of predicting satellite imagery conditioned on future weather. EarthNet2021 is a large dataset suitable for training deep neural networks on the task. It contains Sentinel 2 satellite imagery at 20m resolution, matching topography and mesoscale (1.28km) meteorological variables packaged into 32000 samples. Additionally we frame EarthNet2021 as a challenge allowing for model intercomparison. Resulting forecasts will greatly improve (>x50) over the spatial resolution found in numerical models. This allows localized impacts from extreme weather to be predicted, thus supporting downstream applications such as crop yield prediction, forest health assessments or biodiversity monitoring. Find data, code, and how to participate at www.earthnet.tech
翻訳日:2021-04-21 13:52:29 公開日:2021-04-16
# クラウドアプリケーションのデプロイのためのhtn計画ドメイン

HTN Planning Domain for Deployment of Cloud Applications ( http://arxiv.org/abs/2104.10027v1 )

ライセンス: Link先を確認
Ilche Georgievski(参考訳) クラウドプロバイダは、インフラストラクチャにデプロイ可能なソフトウェアアプリケーションを設定する際に、複雑な問題に直面しています。 階層型タスクネットワーク(HTN)プランニングは、そのようなデプロイメント問題を解決する効果的な手段を提供する。 現実的なクラウド環境で見られるデプロイメント問題をモデル化するHTNプランニングドメインを提案する。

Cloud providers are facing a complex problem in configuring software applications ready for deployment on their infrastructures. Hierarchical Task Network (HTN) planning can provide effective means to solve such deployment problems. We present an HTN planning domain that models deployment problems as found in realistic Cloud environments.
翻訳日:2021-04-21 13:32:28 公開日:2021-04-16
# Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic Parsing (特集:情報ネットワーク)

Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic Parsing ( http://arxiv.org/abs/2104.07275v2 )

ライセンス: Link先を確認
Akshat Shrivastava, Pierce Chuang, Arun Babu, Shrey Desai, Abhinav Arora, Alexander Zotov, Ahmed Aly(参考訳) seq2seq, non-autoregressive, task-oriented parser をセマンティックフレームにマッピングするための効果的なレシピは、発話を$x$で符号化し、フレームの長さ |y| を予測し、発話トークンとオントロジートークンで |y| サイズのフレームをデコードする、3つのステップで進行する。 経験的に強いが、通常、これらのモデルは長さ予測によってボトルネックとなり、小さな不正確さでも結果のフレームの構文的特徴と意味的特徴が変化する。 本研究では,テキスト生成からスパン予測へデコードタスクをシフトするスパンポインターネットワーク,非自己回帰解析器を提案する。つまり,発話をフレームスロットに分散させると,テキスト(例:「6pm」)ではなくエンドポイント(例: [i, j])を生成する。 この出力空間の自然な量子化は金のフレームの変動性を減少させ、長さの予測を改善し、最終的に正確に一致する。 さらに、長さ予測がフレーム構文に責任を負い、デコーダがフレームセマンティクスに責任を持ち、粗大なモデルが生まれる。 いくつかのタスク指向のセマンティックパーシングデータセットに対するアプローチを評価する。 特に,TOPv2(Chen et al.)上で87EMを達成した非自己回帰パーサと自己回帰パーサ間の品質ギャップを橋渡しする。 2020). さらに、より一貫した金フレームにより、低リソース環境におけるクロスドメインおよびクロスランガル転送におけるモデル一般化の強化を示す。 最後に, 出力語彙の低下により, 従来の非自己回帰型パーサーと比較して, 遅延の70%低減とビームサイズ5でのメモリの83%削減が観察された。

An effective recipe for building seq2seq, non-autoregressive, task-oriented parsers to map utterances to semantic frames proceeds in three steps: encoding an utterance $x$, predicting a frame's length |y|, and decoding a |y|-sized frame with utterance and ontology tokens. Though empirically strong, these models are typically bottlenecked by length prediction, as even small inaccuracies change the syntactic and semantic characteristics of resulting frames. In our work, we propose span pointer networks, non-autoregressive parsers which shift the decoding task from text generation to span prediction; that is, when imputing utterance spans into frame slots, our model produces endpoints (e.g., [i, j]) as opposed to text (e.g., "6pm"). This natural quantization of the output space reduces the variability of gold frames, therefore improving length prediction and, ultimately, exact match. Furthermore, length prediction is now responsible for frame syntax and the decoder is responsible for frame semantics, resulting in a coarse-to-fine model. We evaluate our approach on several task-oriented semantic parsing datasets. Notably, we bridge the quality gap between non-autogressive and autoregressive parsers, achieving 87 EM on TOPv2 (Chen et al. 2020). Furthermore, due to our more consistent gold frames, we show strong improvements in model generalization in both cross-domain and cross-lingual transfer in low-resource settings. Finally, due to our diminished output vocabulary, we observe 70% reduction in latency and 83% reduction in memory at beam size 5 compared to prior non-autoregressive parsers.
翻訳日:2021-04-20 14:52:50 公開日:2021-04-16
# 言語はビジョンモデルの一般化に役立つか?

Does language help generalization in vision models? ( http://arxiv.org/abs/2104.08313v1 )

ライセンス: Link先を確認
Benjamin Devillers, Romain Bielawski, Bhavin Choski and Rufin VanRullen(参考訳) マルチモーダルデータセットでトレーニングされたビジョンモデルは、大規模な画像キャプチャデータセットが広く利用可能である点と、結果のモデルが複数の下流タスク(例えば、)に一般化できる点の両方において、最近非常に効率的であることが証明された。 ゼロショット学習)。 これらの能力は、少なくとも部分的には、視覚特徴空間の「理論的根拠」から導出され、言語表現の空間を反映して意味のある構造を学ぶと仮定できる。 この直感とは対照的に、非常に大規模な教師付き画像データセット(ImageNet-21k)で訓練された視覚モデル(BiT-M)は、そのマルチモーダル・クラスタリング(CLIP)と同じくらい効率的に一般化できることを示す。 他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。 これらの結果から,現在のモデルの一般化を推進している主な要因は,マルチモーダル接地特性ではなく,トレーニングデータセットのサイズであることがわかった。

Vision models trained on multimodal datasets have recently proved very efficient, both in terms of the wide availability of large image-caption datasets, and in terms of the resulting model's ability to generalize to multiple downstream tasks (e.g. zero-shot learning). One might assume that these abilities are derived, at least in part, from a "semantic grounding" of the visual feature space, learning meaningful structure by mirroring the space of linguistic representations. Contrary to this intuition, we show that a visual model (BiT-M) trained on a very large supervised image dataset (ImageNet-21k) can be as efficient for generalization (few-shot learning, unsupervised clustering) as its multimodal counterpart (CLIP). When compared to other standard visual or language models, the latent representations of BiT-M were found to be just as "linguistic" as those of CLIP. Overall, these findings suggest that the main factor driving improvements of generalization in current models is the size of the training dataset, not (solely) the multimodal grounding property.
翻訳日:2021-04-20 14:50:02 公開日:2021-04-16
# Text2App: テキスト記述からAndroidアプリを作成するフレームワーク

Text2App: A Framework for Creating Android Apps from Text Descriptions ( http://arxiv.org/abs/2104.08301v1 )

ライセンス: Link先を確認
Masum Hasan, Kazi Sajeed Mehrab, Wasi Uddin Ahmad, Rifat Shahriyar(参考訳) Text2Appは、ユーザーが自然言語仕様から機能的なAndroidアプリケーションを作成できるフレームワークです。 従来のソースコード生成手法はソースコードを直接生成しようとするが、複雑なソフトウェアを作成するには実用的ではない。 この制限を克服するために、自然言語をかなり少ない数のトークンを持つアプリケーションを表す抽象的な中間形式言語に変換する。 中間形式表現は対象のソースコードにコンパイルされる。 このプログラミングの詳細の抽象化により、seq2seqネットワークはより少ないオーバーヘッドで複雑なアプリケーション構造を学べる。 シーケンスモデルをトレーニングするために,人間のサーベイに基盤を置くデータ合成手法を提案する。 text2appは、アプリコンポーネントの見当たらない組み合わせにうまく一般化し、ノイズの多い自然言語命令を処理できることを実証する。 我々は,大規模事前学習型言語モデルであるGPT-3とシステムとを結合することにより,高度に抽象的な命令からアプリケーションを作成する可能性を探る。 ソースコード、デモノートブック、デモビデオは、 \url{http://text2app.gith ub.io}で公開されている。

We present Text2App -- a framework that allows users to create functional Android applications from natural language specifications. The conventional method of source code generation tries to generate source code directly, which is impractical for creating complex software. We overcome this limitation by transforming natural language into an abstract intermediate formal language representing an application with a substantially smaller number of tokens. The intermediate formal representation is then compiled into target source codes. This abstraction of programming details allows seq2seq networks to learn complex application structures with less overhead. In order to train sequence models, we introduce a data synthesis method grounded in a human survey. We demonstrate that Text2App generalizes well to unseen combination of app components and it is capable of handling noisy natural language instructions. We explore the possibility of creating applications from highly abstract instructions by coupling our system with GPT-3 -- a large pretrained language model. The source code, a ready-to-run demo notebook, and a demo video are publicly available at \url{http://text2app.gith ub.io}.
翻訳日:2021-04-20 14:44:53 公開日:2021-04-16
# 変圧器によるテーブル上の質問応答におけるロウとカラムのセマンティックス

Capturing Row and Column Semantics in Transformer Based Question Answering over Tables ( http://arxiv.org/abs/2104.08303v1 )

ライセンス: Link先を確認
Michael Glass, Mustafa Canim, Alfio Gliozzo, Saneem Chemmengath, Rishav Chakravarti, Avi Sil, Feifei Pan, Samarth Bharadwaj, Nicolas Rodolfo Fauceglia(参考訳) トランスフォーマーベースのアーキテクチャは最近、テーブル上の質問に答えるタスクに使われている。 このタスクの精度を向上させるために、数百万のオープンドメインWebテーブルに特別な事前学習技術を開発し、適用した。 本稿では,これらの特化事前学習技術を使わずに,テーブルQAタスクにおいて優れた性能が得られることを示す2つの新しい手法を提案する。 最初のモデルはrci interactionと呼ばれ、行と列を独立に分類して関連するセルを識別するtransformerベースのアーキテクチャを利用している。 このモデルは最近のベンチマークにおけるセル値の精度は極めて高いが、RCI表現と呼ばれる第2のモデルは、既存のテーブルへの埋め込みを実体化することによって、テーブル上のオンラインQAシステムに対して大きな効率性をもたらす。 最近のベンチマークの実験では、提案手法がテーブル上のセル値を効果的に検出できることが証明されている(WikiSQLのルックアップ質問では、最大98%のHit@1精度)。 また、インタラクションモデルは、非常に大きなテーブルコーパス(TAPASとTaBERT)で事前訓練された最先端のトランスフォーマーベースのアプローチよりも優れており、標準のWikiSQLベンチマークでは3.4%と18.86%の精度向上を実現している。

Transformer based architectures are recently used for the task of answering questions over tables. In order to improve the accuracy on this task, specialized pre-training techniques have been developed and applied on millions of open-domain web tables. In this paper, we propose two novel approaches demonstrating that one can achieve superior performance on table QA task without even using any of these specialized pre-training techniques. The first model, called RCI interaction, leverages a transformer based architecture that independently classifies rows and columns to identify relevant cells. While this model yields extremely high accuracy at finding cell values on recent benchmarks, a second model we propose, called RCI representation, provides a significant efficiency advantage for online QA systems over tables by materializing embeddings for existing tables. Experiments on recent benchmarks prove that the proposed methods can effectively locate cell values on tables (up to ~98% Hit@1 accuracy on WikiSQL lookup questions). Also, the interaction model outperforms the state-of-the-art transformer based approaches, pre-trained on very large table corpora (TAPAS and TaBERT), achieving ~3.4% and ~18.86% additional precision improvement on the standard WikiSQL benchmark.
翻訳日:2021-04-20 14:44:37 公開日:2021-04-16
# 騒音によるドライアウト:トラッキングフリー運動予測のための証拠

Drowned out by the noise: Evidence for Tracking-free Motion Prediction ( http://arxiv.org/abs/2104.08368v1 )

ライセンス: Link先を確認
Ameni Trabelsi, Ross J. Beveridge and Nathaniel Blanchard(参考訳) 自律運転は多数の相互作用するモジュールで構成され、各モジュールは他のモジュールからのエラーと競合しなければならない。 通常、動作予測モジュールは各エージェントの過去の動きを捉えるための堅牢なトラッキングシステムに依存する。 本研究では,動作予測タスクにおけるトラッキングモジュールの重要性を体系的に検討し,最終的に,モジュールが不完全である場合(誤差1%)に,トラッキングモジュールが全体の動作予測性能に有害であると結論付ける。 追跡情報を使用するモデルと、複数のシナリオや条件にまたがらないモデルを明確に比較します。 追跡情報はノイズのない条件下でのみ性能を向上させる。 ノイズフリートラッカーは、現実のシナリオではノイズフリーである可能性は低く、必然的なノイズがパフォーマンスに悪影響を及ぼす。 したがって、モーション/トラッキングモジュールの開発とテストを行う場合や、トラッキングコンポーネントを完全に廃止すべき場合、将来の作業はノイズに留意すべきである。

Autonomous driving consists of a multitude of interacting modules, where each module must contend with errors from the others. Typically, the motion prediction module depends on a robust tracking system to capture each agent's past movement. In this work, we systematically explore the importance of the tracking module for the motion prediction task and ultimately conclude that the tracking module is detrimental to overall motion prediction performance when the module is imperfect (with as low as 1% error). We explicitly compare models that use tracking information to models that do not across multiple scenarios and conditions. We find that the tracking information only improves performance in noise-free conditions. A noise-free tracker is unlikely to remain noise-free in real-world scenarios, and the inevitable noise will subsequently negatively affect performance. We thus argue future work should be mindful of noise when developing and testing motion/tracking modules, or that they should do away with the tracking component entirely.
翻訳日:2021-04-20 14:40:03 公開日:2021-04-16
# 神経文字列編集距離

Neural String Edit Distance ( http://arxiv.org/abs/2104.08388v1 )

ライセンス: Link先を確認
Jind\v{r}ich Libovick\'y, Alexander Fraser(参考訳) 学習した文字列編集距離に基づく文字列ペア分類とシーケンス生成のためのニューラルネットワーク編集距離モデルを提案する。 我々は,学習済み編集距離アルゴリズムを拡張可能な損失関数に変更し,入力の文脈表現を提供するニューラルネットワークに統合した。 本稿では,コグネート検出,音素変換,音素変換について検討する。 ひとつのフレームワークでパフォーマンスと解釈性をトレードオフできることを示します。 解釈が難しい文脈表現を用いることで、最先端の文字列ペア分類モデルの性能を一致させることができる。 静的な埋め込みと損失関数の微修正を用いることで、精度低下を犠牲にして解釈性を強制することができる。

We propose the neural string edit distance model for string-pair classification and sequence generation based on learned string edit distance. We modify the original expectation-maximiza tion learned edit distance algorithm into a differentiable loss function, allowing us to integrate it into a neural network providing a contextual representation of the input. We test the method on cognate detection, transliteration, and grapheme-to-phoneme conversion. We show that we can trade off between performance and interpretability in a single framework. Using contextual representations, which are difficult to interpret, we can match the performance of state-of-the-art string-pair classification models. Using static embeddings and a minor modification of the loss function, we can force interpretability, at the expense of an accuracy drop.
翻訳日:2021-04-20 14:38:07 公開日:2021-04-16
# グラフニューラルネットワークと自己教師付き事前学習による脳波からの自動発作検出と発作型分類

Automated Seizure Detection and Seizure Type Classification From Electroencephalograp hy With a Graph Neural Network and Self-Supervised Pre-Training ( http://arxiv.org/abs/2104.08336v1 )

ライセンス: Link先を確認
Siyi Tang, Jared A. Dunnmon, Khaled Saab, Xuan Zhang, Qianying Huang, Florian Dubost, Daniel L. Rubin, Christopher Lee-Messer(参考訳) 脳波による発作の自動検出と分類は、発作の診断と治療を大幅に改善することができる。 従来の研究では、脳波信号やスペクトログラムで画像のような構造を仮定する畳み込みニューラルネットワーク(cnns)を使用していたが、このモデリングの選択は脳波電極間の自然な形状や接続性を反映していない。 本研究では,脳波をグラフとしてモデル化し,自動発作検出と分類のためのグラフニューラルネットワークを提案する。 さらに,自己教師付き事前学習戦略を用いて,ラベルなし脳波データを活用する。 自己教師付き事前学習によるグラフモデルでは, 発作型分類のための重み付きF1スコアが6.3ポイント (7.8%) , 受信者動作曲線曲線 (AUROC) が6.3ポイント (9.2%) で, 従来のCNNとLong Short-Term Memory (LSTM) モデルよりも有意に優れていた。 アブレーション研究は,既存のcnnモデルやlstmモデルよりもグラフベースのモデリングアプローチが著しく優れており,自己スーパービジョンはモデル性能の向上に寄与することを示した。 さらに, 自己指導型プレトレーニングは, 低頻度のけいれん型, 同時性けいれんのモデル性能を著しく向上させることがわかった。 さらに,本モデルでは,既存のCNNと比較して,発作領域の同定が優れていることが示唆された。 要約すると、我々のグラフベースのモデリングアプローチは、脳波に関するドメイン知識を統合し、大規模なパブリックデータセット(5,499のEEGファイル)上で、発作検出と分類のための新しい最先端技術を設定し、発作領域を識別する能力を向上させる。

Automated seizure detection and classification from electroencephalograp hy (EEG) can greatly improve the diagnosis and treatment of seizures. While prior studies mainly used convolutional neural networks (CNNs) that assume image-like structure in EEG signals or spectrograms, this modeling choice does not reflect the natural geometry of or connectivity between EEG electrodes. In this study, we propose modeling EEGs as graphs and present a graph neural network for automated seizure detection and classification. In addition, we leverage unlabeled EEG data using a self-supervised pre-training strategy. Our graph model with self-supervised pre-training significantly outperforms previous state-of-the-art CNN and Long Short-Term Memory (LSTM) models by 6.3 points (7.8%) in Area Under the Receiver Operating Characteristic curve (AUROC) for seizure detection and 6.3 points (9.2%) in weighted F1-score for seizure type classification. Ablation studies show that our graph-based modeling approach significantly outperforms existing CNN or LSTM models, and that self-supervision helps further improve the model performance. Moreover, we find that self-supervised pre-training substantially improves model performance on combined tonic seizures, a low-prevalence seizure type. Furthermore, our model interpretability analysis suggests that our model is better at identifying seizure regions compared to an existing CNN. In summary, our graph-based modeling approach integrates domain knowledge about EEG, sets a new state-of-the-art for seizure detection and classification on a large public dataset (5,499 EEG files), and provides better ability to identify seizure regions.
翻訳日:2021-04-20 14:25:06 公開日:2021-04-16
# スパースディープニューラルネットワークの高速化

Accelerating Sparse Deep Neural Networks ( http://arxiv.org/abs/2104.08378v1 )

ライセンス: Link先を確認
Asit Mishra, Jorge Albericio Latorre, Jeff Pool, Darko Stosic, Dusan Stosic, Ganesh Venkatesh, Chong Yu, Paulius Micikevicius(参考訳) ニューラルネットワークモデルのサイズが劇的に大きくなるにつれて、パラメータの数を減らし、実行を加速する様々な技術への関心が高まっている。 この分野での活発な研究領域は、ストレージや計算から破棄できるパラメータでゼロ値を生成するsparsityである。 ほとんどの研究は、高レベルの空間性に焦点を当てているが、モデル精度を普遍的に維持することや、現代の行列行列行列ハードウェア上での大幅な高速化には課題がある。 sparsityの採用を実用的にするために、nvidia ampere gpuアーキテクチャは、行列数ユニットtensor coresでsparsityをサポートする。 本研究では,密度行列ユニットの計算スループットを2倍にする2:4 (50%) のスパースパターンを利用したスパーステンソルコアの設計と挙動を示す。 また、2:4のスパーシティパターン要件を満たし、精度を維持し、幅広い共通タスクやモデルアーキテクチャで検証するネットワークのトレーニングワークフローについても記述する。 このワークフローにより、スパーステンソルコアへの効率的なデプロイのための正確なモデルを簡単に作成できる。

As neural network model sizes have dramatically increased, so has the interest in various techniques to reduce their parameter counts and accelerate their execution. An active area of research in this field is sparsity - encouraging zero values in parameters that can then be discarded from storage or computations. While most research focuses on high levels of sparsity, there are challenges in universally maintaining model accuracy as well as achieving significant speedups over modern matrix-math hardware. To make sparsity adoption practical, the NVIDIA Ampere GPU architecture introduces sparsity support in its matrix-math units, Tensor Cores. We present the design and behavior of Sparse Tensor Cores, which exploit a 2:4 (50%) sparsity pattern that leads to twice the math throughput of dense matrix units. We also describe a simple workflow for training networks that both satisfy 2:4 sparsity pattern requirements and maintain accuracy, verifying it on a wide range of common tasks and model architectures. This workflow makes it easy to prepare accurate models for efficient deployment on Sparse Tensor Cores.
翻訳日:2021-04-20 14:24:30 公開日:2021-04-16
# テスト時敵の存在下でのクロスエントロピー損失に対する下限

Lower Bounds on Cross-Entropy Loss in the Presence of Test-time Adversaries ( http://arxiv.org/abs/2104.08382v1 )

ライセンス: Link先を確認
Arjun Nitin Bhagoji, Daniel Cullina, Vikash Sehwag, Prateek Mittal(参考訳) 堅牢な教師付き学習の基本的な限界を理解することは、実践的・理論的両面から、大きな関心の的となっている。 特に,学習可能時の学習損失に対する分類器非依存境界を決定することが重要である。 本稿では,テスト時逆数の存在下でのクロスエントロピー損失の最適下限を,対応する最適分類出力とともに決定する。 最適化問題の解としてのバウンドの定式化は、ソフト分類器の出力に依存する損失関数を包含できるほど一般的である。 また,この下限を効率的に計算するアルゴリズムの提案と妥当性の証明を行い,複数の実用的データセットに対する下限の判定を可能にした。 我々は,現在のロバストなトレーニング手法の有効性を判定するための診断ツールとして下限を用い,より大きな予算での最適性とのギャップを見出した。 最後に,ロバストトレーニングを実証的に改善するために,最適な分類出力をソフトラベルとして用いる可能性を検討する。

Understanding the fundamental limits of robust supervised learning has emerged as a problem of immense interest, from both practical and theoretical standpoints. In particular, it is critical to determine classifier-agnostic bounds on the training loss to establish when learning is possible. In this paper, we determine optimal lower bounds on the cross-entropy loss in the presence of test-time adversaries, along with the corresponding optimal classification outputs. Our formulation of the bound as a solution to an optimization problem is general enough to encompass any loss function depending on soft classifier outputs. We also propose and provide a proof of correctness for a bespoke algorithm to compute this lower bound efficiently, allowing us to determine lower bounds for multiple practical datasets of interest. We use our lower bounds as a diagnostic tool to determine the effectiveness of current robust training methods and find a gap from optimality at larger budgets. Finally, we investigate the possibility of using of optimal classification outputs as soft labels to empirically improve robust training.
翻訳日:2021-04-20 14:24:14 公開日:2021-04-16
# $\alpha$-Posteriorの誤用に対するロバスト性とその変分近似について

On the Robustness to Misspecification of $\alpha$-Posteriors and Their Variational Approximations ( http://arxiv.org/abs/2104.08324v1 )

ライセンス: Link先を確認
Marco Avella Medina and Jos\'e Luis Montiel Olea and Cynthia Rush and Amilcar Velez(参考訳) $\alpha$-posteriorとその変分近似は、確率を下げ、変分近似エラーを導入することで標準後部推論を歪ませる。 このような歪みが適切に調整された場合、KL(Kullback-Leibler) の発散を真から減少させるが、おそらくパラメトリックモデルの誤特定がある場合、後続分布を減少させる。 これを実現するために、$\alpha$-posteriors の総変分距離の収束とガウス分布の制限に対するそれらの変分近似を示すベルンシュタイン・ヴォン・ミセスの定理を導出する。 我々はこれらの分布を用いて、真と報告後におけるKLのばらつきを評価する。 この発散はモデルの誤特定の可能性が無限に小さいと仮定して、1より厳密に小さい$\alpha$を選択することで最小化される。 誤特定が深刻になるにつれて、最適化された値が小さくなります。 最適化されたKL分散は、不特定性の度合いにおいて対数的に増加し、通常の後部ほど線形ではない。

$\alpha$-posteriors and their variational approximations distort standard posterior inference by downweighting the likelihood and introducing variational approximation errors. We show that such distortions, if tuned appropriately, reduce the Kullback-Leibler (KL) divergence from the true, but perhaps infeasible, posterior distribution when there is potential parametric model misspecification. To make this point, we derive a Bernstein-von Mises theorem showing convergence in total variation distance of $\alpha$-posteriors and their variational approximations to limiting Gaussian distributions. We use these distributions to evaluate the KL divergence between true and reported posteriors. We show this divergence is minimized by choosing $\alpha$ strictly smaller than one, assuming there is a vanishingly small probability of model misspecification. The optimized value becomes smaller as the the misspecification becomes more severe. The optimized KL divergence increases logarithmically in the degree of misspecification and not linearly as with the usual posterior.
翻訳日:2021-04-20 14:21:45 公開日:2021-04-16
# 非観察的共同設立者による因果推論の逐次分解

Sequential Deconfounding for Causal Inference with Unobserved Confounders ( http://arxiv.org/abs/2104.09323v1 )

ライセンス: Link先を確認
Tobias Hatt, Stefan Feuerriegel(参考訳) 観察データを用いて治療の効果を推定することは、ランダム化実験が実現不可能またはコストがかかる場合、意思決定の強力なツールである。 しかしながら、観測データはしばしば、治療の割り当ては観測されていない変数によって構成できるため、治療効果の偏りが見積もられる。 修正は、そのような監視されていない共同創設者に適応するメソッドのデコンファウンディングによって提供される。 本稿では、未保存の共同設立者の存在下で、時間とともに個別化された治療効果を推定できるSequential Deconfounderを開発する。 これは、一般的なシーケンシャルな設定(すなわち、各時間ステップに1つ以上の処理を割り当てる)で使用できる最初の分解方法である。 シーケンシャルデコンビナータは、新しいガウス過程潜在変数モデルを用いて、観察されていないコンビナータの代用品を推測し、その結果モデルと併用して、経時的治療効果を推定する。 本手法は, 経時的に個々の治療反応を偏りなく推定できることを実証する。 シミュレーションおよび実際の医療データを用いて、時間とともに治療反応を推定する手法の有効性を実証した。

Using observational data to estimate the effect of a treatment is a powerful tool for decision-making when randomized experiments are infeasible or costly. However, observational data often yields biased estimates of treatment effects, since treatment assignment can be confounded by unobserved variables. A remedy is offered by deconfounding methods that adjust for such unobserved confounders. In this paper, we develop the Sequential Deconfounder, a method that enables estimating individualized treatment effects over time in presence of unobserved confounders. This is the first deconfounding method that can be used in a general sequential setting (i.e., with one or more treatments assigned at each timestep). The Sequential Deconfounder uses a novel Gaussian process latent variable model to infer substitutes for the unobserved confounders, which are then used in conjunction with an outcome model to estimate treatment effects over time. We prove that using our method yields unbiased estimates of individualized treatment responses over time. Using simulated and real medical data, we demonstrate the efficacy of our method in deconfounding the estimation of treatment responses over time.
翻訳日:2021-04-20 14:21:08 公開日:2021-04-16
# ランダム・逆ビット誤差ロバスト性:エネルギー効率よくセキュアなDNN加速器

Random and Adversarial Bit Error Robustness: Energy-Efficient and Secure DNN Accelerators ( http://arxiv.org/abs/2104.08323v1 )

ライセンス: Link先を確認
David Stutz, Nandhini Chandramoorthy, Matthias Hein, Bernt Schiele(参考訳) 近年、Deep Neural Network(DNN)アクセラレーターは、主流のハードウェアと比較してエネルギー節約の可能性から、かなりの注目を集めている。 DNN加速器の低電圧動作はエネルギー消費を大幅に削減するが、量子化されたDNN重みを記憶するメモリのビットレベル障害を引き起こす。 さらに、dnn加速器は電圧制御装置や個々のビットに対する逆攻撃に弱いことが示されている。 本稿では,ロバストな固定点量子化,ウェイトクリッピング,およびランダムビット誤り訓練(RandBET)と逆ビット誤り訓練(AdvBET)を組み合わせることで,量子化されたDNN重みにおけるランダムビット誤りや逆ビット誤りに対するロバスト性を大幅に向上することを示す。 これは低電圧運転や低精度量子化のための高エネルギー化だけでなく、DNN加速器の安全性の向上にも繋がる。 提案手法は,SRAMアレイの動作電圧やアクセルのビット誤差を一般化し,ターゲットレベルとターゲットレベルの両方に対するロバスト性を実現する。 テスト精度の0.8%/2%以上を失うことなく、RandBETを用いた8/4ビット量子化ではCIFAR10のエネルギー消費量を20%/30%削減できる。 AdvBETは最大320ビットの誤りを許容し、テストエラーを90%以上(チャンスレベル)からCIFAR10で26.22%に削減する。

Deep neural network (DNN) accelerators received considerable attention in recent years due to the potential to save energy compared to mainstream hardware. Low-voltage operation of DNN accelerators allows to further reduce energy consumption significantly, however, causes bit-level failures in the memory storing the quantized DNN weights. Furthermore, DNN accelerators have been shown to be vulnerable to adversarial attacks on voltage controllers or individual bits. In this paper, we show that a combination of robust fixed-point quantization, weight clipping, as well as random bit error training (RandBET) or adversarial bit error training (AdvBET) improves robustness against random or adversarial bit errors in quantized DNN weights significantly. This leads not only to high energy savings for low-voltage operation as well as low-precision quantization, but also improves security of DNN accelerators. Our approach generalizes across operating voltages and accelerators, as demonstrated on bit errors from profiled SRAM arrays, and achieves robustness against both targeted and untargeted bit-level attacks. Without losing more than 0.8%/2% in test accuracy, we can reduce energy consumption on CIFAR10 by 20%/30% for 8/4-bit quantization using RandBET. Allowing up to 320 adversarial bit errors, AdvBET reduces test error from above 90% (chance level) to 26.22% on CIFAR10.
翻訳日:2021-04-20 14:19:15 公開日:2021-04-16
# 科学表からのテキスト生成のための推論学習

Learning to Reason for Text Generation from Scientific Tables ( http://arxiv.org/abs/2104.08296v1 )

ライセンス: Link先を確認
Nafise Sadat Moosavi, Andreas R\"uckl\'e, Dan Roth, Iryna Gurevych(参考訳) 本稿では,科学論文の表とそれに対応する記述からなる推論・認識データ対テキスト生成タスクのための,新たなチャレンジデータセットであるscigenを紹介する。 科学的な表を記述することは、表の内容の表面的実現を超えて、表の値に対する推論を必要とする。 scigenのユニークな性質は、(1)テーブルが主に数値を含むこと、(2)対応する記述には算術的推論が必要であることである。 従ってscigenは、複雑な入力構造、すなわち科学論文の表における生成モデルの算術推論能力を評価する最初のデータセットである。 本研究は,scigenにおける最先端データ対テキスト生成モデルの有効性について検討し,共通指標と人的評価を用いて結果を評価する。 実験結果と分析結果から, (a) 人間が科学的な表を記述することを好む一方で, 最先端モデルの能力はこのタスクにおいて著しく制限されており, (b) より多くのトレーニングデータを追加することで結果が改善される一方で, 推論を意識したテキスト生成の解決策ではなく, (c) 適切な自動評価指標が欠如していることが示唆された。 人間の評価のためのデータ、コード、アノテーションはhttps://github.com/U KPLab/SciGen.comで入手できる。 SciGenは、推論対応のテキスト生成と評価における将来の研究のための新たな道を開く。

In this paper, we introduce SciGen, a new challenge dataset for the task of reasoning-aware data-to-text generation consisting of tables from scientific articles and their corresponding descriptions. Describing scientific tables goes beyond the surface realization of the table content and requires reasoning over table values. The unique properties of SciGen are that (1) tables mostly contain numerical values, and (2) the corresponding descriptions require arithmetic reasoning. SciGen is therefore the first dataset that assesses the arithmetic reasoning capabilities of generation models on complex input structures, i.e., tables from scientific articles. We study the effectiveness of state-of-the-art data-to-text generation models on SciGen and evaluate the results using common metrics as well as human evaluation. Our results and analyses show that (a) while humans like to reason for describing scientific tables, the ability of state-of-the-art models is severely limited on this task, (b) while adding more training data improves the results, it is not the solution for reasoning-aware text generation, and (c) one of the main bottlenecks for this task is the lack of proper automatic evaluation metrics. The data, code, and annotations for human evaluation will be available at https://github.com/U KPLab/SciGen. SciGen opens new avenues for future research in reasoning-aware text generation and evaluation.
翻訳日:2021-04-20 14:17:52 公開日:2021-04-16
# 臨床言語モデルのメンバシップ推論攻撃感受性

Membership Inference Attack Susceptibility of Clinical Language Models ( http://arxiv.org/abs/2104.08305v1 )

ライセンス: Link先を確認
Abhyuday Jagannatha, Bhanu Pratap Singh Rawat, Hong Yu(参考訳) ディープニューラルネットワーク(DNN)モデルは、経験的なプライバシリークが高いことが示されている。 臨床データに基づいて訓練された臨床言語モデル(CLM)は、バイオメディカル自然言語処理タスクのパフォーマンス向上に使用されてきた。 本研究では,CLMへのホワイトボックスアクセスやブラックボックスアクセスによるトレーニングデータ漏洩のリスクについて検討する。 BERTやGPT2といったモデルアーキテクチャにおける経験的プライバシリークを推定するために,メンバシップ推論攻撃を設計し,採用する。 CLMに対するメンバシップ推論攻撃は、非自明なプライバシー漏洩を最大7%まで引き起こすことを示す。 以上の結果から,小型モデルは大規模モデルよりも経験的プライバシリークが低く,マスクされたLMは自己回帰型LMよりもリークが低いことがわかった。 さらに,臨床領域におけるモデルユーティリティの向上と,経験的プライバシリークの低減を両立できることを示す。 最後に,CLMのプライバシリークに対するグループレベルメンバーシップ推定と病原性の影響についても検討した。

Deep Neural Network (DNN) models have been shown to have high empirical privacy leakages. Clinical language models (CLMs) trained on clinical data have been used to improve performance in biomedical natural language processing tasks. In this work, we investigate the risks of training-data leakage through white-box or black-box access to CLMs. We design and employ membership inference attacks to estimate the empirical privacy leaks for model architectures like BERT and GPT2. We show that membership inference attacks on CLMs lead to non-trivial privacy leakages of up to 7%. Our results show that smaller models have lower empirical privacy leakages than larger ones, and masked LMs have lower leakages than auto-regressive LMs. We further show that differentially private CLMs can have improved model utility on clinical domain while ensuring low empirical privacy leakage. Lastly, we also study the effects of group-level membership inference and disease rarity on CLM privacy leakages.
翻訳日:2021-04-20 14:17:29 公開日:2021-04-16
# ESTER: イベントセマンティックリレーショナル推論のための機械読み取り包括的データセット

ESTER: A Machine Reading Comprehension Dataset for Event Semantic Relation Reasoning ( http://arxiv.org/abs/2104.08350v1 )

ライセンス: Link先を確認
Rujun Han, I-Hung Hsu, Jiao Sun, Julia Baylon, Qiang Ning, Dan Roth, Nanyun Pen(参考訳) 物語や物語は様々な出来事に基づいて構成される。 これらのイベントが相互に意味的にどのように関連しているかを理解することは、理解を読むことの本質である。 最近のイベント中心の読み取り理解データセットは、イベント引数またはイベント時間的常識に重点を置いている。 これらのタスクは機械のナラティブ理解能力を評価するが、人間ライディング理解は、議論や一時的な常識を超えてイベントベースのセマンティクスを処理する能力を必要とする。 例えば、イベント間の因果関係を理解するためには、モチベーションや目的を推論する必要がある。 これらの作業を容易にするために,イベントセマンティックリレーショナル推論のための総合的機械読解(MRC)データセットであるESTERを紹介する。 我々は,最もよく使われる5つの事象意味関係を研究し,質問応答タスクとして定式化する。 実験の結果,現在のSOTAシステムでは,イベントベースF1では60.5%,57.8%,76.3%,トークンベースF1,HIT@1では76.3%のスコアが達成されている。

Stories and narratives are composed based on a variety of events. Understanding how these events are semantically related to each other is the essence of reading comprehension. Recent event-centric reading comprehension datasets focus on either event arguments or event temporal commonsense. Although these tasks evaluate machines' ability of narrative understanding, human like reading comprehension requires the capability to process event-based semantics beyond arguments and temporal commonsense. For example, to understand causality between events, we need to infer motivations or purposes; to understand event hierarchy, we need to parse the composition of events. To facilitate these tasks, we introduce ESTER, a comprehensive machine reading comprehension (MRC) dataset for Event Semantic Relation Reasoning. We study five most commonly used event semantic relations and formulate them as question answering tasks. Experimental results show that the current SOTA systems achieve 60.5%, 57.8%, and 76.3% for event-based F1, token based F1 and HIT@1 scores respectively, which are significantly below human performances.
翻訳日:2021-04-20 14:17:13 公開日:2021-04-16
# ヒト記憶シミュレーションによる教師なし抽出要約

Unsupervised Extractive Summarization by Human Memory Simulation ( http://arxiv.org/abs/2104.08392v1 )

ライセンス: Link先を確認
Ronald Cardenas and Matthias Galle and Shay B. Cohen(参考訳) 要約システムは重要な情報を識別し選択するという中核的な課題に直面している。 本稿では,長い構造化文書の教師なし抽出要約において,コンテンツ選択の問題に取り組む。 我々は,コンテンツ単位の認知的表現と,それらがどのように人間の記憶に保持されるか忘れられるかを活用する,幅広いヒューリスティックスを導入する。 人間の記憶のこれらの表現の性質は、科学論文のコンテンツ単位の関連性を捉えるために利用することができる。 実験により,提案するヒューリスティックスは,認知構造や文書の整理に有効であること,自動評価と人間評価により,より要約価値の高いコンテンツ単位を抽出できるという強い証拠が得られた。

Summarization systems face the core challenge of identifying and selecting important information. In this paper, we tackle the problem of content selection in unsupervised extractive summarization of long, structured documents. We introduce a wide range of heuristics that leverage cognitive representations of content units and how these are retained or forgotten in human memory. We find that properties of these representations of human memory can be exploited to capture relevance of content units in scientific articles. Experiments show that our proposed heuristics are effective at leveraging cognitive structures and the organization of the document (i.e.\ sections of an article), and automatic and human evaluations provide strong evidence that these heuristics extract more summary-worthy content units.
翻訳日:2021-04-20 14:16:55 公開日:2021-04-16
# 深層畳み込みニューラルネットワークにおけるスパーシティとパターンを用いた高性能畳み込み

High Performance Convolution Using Sparsity and Patterns for Inference in Deep Convolutional Neural Networks ( http://arxiv.org/abs/2104.08314v1 )

ライセンス: Link先を確認
Hossam Amer, Ahmed H. Salamah, Ahmad Sajedi, En-hui Yang(参考訳) 深層畳み込みニューラルネットワーク(CNN)の展開は、主に畳み込みによるメモリフットプリントと速度要件の影響を受けている。 広く使われている畳み込みアルゴリズム im2col と MEC は、地図の空間性を考慮せずに、水平および/または垂直のカーネル重なり合うマップの要素を冗長に格納することで、活性化マップから下方行列を生成する。 マップのスパーシティを用いて,圧縮パターン重なり (cpo) と圧縮パターン集合 (cps) と呼ばれる2つの新しい畳み込みアルゴリズムを提案する。 CPOは活性化マップの水平および垂直重なり合う非ゼロ要素(NZE)を認識する。 CPSは、隣接するNZEのインデックス位置を圧縮することで、CPOのメモリ節約をさらに改善する。 どちらのアルゴリズムでも、すべてのゼロのアクティベーションマップのチャネル/リージョンはスキップされる。 次に、CPO/CPSはスパース行列ベクトル乗法(SpMv)を介してスパース表現で畳み込みを行う。 CPU 上で行った実験結果から,Im2col に対して平均1層あたりの時間節約時間が 63% に達し,圧縮比 (CR) が 26 倍に達することが示された。 いくつかの層では、CPO/CPSの時間節約平均は28%改善し、CRはMECの並列実装よりも9.2倍改善した。 CNNの推論では、CPOまたはCPSとim2colの間の時間の観点から、各畳み込み層の最適な畳み込みアルゴリズムをオフラインで選択する。 我々のアルゴリズムは56%の非点畳み込み層で選択された。 オフライン選択は、cnnの推論時間を最大9%、crを最大10倍節約します。

Deploying deep Convolutional Neural Networks (CNNs) is impacted by their memory footprint and speed requirements, which mainly come from convolution. Widely-used convolution algorithms, im2col and MEC, produce a lowered matrix from an activation map by redundantly storing the map's elements included at horizontal and/or vertical kernel overlappings without considering the sparsity of the map. Using the sparsity of the map, this paper proposes two new convolution algorithms dubbed Compressed Pattern Overlap (CPO) and Compressed Pattern Sets (CPS) that simultaneously decrease the memory footprint and increase the inference speed while preserving the accuracy. CPO recognizes non-zero elements (NZEs) at horizontal and vertical overlappings in the activation maps. CPS further improves the memory savings of CPO by compressing the index positions of neighboring NZEs. In both algorithms, channels/regions of the activation maps with all zeros are skipped. Then, CPO/CPS performs convolution via Sparse Matrix-Vector Multiplication (SpMv) done on their sparse representations. Experimental results conducted on CPUs show that average per-layer time savings reach up to 63% and Compression Ratio (CR) up to 26x with respect to im2col. In some layers, our average per layer CPO/CPS time savings are better by 28% and CR is better by 9.2x than the parallel implementation of MEC. For a given CNN's inference, we offline select for each convolution layer the best convolutional algorithm in terms of time between either CPO or CPS and im2col. Our algorithms were selected up to 56% of the non-pointwise convolutional layers. Our offline selections yield CNN inference time savings up to 9% and CR up to 10x.
翻訳日:2021-04-20 14:00:15 公開日:2021-04-16
# StylePeople: 完全な人間のアバターの生成モデル

StylePeople: A Generative Model of Fullbody Human Avatars ( http://arxiv.org/abs/2104.08363v1 )

ライセンス: Link先を確認
Artur Grigorev, Karim Iskakov, Anastasia Ianina, Renat Bashirov, Ilya Zakharkin, Alexander Vakhitov, Victor Lempitsky(参考訳) パラメトリックメッシュに基づく体モデルとニューラルテクスチャを組み合わせた,新しいタイプのフルボディヒトアバターを提案する。 神経テクスチャの助けを借りて,そのようなアバターは衣服や髪型をうまくモデル化できることを示し,メッシュベースのアプローチでは問題となる。 また、バックプロパゲーションを用いて、ビデオの複数のフレームからこれらのアバターを作成できることを示す。 次に、人の画像やビデオのデータセットからトレーニングできるアバターの生成モデルを提案する。 生成モデルは、ランダムなアバターをサンプリングし、1つか数つの画像から人々の服装アバターを作成することができます。 プロジェクトのコードはsaic-violet.github.i o/style peopleで入手できる。

We propose a new type of full-body human avatars, which combines parametric mesh-based body model with a neural texture. We show that with the help of neural textures, such avatars can successfully model clothing and hair, which usually poses a problem for mesh-based approaches. We also show how these avatars can be created from multiple frames of a video using backpropagation. We then propose a generative model for such avatars that can be trained from datasets of images and videos of people. The generative model allows us to sample random avatars as well as to create dressed avatars of people from one or few images. The code for the project is available at saic-violet.github.i o/style-people.
翻訳日:2021-04-20 13:59:50 公開日:2021-04-16
# 情緒的特徴の分析によるビデオのマルチモーダル・デセプション検出

Multimodal Deception Detection in Videos via Analyzing Emotional State-based Feature ( http://arxiv.org/abs/2104.08373v1 )

ライセンス: Link先を確認
Jun-Teng Yang, Guei-Ming Liu, Scott C.-H Huang(参考訳) 騙し検出は、その潜在的な応用のためにホットな研究課題となっている重要な課題である。 セキュリティ(空港のセキュリティ、司法権、法執行機関など)から現実のアプリケーション(ビジネスやコンピュータビジョンなど)まで、さまざまな分野に適用することができる。 しかし、いくつかの重要な問題が残っており、さらなる調査に値する。 主な課題の1つは、データ不足の問題である。 これまで、偽造検出のマルチモーダルベンチマークデータセットは1つしか公開されておらず、偽造検出用のビデオクリップは121本(偽造クラスは61本、真偽クラスは60本)である。 この量のデータは、ディープニューラルネットワークベースのメソッドを動かすのは難しい。 それゆえ、彼らはしばしば過剰フィット問題と悪質な一般化能力に苦しんだ。 また、基底真理データには、顔が小さすぎて表情が認識できない、顔がテキストでカバーされている、ファイルの破損など、多くの要因に対する使用不能なフレームが含まれている。 しかし、ほとんどの文献はこれらの問題を考慮しなかった。 本稿では,この問題にまず対処すべく,一連のデータ前処理手法を設計する。 そこで我々は,新しい感情状態に基づく機能を構築するマルチモーダル・デセプション検出フレームワークを提案し,open toolkit opensmileを用いて音声モダリティから特徴を抽出する。 ビジュアルモダリティとオーディオモダリティの両方から得られた感情状態情報を結合する投票方式も設計されている。 最後に,新しい感情状態変換(est)機能はアルゴリズムによって決定される。 提案手法を最先端マルチモーダル法と比較した結果, 全体の性能は84.16%から91.67%, ROC-AUCは0.9211から0.9244に向上した。

Deception detection is an important task that has been a hot research topic due to its potential applications. It can be applied to many areas from national security (e.g, airport security, jurisprudence, and law enforcement) to real-life applications (e.g., business and computer vision). However, some critical problems still exist and worth more investigation. One of the major challenges is the data scarcity problem. Until now, only one multimodal benchmark dataset on deception detection has been published, which contains 121 video clips for deception detection (61 for deceptive class and 60 for truthful class). This amount of data is hard to drive deep neural network-based methods. Hence, they often suffered from the overfitting problem and the bad generalization ability. Also, the ground truth data contains some unusable frames for many factors including the face is too small to be recognized the facial expression, face is covered by text, file corruption, etc. However, most of the literature did not consider these problems. In this paper, we design a series of data preprocessing methods to deal with the problem first. Then, we propose a multimodal deception detection framework to construct our novel emotional state-based feature and used open toolkit openSMILE to extract the features from audio modality. A voting scheme is also designed to combine the emotional state information obtained from both visual modality and audio modality. Finally, the novel emotion state transformation (EST) feature is determined by our algorithm. The critical analysis and comparison of the proposed methods with the state-of-the-art multimodal method are showed that the overall performance has a great improvement of accuracy from 84.16% to 91.67% and ROC-AUC from 0.9211 to 0.9244.
翻訳日:2021-04-20 13:59:37 公開日:2021-04-16
# 背景減算のための算術分布ニューラルネットワーク

Arithmetic Distribution Neural Network for Background Subtraction ( http://arxiv.org/abs/2104.08390v1 )

ライセンス: Link先を確認
Chenqiu Zhao, Kangkang Hu and Anup Basu(参考訳) 本稿では,背景減算時の時間的画素分布を学習するための新しい算術分布ニューラルネットワーク(adnn)を提案する。 当社のADNNでは,積分布層と和分布層を含む算術分布層を提案するために,算術分布演算を利用する。 さらに,提案手法の精度を向上させるため,周辺情報に基づく改良ベイズ改良モデルをGPU実装で導入した。 提案した算術分布層の前方通過と後方伝播では、ヒストグラムは行列ではなく確率密度関数と見なされる。 提案手法は,従来の畳み込みニューラルネットワークと比較して,非常に単純なアーキテクチャでヒストグラムの確率情報を利用することができ,有望な結果が得られる。 標準ベンチマークによる評価は、最先端の伝統・深層学習手法と比較して提案手法の優位性を示す。 我々の知る限りでは、バックグラウンドサブトラクション中の分布を学習するための算術的分布演算に基づくネットワーク層を提案する最初の方法である。

We propose a new Arithmetic Distribution Neural Network (ADNN) for learning the distributions of temporal pixels during background subtraction. In our ADNN, the arithmetic distribution operations are utilized to propose the arithmetic distribution layers, including the product distribution layer and the sum distribution layer. Furthermore, in order to improve the accuracy of the proposed approach, an improved Bayesian refinement model based on neighboring information, with a GPU implementation, is introduced. In the forward pass and backpropagation of the proposed arithmetic distribution layers, histograms are considered as probability density functions rather than matrices. Thus, the proposed approach is able to utilize the probability information of the histogram and achieve promising results with a very simple architecture compared to traditional convolutional neural networks. Evaluations using standard benchmarks demonstrate the superiority of the proposed approach compared to state-of-the-art traditional and deep learning methods. To the best of our knowledge, this is the first method to propose network layers based on arithmetic distribution operations for learning distributions during background subtraction.
翻訳日:2021-04-20 13:59:08 公開日:2021-04-16
# すべてを数えることを学ぶ

Learning To Count Everything ( http://arxiv.org/abs/2104.08391v1 )

ライセンス: Link先を確認
Viresh Ranjan, Udbhav Sharma, Thu Nguyen, Minh Hoai(参考訳) 視覚計数に関する既存の研究は、主に人間、動物、細胞といった1つの特定のカテゴリーに焦点を合わせている。 本稿では、そのカテゴリからいくつかの注釈付きインスタンスのみを与えられた任意のカテゴリからオブジェクトを数えることに関心がある。 この目的のために、数を数ショット回帰タスクとして位置づける。 この課題に対処するために、クエリ画像からいくつかの例のオブジェクトとともにクエリ画像を取り込み、クエリ画像に注目するオブジェクトが存在する場合の密度マップを予測する新しい方法を提案する。 また,ネットワークをテスト時に新たな視覚カテゴリに適応させるための新しい適応戦略を提案する。 また,数秒カウントタスクに適した6000以上の画像を含む147個のオブジェクトカテゴリのデータセットも紹介する。 画像は2種類のアノテーション、ドットとバウンディングボックスで注釈付けされており、少数ショットカウントモデルの開発に使用することができる。 このデータセットを用いた実験により,本手法はいくつかの最先端の物体検出器および少数ショットカウント手法よりも優れていることがわかった。 コードとデータセットはhttps://github.com/c vlab-stonybrook/Lear ningToCountEverythin g.comで確認できます。

Existing works on visual counting primarily focus on one specific category at a time, such as people, animals, and cells. In this paper, we are interested in counting everything, that is to count objects from any category given only a few annotated instances from that category. To this end, we pose counting as a few-shot regression task. To tackle this task, we present a novel method that takes a query image together with a few exemplar objects from the query image and predicts a density map for the presence of all objects of interest in the query image. We also present a novel adaptation strategy to adapt our network to any novel visual category at test time, using only a few exemplar objects from the novel category. We also introduce a dataset of 147 object categories containing over 6000 images that are suitable for the few-shot counting task. The images are annotated with two types of annotation, dots and bounding boxes, and they can be used for developing few-shot counting models. Experiments on this dataset shows that our method outperforms several state-of-the-art object detectors and few-shot counting approaches. Our code and dataset can be found at https://github.com/c vlab-stonybrook/Lear ningToCountEverythin g.
翻訳日:2021-04-20 13:58:52 公開日:2021-04-16
# マルチタスク・マルチモーダル・マルチモーダル・マルチ表現ランドマークリファインメントネットワークによる正確な3次元顔形状予測

Accurate 3D Facial Geometry Prediction by Multi-Task, Multi-Modal, and Multi-Representation Landmark Refinement Network ( http://arxiv.org/abs/2104.08403v1 )

ライセンス: Link先を確認
Cho-Ying Wu, Qiangeng Xu, Ulrich Neumann(参考訳) 本研究は,提案するマルチタスク,マルチモーダル,マルチ表示ランドマークリファインメントネットワーク(m$^3$-lrn)を用いた3次元顔アライメントと顔方向推定を含む,完全な3次元顔形状予測に焦点を当てた。 我々の焦点は、重要な顔の特徴である3Dランドマークに焦点をあて、その埋め込み情報を3D顔形状学習のガイドに活用する。 まず,ランドマークリファインメントのためのマルチモーダル・マルチ表現機能アグリゲーションを提案する。 次に,スパース3次元ランドマークからの3dmm回帰を初めて研究し,複数表現のアドバンテージを生かしてより優れた幾何予測を実現する。 我々は3次元顔形状を学習するあらゆるタスクに関する広範な実験から、この技術の現状を得る。 それぞれのモダリティと表現の貢献をよく検証する。 私たちの結果は、収穫された顔、水中シナリオ、極端なポーズで堅牢です。 特に,m$^3$-lrn における単純かつ広く使用されるネットワーク操作のみを採用し,現在の最良性能に対する顔方向推定の約20%向上を達成している。 プロジェクトのページはこちら。

This work focuses on complete 3D facial geometry prediction, including 3D facial alignment via 3D face modeling and face orientation estimation using the proposed multi-task, multi-modal, and multi-representation landmark refinement network (M$^3$-LRN). Our focus is on the important facial attributes, 3D landmarks, and we fully utilize their embedded information to guide 3D facial geometry learning. We first propose a multi-modal and multi-representation feature aggregation for landmark refinement. Next, we are the first to study 3DMM regression from sparse 3D landmarks and utilize multi-representation advantage to attain better geometry prediction. We attain the state of the art from extensive experiments on all tasks of learning 3D facial geometry. We closely validate contributions of each modality and representation. Our results are robust across cropped faces, underwater scenarios, and extreme poses. Specially we adopt only simple and widely used network operations in M$^3$-LRN and attain a near 20\% improvement on face orientation estimation over the current best performance. See our project page here.
翻訳日:2021-04-20 13:58:32 公開日:2021-04-16
# VVC品質向上と超解像のためのマルチタスク学習

Multitask Learning for VVC Quality Enhancement and Super-Resolution ( http://arxiv.org/abs/2104.08319v1 )

ライセンス: Link先を確認
Charles Bonnineau and Wassim Hamidouche and Jean-Francois Travers and Naty Sidaty and Olivier Deforges(参考訳) VVCと呼ばれる最新のビデオコーディング標準には、コーディングチェーンのさまざまなレベルにおいて、新しく洗練されたコーディングツールがいくつか含まれている。 これらのツールは、以前の標準である高効率ビデオ符号化(HEVC)に関して、大幅なコーディング向上をもたらす。 しかし、エンコーダは、ビットレートを利用可能な帯域幅に調整するために適用されるコーディング決定に起因して、可視的な符号化アーティファクトを導入することができる。 したがって、プリ・ポスト・プロセッシングの技術がコーディングパイプラインに追加され、デコードされたビデオの品質が向上する。 これらの手法は,近年のディープラーニングの進歩により,従来の手法と比較して顕著な成果を上げている。 一般に、複数のニューラルネットワークは異なるタスクを実行するために独立して訓練されるため、モデル間の冗長性から利益を得ることができない。 本稿では,復号化VVCビデオの品質を高めるための後処理ステップとして,学習ベースのソリューションを検討する。 本手法は,マルチタスク学習により,複数の劣化レベルに最適化された単一の共有ネットワークを用いて,品質向上と超解像の両方を行う。 提案手法は、従来の特殊アーキテクチャと比較して、符号化アーティファクトの緩和とネットワークパラメータの少ない超解像の両方において優れた性能を実現する。

The latest video coding standard, called versatile video coding (VVC), includes several novel and refined coding tools at different levels of the coding chain. These tools bring significant coding gains with respect to the previous standard, high efficiency video coding (HEVC). However, the encoder may still introduce visible coding artifacts, mainly caused by coding decisions applied to adjust the bitrate to the available bandwidth. Hence, pre and post-processing techniques are generally added to the coding pipeline to improve the quality of the decoded video. These methods have recently shown outstanding results compared to traditional approaches, thanks to the recent advances in deep learning. Generally, multiple neural networks are trained independently to perform different tasks, thus omitting to benefit from the redundancy that exists between the models. In this paper, we investigate a learning-based solution as a post-processing step to enhance the decoded VVC video quality. Our method relies on multitask learning to perform both quality enhancement and super-resolution using a single shared network optimized for multiple degradation levels. The proposed solution enables a good performance in both mitigating coding artifacts and super-resolution with fewer network parameters compared to traditional specialized architectures.
翻訳日:2021-04-20 13:38:07 公開日:2021-04-16
# マスクが畳み込みに基づく表情認識に与える影響

I Only Have Eyes for You: The Impact of Masks On Convolutional-Based Facial Expression Recognition ( http://arxiv.org/abs/2104.08353v1 )

ライセンス: Link先を確認
Pablo Barros, Alessandra Sciutti(参考訳) 現在の新型コロナウイルス(COVID-19)パンデミックは、私たちの社会にはまだ予測できない課題に直面していることを示している。 社会的相互作用に対する必要な制約は、社会ロボットや人工エージェント全般の将来をどう考え、準備するかに大きな影響を及ぼした。 表情知覚と感情理解のハードな分離に基づく現在の感情知覚モデルへの適応は、堅牢なシステムを提供するのに役立つ。 本稿では,マスクを持つ人物に対する感情認識が,一般の表情認識とどのように異なるのかを詳細に分析する。 最近提案されたFaceChannelは,マスクを持つ人物の表情認識にどのように適応するかを評価する。 本分析では,顔表情の効果をよりよく理解するために,異なるトレーニングと微調整方式の評価を行った。 また、制約された社会的相互作用シナリオにおける顔の特徴の変化を学習し、組み合わせるためのFaceChannelの本質的な能力を示すために、特定の機能レベルの可視化も行います。

The current COVID-19 pandemic has shown us that we are still facing unpredictable challenges in our society. The necessary constrain on social interactions affected heavily how we envision and prepare the future of social robots and artificial agents in general. Adapting current affective perception models towards constrained perception based on the hard separation between facial perception and affective understanding would help us to provide robust systems. In this paper, we perform an in-depth analysis of how recognizing affect from persons with masks differs from general facial expression perception. We evaluate how the recently proposed FaceChannel adapts towards recognizing facial expressions from persons with masks. In Our analysis, we evaluate different training and fine-tuning schemes to understand better the impact of masked facial expressions. We also perform specific feature-level visualization to demonstrate how the inherent capabilities of the FaceChannel to learn and combine facial features change when in a constrained social interaction scenario.
翻訳日:2021-04-20 13:37:49 公開日:2021-04-16
# カテゴリーレベル3次元物体知覚のための最適ポーズと形状推定

Optimal Pose and Shape Estimation for Category-level 3D Object Perception ( http://arxiv.org/abs/2104.08383v1 )

ライセンス: Link先を確認
Jingnan Shi, Heng Yang, Luca Carlone(参考訳) カテゴリレベルの知覚問題では、与えられたカテゴリのオブジェクト(例えば、)を3Dセンサーで撮影する。 車)で、クラス内での変動(すなわち)にもかかわらず、オブジェクトのポーズと形状を再構築する必要がある。 異なる車種は異なる形状を持つ)。 対象のカテゴリに対して、そのカテゴリのオブジェクトを記述する潜在的なcadモデルのライブラリが与えられ、ポーズと形状推定を非凸最適化として定式化する標準的な定式化を採用するアクティブな形状モデルを考える。 第1の貢献は,ポーズと形状推定に最適な最初の解法を提供することである。 特に, 物体の回転と形状の推定から回転推定が分離できることを示し, (i) 最適物体の回転は、(i) 厳密な半定緩和によって計算できること, (ii) 回転が与えられたときの変換と形状パラメータを閉形式で計算できることを示した。 2つめのコントリビューションは、解法に外れた拒絶層を追加することで、多数の誤検出に対して堅牢にします。 この目的に向けて, 次数非凸性に基づくロバストな推定スキームで最適解法をラップする。 さらに,外乱に対する強靭性を高めるために,外乱の包絡と最大傾角計算による外乱の除去を行うカテゴリレベルの知覚において,最初のグラフ理論定式化を開発し,70%-90%の外乱に対して頑健である。 第3の貢献は、広範な実験的評価です。 シミュレーションデータセットとPASCAL3D+データセットのアブレーションスタディを提供するとともに、解法とディープラーニングキーポイント検出器を組み合わせることで、ApolloScapeデータセットにおける車両の姿勢推定における技術状況よりも、結果として得られるアプローチが改善されることを示す。

We consider a category-level perception problem, where one is given 3D sensor data picturing an object of a given category (e.g. a car), and has to reconstruct the pose and shape of the object despite intra-class variability (i.e. different car models have different shapes). We consider an active shape model, where -- for an object category -- we are given a library of potential CAD models describing objects in that category, and we adopt a standard formulation where pose and shape estimation are formulated as a non-convex optimization. Our first contribution is to provide the first certifiably optimal solver for pose and shape estimation. In particular, we show that rotation estimation can be decoupled from the estimation of the object translation and shape, and we demonstrate that (i) the optimal object rotation can be computed via a tight (small-size) semidefinite relaxation, and (ii) the translation and shape parameters can be computed in closed-form given the rotation. Our second contribution is to add an outlier rejection layer to our solver, hence making it robust to a large number of misdetections. Towards this goal, we wrap our optimal solver in a robust estimation scheme based on graduated non-convexity. To further enhance robustness to outliers, we also develop the first graph-theoretic formulation to prune outliers in category-level perception, which removes outliers via convex hull and maximum clique computations; the resulting approach is robust to 70%-90% outliers. Our third contribution is an extensive experimental evaluation. Besides providing an ablation study on a simulated dataset and on the PASCAL3D+ dataset, we combine our solver with a deep-learned keypoint detector, and show that the resulting approach improves over the state of the art in vehicle pose estimation in the ApolloScape datasets.
翻訳日:2021-04-20 13:37:34 公開日:2021-04-16
# 分類問題に対する巧妙な予測を識別するための制御回避ニューラルネットワーク

Controlled abstention neural networks for identifying skillful predictions for classification problems ( http://arxiv.org/abs/2104.08281v1 )

ライセンス: Link先を確認
Elizabeth A. Barnes and Randal J. Barnes(参考訳) 地球系は、非常に複雑で、しばしばカオス的であり、予測は信じられないほど困難である。 代わりに、私たちは「機会の予報」と呼ばれる、他のものよりも予測可能な行動につながるシステムの特定の状態を探します。 これらの機会がない場合、科学者は「私は知らない」と言うことができる予測システムが必要です。 我々はニューラルネットワークが分類問題に対する機会予測を識別できる新しい損失関数「NotWrong Los」を導入する。 NotWrongの損失は、信頼性の低いサンプルに対して、ネットワークがより自信のあるサンプルと(例えば"I don't know")禁忌を識別できる禁忌クラスを導入する。 吸収損失は、pidコントローラを介してユーザ定義のサンプルの分数を吸収するように設計されている。 トレーニング後のサンプルを拒否するために使用される多くの機械学習方法とは異なり、トレーニング中にNotWrong損失を適用して、より確実なサンプルから優先的に学習する。 NotWrongの損失は、複数の気候ユースケースにおける既存の損失関数よりも優れていることを示す。 提案した損失関数の実装は,出力層への禁忌クラスの追加と損失関数の修正のみを必要とするため,分類用に設計されたほとんどのネットワークアーキテクチャにおいて容易である。

The earth system is exceedingly complex and often chaotic in nature, making prediction incredibly challenging: we cannot expect to make perfect predictions all of the time. Instead, we look for specific states of the system that lead to more predictable behavior than others, often termed "forecasts of opportunity." When these opportunities are not present, scientists need prediction systems that are capable of saying "I don't know." We introduce a novel loss function, termed the "NotWrong loss", that allows neural networks to identify forecasts of opportunity for classification problems. The NotWrong loss introduces an abstention class that allows the network to identify the more confident samples and abstain (say "I don't know") on the less confident samples. The abstention loss is designed to abstain on a user-defined fraction of the samples via a PID controller. Unlike many machine learning methods used to reject samples post-training, the NotWrong loss is applied during training to preferentially learn from the more confident samples. We show that the NotWrong loss outperforms other existing loss functions for multiple climate use cases. The implementation of the proposed loss function is straightforward in most network architectures designed for classification as it only requires the addition of an abstention class to the output layer and modification of the loss function.
翻訳日:2021-04-20 13:33:24 公開日:2021-04-16
# より良いオートエンコーダのための潜時空間

Better Latent Spaces for Better Autoencoders ( http://arxiv.org/abs/2104.08291v1 )

ライセンス: Link先を確認
Barry M. Dillon, Tilman Plehn, Christof Sauer, Peter Sorrenson(参考訳) lhcで異常を検索するツールとしてのオートエンコーダは、一方の方向にのみ動くという構造的な問題があり、より複雑なジェットを抽出し、その逆ではない。 これに対処するために、我々は(可変)オートエンコーダの潜在空間、特にガウス混合とディリクレ潜在空間から分類器を導出する。 特にディリクレのセットアップはこの問題を解決し、ネットワークの性能と解釈性の両方を改善している。

Autoencoders as tools behind anomaly searches at the LHC have the structural problem that they only work in one direction, extracting jets with higher complexity but not the other way around. To address this, we derive classifiers from the latent space of (variational) autoencoders, specifically in Gaussian mixture and Dirichlet latent spaces. In particular, the Dirichlet setup solves the problem and improves both the performance and the interpretability of the networks.
翻訳日:2021-04-20 13:33:03 公開日:2021-04-16
# 新聞を擁護するために

In Defense of the Paper ( http://arxiv.org/abs/2104.08359v1 )

ライセンス: Link先を確認
Owen Lockwood(参考訳) 機械学習の公開プロセスは壊れていますが、疑いの余地はありません。 LaTeX to PDF to Reviewers to camera ready PDF。 これは、包括的、アクセシビリティ、教育的な強さを高めることのできる、新しい形式の出版物への欲求につながった。 しかし、この事業は、現代の論文のワークフローにおけるこれらの不備の起源に対処できない。 学術研究の基本単位であるこの論文は、出版と研究のエコシステムにおける問題がどのように表れているかを示すだけでなく、それ自身に責任はない。 既存の問題を解決しない異なるフォーマットで紙を交換または増補するだけでなく、体系的な変更なしにバンドエイドとして使うと、既存の不平等が悪化する可能性が高い。 本稿では、機械学習研究のアクセシビリティの障害の根本原因は、論文のワークフローにあるのではなく、出版と研究プロセスの背後にある誤ったインセンティブにあると論じる。 これらの問題を議論し、論文が最適なワークフローであると主張する。 インセンティブ化問題に対する潜在的な解決策についても強調する。

The machine learning publication process is broken, of that there can be no doubt. Many of these flaws are attributed to the current workflow: LaTeX to PDF to reviewers to camera ready PDF. This has understandably resulted in the desire for new forms of publications; ones that can increase inclusively, accessibility and pedagogical strength. However, this venture fails to address the origins of these inadequacies in the contemporary paper workflow. The paper, being the basic unit of academic research, is merely how problems in the publication and research ecosystem manifest; but is not itself responsible for them. Not only will simply replacing or augmenting papers with different formats not fix existing problems; when used as a band-aid without systemic changes, will likely exacerbate the existing inequities. In this work, we argue that the root cause of hindrances in the accessibility of machine learning research lies not in the paper workflow but within the misaligned incentives behind the publishing and research processes. We discuss these problems and argue that the paper is the optimal workflow. We also highlight some potential solutions for the incentivization problems.
翻訳日:2021-04-20 13:32:54 公開日:2021-04-16
# 逆ベイズ最適化:逐次最適化タスクにおける人間の探索戦略の学習

Inverse Bayesian Optimization: Learning Human Search Strategies in a Sequential Optimization Task ( http://arxiv.org/abs/2104.09237v1 )

ライセンス: Link先を確認
Nathan Sandholtz, Yohsuke Miyamoto, Luke Bornn, Maurice Smith(参考訳) ベイズ最適化は、対象からサンプリングする場合の潜在目的関数の逐次最適化のための一般的なアルゴリズムである。 アルゴリズムの探索経路は、エージェントの探索戦略を定義する取得関数によって制御される。 概念的には、この取得関数は、潜伏目標の最適度を求める際に、最適化者が探索と搾取のバランスをとる方法の特徴である。 本稿では,ベイズ最適化の逆問題について検討し,観測された探索経路に基づいてエージェントの潜伏獲得関数を推定する。 本稿では,エージェントが最適化タスクを行う変数と推定取得関数に関する不確実性の両方を定量化する原理付きフレームワークを提供する逆問題に対する確率的解フレームワークを提案する。 本研究では,対象者に対して,目立たない対象場所を探索し,探索と搾取のバランスをとるよう強制する実験から,人間の行動を分析することにより,その方法を説明する。 ほとんどの被験者は、検索行動の明確な傾向を示すが、これらの傾向はラウンドからラウンドに大きく変化している。 本研究は対象者に対して幅広い探索戦略を提示するが, 高い信頼度を持つ獲得関数は, 大多数の被験者に最適である。 最後に、まず最初に検討した取得関数にうまく対応しない科目もあり、これらの科目は、取得する標準的な取得関数以上の探索的嗜好を示す傾向にある。 モデルの相違により、本課題における人間の行動に優れた適合性をもたらすために、候補獲得機能を増強する。

Bayesian optimization is a popular algorithm for sequential optimization of a latent objective function when sampling from the objective is costly. The search path of the algorithm is governed by the acquisition function, which defines the agent's search strategy. Conceptually, the acquisition function characterizes how the optimizer balances exploration and exploitation when searching for the optimum of the latent objective. In this paper, we explore the inverse problem of Bayesian optimization; we seek to estimate the agent's latent acquisition function based on observed search paths. We introduce a probabilistic solution framework for the inverse problem which provides a principled framework to quantify both the variability with which the agent performs the optimization task as well as the uncertainty around their estimated acquisition function. We illustrate our methods by analyzing human behavior from an experiment which was designed to force subjects to balance exploration and exploitation in search of an invisible target location. We find that while most subjects demonstrate clear trends in their search behavior, there is significant variation around these trends from round to round. A wide range of search strategies are exhibited across the subjects in our study, but upper confidence bound acquisition functions offer the best fit for the majority of subjects. Finally, some subjects do not map well to any of the acquisition functions we initially consider; these subjects tend to exhibit exploration preferences beyond that of standard acquisition functions to capture. Guided by the model discrepancies, we augment the candidate acquisition functions to yield a superior fit to the human behavior in this task.
翻訳日:2021-04-20 13:25:45 公開日:2021-04-16
# (参考訳) ヒューマンライクな情報対話:条件付き相互情報を用いたより良い認識 [全文訳有]

Human-like informative conversations: Better acknowledgements using conditional mutual information ( http://arxiv.org/abs/2104.07831v1 )

ライセンス: CC BY 4.0
Ashwin Paranjape (1), Christopher D. Manning (1) ((1) Stanford University)(参考訳) この研究は、人間のように自然に会話に新しい事実コンテンツを織り込む対話エージェントを構築することを目的としている。 対話分析の言語的原則から洞察を得て,switchboard dialog actコーパスから人間と人間の会話に注釈を付け,認識,遷移,詳細選択,提示のための人間の戦略を検討する。 現在のチャットボット(特に新しい事実コンテンツが提供される)が会話に事実を導入すると、生成された応答は以前のターンを認識しない。 これは、新しい事実コンテンツと会話履歴の2つのコンテキストでトレーニングされたモデルが、w.r.t.以外の応答を生成するためである。 文脈の1つ、典型的には会話の歴史です 私たちはその特異性を示す。 会話履歴はPointwise Conditional Mutual Information(\text{pcmi}_h$)によって取得され、Pointwise Mutual Information(\text{pmi}$)の確立された使用により取得される。 提案手法である fused-pcmi は $\text{pmi}$ を$\text{pcmi}_h$ と引き換えに使用し,max-pmi ベースラインの60% よりも全体的な品質で人間に好まれる。 human evaluatorsはまた、より高い$\text{pcmi}_h$で応答を承認時に74%で判断する。 その結果、人間の会話特性を模倣するシステム(この場合の認識)は全体的な品質を向上し、対話エージェントの改善における言語原理の有用性をより広く示している。

This work aims to build a dialogue agent that can weave new factual content into conversations as naturally as humans. We draw insights from linguistic principles of conversational analysis and annotate human-human conversations from the Switchboard Dialog Act Corpus to examine humans strategies for acknowledgement, transition, detail selection and presentation. When current chatbots (explicitly provided with new factual content) introduce facts into a conversation, their generated responses do not acknowledge the prior turns. This is because models trained with two contexts - new factual content and conversational history - generate responses that are non-specific w.r.t. one of the contexts, typically the conversational history. We show that specificity w.r.t. conversational history is better captured by Pointwise Conditional Mutual Information ($\text{pcmi}_h$) than by the established use of Pointwise Mutual Information ($\text{pmi}$). Our proposed method, Fused-PCMI, trades off $\text{pmi}$ for $\text{pcmi}_h$ and is preferred by humans for overall quality over the Max-PMI baseline 60% of the time. Human evaluators also judge responses with higher $\text{pcmi}_h$ better at acknowledgement 74% of the time. The results demonstrate that systems mimicking human conversational traits (in this case acknowledgement) improve overall quality and more broadly illustrate the utility of linguistic principles in improving dialogue agents.
翻訳日:2021-04-20 05:33:56 公開日:2021-04-16
# (参考訳) 逆核埋め込みと逆知識翻訳による言語間エンティティアライメント [全文訳有]

Cross-lingual Entity Alignment with Adversarial Kernel Embedding and Adversarial Knowledge Translation ( http://arxiv.org/abs/2104.07837v1 )

ライセンス: CC BY 4.0
Gong Zhang, Yang Zhou, Sixing Wu, Zeru Zhang, Dejing Dou(参考訳) 異なるモノリンガル知識ベース(KB)の同一エンティティを正確に接続することを目的とした言語間エンティティアライメントは、機能的不整合からシーケンス的コンテキスト無意識の課題をしばしば抱える。 本稿では,言語間エンティティアライメント(DAEA)のための2つの対向学習フレームワークを提案する。 まず、2つの知識グラフ(KG)のエンティティ間の構造的・属性的特徴の不整合に対処するために、教師なしの方法でグラフ不変情報を抽出し、2つのKGを共通の埋め込み空間に投影する逆核埋め込み手法を提案する。 第二に、エンティティアライメントの成功率をさらに向上させるために、各エンティティをランダムウォークしてアライメントし、これらのエンティティをランダムウォークでマスクすることを提案する。 複数のランダムウォークの文脈における既知のアライメントエンティティのガイダンスにより、マスクされたエンティティを2kgから一対のランダムウォークで満たし、翻訳するために、敵対的知識翻訳モデルが開発されている。 実世界のデータセットで実施された大規模な実験により、DAEAは特徴の不整合とシーケンスコンテキストの無意識の問題をうまく解決でき、13の最先端エンティティアライメント手法を著しく上回っている。

Cross-lingual entity alignment, which aims to precisely connect the same entities in different monolingual knowledge bases (KBs) together, often suffers challenges from feature inconsistency to sequence context unawareness. This paper presents a dual adversarial learning framework for cross-lingual entity alignment, DAEA, with two original contributions. First, in order to address the structural and attribute feature inconsistency between entities in two knowledge graphs (KGs), an adversarial kernel embedding technique is proposed to extract graph-invariant information in an unsupervised manner, and project two KGs into the common embedding space. Second, in order to further improve successful rate of entity alignment, we propose to produce multiple random walks through each entity to be aligned and mask these entities in random walks. With the guidance of known aligned entities in the context of multiple random walks, an adversarial knowledge translation model is developed to fill and translate masked entities in pairwise random walks from two KGs. Extensive experiments performed on real-world datasets show that DAEA can well solve the feature inconsistency and sequence context unawareness issues and significantly outperforms thirteen state-of-the-art entity alignment methods.
翻訳日:2021-04-20 05:18:29 公開日:2021-04-16
# (参考訳) クラスはクラスタか? [全文訳有]

Are Classes Clusters? ( http://arxiv.org/abs/2104.07840v1 )

ライセンス: CC BY 4.0
Kees Varekamp(参考訳) 文埋め込みモデルは文に汎用的な埋め込みを提供することを目的としている。 この論文で研究されたモデルのほとんどはSTSタスクでうまく機能すると主張しているが、クラスタリングの適性については報告していない。 本稿では,最近の4つの文埋め込みモデル(Universal Sentence Encoder (Cer et al., 2018), Sentence-BERT (Reimers and Gurevych, 2019), LASER (Artetxe and Schwenk, 2019), DeCLUTR (Giorgi et al., 2020)について述べる。 実装の背後にあるアイデアの簡単な概要を提供する。 次に、2つのテキスト分類データセット(Amazon Reviews(Ni et al., 2019)とNews Category Dataset(Misra, 2018))のトピッククラスが、対応する文の埋め込みスペース内のクラスタにどのようにマップされているかを調査する。 結果の分類モデルの性能は完璧には程遠いが、ランダムよりも優れている。 分類モデルは教師なしの方法で構築されているため、これは興味深い。 これらの実際のトピック分類データセットのトピッククラスは、対応する文埋め込みをクラスタリングすることで部分的に再構築することができる。

Sentence embedding models aim to provide general purpose embeddings for sentences. Most of the models studied in this paper claim to perform well on STS tasks - but they do not report on their suitability for clustering. This paper looks at four recent sentence embedding models (Universal Sentence Encoder (Cer et al., 2018), Sentence-BERT (Reimers and Gurevych, 2019), LASER (Artetxe and Schwenk, 2019), and DeCLUTR (Giorgi et al., 2020)). It gives a brief overview of the ideas behind their implementations. It then investigates how well topic classes in two text classification datasets (Amazon Reviews (Ni et al., 2019) and News Category Dataset (Misra, 2018)) map to clusters in their corresponding sentence embedding space. While the performance of the resulting classification model is far from perfect, it is better than random. This is interesting because the classification model has been constructed in an unsupervised way. The topic classes in these real life topic classification datasets can be partly reconstructed by clustering the corresponding sentence embeddings.
翻訳日:2021-04-20 05:02:10 公開日:2021-04-16
# (参考訳) 質問応答のための多値エンターメントグラフ [全文訳有]

Multivalent Entailment Graphs for Question Answering ( http://arxiv.org/abs/2104.07846v1 )

ライセンス: CC BY-SA 4.0
Nick McKenna, Liane Guillou, Mohammad Javad Hosseini, Sander Bijl de Vroe, Mark Steedman(参考訳) オープンドメイン自然言語述語間の推論は、真の言語理解に不可欠である。 この目的のために、エンテーメントグラフの教師なし学習には多くの進歩があった。 1) 分布包含仮説を再解釈し, 損失(バイデン, トランプ)がwin(バイデン)を伴い, 異なるヴァレンシーの述語間の帰結をモデル化すること, (2) オープンドメイン述語の教師なし多値帰納グラフを学習すること, (3) 新たな質問応答タスクにおけるこれらのグラフの能力を示す。 我々は,細粒度セマンティクスの問題に対する双方向の類似性よりも,方向内包が推論に有用であることを示す。 また、同値の証拠のみを用いることで、各値にまたがる証拠の描画の方が多くの疑問に答えることを示す。

Drawing inferences between open-domain natural language predicates is a necessity for true language understanding. There has been much progress in unsupervised learning of entailment graphs for this purpose. We make three contributions: (1) we reinterpret the Distributional Inclusion Hypothesis to model entailment between predicates of different valencies, like DEFEAT(Biden, Trump) entails WIN(Biden); (2) we actualize this theory by learning unsupervised Multivalent Entailment Graphs of open-domain predicates; and (3) we demonstrate the capabilities of these graphs on a novel question answering task. We show that directional entailment is more helpful for inference than bidirectional similarity on questions of fine-grained semantics. We also show that drawing on evidence across valencies answers more questions than by using only the same valency evidence.
翻訳日:2021-04-20 04:54:33 公開日:2021-04-16
# (参考訳) バックトランスレーションモデルを用いた文法的誤り訂正の比較 [全文訳有]

Comparison of Grammatical Error Correction Using Back-Translation Models ( http://arxiv.org/abs/2104.07848v1 )

ライセンス: CC BY 4.0
Aomi Koyama and Kengo Hotate and Masahiro Kaneko and Mamoru Komachi(参考訳) 文法的誤り訂正(GEC)は十分な並列データが不足している。 そこで, GEC研究は, 文法文と人工文のペアからなる擬似データを生成する様々な手法を開発した。 現在、擬似データを生成する主要なアプローチは、バックトランスレーション(BT)である。 BT を用いた以前の GEC の研究は GEC と BT の両方で同じアーキテクチャを採用している。 しかし、GECモデルはアーキテクチャによって異なる補正傾向を持つ。 そこで本研究では,異なるBTモデル,すなわち Transformer, CNN, LSTM によって生成された疑似データに基づいてトレーニングされた GEC モデルの補正傾向を比較した。 その結果,btモデルごとに誤差タイプごとの補正傾向が異なることが確認された。 さらに,異なるBTモデルにより生成された擬似データの組み合わせを用いて補正傾向を検討する。 その結果、異なるBTモデルの組み合わせは、異なるシードを持つ単一BTモデルと比較して、各エラータイプのF_0.5スコアを改善または補間することがわかった。

Grammatical error correction (GEC) suffers from a lack of sufficient parallel data. Therefore, GEC studies have developed various methods to generate pseudo data, which comprise pairs of grammatical and artificially produced ungrammatical sentences. Currently, a mainstream approach to generate pseudo data is back-translation (BT). Most previous GEC studies using BT have employed the same architecture for both GEC and BT models. However, GEC models have different correction tendencies depending on their architectures. Thus, in this study, we compare the correction tendencies of the GEC models trained on pseudo data generated by different BT models, namely, Transformer, CNN, and LSTM. The results confirm that the correction tendencies for each error type are different for every BT model. Additionally, we examine the correction tendencies when using a combination of pseudo data generated by different BT models. As a result, we find that the combination of different BT models improves or interpolates the F_0.5 scores of each error type compared with that of single BT models with different seeds.
翻訳日:2021-04-20 04:39:05 公開日:2021-04-16
# (参考訳) ZeRO-Infinity:超大規模ディープラーニングのためのGPUメモリウォールの破壊 [全文訳有]

ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning ( http://arxiv.org/abs/2104.07857v1 )

ライセンス: CC BY 4.0
Samyam Rajbhandari, Olatunji Ruwase, Jeff Rasley, Shaden Smith, Yuxiong He(参考訳) 過去3年間で、最大の深層学習モデルは数千億のパラメータに達するために1000倍以上に成長し、GPUメモリは5倍(16 GBから80 GB)しか成長していない。 そのため、大規模なモデルが複数のGPUの集積GPUメモリに収まるようなシステム革新は、主にモデルスケールの成長を支持している。 しかし、私たちはgpuメモリウォールに近づいています。 トレーニングに1兆分の1のパラメータモデルに適合するには800nvidia v100 gpuが必要であり、そのようなクラスタは、ほとんどのデータサイエンティストにとって手が届かない。 さらに、このスケールでのトレーニングモデルには、データサイエンティストがモデルをリファクタリングする上で大きな負担を負う並列処理テクニックの複雑な組み合わせが必要になります。 本稿では,GPU,CPU,NVMeメモリを利用した新しい異種システム技術であるZeRO-Infinityを提案する。 同時に、CPUやNVMe帯域に制限されずに、優れたトレーニングスループットとスケーラビリティを実現している。 ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするために、モデルに数十から数百兆のパラメータを適合させることができる。 1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。 トレーニングスループットとスケーラビリティの面では、512 NVIDIA V100 GPU(ピークの40%)上で25ペタフロップス以上を持続すると同時に、超リニアスケーラビリティを実証する。 ZeRO-Infinityのオープンソース実装であるDeepSpeedは、分散トレーニングを簡単、効率的、効果的にするためのディープラーニング最適化ライブラリである。

In the last three years, the largest dense deep learning models have grown over 1000x to reach hundreds of billions of parameters, while the GPU memory has only grown by 5x (16 GB to 80 GB). Therefore, the growth in model scale has been supported primarily though system innovations that allow large models to fit in the aggregate GPU memory of multiple GPUs. However, we are getting close to the GPU memory wall. It requires 800 NVIDIA V100 GPUs just to fit a trillion parameter model for training, and such clusters are simply out of reach for most data scientists. In addition, training models at that scale requires complex combinations of parallelism techniques that puts a big burden on the data scientists to refactor their model. In this paper we present ZeRO-Infinity, a novel heterogeneous system technology that leverages GPU, CPU, and NVMe memory to allow for unprecedented model scale on limited resources without requiring model code refactoring. At the same time it achieves excellent training throughput and scalability, unencumbered by the limited CPU or NVMe bandwidth. ZeRO-Infinity can fit models with tens and even hundreds of trillions of parameters for training on current generation GPU clusters. It can be used to fine-tune trillion parameter models on a single NVIDIA DGX-2 node, making large models more accessible. In terms of training throughput and scalability, it sustains over 25 petaflops on 512 NVIDIA V100 GPUs(40% of peak), while also demonstrating super linear scalability. An open source implementation of ZeRO-Infinity is available through DeepSpeed, a deep learning optimization library that makes distributed training easy, efficient, and effective.
翻訳日:2021-04-20 04:23:24 公開日:2021-04-16
# (参考訳) 探索指向の微分可能な製品量子化 [全文訳有]

Search-oriented Differentiable Product Quantization ( http://arxiv.org/abs/2104.07858v1 )

ライセンス: CC BY 4.0
Shitao Xiao, Zheng Liu, Yingxia Shao, Defu Lian, Xing Xie(参考訳) 積量子化 (pq) は最大内積探索 (mips) に対する一般的なアプローチであり、アドホック検索で広く使われている。 近年の研究では、埋め込みモジュールと量子化モジュールを共同で訓練できる微分可能なPQが提案されている。 しかし、適切なジョイントトレーニング目標に対する深い理解が欠如しており、非微分不可能なベースラインに対する改善は、現実的には一貫して肯定的ではない。 本研究では,新しい学習目標であるmclを定式化するサーチ指向製品量子化(sopq)を提案する。 MCLの最小化により、異なるPQに対してクエリとキーのマッチング確率を最大化することができる。 さらに、VCSプロトコルはMCLの最小化を容易にするように設計されており、SQLはラベル付きデータへの依存を緩和するために利用される。 4つの実世界のデータセットに関する広範囲な実験により,提案手法の有効性が検証された。

Product quantization (PQ) is a popular approach for maximum inner product search (MIPS), which is widely used in ad-hoc retrieval. Recent studies propose differentiable PQ, where the embedding and quantization modules can be trained jointly. However, there is a lack of in-depth understanding of appropriate joint training objectives; and the improvements over non-differentiable baselines are not consistently positive in reality. In this work, we propose Search-oriented Product Quantization (SoPQ), where a novel training objective MCL is formulated. With the minimization of MCL, query and key's matching probability can be maximized for the differentiable PQ. Besides, VCS protocol is designed to facilitate the minimization of MCL, and SQL is leveraged to relax the dependency on labeled data. Extensive experiments on 4 real-world datasets validate the effectiveness of our proposed methods.
翻訳日:2021-04-20 03:59:02 公開日:2021-04-16
# (参考訳) asrセグメンテーションエラー訂正のためのセグメンテーションサブタイトル [全文訳有]

Segmenting Subtitles for Correcting ASR Segmentation Errors ( http://arxiv.org/abs/2104.07868v1 )

ライセンス: CC BY 4.0
David Wan, Chris Kedzie, Faisal Ladhak, Elsbeth Turcan, Petra Galu\v{s}\v{c}\'akov\'a, Elena Zotkina, Zhengping Jiang, Peter Bell, Kathleen McKeown(参考訳) 典型的なASRシステムは、入力された音声を純粋に音響情報を用いて発声するが、これは音声翻訳の機械翻訳(MT)システムで期待される文のような単位に似ていない。 本研究では,低リソース言語に対するASRモデルの音響分割を補正し,下流タスクの性能を改善するモデルを提案する。 本稿では,ASR音響セグメント補正のためのプロキシデータセットとしてサブタイトルを用いることにより,一般的な誤りモードをモデル化して合成音響発話を生成する。 我々は、ASR音響セグメント補正のためのニューラルネットワークタギングモデルを訓練し、MTの下流性能と音声文書間情報検索(CLIR)を改善することを示す。

Typical ASR systems segment the input audio into utterances using purely acoustic information, which may not resemble the sentence-like units that are expected by conventional machine translation (MT) systems for Spoken Language Translation. In this work, we propose a model for correcting the acoustic segmentation of ASR models for low-resource languages to improve performance on downstream tasks. We propose the use of subtitles as a proxy dataset for correcting ASR acoustic segmentation, creating synthetic acoustic utterances by modeling common error modes. We train a neural tagging model for correcting ASR acoustic segmentation and show that it improves downstream performance on MT and audio-document cross-language information retrieval (CLIR).
翻訳日:2021-04-20 03:47:41 公開日:2021-04-16
# (参考訳) リアルタイム前景セグメンテーションのためのデライニングセマンティックセグメンテーションネットワーク [全文訳有]

A De-raining semantic segmentation network for real-time foreground segmentation ( http://arxiv.org/abs/2104.07877v1 )

ライセンス: CC BY 4.0
Fanyi Wang, Yihui Zhang(参考訳) 降雨環境におけるリアルタイムセマンティックセグメンテーションのための研究は少ない。 しかし、この分野の需要は巨大であり、軽量ネットワークでは困難である。 そこで,本稿では,降雨環境における前景セグメンテーションのための軽量ネットワークとして,De-raining Semantic Segmentation Network (DRSNet)を提案する。 雨滴の特徴を解析することにより、マルチスケールSEブロックは入力画像の符号化を目標とし、マルチスケール拡張畳み込みを用いて受容界を増大させ、SEアテンション機構を用いて各チャネルの重みを学習する。 異なるエンコーダ層とデコーダ層間のセマンティック情報を結合するために、非対称スキープを用いることを提案し、すなわち、エンコーダの上位セマンティック層は双線形補間を用い、出力はポイントワイド畳み込みを通過し、デコーダの下位セマンティック層に要素ワイズを加える。 制御実験の結果,SEResNet18とSymmetric Skipと比較して,MultiScaleSEブロックと非対称スキップの性能は,フォアグラウンド精度指数である程度向上した。 DRSNetのパラメータと浮動小数点(FLOP)は、それぞれ0.54Mと0.20GFLOPのみである。 UESTC all-day Scenery add rain (UAS-add-rain)とBaidu People Segmentation add rain (BPS-add-rain)ベンチマークの両方で、入力サイズ192*128, 384*256, 768*512。 DRSNetの速度は1GFLOPs内の全ネットワークを上回り、フォアグラウンド精度指数も両方のベンチマークで同様の大きさのネットワークの中で最高である。

Few researches have been proposed specifically for real-time semantic segmentation in rainy environments. However, the demand in this area is huge and it is challenging for lightweight networks. Therefore, this paper proposes a lightweight network which is specially designed for the foreground segmentation in rainy environments, named De-raining Semantic Segmentation Network (DRSNet). By analyzing the characteristics of raindrops, the MultiScaleSE Block is targetedly designed to encode the input image, it uses multi-scale dilated convolutions to increase the receptive field, and SE attention mechanism to learn the weights of each channels. In order to combine semantic information between different encoder and decoder layers, it is proposed to use Asymmetric Skip, that is, the higher semantic layer of encoder employs bilinear interpolation and the output passes through pointwise convolution, then added element-wise to the lower semantic layer of decoder. According to the control experiments, the performances of MultiScaleSE Block and Asymmetric Skip compared with SEResNet18 and Symmetric Skip respectively are improved to a certain degree on the Foreground Accuracy index. The parameters and the floating point of operations (FLOPs) of DRSNet is only 0.54M and 0.20GFLOPs separately. The state-of-the-art results and real-time performances are achieved on both the UESTC all-day Scenery add rain (UAS-add-rain) and the Baidu People Segmentation add rain (BPS-add-rain) benchmarks with the input sizes of 192*128, 384*256 and 768*512. The speed of DRSNet exceeds all the networks within 1GFLOPs, and Foreground Accuracy index is also the best among the similar magnitude networks on both benchmarks.
翻訳日:2021-04-20 03:29:56 公開日:2021-04-16
# (参考訳) RoBERTaはいつ何を知っているのか? [全文訳有]

Probing Across Time: What Does RoBERTa Know and When? ( http://arxiv.org/abs/2104.07885v1 )

ライセンス: CC BY 4.0
Leo Z. Liu, Yizhong Wang, Jungo Kasai, Hannaneh Hajishirzi, Noah A. Smith(参考訳) 非常に大きなコーパスで訓練された言語モデルはNLPに有用であることが示されている。 固定された人工物として、彼らは激しい研究の対象となり、多くの研究者は言語的抽象化、事実と常識の知識、そして彼らが獲得し、容易に証明できる推論能力の程度を「調査」している。 言語モデルが学習する知識の種類に対して、(事前の)トレーニング中に取得されるのか? 我々はRoBERTaをケーススタディとして、反復間での探索性能をプロットする。 言語知識は、ドメイン間で速く、安定して、堅牢に取得されます。 事実と常識はより遅く、ドメインに敏感です。 推論能力は一般に安定して取得されない。 新たなデータセット、事前学習プロトコル、プローブが出現するにつれて、研究者たちは、これらのモデルが生み出す複雑で混ざった学習を理解し、必要な学習を迅速に行うための、より効率的なアプローチへと導くのに役立つと信じています。

Models of language trained on very large corpora have been demonstrated useful for NLP. As fixed artifacts, they have become the object of intense study, with many researchers "probing" the extent to which linguistic abstractions, factual and commonsense knowledge, and reasoning abilities they acquire and readily demonstrate. Building on this line of work, we consider a new question: for types of knowledge a language model learns, when during (pre)training are they acquired? We plot probing performance across iterations, using RoBERTa as a case study. Among our findings: linguistic knowledge is acquired fast, stably, and robustly across domains. Facts and commonsense are slower and more domain-sensitive. Reasoning abilities are, in general, not stably acquired. As new datasets, pretraining protocols, and probes emerge, we believe that probing-across-time analyses can help researchers understand the complex, intermingled learning that these models undergo and guide us toward more efficient approaches that accomplish necessary learning faster.
翻訳日:2021-04-20 03:10:23 公開日:2021-04-16
# (参考訳) 強化近傍選択誘導多関係グラフニューラルネットワーク

Reinforced Neighborhood Selection Guided Multi-Relational Graph Neural Networks ( http://arxiv.org/abs/2104.07886v1 )

ライセンス: CC BY 4.0
Hao Peng, Ruitong Zhang, Yingtong Dou, Renyu Yang, Jingyi Zhang, Philip S. Yu(参考訳) グラフニューラルネットワーク(gnns)は、様々な構造化グラフデータの表現学習に広く用いられており、通常、ノード間のメッセージパッシングを通じて、異なる操作で近所の情報を集約する。 有望な一方で、既存のGNNはグラフのエッジの複雑さと多様性を過度に単純化し、したがって、典型的にはマルチリレーショナルグラフ表現の形でユビキタスな異種グラフを扱うのに非効率的である。 本稿では,リレーショナルな表現を維持しつつ,ニューラルネットワーク構造の複雑さをナビゲートするために,Reinforceed, recursive, flexible neighborhood selection guided multi-relational Graph Neural Network Architectureを提案する。 我々はまず,ノード,エッジ,属性,ラベルの不均一性を反映するマルチリレーショナルグラフを構築する。 異なるノード間の組込み過剰同化を回避するため,ラベル認識型ニューラル類似度測定を用いて,ノード属性に基づいて最も類似した隣人を同定する。 強化された関係対応隣人選択機構が開発され、全ての近傍情報を異なる関係から集約する前に、対象ノードの最も類似した隣人を選択する。 特に,隣人選択の効率を向上させるために,多元関係グラフの異なるスケールに対して,推定可能な深さと幅を持つ新しい再帰的・スケーラブルな強化学習フレームワークを提案する。 RioGNNは、フィルタリングしきい値機構を通じて、各関係の個々の重要性を認識することによって、説明可能性を高めたより差別的なノード埋め込みを学習することができる。

Graph Neural Networks (GNNs) have been widely used for the representation learning of various structured graph data, typically through message passing among nodes by aggregating their neighborhood information via different operations. While promising, most existing GNNs oversimplified the complexity and diversity of the edges in the graph, and thus inefficient to cope with ubiquitous heterogeneous graphs, which are typically in the form of multi-relational graph representations. In this paper, we propose RioGNN, a novel Reinforced, recursive and flexible neighborhood selection guided multi-relational Graph Neural Network architecture, to navigate complexity of neural network structures whilst maintaining relation-dependent representations. We first construct a multi-relational graph, according to the practical task, to reflect the heterogeneity of nodes, edges, attributes and labels. To avoid the embedding over-assimilation among different types of nodes, we employ a label-aware neural similarity measure to ascertain the most similar neighbors based on node attributes. A reinforced relation-aware neighbor selection mechanism is developed to choose the most similar neighbors of a targeting node within a relation before aggregating all neighborhood information from different relations to obtain the eventual node embedding. Particularly, to improve the efficiency of neighbor selecting, we propose a new recursive and scalable reinforcement learning framework with estimable depth and width for different scales of multi-relational graphs. RioGNN can learn more discriminative node embedding with enhanced explainability due to the recognition of individual importance of each relation via the filtering threshold mechanism.
翻訳日:2021-04-20 02:43:54 公開日:2021-04-16
# (参考訳) 高次属性型不均一グラフニューラルネットワーク [全文訳有]

Higher-Order Attribute-Enhancing Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2104.07892v1 )

ライセンス: CC BY 4.0
Jianxin Li, Hao Peng, Yuwei Cao, Yingtong Dou, Hekai Zhang, Philip S. Yu, Lifang He(参考訳) グラフニューラルネットワーク(GNN)は、グラフのディープラーニングに広く利用されている。 効果的なノード表現を学習し、ノード分類やノードクラスタリングといったグラフ分析タスクで優れたパフォーマンスを達成することができる。 しかし、ほとんどの手法は実世界のグラフの不均一性を無視する。 一方、異種グラフ用に設計された手法は、メタグラフの代わりにメタパスのみを使用するため、複雑な意味表現を学習できない。 さらに、ノード間のコンテンツベースの相関を完全に把握することはできず、自己照準機構を使用しないか、あるいは各ノードの直近の隣接を考慮し、上位の隣人を無視しているだけである。 本稿では,階層ごとのノード埋め込みを向上する新しい高次属性・エンハンシング(HAE)フレームワークを提案する。 haeフレームワークでは,ヘテロジニアスネットワーク表現学習のための高次属性拡張グラフニューラルネットワーク(haegnn)を提案する。 HAEGNNは、リッチでヘテロジニアスなセマンティクスのためのメタパスとメタグラフを同時に組み込んで、自己認識機構を活用してコンテンツベースのノードインタラクションを探索する。 HAEGNNのユニークな高階アーキテクチャは、一階と高階の地区を検査することができる。 さらに、HAEGNNは、異なるメタパスとメタグラフの重要性を学ぶことによって、優れた説明可能性を示す。 HAEGNNはメモリ効率も良く、メタパスベースの行列計算を避ける。 実験結果は,ノード分類,ノードクラスタリング,可視化における最先端手法に対するHAEGNNの優れた性能を示すだけでなく,メモリ効率と説明可能性の観点からもその優位性を示す。

Graph neural networks (GNNs) have been widely used in deep learning on graphs. They can learn effective node representations that achieve superior performances in graph analysis tasks such as node classification and node clustering. However, most methods ignore the heterogeneity in real-world graphs. Methods designed for heterogeneous graphs, on the other hand, fail to learn complex semantic representations because they only use meta-paths instead of meta-graphs. Furthermore, they cannot fully capture the content-based correlations between nodes, as they either do not use the self-attention mechanism or only use it to consider the immediate neighbors of each node, ignoring the higher-order neighbors. We propose a novel Higher-order Attribute-Enhancing (HAE) framework that enhances node embedding in a layer-by-layer manner. Under the HAE framework, we propose a Higher-order Attribute-Enhancing Graph Neural Network (HAEGNN) for heterogeneous network representation learning. HAEGNN simultaneously incorporates meta-paths and meta-graphs for rich, heterogeneous semantics, and leverages the self-attention mechanism to explore content-based nodes interactions. The unique higher-order architecture of HAEGNN allows examining the first-order as well as higher-order neighborhoods. Moreover, HAEGNN shows good explainability as it learns the importances of different meta-paths and meta-graphs. HAEGNN is also memory-efficient, for it avoids per meta-path based matrix calculation. Experimental results not only show HAEGNN superior performance against the state-of-the-art methods in node classification, node clustering, and visualization, but also demonstrate its superiorities in terms of memory efficiency and explainability.
翻訳日:2021-04-20 02:40:34 公開日:2021-04-16
# (参考訳) 医療コード予測の忠実かつ確実な説明 [全文訳有]

Faithful and Plausible Explanations of Medical Code Predictions ( http://arxiv.org/abs/2104.07894v1 )

ライセンス: CC BY 4.0
Zach Wood-Doughty, Isabel Cachola, and Mark Dredze(参考訳) 優れた予測性能を提供する機械学習モデルは、統合されたマシン意思決定をサポートするために必要な解釈性に欠けることが多い。 臨床医学やその他のリスクの高い環境では、ドメインの専門家は説明なしでモデル予測を信頼したくないかもしれません。 1) 説明はモデルの意思決定に対する忠実さと、ドメインの専門家への可能性とをバランスさせなければなりません。 2)各分野の専門家は、個別予測の地域的説明と総合的な行動のグローバル的説明を求める。 我々は、訓練されたモデルの振る舞いを模倣し、これらのトレードオフをきめ細かく制御するプロキシモデルを訓練することを提案する。 我々は,icdコードを臨床ノートに割り当てる作業に対するアプローチを評価し,プロキシモデルからの説明が忠実で,訓練されたモデルの振る舞いを再現できることを示す。

Machine learning models that offer excellent predictive performance often lack the interpretability necessary to support integrated human machine decision-making. In clinical medicine and other high-risk settings, domain experts may be unwilling to trust model predictions without explanations. Work in explainable AI must balance competing objectives along two different axes: 1) Explanations must balance faithfulness to the model's decision-making with their plausibility to a domain expert. 2) Domain experts desire local explanations of individual predictions and global explanations of behavior in aggregate. We propose to train a proxy model that mimics the behavior of the trained model and provides fine-grained control over these trade-offs. We evaluate our approach on the task of assigning ICD codes to clinical notes to demonstrate that explanations from the proxy model are faithful and replicate the trained model behavior.
翻訳日:2021-04-20 02:12:22 公開日:2021-04-16
# (参考訳) 予習変圧器を用いたバグフィックスの生成 [全文訳有]

Generating Bug-Fixes Using Pretrained Transformers ( http://arxiv.org/abs/2104.07896v1 )

ライセンス: CC BY 4.0
Dawn Drain, Chen Wu, Alexey Svyatkovskiy, Neel Sundaresan(参考訳) バグの検出と修正は、ソフトウェア開発サイクルでもっとも重要でフラストレーションのある部分の2つです。 既存のバグ検出ツールは、主に静的アナライザに基づいており、一般的なタイプのバグを検出するためにプログラムの実行に関する数学的論理と記号的推論に依存している。 バグの修正は通常、開発者に任される。 この作業では、実際のgithubリポジトリからマイニングされたjavaメソッドのバグの検出と修正を学ぶデータ駆動プログラム修復アプローチであるdeepdebugを紹介します。 バグパッチングを,(i)事前学習,(ii)目標翻訳タスクの微調整という2つのステップからなるシーケンス・ツー・シーケンス学習タスクとして構成する。 ソースコードプログラムの事前学習では,スクラッチからの教師付きトレーニングに比べて33%のパッチ数を改善する一方,自然言語からコードへのドメイン適応型事前学習では,さらに32%の精度向上が期待できる。 我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。 以前の作業とは対照的に、より小さなキャパシティモデルにのみメリットがある抽象的なコードを扱うのではなく、生のコードを生成する際の最高の結果を得るのです。 最後に、標準的な位置埋め込みと共に構文埋め込みを追加することによる微妙な改善と、トークンの構文クラスを予測する補助的なタスクの追加を観察する。 Javaに重点を置いているにも関わらず、我々のアプローチは言語に依存しない。

Detecting and fixing bugs are two of the most important yet frustrating parts of the software development cycle. Existing bug detection tools are based mainly on static analyzers, which rely on mathematical logic and symbolic reasoning about the program execution to detect common types of bugs. Fixing bugs is typically left out to the developer. In this work we introduce DeepDebug: a data-driven program repair approach which learns to detect and fix bugs in Java methods mined from real-world GitHub repositories. We frame bug-patching as a sequence-to-sequence learning task consisting of two steps: (i) denoising pretraining, and (ii) supervised finetuning on the target translation task. We show that pretraining on source code programs improves the number of patches found by 33% as compared to supervised training from scratch, while domain-adaptive pretraining from natural language to code further improves the accuracy by another 32%. We refine the standard accuracy evaluation metric into non-deletion and deletion-only fixes, and show that our best model generates 75% more non-deletion fixes than the previous state of the art. In contrast to prior work, we attain our best results when generating raw code, as opposed to working with abstracted code that tends to only benefit smaller capacity models. Finally, we observe a subtle improvement from adding syntax embeddings along with the standard positional embeddings, as well as with adding an auxiliary task to predict each token's syntactic class. Despite focusing on Java, our approach is language agnostic, requiring only a general-purpose parser such as tree-sitter.
翻訳日:2021-04-20 02:00:04 公開日:2021-04-16
# (参考訳) 深層学習による撮影画像の進行変化解析によるニワトリ植物における水ストレスの同定 [全文訳有]

Identifying Water Stress in Chickpea Plant by Analyzing Progressive Changes in Shoot Images using Deep Learning ( http://arxiv.org/abs/2104.07911v1 )

ライセンス: CC BY 4.0
Shiva Azimi, Rohan Wadhawan, and Tapan K. Gandhi(参考訳) 成長する世界の人口のニーズを満たすためには、近代的で精密で自動化された農業手法を駆使して、世界の農業収量を増やす必要がある。 近年では、非侵襲的な画像解析と機械学習を組み合わせた高スループット植物表現型変換技術が、植物の健康や病気の特定と定量化に成功している。 しかし、これらの画像ベースの機械学習は通常、植物ストレスの進行的または時間的性質を考慮しない。 この時間不変なアプローチでは、強いストレスの兆候を示す画像を高い信頼度で検出する必要があるため、ストレス下の植物を早期に検出し回復するためのこのアプローチの可能性が低下する。 上記の課題を克服するために,ストレスによるプラントの視覚変化の時間的解析を行い,ヒヨコの撮影画像における水ストレス識別の具体例に適用する。 そこで本研究では,水ストレス条件,制御,幼苗,開花前,5ヶ月以上にわたって捕獲された2種類のニワトリJG-62とPusa-372の画像データセットについて検討した。 次に、このデータセットから視覚時間パターンを学習し、高い信頼性で水ストレスカテゴリを予測するLSTM-CNNアーキテクチャを開発する。 ベースライン・コンテキストを確立するために,提案モデルで使用されるCNNアーキテクチャと,水ストレスの時間不変分類に使用される他のCNN手法の比較分析を行った。 その結果, LSTM-CNNモデルでは, JG-62 では \textbf{98.52\%} , Pusa-372 では \textbf{97.78\%} の天井レベル分類性能が得られた。 最後に,LSTM-CNNモデルの性能を訓練に使用する時間的セッションデータの量を減らすためのアブレーション実験を行った。

To meet the needs of a growing world population, we need to increase the global agricultural yields by employing modern, precision, and automated farming methods. In the recent decade, high-throughput plant phenotyping techniques, which combine non-invasive image analysis and machine learning, have been successfully applied to identify and quantify plant health and diseases. However, these image-based machine learning usually do not consider plant stress's progressive or temporal nature. This time-invariant approach also requires images showing severe signs of stress to ensure high confidence detections, thereby reducing this approach's feasibility for early detection and recovery of plants under stress. In order to overcome the problem mentioned above, we propose a temporal analysis of the visual changes induced in the plant due to stress and apply it for the specific case of water stress identification in Chickpea plant shoot images. For this, we have considered an image dataset of two chickpea varieties JG-62 and Pusa-372, under three water stress conditions; control, young seedling, and before flowering, captured over five months. We then develop an LSTM-CNN architecture to learn visual-temporal patterns from this dataset and predict the water stress category with high confidence. To establish a baseline context, we also conduct a comparative analysis of the CNN architecture used in the proposed model with the other CNN techniques used for the time-invariant classification of water stress. The results reveal that our proposed LSTM-CNN model has resulted in the ceiling level classification performance of \textbf{98.52\%} on JG-62 and \textbf{97.78\%} on Pusa-372 and the chickpea plant data. Lastly, we perform an ablation study to determine the LSTM-CNN model's performance on decreasing the amount of temporal session data used for training.
翻訳日:2021-04-20 01:48:21 公開日:2021-04-16
# (参考訳) 弱教師付き物体定位と検出:調査 [全文訳有]

Weakly Supervised Object Localization and Detection: A Survey ( http://arxiv.org/abs/2104.07918v1 )

ライセンス: CC BY 4.0
Dingwen Zhang, Junwei Han, Gong Cheng, and Ming-Hsuan Yang(参考訳) コンピュータビジョンコミュニティにおける新たな課題として、オブジェクトのローカライゼーションと検出の弱さが、新しい世代のコンピュータビジョンシステムの開発において重要な役割を担い、過去10年間で大きな注目を集めてきた。 提案手法が提案されているように,これらのトピックに関する総合的な調査が重要である。 本研究では,(1)古典的モデル,(2)既成の深層ネットワークの特徴表現を用いたアプローチ,(3)ディープラーニングのみに基づくアプローチ,(4)この分野で広く利用されている公開データセットと標準評価指標についてレビューする。 また、この分野における重要な課題、この分野の開発史、各分野における手法の利点・不利点、異なるカテゴリにおける手法間の関係、弱い監督対象の局所化・検出手法の適用、研究分野のさらなる発展に向けた今後の方向性についても論じる。

As an emerging and challenging problem in the computer vision community, weakly supervised object localization and detection plays an important role for developing new generation computer vision systems and has received significant attention in the past decade. As methods have been proposed, a comprehensive survey of these topics is of great importance. In this work, we review (1) classic models, (2) approaches with feature representations from off-the-shelf deep networks, (3) approaches solely based on deep learning, and (4) publicly available datasets and standard evaluation metrics that are widely used in this field. We also discuss the key challenges in this field, development history of this field, advantages/disadvant ages of the methods in each category, the relationships between methods in different categories, applications of the weakly supervised object localization and detection methods, and potential future directions to further promote the development of this research field.
翻訳日:2021-04-20 01:32:14 公開日:2021-04-16
# (参考訳) VGNMN:ビデオグラウンド言語タスクのためのビデオグラウンドニューラルネットワーク [全文訳有]

VGNMN: Video-grounded Neural Module Network to Video-Grounded Language Tasks ( http://arxiv.org/abs/2104.07921v1 )

ライセンス: CC BY 4.0
Hung Le, Nancy F. Chen, Steven C.H. Hoi(参考訳) ニューラルモジュールネットワーク(NMN)は、合成画像における視覚質問応答(VQA)のような画像地上タスクで成功している。 しかし、ビデオグラウンド言語タスクにおいて、NMNに関する非常に限られた研究が研究されている。 これらのタスクは、視覚的な時間的ばらつきを加えることで、従来のビジュアルタスクの複雑さを拡張する。 近年のNMNによるイメージグラウンド型タスクへのアプローチにより,ビデオグラウンド型言語タスクにおける情報検索プロセスをニューラルモジュールのパイプラインとしてモデル化するビデオグラウンド型ニューラルモジュールネットワーク(VGNMN)を導入している。 VGNMNはまずすべての言語コンポーネントを分解し、エンティティ参照を明示的に解決し、質問から対応するアクションベースの入力を検出する。 検出されたエンティティとアクションは、ニューラルネットワークをインスタンス化し、ビデオから視覚的手がかりを抽出するパラメータとして使用される。 実験の結果,VGNMNは2つのビデオグラウンド言語タスク,すなわちビデオQAとビデオグラウンド言語対話において,有望な性能を達成できることがわかった。

Neural module networks (NMN) have achieved success in image-grounded tasks such as Visual Question Answering (VQA) on synthetic images. However, very limited work on NMN has been studied in the video-grounded language tasks. These tasks extend the complexity of traditional visual tasks with the additional visual temporal variance. Motivated by recent NMN approaches on image-grounded tasks, we introduce Video-grounded Neural Module Network (VGNMN) to model the information retrieval process in video-grounded language tasks as a pipeline of neural modules. VGNMN first decomposes all language components to explicitly resolve any entity references and detect corresponding action-based inputs from the question. The detected entities and actions are used as parameters to instantiate neural module networks and extract visual cues from the video. Our experiments show that VGNMN can achieve promising performance on two video-grounded language tasks: video QA and video-grounded dialogues.
翻訳日:2021-04-20 00:54:24 公開日:2021-04-16
# (参考訳) 大規模における高品質インシシシト推論の収集に関する比較研究 [全文訳有]

A Comparative Study on Collecting High-Quality Implicit Reasonings at a Large-scale ( http://arxiv.org/abs/2104.07924v1 )

ライセンス: CC BY 4.0
Keshav Singh, Paul Reisert, Naoya Inoue, Kentaro Inui(参考訳) 暗黙の推論(すなわち)を明示する 論証) 議論は自然言語理解システムにとって長年の課題である。 最近のアプローチでは、クラウドソーシングやエキスパートアノテーションによる令状説明に重点を置いているが、タスクの複雑さと主観性のために、令状の品質は疑問視されている。 本稿では,令状抽出の複雑な課題に取り組み,令状収集のための様々な手法を考案する。 我々は、訓練された専門家と広範な調査を行い、それぞれの手法の保証内容を評価し、我々の手法が高品質の保証書を収集することを可能にすることを見出します。 3つの議論に600以上の議論を注釈付けした6000の令状からなる予備的データセットを構築した。 下流タスクの研究を容易にするため、我々はガイドラインと予備データセットをリリースする。

Explicating implicit reasoning (i.e. warrants) in arguments is a long-standing challenge for natural language understanding systems. While recent approaches have focused on explicating warrants via crowdsourcing or expert annotations, the quality of warrants has been questionable due to the extreme complexity and subjectivity of the task. In this paper, we tackle the complex task of warrant explication and devise various methodologies for collecting warrants. We conduct an extensive study with trained experts to evaluate the resulting warrants of each methodology and find that our methodologies allow for high-quality warrants to be collected. We construct a preliminary dataset of 6,000 warrants annotated over 600 arguments for 3 debatable topics. To facilitate research in related downstream tasks, we release our guidelines and preliminary dataset.
翻訳日:2021-04-20 00:29:30 公開日:2021-04-16
# (参考訳) 注意! 集中しろ! [全文訳有]

Attention! Stay Focus! ( http://arxiv.org/abs/2104.07925v1 )

ライセンス: CC BY 4.0
Tu Vo(参考訳) 我々は,デュアルピクセル画像を用いたカメラのデフォーカスによるぼやけたアーティファクトに対処するために,深層畳み込みニューラルネットワーク(cnns)を開発した。 具体的には,注意エンコーダ,トリプルローカル,グローバルローカルモジュールからなるダブルアテンションネットワークを開発し,デュアルピクセル内の各画像から有用な情報を効果的に抽出し,各画像から有用な情報を選択し,最終的な出力画像を合成する。 NTIRE 2021 Defocus Deblurringにおける2画素画像チャレンジを用いたテストセットの評価により,定性的,定量的両面の観点から,提案手法の有効性を示す。 コードはhttps://github.com/t uvovan/ATTSFで公開されている。

We develop a deep convolutional neural networks(CNNs) to deal with the blurry artifacts caused by the defocus of the camera using dual-pixel images. Specifically, we develop a double attention network which consists of attentional encoders, triple locals and global local modules to effectively extract useful information from each image in the dual-pixels and select the useful information from each image and synthesize the final output image. We demonstrate the effectiveness of the proposed deblurring algorithm in terms of both qualitative and quantitative aspects by evaluating on the test set in the NTIRE 2021 Defocus Deblurring using Dual-pixel Images Challenge. The code, and trained models are available at https://github.com/t uvovan/ATTSF.
翻訳日:2021-04-20 00:20:42 公開日:2021-04-16
# (参考訳) データパーティショニングによる外部検出に基づく$k$-nearest近傍の差分プライバシーの実現 [全文訳有]

Achieving differential privacy for $k$-nearest neighbors based outlier detection by data partitioning ( http://arxiv.org/abs/2104.07938v1 )

ライセンス: CC BY 4.0
Jens Rauch, Iyiola E. Olatunji and Megha Khosla(参考訳) データがセンシティブな設定で異常検出を適用する場合、基盤となるデータのプライバシを保証するメカニズムが必要である。 k$-nearest neighbors$k$-NN)アルゴリズムは、外れ値検出の最も効果的な方法の1つである。 これまでのところ、$k$-NNベースの外れ値検出のための差分プライベート(\epsilon$-DP)アプローチを開発する試みは行われていない。 既存のアプローチはしばしば$\epsilon$-DPの概念を緩和し、$k$-NN以外のメソッドを使う。 提案手法は,提案手法を参照不整合データに対する適合ステップに分離し,新しいデータに適用することで,$k$-NNに基づく外れ値検出を行う手法である。 我々は、データセットを一様格子に分割することで、基準データに対する適合アルゴリズムと外れ値分類器の両方に対して$\epsilon$-DPを達成し、世界全体の感度を低くする。 提案手法は,$k$-NNの非プライベートバージョンと比較して,次元の異なる実世界のデータに対してほぼ最適な性能を示す。

When applying outlier detection in settings where data is sensitive, mechanisms which guarantee the privacy of the underlying data are needed. The $k$-nearest neighbors ($k$-NN) algorithm is a simple and one of the most effective methods for outlier detection. So far, there have been no attempts made to develop a differentially private ($\epsilon$-DP) approach for $k$-NN based outlier detection. Existing approaches often relax the notion of $\epsilon$-DP and employ other methods than $k$-NN. We propose a method for $k$-NN based outlier detection by separating the procedure into a fitting step on reference inlier data and then apply the outlier classifier to new data. We achieve $\epsilon$-DP for both the fitting algorithm and the outlier classifier with respect to the reference data by partitioning the dataset into a uniform grid, which yields low global sensitivity. Our approach yields nearly optimal performance on real-world data with varying dimensions when compared to the non-private versions of $k$-NN.
翻訳日:2021-04-20 00:13:28 公開日:2021-04-16
# (参考訳) 何百万ものツイートが重要: 顧客サービスタスクにトランスフォーマーをチューニング [全文訳有]

A Million Tweets Are Worth a Few Points: Tuning Transformers for Customer Service Tasks ( http://arxiv.org/abs/2104.07944v1 )

ライセンス: CC BY 4.0
Amir Hadifar, Sofie Labat, V\'eronique Hoste, Chris Develder and Thomas Demeester(参考訳) オンラインドメイン固有のカスタマーサービスアプリケーションでは、データセットの可用性とノイズが限られているため、多くの企業が高度なNLPモデルをうまくデプロイすることに苦労している。 以前の研究は、ドメイン固有タスクのための大規模なオープンドメイン事前トレーニングモデルへの移行の可能性を示したが、適切な(事前)トレーニング戦略は、ソーシャルメディアのカスタマーサービス設定、特に多言語環境において、厳密に評価されていない。 このギャップに対処するために,カスタマサービス会話(865万ツイート)を含む多言語ソーシャルメディアコーパスを収集し,プリトレーニングと微調整のさまざまなパイプラインを比較し,これらを5つの異なるエンドタスクに適用する。 ドメイン内データセット上で汎用多言語トランスフォーマーモデルを事前トレーニングした後、特定のタスクを微調整することで、特に英語以外の設定では、パフォーマンスが一貫して向上することを示す。

In online domain-specific customer service applications, many companies struggle to deploy advanced NLP models successfully, due to the limited availability of and noise in their datasets. While prior research demonstrated the potential of migrating large open-domain pretrained models for domain-specific tasks, the appropriate (pre)training strategies have not yet been rigorously evaluated in such social media customer service settings, especially under multilingual conditions. We address this gap by collecting a multilingual social media corpus containing customer service conversations (865k tweets), comparing various pipelines of pretraining and finetuning approaches, applying them on 5 different end tasks. We show that pretraining a generic multilingual transformer model on our in-domain dataset, before finetuning on specific end tasks, consistently boosts performance, especially in non-English settings.
翻訳日:2021-04-20 00:01:19 公開日:2021-04-16
# (参考訳) 最適サイズ・パフォーマンストレードオフ:PoSタガーモデルの検討 [全文訳有]

Optimal Size-Performance Tradeoffs: Weighing PoS Tagger Models ( http://arxiv.org/abs/2104.07951v1 )

ライセンス: CC BY-SA 4.0
Magnus Jacobsen, Mikkel H. S{\o}rensen, Leon Derczynski(参考訳) 機械学習ベースのNLPパフォーマンスの改善は、より大きなモデルとより複雑なコードでしばしば示される。 より優れたスコアは、より大きなツールのコストで得られ、より大きなモデルは、トレーニングと推論時間の間により多くのものを必要とします。 本稿では,モデルのサイズを計測し,モデルの性能と比較する複数の手法を提案する。 そこで本研究では,8言語を対象としたタガーに適用し,サイズパフォーマンスに最適なタガーを識別する新しい分析手法を提案する。 その結果、いくつかの古典的タガーは、言語間のサイズパフォーマンスのスカイラインに置かれていることがわかった。 さらに、深層モデルは複数のスコアで最高のパフォーマンスを持つが、ピーク性能に達する最も複雑なモデルではないことが多い。

Improvement in machine learning-based NLP performance are often presented with bigger models and more complex code. This presents a trade-off: better scores come at the cost of larger tools; bigger models tend to require more during training and inference time. We present multiple methods for measuring the size of a model, and for comparing this with the model's performance. In a case study over part-of-speech tagging, we then apply these techniques to taggers for eight languages and present a novel analysis identifying which taggers are size-performance optimal. Results indicate that some classical taggers place on the size-performance skyline across languages. Further, although the deep models have highest performance for multiple scores, it is often not the most complex of these that reach peak performance.
翻訳日:2021-04-19 23:53:44 公開日:2021-04-16
# (参考訳) 人間の理解可能な視覚説明に向けて:不可避な高周波の手がかりを除去できる [全文訳有]

Towards Human-Understandable Visual Explanations:Imperce ptible High-frequency Cues Can Better Be Removed ( http://arxiv.org/abs/2104.07954v1 )

ライセンス: CC BY 4.0
Kaili Wang, Jose Oramas, Tinne Tuytelaars(参考訳) 説明可能なAI(XAI)メソッドは、ニューラルネットワークが学んだことを説明することに重点を置いている。 本稿では,これらを「識別機能」と呼ぶ。 しかし、人間が生成した説明を理解できるかは、これらの特徴の人間への受容性にも依存する。 ヒトの視覚システム(hvs)と精神物理学によって制約された人間の能力は、人間に理解可能なものであることを確認するために考慮する必要があると論じる。 我々は、人間の理解可能な説明を生成するために、ニューラルネットワークはトレーニング中に人間の理解可能な手がかりに焦点を合わせるべきであると述べる。 実顔画像と偽顔画像の分類に関するケーススタディを行い、標準的なニューラルネットワークによって選択された特徴の多くは、人間には認識できないことが判明した。 提案する原則を適用することで、人間の理解可能な説明を含むニューラルネットワークを訓練し、ユーザ研究において、人間の直観に合致することが示される。 これはAIをより信頼しやすくし、機械から学ぶ人間の扉を開く可能性が高い。 本研究では,ニューラルネットワークおよびXAI法において,人間の知覚できない高空間周波数特性の挙動を特に調査し,解析する。

Explainable AI (XAI) methods focus on explaining what a neural network has learned - in other words, identifying the features that are the most influential to the prediction. In this paper, we call them "distinguishing features". However, whether a human can make sense of the generated explanation also depends on the perceptibility of these features to humans. To make sure an explanation is human-understandable , we argue that the capabilities of humans, constrained by the Human Visual System (HVS) and psychophysics, need to be taken into account. We propose the {\em human perceptibility principle for XAI}, stating that, to generate human-understandable explanations, neural networks should be steered towards focusing on human-understandable cues during training. We conduct a case study regarding the classification of real vs. fake face images, where many of the distinguishing features picked up by standard neural networks turn out not to be perceptible to humans. By applying the proposed principle, a neural network with human-understandable explanations is trained which, in a user study, is shown to better align with human intuition. This is likely to make the AI more trustworthy and opens the door to humans learning from machines. In the case study, we specifically investigate and analyze the behaviour of the human-imperceptible high spatial frequency features in neural networks and XAI methods.
翻訳日:2021-04-19 23:43:30 公開日:2021-04-16
# (参考訳) OmniFlow: 人間の全方位光フロー [全文訳有]

OmniFlow: Human Omnidirectional Optical Flow ( http://arxiv.org/abs/2104.07960v1 )

ライセンス: CC BY 4.0
Roman Seidel, Andr\'e Apitzsch, Gangolf Hirtz(参考訳) 光の流れは、少なくとも2つの連続するビデオフレーム間のピクセルの動きであり、エンドツーエンドのトレーニング可能な畳み込みニューラルネットワークを通じて推定することができる。 この目的のためには、光学フロー推定の精度を向上させるために大規模なトレーニングデータセットが必要である。 我々はomniflow: a new synthetic omnidirectional human optical flow datasetを提案する。 レンダリングエンジンに基づいて、テクスチャのついた部屋、キャラクター、アクション、オブジェクト、照明、動きのぼやけのある自然主義的な3d屋内環境を作り、そこで、データキャプチャプロセス中に環境のすべてのコンポーネントをシャッフルします。 シミュレーションは、家庭内活動の出力画像と、それに対応する前方および後方の光学的流れを有する。 光フロー推定のためのボリューム対応ネットワークをトレーニングするためのデータを検証するため、OmniFlow上でテストとテストの異なるサブセットをテスト時間拡張なしでトレーニングする。 その結果,23,653枚の画像対が生成され,それに対応する前方および後方の光学的流れが得られた。 私たちのデータセットは、https://mytuc.org/by fsからダウンロードできます。

Optical flow is the motion of a pixel between at least two consecutive video frames and can be estimated through an end-to-end trainable convolutional neural network. To this end, large training datasets are required to improve the accuracy of optical flow estimation. Our paper presents OmniFlow: a new synthetic omnidirectional human optical flow dataset. Based on a rendering engine we create a naturalistic 3D indoor environment with textured rooms, characters, actions, objects, illumination and motion blur where all components of the environment are shuffled during the data capturing process. The simulation has as output rendered images of household activities and the corresponding forward and backward optical flow. To verify the data for training volumetric correspondence networks for optical flow estimation we train different subsets of the data and test on OmniFlow with and without Test-Time-Augmentati on. As a result we have generated 23,653 image pairs and corresponding forward and backward optical flow. Our dataset can be downloaded from: https://mytuc.org/by fs
翻訳日:2021-04-19 23:32:32 公開日:2021-04-16
# (参考訳) 3次元ミトコンドリアインスタンスセグメンテーションのための高度なディープネットワーク [全文訳有]

Advanced Deep Networks for 3D Mitochondria Instance Segmentation ( http://arxiv.org/abs/2104.07961v1 )

ライセンス: CC BY 4.0
Mingxing Li, Chang Chen, Xiaoyu Liu, Wei Huang, Yueyi Zhang, Zhiwei Xiong(参考訳) 電子顕微鏡(EM)画像からのミトコンドリアのインスタンスセグメンテーションは深層学習法の導入以来顕著な進歩を遂げている。 本稿では,ラットとヒトの3次元ミトコンドリアインスタンス分割のための2つの高度な深層ネットワークRes-UNet-RとRes-UNet-Hを提案する。 具体的には,単純かつ効果的な異方性畳み込みブロックを設計し,マルチスケールのトレーニング戦略を展開し,セグメンテーション性能を向上させる。 さらに,事前処理としてデノイジン操作を付加することにより,テストセット上でのトレーニングモデルの一般化性を高める。 大規模3D Mitochondria Instance Segmentation Challengeでは、テストフェーズの終了時に、私たちのチームがリーダーボードで第1位を獲得しました。 コードはhttps://github.com/L imingxing00/MitoEM20 21-Challengeで入手できる。

Mitochondria instance segmentation from electron microscopy (EM) images has seen notable progress since the introduction of deep learning methods. In this paper, we propose two advanced deep networks, named Res-UNet-R and Res-UNet-H, for 3D mitochondria instance segmentation from Rat and Human samples. Specifically, we design a simple yet effective anisotropic convolution block and deploy a multi-scale training strategy, which together boost the segmentation performance. Moreover, we enhance the generalizability of the trained models on the test set by adding a denoising operation as pre-processing. In the Large-scale 3D Mitochondria Instance Segmentation Challenge, our team ranks the 1st on the leaderboard at the end of the testing phase. Code is available at https://github.com/L imingxing00/MitoEM20 21-Challenge.
翻訳日:2021-04-19 23:26:23 公開日:2021-04-16
# (参考訳) OpenCSI: CSIベースのフィンガープリントを用いた屋内ローカライズのためのオープンソースデータセット [全文訳有]

OpenCSI: An Open-Source Dataset for Indoor Localization Using CSI-Based Fingerprinting ( http://arxiv.org/abs/2104.07963v1 )

ライセンス: CC BY 4.0
Arthur Gassner, Claudiu Musat, Alexandru Rusu and Andreas Burg(参考訳) 多くのアプリケーションは正確な屋内局在を必要とする。 フィンガープリントに基づくローカライゼーション手法はこの問題の解決法を提案するが、取得に労力を要する無線マップに依存している。 ソフトウェア定義無線(SDR)と車輪付きロボットを用いて,無線マップ取得フェーズを自動化する。 さらに3GPP長寿命進化(LTE)無線リンクのための自動ツールで取得した無線マップをオープンソース化した。 我々の知る限りでは、チャネル状態情報(CSI)を含む最初の公開無線地図である。 最後に,畳み込みニューラルネットワークを用いて,この無線地図上で最初の局所化実験を行い,位置座標の回帰について述べる。

Many applications require accurate indoor localization. Fingerprint-based localization methods propose a solution to this problem, but rely on a radio map that is effort-intensive to acquire. We automate the radio map acquisition phase using a software-defined radio (SDR) and a wheeled robot. Furthermore, we open-source a radio map acquired with our automated tool for a 3GPP Long-Term Evolution (LTE) wireless link. To the best of our knowledge, this is the first publicly available radio map containing channel state information (CSI). Finally, we describe first localization experiments on this radio map using a convolutional neural network to regress for location coordinates.
翻訳日:2021-04-19 23:20:41 公開日:2021-04-16
# (参考訳) 言語モデルは、最小限のバトラーである [全文訳有]

Language Models are Few-Shot Butlers ( http://arxiv.org/abs/2104.07972v1 )

ライセンス: CC BY-SA 4.0
Vincent Micheli, Fran\c{c}ois Fleuret(参考訳) 事前訓練された言語モデルは、小さなタスク固有のデータセットで微調整された場合、ほとんどのNLPタスクで強いパフォーマンスを示す。 したがって、これらの自己回帰モデルは、言語理解と生成能力が不可欠であるテキストベースの環境で動作する理想的なエージェントを構成する。 それでも、このような環境でのエキスパートデモの収集は時間がかかります。 本稿では,実演から学ぶ2段階の手順を紹介し,環境との相互作用によりさらに改善する。 本稿では,alfworld環境における既存手法よりも言語モデルに精細な調整を施し,簡単な強化学習アルゴリズムにより51%の成功率を向上できることを示す。

Pretrained language models demonstrate strong performance in most NLP tasks when fine-tuned on small task-specific datasets. Hence, these autoregressive models constitute ideal agents to operate in text-based environments where language understanding and generative capabilities are essential. Nonetheless, collecting expert demonstrations in such environments is a time-consuming endeavour. We introduce a two-stage procedure to learn from a small set of demonstrations and further improve by interacting with an environment. We show that language models fine-tuned with only 1.2% of the expert demonstrations and a simple reinforcement learning algorithm achieve a 51% absolute improvement in success rate over existing methods in the ALFWorld environment.
翻訳日:2021-04-19 23:06:21 公開日:2021-04-16
# (参考訳) 量子回帰アルゴリズムを用いた確率的水需要予測 [全文訳有]

Probabilistic water demand forecasting using quantile regression algorithms ( http://arxiv.org/abs/2104.07985v1 )

ライセンス: CC BY 4.0
Georgia Papacharalampous, Andreas Langousis(参考訳) 機械と統計的学習アルゴリズムは確実に自動化され、大規模に適用できる。 そのため、都市水需要など、実用的な予測システムを設計するための貴重な資産となることができる。 質的回帰アルゴリズムは統計的および機械学習アルゴリズムであり、直接的に確率的予測を提供することができ、都市水需要予測にはまだ適用されていない。 本研究では,都市の水需要予測に先立って,数種類の量的回帰に基づく実用システムを用いて,そのギャップを埋めることを目的としている。 実用システムの設計には、5つの個別アルゴリズム(量子回帰、線形ブースティング、一般化ランダムフォレスト、勾配ブースティングマシン、量子回帰ニューラルネットワークアルゴリズム)、平均結合器とその中央結合器を使用する。 この比較は、大都市水流データセットと、いくつかのタイプの気象学的時系列(予測設定において外因性予測変数と見なされる)を利用して行われる。 この結果は, 都市水流時系列の傾向に起因して, 線形ブースティングアルゴリズムを用いて設計した実用システムに好まれる。 平均値と中央値のコンビネータの予測も一般には見当たらない。

Machine and statistical learning algorithms can be reliably automated and applied at scale. Therefore, they can constitute a considerable asset for designing practical forecasting systems, such as those related to urban water demand. Quantile regression algorithms are statistical and machine learning algorithms that can provide probabilistic forecasts in a straightforward way, and have not been applied so far for urban water demand forecasting. In this work, we aim to fill this gap by automating and extensively comparing several quantile-regression- based practical systems for probabilistic one-day ahead urban water demand forecasting. For designing the practical systems, we use five individual algorithms (i.e., the quantile regression, linear boosting, generalized random forest, gradient boosting machine and quantile regression neural network algorithms), their mean combiner and their median combiner. The comparison is conducted by exploiting a large urban water flow dataset, as well as several types of hydrometeorological time series (which are considered as exogenous predictor variables in the forecasting setting). The results mostly favour the practical systems designed using the linear boosting algorithm, probably due to the presence of trends in the urban water flow time series. The forecasts of the mean and median combiners are also found to be skilful in general terms.
翻訳日:2021-04-19 22:56:43 公開日:2021-04-16
# (参考訳) 深層学習のための効率的かつ汎用的な1次元拡張畳み込み層 [全文訳有]

Efficient and Generic 1D Dilated Convolution Layer for Deep Learning ( http://arxiv.org/abs/2104.08002v1 )

ライセンス: CC BY 4.0
Narendra Chaudhary, Sanchit Misra, Dhiraj Kalamkar, Alexander Heinecke, Evangelos Georganas, Barukh Ziv, Menachem Adelman, Bharat Kaul(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像分類や画像処理などの2次元(2D)データを含むタスクに多くの応用を見出した。 そのため、2D畳み込み層はCPUやGPUに強く最適化されている。 しかし、ゲノミクスや音声認識などの多くの応用では、データは1次元(1D)となる。 このようなアプリケーションは最適化された1D畳み込みレイヤの恩恵を受けることができる。 本稿では,幅広いパラメータをカバーする汎用1次元畳み込み層の効率的な実装について紹介する。 特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。 We use the LIBXSMM library's batch-reduce General Matrix Multiplication (BRGEMM) kernel for FP32 and BFloat16 precision。 我々は,Intel Xeon Cascade LakeおよびCooper Lake CPU上で,最大80%の効率を実現できることを実証した。 さらに,brgemmベースの手法では,様々なパラメータをまたいで高い効率性を実現することにより,その一般化能力を示す。 入力テンソル幅,フィルタ幅,チャネル数,フィルタ数,拡張パラメータなど,Intel oneDNNライブラリバックエンドによる1D畳み込み層よりも高い効率を実現しています。 最後に,最適化された1次元畳み込み層の性能を,実ゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングに活用し,カスケードレイクcpu上でのonednnライブラリベースの実装よりも最大6.86倍の高速化を実現することで実証する。 また、16ソケットのCascade/Cooper Lake CPUによるスケーリングを実演し、8つのV100 GPU上で、同様の電力包み込みによる大幅な高速化を実現した。 エンドツーエンドのトレーニングでは、カスケードレイクで1.41倍、FP32で1.57倍、クーパーレイクで2.27倍、FP32で8つのV100GPU上でBFloat16で2.27倍のスピードアップが得られる。

Convolutional neural networks (CNNs) have found many applications in tasks involving two-dimensional (2D) data, such as image classification and image processing. Therefore, 2D convolution layers have been heavily optimized on CPUs and GPUs. However, in many applications - for example genomics and speech recognition, the data can be one-dimensional (1D). Such applications can benefit from optimized 1D convolution layers. In this work, we introduce our efficient implementation of a generic 1D convolution layer covering a wide range of parameters. It is optimized for x86 CPU architectures, in particular, for architectures containing Intel AVX-512 and AVX-512 BFloat16 instructions. We use the LIBXSMM library's batch-reduce General Matrix Multiplication (BRGEMM) kernel for FP32 and BFloat16 precision. We demonstrate that our implementation can achieve up to 80% efficiency on Intel Xeon Cascade Lake and Cooper Lake CPUs. Additionally, we show the generalization capability of our BRGEMM based approach by achieving high efficiency across a range of parameters. We consistently achieve higher efficiency than the 1D convolution layer with Intel oneDNN library backend for varying input tensor widths, filter widths, number of channels, filters, and dilation parameters. Finally, we demonstrate the performance of our optimized 1D convolution layer by utilizing it in the end-to-end neural network training with real genomics datasets and achieve up to 6.86x speedup over the oneDNN library-based implementation on Cascade Lake CPUs. We also demonstrate the scaling with 16 sockets of Cascade/Cooper Lake CPUs and achieve significant speedup over eight V100 GPUs using a similar power envelop. In the end-to-end training, we get a speedup of 1.41x on Cascade Lake with FP32, 1.57x on Cooper Lake with FP32, and 2.27x on Cooper Lake with BFloat16 over eight V100 GPUs with FP32.
翻訳日:2021-04-19 22:41:48 公開日:2021-04-16
# (参考訳) Manticoreクラスタベース多コアアーキテクチャ上でのCNN層の実装 [全文訳有]

Implementing CNN Layers on the Manticore Cluster-Based Many-Core Architecture ( http://arxiv.org/abs/2104.08009v1 )

ライセンス: CC BY 4.0
Andreas Kurth, Fabian Schuiki, Luca Benini(参考訳) 本稿では,manticoreクラスタベースのマルチコアアーキテクチャ上でcnn(convolutional neural network)層を実装し,その特性とトレードオフについて述べる。

This document presents implementations of fundamental convolutional neural network (CNN) layers on the Manticore cluster-based many-core architecture and discusses their characteristics and trade-offs.
翻訳日:2021-04-19 22:23:16 公開日:2021-04-16
# (参考訳) まばらな視点からみるドレストヒトの3次元表現の学習 [全文訳有]

Learning Implicit 3D Representations of Dressed Humans from Sparse Views ( http://arxiv.org/abs/2104.08013v1 )

ライセンス: CC BY 4.0
Pierre Zins, Yuanlu Xu, Edmond Boyer, Stefanie Wuhrer, Tony Tung(参考訳) 近年,データ駆動型単眼再構成法が3次元服装のモデル化において大きな進歩を遂げている。 しかし、このような手法は、単一のビューインプットに固有の深さの曖昧さやオクルージョンに悩まされている。 本稿では,複数視点からの情報を適切に活用するための最善の戦略を検討するとともに,一視点入力を付加的な視点で引き上げることにより,そのような問題に対処する。 本研究では、スパークカメラビューから着飾った人間の3D表現を暗黙的に学習するエンドツーエンドアプローチを提案する。 具体的には,複数の視点から視覚情報を集約する注意ベースの融合層,マルチビューコンテキスト下で局所的な3dパターンをエンコードするメカニズムの2つを紹介する。 実験では,提案手法が定量的および定性的に標準データ技術に匹敵することを示した。 さらに,本手法をマルチカメラプラットフォームで取得した実データに適用し,ビューが劇的に少ないマルチビューステレオに匹敵する結果が得られることを示す。

Recently, data-driven single-view reconstruction methods have shown great progress in modeling 3D dressed humans. However, such methods suffer heavily from depth ambiguities and occlusions inherent to single view inputs. In this paper, we address such issues by lifting the single-view input with additional views and investigate the best strategy to suitably exploit information from multiple views. We propose an end-to-end approach that learns an implicit 3D representation of dressed humans from sparse camera views. Specifically, we introduce two key components: first an attention-based fusion layer that learns to aggregate visual information from several viewpoints; second a mechanism that encodes local 3D patterns under the multi-view context. In the experiments, we show the proposed approach outperforms the state of the art on standard data both quantitatively and qualitatively. Additionally, we apply our method on real data acquired with a multi-camera platform and demonstrate our approach can obtain results comparable to multi-view stereo with dramatically less views.
翻訳日:2021-04-19 22:05:40 公開日:2021-04-16
# (参考訳) SHAP-Score-based Explanationsの複雑さについて:知識コンパイルによるトラクタビリティと非近似結果

On the Complexity of SHAP-Score-Based Explanations: Tractability via Knowledge Compilation and Non-Approximability Results ( http://arxiv.org/abs/2104.08015v1 )

ライセンス: CC BY 4.0
Marcelo Arenas, Pablo Barcel\'o, Leopoldo Bertossi, Mika\"el Monet(参考訳) Machine Learningでは、$\mathsf{SHAP}$-scoreはShapley値のバージョンであり、すべての機能にスコアを割り当てることで、特定のエンティティ上で学習したモデルの結果を説明するために使用される。 一般に、Shapley値は難解な問題であるが、$\mathsf{SHAP}$-scoreは決定論的で分解可能なブール回路よりも多項式時間で計算できるという強い正の結果を証明している。 このような回路は知識コンパイルの分野で研究され、二分決定木や順序付き二分決定図(OBDD)を含む幅広いブール回路と二分決定図を一般化する。 また,shap-scoreの計算限界は,ブールモデルのクラス上での計算が,そのクラスのモデルカウント問題と同じくらい多項式的に困難であることを観測することによって確立する。 これは、決定論と分解可能性の両方が、我々が考慮する回路にとって不可欠な性質であることを意味する。 また、$\mathsf{shap}$-scores の計算は dnf の命題公式のクラス上でも扱いがたいことを意味する。 この負の結果に基づいて、そのようなクラス上の$\mathsf{SHAP}$-scoresを計算するための完全多項式ランダム化近似スキーム (FPRAS) の存在を探索する。 FPRASを許容するDNF公式のモデルカウント問題とは対照的に,$\mathsf{SHAP}$-scoresの計算にはそのようなFPRASは存在しない。 驚くべきことに、この負の結果はDNFの単調式でも成り立つ。 広く信じられている複雑性仮定の下では、単調 dnf の公式 $\varphi$ が与えられ、$\mathsf{shap}$-score ($x$ in $\varphi$) が$\mathsf{shap}$-score ($y$ in $\varphi$) よりも小さいかどうかをチェックする多項式時間アルゴリズムは存在しない。

In Machine Learning, the $\mathsf{SHAP}$-score is a version of the Shapley value that is used to explain the result of a learned model on a specific entity by assigning a score to every feature. While in general computing Shapley values is an intractable problem, we prove a strong positive result stating that the $\mathsf{SHAP}$-score can be computed in polynomial time over deterministic and decomposable Boolean circuits. Such circuits are studied in the field of Knowledge Compilation and generalize a wide range of Boolean circuits and binary decision diagrams classes, including binary decision trees and Ordered Binary Decision Diagrams (OBDDs). We also establish the computational limits of the SHAP-score by observing that computing it over a class of Boolean models is always polynomially as hard as the model counting problem for that class. This implies that both determinism and decomposability are essential properties for the circuits that we consider. It also implies that computing $\mathsf{SHAP}$-scores is intractable as well over the class of propositional formulas in DNF. Based on this negative result, we look for the existence of fully-polynomial randomized approximation schemes (FPRAS) for computing $\mathsf{SHAP}$-scores over such class. In contrast to the model counting problem for DNF formulas, which admits an FPRAS, we prove that no such FPRAS exists for the computation of $\mathsf{SHAP}$-scores. Surprisingly, this negative result holds even for the class of monotone formulas in DNF. These techniques can be further extended to prove another strong negative result: Under widely believed complexity assumptions, there is no polynomial-time algorithm that checks, given a monotone DNF formula $\varphi$ and features $x,y$, whether the $\mathsf{SHAP}$-score of $x$ in $\varphi$ is smaller than the $\mathsf{SHAP}$-score of $y$ in $\varphi$.
翻訳日:2021-04-19 21:47:51 公開日:2021-04-16
# (参考訳) 高速・効果的・自己監視:マスク言語モデルからユニバーサル語彙・文エンコーダへの変換 [全文訳有]

Fast, Effective and Self-Supervised: Transforming Masked LanguageModels into Universal Lexical and Sentence Encoders ( http://arxiv.org/abs/2104.08027v1 )

ライセンス: CC BY 4.0
Fangyu Liu, Ivan Vuli\'c, Anna Korhonen, Nigel Collier(参考訳) MLM (Pretrained Masked Language Models) は近年NLPに革命をもたらした。 しかし, 従来の研究は, NLI, 文類似性, あるいは注釈付きタスクデータを用いたパラフレーズ処理を行わずに, 汎用語彙や文エンコーダとして有効でないことを示した。 本研究では,MLMを余分なデータや監督なしに,有効で普遍的な語彙および文エンコーダに変換することが可能であることを実証する。 我々は、MLM(例えばBERTやRoBERTa)を1分以内で変換する、極めて単純で高速で効果的なコントラスト学習手法であるMirror-BERTを提案する。 Mirror-BERT は完全に同一あるいはわずかに修正された文字列対を正(即ち同義)の微調整の例として頼りにしており、アイデンティティの微調整中にそれらの類似性を最大化することを目指している。 語彙レベルと文レベルの両方のタスクにおいて、異なるドメインや異なる言語で、Mirror-BERTを用いた既製のMLMよりも大幅に向上したことを報告した。 特に、標準文意味類似性(STS)タスクでは、自己教師型Mirror-BERTモデルは、タスクチューニングされたSentence-BERTモデルの性能を以前の作業と一致させる。 最後に, MLMの内部動作を深く掘り下げ, この単純なアプローチが, 効果的な一進的語彙および文エンコーダを生成できる理由を示唆する。

Pretrained Masked Language Models (MLMs) have revolutionised NLP in recent years. However, previous work has indicated that off-the-shelf MLMs are not effective as universal lexical or sentence encoders without further task-specific fine-tuning on NLI, sentence similarity, or paraphrasing tasks using annotated task data. In this work, we demonstrate that it is possible to turn MLMs into effective universal lexical and sentence encoders even without any additional data and without any supervision. We propose an extremely simple, fast and effective contrastive learning technique, termed Mirror-BERT, which converts MLMs (e.g., BERT and RoBERTa) into such encoders in less than a minute without any additional external knowledge. Mirror-BERT relies on fully identical or slightly modified string pairs as positive (i.e., synonymous) fine-tuning examples, and aims to maximise their similarity during identity fine-tuning. We report huge gains over off-the-shelf MLMs with Mirror-BERT in both lexical-level and sentence-level tasks, across different domains and different languages. Notably, in the standard sentence semantic similarity (STS) tasks, our self-supervised Mirror-BERT model even matches the performance of the task-tuned Sentence-BERT models from prior work. Finally, we delve deeper into the inner workings of MLMs, and suggest some evidence on why this simple approach can yield effective univeral lexical and sentence encoders.
翻訳日:2021-04-19 21:46:21 公開日:2021-04-16
# (参考訳) 基本に戻す:キーワード抽出のための統計的およびグラフ的用語重み付け方式の定量的解析 [全文訳有]

Back to the Basics: A Quantitative Analysis of Statistical and Graph-Based Term Weighting Schemes for Keyword Extraction ( http://arxiv.org/abs/2104.08028v1 )

ライセンス: CC BY 4.0
Asahi Ushio and Federico Liberatore and Jose Camacho-Collados(参考訳) 用語重み付けスキームは自然言語処理や情報検索で広く使われている。 特に、項重み付けはキーワード抽出の基礎となる。 しかし,各重み付け方式の強みと欠点を軽視する評価研究は比較的少ない。 実際、研究者や実践者は、グラフベースのモデルを含む他の適切な選択肢が存在するにもかかわらず、よく知られたtf-idfをデフォルトとしています。 本稿では,キーワード抽出の文脈において,統計的およびグラフに基づく項重み付け手法の徹底的かつ大規模比較を行う。 解析の結果,tf-idfに対する語彙特異性の低さの利点や,統計的手法とグラフ的手法の質的差異など,興味深い知見が得られた。 最後に,我々の知見に基づき,実践者への提案を議論し,考案する。 私たちはコードをhttps://github.com/a sahi417/kexでリリースします。

Term weighting schemes are widely used in Natural Language Processing and Information Retrieval. In particular, term weighting is the basis for keyword extraction. However, there are relatively few evaluation studies that shed light about the strengths and shortcomings of each weighting scheme. In fact, in most cases researchers and practitioners resort to the well-known tf-idf as default, despite the existence of other suitable alternatives, including graph-based models. In this paper, we perform an exhaustive and large-scale empirical comparison of both statistical and graph-based term weighting methods in the context of keyword extraction. Our analysis reveals some interesting findings such as the advantages of the less-known lexical specificity with respect to tf-idf, or the qualitative differences between statistical and graph-based methods. Finally, based on our findings we discuss and devise some suggestions for practitioners. We release our code at https://github.com/a sahi417/kex .
翻訳日:2021-04-19 21:27:10 公開日:2021-04-16
# (参考訳) 時系列データの因果発見技術評価のためのデータ生成プロセス [全文訳有]

Data Generating Process to Evaluate Causal Discovery Techniques for Time Series Data ( http://arxiv.org/abs/2104.08043v1 )

ライセンス: CC BY 4.0
Andrew R. Lawrence, Marcus Kaiser, Rui Sampaio, Maksim Sipos(参考訳) 相関を超えて、因果発見の重要なサブフィールドである観測時系列における因果関係の理解と同定が大きな課題となる。 実世界のデータに対して明確に定義された真実にアクセスできないことは、これらの手法の評価に合成データに頼る必要性を生じさせる。 既存のベンチマークは、データセットの"静的"な選択に制限されているか、あるいは一般的に仮定された場合のメソッドのパフォーマンスの詳細な評価が許されていないため、範囲内で制限されている。 本稿では,時系列因果関係発見手法の開発,評価,ベンチマーク化を目的とした時系列データ生成のためのフレキシブルで簡易なフレームワークを提案する。 特に、このフレームワークは、ベンチマークに"過度に適合"することなく、大量のデータに対して新しいメソッドを微調整するために使用することができる。 筆者らは,本フレームワークを用いて時系列因果発見手法の評価を行い,仮定の無効化とハイパーパラメータの選択に対する感度の低下を示す。 最後に、今後の研究の方向性と、我々のフレームワークが研究者と実践者の両方をサポートする方法を提案する。

Going beyond correlations, the understanding and identification of causal relationships in observational time series, an important subfield of Causal Discovery, poses a major challenge. The lack of access to a well-defined ground truth for real-world data creates the need to rely on synthetic data for the evaluation of these methods. Existing benchmarks are limited in their scope, as they either are restricted to a "static" selection of data sets, or do not allow for a granular assessment of the methods' performance when commonly made assumptions are violated. We propose a flexible and simple to use framework for generating time series data, which is aimed at developing, evaluating, and benchmarking time series causal discovery methods. In particular, the framework can be used to fine tune novel methods on vast amounts of data, without "overfitting" them to a benchmark, but rather so they perform well in real-world use cases. Using our framework, we evaluate prominent time series causal discovery methods and demonstrate a notable degradation in performance when their assumptions are invalidated and their sensitivity to choice of hyperparameters. Finally, we propose future research directions and how our framework can support both researchers and practitioners.
翻訳日:2021-04-19 21:04:01 公開日:2021-04-16
# (参考訳) holmes: 効率的で軽量なセマンティックベースの異常メール検出ツール [全文訳有]

Holmes: An Efficient and Lightweight Semantic Based Anomalous Email Detector ( http://arxiv.org/abs/2104.08044v1 )

ライセンス: CC BY 4.0
Peilun Wu, Shiyi Yang, Hui Guo(参考訳) メールの脅威は企業セキュリティにとって深刻な問題であり、フィッシング、詐欺、脅迫、不正行為などの悪質なシナリオで構成されている。 従来のアンチスパムゲートウェイは、メールの主題やコンテンツに存在する疑わしい語彙に基づいて、予期せぬメールをフィルタリングするグレイリストを維持する必要がある。 しかし、署名に基づくアプローチは、新型コロナウイルス(covid-19)や米国の選挙など、現在さまざまなホットトピックを利用する新規で未知の疑わしいメールを効果的に発見することはできない。 この問題に対処するため、本稿では、異常メール検出のための効率的で軽量なセマンティックベースエンジンであるHolmesを提案する。 ホームズは、メールのイベントログを単語の埋め込みを通じて文に変換し、奇抜な検出によって興味深い項目を抽出することができる。 企業環境では,送信者と受信者との間には安定した関係があるが,不審なメールは稀な選択によって検出される異常な情報源からのものである。 実世界の企業環境におけるホームズの性能を評価し,毎日約5,000通のメールを送信・受信する。 その結果、ホームズは高い検出率(1日200通の疑わしいメールの出力)を達成でき、異常検出のための低い誤報率を維持することができる。

Email threat is a serious issue for enterprise security, which consists of various malicious scenarios, such as phishing, fraud, blackmail and malvertisement. Traditional anti-spam gateway commonly requires to maintain a greylist to filter out unexpected emails based on suspicious vocabularies existed in the mail subject and content. However, the signature-based approach cannot effectively discover novel and unknown suspicious emails that utilize various hot topics at present, such as COVID-19 and US election. To address the problem, in this paper, we present Holmes, an efficient and lightweight semantic based engine for anomalous email detection. Holmes can convert each event log of email to a sentence through word embedding then extract interesting items among them by novelty detection. Based on our observations, we claim that, in an enterprise environment, there is a stable relation between senders and receivers, but suspicious emails are commonly from unusual sources, which can be detected through the rareness selection. We evaluate the performance of Holmes in a real-world enterprise environment, in which it sends and receives around 5,000 emails each day. As a result, Holmes can achieve a high detection rate (output around 200 suspicious emails per day) and maintain a low false alarm rate for anomaly detection.
翻訳日:2021-04-19 20:48:00 公開日:2021-04-16
# (参考訳) プロキシ行列最適化によるグラスマン反復線形判別分析 [全文訳有]

Grassmann Iterative Linear Discriminant Analysis with Proxy Matrix Optimization ( http://arxiv.org/abs/2104.08112v1 )

ライセンス: CC BY 4.0
Navya Nagananda, Breton Minnehan, Andreas Savakis(参考訳) 線形識別分析(LDA)は、パターン認識と統計の次元化に一般的に用いられる。 これは、より分類に使用できる縮小次元の最も差別的な空間を見つけることを目的とした教師付き手法である。 本稿では、プロキシ行列最適化(PMO)に基づくグラスマン反復LDA法(GILDA)を提案する。 PMOはグラスマン多様体上の自動微分と確率勾配勾配(SGD)を利用して最適射影行列に到達する。 以上の結果からgildaoutperformsは一般的な多様体最適化法であることがわかった。

Linear Discriminant Analysis (LDA) is commonly used for dimensionality reduction in pattern recognition and statistics. It is a supervised method that aims to find the most discriminant space of reduced dimension that can be further used for classification. In this work, we present a Grassmann Iterative LDA method (GILDA) that is based on Proxy Matrix Optimization (PMO). PMO makes use of automatic differentiation and stochastic gradient descent (SGD) on the Grassmann manifold to arrive at the optimal projection matrix. Our results show that GILDAoutperforms the prevailing manifold optimization method.
翻訳日:2021-04-19 20:33:27 公開日:2021-04-16
# (参考訳) 下流文書分類におけるBERTの時間適応と性能:ソーシャルメディアからの考察 [全文訳有]

Temporal Adaptation of BERT and Performance on Downstream Document Classification: Insights from Social Media ( http://arxiv.org/abs/2104.08116v1 )

ライセンス: CC BY 4.0
Paul R\"ottger and Janet B. Pierrehumbert(参考訳) 言語の使用はドメインによって異なり、ドメイン内でも言語の使用は時間とともに変化する。 これまでの研究によると、BERTのような事前訓練済みの言語モデルを継続的に事前訓練することで、ドメイン内の下流タスクのパフォーマンスが向上している。 本稿では,領域に加え,BERTを時間に適応させることにより,さらなる性能向上を図る。 この目的のために,3年間にわたるソーシャルメディアコメントのベンチマークコーパスを導入する。 コーパスは、上流のマスキング言語モデリングタスクにおける適応と評価のための36.36mの未ラベルのコメントと、下流の文書分類タスクにおける微調整と評価のための0.9mのラベル付きコメントで構成されている。 時間的適応は上流タスクのパフォーマンスを改善し、時間的微調整は下流タスクのパフォーマンスを向上させる。 しかし、BERTを時間とドメインに適応させることが、単にドメインに適応することよりも下流タスクのパフォーマンスを改善するという明確な証拠は見つからない。 時間適応は、下流タスクにおける言語使用の変化をキャプチャするが、実際にパフォーマンスに関連する変更ではない。

Language use differs between domains and even within a domain, language use changes over time. Previous work shows that adapting pretrained language models like BERT to domain through continued pretraining improves performance on in-domain downstream tasks. In this article, we investigate whether adapting BERT to time in addition to domain can increase performance even further. For this purpose, we introduce a benchmark corpus of social media comments sampled over three years. The corpus consists of 36.36m unlabelled comments for adaptation and evaluation on an upstream masked language modelling task as well as 0.9m labelled comments for finetuning and evaluation on a downstream document classification task. We find that temporality matters for both tasks: temporal adaptation improves upstream task performance and temporal finetuning improves downstream task performance. However, we do not find clear evidence that adapting BERT to time and domain improves downstream task performance over just adapting to domain. Temporal adaptation captures changes in language use in the downstream task, but not those changes that are actually relevant to performance on it.
翻訳日:2021-04-19 20:27:58 公開日:2021-04-16
# (参考訳) 単一画像の豪雨除去におけるグローバル・ローカルな注意力の活用 [全文訳有]

Exploiting Global and Local Attentions for Heavy Rain Removal on Single Images ( http://arxiv.org/abs/2104.08126v1 )

ライセンス: CC BY-SA 4.0
Dac Tung Vu, Juan Luis Gonzalez, Munchurl Kim(参考訳) 単一画像からの激しい雨の除去は、同時に雨のストリークや霧を除去し、捕獲された画像の品質を劇的に低下させる。 既存の降雨除去方法は, 大雨の場合, あまり一般的ではない。 本研究では,降雨と霧を別々に見積もることなく,単一の画像から大雨を除去する3つのサブネットワークからなる新しいネットワークアーキテクチャを提案する。 最初のサブネットは、私たちの空間チャネル注意(SCA)ブロックを組み込んだU-netベースのアーキテクチャで、雨や霧による大気の歪みを取り除くのに必要な十分なコンテキスト情報を提供するグローバルな特徴を抽出します。 第2のサブネットは,提案する残差インセプションモジュール (rim) による雨裂アーティファクトの除去に有用な付加残差情報を学習する。 第3のサブネットである乗算サブネットは、我々のCIM(Channel-attentiv e Inception Modules)を採用し、画像の局所画素強度を変調することにより、SCAや加算サブネットで効果的に抽出されない重要な局所特徴を学習する。 3つのクリーンイメージの結果は、注意ブレンディングブロックを介して結合され、最終的なクリーンイメージを生成します。 SCA,RIM,CIMを用いた本手法は,合成データセット上で従来の最先端の単一画像のデライニング手法よりも大幅に優れており,実際の画像データセット上では,よりクリーンでよりシャープなデライニング推定値を示す。 本稿では,合成データと実画像データの両方に対する各手法の貢献を支持する広範な実験とアブレーション研究を行う。

Heavy rain removal from a single image is the task of simultaneously eliminating rain streaks and fog, which can dramatically degrade the quality of captured images. Most existing rain removal methods do not generalize well for the heavy rain case. In this work, we propose a novel network architecture consisting of three sub-networks to remove heavy rain from a single image without estimating rain streaks and fog separately. The first sub-net, a U-net-based architecture that incorporates our Spatial Channel Attention (SCA) blocks, extracts global features that provide sufficient contextual information needed to remove atmospheric distortions caused by rain and fog. The second sub-net learns the additive residues information, which is useful in removing rain streak artifacts via our proposed Residual Inception Modules (RIM). The third sub-net, the multiplicative sub-net, adopts our Channel-attentive Inception Modules (CIM) and learns the essential brighter local features which are not effectively extracted in the SCA and additive sub-nets by modulating the local pixel intensities in the derained images. Our three clean image results are then combined via an attentive blending block to generate the final clean image. Our method with SCA, RIM, and CIM significantly outperforms the previous state-of-the-art single-image deraining methods on the synthetic datasets, shows considerably cleaner and sharper derained estimates on the real image datasets. We present extensive experiments and ablation studies supporting each of our method's contributions on both synthetic and real image datasets.
翻訳日:2021-04-19 20:10:18 公開日:2021-04-16
# (参考訳) ミンコフスキー和の最大ネットワークの領域数と頂点に対するシャープ境界 [全文訳有]

Sharp bounds for the number of regions of maxout networks and vertices of Minkowski sums ( http://arxiv.org/abs/2104.08135v1 )

ライセンス: CC BY 4.0
Guido Mont\'ufar and Yue Ren and Leon Zhang(参考訳) 本稿では,最大単位を持つ人工フィードフォワードニューラルネットワークで表現可能な関数の線形領域数について報告する。 rank-k maxout ユニットは、最大で $k$ の線形関数を計算する関数である。 マックスアウト単位の単一層を持つネットワークでは、線形領域は、ミンコフスキー和のポリトープの上頂点に対応する。 入力次元,単位数,階数など任意の入力次元の領域数に対する明示的な鋭い上界に加えて,熱帯超曲面の交叉ポジェットや部分的ミンコフスキー和の上面の数という観点から,偏りのある場合においても顔数カウント式を求める。 これらの結果から,複数層ネットワークの漸近的にシャープな上界を得ることができた。

We present results on the number of linear regions of the functions that can be represented by artificial feedforward neural networks with maxout units. A rank-k maxout unit is a function computing the maximum of $k$ linear functions. For networks with a single layer of maxout units, the linear regions correspond to the upper vertices of a Minkowski sum of polytopes. We obtain face counting formulas in terms of the intersection posets of tropical hypersurfaces or the number of upper faces of partial Minkowski sums, along with explicit sharp upper bounds for the number of regions for any input dimension, any number of units, and any ranks, in the cases with and without biases. Based on these results we also obtain asymptotically sharp upper bounds for networks with multiple layers.
翻訳日:2021-04-19 19:52:23 公開日:2021-04-16
# (参考訳) 深層学習における不確実性 [全文訳有]

Uncertainty Surrogates for Deep Learning ( http://arxiv.org/abs/2104.08147v1 )

ライセンス: CC BY 4.0
Radhakrishna Achanta, Natasa Tagasovska(参考訳) 本稿では,不確実なサロゲートを用いて,深層ネットワークにおける予測の不確かさを推定する方法を提案する。 これらのサロゲートは、事前に定義されたパターンにマッチせざるを得ないディープネットワークの最後尾層の特徴である。 パターン自体が既知の視覚的シンボルである可能性も考えられる。 提案手法は,予測の不確実性を推定し,分布外検出に有効であることを示す。 さらに、サロゲートはディープネットワークが学習する能力の解釈を可能にし、同時に敵の攻撃に対して堅牢性を与える。 そのシンプルさにもかかわらず、我々のアプローチは、計算効率と実装の容易さだけでなく、標準メトリクスに関する最先端のアプローチよりも優れている。 提案手法の有効性を証明するため,標準データセット上で幅広い実験を行った。

In this paper we introduce a novel way of estimating prediction uncertainty in deep networks through the use of uncertainty surrogates. These surrogates are features of the penultimate layer of a deep network that are forced to match predefined patterns. The patterns themselves can be, among other possibilities, a known visual symbol. We show how our approach can be used for estimating uncertainty in prediction and out-of-distribution detection. Additionally, the surrogates allow for interpretability of the ability of the deep network to learn and at the same time lend robustness against adversarial attacks. Despite its simplicity, our approach is superior to the state-of-the-art approaches on standard metrics as well as computational efficiency and ease of implementation. A wide range of experiments are performed on standard datasets to prove the efficacy of our approach.
翻訳日:2021-04-19 19:11:54 公開日:2021-04-16
# (参考訳) 半教師付き時系列分類のためのグラフベースアプローチの検討 [全文訳有]

A Study of Graph-Based Approaches for Semi-Supervised Time Series Classification ( http://arxiv.org/abs/2104.08153v1 )

ライセンス: CC BY 4.0
Dominik Alfke, Miriam Gondos, Lucile Peroche, Martin Stoll(参考訳) 時系列データは多くのアプリケーションにおいて重要な役割を担い、その分析は基盤となるプロセスを理解する上で重要な情報を明らかにする。 重要度の高い時系列学習タスクの中で,我々は,データのグラフ表現の利点を生かした半教師付き学習に注目する。 この課題には,時系列間の類似性を評価するための適切な距離尺度と,これらの距離に基づいて予測を行う学習方法の2つの側面がある。 しかし、両者の関係は体系的に研究されることはなかった。 本稿では,(ソフト)dtwとマトリックスプロファイルを含む4つの異なる距離尺度と,グラフアレンカーン法とグラフ畳み込みニューラルネットワークを含む4つの半教師付き学習手法について述べる。 次に、標準データセットにおけるアルゴリズムの性能を比較する。 以上の結果から,すべての測定方法がデータセット間の精度に大きく変化し,すべての場合において最適な組み合わせが存在しないことが明らかとなった。

Time series data play an important role in many applications and their analysis reveals crucial information for understanding the underlying processes. Among the many time series learning tasks of great importance, we here focus on semi-supervised learning which benefits of a graph representation of the data. Two main aspects are involved in this task: A suitable distance measure to evaluate the similarities between time series, and a learning method to make predictions based on these distances. However, the relationship between the two aspects has never been studied systematically. We describe four different distance measures, including (Soft) DTW and Matrix Profile, as well as four successful semi-supervised learning methods, including the graph Allen- Cahn method and a Graph Convolutional Neural Network. We then compare the performance of the algorithms on standard data sets. Our findings show that all measures and methods vary strongly in accuracy between data sets and that there is no clear best combination to employ in all cases.
翻訳日:2021-04-19 19:01:36 公開日:2021-04-16
# (参考訳) 特定のデータセット特有の変動パターンをキャプチャする [全文訳有]

Capturing patterns of variation unique to a specific dataset ( http://arxiv.org/abs/2104.08157v1 )

ライセンス: CC BY 4.0
Robin Tu, Alexander H. Foss, Sihai D. Zhao(参考訳) 探索的データ分析と教師なし学習では,データセットに存在する変動パターンを捉えることが重要である。 対照的な主成分分析(cPCA)のような対照的な次元削減手法は、意図しない、あるいは興味のない変動を表す慎重に選択された背景データセットと対比することにより、対象とする関心のデータセットに固有のパターンを見つける。 しかし、そのような方法は通常、コントラストのレベルを規定するチューニングパラメータを必要とし、このパラメータを客観的に選択する方法は不明である。 さらに、既存の手法では達成が難しい複数の背景と対比することは、しばしば関心がある。 本研究では,1つ以上の比較データセットに対して,対象データセットの低次元表現を識別する一意成分分析(UCA)を提案する。 多数の特徴があっても計算効率が良い。 いくつかの実験において、単一のバックグラウンドデータセットを持つUCAは、様々なチューニングパラメータを持つcPCAと比較して同様の結果が得られることを示し、複数のバックグラウンドデータセットを持つUCAは、単一のバックグラウンドデータを持つcPCAと、プールされたバックグラウンドデータセットを持つcPCAの両方よりも優れていることを示した。

Capturing patterns of variation present in a dataset is important in exploratory data analysis and unsupervised learning. Contrastive dimension reduction methods, such as contrastive principal component analysis (cPCA), find patterns unique to a target dataset of interest by contrasting with a carefully chosen background dataset representing unwanted or uninteresting variation. However, such methods typically require a tuning parameter that governs the level of contrast, and it is unclear how to choose this parameter objectively. Furthermore, it is frequently of interest to contrast against multiple backgrounds, which is difficult to accomplish with existing methods. We propose unique component analysis (UCA), a tuning-free method that identifies low-dimensional representations of a target dataset relative to one or more comparison datasets. It is computationally efficient even with large numbers of features. We show in several experiments that UCA with a single background dataset achieves similar results compared to cPCA with various tuning parameters, and that UCA with multiple individual background datasets is superior to both cPCA with any single background data and cPCA with a pooled background dataset.
翻訳日:2021-04-19 18:47:39 公開日:2021-04-16
# (参考訳) 圧縮を用いた知識グラフのモチーフ発見 [全文訳有]

Finding Motifs in Knowledge Graphs using Compression ( http://arxiv.org/abs/2104.08163v1 )

ライセンス: CC BY 4.0
Peter Bloem(参考訳) 本稿では,知識グラフにネットワークモチーフを求める手法を提案する。 ネットワークモチーフは、頻繁に繰り返されるグラフの有用なパターンや意味のあるサブユニットである。 ネットワークモチーフの共通定義を基本グラフパターンと一致するように拡張する。 単純なグラフに対する最近の研究に触発され、与えられた知識グラフからこれらを誘導するアプローチを導入し、得られたモチーフがグラフの基本構造を反映していることを示す。 具体的には,ランダムグラフではモチーフが見つからず,モチーフを人工的に挿入すると検出できることを示す。 最後に、3つの実世界の知識グラフにモチーフ誘導の結果を示す。

We introduce a method to find network motifs in knowledge graphs. Network motifs are useful patterns or meaningful subunits of the graph that recur frequently. We extend the common definition of a network motif to coincide with a basic graph pattern. We introduce an approach, inspired by recent work for simple graphs, to induce these from a given knowledge graph, and show that the motifs found reflect the basic structure of the graph. Specifically, we show that in random graphs, no motifs are found, and that when we insert a motif artificially, it can be detected. Finally, we show the results of motif induction on three real-world knowledge graphs.
翻訳日:2021-04-19 18:38:52 公開日:2021-04-16
# (参考訳) ベイズ最適化におけるオーバーフィッティング--実証的研究と早期解法 [全文訳有]

Overfitting in Bayesian Optimization: an empirical study and early-stopping solution ( http://arxiv.org/abs/2104.08166v1 )

ライセンス: CC BY 4.0
Anastasia Makarova, Huibin Shen, Valerio Perrone, Aaron Klein, Jean Baptiste Faddoul, Andreas Krause, Matthias Seeger, Cedric Archambeau(参考訳) ベイズ最適化(bayesian optimization, bo)は、機械学習アルゴリズムのハイパーパラメータをチューニングする手法である。 ユーザは検証エラーのような関心のメトリックを定義し、boはそれを最小化する最適なハイパーパラメータを見つける。 しかしながら、検証セットのメトリック改善は、特に小さなデータセットでは、テストセットに変換されない可能性がある。 言い換えれば、BOは過度に適合する。 クロスバリデーションはこれを緩和するが、計算コストが高い。 本稿では,boにおける過剰適合に関する最初の体系的調査を行い,本件が本格的かつしばしば見過ごされる懸念であることを示す。 我々は, 早期停止boに対する最初の問題適応的かつ解釈可能な基準を提案し, クロスバリデーションのコストを軽減しつつ, 過剰フィッティングを低減した。 実世界のハイパーパラメータ最適化タスクにおける実験結果から,本手法はテスト精度をほとんど損なわずに計算時間を実質的に削減できることが分かった。

Bayesian Optimization (BO) is a successful methodology to tune the hyperparameters of machine learning algorithms. The user defines a metric of interest, such as the validation error, and BO finds the optimal hyperparameters that minimize it. However, the metric improvements on the validation set may not translate to the test set, especially on small datasets. In other words, BO can overfit. While cross-validation mitigates this, it comes with high computational cost. In this paper, we carry out the first systematic investigation of overfitting in BO and demonstrate that this is a serious yet often overlooked concern in practice. We propose the first problem-adaptive and interpretable criterion to early stop BO, reducing overfitting while mitigating the cost of cross-validation. Experimental results on real-world hyperparameter optimization tasks show that our approach can substantially reduce compute time with little to no loss of test accuracy,demonstrati ng a clear practical advantage over existing techniques.
翻訳日:2021-04-19 18:26:12 公開日:2021-04-16
# (参考訳) Word2rate:統計遷移としての複数単語埋め込みの訓練と評価 [全文訳有]

Word2rate: training and evaluating multiple word embeddings as statistical transitions ( http://arxiv.org/abs/2104.08173v1 )

ライセンス: CC BY 4.0
Gary Phua, Shaowei Lin, Dario Poletti(参考訳) 事前訓練された単語埋め込みは、自然言語処理タスクの性能向上に非常に効果的な方法であることが示されている。 実際、考慮できるほぼすべての自然言語タスクは、これらの事前学習された埋め込みによって改善されました。 これらのタスクは感情分析、翻訳、シーケンス予測など多岐にわたる。 最も成功した単語埋め込みの1つは、ミコロフによって提案されたWord2vec CBOWモデルである。 マイなど。 単語順に敏感なCMOW埋め込みをトレーニングするために、この目的を変更する。 我々は文脈単語に対して負サンプリング対象の修正版を使用し、文脈埋め込みをレート行列のテイラー級数としてモデル化した。 テイラー級数の異なるモードが異なる種類の埋め込みを生成することを示す。 これらの埋め込みをCBOWやCMOWのような類似の埋め込みと比較し、同等のパフォーマンスを実現していることを示す。 また、単語順に敏感なタスクのパフォーマンスを向上させる新しい左サイドコンテキスト分割目的も導入する。 私たちの word2rate モデルは、さまざまな言語タスクで競争しながら、レート行列を用いた統計基礎に基礎を置いている。

Using pretrained word embeddings has been shown to be a very effective way in improving the performance of natural language processing tasks. In fact almost any natural language tasks that can be thought of has been improved by these pretrained embeddings. These tasks range from sentiment analysis, translation, sequence prediction amongst many others. One of the most successful word embeddings is the Word2vec CBOW model proposed by Mikolov trained by the negative sampling technique. Mai et al. modifies this objective to train CMOW embeddings that are sensitive to word order. We used a modified version of the negative sampling objective for our context words, modelling the context embeddings as a Taylor series of rate matrices. We show that different modes of the Taylor series produce different types of embeddings. We compare these embeddings to their similar counterparts like CBOW and CMOW and show that they achieve comparable performance. We also introduce a novel left-right context split objective that improves performance for tasks sensitive to word order. Our Word2rate model is grounded in a statistical foundation using rate matrices while being competitive in variety of language tasks.
翻訳日:2021-04-19 18:04:59 公開日:2021-04-16
# (参考訳) CSAFL: クラスタ化された半非同期フェデレーション学習フレームワーク [全文訳有]

CSAFL: A Clustered Semi-Asynchronous Federated Learning Framework ( http://arxiv.org/abs/2104.08184v1 )

ライセンス: CC BY 4.0
Yu Zhang, Moming Duan, Duo Liu, Li Li, Ao Ren, Xianzhang Chen, Yujuan Tan, Chengliang Wang(参考訳) Federated Learning(FL)は、プライバシを保護し、独立したデータアイランドの問題に取り組む、新たな分散機械学習パラダイムである。 現在、FLの主な通信戦略は、同期FLと非同期FLの2つである。 同期FLの利点は、モデルが高精度で高速な収束速度を持つことである。 しかし、この同期通信戦略は、中央サーバがデバイスに待ちすぎているリスク、すなわち、いくつかの時間クリティカルなアプリケーションに対して負の影響を与えるストラグラー効果を持っている。 非同期flはストラグラー効果を緩和する自然な利点があるが、モデル品質の低下とサーバクラッシュの脅威がある。 そこで我々は,これら2つの戦略の利点を組み合わせて,クラスタ化半非同期フェデレーションラーニング(CSAFL)フレームワークを提案する。 非IID設定で4つの不均衡なフェデレーションデータセットに基づいてCSAFLを評価し,ベースライン法と比較した。 実験の結果, TA-FedAvgと比較して, CSAFLは4つのデータセットでテスト精度を+5%以上向上することがわかった。 特にCSAFLは、TA-FedAvgと比較して、非IID FEMNISTの絶対テスト精度を+34.4%向上させる。

Federated learning (FL) is an emerging distributed machine learning paradigm that protects privacy and tackles the problem of isolated data islands. At present, there are two main communication strategies of FL: synchronous FL and asynchronous FL. The advantages of synchronous FL are that the model has high precision and fast convergence speed. However, this synchronous communication strategy has the risk that the central server waits too long for the devices, namely, the straggler effect which has a negative impact on some time-critical applications. Asynchronous FL has a natural advantage in mitigating the straggler effect, but there are threats of model quality degradation and server crash. Therefore, we combine the advantages of these two strategies to propose a clustered semi-asynchronous federated learning (CSAFL) framework. We evaluate CSAFL based on four imbalanced federated datasets in a non-IID setting and compare CSAFL to the baseline methods. The experimental results show that CSAFL significantly improves test accuracy by more than +5% on the four datasets compared to TA-FedAvg. In particular, CSAFL improves absolute test accuracy by +34.4% on non-IID FEMNIST compared to TA-FedAvg.
翻訳日:2021-04-19 17:54:11 公開日:2021-04-16
# (参考訳) TalkNet 2: 非自己回帰深さ幅分割畳み込みモデル Stanislav Beliaev, Boris Ginsburg for Speech Synthesis with Explicit Pitch and Duration Prediction [全文訳有]

TalkNet 2: Non-Autoregressive Depth-Wise Separable Convolutional Model Stanislav Beliaev, Boris Ginsburgfor Speech Synthesis with Explicit Pitch and Duration Prediction ( http://arxiv.org/abs/2104.08189v1 )

ライセンス: CC BY 4.0
Stanislav Beliaev, Boris Ginsburg(参考訳) 本研究では,音声合成のための非自己回帰畳み込みニューラルモデルであるTalkNetを提案する。 モデルは3つのフィードフォワード畳み込みネットワークで構成される。 第1のネットワークは、グラフ化期間を予測する。 予測期間に応じて各シンボルを繰り返して入力テキストを拡張する。 第2のネットワークは、メルフレーム毎にピッチ値を予測する。 第3のネットワークは、予測ピッチに条件付き拡張テキストからメルスペクトルを生成する。 すべてのネットワークは1次元奥行き分離可能な畳み込み構造に基づいている。 明示的な持続時間予測は、単語のスキップと繰り返しを排除する。 生成された音声の品質は、最も優れた自動回帰モデルとほぼ一致している - LJSpeechデータセットでトレーニングされたTalkNetは、MOS4.08を得た。 このモデルは13.2Mパラメータしか持たず、現在の最先端のテキスト音声モデルより約2倍少ない。 非自己回帰アーキテクチャは、高速なトレーニングと推論を可能にし、リアルタイムよりも422倍高速である。 小型モデルのサイズと高速推論により、TalkNetは組込み音声合成の魅力的な候補となる。

We propose TalkNet, a non-autoregressive convolutional neural model for speech synthesis with explicit pitch and duration prediction. The model consists of three feed-forward convolutional networks. The first network predicts grapheme durations. An input text is expanded by repeating each symbol according to the predicted duration. The second network predicts pitch value for every mel frame. The third network generates a mel-spectrogram from the expanded text conditioned on predicted pitch. All networks are based on 1D depth-wise separable convolutional architecture. The explicit duration prediction eliminates word skipping and repeating. The quality of the generated speech nearly matches the best auto-regressive models - TalkNet trained on the LJSpeech dataset got MOS4.08. The model has only 13.2M parameters, almost 2x less than the present state-of-the-art text-to-speech models. The non-autoregressive architecture allows for fast training and inference - 422x times faster than real-time. The small model size and fast inference make the TalkNet an attractive candidate for embedded speech synthesis.
翻訳日:2021-04-19 17:35:22 公開日:2021-04-16
# (参考訳) スペクトルスケール付き学生によるベイズ行列の完成:理論的保証と効率的なサンプリング [全文訳有]

Bayesian matrix completion with a spectral scaled Student prior: theoretical guarantee and efficient sampling ( http://arxiv.org/abs/2104.08191v1 )

ライセンス: CC BY 4.0
The Tien Mai(参考訳) 本稿では,行列完備化の問題について考察する。 スペクトルスケールされた学生プリエントは、データマトリックスの下位低ランク構造を好むために利用される。 重要な点は, ベイズ行列の完全性に関する理論的理解が困難であり, 理論的な理解が限られている点である。 より正確には、ベイズ的アプローチは、モデル不特定および一般的なサンプリング分布の下で、我々の方法がうまく機能することを保証する極小最適オラクル不等式を享受していることを示す。 興味深いことに、ベイズ行列の完備化において新しいランゲヴィン・モンテカルロを用いて、効率的な勾配に基づくサンプリング実装を提供する。 より具体的には、この問題における我々のアルゴリズムはGibbsサンプルよりもはるかに高速であることを示す。 推論戦略の魅力的な特徴を説明するため,いくつかの数値シミュレーションを行い,画像塗布への応用を示す。

We study the problem of matrix completion in this paper. A spectral scaled Student prior is exploited to favour the underlying low-rank structure of the data matrix. Importantly, we provide a thorough theoretical investigation for our approach, while such an analysis is hard to obtain and limited in theoretical understanding of Bayesian matrix completion. More precisely, we show that our Bayesian approach enjoys a minimax-optimal oracle inequality which guarantees that our method works well under model misspecification and under general sampling distribution. Interestingly, we also provide efficient gradient-based sampling implementations for our approach by using Langevin Monte Carlo which is novel in Bayesian matrix completion. More specifically, we show that our algorithms are significantly faster than Gibbs sampler in this problem. To illustrate the attractive features of our inference strategy, some numerical simulations are conducted and an application to image inpainting is demonstrated.
翻訳日:2021-04-19 17:25:22 公開日:2021-04-16
# (参考訳) ニューラルネットワークの探索 : 神経科学からの洞察 [全文訳有]

Probing artificial neural networks: insights from neuroscience ( http://arxiv.org/abs/2104.08197v1 )

ライセンス: CC BY 4.0
Anna A. Ivanova, John Hewitt, Noga Zaslavsky(参考訳) 神経科学と機械学習の両方における大きな課題は、複雑な情報処理システムを理解するための有用なツールの開発である。 そのようなツールの1つはプローブ、すなわち、生物学的または人工ニューラルネットワークで生じる活性化パターンに関心の特徴を関連付ける教師付きモデルである。 神経科学は、近年の多くの研究を通じて、このようなモデルの使用法を開拓してきた。 本研究では,脳神経科学の知見を抽出し,機械学習研究のガイドとなる。 探索のための重要な2つの設計選択を$-$方向と表現率$-$で強調し、これらの選択を研究目標に関連付ける。 我々は、調査を設計する際には、特定の研究目標が最重要の役割を担い、これらの目標を明示するために将来の探究研究を奨励する。

A major challenge in both neuroscience and machine learning is the development of useful tools for understanding complex information processing systems. One such tool is probes, i.e., supervised models that relate features of interest to activation patterns arising in biological or artificial neural networks. Neuroscience has paved the way in using such models through numerous studies conducted in recent decades. In this work, we draw insights from neuroscience to help guide probing research in machine learning. We highlight two important design choices for probes $-$ direction and expressivity $-$ and relate these choices to research goals. We argue that specific research goals play a paramount role when designing a probe and encourage future probing studies to be explicit in stating these goals.
翻訳日:2021-04-19 17:06:48 公開日:2021-04-16
# (参考訳) Q^{2}$:質問生成と質問応答による知識付き対話における現実的一貫性の評価 [全文訳有]

$Q^{2}$: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering ( http://arxiv.org/abs/2104.08202v1 )

ライセンス: CC0 1.0
Or Honovich, Leshem Choshen, Roee Aharoni, Ella Neeman, Idan Szpektor, Omri Abend(参考訳) 対話のためのニューラル知識に基づく生成モデルはしばしば、頼りにしているソーステキストと事実上矛盾するコンテンツを生成する。 その結果、そのようなモデルは信頼できないため、現実の応用性が制限される。 抽象要約における事実整合性を評価する最近の研究(Durmus et al., 2020; Wang et al., 2020)から着想を得て,自動質問生成と質問応答を用いた知識接地対話モデルにおける事実整合性の自動評価指標を提案する。 有意なトークンベースの回答スパンの比較を用いた従来の研究とは異なり、我々のメトリクスは、その性能を大幅に向上させる共参照解決と自然言語推論機能を利用している。 適切な評価を促進するため,ウィザード・オブ・ウィキペディア・データセット(Dinan et al., 2019)の最先端対話システム出力の新たなデータセットを手作業で作成し,実際の一貫性について注釈を付ける。 新しいデータセットと他の2つのメトリクスを使って、私たちのメトリックを徹底したメタ評価を行い、ベースラインを大きく上回らせます。

Neural knowledge-grounded generative models for dialogue often produce content that is factually inconsistent with the source text they rely on. As a consequence, such models are unreliable, limiting their real-world applicability. Inspired by recent work on evaluating factual consistency in abstractive summarization (Durmus et al., 2020; Wang et al., 2020), we propose an automatic evaluation metric for factual consistency in knowledge-grounded dialogue models using automatic question generation and question answering. Unlike previous works which use naive token-based comparison of answer spans, our metric makes use of co-reference resolution and natural language inference capabilities which greatly improve its performance. To foster proper evaluation, we curate a novel dataset of state-of-the-art dialogue system outputs for the Wizard-of-Wikipedia dataset (Dinan et al., 2019), which we manually annotate for factual consistency. We perform a thorough meta-evaluation of our metric against other metrics using the new dataset and two others, where it greatly outperforms the baselines.
翻訳日:2021-04-19 16:58:33 公開日:2021-04-16
# (参考訳) 機械学習統合型患者フローシミュレーションはなぜ可能か? [全文訳有]

Why Machine Learning Integrated Patient Flow Simulation? ( http://arxiv.org/abs/2104.08203v1 )

ライセンス: CC BY 4.0
Tesfamariam M. Abuhay, Adane Mamuye, Stewart Robinson, Sergey V. Kovalchuk(参考訳) 患者フロー分析は、シミュレーションを用いて臨床または手術の観点から研究することができる。 確率分布法のような従来の統計的手法は、患者の流入、滞在時間(los)、治療費(cot)、臨床経路(cp)モデルなどの患者フローシミュレーションのサブモデルを構築するのに使われてきた。 しかし、患者の流入は季節性、傾向、時間とともに変化する。 LoS, CoT, CPは, 患者の属性や臨床検査, 臨床検査の結果から明らかに決定される。 このため、従来の統計手法を用いて構築された患者フローシミュレーションモデルは、異質性を無視し、個人化および価値ベースの医療への貢献を批判されている。 一方で、機械学習手法は、入場率、ロス、cot、cpの研究と予測に効率的であることが証明されている。 そこで本稿では,機械学習と患者フローシミュレーションの結合が重要である理由を説明し,患者フローシミュレーションと機械学習を統合するための概念的アーキテクチャを提案する。

Patient flow analysis can be studied from a clinical and or operational perspective using simulation. Traditional statistical methods such as stochastic distribution methods have been used to construct patient flow simulation submodels such as patient inflow, Length of Stay (LoS), Cost of Treatment (CoT) and Clinical Pathway (CP) models. However, patient inflow demonstrates seasonality, trend and variation over time. LoS, CoT and CP are significantly determined by attributes of patients and clinical and laboratory test results. For this reason, patient flow simulation models constructed using traditional statistical methods are criticized for ignoring heterogeneity and their contribution to personalized and value based healthcare. On the other hand, machine learning methods have proven to be efficient to study and predict admission rate, LoS, CoT, and CP. This paper, hence, describes why coupling machine learning with patient flow simulation is important and proposes a conceptual architecture that shows how to integrate machine learning with patient flow simulation.
翻訳日:2021-04-19 16:40:09 公開日:2021-04-16
# (参考訳) テキスト分類のための可変インスタンスレベル説明可能性 [全文訳有]

Variable Instance-Level Explainability for Text Classification ( http://arxiv.org/abs/2104.08219v1 )

ライセンス: CC BY 4.0
George Chrysostomou and Nikolaos Aletras(参考訳) テキスト分類における事前学習されたトランスフォーマーネットワークの精度は高いが、継続する問題は、それらの解釈を困難にする重要な複雑さである。 近年の研究では、モデルが特定の予測を行い、それを説明として使用する(すなわち、入力のどの部分が最も重要なのかを特定する機能スコアリング手法の開発に焦点が当てられている。 理性)。 これらのアプローチの制限は、定義済みの固定長を使用してデータセットのすべてのインスタンスで特定の特徴スコアリングメソッドを使用すべきであると仮定することである。 そこで本研究では,インスタンスレベルで異なる特徴点採点法を用いて,可変長説明を抽出する手法を提案する。 提案手法は, 単語消去手法に着想を得て, 予測の最も忠実な理性は, 特定の事例の理性を取り除いた後に, 完全テキストとテキストを用いて, モデル出力分布の最もばらつきの大きい理性であるべきだと仮定する。 4つの標準テキスト分類データセットの評価結果から,本手法は従来の定長評価法や定長評価法と比較して,一貫して忠実な説明を提供することが示された。

Despite the high accuracy of pretrained transformer networks in text classification, a persisting issue is their significant complexity that makes them hard to interpret. Recent research has focused on developing feature scoring methods for identifying which parts of the input are most important for the model to make a particular prediction and use it as an explanation (i.e. rationale). A limitation of these approaches is that they assume that a particular feature scoring method should be used across all instances in a dataset using a predefined fixed length, which might not be optimal across all instances. To address this, we propose a method for extracting variable-length explanations using a set of different feature scoring methods at instance-level. Our method is inspired by word erasure approaches which assume that the most faithful rationale for a prediction should be the one with the highest divergence between the model's output distribution using the full text and the text after removing the rationale for a particular instance. Evaluation on four standard text classification datasets shows that our method consistently provides more faithful explanations compared to previous fixed-length and fixed-feature scoring methods for rationale extraction.
翻訳日:2021-04-19 16:29:02 公開日:2021-04-16
# (参考訳) proScript: 事前訓練された言語モデルによる部分順序付きスクリプト生成 [全文訳有]

proScript: Partially Ordered Scripts Generation via Pre-trained Language Models ( http://arxiv.org/abs/2104.08251v1 )

ライセンス: CC BY 4.0
Keisuke Sakaguchi, Chandra Bhagavatula, Ronan Le Bras, Niket Tandon, Peter Clark, Yejin Choi(参考訳) スクリプト - 典型的な日常のアクティビティを記述した標準化されたイベントシーケンス - は、期待を提供すること、曖昧さの解消、未定の情報の充足によって物語を理解するのに役立つ。 しかし、これまでテキストの執筆や抽出は困難であった。 本研究では,事前学習されたニューラルネットワークモデル(LM)を,様々なレベルの粒度で,さまざまな日常シナリオ(例えばケーキを焼くなど)に対して,高品質なスクリプトを生成するための微調整を初めて実施する。 これを実現するために、大きな(6.4k)を収集し、以前のデータセットよりもかなり大きな部分順序付けされたスクリプト(proscriptという名前)をクラウドソースし、言語生成と構造予測を組み合わせたスクリプトを生成するモデルを開発しました。 エッジ予測: シナリオと順序付けされていないイベントが与えられた場合、イベントを有効な(おそらく部分順序付けされた)スクリプトに整理し、(ii) スクリプト生成: シナリオのみを付与し、イベントを生成し、それらを(おそらく部分順序付けされた)スクリプトに整理する。 私たちの実験では、これまでのスクリプトコレクションの障壁を克服するための新しいアプローチを示す(例えば、タスク(i)中のf1=75.7)。 また、人間レベルのパフォーマンス向上のための重要な改善の余地があることも示しています。 タスク、データセット、モデルとともに、スクリプト知識を学ぶための新しい研究の方向性を提供します。

Scripts - standardized event sequences describing typical everyday activities - have been shown to help understand narratives by providing expectations, resolving ambiguity, and filling in unstated information. However, to date they have proved hard to author or extract from text. In this work, we demonstrate for the first time that pre-trained neural language models (LMs) can be be finetuned to generate high-quality scripts, at varying levels of granularity, for a wide range of everyday scenarios (e.g., bake a cake). To do this, we collected a large (6.4k), crowdsourced partially ordered scripts (named proScript), which is substantially larger than prior datasets, and developed models that generate scripts with combining language generation and structure prediction. We define two complementary tasks: (i) edge prediction: given a scenario and unordered events, organize the events into a valid (possibly partial-order) script, and (ii) script generation: given only a scenario, generate events and organize them into a (possibly partial-order) script. Our experiments show that our models perform well (e.g., F1=75.7 in task (i)), illustrating a new approach to overcoming previous barriers to script collection. We also show that there is still significant room for improvement toward human level performance. Together, our tasks, dataset, and models offer a new research direction for learning script knowledge.
翻訳日:2021-04-19 16:07:42 公開日:2021-04-16
# (参考訳) 文脈適応型文書レベルニューラルネットワーク翻訳 [全文訳有]

Context-Adaptive Document-Level Neural Machine Translation ( http://arxiv.org/abs/2104.08259v1 )

ライセンス: CC BY 4.0
Linlin Zhang(参考訳) 既存の文書レベルのニューラルマシン翻訳(NMT)モデルは、標準NMTの文脈に依存しない問題に対処するために、以前のまたはすべてのグローバルソース文の固定数を利用する。 しかし、各文の翻訳は様々な文脈の大きさの利点があり、不適切な文脈は翻訳性能を損なう可能性がある。 そこで本研究では,モデルに必要かつ有用なコンテキストを適用するためのデータ適応手法を提案する。 具体的には、2つの文書レベルの翻訳モデルに光予測器を導入し、明示的な文脈を選択する。 実験によれば、提案手法は1.99 bleu ポイントのゲインで従来の手法よりも大幅に性能が向上する。

Most existing document-level neural machine translation (NMT) models leverage a fixed number of the previous or all global source sentences to handle the context-independent problem in standard NMT. However, the translating of each source sentence benefits from various sizes of context, and inappropriate context may harm the translation performance. In this work, we introduce a data-adaptive method that enables the model to adopt the necessary and useful context. Specifically, we introduce a light predictor into two document-level translation models to select the explicit context. Experiments demonstrate the proposed approach can significantly improve the performance over the previous methods with a gain up to 1.99 BLEU points.
翻訳日:2021-04-19 15:52:13 公開日:2021-04-16
# (参考訳) TEACHTEXT:テキスト検索のためのクロスモーダル一般化蒸留 [全文訳有]

TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval ( http://arxiv.org/abs/2104.08271v1 )

ライセンス: CC BY 4.0
Ioana Croitoru, Simion-Vlad Bogolin, Yang Liu, Samuel Albanie, Marius Leordeanu, Hailin Jin, Andrew Zisserman(参考訳) 近年,映像および音声データセットの大規模事前学習を活用し,強力な映像エンコーダを構築することで,テキスト・ビデオ検索の課題が大幅に進展している。 対照的に、自然対称性にもかかわらず、大規模言語の事前学習を利用する効果的なアルゴリズムの設計は未検討のままである。 本稿では,このようなアルゴリズムの設計を最初に検討し,複数のテキストエンコーダからの補完的手がかりを活用し,検索モデルに強化された監督信号を与える,新しい一般化蒸留法である teachtext を提案する。 また,本手法をビデオ側モダリティに拡張し,性能を損なうことなく,テスト時に使用するモダリティの数を効果的に削減できることを示す。 提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。 最後に,検索データセットからノイズを除去する手法の効果的な適用例を示す。 コードとデータはhttps://www.robots.o x.ac.uk/~vgg/researc h/teachtext/にある。

In recent years, considerable progress on the task of text-video retrieval has been achieved by leveraging large-scale pretraining on visual and audio datasets to construct powerful video encoders. By contrast, despite the natural symmetry, the design of effective algorithms for exploiting large-scale language pretraining remains under-explored. In this work, we are the first to investigate the design of such algorithms and propose a novel generalized distillation method, TeachText, which leverages complementary cues from multiple text encoders to provide an enhanced supervisory signal to the retrieval model. Moreover, we extend our method to video side modalities and show that we can effectively reduce the number of used modalities at test time without compromising performance. Our approach advances the state of the art on several video retrieval benchmarks by a significant margin and adds no computational overhead at test time. Last but not least, we show an effective application of our method for eliminating noise from retrieval datasets. Code and data can be found at https://www.robots.o x.ac.uk/~vgg/researc h/teachtext/.
翻訳日:2021-04-19 15:43:59 公開日:2021-04-16
# (参考訳) 高齢者を新しいものにする:幾何誘導不確かさによる相対的カメラポッドの学習 [全文訳有]

Fusing the Old with the New: Learning Relative Camera Pose with Geometry-Guided Uncertainty ( http://arxiv.org/abs/2104.08278v1 )

ライセンス: CC0 1.0
Bingbing Zhuang, Manmohan Chandraker(参考訳) 相対的なカメラポーズ推定のための学習法は、古典幾何学的アプローチから分離して開発された。 深層ニューラルネットワーク(dnn)からの予測と5点アルゴリズムのような幾何学的な解法を統合する方法については、まだ未検討のままである。 本稿では,ネットワークトレーニングにおける2つの予測系間の確率的融合を,その相補的利益を学習可能な方法で活用することを目的とした新しい枠組みを提案する。 融合は、幾何的不確実性によって明示的なガイダンスの下でDNNの不確かさを学習することにより達成され、したがって、DNN予測に関する幾何学的解を考慮に入れられる。 私たちのネットワークは、異なる対応間の強い相互作用を強制し、ポイント間の複雑な関係をモデル化することで学習を駆動するセルフアテンショングラフニューラルネットワークを特徴としている。 そこで本研究では,DeMoNとScanNetデータセットの学習に適した動作パラメータ化を提案する。 相対的なポーズに注目しながら、パイプラインは古典幾何学とディープラーニングを融合させるのに広く適用できると想定している。

Learning methods for relative camera pose estimation have been developed largely in isolation from classical geometric approaches. The question of how to integrate predictions from deep neural networks (DNNs) and solutions from geometric solvers, such as the 5-point algorithm, has as yet remained under-explored. In this paper, we present a novel framework that involves probabilistic fusion between the two families of predictions during network training, with a view to leveraging their complementary benefits in a learnable way. The fusion is achieved by learning the DNN uncertainty under explicit guidance by the geometric uncertainty, thereby learning to take into account the geometric solution in relation to the DNN prediction. Our network features a self-attention graph neural network, which drives the learning by enforcing strong interactions between different correspondences and potentially modeling complex relationships between points. We propose motion parmeterizations suitable for learning and show that our method achieves state-of-the-art performance on the challenging DeMoN and ScanNet datasets. While we focus on relative pose, we envision that our pipeline is broadly applicable for fusing classical geometry and deep learning.
翻訳日:2021-04-19 15:18:45 公開日:2021-04-16
# (参考訳) 共形p値を持つ多重外れテスト

Multiple Outlier Testing with Conformal p-values ( http://arxiv.org/abs/2104.08279v1 )

ライセンス: CC BY 4.0
Stephen Bates, Emmanuel Cand\`es, Lihua Lei, Yaniv Romano, Matteo Sesia(参考訳) 本稿では,非パラメトリック外乱検出のためのp値の構成について検討する。 目標は、新しい独立したサンプルが参照データセットと同じ分布に属しているかどうかをテストすることである。 そこで本論文では,p-値が有意であるが,異なるテストポイントに対して互いに依存する,広く適用可能なフレームワークである共形推論に基づく解を提案する。 これらのp値が正に依存していることが証明され、比較的弱い限界意味でも正確な発見率制御が可能となる。 次に、異なるテストポイントに対して、トレーニングデータ上で条件付きかつ互いに独立に有効なp値を計算する新しい方法を導入する。 我々の結果は、有限サンプル保証を確立するために組合せ論よりも集中不等式を利用するため、古典的な共形推論から逸脱する。 さらに,本手法は,任意の外乱検出アルゴリズムの偽陽性率に対して,その生統計に適用されるしきい値の関数として均一な信頼度を与える。 最後に,実データおよびシミュレーションデータの数値実験により,結果の妥当性を実証した。

This paper studies the construction of p-values for nonparametric outlier detection, taking a multiple-testing perspective. The goal is to test whether new independent samples belong to the same distribution as a reference data set or are outliers. We propose a solution based on conformal inference, a broadly applicable framework which yields p-values that are marginally valid but mutually dependent for different test points. We prove these p-values are positively dependent and enable exact false discovery rate control, although in a relatively weak marginal sense. We then introduce a new method to compute p-values that are both valid conditionally on the training data and independent of each other for different test points; this paves the way to stronger type-I error guarantees. Our results depart from classical conformal inference as we leverage concentration inequalities rather than combinatorial arguments to establish our finite-sample guarantees. Furthermore, our techniques also yield a uniform confidence bound for the false positive rate of any outlier detection algorithm, as a function of the threshold applied to its raw statistics. Finally, the relevance of our results is demonstrated by numerical experiments on real and simulated data.
翻訳日:2021-04-19 15:01:56 公開日:2021-04-16
# (参考訳) ocrアプリケーションのためのモロッコライセンスプレートのオープンデータ : データ収集、ラベリング、モデル構築 [全文訳有]

Open data for Moroccan license plates for OCR applications : data collection, labeling, and model construction ( http://arxiv.org/abs/2104.08244v1 )

ライセンス: CC BY 4.0
Abdelkrim Alahyane and Mohamed El Fakir and Saad Benjelloun and Ikram Chairi(参考訳) 近年,交通管理のためのインテリジェントシステム,特にOCRベースのナンバープレート認識に関する重要な研究が数多く行われている。 良質なデータセットは、これらのアルゴリズムの性能を改善するために、研究コミュニティによってますます必要とされています。 さらに、アラビア語アルファベットを使用するモロッコなど、ライセンスプレートに特別な文字を持つ国では、特別なデータの必要性が指摘されている。 本研究では,モロッコで撮影された循環プレートのラベル付きオープンデータセットを,車,トラック,オートバイなどさまざまな種類の車両について紹介する。 このデータは手動で収集され、705のユニークで異なる画像で構成されている。 さらに、このデータは、プレートセグメンテーションと成熟数OCRにラベル付けされた。 また、本論文で示すように、データ拡張技術を用いて、異なるマシン傾きやaiアプリケーションのための数千の画像を含むトレーニングセットを作成することができる。 このデータに基づいて構築されたモデルセットを提示し,比較する。 また,このデータをオープンアクセスデータとして公開し,交通制御や交通・異種車両管理等におけるocrや画像処理の分野におけるイノベーションと応用を促進する。

Significant number of researches have been developed recently around intelligent system for traffic management, especially, OCR based license plate recognition, as it is considered as a main step for any automatic traffic management system. Good quality data sets are increasingly needed and produced by the research community to improve the performance of those algorithms. Furthermore, a special need of data is noted for countries having special characters on their licence plates, like Morocco, where Arabic Alphabet is used. In this work, we present a labeled open data set of circulation plates taken in Morocco, for different type of vehicles, namely cars, trucks and motorcycles. This data was collected manually and consists of 705 unique and different images. Furthermore this data was labeled for plate segmentation and for matriculation number OCR. Also, As we show in this paper, the data can be enriched using data augmentation techniques to create training sets with few thousands of images for different machine leaning and AI applications. We present and compare a set of models built on this data. Also, we publish this data as an open access data to encourage innovation and applications in the field of OCR and image processing for traffic control and other applications for transportation and heterogeneous vehicle management.
翻訳日:2021-04-19 14:46:18 公開日:2021-04-16
# 言語モデルにおけるファクチュアル知識の編集

Editing Factual Knowledge in Language Models ( http://arxiv.org/abs/2104.08164v1 )

ライセンス: Link先を確認
Nicola De Cao, Wilker Aziz, Ivan Titov(参考訳) 言語モデル(LM)のパラメーターに格納された事前学習中に得られた事実知識は、下流のタスク(例えば、質問応答やテキスト推論)に有用である。 しかし、一部の事実は誤って引き起こされたり、時代とともに廃れたりすることがある。 本稿では,この知識の編集に使用できるKnowledgeEditorを提案する。これにより,高価なリトレーニングや微調整を必要とせずに,‘バグ’や予期せぬ予測を修正できる。 計算的に効率的であることに加えて、KnowledgeEditorはLM事前学習(メタラーニングの使用など)の修正を必要としない。 提案手法では,制約付き最適化を用いてハイパーネットワークをトレーニングし,他の知識に影響を与えずに事実を修正する。 本稿では,2つの一般的なアーキテクチャと知識集約型タスクを用いて,知識編集者の有効性を示す:i)事実チェック用に微調整されたBERTモデル,i)質問応答のためのシーケンス・ツー・シーケンスBARTモデル。 提案手法では,クエリの特定の単語の予測を変更すると,そのパラフレーズに対して一貫した予測が変化する傾向がある。 トレーニング中のパラフレーズ(自動生成など)の活用によって、これをさらに促進できることを示します。 興味深いことに、我々のハイパーネットワークは、実際の知識を操作するためにモデルのどのコンポーネントを変更する必要があるかを明らかにする「プローブ」と見なすことができる。 Code at https://github.com/n icola-decao/Knowledg eEditor

The factual knowledge acquired during pretraining and stored in the parameters of Language Models (LM) can be useful in downstream tasks (e.g., question answering or textual inference). However, some facts can be incorrectly induced or become obsolete over time. We present KnowledgeEditor, a method that can be used to edit this knowledge and, thus, fix 'bugs' or unexpected predictions without the need for expensive re-training or fine-tuning. Besides being computationally efficient, KnowledgeEditor does not require any modifications in LM pre-training (e.g., the use of meta-learning). In our approach, we train a hyper-network with constrained optimization to modify a fact without affecting the rest of the knowledge; the trained hyper-network is then used to predict the weight update at test time. We show KnowledgeEditor' ;s efficacy with two popular architectures and knowledge-intensive tasks: i) a BERT model fine-tuned for fact-checking, and ii) a sequence-to-sequence BART model for question answering. With our method, changing a prediction on the specific wording of a query tends to result in a consistent change in predictions also for its paraphrases. We show that this can be further encouraged by exploiting (e.g., automatically-genera ted) paraphrases during training. Interestingly, our hyper-network can be regarded as a 'probe' revealing which components of a model need to be changed to manipulate factual knowledge; our analysis shows that the updates tend to be concentrated on a small subset of components. Code at https://github.com/n icola-decao/Knowledg eEditor
翻訳日:2021-04-19 14:39:42 公開日:2021-04-16
# ニューロシンボリック生成モデルを用いた組合せ記号の学習

Learning Evolved Combinatorial Symbols with a Neuro-symbolic Generative Model ( http://arxiv.org/abs/2104.08274v1 )

ライセンス: Link先を確認
Matthias Hofer, Tuan Anh Le, Roger Levy, Josh Tenenbaum(参考訳) 人間は限られたデータからリッチな組み合わせの概念を素早く理解することができる。 本稿では,文化伝達実験で進化した聴覚信号の文脈におけるその能力について検討し,言語における組合せ構造の発生について検討する。 本稿では,従来の概念学習手法の強みを組み合わせたニューロシンボリック生成モデルを提案する。 本モデルでは,構造的生成手法で見られる限られたデータからの解釈可能性と一般化を保ちながら,ニューラルネットワーク手法による高速な推論を行う。 このモデルは、基礎的真理と人間の実験的分類選好の両方に対して評価される純粋ニューラルネットワークに基づく分類アプローチよりも優れており、観察された信号の優れた再現性も生み出す。 本研究は,人工知覚領域における人間様一般化のためのフレキシブル結合ニューラルシンボリックアーキテクチャのパワーを示し,言語進化における帰納的バイアスの正確な計算モデルを開発するためのステップを提供する。

Humans have the ability to rapidly understand rich combinatorial concepts from limited data. Here we investigate this ability in the context of auditory signals, which have been evolved in a cultural transmission experiment to study the emergence of combinatorial structure in language. We propose a neuro-symbolic generative model which combines the strengths of previous approaches to concept learning. Our model performs fast inference drawing on neural network methods, while still retaining the interpretability and generalization from limited data seen in structured generative approaches. This model outperforms a purely neural network-based approach on classification as evaluated against both ground truth and human experimental classification preferences, and produces superior reproductions of observed signals as well. Our results demonstrate the power of flexible combined neural-symbolic architectures for human-like generalization in raw perceptual domains and offers a step towards developing precise computational models of inductive biases in language evolution.
翻訳日:2021-04-19 14:39:16 公開日:2021-04-16
# 連成生成モデルとサブセットシミュレーションを用いた高速ABC

Fast ABC with joint generative modelling and subset simulation ( http://arxiv.org/abs/2104.08156v1 )

ライセンス: Link先を確認
Eliane Maalouf, David Ginsbourger and Niklas Linde(参考訳) 本稿では,高次元入力と高価な前方マッピングを用いた逆問題解法を提案する。 結合深部生成モデリングを利用して、元の問題空間を低次元の潜在空間に転送する。 入力変数と出力変数を共同でモデル化し、潜在変数に事前分布を与えることにより、適合確率モデルは間接的に興味の近似条件分布へのアクセスを与える。 モデル誤差や分布の未知な観測ノイズは実際には一般的であるため,近似ベイズ計算(abc)を用いた確率自由推論を行う。 提案手法はABCに対して,所定の閾値以下で生成した出力と観測した出力との相違点を持つ潜伏空間の領域を探索する。 これらの領域の確率をしきい値の関数として観測し,近似後解の多様性を診断した。 さらに、結果の診断曲線の曲率を分析し、適切なABC閾値を提案する。 地磁気学のクロスボアホールトモグラフィーの例に適用すると,前方の事前知識や騒音分布を使わずに有望な性能が得られる。

We propose a novel approach for solving inverse-problems with high-dimensional inputs and an expensive forward mapping. It leverages joint deep generative modelling to transfer the original problem spaces to a lower dimensional latent space. By jointly modelling input and output variables and endowing the latent with a prior distribution, the fitted probabilistic model indirectly gives access to the approximate conditional distributions of interest. Since model error and observational noise with unknown distributions are common in practice, we resort to likelihood-free inference with Approximate Bayesian Computation (ABC). Our method calls on ABC by Subset Simulation to explore the regions of the latent space with dissimilarities between generated and observed outputs below prescribed thresholds. We diagnose the diversity of approximate posterior solutions by monitoring the probability content of these regions as a function of the threshold. We further analyze the curvature of the resulting diagnostic curve to propose an adequate ABC threshold. When applied to a cross-borehole tomography example from geophysics, our approach delivers promising performance without using prior knowledge of the forward nor of the noise distribution.
翻訳日:2021-04-19 14:39:01 公開日:2021-04-16
# out-of-distribution generalizationのための深層安定学習

Deep Stable Learning for Out-Of-Distribution Generalization ( http://arxiv.org/abs/2104.07876v1 )

ライセンス: Link先を確認
Xingxuan Zhang, Peng Cui, Renzhe Xu, Linjun Zhou, Yue He, Zheyan Shen(参考訳) ディープニューラルネットワークに基づくアプローチは、データテストとトレーニングデータは同じ分布を共有している場合、顕著なパフォーマンスを達成したが、それ以外は著しく失敗する可能性がある。 したがって、トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンスを期待する深いモデルを構築する上で重要である。 従来の手法では、トレーニングデータの既知の不均一性(例)を仮定する。 ドメインラベル)または、異なるドメインのほぼ等しい容量。 本稿では,上記のいずれの仮定も持たない,より難しいケースについて考察する。 そこで本研究では,学習サンプルの学習重みを通して特徴間の依存関係を取り除き,深層モデルが散発的な相関を解消し,識別的特徴とラベルの真の関連に重きを置くことで,この問題に対処することを提案する。 複数の分布一般化ベンチマークにおける本手法の有効性を,最先端の手法と比較して明らかに実証した。 PACS, VLCS, MNIST-M, NICOなどの分布一般化ベンチマークの広範な実験を通じて, 最先端の手法と比較して, 本手法の有効性を示す。

Approaches based on deep neural networks have achieved striking performance when testing data and training data share similar distribution, but can significantly fail otherwise. Therefore, eliminating the impact of distribution shifts between training and testing data is crucial for building performance-promisin g deep models. Conventional methods assume either the known heterogeneity of training data (e.g. domain labels) or the approximately equal capacities of different domains. In this paper, we consider a more challenging case where neither of the above assumptions holds. We propose to address this problem by removing the dependencies between features via learning weights for training samples, which helps deep models get rid of spurious correlations and, in turn, concentrate more on the true connection between discriminative features and labels. Extensive experiments clearly demonstrate the effectiveness of our method on multiple distribution generalization benchmarks compared with state-of-the-art counterparts. Through extensive experiments on distribution generalization benchmarks including PACS, VLCS, MNIST-M, and NICO, we show the effectiveness of our method compared with state-of-the-art counterparts.
翻訳日:2021-04-19 14:38:40 公開日:2021-04-16
# 翻訳NLP:自然言語処理研究の新しいパラダイムと一般原則

Translational NLP: A New Paradigm and General Principles for Natural Language Processing Research ( http://arxiv.org/abs/2104.07874v1 )

ライセンス: Link先を確認
Denis Newman-Griffis, Jill Fain Lehman, Carolyn Ros\'e, Harry Hochheiser(参考訳) 自然言語処理(NLP)の研究は、基礎科学を通じて普遍的な原理の研究と、特定のユースケースや設定をターゲットにした応用科学を組み合わせる。 しかし、基本的なnlpとアプリケーション間の交換プロセスは、しばしば自然に現れると仮定され、多くの革新が承認されず、多くの重要な疑問が残されている。 本稿では,NLPの基本的な研究と応用研究が相互に伝達するプロセスの構築と促進を目的とした,翻訳NLPの新しいパラダイムについて述べる。 翻訳NLPは、アプリケーションのニーズによってもたらされる課題と、これらの課題が基礎科学と技術設計の革新をいかに促すかを理解することに焦点を当てた第3の研究パラダイムを提示する。 我々は,NLP研究における基礎原則とアプリケーションニーズの交わりから,多くの重要な進歩が現われていることを示し,翻訳研究における利害関係者と重要な疑問を概説する概念的枠組みを提示する。 本フレームワークは,専用研究領域として翻訳nlpを開発するためのロードマップを提供し,基礎研究と応用研究の交換を容易にする汎用翻訳原理を特定する。

Natural language processing (NLP) research combines the study of universal principles, through basic science, with applied science targeting specific use cases and settings. However, the process of exchange between basic NLP and applications is often assumed to emerge naturally, resulting in many innovations going unapplied and many important questions left unstudied. We describe a new paradigm of Translational NLP, which aims to structure and facilitate the processes by which basic and applied NLP research inform one another. Translational NLP thus presents a third research paradigm, focused on understanding the challenges posed by application needs and how these challenges can drive innovation in basic science and technology design. We show that many significant advances in NLP research have emerged from the intersection of basic principles with application needs, and present a conceptual framework outlining the stakeholders and key questions in translational research. Our framework provides a roadmap for developing Translational NLP as a dedicated research area, and identifies general translational principles to facilitate exchange between basic and applied research.
翻訳日:2021-04-19 14:38:16 公開日:2021-04-16
# 視覚・言語拡張が言語モデルにおける自然言語理解に及ぼす影響

Effect of Vision-and-Language Extensions on Natural Language Understanding in Vision-and-Language Models ( http://arxiv.org/abs/2104.08066v1 )

ライセンス: Link先を確認
Taichi Iki, Akiko Aizawa(参考訳) 構造的修正による言語モデルの拡張と視覚と言語(V&L)事前訓練は、視覚と言語を基盤とするV&Lモデルの作成に成功している。 これらの高度なモデルの潜在的な応用には、言語能力を必要とするマルチモーダル機械読解モデルとマルチモーダル対話モデルがある。 このようなアプリケーションでは、言語能力は不可欠であるが、視覚能力の拡張が言語能力に与える影響は、完全には理解されていない。 本稿では,GLUEベンチマークを用いて,視覚拡張がV&Lモデルの言語能力に与える影響について検討する。 その結果,視覚的拡張は言語能力の低下を招き,V&L事前学習は構造的変化よりも影響が大きいことがわかった。 この結果から,モデル言語能力の向上や維持が可能な事前学習のさらなる研究の必要性が示唆された。

Extending language models with structural modifications and vision-and-language (V&L) pretraining are successful ways of making V&L models that can ground vision and language. Potential applications of these advanced models include multi-modal machine reading comprehension models and multi-modal dialogue models, which require language ability upon grounding. Although language capability is crucial for such applications, the impact of extending their visual capabilities on their language capabilities is not fully understood. This paper investigates how visual extension affects the language capability of V&L models using the GLUE benchmark. We found that visual extension causes some decreases in language capability and that V&L pretraining has a greater impact than structural modifications on the decreases. Our results suggest the need for further study on pretraining that can maintain or, if possible, improve a model's language capability.
翻訳日:2021-04-19 14:37:57 公開日:2021-04-16
# シリアルかパラレルか? 多言語機械翻訳用プラグ可能なアダプタ

Serial or Parallel? Plug-able Adapter for multilingual machine translation ( http://arxiv.org/abs/2104.08154v1 )

ライセンス: Link先を確認
Yaoming Zhu, Jiangtao Feng, Chengqi Zhao, Mingxuan Wang, Lei Li(参考訳) 統一多言語翻訳モデルの開発は機械翻訳研究の重要なテーマである。 しかし、既存のアプローチはパフォーマンス低下に苦しんでおり、多言語モデルでは、リッチなバイリンガルデータで個別にトレーニングされたモデルに比べてパフォーマンスが劣る。 性能劣化は,多言語組込みコンフレーションと多言語融合効果の2つに分類した。 この2つの問題に対処するため,多言語機械翻訳のためのデフュージョン適応を付加したトランスフォーマーモデルであるPAMを提案する。 具体的には、PAMは、単語と中間表現を言語固有のものへシフトするための埋め込みと層アダプタで構成されている。 iwslt、opus-100、wmtベンチマークでの広範な実験の結果、 \method は、シリーズアダプタや多言語知識蒸留など、いくつかの強力な競合相手よりも優れていることが示されている。

Developing a unified multilingual translation model is a key topic in machine translation research. However, existing approaches suffer from performance degradation: multilingual models yield inferior performance compared to the ones trained separately on rich bilingual data. We attribute the performance degradation to two issues: multilingual embedding conflation and multilingual fusion effects. To address the two issues, we propose PAM, a Transformer model augmented with defusion adaptation for multilingual machine translation. Specifically, PAM consists of embedding and layer adapters to shift the word and intermediate representations towards language-specific ones. Extensive experiment results on IWSLT, OPUS-100, and WMT benchmarks show that \method outperforms several strong competitors, including series adapter and multilingual knowledge distillation.
翻訳日:2021-04-19 14:37:43 公開日:2021-04-16
# 知識グラフによる会員推測攻撃

Membership Inference Attacks on Knowledge Graphs ( http://arxiv.org/abs/2104.08273v1 )

ライセンス: Link先を確認
Yu Wang, Lichao Sun(参考訳) 知識グラフは、エンティティ間の構造的関係を表すため、ますます人気が高まっている。 知識グラフ埋め込み法(KGE)は、例えば、三重分類、リンク予測を含む知識グラフ補完などの様々な下流タスクに使用される。 しかし、知識グラフにはトレーニングセットに多くの機密情報が含まれており、プライバシー攻撃に対して非常に脆弱である。 本稿では,知識グラフのプライバシ脆弱性を探索する4つの標準KGE手法に対して,そのような1つの攻撃,すなわちメンバシップ推論攻撃を行う。 4つのベンチマークナレッジグラフデータセットにおける実験結果から,当社のプライバシ攻撃により,kgeメソッドのメンバシップ情報漏洩が明らかになった。

Knowledge graphs have become increasingly popular supplemental information because they represented structural relations between entities. Knowledge graph embedding methods (KGE) are used for various downstream tasks, e.g., knowledge graph completion, including triple classification, link prediction. However, the knowledge graph also includes much sensitive information in the training set, which is very vulnerable to privacy attacks. In this paper, we conduct such one attack, i.e., membership inference attack, on four standard KGE methods to explore the privacy vulnerabilities of knowledge graphs. Our experimental results on four benchmark knowledge graph datasets show that our privacy attacks can reveal the membership information leakage of KGE methods.
翻訳日:2021-04-19 14:37:18 公開日:2021-04-16
# マルチモーダル分類のためのクロスモーダル検索強化

Cross-Modal Retrieval Augmentation for Multi-Modal Classification ( http://arxiv.org/abs/2104.08108v1 )

ライセンス: Link先を確認
Shir Gur, Natalia Neverova, Chris Stauffer, Ser-Nam Lim, Douwe Kiela, Austin Reiter(参考訳) 近年, 自然言語処理における下流タスクにおいて, 検索成分を外部知識ソースに応用する技術が注目されている。 本稿では,画像の非構造化外部知識源とそれに対応する字幕を用いた視覚的質問応答の改善について検討する。 まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索w.r.tの性能を大幅に向上させる。 同様の方法。 第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。 さらに,本手法の公約を確立するための広範な実験を行い,ホットスワッピング指標などの推論時間に対する新しい応用について検討する。

Recent advances in using retrieval components over external knowledge sources have shown impressive results for a variety of downstream tasks in natural language processing. Here, we explore the use of unstructured external knowledge sources of images and their corresponding captions for improving visual question answering (VQA). First, we train a novel alignment model for embedding images and captions in the same space, which achieves substantial improvement in performance on image-caption retrieval w.r.t. similar methods. Second, we show that retrieval-augmented multi-modal transformers using the trained alignment model improve results on VQA over strong baselines. We further conduct extensive experiments to establish the promise of this approach, and examine novel applications for inference time such as hot-swapping indices.
翻訳日:2021-04-19 14:37:06 公開日:2021-04-16
# 改良された完全畳み込みネットワークに基づくCucumber作物のLAI推定

LAI Estimation of Cucumber Crop Based on Improved Fully Convolutional Network ( http://arxiv.org/abs/2104.07955v1 )

ライセンス: Link先を確認
Weiqi Shu, Ling Wang, Bolong Liu, and Jie Liu(参考訳) LAI (Leaf Area Index) は農業における収穫量推定において重要な指標である。 植物の成長状況、純同化率、植物光合成、環境中の二酸化炭素に直接関係している。 LAIを正確にかつ効率的に測定する方法が、収穫量推定問題の鍵となる。 手動測定は、多くの人的資源と物質的資源を消費する。 リモートセンシング技術は地球近傍のLAI計測には適していない。 また,従来のディジタル画像処理に基づく手法は,環境騒音や画像露出の影響が大きい。 現在、多くの分野でディープラーニングが広く使われている。 改良されたfcn (fully convolutional network) がlai測度タスクに対して提案されている。 温室から収集した82個のキュウリ画像に,事前学習したモデルの微調整を行った。 その結果,改良されたFCNモデルがデータセット上で良好に動作することがわかった。 本手法はIoUが0.908に到達し,従来のFCNモデルよりも11%,基本FCNモデルより4.7%向上した。

LAI (Leaf Area Index) is of great importance for crop yield estimation in agronomy. It is directly related to plant growth status, net assimilation rate, plant photosynthesis, and carbon dioxide in the environment. How to measure LAI accurately and efficiently is the key to the crop yield estimation problem. Manual measurement consumes a lot of human resources and material resources. Remote sensing technology is not suitable for near-Earth LAI measurement. Besides, methods based on traditional digital image processing are greatly affected by environmental noise and image exposure. Nowadays, deep learning is widely used in many fields. The improved FCN (Fully Convolutional Network) is proposed in our study for LAI measure task. Eighty-two cucumber images collected from our greenhouse are labeled to fine-tuning the pre-trained model. The result shows that the improved FCN model performs well on our dataset. Our method's mean IoU can reach 0.908, which is 11% better than conventional methods and 4.7% better than the basic FCN model.
翻訳日:2021-04-19 14:36:53 公開日:2021-04-16
# TeLCoS: スクリプトのクラスタリングによるオンデバイステキストローカライゼーション

TeLCoS: OnDevice Text Localization with Clustering of Script ( http://arxiv.org/abs/2104.08045v1 )

ライセンス: Link先を確認
Rachit S Munjal, Manoj Goyal, Rutika Moharir, Sukumar Moharana(参考訳) 資源制約環境におけるテキストローカライゼーションの分野における最近の研究は、ディープニューラルネットワークを広範囲に活用している。 低メモリモバイルデバイス上でのシーンテキストのローカライゼーションと認識は、コンテンツ抽出、画像分類、キーワードベースの画像検索など幅広い応用がある。 多言語ローカライズされたテキストのテキスト認識には、OCRシステムは各テキストインスタンスのスクリプトの事前知識を必要とする。 これにより、単語のスクリプト識別がテキスト認識に不可欠なステップとなる。 既存のほとんどのメソッドは、テキストローカライゼーション、スクリプト識別、テキスト認識を3つの別々のタスクとして扱う。 これにより、スクリプト識別は認識パイプラインのオーバーヘッドになる。 このオーバーヘッドを軽減するために、TeLCoS: OnDevice Text Localization with Clustering of Script, a multi-task dual branch lightweight CNN network that real-time on device Text Localization and High-level Script Clustering。 ネットワークは、ローカライゼーションネットワーク上の単一のフィードフォワードパスを通じて、主要なスクリプトをグループ化し、識別することで、独立したスクリプト識別モジュールへの呼び出し数を劇的に削減する。 また,115万のパラメータしか持たない効率的なネットワークを構築するために,構造的類似性に基づく新しいチャネルプルーニング機構を導入する。 ベンチマークデータセットを用いた実験は,exynos 990チップセットデバイス上でのパイプライン全体の実行遅延が60ミリ秒という,最先端のパフォーマンスを実現することを示唆する。

Recent research in the field of text localization in a resource constrained environment has made extensive use of deep neural networks. Scene text localization and recognition on low-memory mobile devices have a wide range of applications including content extraction, image categorization and keyword based image search. For text recognition of multi-lingual localized text, the OCR systems require prior knowledge of the script of each text instance. This leads to word script identification being an essential step for text recognition. Most existing methods treat text localization, script identification and text recognition as three separate tasks. This makes script identification an overhead in the recognition pipeline. To reduce this overhead, we propose TeLCoS: OnDevice Text Localization with Clustering of Script, a multi-task dual branch lightweight CNN network that performs real-time on device Text Localization and High-level Script Clustering simultaneously. The network drastically reduces the number of calls to a separate script identification module, by grouping and identifying some majorly used scripts through a single feed-forward pass over the localization network. We also introduce a novel structural similarity based channel pruning mechanism to build an efficient network with only 1.15M parameters. Experiments on benchmark datasets suggest that our method achieves state-of-the-art performance, with execution latency of 60 ms for the entire pipeline on the Exynos 990 chipset device.
翻訳日:2021-04-19 14:36:41 公開日:2021-04-16
# MetaXL:低リソース多言語学習のためのメタ表現変換

MetaXL: Meta Representation Transformation for Low-resource Cross-lingual Learning ( http://arxiv.org/abs/2104.07908v1 )

ライセンス: Link先を確認
Mengzhou Xia, Guoqing Zheng, Subhabrata Mukherjee, Milad Shokouhi, Graham Neubig, Ahmed Hassan Awadallah(参考訳) 多言語事前訓練表現と多言語間移動学習の組み合わせは、低リソース言語のための関数型NLPシステムを構築する上で最も効果的な方法の1つである。 しかしながら、事前学習や微調整のための十分な注釈データを持つ、大規模な単言語コーパスを持たない超低リソース言語では、転送学習は未熟で難しい課題である。 さらに、最近の研究は、多言語表現が驚くほど言語間で相容れないことを示し、非常に低リソースな言語に移行するためのさらなる課題をもたらしている。 本稿では,メタ学習をベースとしたメタXLを提案する。メタXLは,補助言語から対象言語へ視覚的に表現を変換し,その表現空間を効果的に伝達する。 大規模モノリンガルコーパスや大量のラベル付きデータにアクセスできるような,現実世界の低リソース言語に関する大規模な実験は,我々のアプローチの有効性を示している。 MetaXLのコードはgithub.com/microsoft /MetaXLで公開されている。

The combination of multilingual pre-trained representations and cross-lingual transfer learning is one of the most effective methods for building functional NLP systems for low-resource languages. However, for extremely low-resource languages without large-scale monolingual corpora for pre-training or sufficient annotated data for fine-tuning, transfer learning remains an under-studied and challenging task. Moreover, recent work shows that multilingual representations are surprisingly disjoint across languages, bringing additional challenges for transfer onto extremely low-resource languages. In this paper, we propose MetaXL, a meta-learning based framework that learns to transform representations judiciously from auxiliary languages to a target one and brings their representation spaces closer for effective transfer. Extensive experiments on real-world low-resource languages - without access to large-scale monolingual corpora or large amounts of labeled data - for tasks like cross-lingual sentiment analysis and named entity recognition show the effectiveness of our approach. Code for MetaXL is publicly available at github.com/microsoft /MetaXL.
翻訳日:2021-04-19 14:36:19 公開日:2021-04-16
# スカラー制御によるテキスト生成における外挿の実証的研究

An Empirical Study of Extrapolation in Text Generation with Scalar Control ( http://arxiv.org/abs/2104.07910v1 )

ライセンス: Link先を確認
Aashi Jain and Taylor Berg-Kirkpatrick(参考訳) 所望の出力長,入力文からの所望の編集,および3つのテキスト生成タスクにおける所望の感情といったスカラー制御入力を条件付ける際に,外挿性能を実証的に評価する。 具体的には、トレーニング中に見えない範囲の制御値にモデルを一般化するよう依頼するゼロショット設定について検討する。 学習可能な埋め込みと正弦波埋め込みの両方を含むスカラー入力に対する一般的な埋め込み手法の評価に焦点をあてる。 驚くべきことに、我々の発見は、スカラー入力を直接使用する最も単純な戦略が、さらにエンコーディングすることなく、最も確実に外挿を成功させることを示している。

We conduct an empirical evaluation of extrapolation performance when conditioning on scalar control inputs like desired output length, desired edit from an input sentence, and desired sentiment across three text generation tasks. Specifically, we examine a zero-shot setting where models are asked to generalize to ranges of control values not seen during training. We focus on evaluating popular embedding methods for scalar inputs, including both learnable and sinusoidal embeddings, as well as simpler approaches. Surprisingly, our findings indicate that the simplest strategy of using scalar inputs directly, without further encoding, most reliably allows for successful extrapolation.
翻訳日:2021-04-19 14:36:01 公開日:2021-04-16
# 共有するか否か:モデル伝達学習のためのソースセットの予測

To Share or not to Share: Predicting Sets of Sources for Model Transfer Learning ( http://arxiv.org/abs/2104.08078v1 )

ライセンス: Link先を確認
Lukas Lange, Jannik Str\"otgen, Heike Adel, Dietrich Klakow(参考訳) 低リソース設定では、モデル転送は多くのタスクやドメインに対するラベル付きデータの欠如を克服するのに役立ちます。 しかし、最も類似したソースでさえ予期せぬ負の転送結果をもたらす可能性があるため、有用な転送ソースを予測することは難しい問題である。 したがって、タスクとテキストの類似性に基づくランキング手法は、有望な情報源を特定するには不十分である。 そこで本研究では,どのソースを利用すべきかを自動的に判断する手法を提案する。 そこで本研究では,様々なドメインやタスクのシーケンスラベリングに対するモデル転送の影響を調査し,モデル類似性とサポートベクターマシンに基づく手法が有望なソースを予測できることを示し,最大24f1ポイントの性能向上を実現した。

In low-resource settings, model transfer can help to overcome a lack of labeled data for many tasks and domains. However, predicting useful transfer sources is a challenging problem, as even the most similar sources might lead to unexpected negative transfer results. Thus, ranking methods based on task and text similarity may not be sufficient to identify promising sources. To tackle this problem, we propose a method to automatically determine which and how many sources should be exploited. For this, we study the effects of model transfer on sequence labeling across various domains and tasks and show that our methods based on model similarity and support vector machines are able to predict promising sources, resulting in performance increases of up to 24 F1 points.
翻訳日:2021-04-19 14:35:48 公開日:2021-04-16
# 人間の触覚による自然言語推論:人間の説明を用いてモデル注意をガイドする

Natural Language Inference with a Human Touch: Using Human Explanations to Guide Model Attention ( http://arxiv.org/abs/2104.08142v1 )

ライセンス: Link先を確認
Joe Stacey, Yonatan Belinkov and Marek Rei(参考訳) 自然言語推論(NLI)モデルは、トレーニングデータ内のバイアスやアーティファクトから学習することで知られ、モデルが他の目に見えないデータセットにどのように一般化するかに影響を与える。 従来のデバイアスアプローチでは、これらのバイアスからモデルを学ぶことを防ぐことに注力していますが、代わりに、ドメイン外データセットよりも優れた機能を学ぶようにモデルに促すことを目的として、人間がどのようにタスクにアプローチするかに関する情報をモデルに提供するのです。 自然言語説明を用いてモデルの注意重みを監督し,これらの説明に含まれる単語により多くの注意を払うように促す。 人為的な説明によるトレーニングは,NLIの流通と流通の両面を同時に改善できることを示す一方,ロバスト性に関するほとんどの研究は,両者のトレードオフを伴っている。 人間の説明による訓練は、モデルが文章全体にわたってより幅広い参加を奨励し、前提における単語により多くの注意を払うとともに、停止語や句読点への注意を減らす。 教師付きモデルは人間が信じる言葉に付随し、より堅牢でより優れたNLIモデルを生成する。

Natural Language Inference (NLI) models are known to learn from biases and artefacts within their training data, impacting how well the models generalise to other unseen datasets. While previous de-biasing approaches focus on preventing models learning from these biases, we instead provide models with information about how a human would approach the task, with the aim of encouraging the model to learn features that will generalise better to out-of-domain datasets. Using natural language explanations, we supervise a model's attention weights to encourage more attention to be paid to the words present in these explanations. For the first time, we show that training with human generated explanations can simultaneously improve performance both in-distribution and out-of-distribution for NLI, whereas most related work on robustness involves a trade-off between the two. Training with the human explanations encourages models to attend more broadly across the sentences, paying more attention to words in the premise and less attention to stop-words and punctuation. The supervised models attend to words humans believe are important, creating more robust and better performing NLI models.
翻訳日:2021-04-19 14:35:34 公開日:2021-04-16
# BERT-based Interchangeable Rephrase を用いた音声支援NLUのためのデータ拡張

Data Augmentation for Voice-Assistant NLU using BERT-based Interchangeable Rephrase ( http://arxiv.org/abs/2104.08268v1 )

ライセンス: Link先を確認
Akhila Yerukola, Mason Bretan and Hongxia Jin(参考訳) 本稿では、バイトペア符号化に基づくデータ拡張手法とBERTのような自己認識モデルを導入し、音声言語理解タスクの性能向上を図る。 本稿では,VAEなどの生成モデルや同義語置換やバックトランスレーションなどのパフォーマンスブースティング技術を含む拡張手法との比較と評価を行った。 本手法は,音声アシスタントのドメインと意図の分類タスクや,発話の自然性や意味的類似性に着目したユーザスタディに強く貢献することを示す。

We introduce a data augmentation technique based on byte pair encoding and a BERT-like self-attention model to boost performance on spoken language understanding tasks. We compare and evaluate this method with a range of augmentation techniques encompassing generative models such as VAEs and performance-boosting techniques such as synonym replacement and back-translation. We show our method performs strongly on domain and intent classification tasks for a voice assistant and in a user-study focused on utterance naturalness and semantic similarity.
翻訳日:2021-04-19 14:35:13 公開日:2021-04-16
# プロセス畳み込みによるデータ駆動地球観測におけるドメイン知識の統合

Integrating Domain Knowledge in Data-driven Earth Observation with Process Convolutions ( http://arxiv.org/abs/2104.08134v1 )

ライセンス: Link先を確認
Daniel Heestermans Svendsen, Maria Piles, Jordi Mu\~noz-Mar\'i, David Luengo, Luca Martino and Gustau Camps-Valls(参考訳) 地球観測データのモデリングは難しい問題であり、通常は純粋に機械的または純粋にデータ駆動の手法によってアプローチされる。 メカニスティックモデルは、システムのドメイン知識と物理ルールを符号化する。 しかし、そのようなモデルには問題内の変数間のすべてのインタラクションの正しい仕様が必要であり、適切なパラメータ化はそれ自体が課題である。 一方、機械学習のアプローチは柔軟性のあるデータ駆動ツールであり、任意の複雑な関数を近似することができるが、データの不足や外挿処理では解釈可能性や苦労が欠如している。 本稿では,両手法を組み合わせたハイブリッド学習方式が,これらの課題を効率的に解決できると主張する。 我々は,地球観測におけるハイブリッドモデリングのためのガウス過程(gp)畳み込みモデルを提案する。 具体的には、EO時系列モデリング、解析、理解のための遅延力モデル(LFM)と呼ばれるGP畳み込みモデルのクラスを特に提案する。 lfmsは微分方程式にエンコードされた物理知識を多出力gpモデルに組み込むハイブリッドモデルである。 lfmsは、時系列にまたがって情報を転送し、観測の欠如に対処し、システムを強制する明示的な潜在関数を推測し、システムの分析や解釈に非常に有用なパラメータ化を学ぶことができる。 アクティブ(ASCAT)およびパッシブ(SMOS, AMSR2)マイクロ波衛星からの土壌水分の時系列を考察する。 本モデルでは, 一階微分方程式を支配方程式として仮定し, 土壌水分の持続性に関連するeフォールディング時間や減衰率を自動的に推定し, 降水の潜在力を検出する。 提案手法は,統計的学習とメカニスティックモデリングを組み合わせることで,リモートセンシングパラメータ推定の2つの主要なアプローチを考察する。

The modelling of Earth observation data is a challenging problem, typically approached by either purely mechanistic or purely data-driven methods. Mechanistic models encode the domain knowledge and physical rules governing the system. Such models, however, need the correct specification of all interactions between variables in the problem and the appropriate parameterization is a challenge in itself. On the other hand, machine learning approaches are flexible data-driven tools, able to approximate arbitrarily complex functions, but lack interpretability and struggle when data is scarce or in extrapolation regimes. In this paper, we argue that hybrid learning schemes that combine both approaches can address all these issues efficiently. We introduce Gaussian process (GP) convolution models for hybrid modelling in Earth observation (EO) problems. We specifically propose the use of a class of GP convolution models called latent force models (LFMs) for EO time series modelling, analysis and understanding. LFMs are hybrid models that incorporate physical knowledge encoded in differential equations into a multioutput GP model. LFMs can transfer information across time-series, cope with missing observations, infer explicit latent functions forcing the system, and learn parameterizations which are very helpful for system analysis and interpretability. We consider time series of soil moisture from active (ASCAT) and passive (SMOS, AMSR2) microwave satellites. We show how assuming a first order differential equation as governing equation, the model automatically estimates the e-folding time or decay rate related to soil moisture persistence and discovers latent forces related to precipitation. The proposed hybrid methodology reconciles the two main approaches in remote sensing parameter estimation by blending statistical learning and mechanistic modeling.
翻訳日:2021-04-19 14:34:01 公開日:2021-04-16
# 不完全視線データを用いた映像の雑音対応サルリエンシー予測

Noise-Aware Saliency Prediction for Videos with Incomplete Gaze Data ( http://arxiv.org/abs/2104.08038v1 )

ライセンス: Link先を確認
Ekta Prashnani, Orazio Gallo, Joohwan Kim, Josef Spjut, Pradeep Sen, Iuri Frosio(参考訳) ディープラーニングに基づくアルゴリズムは、視覚的信頼性予測において驚くべき結果をもたらしたが、視線データのトレーニングにおけるノイズの影響はほとんど見過ごされてきた。 この問題は特に、視線データが不完全で、画像に比べてノイズが多いビデオに関係している。 そこで本稿では,視線データの不完全性や不正確性から生じる不確実性を定量化し,トレーニングにおいて考慮すべきノイズ認識トレーニング(NAT)パラダイムを提案する。 導入したモデルアーキテクチャや損失関数,あるいはデータセットのトレーニングとは独立して,natのメリットを実証する。 不完全なトレーニングデータセットのノイズに対する堅牢性を考えると、NATはより少ない被験者で視線データセットを設計できる可能性を示唆している。 また,時間的セマンティクスが豊富で,フレーム毎に複数の視線を引き付けるような,ビデオ・セマンティクスのためのゲームコンテキストを提供する最初のデータセットも紹介する。

Deep-learning-based algorithms have led to impressive results in visual-saliency prediction, but the impact of noise in training gaze data has been largely overlooked. This issue is especially relevant for videos, where the gaze data tends to be incomplete, and thus noisier, compared to images. Therefore, we propose a noise-aware training (NAT) paradigm for visual-saliency prediction that quantifies the uncertainty arising from gaze data incompleteness and inaccuracy, and accounts for it in training. We demonstrate the advantage of NAT independently of the adopted model architecture, loss function, or training dataset. Given its robustness to the noise in incomplete training datasets, NAT ushers in the possibility of designing gaze datasets with fewer human subjects. We also introduce the first dataset that offers a video-game context for video-saliency research, with rich temporal semantics, and multiple gaze attractors per frame.
翻訳日:2021-04-19 14:33:05 公開日:2021-04-16
# 分数および圧縮1次元cnnオートエンコーダを用いた直交特徴に基づく脳波信号

Orthogonal Features Based EEG Signals Denoising Using Fractional and Compressed One-Dimensional CNN AutoEncoder ( http://arxiv.org/abs/2104.08120v1 )

ライセンス: Link先を確認
Subham Nagar and Ahlad Kumar(参考訳) 本稿では、記録中にノイズに汚染されることの多い脳波信号(eeg)を、主に筋肉の運動によって誘発される筋肉アーティファクト(ma)によって検出するための分数1次元畳み込みニューラルネットワーク(cnn)オートエンコーダを提案する。 既存の脳波分極法は分解、しきい値設定、フィルタリング技術を利用している。 提案手法では,脳波信号はtchebichefモーメントを用いて直交領域に変換され,提案アーキテクチャに供給される。 新しいハイパーパラメータ(\alpha$)を導入し、バックプロパゲーション中に勾配が計算される部分的な順序を示す。 $\alpha$をチューニングすることで、復元された信号の品質が大幅に向上する。 圧縮型ディープラーニングアーキテクチャを用いた携帯型低エネルギー機器の高利用に動機づけられ,提案手法の学習可能なパラメータをランダム化特異値分解(rsvd)アルゴリズムを用いて圧縮する。 実験は、標準のEEGデータセット、すなわちMendleyとBonnで実施されている。 提案した分数圧縮アーキテクチャは,既存の最先端信号復号化手法よりも優れた性能を示した。

This paper presents a fractional one-dimensional convolutional neural network (CNN) autoencoder for denoising the Electroencephalogram (EEG) signals which often get contaminated with noise during the recording process, mostly due to muscle artifacts (MA), introduced by the movement of muscles. The existing EEG denoising methods make use of decomposition, thresholding and filtering techniques. In the proposed approach, EEG signals are first transformed to orthogonal domain using Tchebichef moments before feeding to the proposed architecture. A new hyper-parameter ($\alpha$) is introduced which refers to the fractional order with respect to which gradients are calculated during back-propagation. It is observed that by tuning $\alpha$, the quality of the restored signal improves significantly. Motivated by the high usage of portable low energy devices which make use of compressed deep learning architectures, the trainable parameters of the proposed architecture are compressed using randomized singular value decomposition (RSVD) algorithm. The experiments are performed on the standard EEG datasets, namely, Mendeley and Bonn. The study shows that the proposed fractional and compressed architecture performs better than existing state-of-the-art signal denoising methods.
翻訳日:2021-04-19 14:32:44 公開日:2021-04-16
# コンピュータビジョンの混乱で不確かさの欠如が判明

I Find Your Lack of Uncertainty in Computer Vision Disturbing ( http://arxiv.org/abs/2104.08188v1 )

ライセンス: Link先を確認
Matias Valdenegro-Toro(参考訳) ニューラルネットワークは多くの現実世界のアプリケーションで使われているが、しばしば彼ら自身の自信を推定するのに問題がある。 これは、人間とその生活で高い利害関係を決定することを目的としたコンピュータビジョンアプリケーションにとって特に問題となる。 本稿では,すべてのコンピュータビジョンアプリケーションが適切な認識的不確実性定量化を用いていないこと,つまり,これらのモデルが自身の制限を無視することを示す,文献のメタ分析を行う。 適切な不確実性定量化を伴わないモデルの使用結果について述べるとともに,適切な校正されたてんかん不確実性を有するモデルの採用をコミュニティに動機づけて,分布検出の回避を図る。 本論文は,コンピュータビジョン応用における不確実性推定に関する課題と推奨事項を要約して締めくくった。

Neural networks are used for many real world applications, but often they have problems estimating their own confidence. This is particularly problematic for computer vision applications aimed at making high stakes decisions with humans and their lives. In this paper we make a meta-analysis of the literature, showing that most if not all computer vision applications do not use proper epistemic uncertainty quantification, which means that these models ignore their own limitations. We describe the consequences of using models without proper uncertainty quantification, and motivate the community to adopt versions of the models they use that have proper calibrated epistemic uncertainty, in order to enable out of distribution detection. We close the paper with a summary of challenges on estimating uncertainty for computer vision applications and recommendations.
翻訳日:2021-04-19 14:32:23 公開日:2021-04-16
# 長期複合活動検出のための時空間変形モデル

Spatiotemporal Deformable Models for Long-Term Complex Activity Detection ( http://arxiv.org/abs/2104.08194v1 )

ライセンス: Link先を確認
Salman Khan and Fabio Cuzzolin(参考訳) 長期にわたる複雑な活動認識と局所化は、スマートカーや手術ロボットなど、いくつかの自律システムの意思決定プロセスにおいて不可欠である。 しかしながら、現在のほとんどのメソッドは、短期的なアクション/アクティビティや、数フレームまたは秒間しか続かないアトミックアクションの組み合わせを単にローカライズするように設計されている。 本稿では,新しい変形可能な時空間部分モデルによる長期的複雑活動検出の問題に対処する。 本フレームワークは, (i) 動作管検出, (ii) 変形可能な部品形状のモデル化, (iii) 疎性機構の3つの主要な構成要素から構成される。 まず、アクションチューブ検出器を用いて一連のスニペットからアクションチューブを検出する。 次に、新しい3D変形可能なRoIプーリング層は、部品の星座の柔軟で変形可能な幾何学を学ぶために設計されている。 最後に、スパーシティ戦略はアクティベートと非アクティベートの特徴を区別する。 また,最近リリースされた道路自律運転データセットとsaras-esad手術行動データセットに対して,時間的複合活動アノテーションを提供し,提案手法を検証し,異なる領域への適応性を示す。 どちらも、長期的な活動を描いた長いビデオを含むため、この分野における将来の作業のベンチマークとして使用できる。

Long-term complex activity recognition and localisation can be crucial for the decision-making process of several autonomous systems, such as smart cars and surgical robots. Nonetheless, most current methods are designed to merely localise short-term action/activities or combinations of atomic actions that only last for a few frames or seconds. In this paper, we address the problem of long-term complex activity detection via a novel deformable, spatiotemporal parts-based model. Our framework consists of three main building blocks: (i) action tube detection, (ii) the modelling of the deformable geometry of parts, and (iii) a sparsity mechanism. Firstly, action tubes are detected in a series of snippets using an action tube detector. Next, a new 3D deformable RoI pooling layer is designed for learning the flexible, deformable geometry of the constellation of parts. Finally, a sparsity strategy differentiates between activated and deactivate features. We also provide temporal complex activity annotation for the recently released ROAD autonomous driving dataset and the SARAS-ESAD surgical action dataset, to validate our method and show the adaptability of our framework to different domains. As they both contain long videos portraying long-term activities they can be used as benchmarks for future work in this area.
翻訳日:2021-04-19 14:32:10 公開日:2021-04-16
# 「BNN - BN = ? 「バッチ正規化のないバイナリニューラルネットワークのトレーニング

"BNN - BN = ?": Training Binary Neural Networks without Batch Normalization ( http://arxiv.org/abs/2104.08215v1 )

ライセンス: Link先を確認
Tianlong Chen, Zhenyu Zhang, Xu Ouyang, Zechun Liu, Zhiqiang Shen, Zhangyang Wang(参考訳) バッチ正規化(BN)は、最先端のバイナリニューラルネットワーク(BNN)に不可欠な重要なファシリテータである。 しかし、BN層は計算に費用がかかり、通常は非バイナリパラメータで実装されるため、BNNトレーニングの効率的な実装にはハードルが残されている。 また、各バッチ内のサンプル間の望ましくない依存を導入する。 最新のBatch Normalization Free(BN-Free)トレーニングに触発されて、BNNのトレーニングに彼らのフレームワークを拡張し、BNNのトレーニングや推論体制からBNを除去できることを初めて実証した。 適応勾配クリッピング、スケールウェイト標準化、特殊ボトルネックブロックなどのテクニックをプラグインしてカスタマイズすることにより、BNフリーのBNNはBNベースに比べて競争精度を維持することができる。 広範な実験により,BNNのバックボーンやデータセットにまたがる提案の有効性が検証された。 例えば、最先端のReActNetsからBNを削除した後も、CIFAR-10、CIFAR-100、ImageNetでそれぞれ92.08%、68.34%、68.0%の精度を達成するための提案された手法でトレーニングすることができる(CIFARでは0.23%〜0.44%、ImageNetでは1.40%)。 コードと事前訓練されたモデルは、https://github.com/V ITA-Group/BNN_NoBN.c omで入手できる。

Batch normalization (BN) is a key facilitator and considered essential for state-of-the-art binary neural networks (BNN). However, the BN layer is costly to calculate and is typically implemented with non-binary parameters, leaving a hurdle for the efficient implementation of BNN training. It also introduces undesirable dependence between samples within each batch. Inspired by the latest advance on Batch Normalization Free (BN-Free) training, we extend their framework to training BNNs, and for the first time demonstrate that BNs can be completed removed from BNN training and inference regimes. By plugging in and customizing techniques including adaptive gradient clipping, scale weight standardization, and specialized bottleneck block, a BN-free BNN is capable of maintaining competitive accuracy compared to its BN-based counterpart. Extensive experiments validate the effectiveness of our proposal across diverse BNN backbones and datasets. For example, after removing BNs from the state-of-the-art ReActNets, it can still be trained with our proposed methodology to achieve 92.08%, 68.34%, and 68.0% accuracy on CIFAR-10, CIFAR-100, and ImageNet respectively, with marginal performance drop (0.23%~0.44% on CIFAR and 1.40% on ImageNet). Codes and pre-trained models are available at: https://github.com/V ITA-Group/BNN_NoBN.
翻訳日:2021-04-19 14:31:50 公開日:2021-04-16
# 次世代ネットワークCPSシステムにおける信頼の重要性:AIの視点から

On the Importance of Trust in Next-Generation Networked CPS Systems: An AI Perspective ( http://arxiv.org/abs/2104.07853v1 )

ライセンス: Link先を確認
Anousheh Gholami, Nariman Torkzaban, John S. Baras(参考訳) 次世代ネットワークシステムの規模、複雑さ、不均一性の増加に伴い、このようなシステムのシームレスな制御、管理、セキュリティはますます困難になっている。 大規模分散学習、マルチエージェント最適化、5gサービスプロビジョニング、ネットワークスライシングなど、多くの多様なアプリケーションがネットワークシステムに関心を示している。 本稿では,ネットワークエージェントの状態を評価し,意思決定プロセスを改善するための尺度として信頼を提案する。 さまざまなプロトコルに参加するエンティティ間の関係として信頼を解釈する。 信頼関係は、プロトコル内のエンティティの相互作用によって作成された証拠に基づいており、可用性、信頼性、レジリエンスなど、複数の指標を組み合わせたものかもしれない。 アプリケーションコンテキストによる。 まず、信頼を計量として重要視し、ネットワーク内の信頼計算と集約のための数学的枠組みを提示する。 次に,実例を2つ提示することにより,信頼をネットワーク意思決定プロセスに統合する方法を示す。 最初の例では,信頼の証拠を活用すれば,フェデレートラーニングのパフォーマンスと安全性が向上することを示す。 第2に,信頼認識型意思決定方式を付加することで,5gネットワークリソースプロビジョニングフレームワークがいかに改善されるかを示す。 シミュレーションにより信頼に基づくアプローチの有効性を検証する。 最後に,信頼証拠の集約に伴う課題を説明し,それに取り組むためのアイデアを簡潔に説明する。

With the increasing scale, complexity, and heterogeneity of the next generation networked systems, seamless control, management, and security of such systems becomes increasingly challenging. Many diverse applications have driven interest in networked systems, including large-scale distributed learning, multi-agent optimization, 5G service provisioning, and network slicing, etc. In this paper, we propose trust as a measure to evaluate the status of network agents and improve the decision-making process. We interpret trust as a relation among entities that participate in various protocols. Trust relations are based on evidence created by the interactions of entities within a protocol and may be a composite of multiple metrics such as availability, reliability, resilience, etc. depending on application context. We first elaborate on the importance of trust as a metric and then present a mathematical framework for trust computation and aggregation within a network. Then we show in practice, how trust can be integrated into network decision-making processes by presenting two examples. In the first example, we show how utilizing the trust evidence can improve the performance and the security of Federated Learning. Second, we show how a 5G network resource provisioning framework can be improved when augmented with a trust-aware decision-making scheme. We verify the validity of our trust-based approach through simulations. Finally, we explain the challenges associated with aggregating the trust evidence and briefly explain our ideas to tackle them.
翻訳日:2021-04-19 14:30:22 公開日:2021-04-16
# 分割型アンサンブル学習に応用した新しいサロゲート支援進化アルゴリズム

A Novel Surrogate-assisted Evolutionary Algorithm Applied to Partition-based Ensemble Learning ( http://arxiv.org/abs/2104.08048v1 )

ライセンス: Link先を確認
Arkadiy Dushatskiy, Tanja Alderliesten, Peter A. N. Bosman(参考訳) 本稿では,高価な組合せ最適化問題を解くために,代用補助進化アルゴリズムを提案する。 我々は,適応値推定に用いるサロゲートモデルを,遺伝子プール最適混合アルゴリズム(gomea)の最先端p3様変種に統合し,得られたアルゴリズムを非バイナリ組合せ問題に適用する。 提案アルゴリズムをアンサンブル学習問題で検証する。 複数のモデルを組み立てることは、より良いパフォーマンスを達成するための一般的な機械学習技術である。 データセットの非結合部分集合でトレーニングされた複数のモデルのアンサンブルを考える。 最高のデータセットパーティショニングを見つけることは、当然、組合せ非バイナリ最適化問題である。 深層ニューラルネットワークのような複雑なモデルがアンサンブルの学習者として使われる場合、適合度関数の評価は非常に高価である。 したがって、フィットネス機能評価の回数は通常限られており、高価な最適化技術を必要とする。 実験では,openml-cc18ベンチマークとサポートベクトルマシンの5つの分類データセットをアンサンブル学習者として使用する。 提案アルゴリズムはベイズ最適化アルゴリズムを含む他の手法よりも優れた性能を示す。 最大500変数のアンサンブル学習問題に対して、数千のフィットネス関数評価を使用して、よりよいソリューションを見つけることができる。

We propose a novel surrogate-assisted Evolutionary Algorithm for solving expensive combinatorial optimization problems. We integrate a surrogate model, which is used for fitness value estimation, into a state-of-the-art P3-like variant of the Gene-Pool Optimal Mixing Algorithm (GOMEA) and adapt the resulting algorithm for solving non-binary combinatorial problems. We test the proposed algorithm on an ensemble learning problem. Ensembling several models is a common Machine Learning technique to achieve better performance. We consider ensembles of several models trained on disjoint subsets of a dataset. Finding the best dataset partitioning is naturally a combinatorial non-binary optimization problem. Fitness function evaluations can be extremely expensive if complex models, such as Deep Neural Networks, are used as learners in an ensemble. Therefore, the number of fitness function evaluations is typically limited, necessitating expensive optimization techniques. In our experiments we use five classification datasets from the OpenML-CC18 benchmark and Support-vector Machines as learners in an ensemble. The proposed algorithm demonstrates better performance than alternative approaches, including Bayesian optimization algorithms. It manages to find better solutions using just several thousand fitness function evaluations for an ensemble learning problem with up to 500 variables.
翻訳日:2021-04-19 14:29:58 公開日:2021-04-16
# 教師なし神経因果発見のためのシャドウマッピング

Shadow-Mapping for Unsupervised Neural Causal Discovery ( http://arxiv.org/abs/2104.08183v1 )

ライセンス: Link先を確認
Matthew J. Vowels, Necati Cihan Camgoz and Richard Bowden(参考訳) ほとんどの科学分野において重要なゴールは、一連の観測に基づく因果構造の発見である。 残念ながら、相関や相互情報に基づく因果発見法は、動的関係を示すシステムにおいて因果関係を識別できないことが多い。 このような動的システム(有名な結合ロジスティックマップを含む)は、観測窓によって出現・消失する「ミラージュ」相関を示す。 これは、相関が因果関係ではなく、おそらく反故意に、因果関係が関係なく起こる可能性があることを意味する。 本稿では,高次元映像データを低次元のシャドウ表現に組み込むニューラルネットワークに基づく手法であるneural shadow-mappingについて述べる。 動的システムのビデオ表現から因果関係を発見する際の性能を示す。

An important goal across most scientific fields is the discovery of causal structures underling a set of observations. Unfortunately, causal discovery methods which are based on correlation or mutual information can often fail to identify causal links in systems which exhibit dynamic relationships. Such dynamic systems (including the famous coupled logistic map) exhibit `mirage' correlations which appear and disappear depending on the observation window. This means not only that correlation is not causation but, perhaps counter-intuitively, that causation may occur without correlation. In this paper we describe Neural Shadow-Mapping, a neural network based method which embeds high-dimensional video data into a low-dimensional shadow representation, for subsequent estimation of causal links. We demonstrate its performance at discovering causal links from video-representation s of dynamic systems.
翻訳日:2021-04-19 14:29:41 公開日:2021-04-16
# Interval-censored Hawkes プロセス

Interval-censored Hawkes processes ( http://arxiv.org/abs/2104.07932v1 )

ライセンス: Link先を確認
Marian-Andrei Rizoiu, Alexander Soen, Shidi Li, Leanne Dong, Aditya Krishna Menon and Lexing Xie(参考訳) hawkesプロセスは、地震や話題に関するツイートのような自己引用現象のイベントタイムをモデル化する一般的な方法である。 古典的には、これらのモデルは極大化による過去のイベント時間データに適合する。 しかし、多くのシナリオでは、歴史的出来事の正確な時刻は、プライバシー(例えば、病院への入院)または技術的な制限(例えば、ほとんどの輸送データは、ループ検出器を通過する車両の量を記録するが、個々の時刻は記録しない)について記録されない。 interval-censored 設定は、特定の時間間隔におけるイベントの集合数のみを観測する場合を表す。 interval-censored hawkesプロセスのパラメータを適合させるには、正確なイベント時間に依存しない新しいトレーニング目標を設計する必要がある。 本稿では,時間間隔に制限された設定でホークス過程のパラメータを推定するモデルを提案する。 我々のモデルは、いくつかの重要な方向の既存のHawkes Intensity Process(HIP)の上に構築されている。 まず、HIPは期待する強度で定式化されているが、期待する数に代えて作業することがより自然であること、さらに、HIPの定義方程式と密接に関連する積分方程式の解として後者を表現できることを観察する。 第二に、非同質なポアソン近似がホークス過程に対して、間隔チャージされた設定において有意な可能性を認めることを示し、この近似が元のHIP目標を特別な場合として回収し、より広いクラスであるブレグマン発散物を損失関数として使用できるようにする。 第3に、確率的に基底真理に対するより厳密な近似を計算する方法を説明します。 最後に,各間隔長に関する情報をモデルに組み込む方法について述べる。 合成データと実世界データによる実験により,ヒッパーモデルがヒップや他の数種類のベースラインを上回ることを確認した。

Hawkes processes are a popular means of modeling the event times of self-exciting phenomena, such as earthquake strikes or tweets on a topical subject. Classically, these models are fit to historical event time data via likelihood maximization. However, in many scenarios, the exact times of historical events are not recorded for either privacy (e.g., patient admittance to hospitals) or technical limitations (e.g., most transport data records the volume of vehicles passing loop detectors but not the individual times). The interval-censored setting denotes when only the aggregate counts of events at specific time intervals are observed. Fitting the parameters of interval-censored Hawkes processes requires designing new training objectives that do not rely on the exact event times. In this paper, we propose a model to estimate the parameters of a Hawkes process in interval-censored settings. Our model builds upon the existing Hawkes Intensity Process (HIP) of in several important directions. First, we observe that while HIP is formulated in terms of expected intensities, it is more natural to work instead with expected counts; further, one can express the latter as the solution to an integral equation closely related to the defining equation of HIP. Second, we show how a non-homogeneous Poisson approximation to the Hawkes process admits a tractable likelihood in the interval-censored setting; this approximation recovers the original HIP objective as a special case, and allows for the use of a broader class of Bregman divergences as loss function. Third, we explicate how to compute a tighter approximation to the ground truth in the likelihood. Finally, we show how our model can incorporate information about varying interval lengths. Experiments on synthetic and real-world data confirm our HIPPer model outperforms HIP and several other baselines on the task of interval-censored inference.
翻訳日:2021-04-19 14:28:34 公開日:2021-04-16
# 教師なし自然言語セグメンテーションのためのマスキングセグメント言語モデル

A Masked Segmental Language Model for Unsupervised Natural Language Segmentation ( http://arxiv.org/abs/2104.07829v1 )

ライセンス: Link先を確認
C.M. Downey, Fei Xia, Gina-Anne Levow, Shane Steinert-Threlkeld(参考訳) セグメンテーションは、"words"や他の重要な構文/意味ユニット(morphemesのような)がホワイトスペースによって明確に記述されていない言語と、単語間に意味のある停止がない連続音声データを扱う言語の両方において、依然として重要な前処理ステップである。 ほぼ完全な教師付き手法は中国語などの資源豊富な言語で使用するために開発されてきたが、世界の言語の多くはどちらも形態的に複雑であり、意味のある単位に「金」セグメンテーションの大きなデータセットを持たない。 この問題を解決するために,教師なし・軽視的なセグメンテーションタスクの両方に使用するために,新しいタイプのセグメンショナル言語モデル(Sun and Deng, 2018; Kawakami et al., 2019; Wang et al., 2021)を提案する。 我々は,双方向マスキングモデリングコンテキストと注意力を活用した,スパンマスキングトランスフォーマーアーキテクチャ上に構築されたマスキングセグメント言語モデル(mslm)を提案する。 一連の実験において、我々のモデルは、中国語(PKU Corpus)におけるリカレントSLMのセグメンテーション品質を一貫して上回り、英語(PTB)におけるリカレントモデルと同様の性能を発揮する。 本稿では,音韻型書記システムにおいて生じる課題について論じる。

Segmentation remains an important preprocessing step both in languages where "words" or other important syntactic/semantic units (like morphemes) are not clearly delineated by white space, as well as when dealing with continuous speech data, where there is often no meaningful pause between words. Near-perfect supervised methods have been developed for use in resource-rich languages such as Chinese, but many of the world's languages are both morphologically complex, and have no large dataset of "gold" segmentations into meaningful units. To solve this problem, we propose a new type of Segmental Language Model (Sun and Deng, 2018; Kawakami et al., 2019; Wang et al., 2021) for use in both unsupervised and lightly supervised segmentation tasks. We introduce a Masked Segmental Language Model (MSLM) built on a span-masking transformer architecture, harnessing the power of a bi-directional masked modeling context and attention. In a series of experiments, our model consistently outperforms Recurrent SLMs on Chinese (PKU Corpus) in segmentation quality, and performs similarly to the Recurrent model on English (PTB). We conclude by discussing the different challenges posed in segmenting phonemic-type writing systems.
翻訳日:2021-04-19 14:27:50 公開日:2021-04-16
# 時間グラフクラスタによるトレーシングトピック遷移

Tracing Topic Transitions with Temporal Graph Clusters ( http://arxiv.org/abs/2104.07836v1 )

ライセンス: Link先を確認
Xiaonan Jing, Qingyuan Hu, Yi Zhang, Julia Taylor Rayz(参考訳) Twitterは多くの自然言語処理(NLP)タスクのデータソースとして機能する。 データストリームを継続的に更新するため、Twitter上のトピックを特定することは難しい。 本稿では,実世界のtwitterデータから2週間以内にサブトピックの進化を見極めるための教師なしグラフベースのフレームワークを提案する。 まず,時相グラフ・オブ・ワード(gow)から最適なグラフクラスタを識別するために,ノード除去法を用いたマルコフクラスタリングアルゴリズム(mcl)を用いた。 その後、時間グラフ間のクラスタリング遷移をモデル化し、トピックの進化を識別する。 最後に、計算手法と人間のアノテーションの両方から生成された遷移フローを比較し、フレームワークの有効性を確かめる。

Twitter serves as a data source for many Natural Language Processing (NLP) tasks. It can be challenging to identify topics on Twitter due to continuous updating data stream. In this paper, we present an unsupervised graph based framework to identify the evolution of sub-topics within two weeks of real-world Twitter data. We first employ a Markov Clustering Algorithm (MCL) with a node removal method to identify optimal graph clusters from temporal Graph-of-Words (GoW). Subsequently, we model the clustering transitions between the temporal graphs to identify the topic evolution. Finally, the transition flows generated from both computational approach and human annotations are compared to ensure the validity of our framework.
翻訳日:2021-04-19 14:27:23 公開日:2021-04-16
# 不明瞭なジェンダーにおける自動翻訳の失敗の検討

Investigating Failures of Automatic Translation in the Case of Unambiguous Gender ( http://arxiv.org/abs/2104.07838v1 )

ライセンス: Link先を確認
Adithya Renduchintala and Adina Williams(参考訳) Transformerベースのモデルは、ニューラルネットワーク翻訳(NMT)のための現代的な作業馬であり、いくつかのベンチマークで最先端に達している。 その印象的な正確さにもかかわらず、名詞の性別をマークしない言語から他の言語への翻訳に関して、トランスフォーマーベースのモデルによる体系的かつ基本的な誤りの種類を観察した。 その結果, 周囲の文脈が適切な文法的ジェンダーマーキングの曖昧な証拠を提供する場合でも, 検証したトランスフォーマーに基づくモデルでは, 性別の職業名詞を体系的に正確に識別することは出来なかった。 本稿では,構文的に多様な文にまたがる不明瞭な文脈において,性形態を正しく翻訳するトランスフォーマティブ型nmtモデルの能力を評価するための評価スキームとデータセットをリリースする。 私たちのデータセットは、英語のソースから複数の異なる言語ファミリーから20の言語に翻訳します。 このデータセットが利用可能になると、NTTコミュニティが特に過酷なエラーの解決策を反復できることを期待しています。

Transformer based models are the modern work horses for neural machine translation (NMT), reaching state of the art across several benchmarks. Despite their impressive accuracy, we observe a systemic and rudimentary class of errors made by transformer based models with regards to translating from a language that doesn't mark gender on nouns into others that do. We find that even when the surrounding context provides unambiguous evidence of the appropriate grammatical gender marking, no transformer based model we tested was able to accurately gender occupation nouns systematically. We release an evaluation scheme and dataset for measuring the ability of transformer based NMT models to translate gender morphology correctly in unambiguous contexts across syntactically diverse sentences. Our dataset translates from an English source into 20 languages from several different language families. With the availability of this dataset, our hope is that the NMT community can iterate on solutions for this class of especially egregious errors.
翻訳日:2021-04-19 14:27:13 公開日:2021-04-16
# ProphetNet-X: 英語、中国語、多言語、ダイアログ、コード生成のための大規模事前学習モデル

ProphetNet-X: Large-Scale Pre-training Models for English, Chinese, Multi-lingual, Dialog, and Code Generation ( http://arxiv.org/abs/2104.08006v1 )

ライセンス: Link先を確認
Weizhen Qi, Yeyun Gong, Yu Yan, Can Xu, Bolun Yao, Bartuer Zhou, Biao Cheng, Daxin Jiang, Jiusheng Chen, Ruofei Zhang, Houqiang Li, Nan Duan(参考訳) 現在、事前学習技術は自然言語処理分野で広く使われている。 ProphetNetは、英語のテキスト要約と質問生成タスクで強力なパフォーマンスを示す、事前学習ベースの自然言語生成手法である。 本稿では, prophetnet を他のドメインや言語に拡張し, prophetnet-x と呼ばれる prophetnet ファミリー事前学習モデルを提案する。 我々は,中国語生成モデルProphetNet-Multi,中国語生成モデルProphetNet-Zh,オープンドメインダイアログ生成モデルProphetNet-Dialog-En ,ProphetNet-Dialog-Z hを事前学習する。 また, PLG (Programming Language Generation) モデル ProphetNet-Code を提供し, NLG (Natural Language Generation) タスク以外の生成性能を示す。 実験では,ProphetNet-Xモデルが10ベンチマークで新しい最先端性能を実現する。 ProphetNet-Xのすべてのモデルは同じモデル構造を共有しており、ユーザーは異なるモデルを簡単に切り替えることができる。 コードとモデルを公開し、より多くの事前トレーニングモデルと微調整スクリプトをアップデートし続けます。 ProphetNet-Xの使用法を紹介するビデオもリリースされている。

Now, the pre-training technique is ubiquitous in natural language processing field. ProphetNet is a pre-training based natural language generation method which shows powerful performance on English text summarization and question generation tasks. In this paper, we extend ProphetNet into other domains and languages, and present the ProphetNet family pre-training models, named ProphetNet-X, where X can be English, Chinese, Multi-lingual, and so on. We pre-train a cross-lingual generation model ProphetNet-Multi, a Chinese generation model ProphetNet-Zh, two open-domain dialog generation models ProphetNet-Dialog-En and ProphetNet-Dialog-Zh . And also, we provide a PLG (Programming Language Generation) model ProphetNet-Code to show the generation performance besides NLG (Natural Language Generation) tasks. In our experiments, ProphetNet-X models achieve new state-of-the-art performance on 10 benchmarks. All the models of ProphetNet-X share the same model structure, which allows users to easily switch between different models. We make the code and models publicly available, and we will keep updating more pre-training models and finetuning scripts. A video to introduce ProphetNet-X usage is also released.
翻訳日:2021-04-19 14:26:55 公開日:2021-04-16
# 半構造化文書画像におけるコスト効率のよいエンドツーエンド情報抽出

Cost-effective End-to-end Information Extraction for Semi-structured Document Images ( http://arxiv.org/abs/2104.08041v1 )

ライセンス: Link先を確認
Wonseok Hwang, Hyunji Lee, Jinyeong Yim, Geewook Kim, Minjoon Seo(参考訳) 半構造化文書画像のための実世界の情報抽出(IE)システムは、しばしば複数のモジュールからなる長いパイプラインを必要とする。 代わりに、入力をターゲット出力に直接マップし、プロセス全体を単純化するエンドツーエンドモデルを考えることができる。 しかし、このような生成アプローチは慎重に設計しなければ不安定な性能をもたらすことが知られている。 本稿では,既存のパイプラインベースのIEシステムからエンドツーエンドシステムへの移行に向けた最近の取り組みを紹介する。 文書IEをシーケンシャル生成タスクとして慎重に定式化することにより、単一エンドツーエンドのIEシステムを構築でき、しかも有能な性能を実現することができることを示す。

A real-world information extraction (IE) system for semi-structured document images often involves a long pipeline of multiple modules, whose complexity dramatically increases its development and maintenance cost. One can instead consider an end-to-end model that directly maps the input to the target output and simplify the entire process. However, such generation approach is known to lead to unstable performance if not designed carefully. Here we present our recent effort on transitioning from our existing pipeline-based IE system to an end-to-end system focusing on practical challenges that are associated with replacing and deploying the system in real, large-scale production. By carefully formulating document IE as a sequence generation task, we show that a single end-to-end IE system can be built and still achieve competent performance.
翻訳日:2021-04-19 14:26:33 公開日:2021-04-16
# ゼロショット多言語エンティティリンクの改善

Improving Zero-Shot Multi-Lingual Entity Linking ( http://arxiv.org/abs/2104.08082v1 )

ライセンス: Link先を確認
Elliot Schumacher, James Mayfield, and Mark Dredze(参考訳) エンティティリンク -- フリーテキストで関連する知識ベース表現に参照を識別するタスク -- は、しばしば単一の言語に焦点を当てる。 複数の言語における同言語知識ベースへの参照をリンクするために単一のモデルを訓練する多言語実体リンクを考える。 テキストの多言語トランスフォーマー表現を利用して,多言語設定に容易に適用可能なニューラルネットワークローダアーキテクチャを提案する。 次に、ある言語(例えば、)でトレーニングされたニューラルランサーについて調べる。 英語) 目に見えない言語(例)に移行する 一貫性はあるものの、パフォーマンスに大きな低下はない。 パフォーマンスの低下をどうやって軽減できるのか? 我々は,モデルに言語不変表現を学習させるために,敵対的な目的を加えることを検討する。 このアプローチを使用することで、いくつかのデータセットでのリコールが改善され、言語内のパフォーマンスにマッチすることが多いため、ゼロショット転送によるパフォーマンス損失が軽減される。

Entity linking -- the task of identifying references in free text to relevant knowledge base representations -- often focuses on single languages. We consider multilingual entity linking, where a single model is trained to link references to same-language knowledge bases in several languages. We propose a neural ranker architecture, which leverages multilingual transformer representations of text to be easily applied to a multilingual setting. We then explore how a neural ranker trained in one language (e.g. English) transfers to an unseen language (e.g. Chinese), and find that while there is a consistent but not large drop in performance. How can this drop in performance be alleviated? We explore adding an adversarial objective to force our model to learn language-invariant representations. We find that using this approach improves recall in several datasets, often matching the in-language performance, thus alleviating some of the performance loss occurring from zero-shot transfer.
翻訳日:2021-04-19 14:26:19 公開日:2021-04-16
# LU-BZU at SemEval-2021 Task 2: Word2Vec and Lemma2Vec Performance in Arabic Word-in-Context disambiguation (英語)

LU-BZU at SemEval-2021 Task 2: Word2Vec and Lemma2Vec performance in Arabic Word-in-Context disambiguation ( http://arxiv.org/abs/2104.08110v1 )

ライセンス: Link先を確認
Moustafa Al-Hajj, Mustafa Jarrar(参考訳) 本稿では, CBOW Word2VecモデルとLemma2Vecモデルを用いて, 感覚インベントリや感覚埋め込みを使わずに, アラビア語のWord-in-Context(WiC) 曖昧さを評価・比較する実験を行った。 WiC の曖昧さに関する SemEval-2021 Shared Task 2 の一部として,dev.ar-ar データセット (2k 文ペア) を用いて,与えられた文対に同じ意味があるかどうかを判定した。 私たちは2つのWord2Vecモデルを使用しました。Wiki-CBOWはアラビア語ウィキペディアで事前訓練されたモデルです。 2つのLemma2Vecモデルも2つのWord2Vecモデルに基づいて構築された。 4つのモデルはそれぞれWiCの曖昧化タスクで使われ、SemEval-2021 test.ar-arデータセットで評価された。 最終的に、異なるモデルの性能を報告し、レムマモデルと単語ベースモデルの比較を行った。

This paper presents a set of experiments to evaluate and compare between the performance of using CBOW Word2Vec and Lemma2Vec models for Arabic Word-in-Context (WiC) disambiguation without using sense inventories or sense embeddings. As part of the SemEval-2021 Shared Task 2 on WiC disambiguation, we used the dev.ar-ar dataset (2k sentence pairs) to decide whether two words in a given sentence pair carry the same meaning. We used two Word2Vec models: Wiki-CBOW, a pre-trained model on Arabic Wikipedia, and another model we trained on large Arabic corpora of about 3 billion tokens. Two Lemma2Vec models was also constructed based on the two Word2Vec models. Each of the four models was then used in the WiC disambiguation task, and then evaluated on the SemEval-2021 test.ar-ar dataset. At the end, we reported the performance of different models and compared between using lemma-based and word-based models.
翻訳日:2021-04-19 14:26:05 公開日:2021-04-16
# 可変長テキスト逆襲に向けて

Towards Variable-Length Textual Adversarial Attacks ( http://arxiv.org/abs/2104.08139v1 )

ライセンス: Link先を確認
Junliang Guo, Zhirui Zhang, Linlin Zhang, Linli Xu, Boxing Chen, Enhong Chen, Weihua Luo(参考訳) 敵対的攻撃は機械学習モデルの脆弱性を示しているが、データの離散性のため、自然言語処理タスクに対してテキスト的敵対的攻撃を行うことは自明ではない。 以前のアプローチのほとんどは、アトミックな \textit{replacement} 操作で攻撃を行い、これは通常、固定長の逆例をもたらし、それゆえ決定空間の探索を制限する。 本稿では,攻撃中に特別な \textit{blank}トークンを導入・操作することにより,可変長のテクストアタック~(vl-attack)を提案し,3つのアトミック操作,すなわち \textit{insertion}, \textit{deletion}, \textit{replacement}を統一したフレームワークに統合する。 このようにして、我々のアプローチは、決定境界に関する敵の事例をより包括的に見つけ、効果的に敵の攻撃を行うことができる。 具体的には、トレーニング済みのbertモデルに対して攻撃しながら、トークンを編集するだけでimdb分類の精度を9,6\%$に下げる。 さらに、生成した対向サンプルを用いて被害者モデルを微調整することで、特に長感度モデルにおいて、パフォーマンスを損なうことなくモデルの堅牢性を向上させることができる。 非回帰機械翻訳の課題において、本手法はiwslt14ドイツ語英訳において33.18ドルbleuスコアを達成でき、ベースラインモデルより1.47ドル改善できる。

Adversarial attacks have shown the vulnerability of machine learning models, however, it is non-trivial to conduct textual adversarial attacks on natural language processing tasks due to the discreteness of data. Most previous approaches conduct attacks with the atomic \textit{replacement} operation, which usually leads to fixed-length adversarial examples and therefore limits the exploration on the decision space. In this paper, we propose variable-length textual adversarial attacks~(VL-Attack) and integrate three atomic operations, namely \textit{insertion}, \textit{deletion} and \textit{replacement}, into a unified framework, by introducing and manipulating a special \textit{blank} token while attacking. In this way, our approach is able to more comprehensively find adversarial examples around the decision boundary and effectively conduct adversarial attacks. Specifically, our method drops the accuracy of IMDB classification by $96\%$ with only editing $1.3\%$ tokens while attacking a pre-trained BERT model. In addition, fine-tuning the victim model with generated adversarial samples can improve the robustness of the model without hurting the performance, especially for length-sensitive models. On the task of non-autoregressive machine translation, our method can achieve $33.18$ BLEU score on IWSLT14 German-English translation, achieving an improvement of $1.47$ over the baseline model.
翻訳日:2021-04-19 14:25:45 公開日:2021-04-16
# back to square one: winogradスキーマにおけるバイアス検出、トレーニング、コモンセンス乱れ

Back to Square One: Bias Detection, Training and Commonsense Disentanglement in the Winograd Schema ( http://arxiv.org/abs/2104.08161v1 )

ライセンス: Link先を確認
Yanai Elazar, Hongming Zhang, Yoav Goldberg, Dan Roth(参考訳) Winograd Schema (WS) はモデルの常識能力を測定するテストとして提案されている。 最近、事前訓練された言語モデルベースのアプローチによって、一部のWSベンチマークのパフォーマンスが向上した。 まず、WS の現在の評価方法が準最適であることを示し、評価にツイン文を用いる修正を提案する。 また、WSベンチマークにおけるバイアスの存在を示す2つの新しいベースラインを提案する。 最後に,WS-like文をゼロショット設定で評価する方法を提案し,この設定で一般的な言語モデルがランダムに実行されることを観察する。 WS の明らかな進歩の多くは、必ずしもコモンセンス推論の進歩を反映しているわけではないが、その大部分が教師付きデータによるもので、必要なコモンセンス推論スキルと知識をすべて考慮していない、と結論付けています。

The Winograd Schema (WS) has been proposed as a test for measuring commonsense capabilities of models. Recently, pre-trained language model-based approaches have boosted performance on some WS benchmarks but the source of improvement is still not clear. We begin by showing that the current evaluation method of WS is sub-optimal and propose a modification that makes use of twin sentences for evaluation. We also propose two new baselines that indicate the existence of biases in WS benchmarks. Finally, we propose a method for evaluating WS-like sentences in a zero-shot setting and observe that popular language models perform randomly in this setting. We conclude that much of the apparent progress on WS may not necessarily reflect progress in commonsense reasoning, but much of it comes from supervised data, which is not likely to account for all the required commonsense reasoning skills and knowledge.
翻訳日:2021-04-19 14:25:15 公開日:2021-04-16
# IndoNLG:インドネシアの自然言語生成を評価するためのベンチマークとリソース

IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural Language Generation ( http://arxiv.org/abs/2104.08200v1 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Genta Indra Winata, Bryan Wilie, Karissa Vincentio, Xiaohong Li, Adhiguna Kuncoro, Sebastian Ruder, Zhi Yuan Lim, Syafri Bahar, Masayu Leylia Khodra, Ayu Purwarianti, Pascale Fung(参考訳) ベンチマークは、標準データセットと自動および人的評価メトリクスでモデルの進歩を測定するエコシステムを提供する。 インドネシア語自然言語生成(nlg)のための最初のベンチマークであるindonlgを紹介する。 それは、要約、質問応答、オープンチチャット、および機械翻訳タスクの3つの異なる言語ペアの6つのタスクをカバーする。 インドネシア、スンダン、ジャワのデータセットであるindo4b-plusは、トレーニング済みのnlgモデルであるindobartのトレーニングに使用されています。 IndoNLGタスクを広範囲に評価することにより,IndoBARTの有効性と効率を評価する。 その結果,indobartはインドネシアのタスクにおいて,ベンチマークの最大多言語モデルであるmbart-large (liu et al., 2020) と,cpuとgpuの約4倍,2.5倍の速度で,5分の1のパラメータで性能が向上した。 IndoBARTがJavaneseとSundaneseを学習できることを実証し、機械翻訳タスクで十分なパフォーマンスを実現する。

A benchmark provides an ecosystem to measure the advancement of models with standard datasets and automatic and human evaluation metrics. We introduce IndoNLG, the first such benchmark for the Indonesian language for natural language generation (NLG). It covers six tasks: summarization, question answering, open chitchat, as well as three different language-pairs of machine translation tasks. We provide a vast and clean pre-training corpus of Indonesian, Sundanese, and Javanese datasets called Indo4B-Plus, which is used to train our pre-trained NLG model, IndoBART. We evaluate the effectiveness and efficiency of IndoBART by conducting extensive evaluation on all IndoNLG tasks. Our findings show that IndoBART achieves competitive performance on Indonesian tasks with five times fewer parameters compared to the largest multilingual model in our benchmark, mBART-LARGE (Liu et al., 2020), and an almost 4x and 2.5x faster inference time on the CPU and GPU respectively. We additionally demonstrate the ability of IndoBART to learn Javanese and Sundanese, and it achieves decent performance on machine translation tasks.
翻訳日:2021-04-19 14:25:01 公開日:2021-04-16
# 視覚テキスト表現からのロバストなオープン語彙変換

Robust Open-Vocabulary Translation from Visual Text Representations ( http://arxiv.org/abs/2104.08211v1 )

ライセンス: Link先を確認
Elizabeth Salesky, David Etter, Matt Post(参考訳) 機械翻訳モデルは離散語彙を持ち、「開語彙」を達成するためにサブワードセグメンテーション技術を用いることが多い。 このアプローチは、一貫性と正しいunicodeシーケンスに依存しており、モデルが一般的なタイプのノイズやバリエーションから劣化しやすいようにしている。 人間の言語処理の頑健さに感銘を受け、視覚的に描画されたテキストを処理して生成した連続語彙に代えて、有限組のテキスト埋め込みを不要とした視覚テキスト表現を提案する。 ビジュアルテキスト表現を用いたモデルが、クリーンTEDデータセット上でのテキストベースラインの性能と一致しているかを示す。 さらに重要なことに、視覚埋め込みのあるモデルは様々な種類のノイズに対して有意な頑健性を示しており、例えば、サブワードモデルが1.9に分解するドイツ語-英語のタスクで25.9 bleuを達成する。

Machine translation models have discrete vocabularies and commonly use subword segmentation techniques to achieve an 'open-vocabulary. 7; This approach relies on consistent and correct underlying unicode sequences, and makes models susceptible to degradation from common types of noise and variation. Motivated by the robustness of human language processing, we propose the use of visual text representations, which dispense with a finite set of text embeddings in favor of continuous vocabularies created by processing visually rendered text. We show that models using visual text representations approach or match performance of text baselines on clean TED datasets. More importantly, models with visual embeddings demonstrate significant robustness to varied types of noise, achieving e.g., 25.9 BLEU on a character permuted German--English task where subword models degrade to 1.9.
翻訳日:2021-04-19 14:24:39 公開日:2021-04-16
# 文再構成と知識ベース優先による遠隔教師付き関係抽出

Distantly Supervised Relation Extraction with Sentence Reconstruction and Knowledge Base Priors ( http://arxiv.org/abs/2104.08225v1 )

ライセンス: Link先を確認
Fenia Christopoulou, Makoto Miwa, Sophia Ananiadou(参考訳) 我々は,同じ知識ベース対を含む文の表現を近接させることにより,遠隔教師付き関係抽出を容易にする多タスク確率的手法を提案する。 これを実現するために、関係分類器と共同で訓練された変分オートエンコーダ(VAE)を用いて文の潜時空間をバイアスする。 潜在コードはペア表現を導き、文の再構築に影響を与える。 遠隔監視による2つのデータセットの実験結果から,マルチタスク学習がパフォーマンス上のメリットをもたらすことが示された。 知識ベースをVAEに導入することに関するさらなる調査により、文空間が知識ベースに移行し、解釈可能性を提供し、その結果をさらに改善できることが明らかになった。

We propose a multi-task, probabilistic approach to facilitate distantly supervised relation extraction by bringing closer the representations of sentences that contain the same Knowledge Base pairs. To achieve this, we bias the latent space of sentences via a Variational Autoencoder (VAE) that is trained jointly with a relation classifier. The latent code guides the pair representations and influences sentence reconstruction. Experimental results on two datasets created via distant supervision indicate that multi-task learning results in performance benefits. Additional exploration of employing Knowledge Base priors into the VAE reveals that the sentence space can be shifted towards that of the Knowledge Base, offering interpretability and further improving results.
翻訳日:2021-04-19 14:24:23 公開日:2021-04-16
# 対話生成モデルに対する逆学習チューリングテスト

An Adversarially-Learne d Turing Test for Dialog Generation Models ( http://arxiv.org/abs/2104.08231v1 )

ライセンス: Link先を確認
Xiang Gao, Yizhe Zhang, Michel Galley, Bill Dolan(参考訳) より良い対話評価指標の設計は、対話型AIにおける評価研究を加速する可能性を提供する。 しかし、既存の訓練可能な対話評価モデルは、通常、純粋に監督された方法で訓練された分類者に限定され、敵の攻撃(例えば、高い分類スコアを享受する非感覚的な反応)による重大なリスクを被る。 このリスクを軽減するために,人間による応答から機械による応答を識別する頑健なモデルATT(Adversarial Turing Test)の学習手法を提案する。 従来の摂動法とは対照的に,この判別器は強化学習を用いて非制限的かつ多様な逆例を反復的に生成することによって訓練される。 この制限のない敵対的訓練アプローチの鍵となる利点は、反復的な攻撃防御ゲームにおいて、判別者がロバスト性を改善することである。 識別器は,DialoGPTやGPT-3などの強力な攻撃者に対して高い精度を示す。

The design of better automated dialogue evaluation metrics offers the potential of accelerate evaluation research on conversational AI. However, existing trainable dialogue evaluation models are generally restricted to classifiers trained in a purely supervised manner, which suffer a significant risk from adversarial attacking (e.g., a nonsensical response that enjoys a high classification score). To alleviate this risk, we propose an adversarial training approach to learn a robust model, ATT (Adversarial Turing Test), that discriminates machine-generated responses from human-written replies. In contrast to previous perturbation-based methods, our discriminator is trained by iteratively generating unrestricted and diverse adversarial examples using reinforcement learning. The key benefit of this unrestricted adversarial training approach is allowing the discriminator to improve robustness in an iterative attack-defense game. Our discriminator shows high accuracy on strong attackers including DialoGPT and GPT-3.
翻訳日:2021-04-19 14:24:12 公開日:2021-04-16
# 事前トレーニングは? 中間タスク選択の効率化

What to Pre-Train on? Efficient Intermediate Task Selection ( http://arxiv.org/abs/2104.08247v1 )

ライセンス: Link先を確認
Clifton Poth, Jonas Pfeiffer, Andreas R\"uckl\'e and Iryna Gurevych(参考訳) 中間タスクの微調整は多くのNLPタスク間で大きな転送ゲインを達成している。 候補データセットと事前訓練された言語モデルが豊富にあるため、すべての組み合わせのクロスプロダクトを実行して最適な転送設定を見つけることは不可能になっている。 この研究では、まず、アダプタ設定で同様の逐次的微調整が達成できることを確認し、その後、中間転送学習に有効なタスクを効率的に特定するための提案手法を統合する。 42の中間語と11のターゲット英語分類,複数選択,質問応答,シーケンスタグ付けタスクの多種多様なセットを用いて実験を行った。 その結果,各データセットのみに依存する効率的な組込み方式が,計算コストのかかるマイナショット微調整手法よりも優れていることがわかった。 私たちの最善の方法は、すべてのターゲットタスクで平均1%未満のresult@3を達成し、中間トレーニングで最適なデータセットを効率的に識別できることを示しています。

Intermediate task fine-tuning has been shown to culminate in large transfer gains across many NLP tasks. With an abundance of candidate datasets as well as pre-trained language models, it has become infeasible to run the cross-product of all combinations to find the best transfer setting. In this work we first establish that similar sequential fine-tuning gains can be achieved in adapter settings, and subsequently consolidate previously proposed methods that efficiently identify beneficial tasks for intermediate transfer learning. We experiment with a diverse set of 42 intermediate and 11 target English classification, multiple choice, question answering, and sequence tagging tasks. Our results show that efficient embedding based methods that rely solely on the respective datasets outperform computational expensive few-shot fine-tuning approaches. Our best methods achieve an average Regret@3 of less than 1% across all target tasks, demonstrating that we are able to efficiently identify the best datasets for intermediate training.
翻訳日:2021-04-19 14:23:56 公開日:2021-04-16
# ファウショット学習のためのPareto Self-Supervised Training

Pareto Self-Supervised Training for Few-Shot Learning ( http://arxiv.org/abs/2104.07841v1 )

ライセンス: Link先を確認
Zhengyu Chen, Jixie Ge, Heshen Zhan, Siteng Huang, Donglin Wang(参考訳) 少数ショット学習(FSL)は、監督の少ない新しい概念への迅速な一般化を目的としているが、自己監督学習(SSL)は、ラベルなしデータから直接計算される監視信号を構成する。 この2つの方法の相補性を駆使して、最近、少数のラベル付きデータを扱うために、少数の補助学習が注目されている。 従来の作業は、メインタスク(FSL)と補助タスク(SSL)間で帰納バイアスを共有することの恩恵を受けており、タスクの損失の線形結合を最小限にすることでタスクの共有パラメータを最適化する。 しかし、タスクのバランスとタスクの衝突を減らすために適切な重みを選択することは困難である。 そこで本研究では,FSLのためのPSST(Pareto Self-supervised Training)という新しい手法を提案する。 psstは、マイショット補助問題を、トレードオフ選択の異なる複数の制約付き多目的部分問題に明示的に分解し、ここで、メインタスクが最高の性能を達成する選好領域を特定する。 次に,このような選好領域において最適な解の組を求めるために,有効なpareto探索を提案する。 いくつかの公開ベンチマークデータセットに対する大規模な実験は、最先端のパフォーマンスを達成することによって、我々のアプローチの有効性を検証する。

While few-shot learning (FSL) aims for rapid generalization to new concepts with little supervision, self-supervised learning (SSL) constructs supervisory signals directly computed from unlabeled data. Exploiting the complementarity of these two manners, few-shot auxiliary learning has recently drawn much attention to deal with few labeled data. Previous works benefit from sharing inductive bias between the main task (FSL) and auxiliary tasks (SSL), where the shared parameters of tasks are optimized by minimizing a linear combination of task losses. However, it is challenging to select a proper weight to balance tasks and reduce task conflict. To handle the problem as a whole, we propose a novel approach named as Pareto self-supervised training (PSST) for FSL. PSST explicitly decomposes the few-shot auxiliary problem into multiple constrained multi-objective subproblems with different trade-off preferences, and here a preference region in which the main task achieves the best performance is identified. Then, an effective preferred Pareto exploration is proposed to find a set of optimal solutions in such a preference region. Extensive experiments on several public benchmark datasets validate the effectiveness of our approach by achieving state-of-the-art performance.
翻訳日:2021-04-19 14:23:29 公開日:2021-04-16
# SSPC-Net: 半教師付きセマンティック3Dポイントクラウドセグメンテーションネットワーク

SSPC-Net: Semi-supervised Semantic 3D Point Cloud Segmentation Network ( http://arxiv.org/abs/2104.07861v1 )

ライセンス: Link先を確認
Mingmei Cheng, Le Hui, Jin Xie, Jian Yang(参考訳) ポイントクラウドセマンティックセグメンテーションは3Dシーン理解において重要なタスクである。 既存の手法は主に、教師付きセマンティックセグメンテーションに多数の注釈付きラベルを使うことに焦点を当てている。 それでも、教師付きセグメンテーションタスクのために、このような大きなポイントクラウドを手動でラベル付けするのは時間を要する。 そこで,sspc-netと呼ばれる半教師付きセマンティックポイントクラウドセグメンテーションネットワークを提案する。このネットワークでは,ラベルなしの3dポイントのラベルを推測して意味セグメンテーションネットワークを訓練する。 提案手法では,まず点群全体をスーパーポイントに分割し,点群内の長距離依存関係をマイニングするスーパーポイントグラフを構築する。 構築したスーパーポイントグラフに基づいて,教師なしスーパーポイントに対して擬似ラベルを生成する動的ラベル伝搬法を開発した。 特に,生成した擬似ラベルを動的に選択するために,スーパーポイントドロップアウト戦略を採用する。 さらに,教師なしスーパーポイントの擬似ラベルをフル活用するために,スーパーポイント機能埋め込みのための結合型アテンション機構を提案する。 最後に,教師付きスーパーポイントのラベルと教師なしスーパーポイントの擬似ラベルとのセグメンテーションネットワークをトレーニングするために,クロスエントロピー損失を用いる。 各種データセットを用いた実験により, 注釈付き3D点の少ない半教師付きセグメンテーション法よりも優れた性能が得られた。 私たちのコードはhttps://github.com/M MCheng/SSPC-Net.comで利用可能です。

Point cloud semantic segmentation is a crucial task in 3D scene understanding. Existing methods mainly focus on employing a large number of annotated labels for supervised semantic segmentation. Nonetheless, manually labeling such large point clouds for the supervised segmentation task is time-consuming. In order to reduce the number of annotated labels, we propose a semi-supervised semantic point cloud segmentation network, named SSPC-Net, where we train the semantic segmentation network by inferring the labels of unlabeled points from the few annotated 3D points. In our method, we first partition the whole point cloud into superpoints and build superpoint graphs to mine the long-range dependencies in point clouds. Based on the constructed superpoint graph, we then develop a dynamic label propagation method to generate the pseudo labels for the unsupervised superpoints. Particularly, we adopt a superpoint dropout strategy to dynamically select the generated pseudo labels. In order to fully exploit the generated pseudo labels of the unsupervised superpoints, we furthermore propose a coupled attention mechanism for superpoint feature embedding. Finally, we employ the cross-entropy loss to train the semantic segmentation network with the labels of the supervised superpoints and the pseudo labels of the unsupervised superpoints. Experiments on various datasets demonstrate that our semi-supervised segmentation method can achieve better performance than the current semi-supervised segmentation method with fewer annotated 3D points. Our code is available at https://github.com/M MCheng/SSPC-Net.
翻訳日:2021-04-19 14:23:06 公開日:2021-04-16
# Ego-Exo: 3人称から1人称に視覚表現を移す

Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos ( http://arxiv.org/abs/2104.07905v1 )

ライセンス: Link先を確認
Yanghao Li, Tushar Nagarajan, Bo Xiong, Kristen Grauman(参考訳) 本稿では,大規模3人称ビデオデータセットを用いた自己中心型映像モデルの事前学習手法を提案する。 純粋にエゴセントリックなデータから学ぶことは、低データセットのスケールと多様性によって制限されるが、純粋なエクソセントリックな(第三者)データを使用すると、大きなドメインミスマッチが発生する。 私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。 事前学習中の知識蒸留損失としてこれらの信号を組み込むことで、第三者のビデオデータのスケールと多様性の恩恵を受けるモデルと、突出したエゴセントリック特性をキャプチャする表現が得られる。 我々のEgo-Exoフレームワークは,エゴセントリックなアクティビティ認識を微調整し,Charades-Ego と EPIC-Kitchens-100 の最先端結果を達成して,すべてのベースラインを向上する。

We introduce an approach for pre-training egocentric video models using large-scale third-person video datasets. Learning from purely egocentric data is limited by low dataset scale and diversity, while using purely exocentric (third-person) data introduces a large domain mismatch. Our idea is to discover latent signals in third-person video that are predictive of key egocentric-specific properties. Incorporating these signals as knowledge distillation losses during pre-training results in models that benefit from both the scale and diversity of third-person video data, as well as representations that capture salient egocentric properties. Our experiments show that our Ego-Exo framework can be seamlessly integrated into standard video models; it outperforms all baselines when fine-tuned for egocentric activity recognition, achieving state-of-the-art results on Charades-Ego and EPIC-Kitchens-100.
翻訳日:2021-04-19 14:22:42 公開日:2021-04-16
# 深層分類器における多項式ネットワーク

Polynomial Networks in Deep Classifiers ( http://arxiv.org/abs/2104.07916v1 )

ライセンス: Link先を確認
Grigorios G Chrysos, Markos Georgopoulos, Jiankang Deng, Yannis Panagakis(参考訳) ディープニューラルネットワークは、オブジェクト認識やオーディオ認識など、分類タスクの成功の原動力となっている。 印象的な結果と一般化は、最近提案された様々なアーキテクチャによって達成されている。 本研究では,深層分類器の研究を統一的な枠組みで行った。 特に、入力の異なる次数多項式の形で最先端アーキテクチャ(残留ネットワークや非局所ネットワークなど)を表現する。 我々のフレームワークは各モデルの帰納的バイアスについての洞察を提供し、その多項式の性質に基づく自然拡張を可能にする。 提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。 提案したモデルの表現性はモデル性能の向上とモデル圧縮の両方の観点から強調される。 最後に、この分類で許される拡張は、限られたデータと長い尾のデータ分布の存在において利点を示す。 この分類法が既存のドメイン固有のアーキテクチャ間のリンクを提供することを期待している。

Deep neural networks have been the driving force behind the success in classification tasks, e.g., object and audio recognition. Impressive results and generalization have been achieved by a variety of recently proposed architectures, the majority of which are seemingly disconnected. In this work, we cast the study of deep classifiers under a unifying framework. In particular, we express state-of-the-art architectures (e.g., residual and non-local networks) in the form of different degree polynomials of the input. Our framework provides insights on the inductive biases of each model and enables natural extensions building upon their polynomial nature. The efficacy of the proposed models is evaluated on standard image and audio classification benchmarks. The expressivity of the proposed models is highlighted both in terms of increased model performance as well as model compression. Lastly, the extensions allowed by this taxonomy showcase benefits in the presence of limited data and long-tailed data distributions. We expect this taxonomy to provide links between existing domain-specific architectures.
翻訳日:2021-04-19 14:22:25 公開日:2021-04-16
# 空間構造情報と支配的特徴を用いた咬合対応視覚追跡装置

Occlusion-aware Visual Tracker using Spatial Structural Information and Dominant Features ( http://arxiv.org/abs/2104.07977v1 )

ライセンス: Link先を確認
Rongtai Caiand Peng Zhu(参考訳) 視覚追跡における咬合問題を克服するために,オクルージョンアウェアトラッキングアルゴリズムを提案する。 提案アルゴリズムは,オブジェクトの画素分布に応じて,クラスタリングによりオブジェクトを離散的なイメージパッチに分割する。 提案手法では,カラーヒストグラムや向きの傾斜方向のヒストグラムといった支配的な特徴を,これらの画像パッチから抽出し,追跡のための手がかりとして利用する。 トラッカーのロバスト性を高めるため,提案アルゴリズムはこれらのパッチ間の空間構造を追従のための別のキューとして用い,その後,提案アルゴリズムはこれらのコンポーネントを粒子フィルタフレームワークに組み込み,ロバストかつ高精度なトラッカーを実現する。 解像度の異なるカラー画像列の実験結果から,提案したトラッカーは,視線追跡におけるオクルージョン処理において,比較アルゴリズムよりも優れていた。

To overcome the problem of occlusion in visual tracking, this paper proposes an occlusion-aware tracking algorithm. The proposed algorithm divides the object into discrete image patches according to the pixel distribution of the object by means of clustering. To avoid the drifting of the tracker to false targets, the proposed algorithm extracts the dominant features, such as color histogram or histogram of oriented gradient orientation, from these image patches, and uses them as cues for tracking. To enhance the robustness of the tracker, the proposed algorithm employs an implicit spatial structure between these patches as another cue for tracking; Afterwards, the proposed algorithm incorporates these components into the particle filter framework, which results in a robust and precise tracker. Experimental results on color image sequences with different resolutions show that the proposed tracker outperforms the comparison algorithms on handling occlusion in visual tracking.
翻訳日:2021-04-19 14:22:14 公開日:2021-04-16
# 単一のrgb画像から3次元非キューブ室レイアウトを再構築する学習

Learning to Reconstruct 3D Non-Cuboid Room Layout from a Single RGB Image ( http://arxiv.org/abs/2104.07986v1 )

ライセンス: Link先を確認
Cheng Yang and Jia Zheng and Xili Dai and Rui Tang and Yi Ma and Xiaojun Yuan(参考訳) 単一画像から部屋の囲い3次元構造を再構築することを目的としている。 以前の作品のほとんどがキュボイド型である。 本稿では,室内のより一般的な仮定,すなわち1つの天井,1つの床,2つの垂直壁からなる部屋配置について考察する。 この目的のために,まず畳み込みニューラルネットワークを用いて隣接壁間の平面および垂直線を検出する。 一方,各平面の3次元パラメータを推定する。 次に, 簡易かつ効果的な幾何学的推論手法を適用し, 室内レイアウト再構成を実現する。 さらに, 3次元平面パラメータを最適化し, 平面と直線間の空間配置を幾何的に整合的に再構成する。 公開データセットにおける実験結果は,提案手法の有効性と有効性を検証する。

Single-image room layout reconstruction aims to reconstruct the enclosed 3D structure of a room from a single image. Most previous work relies on the cuboid-shape prior. This paper considers a more general indoor assumption, i.e., the room layout consists of a single ceiling, a single floor, and several vertical walls. To this end, we first employ Convolutional Neural Networks to detect planes and vertical lines between adjacent walls. Meanwhile, estimating the 3D parameters for each plane. Then, a simple yet effective geometric reasoning method is adopted to achieve room layout reconstruction. Furthermore, we optimize the 3D plane parameters to reconstruct a geometrically consistent room layout between planes and lines. The experimental results on public datasets validate the effectiveness and efficiency of our method.
翻訳日:2021-04-19 14:21:56 公開日:2021-04-16
# 自己教師付きビデオ検索トランスネットワーク

Self-supervised Video Retrieval Transformer Network ( http://arxiv.org/abs/2104.07993v1 )

ライセンス: Link先を確認
Xiangteng He, Yulin Pan, Mingqian Tang and Yiliang Lv(参考訳) コンテンツベースのビデオ検索は、あるクエリービデオに類似したり、あるいはほぼ重複している大きなビデオデータベースからの動画を見つけることを目的としている。 ビデオ検索システムでは,映像表現と類似性検索アルゴリズムが重要である。 効果的な映像表現を導出するためには、ほとんどのビデオ検索システムは、トレーニングのために大量の手動の注釈付きデータを必要とするため、コストがかかる。 さらに、ほとんどの検索システムは、ビデオ類似性検索のためのフレームレベル機能に基づいており、ストレージと検索の両面で高価である。 本稿では,上述の欠点を効果的に解決する新しいビデオ検索システムSVRTNを提案する。 まず、自己教師付きトレーニングを適用して、ラベルのないデータからビデオ表現を効果的に学習し、手動アノテーションのコストのかかるコストを回避する。 そして、トランスフォーマー構造を利用してフレームレベルの機能をクリップレベルに集約し、ストレージスペースと検索の複雑さを減らす。 クリップフレーム間の相互作用から相補的および識別的な情報を学び、フレームの置換や、より柔軟な検索方法をサポートする不変性を欠くことができる。 FIVR-200K と SVD という2つの難解なビデオ検索データセットに関する総合実験を行い,提案手法の有効性を検証した。

Content-based video retrieval aims to find videos from a large video database that are similar to or even near-duplicate of a given query video. Video representation and similarity search algorithms are crucial to any video retrieval system. To derive effective video representation, most video retrieval systems require a large amount of manually annotated data for training, making it costly inefficient. In addition, most retrieval systems are based on frame-level features for video similarity searching, making it expensive both storage wise and search wise. We propose a novel video retrieval system, termed SVRTN, that effectively addresses the above shortcomings. It first applies self-supervised training to effectively learn video representation from unlabeled data to avoid the expensive cost of manual annotation. Then, it exploits transformer structure to aggregate frame-level features into clip-level to reduce both storage space and search complexity. It can learn the complementary and discriminative information from the interactions among clip frames, as well as acquire the frame permutation and missing invariant ability to support more flexible retrieval manners. Comprehensive experiments on two challenging video retrieval datasets, namely FIVR-200K and SVD, verify the effectiveness of our proposed SVRTN method, which achieves the best performance of video retrieval on accuracy and efficiency.
翻訳日:2021-04-19 14:21:43 公開日:2021-04-16
# write-a-speaker: テキストに基づく感情的・リズミカルな話し頭生成

Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation ( http://arxiv.org/abs/2104.07995v1 )

ライセンス: Link先を確認
Lilin Cheng, Suzhe Wang, Zhimeng Zhang, Yu Ding, Yixing Zheng, Xin Yu, Changjie Fan(参考訳) 本稿では,感情や音声のリズムやポーズに応じて,高忠実な表情や頭部の動きを合成する,テキストベースの音声ヘッドビデオ生成フレームワークを提案する。 具体的には、話者に依存しないステージと話者固有のステージから構成される。 話者非依存の段階では,テキストから口,上面,頭部のアニメーションパラメータを生成する3つの並列ネットワークを個別に設計する。 話者特定段階において,異なる個人向けに調整された映像を合成するための3次元顔モデル誘導アテンションネットワークを提案する。 アニメーションパラメータを入力として、アテンションマスクを利用して入力された個人に対する表情変化を操作する。 さらに,視覚動作(表情変化や頭部の動きなど)と音声との真正な対応をよりよく確立するために,特定の人物のロングビデオに頼るのではなく,高精度なモーションキャプチャデータセットを活用する。 視覚および音声対応を達成した後、エンドツーエンドでネットワークを効果的にトレーニングすることができます。 質的および定量的な結果に対する広範囲な実験により,本アルゴリズムは音声のリズムに応じて表情や頭部の動きを含む高品質な写真リアリスティック・トーキング・ビデオを実現し,その性能に優れることを示した。

In this paper, we propose a novel text-based talking-head video generation framework that synthesizes high-fidelity facial expressions and head motions in accordance with contextual sentiments as well as speech rhythm and pauses. To be specific, our framework consists of a speaker-independent stage and a speaker-specific stage. In the speaker-independent stage, we design three parallel networks to generate animation parameters of the mouth, upper face, and head from texts, separately. In the speaker-specific stage, we present a 3D face model guided attention network to synthesize videos tailored for different individuals. It takes the animation parameters as input and exploits an attention mask to manipulate facial expression changes for the input individuals. Furthermore, to better establish authentic correspondences between visual motions (i.e., facial expression changes and head movements) and audios, we leverage a high-accuracy motion capture dataset instead of relying on long videos of specific individuals. After attaining the visual and audio correspondences, we can effectively train our network in an end-to-end fashion. Extensive experiments on qualitative and quantitative results demonstrate that our algorithm achieves high-quality photo-realistic talking-head videos including various facial expressions and head motions according to speech rhythms and outperforms the state-of-the-art.
翻訳日:2021-04-19 14:21:21 公開日:2021-04-16
# T-LEAP: 時間情報を用いた歩行牛の閉塞・腐食ポーズ推定

T-LEAP: occlusion-robust pose estimation of walking cows using temporal information ( http://arxiv.org/abs/2104.08029v1 )

ライセンス: Link先を確認
Helena Russello, Rik van der Tol, Gert Kootstra(参考訳) 乳製品農場の群れの規模が拡大するにつれて、牛の自動健康モニタリングが注目されている。 乳牛の健康障害である乳腺は、乳牛の歩行を分析して一般的に検出される。 牛の歩行は、モデルが画像やビデオの解剖学的ランドマークを自動的にローカライズすることを学ぶため、ポーズ推定モデルを使ってビデオで追跡することができる。 ほとんどの動物のポーズ推定モデルは静的であり、ビデオはフレームごとに処理され、時間的情報を使用しない。 本研究では,過去のフレームからの情報を含む時間モデルに動物候補推定のための静的深層学習モデルを拡張した。 静的ポーズ推定モデルと時間ポーズ推定モデルの比較を行った。 データは、屋外通路を歩いている30種類の乳牛のビデオ(30fps)から抽出された4つの連続したフレームの1059のサンプルから成っている。 農場の環境は閉塞しやすいため,ビデオに人工閉塞を加えることで,静的モデルと時間モデルのロバスト性を検証した。 実験の結果,非閉塞データでは,静的および時間的アプローチが正解キーポイントの割合(PCKh@0.2)が99%に達した。 隠蔽データでは, 時間的アプローチが静的なアプローチを最大32.9%上回り, 農作物などの排他的環境下でのポーズ推定に有効であることが示唆された。 テンポラルモデルの一般化能力は、未知の牛(訓練セットに存在しない牛)を含むデータを用いて評価した。 その結果、平均検出率 (pckh@0.2) は既知の牛で93.8%、未知の牛で87.6%であり、モデルが新しい牛にうまく一般化でき、新しい牛に容易に微調整できることを示した。 最後に,オクルージョンや未知の牛といった難易度の高い作業では,より深いアーキテクチャの方が有益であることを示した。

As herd size on dairy farms continue to increase, automatic health monitoring of cows has gained in interest. Lameness, a prevalent health disorder in dairy cows, is commonly detected by analyzing the gait of cows. A cow's gait can be tracked in videos using pose estimation models because models learn to automatically localize anatomical landmarks in images and videos. Most animal pose estimation models are static, that is, videos are processed frame by frame and do not use any temporal information. In this work, a static deep-learning model for animal-pose-estimati on was extended to a temporal model that includes information from past frames. We compared the performance of the static and temporal pose estimation models. The data consisted of 1059 samples of 4 consecutive frames extracted from videos (30 fps) of 30 different dairy cows walking through an outdoor passageway. As farm environments are prone to occlusions, we tested the robustness of the static and temporal models by adding artificial occlusions to the videos. The experiments showed that, on non-occluded data, both static and temporal approaches achieved a Percentage of Correct Keypoints (PCKh@0.2) of 99%. On occluded data, our temporal approach outperformed the static one by up to 32.9%, suggesting that using temporal data is beneficial for pose estimation in environments prone to occlusions, such as dairy farms. The generalization capabilities of the temporal model was evaluated by testing it on data containing unknown cows (cows not present in the training set). The results showed that the average detection rate (PCKh@0.2) was of 93.8% on known cows and 87.6% on unknown cows, indicating that the model is capable of generalizing well to new cows and that they could be easily fine-tuned to new herds. Finally, we showed that with harder tasks, such as occlusions and unknown cows, a deeper architecture was more beneficial.
翻訳日:2021-04-19 14:21:00 公開日:2021-04-16
# 周期整合予測を用いた時間的平滑なオンライン行動検出

Temporally smooth online action detection using cycle-consistent future anticipation ( http://arxiv.org/abs/2104.08030v1 )

ライセンス: Link先を確認
Young Hwi Kim, Seonghyeon Nam, and Seon Joo Kim(参考訳) 多くのビデオ理解タスクは、入力ビデオが開始から終了まで与えられると仮定してオフライン設定で動作する。 しかし、現実の多くの問題はオンライン設定を必要としており、自律運転や監視システムのようなビデオの現在のフレームと過去のフレームのみを即座に使用する。 本稿では,Funture Precipation and Temporally Smoothing Network (FATSnet) と呼ばれるシンプルなRNNベースのネットワークを用いて,オンライン行動検出の新しいソリューションを提案する。 提案するネットワークは,サイクル一貫性の喪失とともに教師なしでトレーニングできる未来を予測できるモジュールと,時間的にスムーズなフレーム・バイ・フレーム予測のために過去と未来を集約するコンポーネントから構成される。 また、非常に長いシーケンスでRNNベースのモデルを実行する際の性能損失を軽減する方法を提案する。 TVSeries, THUMOS14, BBDBによる評価の結果, 従来のオンライン行動検出法と比較して, 本手法が最先端の性能を達成することが示された。

Many video understanding tasks work in the offline setting by assuming that the input video is given from the start to the end. However, many real-world problems require the online setting, making a decision immediately using only the current and the past frames of videos such as in autonomous driving and surveillance systems. In this paper, we present a novel solution for online action detection by using a simple yet effective RNN-based networks called the Future Anticipation and Temporally Smoothing network (FATSnet). The proposed network consists of a module for anticipating the future that can be trained in an unsupervised manner with the cycle-consistency loss, and another component for aggregating the past and the future for temporally smooth frame-by-frame predictions. We also propose a solution to relieve the performance loss when running RNN-based models on very long sequences. Evaluations on TVSeries, THUMOS14, and BBDB show that our method achieve the state-of-the-art performances compared to the previous works on online action detection.
翻訳日:2021-04-19 14:20:33 公開日:2021-04-16
# screeneg: オンデバイススクリーンショットのレイアウト分析

ScreenSeg: On-Device Screenshot Layout Analysis ( http://arxiv.org/abs/2104.08052v1 )

ライセンス: Link先を確認
Manoj Goyal, Rachit S Munjal, Sukumar Moharana, Deepak Garg, Debi Prasanna Mohanty, Siva Prasad Thota(参考訳) 携帯電話などのリソース制約されたデバイス上で,スクリーンショットや文書画像の階層的レイアウト解析を行う新しいエンドツーエンドソリューションを提案する。 当社のアプローチでは,スクリーンショットで発生するGrid, Image, Text, Iconブロックなどのエンティティをセグメント化しています。 保存や共有のためのエンティティを自動的にハイライトすることで、スマート編集のオプションを提供します。 さらに、このスクリーンショットのマルチレベルレイアウト分析には、コンテンツ抽出、キーワードベースの画像検索、スタイル転送など、多くのユースケースがある。 我々は、既知のベースラインアプローチの制限に対処し、さまざまなセマンティックな複雑なスクリーンショットをサポートし、デバイス上でのデプロイメントに高度に最適化されたアプローチを開発しました。 さらに,オブジェクト提案をフィルタリングするための新しい重み付きNMS手法を提案する。 平均精度は0.95で、Samsung Galaxy S10 Deviceでは1080pの解像度で約200msのレイテンシを実現しています。 ソリューションパイプラインはすでにSamsung Deviceアプリケーションで商用化されている。 Samsung Capture、スマートクロップ、カメラアプリケーションでの私のフィルター、Bixby Touch

We propose a novel end-to-end solution that performs a Hierarchical Layout Analysis of screenshots and document images on resource constrained devices like mobilephones. Our approach segments entities like Grid, Image, Text and Icon blocks occurring in a screenshot. We provide an option for smart editing by auto highlighting these entities for saving or sharing. Further this multi-level layout analysis of screenshots has many use cases including content extraction, keyword-based image search, style transfer, etc. We have addressed the limitations of known baseline approaches, supported a wide variety of semantically complex screenshots, and developed an approach which is highly optimized for on-device deployment. In addition, we present a novel weighted NMS technique for filtering object proposals. We achieve an average precision of about 0.95 with a latency of around 200ms on Samsung Galaxy S10 Device for a screenshot of 1080p resolution. The solution pipeline is already commercialized in Samsung Device applications i.e. Samsung Capture, Smart Crop, My Filter in Camera Application, Bixby Touch.
翻訳日:2021-04-19 14:20:16 公開日:2021-04-16
# 局所認識による3次元メッシュ登録のためのピエソワイズ変換場

Locally Aware Piecewise Transformation Fields for 3D Human Mesh Registration ( http://arxiv.org/abs/2104.08160v1 )

ライセンス: Link先を確認
Shaofei Wang, Andreas Geiger, Siyu Tang(参考訳) 身なりの良い人間の点雲をパラメトリックな人間のモデルに登録することは、コンピュータビジョンにおいて難しい課題である。 従来のアプローチは、人間のポーズと面倒な後処理の正確な手動初期化を必要とする、非常にエンジニアリングされたパイプラインに依存しています。 最近では,このプロセスを自動化するために,学習に基づく手法が提案されている。 ポーズ初期化は正確な登録の鍵となるが、既存のメソッドは正確なポーズ初期化を提供しないことが多い。 1つの大きな障害は、点雲や人間の画像から関節の回転を遅らせることは、まだ非常に難しいことである。 そこで本稿では,3次元変換ベクトルを学習し,ポーズ空間における任意の問合せ点をrest-pose空間における対応する位置へマップする関数群であるptfを提案する。 PTFとマルチクラス占有ネットワークを組み合わせることで,布地空間と標準空間との間の形状と点間対応の同時予測を学習する,新しい学習ベースのフレームワークを得る。 本研究は,各問合せ点の翻訳ベクトルを局所的特徴量を用いて効果的に推定できることを示唆する。したがって,推定点対応の最小二乗フィッティングにより,ニューラルネットワークから関節回転を直接退避させる難易度を回避し,骨の変形や関節回転を効率的に得ることができる。 さらに,提案したPTFは,一般化能力を大幅に向上させ,パラメータの約半分でより正確な表面再構成を実現するため,正規化占有推定を容易にする。 定性的および定量的研究は、パラメトリックモデルにネットワークによって初期化されたポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示している。

Registering point clouds of dressed humans to parametric human models is a challenging task in computer vision. Traditional approaches often rely on heavily engineered pipelines that require accurate manual initialization of human poses and tedious post-processing. More recently, learning-based methods are proposed in hope to automate this process. We observe that pose initialization is key to accurate registration but existing methods often fail to provide accurate pose initialization. One major obstacle is that, regressing joint rotations from point clouds or images of humans is still very challenging. To this end, we propose novel piecewise transformation fields (PTF), a set of functions that learn 3D translation vectors to map any query point in posed space to its correspond position in rest-pose space. We combine PTF with multi-class occupancy networks, obtaining a novel learning-based framework that learns to simultaneously predict shape and per-point correspondences between the posed space and the canonical space for clothed human. Our key insight is that the translation vector for each query point can be effectively estimated using the point-aligned local features; consequently, rigid per bone transformations and joint rotations can be obtained efficiently via a least-square fitting given the estimated point correspondences, circumventing the challenging task of directly regressing joint rotations from neural networks. Furthermore, the proposed PTF facilitate canonicalized occupancy estimation, which greatly improves generalization capability and results in more accurate surface reconstruction with only half of the parameters compared with the state-of-the-art. Both qualitative and quantitative studies show that fitting parametric models with poses initialized by our network results in much better registration quality, especially for extreme poses.
翻訳日:2021-04-19 14:20:01 公開日:2021-04-16
# セマンティックイメージマットリング

Semantic Image Matting ( http://arxiv.org/abs/2104.08201v1 )

ライセンス: Link先を確認
Yanan Sun, Chi-Keung Tang, Yu-Wing Tai(参考訳) 自然画像マットリングは、高度に透明な物体、複雑な前景(例えば、網や木)、非常に細かい細部(例えば、毛髪)を含む物体によって引き起こされる分断的な占有において、前景と背景を区別する。 従来のマットの定式化はこれらすべてに適用できるが, 様々な前景意味論によるマットの根本原因を解明する以前の研究は行われていない。 そこで我々は, 組合わせ領域の枠組み的分類に組み込んで, より優れたアルファマットを得る方法を示す。 具体的には,20種類のマットングパターンを検討し,学習し,従来の三角マップを意味的三角マップに拡張する提案を行う。 提案するsemantic trimapは,trimap領域内のパッチ構造解析によって自動的に得られる。 一方,意味レベルでアルファ予測を正則化するマルチクラス判別器と,異なる正則化損失のバランスをとるコンテンツに敏感な重みを学習する。 複数のベンチマーク実験により,本手法は他の手法よりも優れており,最も競争力のある最先端性能を実現していることが示された。 最後に,セマンティクスクラス間のデータバランシングを慎重に考慮し,大規模セマンティクスイメージマットングデータセットをコントリビュートする。

Natural image matting separates the foreground from background in fractional occupancy which can be caused by highly transparent objects, complex foreground (e.g., net or tree), and/or objects containing very fine details (e.g., hairs). Although conventional matting formulation can be applied to all of the above cases, no previous work has attempted to reason the underlying causes of matting due to various foreground semantics. We show how to obtain better alpha mattes by incorporating into our framework semantic classification of matting regions. Specifically, we consider and learn 20 classes of matting patterns, and propose to extend the conventional trimap to semantic trimap. The proposed semantic trimap can be obtained automatically through patch structure analysis within trimap regions. Meanwhile, we learn a multi-class discriminator to regularize the alpha prediction at semantic level, and content-sensitive weights to balance different regularization losses. Experiments on multiple benchmarks show that our method outperforms other methods and has achieved the most competitive state-of-the-art performance. Finally, we contribute a large-scale Semantic Image Matting Dataset with careful consideration of data balancing across different semantic classes.
翻訳日:2021-04-19 14:19:29 公開日:2021-04-16
# MeshTalk:クロスモーダルディタングルメントを用いた音声からの3次元顔アニメーション

MeshTalk: 3D Face Animation from Speech using Cross-Modality Disentanglement ( http://arxiv.org/abs/2104.08223v1 )

ライセンス: Link先を確認
Alexander Richard, Michael Zollhoefer, Yandong Wen, Fernando de la Torre, Yaser Sheikh(参考訳) 本稿では,完全顔3dアニメーションを音声から生成する汎用的手法を提案する。 既存の音声駆動型顔アニメーションのアプローチは、不気味で静的な上面アニメーションを示し、正確で説得力に富むコアルティクスの生成に失敗し、スケーラビリティを制限した個人固有のモデルに依存している。 既存のモデルを改善するために,顔全体のリアルなモーション合成を実現する汎用的な音声駆動顔アニメーション手法を提案する。 提案手法のコアとなるのは,新たなモダリティ損失に基づいて,音声関連および音声非関連情報をアンタングルする,顔アニメーションのカテゴリー的潜在空間である。 提案手法は, 高精度な唇の動きを保証するとともに, 目まみれや目まみれの動きなど, 音声信号とは無関係な顔の部分の可視的アニメーションを合成する。 本手法は,いくつかのベースラインを上回っており,質的かつ定量的に最先端品質が得られることを示す。 認知的ユーザ調査の結果,75%以上の症例において,現在の最先端技術よりも本手法の方が現実的であることが示唆された。 https://research.fb. com/wp-content/uploa ds/2021/04/mesh_talk .mp4。

This paper presents a generic method for generating full facial 3D animation from speech. Existing approaches to audio-driven facial animation exhibit uncanny or static upper face animation, fail to produce accurate and plausible co-articulation or rely on person-specific models that limit their scalability. To improve upon existing models, we propose a generic audio-driven facial animation approach that achieves highly realistic motion synthesis results for the entire face. At the core of our approach is a categorical latent space for facial animation that disentangles audio-correlated and audio-uncorrelated information based on a novel cross-modality loss. Our approach ensures highly accurate lip motion, while also synthesizing plausible animation of the parts of the face that are uncorrelated to the audio signal, such as eye blinks and eye brow motion. We demonstrate that our approach outperforms several baselines and obtains state-of-the-art quality both qualitatively and quantitatively. A perceptual user study demonstrates that our approach is deemed more realistic than the current state-of-the-art in over 75% of cases. We recommend watching the supplemental video before reading the paper: https://research.fb. com/wp-content/uploa ds/2021/04/mesh_talk .mp4
翻訳日:2021-04-19 14:19:07 公開日:2021-04-16
# 人間服のポイントベースモデリング

Point-Based Modeling of Human Clothing ( http://arxiv.org/abs/2104.08230v1 )

ライセンス: Link先を確認
Ilya Zakharkin, Kirill Mazur, Artur Grigoriev, Victor Lempitsky(参考訳) 本稿では,ポイントクラウドに基づく衣服モデリングの新しいアプローチを提案する。 このアプローチでは,さまざまなポーズや人体形状など,さまざまな服装の点雲を予測できる深層モデルについて学習する。 特に、様々な種類やトポロジの衣装は同じモデルで扱うことができる。 学習モデルを用いて,新装束の形状をシン画像から推測し,新しいポーズで新装体への再ターゲティングを行うことができる。 我々は,ポイントクラウド幾何を幾何学的足場として用いた外観モデルを用いて幾何学モデルを補完し,ニューラルポイントベースのグラフィックを用いて映像から衣装の外観をキャプチャし,キャプチャした衣装を再レンダリングする。 提案手法に対する幾何学的モデリングと外観モデリングの両方の側面を検証し,ポイントベースの衣料品モデリングの実現可能性を確立する。

We propose a new approach to human clothing modeling based on point clouds. Within this approach, we learn a deep model that can predict point clouds of various outfits, for various human poses and for various human body shapes. Notably, outfits of various types and topologies can be handled by the same model. Using the learned model, we can infer geometry of new outfits from as little as a singe image, and perform outfit retargeting to new bodies in new poses. We complement our geometric model with appearance modeling that uses the point cloud geometry as a geometric scaffolding, and employs neural point-based graphics to capture outfit appearance from videos and to re-render the captured outfits. We validate both geometric modeling and appearance modeling aspects of the proposed approach against recently proposed methods, and establish the viability of point-based clothing modeling.
翻訳日:2021-04-19 14:18:43 公開日:2021-04-16
# Lane-Aware Diverse Trajectory PredictionのためのDivide-and-Conquer

Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction ( http://arxiv.org/abs/2104.08277v1 )

ライセンス: Link先を確認
Sriram Narayanan, Ramin Moslemi, Francesco Pittaluga, Buyu Liu, Manmohan Chandraker(参考訳) 軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールである。 我々の研究は、軌道予測、マルチモーダル出力の学習、そして運転知識を用いて制約を課すことによるより良い予測における2つの重要な課題に対処する。 近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。 しかし、これらの方法が多様な仮説を学ぶことに与える影響は、その目的が多様性の初期化に大きく依存するため、あまり研究されていない。 最初のコントリビューションとして、WTA目標に対してより良い初期化手法として機能する新しいDivide-And-Conquer(D AC)アプローチを提案する。 第2のコントリビューションは、既存の車線中心線をアンカーとして使用し、入力車線に制約のある軌道を提供するALANと呼ばれる新しい軌道予測フレームワークである。 ハイパーコラムディスクリプタを介してインタラクションをキャプチャし,ラスタ化画像とエージェント毎レーンアンカー形式でシーン情報を取り込むことにより,マルチエージェント軌道出力をフォワードパスで提供する。 合成および実データ実験により、提案したDACがデータ分布を他のWTAの目的とよく比較できることが示された。 さらに,我々のALANアプローチは,Nuscenesの都市運転ベンチマークで評価したSOTA手法と同等以上の性能を提供することを示した。

Trajectory prediction is a safety-critical tool for autonomous vehicles to plan and execute actions. Our work addresses two key challenges in trajectory prediction, learning multimodal outputs, and better predictions by imposing constraints using driving knowledge. Recent methods have achieved strong performances using Multi-Choice Learning objectives like winner-takes-all (WTA) or best-of-many. But the impact of those methods in learning diverse hypotheses is under-studied as such objectives highly depend on their initialization for diversity. As our first contribution, we propose a novel Divide-And-Conquer (DAC) approach that acts as a better initialization technique to WTA objective, resulting in diverse outputs without any spurious modes. Our second contribution is a novel trajectory prediction framework called ALAN that uses existing lane centerlines as anchors to provide trajectories constrained to the input lanes. Our framework provides multi-agent trajectory outputs in a forward pass by capturing interactions through hypercolumn descriptors and incorporating scene information in the form of rasterized images and per-agent lane anchors. Experiments on synthetic and real data show that the proposed DAC captures the data distribution better compare to other WTA family of objectives. Further, we show that our ALAN approach provides on par or better performance with SOTA methods evaluated on Nuscenes urban driving benchmark.
翻訳日:2021-04-19 14:18:28 公開日:2021-04-16
# broccoli: 軽量な語彙学習から日常の情報ダイエットへ

Broccoli: Sprinkling Lightweight Vocabulary Learning into Everyday Information Diets ( http://arxiv.org/abs/2104.07941v1 )

ライセンス: Link先を確認
Roland Aydin, Lars Klein, Arnaud Miribel, Robert West(参考訳) 新しい言語の学習は、今日まで、かなりの勤勉さと意志力、最近の進歩とツールを必要とする認知的タスクであり続けている。 本稿では,ユーザの日常的な情報ダイエットに語彙学習をシームレスに埋め込むことにより,必要な労力を削減するための新たなパラダイムであるBroccoliを提案する。 これは、ターゲット言語での翻訳のために、ユーザが遭遇した選択された単語を目立たず切り替えることによって達成される。 したがって、文脈で単語を見ることで、ユーザーは意識的な努力を伴わずに新しい語彙を同化することができる。 われわれのアプローチを慎重に研究し、軽量なブロッコリーアプローチの有効性が従来の記憶に基づく語彙学習と競合していることを見出した。 認知的オーバーヘッドの低さは、従来の学習と比較して、学習者のmnemonic learning戦略の使用率の顕著な低下に現れている。 最後に,典型的な情報ダイエットにおける言語パターンが空間的反復戦略と適合していることを確認し,ブロッコリーパラダイムの効率的な利用を可能にした。 全体として、我々の研究は、組み込み言語獲得のための新しい強力な"インストール・アンド・フォーゲット"アプローチの実現可能性を確立します。

The learning of a new language remains to this date a cognitive task that requires considerable diligence and willpower, recent advances and tools notwithstanding. In this paper, we propose Broccoli, a new paradigm aimed at reducing the required effort by seamlessly embedding vocabulary learning into users' everyday information diets. This is achieved by inconspicuously switching chosen words encountered by the user for their translation in the target language. Thus, by seeing words in context, the user can assimilate new vocabulary without much conscious effort. We validate our approach in a careful user study, finding that the efficacy of the lightweight Broccoli approach is competitive with traditional, memorization-based vocabulary learning. The low cognitive overhead is manifested in a pronounced decrease in learners' usage of mnemonic learning strategies, as compared to traditional learning. Finally, we establish that language patterns in typical information diets are compatible with spaced-repetition strategies, thus enabling an efficient use of the Broccoli paradigm. Overall, our work establishes the feasibility of a novel and powerful "install-and-forget&q uot; approach for embedded language acquisition.
翻訳日:2021-04-19 14:18:01 公開日:2021-04-16
# BERT2Code: 事前訓練された言語モデルはコード検索に利用できるか?

BERT2Code: Can Pretrained Language Models be Leveraged for Code Search? ( http://arxiv.org/abs/2104.08017v1 )

ライセンス: Link先を確認
Abdullah Al Ishtiaq, Masum Hasan, Md. Mahim Anjum Haque, Kazi Sajeed Mehrab, Tanveer Muttaqueen, Tahmid Hasan, Anindya Iqbal, Rifat Shahriyar(参考訳) 何百万もの反復的なコードスニペットが毎日コードリポジトリに提出されます。 単純な自然言語クエリを使ってこれらの大規模なコードベースから検索すると、プログラマはより簡単かつ迅速にアイデア、プロトタイプ、開発できる。 既存の手法は、自然言語記述がコードからのキーワードを含む場合、検索コードでは優れた性能を示してきたが、自然言語クエリの意味とコードの意味構造に基づく検索コードでは、まだはるかに遅れている。 近年、自然言語とプログラミング言語の研究コミュニティは、ベクトル空間にそれらを埋め込む技術を作成している。 本研究では,これらの埋め込みモデルの有効性を,セマンティックコード検索のタスクにおいて,シンプルで軽量な2層ニューラルネットワークを用いて活用する。 本モデルでは, 埋め込み空間間の固有関係を学習し, 埋め込み手法を実証的に解析することにより, 改良範囲を探索する。 本稿では,コード埋め込みモデルの品質がモデルの性能のボトルネックであることを示すとともに,この領域における研究の今後の方向性について考察する。

Millions of repetitive code snippets are submitted to code repositories every day. To search from these large codebases using simple natural language queries would allow programmers to ideate, prototype, and develop easier and faster. Although the existing methods have shown good performance in searching codes when the natural language description contains keywords from the code, they are still far behind in searching codes based on the semantic meaning of the natural language query and semantic structure of the code. In recent years, both natural language and programming language research communities have created techniques to embed them in vector spaces. In this work, we leverage the efficacy of these embedding models using a simple, lightweight 2-layer neural network in the task of semantic code search. We show that our model learns the inherent relationship between the embedding spaces and further probes into the scope of improvement by empirically analyzing the embedding methods. In this analysis, we show that the quality of the code embedding model is the bottleneck for our model's performance, and discuss future directions of study in this area.
翻訳日:2021-04-19 14:17:41 公開日:2021-04-16
# 引用は意見ではない:コーパス言語学的アプローチによる引用の作り方

Citations are not opinions: a corpus linguistics approach to understanding how citations are made ( http://arxiv.org/abs/2104.08087v1 )

ライセンス: Link先を確認
Domenic Rosati(参考訳) 引用内容分析は、引用を行う際に使用される言語に基づいて引用を理解することを目指す。 引用内容分析における重要な問題は、引用の意図と機能を理解する目的で、引用の異なるクラスを特徴付ける言語構造を探すことである。 従来の研究は、まず言語特徴のモデル化に重点を置いており、分類タスクやアノテーション間の合意に基づく引用関数の各クラス固有の言語構造に関する結論を導いた。 本研究は,事前分類された引用コーパスの大規模なサンプルから始まり,発声スマート引用データセットの各クラスから200万の引用(引用のサポート,発言,言及)を抽出し,そのコーパス言語学を分析し,各種類の引用に属する固有かつ統計的に有意な言語構造を明らかにする。 各引用型の比較表を作成することで、引用型を特徴付ける興味深い言語特徴を多数提示する。 引用コロケーション内では、引用タイプと感情の間には、非常に低い相関関係があることが分かりました。 さらに, 引用の主観性はクラスをまたがって非常に低いことが判明した。 これらの結果から,コロケート感情は引用関数の予測因子ではなく,その主観性が低いため,先行する引用感情分析文献において暗黙の認識形態が不適切であることが示唆された。 代わりに、2つの主張がどのように比較されているかを理解することによって、引用型を説明することができるクレーム作成装置として、引用をよりよく理解することができることを示唆する。 このアプローチを提示することにより、引用コーパスを用いたより堅牢な引用理論を導出する引用に関する類似のコーパス言語研究のインスピレーションを期待する。

Citation content analysis seeks to understand citations based on the language used during the making of a citation. A key issue in citation content analysis is looking for linguistic structures that characterize distinct classes of citations for the purposes of understanding the intent and function of a citation. Previous works have focused on modeling linguistic features first and drawn conclusions on the language structures unique to each class of citation function based on the performance of a classification task or inter-annotator agreement. In this study, we start with a large sample of a pre-classified citation corpus, 2 million citations from each class of the scite Smart Citation dataset (supporting, disputing, and mentioning citations), and analyze its corpus linguistics in order to reveal the unique and statistically significant language structures belonging to each type of citation. By generating comparison tables for each citation type we present a number of interesting linguistic features that uniquely characterize citation type. What we find is that within citation collocates, there is very low correlation between citation type and sentiment. Additionally, we find that the subjectivity of citation collocates across classes is very low. These findings suggest that the sentiment of collocates is not a predictor of citation function and that due to their low subjectivity, an opinion-expressing mode of understanding citations, implicit in previous citation sentiment analysis literature, is inappropriate. Instead, we suggest that citations can be better understood as claims-making devices where the citation type can be explained by understanding how two claims are being compared. By presenting this approach, we hope to inspire similar corpus linguistic studies on citations that derive a more robust theory of citation from an empirical basis using citation corpora
翻訳日:2021-04-19 14:17:24 公開日:2021-04-16
# あなたの言語モデルは、Dense Representation Fine-tuningの準備が整っているか?

Is Your Language Model Ready for Dense Representation Fine-tuning? ( http://arxiv.org/abs/2104.08253v1 )

ライセンス: Link先を確認
Luyu Gao, Jamie Callan(参考訳) 事前訓練された言語モデル (LM) はテキスト表現エンコーダとなった。 以前の研究では、ディープlmsを使用して、文や節などのテキストシーケンスを単一の高密度ベクトル表現にエンコードした。 これらの密表現は、効率的なテキスト比較と埋め込みベースの検索に使われている。 しかし、密度の高いエンコーダは低い資源環境に苦しむ。 この問題を解決するために多くの技術が開発されている。 彼らの成功にもかかわらず、なぜそうなるのかはあまり分かっていない。 本論文は, 最適化準備性(Optimization Readiness) という, 微調整における高密度表現による知識の公開が, LMの即応性に起因していることを示す。 この理論を検証するために,Transformer LMをベースとした一般的な事前学習アーキテクチャであるCondenserを提案する。 コンデンサの微調整により,小型および騒音トレーニングセットの性能が大幅に向上することを示す。

Pre-trained language models (LM) have become go-to text representation encoders. Prior research used deep LMs to encode text sequences such as sentences and passages into single dense vector representations. These dense representations have been used in efficient text comparison and embedding-based retrieval. However, dense encoders suffer in low resource situations. Many techniques have been developed to solve this problem. Despite their success, not much is known about why this happens. This paper shows that one cause lies in the readiness of the LM to expose its knowledge through dense representation in fine-tuning, which we term Optimization Readiness. To validate the theory, we present Condenser, a general pre-training architecture based on Transformer LMs, to improve dense optimization readiness. We show that fine-tuning from Condenser significantly improves performance for small and/or noisy training sets.
翻訳日:2021-04-19 14:16:52 公開日:2021-04-16
# ほとんど通信のない分散TD(0)

Distributed TD(0) with Almost No Communication ( http://arxiv.org/abs/2104.07855v1 )

ライセンス: Link先を確認
Rui Liu and Alex Olshevsky(参考訳) 線形関数近似を用いた分散td(0)の新しい非漸近解析法を提案する。 我々のアプローチは"ワンショット平均化"に依存しており、$N$エージェントはTD(0)のローカルコピーを実行し、最後に1回だけ結果を平均する。 エージェントが観察可能な環境と相互作用し、その遷移がすべてのアクションに依存している場合(グローバルステートモデルと呼ぶ)と、各エージェントが同じマルコフ決定プロセスのローカルコピーを実行する場合(ローカルステートモデルと呼ぶ)の2つのモデルを考える。 大域状態モデルでは,分散一発平均化法の収束速度が既知の td(0) の収束率と一致することを示す。 対照的に、以前の文献における最良の収束率は、最悪の場合、非分散バージョンがエージェント数で$n$という値で$o(n^3)$の低値を示した。 局所状態モデルでは、分散プロセスの収束時間がTD(0)の収束時間よりもN$の係数である線形時間高速化現象のバージョンを示す。 認識している限り、これは時間差法に対する並列性からの利点を厳格に示す最初の結果である。

We provide a new non-asymptotic analysis of distributed TD(0) with linear function approximation. Our approach relies on "one-shot averaging," where $N$ agents run local copies of TD(0) and average the outcomes only once at the very end. We consider two models: one in which the agents interact with an environment they can observe and whose transitions depends on all of their actions (which we call the global state model), and one in which each agent can run a local copy of an identical Markov Decision Process, which we call the local state model. In the global state model, we show that the convergence rate of our distributed one-shot averaging method matches the known convergence rate of TD(0). By contrast, the best convergence rate in the previous literature showed a rate which, in the worst case, underperformed the non-distributed version by $O(N^3)$ in terms of the number of agents $N$. In the local state model, we demonstrate a version of the linear time speedup phenomenon, where the convergence time of the distributed process is a factor of $N$ faster than the convergence time of TD(0). As far as we are aware, this is the first result rigorously showing benefits from parallelism for temporal difference methods.
翻訳日:2021-04-19 14:16:17 公開日:2021-04-16
# fedcom: フェデレーション学習のためのデータコミットメントを用いたビザンチンロバスト局所モデル集約ルール

FedCom: A Byzantine-Robust Local Model Aggregation Rule Using Data Commitment for Federated Learning ( http://arxiv.org/abs/2104.08020v1 )

ライセンス: Link先を確認
Bo Zhao, Peng Sun, Liming Fang, Tao Wang, Keyu Jiang(参考訳) フェデレーテッド・ラーニング(Federated Learning, FL)は、複数のクライアント(すなわち労働者)がプライベートトレーニングデータを開示することなく、協調的に統計モデルのトレーニングを行うことのできる、プライバシー保護の有望な分散機械学習手法である。 ローカライズされたデータの特徴と、未検査のオンデバイストレーニングプロセスのため、ビザンティンの労働者がデータ中毒やモデル中毒を発生させ、モデルの性能が著しく低下したり、モデルが収束しないようにする可能性がある。 既存のByzantine-robust FLスキームのほとんどは、いくつかの高度な毒殺攻撃に対して効果がないか、あるいはFLで引き起こされる公的な検証データセットを集中化する必要がある。 さらに、我々の知る限り、既存のビザンチン・ロバスト分散学習手法では、クライアント間で非独立性およびIdentically分散(Non-IID)データにその力を発揮できない。 これらの課題に対処するため,我々は,実践的な非IIDデータ分割の下で,データ中毒とモデル中毒耐性FLの両面を達成できる暗号のコミットメントを取り入れた,ビザンチン・ロバスト連邦学習フレームワークであるFedComを提案する。 具体的には、FedComでは、各クライアントがまずローカルなトレーニングデータ配信にコミットする必要がある。 次に、異なるクライアントが提出したコミットメントのうち、Wasserstein距離を比較して有毒なデータセットを同定する。 さらに,各局所モデルの振る舞いを対応するデータコミットメントに基づいてテストすることにより,異常な局所モデル更新と良性モデル更新を区別する。 我々はFedComの広範な性能評価を行う。 その結果, 実用的非IIDデータ分布下での典型的データ中毒やモデル中毒に対する防御において, 最先端のビザンチン・ロバスト方式と比較して, 有効性と優れた性能を示した。

Federated learning (FL) is a promising privacy-preserving distributed machine learning methodology that allows multiple clients (i.e., workers) to collaboratively train statistical models without disclosing private training data. Due to the characteristics of data remaining localized and the uninspected on-device training process, there may exist Byzantine workers launching data poisoning and model poisoning attacks, which would seriously deteriorate model performance or prevent the model from convergence. Most of the existing Byzantine-robust FL schemes are either ineffective against several advanced poisoning attacks or need to centralize a public validation dataset, which is intractable in FL. Moreover, to the best of our knowledge, none of the existing Byzantine-robust distributed learning methods could well exert its power in Non-Independent and Identically distributed (Non-IID) data among clients. To address these issues, we propose FedCom, a novel Byzantine-robust federated learning framework by incorporating the idea of commitment from cryptography, which could achieve both data poisoning and model poisoning tolerant FL under practical Non-IID data partitions. Specifically, in FedCom, each client is first required to make a commitment to its local training data distribution. Then, we identify poisoned datasets by comparing the Wasserstein distance among commitments submitted by different clients. Furthermore, we distinguish abnormal local model updates from benign ones by testing each local model's behavior on its corresponding data commitment. We conduct an extensive performance evaluation of FedCom. The results demonstrate its effectiveness and superior performance compared to the state-of-the-art Byzantine-robust schemes in defending against typical data poisoning and model poisoning attacks under practical Non-IID data distributions.
翻訳日:2021-04-19 14:15:56 公開日:2021-04-16
# MEG:ディープグラフネットワークのための分子対事実説明の生成

MEG: Generating Molecular Counterfactual Explanations for Deep Graph Networks ( http://arxiv.org/abs/2104.08060v1 )

ライセンス: Link先を確認
Danilo Numeroso, Davide Bacciu(参考訳) 説明可能なAI(XAI)は、信頼性を高め、不透明な機械学習技術の隠れたメカニズムを啓蒙することを目的とした研究分野である。 このようなモデルが化学領域に適用される場合、例えば薬理学における毒性分析など、人間の健康に潜在的影響がある場合、これはますます重要になる。 本稿では,分子特性予測 t asks の文脈において,深層グラフネットワークの説明可能性に取り組むための新しい手法 meg ( molecular description generator) を提案する。 我々は, 構造的類似度が高く, 予測特性の異なる(有意)化合物の形で, 特定の予測に対する情報的反実的説明を生成する。 訓練されたDGNを前提として、強化学習に基づくジェネレータを訓練し、対実的な説明を出力する。 それぞれのステップで、MEGは現在の候補をDGNにフィードし、予測を収集し、RLエージェントに報酬を与えて探索を誘導する。 さらに,分子を有効状態に保つ作用のみを保持するために,エージェントの作用空間を制限する。 モデルが非MLの専門家に分子の近傍に焦点を絞った学習モデルに関する重要な洞察を伝達する方法を示す結果について議論する。

Explainable AI (XAI) is a research area whose objective is to increase trustworthiness and to enlighten the hidden mechanism of opaque machine learning techniques. This becomes increasingly important in case such models are applied to the chemistry domain, for its potential impact on humans' health, e.g, toxicity analysis in pharmacology. In this paper, we present a novel approach to tackle explainability of deep graph networks in the context of molecule property prediction t asks, named MEG (Molecular Explanation Generator). We generate informative counterfactual explanations for a specific prediction under the form of (valid) compounds with high structural similarity and different predicted properties. Given a trained DGN, we train a reinforcement learning based generator to output counterfactual explanations. At each step, MEG feeds the current candidate counterfactual into the DGN, collects the prediction and uses it to reward the RL agent to guide the exploration. Furthermore, we restrict the action space of the agent in order to only keep actions that maintain the molecule in a valid state. We discuss the results showing how the model can convey non-ML experts with key insights into the learning model focus in the neighbourhood of a molecule.
翻訳日:2021-04-19 14:15:22 公開日:2021-04-16
# ハイパーリレーショナル知識グラフ補完の改善

Improving Hyper-Relational Knowledge Graph Completion ( http://arxiv.org/abs/2104.08167v1 )

ライセンス: Link先を確認
Donghan Yu and Yiming Yang(参考訳) 事実が実体関係性三重項として表される伝統的な知識グラフ(KGs)とは異なり、超関係性三重項(HKGs)は三重項を付加的な関係性ペア(すなわち等化子)と関連付けてより複雑な情報を伝えることを可能にする。 HKG完了のような予測タスクに対する三重項修飾子関係を効果的かつ効率的にモデル化する方法は、研究にとってオープンな課題である。 本稿では,(1)計算量の多いグラフニューラルネットワークモジュールを軽量なエンティティ/リレーショナル埋め込み処理に置き換え,効果を犠牲にすることなく効率を向上させること,(2)hkg補完における予測能力を高めるための修飾子指向の補助訓練タスクを追加すること,の2つの新しい改訂点を紹介する。 提案手法は3つのベンチマークデータセットでSTAREを一貫して上回り、計算効率は大幅に向上した。

Different from traditional knowledge graphs (KGs) where facts are represented as entity-relation-enti ty triplets, hyper-relational KGs (HKGs) allow triplets to be associated with additional relation-entity pairs (a.k.a qualifiers) to convey more complex information. How to effectively and efficiently model the triplet-qualifier relationship for prediction tasks such as HKG completion is an open challenge for research. This paper proposes to improve the best-performing method in HKG completion, namely STARE, by introducing two novel revisions: (1) Replacing the computation-heavy graph neural network module with light-weight entity/relation embedding processing techniques for efficiency improvement without sacrificing effectiveness; (2) Adding a qualifier-oriented auxiliary training task for boosting the prediction power of our approach on HKG completion. The proposed approach consistently outperforms STARE in our experiments on three benchmark datasets, with significantly improved computational efficiency.
翻訳日:2021-04-19 14:15:04 公開日:2021-04-16
# 確率的生産スケジューリングのための強化学習手法の標準化に向けて

Towards Standardizing Reinforcement Learning Approaches for Stochastic Production Scheduling ( http://arxiv.org/abs/2104.08196v1 )

ライセンス: Link先を確認
Alexandru Rinciog and Anne Meyer(参考訳) 近年、複雑度が異なるプロダクションスケジューリング問題に対して、機械学習、特に強化学習(rl)の利用への関心が高まっている。 一般に、スケジューリング問題をマルコフ決定プロセス(MDP)に分解し、MDPを実装したシミュレーションを用いてRLエージェントを訓練する。 既存の研究は、コードが利用できない複雑なシミュレーションに依存しているため、提示された実験は困難であり、確率環境の場合、正確に再現することは不可能である。 さらに、選択すべきRL設計も数多く存在する。 RLメソッドを製品スケジューリングに広く適用し、業界にとっての強みを追求するためには、モデル記述の標準化(プロダクション設定とRL設計の両方)と検証スキームが必須である。 まず、確立された命名法に基づいて、RL研究で使用される生産環境の記述を標準化する。 次に、既存の出版物からRLの設計選択を分類する。 最後に,再現性と十分なベンチマークに着目した検証手法を提案する。

Recent years have seen a rise in interest in terms of using machine learning, particularly reinforcement learning (RL), for production scheduling problems of varying degrees of complexity. The general approach is to break down the scheduling problem into a Markov Decision Process (MDP), whereupon a simulation implementing the MDP is used to train an RL agent. Since existing studies rely on (sometimes) complex simulations for which the code is unavailable, the experiments presented are hard, or, in the case of stochastic environments, impossible to reproduce accurately. Furthermore, there is a vast array of RL designs to choose from. To make RL methods widely applicable in production scheduling and work out their strength for the industry, the standardization of model descriptions - both production setup and RL design - and validation scheme are a prerequisite. Our contribution is threefold: First, we standardize the description of production setups used in RL studies based on established nomenclature. Secondly, we classify RL design choices from existing publications. Lastly, we propose recommendations for a validation scheme focusing on reproducibility and sufficient benchmarking.
翻訳日:2021-04-19 14:14:42 公開日:2021-04-16
# 行動木と関連するアーキテクチャの表現性階層

An expressiveness hierarchy of Behavior Trees and related architectures ( http://arxiv.org/abs/2104.07919v1 )

ライセンス: Link先を確認
Oliver Biggar, Mohammad Zamani, Iman Shames(参考訳) 本稿では,行動木(bts)の表現力と他の行動選択アーキテクチャとの比較を行うための形式的枠組みを提案する。 構造プログラミング方法論の類似比較から着想を得て、「表現性」の概念を定式化する。 これにより、bts、決定木(dts)、テレオ反応性プログラム(trs)、有限状態機械(fsms)を含む制御アーキテクチャの表現性階層が実現される。 補助変数と無変数を区別することにより,可読性と表現性の間のbt設計におけるトレードオフの存在を実証する。 BTが実際にどのような意味を持つのかを議論する。

In this paper we provide a formal framework for comparing the expressive power of Behavior Trees (BTs) to other action selection architectures. Taking inspiration from the analogous comparisons of structural programming methodologies, we formalise the concept of `expressiveness'. This leads us to an expressiveness hierarchy of control architectures, which includes BTs, Decision Trees (DTs), Teleo-reactive Programs (TRs) and Finite State Machines (FSMs). By distinguishing between BTs with auxiliary variables and those without, we demonstrate the existence of a trade-off in BT design between readability and expressiveness. We discuss what this means for BTs in practice.
翻訳日:2021-04-19 14:14:25 公開日:2021-04-16
# トピックトレースのためのファジィクラスタ遷移のモデリング

Modeling Fuzzy Cluster Transitions for Topic Tracing ( http://arxiv.org/abs/2104.08258v1 )

ライセンス: Link先を確認
Xiaonan Jing, Yi Zhang, Qingyuan Hu, Julia Taylor Rayz(参考訳) twitterは自然言語処理(nlp)タスクのためのデータソースと見なすことができる。 twitterのデータストリームを継続的に更新することは、リアルタイムのトピックの進化を追跡するのが難しくなる。 本稿では,トピッククラスタのファジィ遷移をモデル化するためのフレームワークを提案する。 我々は、フレームワークが識別する基盤構造を強化するため、ファジィロジックを組み込むことで、クリスプクラスタトランジションに関する以前の作業を拡張します。 この手法を,ツイートから生成した名詞のクラスタと人間のツイートアノテーションの両方に適用する。 得られたファジィ遷移は、コンピュータ生成クラスタと人間のラベル付きトピックセットの両方において、クリプス遷移と比較される。

Twitter can be viewed as a data source for Natural Language Processing (NLP) tasks. The continuously updating data streams on Twitter make it challenging to trace real-time topic evolution. In this paper, we propose a framework for modeling fuzzy transitions of topic clusters. We extend our previous work on crisp cluster transitions by incorporating fuzzy logic in order to enrich the underlying structures identified by the framework. We apply the methodology to both computer generated clusters of nouns from tweets and human tweet annotations. The obtained fuzzy transitions are compared with the crisp transitions, on both computer generated clusters and human labeled topic sets.
翻訳日:2021-04-19 14:14:13 公開日:2021-04-16
# gcnsに基づく病理組織学wsiエンコーディングによる診断関連領域のスケーラブルかつ効率的な検索

Histopathology WSI Encoding based on GCNs for Scalable and Efficient Retrieval of Diagnostically Relevant Regions ( http://arxiv.org/abs/2104.07878v1 )

ライセンス: Link先を確認
Yushan Zheng, Zhiguo Jiang, Haopeng Zhang, Fengying Xie, Jun Shi, Chenghai Xue(参考訳) 近年,病理組織学的画像解析の分野では,cbhir(content-based histopathological image retrieval)が普及している。 CBHIR システムは,既設データベースから関心領域 (ROI) に類似した領域を検索,返却することにより,病理医に補助診断情報を提供する。 一方,病理組織学的全スライド画像(WSI)からなるデータベースから診断関連領域を検索するための臨床応用は困難であり,かつ重要である。 本稿では,階層型グラフ畳み込みネットワーク(GCN)とハッシュ手法に基づく,WSIデータベースからの領域検索のための新しいフレームワークを提案する。 現在のCBHIRフレームワークと比較して、WSIの構造情報はGCNのグラフ埋め込みによって保存されるため、組織分布に類似した領域に対してより敏感である。 さらに、階層的なGCN構造から恩恵を受け、提案フレームワークはROIのサイズと形状の変化の両方に優れたスケーラビリティを有する。 病理学者は組織の出現に応じて自由曲線を用いて問合せ領域を定義することができる。 第3に、フレームワークが効率的で、実用的な大規模wsiデータベースに適するように、ハッシュ技術に基づいて検索を行う。 提案法を病理組織学的wsi解析のための2つの公開データセットで検証し,最新法と比較した。 提案手法は, acdc-lunghpデータセットでは0.857以上, 不規則領域検索タスクではcamlyon16データセットでは0.864以上, 最先端手法よりも優れる平均精度を達成した。 120 WSIs 内のデータベースからの平均検索時間は 0.802 ms である。

Content-based histopathological image retrieval (CBHIR) has become popular in recent years in the domain of histopathological image analysis. CBHIR systems provide auxiliary diagnosis information for pathologists by searching for and returning regions that are contently similar to the region of interest (ROI) from a pre-established database. While, it is challenging and yet significant in clinical applications to retrieve diagnostically relevant regions from a database that consists of histopathological whole slide images (WSIs) for a query ROI. In this paper, we propose a novel framework for regions retrieval from WSI-database based on hierarchical graph convolutional networks (GCNs) and Hash technique. Compared to the present CBHIR framework, the structural information of WSI is preserved through graph embedding of GCNs, which makes the retrieval framework more sensitive to regions that are similar in tissue distribution. Moreover, benefited from the hierarchical GCN structures, the proposed framework has good scalability for both the size and shape variation of ROIs. It allows the pathologist defining query regions using free curves according to the appearance of tissue. Thirdly, the retrieval is achieved based on Hash technique, which ensures the framework is efficient and thereby adequate for practical large-scale WSI-database. The proposed method was validated on two public datasets for histopathological WSI analysis and compared to the state-of-the-art methods. The proposed method achieved mean average precision above 0.857 on the ACDC-LungHP dataset and above 0.864 on the Camelyon16 dataset in the irregular region retrieval tasks, which are superior to the state-of-the-art methods. The average retrieval time from a database within 120 WSIs is 0.802 ms.
翻訳日:2021-04-19 14:13:32 公開日:2021-04-16
# 臨床データウェアハウスにおける脳T1強調磁気共鳴画像の自動品質制御

Automatic quality control of brain T1-weighted magnetic resonance images for a clinical data warehouse ( http://arxiv.org/abs/2104.08131v1 )

ライセンス: Link先を確認
Simona Bottani, Ninon Burgos, Aur\'elien Maire, Adam Wild, Sebastian Str\"oer, Didier Dormont, Olivier Colliot(参考訳) コンピュータ支援診断のための機械学習(ML)の研究は、これまで多くが高品質の研究データに限られてきた。 臨床データウェアハウスは、病院から定期的な検査を集め、現実的な環境でMLモデルのトレーニングと検証を行うための素晴らしい約束を提供する。 しかし、そのような臨床データウェアハウスの使用には品質管理(QC)ツールが必要である。 専門家によるビジュアルQCは時間がかかり、大規模なデータセットにスケールしない。 本稿では,大規模異種臨床データウェアハウスにおける3d t1強調脳mriの自動qcのための畳み込みニューラルネットワーク(cnn)を提案する。 そのため,大パリ地域の病院のデータウェアハウス(アシスタンス・プブリック=h\^opitaux de paris [ap-hp])を用いた。 具体的には, 1) 適切なT1強調脳MRI画像の同定, 2) ガドリニウムを注入した画像の取得, 3) 画像の全体的な品質を評価することであった。 トレーニングと検証には5000画像、テストには500画像の別セットを使用しました。 cnnのトレーニングと検証を行うため、データはデータウェアハウスの設定に特別に設計されたビジュアルqcプロトコルに従って、2つのトレーニングされたレートラーによってアノテートされました。 目的1と目的2において,本手法はヒトラッカーと同様の精度(バランス精度とF1スコアのテキストグレーター90\%)を達成できた。 objective 3では、パフォーマンスは良好だが、人間よりもかなり低かった。 それにもかかわらず、自動的なアプローチは(精度のバランスとf1-score \textgreater 80\%)低品質の画像を正確に識別した。 全体としては,医療画像計算における病院データウェアハウスの利用に有用である。

Many studies on machine learning (ML) for computer-aided diagnosis have so far been mostly restricted to high-quality research data. Clinical data warehouses, gathering routine examinations from hospitals, offer great promises for training and validation of ML models in a realistic setting. However, the use of such clinical data warehouses requires quality control (QC) tools. Visual QC by experts is time-consuming and does not scale to large datasets. In this paper, we propose a convolutional neural network (CNN) for the automatic QC of 3D T1-weighted brain MRI for a large heterogeneous clinical data warehouse. To that purpose, we used the data warehouse of the hospitals of the Greater Paris area (Assistance Publique-H\^opitaux de Paris [AP-HP]). Specifically, the objectives were: 1) to identify images which are not proper T1-weighted brain MRIs; 2) to identify acquisitions for which gadolinium was injected; 3) to rate the overall image quality. We used 5000 images for training and validation and a separate set of 500 images for testing. In order to train/validate the CNN, the data were annotated by two trained raters according to a visual QC protocol that we specifically designed for application in the setting of a data warehouse. For objectives 1 and 2, our approach achieved excellent accuracy (balanced accuracy and F1-score \textgreater 90\%), similar to the human raters. For objective 3, the performance was good but substantially lower than that of human raters. Nevertheless, the automatic approach accurately identified (balanced accuracy and F1-score \textgreater 80\%) low quality images, which would typically need to be excluded. Overall, our approach shall be useful for exploiting hospital data warehouses in medical image computing.
翻訳日:2021-04-19 14:13:06 公開日:2021-04-16
# 帰属ネットワークにおけるホップ数に基づく自己教師付き異常検出

Hop-Count Based Self-Supervised Anomaly Detection on Attributed Networks ( http://arxiv.org/abs/2104.07917v1 )

ライセンス: Link先を確認
Tianjin Huang, Yulong Pei, Vlado Menkovski and Mykola Pechenizkiy(参考訳) 近年,研究と実践の両面での重要性から,属性ネットワーク上の異常検出問題への関心が高まっている。 この問題を解決するために様々なアプローチが提案されているが、(1)教師なしのアプローチは通常、監督信号の欠如によりより効果的に動作せず、(2)既存の異常検出手法では、ローカルな文脈情報のみを使用して異常なノード(例えば、1つか2つのホップ情報)を検出するが、グローバルな文脈情報を無視している。 異常ノードは構造や属性の正常ノードと異なるため、異常ノードと隣接ノードとの間の距離は、異常ノードと正常ノードを接続するエッジを除去した場合、正常ノードと隣接ノードとの間の距離よりも大きいことが直感的である。 したがって、グローバル情報とローカル情報の両方に基づくホップカウントは、異常の指標として機能することができる。 この直感により,局所的およびグローバルな文脈情報の両方をモデル化し,異常を検出するホップカウントベースモデル(HCM)を提案する。 ホップ数を異常同定に利用するために,ホップ数予測を自己教師付きタスクとして用いることを提案する。 hcmモデルによるホップカウント予測に基づく2つの異常スコアを設計し,異常を同定した。 さらに,ベイズ学習を用いてhcmモデルの学習を行い,学習パラメータの不確かさを把握し,過フィッティングを回避する。 実世界帰属ネットワークに関する広範な実験により,提案手法が異常検出に有効であることが示された。

Recent years have witnessed an upsurge of interest in the problem of anomaly detection on attributed networks due to its importance in both research and practice. Although various approaches have been proposed to solve this problem, two major limitations exist: (1) unsupervised approaches usually work much less efficiently due to the lack of supervisory signal, and (2) existing anomaly detection methods only use local contextual information to detect anomalous nodes, e.g., one- or two-hop information, but ignore the global contextual information. Since anomalous nodes differ from normal nodes in structures and attributes, it is intuitive that the distance between anomalous nodes and their neighbors should be larger than that between normal nodes and their neighbors if we remove the edges connecting anomalous and normal nodes. Thus, hop counts based on both global and local contextual information can be served as the indicators of anomaly. Motivated by this intuition, we propose a hop-count based model (HCM) to detect anomalies by modeling both local and global contextual information. To make better use of hop counts for anomaly identification, we propose to use hop counts prediction as a self-supervised task. We design two anomaly scores based on the hop counts prediction via HCM model to identify anomalies. Besides, we employ Bayesian learning to train HCM model for capturing uncertainty in learned parameters and avoiding overfitting. Extensive experiments on real-world attributed networks demonstrate that our proposed model is effective in anomaly detection.
翻訳日:2021-04-19 14:12:11 公開日:2021-04-16
# MT-Opt: スケールでの連続マルチタスクロボット強化学習

MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale ( http://arxiv.org/abs/2104.08212v1 )

ライセンス: Link先を確認
Dmitry Kalashnikov, Jacob Varley, Yevgen Chebotar, Benjamin Swanson, Rico Jonschkowski, Chelsea Finn, Sergey Levine, Karol Hausman(参考訳) 汎用ロボットシステムは、さまざまなスキルの大規模なレパートリーを習得し、日々のタスクに役立てなければならない。 強化学習は個人の行動を取得するための強力な枠組みを提供する一方で、各スキルを習得するのに必要な時間は、RLダウンティングで訓練されたジェネラリストロボットの見通しである。 本稿では,大規模集団ロボット学習システムにおいて,タスク間の探索,経験,表現の共有により,行動のレパートリーを同時取得する方法について検討する。 このフレームワークでは、以前の学習したタスクから新しいタスクを継続的にインスタンス化し、システム全体のパフォーマンスと能力を改善することができる。 このシステムをインスタンス化するために,ユーザが提供する望ましい結果の例を通して新たなタスクを特定するためのスケーラブルで直感的なフレームワークを開発し,複数のタスクの経験を同時に収集するデータ収集のためのマルチロボット集合学習システムを考案し,MT-Optと呼ぶスケーラブルで汎用的なマルチタスク深層強化学習手法を開発した。 mt-optが、セマンティックピッキング(例えば、特定のカテゴリからオブジェクトを選択する)、さまざまなフィクスチャ(例えば、皿に食べ物を置く)、カバー、調整、再配置など、幅広いスキルを学べる様子を実証する。 我々は,7つのロボットから収集したデータを用いて,実世界の12のタスクをトレーニングし,評価し,構造的に類似した新しいタスクに一般化する能力と,過去の経験を生かしてより迅速な新たなタスクの獲得能力の両方の観点から,システムの性能を実証する。 ビデオはhttps://karolhausman .github.io/mt-opt/で見ることをお勧めします。

General-purpose robotic systems must master a large repertoire of diverse skills to be useful in a range of daily tasks. While reinforcement learning provides a powerful framework for acquiring individual behaviors, the time needed to acquire each skill makes the prospect of a generalist robot trained with RL daunting. In this paper, we study how a large-scale collective robotic learning system can acquire a repertoire of behaviors simultaneously, sharing exploration, experience, and representations across tasks. In this framework new tasks can be continuously instantiated from previously learned tasks improving overall performance and capabilities of the system. To instantiate this system, we develop a scalable and intuitive framework for specifying new tasks through user-provided examples of desired outcomes, devise a multi-robot collective learning system for data collection that simultaneously collects experience for multiple tasks, and develop a scalable and generalizable multi-task deep reinforcement learning method, which we call MT-Opt. We demonstrate how MT-Opt can learn a wide range of skills, including semantic picking (i.e., picking an object from a particular category), placing into various fixtures (e.g., placing a food item onto a plate), covering, aligning, and rearranging. We train and evaluate our system on a set of 12 real-world tasks with data collected from 7 robots, and demonstrate the performance of our system both in terms of its ability to generalize to structurally similar new tasks, and acquire distinct new tasks more quickly by leveraging past experience. We recommend viewing the videos at https://karolhausman .github.io/mt-opt/
翻訳日:2021-04-19 14:11:44 公開日:2021-04-16
# 回帰問題の巧みな予測を識別するための制御された回避ニューラルネットワーク

Controlled abstention neural networks for identifying skillful predictions for regression problems ( http://arxiv.org/abs/2104.08236v1 )

ライセンス: Link先を確認
Elizabeth A. Barnes and Randal J. Barnes(参考訳) 地球系は、非常に複雑で、しばしばカオス的であり、予測は信じられないほど困難である。 その代わり、システムの特定の状態を探し、他の状態よりも予測可能な振る舞いをもたらし、しばしば「機会の予測」と呼ばれる。 これらの機会がない場合、科学者は「私は知らない」と言うことができる予測システムが必要です。 我々は、ニューラルネットワークが回帰問題に対する機会予測を識別できる新しい損失関数「アテンション損失」を導入する。 禁忌損失は、ネットワークの予測に不確実性を取り入れて、信頼性の低いサンプルと(例えば"I don't know")より確実なサンプルを識別する。 禁忌損失は、最適禁忌率、またはPIDコントローラを介してユーザ定義の禁忌率を決定するように設計されている。 トレーニング後のニューラルネットワーク予測に不確実性を加える多くの方法とは異なり、トレーニング中に禁忌損失を適用して、より確実なサンプルから優先的に学習する。 吸収損失は標準的なコンピュータ科学の方法に基づいている。 標準手法は, 回帰問題に不確かさを組み込むための, 単純かつ強力なツールである一方, 吸収損失は, 合成気候のユースケースにおいて, より標準的な方法よりも優れていることを示す。 提案する損失関数の実装は回帰のために設計されたほとんどのネットワークアーキテクチャにおいて単純であり、出力層と損失関数の変更のみを必要とする。

The earth system is exceedingly complex and often chaotic in nature, making prediction incredibly challenging: we cannot expect to make perfect predictions all of the time. Instead, we look for specific states of the system that lead to more predictable behavior than others, often termed "forecasts of opportunity". When these opportunities are not present, scientists need prediction systems that are capable of saying "I don't know." We introduce a novel loss function, termed "abstention loss", that allows neural networks to identify forecasts of opportunity for regression problems. The abstention loss works by incorporating uncertainty in the network's prediction to identify the more confident samples and abstain (say "I don't know") on the less confident samples. The abstention loss is designed to determine the optimal abstention fraction, or abstain on a user-defined fraction via a PID controller. Unlike many methods for attaching uncertainty to neural network predictions post-training, the abstention loss is applied during training to preferentially learn from the more confident samples. The abstention loss is built upon a standard computer science method. While the standard approach is itself a simple yet powerful tool for incorporating uncertainty in regression problems, we demonstrate that the abstention loss outperforms this more standard method for the synthetic climate use cases explored here. The implementation of proposed loss function is straightforward in most network architectures designed for regression, as it only requires modification of the output layer and loss function.
翻訳日:2021-04-19 14:11:16 公開日:2021-04-16
# SARS-CoV-2ペプチドの繰り返しニューラルネットワークによる主要組織適合性複合体への結合予測

Predicting the Binding of SARS-CoV-2 Peptides to the Major Histocompatibility Complex with Recurrent Neural Networks ( http://arxiv.org/abs/2104.08237v1 )

ライセンス: Link先を確認
Johanna Vielhaben, Markus Wenzel, Eva Weicken, Nils Strodthoff(参考訳) 機械学習による主要組織適合性複合体へのウイルスペプチドの結合を予測することは、ワクチン開発のための計算免疫学ツールキットを拡張する可能性がある。 本研究では,最近提案された,繰り返しニューラルネットワークに基づく概念的にシンプルな予測アルゴリズムであるUSMPepを適応・拡張する。 特に,定性的に異なるデータソースから回帰器(結合親和性データ)と分類器(質量分析データ)を組み合わせて,より包括的な予測ツールを得る。 我々は最近リリースされたSARS-CoV-2データセットの性能評価を行った。 usmpepは選択された1つのアレルに新しいベンチマークを設定するだけでなく、一貫して最もパフォーマンスの高い方法の1つであることが判明した。

Predicting the binding of viral peptides to the major histocompatibility complex with machine learning can potentially extend the computational immunology toolkit for vaccine development, and serve as a key component in the fight against a pandemic. In this work, we adapt and extend USMPep, a recently proposed, conceptually simple prediction algorithm based on recurrent neural networks. Most notably, we combine regressors (binding affinity data) and classifiers (mass spectrometry data) from qualitatively different data sources to obtain a more comprehensive prediction tool. We evaluate the performance on a recently released SARS-CoV-2 dataset with binding stability measurements. USMPep not only sets new benchmarks on selected single alleles, but consistently turns out to be among the best-performing methods or, for some metrics, to be even the overall best-performing method for this task.
翻訳日:2021-04-19 14:10:50 公開日:2021-04-16
# 暗黙的表面からの符号付き距離関数計算

Signed Distance Function Computation from an Implicit Surface ( http://arxiv.org/abs/2104.08057v1 )

ライセンス: Link先を確認
Pierre-Alain Fayolle(参考訳) 本稿では,暗黙的面を符号付き距離関数(sdf)に変換しながら,暗黙的面のゼロレベル集合を正確に保存する手法について述べる。 提案手法は、SDFを特徴付ける損失関数を最小限に抑えるためにトレーニングされたニューラルネットワークの最終層に入力を暗黙に埋め込むことに依存する。

We describe in this short note a technique to convert an implicit surface into a Signed Distance Function (SDF) while exactly preserving the zero level-set of the implicit. The proposed approach relies on embedding the input implicit in the final layer of a neural network, which is trained to minimize a loss function characterizing the SDF.
翻訳日:2021-04-19 14:10:36 公開日:2021-04-16
# SGL: 計測によるスペクトルグラフ学習

SGL: Spectral Graph Learning from Measurements ( http://arxiv.org/abs/2104.07867v1 )

ライセンス: Link先を確認
Zhuo Feng(参考訳) この研究は、ノード電圧や電流などの線形測定で抵抗ネットワークを学習するための高度にスケーラブルなスペクトルグラフ密度化フレームワークを導入する。 我々は、O(\log N)$対の電圧と電流の測定を与えられた場合、グラフ上の有効抵抗距離を適切に保存できる超スパースな$N$ノード抵抗ネットワークを復元できることを示した。 また、学習したグラフは元のグラフの構造(スペクトル)特性を保ち、多くの回路設計や最適化タスクで利用することができる。 提案するグラフ学習手法は,ラプラシアン的精度行列を用いた古典的グラフィカルラッソ問題の解法と等価であることを示す。 様々な実世界のテストケースに対する広範な実験を通して,提案手法は,ソリューションの品質を犠牲にすることなく,超スパースレジストネットワークを学習するために非常にスケーラブルであることを示す。

This work introduces a highly scalable spectral graph densification framework for learning resistor networks with linear measurements, such as node voltages and currents. We prove that given $O(\log N)$ pairs of voltage and current measurements, it is possible to recover ultra-sparse $N$-node resistor networks which can well preserve the effective resistance distances on the graph. Also, the learned graphs preserve the structural (spectral) properties of the original graph, which can potentially be leveraged in many circuit design and optimization tasks. We show that the proposed graph learning approach is equivalent to solving the classical graphical Lasso problems with Laplacian-like precision matrices. Through extensive experiments for a variety of real-world test cases, we show that the proposed approach is highly scalable for learning ultra-sparse resistor networks without sacrificing solution quality.
翻訳日:2021-04-19 14:09:41 公開日:2021-04-16
# noisecur:2コスト予算行列完全化のためのアルゴリズム

NoisyCUR: An algorithm for two-cost budgeted matrix completion ( http://arxiv.org/abs/2104.08026v1 )

ライセンス: Link先を確認
Dong Hu, Alex Gittens, and Malik Magdon-Ismail(参考訳) matrix completionは、機械学習とデータ分析のユビキタスなツールだ。 この領域のほとんどの研究は、正確な低位近似を得るために必要な観測数に焦点を当てている。 しかし実際には、観測のコストは重要な制限要因であり、実験者はノイズvsコストのトレードオフが異なる複数の観測モードを持つことができる。 本論文は, 行列完了の制約を考慮し, 予算を課し, 実験者の目標は, 正確な低ランク近似を再現するために, この予算を2つのサンプリングモダリティに割り当てることである。 具体的には,低騒音,個別エントリの高コスト観測,高ノイズ観測,柱全体の低コスト観測が可能であることを考察する。 この設定のための回帰ベースの補完アルゴリズムを導入し、合成データと実データの両方に対するアプローチの性能を実験的に検証する。 予算が低ければ、我々のアルゴリズムは標準完了アルゴリズムより優れている。 予算が高ければ、我々のアルゴリズムは標準核ノルム補完アルゴリズムに匹敵する誤差を持ち、計算労力をはるかに少なくする。

Matrix completion is a ubiquitous tool in machine learning and data analysis. Most work in this area has focused on the number of observations necessary to obtain an accurate low-rank approximation. In practice, however, the cost of observations is an important limiting factor, and experimentalists may have on hand multiple modes of observation with differing noise-vs-cost trade-offs. This paper considers matrix completion subject to such constraints: a budget is imposed and the experimentalist' ;s goal is to allocate this budget between two sampling modalities in order to recover an accurate low-rank approximation. Specifically, we consider that it is possible to obtain low noise, high cost observations of individual entries or high noise, low cost observations of entire columns. We introduce a regression-based completion algorithm for this setting and experimentally verify the performance of our approach on both synthetic and real data sets. When the budget is low, our algorithm outperforms standard completion algorithms. When the budget is high, our algorithm has comparable error to standard nuclear norm completion algorithms and requires much less computational effort.
翻訳日:2021-04-19 14:09:24 公開日:2021-04-16
# Split Learningがワイヤレスリモートモニタリングと予測のためのKoopman理論を発表

Split Learning Meets Koopman Theory for Wireless Remote Monitoring and Prediction ( http://arxiv.org/abs/2104.08109v1 )

ライセンス: Link先を確認
Abanoub M. Girgis, Hyowoon Seo, Jihong Park, Mehdi Bennis, and Jinho Choi(参考訳) リモートドローンコントロールから遠隔手術までの5Gアプリケーションを実現する上で、ワイヤレスによるリモート状態監視は重要な役割を果たす。 重要な課題の1つは、大きな次元状態を持つ非線形のシステムダイナミクスを特定することである。 この問題を回避するため、本稿では、エンコーダとデコーダをそれぞれ状態センサとリモートオブザーバに分割して保存するオートエンコーダを訓練することを提案する。 このオートエンコーダは、状態表現次元を小さくすることでリモート監視ペイロードサイズを縮小するだけでなく、クープマン演算子を介して持ち上げてシステムダイナミクスを学習することで、トレーニング収束後の将来の状態をローカルに予測できるようにする。 非線形なカートポール環境下での数値実験の結果,提案するkoopmanオートエンコーダの分割学習により,将来の状態を局所的に予測でき,予測精度は表現次元と伝送パワーで向上する。

Remote state monitoring over wireless is envisaged to play a pivotal role in enabling beyond 5G applications ranging from remote drone control to remote surgery. One key challenge is to identify the system dynamics that is non-linear with a large dimensional state. To obviate this issue, in this article we propose to train an autoencoder whose encoder and decoder are split and stored at a state sensor and its remote observer, respectively. This autoencoder not only decreases the remote monitoring payload size by reducing the state representation dimension, but also learns the system dynamics by lifting it via a Koopman operator, thereby allowing the observer to locally predict future states after training convergence. Numerical results under a non-linear cart-pole environment demonstrate that the proposed split learning of a Koopman autoencoder can locally predict future states, and the prediction accuracy increases with the representation dimension and transmission power.
翻訳日:2021-04-19 14:09:06 公開日:2021-04-16
# 制御障壁関数を用いたモデルベース強化学習における安全な探索

Safe Exploration in Model-based Reinforcement Learning using Control Barrier Functions ( http://arxiv.org/abs/2104.08171v1 )

ライセンス: Link先を確認
Max H. Cohen and Calin Belta(参考訳) 本稿では,制御障壁関数 (CBF) として表現される安全制約に従いながら,無限水平最適問題の値関数をオンライン学習するための近似動的プログラミング (ADP) フレームワークの開発について検討する。 Lyapunov-like CBFs(Lyapunov-like CBFs)と呼ばれる新しいCBFsの開発が促進され,CBFsの安全性が保たれるとともに,好適な半定性などのLyapunov-likeの品質も確保できる。 モデルに基づく強化学習環境において,これらのLCBFが,安全性を保証するために学習ベースの制御ポリシーを強化するためにどのように使用できるかを示す。 提案手法は,本手法よりもより一般的な安全性の制約を,様々な数値例を通して処理できることを実証する。

This paper studies the problem of developing an approximate dynamic programming (ADP) framework for learning online the value function of an infinite-horizon optimal problem while obeying safety constraints expressed as control barrier functions (CBFs). Our approach is facilitated by the development of a novel class of CBFs, termed Lyapunov-like CBFs (LCBFs), that retain the beneficial properties of CBFs for developing minimally-invasive safe control policies while also possessing desirable Lyapunov-like qualities such as positive semi-definiteness. We show how these LCBFs can be used to augment a learning-based control policy so as to guarantee safety and then leverage this approach to develop a safe exploration framework in a model-based reinforcement learning setting. We demonstrate that our developed approach can handle more general safety constraints than state-of-the-art safe ADP methods through a variety of numerical examples.
翻訳日:2021-04-19 14:08:48 公開日:2021-04-16
# 一致不確かさを考慮した適応ロバストモデル予測制御

Adaptive Robust Model Predictive Control with Matched and Unmatched Uncertainty ( http://arxiv.org/abs/2104.08261v1 )

ライセンス: Link先を確認
Rohan Sinha, James Harrison, Spencer M. Richards, Marco Pavone(参考訳) 非線形力学成分を付加的に線形とする離散時間系の力学における大きな不確実性を扱う学習ベースのロバスト予測制御アルゴリズムを提案する。 このようなシステムは通常、未知の環境の非線形効果を名目システム上でモデル化する。 従来の学習に基づく予測制御アルゴリズムでは,大規模な不確実性が存在する場合の安全性保証が得られないため,従来の適応制御法に先立ち,一定の等価な「推定」制御法に着想を得た,新しい非線形フィードバックポリシーのクラスを最適化することにより,大幅な性能向上を実現している。 従来のロバスト適応型mpcの研究とは対照的に、これは関数近似によってオンラインで学習される事前未知ダイナミクスの構造を利用することができる。 また, 非線形適応制御法を, 加法的な不確かさ関数をダイナミクスから直接取り消すことができない場合でも, 状態制約や入力制約のあるシステムにも拡張する。 さらに,本手法では,確率の高い持続的制約満足度を通じて,システムの安全性を証明するために,現代の統計的推定手法を適用することができる。 本手法は, シミュレーション例を用いて, 従来の手法よりも大きな未知項を動的に考えることができることを示す。

We propose a learning-based robust predictive control algorithm that can handle large uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear dynamics component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. Motivated by an inability of existing learning-based predictive control algorithms to achieve safety guarantees in the presence of uncertainties of large magnitude in this setting, we achieve significant performance improvements by optimizing over a novel class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel& quot; control laws pioneered in classical adaptive control. In contrast with previous work in robust adaptive MPC, this allows us to take advantage of the structure in the a priori unknown dynamics that are learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when an additive uncertain function cannot directly be canceled from the dynamics. Moreover, our approach allows us to apply contemporary statistical estimation techniques to certify the safety of the system through persistent constraint satisfaction with high probability. We show that our method allows us to consider larger unknown terms in the dynamics than existing methods through simulated examples.
翻訳日:2021-04-19 14:08:31 公開日:2021-04-16
# (参考訳) DistGNN: 大規模グラフニューラルネットワークのためのスケーラブルな分散トレーニング [全文訳有]

DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks ( http://arxiv.org/abs/2104.06700v3 )

ライセンス: CC BY 4.0
Vasimuddin Md, Sanchit Misra, Guixiang Ma, Ramanarayan Mohanty, Evangelos Georganas, Alexander Heinecke, Dhiraj Kalamkar, Nesreen K. Ahmed, Sasikanth Avancha(参考訳) グラフニューラルネットワーク(GNN)による大規模グラフの構造を学ぶためのフルバッチトレーニングは、数百の計算ノードにスケールする必要がある重要な問題である。 単一の計算ノードにおける大きなメモリ容量と帯域幅の要求と、複数のノードにわたる高い通信量のため、これは難しい。 本稿では,効率的な共有メモリ実装によるcpuクラスタのフルバッチトレーニングのためによく知られたディープグラフライブラリ(dgl)を最適化するdistgnn,最小頂点カットグラフ分割アルゴリズムを用いた通信削減,遅延更新アルゴリズムのファミリを用いた通信回避を提案する。 Reddit, OGB-Products, OGB-Papers, Proteinsの4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップを示し、128のCPUソケットを使用して最大97倍のスピードアップを実現した。

Full-batch training on Graph Neural Networks (GNN) to learn the structure of large graphs is a critical problem that needs to scale to hundreds of compute nodes to be feasible. It is challenging due to large memory capacity and bandwidth requirements on a single compute node and high communication volumes across multiple nodes. In this paper, we present DistGNN that optimizes the well-known Deep Graph Library (DGL) for full-batch training on CPU clusters via an efficient shared memory implementation, communication reduction using a minimum vertex-cut graph partitioning algorithm and communication avoidance using a family of delayed-update algorithms. Our results on four common GNN benchmark datasets: Reddit, OGB-Products, OGB-Papers and Proteins, show up to 3.7x speed-up using a single CPU socket and up to 97x speed-up using 128 CPU sockets, respectively, over baseline DGL implementations running on a single CPU socket
翻訳日:2021-04-19 11:57:44 公開日:2021-04-16
# (参考訳) 教師なし文字レベル分布マッチングを用いたクロスドメイン音声認識 [全文訳有]

Cross-domain Speech Recognition with Unsupervised Character-level Distribution Matching ( http://arxiv.org/abs/2104.07491v2 )

ライセンス: CC BY 4.0
Wenxin Hou, Jindong Wang, Xu Tan, Tao Qin, Takahiro Shinozaki(参考訳) エンドツーエンド自動音声認識(ASR)は,大規模学習データを用いて有望な性能を実現する。 しかし、トレーニングデータとテストデータのドメインミスマッチは、しばしば認識精度の低下につながることが知られている。 本研究では,ASRの教師なし領域適応に着目し,文字レベルの分布マッチング手法であるCMatchを提案する。 まず、各文字に属する特徴のラベルを得るために、コネクショニスト時間分類(CTC)擬似ラベルを用いてフレームレベルのラベル割り当てを行う。 そして,最大平均差を用いてキャラクタレベル分布をマッチングする。 自己学習技術を用いてアルゴリズムを訓練する。 Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。 また,フレームレベルラベル割り当てとトランスフォーマティブ適応の異なる戦略を包括的に分析した。

End-to-end automatic speech recognition (ASR) can achieve promising performance with large-scale training data. However, it is known that domain mismatch between training and testing data often leads to a degradation of recognition accuracy. In this work, we focus on the unsupervised domain adaptation for ASR and propose CMatch, a Character-level distribution matching method to perform fine-grained adaptation between each character in two domains. First, to obtain labels for the features belonging to each character, we achieve frame-level label assignment using the Connectionist Temporal Classification (CTC) pseudo labels. Then, we match the character-level distributions using Maximum Mean Discrepancy. We train our algorithm using the self-training technique. Experiments on the Libri-Adapt dataset show that our proposed approach achieves 14.39% and 16.50% relative Word Error Rate (WER) reduction on both cross-device and cross-environment ASR. We also comprehensively analyze the different strategies for frame-level label assignment and Transformer adaptations.
翻訳日:2021-04-19 11:36:17 公開日:2021-04-16
# 混合時間領域適応によるアクションセグメンテーション

Action Segmentation with Mixed Temporal Domain Adaptation ( http://arxiv.org/abs/2104.07461v2 )

ライセンス: Link先を確認
Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib(参考訳) アクションセグメンテーションの主な進歩は、教師付き学習のための濃密な注釈付きデータである。 フレームレベルのアクションに対する手動アノテーションは時間を要するため、ドメイン適応(DA)問題としてこの問題を定式化することで、より容易に取得可能な、非ラベル付き動画の補助的利用を提案する。 近年,様々なDA手法が提案されているが,そのほとんどは空間方向のみに開発されている。 そこで本稿では,フレームレベルとビデオレベルの組込み特徴空間を協調的に整列する混合時間領域適応(mtda)を提案し,さらに,フレームレベルの特徴をより高いドメインの相違に合わせることに焦点を当てたドメインアテンション機構と統合することで,より効果的なドメイン適応を実現する。 最後に、提案手法を3つの挑戦的データセット(GTEA、50Salads、Breakfast)で評価し、MTDAが3つのデータセットの現在の最先端メソッドよりも大きなマージン(例えば、Breakfast)で優れていることを検証する。 F1@50で6.4%、GTEAで6.8%)。

The main progress for action segmentation comes from densely-annotated data for fully-supervised learning. Since manual annotation for frame-level actions is time-consuming and challenging, we propose to exploit auxiliary unlabeled videos, which are much easier to obtain, by shaping this problem as a domain adaptation (DA) problem. Although various DA techniques have been proposed in recent years, most of them have been developed only for the spatial direction. Therefore, we propose Mixed Temporal Domain Adaptation (MTDA) to jointly align frame- and video-level embedded feature spaces across domains, and further integrate with the domain attention mechanism to focus on aligning the frame-level features with higher domain discrepancy, leading to more effective domain adaptation. Finally, we evaluate our proposed methods on three challenging datasets (GTEA, 50Salads, and Breakfast), and validate that MTDA outperforms the current state-of-the-art methods on all three datasets by large margins (e.g. 6.4% gain on F1@50 and 6.8% gain on the edit score for GTEA).
翻訳日:2021-04-19 10:52:43 公開日:2021-04-16
# 文簡易化における自動評価の再検討

Rethinking Automatic Evaluation in Sentence Simplification ( http://arxiv.org/abs/2104.07560v2 )

ライセンス: Link先を確認
Thomas Scialom, Louis Martin, Jacopo Staiano, \'Eric Villemonte de la Clergerie, Beno\^it Sagot(参考訳) 自動評価は自然言語生成におけるオープンリサーチの課題である。 文の単純化という文脈では、これは特に難しい。タスクは自然に複雑な単語を同じ意味を持つ単純な単語に置き換えることを必要とする。 これにより、BLEUのようなn-gramベースのメトリクスの有効性が制限される。 NLGの最近の進歩と並行して、BERTScore for Machine Translationのような新しいメトリクスが提案されている。 要約において、QuestEvalメトリックは2つのテキストを質問して自動的に比較することを提案する。 本稿では,まず,文の簡略化に取り組むことを可能にするクエステバルの簡単な修正を提案する。 次に、相関関係 w.r.t を広範囲に評価する。 最近のBERTScoreやQuestEvalなど、いくつかのメトリクスに対する人間の判断は、後者が最先端の相関を得ており、BLEUやSARIのような標準メトリクスよりも優れていることを示している。 さらに重要なことは、相関の大部分が実際にはすべての指標に拍車をかけることを示しています。 この現象をさらに調査するため、評価された単純化の新たなコーパスを公開し、今回はシステムによってではなく、人間によって書かれた。 これにより、スプリアス相関を取り除き、元の相関とは全く異なる結論を導き、その結果、これらのメトリクスをよりよく理解することができます。 特に、従来のメトリクスのほとんどに対して、非常に低い相関関係に関する懸念を提起します。 以上の結果から, 意味保存の唯一の重要な尺度は, 課題適応であることがわかった。

Automatic evaluation remains an open research question in Natural Language Generation. In the context of Sentence Simplification, this is particularly challenging: the task requires by nature to replace complex words with simpler ones that shares the same meaning. This limits the effectiveness of n-gram based metrics like BLEU. Going hand in hand with the recent advances in NLG, new metrics have been proposed, such as BERTScore for Machine Translation. In summarization, the QuestEval metric proposes to automatically compare two texts by questioning them. In this paper, we first propose a simple modification of QuestEval allowing it to tackle Sentence Simplification. We then extensively evaluate the correlations w.r.t. human judgement for several metrics including the recent BERTScore and QuestEval, and show that the latter obtain state-of-the-art correlations, outperforming standard metrics like BLEU and SARI. More importantly, we also show that a large part of the correlations are actually spurious for all the metrics. To investigate this phenomenon further, we release a new corpus of evaluated simplifications, this time not generated by systems but instead, written by humans. This allows us to remove the spurious correlations and draw very different conclusions from the original ones, resulting in a better understanding of these metrics. In particular, we raise concerns about very low correlations for most of traditional metrics. Our results show that the only significant measure of the Meaning Preservation is our adaptation of QuestEval.
翻訳日:2021-04-19 10:52:21 公開日:2021-04-16