このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210913となっている論文です。

PDF登録状況(公開日: 20210913)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 因果モデルにおける隠れ基数制限 [全文訳有]

Restricted Hidden Cardinality Constraints in Causal Models ( http://arxiv.org/abs/2109.05656v1 )

ライセンス: CC BY 4.0
Beata Zjawin, Elie Wolfe, Robert W. Spekkens(参考訳) 観測されていない変数を持つ因果モデルは、観測された変数上の分布に非自明な制約を課す。 2つの変数の共通の原因が観測されない場合、モデルについて追加の仮定をすることなく、それらの間の因果関係を明らかにすることは不可能である。 この研究では、観測されていない変数が基数を知っていることを約束する因果モデルを考える。 このようなモデルにおけるd分離による不等式制約を導出する。 さらに、この結果を利用して量子システムを含むモデルにおける因果影響を研究する可能性についても検討する。

Causal models with unobserved variables impose nontrivial constraints on the distributions over the observed variables. When a common cause of two variables is unobserved, it is impossible to uncover the causal relation between them without making additional assumptions about the model. In this work, we consider causal models with a promise that unobserved variables have known cardinalities. We derive inequality constraints implied by d-separation in such models. Moreover, we explore the possibility of leveraging this result to study causal influence in models that involve quantum systems.
翻訳日:2021-10-17 17:09:04 公開日:2021-09-13
# ロバスト・マルチドメイン・ミトーシス検出法

Robust Multi-Domain Mitosis Detection ( http://arxiv.org/abs/2109.15092v1 )

ライセンス: Link先を確認
Mustaffa Hussain, Ritesh Gangnani and Sasidhar Kadiyala(参考訳) ドメイン可変性は、様々な医学応用のための一般化可能なアルゴリズムを開発する上で、一般的なボトルネックである。 医用画像の領域変動がある程度コンパクトであるという観察に動機づけられ,非ペア画像から画像への変換(cyclegan)により対象特徴空間を学習することを提案する。 提案手法と分類法を用いて,ミトーシス検出への変換を利用して,性能と有用性を総合的に評価した。 本研究は,MIDOGチャレンジのベースラインとして開発された,シンプルだが効果的な多段階的図形検出アルゴリズムを提案する。 予備テストセットでは、アルゴリズムはf1スコアを0.52とする。

Domain variability is a common bottle neck in developing generalisable algorithms for various medical applications. Motivated by the observation that the domain variability of the medical images is to some extent compact, we propose to learn a target representative feature space through unpaired image to image translation (CycleGAN). We comprehensively evaluate the performanceand usefulness by utilising the transformation to mitosis detection with candidate proposal and classification. This work presents a simple yet effective multi-step mitotic figure detection algorithm developed as a baseline for the MIDOG challenge. On the preliminary test set, the algorithm scoresan F1 score of 0.52.
翻訳日:2021-10-03 10:38:47 公開日:2021-09-13
# (参考訳) コンテキストモーションネットワークによる画像の自動マッチング [全文訳有]

Automatic Portrait Video Matting via Context Motion Network ( http://arxiv.org/abs/2109.04598v2 )

ライセンス: CC BY 4.0
Qiqi Hou, Charlie Wang(参考訳) 自動ポートレート・ビデオ・マッティングは制約の少ない問題である。 ほとんどの最先端の手法は意味情報のみを利用して各フレームを個別に処理する。 フレーム間の時間情報の欠如により、パフォーマンスが損なわれる。 この問題を解決するために,意味情報と動き情報を利用するコンテキストモーションネットワークを提案する。 動き情報を取り込むために,光学フローを推定し,フレーム間の特徴を反復的に統合するコンテキスト・モーション更新演算子を設計する。 実験の結果,我々のネットワークはビデオ240K SDデータセットにおいて,最先端のマッチング手法よりも優れていた。

Automatic portrait video matting is an under-constrained problem. Most state-of-the-art methods only exploit the semantic information and process each frame individually. Their performance is compromised due to the lack of temporal information between the frames. To solve this problem, we propose the context motion network to leverage semantic information and motion information. To capture the motion information, we estimate the optical flow and design a context-motion updating operator to integrate features between frames recurrently. Our experiments show that our network outperforms state-of-the-art matting methods significantly on the Video240K SD dataset.
翻訳日:2021-09-19 01:22:36 公開日:2021-09-13
# (参考訳) ソーシャルメディアにおける偽ニュース研究の実態調査--ネットワークと言語の物語

Surveying the Research on Fake News in Social Media: a Tale of Networks and Language ( http://arxiv.org/abs/2109.07909v1 )

ライセンス: CC BY 4.0
Giancarlo Ruffo (1), Alfonso Semeraro (1), Anastasia Giachanou (2), Paolo Rosso (3) ((1) Universit\`a degli Studi di Torino, (2) Utrecht University, (3) Universitat Polit\`ecnica de Val\`encia)(参考訳) ジャーナリズムとニュース拡散の歴史は、偽造、誤報、プロパガンダ、未確認の噂、不十分な報道、憎悪と分裂を含むメッセージの排除と密接に結びついている。 オンラインソーシャルメディアの爆発的な成長と何十億もの個人がニュースの消費、作成、共有に携わる中、この古代の問題は、民主主義、公衆衛生、ニュースメディアの信頼性を脅かす新たな強みと共に表面化した。 この結果、多くの研究者が偽ニュースの拡散を研究、理解、検出、防止するための新しい方法を開発し、その結果、何千もの科学論文が比較的短期間に出版され、様々な分野の研究者がオープン問題や最も関連するトレンドを探すのに苦しむようになった。 この調査の目的は3つある: まず、既存の文献をネットワークベースで分析し、興味のある論文を視覚的に探索するのを支援するために、この多分野的かつ挑戦的な分野に関心のある研究者に提供したいと考えている; 次に、ネットワークを統一的なフレームワークとして採用し、データ表現と理解、拡散過程のモデル化、異なる分散戦略の評価を行う。 最後に,データマイニングやテキスト技術による偽ニュース,ボット,トロルの識別の移動を対象とする研究動向について概説する。計算言語学やネットワークの研究は伝統的に異なる科学コミュニティに属するが,フェイクニュースがソーシャルメディアに汚染されることを防止するための今後の計算手法は,ハイブリッドおよび最新手法を用いて開発する必要があると期待する。

The history of journalism and news diffusion is tightly coupled with the effort to dispel hoaxes, misinformation, propaganda, unverified rumours, poor reporting, and messages containing hate and divisions. With the explosive growth of online social media and billions of individuals engaged with consuming, creating, and sharing news, this ancient problem has surfaced with a renewed intensity threatening our democracies, public health, and news outlets credibility. This has triggered many researchers to develop new methods for studying, understanding, detecting, and preventing fake-news diffusion; as a consequence, thousands of scientific papers have been published in a relatively short period, making researchers of different disciplines to struggle in search of open problems and most relevant trends. The aim of this survey is threefold: first, we want to provide the researchers interested in this multidisciplinary and challenging area with a network-based analysis of the existing literature to assist them with a visual exploration of papers that can be of interest; second, we present a selection of the main results achieved so far adopting the network as an unifying framework to represent and make sense of data, to model diffusion processes, and to evaluate different debunking strategies. Finally, we present an outline of the most relevant research trends focusing on the moving target of fake-news, bots, and trolls identification by means of data mining and text technologies; despite scholars working on computational linguistics and networks traditionally belong to different scientific communities, we expect that forthcoming computational approaches to prevent fake news from polluting the social media must be developed using hybrid and up-to-date methodologies.
翻訳日:2021-09-18 13:02:52 公開日:2021-09-13
# (参考訳) Hetero-SCAN:不均質グラフニューラルネットワークによる社会的文脈認識フェイクニュース検出に向けて [全文訳有]

Hetero-SCAN: Towards Social Context Aware Fake News Detection via Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2109.08022v1 )

ライセンス: CC BY 4.0
Jian Cui, Kwanwoo Kim, Seung Ho Na, Seungwon Shin(参考訳) フェイクニュース(フェイクニュース、偽ニュースまたは誤解を招く情報)は、政治や医療など社会の多くの側面に大きな影響を与える。 この問題に対処するため、論文テキストに自然言語処理(NLP)技術を適用し、多くの偽ニュース検出手法が提案されている。 偽ニュースをニュースコンテンツで容易に区別できない人でさえ、これらのテキストベースのソリューションは不十分である。 フェイクニュース検出をさらに改善するため、研究者はグラフベースのソリューションを提案し、ユーザのエンゲージメントやパブリッシャ情報といったソーシャルコンテキスト情報を利用した。 しかし、既存のグラフベースの手法には、以下の4つの大きな欠点がある。 1)グラフ内の多数のユーザノードによる高価な計算コスト。 2 テキストエンコーディング又はスタンス検出等のサブタスクにおけるエラー 3)ニュースグラフの均一表現による豊かな社会的文脈の喪失 4) 時間的情報利用の欠如。 上記の課題を克服するために,異種グラフニューラルネットワークに基づく新しい社会的文脈を考慮した偽ニュース検出手法Hetero-SCANを提案する。 hetero-scanは、ニュースのヘテロジニアスグラフからエンドツーエンドでニュース表現を学ぶ。 我々は,Hetero-SCANが,最先端のテキストベースおよびグラフベースの偽ニュース検出手法に対して,性能と効率の点で大幅な改善をもたらすことを示した。

Fake news, false or misleading information presented as news, has a great impact on many aspects of society, such as politics and healthcare. To handle this emerging problem, many fake news detection methods have been proposed, applying Natural Language Processing (NLP) techniques on the article text. Considering that even people cannot easily distinguish fake news by news content, these text-based solutions are insufficient. To further improve fake news detection, researchers suggested graph-based solutions, utilizing the social context information such as user engagement or publishers information. However, existing graph-based methods still suffer from the following four major drawbacks: 1) expensive computational cost due to a large number of user nodes in the graph, 2) the error in sub-tasks, such as textual encoding or stance detection, 3) loss of rich social context due to homogeneous representation of news graphs, and 4) the absence of temporal information utilization. In order to overcome the aforementioned issues, we propose a novel social context aware fake news detection method, Hetero-SCAN, based on a heterogeneous graph neural network. Hetero-SCAN learns the news representation from the heterogeneous graph of news in an end-to-end manner. We demonstrate that Hetero-SCAN yields significant improvement over state-of-the-art text-based and graph-based fake news detection methods in terms of performance and efficiency.
翻訳日:2021-09-18 13:01:36 公開日:2021-09-13
# (参考訳) 社会ネットワーク分析における意味的価値の概念--比較神話への応用 [全文訳有]

The Concept of Semantic Value in Social Network Analysis: an Application to Comparative Mythology ( http://arxiv.org/abs/2109.08023v1 )

ライセンス: CC0 1.0
Javier Fumanal-Idocin, Oscar Cord\'on, Gra\c{c}aliz Dimuro, Mar\'ia Min\'arov\'a, Humberto Bustince(参考訳) 人文科学は伝統的に、口頭や文章によるナレーション、報告、伝統など、幅広い情報源から知識を推測するために人間の推論と知性に頼ってきた。 ここでは,従来のソーシャルネットワーク分析手法を拡張して,各アクターに意味の概念を取り入れ,ネットワークの原点からさらなる知識を定量化し,推測する手段とする。 この拡張は、ネットワーク内の異なるアクター間のファジィのような関係をアフィニティ関数の組み合わせを使って確立する、セマンティックアフィニティという新しいアフィニティ関数に基づいている。 また,この親和関数を計算するための最短容量問題に基づく新しいヒューリスティックアルゴリズムを提案する。 これらの意味と意味的親和性の概念を用いて、ギリシア神話、ケルト神話、北欧神話の3つの異なる神話から神々と英雄を分析し比較する。 それぞれの神話と、それら3つを融合させたときに形成される共通構造との関係を考察する。 我々はケルトと北欧の神々の強いつながりを示し、ギリシア人は神々よりも英雄的なキャラクターに重点を置いていた。 本手法は,ネットワークの本来のドメインにおいて,その構造的性質から導出できない重要な関係を強調・定量化する手法を提供する。

Human sciences have traditionally relied on human reasoning and intelligence to infer knowledge from a wide range of sources, such as oral and written narrations, reports, and traditions. Here we develop an extension of classical social network analysis approaches to incorporate the concept of meaning in each actor, as a mean to quantify and infer further knowledge from the original source of the network. This extension is based on a new affinity function, the semantic affinity, that establishes fuzzy-like relationships between the different actors in the network, using combinations of affinity functions. We also propose a new heuristic algorithm based on the shortest capacity problem to compute this affinity function. We use these concept of meaning and semantic affinity to analyze and compare the gods and heroes from three different classical mythologies: Greek, Celtic and Nordic. We study the relationships of each individual mythology and those of common structure that is formed when we fuse the three of them. We show a strong connection between the Celtic and Nordic gods and that Greeks put more emphasis on heroic characters rather than deities. Our approach provides a technique to highlight and quantify important relationships in the original domain of the network not deducible from its structural properties.
翻訳日:2021-09-18 12:46:28 公開日:2021-09-13
# 高等教育における予測分析における公正さと抑揚の影響

Auditing Fairness and Imputation Impact in Predictive Analytics for Higher Education ( http://arxiv.org/abs/2109.07908v1 )

ライセンス: Link先を確認
Hadis Anahideh, Nazanin Nezami, Denisa G`andara(参考訳) 現在、大学や大学は様々な方法で予測分析を使って学生の成功率を高めている。 予測分析の可能性にもかかわらず、高等教育導入には2つの大きな障壁がある。 (a) 展開における民主化の欠如、及び b)不平等を悪化させる可能性 教育研究者や政策立案者は、予測モデリングを実際に展開する上で、多くの課題に遭遇する。 これらの課題は、データ準備、モデル開発、評価を含む様々なモデリングのステップに現れます。 それでもこれらのステップは、適切に実行されていなければ、システムにさらなるバイアスをもたらすことができる。 ほとんどの大規模かつ全国的に代表される教育データセットは、研究参加者からのかなりの数の不完全な回答に苦しむ。 値の欠如は、多くのデータ分析の課題の背後にある頻繁な原因である。 多くの教育関連の研究がデータ不足の課題に対処しているが、実際の予測結果の公平性に対する価値の取り扱いの影響についてはほとんど知られていない。 本稿では,まず,大学学生が成功するための予測モデル結果の相違について評価し,そのモデル性能と公平性に対するインプテーション手法の影響について,共通指標の包括的集合を用いて検討する。 実大規模教育データセットの包括的分析により、モデリングの相違点と異なるインプテーション手法が、学生が成功する予測結果の公平性に与える影響について、相互に根本的な比較を行っていることが明らかになった。

Nowadays, colleges and universities use predictive analytics in a variety of ways to increase student success rates. Despite the potentials for predictive analytics, there exist two major barriers to their adoption in higher education: (a) the lack of democratization in deployment, and (b) the potential to exacerbate inequalities. Education researchers and policymakers encounter numerous challenges in deploying predictive modeling in practice. These challenges present in different steps of modeling including data preparation, model development, and evaluation. Nevertheless, each of these steps can introduce additional bias to the system if not appropriately performed. Most large-scale and nationally representative education data sets suffer from a significant number of incomplete responses from the research participants. Missing Values are the frequent latent causes behind many data analysis challenges. While many education-related studies addressed the challenges of missing data, little is known about the impact of handling missing values on the fairness of predictive outcomes in practice. In this paper, we set out to first assess the disparities in predictive modeling outcome for college-student success, then investigate the impact of imputation techniques on the model performance and fairness using a comprehensive set of common metrics. The comprehensive analysis of a real large-scale education dataset reveals key insights on the modeling disparity and how different imputation techniques fundamentally compare to one another in terms of their impact on the fairness of the student-success predictive outcome.
翻訳日:2021-09-17 16:26:36 公開日:2021-09-13
# チームムーブメントの結果を予測する-ファジィとディープメソッドを用いたプレイヤー時系列分析による表現学習

Predicting the outcome of team movements -- Player time series analysis using fuzzy and deep methods for representation learning ( http://arxiv.org/abs/2109.07570v1 )

ライセンス: Link先を確認
Omid Shokrollahi, Bahman Rohani, Amin Nobakhti(参考訳) アクションタイプとともにタグ付けされたプレイヤーの位置時系列データを抽出・利用し、チーム戦術行動パターンを表現できる有能なモデルを構築し、この表現を用いて任意の動きの結果を予測する。 我々は、より拡張された動きや戦術計画において、短い戦術と宇宙占領の有用な符号化のためのフレームワークを提供する。 我々は、球を所有するチームが1試合のゴールでシュートできる位置に定期的に到達しようとする試合中のゲームセグメントを調査した。 注意深い設計と効率のよいカーネルは、三角形のファジィメンバシップ関数を使用して、異なるコート領域におけるプレイヤーの存在可能性の複数の時系列を作成する。 教師なし学習は、三重項損失と、派生した多変量時系列の指数関数的に拡張された因果畳み込みを持つディープニューラルネットワークを用いて時系列に使用される。 これは、短いシーンが他の長いシーンにどのように貢献するか、プレイヤーがゲーム内の新しいスペースをどのように占有し、創造するかをモデル化するアプローチに重要な貢献がある。 2015-16シーズンのプロバスケットボールsportvuデータセットにおける予測と認識タスクに対する提案手法の有効性について検討した。 提案システムは,比較的小さなデータでも降下機能を示す。

We extract and use player position time-series data, tagged along with the action types, to build a competent model for representing team tactics behavioral patterns and use this representation to predict the outcome of arbitrary movements. We provide a framework for the useful encoding of short tactics and space occupations in a more extended sequence of movements or tactical plans. We investigate game segments during a match in which the team in possession of the ball regularly attempts to reach a position where they can take a shot at goal for a single game. A carefully designed and efficient kernel is employed using a triangular fuzzy membership function to create multiple time series for players' potential of presence at different court regions. Unsupervised learning is then used for time series using triplet loss and deep neural networks with exponentially dilated causal convolutions for the derived multivariate time series. This works key contribution lies in its approach to model how short scenes contribute to other longer ones and how players occupies and creates new spaces in-game court. We discuss the effectiveness of the proposed approach for prediction and recognition tasks on the professional basketball SportVU dataset for the 2015-16 half-season. The proposed system demonstrates descent functionality even with relatively small data.
翻訳日:2021-09-17 14:14:18 公開日:2021-09-13
# 数百万のラベルを用いた短文極小分類のための畳み込み畳み込み

Embedding Convolutions for Short Text Extreme Classification with Millions of Labels ( http://arxiv.org/abs/2109.07319v1 )

ライセンス: Link先を確認
Siddhant Kharbanda, Atmadeep Banerjee, Akash Palrecha, Rohit Babbar(参考訳) ショートテキスト極端分類と呼ばれる多数のターゲットラベルに対するショートテキストデータの自動アノテーションは、最近、関連する検索と製品推奨タスクの予測に多くの応用が見つかった。 テキスト分類におけるn-gramを捉えるために従来の畳み込みニューラルネットワーク(CNN)は、単語順序の均一性と長い入力シーケンスの存在に大きく依存している。 しかし、これは検索やレコメンデーションで遭遇する短く非構造化のテキストシーケンスに欠けている。 そこで本研究では, 畳み込み操作をリキャストして, 組込み次元に沿った結合意味を捕捉し, 単語順に依存しない組込み拡張モジュールを開発し, クエリの構造の欠如に対処する直交アプローチを提案する。 畳み込み操作の計算効率の恩恵を受け、畳み込みが強化された単語埋め込みに適用されると、軽量かつ強力なエンコーダ(インセプションxml)となり、短文の極端な分類において構造が本質的に欠如していることに頑健になる。 InceptionXML+は、ラベルショートリストと極端な分類器の整合性を改善することで、最近提案されたLightXMLにおける動的なハードネガティブなマイニングフレームワークの欠点に対処します。 一般的なベンチマークデータセットでは,提案手法がastecのような最先端の深部極端分類器を平均5%,p@kで8%,psp@kメトリクスをそれぞれ上回っていることを実証的に示す。

Automatic annotation of short-text data to a large number of target labels, referred to as Short Text Extreme Classification, has recently found numerous applications in prediction of related searches and product recommendation tasks. The conventional usage of Convolutional Neural Network (CNN) to capture n-grams in text-classification relies heavily on uniformity in word-ordering and the presence of long input sequences to convolve over. However, this is missing in short and unstructured text sequences encountered in search and recommendation. In order to tackle this, we propose an orthogonal approach by recasting the convolution operation to capture coupled semantics along the embedding dimensions, and develop a word-order agnostic embedding enhancement module to deal with the lack of structure in such queries. Benefitting from the computational efficiency of the convolution operation, Embedding Convolutions, when applied on the enriched word embeddings, result in a light-weight and yet powerful encoder (InceptionXML) that is robust to the inherent lack of structure in short-text extreme classification. Towards scaling our model to problems with millions of labels, we also propose InceptionXML+, which addresses the shortcomings of the dynamic hard-negative mining framework in the recently proposed LightXML by improving the alignment between the label-shortlister and extreme classifier. On popular benchmark datasets, we empirically demonstrate that the proposed method outperforms state-of-the-art deep extreme classifiers such as Astec by an average of 5% and 8% on the P@k and propensity-scored PSP@k metrics respectively.
翻訳日:2021-09-16 15:21:57 公開日:2021-09-13
# コントラスト損失を伴うアクティブラーニングにおけるロバスト性と効率性の向上

Improving Robustness and Efficiency in Active Learning with Contrastive Loss ( http://arxiv.org/abs/2109.06873v1 )

ライセンス: Link先を確認
Ranganath Krishnan, Nilesh Ahuja, Alok Sinha, Mahesh Subedar, Omesh Tickoo, Ravi Iyer(参考訳) 本稿では,教師付き学習におけるコントラストロスを利用した教師付きコントラスト型アクティブラーニング(scal)を提案する。 多様な特徴表現の偏りのない情報的データサンプルを選択するために,能動的学習における効率的なクエリ戦略を提案する。 提案手法は,クエリ計算をCoreSetの11倍,ベイズ能動学習の26倍に高速化することで,サンプリングバイアスを低減し,最先端の精度とモデルのキャリブレーションを実現する。 提案手法は,不均衡なデータセットであってもよく校正されたモデルを生成する。 また、アクティブな学習環境におけるデータセットシフトとアウト・オブ・ディストリビューションに対するロバスト性を評価し、提案したSCAL法は、高パフォーマンスな計算集約手法をより大きなマージンで上回っている(アウト・オブ・ディストリビューション検出では平均8.9%、データセットシフト時には平均7.2%)。

This paper introduces supervised contrastive active learning (SCAL) by leveraging the contrastive loss for active learning in a supervised setting. We propose efficient query strategies in active learning to select unbiased and informative data samples of diverse feature representations. We demonstrate our proposed method reduces sampling bias, achieves state-of-the-art accuracy and model calibration in an active learning setup with the query computation 11x faster than CoreSet and 26x faster than Bayesian active learning by disagreement. Our method yields well-calibrated models even with imbalanced datasets. We also evaluate robustness to dataset shift and out-of-distribution in active learning setup and demonstrate our proposed SCAL method outperforms high performing compute-intensive methods by a bigger margin (average 8.9% higher AUROC for out-of-distribution detection and average 7.2% lower ECE under dataset shift).
翻訳日:2021-09-16 15:14:32 公開日:2021-09-13
# AliMe MKG:ライブストリーミングEコマースのためのマルチモーダル知識グラフ

AliMe MKG: A Multi-modal Knowledge Graph for Live-streaming E-commerce ( http://arxiv.org/abs/2109.07411v1 )

ライセンス: Link先を確認
Guohai Xu, Hehong Chen, Feng-Lin Li, Fu Sun, Yunzhou Shi, Zhixiong Zeng, Wei Zhou, Zhongzhou Zhao, Ji Zhang(参考訳) ライブストリーミングは、Eコマースにおける売上のトレンドになりつつある。 ライブストリーミング販売の中核は、顧客がオンライン放送室で購入することを奨励することである。 顧客が飛び降りることなく製品をよりよく理解できるように、製品に対する認知プロファイルの提供を目的としたマルチモーダルな知識グラフであるAliMe MKGを提案する。 mkgに基づいて,製品検索,製品展示,質問応答を強調するオンラインライブアシスタントを構築し,商品リストのスキップ,項目詳細の閲覧,項目関連質問の確認を可能にした。 当社のシステムはTaobaoアプリでオンラインで公開されており、現在毎日数十万人の顧客が利用しています。

Live streaming is becoming an increasingly popular trend of sales in E-commerce. The core of live-streaming sales is to encourage customers to purchase in an online broadcasting room. To enable customers to better understand a product without jumping out, we propose AliMe MKG, a multi-modal knowledge graph that aims at providing a cognitive profile for products, through which customers are able to seek information about and understand a product. Based on the MKG, we build an online live assistant that highlights product search, product exhibition and question answering, allowing customers to skim over item list, view item details, and ask item-related questions. Our system has been launched online in the Taobao app, and currently serves hundreds of thousands of customers per day.
翻訳日:2021-09-16 14:54:44 公開日:2021-09-13
# (参考訳) TREATE:テキストの敵対的攻撃に対する普遍的防御に向けて [全文訳有]

TREATED:Towards Universal Defense against Textual Adversarial Attacks ( http://arxiv.org/abs/2109.06176v1 )

ライセンス: CC BY 4.0
Bin Zhu, Zhaoquan Gu, Le Wang and Zhihong Tian(参考訳) 最近の研究は、ディープニューラルネットワークが敵の例に弱いことを示している。 多くの研究は敵の例生成を研究しているが、より批判的な敵の防御に焦点を当てた研究はほとんどない。 既存の敵検出方法は、通常、敵の例と攻撃方法(例えば、敵の例の単語頻度、攻撃方法の摂動レベル)について仮定する。 しかし、これは検出方法の適用性に制限がある。 そこで本研究では,様々な摂動レベルの攻撃を想定することなく防御できる普遍的敵検出法であるtreatedを提案する。 TREATEDは、よく設計された参照モデルを通じて、敵の例を特定する。 3つの競合するニューラルネットワークと2つの広く使われているデータセットの大規模な実験により、本手法はベースラインよりも優れた検出性能が得られることが示された。 最後にアブレーション研究を行い,本手法の有効性を確認した。

Recent work shows that deep neural networks are vulnerable to adversarial examples. Much work studies adversarial example generation, while very little work focuses on more critical adversarial defense. Existing adversarial detection methods usually make assumptions about the adversarial example and attack method (e.g., the word frequency of the adversarial example, the perturbation level of the attack method). However, this limits the applicability of the detection method. To this end, we propose TREATED, a universal adversarial detection method that can defend against attacks of various perturbation levels without making any assumptions. TREATED identifies adversarial examples through a set of well-designed reference models. Extensive experiments on three competitive neural networks and two widely used datasets show that our method achieves better detection performance than baselines. We finally conduct ablation studies to verify the effectiveness of our method.
翻訳日:2021-09-16 07:46:17 公開日:2021-09-13
# (参考訳) 特定確実性分類と参照誘導メタゲノミクスアセンブリの読み出し分類への応用 [全文訳有]

Specified Certainty Classification, with Application to Read Classification for Reference-Guided Metagenomic Assembly ( http://arxiv.org/abs/2109.06677v1 )

ライセンス: CC BY 4.0
Alan F. Karr and Jason Hauzel and Prahlad Menon and Adam A. Porter and Marcel Schaefer(参考訳) 特定特定度分類(scc)は、アウトプットが不確実性を持つ分類器を採用するための新しいパラダイムであり、典型的にはベイズ後方確率の形式である。 分類器の出力が原子的な決定の1つよりも正確でないことを許すことで、SCCは全ての決定が特定の確証レベルを達成することを可能にし、また、可能なすべての決定を検査することで分類器の動作に関する洞察を提供する。 主な図は、参照誘導ゲノム組換えのための読み出し分類であるが、COVID-19ワクチン接種データも分析して、SCCの広さを実証する。

Specified Certainty Classification (SCC) is a new paradigm for employing classifiers whose outputs carry uncertainties, typically in the form of Bayesian posterior probabilities. By allowing the classifier output to be less precise than one of a set of atomic decisions, SCC allows all decisions to achieve a specified level of certainty, as well as provides insights into classifier behavior by examining all decisions that are possible. Our primary illustration is read classification for reference-guided genome assembly, but we demonstrate the breadth of SCC by also analyzing COVID-19 vaccination data.
翻訳日:2021-09-16 07:29:21 公開日:2021-09-13
# (参考訳) KroneckerBERT:知識蒸留による事前学習言語モデルのKronecker分解学習 [全文訳有]

KroneckerBERT: Learning Kronecker Decomposition for Pre-trained Language Models via Knowledge Distillation ( http://arxiv.org/abs/2109.06243v1 )

ライセンス: CC BY 4.0
Marzieh S. Tahaei, Ella Charlaix, Vahid Partovi Nia, Ali Ghodsi and Mehdi Rezagholizadeh(参考訳) 過度にパラメータ化された事前学習言語モデルの開発は、自然言語処理の成功に大きく貢献している。 これらのモデルの過度パラメータ化がその一般化能力の鍵であるが、低容量デバイスへの展開には適さない。 我々は、クロネッカー分解を用いた最先端のトランスフォーマーベースの事前学習言語モデル圧縮の限界を押し上げる。 この分解を組込み層の圧縮、マルチヘッドアテンションにおけるリニアマッピング、トランスフォーワード層におけるフィードフォワードネットワークモジュールに利用する。 教師として非圧縮モデルを用いて中間層知識蒸留を行い,圧縮モデルの性能を向上させる。 このフレームワークを用いて得られたBERT_BASEモデルの圧縮版であるKroneckerBERTを提案する。 我々は、よく知られたNLPベンチマークにおけるKroneckerBERTの性能を評価し、高い圧縮係数19(BERT_BASEモデルの5%)に対して、我々のKroneckerBERTはGLUEの最先端圧縮手法より優れていることを示す。 実験の結果,提案モデルでは分布外ロバスト性を保証し,SQuADの最先端圧縮法よりも優れていることがわかった。

The development of over-parameterized pre-trained language models has made a significant contribution toward the success of natural language processing. While over-parameterizatio n of these models is the key to their generalization power, it makes them unsuitable for deployment on low-capacity devices. We push the limits of state-of-the-art Transformer-based pre-trained language model compression using Kronecker decomposition. We use this decomposition for compression of the embedding layer, all linear mappings in the multi-head attention, and the feed-forward network modules in the Transformer layer. We perform intermediate-layer knowledge distillation using the uncompressed model as the teacher to improve the performance of the compressed model. We present our KroneckerBERT, a compressed version of the BERT_BASE model obtained using this framework. We evaluate the performance of KroneckerBERT on well-known NLP benchmarks and show that for a high compression factor of 19 (5% of the size of the BERT_BASE model), our KroneckerBERT outperforms state-of-the-art compression methods on the GLUE. Our experiments indicate that the proposed model has promising out-of-distribution robustness and is superior to the state-of-the-art compression methods on SQuAD.
翻訳日:2021-09-16 07:17:22 公開日:2021-09-13
# (参考訳) トルコ語におけるマルチウェイ多言語NMTの評価 [全文訳有]

Evaluating Multiway Multilingual NMT in the Turkic Languages ( http://arxiv.org/abs/2109.06262v1 )

ライセンス: CC BY 4.0
Jamshidbek Mirzakhalov, Anoop Babu, Aigiz Kunafin, Ahsan Wahab, Behzod Moydinboyev, Sardana Ivanova, Mokhiyakhon Uzokova, Shaxnoza Pulatova, Duygu Ataman, Julia Kreutzer, Francis Tyers, Orhan Firat, John Licato, Sriram Chellappan(参考訳) 大規模かつ包括的な機械翻訳(MT)システムの増加にもかかわらず、これらの手法の評価は、高品質な並列コーパスの欠如と、これらの言語を話す人々との関わりによって抑制されてきた。 本研究では,テュルク語族に属する22言語を対象に,MTシステムの訓練と評価のための最先端手法の評価を行った。 まず、トレーニングと評価セットにいくつかの重要な改善を加えたTIL Corpusを採用します。 次に,26のバイリンガルベースラインと,そのコーパスを用いたマルチウェイニューラルMT(MNMT)モデルを訓練し,自動測定と人的評価を用いた広範囲な解析を行った。 MNMTモデルはドメイン外のテストセットでほとんどすべてのバイリンガルベースラインを上回り、単一のペアの下流タスクでモデルを微調整することで、低リソースと高リソースの両方のシナリオにおいて大きなパフォーマンス向上をもたらす。 トルコ語におけるMTモデルの評価基準の注意深い分析は、この方向のさらなる研究の必要性も指摘している。 コーパスの分割、テストセット、モデルも公開しています。

Despite the increasing number of large and comprehensive machine translation (MT) systems, evaluation of these methods in various languages has been restrained by the lack of high-quality parallel corpora as well as engagement with the people that speak these languages. In this study, we present an evaluation of state-of-the-art approaches to training and evaluating MT systems in 22 languages from the Turkic language family, most of which being extremely under-explored. First, we adopt the TIL Corpus with a few key improvements to the training and the evaluation sets. Then, we train 26 bilingual baselines as well as a multi-way neural MT (MNMT) model using the corpus and perform an extensive analysis using automatic metrics as well as human evaluations. We find that the MNMT model outperforms almost all bilingual baselines in the out-of-domain test sets and finetuning the model on a downstream task of a single pair also results in a huge performance boost in both low- and high-resource scenarios. Our attentive analysis of evaluation criteria for MT models in Turkic languages also points to the necessity for further research in this direction. We release the corpus splits, test sets as well as models to the public.
翻訳日:2021-09-16 07:04:44 公開日:2021-09-13
# (参考訳) 文字列モデルの大規模なアンサンブルを用いた後OCR文書補正 [全文訳有]

Post-OCR Document Correction with large Ensembles of Character Sequence Models ( http://arxiv.org/abs/2109.06264v1 )

ライセンス: CC BY 4.0
Juan Ramirez-Orta and Eduardo Xamena and Ana Maguitman and Evangelos Milios and Axel J. Soto(参考訳) 本稿では,光学文字認識(OCR)システムですでに処理されている文書を訂正するための文字列列列モデルに基づく新しい手法を提案する。 本論文の主な貢献は, サンプルと資源効率を両立させ, 徹底的な実験によって支援されたシーケンスモデルのトレーニングよりも, 文字列を正確に処理する戦略の集合である。 最高のパフォーマンスを持つ戦略は、入力文書を文字n-gramに分割し、多数のシーケンスモデルのアンサンブルに相当する投票方式を用いて、個々の修正を最終的な出力に組み合わせることである。 さらに、このアンサンブルのメンバーのそれぞれからの貢献度を測る方法について検討する。 我々は,ICDAR 2019コンペティションの9言語を対象に,OCR後のテキスト修正を行い,その中5言語で新たな最先端性能を実現する。 OCR修正後のコードはhttps://github.com/j arobyte91/post_ocr_c orrectionで共有されます。

In this paper, we propose a novel method based on character sequence-to-sequence models to correct documents already processed with Optical Character Recognition (OCR) systems. The main contribution of this paper is a set of strategies to accurately process strings much longer than the ones used to train the sequence model while being sample- and resource-efficient, supported by thorough experimentation. The strategy with the best performance involves splitting the input document in character n-grams and combining their individual corrections into the final output using a voting scheme that is equivalent to an ensemble of a large number of sequence models. We further investigate how to weigh the contributions from each one of the members of this ensemble. We test our method on nine languages of the ICDAR 2019 competition on post-OCR text correction and achieve a new state-of-the-art performance in five of them. Our code for post-OCR correction is shared at https://github.com/j arobyte91/post_ocr_c orrection.
翻訳日:2021-09-16 06:40:43 公開日:2021-09-13
# (参考訳) 前庭神経癌に対するクロスモーダルドメイン適応とコクリーセグメンテーション [全文訳有]

Cross-Modality Domain Adaptation for Vestibular Schwannoma and Cochlea Segmentation ( http://arxiv.org/abs/2109.06274v1 )

ライセンス: CC BY 4.0
Han Liu, Yubo Fan, Can Cui, Dingjie Su, Andrew McNeil, and Benoit M.Dawant(参考訳) 磁気共鳴画像(MRI)から前庭神経腫瘍(VS)と内耳を分離する方法は,VS治療計画において重要である。 教師付きメソッドはVSセグメンテーションで十分なパフォーマンスを達成したが、専門家による完全なアノテーションが必要である。 本研究では,教師なしドメイン適応設定において,vs と cochlea のセグメンテーション問題に取り組むことを目的とする。 提案手法は,画像レベルの領域アライメントを利用して領域の発散を最小化し,半教師付きトレーニングによりさらなる性能向上を図る。 さらに,複数のモデルから予測されるラベルをノイズラベル補正により融合する手法を提案する。 チャレンジバリデーション・リーダーボードを用いた結果から, 腫瘍の平均サイクリングスコアが 0.8261 $\pm$ 0.0416 で, 有望な vs と cochlea のセグメンテーション性能が得られ, 腫瘍の平均サイクリング値は 0.8302 $\pm$ 0.0772 であった。 これは弱教師付きベースの方法に匹敵する。

Automatic methods to segment the vestibular schwannoma (VS) tumors and the cochlea from magnetic resonance imaging (MRI) are critical to VS treatment planning. Although supervised methods have achieved satisfactory performance in VS segmentation, they require full annotations by experts, which is laborious and time-consuming. In this work, we aim to tackle the VS and cochlea segmentation problem in an unsupervised domain adaptation setting. Our proposed method leverages both the image-level domain alignment to minimize the domain divergence and semi-supervised training to further boost the performance. Furthermore, we propose to fuse the labels predicted from multiple models via noisy label correction. Our results on the challenge validation leaderboard showed that our unsupervised method has achieved promising VS and cochlea segmentation performance with mean dice score of 0.8261 $\pm$ 0.0416; The mean dice value for the tumor is 0.8302 $\pm$ 0.0772. This is comparable to the weakly-supervised based method.
翻訳日:2021-09-16 06:32:37 公開日:2021-09-13
# (参考訳) MindCraft: 協調作業における仮定対話のためのマインドモデリングの理論 [全文訳有]

MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks ( http://arxiv.org/abs/2109.06275v1 )

ライセンス: CC BY 4.0
Cristian-Paul Bara, Sky CH-Wang, Joyce Chai(参考訳) 人間の世界における自律エージェントの理想的な統合は、人間の言葉で協力できることを意味している。 特に心の理論は、人間同士のコラボレーションやコミュニケーションにおいて共通基盤を維持する上で重要な役割を果たしている。 そこで本稿では,マインクラフトの3d仮想ブロック世界において,被験者のペアが行う協調作業の細粒度データセットを提案する。 これは、パートナーの世界とお互いの信念を対話として捉える情報を提供し、位置する言語コミュニケーションにおける人間の協調行動を研究するための豊富な機会をもたらす。 協調パートナーの信念状態を推測できる具体的AIエージェントを開発するための第一歩として、いくつかの心的タスクの理論のための計算モデルを構築し、提示する。

An ideal integration of autonomous agents in a human world implies that they are able to collaborate on human terms. In particular, theory of mind plays an important role in maintaining common ground during human collaboration and communication. To enable theory of mind modeling in situated interactions, we introduce a fine-grained dataset of collaborative tasks performed by pairs of human subjects in the 3D virtual blocks world of Minecraft. It provides information that captures partners' beliefs of the world and of each other as an interaction unfolds, bringing abundant opportunities to study human collaborative behaviors in situated language communication. As a first step towards our goal of developing embodied AI agents able to infer belief states of collaborative partners in situ, we build and present results on computational models for several theory of mind tasks.
翻訳日:2021-09-16 06:27:12 公開日:2021-09-13
# (参考訳) Phrase-BERT: BERTによるPhrase Embeddingsの改良とコーパス探索への応用 [全文訳有]

Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration ( http://arxiv.org/abs/2109.06304v1 )

ライセンス: CC BY 4.0
Shufan Wang and Laure Thompson and Mohit Iyyer(参考訳) BERTから派生したフレーズ表現は、そのモデルが意味的関連性を決定するために語彙的類似性に依存するため、複雑なフレーズ構成性を持たないことが多い。 本稿では,BERTがより強力なフレーズ埋め込みを実現するための,コントラスト的な微調整手法を提案する。 本手法(Phrase-BERT)は, パラフレーズ生成モデルを用いて自動生成する多様なパラフレーズのデータセットと, Books3コーパスから抽出した文脈におけるフレーズの大規模データセットに依存する。 Phrase-BERTは、様々なフレーズレベルの類似性タスクでベースラインを上回り、ベクトル空間に最も近い隣人の間で語彙の多様性を増す。 最後に,Phrase-BERT埋め込みは簡単なオートエンコーダと簡単に統合でき,埋め込み空間で近接探索を行うことで,話題を単語とフレーズの混合として解釈するフレーズベースのニューラルトピックモデルを構築することができることを示す。 クラウドソースによる評価では、このフレーズベースのトピックモデルは、ベースライン語やフレーズレベルのトピックモデルよりも一貫性と意味のあるトピックを生成し、さらにPhrase-BERTの有用性を検証する。

Phrase representations derived from BERT often do not exhibit complex phrasal compositionality, as the model relies instead on lexical similarity to determine semantic relatedness. In this paper, we propose a contrastive fine-tuning objective that enables BERT to produce more powerful phrase embeddings. Our approach (Phrase-BERT) relies on a dataset of diverse phrasal paraphrases, which is automatically generated using a paraphrase generation model, as well as a large-scale dataset of phrases in context mined from the Books3 corpus. Phrase-BERT outperforms baselines across a variety of phrase-level similarity tasks, while also demonstrating increased lexical diversity between nearest neighbors in the vector space. Finally, as a case study, we show that Phrase-BERT embeddings can be easily integrated with a simple autoencoder to build a phrase-based neural topic model that interprets topics as mixtures of words and phrases by performing a nearest neighbor search in the embedding space. Crowdsourced evaluations demonstrate that this phrase-based topic model produces more coherent and meaningful topics than baseline word and phrase-level topic models, further validating the utility of Phrase-BERT.
翻訳日:2021-09-16 06:13:11 公開日:2021-09-13
# (参考訳) 神経機械翻訳における弾性重み重み和らぎを伴うスケジュール標本の致死的消失の軽減 [全文訳有]

Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic Weight Consolidation in Neural Machine Translation ( http://arxiv.org/abs/2109.06308v1 )

ライセンス: CC BY 4.0
Michalis Korakakis, Andreas Vlachos(参考訳) 多くのシーケンシャル・ツー・シーケンスタスクで強力な性能を誇っているにもかかわらず、最大確率推定で訓練された自己回帰モデルは、露出バイアス、すなわち訓練中に使用される接地接頭辞と推論時に使用されるモデル生成接頭辞とのずれに苦しむ。 スケジュールサンプリングは、モデル生成プレフィックスをトレーニングプロセスに組み込むことでこの問題に対処する、シンプルで経験的に成功したアプローチである。 しかし、プレフィックスを完全に無視するモデルに繋がる、一貫性のないトレーニングの目標であると議論されている。 本稿では,システム実験を行い,入力シーケンスのモデル依存度を増大させることにより,露出バイアスを改善する。 また, 副作用として, モデル生成プレフィックスが正しい場合, 破滅的忘れの形で性能が悪くなることも観察した。 露出バイアスの軽減と出力品質の維持のトレードオフとして,弾性重み密着性を利用することを提案する。 2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、標準のスケジュールサンプリングよりもBLEUを大幅に改善することを示した。

Despite strong performance in many sequence-to-sequence tasks, autoregressive models trained with maximum likelihood estimation suffer from exposure bias, i.e. a discrepancy between the ground-truth prefixes used during training and the model-generated prefixes used at inference time. Scheduled sampling is a simple and often empirically successful approach which addresses this issue by incorporating model-generated prefixes into the training process. However, it has been argued that it is an inconsistent training objective leading to models ignoring the prefixes altogether. In this paper, we conduct systematic experiments and find that it ameliorates exposure bias by increasing model reliance on the input sequence. We also observe that as a side-effect, it worsens performance when the model-generated prefix is correct, a form of catastrophic forgetting. We propose using Elastic Weight Consolidation as trade-off between mitigating exposure bias and retaining output quality. Experiments on two IWSLT'14 translation tasks demonstrate that our approach alleviates catastrophic forgetting and significantly improves BLEU compared to standard scheduled sampling.
翻訳日:2021-09-16 05:54:29 公開日:2021-09-13
# (参考訳) 不確実性を考慮した逐次医療意思決定のための事前学習 [全文訳有]

Pre-emptive learning-to-defer for sequential medical decision-making under uncertainty ( http://arxiv.org/abs/2109.06312v1 )

ライセンス: CC BY 4.0
Shalmali Joshi and Sonali Parbhoo and Finale Doshi-Velez(参考訳) 我々は,sltd (`sequential learning-to-defer&#x 27;) を,逐次的な意思決定設定において専門家に事前の学習-防御のための枠組みを提案する。 sltdは、ダイナミクスの根底にある不確実性に基づいて、現在遅延する価値を改善する可能性を測定する。 特に,遅延ポリシーを正確に学習するダイナミクスの非定常性に注目した。 先入観的推論は、現在の政策が結果を改善する可能性の低い地域を特定できることを示す。 SLTDは、非定常力学を持つ複数の合成および実世界のシミュレータの全体的な不確実性を低減しつつ、既存の非逐次学習と遅延ベースラインを上回ります。 さらに、モデルの性能がいつ信頼できるかを示すために、ドメインの専門家による解釈のための伝播(長期的な)不確実性を導出し分解する。

We propose SLTD (`Sequential Learning-to-Defer&#x 27;) a framework for learning-to-defer pre-emptively to an expert in sequential decision-making settings. SLTD measures the likelihood of improving value of deferring now versus later based on the underlying uncertainty in dynamics. In particular, we focus on the non-stationarity in the dynamics to accurately learn the deferral policy. We demonstrate our pre-emptive deferral can identify regions where the current policy has a low probability of improving outcomes. SLTD outperforms existing non-sequential learning-to-defer baselines, whilst reducing overall uncertainty on multiple synthetic and real-world simulators with non-stationary dynamics. We further derive and decompose the propagated (long-term) uncertainty for interpretation by the domain expert to provide an indication of when the model's performance is reliable.
翻訳日:2021-09-16 05:37:14 公開日:2021-09-13
# (参考訳) サブイベント検出のための学習制約と記述セグメンテーション [全文訳有]

Learning Constraints and Descriptive Segmentation for Subevent Detection ( http://arxiv.org/abs/2109.06316v1 )

ライセンス: CC BY 4.0
Haoyu Wang, Hongming Zhang, Muhao Chen, Dan Roth(参考訳) テキスト中のイベント参照は、さまざまな粒度の実際のイベントに対応する。 サブイベント検出のタスクは、イベントコンプレックスにおけるマルチグラニュラーイベントのメンバシップを認識することで、この粒度問題を解決することを目的としている。 イベントコンプレックスの記述的コンテキストがイベントのメンバシップの推論に有効であることから,イベントベースのテキストセグメンテーション(EventSeg)のタスクを補助タスクとして提案し,サブイベント検出の学習を改善する。 2つのタスクを結合するために,サブイベント検出とイベントeg予測の間の依存関係をキャプチャする制約を学習し,実行するためのアプローチを提案する。 具体的には、制約学習に整流回路ネットワークを採用し、学習した制約を神経モデルの損失関数における正規化項に変換する。 実験結果から,提案手法はサブイベント検出のためのベンチマークデータセット,HiEve,ICに対して,それぞれ2.3%,2.5%のベースライン手法より優れ,EventSeg予測では良好な性能を示した。

Event mentions in text correspond to real-world events of varying degrees of granularity. The task of subevent detection aims to resolve this granularity issue, recognizing the membership of multi-granular events in event complexes. Since knowing the span of descriptive contexts of event complexes helps infer the membership of events, we propose the task of event-based text segmentation (EventSeg) as an auxiliary task to improve the learning for subevent detection. To bridge the two tasks together, we propose an approach to learning and enforcing constraints that capture dependencies between subevent detection and EventSeg prediction, as well as guiding the model to make globally consistent inference. Specifically, we adopt Rectifier Networks for constraint learning and then convert the learned constraints to a regularization term in the loss function of the neural model. Experimental results show that the proposed method outperforms baseline methods by 2.3% and 2.5% on benchmark datasets for subevent detection, HiEve and IC, respectively, while achieving a decent performance on EventSeg prediction.
翻訳日:2021-09-16 05:17:41 公開日:2021-09-13
# (参考訳) 尿路言語におけるBERTモデルの伝達性の評価 [全文訳有]

Evaluating Transferability of BERT Models on Uralic Languages ( http://arxiv.org/abs/2109.06327v1 )

ライセンス: CC0 1.0
Judit \'Acs, D\'aniel L\'evai, Andr\'as Kornai(参考訳) BERTのようなトランスフォーマーベースの言語モデルは、多くの英語ベンチマークにおいて、以前のモデルよりも優れているが、その評価は英語または少数の良質な言語に限られることが多い。 本研究では,エストニア語,フィンランド語,ハンガリー語,erzya,moksha,kareli an,livvi,komi permyak,komi zyrian,northern s\'ami,skolt s\'amiなどのウラル系言語において,bert族から単言語,多言語,ランダムに初期化された言語モデルを評価する。 単言語モデル(現在はet、fi、huのみ)が利用可能である場合、それらはネイティブ言語でパフォーマンスが良いが、一般的に同じ文字集合を共有する多言語モデルや遺伝的に無関係な言語のモデルよりも悪い。 注目すべきは、ハイパーパラメータ最適化への特別な努力がなくても、高リソースモデルの直接転送は、微調整に十分なデータがある少数言語において、最先端のPOSおよびNERツールのように見えるものが得られることである。

Transformer-based language models such as BERT have outperformed previous models on a large number of English benchmarks, but their evaluation is often limited to English or a small number of well-resourced languages. In this work, we evaluate monolingual, multilingual, and randomly initialized language models from the BERT family on a variety of Uralic languages including Estonian, Finnish, Hungarian, Erzya, Moksha, Karelian, Livvi, Komi Permyak, Komi Zyrian, Northern S\'ami, and Skolt S\'ami. When monolingual models are available (currently only et, fi, hu), these perform better on their native language, but in general they transfer worse than multilingual models or models of genetically unrelated languages that share the same character set. Remarkably, straightforward transfer of high-resource models, even without special efforts toward hyperparameter optimization, yields what appear to be state of the art POS and NER tools for the minority Uralic languages where there is sufficient data for finetuning.
翻訳日:2021-09-16 05:02:28 公開日:2021-09-13
# (参考訳) 初等・二次アプローチによる制約付き強化学習におけるゼロ制約違反の実現

Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Primal-Dual Approach ( http://arxiv.org/abs/2109.06332v1 )

ライセンス: CC BY 4.0
Qinbo Bai, Amrit Singh Bedi, Mridul Agarwal, Alec Koppel and Vaneet Aggarwal(参考訳) 強化学習は、環境と対話しながら逐次的な決定を行う必要があるアプリケーションで広く使われている。 決定要件がいくつかの安全制約を満たすことを含むと、問題はより難しくなります。 この問題は、マルコフ決定過程(CMDP)として数学的に定式化されている。 文献では、CMDP問題をモデルのない方法で解き、$\epsilon$-optimal cumulative reward with $\epsilon$ feasible Policy を達成するために様々なアルゴリズムが利用できる。 $\epsilon$-feasibleポリシーは、制約違反に悩まされていることを意味する。 ここでの重要な問題は、制約違反ゼロで$\epsilon$-optimal cumulative rewardを達成できるかどうかである。 これを実現するために,CMDP問題に対するランダム化原始双対手法の活用を提唱し,制約違反ゼロで$\epsilon$-optimal cumulative reward を達成するために$\tilde{\mathcal{O}}(1/\epsilon^2)$サンプル複雑性を示す保守的確率的原始双対アルゴリズム(CSPDA)を提案する。 以前の研究では、制約違反のない$\epsilon$-optimal policyの最良のサンプル複雑さは$\tilde{\mathcal{o}}(1/\epsilon^5)$である。 したがって,提案アルゴリズムは,最先端技術に比べて大幅に改善される。

Reinforcement learning is widely used in applications where one needs to perform sequential decisions while interacting with the environment. The problem becomes more challenging when the decision requirement includes satisfying some safety constraints. The problem is mathematically formulated as constrained Markov decision process (CMDP). In the literature, various algorithms are available to solve CMDP problems in a model-free manner to achieve $\epsilon$-optimal cumulative reward with $\epsilon$ feasible policies. An $\epsilon$-feasible policy implies that it suffers from constraint violation. An important question here is whether we can achieve $\epsilon$-optimal cumulative reward with zero constraint violations or not. To achieve that, we advocate the use of a randomized primal-dual approach to solving the CMDP problems and propose a conservative stochastic primal-dual algorithm (CSPDA) which is shown to exhibit $\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity to achieve $\epsilon$-optimal cumulative reward with zero constraint violations. In the prior works, the best available sample complexity for the $\epsilon$-optimal policy with zero constraint violation is $\tilde{\mathcal{O}}(1/\epsilon^5)$. Hence, the proposed algorithm provides a significant improvement as compared to the state of the art.
翻訳日:2021-09-16 04:46:36 公開日:2021-09-13
# (参考訳) Old BERT, New Tricks: 事前学習型言語モデルのための人工言語学習 [全文訳有]

Old BERT, New Tricks: Artificial Language Learning for Pre-Trained Language Models ( http://arxiv.org/abs/2109.06333v1 )

ライセンス: CC BY-SA 4.0
Lisa Bylinina, Alexey Tikhonov, Ekaterina Garmash(参考訳) 私たちは、人工言語学習の実験パラダイムを精神言語学から拡張し、事前学習された言語モデルに適用します。 本研究では,2つの言語特性AとBの関係を学習するために,新たに存在しない言語項目のセットを導入し,それらの特性Aに沿った変動に関するモデル情報を提示し,これらの項目について,モデルがどの程度に学習したかを測定する。 本手法は,次数修飾子(slightly, "very", "rather", "extremely" などの表現)の作業において,修飾子で表される次数(低,中,高)が文の極性に対する感受性(肯定的あるいは否定的な文の好みを示すか否かに関わらず)に関係しているという仮説を検証する。 本研究の結果は,低次セマンティクスが正の極性感度(肯定的文脈への嗜好)をもたらすことを含む,次数セマンティクスと極性感度を関連づける既存の言語学的観察と互換性がある。 この手法は言語学において、仮説を詳述し、実験結果を解釈するだけでなく、言語モデルにおける言語表現のより深い評価にも利用できる。

We extend the artificial language learning experimental paradigm from psycholinguistics and apply it to pre-trained language models -- specifically, BERT (Devlin et al., 2019). We treat the model as a subject in an artificial language learning experimental setting: in order to learn the relation between two linguistic properties A and B, we introduce a set of new, non-existent, linguistic items, give the model information about their variation along property A, then measure to what extent the model learns property B for these items as a result of training. We show this method at work for degree modifiers (expressions like "slightly", "very", "rather", "extremely") and test the hypothesis that the degree expressed by modifiers (low, medium or high degree) is related to their sensitivity to sentence polarity (whether they show preference for affirmative or negative sentences or neither). Our experimental results are compatible with existing linguistic observations that relate degree semantics to polarity-sensitivity , including the main one: low degree semantics leads to positive polarity sensitivity (that is, to preference towards affirmative contexts). The method can be used in linguistics to elaborate on hypotheses and interpret experimental results, as well as for more insightful evaluation of linguistic representations in language models.
翻訳日:2021-09-16 04:45:21 公開日:2021-09-13
# (参考訳) コントラストプリトレーニングと微調整によるマイナショットインテント検出 [全文訳有]

Few-Shot Intent Detection via Contrastive Pre-Training and Fine-Tuning ( http://arxiv.org/abs/2109.06349v1 )

ライセンス: CC BY 4.0
Jianguo Zhang, Trung Bui, Seunghyun Yoon, Xiang Chen, Zhiwei Liu, Congying Xia, Quan Hung Tran, Walter Chang, Philip Yu(参考訳) 本研究では,多くの意図がきめ細かで意味的に類似した,より難易度の高いインテント検出シナリオに注目する。 本稿では,コントラストプリトレーニングと微調整による簡易かつ効果的なインテント検出スキーマを提案する。 具体的には、まず、収集されたインテントデータセット上で、自己教師付きコントラストプリトレーニングを行い、ラベルを使用せずに、意味的に類似した発話を識別することを暗黙的に学習する。 次に,同じ意図から発話を明示的に引き寄せ,異なる意図を越えて発話を遠くへ押し上げる,教師付きコントラスト学習と共に,少数ショットの意図検出を行う。 実験の結果,提案手法は,5ショットと10ショットの条件下での3つの挑戦意図検出データセットに対して,最先端の性能を実現する。

In this work, we focus on a more challenging few-shot intent detection scenario where many intents are fine-grained and semantically similar. We present a simple yet effective few-shot intent detection schema via contrastive pre-training and fine-tuning. Specifically, we first conduct self-supervised contrastive pre-training on collected intent datasets, which implicitly learns to discriminate semantically similar utterances without using any labels. We then perform few-shot intent detection together with supervised contrastive learning, which explicitly pulls utterances from the same intent closer and pushes utterances across different intents farther. Experimental results show that our proposed method achieves state-of-the-art performance on three challenging intent detection datasets under 5-shot and 10-shot settings.
翻訳日:2021-09-16 04:31:34 公開日:2021-09-13
# (参考訳) POPCORN: 一貫性の規則化と隣り合うプログレッシブな擬似ラベル [全文訳有]

POPCORN: Progressive Pseudo-labeling with Consistency Regularization and Neighboring ( http://arxiv.org/abs/2109.06361v1 )

ライセンス: CC BY-SA 4.0
Reda Abdellah Kamraoui, Vinh-Thong Ta, Nicolas Papadakis, Fanny Compaire, Jos\'e V Manjon, Pierrick Coup\'e(参考訳) 半教師付き学習(SSL)は、注釈付き画像の不足と、未確認領域へのメソッドの一般化の欠如を補うためにラベルのないデータを使用する。 本研究では,画像分割のための一貫性正規化と擬似ラベルを組み合わせた新しい手法popcornを提案する。 提案フレームワークは高レベル正規化を用いてセグメンテーションモデルを制約し、類似のセグメンテーションを持つ画像に対して類似の潜在機能を使用する。 POPCORNは近接グラフを推定し、より簡単なグラフからより難しいグラフにデータを選択し、正確な擬似ラベルを確実にし、確認バイアスを制限する。 多発性硬化性病変のセグメンテーションに応用し,他の最先端SSL戦略と比較して競合性を示す。

Semi-supervised learning (SSL) uses unlabeled data to compensate for the scarcity of annotated images and the lack of method generalization to unseen domains, two usual problems in medical segmentation tasks. In this work, we propose POPCORN, a novel method combining consistency regularization and pseudo-labeling designed for image segmentation. The proposed framework uses high-level regularization to constrain our segmentation model to use similar latent features for images with similar segmentations. POPCORN estimates a proximity graph to select data from easiest ones to more difficult ones, in order to ensure accurate pseudo-labeling and to limit confirmation bias. Applied to multiple sclerosis lesion segmentation, our method demonstrates competitive results compared to other state-of-the-art SSL strategies.
翻訳日:2021-09-16 04:20:56 公開日:2021-09-13
# (参考訳) センサ対向特性:3次元物体検出センサ融合モデルのロバスト性の解析 [全文訳有]

Sensor Adversarial Traits: Analyzing Robustness of 3D Object Detection Sensor Fusion Models ( http://arxiv.org/abs/2109.06363v1 )

ライセンス: CC BY 4.0
Won Park, Nan Li, Qi Alfred Chen, Z. Morley Mao(参考訳) 2次元RGB画像データとLIDARセンサーからの3Dデータの両方を入力として利用するマルチモーダル3Dオブジェクト検出モデルである。 本研究では,高性能でオープンソースなセンサ融合モデルアーキテクチャの敵攻撃に対するロバスト性を初めて分析し,敵攻撃のリスクを自動的に軽減する追加センサの使用という一般的な信念に挑戦する。 LIDARセンサーを使用しているにもかかわらず、このモデルは、失明、普遍パッチ、偽造など、目的に作られた画像ベースの敵攻撃に対して脆弱であることがわかった。 根本的な理由を特定した後、いくつかの潜在的な防御を探求し、センサー融合モデルの改善を推奨する。

A critical aspect of autonomous vehicles (AVs) is the object detection stage, which is increasingly being performed with sensor fusion models: multimodal 3D object detection models which utilize both 2D RGB image data and 3D data from a LIDAR sensor as inputs. In this work, we perform the first study to analyze the robustness of a high-performance, open source sensor fusion model architecture towards adversarial attacks and challenge the popular belief that the use of additional sensors automatically mitigate the risk of adversarial attacks. We find that despite the use of a LIDAR sensor, the model is vulnerable to our purposefully crafted image-based adversarial attacks including disappearance, universal patch, and spoofing. After identifying the underlying reason, we explore some potential defenses and provide some recommendations for improved sensor fusion models.
翻訳日:2021-09-16 04:12:42 公開日:2021-09-13
# (参考訳) 熱マップから画像分類器の構造記述へ [全文訳有]

From Heatmaps to Structural Explanations of Image Classifiers ( http://arxiv.org/abs/2109.06365v1 )

ライセンス: CC BY 4.0
Li Fuxin, Zhongang Qi, Saeed Khorram, Vivswan Shitole, Prasad Tadepalli, Minsuk Kahng, Alan Fern(参考訳) 本稿では,画像分類器の説明における過去数年間の取り組みを,ネガティブな結果と洞察を取り入れた形で要約する。 論文は、人間の言語概念に頼らずに、深層ネットワークから純粋にハイレベルな概念をいくつか抽出し視覚化しようとする、説明可能なニューラルネットワーク(xnn)を説明することから始まります。 これにより、ユーザーは直感的でないネットワーク分類を理解し、異なる種類のカモメを識別する難しいきめ細かな分類タスクにおいて、ユーザパフォーマンスを大幅に向上する。 I-GOS と iGOS++ は,ヒートマップ生成における局所的な最適化を回避するため,全解像度での性能向上を実現している。 それらの視覚化の開発において,かなりの数の画像に対して,分類器は複数の異なる経路を持ち,確実な予測に到達できることに気付いた。 これは、ビームサーチを利用して単一の画像に対して複数の粗いヒートマップを見つけ出し、画像領域の異なる組み合わせが分類器の信頼性にどのように影響するかを捉えることで、一連のヒートマップをコンパクトに視覚化する手法です。 研究プロセスを通じて、深いネットワーク説明の構築に関する洞察、複数の説明の存在と頻度、説明を機能させる取引の様々なトリックについて多くを学びました。 本稿では、これらの洞察と意見を読者と共有し、その一部が将来の研究者にとって説明可能な深層学習に役立てることを期待する。

This paper summarizes our endeavors in the past few years in terms of explaining image classifiers, with the aim of including negative results and insights we have gained. The paper starts with describing the explainable neural network (XNN), which attempts to extract and visualize several high-level concepts purely from the deep network, without relying on human linguistic concepts. This helps users understand network classifications that are less intuitive and substantially improves user performance on a difficult fine-grained classification task of discriminating among different species of seagulls. Realizing that an important missing piece is a reliable heatmap visualization tool, we have developed I-GOS and iGOS++ utilizing integrated gradients to avoid local optima in heatmap generation, which improved the performance across all resolutions. During the development of those visualizations, we realized that for a significant number of images, the classifier has multiple different paths to reach a confident prediction. This has lead to our recent development of structured attention graphs (SAGs), an approach that utilizes beam search to locate multiple coarse heatmaps for a single image, and compactly visualizes a set of heatmaps by capturing how different combinations of image regions impact the confidence of a classifier. Through the research process, we have learned much about insights in building deep network explanations, the existence and frequency of multiple explanations, and various tricks of the trade that make explanations work. In this paper, we attempt to share those insights and opinions with the readers with the hope that some of them will be informative for future researchers on explainable deep learning.
翻訳日:2021-09-16 04:03:24 公開日:2021-09-13
# 共有埋め込み空間における多言語性の解析

A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space ( http://arxiv.org/abs/2109.06324v1 )

ライセンス: Link先を確認
Alex Jones and William Yang Wang and Kyle Mahowald(参考訳) 言語横断モデルでは、多くの異なる言語の表現は同じ空間に生きている。 本稿では、101言語と5,050言語ペアの言語間訓練型言語モデルにおける文レベルのアライメントに影響する言語的・非言語的要因について検討する。 BERT-based LaBSE と BiLSTM-based LASER をモデルとして,Bible をコーパスとして,bitext 検索性能,ベクトル空間アライメントと同型性の4つの本質的な尺度とともに,言語間アライメントのタスクベース尺度を計算した。 次に,これらのアライメント指標の予測要因として,言語的,準言語的,訓練的特徴について検討する。 分析の結果, 語順の一致と形態的複雑性の一致が, 言語間関係の最も強い予測因子であることがわかった。 また,家庭内学習データは,言語固有の学習データよりも強い予測因子として注目する。 形態素分割が英語とイヌクティトゥットのアライメントに与える影響を検証し,異なるコーパスから66個のゼロショット言語対の同型に対する単語順一致の効果を検証した。 実験のデータとコードを公開しています。

In cross-lingual language models, representations for many different languages live in the same space. Here, we investigate the linguistic and non-linguistic factors affecting sentence-level alignment in cross-lingual pretrained language models for 101 languages and 5,050 language pairs. Using BERT-based LaBSE and BiLSTM-based LASER as our models, and the Bible as our corpus, we compute a task-based measure of cross-lingual alignment in the form of bitext retrieval performance, as well as four intrinsic measures of vector space alignment and isomorphism. We then examine a range of linguistic, quasi-linguistic, and training-related features as potential predictors of these alignment metrics. The results of our analyses show that word order agreement and agreement in morphological complexity are two of the strongest linguistic predictors of cross-linguality. We also note in-family training data as a stronger predictor than language-specific training data across the board. We verify some of our linguistic findings by looking at the effect of morphological segmentation on English-Inuktitut alignment, in addition to examining the effect of word order agreement on isomorphism for 66 zero-shot language pairs from a different corpus. We make the data and code for our experiments publicly available.
翻訳日:2021-09-15 15:59:53 公開日:2021-09-13
# multi-sentence resampling:データセット長バイアスとビームサーチ劣化の緩和のための簡単なアプローチ

Multi-Sentence Resampling: A Simple Approach to Alleviate Dataset Length Bias and Beam-Search Degradation ( http://arxiv.org/abs/2109.06253v1 )

ライセンス: Link先を確認
Ivan Provilkov and Andrey Malinin(参考訳) ニューラルマシン翻訳(nmt)はビーム探索の問題に苦しむことが知られており、ある時点でビームサイズが増加すると、全体的な翻訳品質が低下する。 この効果は特に長文で顕著である。 主に自己回帰型NMTモデルにおいて、この現象を分析する多くの研究が行われたが、その根本原因についてはまだ合意が得られていない。 本研究では,NMTおよび自動音声認識(ASR)において,大きなビームによる品質劣化の原因となる誤りを解析する。 本研究では, 大きなビームによる品質劣化に強く寄与する要因として, \textit{dataset length-bias} - \textit{NMT datas is strongly biased to short sentences} を挙げる。 この問題を緩和するために、新しいデータ拡張技術 -- \textit{Multi-Sentence Resampling (MSR) を提案する。 このテクニックはトレーニング例を拡張し、元のデータセットから複数の文を連結して長いトレーニング例を作成する。 我々は,MSRがビームサイズの増加に伴う劣化を著しく低減し,IWSTL$15$En-Vi,IWST L$17$En-Fr,WMT$14$En -Deデータセットの最終的な翻訳品質を向上させることを示した。

Neural Machine Translation (NMT) is known to suffer from a beam-search problem: after a certain point, increasing beam size causes an overall drop in translation quality. This effect is especially pronounced for long sentences. While much work was done analyzing this phenomenon, primarily for autoregressive NMT models, there is still no consensus on its underlying cause. In this work, we analyze errors that cause major quality degradation with large beams in NMT and Automatic Speech Recognition (ASR). We show that a factor that strongly contributes to the quality degradation with large beams is \textit{dataset length-bias} - \textit{NMT datasets are strongly biased towards short sentences}. To mitigate this issue, we propose a new data augmentation technique -- \textit{Multi-Sentence Resampling (MSR)}. This technique extends the training examples by concatenating several sentences from the original dataset to make a long training example. We demonstrate that MSR significantly reduces degradation with growing beam size and improves final translation quality on the IWSTL$15$ En-Vi, IWSTL$17$ En-Fr, and WMT$14$ En-De datasets.
翻訳日:2021-09-15 15:59:12 公開日:2021-09-13
# 不確実性を考慮した機械翻訳評価

Uncertainty-Aware Machine Translation Evaluation ( http://arxiv.org/abs/2109.06352v1 )

ライセンス: Link先を確認
Taisiya Glushkova, Chrysoula Zerva, Ricardo Rei, Andr\'e F. T. Martins(参考訳) 機械翻訳の品質を評価するために、最近いくつかのニューラルベースメトリクスが提案されている。 しかし、これらはすべて、セグメントレベルで限られた情報を提供する点推定を利用する。 これは、ノイズ、バイアス、そして人間の判断の不足で訓練され、しばしば信頼性の低い品質予測をもたらすため、悪化する。 本稿では,不確実性を考慮したMT評価を導入し,予測品質の信頼性を解析する。 COMETフレームワークとモンテカルロのドロップアウトとディープアンサンブルの2つの不確実性推定手法を組み合わせることで,信頼区間とともに品質スコアを得る。 MQMアノテーションを付加したQT21データセットとWMT20メトリクスタスクから,複数の言語ペアを対象とした不確実性を考慮したMT評価手法の性能を比較した。 様々な基準を用いて実験を行い,不確実性を考慮した品質評価(参照なし)の有用性について検討した。

Several neural-based metrics have been recently proposed to evaluate machine translation quality. However, all of them resort to point estimates, which provide limited information at segment level. This is made worse as they are trained on noisy, biased and scarce human judgements, often resulting in unreliable quality predictions. In this paper, we introduce uncertainty-aware MT evaluation and analyze the trustworthiness of the predicted quality. We combine the COMET framework with two uncertainty estimation methods, Monte Carlo dropout and deep ensembles, to obtain quality scores along with confidence intervals. We compare the performance of our uncertainty-aware MT evaluation methods across multiple language pairs from the QT21 dataset and the WMT20 metrics task, augmented with MQM annotations. We experiment with varying numbers of references and further discuss the usefulness of uncertainty-aware quality estimation (without references) to flag possibly critical translation mistakes.
翻訳日:2021-09-15 15:53:34 公開日:2021-09-13
# 経路十分説明によるモデル理解の改善に向けて

Towards Better Model Understanding with Path-Sufficient Explanations ( http://arxiv.org/abs/2109.06181v1 )

ライセンス: Link先を確認
Ronny Luss, Amit Dhurandhar(参考訳) 特徴に基づく局所帰属法は、説明可能な人工知能(XAI)文学において最も一般的なものである。 標準相関を超えて、近年、入力の分類を正当化するのに最小限の量(viz.pertinent positives)を強調する手法が提案されている。 最小限の十分性は魅力的な性質であるが、結果として生じる説明は、しばしば人間がモデルの局所的な振る舞いを理解して評価するに足りず、全体的な品質を判断することは困難である。 これらの制約を克服するため,本研究では,厳格に縮小されたサイズ(または値)の入力に対する十分な説明列を,元の入力から最小の十分な説明列に出力するパス十分説明法 (PSEM) を提案する。 これらの主張を質的かつ定量的に検証し、3つのモード(画像、表、テキスト)でPSEMの利点を示す実験を行った。 ユーザスタディでは、(多くの)ユーザがモデルによってなされた予測を正しく決定できる地域行動を伝える方法の強みを描いている。

Feature based local attribution methods are amongst the most prevalent in explainable artificial intelligence (XAI) literature. Going beyond standard correlation, recently, methods have been proposed that highlight what should be minimally sufficient to justify the classification of an input (viz. pertinent positives). While minimal sufficiency is an attractive property, the resulting explanations are often too sparse for a human to understand and evaluate the local behavior of the model, thus making it difficult to judge its overall quality. To overcome these limitations, we propose a novel method called Path-Sufficient Explanations Method (PSEM) that outputs a sequence of sufficient explanations for a given input of strictly decreasing size (or value) -- from original input to a minimally sufficient explanation -- which can be thought to trace the local boundary of the model in a smooth manner, thus providing better intuition about the local model behavior for the specific input. We validate these claims, both qualitatively and quantitatively, with experiments that show the benefit of PSEM across all three modalities (image, tabular and text). A user study depicts the strength of the method in communicating the local behavior, where (many) users are able to correctly determine the prediction made by a model.
翻訳日:2021-09-15 15:51:36 公開日:2021-09-13
# 検閲フィードバックによるオンラインアルゴリズム選択のための機械学習

Machine Learning for Online Algorithm Selection under Censored Feedback ( http://arxiv.org/abs/2109.06234v1 )

ライセンス: Link先を確認
Alexander Tornede and Viktor Bengs and Eyke H\"ullermeier(参考訳) オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。 SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。 後者はヘビーテール分布を示すことが知られているため、アルゴリズムは通常、事前定義された上限時間を超えると停止される。 結果として、データ駆動方式でアルゴリズム選択戦略を最適化するために使用される機械学習手法は、正しい検閲されたサンプルを扱う必要がある。 本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。 さらに、ランタイム指向の損失に適応し、時間軸に依存しない空間的および時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。 Aslibベンチマークの適応版に対する広範な実験的評価において、トンプソンサンプリングに基づく理論上十分に確立された手法が、既存の手法と比較して特に強力で改善されていることを示す。

In online algorithm selection (OAS), instances of an algorithmic problem class are presented to an agent one after another, and the agent has to quickly select a presumably best algorithm from a fixed set of candidate algorithms. For decision problems such as satisfiability (SAT), quality typically refers to the algorithm's runtime. As the latter is known to exhibit a heavy-tail distribution, an algorithm is normally stopped when exceeding a predefined upper time limit. As a consequence, machine learning methods used to optimize an algorithm selection strategy in a data-driven manner need to deal with right-censored samples, a problem that has received little attention in the literature so far. In this work, we revisit multi-armed bandit algorithms for OAS and discuss their capability of dealing with the problem. Moreover, we adapt them towards runtime-oriented losses, allowing for partially censored data while keeping a space- and time-complexity independent of the time horizon. In an extensive experimental evaluation on an adapted version of the ASlib benchmark, we demonstrate that theoretically well-founded methods based on Thompson sampling perform specifically strong and improve in comparison to existing methods.
翻訳日:2021-09-15 15:51:15 公開日:2021-09-13
# オフポリシー評価における国家の関連性

State Relevance for Off-Policy Evaluation ( http://arxiv.org/abs/2109.06310v1 )

ライセンス: Link先を確認
Simon P. Shen, Yecheng Jason Ma, Omer Gottesman, Finale Doshi-Velez(参考訳) 政治外評価(OPE)に対する重要度サンプリングに基づく推定器は、その単純さ、不偏性、そして比較的少数の仮定に依存している。 しかし、特に軌道長が異なる場合には、これらの推定値のばらつきがしばしば高い。 本研究では,特定の状態に関連する確率比を戦略的に省略することで分散を減少させる推定器であるosirisを導入する。 我々は、OSIRISが偏りがなく、通常の重要サンプリングよりも分散が低い条件を定式化し、これらの特性を実証的に示す。

Importance sampling-based estimators for off-policy evaluation (OPE) are valued for their simplicity, unbiasedness, and reliance on relatively few assumptions. However, the variance of these estimators is often high, especially when trajectories are of different lengths. In this work, we introduce Omitting-States-Irre levant-to-Return Importance Sampling (OSIRIS), an estimator which reduces variance by strategically omitting likelihood ratios associated with certain states. We formalize the conditions under which OSIRIS is unbiased and has lower variance than ordinary importance sampling, and we demonstrate these properties empirically.
翻訳日:2021-09-15 15:49:10 公開日:2021-09-13
# 勾配自由最適化アルゴリズムを用いたTensorflowのCPUバックエンドの自動チューニング

Automatic Tuning of Tensorflow's CPU Backend using Gradient-Free Optimization Algorithms ( http://arxiv.org/abs/2109.06266v1 )

ライセンス: Link先を確認
Derssie Mebratu, Niranjan Hasabnis, Pietro Mercati, Gaurit Sharma, Shamima Najnin(参考訳) 現代的なディープラーニング(DL)アプリケーションは、TensorFlowやPyTorchといったDLライブラリとフレームワークを使って構築されている。 これらのフレームワークは複雑なパラメータを持ち、優れたトレーニングと推論性能を得るためにそれらをチューニングすることは、DL開発者やデータサイエンティストのような典型的なユーザにとって難しい。 手動チューニングには、DLフレームワークのユーザ制御可能なパラメータと基盤となるハードウェアの深い知識が必要である。 それは遅くて退屈なプロセスであり、通常、準最適ソリューションを提供する。 本稿では、dlフレームワークのチューニングパラメータの問題をブラックボックス最適化問題として、トレーニングと推論性能を改善するために扱う。 次に、TensorFlowのCPUバックエンドのパラメータをチューニングするために、ベイズ最適化(BO)、遺伝的アルゴリズム(GA)、Nelder-Mead Simplex(NMS)の適用性と有効性を検討する。 以前の研究は、同様の問題に対するNelder-Mead Simplexの使用を既に調査しているが、他の一般的なアルゴリズムの適用性に関する洞察を与えていない。 そのために、TensorFlowのCPUバックエンドをさまざまなDLモデルでチューニングする3つのアルゴリズムの体系的な比較分析を提供する。 その結果,ベイジアン最適化がほとんどのモデルで最良であることがわかった。 しかし、最良の結果を提供しないケースもある。

Modern deep learning (DL) applications are built using DL libraries and frameworks such as TensorFlow and PyTorch. These frameworks have complex parameters and tuning them to obtain good training and inference performance is challenging for typical users, such as DL developers and data scientists. Manual tuning requires deep knowledge of the user-controllable parameters of DL frameworks as well as the underlying hardware. It is a slow and tedious process, and it typically delivers sub-optimal solutions. In this paper, we treat the problem of tuning parameters of DL frameworks to improve training and inference performance as a black-box optimization problem. We then investigate applicability and effectiveness of Bayesian optimization (BO), genetic algorithm (GA), and Nelder-Mead simplex (NMS) to tune the parameters of TensorFlow's CPU backend. While prior work has already investigated the use of Nelder-Mead simplex for a similar problem, it does not provide insights into the applicability of other more popular algorithms. Towards that end, we provide a systematic comparative analysis of all three algorithms in tuning TensorFlow's CPU backend on a variety of DL models. Our findings reveal that Bayesian optimization performs the best on the majority of models. There are, however, cases where it does not deliver the best results.
翻訳日:2021-09-15 15:48:30 公開日:2021-09-13
# 超音波イメージングのための注意機構を備えた物理駆動型ドメイン固有トランスポーターフレームワーク

Physics Driven Domain Specific Transporter Framework with Attention Mechanism for Ultrasound Imaging ( http://arxiv.org/abs/2109.06346v1 )

ライセンス: Link先を確認
Arpan Tripathi, Abhilash Rakkunedeth, Mahesh Raveendranatha Panicker, Jack Zhang, Naveenjyote Boora, Jessica Knight, Jacob Jaremko, Yale Tung Chen, Kiran Vishnu Narayan, Kesavadas C(参考訳) 医用画像における深層学習技術のほとんどの応用は監視されており、大量のラベル付きデータを必要とするが、これは高価であり、専門家による注意深い注記を必要とする。 本稿では,超音波イメージングの応用において重要なポイントを識別するための注意機構を備えた,教師なし,物理駆動のドメイン固有トランスポーターフレームワークを提案する。 提案手法は,超音波映像における構造変化が高い領域を,簡潔な幾何学表現で強調するキーポイントを同定する。 物理駆動の領域固有情報を特徴確率マップとして組み込み、ラドン変換を用いて特定の方向の特徴を強調する。 提案したフレームワークは、130個の肺超音波(LUS)ビデオと113個のワイスト超音波(WUS)ビデオでトレーニングされ、100個の肺超音波(LUS)ビデオと58個のワイスト超音波(WUS)ビデオで検証されている。 両データセットの画像は専門家によって独立に評価され、LASのA線、B線、胸骨、ラジアル・メタフィジカル、WUSビデオのラジアル・エピフィジカル、手根骨などの臨床的な特徴を識別した。 両データセットから検出されたキーポイントは,専門家が識別した画像ランドマークの検出において高い感度(lus = 99\%, wus = 74\%)を示した。 また, 肺画像の正常な分類と異常な分類に利用することにより, 3倍のクロスバリデーションを併用した共同分類作業において, 事前訓練を受けなくても, 平均99%, 平均F1スコアが95%の精度を達成できた。 提案手法の純粋に教師なしな性質から,緊急時および要介護時の各種検査における超音波検査の適用性を高めるキーポイント検出手法を期待する。

Most applications of deep learning techniques in medical imaging are supervised and require a large number of labeled data which is expensive and requires many hours of careful annotation by experts. In this paper, we propose an unsupervised, physics driven domain specific transporter framework with an attention mechanism to identify relevant key points with applications in ultrasound imaging. The proposed framework identifies key points that provide a concise geometric representation highlighting regions with high structural variation in ultrasound videos. We incorporate physics driven domain specific information as a feature probability map and use the radon transform to highlight features in specific orientations. The proposed framework has been trained on130 Lung ultrasound (LUS) videos and 113 Wrist ultrasound (WUS) videos and validated on 100 Lung ultrasound (LUS) videos and 58 Wrist ultrasound (WUS) videos acquired from multiple centers across the globe. Images from both datasets were independently assessed by experts to identify clinically relevant features such as A-lines, B-lines and pleura from LUS and radial metaphysis, radial epiphysis and carpal bones from WUS videos. The key points detected from both datasets showed high sensitivity (LUS = 99\% , WUS = 74\%) in detecting the image landmarks identified by experts. Also, on employing for classification of the given lung image into normal and abnormal classes, the proposed approach, even with no prior training, achieved an average accuracy of 97\% and an average F1-score of 95\% respectively on the task of co-classification with 3 fold cross-validation. With the purely unsupervised nature of the proposed approach, we expect the key point detection approach to increase the applicability of ultrasound in various examination performed in emergency and point of care.
翻訳日:2021-09-15 15:45:48 公開日:2021-09-13
# 畳み込みネットワークのための学習可能な離散ウェーブレットプール(LDW-Pooling)

Learnable Discrete Wavelet Pooling (LDW-Pooling) For Convolutional Networks ( http://arxiv.org/abs/2109.06638v1 )

ライセンス: Link先を確認
Jun-Wei Hsieh, Ming-Ching Chang, Ping-Yang Chen, Bor-Shiun Wang, Lipeng Ke, Siwei Lyu(参考訳) ポーリングは、機能集約と抽出のためのモダンなディープCNNアーキテクチャにおいて、単純だが必須のレイヤーである。 典型的なcnn設計はconv層とアクティベーション関数に焦点を当て、プール層を少ない選択肢で残している。 学習離散ウェーブレットプーリング(LDW-Pooling)を導入し、標準的なプール操作を置き換え、精度と効率を向上した特徴抽出を行う。 ウェーブレット理論に動機づけられ, 2次元特徴マップ上でのプーリングに, ローパス (l) とハイパス (h) フィルタを水平および垂直に採用した。 特徴信号は4つのサブバンド(ll, lh, hl, hh)に分解され、機能を維持し、情報の落下を避ける。 ウェーブレット変換は、プール後の特徴を完全に保存し、回収することができる。 次に,重要な特徴と代表的特徴を細かく選択するために,エネルギーに基づく注意学習を採用する。 LDW-PoolingはWaveletPoolingやLiftPoolingといった他の最先端のプール技術と比較して効率的かつ効率的である。 広範囲な実験的検証により、ldwプールは幅広い標準cnnアーキテクチャに適用でき、一貫して標準(max、平均、混合、確率的)プール操作を上回ることが示されている。

Pooling is a simple but essential layer in modern deep CNN architectures for feature aggregation and extraction. Typical CNN design focuses on the conv layers and activation functions, while leaving the pooling layers with fewer options. We introduce the Learning Discrete Wavelet Pooling (LDW-Pooling) that can be applied universally to replace standard pooling operations to better extract features with improved accuracy and efficiency. Motivated from the wavelet theory, we adopt the low-pass (L) and high-pass (H) filters horizontally and vertically for pooling on a 2D feature map. Feature signals are decomposed into four (LL, LH, HL, HH) subbands to retain features better and avoid information dropping. The wavelet transform ensures features after pooling can be fully preserved and recovered. We next adopt an energy-based attention learning to fine-select crucial and representative features. LDW-Pooling is effective and efficient when compared with other state-of-the-art pooling techniques such as WaveletPooling and LiftPooling. Extensive experimental validation shows that LDW-Pooling can be applied to a wide range of standard CNN architectures and consistently outperform standard (max, mean, mixed, and stochastic) pooling operations.
翻訳日:2021-09-15 15:44:54 公開日:2021-09-13
# 動的価格決定のためのセミパラメトリックモデルを用いたポリシー最適化

Policy Optimization Using Semiparametric Models for Dynamic Pricing ( http://arxiv.org/abs/2109.06368v1 )

ライセンス: Link先を確認
Jianqing Fan, Yongyi Guo, Mengxin Yu(参考訳) 本稿では,商品の市場価値が観測された特徴量と市場のノイズで線形である状況動的価格問題について検討する。 商品は一度に1つ販売され、販売の成功または失敗を示す二分応答のみが観察される。 我々のモデル設定はJavanmardやNazerzadeh [2019]と似ているが、需要曲線を半パラメトリックモデルに拡張し、パラメトリック成分と非パラメトリック成分の両方を動的に学習する必要がある。 一般化線形モデルからの半パラメトリック推定と未知リンクとオンライン意思決定を組み合わせた動的統計学習と意思決定政策を提案し,後悔(収益の最大化)を最小限に抑える。 穏やかな条件下では、市場のノイズ c.d.f. $f(\cdot)$ が $m$-th order derivative (m\geq 2$) を持つ場合、我々のポリシーは$t$ が時平線である$\tilde{o}_{d}(t^{\frac{2m+1}{4m-1}})$ の残念な上限を達成し、$\tilde{o}_{d}$ は対数項と特徴 $d$ の次元性を隠す順序である。 上界はさらに$\tilde{O}_{d}(\sqrt{T})$に還元される:$F$が超滑らかでフーリエ変換が指数関数的に崩壊する。 地平線$T$への依存に関して、これらの上界は$\Omega(\sqrt{T})$に近く、$F$がパラメトリック類に属する下界である。 さらに, これらの結果を, 強い混合条件下で動的に依存する製品の特徴を持つ場合に一般化する。

In this paper, we study the contextual dynamic pricing problem where the market value of a product is linear in its observed features plus some market noise. Products are sold one at a time, and only a binary response indicating success or failure of a sale is observed. Our model setting is similar to Javanmard and Nazerzadeh [2019] except that we expand the demand curve to a semiparametric model and need to learn dynamically both parametric and nonparametric components. We propose a dynamic statistical learning and decision-making policy that combines semiparametric estimation from a generalized linear model with an unknown link and online decision-making to minimize regret (maximize revenue). Under mild conditions, we show that for a market noise c.d.f. $F(\cdot)$ with $m$-th order derivative ($m\geq 2$), our policy achieves a regret upper bound of $\tilde{O}_{d}(T^{\frac{2m+1}{4m-1}})$, where $T$ is time horizon and $\tilde{O}_{d}$ is the order that hides logarithmic terms and the dimensionality of feature $d$. The upper bound is further reduced to $\tilde{O}_{d}(\sqrt{T})$ if $F$ is super smooth whose Fourier transform decays exponentially. In terms of dependence on the horizon $T$, these upper bounds are close to $\Omega(\sqrt{T})$, the lower bound where $F$ belongs to a parametric class. We further generalize these results to the case with dynamically dependent product features under the strong mixing condition.
翻訳日:2021-09-15 15:44:00 公開日:2021-09-13
# STraTA: Few-shot Learningの改善を目的としたタスク強化によるセルフトレーニング

STraTA: Self-Training with Task Augmentation for Better Few-shot Learning ( http://arxiv.org/abs/2109.06270v1 )

ライセンス: Link先を確認
Tu Vu, Minh-Thang Luong, Quoc V. Le, Grady Simon, Mohit Iyyer(参考訳) 最近のNLPタスクへの取り組みの成功にもかかわらず、大規模な事前学習言語モデルは、少数のトレーニング例しか使用できない数ショット設定では、パフォーマンスが良くない。 この問題に対処するため,未ラベルデータの有効活用を目的とした2つの重要なアイデアに基づくアプローチである,タスク拡張による自己評価のためのSTraTAを提案する。 まず、strataは、ターゲットタスク非ラベルテキストから補助タスクの微調整のために大量のデータを合成する新しいテクニックであるtask augmentationを使用する。 第2にstrataは,疑似ラベルデータの広い分布上にタスク拡張によって作成した強塩基モデルをさらに微調整することにより,自己学習を行う。 実験の結果,STraTAは12個のベンチマークでサンプル効率を大幅に向上できることがわかった。 注目すべきは、SST-2感情データセットにおいて、クラス毎に8つのトレーニング例しか持たないSTraTAは、67Kトレーニング例で標準の微調整に匹敵する結果が得られることだ。 分析の結果,タスク強化と自己学習は相補的かつ独立的に有効であることが判明した。

Despite their recent successes in tackling many NLP tasks, large-scale pre-trained language models do not perform as well in few-shot settings where only a handful of training examples are available. To address this shortcoming, we propose STraTA, which stands for Self-Training with Task Augmentation, an approach that builds on two key ideas for effective leverage of unlabeled data. First, STraTA uses task augmentation, a novel technique that synthesizes a large amount of data for auxiliary-task fine-tuning from target-task unlabeled texts. Second, STraTA performs self-training by further fine-tuning the strong base model created by task augmentation on a broad distribution of pseudo-labeled data. Our experiments demonstrate that STraTA can substantially improve sample efficiency across 12 few-shot benchmarks. Remarkably, on the SST-2 sentiment dataset, STraTA, with only 8 training examples per class, achieves comparable results to standard fine-tuning with 67K training examples. Our analyses reveal that task augmentation and self-training are both complementary and independently effective.
翻訳日:2021-09-15 15:43:24 公開日:2021-09-13
# マルチパラレル単語アライメントのためのグラフアルゴリズム

Graph Algorithms for Multiparallel Word Alignment ( http://arxiv.org/abs/2109.06283v1 )

ライセンス: Link先を確認
Ayyoob Imani, Masoud Jalili Sabet, L\"utfi Kerem \c{S}enel, Philipp Dufter, Fran\c{c}ois Yvon, Hinrich Sch\"utze(参考訳) 機械翻訳におけるエンド・ツー・エンドのディープラーニングアプローチの出現に伴い、単語アライメントへの関心は当初減少していたが、近年では再び研究の焦点となっている。 アライメントは、マークアップのようなフォーマットを翻訳されたテキストに転送するタイプ研究に有用であり、機械翻訳システムの復号に使用できる。 同時に、膨大な多言語処理が重要なNLPシナリオとなり、真に多言語である事前学習言語と機械翻訳モデルが提案されている。 しかし、ほとんどのアライメントアルゴリズムはbitextsのみに依存しており、多くの並列コーパスが多重並列であるという事実を生かしていない。 本研究では,初期二言語アライメントの集合をグラフとして表現し,グラフ内の追加エッジを予測することによって,コーパスの多重並列性を利用する。 エッジ予測のための2つのグラフアルゴリズムを提案する。1つはレコメンダシステムに触発され、もう1つはネットワークリンク予測に基づいている。 実験の結果,異なるデータセットのベースラインバイリンガル単語整合器よりもF_1$の最大28%の絶対的な改善が得られた。

With the advent of end-to-end deep learning approaches in machine translation, interest in word alignments initially decreased; however, they have again become a focus of research more recently. Alignments are useful for typological research, transferring formatting like markup to translated texts, and can be used in the decoding of machine translation systems. At the same time, massively multilingual processing is becoming an important NLP scenario, and pretrained language and machine translation models that are truly multilingual are proposed. However, most alignment algorithms rely on bitexts only and do not leverage the fact that many parallel corpora are multiparallel. In this work, we exploit the multiparallelity of corpora by representing an initial set of bilingual alignments as a graph and then predicting additional edges in the graph. We present two graph algorithms for edge prediction: one inspired by recommender systems and one based on network link prediction. Our experimental results show absolute improvements in $F_1$ of up to 28% over the baseline bilingual word aligner in different datasets.
翻訳日:2021-09-15 15:43:06 公開日:2021-09-13
# Program-to-Circuit:プログラム表現と回路翻訳のためのGNNのエクスプロイト

Program-to-Circuit: Exploiting GNNs for Program Representation and Circuit Translation ( http://arxiv.org/abs/2109.06265v1 )

ライセンス: Link先を確認
Nan Wu, Huake He, Yuan Xie, Pan Li, Cong Hao(参考訳) 回路設計は複雑で、ドメイン固有の専門知識を必要とする。 ハードウェアアジャイル開発への道のりで立ち往生している大きな障害の1つは、正確な回路品質評価のかなりの時間を要するプロセスである。 動作言語から回路設計への変換中の回路評価を著しく高速化するために,c/c++プログラムをグラフとして表現することでグラフニューラルネットワーク(gnns)の表現力を活用すべく,プログラムから回路への問題として定式化する。 この作品の目標は4倍である。 まず、40kのC/C++プログラムを含む標準ベンチマークを構築し、それぞれが実際のハードウェア品質指標を持つ回路設計に変換され、この要求の高い回路設計領域をターゲットにした効率的なGNNの開発を容易にする。 第2に、Program-to-Circuit問題に基づいて、14の最先端GNNモデルを分析する。 我々は,既存のGNNでは未解決だが,慎重に扱うべき重要な設計課題を特定する。 目標は、適切な帰納バイアスでGNNを設計するためのドメイン固有の知識を提供することである。 第3に、GNNの一般化評価のための実世界の3つのベンチマークについて論じ、標準プログラムと実ケース間の性能ギャップを分析する。 目標は、限られたトレーニングデータから実世界の大規模回路設計問題への転送学習を可能にすることである。 第4に、Program-to-Circuit問題(Program-to-X framework)は、様々な下流タスクを伴うプログラムベースの分析問題である。 Program-to-CircuitにGNNを適用する際の強度と弱点の深い理解は、Program-to-Xのファミリー全体にとって大きな恩恵となるだろう。 この方向に進む中で、我々は、より多くのGNN努力者が、この高需要のProgram-to-Circuit問題に革命を起こし、プログラムにおけるGNNの表現力を高めることを期待している。

Circuit design is complicated and requires extensive domain-specific expertise. One major obstacle stuck on the way to hardware agile development is the considerably time-consuming process of accurate circuit quality evaluation. To significantly expedite the circuit evaluation during the translation from behavioral languages to circuit designs, we formulate it as a Program-to-Circuit problem, aiming to exploit the representation power of graph neural networks (GNNs) by representing C/C++ programs as graphs. The goal of this work is four-fold. First, we build a standard benchmark containing 40k C/C++ programs, each of which is translated to a circuit design with actual hardware quality metrics, aiming to facilitate the development of effective GNNs targeting this high-demand circuit design area. Second, 14 state-of-the-art GNN models are analyzed on the Program-to-Circuit problem. We identify key design challenges of this problem, which should be carefully handled but not yet solved by existing GNNs. The goal is to provide domain-specific knowledge for designing GNNs with suitable inductive biases. Third, we discuss three sets of real-world benchmarks for GNN generalization evaluation, and analyze the performance gap between standard programs and the real-case ones. The goal is to enable transfer learning from limited training data to real-world large-scale circuit design problems. Fourth, the Program-to-Circuit problem is a representative within the Program-to-X framework, a set of program-based analysis problems with various downstream tasks. The in-depth understanding of strength and weaknesses in applying GNNs on Program-to-Circuit could largely benefit the entire family of Program-to-X. Pioneering in this direction, we expect more GNN endeavors to revolutionize this high-demand Program-to-Circuit problem and to enrich the expressiveness of GNNs on programs.
翻訳日:2021-09-15 15:34:38 公開日:2021-09-13
# アクティブラーニングにおけるサンプリングバイアスの緩和とロバスト性向上

Mitigating Sampling Bias and Improving Robustness in Active Learning ( http://arxiv.org/abs/2109.06321v1 )

ライセンス: Link先を確認
Ranganath Krishnan, Alok Sinha, Nilesh Ahuja, Mahesh Subedar, Omesh Tickoo, Ravi Iyer(参考訳) 本稿では,能動学習におけるサンプリングバイアスを軽減するための簡易かつ効率的な手法を提案する。 教師付き環境下での能動学習に比較学習の損失を生かして教師付き能動学習を導入する。 本研究では,様々な特徴表現の有益データサンプルを,scal(supervised contrastive active learning)とdfm(deep feature modeling)を用いて選択する非バイアスクエリ戦略を提案する。 提案手法は,提案手法によるサンプリングバイアスの低減,最先端の精度の達成,モデルのキャリブレーションを,ベイズ能動学習の26倍,CoreSetの11倍の高速化で実証的に実証した。 提案したSCAL法は,データセットシフトとアウト・オブ・ディストリビューションに対して,ロバスト性が大きく向上する。

This paper presents simple and efficient methods to mitigate sampling bias in active learning while achieving state-of-the-art accuracy and model robustness. We introduce supervised contrastive active learning by leveraging the contrastive loss for active learning under a supervised setting. We propose an unbiased query strategy that selects informative data samples of diverse feature representations with our methods: supervised contrastive active learning (SCAL) and deep feature modeling (DFM). We empirically demonstrate our proposed methods reduce sampling bias, achieve state-of-the-art accuracy and model calibration in an active learning setup with the query computation 26x faster than Bayesian active learning by disagreement and 11x faster than CoreSet. The proposed SCAL method outperforms by a big margin in robustness to dataset shift and out-of-distribution.
翻訳日:2021-09-15 15:34:07 公開日:2021-09-13
# 通信効率からみた形状バイアスの出現

The Emergence of the Shape Bias Results from Communicative Efficiency ( http://arxiv.org/abs/2109.06232v1 )

ライセンス: Link先を確認
Eva Portelance, Michael C. Frank, Dan Jurafsky, Alessandro Sordoni, Romain Laroche(参考訳) 2歳までに、子供は新しい単語のカテゴリーが色やテクスチャではなく物体の形状に基づいていると仮定する傾向があり、この仮定を形バイアス(shape bias)と呼ぶ。 彼らは、介護者の言語が形状に基づくカテゴリーに偏っていることを観察することによって、このバイアスを学ぶと考えられている。 これはニワトリと卵の問題を示しており、子供がそれを学ぶために形バイアスが言語に存在しなければならない場合、そもそもどのようにしてそれが言語で発生したのか? 本稿では, コミュニケーション効率が, 形状バイアスの発生方法と世代間で持続する理由の両方を説明することを提案する。 我々はこの過程を、生のピクセル画像についてコミュニケーションを学ぶ神経新生言語エージェントでモデル化する。 まず,エージェントによる効果的なコミュニケーション戦略の結果として,形状バイアスが出現することを示す。 第二に、コミュニケーションの必要性によってもたらされる圧力は世代にわたって持続する必要があり、エージェントの入力言語における形状バイアスが不十分であることを示す。 これらの結果は、他の学習戦略の操作の前後で、人間の学習者の形状バイアスが出現し、コミュニケーションの圧力によって持続されることを示唆している。

By the age of two, children tend to assume that new word categories are based on objects' shape, rather than their color or texture; this assumption is called the shape bias. They are thought to learn this bias by observing that their caregiver's language is biased towards shape based categories. This presents a chicken and egg problem: if the shape bias must be present in the language in order for children to learn it, how did it arise in language in the first place? In this paper, we propose that communicative efficiency explains both how the shape bias emerged and why it persists across generations. We model this process with neural emergent language agents that learn to communicate about raw pixelated images. First, we show that the shape bias emerges as a result of efficient communication strategies employed by agents. Second, we show that pressure brought on by communicative need is also necessary for it to persist across generations; simply having a shape bias in an agent's input language is insufficient. These results suggest that, over and above the operation of other learning strategies, the shape bias in human learners may emerge and be sustained by communicative pressures.
翻訳日:2021-09-15 15:30:35 公開日:2021-09-13
# 分散確率SLAMグラフにおけるインクリメンタル抽象化

Incremental Abstraction in Distributed Probabilistic SLAM Graphs ( http://arxiv.org/abs/2109.06241v1 )

ライセンス: Link先を確認
Joseph Ortiz, Talfan Evans, Edgar Sucar, Andrew J. Davison(参考訳) シーングラフは、コンパクトでセマンティックなリッチな方法でシーンの重要なコンポーネントを表現するが、抽象的なシーン要素を堅牢に識別し、継続的に変化する複雑なグラフを最適化するという課題から、インクリメンタルなスラム操作では構築が難しい。 2つの新しいコンポーネントに基づいてシーングラフを段階的に構築する分散グラフベースのSLAMフレームワークを提案する。 まず,ニューラルネットワークが特徴に基づく単眼的SLAMシステムの因子グラフに組み込まれた抽象シーン要素を提案する,漸進的な抽象化フレームワークを提案する。 シーン要素は最適化によって確認または拒否され、より高密度でセマンティックでコンパクトな表現となる点を徐々に置き換える。 第2に,新たなルーティング手順により,グラフプロセッサ上での分散推論にgaussian belief propagation(gbp)を用いる。 GBPのイテレーション毎の時間は構造に依存しず、不均一因子グラフの直接推定法よりも高速であることを示す。 我々は,平面抽象化を用いて実屋内データセット上でシステムを実行し,大きな圧縮で主要平面を復元する。

Scene graphs represent the key components of a scene in a compact and semantically rich way, but are difficult to build during incremental SLAM operation because of the challenges of robustly identifying abstract scene elements and optimising continually changing, complex graphs. We present a distributed, graph-based SLAM framework for incrementally building scene graphs based on two novel components. First, we propose an incremental abstraction framework in which a neural network proposes abstract scene elements that are incorporated into the factor graph of a feature-based monocular SLAM system. Scene elements are confirmed or rejected through optimisation and incrementally replace the points yielding a more dense, semantic and compact representation. Second, enabled by our novel routing procedure, we use Gaussian Belief Propagation (GBP) for distributed inference on a graph processor. The time per iteration of GBP is structure-agnostic and we demonstrate the speed advantages over direct methods for inference of heterogeneous factor graphs. We run our system on real indoor datasets using planar abstractions and recover the major planes with significant compression.
翻訳日:2021-09-15 15:29:48 公開日:2021-09-13
# Honeypotユーザによるアクティブディレクトリグラフの拡張のための深層生成モデル

Deep Generative Models to Extend Active Directory Graphs with Honeypot Users ( http://arxiv.org/abs/2109.06180v1 )

ライセンス: Link先を確認
Ondrej Lukas and Sebastian Garcia(参考訳) Active Directory(AD)は、リソースへのアクセス管理における中心的な役割から、大企業にとって重要な要素である。 ADは組織内のすべてのユーザによって使用されているため、攻撃者を検出するのは難しい。 広告構造にフェイクユーザー(honeyusers)を生成・配置し,攻撃を検出することを提案する。 しかし、攻撃者を惹きつける者はいない。 本手法は, 高度に位置決めされたミツバチでAD構造を豊かにする変分オートエンコーダを用いてハツバチを生成する。 最初はAD内の元のノードとエッジの埋め込みを学習し、次に修正された双方向DAG-RNNを用いてノード表現の潜在空間の確率分布のパラメータを符号化する。 最後に、このディストリビューションからノードをサンプリングし、MLPを使用してノードが接続されている場所を決定する。 このモデルは生成したADと元のADとの類似性、新しいノードの位置、GraphRNNとの類似性、そして最終的に実際の侵入者が生成したAD構造を攻撃して、ミツバチを選択するかどうかを確認することによって評価された。 以上の結果から,我々の機械学習モデルでは既存のAD構造によく配置されたハニーザーを生成するのに十分であることがわかった。

Active Directory (AD) is a crucial element of large organizations, given its central role in managing access to resources. Since AD is used by all users in the organization, it is hard to detect attackers. We propose to generate and place fake users (honeyusers) in AD structures to help detect attacks. However, not any honeyuser will attract attackers. Our method generates honeyusers with a Variational Autoencoder that enriches the AD structure with well-positioned honeyusers. It first learns the embeddings of the original nodes and edges in the AD, then it uses a modified Bidirectional DAG-RNN to encode the parameters of the probability distribution of the latent space of node representations. Finally, it samples nodes from this distribution and uses an MLP to decide where the nodes are connected. The model was evaluated by the similarity of the generated AD with the original, by the positions of the new nodes, by the similarity with GraphRNN and finally by making real intruders attack the generated AD structure to see if they select the honeyusers. Results show that our machine learning model is good enough to generate well-placed honeyusers for existing AD structures so that intruders are lured into them.
翻訳日:2021-09-15 15:26:40 公開日:2021-09-13
# データベースにおけるMLベースの線形化

ML Based Lineage in Databases ( http://arxiv.org/abs/2109.06339v1 )

ライセンス: Link先を確認
Michael Leybovich, Oded Shmueli(参考訳) この研究では、データベースの寿命を通してタプルの系統を追跡します。 すなわち、クエリによって生成されたタプル(レコード)が、通常のワークフローの一部として、DBへの他のタプル挿入に影響を与える可能性があるシナリオを考える。 時間が経つにつれて、そのようなタプルの正確な証明説明は深くネストされ、空間を消費し、明確さと可読性が低下する。 本稿では,機械学習(ml)と自然言語処理(nlp)技術を用いて,系統追跡を近似する新しい手法,すなわち単語埋め込みを提案する。 基本的な考え方は、各タプルの系統を小さな定数サイズのベクトルの集合(タプル当たりのベクトル数はハイパーパラメータ)で要約(および近似)することである。 したがって、我々の解は時間とともに空間複雑性の爆発に悩まされず、タプルの存在を「自然にランク付け」する。 そこで我々は,行の列レベルでの行の追跡と問合せを行うための代替的,改良された系統追跡機構を考案し,その特徴とタプルのテキスト的特徴をよりよく区別することに成功した。 本稿では,拡張(ProvSQL)を通じてPostgreSQLシステムに直列計算を統合し,精度,半順序に基づく正当性に対して有用な結果を示す。 実験では, 複数世代にわたるタプルを生涯にわたって持つタプルに着目し, 直接的および遠方的系統で解析した。 実験により,提案手法の有効性が示唆され,さらに改良が示唆された。 これは、高い精度と高いレベル毎のリコールを示すカラムベースベクトル法に特に当てはまる。

In this work, we track the lineage of tuples throughout their database lifetime. That is, we consider a scenario in which tuples (records) that are produced by a query may affect other tuple insertions into the DB, as part of a normal workflow. As time goes on, exact provenance explanations for such tuples become deeply nested, increasingly consuming space, and resulting in decreased clarity and readability. We present a novel approach for approximating lineage tracking, using a Machine Learning (ML) and Natural Language Processing (NLP) technique; namely, word embedding. The basic idea is summarizing (and approximating) the lineage of each tuple via a small set of constant-size vectors (the number of vectors per-tuple is a hyperparameter). Therefore, our solution does not suffer from space complexity blow-up over time, and it "naturally ranks" explanations to the existence of a tuple. We devise an alternative and improved lineage tracking mechanism, that of keeping track of and querying lineage at the column level; thereby, we manage to better distinguish between the provenance features and the textual characteristics of a tuple. We integrate our lineage computations into the PostgreSQL system via an extension (ProvSQL) and experimentally exhibit useful results in terms of accuracy against exact, semiring-based, justifications. In the experiments, we focus on tuples with multiple generations of tuples in their lifelong lineage and analyze them in terms of direct and distant lineage. The experiments suggest a high usefulness potential for the proposed approximate lineage methods and the further suggested enhancements. This especially holds for the column-based vectors method which exhibits high precision and high per-level recall.
翻訳日:2021-09-15 15:26:19 公開日:2021-09-13
# エピソード強化学習のための実測値アルゴリズムの理論的保証と政策勾配法のグローバル収束

Theoretical Guarantees of Fictitious Discount Algorithms for Episodic Reinforcement Learning and Global Convergence of Policy Gradient Methods ( http://arxiv.org/abs/2109.06362v1 )

ライセンス: Link先を確認
Xin Guo, Anran Hu, Junzi Zhang(参考訳) 有限時間水平強化学習問題に対するアルゴリズムを設計する場合、一般的なアプローチは、架空の割引係数を導入し、近似に定常ポリシーを使用することである。 実証的に、虚偽の割引係数が分散を減少させ、定常的なポリシーが解定当たりの計算コストの削減に役立つことが示されている。 しかし理論的には、この架空の割引レシピを持つアルゴリズムの収束解析に関する既存の研究は存在しない。 本稿では,これらのアルゴリズムを解析する第一歩を踏み出す。 2つのバニラ政策勾配(VPG)の変種に焦点を当て、第1は割引利得推定(DAE)で広く使われている変種であり、第2は政策勾配推定器のスコア関数に虚偽の割引係数を加えたものである。 両アルゴリズムの非漸近収束保証が確立され、追加の割引係数がDAEで導入されたバイアスを低減し、アルゴリズム収束を漸近的に改善することを示した。 分析の鍵となる要素はマルコフ決定過程(MDP)の3つの設定(有限時間水平、平均報酬、割引設定)を接続することである。 我々の知る限り、これは有限時間水平MDPのエピソディック強化学習のための架空の割引アルゴリズムに関する最初の理論的保証であり、有限時間水平強化学習のためのポリシー勾配法(英語版)の(最初の)大域的な収束につながる。

When designing algorithms for finite-time-horizon episodic reinforcement learning problems, a common approach is to introduce a fictitious discount factor and use stationary policies for approximations. Empirically, it has been shown that the fictitious discount factor helps reduce variance, and stationary policies serve to save the per-iteration computational cost. Theoretically, however, there is no existing work on convergence analysis for algorithms with this fictitious discount recipe. This paper takes the first step towards analyzing these algorithms. It focuses on two vanilla policy gradient (VPG) variants: the first being a widely used variant with discounted advantage estimations (DAE), the second with an additional fictitious discount factor in the score functions of the policy gradient estimators. Non-asymptotic convergence guarantees are established for both algorithms, and the additional discount factor is shown to reduce the bias introduced in DAE and thus improve the algorithm convergence asymptotically. A key ingredient of our analysis is to connect three settings of Markov decision processes (MDPs): the finite-time-horizon, the average reward and the discounted settings. To our best knowledge, this is the first theoretical guarantee on fictitious discount algorithms for the episodic reinforcement learning of finite-time-horizon MDPs, which also leads to the (first) global convergence of policy gradient methods for finite-time-horizon episodic reinforcement learning.
翻訳日:2021-09-15 15:25:54 公開日:2021-09-13
# 画像検索による自動運転車用単眼カメラ位置推定

Monocular Camera Localization for Automated Vehicles Using Image Retrieval ( http://arxiv.org/abs/2109.06296v1 )

ライセンス: Link先を確認
Eunhyek Joa and Francesco Borrelli(参考訳) 本研究では,自律走行車の位置と方向角を1台のカメラでリアルタイムで検出する問題に対処する。 リアルタイムにlidarとhd(high definition)3dマップを必要とする手法と比較すると,提案手法はスケーラブルで計算効率が良く,精度が低い。 新しい手法は、既存のアルゴリズムを画像検索、マッピングデータベース、粒子フィルタリングの3つの分野に組み合わせ、適応する。 その結果,lidarで構築した地図を用いた他の単眼カメラローカライズ法に匹敵する性能を有する画像検索手法を用いた簡易なリアルタイムローカライズ手法が得られた。 提案手法は,KITTI odometry データセットと屋内1:10自律走行車を用いた閉ループ実験を用いて評価した。 テストでは、リアルタイム能力と10cmレベルの精度を示す。 また, 閉ループ室内実験の結果, 位置推定誤差と制御誤差との間に正のフィードバックループが存在することがわかった。 このような現象は記事の最後に詳細に分析される。

We address the problem of finding the current position and heading angle of an autonomous vehicle in real-time using a single camera. Compared to methods which require LiDARs and high definition (HD) 3D maps in real-time, the proposed approach is easily scalable and computationally efficient, at the price of lower precision. The new method combines and adapts existing algorithms in three different fields: image retrieval, mapping database, and particle filtering. The result is a simple, real-time localization method using an image retrieval method whose performance is comparable to other monocular camera localization methods which use a map built with LiDARs. We evaluate the proposed method using the KITTI odometry dataset and via closed-loop experiments with an indoor 1:10 autonomous vehicle. The tests demonstrate real-time capability and a 10cm level accuracy. Also, experimental results of the closed-loop indoor tests show the presence of a positive feedback loop between the localization error and the control error. Such phenomena is analysed in details at the end of the article.
翻訳日:2021-09-15 15:23:59 公開日:2021-09-13
# ディープニューラルネットワークを用いた分散ロバスト学習の正規化リスクについて

On the regularized risk of distributionally robust learning over deep neural networks ( http://arxiv.org/abs/2109.06294v1 )

ライセンス: Link先を確認
Camilo Garcia Trillos and Nicolas Garcia Trillos(参考訳) 本稿では,分散的ロバスト学習と,深層ニューラルネットワークのロバスト性を高めるための正規化の異なる形態との関係について検討する。 特に、具体的なmin-max分布的ロバスト問題から始まり、最適輸送理論のツールを用いて、適切な正規化リスク最小化問題の観点から分布的ロバスト問題への一階および二階近似を求める。 深いresnetモデルの文脈では、結果として生じる正規化問題の構造を、状態変数の数と次元が元のunrobust問題の次元の次元自由因子内にある平均場最適制御問題として同定する。 これらの問題に関連する最大原理を用いて、堅牢なニューラルネットワークのトレーニングのためのスケーラブルなアルゴリズムのファミリーを動機付けます。 私たちの分析は、文献で知られているいくつかの結果とアルゴリズムを復元し、我々の知識が斬新である多くの理論的、アルゴリズム的な洞察を提供します。 分析では,より汎用的な学習問題の今後の分析に有用なツールが採用されている。

In this paper we explore the relation between distributionally robust learning and different forms of regularization to enforce robustness of deep neural networks. In particular, starting from a concrete min-max distributionally robust problem, and using tools from optimal transport theory, we derive first order and second order approximations to the distributionally robust problem in terms of appropriate regularized risk minimization problems. In the context of deep ResNet models, we identify the structure of the resulting regularization problems as mean-field optimal control problems where the number and dimension of state variables is within a dimension-free factor of the dimension of the original unrobust problem. Using the Pontryagin maximum principles associated to these problems we motivate a family of scalable algorithms for the training of robust neural networks. Our analysis recovers some results and algorithms known in the literature (in settings explained throughout the paper) and provides many other theoretical and algorithmic insights that to our knowledge are novel. In our analysis we employ tools that we deem useful for a future analysis of more general adversarial learning problems.
翻訳日:2021-09-15 15:23:44 公開日:2021-09-13
# safe-control-gym: 安全な学習に基づく制御と強化学習のための統一ベンチマークスイート

safe-control-gym: a Unified Benchmark Suite for Safe Learning-based Control and Reinforcement Learning ( http://arxiv.org/abs/2109.06325v1 )

ライセンス: Link先を確認
Zhaocong Yuan, Adam W. Hall, Siqi Zhou, Lukas Brunke, Melissa Greeff, Jacopo Panerati, Angela P. Schoellig (University of Toronto Institute for Aerospace Studies, University of Toronto Robotics Institute, Vector Institute for Artificial Intelligence)(参考訳) 近年では、強化学習と学習に基づく制御、および現実世界のロボットへの配備に不可欠な安全性の研究が大きな注目を集めている。 しかし,新しい成果の進歩と妥当性を適切に評価するには,コントロールと強化学習コミュニティが提案するアプローチを公平に比較するツールが必要である。 ここでは,safe-control-gymと呼ばれる新しいオープンソースベンチマークスイートを提案する。 当社の出発点はOpenAIのGym APIで、強化学習研究における事実上の標準のひとつです。 しかし、我々は、制御理論研究者に限定的に訴える理由、特に安全な制御について強調する。 例えば、分析モデルや制約仕様の欠如などです。 したがって、我々はこのAPIを拡張することを提案する。 (i)象徴的モデル及び制約を指定(及び問合せ)する能力 (ii)制御入力、測定、慣性特性に模擬外乱を導入する。 我々は,3つの動的システム – カートポール,1D,2Dクオータ – と2つの制御タスク – 安定化と軌道追跡 – の実装を提供する。 提案を実証するために,従来の制御,学習ベースの制御,強化学習といった分野から,複数のアプローチの制御性能,データ効率,安全性を定量的に比較するために,安全な制御ジャムを使用する方法を示す。

In recent years, reinforcement learning and learning-based control -- as well as the study of their safety, crucial for deployment in real-world robots -- have gained significant traction. However, to adequately gauge the progress and applicability of new results, we need the tools to equitably compare the approaches proposed by the controls and reinforcement learning communities. Here, we propose a new open-source benchmark suite, called safe-control-gym. Our starting point is OpenAI's Gym API, which is one of the de facto standard in reinforcement learning research. Yet, we highlight the reasons for its limited appeal to control theory researchers -- and safe control, in particular. E.g., the lack of analytical models and constraint specifications. Thus, we propose to extend this API with (i) the ability to specify (and query) symbolic models and constraints and (ii) introduce simulated disturbances in the control inputs, measurements, and inertial properties. We provide implementations for three dynamic systems -- the cart-pole, 1D, and 2D quadrotor -- and two control tasks -- stabilization and trajectory tracking. To demonstrate our proposal -- and in an attempt to bring research communities closer together -- we show how to use safe-control-gym to quantitatively compare the control performance, data efficiency, and safety of multiple approaches from the areas of traditional control, learning-based control, and reinforcement learning.
翻訳日:2021-09-15 15:23:25 公開日:2021-09-13
# スマートエネルギーシステムの同時検出における現実的逆攻撃

A Practical Adversarial Attack on Contingency Detection of Smart Energy Systems ( http://arxiv.org/abs/2109.06358v1 )

ライセンス: Link先を確認
Moein Sabounchi, Jin Wei-Kocsis(参考訳) コンピューティングとセンシングの進歩により、ディープラーニング(DL)はスマートエネルギーシステム(SES)に広く応用されている。 これらのDLベースのソリューションは、制御システムの有効性と適応性を改善する可能性を示した。 しかし近年, DL技術は, 注意深い摂動を伴う敵の攻撃によって操作できる証拠が増えている。 敵対的攻撃はコンピュータビジョンと自然言語処理で研究されている。 しかし、エネルギーシステムにおける敵の攻撃展開と緩和に焦点を当てた作業は非常に限られている。 そこで本研究では,エネルギーシステムの動的制御を効果的に破ることのできる,新たな攻撃モデルを提案する。 また、深層強化学習(RL)技術を用いて、提案した敵攻撃モデルの展開を最適化する。 本稿では,この方向への第1段階について述べる。 シミュレーション部では,提案する攻撃モデルの性能をieee 9-busシステムを用いて評価する。

Due to the advances in computing and sensing, deep learning (DL) has widely been applied in smart energy systems (SESs). These DL-based solutions have proved their potentials in improving the effectiveness and adaptiveness of the control systems. However, in recent years, increasing evidence shows that DL techniques can be manipulated by adversarial attacks with carefully-crafted perturbations. Adversarial attacks have been studied in computer vision and natural language processing. However, there is very limited work focusing on the adversarial attack deployment and mitigation in energy systems. In this regard, to better prepare the SESs against potential adversarial attacks, we propose an innovative adversarial attack model that can practically compromise dynamical controls of energy system. We also optimize the deployment of the proposed adversarial attack model by employing deep reinforcement learning (RL) techniques. In this paper, we present our first-stage work in this direction. In simulation section, we evaluate the performance of our proposed adversarial attack model using standard IEEE 9-bus system.
翻訳日:2021-09-15 15:23:05 公開日:2021-09-13
# (参考訳) SHAPE:変圧器用シフトした絶対位置埋め込み [全文訳有]

SHAPE: Shifted Absolute Position Embedding for Transformers ( http://arxiv.org/abs/2109.05644v1 )

ライセンス: CC BY 4.0
Shun Kiyono, Sosuke Kobayashi, Jun Suzuki, Kentaro Inui(参考訳) 位置表現はトランスフォーマーにおける位置認識表現の構築に不可欠である。 既存の位置表現は、見えない長さや計算コストの高いデータをテストするための一般化の欠如に苦しむ。 両問題に対処するため,シフト絶対位置埋め込み(SHAPE)を検討した。 SHAPEの基本的な考え方は、トレーニング中に絶対位置をランダムにシフトさせることによって、最近成功した位置表現の重要な特性であるシフト不変性を達成することである。 SHAPEは、よりシンプルで高速でありながら、経験的に同等であることを示す。

Position representation is crucial for building position-aware representations in Transformers. Existing position representations suffer from a lack of generalization to test data with unseen lengths or high computational cost. We investigate shifted absolute position embedding (SHAPE) to address both issues. The basic idea of SHAPE is to achieve shift invariance, which is a key property of recent successful position representations, by randomly shifting absolute positions during training. We demonstrate that SHAPE is empirically comparable to its counterpart while being simpler and faster.
翻訳日:2021-09-15 11:25:03 公開日:2021-09-13
# (参考訳) FedFair: クロスサイロのフェデレーション学習におけるフェアモデルのトレーニング [全文訳有]

FedFair: Training Fair Models In Cross-Silo Federated Learning ( http://arxiv.org/abs/2109.05662v1 )

ライセンス: CC BY 4.0
Lingyang Chu, Lanjun Wang, Yanjie Dong, Jian Pei, Zirui Zhou, Yong Zhang(参考訳) 公正な機械学習モデルの構築はますます重要になる。 多くの強力なモデルは、複数の当事者の協力によって構築され、それぞれが機密データを持っているため、公平性、プライバシー、コラボレーションが同時に尊重されるように、クロスサイロフェデレーション学習における公平なモデルをトレーニングする可能性を検討するのは自然である。 しかし,参加者の個人データを知ることなく,モデルの公平性を正確に推定することは容易ではないため,非常に難しい課題である。 本稿では,まず,相手のデータプライバシーを侵害することなく,モデルの公平性を正確に推定するフェデレーション推定手法を提案する。 次に、公平度推定を用いて、クロスサイロ・フェデレーション学習においてフェアモデルをトレーニングする新しい問題を定式化する。 我々はFedFairを開発した。FedFairはよく設計されたフェデレーション学習フレームワークで、データプライバシーの侵害なしに高いパフォーマンスで公正なモデルをトレーニングできる。 実世界の3つのデータセットに対する広範な実験により,本手法の優れた公正モデルトレーニング性能が示された。

Building fair machine learning models becomes more and more important. As many powerful models are built by collaboration among multiple parties, each holding some sensitive data, it is natural to explore the feasibility of training fair models in cross-silo federated learning so that fairness, privacy and collaboration can be fully respected simultaneously. However, it is a very challenging task, since it is far from trivial to accurately estimate the fairness of a model without knowing the private data of the participating parties. In this paper, we first propose a federated estimation method to accurately estimate the fairness of a model without infringing the data privacy of any party. Then, we use the fairness estimation to formulate a novel problem of training fair models in cross-silo federated learning. We develop FedFair, a well-designed federated learning framework, which can successfully train a fair model with high performance without any data privacy infringement. Our extensive experiments on three real-world data sets demonstrate the excellent fair model training performance of our method.
翻訳日:2021-09-15 11:10:57 公開日:2021-09-13
# (参考訳) AMI-FML:AMIのためのプライバシ保護フェデレーション機械学習フレームワーク [全文訳有]

AMI-FML: A Privacy-Preserving Federated Machine Learning Framework for AMI ( http://arxiv.org/abs/2109.05666v1 )

ライセンス: CC BY 4.0
Milan Biswal, Abu Saleh Md Tayeen, Satyajayant Misra(参考訳) 機械学習(ml)ベースのスマートメータデータ分析は、高度メータインフラストラクチャ(ami)におけるエネルギー管理と需要応答アプリケーションに非常に有望である。 AMI用の分散MLアプリケーションを開発する上で重要な課題は、アクティブなエンドユーザの参加を許可しながら、ユーザのプライバシを維持することだ。 本稿では、この課題に対処し、AMIにおけるMLアプリケーションのためのプライバシー保護フェデレーション学習フレームワークを提案する。 我々は,各スマートメータを,中央アグリゲータやデータ集中器と情報を定期的に交換するMLアプリケーションをホストするフェデレーションエッジデバイスとみなす。 スマートメーターによって検出された生データを転送する代わりに、MLモデルの重み付けをアグリゲータに転送してプライバシを保存する。 アグリゲータはこれらのパラメータを処理し、各エッジデバイスで置換可能な堅牢なMLモデルを考案する。 また、AMI内の比較的遅いネットワーク接続に適したMLモデルパラメータを共有しながら、プライバシーを高め、通信効率を向上させる戦略についても論じる。 本稿では、短期負荷予測(STLF)を改善するユースケースフェデレーションML(FML)アプリケーション上で、提案フレームワークを実証する。 長短期記憶(LSTM)リカレントニューラルネットワーク(RNN)モデルを用いてSTLFを提案する。 我々のアーキテクチャでは、スマートメーター群にアグリゲータが接続されていると仮定する。 このアグリゲータは、フェデレートされたスマートメーターから得られた学習モデル勾配を用いて、個別および集約されたSTLFの予測精度を向上させる、集約された堅牢なRNNモデルを生成する。 その結果,FMLでは,エンドユーザのデータプライバシを保ちながら予測精度が向上することが示唆された。

Machine learning (ML) based smart meter data analytics is very promising for energy management and demand-response applications in the advanced metering infrastructure(AMI). A key challenge in developing distributed ML applications for AMI is to preserve user privacy while allowing active end-users participation. This paper addresses this challenge and proposes a privacy-preserving federated learning framework for ML applications in the AMI. We consider each smart meter as a federated edge device hosting an ML application that exchanges information with a central aggregator or a data concentrator, periodically. Instead of transferring the raw data sensed by the smart meters, the ML model weights are transferred to the aggregator to preserve privacy. The aggregator processes these parameters to devise a robust ML model that can be substituted at each edge device. We also discuss strategies to enhance privacy and improve communication efficiency while sharing the ML model parameters, suited for relatively slow network connections in the AMI. We demonstrate the proposed framework on a use case federated ML (FML) application that improves short-term load forecasting (STLF). We use a long short-term memory(LSTM) recurrent neural network (RNN) model for STLF. In our architecture, we assume that there is an aggregator connected to a group of smart meters. The aggregator uses the learned model gradients received from the federated smart meters to generate an aggregate, robust RNN model which improves the forecasting accuracy for individual and aggregated STLF. Our results indicate that with FML, forecasting accuracy is increased while preserving the data privacy of the end-users.
翻訳日:2021-09-15 10:46:10 公開日:2021-09-13
# (参考訳) 推薦システムにおける人気バイアス軽減のための適応的ブースティング手法 [全文訳有]

An Adaptive Boosting Technique to Mitigate Popularity Bias in Recommender System ( http://arxiv.org/abs/2109.05677v1 )

ライセンス: CC BY 4.0
Ajay Gangwar and Shweta Jain(参考訳) ほとんどのレコメンダシステムで観察された評価は人気バイアスを受けており、したがってランダムに失われることはない。 このため、数種類の人気商品が推奨され、非人気商品も少なからず推奨される。 人気のない商品が市場を支配する製品が少なくなり、創造性やイノベーションの機会も少なくなる。 文献では,レコメンデーションシステムの精度向上を主眼とした公平なアルゴリズムがいくつか提案されている。 しかし、一般的な精度尺度は人気項目に偏りがあり、非人気項目と比較して人気項目の精度が向上する。 本稿では,人気項目と非人気項目の誤差の差として人気バイアスを測定する指標を検討する。 分類に関する公正なブースティングアルゴリズムに動機づけられ,許容範囲内で精度を維持しつつ,データ内における人気バイアスを低減させるアルゴリズムを提案する。 アルゴリズムの主な考え方は、一般的にデータで表現されていない非人気項目の重みを引き上げることである。 実世界のデータセットに関する包括的実験の助けを借りて,提案アルゴリズムが提案する人気バイアスメトリクスの既存のアルゴリズムを上回っていることを示す。

The observed ratings in most recommender systems are subjected to popularity bias and are thus not randomly missing. Due to this, only a few popular items are recommended, and a vast number of non-popular items are hardly recommended. Not suggesting the non-popular items lead to fewer products dominating the market and thus offering fewer opportunities for creativity and innovation. In the literature, several fair algorithms have been proposed which mainly focused on improving the accuracy of the recommendation system. However, a typical accuracy measure is biased towards popular items, i.e., it promotes better accuracy for popular items compared to non-popular items. This paper considers a metric that measures the popularity bias as the difference in error on popular items and non-popular items. Motivated by the fair boosting algorithm on classification, we propose an algorithm that reduces the popularity bias present in the data while maintaining accuracy within acceptable limits. The main idea of our algorithm is that it lifts the weights of the non-popular items, which are generally underrepresented in the data. With the help of comprehensive experiments on real-world datasets, we show that our proposed algorithm outperforms the existing algorithms on the proposed popularity bias metric.
翻訳日:2021-09-15 10:33:29 公開日:2021-09-13
# (参考訳) SCORE-IT:脳波レポートの自動標準化のための機械学習ツール [全文訳有]

SCORE-IT: A Machine Learning-based Tool for Automatic Standardization of EEG Reports ( http://arxiv.org/abs/2109.05694v1 )

ライセンス: CC BY-SA 4.0
Samarth Rawal, Yogatheesan Varatharajah(参考訳) 機械学習(ML)に基づく脳波解析(EEG)は神経学的ケアの進展に重要な役割を果たしている。 しかし、臨床記録から有用なメタデータを自動的に抽出することの難しさは、大規模な脳波ベースMLモデルの開発を妨げる。 eeg研究の主要なメタデータ源であるeegレポートは、標準化の欠如に苦しんでいる。 本稿では,非構造化の自然言語脳波レポートからSCORE仕様からコンポーネントを自動的に抽出する機械学習システムを提案する。 具体的には,(1)医師の印象による記録で観察された発作の種類,(2)医師の印象によるセッション記録が正常であったか異常であったか,(3)てんかんと診断されたか,などを明らかにした。 TUH EEGコーパスを用いて本システムの評価を行い,各タスクのF1スコアが0.92,0.82,0.97であった。

Machine learning (ML)-based analysis of electroencephalogram s (EEGs) is playing an important role in advancing neurological care. However, the difficulties in automatically extracting useful metadata from clinical records hinder the development of large-scale EEG-based ML models. EEG reports, which are the primary sources of metadata for EEG studies, suffer from lack of standardization. Here we propose a machine learning-based system that automatically extracts components from the SCORE specification from unstructured, natural-language EEG reports. Specifically, our system identifies (1) the type of seizure that was observed in the recording, per physician impression; (2) whether the session recording was normal or abnormal according to physician impression; (3) whether the patient was diagnosed with epilepsy or not. We performed an evaluation of our system using the publicly available TUH EEG corpus and report F1 scores of 0.92, 0.82, and 0.97 for the respective tasks.
翻訳日:2021-09-15 10:22:23 公開日:2021-09-13
# (参考訳) 多関節バンドにおけるロバストフェデレーションベストアーム同定

Robust Federated Best-Arm Identification in Multi-Armed Bandits ( http://arxiv.org/abs/2109.05700v1 )

ライセンス: CC BY 4.0
Aritra Mitra, Hamed Hassani and George Pappas(参考訳) 確率的多腕バンディットにおける最良腕識別問題の連帯型について検討する: 各腕のサブセットのみをサンプリングできるクライアントの集合は、サーバを介して協力し、最高の腕(すなわち、最高の平均報酬を持つ腕)を所定の信頼度で識別する。 そこで本稿では,Fed-SELを提案する。Fed-SELは,逐次除去技術に基づく単純な通信効率のアルゴリズムで,クライアントの局所サンプリングを行う。 本稿では,Fed-SELの性能を検討するために,異なるクライアントに対応するアームの分布の相違を捉えるアームヘテロジニティの概念を導入する。 興味深いことに,本研究は,feed-selのサンプルと通信複雑度を減少させる際のアームヘテロゲニティの利点を明らかにする。 分析の特別な例として、ある異種問題の場合、Fed-SELは1ラウンドの通信後にベストアームを出力することを示す。 最近の研究で統計的不均一性が性能の低下につながることが示されているフェデレート教師付き学習とは異なり、局所計算とフェデレートベストアーム識別のヘテロゲニティの両方の利点を確実に享受することができる。 最終コントリビューションとして、フェデレーションとピアツーピアの両方を対象としてFed-SELの亜種を開発しました。

We study a federated variant of the best-arm identification problem in stochastic multi-armed bandits: a set of clients, each of whom can sample only a subset of the arms, collaborate via a server to identify the best arm (i.e., the arm with the highest mean reward) with prescribed confidence. For this problem, we propose Fed-SEL, a simple communication-effici ent algorithm that builds on successive elimination techniques and involves local sampling steps at the clients. To study the performance of Fed-SEL, we introduce a notion of arm-heterogeneity that captures the level of dissimilarity between distributions of arms corresponding to different clients. Interestingly, our analysis reveals the benefits of arm-heterogeneity in reducing both the sample- and communication-comple xity of Fed-SEL. As a special case of our analysis, we show that for certain heterogeneous problem instances, Fed-SEL outputs the best-arm after just one round of communication. Our findings have the following key implication: unlike federated supervised learning where recent work has shown that statistical heterogeneity can lead to poor performance, one can provably reap the benefits of both local computation and heterogeneity for federated best-arm identification. As our final contribution, we develop variants of Fed-SEL, both for federated and peer-to-peer settings, that are robust to the presence of Byzantine clients, and hence suitable for deployment in harsh, adversarial environments.
翻訳日:2021-09-15 10:15:12 公開日:2021-09-13
# (参考訳) 生体認証・異常検出におけるリカレントニューラルネットワークの適用 [全文訳有]

Applications of Recurrent Neural Network for Biometric Authentication & Anomaly Detection ( http://arxiv.org/abs/2109.05701v1 )

ライセンス: CC BY 4.0
Joseph M. Ackerson, Dave Rushit, Seliya Jim(参考訳) リカレントニューラルネットワークは、データを一時シーケンスで保存し、参照できるようにする強力な機械学習フレームワークである。 これは手書き解析や音声認識といった分野において、多くの新しい可能性を開く。 本稿では, 生体認証, 表現認識, 異常検出, 航空機への適用の4つの重要な分野において, RNNの現状について検討する。 本稿では, 提案手法の方法論, 目的, 結果, および, 提案手法の利点と欠点について述べる。 これらの様々な手法はすべて、人気のあるLong Short-Term Memory (LSTM) RNNやDeep-Residual RNNといった、異なるRNNアーキテクチャの活用方法に焦点を当てている。 また,特定の状況下でどのフレームワークが最適か,提案モデルの利点と欠点についても検討する。

Recurrent Neural Networks are powerful machine learning frameworks that allow for data to be saved and referenced in a temporal sequence. This opens many new possibilities in fields such as handwriting analysis and speech recognition. This paper seeks to explore current research being conducted on RNNs in four very important areas, being biometric authentication, expression recognition, anomaly detection, and applications to aircraft. This paper reviews the methodologies, purpose, results, and the benefits and drawbacks of each proposed method below. These various methodologies all focus on how they can leverage distinct RNN architectures such as the popular Long Short-Term Memory (LSTM) RNN or a Deep-Residual RNN. This paper also examines which frameworks work best in certain situations, and the advantages and disadvantages of each pro-posed model.
翻訳日:2021-09-15 10:13:59 公開日:2021-09-13
# (参考訳) BERTにおける言語依存性倫理バイアスの緩和 [全文訳有]

Mitigating Language-Dependent Ethnic Bias in BERT ( http://arxiv.org/abs/2109.05704v1 )

ライセンス: CC BY 4.0
Jaimeen Ahn and Alice Oh(参考訳) BERTや他の大規模言語モデル(LM)には、性別と人種バイアスが含まれている。 彼らはまた、他の社会的偏見の次元も示しており、そのほとんどは深く研究されておらず、一部は言語によって異なる。 本稿では、英語、ドイツ語、スペイン語、韓国語、トルコ語、中国語の単言語BERTにおける民族バイアスの分析と緩和により、民族バイアスが言語によってどのように変化するかを検討する。 民族バイアスを観察し定量化するために,カテゴリーバイアススコアと呼ばれる新しい指標を開発した。 次に,2つの単言語モデルの文脈的単語アライメントを用いた2つの緩和手法を提案する。 提案手法と単言語BERTを比較し,これらの手法が民族バイアスを効果的に緩和することを示す。 どちらの方法がうまく機能するかは、その言語で利用可能なNLPリソースの量に依存する。 さらにアラビア語とギリシャ語で実験を行い、提案手法がより幅広い言語で有効であることを検証した。

BERT and other large-scale language models (LMs) contain gender and racial bias. They also exhibit other dimensions of social bias, most of which have not been studied in depth, and some of which vary depending on the language. In this paper, we study ethnic bias and how it varies across languages by analyzing and mitigating ethnic bias in monolingual BERT for English, German, Spanish, Korean, Turkish, and Chinese. To observe and quantify ethnic bias, we develop a novel metric called Categorical Bias score. Then we propose two methods for mitigation; first using a multilingual model, and second using contextual word alignment of two monolingual models. We compare our proposed methods with monolingual BERT and show that these methods effectively alleviate the ethnic bias. Which of the two methods works better depends on the amount of NLP resources available for that language. We additionally experiment with Arabic and Greek to verify that our proposed methods work for a wider variety of languages.
翻訳日:2021-09-15 09:58:56 公開日:2021-09-13
# (参考訳) 前景オブジェクト変換によるファイングラインドショット学習 [全文訳有]

Fine-Grained Few Shot Learning with Foreground Object Transformation ( http://arxiv.org/abs/2109.05719v1 )

ライセンス: CC BY 4.0
Chaofei Wang, Shiji Song, Qisen Yang, Xiang Li, Gao Huang(参考訳) 従来のきめ細かい画像分類では、クラス間のばらつきは低いがクラス間のばらつきは高い。 しかし、多くのシナリオでは、いくつかの新しいサブカテゴリのサンプルが限られており、FG-FSLの設定がきめ細かいものになっている。 この課題に対処するため,フォアグラウンドオブジェクト抽出器と姿勢変換生成器を組み合わせた,フォアグラウンドオブジェクト変換(FOT)と呼ばれる新しい手法を提案する。 前者は画像背景を除去することを目的としており、クラス間のばらつきを低減しつつクラス内のばらつきを増幅することにより、きめ細かい画像分類の難しさを高める傾向がある。 後者は、前景オブジェクトの姿勢を変換して、新規サブカテゴリの追加サンプルを生成する。 データ拡張法として、FOTは既存のいくつかのショット学習アルゴリズムに便利に適用でき、FG-FSLタスクの性能を大幅に向上させることができる。 特に、FOTと組み合わせることで、単純な微調整のベースライン法は、インダクティブ・セッティングとトランスダクティブ・セッティングの両方において最先端の手法と競合することができる。 さらに、FOTは最新の優れたメソッドのパフォーマンスをさらに向上させ、それらを新しい最先端に引き上げることができる。 また、一般的なFSLタスクにおけるFOTの有効性を示す。

Traditional fine-grained image classification generally requires abundant labeled samples to deal with the low inter-class variance but high intra-class variance problem. However, in many scenarios we may have limited samples for some novel sub-categories, leading to the fine-grained few shot learning (FG-FSL) setting. To address this challenging task, we propose a novel method named foreground object transformation (FOT), which is composed of a foreground object extractor and a posture transformation generator. The former aims to remove image background, which tends to increase the difficulty of fine-grained image classification as it amplifies the intra-class variance while reduces inter-class variance. The latter transforms the posture of the foreground object to generate additional samples for the novel sub-category. As a data augmentation method, FOT can be conveniently applied to any existing few shot learning algorithm and greatly improve its performance on FG-FSL tasks. In particular, in combination with FOT, simple fine-tuning baseline methods can be competitive with the state-of-the-art methods both in inductive setting and transductive setting. Moreover, FOT can further boost the performances of latest excellent methods and bring them up to the new state-of-the-art. In addition, we also show the effectiveness of FOT on general FSL tasks.
翻訳日:2021-09-15 09:36:29 公開日:2021-09-13
# (参考訳) 移動移動のための領域不変正規化フロー [全文訳有]

Region Invariant Normalizing Flows for Mobility Transfer ( http://arxiv.org/abs/2109.05738v1 )

ライセンス: CC BY 4.0
Vinayak Gupta and Srikanta Bedathur(参考訳) 異なる領域にまたがる移動データ量には高いばらつきがあり、地域固有のデータに依存する空間レコメンデータシステムの性能が低下する。 本稿では,スパースチェックインデータを用いた領域の連続的位置予測のためのREFORMDという新しい移動学習フレームワークを提案する。 具体的には,MTPPプロセスと正規化フローを用いて,地域内におけるユーザ固有のチェックインシーケンスをモデル化し,チェックイン時間と地理的分布を学習する。 その後,データリッチオリジン領域でトレーニングされた空間的および時間的流れのモデルパラメータを,チェックインデータが少ない対象領域で次のチェックインと時間予測のために転送する。 MTPPと時空間流の領域特異的なチェックインダイナミクスは,(1)チェックインカテゴリー予測,(2)チェックイン時間予測,(3)旅行距離予測の3つのチャネルで,次のチェックインの結合可能性の最大化によって得られる。 米国と日本のさまざまなユーザモビリティデータセットに関する広範囲な実験により、このモデルが連続時間系列のモデリングにおいて最先端の手法を大幅に上回っていることが示された。 さらに,reformedは製品推奨,すなわち空間的要素を伴わないシーケンスに容易に適応できることを示した。

There exists a high variability in mobility data volumes across different regions, which deteriorates the performance of spatial recommender systems that rely on region-specific data. In this paper, we propose a novel transfer learning framework called REFORMD, for continuous-time location prediction for regions with sparse checkin data. Specifically, we model user-specific checkin-sequences in a region using a marked temporal point process (MTPP) with normalizing flows to learn the inter-checkin time and geo-distributions. Later, we transfer the model parameters of spatial and temporal flows trained on a data-rich origin region for the next check-in and time prediction in a target region with scarce checkin data. We capture the evolving region-specific checkin dynamics for MTPP and spatial-temporal flows by maximizing the joint likelihood of next checkin with three channels (1) checkin-category prediction, (2) checkin-time prediction, and (3) travel distance prediction. Extensive experiments on different user mobility datasets across the U.S. and Japan show that our model significantly outperforms state-of-the-art methods for modeling continuous-time sequences. Moreover, we also show that REFORMD can be easily adapted for product recommendations i.e., sequences without any spatial component.
翻訳日:2021-09-15 09:13:59 公開日:2021-09-13
# (参考訳) CEM:Commonsense-Awar e Empathetic Response Generation [全文訳有]

CEM: Commonsense-aware Empathetic Response Generation ( http://arxiv.org/abs/2109.05739v1 )

ライセンス: CC BY 4.0
Sahand Sabour, Chujie Zheng, Minlie Huang(参考訳) 個人間の日々の会話の重要な特徴は、他者に対する共感を表現する能力であり、共感を実現する方法を探ることは、人間のような対話システムへの重要なステップである。 このトピックに対する以前のアプローチは主に、共感的な反応を生成するためにユーザの感情を検出し、活用することに焦点を当てている。 しかし,共感には感情と認知の両方の側面が含まれているため,ユーザの感情の識別に加えて,ユーザの状況に対する認知的理解も考慮すべきである。 そこで本研究では,ユーザ状況に関するより多くの情報を引き出すためにコモンセンスを利用する共感応答生成のための新しいアプローチを提案し,この追加情報を用いて,生成した応答における共感表現をさらに強化する。 我々は,共感的応答生成のためのベンチマークデータセットである共感的ダイアログに対するアプローチを評価した。 実験の結果,本手法は,自動評価と人的評価の両方においてベースラインモデルよりも優れており,より情報的,共感的な応答を生成できることがわかった。

A key trait of daily conversations between individuals is the ability to express empathy towards others, and exploring ways to implement empathy is a crucial step towards human-like dialogue systems. Previous approaches on this topic mainly focus on detecting and utilizing the user's emotion for generating empathetic responses. However, since empathy includes both aspects of affection and cognition, we argue that in addition to identifying the user's emotion, cognitive understanding of the user's situation should also be considered. To this end, we propose a novel approach for empathetic response generation, which leverages commonsense to draw more information about the user's situation and uses this additional information to further enhance the empathy expression in generated responses. We evaluate our approach on EmpatheticDialogues, which is a widely-used benchmark dataset for empathetic response generation. Empirical results demonstrate that our approach outperforms the baseline models in both automatic and human evaluations and can generate more informative and empathetic responses.
翻訳日:2021-09-15 09:04:11 公開日:2021-09-13
# (参考訳) HCDG:医療画像セグメンテーションに基づく領域一般化のための階層的一貫性フレームワーク [全文訳有]

HCDG: A Hierarchical Consistency Framework for Domain Generalization on Medical Image Segmentation ( http://arxiv.org/abs/2109.05742v1 )

ライセンス: CC BY 4.0
Yijun Yang, Shujun Wang, Pheng-Ann Heng, Lequan Yu(参考訳) 現代のディープニューラルネットワークは、現実世界のアプリケーションにデプロイする際の知識の伝達とドメイン間の一般化に苦労している。 ドメイン一般化(DG)は、複数のソースドメインから普遍的な表現を学習し、目に見えないターゲットドメイン上のネットワーク一般化能力を改善することを目的としている。 従来のDG手法は主に、異なる整合性スキームの相乗的正規化を考慮せずに、ディープネットワークの一般化能力を向上させるためのデータレベルの整合性スキームに重点を置いていた。 本稿では,領域一般化のための階層的一貫性フレームワーク(hcdg)を提案する。 特にExtrinsic Consistencyでは、複数のソースドメインにわたる知識を活用して、データレベルの一貫性を実現しています。 また,フーリエデータ拡張のための新しい振幅ガウス混合戦略を考案し,その一貫性を高める。 Intrinsic Consistencyでは、デュアルタスク形式の下で同じインスタンスに対してタスクレベルの一貫性を実行する。 提案するhcdgフレームワークを2つの医用画像分割タスク、すなわち眼球レンズカップ/ディスクセグメンテーションと前立腺mriセグメンテーションについて評価した。 HCDGフレームワークの有効性と汎用性について検討した。 コードは一度受理すれば利用できる。

Modern deep neural networks struggle to transfer knowledge and generalize across domains when deploying to real-world applications. Domain generalization (DG) aims to learn a universal representation from multiple source domains to improve the network generalization ability on unseen target domains. Previous DG methods mostly focus on the data-level consistency scheme to advance the generalization capability of deep networks, without considering the synergistic regularization of different consistency schemes. In this paper, we present a novel Hierarchical Consistency framework for Domain Generalization (HCDG) by ensembling Extrinsic Consistency and Intrinsic Consistency. Particularly, for Extrinsic Consistency, we leverage the knowledge across multiple source domains to enforce data-level consistency. Also, we design a novel Amplitude Gaussian-mixing strategy for Fourier-based data augmentation to enhance such consistency. For Intrinsic Consistency, we perform task-level consistency for the same instance under the dual-task form. We evaluate the proposed HCDG framework on two medical image segmentation tasks, i.e., optic cup/disc segmentation on fundus images and prostate MRI segmentation. Extensive experimental results manifest the effectiveness and versatility of our HCDG framework. Code will be available once accept.
翻訳日:2021-09-15 08:52:11 公開日:2021-09-13
# (参考訳) ラベル推論によるきめ細かいエンティティタイピング [全文訳有]

Fine-grained Entity Typing via Label Reasoning ( http://arxiv.org/abs/2109.05744v1 )

ライセンス: CC BY 4.0
Qing Liu, Hongyu Lin, Xinyan Xiao, Xianpei Han, Le Sun, Hua Wu(参考訳) 従来のエンティティ型付けアプローチは、独立した分類パラダイムに基づいており、相互依存、長い尾を持つ、きめ細かいエンティティタイプを認識するのが困難である。 本稿では,ラベル間の外在的および内在的依存関係が,上記の課題に対処するための重要な知識を提供することができることを論じる。 この目的のために,データに関連付けられたラベル依存知識を発見し,活用することにより,細粒度エンティティラベルを逐次推論する「emph{Label Reasoning Network(LRN)」を提案する。 具体的には、lrnは自己回帰ネットワークを使用して推論推論を行い、二部属性グラフを用いてラベル間の帰納的推論を行い、シーケンス・ツー・セットのエンドツーエンドの方法で複雑なラベル依存を効果的にモデル化、学習、推論することができる。 実験により、lrnは標準の超細粒度エンティティタイピングベンチマークで最先端のパフォーマンスを達成し、ロングテールラベル問題を効果的に解決できることを示した。

Conventional entity typing approaches are based on independent classification paradigms, which make them difficult to recognize inter-dependent, long-tailed and fine-grained entity types. In this paper, we argue that the implicitly entailed extrinsic and intrinsic dependencies between labels can provide critical knowledge to tackle the above challenges. To this end, we propose \emph{Label Reasoning Network(LRN)}, which sequentially reasons fine-grained entity labels by discovering and exploiting label dependencies knowledge entailed in the data. Specifically, LRN utilizes an auto-regressive network to conduct deductive reasoning and a bipartite attribute graph to conduct inductive reasoning between labels, which can effectively model, learn and reason complex label dependencies in a sequence-to-set, end-to-end manner. Experiments show that LRN achieves the state-of-the-art performance on standard ultra fine-grained entity typing benchmarks, and can also resolve the long tail label problem effectively.
翻訳日:2021-09-15 08:34:54 公開日:2021-09-13
# (参考訳) ChangeChip: PCB欠陥検出のための参照ベースの教師なし変更検出 [全文訳有]

ChangeChip: A Reference-Based Unsupervised Change Detection for PCB Defect Detection ( http://arxiv.org/abs/2109.05746v1 )

ライセンス: CC BY 4.0
Yehonatan Fridman, Matan Rusanovsky, Gal Oren(参考訳) 電子機器の使用は増加し、生活のほとんどの面で支配的になる。 表面実装技術(surface mount technology, smt)は、プリント基板(pcb)の表面に直接電気部品を装着する電気機器を製造する最も一般的な工業的方法である。 電子機器の膨張は我々の生活に生産的影響を与えるが、それらの装置の製造手順の失敗や欠陥は、反生産的であり、場合によっては有害である。 したがって、電子機器とその製造におけるゼロ欠陥品質を保証することが望まれ、時には重要となる。 従来の画像処理(IP)技術は完全なソリューションを作るには不十分だが、Deep Learning(DL)のような他の有望な手法はPCB検査にも困難である。 したがって、従来は人間の専門家が手作業でpcb検査を行う。 非教師なし学習(UL)手法はPCB検査に適した可能性があり、一方は学習能力を持ち、他方は大きなデータセットに依存しない。 本稿では,コンピュータビジョン(cv)とulに基づいて,ハダリング欠陥から欠失・不整合電子要素まで,pcbにおける欠陥検出のための自動的かつ統合的な変更検出システムであるchangechipを提案する。 我々は、黄金のPCB(参照)と検査されたPCBの画像間の教師なしの変更検出を様々な設定で適用することにより、良質な欠陥検出を実現する。 そこで本研究では,欠陥検出アルゴリズムの評価のために,20対のPCB画像からなるラベル付きデータセットであるCD-PCBを提案する。

The usage of electronic devices increases, and becomes predominant in most aspects of life. Surface Mount Technology (SMT) is the most common industrial method for manufacturing electric devices in which electrical components are mounted directly onto the surface of a Printed Circuit Board (PCB). Although the expansion of electronic devices affects our lives in a productive way, failures or defects in the manufacturing procedure of those devices might also be counterproductive and even harmful in some cases. It is therefore desired and sometimes crucial to ensure zero-defect quality in electronic devices and their production. While traditional Image Processing (IP) techniques are not sufficient to produce a complete solution, other promising methods like Deep Learning (DL) might also be challenging for PCB inspection, mainly because such methods require big adequate datasets which are missing, not available or not updated in the rapidly growing field of PCBs. Thus, PCB inspection is conventionally performed manually by human experts. Unsupervised Learning (UL) methods may potentially be suitable for PCB inspection, having learning capabilities on the one hand, while not relying on large datasets on the other. In this paper, we introduce ChangeChip, an automated and integrated change detection system for defect detection in PCBs, from soldering defects to missing or misaligned electronic elements, based on Computer Vision (CV) and UL. We achieve good quality defect detection by applying an unsupervised change detection between images of a golden PCB (reference) and the inspected PCB under various setting. In this work, we also present CD-PCB, a synthesized labeled dataset of 20 pairs of PCB images for evaluation of defect detection algorithms.
翻訳日:2021-09-15 08:16:18 公開日:2021-09-13
# (参考訳) ハニーか毒か? 因果干渉によるイベント検出におけるトリガー曲線の解法 [全文訳有]

Honey or Poison? Solving the Trigger Curse in Few-shot Event Detection via Causal Intervention ( http://arxiv.org/abs/2109.05747v1 )

ライセンス: CC BY 4.0
Jiawei Chen, Hongyu Lin, Xianpei Han, Le Sun(参考訳) トリガーの過度な適合は、一般化能力を損なうと同時に、過度な適合は、検出パフォーマンスを損なう。 この問題は、ほんの少しのシナリオではさらに深刻です。 本稿では,因果的視点から,ポインターショットイベント検出(fsed)におけるトリガー呪い問題を特定し,解決する。 FSEDを構造因果モデル (SCM) で定式化することにより, トリガはコンテキストと結果の共創者であることが判明した。 この問題を解決するために,トレーニング中のバックドア調整を通じてコンテキストに介入することを提案する。 実験の結果,提案手法はACE05, MAVEN, KBP17データセットのFSEDを大幅に改善することがわかった。

Event detection has long been troubled by the \emph{trigger curse}: overfitting the trigger will harm the generalization ability while underfitting it will hurt the detection performance. This problem is even more severe in few-shot scenario. In this paper, we identify and solve the trigger curse problem in few-shot event detection (FSED) from a causal view. By formulating FSED with a structural causal model (SCM), we found that the trigger is a confounder of the context and the result, which makes previous FSED methods much easier to overfit triggers. To resolve this problem, we propose to intervene on the context via backdoor adjustment during training. Experiments show that our method significantly improves the FSED on ACE05, MAVEN and KBP17 datasets.
翻訳日:2021-09-15 08:06:43 公開日:2021-09-13
# (参考訳) 人物再同定のためのグローバルローカル動的特徴アライメントネットワーク [全文訳有]

Global-Local Dynamic Feature Alignment Network for Person Re-Identification ( http://arxiv.org/abs/2109.05759v1 )

ライセンス: CC BY 4.0
Zhangqiang Ming and Yong Yang and Xiaoyong Wei and Jianrong Yan and Xiangkun Wang and Fengjie Wang and Min Zhu(参考訳) 歩行者検出による人間の画像の誤認や、境界ボックスの誤りや部分的オクルージョンは、人物再識別(re-id)作業における主な課題の一つである。 従来の局所的手法は主に歩行者の事前定義された意味領域における局所的特徴の学習に焦点を当てており、通常は局所的ハードアライメント法や、局所的特徴にマッチする重要な人間のポーズポイントなどの補助情報を導入している。 これらの方法は、大きなシーンの違いに遭遇しても適用できないことが多い。 そこで,本稿では,歩行者の局所ストライプにスライディングウインドウを設定し,2つの画像の局所的特徴を動的に整列する,簡便で効率的な局所スライディングアライメント(lsa)戦略を提案する。 LSAは空間的不整合を効果的に抑制することができ、追加の監視情報を導入する必要はない。 次に,グローバルブランチとローカルブランチの両方を含むグローバルローカル動的機能アライメントネットワーク(gldfa-net)フレームワークを設計する。 GLDFA-NetのローカルブランチにLSAを導入し、距離メトリクスの計算をガイドし、テストフェーズの精度をさらに向上させる。 Market-1501, DukeMTMC-reID, CUHK03などの主要な評価データセットを用いた評価実験により, 提案手法は, 最先端のRe-ID手法と比較して, 競争精度が高いことが示された。 さらに、マーケット1501では86.1%のmAPと94.8%のランク-1の精度を達成した。

The misalignment of human images caused by pedestrian detection bounding box errors or partial occlusions is one of the main challenges in person Re-Identification (Re-ID) tasks. Previous local-based methods mainly focus on learning local features in predefined semantic regions of pedestrians, usually use local hard alignment methods or introduce auxiliary information such as key human pose points to match local features. These methods are often not applicable when large scene differences are encountered. Targeting to solve these problems, we propose a simple and efficient Local Sliding Alignment (LSA) strategy to dynamically align the local features of two images by setting a sliding window on the local stripes of the pedestrian. LSA can effectively suppress spatial misalignment and does not need to introduce extra supervision information. Then, we design a Global-Local Dynamic Feature Alignment Network (GLDFA-Net) framework, which contains both global and local branches. We introduce LSA into the local branch of GLDFA-Net to guide the computation of distance metrics, which can further improve the accuracy of the testing phase. Evaluation experiments on several mainstream evaluation datasets including Market-1501, DukeMTMC-reID, and CUHK03 show that our method has competitive accuracy over the several state-of-the-art person Re-ID methods. Additionally, it achieves 86.1% mAP and 94.8% Rank-1 accuracy on Market1501.
翻訳日:2021-09-15 07:50:21 公開日:2021-09-13
# (参考訳) フェアネス制約のあるUAV支援無線MECネットワークにおける移動端末の計算速度最大化 [全文訳有]

Computation Rate Maximum for Mobile Terminals in UAV-assisted Wireless Powered MEC Networks with Fairness Constraint ( http://arxiv.org/abs/2109.05767v1 )

ライセンス: CC BY 4.0
Xiaoyi Zhou, Liang Huang, Tong Ye, Weiqiang Sun(参考訳) 本稿では,無人航空機(uav)支援の無線移動エッジコンピューティング(mec)システムについて検討し,uavが移動端末を無線電力転送(wpt)で駆動し,その計算サービスを提供する。 我々は,端末間の公平性を確保しつつ,端末の計算速度を最大化することを目指す。 移動端末のランダムな軌跡を考慮して,オフポリシーと最大エントロピー強化学習を組み合わせたソフトアクタ-クリティック(sac)ベースのuav軌道計画・資源割り当て(sac-tr)アルゴリズムを提案し,アルゴリズムの収束を促進する。 報酬は,計算速度,公平性,目的地到達率の異質な関数として設計する。 シミュレーションの結果、SAC-TRは様々なネットワーク環境に迅速に適応し、様々な状況において代表ベンチマークを上回る性能を発揮することが示された。

This paper investigates an unmanned aerial vehicle (UAV)-assisted wireless powered mobile-edge computing (MEC) system, where the UAV powers the mobile terminals by wireless power transfer (WPT) and provides computation service for them. We aim to maximize the computation rate of terminals while ensuring fairness among them. Considering the random trajectories of mobile terminals, we propose a soft actor-critic (SAC)-based UAV trajectory planning and resource allocation (SAC-TR) algorithm, which combines off-policy and maximum entropy reinforcement learning to promote the convergence of the algorithm. We design the reward as a heterogeneous function of computation rate, fairness, and reaching of destination. Simulation results show that SAC-TR can quickly adapt to varying network environments and outperform representative benchmarks in a variety of situations.
翻訳日:2021-09-15 07:27:29 公開日:2021-09-13
# (参考訳) NLG評価指標評価のための摂動チェックリスト [全文訳有]

Perturbation CheckLists for Evaluating NLG Evaluation Metrics ( http://arxiv.org/abs/2109.05771v1 )

ライセンス: CC BY 4.0
Ananya B. Sai, Tanay Dixit, Dev Yashpal Sheth, Sreyas Mohan, Mitesh M. Khapra(参考訳) 自然言語生成(英: natural language generation, nlg)は、多面的なタスクであり、流血性、一貫性、カバレッジ、妥当性、妥当性、全体的な品質など、複数の望ましい基準を評価する必要がある。 6つのNLGタスクのための既存のデータセット全体で、これらの複数の基準に対する人間の評価スコアは相関しないことが多い。 例えば、構造化データからテキスト生成までのタスクにおいて、流速に関する人間のスコアとデータカバレッジとの間には非常に低い相関関係がある。 これは,nlgの新たな自動評価指標を提案する現在のレシピが,ヒトが1つの基準(すべて品質以上)だけで割り当てたスコアとよく相関していることを示し,不適切であることを示唆している。 実際、6つのタスクにまたがる25の自動評価基準と18の異なる評価基準を含む広範な研究は、ほとんどのNLGタスクにおいて、望ましい基準に対する人間のスコアと相関する単一の指標が存在しないことを示している。 この状況を踏まえて,自動メトリクスの設計と評価を改善するためのチェックリストを提案する。 特定の基準(例えばカバレッジ)をターゲットにしたテンプレートを設計し、この特定の基準(例えばカバレッジ低下)に従って品質が影響を受けるように出力を摂動させます。 既存の評価指標は、そのような単純な摂動にも頑健ではないことを示し、摂動出力にヒトが割り当てたスコアと矛盾することを示す。 提案するテンプレートは,その制約を露呈する自動評価メトリクスの詳細な評価を可能にし,その評価をより良く設計,分析,評価できるようにする。

Natural Language Generation (NLG) evaluation is a multifaceted task requiring assessment of multiple desirable criteria, e.g., fluency, coherency, coverage, relevance, adequacy, overall quality, etc. Across existing datasets for 6 NLG tasks, we observe that the human evaluation scores on these multiple criteria are often not correlated. For example, there is a very low correlation between human scores on fluency and data coverage for the task of structured data to text generation. This suggests that the current recipe of proposing new automatic evaluation metrics for NLG by showing that they correlate well with scores assigned by humans for a single criteria (overall quality) alone is inadequate. Indeed, our extensive study involving 25 automatic evaluation metrics across 6 different tasks and 18 different evaluation criteria shows that there is no single metric which correlates well with human scores on all desirable criteria, for most NLG tasks. Given this situation, we propose CheckLists for better design and evaluation of automatic metrics. We design templates which target a specific criteria (e.g., coverage) and perturb the output such that the quality gets affected only along this specific criteria (e.g., the coverage drops). We show that existing evaluation metrics are not robust against even such simple perturbations and disagree with scores assigned by humans to the perturbed output. The proposed templates thus allow for a fine-grained assessment of automatic evaluation metrics exposing their limitations and will facilitate better design, analysis and evaluation of such metrics.
翻訳日:2021-09-15 07:05:39 公開日:2021-09-13
# (参考訳) ワインは v i n ではない。 --言語間のトークン化の互換性について [全文訳有]

Wine is Not v i n. -- On the Compatibility of Tokenizations Across Languages ( http://arxiv.org/abs/2109.05772v1 )

ライセンス: CC BY-SA 4.0
Antonis Maronikolakis, Philipp Dufter, Hinrich Sch\"utze(参考訳) 語彙のサイズは、性能とメモリ要件の両方に関して、大きな事前訓練された言語モデルにおいて中心的な設計選択である。 通常、バイトペアエンコーディングやWordPieceなどのサブワードトークン化アルゴリズムが使用される。 本研究では,多言語静的および文脈的埋め込み空間におけるトークン化の互換性を調査し,言語間のトークン化の互換性を反映した尺度を提案する。 私たちの目標は、英語対英語の"wine"(単語レベル)など、互換性のないトークン化を防止することです。 フランス語の "v i n" (キャラクタレベル) は、良質な多言語意味表現を学ぶのが困難である。 私たちの互換性尺度は、システムデザイナが互換性のある言語をまたいだ語彙を作成することを可能にすることを示しています。

The size of the vocabulary is a central design choice in large pretrained language models, with respect to both performance and memory requirements. Typically, subword tokenization algorithms such as byte pair encoding and WordPiece are used. In this work, we investigate the compatibility of tokenizations for multilingual static and contextualized embedding spaces and propose a measure that reflects the compatibility of tokenizations across languages. Our goal is to prevent incompatible tokenizations, e.g., "wine" (word-level) in English vs.\ "v i n" (character-level) in French, which make it hard to learn good multilingual semantic representations. We show that our compatibility measure allows the system designer to create vocabularies across languages that are compatible -- a desideratum that so far has been neglected in multilingual models.
翻訳日:2021-09-15 03:55:04 公開日:2021-09-13
# (参考訳) マルチタスクネットワークのためのディープジョイントソースチャネル符号化 [全文訳有]

Deep Joint Source-Channel Coding for Multi-Task Network ( http://arxiv.org/abs/2109.05779v1 )

ライセンス: CC BY 4.0
Mengyang Wang, Zhicong Zhang, Jiahui Li, Mengyao Ma and Xiaopeng Fan(参考訳) マルチタスク学習(MTL)は、知識を共有することで、関連するタスクのパフォーマンスを向上させる効率的な方法である。 しかし、既存のほとんどのMTLネットワークは単一のエンドポイントで動作し、協調インテリジェンス(CI)のシナリオには適していない。 本研究では,CIシナリオ下での運用を可能にする,JSCC(ディープジョイントソースチャネルコーディング)フレームワークを備えたMTLネットワークを提案する。 まず,統合オブジェクト検出とセマンティックセグメンテーションのための機能融合型MTLネットワーク(FFMNet)を提案する。 他のMTLネットワークと比較して、FFMNetはより少ないパラメータで高い性能を得る。 その後、ffmnetはモバイルデバイスとエッジサーバ上で動作する2つのパーツに分割される。 モバイルデバイスが生成した機能は、無線チャネルを介してエッジサーバに送信される。 中間機能の伝送オーバーヘッドを低減するため、ディープjsccネットワークが設計されている。 2つのネットワークを組み合わせることで、モデル全体が中間機能に対して512倍の圧縮を達成し、両方のタスクで2%以内に性能が低下する。 最後に、ノイズのトレーニングによって、jsccによるffmnetは様々なチャネル条件に頑健になり、ソースとチャネルのコーディング方式よりも優れています。

Multi-task learning (MTL) is an efficient way to improve the performance of related tasks by sharing knowledge. However, most existing MTL networks run on a single end and are not suitable for collaborative intelligence (CI) scenarios. In this work, we propose an MTL network with a deep joint source-channel coding (JSCC) framework, which allows operating under CI scenarios. We first propose a feature fusion based MTL network (FFMNet) for joint object detection and semantic segmentation. Compared with other MTL networks, FFMNet gets higher performance with fewer parameters. Then FFMNet is split into two parts, which run on a mobile device and an edge server respectively. The feature generated by the mobile device is transmitted through the wireless channel to the edge server. To reduce the transmission overhead of the intermediate feature, a deep JSCC network is designed. By combining two networks together, the whole model achieves 512 times compression for the intermediate feature and a performance loss within 2% on both tasks. At last, by training with noise, the FFMNet with JSCC is robust to various channel conditions and outperforms the separate source and channel coding scheme.
翻訳日:2021-09-15 03:26:07 公開日:2021-09-13
# (参考訳) 質問の明確化によるオープンドメイン対話コーパスの構築と評価 [全文訳有]

Building and Evaluating Open-Domain Dialogue Corpora with Clarifying Questions ( http://arxiv.org/abs/2109.05794v1 )

ライセンス: CC BY 4.0
Mohammad Aliannejadi, Julia Kiseleva, Aleksandr Chuklin, Jeffrey Dalton, Mikhail Burtsev(参考訳) オープンドメイン対話システムを導入して,適切なタイミングで明確化を問うことは,システム応答の品質向上の重要な方向である。 すなわち、会話システムがすぐに回答を提供するのに十分なユーザ要求が具体的でない場合には、明確な質問をし、満足度の高い回答を回収する可能性を高めることが望ましい。 オープンドメイン対話における質問の明確化」の問題に対処するため,(1)オープンドメインの単一会話と複数ターン会話に焦点を当てた新しいデータセットを収集,リリースし,(2)最先端のニューラルネットワークをベンチマークし,(3)オフラインおよびオンラインのステップで様々な対話における質問の質を評価するパイプラインを提案する。 これらの貢献はさらなる研究の基盤として適している。

Enabling open-domain dialogue systems to ask clarifying questions when appropriate is an important direction for improving the quality of the system response. Namely, for cases when a user request is not specific enough for a conversation system to provide an answer right away, it is desirable to ask a clarifying question to increase the chances of retrieving a satisfying answer. To address the problem of 'asking clarifying questions in open-domain dialogues': (1) we collect and release a new dataset focused on open-domain single- and multi-turn conversations, (2) we benchmark several state-of-the-art neural baselines, and (3) we propose a pipeline consisting of offline and online steps for evaluating the quality of clarifying questions in various dialogues. These contributions are suitable as a foundation for further research.
翻訳日:2021-09-15 03:16:42 公開日:2021-09-13
# (参考訳) 識別:近隣住民の関連特徴を用いた反事実的説明の発見 [全文訳有]

DisCERN:Discovering Counterfactual Explanations using Relevance Features from Neighbourhoods ( http://arxiv.org/abs/2109.05800v1 )

ライセンス: CC BY 4.0
Nirmalie Wiratunga, Anjana Wijekoon, Ikechukwu Nkisi-Orji, Kyle Martin, Chamath Palihawadana, David Corsar(参考訳) 反事実的説明は、エンドユーザが機械学習の結果がより望ましい結果にどのように変わるかを理解するのに役立つ「行動可能な知識」に焦点を当てている。 この目的のためには、結果の変化に関連する入力依存を見つける必要がある。 意思決定のアウトプット変更を実行するために必要な機能変更の最小サブセットを特定することは、反事実的説明者にとって興味深い課題である。 本論文で導入された DisCERN アルゴリズムはケースベース対実説明器である。 ここでは、作用可能な変化が観測されるまで、特徴値を最も近い隣人(NUN)から置き換えることで、反事実を形成する。 機能関連性に基づく説明器(LIME, SHAP)がDisCERNに「動作可能な機能」の最小サブセットを特定することを通知できることを示す。 我々は,DisCERNアルゴリズムを5つのデータセット上で実証し,広く用いられている最適化に基づく対実的アプローチであるDiCEとの比較を行った。 以上の結果から, DisCERN は, 適切な対実的説明作成に必要な実行可能な変更を最小化するための効果的な戦略であることが示された。

Counterfactual explanations focus on "actionable knowledge" to help end-users understand how a machine learning outcome could be changed to a more desirable outcome. For this purpose a counterfactual explainer needs to discover input dependencies that relate to outcome changes. Identifying the minimum subset of feature changes needed to action an output change in the decision is an interesting challenge for counterfactual explainers. The DisCERN algorithm introduced in this paper is a case-based counter-factual explainer. Here counterfactuals are formed by replacing feature values from a nearest unlike neighbour (NUN) until an actionable change is observed. We show how widely adopted feature relevance-based explainers (i.e. LIME, SHAP), can inform DisCERN to identify the minimum subset of "actionable features". We demonstrate our DisCERN algorithm on five datasets in a comparative study with the widely used optimisation-based counterfactual approach DiCE. Our results demonstrate that DisCERN is an effective strategy to minimise actionable changes necessary to create good counterfactual explanations.
翻訳日:2021-09-15 03:01:35 公開日:2021-09-13
# (参考訳) UniMS:知識蒸留によるマルチモーダル要約のための統一フレームワーク [全文訳有]

UniMS: A Unified Framework for Multimodal Summarization with Knowledge Distillation ( http://arxiv.org/abs/2109.05812v1 )

ライセンス: CC BY 4.0
Zhengkun Zhang, Xiaojun Meng, Yasheng Wang, Xin Jiang, Qun Liu, Zhenglu Yang(参考訳) マルチメディアデータの急速な増加に伴い、大量の文献がマルチモーダル要約に取り組み始めており、その大半はテキストや視覚のモダリティから聖なる情報を精製し、最も関連性の高い画像で絵の要約を出力することを目的としている。 既存の手法は主に抽出的あるいは抽象的な要約に重点を置いており、画像参照を構築するのに適格な画像キャプションに依存している。 我々は,抽出目的と抽象目的を統合し,画像出力を選択する,BART,UniMSに基づくマルチモーダル要約のための統一フレームワークを最初に提案する。 特に,視覚言語学習モデルからの知識蒸留を応用して画像選択を改善し,画像キャプションの有無や品質の一切の要件を回避した。 さらに,抽象テキスト生成の誘導において,テキストと視覚のモダリティをよりよく統合するビジュアルガイドデコーダを導入する。 その結果,我々のベストモデルでは,大規模ベンチマークデータセットで新たな最先端結果が得られることがわかった。 新たに取り出した抽出目的と知識蒸留技術がマルチモーダル要約タスクに顕著な改善をもたらすことが証明される。

With the rapid increase of multimedia data, a large body of literature has emerged to work on multimodal summarization, the majority of which target at refining salient information from textual and visual modalities to output a pictorial summary with the most relevant images. Existing methods mostly focus on either extractive or abstractive summarization and rely on qualified image captions to build image references. We are the first to propose a Unified framework for Multimodal Summarization grounding on BART, UniMS, that integrates extractive and abstractive objectives, as well as selecting the image output. Specially, we adopt knowledge distillation from a vision-language pretrained model to improve image selection, which avoids any requirement on the existence and quality of image captions. Besides, we introduce a visual guided decoder to better integrate textual and visual modalities in guiding abstractive text generation. Results show that our best model achieves a new state-of-the-art result on a large-scale benchmark dataset. The newly involved extractive objective as well as the knowledge distillation technique are proven to bring a noticeable improvement to the multimodal summarization task.
翻訳日:2021-09-15 02:43:37 公開日:2021-09-13
# (参考訳) 自己教師付き学習は複数のがんの組織学スライドからdmmr/msiの検出を改善する [全文訳有]

Self supervised learning improves dMMR/MSI detection from histology slides across multiple cancers ( http://arxiv.org/abs/2109.05819v1 )

ライセンス: CC BY 4.0
Charlie Saillard, Olivier Dehaene, Tanguy Marchand, Olivier Moindrot, Aur\'elie Kamoun, Benoit Schmauch, Simon Jegou(参考訳) マイクロサテライト不安定性(英語版)(MSI)は、大腸癌(CRC)における患者のケアに大きく影響し、全ての固形腫瘍の免疫療法に反応する腫瘍表現型である。 H&Eステンディングスライドから直接MSI腫瘍を検出する深層学習モデルは、MSI患者の診断を改善することを約束している。 MSI検出のための以前のディープラーニングモデルは、ImageNetデータセットに事前訓練されたニューラルネットワークに依存しており、医療画像は含まれていない。 本研究では,MoCo V2を用いたTGAデータセットの組織像からニューラルネットワークをトレーニングすることで,自己教師学習の最近の進歩を活用する。 以上より,これらのネットワークはimagenetを用いた前訓練群を常に上回っており,crcおよび胃腫瘍に対するaucs 0.92と0.83のmsi検出結果を得た。 これらのモデルは外部のCRCコホート (0.97 AUC on PAIP) でよく一般化され、ある臓器から別の臓器への移動を改善する。 最後に,予測画像領域が有意義な組織学的パターンを示すこと,また,moco特徴の使用がより関連性の高いパターンを示すことを示す。

Microsatellite instability (MSI) is a tumor phenotype whose diagnosis largely impacts patient care in colorectal cancers (CRC), and is associated with response to immunotherapy in all solid tumors. Deep learning models detecting MSI tumors directly from H&E stained slides have shown promise in improving diagnosis of MSI patients. Prior deep learning models for MSI detection have relied on neural networks pretrained on ImageNet dataset, which does not contain any medical image. In this study, we leverage recent advances in self-supervised learning by training neural networks on histology images from the TCGA dataset using MoCo V2. We show that these networks consistently outperform their counterparts pretrained using ImageNet and obtain state-of-the-art results for MSI detection with AUCs of 0.92 and 0.83 for CRC and gastric tumors, respectively. These models generalize well on an external CRC cohort (0.97 AUC on PAIP) and improve transfer from one organ to another. Finally we show that predictive image regions exhibit meaningful histological patterns, and that the use of MoCo features highlighted more relevant patterns according to an expert pathologist.
翻訳日:2021-09-15 02:27:22 公開日:2021-09-13
# (参考訳) 可逆パターンマッチングのカテゴリー意味論 [全文訳有]

Categorical Semantics of Reversible Pattern-Matching ( http://arxiv.org/abs/2109.05837v1 )

ライセンス: CC BY 4.0
Louis Lemonnier, Kostia Chardonnet and Beno\^it Valiron(参考訳) 本稿では,可逆計算のカテゴリ構造について述べる。 特に,Seesusをベースとした型付き機能的可逆言語に着目する。 逆リグカテゴリの結合は一般的にパターンマッチングを捕捉しないが、この中核となるコンストラクトは可逆性を強制する。 次に、パターンマッチングをキャプチャするために逆リグのカテゴリを追加するためのカテゴリ構造を導出する。 このような構造が可逆的なパターンマッチングに適切なモデルとなることを示す。

This paper is concerned with categorical structures for reversible computation. In particular, we focus on a typed, functional reversible language based on Theseus. We discuss how join inverse rig categories do not in general capture pattern-matching, the core construct Theseus uses to enforce reversibility. We then derive a categorical structure to add to join inverse rig categories in order to capture pattern-matching. We show how such a structure makes an adequate model for reversible pattern-matching.
翻訳日:2021-09-15 02:11:31 公開日:2021-09-13
# (参考訳) リカレントニューラルネットワークを用いた遺伝子発現時系列予測と遺伝子制御ネットワークの構造解析 [全文訳有]

Prediction of gene expression time series and structural analysis of gene regulatory networks using recurrent neural networks ( http://arxiv.org/abs/2109.05849v1 )

ライセンス: CC0 1.0
Michele Monti, Jonathan Fiorentino, Edoardo Milanetti, Giorgio Gosti, Gian Gaetano Tartaglia(参考訳) 遺伝子発現データから遺伝子制御ネットワーク(GRN)の時系列予測と分類を行う手法は,これまで別々に検討されてきた。 近年の注目に基づくリカレントニューラルネットワーク(RNN)モデルの出現は、RNNパラメータの解釈可能性を高め、遺伝子相互作用の理解をアピールした。 本研究では,古細菌のGRNから合成時系列遺伝子発現データを生成し,その時間的変動を予測するために,二重注意RNNを用いた。 この予測は,異なるアーキテクチャを持つGRNに対して極めて正確であることを示す。 次に、RNNの注意機構に着目し、グラフ理論のツールを用いて、グラフ特性によってGRNの異なるアーキテクチャを階層的に区別できることを発見した。 RNNによる予測におけるノイズの追加に対して,GRNは異なる応答を示し,ノイズ応答とアテンション機構の解析を関連づける。 結論として、本研究は、RNNの注意機構を理解し、活用する方法を提供し、遺伝子発現データから時系列予測とGRNの推測を行うRNNベースの手法に道を開く。

Methods for time series prediction and classification of gene regulatory networks (GRNs) from gene expression data have been treated separately so far. The recent emergence of attention-based recurrent neural networks (RNN) models boosted the interpretability of RNN parameters, making them appealing for the understanding of gene interactions. In this work, we generated synthetic time series gene expression data from a range of archetypal GRNs and we relied on a dual attention RNN to predict the gene temporal dynamics. We show that the prediction is extremely accurate for GRNs with different architectures. Next, we focused on the attention mechanism of the RNN and, using tools from graph theory, we found that its graph properties allow to hierarchically distinguish different architectures of the GRN. We show that the GRNs respond differently to the addition of noise in the prediction by the RNN and we relate the noise response to the analysis of the attention mechanism. In conclusion, this work provides a a way to understand and exploit the attention mechanism of RNN and it paves the way to RNN-based methods for time series prediction and inference of GRNs from gene expression data.
翻訳日:2021-09-15 01:39:01 公開日:2021-09-13
# (参考訳) ニューラルネットワークによるマルチレベル解法のためのグリッド演算子の構築 [全文訳有]

Construction of Grid Operators for Multilevel Solvers: a Neural Network Approach ( http://arxiv.org/abs/2109.05873v1 )

ライセンス: CC BY 4.0
Claudio Tomasi and Rolf Krause(参考訳) 本稿では,楕円型pdeの有限要素離散化を出発点として,マルチグリッド法とニューラルネットワークの組み合わせについて検討する。 マルチグリッドメソッドは補間演算子を使用して、異なるレベルの近似間で情報を転送する。 これらの演算子はマルチグリッドの高速収束に不可欠であるが、一般には未知である。 補間演算子を学習するためのディープニューラルネットワークモデルを提案し,ネットワークの出力に基づいて階層構造を構築する。 ニューラルネットワークによって予測される補間演算子の精度について検討し,異なるネットワークアーキテクチャで検証する。 グリッド演算子構築のためのこのニューラルネットワークアプローチは、マルチレベルソルバの自動定義のために拡張することができ、科学計算におけるポータブルなソリューションを可能にする。

In this paper, we investigate the combination of multigrid methods and neural networks, starting from a Finite Element discretization of an elliptic PDE. Multigrid methods use interpolation operators to transfer information between different levels of approximation. These operators are crucial for fast convergence of multigrid, but they are generally unknown. We propose Deep Neural Network models for learning interpolation operators and we build a multilevel hierarchy based on the output of the network. We investigate the accuracy of the interpolation operator predicted by the Neural Network, testing it with different network architectures. This Neural Network approach for the construction of grid operators can then be extended for an automatic definition of multilevel solvers, allowing a portable solution in scientific computing
翻訳日:2021-09-15 01:15:16 公開日:2021-09-13
# (参考訳) DBMSにおける心性評価 : 総合的ベンチマーク評価 [全文訳有]

Cardinality Estimation in DBMS: A Comprehensive Benchmark Evaluation ( http://arxiv.org/abs/2109.05877v1 )

ライセンス: CC BY 4.0
Yuxing Han, Ziniu Wu, Peizhi Wu, Rong Zhu, Jingyi Yang, Liang Wei Tan, Kai Zeng, Gao Cong, Yanzhao Qin, Andreas Pfadler, Zhengping Qian, Jingren Zhou, Jiangneng Li, Bin Cui(参考訳) カーディナリティ推定(CardEst)はDBMSのクエリオプティマイザのための高品質なクエリプランを生成する上で重要な役割を果たす。 過去10年間で、予測精度と推論遅延に優れた高度なCardEstメソッド(特にMLベース)が提案されている。 しかし、これらの手法の質を体系的に評価し、基本的な問題に答える研究は存在せず、この手法が現実世界の設定においてクエリオプティマイザの性能をどの程度向上させるかは、カードレストの究極の目標である。 本稿では,実際のDBMSにおけるCardEst手法の有効性を包括的かつ体系的に比較する。 CardEstの新しいベンチマークは、新しい複雑な実世界のデータセットSTATSと多様なクエリワークロードSTATS-CEBを含んでいる。 複数の代表的なcardestメソッドをオープンソースのデータベースシステムpostgresqlに統合し,クエリプランの品質向上や,推論レイテンシやモデルサイズ,トレーニング時間など,その適用性に影響する重要な側面を包括的に評価して,効率と正確性を更新する。 異なるデータとクエリの設定の下で,cardestメソッドに対する多くの重要な発見を得た。 さらに,広く用いられている推定精度指標 (q-error) は,クエリ最適化において異なるサブプランクエリの重要性を識別できないため,cardestメソッドによって生成されたクエリプランの品質を真に反映できないことがわかった。 そこで本研究では,Q-Errorの限界を克服し,CardEst法全体のエンドツーエンド性能を反映できる,CardEst法の性能を評価するための新しい測度P-Errorを提案する。 ベンチマークデータと評価コードは、https://github.com/N athaniel-Han/Endto-E nd-CardEst-Benchmark で公開しました。

Cardinality estimation (CardEst) plays a significant role in generating high-quality query plans for a query optimizer in DBMS. In the last decade, an increasing number of advanced CardEst methods (especially ML-based) have been proposed with outstanding estimation accuracy and inference latency. However, there exists no study that systematically evaluates the quality of these methods and answer the fundamental problem: to what extent can these methods improve the performance of query optimizer in real-world settings, which is the ultimate goal of a CardEst method. In this paper, we comprehensively and systematically compare the effectiveness of CardEst methods in a real DBMS. We establish a new benchmark for CardEst, which contains a new complex realworld dataset STATS and a diverse query workload STATS-CEB. We integrate multiple most representative CardEst methods into an open-source database system PostgreSQL, and comprehensively evaluate their true effectiveness in improving query plan quality, and other important aspects affecting their applicability, ranging from inference latency, model size, and training time, to update efficiency and accuracy. We obtain a number of key findings for the CardEst methods, under different data and query settings. Furthermore, we find that the widely used estimation accuracy metric(Q-Error) cannot distinguish the importance of different sub-plan queries during query optimization and thus cannot truly reflect the query plan quality generated by CardEst methods. Therefore, we propose a new metric P-Error to evaluate the performance of CardEst methods, which overcomes the limitation of Q-Error and is able to reflect the overall end-to-end performance of CardEst methods. We have made all of the benchmark data and evaluation code publicly available at https://github.com/N athaniel-Han/Endto-E nd-CardEst-Benchmark .
翻訳日:2021-09-15 01:09:36 公開日:2021-09-13
# (参考訳) マルチビュー画像を用いたグラフベース3次元マルチパーソンポーズ推定 [全文訳有]

Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images ( http://arxiv.org/abs/2109.05885v1 )

ライセンス: CC BY 4.0
Size Wu, Sheng Jin, Wentao Liu, Lei Bai, Chen Qian, Dong Liu, Wanli Ouyang(参考訳) 本稿では,複数のキャリブレーションカメラから複数の人物の3次元ポーズを推定する作業について検討する。 トップダウンのパラダイムに従って、タスクを2つのステージ、すなわち人物のローカライゼーションとポーズ推定に分解する。 どちらの段階も粗い方法で処理される。 また,効果的なメッセージパッシングのためのタスク固有グラフニューラルネットワークを3つ提案する。 3次元パーソナライズのために、まず、マルチビューマッチンググラフモジュール(mmg)を使用して、クロスビューアソシエーションを学び、粗い人間の提案を回収する。 センターリファインメントグラフモジュール(crg)は、フレキシブルなポイントベースの予測によって結果をさらに洗練する。 3次元ポーズ推定のために、Pose Regression Graph Module (PRG)は、多視点形状と人間の関節の構造的関係の両方を学ぶ。 提案手法はCMU Panoptic と Shelf のデータセットに対して,計算処理の複雑さを大幅に低減した最先端性能を実現する。

This paper studies the task of estimating the 3D human poses of multiple persons from multiple calibrated camera views. Following the top-down paradigm, we decompose the task into two stages, i.e. person localization and pose estimation. Both stages are processed in coarse-to-fine manners. And we propose three task-specific graph neural networks for effective message passing. For 3D person localization, we first use Multi-view Matching Graph Module (MMG) to learn the cross-view association and recover coarse human proposals. The Center Refinement Graph Module (CRG) further refines the results via flexible point-based prediction. For 3D pose estimation, the Pose Regression Graph Module (PRG) learns both the multi-view geometry and structural relations between human joints. Our approach achieves state-of-the-art performance on CMU Panoptic and Shelf datasets with significantly lower computation complexity.
翻訳日:2021-09-15 00:39:47 公開日:2021-09-13
# (参考訳) リモートセンシング画像インパインティングのための非局所パッチベース完全連結テンソルネットワーク分解 [全文訳有]

Nonlocal Patch-Based Fully-Connected Tensor Network Decomposition for Remote Sensing Image Inpainting ( http://arxiv.org/abs/2109.05889v1 )

ライセンス: CC BY 4.0
Wen-Jie Zheng, Xi-Le Zhao, Yu-Bang Zheng, Zhi-Feng Pang(参考訳) リモートセンシングイメージ(rsi)インペインティングは、実際のアプリケーションにおいて重要な役割を果たす。 近年,全連結テンソルネットワーク(fctn)分解により,大域相関を完全に特徴づける能力が示された。 本稿では,RSIのグローバル相関と非局所自己相似性(NSS)を考慮し,RSI全体とそのNSSグループにFCTN分解を導入し,新しい非局所パッチベースFCTN(NL-FCTN)分解法を提案する。 他の非局所的パッチベース法とは異なり、NL-FCTN分解法は、同様の小さなパッチをNSSグループに積み重ねることでテンソル次数を増加させ、FCTN分解の顕著な能力を巧みに活用して高階テンソルを扱う。 また,提案するnl-fctn分解に基づくモデルに対して,理論的収束を保証した効率的な近位交互最小化アルゴリズムを提案する。 RSIの大規模実験により, 提案手法は, 全ての比較手法で最先端の塗装性能を実現することを示した。

Remote sensing image (RSI) inpainting plays an important role in real applications. Recently, fully-connected tensor network (FCTN) decomposition has been shown the remarkable ability to fully characterize the global correlation. Considering the global correlation and the nonlocal self-similarity (NSS) of RSIs, this paper introduces the FCTN decomposition to the whole RSI and its NSS groups, and proposes a novel nonlocal patch-based FCTN (NL-FCTN) decomposition for RSI inpainting. Different from other nonlocal patch-based methods, the NL-FCTN decomposition-based method, which increases tensor order by stacking similar small-sized patches to NSS groups, cleverly leverages the remarkable ability of FCTN decomposition to deal with higher-order tensors. Besides, we propose an efficient proximal alternating minimization-based algorithm to solve the proposed NL-FCTN decomposition-based model with a theoretical convergence guarantee. Extensive experiments on RSIs demonstrate that the proposed method achieves the state-of-the-art inpainting performance in all compared methods.
翻訳日:2021-09-15 00:21:08 公開日:2021-09-13
# (参考訳) 移動を伴うミリ波セルシステムにおける学習型UE分類 [全文訳有]

Learning-Based UE Classification in Millimeter-Wave Cellular Systems With Mobility ( http://arxiv.org/abs/2109.05893v1 )

ライセンス: CC BY 4.0
Dino Pjani\'c and Alexandros Sopasakis and Harsh Tataria and Fredrik Tufvesson and Andres Reial(参考訳) ミリ波セル通信は、ユーザ機器(ue)が移動するときに送信機と受信機ビームのアライメントを可能にするビームフォーミング手順を必要とする。 効率的なビームトラッキングでは、トラフィックやモビリティパターンに応じてユーザを分類するのが有利である。 これまでの研究は、機械学習に基づくUE分類の効率的な方法を示してきた。 異なる機械学習アプローチが成功しているが、その多くは受信した信号の物理層特性に基づいている。 しかし、これはさらに複雑さを増し、これらの下位層信号へのアクセスを必要とする。 本稿では,従来の教師付きおよび教師なしの機械学習手法を高層チャネル計測レポートに適用してue分類を行うことにより,分類プロセスの複雑さを低減できることを示す。

Millimeter-wave cellular communication requires beamforming procedures that enable alignment of the transmitter and receiver beams as the user equipment (UE) moves. For efficient beam tracking it is advantageous to classify users according to their traffic and mobility patterns. Research to date has demonstrated efficient ways of machine learning based UE classification. Although different machine learning approaches have shown success, most of them are based on physical layer attributes of the received signal. This, however, imposes additional complexity and requires access to those lower layer signals. In this paper, we show that traditional supervised and even unsupervised machine learning methods can successfully be applied on higher layer channel measurement reports in order to perform UE classification, thereby reducing the complexity of the classification process.
翻訳日:2021-09-15 00:07:25 公開日:2021-09-13
# (参考訳) 電子デバイスに関する質問応答:新しいベンチマークデータセットとマルチタスク学習ベースのQAフレームワーク [全文訳有]

Question Answering over Electronic Devices: A New Benchmark Dataset and a Multi-Task Learning based QA Framework ( http://arxiv.org/abs/2109.05897v1 )

ライセンス: CC BY 4.0
Abhilash Nandy, Soumya Sharma, Shubham Maddhashiya, Kapil Sachdeva, Pawan Goyal, Niloy Ganguly(参考訳) Eマニュアルやレシピブックなどの教示コーパスからの質問に対する回答は、オープンドメインのファクトイドな文脈に基づく質問応答よりもはるかに少ない。 これは主に標準ベンチマークデータセットがないためである。 本稿では,Eマニュアルに関連付けられた大量のデータを慎重に生成し,その利用に適したアルゴリズムを開発する。 我々は,307,957個のe-manualsの巨大なコーパスであるe-manual corpusを収集し,この大きなコーパス上でrobertaを事前学習する。 2つのEマニュアルに基づいて専門家がキュレートした質問応答ペア、Eマニュアルに関するコミュニティ質問回答フォーラムの実際のユーザ質問など、さまざまなベンチマークQAデータセットを作成します。 EMQAP(E-Manual Question Answering Pipeline)を導入し、電子機器に関する質問に答える。 事前訓練されたRoBERTaの上に構築され、教師付きマルチタスク学習フレームワークが組み込まれており、このフレームワークは、解答の発見可能なEマニュアル内のセクションを識別し、そのセクション内に正確な回答を分散する2つのタスクを効率的に実行する。 E- Manual Annotated Question-Awer pairs に対して,ROUGE-L F1 スコアは最も競争力のあるベースラインよりも約40%向上した。 詳細なアブレーション研究を行い、異なる状況におけるEMQAPの汎用性を確立する。 コードとデータセットはhttps://github.com/a bhi1nandy2/EMNLP-202 1-Findingsで共有されている。

Answering questions asked from instructional corpora such as E-manuals, recipe books, etc., has been far less studied than open-domain factoid context-based question answering. This can be primarily attributed to the absence of standard benchmark datasets. In this paper we meticulously create a large amount of data connected with E-manuals and develop suitable algorithm to exploit it. We collect E-Manual Corpus, a huge corpus of 307,957 E-manuals and pretrain RoBERTa on this large corpus. We create various benchmark QA datasets which include question answer pairs curated by experts based upon two E-manuals, real user questions from Community Question Answering Forum pertaining to E-manuals etc. We introduce EMQAP (E-Manual Question Answering Pipeline) that answers questions pertaining to electronics devices. Built upon the pretrained RoBERTa, it harbors a supervised multi-task learning framework which efficiently performs the dual tasks of identifying the section in the E-manual where the answer can be found and the exact answer span within that section. For E-Manual annotated question-answer pairs, we show an improvement of about 40% in ROUGE-L F1 scores over the most competitive baseline. We perform a detailed ablation study and establish the versatility of EMQAP across different circumstances. The code and datasets are shared at https://github.com/a bhi1nandy2/EMNLP-202 1-Findings, and the corresponding project website is https://sites.google .com/view/emanualqa/ home.
翻訳日:2021-09-14 23:58:19 公開日:2021-09-13
# (参考訳) 効率的な多重制約獲得

Efficient Multiple Constraint Acquisition ( http://arxiv.org/abs/2109.05920v1 )

ライセンス: CC BY 4.0
Dimosthenis C. Tsouros and Kostas Stergiou(参考訳) quacqやmultiacqといった制約取得システムは、(部分的な)例を正か負かに分類することで、非専門家のユーザが自身の問題を制約ネットワークとしてモデル化するのに役立つ。 負の例では、前者はターゲットネットワークの1つの制約に焦点を当て、後者は最大数の制約を学ぶことができる。 両方のアルゴリズムが問題に遭遇する買収プロセスのボトルネックは、収束に達するのに必要な大量のクエリと、特に収束に近いクエリを生成するのに必要なcpu時間である。 本稿では,これらの問題に対処するアルゴリズムとヒューリスティックな手法を提案する。 最初に、MQuAcqと呼ばれるアルゴリズムを記述し、MQuAcqの主アイデアをQuAcqにブレンドすることで、MultiAcqが負の例の後に行うような多くの制約を学習するが、複雑さは小さくなる。 また,提案アルゴリズムの詳細な理論的解析を行った。 また,クエリ数を大幅に削減することで,制約獲得の性能を向上させる手法を提案する。 次に、買収プロセスにおいて重要ではあるが見落とされた部分であるクエリ生成に注意を向ける。 本稿では,典型的な制約獲得システムにおけるクエリ生成の動作を詳細に記述し,その効率向上のためのヒューリスティックスを提案する。 様々な領域からの実験により、新しい手法を全て統合したアルゴリズムはQuAcqやMultiAcqよりもはるかに少ないクエリを生成するだけでなく、平均クエリ生成時間と総実行時間において、両者よりもはるかに高速であり、また早めの収束問題をほとんど軽減していることが示された。

Constraint acquisition systems such as QuAcq and MultiAcq can assist non-expert users to model their problems as constraint networks by classifying (partial) examples as positive or negative. For each negative example, the former focuses on one constraint of the target network, while the latter can learn a maximum number of constraints. Two bottlenecks of the acquisition process where both these algorithms encounter problems are the large number of queries required to reach convergence, and the high cpu times needed to generate queries, especially near convergence. In this paper we propose algorithmic and heuristic methods to deal with both these issues. We first describe an algorithm, called MQuAcq, that blends the main idea of MultiAcq into QuAcq resulting in a method that learns as many constraints as MultiAcq does after a negative example, but with a lower complexity. A detailed theoretical analysis of the proposed algorithm is also presented. %We also present a technique that boosts the performance of constraint acquisition by reducing the number of queries significantly. Then we turn our attention to query generation which is a significant but rather overlooked part of the acquisition process. We describe %in detail how query generation in a typical constraint acquisition system operates, and we propose heuristics for improving its efficiency. Experiments from various domains demonstrate that our resulting algorithm that integrates all the new techniques does not only generate considerably fewer queries than QuAcq and MultiAcq, but it is also by far faster than both of them, in average query generation time as well as in total run time, and also largely alleviates the premature convergence problem.
翻訳日:2021-09-14 23:34:34 公開日:2021-09-13
# (参考訳) 数学語問題解法の評価における逆例 [全文訳有]

Adversarial Examples for Evaluating Math Word Problem Solvers ( http://arxiv.org/abs/2109.05925v1 )

ライセンス: CC BY 4.0
Vivek Kumar, Rishabh Maheshwary, Vikram Pudi(参考訳) 標準精度測定により、ベンチマークデータセット上でのMath Word Problem (MWP) の解法は高い性能を示した。 しかし、既存のMWPソルバが言語とその数との関係を真に理解している範囲はいまだ不明である。 本稿では,最新のMWPソルバの堅牢性を評価するために,逆攻撃を生成する。 本稿では,対立攻撃を発生させる2つの方法を提案する。 2つのベンチマークデータセット上で3つのニューラルMWPソルバを対象に実験を行った。 本手法では,これらのデータセットに対して平均40ポイント以上の精度でMWPソルバの精度を下げることができる。 その結果,既存のMWPソルバは問題テキストの言語的変化に敏感であることがわかった。 我々は,人的評価によって生成した敵例の有効性と品質を検証する。

Standard accuracy metrics have shown that Math Word Problem (MWP) solvers have achieved high performance on benchmark datasets. However, the extent to which existing MWP solvers truly understand language and its relation with numbers is still unclear. In this paper, we generate adversarial attacks to evaluate the robustness of state-of-the-art MWP solvers. We propose two methods Question Reordering and Sentence Paraphrasing to generate adversarial attacks. We conduct experiments across three neural MWP solvers over two benchmark datasets. On average, our attack method is able to reduce the accuracy of MWP solvers by over 40 percentage points on these datasets. Our results demonstrate that existing MWP solvers are sensitive to linguistic variations in the problem text. We verify the validity and quality of generated adversarial examples through human evaluation.
翻訳日:2021-09-14 23:33:18 公開日:2021-09-13
# (参考訳) 動的制約を用いた視覚に基づくシステム同定と3次元キーポイント発見 [全文訳有]

Vision-based system identification and 3D keypoint discovery using dynamics constraints ( http://arxiv.org/abs/2109.05928v1 )

ライセンス: CC BY 4.0
Miguel Jaques, Martin Asenov, Michael Burke, Timothy Hospedales(参考訳) 本稿では,静的カメラから撮影した未ラベル映像からの同時キーポイント検出,3Dシステム識別,および外部カメラキャリブレーションを可能にする新しい手法であるV-SysIdを紹介する。 V-SysIdはキーポイントトラジェクトリの提案を採り、最大パラメータ推定と外部カメラキャリブレーションを交互に行い、興味の軌跡を特定するために適切な選択基準を適用する。 これは教師付き学習を使用してキーポイント追跡モデルをトレーニングするために使用される。 さまざまな設定(ロボティクス、物理学、生理学)の結果は、このアプローチの有用性を強調している。

This paper introduces V-SysId, a novel method that enables simultaneous keypoint discovery, 3D system identification, and extrinsic camera calibration from an unlabeled video taken from a static camera, using only the family of equations of motion of the object of interest as weak supervision. V-SysId takes keypoint trajectory proposals and alternates between maximum likelihood parameter estimation and extrinsic camera calibration, before applying a suitable selection criterion to identify the track of interest. This is then used to train a keypoint tracking model using supervised learning. Results on a range of settings (robotics, physics, physiology) highlight the utility of this approach.
翻訳日:2021-09-14 23:24:00 公開日:2021-09-13
# (参考訳) クロスマーケット製品レコメンデーション [全文訳有]

Cross-Market Product Recommendation ( http://arxiv.org/abs/2109.05929v1 )

ライセンス: CC BY 4.0
Hamed Bonab, Mohammad Aliannejadi, Ali Vardasbi, Evangelos Kanoulas, James Allan(参考訳) 本研究では,資源補助市場における類似したリッチなデータを活用することで,比較的資源市場において,ユーザに対して関連商品を推薦する課題について検討する。 我々は、ある市場のデータを別の市場でのパフォーマンス向上に利用できると仮定する。 この地域では、公開実験データが不足していることもあって、いくつかの研究しか行われていない。 この目的のために、私たちは16の異なる製品カテゴリの18の地域市場をカバーする大規模なデータセットであるXMarketを収集、リリースしました。 我々は、市場適応というクロスマーケット製品レコメンデーションの問題を導入し、フォーマル化する。 我々は、最先端のドメイン適応とメタラーニングアプローチにインスパイアされた異なる市場適応手法を探求し、FORECという新しい市場適応のためのニューラルアプローチを提案する。 我々のモデルは、補助市場とターゲット市場からのデータを完全に活用するために、事前訓練、フォーク、微調整という3段階の手順に従っています。 我々は,市場適応が異なる市場に与える影響について広範な実験を行う。 提案手法はロバストな有効性を示し,本分析で選択した競合ベースラインと比較して目標市場の性能を一貫して改善する。 特に、FORECはNMFベースラインと比較して平均24%、nDCG@10で50%改善している。 分析と実験により,本研究領域における具体的な今後の方向性が示唆された。 学術目的のデータとコードをリリースします。

We study the problem of recommending relevant products to users in relatively resource-scarce markets by leveraging data from similar, richer in resource auxiliary markets. We hypothesize that data from one market can be used to improve performance in another. Only a few studies have been conducted in this area, partly due to the lack of publicly available experimental data. To this end, we collect and release XMarket, a large dataset covering 18 local markets on 16 different product categories, featuring 52.5 million user-item interactions. We introduce and formalize the problem of cross-market product recommendation, i.e., market adaptation. We explore different market-adaptation techniques inspired by state-of-the-art domain-adaptation and meta-learning approaches and propose a novel neural approach for market adaptation, named FOREC. Our model follows a three-step procedure -- pre-training, forking, and fine-tuning -- in order to fully utilize the data from an auxiliary market as well as the target market. We conduct extensive experiments studying the impact of market adaptation on different pairs of markets. Our proposed approach demonstrates robust effectiveness, consistently improving the performance on target markets compared to competitive baselines selected for our analysis. In particular, FOREC improves on average 24% and up to 50% in terms of nDCG@10, compared to the NMF baseline. Our analysis and experiments suggest specific future directions in this research area. We release our data and code for academic purposes.
翻訳日:2021-09-14 23:08:14 公開日:2021-09-13
# (参考訳) グラフカラー化問題のための深層学習誘導型memeticフレームワーク [全文訳有]

A deep learning guided memetic framework for graph coloring problems ( http://arxiv.org/abs/2109.05948v1 )

ライセンス: CC BY 4.0
Olivier Goudet, Cyril Grelier and Jin-Kao Hao(参考訳) 有向グラフ $G=(V,E)$ と頂点の集合 $V$ と辺の集合 $E$ が与えられたとき、グラフ彩色問題は、頂点の異なる独立集合への分割を見つけることである。 本稿では,グラフカラー化のための「古典的」メタヒューリスティクスの優れたツールと,ディープニューラルネットワークを組み合わせた新しいフレームワークを提案する。 提案アルゴリズムは重み付きグラフ着色問題に基づいて評価され,計算結果から,提案手法が中大グラフの新たな上界の獲得を可能にすることが示された。 アルゴリズムにおけるディープラーニングの寄与についての研究は、この問題に対するより良い解を得るのに有用な関連パターンを学習できることを強調している。

Given an undirected graph $G=(V,E)$ with a set of vertices $V$ and a set of edges $E$, a graph coloring problem involves finding a partition of the vertices into different independent sets. In this paper we present a new framework which combines a deep neural network with the best tools of "classical" metaheuristics for graph coloring. The proposed algorithm is evaluated on the weighted graph coloring problem and computational results show that the proposed approach allows to obtain new upper bounds for medium and large graphs. A study of the contribution of deep learning in the algorithm highlights that it is possible to learn relevant patterns useful to obtain better solutions to this problem.
翻訳日:2021-09-14 22:47:59 公開日:2021-09-13
# (参考訳) Tamizhi-Net OCR:Deep Learning Based Printed Character Recognition (PCR)を用いた高品質なタミルシンハラ英語パラレルコーパスの作成 [全文訳有]

Tamizhi-Net OCR: Creating A Quality Large Scale Tamil-Sinhala-Englis h Parallel Corpus Using Deep Learning Based Printed Character Recognition (PCR) ( http://arxiv.org/abs/2109.05952v1 )

ライセンス: CC BY 4.0
Charangan Vasantharajan and Uthayasanker Thayasivam(参考訳) 低リソース言語の多くは、実質的な単言語コーパスを作成するために必要なリソースを持っていない。 これらの言語は政府の手続きでしばしば見られるが、主にレガシーフォントを含むポータブル文書フォーマット(PDF)の形式である。 これらの文書からテキストを抽出して単言語コーパスを作成することは、レガシーフォントの使用と、テキスト抽出に最適化されていないプリンタフレンドリなエンコーディングのために困難である。 そこで本研究では,タミル語,シンハラ語,英語および多くの文書をスケール可能な,シンプルで自動的で斬新なアイデアを提案する。 そこで我々は,従来のフォントをLSTMで学習し,印刷文字を認識することで,Tesseract 4.1.1の性能向上を実現した。 特に,本モデルでは,印刷文書からコードミックステキスト,数字,特殊文字を検出する。 このアプローチは、テッセラクト4.1.1の文字レベルの精度を、タミルでは85.5から98.2に、シンハラでは91.8から94.8に向上させることが示されている(+3.26%)。

Most of the low resource languages do not have the necessary resources to create even a substantial monolingual corpus. These languages may often be found in government proceedings but mostly in the form of Portable Document Formats (PDFs) that contains legacy fonts. Extracting text from these documents to create a monolingual corpus is challenging due to legacy font usage and printer-friendly encoding which are not optimized for text extraction. Therefore, we propose a simple, automatic, and novel idea that can scale for Tamil, Sinhala, and English languages and many documents. For this purpose, we enhanced the performance of Tesseract 4.1.1 by employing LSTM-based training on many legacy fonts to recognize printed characters in the above languages. Especially, our model detects code-mix text, numbers, and special characters from the printed document. It is shown that this approach can boost the character-level accuracy of Tesseract 4.1.1 from 85.5 to 98.2 for Tamil (+12.9% relative change) and 91.8 to 94.8 for Sinhala (+3.26% relative change) on a dataset that is considered as challenging by its authors.
翻訳日:2021-09-14 22:16:16 公開日:2021-09-13
# (参考訳) 会話探索における混合イニシアティブと探索戦略の分析 [全文訳有]

Analysing Mixed Initiatives and Search Strategies during Conversational Search ( http://arxiv.org/abs/2109.05955v1 )

ライセンス: CC BY 4.0
Mohammad Aliannejadi, Leif Azzopardi, Hamed Zamani, Evangelos Kanoulas, Paul Thomas, Nick Craswel(参考訳) ユーザと会話エージェント(CSA)間の会話を求める情報には,対話のターンが複数ある。 ユーザが検索セッションを開始する間、CSAは、クエリの提案やクエリの明確化、すなわち混合イニシアティブを提供することによって、ユーザからのフィードバックを得ることによって、会話のリードを取ることが理想である。 これにより、より魅力的な対話型検索の可能性がもたらされるが、大きな相互作用空間と異なる相互作用のコストと利益のトレードオフが組み合わさって、そのようなシナリオのモデル化と評価の複雑さが大幅に増大する。 本稿では,対話的探索のためのモデルを提案する。そこではエージェントが示す異なる対話的探索戦略をインスタンス化する。 (i)フィードバックファースト、または (ii) フィードバックの後。 49のTREC WebTrack Topicsを使用して、これらの異なる戦略と異なる混合イニシアティブアプローチがいかにうまく組み合わせられているかを比較した。 (i)クエリSuggestions vs. (ii)クエリの明確化。 分析の結果,先行的あるいは支配的な組み合わせは存在せず,その代わり,最初に質問した場合のクエリの明確化が良好であると同時に,結果提示後のクエリ提案も良好であることが判明した。 また,クエリとフィードバックの相対的コスト,初期クエリのパフォーマンス,クエリ毎のアセスメント数,必要なゲインの総量とのトレードオフにも依存することを示す。 この研究はcsasの分析に関わる複雑さと課題を強調しているが、バッチ/オフライン設定で会話戦略と会話検索エージェントを評価する基盤を提供する。

Information seeking conversations between users and Conversational Search Agents (CSAs) consist of multiple turns of interaction. While users initiate a search session, ideally a CSA should sometimes take the lead in the conversation by obtaining feedback from the user by offering query suggestions or asking for query clarifications i.e. mixed initiative. This creates the potential for more engaging conversational searches, but substantially increases the complexity of modelling and evaluating such scenarios due to the large interaction space coupled with the trade-offs between the costs and benefits of the different interactions. In this paper, we present a model for conversational search -- from which we instantiate different observed conversational search strategies, where the agent elicits: (i) Feedback-First, or (ii) Feedback-After. Using 49 TREC WebTrack Topics, we performed an analysis comparing how well these different strategies combine with different mixed initiative approaches: (i) Query Suggestions vs. (ii) Query Clarifications. Our analysis reveals that there is no superior or dominant combination, instead it shows that query clarifications are better when asked first, while query suggestions are better when asked after presenting results. We also show that the best strategy and approach depends on the trade-offs between the relative costs between querying and giving feedback, the performance of the initial query, the number of assessments per query, and the total amount of gain required. While this work highlights the complexities and challenges involved in analyzing CSAs, it provides the foundations for evaluating conversational strategies and conversational search agents in batch/offline settings.
翻訳日:2021-09-14 22:09:24 公開日:2021-09-13
# (参考訳) 会話検索における文書検索の改善のためのキーワード抽出 [全文訳有]

Keyword Extraction for Improved Document Retrieval in Conversational Search ( http://arxiv.org/abs/2109.05979v1 )

ライセンス: CC BY 4.0
Oleg Borisov, Mohammad Aliannejadi, Fabio Crestani(参考訳) 近年の研究では,問合せの明確化と改善を目的としたユーザとコンピュータのインタラクションに基づく対話型検索が,大きなメリットをもたらすことが示されている。 それでも、会話からユーザが提供する追加情報を取り込むことには、いくつかの課題がある。 実際、さらに対話することで、ユーザが必要な情報に無関係に単語を使用することができるため、マルチターン会話のコンテキストにおいて正しい文構築に不可欠である。 そこで本研究では,対話型キーワード抽出データセットを2つ集め,それを組み込んだエンドツーエンドの文書検索パイプラインを提案する。 さらに,抽出精度と人間のアノテーションの観点から,BERTとシーケンス to シーケンスという2つのニューラルキーワード抽出モデルの性能について検討した。 最後に、キーワード抽出がエンドツーエンドのニューラルIR性能に与える影響について検討し、我々のアプローチが最先端のIRモデルを上回ることを示す。 この領域の研究を促進すべく、2つのデータセットを公開しています。

Recent research has shown that mixed-initiative conversational search, based on the interaction between users and computers to clarify and improve a query, provides enormous advantages. Nonetheless, incorporating additional information provided by the user from the conversation poses some challenges. In fact, further interactions could confuse the system as a user might use words irrelevant to the information need but crucial for correct sentence construction in the context of multi-turn conversations. To this aim, in this paper, we have collected two conversational keyword extraction datasets and propose an end-to-end document retrieval pipeline incorporating them. Furthermore, we study the performance of two neural keyword extraction models, namely, BERT and sequence to sequence, in terms of extraction accuracy and human annotation. Finally, we study the effect of keyword extraction on the end-to-end neural IR performance and show that our approach beats state-of-the-art IR models. We make the two datasets publicly available to foster research in this area.
翻訳日:2021-09-14 21:45:24 公開日:2021-09-13
# (参考訳) クロスドキュメントエビデンスにおけるクレーム検証のためのグラフベース検索 [全文訳有]

Graph-based Retrieval for Claim Verification over Cross-Document Evidence ( http://arxiv.org/abs/2109.06022v1 )

ライセンス: CC BY 4.0
Misael Mongiov\`i and Aldo Gangemi(参考訳) クレームの検証には、信頼に値する情報源のコーパスという形で、大きな知識ベースに対する推論が必要である。 一般的なアプローチは、参照文書から関連するテキストの短い部分を取得し、それらからクレームが推論可能か矛盾するかを決定する自然言語推論モジュールへの入力として与えることである。 しかし、単一の文書が目的とするクレームとはほとんど関連せず、検索モジュールによって削除されるため、複数の証拠を異なる文書から収集して結合する必要がある場合、このアプローチは困難である。 グラフに基づくアプローチは、断片化された証拠を特定するのに役立つと推測する。 この仮説を、コーパス全体にわたって、前述のエンティティによってテキスト部分同士を相互接続する大きなグラフを構築し、複数のソースから証拠の候補集合を識別するためにそのようなグラフを活用して検証した。 実験の結果,グラフ構造を活用すれば,クレームに関連する通路のごく一部を合理的に特定できることがわかった。

Verifying the veracity of claims requires reasoning over a large knowledge base, often in the form of corpora of trustworthy sources. A common approach consists in retrieving short portions of relevant text from the reference documents and giving them as input to a natural language inference module that determines whether the claim can be inferred or contradicted from them. This approach, however, struggles when multiple pieces of evidence need to be collected and combined from different documents, since the single documents are often barely related to the target claim and hence they are left out by the retrieval module. We conjecture that a graph-based approach can be beneficial to identify fragmented evidence. We tested this hypothesis by building, over the whole corpus, a large graph that interconnects text portions by means of mentioned entities and exploiting such a graph for identifying candidate sets of evidence from multiple sources. Our experiments show that leveraging on a graph structure is beneficial in identifying a reasonably small portion of passages related to a claim.
翻訳日:2021-09-14 21:34:51 公開日:2021-09-13
# (参考訳) 感性に基づく事前学習によるFew-Shotクロスリンガルスタンス検出 [全文訳有]

Few-Shot Cross-Lingual Stance Detection with Sentiment-Based Pre-Training ( http://arxiv.org/abs/2109.06050v1 )

ライセンス: CC BY 4.0
Momchil Hardalov, Arnav Arora, Preslav Nakov, Isabelle Augenstein(参考訳) 姿勢検出の目標は、テキストで表現された視点を目標に向かって決定することである。 これらの視点や文脈は、ユーザーやプラットフォームによって多くの異なる言語で表現されることが多く、ローカルニュースメディア、ソーシャルメディアプラットフォーム、ニュースフォーラムなどである。 しかし、スタンス検出のほとんどの研究は、言語間のスタンス検出にはほとんど取り組んでおらず、単一の言語といくつかの限定されたターゲットでのみ行われている。 さらに、ラベル付きデータの非英語ソースは、しばしば不足しており、追加の課題がある。 近年,多くの非英語タスク,特に少数の例において,大規模な多言語言語モデルの性能が大幅に向上している。 これは、モデルの事前トレーニングの重要性と、少数の例から学ぶ能力を強調している。 本稿では,現在までの言語間スタンス検出に関する最も包括的な研究について述べる。6つの言語ファミリーの12言語で15の多様なデータセットと6つの低リソース評価設定を用いて実験する。 実験では, 音声合成の簡易化を目的として, 新たなラベルエンコーダの追加を提案する。 さらに,低ショット設定で6%以上のf1絶対値が向上するプレトレーニングのための感情に基づく姿勢データの生成法を提案する。

The goal of stance detection is to determine the viewpoint expressed in a piece of text towards a target. These viewpoints or contexts are often expressed in many different languages depending on the user and the platform, which can be a local news outlet, a social media platform, a news forum, etc. Most research in stance detection, however, has been limited to working with a single language and on a few limited targets, with little work on cross-lingual stance detection. Moreover, non-English sources of labelled data are often scarce and present additional challenges. Recently, large multilingual language models have substantially improved the performance on many non-English tasks, especially such with limited numbers of examples. This highlights the importance of model pre-training and its ability to learn from few examples. In this paper, we present the most comprehensive study of cross-lingual stance detection to date: we experiment with 15 diverse datasets in 12 languages from 6 language families, and with 6 low-resource evaluation settings each. For our experiments, we build on pattern-exploiting training, proposing the addition of a novel label encoder to simplify the verbalisation procedure. We further propose sentiment-based generation of stance data for pre-training, which shows sizeable improvement of more than 6% F1 absolute in low-shot settings compared to several strong baselines.
翻訳日:2021-09-14 21:26:25 公開日:2021-09-13
# (参考訳) 関心の終端点(POI)相関フレームワーク [全文訳有]

An End-to-end Point of Interest (POI) Conflation Framework ( http://arxiv.org/abs/2109.06073v1 )

ライセンス: CC BY 4.0
Raymond Low, Zeynep D. Tekler and Lynette Cheah(参考訳) ポイント・オブ・関心(POI)データは、興味のある場所に関する意味情報の貴重な情報源であり、不動産、交通、都市計画に多くの地理空間的応用がある。 異なるデータソースが利用可能になったことで、POI Conflationは、複数のソースからPOIデータをマージすることで、データ品質とカバレッジを向上するための貴重なテクニックとなります。 本研究では,データ調達,スキーマ標準化,分類学マッピング,POIマッチング,POI統一,データ検証の6段階からなる,新しいエンドツーエンドのPOI統合フレームワークを提案する。 提案手法の有効性は,シンガポール東部で実施されたケーススタディで実証され,5つのデータソースからのPOIデータを混在させて統合されたPOIデータセットを構築した。 評価の結果,得られた統一データセットは5つのpoiデータソースのどれよりも包括的かつ完全であることが判明した。 さらに、異なるデータソース間のPOIマッチングを識別する手法は、12,000 POIを8,699個のユニークなPOIとマッチングした場合の平均実行時間を3分以下で97.6%の精度で比較し、高密度都市環境における大規模実装のためのフレームワークのスケーラビリティを実証した。

Point of interest (POI) data serves as a valuable source of semantic information for places of interest and has many geospatial applications in real estate, transportation, and urban planning. With the availability of different data sources, POI conflation serves as a valuable technique for enriching data quality and coverage by merging the POI data from multiple sources. This study proposes a novel end-to-end POI conflation framework consisting of six steps, starting with data procurement, schema standardisation, taxonomy mapping, POI matching, POI unification, and data verification. The feasibility of the proposed framework was demonstrated in a case study conducted in the eastern region of Singapore, where the POI data from five data sources was conflated to form a unified POI dataset. Based on the evaluation conducted, the resulting unified dataset was found to be more comprehensive and complete than any of the five POI data sources alone. Furthermore, the proposed approach for identifying POI matches between different data sources outperformed all baseline approaches with a matching accuracy of 97.6% with an average run time below 3 minutes when matching over 12,000 POIs to result in 8,699 unique POIs, thereby demonstrating the framework's scalability for large scale implementation in dense urban contexts.
翻訳日:2021-09-14 21:03:36 公開日:2021-09-13
# (参考訳) 標準オフラインオラクルを用いたノードレベルのフィードバックによるオンライン影響最大化 [全文訳有]

Online Influence Maximization with Node-level Feedback Using Standard Offline Oracles ( http://arxiv.org/abs/2109.06077v1 )

ライセンス: CC BY 4.0
Zhijie Zhang, Wei Chen, Xiaoming Sun, Jialin Zhang(参考訳) そこで,複数のラウンドにおいて学習者が繰り返しシードノードを選択してカスケードを生成し,カスケードフィードバックを観察し,最大カスケードを生成するベストシードを徐々に学習する。 本稿では,2つの課題に焦点をあてる。 まず、エッジレベルのフィードバックではなく、ノードレベルのフィードバックで作業します。 エッジレベルのフィードバックは、カスケード内の情報を通過するすべてのエッジを明らかにし、ノードレベルのフィードバックはタイムスタンプでアクティブなノードのみを表示する。 ノードレベルのフィードバックは、実際には誰が影響を受けているのかを観察することは比較的容易であるが、どの関係(エッジ)から影響が生まれるのかを観察するのが非常に難しいため、おそらくより現実的である。 次に、オフラインペアoracleではなく、標準オフラインoracleを使用します。 次のラウンドのよいシードセットを計算するために、オフラインペアオーラは、信頼領域内で最高のシードセットと最高のパラメータを同時に見つけることができ、OIM問題の組合せコアのため、そのようなオーラクルの計算が困難である。 そこで我々は、エッジパラメータを入力として最適なシードセットを求める、標準のオフライン影響最大化オラクルの使い方に焦点をあてる。 本稿では,最も普及している拡散モデルである独立カスケード(IC)と線形しきい値(LT)モデルについて,これらの課題を解決する。 ICモデルでは、従来の研究はエッジレベルのフィードバックしか得られず、ノードレベルのフィードバックのための最初の$\widetilde{O}(\sqrt{T})$-regretアルゴリズムを提示する。 さらに、アルゴリズムは標準のオフラインオラクルのみを呼び出す。 LTモデルでは、最近の研究は最初の課題を満たすOIMソリューションのみを提供するが、それでもペアオーラを必要とする。 本稿では、ICモデルと同様の手法を適用し、$\widetilde{O}(\sqrt{T})$-regretを維持しながら、ペアオーラを標準的なオラクルに置き換える。

We study the online influence maximization (OIM) problem in social networks, where in multiple rounds the learner repeatedly chooses seed nodes to generate cascades, observes the cascade feedback, and gradually learns the best seeds that generate the largest cascade. We focus on two major challenges in this paper. First, we work with node-level feedback instead of edge-level feedback. The edge-level feedback reveals all edges that pass through information in a cascade, where the node-level feedback only reveals the activated nodes with timestamps. The node-level feedback is arguably more realistic since in practice it is relatively easy to observe who is influenced but very difficult to observe from which relationship (edge) the influence comes from. Second, we use standard offline oracle instead of offline pair-oracle. To compute a good seed set for the next round, an offline pair-oracle finds the best seed set and the best parameters within the confidence region simultaneously, and such an oracle is difficult to compute due to the combinatorial core of OIM problem. So we focus on how to use the standard offline influence maximization oracle which finds the best seed set given the edge parameters as input. In this paper, we resolve these challenges for the two most popular diffusion models, the independent cascade (IC) and the linear threshold (LT) model. For the IC model, the past research only achieves edge-level feedback, while we present the first $\widetilde{O}(\sqrt{T})$-regret algorithm for the node-level feedback. Besides, the algorithm only invokes standard offline oracles. For the LT model, a recent study only provides an OIM solution that meets the first challenge but still requires a pair-oracle. In this paper, we apply a similar technique as in the IC model to replace the pair-oracle with a standard oracle while maintaining $\widetilde{O}(\sqrt{T})$-regret.
翻訳日:2021-09-14 20:40:05 公開日:2021-09-13
# (参考訳) ビデオ接地用マルチモーダル変圧器設計の追求 [全文訳有]

On Pursuit of Designing Multi-modal Transformer for Video Grounding ( http://arxiv.org/abs/2109.06085v1 )

ライセンス: CC BY 4.0
Meng Cao, Long Chen, Mike Zheng Shou, Can Zhang, Yuexian Zou(参考訳) ビデオグラウンディングは、未編集のビデオから文クエリに対応する時間セグメントをローカライズすることを目的としている。 既存のすべてのビデオグラウンドメソッドは、以下の2つのフレームワークに分類される。 1)トップダウンモデル:セグメント候補のセットを事前に定義し、セグメント分類と回帰を実行する。 2)ボトムアップモデル:参照セグメント境界のフレーム毎の確率を直接予測する。 しかし、これらすべてのメソッドはエンドツーエンドではなく、予測を洗練するために時間を要する処理ステップに依存している。 そこで我々は,ビデオグラウンドディングをセット予測タスクとして再構成し,新しいエンドツーエンドのマルチモーダルトランスモデルを提案し,これを「textbf{GTR}」と呼ぶ。 具体的には、GTRにはビデオと言語エンコーディングのための2つのエンコーダと、グラウンド予測のためのクロスモーダルデコーダがある。 エンド・ツー・エンドのトレーニングを容易にするために,キュービック・エンベディング・レイヤを用いて生動画を視覚トークンのセットに変換する。 デコーダのこれら2つのモダリティをよりうまく融合するために、我々は新しいマルチヘッドクロスモーダル注意を設計する。 GTR全体はMulti-to-Oneマッチング損失によって最適化される。 さらに,異なるモデル設計の選択を検討するため,包括的な研究を行う。 3つのベンチマークの結果は、GTRの優位性を実証している。 3つの典型的なGTR変種は、すべてのデータセットとメトリクスで記録破りのパフォーマンスを達成し、推論速度は数倍高速である。

Video grounding aims to localize the temporal segment corresponding to a sentence query from an untrimmed video. Almost all existing video grounding methods fall into two frameworks: 1) Top-down model: It predefines a set of segment candidates and then conducts segment classification and regression. 2) Bottom-up model: It directly predicts frame-wise probabilities of the referential segment boundaries. However, all these methods are not end-to-end, \ie, they always rely on some time-consuming post-processing steps to refine predictions. To this end, we reformulate video grounding as a set prediction task and propose a novel end-to-end multi-modal Transformer model, dubbed as \textbf{GTR}. Specifically, GTR has two encoders for video and language encoding, and a cross-modal decoder for grounding prediction. To facilitate the end-to-end training, we use a Cubic Embedding layer to transform the raw videos into a set of visual tokens. To better fuse these two modalities in the decoder, we design a new Multi-head Cross-Modal Attention. The whole GTR is optimized via a Many-to-One matching loss. Furthermore, we conduct comprehensive studies to investigate different model design choices. Extensive results on three benchmarks have validated the superiority of GTR. All three typical GTR variants achieve record-breaking performance on all datasets and metrics, with several times faster inference speed.
翻訳日:2021-09-14 20:04:13 公開日:2021-09-13
# (参考訳) グラスマン多様体上の最適化を用いた非線形行列回復

Nonlinear matrix recovery using optimization on the Grassmann manifold ( http://arxiv.org/abs/2109.06095v1 )

ライセンス: CC BY 4.0
Florentin Goyens and Coralia Cartis and Armin Eftekhari(参考訳) 本稿では,列が部分空間の和,代数多様体,あるいはクラスタにグループ化されるような非線形構造に従う部分観察された高階行列を復元する問題を考察する。 回復問題は元の行列に適用された非線形特徴写像のランク最小化として定式化され、グラスマン多様体を含む制約付き非凸最適化問題によりさらに近似される。 我々は、リーマン最適化から生じる2つのアルゴリズムと、交互最小化スキームとして2つのアルゴリズムを提案し、どちらも一階と二階のバリエーションを含む。 どちらのアルゴリズムも理論的保証がある。 特に、交代最小化に対しては、大域収束と最悪の複雑性境界を確立する。 さらに、クルディカ・ロジャシエヴィチ性質を用いて、交互化最小化が一意の極限点に収束することを示す。 入射サンプリングおよび高密度ガウスサンプリングによる部分空間の結合とクラスタリングの回復に関する広範な数値結果を提供する。 我々の手法は既存の手法と競合し、特にリーマン二階法による回復において高い精度を達成する。

We investigate the problem of recovering a partially observed high-rank matrix whose columns obey a nonlinear structure such as a union of subspaces, an algebraic variety or grouped in clusters. The recovery problem is formulated as the rank minimization of a nonlinear feature map applied to the original matrix, which is then further approximated by a constrained non-convex optimization problem involving the Grassmann manifold. We propose two sets of algorithms, one arising from Riemannian optimization and the other as an alternating minimization scheme, both of which include first- and second-order variants. Both sets of algorithms have theoretical guarantees. In particular, for the alternating minimization, we establish global convergence and worst-case complexity bounds. Additionally, using the Kurdyka-Lojasiewicz property, we show that the alternating minimization converges to a unique limit point. We provide extensive numerical results for the recovery of union of subspaces and clustering under entry sampling and dense Gaussian sampling. Our methods are competitive with existing approaches and, in particular, high accuracy is achieved in the recovery using Riemannian second-order methods.
翻訳日:2021-09-14 19:46:04 公開日:2021-09-13
# (参考訳) 過パラメータニューラルネットワークに対する一様一般化境界 [全文訳有]

Uniform Generalization Bounds for Overparameterized Neural Networks ( http://arxiv.org/abs/2109.06099v1 )

ライセンス: CC BY 4.0
Sattar Vakili, Michael Bromberg, Da-shan Shiu, Alberto Bernacchia(参考訳) 人工ニューラルネットワークにおける興味深い観察は、通常極端に過度にパラメータ化されているにもかかわらず、良い一般化誤差である。 古典的統計学習法は、過パラメータのニューラルネットワークの場合、しばしば空白の一般化誤差をもたらすことが知られている。 最近開発されたニューラルタンジェント(NT)カーネル理論を応用して、実データ生成モデルがNTカーネルに対応する再生カーネルヒルベルト空間(RKHS)に属する場合、カーネル状態における過パラメータニューラルネットワークの均一な一般化境界を証明した。 重要なことに、我々の境界はアクティベーション関数の微分可能性に応じて正確な誤差率をキャプチャする。 これらの境界を確立するために,学習問題の複雑さの尺度としてNTカーネルの情報ゲインを提案する。 本解析では,球面高調波と対応する固有値の減衰率に基づいて,nt核のマーサー分解を用いる。 結果の副産物として、NT核に対応するRKHSと、非常に一般的なモデルのクラスを誘導するMatch\'ern族に対応するRKHSの同値性を示す。 我々はさらに,過パラメータニューラルネットワークを用いた強化学習アルゴリズムに対する後悔の限界に関する最近の結果に対する解析の意義について論じる。

An interesting observation in artificial neural networks is their favorable generalization error despite typically being extremely overparameterized. It is well known that classical statistical learning methods often result in vacuous generalization errors in the case of overparameterized neural networks. Adopting the recently developed Neural Tangent (NT) kernel theory, we prove uniform generalization bounds for overparameterized neural networks in kernel regimes, when the true data generating model belongs to the reproducing kernel Hilbert space (RKHS) corresponding to the NT kernel. Importantly, our bounds capture the exact error rates depending on the differentiability of the activation functions. In order to establish these bounds, we propose the information gain of the NT kernel as a measure of complexity of the learning problem. Our analysis uses a Mercer decomposition of the NT kernel in the basis of spherical harmonics and the decay rate of the corresponding eigenvalues. As a byproduct of our results, we show the equivalence between the RKHS corresponding to the NT kernel and its counterpart corresponding to the Mat\'ern family of kernels, that induces a very general class of models. We further discuss the implications of our analysis for some recent results on the regret bounds for reinforcement learning algorithms, which use overparameterized neural networks.
翻訳日:2021-09-14 19:45:01 公開日:2021-09-13
# (参考訳) NeuTral Rewriter: ルールベースおよびニューラルアプローチによるジェンダーニュートラル代替物の自動書き換え [全文訳有]

NeuTral Rewriter: A Rule-Based and Neural Approach to Automatic Rewriting into Gender-Neutral Alternatives ( http://arxiv.org/abs/2109.06105v1 )

ライセンス: CC BY-SA 4.0
Eva Vanmassenhove, Chris Emmery and Dimitar Shterionov(参考訳) 近年、性中立や包括的言語の必要性が高まっている。 nlpの分野には、参照者の性別の曖昧さや不確実性のために好ましくないが、性別を包含する言語が適切である様々な単言語とバイリンガルのユースケースがある。 本稿では,音声合成データ(winobias+)と自然データ(opensubtitlesおよびreddit)を手作業で収集し,英語の性中立的書き直しに対するルールベースおよびニューラルアプローチを提案する。 詳細なマニュアルと自動評価では、ルールベースのアプローチによって生成されたデータに基づいてトレーニングされたNeuTral Rewriterが、合成、ドメイン内、ドメイン外のテストセットで0.18%未満のワードエラー率(WER)を取得する方法が強調されている。

Recent years have seen an increasing need for gender-neutral and inclusive language. Within the field of NLP, there are various mono- and bilingual use cases where gender inclusive language is appropriate, if not preferred due to ambiguity or uncertainty in terms of the gender of referents. In this work, we present a rule-based and a neural approach to gender-neutral rewriting for English along with manually curated synthetic data (WinoBias+) and natural data (OpenSubtitles and Reddit) benchmarks. A detailed manual and automatic evaluation highlights how our NeuTral Rewriter, trained on data generated by the rule-based approach, obtains word error rates (WER) below 0.18% on synthetic, in-domain and out-domain test sets.
翻訳日:2021-09-14 19:19:01 公開日:2021-09-13
# (参考訳) 言語モデルは接地なしで知覚構造を符号化できるか? 色彩のケーススタディ [全文訳有]

Can Language Models Encode Perceptual Structure Without Grounding? A Case Study in Color ( http://arxiv.org/abs/2109.06129v1 )

ライセンス: CC BY 4.0
Mostafa Abdou, Artur Kulmizev, Daniel Hershcovich, Stella Frank, Ellie Pavlick, Anders S{\o}gaard(参考訳) 事前訓練された言語モデルは、知識ベースにおける実体と概念の関係(パリ、首都、フランス)のような関係情報を符号化する。 しかし、このタイプの単純な関係はしばしばヒューリスティックに復元され、知覚構造のような世界に根ざした位相構造が暗黙的に反映される範囲は未知である。 この問題を探求するため、我々は色に関する徹底的なケーススタディを実施している。 すなわち、知覚的に意味のある距離距離の測度を持つ色空間であるCIELABで表されるモノレキセミックな色用語と色チップのデータセットを用いる。 この空間における色彩の構造的アライメントとテキスト由来の色項表現の2つの方法を用いて,有意な対応を見出す。 色スペクトル間のアライメントの違いを分析すると、平均して暖かい色は、より涼しい色空間よりも知覚的な色空間によくマッチしていることが分かり、最近のカラーネーミングにおける効率的なコミュニケーションに関する研究から、興味深い関連が示唆された。 さらに分析したところ、アライメントの違いは、部分的にはコロケーション性や統語的使用の差異を介し、色知覚と使用状況との関係について疑問を呈している。

Pretrained language models have been shown to encode relational information, such as the relations between entities or concepts in knowledge-bases -- (Paris, Capital, France). However, simple relations of this type can often be recovered heuristically and the extent to which models implicitly reflect topological structure that is grounded in world, such as perceptual structure, is unknown. To explore this question, we conduct a thorough case study on color. Namely, we employ a dataset of monolexemic color terms and color chips represented in CIELAB, a color space with a perceptually meaningful distance metric. Using two methods of evaluating the structural alignment of colors in this space with text-derived color term representations, we find significant correspondence. Analyzing the differences in alignment across the color spectrum, we find that warmer colors are, on average, better aligned to the perceptual color space than cooler ones, suggesting an intriguing connection to findings from recent work on efficient communication in color naming. Further analysis suggests that differences in alignment are, in part, mediated by collocationality and differences in syntactic usage, posing questions as to the relationship between color perception and usage and context.
翻訳日:2021-09-14 19:06:19 公開日:2021-09-13
# (参考訳) Neuro-Symbolic AI:AIワークロードの新たなクラスとその特徴 [全文訳有]

Neuro-Symbolic AI: An Emerging Class of AI Workloads and their Characterization ( http://arxiv.org/abs/2109.06133v1 )

ライセンス: CC BY 4.0
Zachary Susskind, Bryce Arden, Lizy K. John, Patrick Stockton, and Eugene B. John(参考訳) ニューロシンボリック人工知能(neuro-symbolic artificial intelligence)は、従来のルールベースのaiアプローチと現代のディープラーニング技術を組み合わせたai研究の新しい分野である。 ニューロシンボリックモデルはすでに、画像やビデオ推論などの領域で最先端のディープラーニングモデルを上回る能力を示している。 また、従来のモデルに比べてトレーニングデータの精度が大幅に低いことも示されている。 フィールドの出現と公開結果の相対的スパース性により、これらのモデルの性能特性はよく分かっていない。 本稿では,最近の3つのニューロシンボリックモデルの性能特性を概説し,解析する。 シンボリックモデルは、複雑な制御フローとスカラー乗算やテンソル加算などの低操作インテンシティ演算により、従来のニューラルモデルよりも潜在並列性が低いことがわかった。 しかし、計算の神経的な側面は、明らかに分離可能な場合の象徴的な部分を支配する。 また、多くのmlワークロードと同様に、データ移動が潜在的なボトルネックとなることも分かりました。

Neuro-symbolic artificial intelligence is a novel area of AI research which seeks to combine traditional rules-based AI approaches with modern deep learning techniques. Neuro-symbolic models have already demonstrated the capability to outperform state-of-the-art deep learning models in domains such as image and video reasoning. They have also been shown to obtain high accuracy with significantly less training data than traditional models. Due to the recency of the field's emergence and relative sparsity of published results, the performance characteristics of these models are not well understood. In this paper, we describe and analyze the performance characteristics of three recent neuro-symbolic models. We find that symbolic models have less potential parallelism than traditional neural models due to complex control flow and low-operational-inte nsity operations, such as scalar multiplication and tensor addition. However, the neural aspect of computation dominates the symbolic part in cases where they are clearly separable. We also find that data movement poses a potential bottleneck, as it does in many ML workloads.
翻訳日:2021-09-14 18:48:51 公開日:2021-09-13
# (参考訳) 機械学習における汚損について:理論と応用

On Tilted Losses in Machine Learning: Theory and Applications ( http://arxiv.org/abs/2109.06141v1 )

ライセンス: CC BY 4.0
Tian Li, Ahmad Beirami, Maziar Sanjabi, Virginia Smith(参考訳) 指数傾き(英: Exponential tilting)は、統計学、確率、情報理論、パラメトリック分布シフトを生成する最適化などの分野でよく用いられる技法である。 関連する分野での流行にもかかわらず、傾きは機械学習で広く使われていない。 本研究では,リスク最小化における傾きの利用を探求することにより,このギャップを埋めることを目的とする。 本研究では, 個別損失の影響を柔軟に調整するために指数傾斜を用いたERM(傾き型経験的リスク最小化法)の簡易拡張について検討した。 その結果得られたフレームワークにはいくつかの有用な特性がある: 項は、それぞれフェアネスまたはロバスト性を実現するために外れ値の影響を増加または減少させることができること、一般化に役立つ分散還元特性を有すること、超高次法に対する滑らかな近似と見なすことができる。 我々の研究は、TERMと関連する目的、例えばValue-at-Risk、Conditional Value-at-Risk、分散ロバストな最適化(DRO)との間の厳密な接続を可能にします。 我々は,TERMを解くためのバッチおよび確率論的一階最適化手法を開発し,解法に対する収束保証を提供し,そのフレームワークが共通の代替案に対して効率的に解けることを示す。 最後に,サブグループ間の公平さの強化,アウトレーヤの効果の緩和,クラス不均衡の処理など,多数の機械学習応用にTERMが利用できることを示す。 TERMは従来のERMの目的に直感的な修正を加えるが、このフレームワークはEMMを一貫して上回り、最先端の問題解決アプローチと競合する性能を提供できる。

Exponential tilting is a technique commonly used in fields such as statistics, probability, information theory, and optimization to create parametric distribution shifts. Despite its prevalence in related fields, tilting has not seen widespread use in machine learning. In this work, we aim to bridge this gap by exploring the use of tilting in risk minimization. We study a simple extension to ERM -- tilted empirical risk minimization (TERM) -- which uses exponential tilting to flexibly tune the impact of individual losses. The resulting framework has several useful properties: We show that TERM can increase or decrease the influence of outliers, respectively, to enable fairness or robustness; has variance-reduction properties that can benefit generalization; and can be viewed as a smooth approximation to a superquantile method. Our work makes rigorous connections between TERM and related objectives, such as Value-at-Risk, Conditional Value-at-Risk, and distributionally robust optimization (DRO). We develop batch and stochastic first-order optimization methods for solving TERM, provide convergence guarantees for the solvers, and show that the framework can be efficiently solved relative to common alternatives. Finally, we demonstrate that TERM can be used for a multitude of applications in machine learning, such as enforcing fairness between subgroups, mitigating the effect of outliers, and handling class imbalance. Despite the straightforward modification TERM makes to traditional ERM objectives, we find that the framework can consistently outperform ERM and deliver competitive performance with state-of-the-art, problem-specific approaches.
翻訳日:2021-09-14 18:30:46 公開日:2021-09-13
# (参考訳) リラクシブ・プライベートな問合せ解答用マージナル整合性 [全文訳有]

Relaxed Marginal Consistency for Differentially Private Query Answering ( http://arxiv.org/abs/2109.06153v1 )

ライセンス: CC BY 4.0
Ryan McKenna, Siddhant Pradhan, Daniel Sheldon, Gerome Miklau(参考訳) データベースクエリに応答する多くの差分プライベートアルゴリズムは、ノイズ測定から離散データ分布を再構築するステップを含む。 これは一貫したクエリ応答を提供し、エラーを減らすが、しばしば次元で指数関数的に増加する空間を必要とする。 プライベートPGMは, ノイズ測定における変数の共起によって決定される構造を持つグラフィカルモデルにおいて, 厳密な辺縁推論に比例した複雑性を持つ, グラフィカルモデルを用いてデータ分布を表現する最近のアプローチである。 Private-PGMはスパース測定には非常にスケーラブルであるが、密度測定で高次元で動作できない可能性がある。 推定対象の一貫性制約を緩和する原理的アプローチにより,Private-PGMの主なスケーラビリティ制限を克服する。 我々の新しいアプローチは、多くの既存のプライベートクエリ応答アルゴリズムと連携し、プライバシコストなしでスケーラビリティや精度を改善します。

Many differentially private algorithms for answering database queries involve a step that reconstructs a discrete data distribution from noisy measurements. This provides consistent query answers and reduces error, but often requires space that grows exponentially with dimension. Private-PGM is a recent approach that uses graphical models to represent the data distribution, with complexity proportional to that of exact marginal inference in a graphical model with structure determined by the co-occurrence of variables in the noisy measurements. Private-PGM is highly scalable for sparse measurements, but may fail to run in high dimensions with dense measurements. We overcome the main scalability limitation of Private-PGM through a principled approach that relaxes consistency constraints in the estimation objective. Our new approach works with many existing private query answering algorithms and improves scalability or accuracy with no privacy cost.
翻訳日:2021-09-14 18:29:19 公開日:2021-09-13
# (参考訳) SituatedQA: 言語外文脈をQAに組み込む [全文訳有]

SituatedQA: Incorporating Extra-Linguistic Contexts into QA ( http://arxiv.org/abs/2109.06157v1 )

ライセンス: CC BY-SA 4.0
Michael J.Q. Zhang and Eunsol Choi(参考訳) 同じ質問に対する回答は、言語外文脈(質問された場所と場所)によって変わる可能性がある。 この課題を研究するために,システムでは時間的あるいは地理的状況に応じて,質問に対する正しい回答を提示しなければならないオープンリトライのqaデータセットであるspositateqaを紹介する。 SituatedQAを構築するために、我々はまず既存のQAデータセットでそのような質問を識別する。 質問を求める情報のかなりの割合は、文脈に依存した回答を持っている(例えば、NQ-Openの約16.5%)。 このようなコンテキスト依存の質問に対して、代替のコンテキストとその回答をクラウドソースします。 既存のモデルでは,頻繁な更新や不定期な場所からの回答の生成に苦労しています。 また,これまでに収集したデータに基づいてトレーニングされた既存モデルが,更新されたエビデンスコーパス(約15ポイントの精度低下)が提供された場合でも,現在質問に対する回答の一般化に失敗していることをさらに定量化する。 我々の分析は、オープン検索のQAベンチマークは、言語外文脈を取り入れて、世界中の将来的な関連性を維持するべきであることを示唆している。 私たちのデータ、コード、データシートはhttps://situatedqa.g ithub.io/で利用可能です。

Answers to the same question may change depending on the extra-linguistic contexts (when and where the question was asked). To study this challenge, we introduce SituatedQA, an open-retrieval QA dataset where systems must produce the correct answer to a question given the temporal or geographical context. To construct SituatedQA, we first identify such questions in existing QA datasets. We find that a significant proportion of information seeking questions have context-dependent answers (e.g., roughly 16.5% of NQ-Open). For such context-dependent questions, we then crowdsource alternative contexts and their corresponding answers. Our study shows that existing models struggle with producing answers that are frequently updated or from uncommon locations. We further quantify how existing models, which are trained on data collected in the past, fail to generalize to answering questions asked in the present, even when provided with an updated evidence corpus (a roughly 15 point drop in accuracy). Our analysis suggests that open-retrieval QA benchmarks should incorporate extra-linguistic context to stay relevant globally and in the future. Our data, code, and datasheet are available at https://situatedqa.g ithub.io/ .
翻訳日:2021-09-14 17:59:15 公開日:2021-09-13
# (参考訳) 文様付きポーズ:条件付きスタイルガンを用いた細部保存ポーズ誘導画像合成 [全文訳有]

Pose with Style: Detail-Preserving Pose-Guided Image Synthesis with Conditional StyleGAN ( http://arxiv.org/abs/2109.06166v1 )

ライセンス: CC BY 4.0
Badour AlBahar, Jingwan Lu, Jimei Yang, Zhixin Shu, Eli Shechtman, Jia-Bin Huang(参考訳) 任意のポーズで1つの画像から人物を再レンダリングするアルゴリズムを提案する。 既存の方法では、画像の同一性や細部を保ちながら、隠蔽されたコンテンツを写実的に幻覚することはしばしば困難である。 まず,体表面のテクスチャと原画像との対応関係を,人体対称性に先行して塗布することを学ぶ。 塗装された対応フィールドは、大きなポーズ変化の下でも、ソースから抽出された局所的特徴をターゲットビューに転送/ウォープすることができる。 歪んだローカル機能を単純なcnnデコーダを使用してrgbイメージに直接マッピングすることは、しばしば目に見えるアーティファクトにつながる。 このように、スタイルガン生成器を拡張して、ポーズを入力(ポーズ制御)として取り、反りのある局所的特徴(外観制御)を用いて、潜在空間の空間的に変化する変調を導入する。 本手法は,定量的評価と視覚比較の両方において,最先端のアルゴリズムと良好に比較できることを示す。

We present an algorithm for re-rendering a person from a single image under arbitrary poses. Existing methods often have difficulties in hallucinating occluded contents photo-realistically while preserving the identity and fine details in the source image. We first learn to inpaint the correspondence field between the body surface texture and the source image with a human body symmetry prior. The inpainted correspondence field allows us to transfer/warp local features extracted from the source to the target view even under large pose changes. Directly mapping the warped local features to an RGB image using a simple CNN decoder often leads to visible artifacts. Thus, we extend the StyleGAN generator so that it takes pose as input (for controlling poses) and introduces a spatially varying modulation for the latent space using the warped local features (for controlling appearances). We show that our method compares favorably against the state-of-the-art algorithms in both quantitative evaluation and visual comparison.
翻訳日:2021-09-14 17:40:01 公開日:2021-09-13
# (参考訳) CDTrans: 教師なしドメイン適応のためのクロスドメイントランス [全文訳有]

CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2109.06165v1 )

ライセンス: CC0 1.0
Tongkun Xu, Weihua Chen, Pichao Wang, Fan Wang, Hao Li, Rong Jin(参考訳) Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから異なるラベル付きターゲットドメインに学習した知識を転送することを目的としている。 既存のUDAメソッドのほとんどは、ドメインレベルまたはカテゴリレベルから、畳み込みニューラルネットワーク(CNN)ベースのフレームワークを使用して、ドメイン不変の機能表現の学習に重点を置いている。 カテゴリレベルのudaの根本的な問題は、ターゲットドメイン内のサンプルに対する擬似ラベルの生成であり、これは通常、正確なドメインアライメントにはノイズが多すぎるため、必然的にudaのパフォーマンスを損なう。 様々なタスクでトランスフォーマが成功したことにより,ノイズ入力ペアに対して,トランスフォーマのクロスアテンションが頑健であり,機能アライメントが向上していることが判明した。 特に,正確な入力ペアを生成するために,ターゲットサンプルの擬似ラベルを生成するための双方向センタアウェアラベルアルゴリズムを設計する。 擬似ラベルに加えて, 重み共有トリプルブランチトランスフォーマフレームワークを提案し, ソース・ターゲット特徴学習とソース・ターゲット・ドメインアライメントに対して, セルフアテンションとクロスアテンションを適用した。 このような設計は、差別的なドメイン固有表現とドメイン不変表現を同時に学習するフレームワークを明示的に強制する。 提案手法はCDTrans (cross-domain transformer) と呼ばれ、UDAタスクを純粋なトランスソリューションで解くための最初の試みの1つである。 大規模な実験により,提案手法はOffice-Home, VisDA-2017, DomainNetデータセット上で最高の性能を発揮することが示された。

Unsupervised domain adaptation (UDA) aims to transfer knowledge learned from a labeled source domain to a different unlabeled target domain. Most existing UDA methods focus on learning domain-invariant feature representation, either from the domain level or category level, using convolution neural networks (CNNs)-based frameworks. One fundamental problem for the category level based UDA is the production of pseudo labels for samples in target domain, which are usually too noisy for accurate domain alignment, inevitably compromising the UDA performance. With the success of Transformer in various tasks, we find that the cross-attention in Transformer is robust to the noisy input pairs for better feature alignment, thus in this paper Transformer is adopted for the challenging UDA task. Specifically, to generate accurate input pairs, we design a two-way center-aware labeling algorithm to produce pseudo labels for target samples. Along with the pseudo labels, a weight-sharing triple-branch transformer framework is proposed to apply self-attention and cross-attention for source/target feature learning and source-target domain alignment, respectively. Such design explicitly enforces the framework to learn discriminative domain-specific and domain-invariant representations simultaneously. The proposed method is dubbed CDTrans (cross-domain transformer), and it provides one of the first attempts to solve UDA tasks with a pure transformer solution. Extensive experiments show that our proposed method achieves the best performance on Office-Home, VisDA-2017, and DomainNet datasets.
翻訳日:2021-09-14 17:03:53 公開日:2021-09-13
# スペイン語詩の語彙的・感情的モデリング--半教師付き学習アプローチ

Lexico-semantic and affective modelling of Spanish poetry: A semi-supervised learning approach ( http://arxiv.org/abs/2109.04152v2 )

ライセンス: Link先を確認
Alberto Barbado, Mar\'ia Dolores Gonz\'alez, D\'ebora Carrera(参考訳) テキスト分類タスクは、トランスフォーマーの使用により、ここ数年で大幅に改善されている。 しかし、ほとんどの研究は散文に焦点をあてており、特にスペイン語に対する詩の注目は少なかった。 本稿では,4572ソネットのコーパスによって誘発される21の心理的カテゴリと10の感情的・レキシコ・セマンティックなマルチクラスを推定する半教師付き学習手法を提案する。 評価の訓練に用いられる詩のサブセットは、270ソネットを含む。 アプローチでは,心理学的カテゴリーの76%に対して0.7以上,マルチクラスでは0.65以上,AUCを60%以上とした。 ソネットは、外部レキシコンを用いて得られるレクシコ・セマンティクスと情緒的特徴とともに、文埋め込みを通じてトランスフォーマーを用いてモデル化される。 その結果,この手法は変圧器のみを使用するのではなく,AUCの最大0.12の増加をもたらすことがわかった。

Text classification tasks have improved substantially during the last years by the usage of transformers. However, the majority of researches focus on prose texts, with poetry receiving less attention, specially for Spanish language. In this paper, we propose a semi-supervised learning approach for inferring 21 psychological categories evoked by a corpus of 4572 sonnets, along with 10 affective and lexico-semantic multiclass ones. The subset of poems used for training an evaluation includes 270 sonnets. With our approach, we achieve an AUC beyond 0.7 for 76% of the psychological categories, and an AUC over 0.65 for 60% on the multiclass ones. The sonnets are modelled using transformers, through sentence embeddings, along with lexico-semantic and affective features, obtained by using external lexicons. Consequently, we see that this approach provides an AUC increase of up to 0.12, as opposed to using transformers alone.
翻訳日:2021-09-14 16:18:02 公開日:2021-09-13
# マルチストリームコーパスアライメントとデュアルソフトマックスロスによるビデオテキスト検索の改善

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss ( http://arxiv.org/abs/2109.04290v2 )

ライセンス: Link先を確認
Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen(参考訳) 大規模な事前学習モデルCLIPを用いてビデオテキスト検索タスク(VTR)を実行することが,従来のVTR手法を上回る新たなトレンドとなっている。 しかし,映像とテキスト間の構造や内容の多様性から,従来のクリップベースモデルではトレーニング段階で過度に適合する傾向にあり,検索性能が比較的低かった。 本稿では,2つの不均一性を解決するために,単一ゲート混合専門家 (camoe) と新しいデュアルソフトマックス損失 (dsl) を持つマルチストリームコーパスアライメントネットワークを提案する。 CAMoEはMixture-of-Experts (MoE)を使用して、アクション、エンティティ、シーンなどを含む多視点のビデオ表現を抽出し、テキストの対応する部分と整列する。 この段階では,特徴抽出モジュールと特徴アライメントモジュールに対して大規模な探索を行う。 従来のコントラスト法で発生する一方向最適マッチングを回避するためにDSLを提案する。 それぞれのペアの本質的な事前をバッチで導入すると、DSLは類似性マトリクスを修正するリバイザとして機能し、双対最適マッチングを達成する。 DSLは1行のコードだけで簡単に実装できますが、大幅に改善されます。 その結果,提案したCAMoE と DSL は高い効率性を示し,それぞれが MSR-VTT,MSVD,LSMDC などの様々なベンチマークで State-of-The-Art (SOTA) を個別に達成可能であることがわかった。 さらに、両者とも、MSR-VTTにおいて従来のSOTA法を約4.6\% R@1で上回り、大幅な性能向上を実現している。

Employing large-scale pre-trained model CLIP to conduct video-text retrieval task (VTR) has become a new trend, which exceeds previous VTR methods. Though, due to the heterogeneity of structures and contents between video and text, previous CLIP-based models are prone to overfitting in the training phase, resulting in relatively poor retrieval performance. In this paper, we propose a multi-stream Corpus Alignment network with single gate Mixture-of-Experts (CAMoE) and a novel Dual Softmax Loss (DSL) to solve the two heterogeneity. The CAMoE employs Mixture-of-Experts (MoE) to extract multi-perspective video representations, including action, entity, scene, etc., then align them with the corresponding part of the text. In this stage, we conduct massive explorations towards the feature extraction module and feature alignment module. DSL is proposed to avoid the one-way optimum-match which occurs in previous contrastive methods. Introducing the intrinsic prior of each pair in a batch, DSL serves as a reviser to correct the similarity matrix and achieves the dual optimal match. DSL is easy to implement with only one-line code but improves significantly. The results show that the proposed CAMoE and DSL are of strong efficiency, and each of them is capable of achieving State-of-The-Art (SOTA) individually on various benchmarks such as MSR-VTT, MSVD, and LSMDC. Further, with both of them, the performance is advanced to a big extend, surpassing the previous SOTA methods for around 4.6\% R@1 in MSR-VTT.
翻訳日:2021-09-14 16:17:23 公開日:2021-09-13
# 絵画の解説:多分野の知識に富んだアート記述生成

Explain Me the Painting: Multi-Topic Knowledgeable Art Description Generation ( http://arxiv.org/abs/2109.05743v1 )

ライセンス: Link先を確認
Zechen Bai, Yuta Nakashima, Noa Garcia(参考訳) あなたは絵を見て、その背後にある物語が何なのか疑問に思ったことがありますか。 本研究は、美術絵画の総合的な描写を創り出すことにより、芸術を人々に近づける枠組みを提案する。 しかし、芸術作品に関する情報的な記述を生成することは、非常に難しい。 1)そのスタイル、内容、構成など、画像の複数の側面を記述し、 2)芸術家、その影響、歴史に関する背景的・文脈的知識を提供する。 これらの課題に対処するために,我々は,生成した文を3つの芸術的話題に従ってモジュール化し,さらに,各記述を外部知識で強化する多面的かつ知識に富んだアート記述フレームワークを提案する。 この枠組みは、量的および質的両方の徹底的な分析および比較人間の評価を通じて検証され、トピックの多様性と情報の妥当性の両方の観点から優れた結果を示す。

Have you ever looked at a painting and wondered what is the story behind it? This work presents a framework to bring art closer to people by generating comprehensive descriptions of fine-art paintings. Generating informative descriptions for artworks, however, is extremely challenging, as it requires to 1) describe multiple aspects of the image such as its style, content, or composition, and 2) provide background and contextual knowledge about the artist, their influences, or the historical period. To address these challenges, we introduce a multi-topic and knowledgeable art description framework, which modules the generated sentences according to three artistic topics and, additionally, enhances each description with external knowledge. The framework is validated through an exhaustive analysis, both quantitative and qualitative, as well as a comparative human evaluation, demonstrating outstanding results in terms of both topic diversity and information veracity.
翻訳日:2021-09-14 16:16:33 公開日:2021-09-13
# グラフニューラルネットワークを用いたプロセス発見

Process Discovery Using Graph Neural Networks ( http://arxiv.org/abs/2109.05835v1 )

ライセンス: Link先を確認
Dominique Sommers, Vlado Menkovski, Dirk Fahland(参考訳) イベントログからプロセスモデルを自動的に発見することは、プロセスマイニングの主要な問題である。 この課題は、グラフ合成アルゴリズムを通じて教師なし学習問題としてこれまでに研究されてきた。 アルゴリズム設計決定とヒューリスティックは、少ない探索空間で効率的にモデルを見つけることができる。 しかしながら、設計決定とヒューリスティックスは、与えられた振る舞い記述 - イベントがプロセスモデルにログ変換され、ソリューションにバイアスをもたらす実際のモデルから学ばない、という仮定から導き出される。 本稿では,プロセス発見手法Dの教師あり学習の問題について考察する。我々は,グラフ畳み込みニューラルネットワークを用いたMLモデルDのトレーニング手法を紹介し,与えられた入力イベントログを音響ペトリネットに変換する。 合成された入力ログと出力モデルのペアによるDのトレーニングにより、Dは未確認の複数の実生活イベントログを、命令的プロセスモデルを発見するための既存の技術の現状として、同等の精度と単純さの任意の構造化されたモデルに変換できることを示す。 提案手法の限界を分析し,今後の課題について概観する。

Automatically discovering a process model from an event log is the prime problem in process mining. This task is so far approached as an unsupervised learning problem through graph synthesis algorithms. Algorithmic design decisions and heuristics allow for efficiently finding models in a reduced search space. However, design decisions and heuristics are derived from assumptions about how a given behavioral description - an event log - translates into a process model and were not learned from actual models which introduce biases in the solutions. In this paper, we explore the problem of supervised learning of a process discovery technique D. We introduce a technique for training an ML-based model D using graph convolutional neural networks; D translates a given input event log into a sound Petri net. We show that training D on synthetically generated pairs of input logs and output models allows D to translate previously unseen synthetic and several real-life event logs into sound, arbitrarily structured models of comparable accuracy and simplicity as existing state of the art techniques for discovering imperative process models. We analyze the limitations of the proposed technique and outline alleys for future work.
翻訳日:2021-09-14 16:15:27 公開日:2021-09-13
# r-GAT:マルチリレーショナルグラフのための関係グラフ注意ネットワーク

r-GAT: Relational Graph Attention Network for Multi-Relational Graphs ( http://arxiv.org/abs/2109.05922v1 )

ライセンス: Link先を確認
Meiqi Chen, Yuan Zhang, Xiaoyu Kou, Yuntao Li, Yan Zhang(参考訳) graph attention network (gat) は、単純な無向および単一リレーショナルグラフデータのみをモデリングすることに焦点を当てている。 これにより、異なるラベル(例えば知識グラフ)の有向リンクを持つエンティティを含むより一般的で複雑なマルチリレーショナルグラフを扱うことができる。 したがって、GATをマルチリレーショナルグラフに直接適用すると、準最適解が得られる。 本稿では,多チャンネル表現を学習するための関係グラフアテンションネットワークであるr-gatを提案する。 具体的には、各チャネルはエンティティの潜在意味的側面に対応する。 これにより、関係特徴を用いて現在の側面の周辺情報を集約することができる。 さらに,後続タスクに対して有用なアスペクトを選択するためのクエリ対応アテンション機構を提案する。 リンク予測とエンティティ分類タスクに関する大規模な実験は、我々のr-GATがマルチリレーショナルグラフを効果的にモデル化できることを示します。 また,本手法のケーススタディによる解釈可能性を示す。

Graph Attention Network (GAT) focuses on modelling simple undirected and single relational graph data only. This limits its ability to deal with more general and complex multi-relational graphs that contain entities with directed links of different labels (e.g., knowledge graphs). Therefore, directly applying GAT on multi-relational graphs leads to sub-optimal solutions. To tackle this issue, we propose r-GAT, a relational graph attention network to learn multi-channel entity representations. Specifically, each channel corresponds to a latent semantic aspect of an entity. This enables us to aggregate neighborhood information for the current aspect using relation features. We further propose a query-aware attention mechanism for subsequent tasks to select useful aspects. Extensive experiments on link prediction and entity classification tasks show that our r-GAT can model multi-relational graphs effectively. Also, we show the interpretability of our approach by case study.
翻訳日:2021-09-14 16:15:07 公開日:2021-09-13
# ニューラル言語モデルの文法学習軌跡

The Grammar-Learning Trajectories of Neural Language Models ( http://arxiv.org/abs/2109.06096v1 )

ライセンス: Link先を確認
Leshem Choshen, Guy Hacohen, Daphna Weinshall, Omri Abend(参考訳) 言語現象の学習の軌跡は、大人の話者の行動の検査から得られるものを超えて、言語表現の性質についての洞察を与える。 同様のアプローチをニューラルネットワークモデル(nlm)に応用するには、異なるモデルがそれらの一般化において十分類似していることを確立する必要がある。 本稿では,初期化,アーキテクチャ,訓練データが異なるnlmが,データ上での終末性能が異なるにもかかわらず,同様の順序で言語現象を得ることを示す。 これらの知見を生かして、異なる学習段階における異なる現象の相対的性能を、より単純な参照モデルと比較する。 以上の結果から,nlmsは「発達的」な段階を示すことが示唆された。 これらの段階の初期分析は、その性能が一斉に進行する現象クラスター(特に形態的クラスター)を示し、獲得した表現間の潜在的なリンクを示唆している。

The learning trajectories of linguistic phenomena provide insight into the nature of linguistic representation, beyond what can be gleaned from inspecting the behavior of an adult speaker. To apply a similar approach to analyze neural language models (NLM), it is first necessary to establish that different models are similar enough in the generalizations they make. In this paper, we show that NLMs with different initialization, architecture, and training data acquire linguistic phenomena in a similar order, despite having different end performances over the data. Leveraging these findings, we compare the relative performance on different phenomena at varying learning stages with simpler reference models. Results suggest that NLMs exhibit consistent ``developmental'' stages. Initial analysis of these stages presents phenomena clusters (notably morphological ones), whose performance progresses in unison, suggesting potential links between their acquired representations.
翻訳日:2021-09-14 16:14:53 公開日:2021-09-13
# 教師なしドメイン適応のための逆学習対象検出器

Adversarially Trained Object Detector for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2109.05751v1 )

ライセンス: Link先を確認
Kazuma Fujii, Hiroshi Kera, Kazuhiko Kawamoto(参考訳) ラベル豊富なソースドメインからラベルのないターゲットドメインへの知識の転送を含む教師なしドメイン適応は、オブジェクト検出の分野におけるアノテーションコストを実質的に削減するために使用できる。 本研究では,非教師付きドメイン適応のための新しいアプローチとして,ソースドメインにおける逆訓練を活用できることを実証する。 具体的には、逆向きに訓練された検出器が、ソースドメインから大きくシフトしたターゲットドメインにおける検出性能を向上させることを確立する。 この現象は、敵対的に訓練された検出器が、ドメイン固有の非破壊的特徴を捨てながら、人間の知覚とドメイン間の移動に相応しい堅牢な特徴を抽出できるという事実に起因している。 さらに,頑健な特徴と目標領域とのアライメントを改善するために,敵対的トレーニングと特徴アライメントを組み合わせた手法を提案する。 4つのベンチマークデータセットで実験を行い、提案手法が実画像から芸術画像への大きな領域シフトに与える影響を確認した。 ベースラインモデルと比較すると、敵対的に訓練された検出器は平均平均精度を最大7.7\%改善し、機能アライメントを組み込んだ場合には最大11.8\%改善する。

Unsupervised domain adaptation, which involves transferring knowledge from a label-rich source domain to an unlabeled target domain, can be used to substantially reduce annotation costs in the field of object detection. In this study, we demonstrate that adversarial training in the source domain can be employed as a new approach for unsupervised domain adaptation. Specifically, we establish that adversarially trained detectors achieve improved detection performance in target domains that are significantly shifted from source domains. This phenomenon is attributed to the fact that adversarially trained detectors can be used to extract robust features that are in alignment with human perception and worth transferring across domains while discarding domain-specific non-robust features. In addition, we propose a method that combines adversarial training and feature alignment to ensure the improved alignment of robust features with the target domain. We conduct experiments on four benchmark datasets and confirm the effectiveness of our proposed approach on large domain shifts from real to artistic images. Compared to the baseline models, the adversarially trained detectors improve the mean average precision by up to 7.7\%, and further by up to 11.8\% when feature alignments are incorporated.
翻訳日:2021-09-14 16:13:03 公開日:2021-09-13
# 行動認識における対人骨長攻撃

Adversarial Bone Length Attack on Action Recognition ( http://arxiv.org/abs/2109.05830v1 )

ライセンス: Link先を確認
Nariki Tanaka, Hiroshi Kera, Kazuhiko Kawamoto(参考訳) 骨格に基づく行動認識モデルは、最近敵の攻撃に対して脆弱であることが示されている。 画像に対する敵対的な攻撃と比較すると、スケルトンへの摂動は通常、フレーム当たり約100の低次元に制限される。 この低次元の設定により、知覚不能な摂動を生成することがより困難になる。 既存の攻撃では、骨格運動の時間的構造を利用して摂動次元を数千に増やすことでこれを解決している。 本稿では,スケルトンに基づく行動認識モデルにおいて,時間的操作を伴わずに極めて低次元の設定でも逆攻撃が可能であることを示す。 具体的には、骨の長さに摂動を制限し、敵が有効寸法を30程度しか操作できないようにする。 我々は,NTU RGB+DおよびHDM05データセットを用いて実験を行い,小さな摂動による90%以上の成功率を持つモデルに対する攻撃が成功したことを実証した。 また,低次元環境では,骨長アタックを伴う敵意訓練とデータ拡張の類似性が共有され,敵意の頑健性が向上するだけでなく,元のデータの分類精度も向上する,という興味深い現象が得られた。 これは、高次元体制における対向的トレーニングの研究で広く観察されている、対向的堅牢性とクリーンな精度のトレードオフの興味深い反例である。

Skeleton-based action recognition models have recently been shown to be vulnerable to adversarial attacks. Compared to adversarial attacks on images, perturbations to skeletons are typically bounded to a lower dimension of approximately 100 per frame. This lower-dimensional setting makes it more difficult to generate imperceptible perturbations. Existing attacks resolve this by exploiting the temporal structure of the skeleton motion so that the perturbation dimension increases to thousands. In this paper, we show that adversarial attacks can be performed on skeleton-based action recognition models, even in a significantly low-dimensional setting without any temporal manipulation. Specifically, we restrict the perturbations to the lengths of the skeleton's bones, which allows an adversary to manipulate only approximately 30 effective dimensions. We conducted experiments on the NTU RGB+D and HDM05 datasets and demonstrate that the proposed attack successfully deceived models with sometimes greater than 90\% success rate by small perturbations. Furthermore, we discovered an interesting phenomenon: in our low-dimensional setting, the adversarial training with the bone length attack shares a similar property with data augmentation, and it not only improves the adversarial robustness but also improves the classification accuracy on the original original data. This is an interesting counterexample of the trade-off between adversarial robustness and clean accuracy, which has been widely observed in studies on adversarial training in the high-dimensional regime.
翻訳日:2021-09-14 16:12:43 公開日:2021-09-13
# DAFNe:オブジェクト指向物体検出のための1段階アンカーフリーディープモデル

DAFNe: A One-Stage Anchor-Free Deep Model for Oriented Object Detection ( http://arxiv.org/abs/2109.06148v1 )

ライセンス: Link先を確認
Steven Lang, Fabrizio Ventola, Kristian Kersting(参考訳) 物体検出はコンピュータビジョンの基本課題である。 近年、軸方向境界ボックス検出のアプローチは大きな進歩を遂げているが、空中視画像や防犯カメラの映像など、現実のいくつかのシナリオに共通するオブジェクト指向のオブジェクトでは不十分である。 これらの場合、予測された有界箱の大部分は、望ましくは非対象関連領域をカバーする。 そのため、物体検出を任意の方向へ一般化する目的でオブジェクト指向物体検出が登場した。 これにより、オブジェクト指向オブジェクトにより厳密な適合が可能となり、特に高密度オブジェクト分布の場合、バウンディングボックスの分離性が向上する。 この分野の作業の大部分は、複雑な2段階アンカーベースのアプローチに重点を置いている。 アンカーはバウンディングボックスの形状に先行して動作し、データセットごとに注意深いハイパーパラメータの微調整、モデルサイズの増加、計算オーバーヘッドを伴う。 本研究ではDAFNe: A Dense one-stage Anchor-Free Deep Network for oriented object detectionを提案する。 1段階モデルとして、DAFNeは入力画像上の高密度グリッド上で予測を実行し、アーキテクチャ的にシンプルで高速であり、2段階モデルよりも最適化が容易である。 さらに、アンカーフリーモデルとして、DAFNeはバウンディングボックスアンカーの使用を控えることで予測複雑性を低減する。 さらに,任意の方向のバウンディングボックスに対するセンターネス関数の向き付けを一般化し,低品質のダウンウェイト予測と,オブジェクトのローカライズ性能を向上させるセンターツー角バウンディングボックス予測戦略を提案する。 DAFNeは従来のDOTA 1.0の1段階のアンカーフリーモデルの予測精度を4.65%改善し、76.95% mAPを達成して新しい最先端の結果を設定する。

Object detection is a fundamental task in computer vision. While approaches for axis-aligned bounding box detection have made substantial progress in recent years, they perform poorly on oriented objects which are common in several real-world scenarios such as aerial view imagery and security camera footage. In these cases, a large part of a predicted bounding box will, undesirably, cover non-object related areas. Therefore, oriented object detection has emerged with the aim of generalizing object detection to arbitrary orientations. This enables a tighter fit to oriented objects, leading to a better separation of bounding boxes especially in case of dense object distributions. The vast majority of the work in this area has focused on complex two-stage anchor-based approaches. Anchors act as priors on the bounding box shape and require attentive hyper-parameter fine-tuning on a per-dataset basis, increased model size, and come with computational overhead. In this work, we present DAFNe: A Dense one-stage Anchor-Free deep Network for oriented object detection. As a one-stage model, DAFNe performs predictions on a dense grid over the input image, being architecturally simpler and faster, as well as easier to optimize than its two-stage counterparts. Furthermore, as an anchor-free model, DAFNe reduces the prediction complexity by refraining from employing bounding box anchors. Moreover, we introduce an orientation-aware generalization of the center-ness function for arbitrarily oriented bounding boxes to down-weight low-quality predictions and a center-to-corner bounding box prediction strategy that improves object localization performance. DAFNe improves the prediction accuracy over the previous best one-stage anchor-free model results on DOTA 1.0 by 4.65% mAP, setting the new state-of-the-art results by achieving 76.95% mAP.
翻訳日:2021-09-14 16:12:23 公開日:2021-09-13
# 視覚表現とカテゴリのオンライン教師なし学習

Online Unsupervised Learning of Visual Representations and Categories ( http://arxiv.org/abs/2109.05675v1 )

ライセンス: Link先を確認
Mengye Ren, Tyler R. Scott, Michael L. Iuzzolino, Michael C. Mozer, Richard Zemel(参考訳) 現実世界の学習シナリオでは、固定された典型的な一様分布から独立してサンプルを描く標準的な機械学習の定式化とは対照的に、サンプル間のシーケンシャルな依存関係を持つクラスを非定常に分散する。 さらに、現実世界の相互作用は、ほとんど、あるいは全くのクラスラベルから学ぶことを要求する。 そこで本研究では,クラスラベルに依存しないオンライン視覚表現学習と,新しいカテゴリの少数ショット学習を同時に行う教師なしモデルを提案する。 我々のモデルは、いつ新しいクラスプロトタイプを作るかを決定する制御コンポーネントを備えたプロトタイプベースのメモリネットワークである。 オンラインガウス混合モデルとして定式化し、コンポーネントは1つの新しい例だけでオンラインで作成され、割り当てはバランスを取る必要はなく、未処理の生データから自然の不均衡分布を近似することができる。 学習には、同じイメージの異なるビューを同じプロトタイプに割り当てることを奨励する対照的な損失が含まれている。 その結果は、非定常環境におけるオブジェクトのカテゴリ表現を形成するメカニズムである。 実験により,本手法は視覚的入力データのオンラインストリームから学習可能であり,最先端の自己教師型学習法に比べてカテゴリー認識に優れていた。

Real world learning scenarios involve a nonstationary distribution of classes with sequential dependencies among the samples, in contrast to the standard machine learning formulation of drawing samples independently from a fixed, typically uniform distribution. Furthermore, real world interactions demand learning on-the-fly from few or no class labels. In this work, we propose an unsupervised model that simultaneously performs online visual representation learning and few-shot learning of new categories without relying on any class labels. Our model is a prototype-based memory network with a control component that determines when to form a new class prototype. We formulate it as an online Gaussian mixture model, where components are created online with only a single new example, and assignments do not have to be balanced, which permits an approximation to natural imbalanced distributions from uncurated raw data. Learning includes a contrastive loss that encourages different views of the same image to be assigned to the same prototype. The result is a mechanism that forms categorical representations of objects in nonstationary environments. Experiments show that our method can learn from an online stream of visual input data and is significantly better at category recognition compared to state-of-the-art self-supervised learning methods.
翻訳日:2021-09-14 16:11:54 公開日:2021-09-13
# AIにおける敵攻撃の数学 - ニューラルネットワークが安定しているにもかかわらずディープラーニングが不安定な理由

The mathematics of adversarial attacks in AI -- Why deep learning is unstable despite the existence of stable neural networks ( http://arxiv.org/abs/2109.06098v1 )

ライセンス: Link先を確認
Alexander Bastounis, Anders C Hansen, Verner Vla\v{c}i\'c(参考訳) ディープラーニング(DL)が前例のない成功を収めたことは、分類問題に関して無意味である。 しかし、現在のDL手法が普遍的に不安定なニューラルネットワーク(NN)を生み出していることは確実である。 The instability problem has caused an enormous research effort -- with a vast literature on so-called adversarial attacks -- yet there has been no solution to the problem. Our paper addresses why there has been no solution to the problem, as we prove the following mathematical paradox: any training procedure based on training neural networks for classification problems with a fixed architecture will yield neural networks that are either inaccurate or unstable (if accurate) -- despite the provable existence of both accurate and stable neural networks for the same classification problems. 鍵となるのは、安定かつ正確なニューラルネットワークは入力に依存する可変次元を持つ必要があり、特に、可変次元は安定性に必要な条件である。 我々の結果は、正確で安定したニューラルネットワークが存在するというパラドックスを示しているが、現代のアルゴリズムはそれらを計算していない。 もし望ましい特性を持つニューラルネットワークの存在が証明できたら、それらを計算するアルゴリズムを見つけることができるだろうか? 証明可能な存在が計算可能性を意味する場合もありますが、ニューラルネットワークの場合はどうでしょう? 我々は、標準コスト関数による標準最適化問題に対する近似最小化問題としてニューラルネットワークをどのように実現可能かを示すが、ランダム化アルゴリズムは1/2よりも高い確率でそれらを計算することはできない。

The unprecedented success of deep learning (DL) makes it unchallenged when it comes to classification problems. However, it is well established that the current DL methodology produces universally unstable neural networks (NNs). The instability problem has caused an enormous research effort -- with a vast literature on so-called adversarial attacks -- yet there has been no solution to the problem. Our paper addresses why there has been no solution to the problem, as we prove the following mathematical paradox: any training procedure based on training neural networks for classification problems with a fixed architecture will yield neural networks that are either inaccurate or unstable (if accurate) -- despite the provable existence of both accurate and stable neural networks for the same classification problems. The key is that the stable and accurate neural networks must have variable dimensions depending on the input, in particular, variable dimensions is a necessary condition for stability. Our result points towards the paradox that accurate and stable neural networks exist, however, modern algorithms do not compute them. This yields the question: if the existence of neural networks with desirable properties can be proven, can one also find algorithms that compute them? There are cases in mathematics where provable existence implies computability, but will this be the case for neural networks? The contrary is true, as we demonstrate how neural networks can provably exist as approximate minimisers to standard optimisation problems with standard cost functions, however, no randomised algorithm can compute them with probability better than 1/2.
翻訳日:2021-09-14 16:11:35 公開日:2021-09-13
# 子どもを大規模言語モデルで育てる - 効果的で一般化可能な微調整を目指して

Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning ( http://arxiv.org/abs/2109.05687v1 )

ライセンス: Link先を確認
Runxin Xu, Fuli Luo, Zhiyuan Zhang, Chuanqi Tan, Baobao Chang, Songfang Huang, Fei Huang(参考訳) 最近の事前学習された言語モデルは数百万から数十億のパラメータに拡張されている。 したがって、様々な下流タスクにおいて、限られた訓練コーパスを持つ非常に大きな事前訓練モデルの微調整の必要性が生じる。 本稿では,大規模事前学習モデルのパラメータのサブセット(子ネットワークと呼ばれる)を後方処理中に非子ネットワークの勾配を戦略的にマスキングすることで更新する,単純かつ効果的な微調整手法であるChild-Tuningを提案する。 GLUEベンチマークにおける様々な下流タスクの実験では、ベニラの微調整は4つの異なる事前訓練されたモデルの中で1.5〜8.6の平均スコアより一貫して優れており、以前の微調整のテクニックを0.6~1.3ポイント上回っている。 さらに、ドメインの転送とタスクの転送に関する経験的な結果から、チャイルドチューニングは大きなマージンでより良い一般化性能が得られることが示されている。

Recent pretrained language models extend from millions to billions of parameters. Thus the need to fine-tune an extremely large pretrained model with a limited training corpus arises in various downstream tasks. In this paper, we propose a straightforward yet effective fine-tuning technique, Child-Tuning, which updates a subset of parameters (called child network) of large pretrained models via strategically masking out the gradients of the non-child network during the backward process. Experiments on various downstream tasks in GLUE benchmark show that Child-Tuning consistently outperforms the vanilla fine-tuning by 1.5~8.6 average score among four different pretrained models, and surpasses the prior fine-tuning techniques by 0.6~1.3 points. Furthermore, empirical results on domain transfer and task transfer show that Child-Tuning can obtain better generalization performance by large margins.
翻訳日:2021-09-14 16:08:40 公開日:2021-09-13
# 変圧器NMTにおける系列間の単語の重み付けと大まかに説明されたモデル予測

Attention Weights in Transformer NMT Fail Aligning Words Between Sequences but Largely Explain Model Predictions ( http://arxiv.org/abs/2109.05853v1 )

ライセンス: Link先を確認
Javier Ferrando and Marta R. Costa-juss\`a(参考訳) 本研究は,neural machine translation (nmt) 設定におけるトランスフォーマーアーキテクチャの広範囲な解析を提案する。 エンコーダ・デコーダのアテンション機構に着目し、アテンション重みは、主にソースシーケンスからの非形式的トークンに依存することにより、アライメントエラーを系統的に行うことを示す。 しかし、NMTモデルでは、これらのトークンに注意を向け、ターゲットシーケンスのソースとプレフィックスである2つのコンテキストの予測への貢献を規制している。 モデル動作に対する誤ったアライメントの影響について,エンコーダ・デコーダのアライメント機構がnmtの解釈可能性に適していることを示す。 最後に,本分析に基づいて,注目重みからの標準誘導アライメントと比較して単語アライメント誤り率を大幅に低減する手法を提案する。

This work proposes an extensive analysis of the Transformer architecture in the Neural Machine Translation (NMT) setting. Focusing on the encoder-decoder attention mechanism, we prove that attention weights systematically make alignment errors by relying mainly on uninformative tokens from the source sequence. However, we observe that NMT models assign attention to these tokens to regulate the contribution in the prediction of the two contexts, the source and the prefix of the target sequence. We provide evidence about the influence of wrong alignments on the model behavior, demonstrating that the encoder-decoder attention mechanism is well suited as an interpretability method for NMT. Finally, based on our analysis, we propose methods that largely reduce the word alignment error rate compared to standard induced alignments from attention weights.
翻訳日:2021-09-14 16:08:22 公開日:2021-09-13
# すべてのモデルが同じ場所で言語知識をローカライズするわけではない:BERToidsの表現に基づく階層的探索

Not All Models Localize Linguistic Knowledge in the Same Place: A Layer-wise Probing on BERToids' Representations ( http://arxiv.org/abs/2109.05958v1 )

ライセンス: Link先を確認
Mohsen Fayyaz, Ehsan Aghazadeh, Ali Modarressi, Hosein Mohebbi, Mohammad Taher Pilehvar(参考訳) 最近の研究の多くはBERTに焦点を当てており、他のモデルと類似している可能性があると推定されている。 本研究では,本研究をエレクトラとxlnetという2つのモデルに拡張し,事前学習目標やアーキテクチャ選択のバリエーションが,表現における言語情報のエンコーディングにおいて異なる行動をもたらすことを示した。 最も注目すべきは、ELECTRAはより深い層で言語知識をエンコードする傾向にあり、XLNetはそれ以前の層に集中していることです。 また、前者は微調整時にわずかに変化し、後者は大幅に調整される。 さらに,各層にまたがる表現の標準的相違を考えると,重み付け評価戦略に基づく結論が,層単位での探索の文脈で広く用いられていることは誤解を招く可能性があることを示す。 代わりに、最小記述長の代替情報理論探索を採用し、より信頼性が高く情報的な結果が得られることが最近証明された。

Most of the recent works on probing representations have focused on BERT, with the presumption that the findings might be similar to the other models. In this work, we extend the probing studies to two other models in the family, namely ELECTRA and XLNet, showing that variations in the pre-training objectives or architectural choices can result in different behaviors in encoding linguistic information in the representations. Most notably, we observe that ELECTRA tends to encode linguistic knowledge in the deeper layers, whereas XLNet instead concentrates that in the earlier layers. Also, the former model undergoes a slight change during fine-tuning, whereas the latter experiences significant adjustments. Moreover, we show that drawing conclusions based on the weight mixing evaluation strategy -- which is widely used in the context of layer-wise probing -- can be misleading given the norm disparity of the representations across different layers. Instead, we adopt an alternative information-theoreti c probing with minimum description length, which has recently been proven to provide more reliable and informative results.
翻訳日:2021-09-14 16:08:05 公開日:2021-09-13
# ビジュアルダイアログのためのビジュアルオブジェクトのグラウンド学習

Learning to Ground Visual Objects for Visual Dialog ( http://arxiv.org/abs/2109.06013v1 )

ライセンス: Link先を確認
Feilong Chen, Xiuyi Chen, Can Xu and Daxin Jiang(参考訳) 視覚環境を理解するために一連のコヒーレントな質問に答える必要があるため、ビジュアルダイアログは難しい。 視覚オブジェクトの接地方法が重要な問題のひとつだ。 これまでの研究では、質問と履歴を利用して画像に参列し、十分なパフォーマンスを達成するが、これらの手法は、ガイダンスなしで関連する視覚オブジェクトを見つけるには不十分である。 ビジュアルオブジェクトの不適切な接地は、ビジュアルダイアログモデルのパフォーマンスを禁止します。 本稿では,視覚的対話のための視覚的オブジェクトの学習のための新しいアプローチを提案する。視覚的オブジェクトの事前分布と後続分布を用いて視覚的オブジェクトの接地を容易にする,新しい視覚的オブジェクトの接地機構を用いる。 特に、視覚オブジェクトに対する後方分布は、文脈(歴史と質問)と回答の両方から推測され、トレーニングプロセス中に視覚オブジェクトの適切な接地を保証する。 一方、文脈のみから推定される事前分布を用いて、後続分布を近似し、推論プロセス中に答えがなくても、適切な視覚オブジェクトをグラウンド化できるようにする。 VisDial v0.9 と v1.0 のデータセットを用いた実験結果から,本手法は生成的および識別的両方の設定における従来の強みモデルを大幅に改善することを示した。

Visual dialog is challenging since it needs to answer a series of coherent questions based on understanding the visual environment. How to ground related visual objects is one of the key problems. Previous studies utilize the question and history to attend to the image and achieve satisfactory performance, however these methods are not sufficient to locate related visual objects without any guidance. The inappropriate grounding of visual objects prohibits the performance of visual dialog models. In this paper, we propose a novel approach to Learn to Ground visual objects for visual dialog, which employs a novel visual objects grounding mechanism where both prior and posterior distributions over visual objects are used to facilitate visual objects grounding. Specifically, a posterior distribution over visual objects is inferred from both context (history and questions) and answers, and it ensures the appropriate grounding of visual objects during the training process. Meanwhile, a prior distribution, which is inferred from context only, is used to approximate the posterior distribution so that appropriate visual objects can be grounded even without answers during the inference process. Experimental results on the VisDial v0.9 and v1.0 datasets demonstrate that our approach improves the previous strong models in both generative and discriminative settings by a significant margin.
翻訳日:2021-09-14 16:06:53 公開日:2021-09-13
# 未知の未知の知識の発見: データセットの暗黙の知識を、視覚的質問応答のための明示的なトレーニング例に変える

Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering ( http://arxiv.org/abs/2109.06122v1 )

ライセンス: Link先を確認
Jihyung Kil, Cheng Zhang, Dong Xuan, Wei-Lun Chao(参考訳) 視覚的質問応答(VQA)は、モデルがマルチモーダル情報を処理しなければならないだけでなく、十分なトレーニング例を集めるのが難しいため、イメージについて質問できる質問が多すぎるため、難しい。 結果として、人間に注釈を付けた例にのみ訓練されたVQAモデルは、質問されている特定の質問スタイルやイメージ内容に簡単に適合し、モデルのほとんどを質問の多様性について無視することができる。 既存の手法は、主に視覚的な接地、サイクルの一貫性、偏りといった補助的なタスクを導入することでこの問題に対処する。 本稿では, 大きく異なるアプローチを採る。 学習したvqaモデルに対する“未知”の多くは、暗黙的にデータセットで“知られている”ことが分かりました。 例えば、画像内の同じオブジェクトについて尋ねる質問は、おそらくパラフレーズであり、画像内の検出されたオブジェクトや注釈付きオブジェクトの数は、たとえその画像に注釈が付されていなくても、既に"どのくらい"質問に対する答えを与えている。 これらの洞察に基づいて、シンプルなデータ拡張パイプラインSimpleAugを紹介し、この"既知の"知識をVQAのトレーニング例に変換する。 これらの拡張例は、言語事前シフト付きVQA-CPデータセットだけでなく、そのようなシフトのないVQA v2データセット上でも、学習したVQAモデルの性能を顕著に向上させることができることを示す。 提案手法は,VQAモデルを強化するために,弱ラベル画像や未ラベル画像を活用するための扉を開放する。 私たちのコードとデータはhttps://github.com/h eendung/simpleAUG.co mで公開されています。

Visual question answering (VQA) is challenging not only because the model has to handle multi-modal information, but also because it is just so hard to collect sufficient training examples -- there are too many questions one can ask about an image. As a result, a VQA model trained solely on human-annotated examples could easily over-fit specific question styles or image contents that are being asked, leaving the model largely ignorant about the sheer diversity of questions. Existing methods address this issue primarily by introducing an auxiliary task such as visual grounding, cycle consistency, or debiasing. In this paper, we take a drastically different approach. We found that many of the "unknowns" to the learned VQA model are indeed "known" in the dataset implicitly. For instance, questions asking about the same object in different images are likely paraphrases; the number of detected or annotated objects in an image already provides the answer to the "how many" question, even if the question has not been annotated for that image. Building upon these insights, we present a simple data augmentation pipeline SimpleAug to turn this "known" knowledge into training examples for VQA. We show that these augmented examples can notably improve the learned VQA models' performance, not only on the VQA-CP dataset with language prior shifts but also on the VQA v2 dataset without such shifts. Our method further opens up the door to leverage weakly-labeled or unlabeled images in a principled way to enhance VQA models. Our code and data are publicly available at https://github.com/h eendung/simpleAUG.
翻訳日:2021-09-14 16:06:33 公開日:2021-09-13
# テキスト逆例検出のためのランダム化置換と投票

Randomized Substitution and Vote for Textual Adversarial Example Detection ( http://arxiv.org/abs/2109.05698v1 )

ライセンス: Link先を確認
Xiaosen Wang, Yifeng Xiong, Kun He(参考訳) 一連の研究により、自然なテキスト処理モデルは敵の例に弱いことが示されている。 これに対応して, 対人訓練, 認証防御, 入力前処理, 検出など, テキスト対人的事例の脅威を軽減するための様々な防御手法が提案されている。 本研究は,同義語置換に基づくテクスト・アタックの最適化過程を,単語置換の特定のシーケンスとして扱い,各単語が相互に他の単語に影響を与える。 単語を同義語にランダムに置換することで、このような相互相互作用を破壊し、敵の摂動を取り除くことができる。 本研究では,入力テキスト中の単語をランダムに置換して生成したkサンプルのロジットを同義語で蓄積することにより,予測ラベルを投票するランダム化置換投票(RS&V)と呼ばれる新しいテキスト逆例検出手法を提案する。 提案されたrs&vは、アーキテクチャの変更や追加のトレーニングなしに、既存のニューラルネットワークに一般的に適用され、分類ネットワーク自体をより堅牢にする以前の作業と直交する。 3つのベンチマークデータセットの実験的評価により、RS&Vは、良性サンプルの高い分類精度を維持しながら、既存の検出方法よりも、テキストの敵対例をよりうまく検出できることが示されている。

A line of work has shown that natural text processing models are vulnerable to adversarial examples. Correspondingly, various defense methods are proposed to mitigate the threat of textual adversarial examples, e.g. adversarial training, certified defense, input pre-processing, detection, etc. In this work, we treat the optimization process for synonym substitution based textual adversarial attacks as a specific sequence of word replacement, in which each word mutually influences other words. We identify that we could destroy such mutual interaction and eliminate the adversarial perturbation by randomly substituting a word with its synonyms. Based on this observation, we propose a novel textual adversarial example detection method, termed Randomized Substitution and Vote (RS&V), which votes the prediction label by accumulating the logits of k samples generated by randomly substituting the words in the input text with synonyms. The proposed RS&V is generally applicable to any existing neural networks without modification on the architecture or extra training, and it is orthogonal to prior work on making the classification network itself more robust. Empirical evaluations on three benchmark datasets demonstrate that RS&V could detect the textual adversarial examples more successfully than the existing detection methods while maintaining the high classification accuracy on benign samples.
翻訳日:2021-09-14 16:05:19 公開日:2021-09-13
# GradTS: 変圧器ネットワークに基づく勾配ベース自動補助タスク選択法

GradTS: A Gradient-Based Automatic Auxiliary Task Selection Method Based on Transformer Networks ( http://arxiv.org/abs/2109.05748v1 )

ライセンス: Link先を確認
Weicheng Ma, Renze Lou, Kai Zhang, Lili Wang, Soroush Vosoughi(参考訳) マルチタスク学習(MTL)研究における鍵となる問題は、高品質な補助タスクを自動的に選択する方法である。 本稿では,変圧器モデルにおける勾配計算に基づく自動補助タスク選択法GradTSを提案する。 強力なベースライン法であるAUTOSEMと比較して、GradTSは、GLUEベンチマークの8つの自然言語理解(NLU)タスクで0.33%から17.93%まで、bert-base-casedのバックエンドモデルでMT-DNNの性能を改善している。 GradTS もまた,(1) の勾配計算は単一タスク実験に基づいており,(2) 候補タスクセットが変更された場合,追加実験なしで勾配を再利用する。 例えば8つのGLUE分類タスクでは、GradTSはAUTOSEMよりも平均21.32%の時間でGPU消費に匹敵するコストがかかる。 さらに、様々なタスク設定やモデル選択、例えば候補タスク間の混合目的などにおけるGradTSの堅牢性を示す。 これらのケーススタディにおけるGradTSの有効性と有効性は、手作業のフィルタリングやコストのかかるパラメータチューニングを必要とせず、MTL研究における汎用性を示している。

A key problem in multi-task learning (MTL) research is how to select high-quality auxiliary tasks automatically. This paper presents GradTS, an automatic auxiliary task selection method based on gradient calculation in Transformer-based models. Compared to AUTOSEM, a strong baseline method, GradTS improves the performance of MT-DNN with a bert-base-cased backend model, from 0.33% to 17.93% on 8 natural language understanding (NLU) tasks in the GLUE benchmarks. GradTS is also time-saving since (1) its gradient calculations are based on single-task experiments and (2) the gradients are re-used without additional experiments when the candidate task set changes. On the 8 GLUE classification tasks, for example, GradTS costs on average 21.32% less time than AUTOSEM with comparable GPU consumption. Further, we show the robustness of GradTS across various task settings and model selections, e.g. mixed objectives among candidate tasks. The efficiency and efficacy of GradTS in these case studies illustrate its general applicability in MTL research without requiring manual task filtering or costly parameter tuning.
翻訳日:2021-09-14 16:04:57 公開日:2021-09-13
# 低リソースシナリオにおける会話音声の真偽と句読点の同時予測

Joint prediction of truecasing and punctuation for conversational speech in low-resource scenarios ( http://arxiv.org/abs/2109.06103v1 )

ライセンス: Link先を確認
Raghavendra Pappagari, Piotr \.Zelasko, Agnieszka Miko{\l}ajczyk, Piotr P\k{e}zik, Najim Dehak(参考訳) 文字と会話の書き起こしを理解する上で、大文字化と句読化は重要な手がかりである。 しかし、多くのasrシステムは、句読や大文字の書き起こしを生成しない。 本研究では,ケーシングと句読点の関係を利用して予測性能を向上させるマルチタスクシステムを提案する。 句読点と真偽を予測するためのテキストデータは豊富であるように思われるが、テキストリソースは会話モデルのためのトレーニングデータとして不十分である。 文と会話のテキストドメイン間のミスマッチを、句読点と単語ケースの連接分布を比較し、モデルのクロスドメインをテストすることによって定量化する。 さらに,テキスト領域でモデルをトレーニングし,会話に学習を移すことで,少ないデータで合理的な性能が得られることを示す。

Capitalization and punctuation are important cues for comprehending written texts and conversational transcripts. Yet, many ASR systems do not produce punctuated and case-formatted speech transcripts. We propose to use a multi-task system that can exploit the relations between casing and punctuation to improve their prediction performance. Whereas text data for predicting punctuation and truecasing is seemingly abundant, we argue that written text resources are inadequate as training data for conversational models. We quantify the mismatch between written and conversational text domains by comparing the joint distributions of punctuation and word cases, and by testing our model cross-domain. Further, we show that by training the model in the written text domain and then transfer learning to conversations, we can achieve reasonable performance with less data.
翻訳日:2021-09-14 16:04:30 公開日:2021-09-13
# 確率的最短経路マルコフ決定過程の確率的推論による解法について

On Solving a Stochastic Shortest-Path Markov Decision Process as Probabilistic Inference ( http://arxiv.org/abs/2109.05866v1 )

ライセンス: Link先を確認
Mohamed Baioumy, Bruno Lacerda, Paul Duckworth, Nick Hawes(参考訳) アクティブ推論としての計画に関する以前の作業は、オンライン計画に有効な有限地平線問題と解決策に対処する。 本稿では確率的推論として確率的短パルスマルコフ決定過程(SSP MDP)を提案する。 さらに,不確実性を考慮した計画手法について検討する。 SSP MDP では、地平線は不確定であり、前兆は未知である。 SSP MDP は有限と無限の地平線 MDP を一般化し、人工知能コミュニティで広く利用されている。 さらに,人工知能コミュニティで広く使用されている動的プログラミング手法と,アクティブな推論コミュニティで使用されているアプローチとの相違点を強調した。

Previous work on planning as active inference addresses finite horizon problems and solutions valid for online planning. We propose solving the general Stochastic Shortest-Path Markov Decision Process (SSP MDP) as probabilistic inference. Furthermore, we discuss online and offline methods for planning under uncertainty. In an SSP MDP, the horizon is indefinite and unknown a priori. SSP MDPs generalize finite and infinite horizon MDPs and are widely used in the artificial intelligence community. Additionally, we highlight some of the differences between solving an MDP using dynamic programming approaches widely used in the artificial intelligence community and approaches used in the active inference community.
翻訳日:2021-09-14 16:02:55 公開日:2021-09-13
# Inferential Wasserstein Generative Adversarial Networks

Inferential Wasserstein Generative Adversarial Networks ( http://arxiv.org/abs/2109.05652v1 )

ライセンス: Link先を確認
Yao Chen, Qingyi Gao and Xiao Wang(参考訳) GAN(Generative Adversarial Networks)は多くの問題や応用に影響を与えているが、不安定なトレーニングに悩まされている。 ワッサースタインgan(wgan)は、ガンのミンマックス2人の訓練における注意点を避けるためにワッサースタイン距離を利用するが、モード崩壊や収束を検出するためのメトリックの欠如などの欠陥がある。 自動エンコーダとWGANを融合する原理的フレームワークである新しい推論ワッサースタインGAN(iWGAN)モデルを導入する。 iWGANモデルは、反復原始双対最適化プロセスによって動機付けられたエンコーダネットワークとジェネレータネットワークを共同で学習する。 エンコーダネットワークは、観測されたサンプルを潜時空間にマッピングし、ジェネレータネットワークは潜時空間からデータ空間にサンプルをマッピングする。 我々はiWGANの一般化誤差を理論的に正当化するために確立する。 さらに, 最大確率推定の枠組みに基づいて, モデルの厳密な確率論的解釈を行う。 iwganは明確な停止基準を持ち、他のオートエンコーダganよりも多くの利点がある。 実験により、iWGANはモード崩壊の症状を大幅に緩和し、収束を加速し、各サンプルの品質チェックを測定できることが示されている。 ベンチマークデータセットの競合性能と安定性能を取得することで,iWGANの能力を示す。

Generative Adversarial Networks (GANs) have been impactful on many problems and applications but suffer from unstable training. The Wasserstein GAN (WGAN) leverages the Wasserstein distance to avoid the caveats in the minmax two-player training of GANs but has other defects such as mode collapse and lack of metric to detect the convergence. We introduce a novel inferential Wasserstein GAN (iWGAN) model, which is a principled framework to fuse auto-encoders and WGANs. The iWGAN model jointly learns an encoder network and a generator network motivated by the iterative primal dual optimization process. The encoder network maps the observed samples to the latent space and the generator network maps the samples from the latent space to the data space. We establish the generalization error bound of the iWGAN to theoretically justify its performance. We further provide a rigorous probabilistic interpretation of our model under the framework of maximum likelihood estimation. The iWGAN, with a clear stopping criteria, has many advantages over other autoencoder GANs. The empirical experiments show that the iWGAN greatly mitigates the symptom of mode collapse, speeds up the convergence, and is able to provide a measurement of quality check for each individual sample. We illustrate the ability of the iWGAN by obtaining competitive and stable performances for benchmark datasets.
翻訳日:2021-09-14 16:01:17 公開日:2021-09-13
# 衝撃グラフ埋め込みによる形状バイアス領域一般化

Shape-Biased Domain Generalization via Shock Graph Embeddings ( http://arxiv.org/abs/2109.05671v1 )

ライセンス: Link先を確認
Maruthi Narayanan, Vickram Rajendran, Benjamin Kimia(参考訳) 画像畳み込みニューラルネットワーク(CNN: Image Convolutional Neural Networks)の脆弱性、すなわち、画像の破損、摂動、敵攻撃に対する感受性は、Texture Biasと結びついている、という新たな感覚がある。 形状バイアスの相対的欠如はドメイン一般化(dg)における性能低下にも寄与する。 形状の役割の導入はこれらの脆弱性を緩和し、いくつかのアプローチは、否定的な画像、エッジマップが付与された画像、あるいは矛盾する形状やテクスチャ情報を持つ画像のトレーニングによって達成されている。 本稿では,古典的コンピュータビジョンによる形状の明示的かつ完全な表現,すなわち,その輪郭図の衝撃グラフを用いて画像の形状内容を表現することを提唱する。 得られたグラフとそのディスクリプタは輪郭内容の完全な表現であり、最近のgraph neural network (gnn) 法を用いて分類される。 色付きMNIST, PACS, VLCSの3つの領域シフトデータセットに対する実験結果から, 形状ベースアプローチを使用せずにも, 領域一般化における古典的画像CNN法を超越することを示した。

There is an emerging sense that the vulnerability of Image Convolutional Neural Networks (CNN), i.e., sensitivity to image corruptions, perturbations, and adversarial attacks, is connected with Texture Bias. This relative lack of Shape Bias is also responsible for poor performance in Domain Generalization (DG). The inclusion of a role of shape alleviates these vulnerabilities and some approaches have achieved this by training on negative images, images endowed with edge maps, or images with conflicting shape and texture information. This paper advocates an explicit and complete representation of shape using a classical computer vision approach, namely, representing the shape content of an image with the shock graph of its contour map. The resulting graph and its descriptor is a complete representation of contour content and is classified using recent Graph Neural Network (GNN) methods. The experimental results on three domain shift datasets, Colored MNIST, PACS, and VLCS demonstrate that even without using appearance the shape-based approach exceeds classical Image CNN based methods in domain generalization.
翻訳日:2021-09-14 16:00:17 公開日:2021-09-13
# 低ショット検証:希少カテゴリの分類器性能推定のための能動的重要サンプリング

Low-Shot Validation: Active Importance Sampling for Estimating Classifier Performance on Rare Categories ( http://arxiv.org/abs/2109.05720v1 )

ライセンス: Link先を確認
Fait Poms, Vishnu Sarukkai, Ravi Teja Mullapudi, Nimit S. Sohoni, William R. Mark, Deva Ramanan, Kayvon Fatahalian(参考訳) 限定ラベル付きトレーニングデータでトレーニングされた機械学習モデルでは、全体のアノテーションコストを削減する上で、バリデーションが主要なボトルネックになる。 本研究では, 統計的検証アルゴリズムを提案する。このアルゴリズムは, 稀なカテゴリに対して, バイナリ分類器のf-scoreを正確に推定する。 我々の重要な洞察は、同時校正と重要度サンプリングは、低サンプル状態(300サンプル)においても正確な推定を可能にすることである。 また,本手法のばらつきを精度良く推定し,この推定器が低サンプル数で実験的に精度が高いことを示し,与えられた低サンプル推定をどれだけ信頼できるかを実践者が知ることができるようにした。 ImageNetとiNaturalist2017で最先端の半教師付きモデルを検証した場合,提案手法は競合する手法に比べて最大10倍のラベルでモデル性能を推定する。 特に、100個のラベルを用いて0.005の差でモデルF1のスコアを推定できる。

For machine learning models trained with limited labeled training data, validation stands to become the main bottleneck to reducing overall annotation costs. We propose a statistical validation algorithm that accurately estimates the F-score of binary classifiers for rare categories, where finding relevant examples to evaluate on is particularly challenging. Our key insight is that simultaneous calibration and importance sampling enables accurate estimates even in the low-sample regime (< 300 samples). Critically, we also derive an accurate single-trial estimator of the variance of our method and demonstrate that this estimator is empirically accurate at low sample counts, enabling a practitioner to know how well they can trust a given low-sample estimate. When validating state-of-the-art semi-supervised models on ImageNet and iNaturalist2017, our method achieves the same estimates of model performance with up to 10x fewer labels than competing approaches. In particular, we can estimate model F1 scores with a variance of 0.005 using as few as 100 labels.
翻訳日:2021-09-14 15:59:57 公開日:2021-09-13
# DHA:データ拡張ポリシ,ハイパーパラメータ,アーキテクチャのエンドツーエンド共同最適化

DHA: End-to-End Joint Optimization of Data Augmentation Policy, Hyper-parameter and Architecture ( http://arxiv.org/abs/2109.05765v1 )

ライセンス: Link先を確認
Kaichen Zhou, Lanqing Hong, Shoukang Hu, Fengwei Zhou, Binxin Ru, Jiashi Feng, Zhenguo Li(参考訳) 自動機械学習(AutoML)は通常、データ拡張(DA)ポリシ、ハイパーパラメータ最適化(HPO)、ニューラルネットワーク探索(NAS)など、いくつかの重要なコンポーネントを含んでいる。 これらのコンポーネントを分離して自動化するための戦略は数多く開発されているが、探索次元が大幅に増大し、各コンポーネントの入力タイプが異なるため、コンポーネントの協調最適化は依然として困難である。 一方、これらのコンポーネントをシーケンスで実行するには、しばしば人間の専門家による慎重に調整が必要である。 これと並行して、まず最適なアーキテクチャを探索し、次にNASに展開する前に再訓練するという一般的なプラクティスは、探索と再訓練の段階でパフォーマンスの相関が低い。 automlコンポーネントを統合し、検索の最後に使用可能なモデルを返すエンドツーエンドのソリューションが望ましい。 そこで本稿では,データ拡張ポリシ,ハイパーパラメータ,アーキテクチャの共同最適化を実現するDHAを提案する。 具体的には、圧縮された低次元特徴空間を最適化することにより、エンドツーエンドNASを微分可能とし、DAポリシーとHPOを同時に動的に更新する。 実験により、DHAは様々なデータセット、特に現在のSOTAよりも0.5倍高いセルベースの検索空間を持つImageNetの77.4\%の精度で、最先端のSOTA(State-of-the-ar t)結果を達成することが示された。 私たちの知る限りでは、daポリシー、nas、hpoをエンドツーエンドで再トレーニングすることなく、効率的かつ共同で最適化した最初の人物です。

Automated machine learning (AutoML) usually involves several crucial components, such as Data Augmentation (DA) policy, Hyper-Parameter Optimization (HPO), and Neural Architecture Search (NAS). Although many strategies have been developed for automating these components in separation, joint optimization of these components remains challenging due to the largely increased search dimension and the variant input types of each component. Meanwhile, conducting these components in a sequence often requires careful coordination by human experts and may lead to sub-optimal results. In parallel to this, the common practice of searching for the optimal architecture first and then retraining it before deployment in NAS often suffers from low performance correlation between the search and retraining stages. An end-to-end solution that integrates the AutoML components and returns a ready-to-use model at the end of the search is desirable. In view of these, we propose DHA, which achieves joint optimization of Data augmentation policy, Hyper-parameter and Architecture. Specifically, end-to-end NAS is achieved in a differentiable manner by optimizing a compressed lower-dimensional feature space, while DA policy and HPO are updated dynamically at the same time. Experiments show that DHA achieves state-of-the-art (SOTA) results on various datasets, especially 77.4\% accuracy on ImageNet with cell based search space, which is higher than current SOTA by 0.5\%. To the best of our knowledge, we are the first to efficiently and jointly optimize DA policy, NAS, and HPO in an end-to-end manner without retraining.
翻訳日:2021-09-14 15:59:40 公開日:2021-09-13
# Affine-invariant Gradient Estimator を用いた敵攻撃のロバスト性向上

Improving Robustness of Adversarial Attacks Using an Affine-Invariant Gradient Estimator ( http://arxiv.org/abs/2109.05820v1 )

ライセンス: Link先を確認
Wenzhao Xiang, Hang Su, Chang Liu, Yandong Guo, Shibao Zheng(参考訳) 敵対的な例は、認識不能な摂動によって応答を著しく変化させることで、ディープニューラルネットワーク(DNN)を欺くことができる。 しかし、既存の敵のほとんどの例は、実際のリスクに対する敵の攻撃の堅牢性にとって重要な指標であるアフィン変換を適用すると、悪意のある機能を維持できない。 この問題に対処するために,アフィン変換の分布上に頑健な逆例を一貫して構築できるアフィン不変逆攻撃を提案する。 さらに効率を向上させるために,アフィン変換を回転,変換,拡大,極空間での変換を再構成する手法を提案する。 その後、元の画像の勾配を任意の勾配に基づく攻撃法と統合できる派生したカーネルに畳み込み、アフィン不変勾配推定器を構築する。 ImageNet での広範囲な実験により,本手法はアフィン変換においてより堅牢な対向例を連続的に生成し,副産物として,代替手法と比較して対向例の移動性を向上させることができることが示された。

Adversarial examples can deceive a deep neural network (DNN) by significantly altering its response with imperceptible perturbations, which poses new potential vulnerabilities as the growing ubiquity of DNNs. However, most of the existing adversarial examples cannot maintain the malicious functionality if we apply an affine transformation on the resultant examples, which is an important measurement to the robustness of adversarial attacks for the practical risks. To address this issue, we propose an affine-invariant adversarial attack which can consistently construct adversarial examples robust over a distribution of affine transformation. To further improve the efficiency, we propose to disentangle the affine transformation into rotations, translations, magnifications, and reformulate the transformation in polar space. Afterwards, we construct an affine-invariant gradient estimator by convolving the gradient at the original image with derived kernels, which can be integrated with any gradient-based attack methods. Extensive experiments on the ImageNet demonstrate that our method can consistently produce more robust adversarial examples under significant affine transformations, and as a byproduct, improve the transferability of adversarial examples compared with the alternative state-of-the-art methods.
翻訳日:2021-09-14 15:59:13 公開日:2021-09-13
# 負荷分散パラレル粒子追跡のための強化学習

Reinforcement Learning for Load-balanced Parallel Particle Tracing ( http://arxiv.org/abs/2109.05679v1 )

ライセンス: Link先を確認
Jiayi Xu, Hanqi Guo, Han-Wei Shen, Mukund Raj, Skylar Wolfgang Wurster, Tom Peterka(参考訳) 分散メモリシステムにおける並列粒子追跡性能を最適化するオンライン学習強化学習(rl)パラダイムを検討する。 提案手法は,(1)ワークロード提供モデル,(2)高次ワークロード推定モデル,(3)通信コストモデルという3つの新しいコンポーネントを組み合わせて,データ並列粒子の動的トレース性能を最適化する。 まず、RLに基づくワークロード提供モデルの設計を行う。 我々のワークロード提供モデルは、プロセスのワークロードを監視し、高負荷プロセスから低負荷プロセスへのパーティクルやデータブロックを寄付するRLエージェントを作成し、実行時間を最小化する。 エージェントは報酬とコスト関数に基づいて寄付戦略をオンザフライで学習する。 報酬とコスト関数は、プロセスのワークロードの変更と、寄付アクションごとにデータ転送コストを考慮するように設計されている。 第2に、将来の計算におけるプロセスのワークロード分布をrlモデルが推定するために、オンラインワークロード推定モデルを提案する。 第3に,ブロックとパーティクルデータ交換の両コストを考慮した通信コストモデルを構築し,通信コストの最小化による効率的な決定を支援する。 本アルゴリズムは, 大規模流体力学, 海洋, 気象シミュレーションデータにおいて, 異なる流れの挙動に適応できることを実証する。 提案アルゴリズムは,並列効率,負荷バランス,I/Oのコスト,最大16,384プロセッサの通信性の観点から並列粒子追跡性能を向上する。

We explore an online learning reinforcement learning (RL) paradigm for optimizing parallel particle tracing performance in distributed-memory systems. Our method combines three novel components: (1) a workload donation model, (2) a high-order workload estimation model, and (3) a communication cost model, to optimize the performance of data-parallel particle tracing dynamically. First, we design an RL-based workload donation model. Our workload donation model monitors the workload of processes and creates RL agents to donate particles and data blocks from high-workload processes to low-workload processes to minimize the execution time. The agents learn the donation strategy on-the-fly based on reward and cost functions. The reward and cost functions are designed to consider the processes' workload change and the data transfer cost for every donation action. Second, we propose an online workload estimation model, in order to help our RL model estimate the workload distribution of processes in future computations. Third, we design the communication cost model that considers both block and particle data exchange costs, helping the agents make effective decisions with minimized communication cost. We demonstrate that our algorithm adapts to different flow behaviors in large-scale fluid dynamics, ocean, and weather simulation data. Our algorithm improves parallel particle tracing performance in terms of parallel efficiency, load balance, and costs of I/O and communication for evaluations up to 16,384 processors.
翻訳日:2021-09-14 15:57:36 公開日:2021-09-13
# 分布予測リスクの形式化と推定

Formalizing and Estimating Distribution Inference Risks ( http://arxiv.org/abs/2109.06024v1 )

ライセンス: Link先を確認
Anshuman Suri and David Evans(参考訳) プロパティ推論攻撃は、トレーニングセットに関する統計特性を明らかにするが、統計機械学習の本質的な目的、すなわち分布に関する統計特性をキャプチャするモデルを作成することとの区別が難しい。 Yeomらのメンバシップ推論フレームワークを動機として,プロパティ推論攻撃の形式的かつ一般的な定義を提案する。 提案する概念は、可能なトレーニング分布を区別できる攻撃を記述し、女性の比率のようなトレーニングデータセット内の特定のタイプのデータの割合を推測する以前のプロパティ推論攻撃を超えて拡張する。 我々の定義は、トレーニンググラフの平均ノード次数やクラスタリング係数を明らかにすることができる新しい攻撃と同様に、以前のプロパティ推論攻撃をキャプチャする方法を示す。 我々の定義では、分布を区別する推論攻撃の最大精度をモデルによってリークされたデータセットの有効サイズに結びつける定理も可能である。 特性推定リスクの定量化と理解のために,ブラックボックス攻撃とホワイトボックス攻撃の両方を用いて,異なる分布の一連の実験を行う。 その結果,安価なアタックは高価なメタクラス化アタックと同等の効果を示し,アタックの有効性には驚くべき非対称性があることがわかった。 また、畳み込みニューラルネットワークで作業するために最先端のプロパティ推論攻撃を拡張し、最も多くの情報を漏洩するモデルにおけるパラメータの識別を支援する手法を提案し、メタ分類器攻撃のリソース要求を著しく低減する。

Property inference attacks reveal statistical properties about a training set but are difficult to distinguish from the intrinsic purpose of statistical machine learning, namely to produce models that capture statistical properties about a distribution. Motivated by Yeom et al.'s membership inference framework, we propose a formal and general definition of property inference attacks. The proposed notion describes attacks that can distinguish between possible training distributions, extending beyond previous property inference attacks that infer the ratio of a particular type of data in the training data set such as the proportion of females. We show how our definition captures previous property inference attacks as well as a new attack that can reveal the average node degree or clustering coefficient of a training graph. Our definition also enables a theorem that connects the maximum possible accuracy of inference attacks distinguishing between distributions to the effective size of dataset leaked by the model. To quantify and understand property inference risks, we conduct a series of experiments across a range of different distributions using both black-box and white-box attacks. Our results show that inexpensive attacks are often as effective as expensive meta-classifier attacks, and that there are surprising asymmetries in the effectiveness of attacks. We also extend the state-of-the-art property inference attack to work on convolutional neural networks, and propose techniques to help identify parameters in a model that leak the most information, thus significantly lowering resource requirements for meta-classifier attacks.
翻訳日:2021-09-14 15:57:10 公開日:2021-09-13
# 心臓再同期療法の早期推奨における機械学習の応用

Application of Machine Learning in Early Recommendation of Cardiac Resynchronization Therapy ( http://arxiv.org/abs/2109.06139v1 )

ライセンス: Link先を確認
Brendan E. Odigwe, Francis G. Spinale, Homayoun Valafar(参考訳) 心臓不全(HF)は死亡率、死亡率、医療費の主な原因である。 心筋の長期伝導はHFで起こり、心臓再同期療法(CRT)と呼ばれるデバイス駆動のアプローチは、左室(LV)心筋伝導パターンを改善することができる。 CRTの機能的メリットが証明されているが,CRTを服用したHF患者(30~50%)は十分に改善していない。 さらに、CRTの恩恵を受けるHF患者を特定することは、臨床上の課題である。 したがって、CRTから機能的利益をもたらすHF患者を効果的に予測する戦略は、医療・社会経済的に非常に重要である。 そこで本研究では,クラスタ分析,決定木,ニューラルネットワークなどのhf患者を分類する機械学習手法を用いて,crt後の結果予測モデルを構築した。 CRT前後のHF患者における臨床,機能,バイオマーカーデータを収集した。 CRT応答として,LV容積減少の6ヶ月の先進的なエンドポイントを定義した。 この手法(418人の応答者,412人の非応答者)を用いて,56のパラメータで,CRTに対する反応に基づいてHF患者を95%以上の成功率で分類することができた。 我々は,機械学習アプローチを用いて,CRTの正の反応の確率が高いHF患者(95%の精度)を同定し,同程度の重要度で,CRTの機能的メリットを導き出さないHF患者を同定できることを実証した。 hf患者におけるcrtの使用に関する臨床意思決定を支援する臨床アルゴリズムにこのアプローチを組み込むことで、予後を改善し、医療費を削減できる可能性がある。

Heart failure (HF) is a leading cause of morbidity, mortality, and health care costs. Prolonged conduction through the myocardium can occur with HF, and a device-driven approach, termed cardiac resynchronization therapy (CRT), can improve left ventricular (LV) myocardial conduction patterns. While a functional benefit of CRT has been demonstrated, a large proportion of HF patients (30-50%) receiving CRT do not show sufficient improvement. Moreover, identifying HF patients that would benefit from CRT prospectively remains a clinical challenge. Accordingly, strategies to effectively predict those HF patients that would derive a functional benefit from CRT holds great medical and socio-economic importance. Thus, we used machine learning methods of classifying HF patients, namely Cluster Analysis, Decision Trees, and Artificial neural networks, to develop predictive models of individual outcomes following CRT. Clinical, functional, and biomarker data were collected in HF patients before and following CRT. A prospective 6-month endpoint of a reduction in LV volume was defined as a CRT response. Using this approach (418 responders, 412 non-responders), each with 56 parameters, we could classify HF patients based on their response to CRT with more than 95% success. We have demonstrated that using machine learning approaches can identify HF patients with a high probability of a positive CRT response (95% accuracy), and of equal importance, identify those HF patients that would not derive a functional benefit from CRT. Developing this approach into a clinical algorithm to assist in clinical decision-making regarding the use of CRT in HF patients would potentially improve outcomes and reduce health care costs.
翻訳日:2021-09-14 15:56:48 公開日:2021-09-13
# 最適横ランキングのオンライン学習

Online Learning of Optimally Diverse Rankings ( http://arxiv.org/abs/2109.05899v1 )

ライセンス: Link先を確認
Stefan Magureanu, Alexandre Proutiere, Marcus Isaksson, Boxun Zhang(参考訳) 検索エンジンは関連する項目(文書、歌、製品、ウェブページ、...)をリストアップすることでユーザーの質問に答える。 これらのエンジンは、関連する項目を含む確率を最大化する順序リストを表示するためにアイテムのランク付けを学ぶアルゴリズムに依存している。 ランク付けアルゴリズムの設計における大きな課題は,クエリがユーザによって異なる意味を持つことが多い点にある。 クエリに関する文脈的な情報がない場合、クエリの様々なトピックや意味をカバーしたリストを返すために、しばしば {\it diversity} の原則に従わなければならない。 この学習からランクへの問題を形式化するために,我々は自然モデルを提案する。 (i)項目を話題に分類する。 (ii)ユーザは、クエリのトピックと一致する場合に限り、関連する項目を見つけ、 (iii)エンジンは、到着したクエリのトピックや、さまざまなトピックに関連するクエリが到着する頻度、あるいはアイテムのトピック依存クリックスルーレートを意識していない。 そこで我々は,ユーザのフィードバックのみに基づいて最適なリストを効率よく学習するアルゴリズムであるLDR(Learning Diverse Rankings)を考案した。 我々は、$T$クエリの後に、LDRの後悔は$O((N-L)\log(T))$としてスケールする。 さらに、このスケーリングは改善できないこと、すなわちLDRが最適であることを示す。 最後に,実世界の人工データと実データの両方における数値実験を用いて,ldrが既存の学習からランクへのアルゴリズムよりも優れていることを示す。

Search engines answer users' queries by listing relevant items (e.g. documents, songs, products, web pages, ...). These engines rely on algorithms that learn to rank items so as to present an ordered list maximizing the probability that it contains relevant item. The main challenge in the design of learning-to-rank algorithms stems from the fact that queries often have different meanings for different users. In absence of any contextual information about the query, one often has to adhere to the {\it diversity} principle, i.e., to return a list covering the various possible topics or meanings of the query. To formalize this learning-to-rank problem, we propose a natural model where (i) items are categorized into topics, (ii) users find items relevant only if they match the topic of their query, and (iii) the engine is not aware of the topic of an arriving query, nor of the frequency at which queries related to various topics arrive, nor of the topic-dependent click-through-rates of the items. For this problem, we devise LDR (Learning Diverse Rankings), an algorithm that efficiently learns the optimal list based on users' feedback only. We show that after $T$ queries, the regret of LDR scales as $O((N-L)\log(T))$ where $N$ is the number of all items. We further establish that this scaling cannot be improved, i.e., LDR is order optimal. Finally, using numerical experiments on both artificial and real-world data, we illustrate the superiority of LDR compared to existing learning-to-rank algorithms.
翻訳日:2021-09-14 15:55:59 公開日:2021-09-13
# FaceGuard: アクティブなディープフェイク検出

FaceGuard: Proactive Deepfake Detection ( http://arxiv.org/abs/2109.05673v1 )

ライセンス: Link先を確認
Yuankun Yang, Chenyue Liang, Hongyu He, Xiaoyu Cao, Neil Zhenqiang Gong(参考訳) 既存のディープフェイク検出法は受動的検出に重点を置いており、ディープフェイク操作時に生成されたアーティファクトを利用して偽の顔画像を検出する。 パッシブ検出の重要な制限は、新しいディープフェイク生成法によって生成される偽の顔を検出することができないことである。 本研究では,能動的深度検出フレームワークFaceGuardを提案する。 FaceGuardは、実際の顔画像に透かしを埋め込んだ後、ソーシャルメディアに掲載する。 個人であると主張する顔画像(例えばニコラス・ケージ)が与えられたとき、FaceGuardはそれから透かしを抽出し、抽出した透かしが個人の基礎的真実とうまく一致しない場合、顔画像が偽物であると予測する。 FaceGuardの重要なコンポーネントは、新しいディープラーニングベースの透かし方式である。 1)jpeg圧縮,gaussian bluring,cropping,res izingなどの通常の画像後処理に頑健であるが, 2) 深層加工に脆弱である。 複数のデータセットに対する評価は、FaceGuardがディープフェイクを正確に検出でき、既存の手法より優れていることを示している。

Existing deepfake-detection methods focus on passive detection, i.e., they detect fake face images via exploiting the artifacts produced during deepfake manipulation. A key limitation of passive detection is that it cannot detect fake faces that are generated by new deepfake generation methods. In this work, we propose FaceGuard, a proactive deepfake-detection framework. FaceGuard embeds a watermark into a real face image before it is published on social media. Given a face image that claims to be an individual (e.g., Nicolas Cage), FaceGuard extracts a watermark from it and predicts the face image to be fake if the extracted watermark does not match well with the individual's ground truth one. A key component of FaceGuard is a new deep-learning-based watermarking method, which is 1) robust to normal image post-processing such as JPEG compression, Gaussian blurring, cropping, and resizing, but 2) fragile to deepfake manipulation. Our evaluation on multiple datasets shows that FaceGuard can detect deepfakes accurately and outperforms existing methods.
翻訳日:2021-09-14 15:53:58 公開日:2021-09-13
# リカレントニューラルネットワークによるリアルタイムemg信号分類

Real-Time EMG Signal Classification via Recurrent Neural Networks ( http://arxiv.org/abs/2109.05674v1 )

ライセンス: Link先を確認
Reza Bagherian Azhiri, Mohammad Esmaeili, Mehrdad Nourani(参考訳) 筋電図信号のリアルタイム分類は義手を制御する上で最も難しい部分である。 短い遅延時間でEMG信号の高い分類精度を達成することは依然として困難である。 リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、EMGなどのシーケンシャルデータに適したニューラルネットワークアーキテクチャである。 本稿では,ハイブリッドな時間周波数領域(離散ウェーブレット変換)から特徴を抽出した後,再帰的ニューラルネットワークアーキテクチャ群を用いて分類精度を高め,予測遅延時間を短縮する。 これらのアーキテクチャの性能は比較され、一般に600msecで96%の分類精度を達成し、他の最先端手法よりも優れている。

Real-time classification of Electromyography signals is the most challenging part of controlling a prosthetic hand. Achieving a high classification accuracy of EMG signals in a short delay time is still challenging. Recurrent neural networks (RNNs) are artificial neural network architectures that are appropriate for sequential data such as EMG. In this paper, after extracting features from a hybrid time-frequency domain (discrete Wavelet transform), we utilize a set of recurrent neural network-based architectures to increase the classification accuracy and reduce the prediction delay time. The performances of these architectures are compared and in general outperform other state-of-the-art methods by achieving 96% classification accuracy in 600 msec.
翻訳日:2021-09-14 15:53:37 公開日:2021-09-13
# マルチソースリモートセンシングデータのための学習可能なアーキテクチャを用いたシングルストリームCNN

Single-stream CNN with Learnable Architecture for Multi-source Remote Sensing Data ( http://arxiv.org/abs/2109.06094v1 )

ライセンス: Link先を確認
Yi Yang, Daoye Zhu, Tengteng Qu, Qiangyu Wang, Fuhu Ren, Chengqi Cheng(参考訳) 本稿では,マルチソースリモートセンシングデータ共同分類のための,深層畳み込みニューラルネットワーク(CNN)に基づく効率的かつ一般化可能なフレームワークを提案する。 近年の手法は主にマルチストリームアーキテクチャに基づいているが,グループ畳み込みを用いて単一ストリームネットワーク内で等価なネットワークアーキテクチャを効率的に構築する。 さらに,動的グループ畳み込み畳み込み(dgconv)を取り入れ改良し,グループ畳み込みハイパーパラメータとネットワーク全体のアーキテクチャをネットワークトレーニング中に学習可能にした。 したがって,提案手法は理論上,任意の現代的なcnnモデルを任意のマルチソースリモートセンシングデータセットに適応させることができ,手作業で決定されるアーキテクチャハイパーパラメータによるサブ最適解を回避できる。 実験では、提案手法をresnetとunetに適用し、3つの非常に多様なベンチマークデータセット(ヒューストン2018データ、ベルリンデータ、muuflデータ)で調整されたネットワークを検証する。 実験結果は、提案したシングルストリームCNNの有効性を示し、特にResNet18-DGConvは、HS-SAR Berlinデータセットにおける最先端の分類総合精度(OA)を62.23\%から68.21\%に改善する。 実験では2つの興味深い結果が得られた。 まず、DGConvを使用すると、一般的にテストOA分散が減少する。 第2に、マルチストリームは、最初の数層に課された場合、モデルパフォーマンスに有害であるが、より深い層に適用すると有益になる。 いずれにせよ,マルチストリームアーキテクチャは,マルチソースリモートセンシングデータのためのディープラーニングモデルにおいて,厳密に必要なコンポーネントではなく,基本的にはモデル正規化器の役割を担っている。 私たちのコードはhttps://github.com/y yyyangyi/Multi-sourc e-RS-DGConv.comで公開されています。 私たちの研究が将来、新しい研究を刺激できることを願っています。

In this paper, we propose an efficient and generalizable framework based on deep convolutional neural network (CNN) for multi-source remote sensing data joint classification. While recent methods are mostly based on multi-stream architectures, we use group convolution to construct equivalent network architectures efficiently within a single-stream network. We further adopt and improve dynamic grouping convolution (DGConv) to make group convolution hyperparameters, and thus the overall network architecture, learnable during network training. The proposed method therefore can theoretically adjust any modern CNN models to any multi-source remote sensing data set, and can potentially avoid sub-optimal solutions caused by manually decided architecture hyperparameters. In the experiments, the proposed method is applied to ResNet and UNet, and the adjusted networks are verified on three very diverse benchmark data sets (i.e., Houston2018 data, Berlin data, and MUUFL data). Experimental results demonstrate the effectiveness of the proposed single-stream CNNs, and in particular ResNet18-DGConv improves the state-of-the-art classification overall accuracy (OA) on HS-SAR Berlin data set from $62.23\%$ to $68.21\%$. In the experiments we have two interesting findings. First, using DGConv generally reduces test OA variance. Second, multi-stream is harmful to model performance if imposed to the first few layers, but becomes beneficial if applied to deeper layers. Altogether, the findings imply that multi-stream architecture, instead of being a strictly necessary component in deep learning models for multi-source remote sensing data, essentially plays the role of model regularizer. Our code is publicly available at https://github.com/y yyyangyi/Multi-sourc e-RS-DGConv. We hope our work can inspire novel research in the future.
翻訳日:2021-09-14 15:53:28 公開日:2021-09-13
# どれを選べばいいの? 自然言語理解における知識蒸留のロバスト性に関する実証的研究

How to Select One Among All? An Extensive Empirical Study Towards the Robustness of Knowledge Distillation in Natural Language Understanding ( http://arxiv.org/abs/2109.05696v1 )

ライセンス: Link先を確認
Tianda Li, Ahmad Rashid, Aref Jafari, Pranav Sharma, Ali Ghodsi, Mehdi Rezagholizadeh(参考訳) 知識蒸留(KD)は、大きなニューラルネットワークの知識をより小さなものに伝達するのに役立つモデル圧縮アルゴリズムである。 KDは、幅広い自然言語処理(NLP)アプリケーションで約束されているが、あるKDアルゴリズムが他のKDアルゴリズムと比較する方法や、これらのアプローチが互いに補完的であるかどうかについては、ほとんど分かっていない。 本研究では,様々なkdアルゴリズムをドメイン内,ドメイン外,逆テストで評価する。 複数のKDアルゴリズムの逆ロバスト性を評価するためのフレームワークを提案する。 さらに, 2 つの有望な手法(better training scheme とより効率的なデータ拡張)を活用した新しい kd アルゴリズムである combined-kd を導入する。 実験の結果,コンバインド-KDはGLUEベンチマーク,領域外一般化,対角的ロバストネスを競合手法と比較した結果を得た。

Knowledge Distillation (KD) is a model compression algorithm that helps transfer the knowledge of a large neural network into a smaller one. Even though KD has shown promise on a wide range of Natural Language Processing (NLP) applications, little is understood about how one KD algorithm compares to another and whether these approaches can be complimentary to each other. In this work, we evaluate various KD algorithms on in-domain, out-of-domain and adversarial testing. We propose a framework to assess the adversarial robustness of multiple KD algorithms. Moreover, we introduce a new KD algorithm, Combined-KD, which takes advantage of two promising approaches (better training scheme and more efficient data augmentation). Our extensive experimental results show that Combined-KD achieves state-of-the-art results on the GLUE benchmark, out-of-domain generalization, and adversarial robustness compared to competitive methods.
翻訳日:2021-09-14 15:47:28 公開日:2021-09-13
# コリファレンス情報を用いた文脈認識型ニューラルマシンのコントラスト学習

Contrastive Learning for Context-aware Neural Machine TranslationUsing Coreference Information ( http://arxiv.org/abs/2109.05712v1 )

ライセンス: Link先を確認
Yongkeun Hwang, Hyungu Yun, Kyomin Jung(参考訳) 文脈認識型ニューラルネットワーク翻訳(NMT)は、周囲のテキストの文脈情報を取り入れ、文書レベルの機械翻訳の翻訳品質を向上させる。 コンテキスト対応NMTに関する多くの既存の研究は、追加のコンテキストを組み込む新しいモデルアーキテクチャの開発に重点を置いており、いくつかの有望な結果を示している。 しかし、既存の作品の多くはクロスエントロピー損失に依存しており、文脈情報の利用は限られている。 本論文では、ソース文と文脈文のコア参照に基づく、新しいデータ拡張およびコントラスト学習方式であるCorefCLを提案する。 コンテキスト文で検出されたコア参照参照を自動的に破損させることで、CorefCLはコア参照の不整合に敏感なモデルをトレーニングすることができる。 一般的な文脈対応NMTモデルと文書レベルの2つの翻訳タスクについて実験を行った。 実験では,英語・ドイツ語・韓国語タスクの比較モデルのBLEUを一貫して改善した。 また,本手法は,英語-ドイツ語のコントラストテストスイートにおけるコア参照分解能を著しく向上することを示した。

Context-aware neural machine translation (NMT) incorporates contextual information of surrounding texts, that can improve the translation quality of document-level machine translation. Many existing works on context-aware NMT have focused on developing new model architectures for incorporating additional contexts and have shown some promising results. However, most existing works rely on cross-entropy loss, resulting in limited use of contextual information. In this paper, we propose CorefCL, a novel data augmentation and contrastive learning scheme based on coreference between the source and contextual sentences. By corrupting automatically detected coreference mentions in the contextual sentence, CorefCL can train the model to be sensitive to coreference inconsistency. We experimented with our method on common context-aware NMT models and two document-level translation tasks. In the experiments, our method consistently improved BLEU of compared models on English-German and English-Korean tasks. We also show that our method significantly improves coreference resolution in the English-German contrastive test suite.
翻訳日:2021-09-14 15:47:12 公開日:2021-09-13
# MuVER: マルチビューエンティティ表現によるファーストステージエンティティ検索の改善

MuVER: Improving First-Stage Entity Retrieval with Multi-View Entity Representations ( http://arxiv.org/abs/2109.05716v1 )

ライセンス: Link先を確認
Xinyin Ma, Yong Jiang, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei Huang, Weiming Lu(参考訳) 巨大なKBから標準エンティティへの言及を曖昧にすることを目的としたエンティティ検索は、自然言語処理における多くのタスクに不可欠である。 エンティティ検索の最近の進歩は、デュアルエンコーダ構造が、エンティティが説明によってのみ識別される場合、候補を指名するための強力で効率的なフレームワークであることを示している。 しかし、エンティティの意味が異なる文脈で異なっていて、以前の作品で等しく扱われる記述の様々な部分に関連しているという性質を無視している。 本研究では,エンティティ記述のための多視点表現を構築し,ヒューリスティック検索手法による参照の最適ビューを近似する,エンティティ検索のための新しいアプローチであるマルチビューエンティティ表現(muver)を提案する。 本手法はzeshelの最先端性能を実現し,3つの標準エンティティリンクデータセットにおける候補の質を向上させる。

Entity retrieval, which aims at disambiguating mentions to canonical entities from massive KBs, is essential for many tasks in natural language processing. Recent progress in entity retrieval shows that the dual-encoder structure is a powerful and efficient framework to nominate candidates if entities are only identified by descriptions. However, they ignore the property that meanings of entity mentions diverge in different contexts and are related to various portions of descriptions, which are treated equally in previous works. In this work, we propose Multi-View Entity Representations (MuVER), a novel approach for entity retrieval that constructs multi-view representations for entity descriptions and approximates the optimal view for mentions via a heuristic searching method. Our method achieves the state-of-the-art performance on ZESHEL and improves the quality of candidates on three standard Entity Linking datasets
翻訳日:2021-09-14 15:46:55 公開日:2021-09-13
# CPT:中国語の理解と生成のための事前訓練済みアンバランス変換器

CPT: A Pre-Trained Unbalanced Transformerfor Both Chinese Language Understanding and Generation ( http://arxiv.org/abs/2109.05729v1 )

ライセンス: Link先を確認
Yunfan Shao, Zhichao Geng, Yitao Liu, Junqi Dai, Fei Yang, Li Zhe, Hujun Bao, Xipeng Qiu(参考訳) 本稿では,従来の事前学習モデル(ptms)の利点を生かして,新しい中国予訓練不平衡変圧器(cpt)を提案する。 従来の中国のPTMとは異なり、CPTは自然言語理解(NLU)と自然言語生成(NLG)の両方のために設計されている。 cptは、共有エンコーダ、理解デコーダ、ジェネレーションデコーダの3つの部分から構成されている。 共有エンコーダを持つ2つの特定のデコーダは、それぞれマスク付き言語モデリング(MLM)と自動エンコーダ(DAE)タスクで事前訓練される。 部分共有アーキテクチャとマルチタスク事前学習により、CPTは(1)2つのデコーダでNLUまたはNLGタスクの具体的な知識を学習し、(2)モデルの可能性を完全に活用する柔軟に微調整できる。 さらに、アンバランス変換器は計算コストとストレージコストを節約し、CPTの競争力を高め、テキスト生成の推論を大幅に高速化する。 幅広い中国のNLUおよびNLGタスクの実験結果から,CPTの有効性が示された。

In this paper, we take the advantage of previous pre-trained models (PTMs) and propose a novel Chinese Pre-trained Unbalanced Transformer (CPT). Different from previous Chinese PTMs, CPT is designed for both natural language understanding (NLU) and natural language generation (NLG) tasks. CPT consists of three parts: a shared encoder, an understanding decoder, and a generation decoder. Two specific decoders with a shared encoder are pre-trained with masked language modeling (MLM) and denoising auto-encoding (DAE) tasks, respectively. With the partially shared architecture and multi-task pre-training, CPT can (1) learn specific knowledge of both NLU or NLG tasks with two decoders and (2) be fine-tuned flexibly that fully exploits the potential of the model. Moreover, the unbalanced Transformer saves the computational and storage cost, which makes CPT competitive and greatly accelerates the inference of text generation. Experimental results on a wide range of Chinese NLU and NLG tasks show the effectiveness of CPT.
翻訳日:2021-09-14 15:46:41 公開日:2021-09-13
# テキストは十分ではない:オープンドメイン対話生成に視覚印象を統合する

Text is NOT Enough: Integrating Visual Impressions intoOpen-domain Dialogue Generation ( http://arxiv.org/abs/2109.05778v1 )

ライセンス: Link先を確認
Lei Shen, Haolan Zhan, Xin Shen, Yonghao Song and Xiaofang Zhao(参考訳) 自然言語処理(nlp)におけるオープンドメイン対話生成(open-domain dialogue generation in natural language processing)は、既定の純粋言語タスクである。 本稿では,視覚インプレッション(vis)と呼ばれる隠れた画像が,テキストのみのデータから探索でき,対話理解が向上し,より優れた応答を生成することができることを指摘する。 さらに、対話投稿とその応答間の意味的依存関係は複雑で、例えば、単語のアライメントがほとんどなく、トピックの遷移もいくつかある。 したがって、それらの視覚印象は共有されておらず、ポスト視覚印象(PVI)よりも応答視覚印象(RVI)をデコーダに統合することがより合理的である。 しかしながら、応答とそのRVIは、テストプロセスで直接与えられない。 上記の問題に対処するため、純粋言語対話データセットに基づくVIを明示的に構築し、より優れた対話理解と生成に活用するフレームワークを提案する。 具体的には,事前学習した単語イメージマッピングモデルに基づいて,投稿毎に画像群(PVI)を求める。 これらのPVIは、視覚情報とテキスト情報の両方でポスト表現を得るために、コアテンションエンコーダで使用される。 RVIはテスト中に直接提供されないため、2つのサブデコーダで構成されるカスケードデコーダを設計する。 最初のサブデコーダは、応答中のコンテンツワードを予測し、単語イメージマッピングモデルを適用してそれらのRVIを取得する。 そして、第2のサブデコーダは、そのポストとRVIに基づいて応答を生成する。 2つのオープンドメイン対話データセットの実験結果は,提案手法が競合ベースラインよりも優れた性能を達成していることを示す。

Open-domain dialogue generation in natural language processing (NLP) is by default a pure-language task, which aims to satisfy human need for daily communication on open-ended topics by producing related and informative responses. In this paper, we point out that hidden images, named as visual impressions (VIs), can be explored from the text-only data to enhance dialogue understanding and help generate better responses. Besides, the semantic dependency between an dialogue post and its response is complicated, e.g., few word alignments and some topic transitions. Therefore, the visual impressions of them are not shared, and it is more reasonable to integrate the response visual impressions (RVIs) into the decoder, rather than the post visual impressions (PVIs). However, both the response and its RVIs are not given directly in the test process. To handle the above issues, we propose a framework to explicitly construct VIs based on pure-language dialogue datasets and utilize them for better dialogue understanding and generation. Specifically, we obtain a group of images (PVIs) for each post based on a pre-trained word-image mapping model. These PVIs are used in a co-attention encoder to get a post representation with both visual and textual information. Since the RVIs are not provided directly during testing, we design a cascade decoder that consists of two sub-decoders. The first sub-decoder predicts the content words in response, and applies the word-image mapping model to get those RVIs. Then, the second sub-decoder generates the response based on the post and RVIs. Experimental results on two open-domain dialogue datasets show that our proposed approach achieves superior performance over competitive baselines.
翻訳日:2021-09-14 15:46:20 公開日:2021-09-13
# Few-shot Intent 分類における事前訓練の有効性

Effectiveness of Pre-training for Few-shot Intent Classification ( http://arxiv.org/abs/2109.05782v1 )

ライセンス: Link先を確認
Haode Zhang, Yuwei Zhang, Li-Ming Zhan, Jiaxin Chen, Guangyuan Shi, Xiao-Ming Wu, Albert Y.S. Lam(参考訳) 本稿では,マイトショットインテント分類における事前学習の有効性について検討する。 既存のパラダイムでは、BERTのような大量のラベル付きコーパスで事前訓練された言語モデルが一般的であるが、公開データセットからラベル付き発話の小さなセットでBERTを単純に微調整するのは非常に効果的かつ効率的である。 具体的には、約1000のラベル付きデータを持つ微調整のBERTは、トレーニング済みモデル -- IntentBERTを生成する。 IntentBERTの高効率性は、数発のインテント検出の実現可能性と実用性を確認し、その高度な一般化能力は、インテント分類タスクが、ラベル付きデータの小さなセットから効率的に学習できる、同様の基盤構造を共有することを示唆している。 ソースコードはhttps://github.com/h dzhang-code/IntentBE RT.comにある。

This paper investigates the effectiveness of pre-training for few-shot intent classification. While existing paradigms commonly further pre-train language models such as BERT on a vast amount of unlabeled corpus, we find it highly effective and efficient to simply fine-tune BERT with a small set of labeled utterances from public datasets. Specifically, fine-tuning BERT with roughly 1,000 labeled data yields a pre-trained model -- IntentBERT, which can easily surpass the performance of existing pre-trained models for few-shot intent classification on novel domains with very different semantics. The high effectiveness of IntentBERT confirms the feasibility and practicality of few-shot intent detection, and its high generalization ability across different domains suggests that intent classification tasks may share a similar underlying structure, which can be efficiently learned from a small set of labeled data. The source code can be found at https://github.com/h dzhang-code/IntentBE RT.
翻訳日:2021-09-14 15:45:52 公開日:2021-09-13
# 仮想データ拡張 - 微調整事前訓練モデルのためのロバストで汎用的なフレームワーク

Virtual Data Augmentation: A Robust and General Framework for Fine-tuning Pre-trained Models ( http://arxiv.org/abs/2109.05793v1 )

ライセンス: Link先を確認
Kun Zhou, Wayne Xin Zhao, Sirui Wang, Fuzheng Zhang, Wei Wu and Ji-Rong Wen(参考訳) 近年の研究では、強力な事前学習言語モデル(plm)が小さな摂動や意図的な攻撃によって騙されることが示されている。 この問題を解決するために, PLMのロバスト性を改善するために, 様々なデータ拡張手法を提案する。 しかし、十分な多様性で意味論的に関係のある例を増やすことは依然として困難である。 本稿では,高精細PLMのための汎用フレームワークであるVirtual Data Augmentation(VDA)を提案する。 そこで,マスク付き言語モデルにより意味的関連性が保証され,ガウス雑音が拡張多様性を提供する。 さらに,両側面のバランスをとるための規則化トレーニング戦略を提案する。 6つのデータセットを広範囲に実験した結果,本手法はplmのロバスト性を改善し,攻撃時の性能低下を軽減できることがわかった。 私たちのコードとデータは、 \textcolor{blue}{\url{https://github.com/R UCAIBox/VDA}}で公開されています。

Recent works have shown that powerful pre-trained language models (PLM) can be fooled by small perturbations or intentional attacks. To solve this issue, various data augmentation techniques are proposed to improve the robustness of PLMs. However, it is still challenging to augment semantically relevant examples with sufficient diversity. In this work, we present Virtual Data Augmentation (VDA), a general framework for robustly fine-tuning PLMs. Based on the original token embeddings, we construct a multinomial mixture for augmenting virtual data embeddings, where a masked language model guarantees the semantic relevance and the Gaussian noise provides the augmentation diversity. Furthermore, a regularized training strategy is proposed to balance the two aspects. Extensive experiments on six datasets show that our approach is able to improve the robustness of PLMs and alleviate the performance degradation under adversarial attacks. Our codes and data are publicly available at \textcolor{blue}{\url{https://github.com/R UCAIBox/VDA}}.
翻訳日:2021-09-14 15:45:34 公開日:2021-09-13
# XLNetによる語彙制約付き文生成の改善

Show Me How To Revise: Improving Lexically Constrained Sentence Generation with XLNet ( http://arxiv.org/abs/2109.05797v1 )

ライセンス: Link先を確認
Xingwei He, Victor O.K. Li(参考訳) 語彙制約付き文生成は、語彙制約のような事前知識を出力に組み込むことができる。 この手法は機械翻訳や対話応答生成に応用されている。 以前はマルコフ・チェイン・モンテ・カルロ (MCMC) サンプリングを使用して語彙的に制約された文を生成するが、彼らはランダムに編集すべき位置と取るべき行動を決定し、多くの不当な改善をもたらした。 この課題を克服するために、我々はMCMCベースのモデルに候補文の洗練方法を指示するために分類器を使用した。 まず,事前学習したモデルを微調整して信頼性の高い分類器を得る合成データを作成する方法を開発した。 次に,制約文生成のための2段階の手法"predict and revise"を提案した。 予測段階において、我々は分類器を利用して、候補文の学習前を計算した。 修正作業では, MCMCサンプリングを用いて, 学習前から抽出したサンプル位置でサンプル動作を行うことにより, 候補文の修正を行った。 提案するモデルと2つのタスクの強いベースラインを比較し,語彙制約とテキストインフィルメントを用いた文の生成を行った。 実験結果から,提案手法は文の流布度や多様性の観点から,従来よりもはるかに優れた性能を示した。 私たちのコードと事前トレーニングされたモデルは、https://github.com/n lpcode/mcmcxlnetで利用可能です。

Lexically constrained sentence generation allows the incorporation of prior knowledge such as lexical constraints into the output. This technique has been applied to machine translation, and dialog response generation. Previous work usually used Markov Chain Monte Carlo (MCMC) sampling to generate lexically constrained sentences, but they randomly determined the position to be edited and the action to be taken, resulting in many invalid refinements. To overcome this challenge, we used a classifier to instruct the MCMC-based models where and how to refine the candidate sentences. First, we developed two methods to create synthetic data on which the pre-trained model is fine-tuned to obtain a reliable classifier. Next, we proposed a two-step approach, "Predict and Revise", for constrained sentence generation. During the predict step, we leveraged the classifier to compute the learned prior for the candidate sentence. During the revise step, we resorted to MCMC sampling to revise the candidate sentence by conducting a sampled action at a sampled position drawn from the learned prior. We compared our proposed models with many strong baselines on two tasks, generating sentences with lexical constraints and text infilling. Experimental results have demonstrated that our proposed model performs much better than the previous work in terms of sentence fluency and diversity. Our code and pre-trained models are available at https://github.com/N LPCode/MCMCXLNet.
翻訳日:2021-09-14 15:45:19 公開日:2021-09-13
# 対話型知識グラフを用いたエンドツーエンド質問応答の拡張

Expanding End-to-End Question Answering on Differentiable Knowledge Graphs with Intersection ( http://arxiv.org/abs/2109.05808v1 )

ライセンス: Link先を確認
Priyanka Sen, Amir Saffari, Armin Oliya(参考訳) 差別化可能な知識グラフを用いたエンドツーエンドの質問応答は、弱い監督のみを必要とし、解釈可能な結果を生成し、完全に差別化可能なテクニックである。 この手法のこれまでの実装(Cohen et al., 2020)は,操作後の関連性を用いて,一意質問に焦点を合わせてきた。 本稿では,2つのエンティティ間の共有要素を識別する交点演算を実装することで,多義性質問を明示的に処理するモデルを提案する。 WebQuestionsSP(69.6% から73.3%のHits@1)とComplexWebQuestions( 39.8%から48.7%のHits@1)という2つのデータセットのベースラインモデル上でのパフォーマンスが向上し、特にWebQuestionsSPでは14%以上、ComplexWebQuestionsでは19%以上向上している。

End-to-end question answering using a differentiable knowledge graph is a promising technique that requires only weak supervision, produces interpretable results, and is fully differentiable. Previous implementations of this technique (Cohen et al., 2020) have focused on single-entity questions using a relation following operation. In this paper, we propose a model that explicitly handles multiple-entity questions by implementing a new intersection operation, which identifies the shared elements between two sets of entities. We find that introducing intersection improves performance over a baseline model on two datasets, WebQuestionsSP (69.6% to 73.3% Hits@1) and ComplexWebQuestions (39.8% to 48.7% Hits@1), and in particular, improves performance on questions with multiple entities by over 14% on WebQuestionsSP and by 19% on ComplexWebQuestions.
翻訳日:2021-09-14 15:44:58 公開日:2021-09-13
# ソーシャルメディアにおける医療製品安全モニタリングのための統一シーケンス・ツー・シーケンス変換器の探索

Exploring a Unified Sequence-To-Sequence Transformer for Medical Product Safety Monitoring in Social Media ( http://arxiv.org/abs/2109.05815v1 )

ライセンス: Link先を確認
Shivam Raval, Hooman Sedghamiz, Enrico Santus, Tuka Alhanai, Mohammad Ghassemi, Emmanuele Chersoni(参考訳) 逆イベント(英: adverse Events、AE)は、医療製品の使用による有害事象である。 ソーシャルメディアは早期のAE検出には不可欠かもしれないが、このデータの重大さにより、NLPが唯一の低コストでスケーラブルな代替手段でありながら、人間のエージェントを使って分析しやすくなっている。 本稿では,T5モデルアーキテクチャを用いたシーケンス・ツー・シーケンス問題としてAE検出と抽出を行い,AE検出の相対的改善(F1 = 0.71, 12.7%,Strict F1 = 0.713, 12.4%,AE抽出の相対的改善)をイングランドのベンチマークで行った。 ae関連のタスク、aeベンチマークのクラス不均衡、ソーシャルメディア投稿の典型的な言語的および構造的多様性の強い共通性に動機づけられ、タスクとデータセットの特徴を同時に考慮したマルチタスクトレーニングのための新しい戦略を提案する。 私たちのマルチタスクアプローチはモデルの堅牢性を高め、さらなるパフォーマンス向上につながります。 最後に,本フレームワークは,フランス語データのゼロショット学習において,多言語BERTよりも高い性能を示す。

Adverse Events (AE) are harmful events resulting from the use of medical products. Although social media may be crucial for early AE detection, the sheer scale of this data makes it logistically intractable to analyze using human agents, with NLP representing the only low-cost and scalable alternative. In this paper, we frame AE Detection and Extraction as a sequence-to-sequence problem using the T5 model architecture and achieve strong performance improvements over competitive baselines on several English benchmarks (F1 = 0.71, 12.7% relative improvement for AE Detection; Strict F1 = 0.713, 12.4% relative improvement for AE Extraction). Motivated by the strong commonalities between AE-related tasks, the class imbalance in AE benchmarks and the linguistic and structural variety typical of social media posts, we propose a new strategy for multi-task training that accounts, at the same time, for task and dataset characteristics. Our multi-task approach increases model robustness, leading to further performance gains. Finally, our framework shows some language transfer capabilities, obtaining higher performance than Multilingual BERT in zero-shot learning on French data.
翻訳日:2021-09-14 15:44:40 公開日:2021-09-13
# 識別可能な知識グラフを用いたエンドツーエンドのエンティティ解決と質問応答

End-to-End Entity Resolution and Question Answering Using Differentiable Knowledge Graphs ( http://arxiv.org/abs/2109.05817v1 )

ライセンス: Link先を確認
Armin Oliya, Amir Saffari, Priyanka Sen, Tom Ayoola(参考訳) 近年、知識グラフ(KGQA)に対する質問応答のためのエンドツーエンド(E2E)トレーニングモデルが、弱い教師付きデータセットのみを使用して有望な結果を提供している。 しかし、これらのモデルは、e2e学習の範囲外にエンティティ解決(er)の重要かつ非自明なタスクを残して、手書きの質問エンティティがモデルに供給される環境で訓練され、評価される。 本研究では,KGQAにおけるE2E学習の境界をERコンポーネントのトレーニングを含むように拡張する。 私たちのモデルは、トレーニングする質問テキストと回答エンティティのみを必要とし、実行中に追加のERコンポーネントを供給する必要のないスタンドアロンのQAモデルを提供します。 我々のアプローチは、最近の微分可能なkgs(cohen et al., 2020)構築方法に依存するため、完全に微分可能である。 E2Eトレーニングモデルを2つの公開データセット上で評価し、手書きのエンティティを使用するベースラインモデルに近いことを示す。

Recently, end-to-end (E2E) trained models for question answering over knowledge graphs (KGQA) have delivered promising results using only a weakly supervised dataset. However, these models are trained and evaluated in a setting where hand-annotated question entities are supplied to the model, leaving the important and non-trivial task of entity resolution (ER) outside the scope of E2E learning. In this work, we extend the boundaries of E2E learning for KGQA to include the training of an ER component. Our model only needs the question text and the answer entities to train, and delivers a stand-alone QA model that does not require an additional ER component to be supplied during runtime. Our approach is fully differentiable, thanks to its reliance on a recent method for building differentiable KGs (Cohen et al., 2020). We evaluate our E2E trained model on two public datasets and show that it comes close to baseline models that use hand-annotated entities.
翻訳日:2021-09-14 15:44:18 公開日:2021-09-13
# 壁はいつ、室はいつ? --語彙選択を規定する規則の抽出

When is Wall a Pared and when a Muro? -- Extracting Rules Governing Lexical Selection ( http://arxiv.org/abs/2109.06014v1 )

ライセンス: Link先を確認
Aditi Chaudhary, Kayo Yin, Antonios Anastasopoulos, Graham Neubig(参考訳) 語彙項目のきめ細かい区別を学ぶことは、新しい言語を学ぶ上で重要な課題である。 例えば、名詞 "wall" はスペイン語で異なる語彙的表現を持ち、"pared" は屋内の壁、"mouro" は外側の壁を指す。 しかし、この種の語彙的区別は、その区別がそのような方法で説明されない限り、非ネイティブ学習者には明らかでないかもしれない。 本稿では,きめ細かな語彙の区別を自動的に識別する手法を提案し,これらの区別を説明する簡潔な記述を人間と機械で読みやすい形式で抽出する。 スペイン語とギリシャ語という2つの言語の言語学習環境において、これらの抽出された記述の品質を確認し、与えられた曖昧な単語を異なる可能な翻訳に翻訳するときに、非母語話者に教える。 コードとデータはここで公開されている(https://github.com/ Aditi138/LexSelectio n)。

Learning fine-grained distinctions between vocabulary items is a key challenge in learning a new language. For example, the noun "wall" has different lexical manifestations in Spanish -- "pared" refers to an indoor wall while "muro" refers to an outside wall. However, this variety of lexical distinction may not be obvious to non-native learners unless the distinction is explained in such a way. In this work, we present a method for automatically identifying fine-grained lexical distinctions, and extracting concise descriptions explaining these distinctions in a human- and machine-readable format. We confirm the quality of these extracted descriptions in a language learning setup for two languages, Spanish and Greek, where we use them to teach non-native speakers when to translate a given ambiguous word into its different possible translations. Code and data are publicly released here (https://github.com/ Aditi138/LexSelectio n)
翻訳日:2021-09-14 15:44:02 公開日:2021-09-13
# スロット充填問題としての交通イベント検出

Traffic Event Detection as a Slot Filling Problem ( http://arxiv.org/abs/2109.06035v1 )

ライセンス: Link先を確認
Xiangyu Yang, Giannis Bekoulis, Nikos Deligiannis(参考訳) 本稿では、ベルギーとブリュッセルの首都圏の2つの(構築された)トラフィック関連データセットを一般に公開することにより、twitterストリームからきめ細かいトラフィック情報を抽出する新しい問題を紹介する。 特に、いくつかのモデルを実験して、 (i)あるツイートが交通にかかわるか否か、 (ii)ツイートがトラフィック関連である場合には、イベントに関するより詳細な情報(例えば、イベントのタイプ、イベントが発生した場所)を特定する。 そのために私たちは (i)ツイートがトラフィック関連イベントであるか否かをテキスト分類サブタスクとして識別する問題、及び (ii)よりきめ細かい交通関連情報をスロット充填サブタスクとして識別する問題は、ある特定のタイプのスロット/エンティティとして、きめ細かい情報(例えば、イベントが発生した場所)が表現される。 本稿では,2つのサブタスクを別々に,あるいは共同で処理するいくつかの手法を提案するとともに,交通事象検出問題に対する提案手法の有効性を評価する。 実験結果から,提案するアーキテクチャは,トランスファー学習シナリオにおいても,構築した2つのサブタスク(テキスト分類とスロット充填)のデータセットにおいて,高いパフォーマンススコア(すなわち,f$_{1}$スコアで95%以上)を達成することが示された。 さらに、つぶやきレベルの情報を(BERTベースのモデルのために)ツイートを構成するトークンに組み込むことで、共同設定のパフォーマンスが向上する。

In this paper, we introduce the new problem of extracting fine-grained traffic information from Twitter streams by also making publicly available the two (constructed) traffic-related datasets from Belgium and the Brussels capital region. In particular, we experiment with several models to identify (i) whether a tweet is traffic-related or not, and (ii) in the case that the tweet is traffic-related to identify more fine-grained information regarding the event (e.g., the type of the event, where the event happened). To do so, we frame (i) the problem of identifying whether a tweet is a traffic-related event or not as a text classification subtask, and (ii) the problem of identifying more fine-grained traffic-related information as a slot filling subtask, where fine-grained information (e.g., where an event has happened) is represented as a slot/entity of a particular type. We propose the use of several methods that process the two subtasks either separately or in a joint setting, and we evaluate the effectiveness of the proposed methods for solving the traffic event detection problem. Experimental results indicate that the proposed architectures achieve high performance scores (i.e., more than 95% in terms of F$_{1}$ score) on the constructed datasets for both of the subtasks (i.e., text classification and slot filling) even in a transfer learning scenario. In addition, by incorporating tweet-level information in each of the tokens comprising the tweet (for the BERT-based model) can lead to a performance improvement for the joint setting.
翻訳日:2021-09-14 15:43:48 公開日:2021-09-13
# Document-LevelSemant ic Graphによる抽象要約の強化

Augmented Abstractive Summarization With Document-LevelSemant ic Graph ( http://arxiv.org/abs/2109.06046v1 )

ライセンス: Link先を確認
Qiwei Bi, Haoyuan Li, Kun Lu, Hanfang Yang(参考訳) 従来の抽象的手法では、文書内の重要な言及や関係を検出するために、モジュールなしで要約を生成するためにシーケンス・ツー・シーケンス構造を適用していた。 この問題に対処するために,セマンティックグラフを用いて生成性能を向上する。 まず、各文書から重要な実体を抽出し、遠方の監督の考え方に触発されたグラフを作成する。 次に、Bi-LSTMとグラフエンコーダを組み合わせて各グラフノードの表現を得る。 このようなエンティティグラフの情報を活用するために、新しいニューラルデコーダが提示される。 自動評価と人間評価は,本手法の有効性を示す。

Previous abstractive methods apply sequence-to-sequence structures to generate summary without a module to assist the system to detect vital mentions and relationships within a document. To address this problem, we utilize semantic graph to boost the generation performance. Firstly, we extract important entities from each document and then establish a graph inspired by the idea of distant supervision \citep{mintz-etal-2009-dist ant}. Then, we combine a Bi-LSTM with a graph encoder to obtain the representation of each graph node. A novel neural decoder is presented to leverage the information of such entity graphs. Automatic and human evaluations show the effectiveness of our technique.
翻訳日:2021-09-14 15:43:25 公開日:2021-09-13
# Pack Together: Levitated Markerによるエンティティとリレーション抽出

Pack Together: Entity and Relation Extraction with Levitated Marker ( http://arxiv.org/abs/2109.06067v1 )

ライセンス: Link先を確認
Deming Ye, Yankai Lin, Maosong Sun(参考訳) 名前付きエンティティ認識(ner)と関係抽出(re)は、情報抽出のコアサブタスクである。 最近の多くの研究は、これらの2つのタスクをスパン(ペア)分類問題として定式化し、事前訓練されたエンコーダからより良いスパン表現を得る方法の研究に焦点をあてている。 しかしながら、既存の作業の大きな制限は、スパン(pair)間の依存関係を無視することです。 本研究では,エンコーダ内のマーカを戦略的にパッキングすることでスパン(パイア)間の依存関係を検討するため,packed levitated markersという新しいスパン表現手法を提案する。 特に,モデルが大規模スパンを一緒に処理して,リソースに制限のある依存関係を検討するグループパッキング戦略を提案する。 さらに、より複雑なスパンペア分類タスクに対して、各サブジェクトとそのすべてのオブジェクトをインスタンスにパックし、同一サブジェクションスパンペア間の依存関係をモデル化する、サブジェクト指向のパッキング戦略を設計する。 実験の結果,3つの平坦なNERタスクにおいて,<sup>0</sup>-1.9%F1のシーケンスラベルモデルよりも高い性能を示し,従来のACE04およびACE05のSOTAモデルよりも高速な3.5%-3.6%の厳密な相関F1の改善が得られた。 コードとモデルはhttps://github.com/t hunlp/pl-markerで公開されている。

Named Entity Recognition (NER) and Relation Extraction (RE) are the core sub-tasks for information extraction. Many recent works formulate these two tasks as the span (pair) classification problem, and thus focus on investigating how to obtain a better span representation from the pre-trained encoder. However, a major limitation of existing works is that they ignore the dependencies between spans (pairs). In this work, we propose a novel span representation approach, named Packed Levitated Markers, to consider the dependencies between the spans (pairs) by strategically packing the markers in the encoder. In particular, we propose a group packing strategy to enable our model to process massive spans together to consider their dependencies with limited resources. Furthermore, for those more complicated span pair classification tasks, we design a subject-oriented packing strategy, which packs each subject and all its objects into an instance to model the dependencies between the same-subject span pairs. Our experiments show that our model with packed levitated markers outperforms the sequence labeling model by 0.4%-1.9% F1 on three flat NER tasks, beats the token concat model on six NER benchmarks, and obtains a 3.5%-3.6% strict relation F1 improvement with higher speed over previous SOTA models on ACE04 and ACE05. Code and models are publicly available at https://github.com/t hunlp/PL-Marker.
翻訳日:2021-09-14 15:43:15 公開日:2021-09-13
# クレオールの言語モデルについて

On Language Models for Creoles ( http://arxiv.org/abs/2109.06074v1 )

ライセンス: Link先を確認
Heather Lent, Emanuele Bugliarello, Miryam de Lhoneux, Chen Qiu and Anders S{\o}gaard(参考訳) ナイジェリアのピジン・イングリッシュやハイチのクレオールといったクレオール語は、NLPの文献でほとんど無視されている。 クレオール語は通常、外国語と複数の地方言語が融合し、文法的特徴や語彙的特徴がクレオール語に移される過程は複雑なプロセスである。 クレオールは一般的に安定しているが、一部の特徴は特定の人口層や言語状況においてはるかに強い可能性がある。 本稿では,ハイチ・クレオール,ナイジェリア・ピジン・イングリッシュ,シンガポール・コロキール・イングリッシュの既存のコーパスとリリースモデルを収集する。 我々はこれらのモデルを内在的タスクと外在的タスクで評価する。 上記の文献に動機づけられて,標準言語モデルと分布的ロバスト言語モデルを比較し,やや意外なことに,標準言語モデルの方が分布的ロバスト言語モデルよりも優れていることを見出した。 過パラメータ化の影響か, 相対分布安定性かを調査し, 過パラメータ化がなければ差は持続し, ドリフトは限定され, クレオール言語の相対安定性が確認された。

Creole languages such as Nigerian Pidgin English and Haitian Creole are under-resourced and largely ignored in the NLP literature. Creoles typically result from the fusion of a foreign language with multiple local languages, and what grammatical and lexical features are transferred to the creole is a complex process. While creoles are generally stable, the prominence of some features may be much stronger with certain demographics or in some linguistic situations. This paper makes several contributions: We collect existing corpora and release models for Haitian Creole, Nigerian Pidgin English, and Singaporean Colloquial English. We evaluate these models on intrinsic and extrinsic tasks. Motivated by the above literature, we compare standard language models with distributionally robust ones and find that, somewhat surprisingly, the standard language models are superior to the distributionally robust ones. We investigate whether this is an effect of over-parameterizatio n or relative distributional stability, and find that the difference persists in the absence of over-parameterizatio n, and that drift is limited, confirming the relative stability of creole languages.
翻訳日:2021-09-14 15:42:42 公開日:2021-09-13
# xGQA: 言語横断のビジュアル質問回答

xGQA: Cross-Lingual Visual Question Answering ( http://arxiv.org/abs/2109.06082v1 )

ライセンス: Link先を確認
Jonas Pfeiffer and Gregor Geigle and Aishwarya Kamath and Jan-Martin O. Steitz and Stefan Roth and Ivan Vuli\'c and Iryna Gurevych(参考訳) マルチモーダル・ビジョンと言語モデリングの最近の進歩は、主に英語に焦点を当てている。 本研究では,このギャップに対処し,視覚的質問応答タスクのための新しい多言語評価ベンチマークであるxGQAを提供する。 確立された英語GQAデータセットを7言語に拡張し,言語間視覚質問応答における重要な課題を検出し,探索する。 さらに,マルチモーダルトランスフォーマティブをマルチリンガル化するためのアダプタベースアプローチを提案し,マルチリンガルトランスフォーマティブをマルチモーダル化するためのマルチリンガルモデルを提案する。 提案手法は,現状の多言語マルチモーダルモデル(例えば,M3P)をゼロショット・クロスランガル・セッティングで上回るが,精度は依然として低く,目標言語における約38の精度ポイントの性能低下は,ゼロショット・クロスランガル・トランスファーの難しさを示している。 以上の結果から,マルチモーダルモデルの単純なクロスリンガル変換は潜在的なマルチリンガル・マルチモーダル・ミスアレーメントを生じさせ,視覚と多言語言語モデリングのより洗練された手法を求める。 xGQAデータセットは、https://github.com/A dapter-Hub/xGQA.comで公開されている。

Recent advances in multimodal vision and language modeling have predominantly focused on the English language, mostly due to the lack of multilingual multimodal datasets to steer modeling efforts. In this work, we address this gap and provide xGQA, a new multilingual evaluation benchmark for the visual question answering task. We extend the established English GQA dataset to 7 typologically diverse languages, enabling us to detect and explore crucial challenges in cross-lingual visual question answering. We further propose new adapter-based approaches to adapt multimodal transformer-based models to become multilingual, and -- vice versa -- multilingual models to become multimodal. Our proposed methods outperform current state-of-the-art multilingual multimodal models (e.g., M3P) in zero-shot cross-lingual settings, but the accuracy remains low across the board; a performance drop of around 38 accuracy points in target languages showcases the difficulty of zero-shot cross-lingual transfer for this task. Our results suggest that simple cross-lingual transfer of multimodal models yields latent multilingual multimodal misalignment, calling for more sophisticated methods for vision and multilingual language modeling. The xGQA dataset is available online at: https://github.com/A dapter-Hub/xGQA.
翻訳日:2021-09-14 15:42:21 公開日:2021-09-13
# 中間的質問分解からデータベースクエリをスパルサーする

SPARQLing Database Queries from Intermediate Question Decompositions ( http://arxiv.org/abs/2109.06162v1 )

ライセンス: Link先を確認
Irina Saparina, Anton Osokin(参考訳) 自然言語質問を実行可能なデータベースクエリに変換するために、ほとんどのアプローチは、完全にアノテートされたトレーニングセットに依存している。 大きなデータセットをクエリでアノテートするのは、クエリ言語の専門知識を必要とするため難しい。 この負担をデータベースの中間的質問表現に接することで軽減する。 これらの表現は収集が簡単で、もともとはBreakデータセット(Wolfson et al., 2020)にクラウドソースされていた。 我々のパイプラインは、自然言語質問を中間表現に変換するニューラルネットワークセマンティックパーザと、SPARQLクエリ言語(知識グラフとセマンティックWebにアクセスするための標準言語)に変換する非トレーニング可能なトランスパイラの2つの部分で構成されています。 クエリが中間表現(SQLと比較して)に構造的に近いため、SPARQLを選択しました。 我々は,本モデルで構築したスパイダーデータセット上でのクエリの実行精度が,注釈付きSQLクエリでトレーニングした最先端のテキスト-SQLメソッドに匹敵することを示した。 コードとデータは公開されている(https://github.com/ yandex-research/spar qling-queries参照)。

To translate natural language questions into executable database queries, most approaches rely on a fully annotated training set. Annotating a large dataset with queries is difficult as it requires query-language expertise. We reduce this burden using grounded in databases intermediate question representations. These representations are simpler to collect and were originally crowdsourced within the Break dataset (Wolfson et al., 2020). Our pipeline consists of two parts: a neural semantic parser that converts natural language questions into the intermediate representations and a non-trainable transpiler to the SPARQL query language (a standard language for accessing knowledge graphs and semantic web). We chose SPARQL because its queries are structurally closer to our intermediate representations (compared to SQL). We observe that the execution accuracy of queries constructed by our model on the challenging Spider dataset is comparable with the state-of-the-art text-to-SQL methods trained with annotated SQL queries. Our code and data are publicly available (see https://github.com/y andex-research/sparq ling-queries).
翻訳日:2021-09-14 15:41:56 公開日:2021-09-13
# 歩行者属性認識のための空間的・意味的一貫性規則化

Spatial and Semantic Consistency Regularizations for Pedestrian Attribute Recognition ( http://arxiv.org/abs/2109.05686v1 )

ライセンス: Link先を確認
Jian Jia and Xiaotang Chen and Kaiqi Huang(参考訳) 近年の歩行者属性認識研究では,複雑なネットワークや注意機構の活用が著しく進んでいるが,そのほとんどは画像間の関係や,監視シナリオにおける属性の空間的一貫性と意味的一貫性を無視している。 同じ属性の空間的位置は、異なる歩行者画像の間で一貫性を持たなければならない。\e, ``hat" 属性と ``boots" 属性は、それぞれ画像の上部と下部に置かれる。 さらに、`hat"属性の固有の意味的特徴は、野球帽、ベレー帽、ヘルメットであっても一貫性があるべきである。 画像間関係を十分に活用し,モデル学習プロセスに先立って人間を集約するために,各属性の空間的・意味的一貫性を実現するために,2つの補完的正規化からなる空間的・意味的一貫性(ssc)フレームワークを構築する。 具体的には,まず,信頼性と安定した属性関連領域に着目した空間的一貫性の正規化を提案する。 属性の正確な位置に基づいて、本質的および識別的意味的特徴を抽出する意味的整合性正規化を提案する。 PA100K, RAP, PETAなど, 人気のあるベンチマークについて広範な実験を行った。 その結果,提案手法はパラメータを増加させることなく,最先端手法に対して好適に動作することがわかった。

While recent studies on pedestrian attribute recognition have shown remarkable progress in leveraging complicated networks and attention mechanisms, most of them neglect the inter-image relations and an important prior: spatial consistency and semantic consistency of attributes under surveillance scenarios. The spatial locations of the same attribute should be consistent between different pedestrian images, \eg, the ``hat" attribute and the ``boots" attribute are always located at the top and bottom of the picture respectively. In addition, the inherent semantic feature of the ``hat" attribute should be consistent, whether it is a baseball cap, beret, or helmet. To fully exploit inter-image relations and aggregate human prior in the model learning process, we construct a Spatial and Semantic Consistency (SSC) framework that consists of two complementary regularizations to achieve spatial and semantic consistency for each attribute. Specifically, we first propose a spatial consistency regularization to focus on reliable and stable attribute-related regions. Based on the precise attribute locations, we further propose a semantic consistency regularization to extract intrinsic and discriminative semantic features. We conduct extensive experiments on popular benchmarks including PA100K, RAP, and PETA. Results show that the proposed method performs favorably against state-of-the-art methods without increasing parameters.
翻訳日:2021-09-14 15:37:29 公開日:2021-09-13
# pat: 悪意のあるビデオを検出するための疑似adversarial training

PAT: Pseudo-Adversarial Training For Detecting Adversarial Videos ( http://arxiv.org/abs/2109.05695v1 )

ライセンス: Link先を確認
Nupur Thakur, Baoxin Li(参考訳) 広範囲にわたる研究により、ディープニューラルネットワーク(DNN)は敵の攻撃を受けやすいことが示されている。 画像分類ネットワークには様々な防御機構が提案されているが、監視のようなセキュリティに敏感なアプリケーションで使用されるビデオベースモデルに対するアプローチは少ない。 本稿では,攻撃の知識を必要とせず,ビデオ中の敵フレームを検出するアルゴリズムであるpseudo-adversarial training(pat)を提案する。 提案手法は,元のフレームから重要なずれを捉え,検出作業に欠くコンポーネントを除去する「遷移フレーム」を生成する。 攻撃モデルを知る必要性を避けるため,検出ネットワークを訓練するために「pseudo摂動」を作成する。 そして、検出されたフレームを用いて、逆検出を行う。 UCF-101および20BN-Jesterデータセットによる実験結果から、PATは高い検出率で対向的なビデオフレームやビデオを検出することができることがわかった。 また,広範な実験を通じて,遷移フレームと擬似摂動の有効性の潜在的理由を明らかにする。

Extensive research has demonstrated that deep neural networks (DNNs) are prone to adversarial attacks. Although various defense mechanisms have been proposed for image classification networks, fewer approaches exist for video-based models that are used in security-sensitive applications like surveillance. In this paper, we propose a novel yet simple algorithm called Pseudo-Adversarial Training (PAT), to detect the adversarial frames in a video without requiring knowledge of the attack. Our approach generates `transition frames' that capture critical deviation from the original frames and eliminate the components insignificant to the detection task. To avoid the necessity of knowing the attack model, we produce `pseudo perturbations' to train our detection network. Adversarial detection is then achieved through the use of the detected frames. Experimental results on UCF-101 and 20BN-Jester datasets show that PAT can detect the adversarial video frames and videos with a high detection rate. We also unveil the potential reasons for the effectiveness of the transition frames and pseudo perturbations through extensive experiments.
翻訳日:2021-09-14 15:37:09 公開日:2021-09-13
# CarNet: 高品質道路き裂検出のための軽量かつ効率的なエンコーダデコーダアーキテクチャ

CarNet: A Lightweight and Efficient Encoder-Decoder Architecture for High-quality Road Crack Detection ( http://arxiv.org/abs/2109.05707v1 )

ライセンス: Link先を確認
Kai Li, Yingjie Tian, and Zhiquan Qi(参考訳) レンズ回りのき裂検出は、連続性が悪く、ひび割れのコントラストが低いため難しい課題である。 既存のフレームワークは通常、高い精度と低い推論効率をもたらす複雑なモデルを採用している。 本稿では,高速かつ高品質な亀裂検出のための軽量エンコーダデコーダアーキテクチャであるCarNetを提案する。 この目的のために、まず、理想エンコーダは、異なる段階における畳み込み層数に関するオリーブ型分布を提示すべきである。 具体的には、エンコーダのネットワークステージが深まるにつれて、モデル入力が初期ネットワークステージで圧縮された後、畳み込み層の数は下向きの傾向を示す。 一方、デコーダでは、クラック検出のためのリッチな階層的特徴を学習するための軽量なアップサンプリング機能ピラミッドモジュールを導入する。 特に、最後の3つのネットワークステージの機能マップを同じチャネルに圧縮し、異なる倍数でアップサンプリングして、情報融合のために同じ解像度にリサイズします。 最後に、Sun520、Rain365、BJN260、Crack360という4つのパブリックデータベースに関する広範な実験は、我々のCarNetが既存の最先端手法よりも推論効率とテスト精度の良好なトレードオフを得ることを示した。

Pixel-wise crack detection is a challenging task because of poor continuity and low contrast in cracks. The existing frameworks usually employ complex models leading to good accuracy and yet low inference efficiency. In this paper, we present a lightweight encoder-decoder architecture, CarNet, for efficient and high-quality crack detection. To this end, we first propose that the ideal encoder should present an olive-type distribution about the number of convolutional layers at different stages. Specifically, as the network stages deepen in the encoder, the number of convolutional layers shows a downward trend after the model input is compressed in the initial network stage. Meanwhile, in the decoder, we introduce a lightweight up-sampling feature pyramid module to learn rich hierarchical features for crack detection. In particular, we compress the feature maps of the last three network stages to the same channels and then employ up-sampling with different multiples to resize them to the same resolutions for information fusion. Finally, extensive experiments on four public databases, i.e., Sun520, Rain365, BJN260, and Crack360, demonstrate that our CarNet gains a good trade-off between inference efficiency and test accuracy over the existing state-of-the-art methods.
翻訳日:2021-09-14 15:36:52 公開日:2021-09-13
# ADNet: 顔アライメントにおける正常方向に向けたエラーバイアスの活用

ADNet: Leveraging Error-Bias Towards Normal Direction in Face Alignment ( http://arxiv.org/abs/2109.05721v1 )

ライセンス: Link先を確認
Yangyu Huang, Hao Yang, Chong Li, Jongyoo Kim, Fangyun Wei(参考訳) CNNの最近の進歩は、顔アライメントのパフォーマンスを劇的に改善した。 しかし、顔のランドマークの誤差分布に関して、誤りバイアスに注意を払っている作品はほとんどない。 本稿では,ランドマーク誤差の分布が接線に沿って,ランドマーク曲線に拡がる傾向がある面アライメントにおける誤差バイアス問題について検討する。 このエラーバイアスはあいまいなランドマークラベリングタスクと密接な関係があるため、自明ではない。 この観測から着想を得た我々は,CNNモデルのより良い収束のためにエラーバイアス特性を活用する方法を模索する。 この目的のために, 座標と熱マップの回帰のための異方性方向損失 (ADL) と異方性注意モジュール (AAM) を提案する。 adlは顔境界のランドマークポイントごとに通常の方向に強い結合力を課している。 一方、AAMは、点の領域とその隣接点で連結された局所エッジに焦点をあてた異方性アテンションマスクを得られるアテンションモジュールであり、接点の応答は通常のものよりも強く、接点の制約は緩和される。 これらの2つの手法は、顔の構造とテクスチャの詳細を相補的に学習する。 最後に、adnetと呼ばれる最適化されたエンドツーエンドのトレーニングパイプラインに統合します。 我々のADNetは300W、WFLW、COFWのデータセットで最先端の結果を達成し、その有効性と堅牢性を示す。

The recent progress of CNN has dramatically improved face alignment performance. However, few works have paid attention to the error-bias with respect to error distribution of facial landmarks. In this paper, we investigate the error-bias issue in face alignment, where the distributions of landmark errors tend to spread along the tangent line to landmark curves. This error-bias is not trivial since it is closely connected to the ambiguous landmark labeling task. Inspired by this observation, we seek a way to leverage the error-bias property for better convergence of CNN model. To this end, we propose anisotropic direction loss (ADL) and anisotropic attention module (AAM) for coordinate and heatmap regression, respectively. ADL imposes strong binding force in normal direction for each landmark point on facial boundaries. On the other hand, AAM is an attention module which can get anisotropic attention mask focusing on the region of point and its local edge connected by adjacent points, it has a stronger response in tangent than in normal, which means relaxed constraints in the tangent. These two methods work in a complementary manner to learn both facial structures and texture details. Finally, we integrate them into an optimized end-to-end training pipeline named ADNet. Our ADNet achieves state-of-the-art results on 300W, WFLW and COFW datasets, which demonstrates the effectiveness and robustness.
翻訳日:2021-09-14 15:36:29 公開日:2021-09-13
# 重なり合うケト増強による高重み付き低位テンソル列車による高効率テンソル完了

Efficient Tensor Completion via Element-wise Weighted Low-rank Tensor Train with Overlapping Ket Augmentation ( http://arxiv.org/abs/2109.05736v1 )

ライセンス: Link先を確認
Yang Zhang, Yao Wang, Zhi Han, Xi'ai Chen, Yandong Tang(参考訳) 近年,高次テンソルデータを扱う効率と有効性から,テンソルトレイン(TT)フォーマットに基づくテンソル補完の応用が増えている。 しかし、TT分解を用いた既存のテンソル補完法には2つの明らかな欠点がある。 一つは、モードバランスの程度に応じてのみモード重みを考慮することであるが、いくつかの要素はアンバランスモードにおいてより良く復元される。 もうひとつは、欠落している要素の割合が比較的大きいと深刻なブロッキングアーティファクトが現れます。 この2つの問題を解決するため,本研究では,要素重み付け手法による新しいテンソル補完手法を提案する。 そこで, 並列重み付き行列因子分解によるテンソル補完(twmac-tt)と呼ばれる, テンソル補完のための新しい定式化法と効率的な最適化アルゴリズムを提案する。 さらに,隣接ブロックからのエッジ要素の回復性についても検討する。 従来のリフォームやケタ増設とは違って,オーバーラップケタ増設と呼ばれる新しいテンソル増設技術を用いることで,アーティファクトのブロックをさらに回避できる。 次に、合成データと複数の実画像データセットに対して広範な性能評価を行う。 実験の結果,提案アルゴリズムは,他の競合するテンソル補完法よりも優れていることがわかった。

In recent years, there have been an increasing number of applications of tensor completion based on the tensor train (TT) format because of its efficiency and effectiveness in dealing with higher-order tensor data. However, existing tensor completion methods using TT decomposition have two obvious drawbacks. One is that they only consider mode weights according to the degree of mode balance, even though some elements are recovered better in an unbalanced mode. The other is that serious blocking artifacts appear when the missing element rate is relatively large. To remedy such two issues, in this work, we propose a novel tensor completion approach via the element-wise weighted technique. Accordingly, a novel formulation for tensor completion and an efficient optimization algorithm, called as tensor completion by parallel weighted matrix factorization via tensor train (TWMac-TT), is proposed. In addition, we specifically consider the recovery quality of edge elements from adjacent blocks. Different from traditional reshaping and ket augmentation, we utilize a new tensor augmentation technique called overlapping ket augmentation, which can further avoid blocking artifacts. We then conduct extensive performance evaluations on synthetic data and several real image data sets. Our experimental results demonstrate that the proposed algorithm TWMac-TT outperforms several other competing tensor completion methods.
翻訳日:2021-09-14 15:36:05 公開日:2021-09-13
# Meta Navigator: ショット学習のための優れた適応ポリシーの探索

Meta Navigator: Search for a Good Adaptation Policy for Few-shot Learning ( http://arxiv.org/abs/2109.05749v1 )

ライセンス: Link先を確認
Chi Zhang, Henghui Ding, Guosheng Lin, Ruibo Li, Changhu Wang, Chunhua Shen(参考訳) 数少ない学習の目的は、以前のタスクから学んだ知識を、限られた量のラベル付きデータで新しいタスクに適応させることだ。 少数ショット学習に関する研究文献は、大きな多様性を示し、異なるアルゴリズムは、しばしば異なる少数ショット学習シナリオで優れている。 したがって、異なるタスク条件下で使用する学習戦略を決定するのは難しい。 本稿では,機械学習文学(Automated Machine Learning Literature, AutoML)の成功に触発されたメタナビゲータを提案する。 本研究の目的は,ネットワークの異なる段階に適用されたパラメータ適応ポリシーを,数発の分類のために探索することである。 本稿では,文学における多用な数ショット学習アルゴリズムを網羅する探索空間を提案し,勾配に基づく最適化をサポートするメタラーニングに基づく識別可能な探索・復号アルゴリズムを開発した。 複数のベンチマークデータセットに対する検索手法の有効性を示す。 広範な実験により、我々のアプローチはベースラインを著しく上回り、多くの最先端メソッドよりもパフォーマンスの利点が示されている。 コードとモデルは公開される予定だ。

Few-shot learning aims to adapt knowledge learned from previous tasks to novel tasks with only a limited amount of labeled data. Research literature on few-shot learning exhibits great diversity, while different algorithms often excel at different few-shot learning scenarios. It is therefore tricky to decide which learning strategies to use under different task conditions. Inspired by the recent success in Automated Machine Learning literature (AutoML), in this paper, we present Meta Navigator, a framework that attempts to solve the aforementioned limitation in few-shot learning by seeking a higher-level strategy and proffer to automate the selection from various few-shot learning designs. The goal of our work is to search for good parameter adaptation policies that are applied to different stages in the network for few-shot classification. We present a search space that covers many popular few-shot learning algorithms in the literature and develop a differentiable searching and decoding algorithm based on meta-learning that supports gradient-based optimization. We demonstrate the effectiveness of our searching-based method on multiple benchmark datasets. Extensive experiments show that our approach significantly outperforms baselines and demonstrates performance advantages over many state-of-the-art methods. Code and models will be made publicly available.
翻訳日:2021-09-14 15:35:38 公開日:2021-09-13
# 効率的な高分解能画像調和のための空間分離曲線レンダリングネットワーク

Spatial-Separated Curve Rendering Network for Efficient and High-Resolution Image Harmonization ( http://arxiv.org/abs/2109.05750v1 )

ライセンス: Link先を確認
Jingtang Liang, Xiaodong Cun and Chi-Man Pun(参考訳) イメージ調和は、特定の背景に関して合成領域の色を変更することを目的としている。 以前の作業では、このタスクをUNetファミリー構造を用いたピクセル単位の画像-画像変換としてモデル化していた。 しかし、モデルのサイズと計算コストは、エッジデバイスや高解像度画像でのモデルの実行性を制限する。 そこで本研究では,空間分離型曲線描画ネットワーク(S2CRNet)を提案する。 S$^2$CRNetでは、まず、マスクされた前景と背景のサムネイルから空間分離された埋め込みを個別に抽出する。 そこで我々は,前景領域の画素単位の曲線マッピングのパラメータを生成するために,線形層を用いて空間固有知識を学習・結合する曲線描画モジュール(CRM)を設計する。 最後に、学習した色曲線を用いて、元の高解像度画像を直接レンダリングする。 さらに、我々はCascaded-CRMとSemantic-CRMを通じて提案されたフレームワークの2つの拡張も行います。 実験により,従来手法と比較して90\%以上のパラメータを削減できたが,合成iharmony4と実世界のdihテストセットでは性能が向上した。 さらに,提案手法は,既存の手法よりも10$\times$以上の高解像度画像をリアルタイムにスムーズに処理することができる。 コードと事前訓練されたモデルは間もなく利用可能になり、リリースされる予定だ。

Image harmonization aims to modify the color of the composited region with respect to the specific background. Previous works model this task as a pixel-wise image-to-image translation using UNet family structures. However, the model size and computational cost limit the performability of their models on edge devices and higher-resolution images. To this end, we propose a novel spatial-separated curve rendering network (S2CRNet) for efficient and high-resolution image harmonization for the first time. In S$^2$CRNet, we firstly extract the spatial-separated embeddings from the thumbnails of the masked foreground and background individually. Then, we design a curve rendering module (CRM), which learns and combines the spatial-specific knowledge using linear layers to generate the parameters of the pixel-wise curve mapping in the foreground region. Finally, we directly render the original high-resolution images using the learned color curve. Besides, we also make two extensions of the proposed framework via the Cascaded-CRM and Semantic-CRM for cascaded refinement and semantic guidance, respectively. Experiments show that the proposed method reduces more than 90\% parameters compared with previous methods but still achieves the state-of-the-art performance on both synthesized iHarmony4 and real-world DIH test set. Moreover, our method can work smoothly on higher resolution images in real-time which is more than 10$\times$ faster than the existing methods. The code and pre-trained models will be made available and released soon.
翻訳日:2021-09-14 15:35:18 公開日:2021-09-13
# 混合密度ネットワークによる単一画像からの多様な人間の動き予測の学習

Learning to Predict Diverse Human Motions from a Single Image via Mixture Density Networks ( http://arxiv.org/abs/2109.05776v1 )

ライセンス: Link先を確認
Chunzhi Gu, Yan Zhao, Chao Zhang(参考訳) コンピュータビジョンにおいて重要な役割を果たす人間の動き予測は、一般に過去の動きシーケンスを入力として要求する。 しかし、実際の応用では、完全かつ正しい過去の動き列は達成するには高すぎる。 本稿では,混合密度ネットワーク(mdn)モデルを用いて,より弱い条件,すなわち単一画像から将来の人間の動きを予測する新しい手法を提案する。 既存の多くのディープ・ヒューマン・モーション・予測手法とは異なり、mdnの多様性は多様な将来の動き仮説の生成を可能にし、単一の入力と人間の動きの不確実性によって集約された強い確率的曖昧さを十分に補う。 損失関数の設計において,我々はさらに,mdnの学習可能なパラメータのエネルギーベースプリエントを導入し,動作コヒーレンスを維持し,予測精度を向上させる。 トレーニングされたモデルでは、画像を直接入力として、与えられた条件を満たす複数の妥当な動きを生成します。 2つの標準ベンチマークデータセットに対する大規模な実験により,予測の多様性と精度の観点から,本手法の有効性が示された。

Human motion prediction, which plays a key role in computer vision, generally requires a past motion sequence as input. However, in real applications, a complete and correct past motion sequence can be too expensive to achieve. In this paper, we propose a novel approach to predict future human motions from a much weaker condition, i.e., a single image, with mixture density networks (MDN) modeling. Contrary to most existing deep human motion prediction approaches, the multimodal nature of MDN enables the generation of diverse future motion hypotheses, which well compensates for the strong stochastic ambiguity aggregated by the single input and human motion uncertainty. In designing the loss function, we further introduce an energy-based prior over learnable parameters of MDN to maintain motion coherence, as well as improve the prediction accuracy. Our trained model directly takes an image as input and generates multiple plausible motions that satisfy the given condition. Extensive experiments on two standard benchmark datasets demonstrate the effectiveness of our method, in terms of prediction diversity and accuracy.
翻訳日:2021-09-14 15:34:58 公開日:2021-09-13
# DSNet: 弱スーパービジョンギガピクセル画像解析のためのデュアルストリームフレームワーク

DSNet: A Dual-Stream Framework for Weakly-Supervised Gigapixel Pathology Image Analysis ( http://arxiv.org/abs/2109.05788v1 )

ライセンス: Link先を確認
Tiange Xiang, Yang Song, Chaoyi Zhang, Dongnan Liu, Mei Chen, Fan Zhang, Heng Huang, Lauren O'Donnell, Weidong Cai(参考訳) 本稿では,スライド画像全体(WSI)を分類する手法を提案する。 WSIは、ギガピクセルの解像度のため、一般にパッチレベルのラベルを持つパッチワイド分類によって処理される。 しかし、パッチレベルのラベルには正確なアノテーションが必要であり、これは高価であり、通常臨床データでは利用できない。 イメージレベルのラベルのみの場合、パッチの外観とイメージレベルのラベルの矛盾のため、パッチの分類はサブ最適となる。 この問題に対処するために,高倍率(局所)と低倍率(地域)の両方の情報を統合することで,wsi分析を効果的に行えることを実証する。 我々は各パッチの視覚信号をローカル情報を表す潜伏埋め込みベクトルに自動エンコードし、生のWSIをローカル情報を表すハードウェア対応サムネイルにダウンサンプリングする。 次に、wsiラベルは、変換されたローカルパッチ埋め込みとマルチスケールサムネイルイメージを入力として、イメージレベルラベルのみによってトレーニング可能なデュアルストリームネットワーク(dsnet)によって予測される。 2つの大規模公開データセットで行った実験は、我々の手法が最新の最先端のWSI分類方法よりも優れていることを示した。

We present a novel weakly-supervised framework for classifying whole slide images (WSIs). WSIs, due to their gigapixel resolution, are commonly processed by patch-wise classification with patch-level labels. However, patch-level labels require precise annotations, which is expensive and usually unavailable on clinical data. With image-level labels only, patch-wise classification would be sub-optimal due to inconsistency between the patch appearance and image-level label. To address this issue, we posit that WSI analysis can be effectively conducted by integrating information at both high magnification (local) and low magnification (regional) levels. We auto-encode the visual signals in each patch into a latent embedding vector representing local information, and down-sample the raw WSI to hardware-acceptable thumbnails representing regional information. The WSI label is then predicted with a Dual-Stream Network (DSNet), which takes the transformed local patch embeddings and multi-scale thumbnail images as inputs and can be trained by the image-level label only. Experiments conducted on two large-scale public datasets demonstrate that our method outperforms all recent state-of-the-art weakly-supervised WSI classification methods.
翻訳日:2021-09-14 15:34:41 公開日:2021-09-13
# MLFW: マスケ顔の顔認識のためのデータベース

MLFW: A Database for Face Recognition on Masked Faces ( http://arxiv.org/abs/2109.05804v1 )

ライセンス: Link先を確認
Chengrui Wang, Han Fang, Yaoyao Zhong, Weihong Deng(参考訳) 新型コロナウイルス(covid-19)のパンデミックでマスクを着用する人が増えているため、既存の顔認識システムはマスクを認識した場合、パフォーマンスが著しく低下する可能性がある。 マスクが顔認識モデルに与える影響を明らかにするため,マスク付き顔からマスク付き顔を自動的に生成するシンプルなツールを構築し,Cross-Age LFW(CALFW)データベースに基づくMasked LFW(MLFW)と呼ばれる新しいデータベースを構築した。 本手法により生成したマスク面は,元の顔と良好な視認性を有する。 さらに,様々なマスクテンプレートを収集し,日常生活に現れる一般的なスタイルのほとんどをカバーし,多様な世代効果を実現する。 現実的なシナリオを考えると、3種類の顔の組み合わせを設計します。 SOTAモデルの認識精度は、元の画像の精度と比較して、MLFWデータベース上で4\%-10\%低下する。 MLFWデータベースは \url{http://whdeng.cn/mlf w} で閲覧およびダウンロードできます。

As more and more people begin to wear masks due to current COVID-19 pandemic, existing face recognition systems may encounter severe performance degradation when recognizing masked faces. To figure out the impact of masks on face recognition model, we build a simple but effective tool to generate masked faces from unmasked faces automatically, and construct a new database called Masked LFW (MLFW) based on Cross-Age LFW (CALFW) database. The mask on the masked face generated by our method has good visual consistency with the original face. Moreover, we collect various mask templates, covering most of the common styles appeared in the daily life, to achieve diverse generation effects. Considering realistic scenarios, we design three kinds of combinations of face pairs. The recognition accuracy of SOTA models declines 4\%-10\% on MLFW database compared with the accuracy on the original images. Our MLFW database can be viewed and downloaded at \url{http://whdeng.cn/mlf w}.
翻訳日:2021-09-14 15:34:22 公開日:2021-09-13
# 領域一般化のための変分アンタングルメント

Variational Disentanglement for Domain Generalization ( http://arxiv.org/abs/2109.05826v1 )

ライセンス: Link先を確認
Yufei Wang, Haoliang Li, Lap-Pui Chau, Alex C. Kot(参考訳) ドメインの一般化は、未知の対象領域にうまく一般化できる不変モデルを学ぶことを目的としている。 本稿では、ドメイン固有の特徴とタスク固有の特徴を分離し、タスク固有の特徴を、見えないが関連するテストデータに対してより一般化できるような、効果的なフレームワークである変動分散ネットワーク(VDN)を提供することにより、ドメインの一般化の課題に取り組むことを提案する。 さらに,提案手法の理論的根拠として,課題特化特徴の分布と変分推論から導かれる不変基底真理との相違の証拠の上限を最小化するために,提案手法が等価であることを示す。 提案手法を3つのベンチマークで検証するために広範な実験を行い,定量的・質的評価結果から本手法の有効性を明らかにした。

Domain generalization aims to learn an invariant model that can generalize well to the unseen target domain. In this paper, we propose to tackle the problem of domain generalization by delivering an effective framework named Variational Disentanglement Network (VDN), which is capable of disentangling the domain-specific features and task-specific features, where the task-specific features are expected to be better generalized to unseen but related test data. We further show the rationale of our proposed method by proving that our proposed framework is equivalent to minimize the evidence upper bound of the divergence between the distribution of task-specific features and its invariant ground truth derived from variational inference. We conduct extensive experiments to verify our method on three benchmarks, and both quantitative and qualitative results illustrate the effectiveness of our method.
翻訳日:2021-09-14 15:34:06 公開日:2021-09-13
# ゼロショット映像生成のための条件付きMoCoGAN

Conditional MoCoGAN for Zero-Shot Video Generation ( http://arxiv.org/abs/2109.05864v1 )

ライセンス: Link先を確認
Shun Kimura and Kazuhiko Kawamoto(参考訳) ゼロショット映像生成のための条件付き生成逆ネットワーク(GAN)モデルを提案する。 本研究では,ゼロショット条件生成設定について検討した。 言い換えれば、クラス不足のトレーニングサンプルから、目に見えないビデオを生成します。 このタスクは条件付きデータ生成の拡張である。 鍵となる考え方は、GAN の潜在空間における非絡み合い表現を学習することである。 この目的を達成するため、画像生成のためのGANと条件付きGANの動作と内容に基づくモデルを構築した。 より良い距離のある表現を見つけ、高品質なビデオを生成するためのモデルを構築します。 WeizmannアクションデータベースとMUG表情データベースの実験を通して,提案モデルの有効性を実証する。

We propose a conditional generative adversarial network (GAN) model for zero-shot video generation. In this study, we have explored zero-shot conditional generation setting. In other words, we generate unseen videos from training samples with missing classes. The task is an extension of conditional data generation. The key idea is to learn disentangled representations in the latent space of a GAN. To realize this objective, we base our model on the motion and content decomposed GAN and conditional GAN for image generation. We build the model to find better-disentangled representations and to generate good-quality videos. We demonstrate the effectiveness of our proposed model through experiments on the Weizmann action database and the MUG facial expression database.
翻訳日:2021-09-14 15:33:52 公開日:2021-09-13
# ZDAのためのタスクガイド構成表現学習

Task Guided Compositional Representation Learning for ZDA ( http://arxiv.org/abs/2109.05934v1 )

ライセンス: Link先を確認
Shuang Liu, Mete Ozay(参考訳) ゼロショットドメイン適応(ZDA)メソッドは、ソースドメインで学んだタスクに関する知識をターゲットドメインに転送することを目的としており、ターゲットドメインからのデータは利用できない。 本稿では,zdaのタスク特性を考慮した異なる領域間で不変かつ共有される学習特徴表現について述べる。 そこで本研究では,多分岐深層ニューラルネットワークを用いたタスク誘導型ZDA(TG-ZDA)を提案する。 提案したTG-ZDAモデルは、対象ドメインの予測表現から生成された合成タスクやデータを必要とすることなく、エンドツーエンドで訓練することができる。 画像分類データセットのベンチマークZDAタスクを用いてTG-ZDAを提案する。 実験結果から,提案したTG-ZDAは,各領域やタスクに対して,最先端のZDA手法よりも優れていることがわかった。

Zero-shot domain adaptation (ZDA) methods aim to transfer knowledge about a task learned in a source domain to a target domain, while data from target domain are not available. In this work, we address learning feature representations which are invariant to and shared among different domains considering task characteristics for ZDA. To this end, we propose a method for task-guided ZDA (TG-ZDA) which employs multi-branch deep neural networks to learn feature representations exploiting their domain invariance and shareability properties. The proposed TG-ZDA models can be trained end-to-end without requiring synthetic tasks and data generated from estimated representations of target domains. The proposed TG-ZDA has been examined using benchmark ZDA tasks on image classification datasets. Experimental results show that our proposed TG-ZDA outperforms state-of-the-art ZDA methods for different domains and tasks.
翻訳日:2021-09-14 15:33:43 公開日:2021-09-13
# 深度物体検出のための相互監視

Mutual Supervision for Dense Object Detection ( http://arxiv.org/abs/2109.05986v1 )

ライセンス: Link先を確認
Ziteng Gao, Limin Wang, Gangshan Wu(参考訳) 分類と回帰ヘッドはどちらも、密度の高い物体検出器を構築するのに必要なコンポーネントであり、通常は同じトレーニングサンプルによって監視されるため、検出パイプライン内の物体を正確に検出するための一貫性が期待できる。 本稿では,これら2つのヘッドのトレーニングサンプルを高密度検出器で同一のトレーニングサンプルの規則を破り,Mutual Supervision (MuSu)と呼ばれる新しいスーパースペクタリーパラダイムを探索し,それぞれに分類と回帰ヘッドのトレーニングサンプルを相互に割り当てて,一貫性を確保する。 MuSuは、主に分類予測スコアに基づいて回帰ヘッドのトレーニングサンプルを定義し、その後、回帰ヘッドの局所化スコアに基づいて分類ヘッドのサンプルを定義する。 実験の結果, この相互監視によって訓練された検出器の収束が保証され, 提案手法の有効性がms cocoベンチマークで検証された。 また,同じロケーションでアンカーをタイリングすることで,検出精度が向上し,このトレーニング方式によるさらなる改善が期待できる。 本研究は,検出における分類タスクと回帰タスクの相互作用,および検出器の監督パラダイム,特にこれらの2つの頭部について,さらなる研究を促すことを願っている。

The classification and regression head are both indispensable components to build up a dense object detector, which are usually supervised by the same training samples and thus expected to have consistency with each other for detecting objects accurately in the detection pipeline. In this paper, we break the convention of the same training samples for these two heads in dense detectors and explore a novel supervisory paradigm, termed as Mutual Supervision (MuSu), to respectively and mutually assign training samples for the classification and regression head to ensure this consistency. MuSu defines training samples for the regression head mainly based on classification predicting scores and in turn, defines samples for the classification head based on localization scores from the regression head. Experimental results show that the convergence of detectors trained by this mutual supervision is guaranteed and the effectiveness of the proposed method is verified on the challenging MS COCO benchmark. We also find that tiling more anchors at the same location benefits detectors and leads to further improvements under this training scheme. We hope this work can inspire further researches on the interaction of the classification and regression task in detection and the supervision paradigm for detectors, especially separately for these two heads.
翻訳日:2021-09-14 15:33:29 公開日:2021-09-13
# 3次元空間変動照明による屋内逆レンダリングの学習

Learning Indoor Inverse Rendering with 3D Spatially-Varying Lighting ( http://arxiv.org/abs/2109.06061v1 )

ライセンス: Link先を確認
Zian Wang, Jonah Philion, Sanja Fidler, Jan Kautz(参考訳) 本研究では, 1枚の画像からアルベド, 正常, 深さ, 3次元空間変動光を共同推定する問題に対処する。 既存のほとんどの方法は、シーンの3D特性を無視して、画像から画像への変換としてタスクを定式化する。 しかし、室内には複雑な3次元光輸送があり、2次元表現が不十分である。 本稿では,3次元空間変動照明を定式化した学習ベースの逆レンダリングフレームワークを提案する。 古典的なボリュームレンダリング技術に触発されて,voxelグリッド上の3dシーン表面の放射輝度をパラメータ化する,新しい体積球面ガウス表現を提案する。 我々は3次元照明表現を利用した物理ベースの微分可能レンダラーを設計し、再レンダリング制約によるすべての固有特性の合同トレーニングを可能にするエネルギー保存画像形成過程を定式化する。 本モデルでは, 物理的に正確な予測を保証し, 容易にアクセスできない接地型HDR照明の必要性を回避する。 実験により,本手法は従来手法よりも定量的かつ定性的に優れており,高スペックなオブジェクトであっても仮想オブジェクト挿入などのARアプリケーションに対して光実効性が得られることが示された。

In this work, we address the problem of jointly estimating albedo, normals, depth and 3D spatially-varying lighting from a single image. Most existing methods formulate the task as image-to-image translation, ignoring the 3D properties of the scene. However, indoor scenes contain complex 3D light transport where a 2D representation is insufficient. In this paper, we propose a unified, learning-based inverse rendering framework that formulates 3D spatially-varying lighting. Inspired by classic volume rendering techniques, we propose a novel Volumetric Spherical Gaussian representation for lighting, which parameterizes the exitant radiance of the 3D scene surfaces on a voxel grid. We design a physics based differentiable renderer that utilizes our 3D lighting representation, and formulates the energy-conserving image formation process that enables joint training of all intrinsic properties with the re-rendering constraint. Our model ensures physically correct predictions and avoids the need for ground-truth HDR lighting which is not easily accessible. Experiments show that our method outperforms prior works both quantitatively and qualitatively, and is capable of producing photorealistic results for AR applications such as virtual object insertion even for highly specular objects.
翻訳日:2021-09-14 15:33:10 公開日:2021-09-13
# 地域シームズネットワークを用いた弱監視人探索

Weakly Supervised Person Search with Region Siamese Networks ( http://arxiv.org/abs/2109.06109v1 )

ライセンス: Link先を確認
Chuchu Han, Kai Su, Dongdong Yu, Zehuan Yuan, Changxin Gao, Nong Sang, Yi Yang and Changhu Wang(参考訳) 教師付き学習は人検索において支配的であるが、境界ボックスとアイデンティティの詳細なラベル付けが必要である。 大規模ラベル付きトレーニングデータは、特に個人idの収集が難しい場合が多い。 自然な疑問は、優れた人物探索モデルがアイデンティティの監督なしに訓練できるかどうかである。 本稿では,バウンディングボックスアノテーションのみが使用可能な弱教師付き設定を提案する。 この新たな設定に基づいて、Regional Siamese Networks (R-SiamNets) と呼ばれる効果的なベースラインモデルを提供する。 識別ラベルなしの認識のための有用な表現の学習に向けて,r-siamnetのインスタンスレベルの一貫性損失とクラスタレベルのコントラスト損失を監督する。 インスタンスレベルの一貫性学習では、R-SiamNetは、各個人領域から領域外コンテキストの有無に関わらず、一貫性のある特徴を抽出するように制約されている。 クラスタレベルのコントラスト学習では、最も近いインスタンスの集約と特徴空間における異種インスタンスの分離が実施される。 広範な実験により,本手法の有用性が検証された。 OIM や MGTS などの完全教師付き手法をクリアマージンで上回る CUHK-SYSU ベンチマークでは,87.1% のランク-1 と 86.0% の mAP が達成されている。 より有望なパフォーマンスは、追加のトレーニングデータを組み込むことで達成できる。 この研究が将来この分野での研究を促進することを願っている。

Supervised learning is dominant in person search, but it requires elaborate labeling of bounding boxes and identities. Large-scale labeled training data is often difficult to collect, especially for person identities. A natural question is whether a good person search model can be trained without the need of identity supervision. In this paper, we present a weakly supervised setting where only bounding box annotations are available. Based on this new setting, we provide an effective baseline model termed Region Siamese Networks (R-SiamNets). Towards learning useful representations for recognition in the absence of identity labels, we supervise the R-SiamNet with instance-level consistency loss and cluster-level contrastive loss. For instance-level consistency learning, the R-SiamNet is constrained to extract consistent features from each person region with or without out-of-region context. For cluster-level contrastive learning, we enforce the aggregation of closest instances and the separation of dissimilar ones in feature space. Extensive experiments validate the utility of our weakly supervised method. Our model achieves the rank-1 of 87.1% and mAP of 86.0% on CUHK-SYSU benchmark, which surpasses several fully supervised methods, such as OIM and MGTS, by a clear margin. More promising performance can be reached by incorporating extra training data. We hope this work could encourage the future research in this field.
翻訳日:2021-09-14 15:32:51 公開日:2021-09-13
# 単一強化トレーニングサンプルによる画像形状操作

Image Shape Manipulation from a Single Augmented Training Sample ( http://arxiv.org/abs/2109.06151v1 )

ライセンス: Link先を確認
Yael Vinker, Eliahu Horwitz, Nir Zabari, Yedid Hoshen(参考訳) 本稿では,1つの画像に基づく条件付き画像操作のための生成モデルであるDeepSIMを提案する。 広汎な拡張が単一画像トレーニングの鍵となり,TPS(Thin-plate-Spli ne)を有効拡張として活用できることが判明した。 私たちのネットワークは、イメージのプリミティブ表現とイメージ自体をマップすることを学びます。 プリミティブ表現の選択は操作の容易さと表現力に影響を与え、自動(エッジなど)、手動(セグメンテーションなど)、あるいはセグメンテーションの上部のエッジのようなハイブリッド化が可能である。 操作時には、プリミティブ入力表現を変更してネットワークにマッピングすることで、複雑な画像変更を可能にします。 本手法は画像操作タスクにおいて顕著な性能を発揮する。

In this paper, we present DeepSIM, a generative model for conditional image manipulation based on a single image. We find that extensive augmentation is key for enabling single image training, and incorporate the use of thin-plate-spline (TPS) as an effective augmentation. Our network learns to map between a primitive representation of the image to the image itself. The choice of a primitive representation has an impact on the ease and expressiveness of the manipulations and can be automatic (e.g. edges), manual (e.g. segmentation) or hybrid such as edges on top of segmentations. At manipulation time, our generator allows for making complex image changes by modifying the primitive input representation and mapping it through the network. Our method is shown to achieve remarkable performance on image manipulation tasks.
翻訳日:2021-09-14 15:32:28 公開日:2021-09-13
# 自己監督深度推定のための画像合成損失の臭いについて

On the Sins of Image Synthesis Loss for Self-supervised Depth Estimation ( http://arxiv.org/abs/2109.06163v1 )

ライセンス: Link先を確認
Zhaoshuo Li, Nathan Drenkow, Hao Ding, Andy S. Ding, Alexander Lu, Francis X. Creighton, Russell H. Taylor, Mathias Unberath(参考訳) ステレオ画像および単眼画像からのシーン奥行き推定は,シーン理解などの下流タスクにおける3次元情報抽出に不可欠である。 近年,ハードウェア選択における高い性能と柔軟性から,深度推定のための学習ベースの手法が注目されている。 しかし、これらのアルゴリズムの教師付きトレーニングのための基礎的真理データ収集は費用がかかるか、あるいはまったく不可能である。 この状況は、対応する深さ測定を必要としない代替学習アプローチの必要性を示唆している。 実際、深さ推定の自己教師付き学習は、ますます人気のある代替手段となる。 観測されたフレームは、現場の正確な深さが分かっていれば隣り合うフレームから合成できるという考えに基づいており、この場合推定される。 一般的な信念とは違い,画像合成の改善は深度推定の改善を必要としないことを実証的に示す。 むしろ、画像合成の最適化は、主な予測目標である深さに関する性能のばらつきをもたらす可能性がある。 この発散現象を,データから生じるアレオータ的不確実性に分類する。 筆者らは,4つのデータセット(スパンニング・ストリート,屋内,医療)と5つのアーキテクチャ(モノラル・ステレオ)を実験した結果,この分散現象はデータセット領域とは独立であり,一般的な正規化手法では緩和されないと結論づけた。 この発見の重要性を強調するため,過去6年間に127件の論文を集計し,画像合成を用いた手法の検討を行った。 このばらつきを事前に報告したり、深く研究したりすることはなく、発見に影響を及ぼす可能性のある自己監督的アプローチの改善の余地が示唆されている。

Scene depth estimation from stereo and monocular imagery is critical for extracting 3D information for downstream tasks such as scene understanding. Recently, learning-based methods for depth estimation have received much attention due to their high performance and flexibility in hardware choice. However, collecting ground truth data for supervised training of these algorithms is costly or outright impossible. This circumstance suggests a need for alternative learning approaches that do not require corresponding depth measurements. Indeed, self-supervised learning of depth estimation provides an increasingly popular alternative. It is based on the idea that observed frames can be synthesized from neighboring frames if accurate depth of the scene is known - or in this case, estimated. We show empirically that - contrary to common belief - improvements in image synthesis do not necessitate improvement in depth estimation. Rather, optimizing for image synthesis can result in diverging performance with respect to the main prediction objective - depth. We attribute this diverging phenomenon to aleatoric uncertainties, which originate from data. Based on our experiments on four datasets (spanning street, indoor, and medical) and five architectures (monocular and stereo), we conclude that this diverging phenomenon is independent of the dataset domain and not mitigated by commonly used regularization techniques. To underscore the importance of this finding, we include a survey of methods which use image synthesis, totaling 127 papers over the last six years. This observed divergence has not been previously reported or studied in depth, suggesting room for future improvement of self-supervised approaches which might be impacted the finding.
翻訳日:2021-09-14 15:32:15 公開日:2021-09-13
# RADARS: 微分可能なニューラルネットワーク探索を支援するメモリ効率の良い強化学習

RADARS: Memory Efficient Reinforcement Learning Aided Differentiable Neural Architecture Search ( http://arxiv.org/abs/2109.05691v1 )

ライセンス: Link先を確認
Zheyu Yan, Weiwen Jiang, Xiaobo Sharon Hu, Yiyu Shi(参考訳) 微分可能なニューラルネットワーク探索(DNAS)は、優れたニューラルネットワークの自動生成の能力で知られている。 しかし、dnaベースのメソッドは、検索スペースが拡大するとメモリ使用量が急増し、高度なgpuプラットフォームでもうまく動作しない可能性がある。 一方、強化学習(RL)に基づく手法は、メモリ効率は高いが、非常に時間がかかる。 両手法の利点を組み合わせることで,高速かつメモリ効率のよい大規模検索空間を探索できるスケーラブルなRL支援DNASフレームワークであるRADARSを提案する。 RADARSは、RLを反復的に、望ましくないアーキテクチャ候補を誘発し、DNASを実行するための有望なサブスペースを特定する。 12GBのGPUメモリを持つワークステーションを用いた実験では、CIFAR-10とImageNetデータセットでは、RADARSは最先端のRLベースの方法と比較して2.5倍の検索時間を削減できるが、2つのDNASベースラインは過剰なメモリ使用量や検索時間のために完成できない。 著者たちの知る限りでは、これは境界メモリ使用量を持つ大きな検索スペースを処理できる最初のdnasフレームワークである。

Differentiable neural architecture search (DNAS) is known for its capacity in the automatic generation of superior neural networks. However, DNAS based methods suffer from memory usage explosion when the search space expands, which may prevent them from running successfully on even advanced GPU platforms. On the other hand, reinforcement learning (RL) based methods, while being memory efficient, are extremely time-consuming. Combining the advantages of both types of methods, this paper presents RADARS, a scalable RL-aided DNAS framework that can explore large search spaces in a fast and memory-efficient manner. RADARS iteratively applies RL to prune undesired architecture candidates and identifies a promising subspace to carry out DNAS. Experiments using a workstation with 12 GB GPU memory show that on CIFAR-10 and ImageNet datasets, RADARS can achieve up to 3.41% higher accuracy with 2.5X search time reduction compared with a state-of-the-art RL-based method, while the two DNAS baselines cannot complete due to excessive memory usage or search time. To the best of the authors' knowledge, this is the first DNAS framework that can handle large search spaces with bounded memory usage.
翻訳日:2021-09-14 15:29:07 公開日:2021-09-13
# 学習過程の追跡による深層学習表現の説明

Explaining Deep Learning Representations by Tracing the Training Process ( http://arxiv.org/abs/2109.05880v1 )

ライセンス: Link先を確認
Lukas Pfahler, Katharina Morik(参考訳) 本稿では,深層ネットワークの各層における中間表現がどのように洗練されたかを調べることにより,深層ニューラルネットワークの判断を説明する新しい説明法を提案する。 このようにして a)トレーニング中に最も影響力のあるトレーニング例を見つけること b) 最終表現に最も寄与するクラスを分析する。 提案手法は,任意の反復的最適化手順をラップして,フィードフォワードネットワークや畳み込みニューラルネットワークなど,さまざまなニューラルネットワークアーキテクチャをカバーすることができる。 まず,単一トレーニングインスタンスを用いた確率的トレーニング手法を提案するが,共通ミニバッチトレーニングの変種も引き続き導出する。 実験評価において,本手法は説明として使用できる高度に代表的なトレーニングインスタンスを識別できることを示す。 さらに,学習過程全体にわたる集計統計の形での説明を提供する可視化も提案する。

We propose a novel explanation method that explains the decisions of a deep neural network by investigating how the intermediate representations at each layer of the deep network were refined during the training process. This way we can a) find the most influential training examples during training and b) analyze which classes attributed most to the final representation. Our method is general: it can be wrapped around any iterative optimization procedure and covers a variety of neural network architectures, including feed-forward networks and convolutional neural networks. We first propose a method for stochastic training with single training instances, but continue to also derive a variant for the common mini-batch training. In experimental evaluations, we show that our method identifies highly representative training instances that can be used as an explanation. Additionally, we propose a visualization that provides explanations in the form of aggregated statistics over the whole training process.
翻訳日:2021-09-14 15:28:46 公開日:2021-09-13
# 直接アドバンテージ推定

Direct Advantage Estimation ( http://arxiv.org/abs/2109.06093v1 )

ライセンス: Link先を確認
Hsiao-Ru Pan, Nico G\"urtler, Alexander Neitz, Bernhard Sch\"olkopf(参考訳) クレジット割り当ては強化学習における中心的な問題のひとつです。 主なアプローチは、期待されるリターンに基づいてクレジットを割り当てることである。 しかし、予測されるリターンは、学習を遅らせるような望ましくない方法でポリシーに依存する可能性がある。 代わりに、我々は因果関係の文献から考えを借り、有利な関数は因果関係の表現と類似した性質を共有する因果効果として解釈できることを示す。 そこで本研究では,この知見に基づいて,アドバンテージ関数をモデル化し,(アクション)値関数を必要とせずに直接データから推定できる新しい手法であるdirect advantage estimation (dae)を提案する。 望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。 提案手法は実装が容易であり,現代のアクタ批判手法にも容易に適用できる。 本研究では, Atari ドメイン上でDAE を実証的にテストし, 優位性評価のための最先端手法を用いて競争結果が得られることを示す。

Credit assignment is one of the central problems in reinforcement learning. The predominant approach is to assign credit based on the expected return. However, we show that the expected return may depend on the policy in an undesirable way which could slow down learning. Instead, we borrow ideas from the causality literature and show that the advantage function can be interpreted as causal effects, which share similar properties with causal representations. Based on this insight, we propose the Direct Advantage Estimation (DAE), a novel method that can model the advantage function and estimate it directly from data without requiring the (action-)value function. If desired, value functions can also be seamlessly integrated into DAE and be updated in a similar way to Temporal Difference Learning. The proposed method is easy to implement and can be readily adopted by modern actor-critic methods. We test DAE empirically on the Atari domain and show that it can achieve competitive results with the state-of-the-art method for advantage estimation.
翻訳日:2021-09-14 15:28:32 公開日:2021-09-13
# 人間と自動意思決定における説明に基づく公正性と信頼感の認識

Perceptions of Fairness and Trustworthiness Based on Explanations in Human vs. Automated Decision-Making ( http://arxiv.org/abs/2109.05792v1 )

ライセンス: Link先を確認
Jakob Schoeffer, Yvette Machowski, Niklas Kuehl(参考訳) 自動意思決定システム(ADS)は、多くのハイテイク領域で広く普及している。 これらのシステムには一般的に高度な不透明な人工知能(ai)技術が含まれており、特に影響を受けた個人に対して内部動作を完全に理解することがほとんどない。 その結果、ADSは監視と校正を欠く傾向にあり、望ましくない結果(例えば不公平な結果)をもたらす可能性がある。 本研究では,200人の参加者を対象にオンライン調査を行い,ADSの代わりに人間が高い判断を下すシナリオと比較して,ADSに対する公正性と信頼感に対する人々の認識を検討する。 意外なことに、ADSは人間の意思決定者よりも公平だと感じている。 我々の分析は、人のAIリテラシーが彼らの知覚に影響を及ぼすことを示唆し、AIリテラシーの高い人は、人間の意思決定者よりもADSを強く支持する一方で、低AIリテラシーの人々は、彼らの知覚に顕著な違いを示さないことを示している。

Automated decision systems (ADS) have become ubiquitous in many high-stakes domains. Those systems typically involve sophisticated yet opaque artificial intelligence (AI) techniques that seldom allow for full comprehension of their inner workings, particularly for affected individuals. As a result, ADS are prone to deficient oversight and calibration, which can lead to undesirable (e.g., unfair) outcomes. In this work, we conduct an online study with 200 participants to examine people's perceptions of fairness and trustworthiness towards ADS in comparison to a scenario where a human instead of an ADS makes a high-stakes decision -- and we provide thorough identical explanations regarding decisions in both cases. Surprisingly, we find that people perceive ADS as fairer than human decision-makers. Our analyses also suggest that people's AI literacy affects their perceptions, indicating that people with higher AI literacy favor ADS more strongly over human decision-makers, whereas low-AI-literacy people exhibit no significant differences in their perceptions.
翻訳日:2021-09-14 15:28:02 公開日:2021-09-13
# 部分観測可能な領域における行動と観察の学習

Learning to Act and Observe in Partially Observable Domains ( http://arxiv.org/abs/2109.06076v1 )

ライセンス: Link先を確認
Thomas Bolander, Nina Gierasimczuk, Andr\'es Occhipinti Liberman(参考訳) 学習エージェントは、エージェントがこれまで対話したことのない部分観測可能な環境において、そのエージェントが観察できることと、その動作が環境に与える影響の両方を学習する。 エージェントはこのドメインについて、ドメイン内のアクションを収集し、その結果を観察した経験から学ぶことができる。 学習者の観察的制約を考慮に入れて,観察可能なものやドメイン内のアクションについて,可能な限り(明確に定義された意味で)学習可能な学習アルゴリズムを提案する。 各アルゴリズムによって達成されるドメイン知識のレベルを区別し、到達に必要な観察の種類を特徴付ける。 アルゴリズムは動的認識論理(DEL)を用いて学習した領域情報を象徴的に表現する。 DELに基づく学習アルゴリズムを開発したBolander and Gierasimczuk (2015) は、完全に観測可能な領域でドメイン情報を学習する。

We consider a learning agent in a partially observable environment, with which the agent has never interacted before, and about which it learns both what it can observe and how its actions affect the environment. The agent can learn about this domain from experience gathered by taking actions in the domain and observing their results. We present learning algorithms capable of learning as much as possible (in a well-defined sense) both about what is directly observable and about what actions do in the domain, given the learner's observational constraints. We differentiate the level of domain knowledge attained by each algorithm, and characterize the type of observations required to reach it. The algorithms use dynamic epistemic logic (DEL) to represent the learned domain information symbolically. Our work continues that of Bolander and Gierasimczuk (2015), which developed DEL-based learning algorithms based to learn domain information in fully observable domains.
翻訳日:2021-09-14 15:27:44 公開日:2021-09-13
# 知識グラフに基づく神経変性疾患と食事関連発見

Knowledge Graph-based Neurodegenerative Diseases and Diet Relationship Discovery ( http://arxiv.org/abs/2109.06123v1 )

ライセンス: Link先を確認
Yi Nian, Jingcheng Du, Larry Bu, Fang Li, Xinyue Hu, Yuji Zhang, Cui Tao(参考訳) 現在、ほとんどの神経変性疾患に対して効果的な治療法はない。 しかし、特定の食品はこれらの疾患と関連し、神経変性の進行を予防または遅らせる機会をもたらす可能性がある。 本研究の目的は, 文献マイニングによる神経変性疾患の知識グラフの構築と, 食事との関連性について検討することである。 バイオメディカル・アノテーション (Disease, Chemical, Gene, Species, SNP&Mutation) を, NIH支援型バイオメディカル・コンセプトを文献から抽出できるPubTatorを用いて, 神経変性疾患および食生活に関連する4,300の論文から収集した。 これらのアノテーションから知識グラフが作成されました。 グラフ埋め込みはnode2vecアルゴリズムでトレーニングされ、潜在的な概念クラスタリングと同様の概念識別をサポートする。 食生活から発生し神経変性疾患に影響を及ぼす可能性のある食品関連種や化学物質がいくつか見出された。

To date, there are no effective treatments for most neurodegenerative diseases. However, certain foods may be associated with these diseases and bring an opportunity to prevent or delay neurodegenerative progression. Our objective is to construct a knowledge graph for neurodegenerative diseases using literature mining to study their relations with diet. We collected biomedical annotations (Disease, Chemical, Gene, Species, SNP&Mutation) in the abstracts from 4,300 publications relevant to both neurodegenerative diseases and diet using PubTator, an NIH-supported tool that can extract biomedical concepts from literature. A knowledge graph was created from these annotations. Graph embeddings were then trained with the node2vec algorithm to support potential concept clustering and similar concept identification. We found several food-related species and chemicals that might come from diet and have an impact on neurodegenerative diseases.
翻訳日:2021-09-14 15:27:29 公開日:2021-09-13
# 孤立した発話を超えて:会話的感情認識

Beyond Isolated Utterances: Conversational Emotion Recognition ( http://arxiv.org/abs/2109.06112v1 )

ライセンス: Link先を確認
Raghavendra Pappagari, Piotr \.Zelasko, Jes\'us Villalba, Laureano Moro-Velazquez, Najim Dehak(参考訳) 音声の感情認識は、発話の記録から話者の感情状態を認識するタスクである。 現在のアプローチのほとんどは、孤立した発話からの感情の推測に重点を置いているが、会話中の感情の認識を扱う会話感情認識(CER)を実現するには不十分である。 本研究では,CERをシーケンスラベリングタスクとして扱うことで,CERに対するいくつかのアプローチを提案する。 我々はCERのトランスフォーマーアーキテクチャについて検討し、IEMOCAPコーパスを用いてコンテキストレスシナリオとコンテキストレスシナリオの両方でResNet-34およびBiLSTMアーキテクチャと比較した。 自己注意機構の内部構造に基づいて,会話における絶対3.3%のマイクロf1と孤立発話における3.6%の変換器モデルの性能向上を図ったDiverseCatAugment (DCA) を提案する。 我々は,ダイアリゼートされた会話を活用すべく,インターロカクタインデックス埋め込みの辞書を学習するインターロカクタアウェアトランスフォーマーモデルを導入することにより,その性能をさらに向上させた。

Speech emotion recognition is the task of recognizing the speaker's emotional state given a recording of their utterance. While most of the current approaches focus on inferring emotion from isolated utterances, we argue that this is not sufficient to achieve conversational emotion recognition (CER) which deals with recognizing emotions in conversations. In this work, we propose several approaches for CER by treating it as a sequence labeling task. We investigated transformer architecture for CER and, compared it with ResNet-34 and BiLSTM architectures in both contextual and context-less scenarios using IEMOCAP corpus. Based on the inner workings of the self-attention mechanism, we proposed DiverseCatAugment (DCA), an augmentation scheme, which improved the transformer model performance by an absolute 3.3% micro-f1 on conversations and 3.6% on isolated utterances. We further enhanced the performance by introducing an interlocutor-aware transformer model where we learn a dictionary of interlocutor index embeddings to exploit diarized conversations.
翻訳日:2021-09-14 15:26:24 公開日:2021-09-13
# 相反学習と自己学習によるモダリティ間肝セグメンテーションのための教師なしドメイン適応

Unsupervised domain adaptation for cross-modality liver segmentation via joint adversarial learning and self-learning ( http://arxiv.org/abs/2109.05664v1 )

ライセンス: Link先を確認
Jin Hong, Simon Chun Ho Yu, Weitian Chen(参考訳) CT(Computed tomography)とMRI(MRI)を用いて取得した画像上の肝セグメンテーションは,肝疾患の臨床的管理において重要な役割を担っている。 mriと比較して、肝臓のct画像は豊富で容易に利用できる。 しかし、MRIはCTと比較して肝臓の量的な情報を豊かに提供することができる。 したがって、ラベル付きCT画像を含むソース領域からラベル付きMR画像を含むターゲット領域へ学習知識を転送するための教師なし領域適応を実現することが望ましい。 本研究では, 対人学習と自己学習を通じて, クロスモーダル肝セグメンテーションのための新しい教師なしドメイン適応フレームワークについて報告する。 対象領域から抽出したタスク関連特徴の分布をソース領域から暗黙的に整列させるために, 意味認識と形状エントロピーを併用した学習手法を提案する。 提案フレームワークでは、上記の2つの敵対的損失を教師なしの方法でネットワークを訓練し、次に疑似ラベル生成の平均完全化器を用いて、次のネットワークを訓練する疑似ラベルを生成する(望ましくないモデル)。 さらに,目的とするモデルを学習するために,セマンティクス対応の逆学習と,ピクセル適応マスクの洗練と学生間学習を含む2つの自己学習手法を提案する。 所望のモデルのロバスト性を改善するため,ハードサンプルを扱うために所望のモデルの入力としてMRI画像を変換する低信号増大関数を提案する。 公開データセットを用いて、Diceスコア0.912プラスまたは0.037(平均標準偏差またはマイナス標準偏差)の4つの教師なし学習手法よりも優れた教師なしドメイン適応フレームワークを提案実験で実証した。

Liver segmentation on images acquired using computed tomography (CT) and magnetic resonance imaging (MRI) plays an important role in clinical management of liver diseases. Compared to MRI, CT images of liver are more abundant and readily available. However, MRI can provide richer quantitative information of the liver compared to CT. Thus, it is desirable to achieve unsupervised domain adaptation for transferring the learned knowledge from the source domain containing labeled CT images to the target domain containing unlabeled MR images. In this work, we report a novel unsupervised domain adaptation framework for cross-modality liver segmentation via joint adversarial learning and self-learning. We propose joint semantic-aware and shape-entropy-aware adversarial learning with post-situ identification manner to implicitly align the distribution of task-related features extracted from the target domain with those from the source domain. In proposed framework, a network is trained with the above two adversarial losses in an unsupervised manner, and then a mean completer of pseudo-label generation is employed to produce pseudo-labels to train the next network (desired model). Additionally, semantic-aware adversarial learning and two self-learning methods, including pixel-adaptive mask refinement and student-to-partner learning, are proposed to train the desired model. To improve the robustness of the desired model, a low-signal augmentation function is proposed to transform MRI images as the input of the desired model to handle hard samples. Using the public data sets, our experiments demonstrated the proposed unsupervised domain adaptation framework outperformed four supervised learning methods with a Dice score 0.912 plus or minus 0.037 (mean plus or minus standard deviation).
翻訳日:2021-09-14 15:22:36 公開日:2021-09-13
# CANS:知的産業監視のための通信限定カメラネットワークの自己設定

CANS: Communication Limited Camera Network Self-Configuration for Intelligent Industrial Surveillance ( http://arxiv.org/abs/2109.05665v1 )

ライセンス: Link先を確認
Jingzheng Tu, Qimin Xu and Cailian Chen(参考訳) リアルタイムかつインテリジェントなカメラネットワークによるビデオ監視には、エッジ対応の産業用IoT(Industrial Internet of Things, IIoT)において、巨大なビデオデータによる計算集約的な視覚検出タスクが関与する。 複数のビデオストリームはエッジデバイスとカメラネットワークのリンク上で限られた通信資源を競い合うため、かなりの通信渋滞が発生する。 完了時間を延期し、視覚検出タスクの精度を低下させる。 したがって、コミュニケーション制約やビジョンタスク期限制約の下での視覚検出タスクの高精度化は困難である。 以前の研究では、ビデオ品質パラメータの設定による検出タスクの精度と処理時間のトレードオフをバランスさせるために、単一のカメラ構成に焦点を当てていた。 本稿では,映像監視の適応型カメラネットワーク自己設定法(CANS)を提案し,エッジ対応IIoTに対する不均質なサービス品質(QoS)要求の複数のビデオストリームに対処する。 さらに、ビデオコンテンツやネットワークのダイナミックスにも適応する。 具体的には,2つの重要なパフォーマンス指標である 'emph{i.e.} の精度とレイテンシのトレードオフをNPハード最適化問題として定式化する。 実世界の監視データセットのシミュレーションにより、提案手法はネットワークダイナミクスを用いて、エンドツーエンドのレイテンシ(平均13ミリ秒)を高い精度(平均92倍)で達成することを示した。 結果は缶の有効性を検証する。

Realtime and intelligent video surveillance via camera networks involve computation-intensiv e vision detection tasks with massive video data, which is crucial for safety in the edge-enabled industrial Internet of Things (IIoT). Multiple video streams compete for limited communication resources on the link between edge devices and camera networks, resulting in considerable communication congestion. It postpones the completion time and degrades the accuracy of vision detection tasks. Thus, achieving high accuracy of vision detection tasks under the communication constraints and vision task deadline constraints is challenging. Previous works focus on single camera configuration to balance the tradeoff between accuracy and processing time of detection tasks by setting video quality parameters. In this paper, an adaptive camera network self-configuration method (CANS) of video surveillance is proposed to cope with multiple video streams of heterogeneous quality of service (QoS) demands for edge-enabled IIoT. Moreover, it adapts to video content and network dynamics. Specifically, the tradeoff between two key performance metrics, \emph{i.e.,} accuracy and latency, is formulated as an NP-hard optimization problem with latency constraints. Simulation on real-world surveillance datasets demonstrates that the proposed CANS method achieves low end-to-end latency (13 ms on average) with high accuracy (92\% on average) with network dynamics. The results validate the effectiveness of the CANS.
翻訳日:2021-09-14 15:22:05 公開日:2021-09-13
# UMPNet:Articulated Objectsのためのユニバーサルマニピュレーションポリシーネットワーク

UMPNet: Universal Manipulation Policy Network for Articulated Objects ( http://arxiv.org/abs/2109.05668v1 )

ライセンス: Link先を確認
Zhenjia Xu, Zhanpeng He, Shuran Song(参考訳) 任意の調音オブジェクトを操作するためにクローズドループアクションシーケンスを推論する単一のイメージベースのポリシーネットワークであるUniversal Manipulation Policy Network (UMPNet)を紹介する。 幅広い行動軌跡を推測するために、ポリシーは6DoFアクション表現と様々な軌道長をサポートする。 多様なオブジェクトを扱うために、ポリシーは異なるarticulation構造を持つオブジェクトから学び、目に見えないオブジェクトやカテゴリに一般化する。 この方針は、人間のデモやスクリプト化された方針、事前定義された目標条件なしで、自己誘導による探索で訓練される。 効果的なマルチステップインタラクションをサポートするために、アクションが過去や未来にオブジェクトの状態を変えるかどうかを示す新しいArrow-of-Timeアクション属性を導入します。 各インタラクションステップでのアロー・オブ・タイム推論によって、学習されたポリシは、与えられた状態に向かって、あるいは遠ざかるアクションを選択できるため、効果的な状態探索と目標条件付き操作の両方が可能になる。 ビデオはhttps://youtu.be/kql vcl9rqkm。

We introduce the Universal Manipulation Policy Network (UMPNet) -- a single image-based policy network that infers closed-loop action sequences for manipulating arbitrary articulated objects. To infer a wide range of action trajectories, the policy supports 6DoF action representation and varying trajectory length. To handle a diverse set of objects, the policy learns from objects with different articulation structures and generalizes to unseen objects or categories. The policy is trained with self-guided exploration without any human demonstrations, scripted policy, or pre-defined goal conditions. To support effective multi-step interaction, we introduce a novel Arrow-of-Time action attribute that indicates whether an action will change the object state back to the past or forward into the future. With the Arrow-of-Time inference at each interaction step, the learned policy is able to select actions that consistently lead towards or away from a given state, thereby, enabling both effective state exploration and goal-conditioned manipulation. Video is available at https://youtu.be/Kql vcL9RqKM
翻訳日:2021-09-14 15:21:42 公開日:2021-09-13
# 医用画像分割における領域一般化のためのドメイン適応畳み込みとコンテンツ適応畳み込み

Domain and Content Adaptive Convolution for Domain Generalization in Medical Image Segmentation ( http://arxiv.org/abs/2109.05676v1 )

ライセンス: Link先を確認
Shishuai Hu, Zehui Liao, Jianpeng Zhang, Yong Xia(参考訳) 医学的画像品質の変動によって引き起こされるドメインギャップは、実験室でセグメンテーションモデルを訓練し、臨床データに訓練されたモデルを適用するまでの道のりにおいて大きな障害となる。 この問題に対処するため、ドメイン一般化法が提案されているが、通常は静的畳み込みを使用し、柔軟性が低い。 本稿では,医療画像セグメンテーションのためのマルチソース領域一般化モデル,すなわち,ドメインとコンテンツ適応畳み込み(DCAC)を提案する。 具体的には, domain adaptive convolution (dac) モジュールと content adaptive convolution (cac) モジュールを設計し,両モジュールをエンコーダ/デコーダバックボーンに組み込む。 DACモジュールでは、予測された入力のドメインコードに動的畳み込みヘッドを条件付け、モデルが見えないターゲットドメインに適応するようにします。 CACモジュールでは,グローバルな画像特徴に動的畳み込みヘッドを条件付け,我々のモデルをテスト画像に適応させる。 前立腺セグメンテーション, COVID-19病変セグメンテーション, 光カップ/光ディスクセグメンテーションにおけるDCACモデルの評価を行った。 本結果から,提案手法は各セグメンテーションタスクにおいて競合するすべての手法より優れており,DACおよびCACモジュールの有効性も示されている。

The domain gap caused mainly by variable medical image quality renders a major obstacle on the path between training a segmentation model in the lab and applying the trained model to unseen clinical data. To address this issue, domain generalization methods have been proposed, which however usually use static convolutions and are less flexible. In this paper, we propose a multi-source domain generalization model, namely domain and content adaptive convolution (DCAC), for medical image segmentation. Specifically, we design the domain adaptive convolution (DAC) module and content adaptive convolution (CAC) module and incorporate both into an encoder-decoder backbone. In the DAC module, a dynamic convolutional head is conditioned on the predicted domain code of the input to make our model adapt to the unseen target domain. In the CAC module, a dynamic convolutional head is conditioned on the global image features to make our model adapt to the test image. We evaluated the DCAC model against the baseline and four state-of-the-art domain generalization methods on the prostate segmentation, COVID-19 lesion segmentation, and optic cup/optic disc segmentation tasks. Our results indicate that the proposed DCAC model outperforms all competing methods on each segmentation task, and also demonstrate the effectiveness of the DAC and CAC modules.
翻訳日:2021-09-14 15:21:23 公開日:2021-09-13
# 深層学習を用いた画像生成手法開発におけるGPU活用技術の現状

The State of the Art when using GPUs in Devising Image Generation Methods Using Deep Learning ( http://arxiv.org/abs/2109.05783v1 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) ディープラーニングは、多層ニューラルネットワークを用いた機械学習のテクニックである。 画像合成や画像認識にも用いられてきたが、近年では様々な社会的検出や社会的ラベル付けにも用いられている。 本研究では,(1)vggモデルとninモデルを用いた場合のgpuとcpu間の1分間のイテレーション数,(2)vggモデルを使用する場合の1分間のイテレーション数を128ピクセルの画像を用いて比較した。 画素数が64または128の場合、gpuを使用する場合、処理時間はほぼ同じであったが、画素数が256に変更された場合、1分あたりのイテレーション数が減少し、処理時間が約3倍に増加した。 このケーススタディでは、画素数が512以上の場合にコアダンプとなるため、ベクトル計算部での改善を検討する必要があると考えられる。 ニューラルネットワークを用いた8k高飽和コンピュータグラフィックスの実現を目指す場合,画像サイズがさらに高度に飽和して大規模になった場合でも,画像認識やチューニングを行う際の並列計算が可能な環境を考える必要がある。

Deep learning is a technique for machine learning using multi-layer neural networks. It has been used for image synthesis and image recognition, but in recent years, it has also been used for various social detection and social labeling. In this analysis, we compared (1) the number of Iterations per minute between the GPU and CPU when using the VGG model and the NIN model, and (2) the number of Iterations per minute by the number of pixels when using the VGG model, using an image with 128 pixels. When the number of pixels was 64 or 128, the processing time was almost the same when using the GPU, but when the number of pixels was changed to 256, the number of iterations per minute decreased and the processing time increased by about three times. In this case study, since the number of pixels becomes core dumping when the number of pixels is 512 or more, we can consider that we should consider improvement in the vector calculation part. If we aim to achieve 8K highly saturated computer graphics using neural networks, we will need to consider an environment that allows computation even when the size of the image becomes even more highly saturated and massive, and parallel computation when performing image recognition and tuning.
翻訳日:2021-09-14 15:20:57 公開日:2021-09-13
# 深層学習に基づく腎腫瘍のCT診断における臨床応用

Leveraging Clinical Characteristics for Improved Deep Learning-Based Kidney Tumor Segmentation on CT ( http://arxiv.org/abs/2109.05816v1 )

ライセンス: Link先を確認
Christina B. Lund, Bas H. M. van der Velden(参考訳) 造影CT(Contrat-enhanced Computed Tomography)を用いて, 腎癌の自動分節化を改善できるかどうかを検討した。 造影ct検査を施行した300例の腎癌患者と臨床的特徴について検討した。 3D U-Netを用いて腎癌の基準線分画を行った。 U-Netへの入力は造影CT像で, 出力は腎, 腎腫瘍, 腎嚢胞の分画であった。 セグメンテーションの改善のために臨床特性を活用するための認識サンプリング戦略が用いられた。 この目的のために、Last Absolute Shrinkage and Selection Operator(LASSO)が使用された。 セグメンテーションはdiceとsurface diceを用いて評価した。 セグメンテーションの改善はウィルコクソン符号ランクテストを用いて評価された。 3d u-netでは, 腎臓, 腎臓, 腫瘍, 嚢胞の0.90, 腎臓質量の0.29, 腎臓腫瘍の0.28, 認識サンプリングで訓練した3d u-netがそれぞれ0.90, 0.39, 0.38のdiceスコアに達した。 以上より, 臨床特性を活かした検体採取戦略は, 腎癌分画を著しく改善した。

This paper assesses whether using clinical characteristics in addition to imaging can improve automated segmentation of kidney cancer on contrast-enhanced computed tomography (CT). A total of 300 kidney cancer patients with contrast-enhanced CT scans and clinical characteristics were included. A baseline segmentation of the kidney cancer was performed using a 3D U-Net. Input to the U-Net were the contrast-enhanced CT images, output were segmentations of kidney, kidney tumors, and kidney cysts. A cognizant sampling strategy was used to leverage clinical characteristics for improved segmentation. To this end, a Least Absolute Shrinkage and Selection Operator (LASSO) was used. Segmentations were evaluated using Dice and Surface Dice. Improvement in segmentation was assessed using Wilcoxon signed rank test. The baseline 3D U-Net showed a segmentation performance of 0.90 for kidney and kidney masses, i.e., kidney, tumor, and cyst, 0.29 for kidney masses, and 0.28 for kidney tumor, while the 3D U-Net trained with cognizant sampling enhanced the segmentation performance and reached Dice scores of 0.90, 0.39, and 0.38 respectively. To conclude, the cognizant sampling strategy leveraging the clinical characteristics significantly improved kidney cancer segmentation.
翻訳日:2021-09-14 15:20:37 公開日:2021-09-13
# インタラクティブコントラスト強調用アイスネット

IceNet for Interactive Contrast Enhancement ( http://arxiv.org/abs/2109.05838v1 )

ライセンス: Link先を確認
Keunsoo Ko and Chang-Su Kim(参考訳) 本研究では,CNNを用いた対話型コントラスト強調アルゴリズムIceNetを提案し,ユーザの好みに応じて画像コントラストの調整を容易にする。 具体的には、ユーザは、画像内の局所領域を暗くしたり明るくしたりする2種類のクリブルと、グローバル輝度を制御するパラメータを提供する。 そして、これらのアノテーションから、IceNetはピクセルワイドガンマ補正のためのガンママップを推定する。 最後に、カラー復元により、強化画像を得る。 ユーザは、満足いく画像を得るために、アノテーションを反復的に提供することができる。 IceNetはパーソナライズされた拡張イメージを自動生成する機能も備えており、必要に応じてさらなる調整の基盤として機能する。 また、IceNetを効果的かつ確実に訓練するために、3つの異なる損失を提案する。 広範な実験により、icenetはユーザーに満足のいく拡張画像を提供することができる。

A CNN-based interactive contrast enhancement algorithm, called IceNet, is proposed in this work, which enables a user to adjust image contrast easily according to his or her preference. Specifically, a user provides a parameter for controlling the global brightness and two types of scribbles to darken or brighten local regions in an image. Then, given these annotations, IceNet estimates a gamma map for the pixel-wise gamma correction. Finally, through color restoration, an enhanced image is obtained. The user may provide annotations iteratively to obtain a satisfactory image. IceNet is also capable of producing a personalized enhanced image automatically, which can serve as a basis for further adjustment if so desired. Moreover, to train IceNet effectively and reliably, we propose three differentiable losses. Extensive experiments show that IceNet can provide users with satisfactorily enhanced images.
翻訳日:2021-09-14 15:20:15 公開日:2021-09-13
# weakstil: 弱い全身スライダー画像レベルの間質性腫瘍浸潤リンパ球スコア

WeakSTIL: Weak whole-slide image level stromal tumor infiltrating lymphocyte scores are all you need ( http://arxiv.org/abs/2109.05892v1 )

ライセンス: Link先を確認
Yoni Schirris, Mendel Engelaer, Andreas Panteli, Hugo Mark Horlings, Efstratios Gavves, Jonas Teuwen(参考訳) WeakSTILは乳がん組織におけるH&E-stained whole-slide image(WSI)における間質腫瘍浸潤リンパ球(sTIL%)の割合を評価するための2段階弱ラベル深層学習パイプラインである。 sTIL%スコアは多くの固形腫瘍の予後および予測バイオマーカーである。 しかし、ラベル付けの努力が高く、専門家アノテータ間のイントラ・インターオブザーバ性が高いため、このバイオマーカーは日常的な臨床判断には使われていない。 WeakSTILは、未ラベルの病理組織データに基づいて自己教師学習を事前訓練した特徴抽出器を用いてWSIのタイルを圧縮し、弱いWSIレベルラベルのみを必要とする複数のインスタンス学習回帰器を用いて腫瘍床の各タイルの正確なsTIL%スコアを予測する。 弱いラベルしか必要とせず、既存のTIL検出方法の訓練に必要な大量のアノテーションを克服する。 WeakSTILは、WSIレベルsTIL%のスコアを予測する際には、少なくとも他のTIL検出方法と同等に優れており、専門病理医のスコアと比較すると、0.45\pm0.15$、臨床的に興味深いsTIL-highとsTIL-lowの分類タスクとして扱うと、AUCが0.89\pm0.05$となる。 さらに,WeakSTILの中間タイルレベルの予測は高い解釈が可能であり,TIL数および組織型に関連する潜伏性特徴に注意を払っていることが示唆された。 将来的には、WeakSTILは、乳がん患者を標的治療アームに成体化するために、一貫した、解釈可能なsTIL%予測を提供するために用いられる。

We present WeakSTIL, an interpretable two-stage weak label deep learning pipeline for scoring the percentage of stromal tumor infiltrating lymphocytes (sTIL%) in H&E-stained whole-slide images (WSIs) of breast cancer tissue. The sTIL% score is a prognostic and predictive biomarker for many solid tumor types. However, due to the high labeling efforts and high intra- and interobserver variability within and between expert annotators, this biomarker is currently not used in routine clinical decision making. WeakSTIL compresses tiles of a WSI using a feature extractor pre-trained with self-supervised learning on unlabeled histopathology data and learns to predict precise sTIL% scores for each tile in the tumor bed by using a multiple instance learning regressor that only requires a weak WSI-level label. By requiring only a weak label, we overcome the large annotation efforts required to train currently existing TIL detection methods. We show that WeakSTIL is at least as good as other TIL detection methods when predicting the WSI-level sTIL% score, reaching a coefficient of determination of $0.45\pm0.15$ when compared to scores generated by an expert pathologist, and an AUC of $0.89\pm0.05$ when treating it as the clinically interesting sTIL-high vs sTIL-low classification task. Additionally, we show that the intermediate tile-level predictions of WeakSTIL are highly interpretable, which suggests that WeakSTIL pays attention to latent features related to the number of TILs and the tissue type. In the future, WeakSTIL may be used to provide consistent and interpretable sTIL% predictions to stratify breast cancer patients into targeted therapy arms.
翻訳日:2021-09-14 15:20:03 公開日:2021-09-13
# 低逆移動性への勾配不一致を伴う進化的アーキテクチャ

Evolving Architectures with Gradient Misalignment toward Low Adversarial Transferability ( http://arxiv.org/abs/2109.05919v1 )

ライセンス: Link先を確認
Kevin Richard G. Operiano, Wanchalerm Pora, Hitoshi Iba, Hiroshi Kera(参考訳) ディープニューラルネットワーク画像分類器は、それらのために作成された敵の例だけでなく、他のために作成された例にも感受性があることが知られている。 この現象は、画像分類器に依存する様々なブラックボックスシステムにおいて潜在的なセキュリティリスクをもたらす。 このような相反する例の伝達可能性の背後にある理由は未だ完全には理解されておらず、多くの研究が、伝達可能性の低い分類器を得るための訓練方法を提案している。 本研究では,ネットワークアーキテクチャのトランスファービリティへの寄与を調べることによって,新しい視点からこの問題に対処する。 具体的には,神経進化を用いてネットワークアーキテクチャを進化させ,勾配的不一致を解消し,ネットワークをトレーニング後に異なる機能に収束させるアーキテクチャ探索フレームワークを提案する。 提案手法は,resnet や vgg など4つの標準ネットワークからの転送性を低減し,不安定な画像に対して高い精度を保ちながら,転送性を向上できることを示す。 さらに,勾配ミスアロゲーションでトレーニングされたネットワークは,勾配ミスアロゲーションでトレーニングされた標準ネットワークに比べて転送可能性が著しく低下し,ネットワークアーキテクチャが転送可能性の低下に重要な役割を果たしていることが示された。 本研究では、適切なネットワークアーキテクチャの設計や探索が、転送可能性問題に対処し、対向的に堅牢な画像分類器を訓練するための有望なアプローチであることを示す。

Deep neural network image classifiers are known to be susceptible not only to adversarial examples created for them but even those created for others. This phenomenon poses a potential security risk in various black-box systems relying on image classifiers. The reason behind such transferability of adversarial examples is not yet fully understood and many studies have proposed training methods to obtain classifiers with low transferability. In this study, we address this problem from a novel perspective through investigating the contribution of the network architecture to transferability. Specifically, we propose an architecture searching framework that employs neuroevolution to evolve network architectures and the gradient misalignment loss to encourage networks to converge into dissimilar functions after training. Our experiments show that the proposed framework successfully discovers architectures that reduce transferability from four standard networks including ResNet and VGG, while maintaining a good accuracy on unperturbed images. In addition, the evolved networks trained with gradient misalignment exhibit significantly lower transferability compared to standard networks trained with gradient misalignment, which indicates that the network architecture plays an important role in reducing transferability. This study demonstrates that designing or exploring proper network architectures is a promising approach to tackle the transferability issue and train adversarially robust image classifiers.
翻訳日:2021-09-14 15:19:30 公開日:2021-09-13
# 正規化流による低照度画像強調

Low-Light Image Enhancement with Normalizing Flow ( http://arxiv.org/abs/2109.05923v1 )

ライセンス: Link先を確認
Yufei Wang, Renjie Wan, Wenhan Yang, Haoliang Li, Lap-Pui Chau, Alex C. Kot(参考訳) 通常の露光画像への低照度画像の高精細化は、特に、それらのマッピング関係が一対多であることを示す。 画素単位での復元損失と決定過程に基づく以前の研究は、通常露光される画像の複雑な条件分布を捉えることができず、不適切な明るさ、残音、アーティファクトをもたらす。 本稿では,この一対多の関係を正規化フローモデルを用いてモデル化する。 低照度画像/特徴を条件として取り、通常露光される画像の分布をガウス分布にマッピングすることを学ぶ可逆ネットワーク。 このように、通常露光された画像の条件分布を適切にモデル化することができ、トレーニング中の自然画像の多様体構造をよりよく記述する損失関数により、可逆性ネットワークの他の推論方向である拡張過程が制約される。 既存のベンチマークデータセットにおける実験結果から,より優れた照明,ノイズやアーティファクトの低減,豊かな色が得られるとともに,より定量的で質的な結果が得られることがわかった。

To enhance low-light images to normally-exposed ones is highly ill-posed, namely that the mapping relationship between them is one-to-many. Previous works based on the pixel-wise reconstruction losses and deterministic processes fail to capture the complex conditional distribution of normally exposed images, which results in improper brightness, residual noise, and artifacts. In this paper, we investigate to model this one-to-many relationship via a proposed normalizing flow model. An invertible network that takes the low-light images/features as the condition and learns to map the distribution of normally exposed images into a Gaussian distribution. In this way, the conditional distribution of the normally exposed images can be well modeled, and the enhancement process, i.e., the other inference direction of the invertible network, is equivalent to being constrained by a loss function that better describes the manifold structure of natural images during the training. The experimental results on the existing benchmark datasets show our method achieves better quantitative and qualitative results, obtaining better-exposed illumination, less noise and artifact, and richer colors.
翻訳日:2021-09-14 15:19:06 公開日:2021-09-13
# 予算のバランス:マルチカメラ・ビジュアル・慣性オドメトリーのための特徴選択と追跡

Balancing the Budget: Feature Selection and Tracking for Multi-Camera Visual-Inertial Odometry ( http://arxiv.org/abs/2109.05975v1 )

ライセンス: Link先を確認
Lintong Zhang, David Wisth, Marco Camurri, Maurice Fallon(参考訳) 本稿では,全カメラを同時に使用して動作を推定する因子グラフ最適化に基づくマルチカメラ視覚慣性オドメトリシステムを提案する。 狭い廊下や暗い空間など,激しい動きや突然の照明変化を伴う困難な環境での動作追跡に注目した。 これらのシナリオでは、従来の単眼またはステレオオドメトリが失敗する。 余分なカメラを横切る動きを追跡することは理論的には失敗を防ぐが、さらなる複雑さと計算負荷を引き起こす。 これらの課題を克服するために,マルチカメラ機能トラッキングを改善する2つの新しい手法を提案する。 まず、各カメラの機能を別々に追跡する代わりに、あるカメラから別のカメラに移動する機能を継続的に追跡します。 これは精度を高め、よりコンパクトな因子グラフ表現を実現する。 第2に、限られた計算予算が決して超えないことを保証するために、カメラ全体に分散する追跡機能に関する固定予算を選択する。 より小さな情報的機能セットを使用することで、バックエンドの最適化時間を短縮しながら、同じトラッキング精度を維持できることが分かりました。 提案手法は,IMUと4台のカメラ(前方ステレオ対と2つの側面)を内蔵したハードウェア同期装置を用いて,地下鉱山,大型オープンスペース,狭い階段と廊下を備えた内部の建築シナリオにおいて広範囲に試験を行った。 ステレオオンリーのVIO法と比較して, ドリフト率(RPE)を最大80%, 回転率39%削減する。

We present a multi-camera visual-inertial odometry system based on factor graph optimization which estimates motion by using all cameras simultaneously while retaining a fixed overall feature budget. We focus on motion tracking in challenging environments such as in narrow corridors and dark spaces with aggressive motions and abrupt lighting changes. These scenarios cause traditional monocular or stereo odometry to fail. While tracking motion across extra cameras should theoretically prevent failures, it causes additional complexity and computational burden. To overcome these challenges, we introduce two novel methods to improve multi-camera feature tracking. First, instead of tracking features separately in each camera, we track features continuously as they move from one camera to another. This increases accuracy and achieves a more compact factor graph representation. Second, we select a fixed budget of tracked features which are spread across the cameras to ensure that the limited computational budget is never exceeded. We have found that using a smaller set of informative features can maintain the same tracking accuracy while reducing back-end optimization time. Our proposed method was extensively tested using a hardware-synchronize d device containing an IMU and four cameras (a front stereo pair and two lateral) in scenarios including an underground mine, large open spaces, and building interiors with narrow stairs and corridors. Compared to stereo-only state-of-the-art VIO methods, our approach reduces the drift rate (RPE) by up to 80% in translation and 39% in rotation.
翻訳日:2021-09-14 15:18:45 公開日:2021-09-13
# OCTA画像における血管のセグメンテーション--周波数に基づく方法

Blood vessel segmentation in en-face OCTA images: a frequency based method ( http://arxiv.org/abs/2109.06116v1 )

ライセンス: Link先を確認
Anna Breger, Felix Goldbach, Bianca S. Gerendas, Ursula Schmidt-Erfurth, Martin Ehler(参考訳) 光コヒーレンストモグラフィアンギオグラフィー(OCTA)は、ヒト網膜における網膜血流の可視化のための新しい非侵襲的画像モダリティである。 特定のOCTAイメージングバイオマーカーを用いて病理の同定を行い、血管の自動画像分割はその後の解析と診断を改善することができる。 本稿では,いわゆるgaborフィルタバンクを用いた画像の周波数表現に基づく容器識別法を提案する。 このアルゴリズムは、cirrus hd-octデバイスによって取得された10ドル目のオクタ画像データに基づいて評価される。 セグメンテーション結果は非常に質的視覚的評価フィードバックを受け、容器密度に関するデバイス固有の値と一致した。 局所性に関しては、セグメンテーションはさらに信頼性が高く正確です。 そこで本研究では,網膜血流を直接解析できる適応型局所血管密度マップを提案する。

Optical coherence tomography angiography (OCTA) is a novel noninvasive imaging modality for visualization of retinal blood flow in the human retina. Using specific OCTA imaging biomarkers for the identification of pathologies, automated image segmentations of the blood vessels can improve subsequent analysis and diagnosis. We present a novel method for the vessel identification based on frequency representations of the image, in particular, using so-called Gabor filter banks. The algorithm is evaluated on an OCTA image data set from $10$ eyes acquired by a Cirrus HD-OCT device. The segmentation outcomes received very good qualitative visual evaluation feedback and coincide well with device-specific values concerning vessel density. Concerning locality our segmentations are even more reliable and accurate. Therefore, we suggest the computation of adaptive local vessel density maps that allow straightforward analysis of retinal blood flow.
翻訳日:2021-09-14 15:18:23 公開日:2021-09-13
# rgb画像からの単段キーポイントに基づくカテゴリレベルオブジェクトポーズ推定

Single-stage Keypoint-based Category-level Object Pose Estimation from an RGB Image ( http://arxiv.org/abs/2109.06161v1 )

ライセンス: Link先を確認
Yunzhi Lin, Jonathan Tremblay, Stephen Tyree, Patricio A. Vela, Stan Birchfield(参考訳) 6-DoFオブジェクトのポーズ推定に関する以前の研究は、検出された各オブジェクトに対してテクスチャCADモデルが利用可能なインスタンスレベルの処理に重点を置いていた。 カテゴリーレベルの6-dofポーズ推定は、非構造化現実のシナリオで動作するロボットビジョンシステムを開発するための重要なステップである。 本稿では,単一のrgbイメージを入力として既知のカテゴリ内の未知のオブジェクトインスタンス上で動作するカテゴリレベルのオブジェクトポーズ推定のための,単一ステージのキーポイントベースアプローチを提案する。 提案ネットワークは, 2次元物体検出を行い, 2次元キーポイントを検知し, 6次元ポーズを推定し, 相対的に結合する立方体次元を回帰する。 これらの量は逐次的に推定され、より簡単なタスクからより難しいタスクへの情報伝達に、最近のconvGRUのアイデアを活用している。 設計選択における単純さは, 一般的な立方体頂点座標, 単段ネットワーク, 単分子RGB入力である。 我々は,挑戦的なobjectronベンチマークを用いて,3d iouメトリックにおける最先端手法(mobilepose単段法27.6%,関連する2段法7.1%)よりも優れた実験を行った。

Prior work on 6-DoF object pose estimation has largely focused on instance-level processing, in which a textured CAD model is available for each object being detected. Category-level 6-DoF pose estimation represents an important step toward developing robotic vision systems that operate in unstructured, real-world scenarios. In this work, we propose a single-stage, keypoint-based approach for category-level object pose estimation that operates on unknown object instances within a known category using a single RGB image as input. The proposed network performs 2D object detection, detects 2D keypoints, estimates 6-DoF pose, and regresses relative bounding cuboid dimensions. These quantities are estimated in a sequential fashion, leveraging the recent idea of convGRU for propagating information from easier tasks to those that are more difficult. We favor simplicity in our design choices: generic cuboid vertex coordinates, single-stage network, and monocular RGB input. We conduct extensive experiments on the challenging Objectron benchmark, outperforming state-of-the-art methods on the 3D IoU metric (27.6% higher than the MobilePose single-stage approach and 7.1% higher than the related two-stage approach).
翻訳日:2021-09-14 15:18:11 公開日:2021-09-13
# 高度制約環境における二足歩行ロボットの視覚支援自律ナビゲーション

Vision-Aided Autonomous Navigation of Bipedal Robots in Height-Constrained Environments ( http://arxiv.org/abs/2109.05714v1 )

ライセンス: Link先を確認
Zhongyu Li, Jun Zeng, Shuxiao Chen, Koushil Sreenath(参考訳) 大型ロボットを未知の高さ制限された環境で移動させることは困難である。 障害物を回避するために高速で信頼性の高い計画アルゴリズムが必要となるだけでなく、ロボットは高さ制限された領域の下を移動するためにしゃがみ込んで本質的な寸法を変えることもできる。 このような課題を処理できる移動ロボットはごくわずかであり、二足歩行ロボットは解決策を提供する。 しかし、二足歩行ロボットは非線形・ハイブリッドのダイナミクスを持つため、ダイナミックな実現性と安全性を確保しつつ軌道計画を行うのは難しい。 本稿では,2足歩行ロボットが高度制約のある環境を安全に探索できるようにするために,3層のプランナーと可変歩行高さ制御装置を活用する,エンドツーエンドの視覚支援自律ナビゲーションフレームワークを提案する。 平面歩行と垂直歩行高さのロボット結合ダイナミクスを捉えるために,垂直動作バネ装荷逆振り子(vslip)モデルを導入した。 この縮小順序モデルは、長期および短期の安全な軌道計画の最適化に利用される。 可変歩行高さ制御装置を利用して、2足歩行ロボットは、計画された軌道に沿って安定した周期歩行歩行を維持できる。 フレームワーク全体をテストし、二足歩行ロボットCassieを使って実験的に検証する。 これは、様々な高さ制約された環境でゴール位置まで歩きながら障害物を安全に回避するためにロボットを駆動する信頼できる自律性を示す。

Navigating a large-scaled robot in unknown and cluttered height-constrained environments is challenging. Not only is a fast and reliable planning algorithm required to go around obstacles, the robot should also be able to change its intrinsic dimension by crouching in order to travel underneath height constrained regions. There are few mobile robots that are capable of handling such a challenge, and bipedal robots provide a solution. However, as bipedal robots have nonlinear and hybrid dynamics, trajectory planning while ensuring dynamic feasibility and safety on these robots is challenging. This paper presents an end-to-end vision-aided autonomous navigation framework which leverages three layers of planners and a variable walking height controller to enable bipedal robots to safely explore height-constrained environments. A vertically actuated Spring-Loaded Inverted Pendulum (vSLIP) model is introduced to capture the robot coupled dynamics of planar walking and vertical walking height. This reduced-order model is utilized to optimize for long-term and short-term safe trajectory plans. A variable walking height controller is leveraged to enable the bipedal robot to maintain stable periodic walking gaits while following the planned trajectory. The entire framework is tested and experimentally validated using a bipedal robot Cassie. This demonstrates reliable autonomy to drive the robot to safely avoid obstacles while walking to the goal location in various kinds of height-constrained cluttered environments.
翻訳日:2021-09-14 15:17:14 公開日:2021-09-13
# 非単調線探索技術を用いたbarzilaiおよびborwein共役勾配法とその非負行列因子分解への応用

Barzilai and Borwein conjugate gradient method equipped with a non-monotone line search technique and its application on non-negative matrix factorization ( http://arxiv.org/abs/2109.05685v1 )

ライセンス: Link先を確認
Sajad Fathi Hafshejani, Daya Gaur, Shahadat Hossain, Robert Benkoczi(参考訳) 本稿では,制約のない非線形最適化問題を解くための新しい非単調共役勾配法を提案する。 まず,非単音線探索法を,アルゴリズムの効率に不可欠な非単音パラメータを計算するための新しい三角関数を導入することで修正した。 次に,各イテレーションにおけるステップサイズ値を計算するために,Barzilai-Borwein法の凸結合を適用した。 適切な仮定の下では、新しいアルゴリズムが大域収束特性を持つことを証明できる。 提案手法の有効性と有効性は,アルゴリズムを標準的な試験問題や非負行列分解問題に適用することによって決定される。

In this paper, we propose a new non-monotone conjugate gradient method for solving unconstrained nonlinear optimization problems. We first modify the non-monotone line search method by introducing a new trigonometric function to calculate the non-monotone parameter, which plays an essential role in the algorithm's efficiency. Then, we apply a convex combination of the Barzilai-Borwein method for calculating the value of step size in each iteration. Under some suitable assumptions, we prove that the new algorithm has the global convergence property. The efficiency and effectiveness of the proposed method are determined in practice by applying the algorithm to some standard test problems and non-negative matrix factorization problems.
翻訳日:2021-09-14 15:13:05 公開日:2021-09-13
# 公平性の選択について:特定の文脈における代表的公平性指標の探索

On the Choice of Fairness: Finding Representative Fairness Metrics for a Given Context ( http://arxiv.org/abs/2109.05697v1 )

ライセンス: Link先を確認
Hadis Anahideh, Nazanin Nezami, Abolfazl Asudeh(参考訳) データに埋め込まれた歴史的差別に気付くことが重要であり、予測モデリングパイプライン全体を通してバイアスを減らすための公正度尺度を考えることが重要である。 公正性の様々な概念が定義されているが、適切な計量を選択することは面倒である。 トレードオフと不可能定理により、そのような選択はさらに複雑で議論の的になる。 実際には、ユーザ(通常データサイエンティスト)は、それぞれの指標を理解し、(可能であれば)異なる尺度の組合せ空間を手作業で探索し、コンテキスト、ユースケース、規制に基づいてどの組み合わせが望ましいかを決定する必要がある。 公平性概念の選択の重荷を緩和するために,与えられた文脈に対する異なる尺度間の相関やトレードオフを自動的に発見する枠組みを提案する。 我々のフレームワークは、他者を表す小さな尺度のサブセットを見つけ、それらの間のトレードオフを強調することで、探索空間を劇的に減らします。 これにより、探検空間の大きさによって無視される可能性のある様々な視点から不公平を見ることができる。 実世界のベンチマークデータセットに包括的実験を用いて提案手法の有効性を示す。

It is of critical importance to be aware of the historical discrimination embedded in the data and to consider a fairness measure to reduce bias throughout the predictive modeling pipeline. Various notions of fairness have been defined, though choosing an appropriate metric is cumbersome. Trade-offs and impossibility theorems make such selection even more complicated and controversial. In practice, users (perhaps regular data scientists) should understand each of the measures and (if possible) manually explore the combinatorial space of different measures before they can decide which combination is preferred based on the context, the use case, and regulations. To alleviate the burden of selecting fairness notions for consideration, we propose a framework that automatically discovers the correlations and trade-offs between different pairs of measures for a given context. Our framework dramatically reduces the exploration space by finding a small subset of measures that represent others and highlighting the trade-offs between them. This allows users to view unfairness from various perspectives that might otherwise be ignored due to the sheer size of the exploration space. We showcase the validity of the proposal using comprehensive experiments on real-world benchmark data sets.
翻訳日:2021-09-14 15:12:53 公開日:2021-09-13
# 逆多重インデックスを用いた高速変分オートエンコーダによる協調フィルタリング

Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative Filtering ( http://arxiv.org/abs/2109.05773v1 )

ライセンス: Link先を確認
Jin Chen, Binbin Jin, Xu Huang, Defu Lian, Kai Zheng, Enhong Chen(参考訳) 変分オートエンコーダ (VAE) は協調フィルタリングの非線形手法として拡張されている。 しかしながら、VAEのボトルネックは全ての項目に対するソフトマックス計算にあり、最適化の損失と勾配を計算するためにアイテム数に線形コストがかかる。 これは、現実世界のシナリオで何百万ものアイテムがあるため、実用性を妨げます。 重要度サンプリングは,サンプルソフトマックスを導出する有効な近似法である。 しかし、既存の手法は通常、一様または人気サンプルを提案分布として利用し、勾配推定の大きなバイアスをもたらす。 そこで本研究では, 逆マルチインデックスに基づく内積ベースソフトマックス確率を分解し, サブリニア時間および高精度サンプリングを実現する。 提案手法に基づいて,協調フィルタリングのための高速変分オートエンコーダ(FastVAE)を開発した。 実世界の3つのデータセットの実験によると、FastVAEはサンプリング品質と効率の両方で最先端のベースラインを上回ります。

Variational AutoEncoder (VAE) has been extended as a representative nonlinear method for collaborative filtering. However, the bottleneck of VAE lies in the softmax computation over all items, such that it takes linear costs in the number of items to compute the loss and gradient for optimization. This hinders the practical use due to millions of items in real-world scenarios. Importance sampling is an effective approximation method, based on which the sampled softmax has been derived. However, existing methods usually exploit the uniform or popularity sampler as proposal distributions, leading to a large bias of gradient estimation. To this end, we propose to decompose the inner-product-based softmax probability based on the inverted multi-index, leading to sublinear-time and highly accurate sampling. Based on the proposed proposals, we develop a fast Variational AutoEncoder (FastVAE) for collaborative filtering. FastVAE can outperform the state-of-the-art baselines in terms of both sampling quality and efficiency according to the experiments on three real-world datasets.
翻訳日:2021-09-14 15:12:36 公開日:2021-09-13
# 階層的双対平均化によるゼロ次非凸学習

Zeroth-order non-convex learning via hierarchical dual averaging ( http://arxiv.org/abs/2109.05829v1 )

ライセンス: Link先を確認
Am\'elie H\'eliou and Matthieu Martin and Panayotis Mertikopoulos and Thibaud Rahier(参考訳) 本稿では,ゼロ階オンライン非凸最適化のための2次平均化の階層バージョンを提案する。すなわち,各段階において,最適化器が未知の非凸損失関数に直面している場合の学習過程をフィードバックとしてのみ受信する。 提案されたポリシーのクラスは、到着時に損失情報を集約するオンラインモデルの構築に依存しており、2つの主要なコンポーネントで構成されている。 (a)フィッシャー情報計量に適合する正則化器(周囲空間のメートル法基準とは対照的)及び b) 適応型階層型スケジュールに基づく問題状態空間の原理的探索。 この構成により、モデルのバイアスと分散のよりシャープな制御が可能になり、学習者の静的な後悔と動的後悔の両方、つまり遊びの地平線をたどりながら最高の動的ポリシーに逆らう後悔の両方の厳密な境界を引き出すことができる。

We propose a hierarchical version of dual averaging for zeroth-order online non-convex optimization - i.e., learning processes where, at each stage, the optimizer is facing an unknown non-convex loss function and only receives the incurred loss as feedback. The proposed class of policies relies on the construction of an online model that aggregates loss information as it arrives, and it consists of two principal components: (a) a regularizer adapted to the Fisher information metric (as opposed to the metric norm of the ambient space); and (b) a principled exploration of the problem's state space based on an adapted hierarchical schedule. This construction enables sharper control of the model's bias and variance, and allows us to derive tight bounds for both the learner's static and dynamic regret - i.e., the regret incurred against the best dynamic policy in hindsight over the horizon of play.
翻訳日:2021-09-14 15:12:22 公開日:2021-09-13
# FaiREO:コース勧告における機会平等のためのユーザグループフェアネス

FaiREO: User Group Fairness for Equality of Opportunity in Course Recommendation ( http://arxiv.org/abs/2109.05931v1 )

ライセンス: Link先を確認
Agoritsa Polyzou, Maria Kalantzi, George Karypis(参考訳) 高等教育機関の学生にとってコース選択は難しい。 既存のコースレコメンデーションシステムは、学生に適切な提案を行い、利用可能なコースの探索を支援する。 これらの推奨コースは、学生の学位選択プログラム、将来の雇用、社会経済的地位にも影響を与えうる。 本稿では,コース推薦システムに存在する可能性のあるバイアスを特定し,緩和することに焦点を当てる。 学生全員に提案するバランスのとれた機会の促進に努める。 同時に、保護されたすべてのグループに対して、優れた品質を推奨する必要があります。 我々は,多目的最適化問題としてアプローチを定式化し,機会と品質のトレードオフについて検討する。 本手法は実世界データと合成データの両方を用いて評価する。 その結果,機会の平等性に関する公平性は大幅に改善できるが,品質の低下もいくつか導入する。 我々がテストした4つの方法のうち、GHC-IncとGHC-Tabuは、異なる有利な特性を持つ最高のパフォーマンスである。

Course selection is challenging for students in higher educational institutions. Existing course recommendation systems make relevant suggestions to the students and help them in exploring the available courses. The recommended courses can influence students' choice of degree program, future employment, and even their socioeconomic status. This paper focuses on identifying and alleviating biases that might be present in a course recommender system. We strive to promote balanced opportunities with our suggestions to all groups of students. At the same time, we need to make recommendations of good quality to all protected groups. We formulate our approach as a multi-objective optimization problem and study the trade-offs between equal opportunity and quality. We evaluate our methods using both real-world and synthetic datasets. The results indicate that we can considerably improve fairness regarding equality of opportunity, but we will introduce some quality loss. Out of the four methods we tested, GHC-Inc and GHC-Tabu are the best performing ones with different advantageous characteristics.
翻訳日:2021-09-14 15:12:05 公開日:2021-09-13
# 不変表現を用いたクロスドメインロボット模倣

Cross Domain Robot Imitation with Invariant Representation ( http://arxiv.org/abs/2109.05940v1 )

ライセンス: Link先を確認
Zhao-Heng Yin, Lingfeng Sun, Hengbo Ma, Masayoshi Tomizuka, Wu-Jun Li(参考訳) 動物は、バイオメカニクスの違いにもかかわらず、お互いの行動を模倣することができる。 対照的に、他の類似ロボットを模倣することは、ロボット工学においてずっと難しい作業だ。 この問題はクロスドメイン模倣学習(cdil)と呼ばれる。 本稿では,類似ロボットのクラスにおけるCDILについて考察する。 不変表現に基づく模倣学習アルゴリズムを導入することでこの問題に対処する。 本稿では,CDILを実現するために,複数のロボットの動作を調整する不変状態と動作表現の学習を提案する。 同様の目的で従来の不変表現学習法と比較すると,学習には人間のラベル付きペアワイズデータを必要としない。 代わりに、サイクルコンシスタンスとドメインの混乱を使って表現を調整し、堅牢性を高めます。 シミュレーションで複数のロボットでこのアルゴリズムをテストし、未知のロボットインスタンスが既存のエキスパートデモでうまく訓練できることを示す。 また,本手法は,CDILの成功に欠かせない,類似した動作の異なるロボットに対して,類似した表現を学習できることを示す。

Animals are able to imitate each others' behavior, despite their difference in biomechanics. In contrast, imitating the other similar robots is a much more challenging task in robotics. This problem is called cross domain imitation learning~(CDIL). In this paper, we consider CDIL on a class of similar robots. We tackle this problem by introducing an imitation learning algorithm based on invariant representation. We propose to learn invariant state and action representations, which aligns the behavior of multiple robots so that CDIL becomes possible. Compared with previous invariant representation learning methods for similar purpose, our method does not require human-labeled pairwise data for training. Instead, we use cycle-consistency and domain confusion to align the representation and increase its robustness. We test the algorithm on multiple robots in simulator and show that unseen new robot instances can be trained with existing expert demonstrations successfully. Qualitative results also demonstrate that the proposed method is able to learn similar representations for different robots with similar behaviors, which is essential for successful CDIL.
翻訳日:2021-09-14 15:11:51 公開日:2021-09-13
# レコメンデーションシステムにおけるユーザのフィードバックループバイアスの補正

Correcting the User Feedback-Loop Bias for Recommendation Systems ( http://arxiv.org/abs/2109.06037v1 )

ライセンス: Link先を確認
Weishen Pan, Sen Cui, Hongyi Wen, Kun Chen, Changshui Zhang, Fei Wang(参考訳) 選択バイアスは、明示的なフィードバックによるレコメンデーションシステムのトレーニングと評価のためのデータで一般的である。 例えば、ユーザーは好きなアイテムを評価しがちだ。 しかしながら、特定のユーザに関する項目を評価する場合、推奨アルゴリズムのほとんどは、その評価(フィードバック)履歴に大きく依存する傾向があります。 本稿では,ユーザのフィードバックループバイアスと呼ばれるレコメンデーションシステムにおいて,暗黙のバイアスを導入する。 本稿では,これらのバイアスを体系的かつダイナミックに修正し,時間的評価情報を利用してより多様で客観的な推薦を得る手法を提案する。 具体的には,ユーザが逐次評価する項目の確率分布を推定するために,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。 これらの推定されたダイナミック露光確率は、逆正当性スコア(IPS)評価予測器をトレーニングするための正当性スコアとして使用される。 実世界のレコメンデーションシステムにおけるそのようなユーザフィードバックループバイアスの存在を実証的に検証し、デバイアスのないベースラインモデルと、他の手法で推定された確率スコアとを比較した。 結果は我々のアプローチの優位性を示している。

Selection bias is prevalent in the data for training and evaluating recommendation systems with explicit feedback. For example, users tend to rate items they like. However, when rating an item concerning a specific user, most of the recommendation algorithms tend to rely too much on his/her rating (feedback) history. This introduces implicit bias on the recommendation system, which is referred to as user feedback-loop bias in this paper. We propose a systematic and dynamic way to correct such bias and to obtain more diverse and objective recommendations by utilizing temporal rating information. Specifically, our method includes a deep-learning component to learn each user's dynamic rating history embedding for the estimation of the probability distribution of the items that the user rates sequentially. These estimated dynamic exposure probabilities are then used as propensity scores to train an inverse-propensity-s coring (IPS) rating predictor. We empirically validated the existence of such user feedback-loop bias in real world recommendation systems and compared the performance of our method with the baseline models that are either without de-biasing or with propensity scores estimated by other methods. The results show the superiority of our approach.
翻訳日:2021-09-14 15:11:36 公開日:2021-09-13
# フェデレーションネットワークシステムにおけるコンセプトドリフト検出

Concept Drift Detection in Federated Networked Systems ( http://arxiv.org/abs/2109.06088v1 )

ライセンス: Link先を確認
Dimitrios Michael Manias, Ibrahim Shaer, Li Yang, Abdallah Shami(参考訳) 次世代ネットワークの実現に伴い、インテリジェンスレベルの増加が求められている。 連合学習は、知的ネットワークと分散ネットワークの鍵となる技術として認識されてきたが、機械学習アプリケーションと同様に、ドリフトの概念化が容易である。 概念ドリフトはモデルの性能に直接影響し、現代のネットワークによって提供される危機的および緊急的なサービスを考えると深刻な結果をもたらす可能性がある。 ドリフトの悪影響を軽減するために,フェデレーション学習プロセスの各イテレーションで提供されるフェデレーション学習更新を利用したコンセプトドリフト検出システムを提案する。 システムのドリフトノードを分離するフレームワークは,次元削減とクラスタリング技術を用いて,インテリジェントトランスポーテーションシステム(Intelligent Transportation System)をユースケースとして実験を行う。 提案手法は,ドリフトの異なる段階とシステム露出の異なる段階において,様々な非iidシナリオにおいてドリフトノードを検出できることを実証する。

As next-generation networks materialize, increasing levels of intelligence are required. Federated Learning has been identified as a key enabling technology of intelligent and distributed networks; however, it is prone to concept drift as with any machine learning application. Concept drift directly affects the model's performance and can result in severe consequences considering the critical and emergency services provided by modern networks. To mitigate the adverse effects of drift, this paper proposes a concept drift detection system leveraging the federated learning updates provided at each iteration of the federated training process. Using dimensionality reduction and clustering techniques, a framework that isolates the system's drifted nodes is presented through experiments using an Intelligent Transportation System as a use case. The presented work demonstrates that the proposed framework is able to detect drifted nodes in a variety of non-iid scenarios at different stages of drift and different levels of system exposure.
翻訳日:2021-09-14 15:11:19 公開日:2021-09-13
# フェデレーション学習におけるソース推論攻撃

Source Inference Attacks in Federated Learning ( http://arxiv.org/abs/2109.05659v1 )

ライセンス: Link先を確認
Hongsheng Hu and Zoran Salcic and Lichao Sun and Gillian Dobbie and Xuyun Zhang(参考訳) フェデレートラーニング(FL)は、複数のクライアントがプライベートデータを共有せずにモデルを共同でトレーニングできる、有望なプライバシ認識パラダイムとして登場した。 近年多くの研究で、FLは、与えられたモデルのトレーニングメンバーと非メンバーを区別できるメンバー推測攻撃(MIA)に弱いことが示されている。 しかしながら、既存のmiasは、トレーニングメンバのソース、すなわちトレーニングメンバを所有するクライアントの情報を無視し、flのソースプライバシを、すべてのクライアントからの例のメンバプライバシを越えて探求することが不可欠である。 ソース情報の漏洩は、深刻なプライバシー問題を引き起こす可能性がある。 例えば、新型コロナウイルスのパンデミックのためのFLモデルのトレーニングに寄与する病院の特定は、病院の所有者が高いリスク領域にいる場合、この病院のデータ記録の所有者を識別しやすくする可能性がある。 本稿では,トレーニングメンバのソースを最適に推定できる,ソース推論アタック(sia)と呼ばれる新しい推論アタックを提案する。 具体的には,真正なサーバが,flプロトコルに違反することなく,トレーニングメンバの非自明なソース情報を盗むためのsiaを起動できることを実証するために,ベイズ的視点を革新的に採用する。 サーバは、トレーニングメンバーのローカルモデルの予測損失を利用して、攻撃を効果的かつ非侵襲的に達成する。 我々は,1つの合成データと5つの実データを用いて,SIAの重要要素を評価する実験を行い,提案手法の有効性を示した。

Federated learning (FL) has emerged as a promising privacy-aware paradigm that allows multiple clients to jointly train a model without sharing their private data. Recently, many studies have shown that FL is vulnerable to membership inference attacks (MIAs) that can distinguish the training members of the given model from the non-members. However, existing MIAs ignore the source of a training member, i.e., the information of which client owns the training member, while it is essential to explore source privacy in FL beyond membership privacy of examples from all clients. The leakage of source information can lead to severe privacy issues. For example, identification of the hospital contributing to the training of an FL model for COVID-19 pandemic can render the owner of a data record from this hospital more prone to discrimination if the hospital is in a high risk region. In this paper, we propose a new inference attack called source inference attack (SIA), which can derive an optimal estimation of the source of a training member. Specifically, we innovatively adopt the Bayesian perspective to demonstrate that an honest-but-curious server can launch an SIA to steal non-trivial source information of the training members without violating the FL protocol. The server leverages the prediction loss of local models on the training members to achieve the attack effectively and non-intrusively. We conduct extensive experiments on one synthetic and five real datasets to evaluate the key factors in an SIA, and the results show the efficacy of the proposed source inference attack.
翻訳日:2021-09-14 15:08:29 公開日:2021-09-13
# パラメトリック可変性を有するニューラルネットワーク制御非線形システムのロバスト安定性

Robust Stability of Neural-Network Controlled Nonlinear Systems with Parametric Variability ( http://arxiv.org/abs/2109.05710v1 )

ライセンス: Link先を確認
Soumyabrata Talukder, Ratnesh Kumar(参考訳) システムの安定性の証明と安定化可能な運用領域の特定は、運用上の安全性と安全性と堅牢性を保証する上で、2つの重要な懸念事項である。 機械学習ツールの登場により、これらの問題はフィードバックループに機械学習コンポーネントを持つシステムにとって特に重要である。 ここでは、パラメトリックな変化が起こると平衡がドリフトする神経ネットワーク制御非線形系の安定性と安定化性の理論を開発する。 lyapunovベースの凸安定性証明書を開発し、さらに、ニューラルネットワーク(nn)コントローラの局所リプシッツ上界と、その状態空間上の対応する操作領域との見積もりを考案するために、クラス内の各システムのクローズドループ(cl)局所漸近安定性が同じコントローラの下で保証される初期化セットを含む。 このようなロバスト安定化nnコントローラの演算には、安定性保証トレーニング(sgt)アルゴリズムも提案されている。 提案手法の有効性を例示的に示す。

Stability certification and identification of the stabilizable operating region of a system are two important concerns to ensure its operational safety/security and robustness. With the advent of machine-learning tools, these issues are specially important for systems with machine-learned components in the feedback loop. Here we develop a theory for stability and stabilizability of a class of neural-network controlled nonlinear systems, where the equilibria can drift when parametric changes occur. A Lyapunov based convex stability certificate is developed and is further used to devise an estimate for a local Lipschitz upper bound for a neural-network (NN) controller and a corresponding operating domain on the state space, containing an initialization set from where the closed-loop (CL) local asymptotic stability of each system in the class is guaranteed under the same controller, while the system trajectories remain confined to the operating domain. For computing such a robust stabilizing NN controller, a stability guaranteed training (SGT) algorithm is also proposed. The effectiveness of the proposed framework is demonstrated using illustrative examples.
翻訳日:2021-09-14 15:08:02 公開日:2021-09-13
# 精密学習と能動推論を用いた確率的フォールトトレラント制御

Towards Stochastic Fault-tolerant Control using Precision Learning and Active Inference ( http://arxiv.org/abs/2109.05870v1 )

ライセンス: Link先を確認
Mohamed Baioumy, Corrado Pezzato, Carlos Hernandez Corbato, Nick Hawes, Riccardo Ferrari(参考訳) 本研究では,アクティブ推論に基づくロボットマニピュレータの耐故障性制御手法を提案する。 既存のスキームの大部分では、センサが健全(機能)であるか、故障であるかの2値決定は、測定データに基づいて行われる。 決定境界はしきい値と呼ばれ、通常は決定論的である。 故障判定後、故障センサを除外して障害回復を得る。 本稿では,事前のしきい値定義を必要としない能動推論と高精度学習に基づく確率的フォールトトレラントスキームを提案する。 代わりに、その健康状態を表すセンサーの精度は、モデルフリーな方法でオンラインで学習され、システムが突然、故障したユニットを除外することはない。 ロボットマニピュレータにおける実験結果と今後の課題への方向性について述べる。

This work presents a fault-tolerant control scheme for sensory faults in robotic manipulators based on active inference. In the majority of existing schemes, a binary decision of whether a sensor is healthy (functional) or faulty is made based on measured data. The decision boundary is called a threshold and it is usually deterministic. Following a faulty decision, fault recovery is obtained by excluding the malfunctioning sensor. We propose a stochastic fault-tolerant scheme based on active inference and precision learning which does not require a priori threshold definitions to trigger fault recovery. Instead, the sensor precision, which represents its health status, is learned online in a model-free way allowing the system to gradually, and not abruptly exclude a failing unit. Experiments on a robotic manipulator show promising results and directions for future work are discussed.
翻訳日:2021-09-14 15:07:44 公開日:2021-09-13
# signguard: 協調的な悪意のある勾配フィルタリングによるビザンチン・ロバスト連関学習

SignGuard: Byzantine-robust Federated Learning through Collaborative Malicious Gradient Filtering ( http://arxiv.org/abs/2109.05872v1 )

ライセンス: Link先を確認
Jian Xu, Shao-Lun Huang, Linqi Song, Tian Lan(参考訳) フェデレーション学習における勾配ベースのトレーニングは、しばしばビザンチンクライアントとしてモデル化される、障害/悪意のあるワーカノードに対して脆弱であることが知られている。 以前の作業では、パラメータサーバの補助データを使用して受信した勾配を検証するか、統計ベースの方法を使用してビザンチンクライアントから悪意のある勾配を識別し削除する。 本稿では,補助データが常に利用可能であるとは限らないことを認め,統計に基づくアプローチに着目する。 しかし、近年のモデル中毒攻撃の研究により、既存の中央値と距離ベースの統計的防御手法のほとんどを回避でき、悪質な勾配を正直なものと区別できないことが示されている。 この課題に取り組むために,勾配ベクトルの要素方向符号がモデル中毒攻撃の検出に有用な洞察を与えることを示す。 我々は,最先端攻撃の理論的解析に基づいて,Byzantine-robustフェデレーション学習を可能にする新しいアプローチである「textit{SignGuard}」を提案する。 より正確には、受信した勾配はまず関連する大きさ、符号、類似度統計を生成するために処理され、最終的な集計の前に悪意のある勾配を取り除くために複数の並列フィルタによって協調的に利用される。 さらに,その収束度を学習速度の適切な選択と非IIDトレーニングデータに基づいて定量化し,SignGuardの理論解析を行う。 最後に、MNIST、Fashion-MNIST、CIFAR-10、AG-Newsを含む画像およびテキスト分類タスクの広範な実験を、最近提案された攻撃と防衛戦略と共に実施する。 その結果,提案手法の有効性と優位性を示した。

Gradient-based training in federated learning is known to be vulnerable to faulty/malicious worker nodes, which are often modeled as Byzantine clients. Previous work either makes use of auxiliary data at parameter server to verify the received gradients or leverages statistic-based methods to identify and remove malicious gradients from Byzantine clients. In this paper, we acknowledge that auxiliary data may not always be available in practice and focus on the statistic-based approach. However, recent work on model poisoning attacks have shown that well-crafted attacks can circumvent most of existing median- and distance-based statistical defense methods, making malicious gradients indistinguishable from honest ones. To tackle this challenge, we show that the element-wise sign of gradient vector can provide valuable insight in detecting model poisoning attacks. Based on our theoretical analysis of state-of-the-art attack, we propose a novel approach, \textit{SignGuard}, to enable Byzantine-robust federated learning through collaborative malicious gradient filtering. More precisely, the received gradients are first processed to generate relevant magnitude, sign, and similarity statistics, which are then collaboratively utilized by multiple, parallel filters to eliminate malicious gradients before final aggregation. We further provide theoretical analysis of SignGuard by quantifying its convergence with appropriate choice of learning rate and under non-IID training data. Finally, extensive experiments of image and text classification tasks - including MNIST, Fashion-MNIST, CIFAR-10, and AG-News - are conducted together with recently proposed attacks and defense strategies. The numerical results demonstrate the effectiveness and superiority of our proposed approach.
翻訳日:2021-09-14 15:07:32 公開日:2021-09-13
# 自律走行車両の交通振動検出のためのニューラルネットワーク誘導進化ファズリング

Neural Network Guided Evolutionary Fuzzing for Finding Traffic Violations of Autonomous Vehicles ( http://arxiv.org/abs/2109.06126v1 )

ライセンス: Link先を確認
Ziyuan Zhong, Gail Kaiser, Baishakhi Ray(参考訳) 自動運転車やトラック、自動運転車(AV)は、安全と信頼性への信頼がより高くなるまで、規制当局や一般大衆から受け入れられるべきではない。 しかし、既存のテスト方法は、歩行者や人間駆動車といった複数の独立したエージェントとのインタラクションを含む複雑な現実のコーナーケースに対して、AVコントローラのエンドツーエンドの動作をチェックするには不十分です。 道路や高速道路での試験運転avは、多くの稀なイベントを捉えることができないが、既存のシミュレーションベースのテスト方法は、主に単純なシナリオに焦点をあて、周囲の高度な認識を必要とする複雑な運転状況に対して、スケールしない。 これらの制限に対処するため,我々は,avシミュレータのapi文法を活用できるautofuzzと呼ばれる新しいfuzzテスト手法を提案する。 意味的かつ時間的に有効な複雑な運転シナリオ(シーンのシーケンス)を生成する。 AutoFuzzは、ユニークなトラフィック違反を見つけるためのシナリオを生成するために、API文法上の制約付きニューラルネットワーク(NN)進化的検索によってガイドされる。 1つの最先端の学習ベースコントローラと2つのルールベースのコントローラによるプロトタイプの評価は、AutoFuzzが現実世界のクラッシュに似た現実的な交通違反を効率的に見つけることを示す。 さらに、AutoFuzzが発見したトラフィック違反による学習ベースのコントローラの微調整により、新しいAVコントローラソフトウェアに見られるトラフィック違反の低減に成功した。

Self-driving cars and trucks, autonomous vehicles (AVs), should not be accepted by regulatory bodies and the public until they have much higher confidence in their safety and reliability -- which can most practically and convincingly be achieved by testing. But existing testing methods are inadequate for checking the end-to-end behaviors of AV controllers against complex, real-world corner cases involving interactions with multiple independent agents such as pedestrians and human-driven vehicles. While test-driving AVs on streets and highways fails to capture many rare events, existing simulation-based testing methods mainly focus on simple scenarios and do not scale well for complex driving situations that require sophisticated awareness of the surroundings. To address these limitations, we propose a new fuzz testing technique, called AutoFuzz, which can leverage widely-used AV simulators' API grammars. to generate semantically and temporally valid complex driving scenarios (sequences of scenes). AutoFuzz is guided by a constrained Neural Network (NN) evolutionary search over the API grammar to generate scenarios seeking to find unique traffic violations. Evaluation of our prototype on one state-of-the-art learning-based controller and two rule-based controllers shows that AutoFuzz efficiently finds hundreds of realistic traffic violations resembling real-world crashes. Further, fine-tuning the learning-based controller with the traffic violations found by AutoFuzz successfully reduced the traffic violations found in the new version of the AV controller software.
翻訳日:2021-09-14 15:07:00 公開日:2021-09-13
# 対話型What-If分析による意思決定の強化

Augmenting Decision Making via Interactive What-If Analysis ( http://arxiv.org/abs/2109.06160v1 )

ライセンス: Link先を確認
Sneha Gathani and Madelon Hulsebos and James Gale and Peter J. Haas and \c{C}a\u{g}atay Demiralp(参考訳) ビジネスデータ分析の基本的な目標は、データを使用してビジネス決定を改善することである。 営業、マーケティング、製品、運用マネージャといったビジネスユーザは、顧客の維持、コストの削減、販売の増加といった重要なパフォーマンス指標(KPI)の目標を達成するために意思決定をすることが多い。 ドライバーとして想定されるデータ属性とKPIに対応するデータの関係を発見するには、現在、ビジネスユーザーは、複数の組み合わせとシナリオを考慮し、スライシング、ディクシング、そしてデータ変換を行いながら、長い探索的な分析を行う必要がある。 例えば、年四半期にわたる顧客保持の分析や、顧客層を越えた最適なメディアチャネルの提案などです。 しかし、データセットの複雑さの増加と人間の認知的限界が組み合わさって、単純なデータセットであっても、複数の仮説を乗り越えることは困難である。 そのため、そのような分析を精神的に行うのは難しい。 既存の商用ツールは、まだ有効性が不明な部分的なソリューションを提供するか、ビジネスユーザを満足させることができない。 ここでは、ビジネスユーザがデータ属性のセット間の関係(機能)を対話的に学び、推論できるようにする必要があると考える4つの機能について論じる。 対話型ビジュアル分析システムであるsystemdでは,これらの機能を実装して,ビジネスユーザがどのような質問をすれば,そのデータを試すことができる。 マーケティングミックスモデリング分析,顧客保持分析,取引クローズ分析という3つのビジネスユースケースを通じてシステムを評価し,複数のビジネスユーザからのフィードバックを報告する。 全体として、ビジネスユーザは直感的で、興味のあるkpiに関する仮説の素早いテストと検証、効果的で迅速なデータ駆動決定に役立ちます。

The fundamental goal of business data analysis is to improve business decisions using data. Business users such as sales, marketing, product, or operations managers often make decisions to achieve key performance indicator (KPI) goals such as increasing customer retention, decreasing cost, and increasing sales. To discover the relationship between data attributes hypothesized to be drivers and those corresponding to KPIs of interest, business users currently need to perform lengthy exploratory analyses, considering multitudes of combinations and scenarios, slicing, dicing, and transforming the data accordingly. For example, analyzing customer retention across quarters of the year or suggesting optimal media channels across strata of customers. However, the increasing complexity of datasets combined with the cognitive limitations of humans makes it challenging to carry over multiple hypotheses, even for simple datasets. Therefore mentally performing such analyses is hard. Existing commercial tools either provide partial solutions whose effectiveness remains unclear or fail to cater to business users. Here we argue for four functionalities that we believe are necessary to enable business users to interactively learn and reason about the relationships (functions) between sets of data attributes, facilitating data-driven decision making. We implement these functionalities in SystemD, an interactive visual analysis system enabling business users to experiment with the data by asking what-if questions. We evaluate the system through three business use cases: marketing mix modeling analysis, customer retention analysis, and deal closing analysis, and report on feedback from multiple business users. Overall, business users find SystemD intuitive and useful for quick testing and validation of their hypotheses around interested KPI as well as in making effective and fast data-driven decisions.
翻訳日:2021-09-14 15:06:38 公開日:2021-09-13