このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210813となっている論文です。

PDF登録状況(公開日: 20210813)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 新型コロナウイルスのツイートの動的トピック識別とラベル付け手法 [全文訳有]

A Dynamic Topic Identification and Labeling Approach of COVID-19 Tweets ( http://arxiv.org/abs/2109.02462v1 )

ライセンス: CC BY 4.0
Khandaker Tayef Shahriar, Iqbal H. Sarker, Muhammad Nazrul Islam and Mohammad Ali Moni(参考訳) 本稿では、新型コロナウイルスのツイートの適切なラベルで重要なトピックを動的に識別する問題を定式化し、より広範な世論を概説する。 現在、ソーシャルメディアはインターネット技術を通じて人々を繋ぐ最良の方法の1つであり、これは私たちの日常生活にとって不可欠な部分だと考えられている。 2019年12月下旬、新型コロナウイルス(COVID-19)の流行が報告され、世界保健機関(WHO)は世界中で急速に拡散しているため緊急事態を宣言した。 新型コロナウイルスの感染拡大は、世界中の多くの人々のソーシャルメディア利用に影響している。 Twitterは最も影響力のあるソーシャルメディアサービスの一つで、パンデミックによる利用が劇的に増加した。 このように、covid-19のツイートからラベル付き特定のトピックを動的に抽出することは、手動のトピックラベル付けアプローチではなく、会話を強調する上で難しい問題である。 本稿では,ラテント・ディリクレ・アロケーション(LDA)生成トピックのアスペクト項クラスタの上位Unigram機能を用いて,ツイートからのラベル付きキートピックを自動的に識別するフレームワークを提案する。 実験の結果,この動的トピック識別とラベル付け手法は,手動の静的アプローチに対して85.48\%の精度で有効であることがわかった。

This paper formulates the problem of dynamically identifying key topics with proper labels from COVID-19 Tweets to provide an overview of wider public opinion. Nowadays, social media is one of the best ways to connect people through Internet technology, which is also considered an essential part of our daily lives. In late December 2019, an outbreak of the novel coronavirus, COVID-19 was reported, and the World Health Organization declared an emergency due to its rapid spread all over the world. The COVID-19 epidemic has affected the use of social media by many people across the globe. Twitter is one of the most influential social media services, which has seen a dramatic increase in its use from the epidemic. Thus dynamic extraction of specific topics with labels from tweets of COVID-19 is a challenging issue for highlighting conversation instead of manual topic labeling approach. In this paper, we propose a framework that automatically identifies the key topics with labels from the tweets using the top Unigram feature of aspect terms cluster from Latent Dirichlet Allocation (LDA) generated topics. Our experiment result shows that this dynamic topic identification and labeling approach is effective having the accuracy of 85.48\% with respect to the manual static approach.
翻訳日:2021-09-12 13:31:21 公開日:2021-08-13
# (参考訳) 衛星画像における目標追跡と背景抽出の教師なし学習 [全文訳有]

Unsupervised Learning for Target Tracking and Background Subtraction in Satellite Imagery ( http://arxiv.org/abs/2109.00885v1 )

ライセンス: CC BY-SA 4.0
Jonathan S. Kent, Charles C. Wamsley, Davin Flateau, Amber Ferguson(参考訳) 本稿では,新しいデュアルモデルアプローチによる追跡と背景抑圧が可能な教師なし機械学習手法について述べる。 ``jekyll`` は動く物体の位置を推定するビデオビットマスクを生成し、 ``hyde`` は擬似バックグランドフレームを出力して元の入力画像列から減算する。 これらのモデルは、クロスエントロピー損失のカスタマイズされたバージョンで訓練された。 シミュレーションデータを使用して、JekyllとHydeのパフォーマンスを、従来型の教師付き機械学習アプローチと比較した。 これらの結果から, 教師なし手法は, ラベル付きトレーニングデータを取得するコストを伴わずに, 教師付き手法と出力品質の競争力を有することがわかった。

This paper describes an unsupervised machine learning methodology capable of target tracking and background suppression via a novel dual-model approach. ``Jekyll`` produces a video bit-mask describing an estimate of the locations of moving objects, and ``Hyde`` outputs a pseudo-background frame to subtract from the original input image sequence. These models were trained with a custom-modified version of Cross Entropy Loss. Simulated data were used to compare the performance of Jekyll and Hyde against a more traditional supervised Machine Learning approach. The results from these comparisons show that the unsupervised methods developed are competitive in output quality with supervised techniques, without the associated cost of acquiring labeled training data.
翻訳日:2021-09-05 13:05:02 公開日:2021-08-13
# パーソナライズドレコメンデーションシステムのためのインクリメンタル学習

Incremental Learning for Personalized Recommender Systems ( http://arxiv.org/abs/2108.13299v1 )

ライセンス: Link先を確認
Yunbo Ouyang, Jun Shi, Haichao Wei, Huiji Gao(参考訳) ユビキタスなパーソナライズドレコメンダシステムは、一見相反する2つの目標を達成するために構築され、個々のユーザの好みに合わせて高品質なコンテンツを提供し、変化し続ける環境に迅速に適応する。 前者は大量のデータに基づいてトレーニングされる複雑な機械学習モデルを必要とし、後者はモデルの頻繁な更新を必要とする。 トレーニング効率とモデル品質の両方を提供するためのインクリメンタルな学習ソリューションを提案する。 我々の解は逐次ベイズ更新と二次近似に基づいている。 私たちの焦点は、大規模パーソナライズされたロジスティック回帰モデルであり、ディープラーニングモデルの拡張にあります。 本稿では,大規模パーソナライズドレコメンダシステムへのインクリメンタル学習の適用において生じるいくつかの実装上の課題を解決することで,理論と実践のギャップを埋める。 詳細なオフラインおよびオンライン実験は、モデル精度を維持しながらトレーニング時間を著しく短縮できることを示した。 このソリューションはLinkedInにデプロイされ、産業規模のレコメンデーションシステムに直接適用される。

Ubiquitous personalized recommender systems are built to achieve two seemingly conflicting goals, to serve high quality content tailored to individual user's taste and to adapt quickly to the ever changing environment. The former requires a complex machine learning model that is trained on a large amount of data; the latter requires frequent update to the model. We present an incremental learning solution to provide both the training efficiency and the model quality. Our solution is based on sequential Bayesian update and quadratic approximation. Our focus is on large-scale personalized logistic regression models, with extensions to deep learning models. This paper fills in the gap between the theory and the practice by addressing a few implementation challenges that arise when applying incremental learning to large personalized recommender systems. Detailed offline and online experiments demonstrated our approach can significantly shorten the training time while maintaining the model accuracy. The solution is deployed in LinkedIn and directly applicable to industrial scale recommender systems.
翻訳日:2021-09-05 08:51:12 公開日:2021-08-13
# (参考訳) 一般化された最適線形順序

Generalized Optimal Linear Orders ( http://arxiv.org/abs/2108.10692v1 )

ライセンス: CC BY 4.0
Rishi Bommasani(参考訳) 言語の逐次構造、特に文中の単語の順序は、人間の言語処理において中心的な役割を果たす。 したがって、言語の計算モデルの設計において、事実上のアプローチは、原文と同じ順序で命令された単語を機械に提示することである。 この研究の本質は、これが望ましいという暗黙の仮定を疑問視し、自然言語処理における語順の考慮に理論的健全性を注入することである。 本稿では, 認知科学, 心理言語学, 計算言語学, 自然言語処理における単語順の異なる扱いを, 柔軟なアルゴリズムの枠組みで一元化することから始める。 我々は、この異種理論の基礎を、精神言語学的最適性の不足を伴う新しい単語順序の探索の基盤として用いていく。 特に,人間および計算言語処理における長距離依存処理の難しさを考慮すると,依存長最小化の概念に着目する。 次に,可能性の組合せ空間に拘わらず,最適な単語順を求めるアルゴリズムについて論じる。 我々は、これらの単語順序が人間の言語に与える影響と、計算モデルに統合された場合の下流への影響を論じる。

The sequential structure of language, and the order of words in a sentence specifically, plays a central role in human language processing. Consequently, in designing computational models of language, the de facto approach is to present sentences to machines with the words ordered in the same order as in the original human-authored sentence. The very essence of this work is to question the implicit assumption that this is desirable and inject theoretical soundness into the consideration of word order in natural language processing. In this thesis, we begin by uniting the disparate treatments of word order in cognitive science, psycholinguistics, computational linguistics, and natural language processing under a flexible algorithmic framework. We proceed to use this heterogeneous theoretical foundation as the basis for exploring new word orders with an undercurrent of psycholinguistic optimality. In particular, we focus on notions of dependency length minimization given the difficulties in human and computational language processing in handling long-distance dependencies. We then discuss algorithms for finding optimal word orders efficiently in spite of the combinatorial space of possibilities. We conclude by addressing the implications of these word orders on human language and their downstream impacts when integrated in computational models.
翻訳日:2021-08-29 15:11:46 公開日:2021-08-13
# (参考訳) プロセスマイニングにおける構造方程式モデル発見のための特徴推奨 [全文訳有]

Feature Recommendation for Structural Equation Model Discovery in Process Mining ( http://arxiv.org/abs/2108.07795v1 )

ライセンス: CC BY 4.0
Mahnaz Sadat Qafari and Wil van der Aalst(参考訳) プロセスマイニング技術は、組織が運用プロセスを改善するのに役立つ。 組織は、プロセスマイニング技術によって、パフォーマンスやコンプライアンスの問題の根本原因を見つけ、修正することができる。 今日の企業の情報システムによって収集されるデータの量や特徴の数を考えると、根本原因分析で考慮すべき特徴の集合を発見する作業は極めて関与する。 本稿では,問題に影響を及ぼす可能性のある(集約された)特徴の集合を見つける方法を提案する。 根本原因分析タスクは通常、プロセスをサポートする情報システムから収集されたデータに機械学習技術を適用することで行われる。 そこで本研究では,機械学習手法の結果を因果として解釈しうる相関関係と因果関係の混合を防止するため,根源解析に使用可能なプロセスの構造方程式モデルを発見する手法を提案する。 提案手法をプラグインとしてpromに実装し,実および合成の2つのイベントログを用いて評価した。 これらの実験は,提案手法の有効性と有効性を示す。

Process mining techniques can help organizations to improve their operational processes. Organizations can benefit from process mining techniques in finding and amending the root causes of performance or compliance problems. Considering the volume of the data and the number of features captured by the information system of today's companies, the task of discovering the set of features that should be considered in root cause analysis can be quite involving. In this paper, we propose a method for finding the set of (aggregated) features with a possible effect on the problem. The root cause analysis task is usually done by applying a machine learning technique to the data gathered from the information system supporting the processes. To prevent mixing up correlation and causation, which may happen because of interpreting the findings of machine learning techniques as causal, we propose a method for discovering the structural equation model of the process that can be used for root cause analysis. We have implemented the proposed method as a plugin in ProM and we have evaluated it using two real and synthetic event logs. These experiments show the validity and effectiveness of the proposed methods.
翻訳日:2021-08-19 03:08:48 公開日:2021-08-13
# (参考訳) 高不確実性データポイントとしてのOODの検出 [全文訳有]

Detecting OODs as datapoints with High Uncertainty ( http://arxiv.org/abs/2108.06380v1 )

ライセンス: CC BY 4.0
Ramneet Kaur, Susmit Jha, Anirban Roy, Sangdon Park, Oleg Sokolsky, Insup Lee(参考訳) ディープニューラルネットワーク(DNN)は、オフ・オブ・ディストリビューション・インプット(OOD)に非常に高い信頼性を持つ誤った予測を生成することが知られている。 この制限は、自律運転、航空交通管理、医療診断などの高信頼システムにおけるDNNの採用における重要な課題の1つである。 この課題は最近大きな注目を集めており、モデルの予測が信頼できない入力を検出する技術がいくつか開発されている。 これらの手法は, てんかん性不確実性が高いデータポイントとしてOODを検出する。 我々は,これらの手法の検知能力の違いを実証し,不確実性の高いデータポイントとしてOODを検出するためのアンサンブルアプローチを提案する。 我々は複数のDNNアーキテクチャで視覚データセットの実験を行い、ほとんどのケースで最先端の結果を得る。

Deep neural networks (DNNs) are known to produce incorrect predictions with very high confidence on out-of-distribution inputs (OODs). This limitation is one of the key challenges in the adoption of DNNs in high-assurance systems such as autonomous driving, air traffic management, and medical diagnosis. This challenge has received significant attention recently, and several techniques have been developed to detect inputs where the model's prediction cannot be trusted. These techniques detect OODs as datapoints with either high epistemic uncertainty or high aleatoric uncertainty. We demonstrate the difference in the detection ability of these techniques and propose an ensemble approach for detection of OODs as datapoints with high uncertainty (epistemic or aleatoric). We perform experiments on vision datasets with multiple DNN architectures, achieving state-of-the-art results in most cases.
翻訳日:2021-08-18 11:57:33 公開日:2021-08-13
# (参考訳) 畳み込みニューラルネットワークにおける代表解釈の探索 [全文訳有]

Finding Representative Interpretations on Convolutional Neural Networks ( http://arxiv.org/abs/2108.06384v1 )

ライセンス: CC BY 4.0
Peter Cho-Ho Lam, Lingyang Chu, Maxim Torgonskiy, Jian Pei, Yong Zhang, Lanjun Wang(参考訳) 画像上で効果的な深層畳み込みニューラルネットワーク(cnn)の背後にある決定論理を解釈することは、ディープラーニングモデルの成功を補完する。 しかし、既存の手法では、個々の画像や少数の画像に対してのみ特定の決定論理を解釈できる。 人間の理解可能性と一般化能力を促進するために,CNNの共通決定論理を類似した画像群で解釈する代表的解釈を開発することが重要である。 本稿では,多数の類似画像に対して高度に代表される解釈を生成するための新しい教師なし手法を提案する。 我々は,共クラスタリング問題として代表解釈を求める問題を定式化し,CNNの線形決定境界のサンプルに基づいて,部分モジュラーコストのサブモジュラー被覆問題に変換する。 また,可視化と類似度ランキング手法を提案する。 本手法の優れた性能を示す大規模な実験を行った。

Interpreting the decision logic behind effective deep convolutional neural networks (CNN) on images complements the success of deep learning models. However, the existing methods can only interpret some specific decision logic on individual or a small number of images. To facilitate human understandability and generalization ability, it is important to develop representative interpretations that interpret common decision logics of a CNN on a large group of similar images, which reveal the common semantics data contributes to many closely related predictions. In this paper, we develop a novel unsupervised approach to produce a highly representative interpretation for a large number of similar images. We formulate the problem of finding representative interpretations as a co-clustering problem, and convert it into a submodular cost submodular cover problem based on a sample of the linear decision boundaries of a CNN. We also present a visualization and similarity ranking method. Our extensive experiments demonstrate the excellent performance of our method.
翻訳日:2021-08-18 11:44:48 公開日:2021-08-13
# (参考訳) FrankMocap: 回帰と統合による単眼の3D全体像推定システム [全文訳有]

FrankMocap: A Monocular 3D Whole-Body Pose Estimation System via Regression and Integration ( http://arxiv.org/abs/2108.06428v1 )

ライセンス: CC0 1.0
Yu Rong, Takaaki Shiratori, Hanbyul Joo(参考訳) 既存のモノラルな3Dポーズのアプローチのほとんどは、顔、手、身体の微妙な動きによって人間の動きの本質的なニュアンスが伝達されるという事実を無視して、単一の身体の部分のみに焦点を当てている。 本稿では,3次元顔,手,身体を同時に生成できる高速かつ高精度な3次元ポーズ推定システムfrankmocapを提案する。 frankmocapの中核となるアイデアはモジュラーデザインです。まず、顔、手、体に対して3dポーズの回帰メソッドを独立して実行し、次に統合モジュールを介して回帰出力を生成します。 別々の回帰モジュールを使うことで、元の正確性と信頼性を損なうことなく、最先端のパフォーマンスを最大限に活用することができます。 レイテンシと精度をトレードオフする3つの異なる統合モジュールを開発しています。 これらすべてが、別々のアウトプットをシームレスな全身ポーズ推定結果に統一する、シンプルで効果的なソリューションを提供することができる。 我々は,モジュール化したシステムが,体全体のポーズを推定する最適化法とエンドツーエンド法の両方を上回っていることを定量的に定性的に証明する。

Most existing monocular 3D pose estimation approaches only focus on a single body part, neglecting the fact that the essential nuance of human motion is conveyed through a concert of subtle movements of face, hands, and body. In this paper, we present FrankMocap, a fast and accurate whole-body 3D pose estimation system that can produce 3D face, hands, and body simultaneously from in-the-wild monocular images. The core idea of FrankMocap is its modular design: We first run 3D pose regression methods for face, hands, and body independently, followed by composing the regression outputs via an integration module. The separate regression modules allow us to take full advantage of their state-of-the-art performances without compromising the original accuracy and reliability in practice. We develop three different integration modules that trade off between latency and accuracy. All of them are capable of providing simple yet effective solutions to unify the separate outputs into seamless whole-body pose estimation results. We quantitatively and qualitatively demonstrate that our modularized system outperforms both the optimization-based and end-to-end methods of estimating whole-body pose.
翻訳日:2021-08-18 11:19:10 公開日:2021-08-13
# ベイズ階層モデルを用いたメタデータに基づくマルチタスクバンディット

Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models ( http://arxiv.org/abs/2108.06422v1 )

ライセンス: Link先を確認
Runzhe Wan, Lin Ge, Rui Song(参考訳) 効果的に探索する方法は、多腕バンディットの中心的な問題である。 本稿では,メタデータに基づくマルチタスク・バンディット問題について紹介する。そこでは,エージェントが多数の関連するマルチアーム・バンディットタスクを解決し,タスク間の知識を共有するためにタスク固有の機能(メタデータ)を活用する。 本稿では,タスク関係を効率的に学習し,情報を共有し,累積的後悔を最小限に抑えるために,トンプソンサンプリングアルゴリズムを設計したベイズ階層モデルのレンズを通してタスク関係を捉えることを提案する。 ガウシアン・バンディットとベルヌーイ・バンディットの2つの具体例を慎重に分析した。 the bayes regret for gaussian banditsは、アルゴリズムと情報共有の利点を明確に示しています。 提案手法は広範な実験によってさらに支持されている。

How to explore efficiently is a central problem in multi-armed bandits. In this paper, we introduce the metadata-based multi-task bandit problem, where the agent needs to solve a large number of related multi-armed bandit tasks and can leverage some task-specific features (i.e., metadata) to share knowledge across tasks. As a general framework, we propose to capture task relations through the lens of Bayesian hierarchical models, upon which a Thompson sampling algorithm is designed to efficiently learn task relations, share information, and minimize the cumulative regrets. Two concrete examples for Gaussian bandits and Bernoulli bandits are carefully analyzed. The Bayes regret for Gaussian bandits clearly demonstrates the benefits of information sharing with our algorithm. The proposed method is further supported by extensive experiments.
翻訳日:2021-08-17 15:26:26 公開日:2021-08-13
# スイッチングオラクルに対する一般混合損失に対する最適かつ効率的なアルゴリズム

Optimal and Efficient Algorithms for General Mixable Losses against Switching Oracles ( http://arxiv.org/abs/2108.06411v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 近年,機械学習からゲーム理論まで幅広い分野に適用可能であることから,オンライン学習の課題が注目されている。 具体的には,動的環境における混合損失関数のオンライン最適化について検討する。 我々は,最適後悔冗長性を持つ切替オラクルの最適動的推定シーケンスの性能を漸近的に達成するオンライン混合スキームを導入する。 我々が競う最良の動的推定列は、損失関数の完全な観察とともに後から選択され、異なる時間間隔(セグメント)で異なる最適推定を選択できる。 私たちは仕事に2つの混合案を提案する。 まず, 難解なブリュート力アプローチの最適冗長性を実現するために, 抽出可能な多項式時間複雑性アルゴリズムを提案する。 第二に、最適冗長性を一定の多重度ギャップまで達成できる効率的な対数時間複雑性アルゴリズムを提案する。 私たちの結果は、個々のシーケンスで強い決定論的意味を持つことが保証されます。

We investigate the problem of online learning, which has gained significant attention in recent years due to its applicability in a wide range of fields from machine learning to game theory. Specifically, we study the online optimization of mixable loss functions in a dynamic environment. We introduce online mixture schemes that asymptotically achieves the performance of the best dynamic estimation sequence of the switching oracle with optimal regret redundancies. The best dynamic estimation sequence that we compete against is selected in hindsight with full observation of the loss functions and is allowed to select different optimal estimations in different time intervals (segments). We propose two mixtures in our work. Firstly, we propose a tractable polynomial time complexity algorithm that can achieve the optimal redundancy of the intractable brute force approach. Secondly, we propose an efficient logarithmic time complexity algorithm that can achieve the optimal redundancy up to a constant multiplicity gap. Our results are guaranteed to hold in a strong deterministic sense in an individual sequence manner.
翻訳日:2021-08-17 15:24:28 公開日:2021-08-13
# MTG:多言語テキスト生成のためのベンチマークスイート

MTG: A Benchmarking Suite for Multilingual Text Generation ( http://arxiv.org/abs/2108.07140v1 )

ライセンス: Link先を確認
Yiran Chen, Zhenqiao Song, Xianze Wu, Danqing Wang, Jingjing Xu, Jiaze Chen, Hao Zhou, Lei Li(参考訳) MTGは多言語テキスト生成のトレーニングと評価のための新しいベンチマークスイートである。 これは4つの言語(英語、ドイツ語、フランス語、スペイン語)にまたがる3つのタスク(ストーリー生成、質問生成、タイトル生成)に対して120kのマルチウェイ並列データを持つ、最初の、そして最大のテキスト生成ベンチマークである。 そこで我々は,様々な評価シナリオを設定し,様々な側面から人気多言語生成モデルを深く分析する。 我々のベンチマークスイートは、より人間的な注釈付き並列データとより多様な生成シナリオによって、テキスト生成コミュニティの多言語化を促進する。

We introduce MTG, a new benchmark suite for training and evaluating multilingual text generation. It is the first and largest text generation benchmark with 120k human-annotated multi-way parallel data for three tasks (story generation, question generation, and title generation) across four languages (English, German, French, and Spanish). Based on it, we set various evaluation scenarios and make a deep analysis of several popular multilingual generation models from different aspects. Our benchmark suite will encourage the multilingualism for text generation community with more human-annotated parallel data and more diverse generation scenarios.
翻訳日:2021-08-17 15:18:06 公開日:2021-08-13
# 数量化解集合プログラミングにおける不完全情報を用いた計画

Planning with Incomplete Information in Quantified Answer Set Programming ( http://arxiv.org/abs/2108.06405v1 )

ライセンス: Link先を確認
Jorge Fandinno (2 and 3), Fran\c{c}ois Laferri\`ere (3), Javier Romero (3), Torsten Schaub (3) and Tran Cao Son (1) ((1) New Mexico State University, USA, (2) Omaha State University, USA, (3) University of Potsdam, Germany)(参考訳) 本稿では,解集合プログラミング(asp)における不完全情報を用いた計画手法を提案する。 より正確には、感覚行動と仮定を伴う適合性と条件付き計画の問題を考える。 我々は,論理プログラムが状態,初期状態,目標状態間の遷移関数を記述する単純な形式を用いて計画問題を表現する。 計画問題の解決には、QBF(Quantified Boolean Formulas)に類似した原子上の存在量化器と普遍量化器を備えたASPの拡張であるQuantified Answer Set Programming(QASP)を用いる。 我々は、量化論理プログラムの言語を定義し、それを用いて、共形および条件付き計画の異なる変種に対するソリューションを表現する。 実用面では、量子化論理プログラムをQBFに変換してQBFソルバを実行する翻訳ベースのQASPソルバを提案し、適合性および条件付き計画ベンチマークに対するアプローチを実験的に評価する。 TPLPの受容についての検討

We present a general approach to planning with incomplete information in Answer Set Programming (ASP). More precisely, we consider the problems of conformant and conditional planning with sensing actions and assumptions. We represent planning problems using a simple formalism where logic programs describe the transition function between states, the initial states and the goal states. For solving planning problems, we use Quantified Answer Set Programming (QASP), an extension of ASP with existential and universal quantifiers over atoms that is analogous to Quantified Boolean Formulas (QBFs). We define the language of quantified logic programs and use it to represent the solutions to different variants of conformant and conditional planning. On the practical side, we present a translation-based QASP solver that converts quantified logic programs into QBFs and then executes a QBF solver, and we evaluate experimentally the approach on conformant and conditional planning benchmarks. Under consideration for acceptance in TPLP.
翻訳日:2021-08-17 15:17:43 公開日:2021-08-13
# Pseudo-Lidarはモノクロ3次元物体検出に必要か?

Is Pseudo-Lidar needed for Monocular 3D Object detection? ( http://arxiv.org/abs/2108.06417v1 )

ライセンス: Link先を確認
Dennis Park, Rares Ambrus, Vitor Guizilini, Jie Li, Adrien Gaidon(参考訳) 単一画像からの3d物体検出の最近の進歩は、モノキュラー深度推定を3dポイントクラウドを生成する手段として活用し、カメラを擬似ライダーセンサーに変える。 これらの2段階検出器は、中間深度推定ネットワークの精度が向上し、大規模な自己教師付き学習によって手動ラベルなしでも改善できる。 しかし、それらはエンド・ツー・エンドの方法以上の過剰なフィッティングに苦しむ傾向にあり、より複雑であり、類似のlidarベースの検出器とのギャップは依然として大きい。 本研究では,エンドツーエンドの単眼型3d物体検出装置dd3dを提案し,擬似ライダー法のような奥行き事前学習の利点を享受するが,その限界はない。 我々のアーキテクチャは、深度推定と3次元検出の効果的な情報伝達のために設計されており、ラベルなし事前学習データの量でスケールすることができる。 提案手法は,kitti-3dベンチマークでは16.34%,歩行者では9.28%,裸では41.5%という,難易度の高い2つのベンチマークで最新の結果を得た。

Recent progress in 3D object detection from single images leverages monocular depth estimation as a way to produce 3D pointclouds, turning cameras into pseudo-lidar sensors. These two-stage detectors improve with the accuracy of the intermediate depth estimation network, which can itself be improved without manual labels via large-scale self-supervised learning. However, they tend to suffer from overfitting more than end-to-end methods, are more complex, and the gap with similar lidar-based detectors remains significant. In this work, we propose an end-to-end, single stage, monocular 3D object detector, DD3D, that can benefit from depth pre-training like pseudo-lidar methods, but without their limitations. Our architecture is designed for effective information transfer between depth estimation and 3D detection, allowing us to scale with the amount of unlabeled pre-training data. Our method achieves state-of-the-art results on two challenging benchmarks, with 16.34% and 9.28% AP for Cars and Pedestrians (respectively) on the KITTI-3D benchmark, and 41.5% mAP on NuScenes.
翻訳日:2021-08-17 15:16:55 公開日:2021-08-13
# GeoCLR: 効率的な海底画像解釈のためのジオレファレンスコントラスト学習

GeoCLR: Georeference Contrastive Learning for Efficient Seafloor Image Interpretation ( http://arxiv.org/abs/2108.06421v1 )

ライセンス: Link先を確認
Takaki Yamada, Adam Pr\"ugel-Bennett, Stefan B. Williams, Oscar Pizarro, Blair Thornton(参考訳) 本稿では,ディープラーニング畳み込みニューラルネットワーク(cnns)の効率的な学習のためのジオリファレンスコントラスト学習(geoclr)について述べる。 本手法では,近接する場所の画像を用いて類似した画像対を生成し,これらを遠く離れた画像対と対比することにより,ジオリファレンス情報を活用する。 基礎となる前提は、近距離で収集された画像が類似した視覚的外観を持つ可能性が高いことであり、これは海底のロボット画像アプリケーションにおいて合理的に満足できるため、画像のフットプリントは数メートルの縁の長さに制限され、車両の軌道に沿って重なり合うように取られる。 この方法の主な利点は、CNN訓練に人的入力を必要としない自己教師型であることである。 この方法は計算的に効率的であり、複数日のAUVミッションにおいて、ほとんどの海洋実験でアクセス可能な計算資源を使用してダイブ間で結果を生成することができる。 我々は,AUV(Autonomous Underwater Vehicle)を用いて収集した約86kの画像からなるデータセット上で,GeoCLRを生息地分類に適用した。 そこで本研究では,GeoCLRが生成した潜伏表現を用いて,人間のアノテーションの取り組みを効率的にガイドする方法を実証する。この半教師付きフレームワークは,同じCNNと同等数の人間のアノテーションを用いた最先端の伝達学習と比較して,平均11.8 %の分類精度を向上する。

This paper describes Georeference Contrastive Learning of visual Representation (GeoCLR) for efficient training of deep-learning Convolutional Neural Networks (CNNs). The method leverages georeference information by generating a similar image pair using images taken of nearby locations, and contrasting these with an image pair that is far apart. The underlying assumption is that images gathered within a close distance are more likely to have similar visual appearance, where this can be reasonably satisfied in seafloor robotic imaging applications where image footprints are limited to edge lengths of a few metres and are taken so that they overlap along a vehicle's trajectory, whereas seafloor substrates and habitats have patch sizes that are far larger. A key advantage of this method is that it is self-supervised and does not require any human input for CNN training. The method is computationally efficient, where results can be generated between dives during multi-day AUV missions using computational resources that would be accessible during most oceanic field trials. We apply GeoCLR to habitat classification on a dataset that consists of ~86k images gathered using an Autonomous Underwater Vehicle (AUV). We demonstrate how the latent representations generated by GeoCLR can be used to efficiently guide human annotation efforts, where the semi-supervised framework improves classification accuracy by an average of 11.8 % compared to state-of-the-art transfer learning using the same CNN and equivalent number of human annotations for training.
翻訳日:2021-08-17 15:16:36 公開日:2021-08-13
# 機械学習における公平性のシャープ予測

The Sharpe predictor for fairness in machine learning ( http://arxiv.org/abs/2108.06415v1 )

ライセンス: Link先を確認
Suyun Liu and Luis Nunes Vicente(参考訳) 機械学習(ML)アプリケーションでは、不公平な予測が少数派に対して差別されることがある。 fair machine learning(fml)の既存のアプローチのほとんどは、機械学習モデルの最適化においてフェアネスを制約あるいはペナリゼーション用語として扱うが、これは正確さとフェアネスメトリクスの学習におけるトレードオフの完全なランドスケープの発見につながり、フェアネスを有意義な方法で統合しない。 近年,Stochastic Multi-Objective Optimization (SMOO)に基づくFMLの新しいパラダイムを導入している。 トレードオフ範囲全体はSMOO問題のParetoフロントとして定義され、確率勾配型アルゴリズムを用いて効率的に計算できる。 SMOOはまた、FMLの新たな有意義な予測器の定義と計算を可能にし、この論文で紹介したシャープ予測器は、新しいもので、精度と不公平の比率が最も高い。 金融のSMOOからインスパイアされたFMLのシャープ予測器は、予測リスク(不公平性)の単位当たりの最も高い予測リターン(精度)を提供する。

In machine learning (ML) applications, unfair predictions may discriminate against a minority group. Most existing approaches for fair machine learning (FML) treat fairness as a constraint or a penalization term in the optimization of a ML model, which does not lead to the discovery of the complete landscape of the trade-offs among learning accuracy and fairness metrics, and does not integrate fairness in a meaningful way. Recently, we have introduced a new paradigm for FML based on Stochastic Multi-Objective Optimization (SMOO), where accuracy and fairness metrics stand as conflicting objectives to be optimized simultaneously. The entire trade-offs range is defined as the Pareto front of the SMOO problem, which can then be efficiently computed using stochastic-gradient type algorithms. SMOO also allows defining and computing new meaningful predictors for FML, a novel one being the Sharpe predictor that we introduce and explore in this paper, and which gives the highest ratio of accuracy-to-unfairne ss. Inspired from SMOO in finance, the Sharpe predictor for FML provides the highest prediction return (accuracy) per unit of prediction risk (unfairness).
翻訳日:2021-08-17 14:56:40 公開日:2021-08-13
# 2相ペーパーレビューと会議実験設計における準最適レビュア分割

Near-Optimal Reviewer Splitting in Two-Phase Paper Reviewing and Conference Experiment Design ( http://arxiv.org/abs/2108.06371v1 )

ライセンス: Link先を確認
Steven Jecmen, Hanrui Zhang, Ryan Liu, Fei Fang, Vincent Conitzer, Nihar B. Shah(参考訳) 多くの科学会議は2段階の論文レビュープロセスを採用しており、いくつかの論文は最初のレビューが提出された後に追加のレビュアーが割り当てられる。 多くのカンファレンスは、論文レビュープロセスで実験を設計し、実行しており、いくつかの論文では、実験条件下でレビューを提供するレビュアーが割り当てられている。 本稿では, 総割り当て類似度を最大化するために, 審査員を段階, 条件に分けるべきかという課題を考察する。 私たちはこの質問に答えるためにいくつかの貢献をしている。 まず、追加のレビューを必要とする論文の集合が未知の場合、この問題の単純化された変種がNPハードであることを証明する。 第二に、実際の会議データに関連する複数のデータセットにおいて、ランダムに位相/条件を均一に分割することで、オラクルの最適割り当てとほぼ同等の割り当てが可能であることを実証的に示す。 この一様ランダムな選択は、二相設計と会議設計の両方に実用的である。 第三に、ある自然条件下でのランダム戦略の最適性に関する理論的境界を提供することにより、この現象を説明する。 このような分かりやすい状況から、ランダムなレビュアー分割が会議に適しているかどうかについて、会議プログラムチェアに実用的な洞察を提供する。

Many scientific conferences employ a two-phase paper review process, where some papers are assigned additional reviewers after the initial reviews are submitted. Many conferences also design and run experiments on their paper review process, where some papers are assigned reviewers who provide reviews under an experimental condition. In this paper, we consider the question: how should reviewers be divided between phases or conditions in order to maximize total assignment similarity? We make several contributions towards answering this question. First, we prove that when the set of papers requiring additional review is unknown, a simplified variant of this problem is NP-hard. Second, we empirically show that across several datasets pertaining to real conference data, dividing reviewers between phases/conditions uniformly at random allows an assignment that is nearly as good as the oracle optimal assignment. This uniformly random choice is practical for both the two-phase and conference experiment design settings. Third, we provide explanations of this phenomenon by providing theoretical bounds on the suboptimality of this random strategy under certain natural conditions. From these easily-interpretable conditions, we provide actionable insights to conference program chairs about whether a random reviewer split is suitable for their conference.
翻訳日:2021-08-17 14:51:13 公開日:2021-08-13
# densepass:entententm ent-augmented context exchangeを用いた教師なしドメイン適応による高密度パノラマ意味セグメンテーション

DensePASS: Dense Panoramic Semantic Segmentation via Unsupervised Domain Adaptation with Attention-Augmented Context Exchange ( http://arxiv.org/abs/2108.06383v1 )

ライセンス: Link先を確認
Chaoxiang Ma, Jiaming Zhang, Kailun Yang, Alina Roitberg and Rainer Stiefelhagen(参考訳) インテリジェントな車両は360度センサーの視野拡大(FoV)によって明らかに恩恵を受けるが、利用可能なセマンティックセグメンテーションのトレーニング画像の大部分はピンホールカメラで撮影されている。 本研究では、ドメイン適応のレンズを用いてこの問題を考察し、従来のピンホールカメラ画像の異なる分布からラベル付きトレーニングデータが導出される設定にパノラマセマンティックセマンティックセマンティックセグメンテーションをもたらす。 まず,ピンホールカメラデータのソースドメインからラベル付きサンプルをトレーニングしたネットワークを,異なるターゲット領域のパノラマ画像に展開するパノラマ意味セグメンテーションのための教師なしドメイン適応のタスクを定式化する。 このアイデアを検証するために、我々はDensePASS – ドメイン間条件下でパノラマセグメンテーションを高度に注釈付けした新しいデータセット - を収集、公開し、特にPinhole-to-Panoramic トランスファーの研究用に構築し、Cityscapesから取得したピンホールカメラトレーニングのサンプルを添付した。 DensePASSは、ラベル付きおよび未ラベルの360度画像の両方をカバーし、ラベル付きデータは、ソースドメイン(すなわち、ソースドメインで利用可能なカテゴリに明示的に適合する19のクラスから構成される。 ピンホール) データ。 ドメインシフトの課題を満たすために、注意に基づくメカニズムの現在の進歩を活用し、注意喚起されたドメイン適応モジュールの異なる変種に基づいて、クロスドメインパノラマ意味セグメンテーションのための汎用フレームワークを構築する。 このフレームワークは、ドメイン対応を学ぶ際に、局所的およびグローバルレベルでの情報交換を促進し、平均iouにおける2つの標準セグメンテーションネットワークのドメイン適応性能を6.05%、11.26%向上させる。

Intelligent vehicles clearly benefit from the expanded Field of View (FoV) of the 360-degree sensors, but the vast majority of available semantic segmentation training images are captured with pinhole cameras. In this work, we look at this problem through the lens of domain adaptation and bring panoramic semantic segmentation to a setting, where labelled training data originates from a different distribution of conventional pinhole camera images. First, we formalize the task of unsupervised domain adaptation for panoramic semantic segmentation, where a network trained on labelled examples from the source domain of pinhole camera data is deployed in a different target domain of panoramic images, for which no labels are available. To validate this idea, we collect and publicly release DensePASS - a novel densely annotated dataset for panoramic segmentation under cross-domain conditions, specifically built to study the Pinhole-to-Panoramic transfer and accompanied with pinhole camera training examples obtained from Cityscapes. DensePASS covers both, labelled- and unlabelled 360-degree images, with the labelled data comprising 19 classes which explicitly fit the categories available in the source domain (i.e. pinhole) data. To meet the challenge of domain shift, we leverage the current progress of attention-based mechanisms and build a generic framework for cross-domain panoramic semantic segmentation based on different variants of attention-augmented domain adaptation modules. Our framework facilitates information exchange at local- and global levels when learning the domain correspondences and improves the domain adaptation performance of two standard segmentation networks by 6.05% and 11.26% in Mean IoU.
翻訳日:2021-08-17 14:45:17 公開日:2021-08-13
# (参考訳) 高性能データサイエンス・データエンジニアリングのためのHPTMT並列演算子 [全文訳有]

HPTMT Parallel Operators for High Performance Data Science & Data Engineering ( http://arxiv.org/abs/2108.06001v1 )

ライセンス: CC BY 4.0
Vibhatha Abeykoon, Supun Kamburugamuve, Chathura Widanage, Niranda Perera, Ahmet Uyar, Thejaka Amila Kanewala, Gregor von Laszewski, and Geoffrey Fox(参考訳) データ集約型アプリケーションは、あらゆる科学分野において一般的になっています。 これらはデータエンジニアリングやディープラーニング、マシンラーニングといった、豊富なサブドメインで構成されています。 これらのアプリケーションは、異なるドメインのアプリケーションに適した効率的なデータ抽象化とオペレータを中心に構築されている。 多くの場合、フィールド内のデータ構造と演算子の明確な定義が欠如しており、他の実装ではうまく動作しない。 我々が最近提案したHPTMTアーキテクチャは、データエンジニアリングとデータサイエンスのすべての側面を効率的に結びつけるリッチなデータアプリケーションを作成するための一連のデータ構造、演算子、実行モデルを特定します。 本稿では、ディープラーニングとデータエンジニアリングを併用したエンドツーエンドアプリケーションを用いて、このアーキテクチャを詳述し、解説する。

Data-intensive applications are becoming commonplace in all science disciplines. They are comprised of a rich set of sub-domains such as data engineering, deep learning, and machine learning. These applications are built around efficient data abstractions and operators that suit the applications of different domains. Often lack of a clear definition of data structures and operators in the field has led to other implementations that do not work well together. The HPTMT architecture that we proposed recently, identifies a set of data structures, operators, and an execution model for creating rich data applications that links all aspects of data engineering and data science together efficiently. This paper elaborates and illustrates this architecture using an end-to-end application with deep learning and data engineering parts working together.
翻訳日:2021-08-16 21:40:54 公開日:2021-08-13
# (参考訳) AGKD-BML:意識指導型知識蒸留と双方向メトリック学習による敵攻撃に対する防御 [全文訳有]

AGKD-BML: Defense Against Adversarial Attack by Attention Guided Knowledge Distillation and Bi-directional Metric Learning ( http://arxiv.org/abs/2108.06017v1 )

ライセンス: CC BY 4.0
Hong Wang, Yuefan Deng, Shinjae Yoo, Haibin Ling, Yuewei Lin(参考訳) ディープニューラルネットワークは多くのタスクで顕著なパフォーマンスを示しているが、慎重に設計された敵攻撃には脆弱である。 注意誘導知識蒸留と双方向メトリックラーニング(agkd-bml)による新しい対向訓練モデルを提案する。 注意知識は、教師モデルと呼ばれるクリーンデータセットでトレーニングされた重み付けモデルから得られ、生徒モデルと呼ばれる逆例(AE)のトレーニングを受けているモデルに転送される。 このようにして、学生モデルは正しい領域に焦点を合わせることができ、また、AEsが破損した中間的特徴を修正して最終的にモデルの精度を向上させることができる。 さらに,特徴空間における表現を効率的に正規化するために,双方向なメトリック学習を提案する。 具体的には、クリーンな画像が与えられたら、まず最も混乱したクラスに攻撃され、AEを前進させる。 最も紛らわしいクラスのクリーンなイメージがランダムに選択され、元のクラスにアタックされて、後方のAEを取得する。 次に、元の画像とそのAE間の表現距離を短くし、前方と後方のAE間を拡大するために三重項損失を用いる。 我々は,攻撃の異なる2つのデータセットに対して,広範囲な対向的ロバストネス実験を行う。 提案したAGKD-BMLモデルは最先端のアプローチよりも一貫して優れている。 AGKD-BMLのコードは以下の通りである。

While deep neural networks have shown impressive performance in many tasks, they are fragile to carefully designed adversarial attacks. We propose a novel adversarial training-based model by Attention Guided Knowledge Distillation and Bi-directional Metric Learning (AGKD-BML). The attention knowledge is obtained from a weight-fixed model trained on a clean dataset, referred to as a teacher model, and transferred to a model that is under training on adversarial examples (AEs), referred to as a student model. In this way, the student model is able to focus on the correct region, as well as correcting the intermediate features corrupted by AEs to eventually improve the model accuracy. Moreover, to efficiently regularize the representation in feature space, we propose a bidirectional metric learning. Specifically, given a clean image, it is first attacked to its most confusing class to get the forward AE. A clean image in the most confusing class is then randomly picked and attacked back to the original class to get the backward AE. A triplet loss is then used to shorten the representation distance between original image and its AE, while enlarge that between the forward and backward AEs. We conduct extensive adversarial robustness experiments on two widely used datasets with different attacks. Our proposed AGKD-BML model consistently outperforms the state-of-the-art approaches. The code of AGKD-BML will be available at: https://github.com/h ongw579/AGKD-BML.
翻訳日:2021-08-16 21:18:57 公開日:2021-08-13
# (参考訳) コード:chamfer out-of-distribution examples against overconfidence issue [全文訳有]

CODEs: Chamfer Out-of-Distribution Examples against Overconfidence Issue ( http://arxiv.org/abs/2108.06024v1 )

ライセンス: CC BY 4.0
Keke Tang, Dingruibo Miao, Weilong Peng, Jianpeng Wu, Yawen Shi, Zhaoquan Gu, Zhihong Tian, and Wenping Wang(参考訳) out-of-distribution( ood)サンプルに対する自信過剰な予測は、ディープニューラルネットワークにとって厄介な問題である。 OOD過信問題を解決するための鍵は、本来はOODサンプルのサブセットを構築し、それらに対する予測を抑えることである。 本稿では,分布が分布中のサンプルに近いCODE(Chamfer OOD example)を提案し,その予測を抑えることで,OOD過信問題を効果的に軽減することができる。 コードを得るには,まず,異なるカテゴリの分布サンプルに対するスライシング・スライシング操作を通じてシードoodサンプルを生成し,その後,余分なデータにアクセスすることなく,分布変換のためのchamfer生成逆ネットワークに供給する。 CODEの予測を抑える訓練は、分類精度を損なうことなく、OOD過信問題を軽減し、最先端の手法より優れていることが検証されている。 さらに,OODの検出と分類を改善する上で,CODEが有用であることを示す。

Overconfident predictions on out-of-distribution (OOD) samples is a thorny issue for deep neural networks. The key to resolve the OOD overconfidence issue inherently is to build a subset of OOD samples and then suppress predictions on them. This paper proposes the Chamfer OOD examples (CODEs), whose distribution is close to that of in-distribution samples, and thus could be utilized to alleviate the OOD overconfidence issue effectively by suppressing predictions on them. To obtain CODEs, we first generate seed OOD examples via slicing&splicing operations on in-distribution samples from different categories, and then feed them to the Chamfer generative adversarial network for distribution transformation, without accessing to any extra data. Training with suppressing predictions on CODEs is validated to alleviate the OOD overconfidence issue largely without hurting classification accuracy, and outperform the state-of-the-art methods. Besides, we demonstrate CODEs are useful for improving OOD detection and classification.
翻訳日:2021-08-16 21:00:13 公開日:2021-08-13
# (参考訳) DeepIC:ディープラーニングによる干渉チャネルの符号化 [全文訳有]

DeepIC: Coding for Interference Channels via Deep Learning ( http://arxiv.org/abs/2108.06028v1 )

ライセンス: CC BY 4.0
Karl Chahine, Nanyang Ye, Hyeji Kim(参考訳) 2ユーザ干渉チャネルは、複数の1対1通信のモデルであり、2人の送信者が共有無線媒体を介して対応する受信機と通信することを望んでいる。 最も一般的で単純な符号化方式は、時間分割(TD)と干渉をノイズ(TIN)として扱うことである。 興味深いことに、TDやTINよりも優れたハン小林スキーム(Han-Kobayashi scheme)と呼ばれる漸近的なスキームが存在する。 しかし、半小林スキームは急激に複雑化しており、漸近的な設定のために設計されており、情報理論と実践のギャップが生じる。 本稿では,干渉チャネルの実用的な符号設計に焦点をあてる。 複雑度の高い実用的なコードを解析的に設計することは困難であるため,干渉チャネルの学習にディープラーニングを適用する。 繰り返しデコーダを備えた畳み込み型ニューラルネットワークベースのコードであるdeepicが,2ユーザ添加の白色ガウス雑音チャネルに対して,tdとtinを有意差で上回っていることを実証した。

The two-user interference channel is a model for multi one-to-one communications, where two transmitters wish to communicate with their corresponding receivers via a shared wireless medium. Two most common and simple coding schemes are time division (TD) and treating interference as noise (TIN). Interestingly, it is shown that there exists an asymptotic scheme, called Han-Kobayashi scheme, that performs better than TD and TIN. However, Han-Kobayashi scheme has impractically high complexity and is designed for asymptotic settings, which leads to a gap between information theory and practice. In this paper, we focus on designing practical codes for interference channels. As it is challenging to analytically design practical codes with feasible complexity, we apply deep learning to learn codes for interference channels. We demonstrate that DeepIC, a convolutional neural network-based code with an iterative decoder, outperforms TD and TIN by a significant margin for two-user additive white Gaussian noise channels with moderate amount of interference.
翻訳日:2021-08-16 20:45:35 公開日:2021-08-13
# (参考訳) track without appearance: learn box and tracklet embedded with local and global motion patterns for vehicle tracking

Track without Appearance: Learn Box and Tracklet Embedding with Local and Global Motion Patterns for Vehicle Tracking ( http://arxiv.org/abs/2108.06029v1 )

ライセンス: CC BY 4.0
Gaoang Wang, Renshu Gu, Zuozhu Liu, Weijie Hu, Mingli Song, Jenq-Neng Hwang(参考訳) 車両追跡は多目的追跡(MOT)分野において重要な課題である。 車両追跡における特徴は、車両の軌道が世界座標と画像座標の両方においてかなり滑らかであることである。 したがって、動きを捉えるモデルは非常に必要である。 しかし、限られた情報、検出エラー、閉塞により目標が容易に失われる可能性があるため、スタンドアロンのモーションベースのトラッカーによるトラッキングは非常に難しい。 オブジェクトの再識別を支援するために外観情報を活用することで、この課題をある程度解決することができる。 しかし, 出現情報は咬合にも敏感であり, 余分な計算が必要となる。 本稿では,外観情報のない車両追跡における動きパターンの意義について検討する。 本稿では, 長期追跡のための関連課題に, 排他的完全公開動作情報を用いた新しいアプローチを提案する。 本稿では,ディープグラフ畳み込みニューラルネットワーク(gcn)に基づく再構成・組込み戦略において,トラックレット埋め込み問題に対処する。 KITTI-car TrackingデータセットとUA-Detracデータセットの総合的な実験により、提案手法は外観情報を持たないが、最先端(SOTA)トラッカーとの競合性能を実現することができた。 ソースコードはhttps://github.com/g aoangw/lgmtrackerで入手できる。

Vehicle tracking is an essential task in the multi-object tracking (MOT) field. A distinct characteristic in vehicle tracking is that the trajectories of vehicles are fairly smooth in both the world coordinate and the image coordinate. Hence, models that capture motion consistencies are of high necessity. However, tracking with the standalone motion-based trackers is quite challenging because targets could get lost easily due to limited information, detection error and occlusion. Leveraging appearance information to assist object re-identification could resolve this challenge to some extent. However, doing so requires extra computation while appearance information is sensitive to occlusion as well. In this paper, we try to explore the significance of motion patterns for vehicle tracking without appearance information. We propose a novel approach that tackles the association issue for long-term tracking with the exclusive fully-exploited motion information. We address the tracklet embedding issue with the proposed reconstruct-to-embed strategy based on deep graph convolutional neural networks (GCN). Comprehensive experiments on the KITTI-car tracking dataset and UA-Detrac dataset show that the proposed method, though without appearance information, could achieve competitive performance with the state-of-the-art (SOTA) trackers. The source code will be available at https://github.com/G aoangW/LGMTracker.
翻訳日:2021-08-16 20:35:32 公開日:2021-08-13
# (参考訳) 階層的クラスタリングの情報理論的展望 [全文訳有]

An Information-theoreti c Perspective of Hierarchical Clustering ( http://arxiv.org/abs/2108.06036v1 )

ライセンス: CC BY 4.0
Yicheng Pan, Feng Zheng, Bingchen Fan(参考訳) 階層クラスタリングの組合せコスト関数はDasgupta \cite{dasgupta2016 Cost}によって導入された。 Cohen-Addadらによって一般化されている。 \cite{cohen2019hierarchica l} を許容関数(admissible function)という一般形式に拡張する。 本稿では,emph{information-theoreti c}の観点から階層的クラスタリングを調べ,新しい目的関数を定式化する。 これら2つの視点の関係も確立する。 アルゴリズム的な側面では、従来のトップダウンおよびボトムアップフレームワークを廃止し、目的関数をガイドして再帰的にクラスタツリーの \emph{sparsest} レベルを階層化する新しいフレームワークを提案する。 実用上、私たちのクラスタツリーはバイナリではありません。 HCSEと呼ばれるアルゴリズムは,超パラメータなしで自動的に$k$を選択する新しい機構により,$k$レベルのクラスタツリーを出力する。 合成データセットに対する実験結果から,HCSEは本質的な階層数を見つける上で大きな優位性を示し,実データを用いた結果,HCSEはアルゴリズムLOUVAINとHLPの競合コストも達成できることがわかった。

A combinatorial cost function for hierarchical clustering was introduced by Dasgupta \cite{dasgupta2016cost}. It has been generalized by Cohen-Addad et al. \cite{cohen2019hierarchica l} to a general form named admissible function. In this paper, we investigate hierarchical clustering from the \emph{information-theoreti c} perspective and formulate a new objective function. We also establish the relationship between these two perspectives. In algorithmic aspect, we get rid of the traditional top-down and bottom-up frameworks, and propose a new one to stratify the \emph{sparsest} level of a cluster tree recursively in guide with our objective function. For practical use, our resulting cluster tree is not binary. Our algorithm called HCSE outputs a $k$-level cluster tree by a novel and interpretable mechanism to choose $k$ automatically without any hyper-parameter. Our experimental results on synthetic datasets show that HCSE has a great advantage in finding the intrinsic number of hierarchies, and the results on real datasets show that HCSE also achieves competitive costs over the popular algorithms LOUVAIN and HLP.
翻訳日:2021-08-16 20:34:07 公開日:2021-08-13
# (参考訳) 関係有向グラフを用いた知識グラフ推論 [全文訳有]

Knowledge Graph Reasoning with Relational Directed Graph ( http://arxiv.org/abs/2108.06040v1 )

ライセンス: CC BY 4.0
Yongqi Zhang and Quanming Yao(参考訳) 知識グラフ(KG)の推論は、既存のものから新しい事実を推測することを目的としている。 文学における関係経路に基づく手法は、強く、解釈可能で、帰納的推論能力を示す。 しかし、経路は自然にkgの複雑なトポロジーを捉えることに制限される。 本稿では,KGの構造情報を取得するために,重なり合う関係経路からなる関係有向グラフ(r-digraph)という新しい関係構造を導入する。 グラフは経路よりも複雑な構造を示すので、r-グラフの構成と学習は困難である。 本稿では,グラフニューラルネットワークの変種であるRED-GNNを提案する。 具体的には、RED-GNNは複数のr-digraphを共有エッジで再帰的にエンコードし、クエリ依存の注意重みを通して強く相関するエッジを選択する。 r-digraph による kg と unseen entity と uncompletion kg ベンチマークの両方の推論において有意な利益が得られたこと,red-gnn の効率,および r-digraph で学んだ解釈可能な依存関係が示された。

Reasoning on the knowledge graph (KG) aims to infer new facts from existing ones. Methods based on the relational path in the literature have shown strong, interpretable, and inductive reasoning ability. However, the paths are naturally limited in capturing complex topology in KG. In this paper, we introduce a novel relational structure, i.e., relational directed graph (r-digraph), which is composed of overlapped relational paths, to capture the KG's structural information. Since the digraph exhibits more complex structure than paths, constructing and learning on the r-digraph are challenging. Here, we propose a variant of graph neural network, i.e., RED-GNN, to address the above challenges by learning the RElational Digraph with a variant of GNN. Specifically, RED-GNN recursively encodes multiple r-digraphs with shared edges and selects the strongly correlated edges through query-dependent attention weights. We demonstrate the significant gains on reasoning both KG with unseen entities and incompletion KG benchmarks by the r-digraph, the efficiency of RED-GNN, and the interpretable dependencies learned on the r-digraph.
翻訳日:2021-08-16 20:15:56 公開日:2021-08-13
# (参考訳) 深層半監督学習のためのプログレッシブな代表ラベリング [全文訳有]

Progressive Representative Labeling for Deep Semi-Supervised Learning ( http://arxiv.org/abs/2108.06070v1 )

ライセンス: CC BY 4.0
Xiaopeng Yan, Riquan Chen, Litong Feng, Jingkang Yang, Huabin Zheng, Wayne Zhang(参考訳) 近年の深層半教師付き学習(SSL)は,ラベル付きデータに制限されたデータによるディープラーニングの性能向上のために,膨大な量のラベル付きデータを活用するために大きな注目を集めている。 Pseudo-labelingはラベル付きデータセットを拡張する一般的なアプローチである。 しかし、より効果的なラベル付け方法が存在するかどうかは未解決の問題である。 本稿では,ラベル付き集合を拡張するために,最も代表的なサンプルのみをラベル付けすることを提案する。 有向kネアレスト近傍(knn)グラフ上の対応するノードの次数によって選択される代表サンプルは、他の多くのサンプルのkネアレスト近傍にある。 我々は、グラフニューラルネットワーク(GNN)ラベルをプログレッシブな学習方法でラベル付けするように設計する。 CIFAR-10、SVHN、ILSVRC-2012など、一般的なSSLベンチマークにおいて、当社のDeep SSLアプローチは最先端のメソッドよりも優れています。 特に、ラベル付きデータのわずか10\%のImageNetベンチマークにおいて、72.1%のトップ1の精度を達成し、前回の最高値を3.3%上回った。

Deep semi-supervised learning (SSL) has experienced significant attention in recent years, to leverage a huge amount of unlabeled data to improve the performance of deep learning with limited labeled data. Pseudo-labeling is a popular approach to expand the labeled dataset. However, whether there is a more effective way of labeling remains an open problem. In this paper, we propose to label only the most representative samples to expand the labeled set. Representative samples, selected by indegree of corresponding nodes on a directed k-nearest neighbor (kNN) graph, lie in the k-nearest neighborhood of many other samples. We design a graph neural network (GNN) labeler to label them in a progressive learning manner. Aided by the progressive GNN labeler, our deep SSL approach outperforms state-of-the-art methods on several popular SSL benchmarks including CIFAR-10, SVHN, and ILSVRC-2012. Notably, we achieve 72.1% top-1 accuracy, surpassing the previous best result by 3.3%, on the challenging ImageNet benchmark with only $10\%$ labeled data.
翻訳日:2021-08-16 19:49:44 公開日:2021-08-13
# (参考訳) Point-Voxel Transformer:3Dディープラーニングへの効率的なアプローチ [全文訳有]

Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning ( http://arxiv.org/abs/2108.06076v1 )

ライセンス: CC BY 4.0
Cheng Zhang, Haocheng Wan, Shengqiang Liu, Xinyi Shen, Zizhao Wu(参考訳) 3dデータのスパース性と不規則性のため、ポイントを直接処理するアプローチが普及している。 すべてのポイントベースモデルの中で、トランスフォーマーベースのモデルは、ポイント相互関係を完全に保存することで最先端のパフォーマンスを達成している。 しかし、そのほとんどはスパースデータアクセス(例えば、FPS(Farthest Point Sampling)や近隣点クエリ)に多くの時間を費やしており、計算の負担となっている。 そこで本稿では,voxelにおいてマルチヘッドセルフアテンション(msa)計算を行い,局所情報をキャプチャし,不規則なデータアクセスを低減しつつ,ポイントにおける自己アテンション計算を活用した,新しい3次元トランスであるpoint-voxel transformer(pvt)を提案する。 さらに, MSA 計算のコストをさらに削減するため, クロスボックス接続を保ちながら, オーバーラップしないローカルボックスに MSA 計算を制限することにより, より効率のよい巡回シフトボックス方式を設計する。 本手法はトランスフォーマーアーキテクチャのポテンシャルを十分に活用し,効率良く正確な認識に道を開く。 分類とセグメンテーションのベンチマークで評価したところ,pvtは精度が向上しただけでなく,従来のトランスフォーマーモデルと比較して平均9倍の速度アップを達成している。 3Dオブジェクト検出タスクでは、Frustrum PointNetのプリミティブをPVT層に置き換え、8.6%の改善を実現する。

Due to the sparsity and irregularity of the 3D data, approaches that directly process points have become popular. Among all point-based models, Transformer-based models have achieved state-of-the-art performance by fully preserving point interrelation. However, most of them spend high percentage of total time on sparse data accessing (e.g., Farthest Point Sampling (FPS) and neighbor points query), which becomes the computation burden. Therefore, we present a novel 3D Transformer, called Point-Voxel Transformer (PVT) that leverages self-attention computation in points to gather global context features, while performing multi-head self-attention (MSA) computation in voxels to capture local information and reduce the irregular data access. Additionally, to further reduce the cost of MSA computation, we design a cyclic shifted boxing scheme which brings greater efficiency by limiting the MSA computation to non-overlapping local boxes while also preserving cross-box connection. Our method fully exploits the potentials of Transformer architecture, paving the road to efficient and accurate recognition results. Evaluated on classification and segmentation benchmarks, our PVT not only achieves strong accuracy but outperforms previous state-of-the-art Transformer-based models with 9x measured speedup on average. For 3D object detection task, we replace the primitives in Frustrum PointNet with PVT layer and achieve the improvement of 8.6%.
翻訳日:2021-08-16 19:35:29 公開日:2021-08-13
# (参考訳) カリキュラム学習: 効率的かつ安定なGPTモデル事前学習のための正規化手法 [全文訳有]

Curriculum Learning: A Regularization Method for Efficient and Stable Billion-Scale GPT Model Pre-Training ( http://arxiv.org/abs/2108.06084v1 )

ライセンス: CC BY 4.0
Conglong Li, Minjia Zhang, Yuxiong He(参考訳) 最近の研究は、テキスト生成のための大量の未ラベルテキストコーパスを用いて、高容量自動回帰言語モデル(GPT, GPT-2, GPT-3)の訓練に成功している。 優れた結果を示したにもかかわらず、これは2つのトレーニング効率の課題を生み出します。 第一に、大規模なコーパスのトレーニングは非常にタイミングがかかり、トークンの収束速度を改善するためのトレーニングサンプルをモデルに提示する方法は、依然として困難でオープンな問題である。 第二に、これらの大きなモデルの多くは、非常に大きなバッチサイズを持つデータ並列性を使用して、数百から数千のプロセッサでトレーニングする必要があります。 計算効率は優れているが、大規模バッチトレーニングはしばしばトレーニング不安定問題に陥り、一般化性能の悪いソリューションに収束することが観察されている。 これら2つの課題を克服するために,自己回帰モデルの事前学習収束速度の向上を支援するカリキュラム学習に基づくアプローチを提案する。 さらに, カリキュラム学習は, 正規化手法として, 勾配分散低減効果をもたらし, バッチサイズや学習率を大きくした自己回帰モデルのトレーニングが可能となり, トレーニング速度がさらに向上することを示す。 評価の結果,カリキュラム学習はGPT-2モデル(最大1.5Bパラメータ)を8倍のバッチサイズと4倍の学習率で訓練することが可能である。 カリキュラム学習は,事前学習中に同じ妥当性の重み付け目標を達成するために,必要なトークン数と壁時計時間(壁時計時間)を最大59%,54%削減する。 プレトレーニング終了時のWikiText-103/LAMBADA 評価結果のゼロショット化を実現するために,カリキュラム学習では,必要なトークン数とウォールクロック時間を最大13%,61%削減する。

Recent works have demonstrated great success in training high-capacity autoregressive language models (GPT, GPT-2, GPT-3) on a huge amount of unlabeled text corpus for text generation. Despite showing great results, this generates two training efficiency challenges. First, training large corpora can be extremely timing consuming, and how to present training samples to the model to improve the token-wise convergence speed remains a challenging and open question. Second, many of these large models have to be trained with hundreds or even thousands of processors using data-parallelism with a very large batch size. Despite of its better compute efficiency, it has been observed that large-batch training often runs into training instability issue or converges to solutions with bad generalization performance. To overcome these two challenges, we present a study of a curriculum learning based approach, which helps improves the pre-training convergence speed of autoregressive models. More importantly, we find that curriculum learning, as a regularization method, exerts a gradient variance reduction effect and enables to train autoregressive models with much larger batch sizes and learning rates without training instability, further improving the training speed. Our evaluations demonstrate that curriculum learning enables training GPT-2 models (with up to 1.5B parameters) with 8x larger batch size and 4x larger learning rate, whereas the baseline approach struggles with training divergence. To achieve the same validation perplexity targets during pre-training, curriculum learning reduces the required number of tokens and wall clock time by up to 59% and 54%, respectively. To achieve the same or better zero-shot WikiText-103/LAMBADA evaluation results at the end of pre-training, curriculum learning reduces the required number of tokens and wall clock time by up to 13% and 61%, respectively.
翻訳日:2021-08-16 19:20:22 公開日:2021-08-13
# (参考訳) 強化学習を用いたアスペクト感情三重項抽出 [全文訳有]

Aspect Sentiment Triplet Extraction Using Reinforcement Learning ( http://arxiv.org/abs/2108.06107v1 )

ライセンス: CC BY-SA 4.0
Samson Yu Bai Jian, Tapas Nayak, Navonil Majumder, and Soujanya Poria(参考訳) Aspect Sentiment Triplet extract (ASTE) は、アスペクト用語、関連する感情、表現された感情の証拠を提供する意見用語を抽出するタスクである。 ASTEの以前のアプローチでは、通常は3つのコンポーネントを同時に抽出するか、まずアスペクトと意見の項を識別し、それらを組み合わせて感情の極性を予測する。 本稿では、階層的強化学習(RL)フレームワークにおける表現された感情の議論として、アスペクトと意見項に関する新しいパラダイムASTE-RLを提案する。 まず、文章で表現された感情に注目し、その感情のターゲットとなる側面と意見の言葉を特定します。 これはトリプレットのコンポーネント間の相互相互作用を考慮し、探索とサンプル効率を改善している。 さらに、この階層的なRLsetupにより、複数の重なり合う三重項を扱うことができる。 実験では,ラップトップおよびレストランドメインの既存データセットのモデルを評価し,最先端の性能を実現することを示す。 この作業の実装はhttps://github.com/d eclare-lab/ASTE-RLで公開されている。

Aspect Sentiment Triplet Extraction (ASTE) is the task of extracting triplets of aspect terms, their associated sentiments, and the opinion terms that provide evidence for the expressed sentiments. Previous approaches to ASTE usually simultaneously extract all three components or first identify the aspect and opinion terms, then pair them up to predict their sentiment polarities. In this work, we present a novel paradigm, ASTE-RL, by regarding the aspect and opinion terms as arguments of the expressed sentiment in a hierarchical reinforcement learning (RL) framework. We first focus on sentiments expressed in a sentence, then identify the target aspect and opinion terms for that sentiment. This takes into account the mutual interactions among the triplet's components while improving exploration and sample efficiency. Furthermore, this hierarchical RLsetup enables us to deal with multiple and overlapping triplets. In our experiments, we evaluate our model on existing datasets from laptop and restaurant domains and show that it achieves state-of-the-art performance. The implementation of this work is publicly available at https://github.com/d eclare-lab/ASTE-RL.
翻訳日:2021-08-16 18:50:09 公開日:2021-08-13
# (参考訳) UMFA:U-Netと多層特徴集合に基づくフォトリアリスティックなスタイル転送手法 [全文訳有]

UMFA: A photorealistic style transfer method based on U-Net and multi-layer feature aggregation ( http://arxiv.org/abs/2108.06113v1 )

ライセンス: CC0 1.0
D.Y. Rao, X.J. Wu, H. Li, J. Kittler, T.Y. Xu(参考訳) 本稿では,フォトリアリスティックな画像スタイライゼーションの自然な効果を強調する,フォトリアリスティックなスタイル転送ネットワークを提案する。 一般に、画像内容の歪みと詳細の欠如は、スタイル転送分野における2つの典型的な問題である。 この目的のために,U-Net構造を用いた多層特徴集約(MFA)法を用いて,スタイリング処理において浅層により得られた詳細情報を同時に提供する新しいフレームワークを設計する。 特に、高密度ブロックに基づくエンコーダとU-Netの対称構造を形成するデコーダとを連立して、効率的な特徴抽出と画像再構成を実現する。 また、スタイリゼーションを実現するために、スキップ接続位置にMFAと"adaptive instance normalization"(AdaIN)に基づく転送モジュールを挿入する。 したがって、スタイリッシュな画像は、実際の写真のテクスチャを有し、マスクや後処理工程を導入することなく、リッチなコンテンツ詳細を保持することができる。 公開データセットにおける実験結果は,提案手法の有効性とメリットを反映して,より忠実な構造的類似性と低いスタイル損失を実現することを実証する。

In this paper, we propose a photorealistic style transfer network to emphasize the natural effect of photorealistic image stylization. In general, distortion of the image content and lacking of details are two typical issues in the style transfer field. To this end, we design a novel framework employing the U-Net structure to maintain the rich spatial clues, with a multi-layer feature aggregation (MFA) method to simultaneously provide the details obtained by the shallow layers in the stylization processing. In particular, an encoder based on the dense block and a decoder form a symmetrical structure of U-Net are jointly staked to realize an effective feature extraction and image reconstruction. Besides, a transfer module based on MFA and "adaptive instance normalization" (AdaIN) is inserted in the skip connection positions to achieve the stylization. Accordingly, the stylized image possesses the texture of a real photo and preserves rich content details without introducing any mask or post-processing steps. The experimental results on public datasets demonstrate that our method achieves a more faithful structural similarity with a lower style loss, reflecting the effectiveness and merit of our approach.
翻訳日:2021-08-16 18:40:23 公開日:2021-08-13
# (参考訳) 白内障手術における効果的な意味的セグメンテーション [全文訳有]

Effective semantic segmentation in Cataract Surgery: What matters most? ( http://arxiv.org/abs/2108.06119v1 )

ライセンス: CC BY 4.0
Theodoros Pissas, Claudio Ravasio, Lyndon Da Cruz, Christos Bergeles(参考訳) 我々の研究は、白内障手術に関する挑戦的な公開ベンチマークであるCaDISで最先端のニューラルネットワーク設計の選択を提案する。 本手法は, 3つのセマンティックセグメンテーションタスクにおいて, クラス不均衡を効果的に扱うことで, よりきめ細かな外科的ツールセットによる高いパフォーマンスを実現する。 概念的に単純な2つのデータオーバーサンプリング法と異なる損失関数を検討し評価する。 特に最も稀なツールクラスでは,ネットワークアーキテクチャやタスク間で有意なパフォーマンス向上を示し,不均衡な粒度データセットを考慮すれば,高いパフォーマンスを実現するためのアプローチを示す。 私たちのコードとトレーニングされたモデルは、https://github.com/r vimlab/miccai2021_ca taract_semantic_segm entationで利用可能です。

Our work proposes neural network design choices that set the state-of-the-art on a challenging public benchmark on cataract surgery, CaDIS. Our methodology achieves strong performance across three semantic segmentation tasks with increasingly granular surgical tool class sets by effectively handling class imbalance, an inherent challenge in any surgical video. We consider and evaluate two conceptually simple data oversampling methods as well as different loss functions. We show significant performance gains across network architectures and tasks especially on the rarest tool classes, thereby presenting an approach for achieving high performance when imbalanced granular datasets are considered. Our code and trained models are available at https://github.com/R ViMLab/MICCAI2021_Ca taract_semantic_segm entation and qualitative results on unseen surgical video can be found at https://youtu.be/twV IPUj1WZM.
翻訳日:2021-08-16 18:29:43 公開日:2021-08-13
# (参考訳) Pruning vs XNOR-Net:マイクロコントローラにおける音声分類のためのディープラーニングに関する総合的研究 [全文訳有]

Pruning vs XNOR-Net: A Comprehensive Study on Deep Learning for Audio Classification in Microcontrollers ( http://arxiv.org/abs/2108.06128v1 )

ライセンス: CC BY 4.0
Md Mohaimenuzzaman, Christoph Bergmeir, Bernd Meyer(参考訳) Deep Learningは、コンピュータビジョンやマシンリスニングなど、インターネット・オブ・Thingsに関連する多くのアプリケーション分野において、大きな成功を祝っている。 IoTの深い傾きのパワーをフル活用するには、これらのテクノロジを最終的にエッジに直接持ち込む必要があります。 明らかな課題は、モデルが根本的に縮小された場合、ディープラーニング技術が厳密にリソース制約されたエッジデバイスにのみ実装可能であることだ。 このタスクは、ネットワークプルーニング、量子化、XNOR-Netの最近の進歩など、さまざまなモデル圧縮技術に依存している。 本稿では,マイクロコントローラの音声分類におけるこれらの手法の有効性について検討する。 本稿では、エンドツーエンドの生音声分類のためのXNOR-Netと、この手法をプルーニング・アンド・クァンタライズ法と比較した総合的な実証的研究について述べる。 XNORを用いた生音声分類は,メモリ要求を32倍に,計算要求を58倍に減らしながら,少数のクラスに対して通常の完全精度ネットワークに匹敵する性能を示す。 しかし、クラス数が大幅に増加するにつれて、性能低下とプルーニングと量子化に基づく圧縮技術が、同じ空間制約を満たすことができるが約8倍の計算を必要とする技術として好まれる。 これらの知見は,標準ベンチマークセットを用いた生音声分類と画像分類の整合性を示し,XNORをエンド・ツー・エンドの音声分類に適用し,代替手法の文脈で評価した最初の研究である。 すべてのコードはGitHubで公開されている。

Deep Learning has celebrated resounding successes in many application areas of relevance to the Internet-of-Things, for example, computer vision and machine listening. To fully harness the power of deep leaning for the IoT, these technologies must ultimately be brought directly to the edge. The obvious challenge is that deep learning techniques can only be implemented on strictly resource-constrained edge devices if the models are radically downsized. This task relies on different model compression techniques, such as network pruning, quantization and the recent advancement of XNOR-Net. This paper examines the suitability of these techniques for audio classification in microcontrollers. We present an XNOR-Net for end-to-end raw audio classification and a comprehensive empirical study comparing this approach with pruning-and-quantiza tion methods. We show that raw audio classification with XNOR yields comparable performance to regular full precision networks for small numbers of classes while reducing memory requirements 32-fold and computation requirements 58-fold. However, as the number of classes increases significantly, performance degrades and pruning-and-quantiza tion based compression techniques take over as the preferred technique being able to satisfy the same space constraints but requiring about 8x more computation. We show that these insights are consistent between raw audio classification and image classification using standard benchmark sets.To the best of our knowledge, this is the first study applying XNOR to end-to-end audio classification and evaluating it in the context of alternative techniques. All code is publicly available on GitHub.
翻訳日:2021-08-16 18:18:22 公開日:2021-08-13
# (参考訳) 質問応答モデル評価のための意味的回答類似性 [全文訳有]

Semantic Answer Similarity for Evaluating Question Answering Models ( http://arxiv.org/abs/2108.06130v1 )

ライセンス: CC BY 4.0
Julian Risch and Timo M\"oller and Julian Gutsch and Malte Pietsch(参考訳) 質問応答モデルの評価は、基底アノテーションとモデル予測を比較する。 しかし、今日では、この比較は概ね語彙に基づくものであり、語彙的重複を持たないが意味論的に類似している答えを見逃し、正しい答えを偽として扱う。 このモデルの性能の過小評価は、アプリケーションのユーザの受け入れを妨げ、異なるモデルの公正な比較を複雑にする。 したがって、純粋な文字列の類似性の代わりに意味論に基づく評価指標が必要である。 本稿では,意味的回答の類似度を推定するためのクロスエンコーダベースのメトリクスであるSASについて,既存の7つの指標と比較する。 そこで本研究では,2対の回答を含む英語とドイツ語の3方向アノテート評価データセットと,その意味的類似性に関する人間の判断を作成し,sasメトリクスと実験の実装とともに公開する。 最近のトランスフォーマーモデルに基づく意味的類似度指標は、新たに作成した2つのデータセットと関連する作業からの1つのデータセットの従来の語彙的類似度指標よりも、人間の判断と非常によく相関している。

The evaluation of question answering models compares ground-truth annotations with model predictions. However, as of today, this comparison is mostly lexical-based and therefore misses out on answers that have no lexical overlap but are still semantically similar, thus treating correct answers as false. This underestimation of the true performance of models hinders user acceptance in applications and complicates a fair comparison of different models. Therefore, there is a need for an evaluation metric that is based on semantics instead of pure string similarity. In this short paper, we present SAS, a cross-encoder-based metric for the estimation of semantic answer similarity, and compare it to seven existing metrics. To this end, we create an English and a German three-way annotated evaluation dataset containing pairs of answers along with human judgment of their semantic similarity, which we release along with an implementation of the SAS metric and the experiments. We find that semantic similarity metrics based on recent transformer models correlate much better with human judgment than traditional lexical similarity metrics on our two newly created datasets and one dataset from related work.
翻訳日:2021-08-16 18:03:42 公開日:2021-08-13
# (参考訳) パンスハーペンのフルレゾリューション品質評価 [全文訳有]

Full-resolution quality assessment for pansharpening ( http://arxiv.org/abs/2108.06144v1 )

ライセンス: CC BY 4.0
Giuseppe Scarpa and Matteo Ciotola(参考訳) パンスハーペン法における信頼性の高い品質評価手法は,関連ソリューションの開発において重要である。 残念なことに、客観的な評価のためのガイダンスとして使われる基盤の欠如により、コミュニティは、参照ベースの解像度低下インデックスや、フルレゾリューションデータセットに適用可能な主観的品質指標の参照を頼らざるを得なくなった。 特に、参照ベースのアプローチは、関連した基底真理でデータを合成できる分解分解過程であるwaldのプロトコルを活用している。 しかし、どちらのソリューションも、代替のノン参照フルレゾリューションフレームワークによって、この研究を緩和しようとする重大な欠点を提示する。 一方、スペクトル忠実性問題に対処するためのプロトコル、すなわち再プロジェクションプロトコルを導入しました。 一方,パンシャーペン画像とパンクロマティックバンドの完全分解能における空間整合性の新たな指標が提案されている。 実験の結果,視覚検査で確認した提案手法の有効性が示された。

A reliable quality assessment procedure for pansharpening methods is of critical importance for the development of the related solutions. Unfortunately, the lack of ground-truths to be used as guidance for an objective evaluation has pushed the community to resort to either reference-based reduced-resolution indexes or to no-reference subjective quality indexes that can be applied on full-resolution datasets. In particular, the reference-based approach leverages on Wald's protocol, a resolution degradation process that allows one to synthesize data with related ground truth. Both solutions, however, present critical shortcomings that we aim to mitigate in this work by means of an alternative no-reference full-resolution framework. On one side we introduce a protocol, namely the reprojection protocol, which allows to handle the spectral fidelity problem. On the other side, a new index of the spatial consistency between the pansharpened image and the panchromatic band at full resolution is proposed. The experimental results show the effectiveness of the proposed approach which is confirmed also by visual inspection.
翻訳日:2021-08-16 17:51:05 公開日:2021-08-13
# (参考訳) 高速トレーニング収束のための条件付きDETR [全文訳有]

Conditional DETR for Fast Training Convergence ( http://arxiv.org/abs/2108.06152v1 )

ライセンス: CC BY 4.0
Depu Meng, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui Yuan, Lei Sun, Jingdong Wang(参考訳) 最近開発されたDETRアプローチは、トランスフォーマーエンコーダとデコーダアーキテクチャをオブジェクト検出に適用し、有望な性能を達成する。 本稿では,重要な問題に対処し,トレーニングの収束を遅くし,高速DETRトレーニングのための条件付きクロスアテンション機構を提案する。 我々のアプローチは、DETRにおけるクロスアテンションは、4つの極端をローカライズし、ボックスを予測するためのコンテンツ埋め込みに大きく依存しているため、高品質なコンテンツ埋め込みの必要性が増し、トレーニングの難しさが増している。 提案手法は条件付きdetrと呼ばれ,マルチヘッドクロスアテンションのためのデコーダ埋め込みから条件付き空間クエリを学習する。 その利点は、条件付き空間問合せによって、各クロスアテンションヘッドが、例えば1つのオブジェクトの極端またはオブジェクトボックス内の領域を含むバンドに参加することができることである。 これにより、オブジェクト分類とボックス回帰のために異なる領域をローカライズするための空間範囲を狭め、コンテンツ埋め込みへの依存を緩和し、トレーニングを緩和する。 実験の結果、DTRはバックボーンR50とR101では6.7倍、バックボーンDC5-R50とDC5-R101では10倍の速度で収束することがわかった。 コードはhttps://git.io/Condi tionalDETRで公開されている。

The recently-developed DETR approach applies the transformer encoder and decoder architecture to object detection and achieves promising performance. In this paper, we handle the critical issue, slow training convergence, and present a conditional cross-attention mechanism for fast DETR training. Our approach is motivated by that the cross-attention in DETR relies highly on the content embeddings for localizing the four extremities and predicting the box, which increases the need for high-quality content embeddings and thus the training difficulty. Our approach, named conditional DETR, learns a conditional spatial query from the decoder embedding for decoder multi-head cross-attention. The benefit is that through the conditional spatial query, each cross-attention head is able to attend to a band containing a distinct region, e.g., one object extremity or a region inside the object box. This narrows down the spatial range for localizing the distinct regions for object classification and box regression, thus relaxing the dependence on the content embeddings and easing the training. Empirical results show that conditional DETR converges 6.7x faster for the backbones R50 and R101 and 10x faster for stronger backbones DC5-R50 and DC5-R101. Code is available at https://git.io/Condi tionalDETR.
翻訳日:2021-08-16 17:39:58 公開日:2021-08-13
# (参考訳) aiシステムのロバストネステスト:交通標識認識を事例として [全文訳有]

Robustness testing of AI systems: A case study for traffic sign recognition ( http://arxiv.org/abs/2108.06159v1 )

ライセンス: CC BY 4.0
Christian Berghoff and Pavol Bielik and Matthias Neu and Petar Tsankov and Arndt von Twickel(参考訳) ここ数年、AIシステム、特にニューラルネットワークのパフォーマンスは大幅に向上し、現在では広範囲のアプリケーションで使用されている。 古典的なシンボリックAIシステムとは異なり、ニューラルネットワークは巨大なデータセットを使って訓練されており、数十億のパラメータを含む内部構造は人間の解釈に役立ちません。 結果として、トレーニング中に見られるものと大きく異なる入力データを処理する場合、操作中のニューラルネットワークの正しい振る舞いを広範囲に保証することは、今のところ不可能である。 しかし、aiシステムの多くのアプリケーションは、セキュリティ上または安全上重要であり、それゆえ、予期しない出来事に直面した場合にシステムの堅牢性に関するステートメントを取得する必要がある。 このようなアプリケーションのための堅牢なAIシステムを開発するためのステップとして,本論文では,AIシステムの堅牢性を実際に検討し,どの方法やメトリクスを利用できるかを示す。 自律運転における交通標識認識の例について,ロバストネステスト手法を解説し,分析した。

In the last years, AI systems, in particular neural networks, have seen a tremendous increase in performance, and they are now used in a broad range of applications. Unlike classical symbolic AI systems, neural networks are trained using large data sets and their inner structure containing possibly billions of parameters does not lend itself to human interpretation. As a consequence, it is so far not feasible to provide broad guarantees for the correct behaviour of neural networks during operation if they process input data that significantly differ from those seen during training. However, many applications of AI systems are security- or safety-critical, and hence require obtaining statements on the robustness of the systems when facing unexpected events, whether they occur naturally or are induced by an attacker in a targeted way. As a step towards developing robust AI systems for such applications, this paper presents how the robustness of AI systems can be practically examined and which methods and metrics can be used to do so. The robustness testing methodology is described and analysed for the example use case of traffic sign recognition in autonomous driving.
翻訳日:2021-08-16 17:23:18 公開日:2021-08-13
# (参考訳) 半マルコフモデルを用いた適応実行変調(AED)を用いたロボットナビゲーションの強化学習 [全文訳有]

Reinforcement Learning for Robot Navigation with Adaptive ExecutionDuration (AED) in a Semi-Markov Model ( http://arxiv.org/abs/2108.06161v1 )

ライセンス: CC BY 4.0
Yu'an Chen, Ruosong Ye, Ziyang Tao, Hongjian Liu, Guangda Chen, Jie Peng, Jun Ma, Yu Zhang, Yanyong Zhang and Jianmin Ji(参考訳) 深部強化学習(DRL)アルゴリズムは、知覚入力を直接ロボット制御コマンドにマッピングすることで、特に未知の環境でロボットナビゲーションに有効であることが証明されている。 既存の方法の多くは、一定間隔でコマンドを実行するロボットによる一様実行時間を採用している。 そのため、実行期間の長さはナビゲーションアルゴリズムにとって重要なパラメータとなる。 特に、継続時間が短すぎる場合、ナビゲーションポリシーは高い頻度で実行され、トレーニングの困難さと高い計算コストが増大する。 一方、期間が長すぎると、ポリシーは混雑した障害のあるような複雑な状況を扱うことができない。 従って、"スイート"期間範囲を見つけるのが難しい。いくつかの期間値は、DRLモデルにナビゲーションパスを見つけるのに失敗する可能性がある。 本稿では,この問題を克服するために適応実行時間を用いることを提案する。 具体的には,適応実行時間を扱う半マルコフ決定プロセス(smdp)問題としてナビゲーションタスクを定式化する。 また、分散近似ポリシー最適化(DPPO)アルゴリズムを改善し、SMDP問題に対する理論的保証を提供する。 我々はシミュレーターと実際のロボットの両方でアプローチを評価した。 その結果,本手法はナビゲーション成功率において,他のDRL法よりも10.3%優れていた。

Deep reinforcement learning (DRL) algorithms have proven effective in robot navigation, especially in unknown environments, through directly mapping perception inputs into robot control commands. Most existing methods adopt uniform execution duration with robots taking commands at fixed intervals. As such, the length of execution duration becomes a crucial parameter to the navigation algorithm. In particular, if the duration is too short, then the navigation policy would be executed at a high frequency, with increased training difficulty and high computational cost. Meanwhile, if the duration is too long, then the policy becomes unable to handle complex situations, like those with crowded obstacles. It is thus tricky to find the "sweet" duration range; some duration values may render a DRL model to fail to find a navigation path. In this paper, we propose to employ adaptive execution duration to overcome this problem. Specifically, we formulate the navigation task as a Semi-Markov Decision Process (SMDP) problem to handle adaptive execution duration. We also improve the distributed proximal policy optimization (DPPO) algorithm and provide its theoretical guarantee for the specified SMDP problem. We evaluate our approach both in the simulator and on an actual robot. The results show that our approach outperforms the other DRL-based method (with fixed execution duration) by 10.3% in terms of the navigation success rate.
翻訳日:2021-08-16 17:13:29 公開日:2021-08-13
# (参考訳) 預言者の追従:遅延したフィードバックの面における正確なオンライン変換率予測 [全文訳有]

Follow the Prophet: Accurate Online Conversion Rate Prediction in the Face of Delayed Feedback ( http://arxiv.org/abs/2108.06167v1 )

ライセンス: CC BY-SA 4.0
Haoming Li, Feiyang Pan, Xiang Ao, Zhao Yang, Min Lu, Junwei Pan, Dapeng Liu, Lei Xiao, Qing He(参考訳) 遅延したフィードバック問題は、数分から数日の変換の高度に多様化したフィードバック遅延によって引き起こされるオンライン広告における必然的な課題の1つである。 異なるタイプの広告やユーザに対して、このような識別できない遅延の下で適切なオンライン学習システムを設計することは困難である。 本稿では,オンライン広告における遅延したフィードバック問題に対して,"Following the Prophet"(略してFTP)を用いて対処することを提案する。 重要な洞察は、ログされたすべてのサンプルに対して即座にフィードバックが得られた場合、遅延したフィードバック、すなわち"プロキシ"なしでモデルを得ることができます。 オンライン学習中に預言者を得ることはできないが、各タスクが異なる期間のフィードバックパターンをキャプチャするマルチタスク予測のセットの上に集約ポリシーを用いて、預言者の予測を予測することができることを示す。 我々は,ポリシーの目的と最適化のアプローチを提案し,ログデータを用いて預言者を模倣する。 3つの実世界の広告データセットに対する大規模な実験により、我々の手法は過去の最先端のベースラインよりも優れていた。

The delayed feedback problem is one of the imperative challenges in online advertising, which is caused by the highly diversified feedback delay of a conversion varying from a few minutes to several days. It is hard to design an appropriate online learning system under these non-identical delay for different types of ads and users. In this paper, we propose to tackle the delayed feedback problem in online advertising by "Following the Prophet" (FTP for short). The key insight is that, if the feedback came instantly for all the logged samples, we could get a model without delayed feedback, namely the "prophet". Although the prophet cannot be obtained during online learning, we show that we could predict the prophet's predictions by an aggregation policy on top of a set of multi-task predictions, where each task captures the feedback patterns of different periods. We propose the objective and optimization approach for the policy, and use the logged data to imitate the prophet. Extensive experiments on three real-world advertising datasets show that our method outperforms the previous state-of-the-art baselines.
翻訳日:2021-08-16 16:57:52 公開日:2021-08-13
# (参考訳) バイオインフォマティクス問題における局所モデルおよび大域モデル予測の解釈のためのデータ駆動型アドバイス [全文訳有]

Data-driven advice for interpreting local and global model predictions in bioinformatics problems ( http://arxiv.org/abs/2108.06201v1 )

ライセンス: CC BY 4.0
Markus Loecher and Qi Wu(参考訳) ランダムフォレストや勾配木などの木に基づくアルゴリズムは、複数の分野にまたがる最も人気があり強力な機械学習モデルのひとつであり続けている。 ツリーベースモデルにおける特徴の影響を推定する従来の知恵は、(i)グローバルな重要性の尺度しか得られず、(ii)深刻なバイアスに苦しむことで知られる \textit{node-wise reduction of a loss function} を測定することである。 条件付き特徴コントリビューション(CFC)は、決定パスに従うことによって予測をケースバイケースで説明し、経路に沿った各機能にモデルが期待する出力の変化をもたらす。 しかし、lundbergらもそうである。 木の根からの距離に依存するCFCの潜在的なバイアスを指摘した。 SHAP値(SHapley Additive exPlanation)は、このバイアスを軽減するために用いられるが、計算コストははるかに高い。 本稿では,2つの手法で計算された説明を164の公開分類問題に対して徹底的に比較し,現在の研究者にデータ駆動型アルゴリズムの推薦を提供する。 ランダムな森林では、局所的およびグローバルなSHAP値とCFCスコアの相関が非常に高く、非常に類似したランキングと解釈をもたらす。 類似の結論は、グローバルな特徴重要度スコアを各特徴に関連する予測力のプロキシとして用いることの忠実さである。

Tree-based algorithms such as random forests and gradient boosted trees continue to be among the most popular and powerful machine learning models used across multiple disciplines. The conventional wisdom of estimating the impact of a feature in tree based models is to measure the \textit{node-wise reduction of a loss function}, which (i) yields only global importance measures and (ii) is known to suffer from severe biases. Conditional feature contributions (CFCs) provide \textit{local}, case-by-case explanations of a prediction by following the decision path and attributing changes in the expected output of the model to each feature along the path. However, Lundberg et al. pointed out a potential bias of CFCs which depends on the distance from the root of a tree. The by now immensely popular alternative, SHapley Additive exPlanation (SHAP) values appear to mitigate this bias but are computationally much more expensive. Here we contribute a thorough comparison of the explanations computed by both methods on a set of 164 publicly available classification problems in order to provide data-driven algorithm recommendations to current researchers. For random forests, we find extremely high similarities and correlations of both local and global SHAP values and CFC scores, leading to very similar rankings and interpretations. Analogous conclusions hold for the fidelity of using global feature importance scores as a proxy for the predictive power associated with each feature.
翻訳日:2021-08-16 16:50:19 公開日:2021-08-13
# (参考訳) simcvd:半教師付き医用画像セグメンテーションのための単純コントラストボクセルワイズ表現蒸留法 [全文訳有]

SimCVD: Simple Contrastive Voxel-Wise Representation Distillation for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2108.06227v1 )

ライセンス: CC BY 4.0
Chenyu You, Yuan Zhou, Ruihan Zhao, Lawrence Staib, James S. Duncan(参考訳) 医療画像分析におけるセグメンテーションの自動化は、大量の手動ラベル付きデータを必要とする課題である。 しかし、既存の学習ベースのアプローチの多くは、手動で注釈付けされた医療データに悩まされることが多いため、正確で堅牢な医用画像セグメンテーションにおいて大きな問題となる。 加えて、既存の半教師付きアプローチの多くは、教師付きアプローチに比べて堅牢ではなく、幾何学的構造と意味情報の明確なモデリングが欠如しており、どちらもセグメンテーションの精度を制限している。 そこで本研究では,最先端のボクセル表現学習を著しく向上させる,単純なコントラスト蒸留フレームワークであるSimCVDを提案する。 まず,入力ボリュームを2つの視点で把握し,対象境界の符号付き距離マップを,マスクとして2つの独立したドロップアウトしか持たない,教師なしのトレーニング戦略について述べる。 この単純なアプローチは驚くほどうまく機能し、ラベル付きデータの少ない以前の完全な教師付きメソッドと同じレベルで動作する。 我々は、ドロップアウトをデータ拡張の最小の形式と見なすことができ、ネットワークを表現の崩壊に頑健にする、と仮定する。 次に, 対の類似性を蒸留して構造蒸留を行うことを提案する。 我々は,SimCVDを左心房隔離チャレンジ(LA)とNIH膵CTデータセットの2つの一般的なデータセットで評価した。 The results on the LA dataset showed that in two type of labeled ratios (i.e. 20% and 10%) that SimCVD achieve a average Dice score of 90.85% and 89.03%, a 0.91% and 2.22% improve than previous best results。 本手法は,医用画像合成や登録などの下流業務の一般的な枠組みとして,SimCVDを活用することを約束して,エンドツーエンドで訓練することができる。

Automated segmentation in medical image analysis is a challenging task that requires a large amount of manually labeled data. However, most existing learning-based approaches usually suffer from limited manually annotated medical data, which poses a major practical problem for accurate and robust medical image segmentation. In addition, most existing semi-supervised approaches are usually not robust compared with the supervised counterparts, and also lack explicit modeling of geometric structure and semantic information, both of which limit the segmentation accuracy. In this work, we present SimCVD, a simple contrastive distillation framework that significantly advances state-of-the-art voxel-wise representation learning. We first describe an unsupervised training strategy, which takes two views of an input volume and predicts their signed distance maps of object boundaries in a contrastive objective, with only two independent dropout as mask. This simple approach works surprisingly well, performing on the same level as previous fully supervised methods with much less labeled data. We hypothesize that dropout can be viewed as a minimal form of data augmentation and makes the network robust to representation collapse. Then, we propose to perform structural distillation by distilling pair-wise similarities. We evaluate SimCVD on two popular datasets: the Left Atrial Segmentation Challenge (LA) and the NIH pancreas CT dataset. The results on the LA dataset demonstrate that, in two types of labeled ratios (i.e., 20% and 10%), SimCVD achieves an average Dice score of 90.85% and 89.03% respectively, a 0.91% and 2.22% improvement compared to previous best results. Our method can be trained in an end-to-end fashion, showing the promise of utilizing SimCVD as a general framework for downstream tasks, such as medical image synthesis and registration.
翻訳日:2021-08-16 16:46:28 公開日:2021-08-13
# (参考訳) 不均衡データストリームを用いたオンラインフェアネスアウェア学習 [全文訳有]

Online Fairness-Aware Learning with Imbalanced Data Streams ( http://arxiv.org/abs/2108.06231v1 )

ライセンス: CC BY 4.0
Vasileios Iosifidis, Wenbin Zhang, Eirini Ntoutsi(参考訳) データ駆動学習アルゴリズムは、ネットワーク監視、株価予測、ジョブアプリケーションなど、時間とともにデータが利用可能になる多くのオンラインアプリケーションで採用されている。 基礎となるデータ分散は、新しいインスタンスが到着し、古いインスタンスが時代遅れになると、モデル適応を呼び出す時間とともに進化するかもしれない。 このような動的な環境では、データストリームと呼ばれる公正な学習は、一方的な要件とはみなされず、ストリーム上の連続的な要件を構成するべきである。 最近のフェアネス対応ストリーム分類器は、多くの実生活アプリケーションに現れるクラス不均衡の問題を無視し、主に全てのクラスを効果的に学習できないために、少数インスタンスを「排除」するため、差別を緩和している。 本稿では,ストリーム上で有効かつ公正な分類を行うオンラインフェアネス対応手法である \ours を提案する。 ストリームのクラス不均衡を監視し、その決定境界を微調整することで、ストリーム上での差別的な結果を軽減する。 クラス不均衡の異なる領域の8つの実世界と1つの合成データセットによる実験は、平均的精度が[11.2\%-14.2\%]、[22.6\%-31.8\%]、[42.5\%-49.6\%]、[14.3\%-25.7\%]、[89.4\%-96.6\%]の統計パリティ(フェアネス)に対する我々の手法の優位性を示した。

Data-driven learning algorithms are employed in many online applications, in which data become available over time, like network monitoring, stock price prediction, job applications, etc. The underlying data distribution might evolve over time calling for model adaptation as new instances arrive and old instances become obsolete. In such dynamic environments, the so-called data streams, fairness-aware learning cannot be considered as a one-off requirement, but rather it should comprise a continual requirement over the stream. Recent fairness-aware stream classifiers ignore the problem of class imbalance, which manifests in many real-life applications, and mitigate discrimination mainly because they "reject" minority instances at large due to their inability to effectively learn all classes. In this work, we propose \ours, an online fairness-aware approach that maintains a valid and fair classifier over the stream. \ours~is an online boosting approach that changes the training distribution in an online fashion by monitoring stream's class imbalance and tweaks its decision boundary to mitigate discriminatory outcomes over the stream. Experiments on 8 real-world and 1 synthetic datasets from different domains with varying class imbalance demonstrate the superiority of our method over state-of-the-art fairness-aware stream approaches with a range (relative) increase [11.2\%-14.2\%] in balanced accuracy, [22.6\%-31.8\%] in gmean, [42.5\%-49.6\%] in recall, [14.3\%-25.7\%] in kappa and [89.4\%-96.6\%] in statistical parity (fairness).
翻訳日:2021-08-16 16:25:06 公開日:2021-08-13
# (参考訳) 全スライド細胞画像からの尿中メラノーマサブタイピングの解釈アルゴリズム [全文訳有]

An Interpretable Algorithm for Uveal Melanoma Subtyping from Whole Slide Cytology Images ( http://arxiv.org/abs/2108.06246v1 )

ライセンス: CC BY 4.0
Haomin Chen, T.Y. Alvin Liu, Catalina Gomez, Zelia Correa, Mathias Unberath(参考訳) アルゴリズムによる意思決定支援は、パーソナライズドメディカルな医療の基盤となりつつあり、特に、特定の情報へのアクセスが治療の過程を劇的に変えることができるような高い推奨事項のために、特に、患者による結果が顕著である。 これらのシナリオではリスクが高いため、意思決定システムはレコメンデーションを提供するだけでなく、そのサポートに透過的な推論を提供するのが望ましい。 学習ベースのシステムでは、推論パイプラインの解釈可能な設計によってこれを実現できる。 そこで本研究では,細針吸引生検のデジタル細胞診画像を用いたぶどう膜メラノーマの自動解析システムについて述べる。 本手法は,多数の代表的スライドによって定義された2次元多様体において,候補細胞診画像の全てのセルを点として埋め込み,組織サンプルの細胞レベルの構成を推論し,生検の解釈可能なサブタイプ化への道を開く。 最後に、円歪2次元多様体の分割に対して規則に基づくスライドレベル分類アルゴリズムを訓練する。 このプロセスは、人間の検証のために自動的に評価されるが極めて透明な単純なルールセットをもたらす。 当院における88例の黒色腫症例の細胞診データにおいて,本手法は87.5%の精度を実現し,深部"ブラックボックス"モデルを含むすべての競合モデルと比較した。 この手法は細胞レベルのコンテンツとのインタラクションを容易にするユーザインタフェースを備えており、病理学的評価のためのさらなる洞察を提供する可能性がある。

Algorithmic decision support is rapidly becoming a staple of personalized medicine, especially for high-stakes recommendations in which access to certain information can drastically alter the course of treatment, and thus, patient outcome; a prominent example is radiomics for cancer subtyping. Because in these scenarios the stakes are high, it is desirable for decision systems to not only provide recommendations but supply transparent reasoning in support thereof. For learning-based systems, this can be achieved through an interpretable design of the inference pipeline. Herein we describe an automated yet interpretable system for uveal melanoma subtyping with digital cytology images from fine needle aspiration biopsies. Our method embeds every automatically segmented cell of a candidate cytology image as a point in a 2D manifold defined by many representative slides, which enables reasoning about the cell-level composition of the tissue sample, paving the way for interpretable subtyping of the biopsy. Finally, a rule-based slide-level classification algorithm is trained on the partitions of the circularly distorted 2D manifold. This process results in a simple rule set that is evaluated automatically but highly transparent for human verification. On our in house cytology dataset of 88 uveal melanoma patients, the proposed method achieves an accuracy of 87.5% that compares favorably to all competing approaches, including deep "black box" models. The method comes with a user interface to facilitate interaction with cell-level content, which may offer additional insights for pathological assessment.
翻訳日:2021-08-16 16:04:34 公開日:2021-08-13
# (参考訳) 心 - 主流・独立系ニュース文書コーパス [全文訳有]

MIND - Mainstream and Independent News Documents Corpus ( http://arxiv.org/abs/2108.06249v1 )

ライセンス: CC BY 4.0
Danielle Caled, Paula Carvalho, M\'ario J. Silva(参考訳) 本稿は、オンライン主流および代替メディアソースから10ヶ月にわたって収集されたさまざまな種類の記事からなるポルトガル語コーパスであるMINDを提示し、特徴付ける。 コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。 本稿では,データ収集プロセスがどのように行われたかを説明し,コーパスに含まれるテキストの予備的なキャラクタリゼーションを行うことができる言語メトリクスのセットを提案する。 また, コーパスにおける最も頻繁なトピックの分析を行い, 検討したコレクションの主な相違点と類似点について考察する。 最後に、このコーパスの恩恵を受けうるいくつかのタスクやアプリケーション、特に(間接的に)誤った情報検出に関連するタスクを列挙します。 全体として、コーパスの貢献と初期分析は、将来の探索的ニュース研究を支援し、誤情報に関するより良い洞察を提供するように設計されている。

This paper presents and characterizes MIND, a new Portuguese corpus comprised of different types of articles collected from online mainstream and alternative media sources, over a 10-month period. The articles in the corpus are organized into five collections: facts, opinions, entertainment, satires, and conspiracy theories. Throughout this paper, we explain how the data collection process was conducted, and present a set of linguistic metrics that allow us to perform a preliminary characterization of the texts included in the corpus. Also, we deliver an analysis of the most frequent topics in the corpus, and discuss the main differences and similarities among the collections considered. Finally, we enumerate some tasks and applications that could benefit from this corpus, in particular the ones (in)directly related to misinformation detection. Overall, our contribution of a corpus and initial analysis are designed to support future exploratory news studies, and provide a better insight into misinformation.
翻訳日:2021-08-16 15:50:43 公開日:2021-08-13
# (参考訳) 感情と関節行動のギャップを埋める

Bridging the gap between emotion and joint action ( http://arxiv.org/abs/2108.06264v1 )

ライセンス: CC BY 4.0
M. M. N. Bie\'nkiewicz (1), A. Smykovskyi (1), T. Olugbade (2), S. Janaqi (1), A. Camurri (3), N. Bianchi-Berthouze (2), M. Bj\"orkman (4), B. G. Bardy (1) ((1) EuroMov Digital Health in Motion Univ. Montpellier IMT Mines Ales France, (2) UCL, University College of London UK, (3) UNIGE InfoMus Casa Paganini Italy, (4) KTH Royal Institute of Technology Sweden)(参考訳) 私たちの日々の生活は、子供の遊び、大人が一緒に働く(チームスポーツ)、または群衆をナビゲートする見知らぬ人など、無数の共同行動モーメントで満たされています。 共同行動は、個人(および感情の具現化)を、空間的、時間的に結びつける。 しかし、個々の感情が集団内に存在することでどのように伝播するか、そして共同行動が個人の感情をどのように変化させるかについてはほとんど分かっていない。 実際、マルチエージェントコンポーネントは、主に神経科学に基づく感情へのアプローチに欠けており、逆の合同行動研究は、社会-運動の相互作用をモデル化するための重要なパラメータの1つとして感情を含める方法を見つけていない。 本稿では,まずそのギャップを識別し,様々な科学分野の感情と行動の強い絡み合いを示す証拠を蓄積する。 我々は,このギャップを埋める統合的アプローチを提案し,行動神経科学とデジタルサイエンスの5つの研究方法を強調し,現代社会が直面する領域における重要な課題に対処する。

Our daily human life is filled with a myriad of joint action moments, be it children playing, adults working together (i.e., team sports), or strangers navigating through a crowd. Joint action brings individuals (and embodiment of their emotions) together, in space and in time. Yet little is known about how individual emotions propagate through embodied presence in a group, and how joint action changes individual emotion. In fact, the multi-agent component is largely missing from neuroscience-based approaches to emotion, and reversely joint action research has not found a way yet to include emotion as one of the key parameters to model socio-motor interaction. In this review, we first identify the gap and then stockpile evidence showing strong entanglement between emotion and acting together from various branches of sciences. We propose an integrative approach to bridge the gap, highlight five research avenues to do so in behavioral neuroscience and digital sciences, and address some of the key challenges in the area faced by modern societies.
翻訳日:2021-08-16 15:37:14 公開日:2021-08-13
# (参考訳) ブレードディスクにおける故障のシグネチャをシミュレートするための低次モデリングフレームワーク

A reduced-order modeling framework for simulating signatures of faults in a bladed disk ( http://arxiv.org/abs/2108.06265v1 )

ライセンス: CC BY 4.0
Divya Shyam Singh, Atul Agrawal, D. Roy Mahapatra(参考訳) 本稿では, 回転軸上の羽根ディスクの低次モデリング手法を用いて, データ駆動機械学習のシミュレーションを目的とした各種部品の亀裂等の欠陥の振動シグネチャをシミュレートする。 我々は,複雑な動的応答の理解を深めるために,サブコンポーネントの集中的および1次元解析モデルを用いてきた。 このフレームワークは、エアエンジンを含む回転ターボ機械の健康モニタリングのための故障検出および識別スキームの分析と最適化において直面する課題に対処することを目指している。 積層要素と一次元有限要素を組み合わせたブレードディスクとシャフトをモデル化し,結合系に導いた。 シミュレーション結果は、以前公表したデータとよく一致している。 実効的な剛性近似により, ブレードの亀裂を解析的にモデル化した。 単一および2段のブレードディスクのブレードの亀裂、ファンブレードオフ(FBO)、異物損傷(FOD)など、複数の種類の故障がモデル化されている。 我々は,オンライン健康モニタリングの現実的なシナリオをシミュレートするために,航空機関の運用負荷条件を適用した。 提案手法は,確率的信号モデリング,フォールトシグニチャ同定への機械学習,および測定された振動信号を用いたパラメータ推定に応用する。

This paper reports a reduced-order modeling framework of bladed disks on a rotating shaft to simulate the vibration signature of faults like cracks in different components aiming towards simulated data-driven machine learning. We have employed lumped and one-dimensional analytical models of the subcomponents for better insight into the complex dynamic response. The framework seeks to address some of the challenges encountered in analyzing and optimizing fault detection and identification schemes for health monitoring of rotating turbomachinery, including aero-engines. We model the bladed disks and shafts by combining lumped elements and one-dimensional finite elements, leading to a coupled system. The simulation results are in good agreement with previously published data. We model the cracks in a blade analytically with their effective reduced stiffness approximation. Multiple types of faults are modeled, including cracks in the blades of single and two-stage bladed disks, Fan Blade Off (FBO), and Foreign Object Damage (FOD). We have applied aero-engine operational loading conditions to simulate realistic scenarios of online health monitoring. The proposed reduced-order simulation framework will have applications in probabilistic signal modeling, machine learning toward fault signature identification, and parameter estimation with measured vibration signals.
翻訳日:2021-08-16 15:36:12 公開日:2021-08-13
# (参考訳) BERTの動的スパース前処理の構造化に向けて [全文訳有]

Towards Structured Dynamic Sparse Pre-Training of BERT ( http://arxiv.org/abs/2108.06277v1 )

ライセンス: CC BY-SA 4.0
Anastasia Dietrich and Frithjof Gressmann and Douglas Orr and Ivan Chelombiev and Daniel Justus and Carlo Luschi(参考訳) 大規模言語モデルの効率的な教師なし学習のためのアルゴリズムの同定は重要かつ活発な研究分野である。 本研究では,マグニチュードプルーニングに基づく周期的圧縮ステップとランダムパラメータの再配置を活用する,bert言語モデリングタスクのための,単純で動的に常にスパースな事前学習手法を開発し,検討する。 このアプローチにより,ネットワークサイズが広い範囲で,静的にスパースで密度の高いモデルよりも浮動小数点演算(FLOP)の数でParetoの改善を実現することができる。 さらに,粗粒度ブロックスパルシリティを使用する場合,トレーニングはフラップ効率が保たれ,現代のハードウェアアクセラレータ上での効率的な実行が期待できることを示した。

Identifying algorithms for computational efficient unsupervised training of large language models is an important and active area of research. In this work, we develop and study a straightforward, dynamic always-sparse pre-training approach for BERT language modeling task, which leverages periodic compression steps based on magnitude pruning followed by random parameter re-allocation. This approach enables us to achieve Pareto improvements in terms of the number of floating-point operations (FLOPs) over statically sparse and dense models across a broad spectrum of network sizes. Furthermore, we demonstrate that training remains FLOP-efficient when using coarse-grained block sparsity, making it particularly promising for efficient execution on modern hardware accelerators.
翻訳日:2021-08-16 15:34:09 公開日:2021-08-13
# (参考訳) Dense Passage Retrievalにおける単一および複数表現について [全文訳有]

On Single and Multiple Representations in Dense Passage Retrieval ( http://arxiv.org/abs/2108.06279v1 )

ライセンス: CC BY 4.0
Craig Macdonald, Nicola Tonellotto, Iadh Ounis(参考訳) 文脈化された言語モデルの出現は、bm25のような古典的重み付けモデルの出力の再ランキングに適用されるだけでなく、通路の索引付けや検索に直接使用される場合にも、検索の有効性が向上した。 ニューラルランキングの既存の文献では、2つの高密度な検索ファミリが明らかになっている: 単一表現: 全通路が単一の埋め込み(通常BERTの[CLS]トークンで表される)、または複数の表現: 通路の各トークンがそれぞれの埋め込みで表される(最近のColBERTアプローチで例示される)。 この2家は直接比較されていない。 しかし,高度な検索が今後重要になる可能性から,その利点と欠点を明確に理解することが重要である。 そこで本研究では,各手法がw.r.tを行う状況について,その比較効果に関する直接研究を行っている。 お互い、w.r.t. bm25のベースライン。 応答時間やメモリ使用量の観点からは, ANCE は ColBERT よりも効率的であるが, 複数の表現はMAP や MRR@10 の単一の表現よりも統計的に効率的である。 また,BM25 では最も難しいクエリや定義クエリ,複雑な情報を必要とするクエリに対して,複数の表現が単一表現よりも改善されていることを示す。

The advent of contextualised language models has brought gains in search effectiveness, not just when applied for re-ranking the output of classical weighting models such as BM25, but also when used directly for passage indexing and retrieval, a technique which is called dense retrieval. In the existing literature in neural ranking, two dense retrieval families have become apparent: single representation, where entire passages are represented by a single embedding (usually BERT's [CLS] token, as exemplified by the recent ANCE approach), or multiple representations, where each token in a passage is represented by its own embedding (as exemplified by the recent ColBERT approach). These two families have not been directly compared. However, because of the likely importance of dense retrieval moving forward, a clear understanding of their advantages and disadvantages is paramount. To this end, this paper contributes a direct study on their comparative effectiveness, noting situations where each method under/over performs w.r.t. each other, and w.r.t. a BM25 baseline. We observe that, while ANCE is more efficient than ColBERT in terms of response time and memory usage, multiple representations are statistically more effective than the single representations for MAP and MRR@10. We also show that multiple representations obtain better improvements than single representations for queries that are the hardest for BM25, as well as for definitional queries, and those with complex information needs.
翻訳日:2021-08-16 15:09:26 公開日:2021-08-13
# (参考訳) ドイツの議会手続のダイアクロニック分析:政治バイアスのレンズによるイデオロギー的変化 [全文訳有]

Diachronic Analysis of German Parliamentary Proceedings: Ideological Shifts through the Lens of Political Biases ( http://arxiv.org/abs/2108.06295v1 )

ライセンス: CC BY 4.0
Tobias Walter, Celina Kirschner, Steffen Eger, Goran Glava\v{s}, Anne Lauscher, Simone Paolo Ponzetto(参考訳) 歴史的コーパスのバイアスを,二元論的分布的意味モデルにエンコードされるように分析し,政治(反共)と人種差別(反ユダヤ主義)という2つの特定のバイアスに焦点をあてて分析する。 この目的のために、我々は1867年から2020年までのドイツの議会手続の新たなコーパスであるDeuPARLを使用します。 ダイアクロニック単語埋め込みにおける歴史的バイアスのこの分析を,用語共起とグラフに基づくラベル伝搬に基づく新しいバイアス尺度で補完する。 偏見測定の結果は,ドイツ政治における反ユダヤ主義的・反共主義的偏見の歴史的傾向と一致し,歴史的コーパスから引き起こされた意味空間を用いた歴史的偏見傾向の分析の可能性を示した。

We analyze bias in historical corpora as encoded in diachronic distributional semantic models by focusing on two specific forms of bias, namely a political (i.e., anti-communism) and racist (i.e., antisemitism) one. For this, we use a new corpus of German parliamentary proceedings, DeuPARL, spanning the period 1867--2020. We complement this analysis of historical biases in diachronic word embeddings with a novel measure of bias on the basis of term co-occurrences and graph-based label propagation. The results of our bias measurements align with commonly perceived historical trends of antisemitic and anti-communist biases in German politics in different time periods, thus indicating the viability of analyzing historical bias trends using semantic spaces induced from historical corpora.
翻訳日:2021-08-16 14:59:11 公開日:2021-08-13
# (参考訳) コンテキスト対応オブジェクトジオタグ [全文訳有]

Context Aware Object Geotagging ( http://arxiv.org/abs/2108.06302v1 )

ライセンス: CC BY 4.0
Chao-Jung Liu, Matej Ulicny, Michael Manzke and Rozenn Dahyot(参考訳) 近年,画像からのストリートオブジェクトの局所化が注目されている。 本研究では,動画像に関連付けられたメタデータの質を高めることにより,ストリートビュー画像からアセットジオロケーションを改善する手法を提案する。 予測対象の位置情報はopenstreetmapから抽出したコンテクスト地理情報によってさらに洗練される。 我々のパイプラインは、交通信号のジオタグ化技術の現状に対して実験的に検証されている。

Localization of street objects from images has gained a lot of attention in recent years. We propose an approach to improve asset geolocation from street view imagery by enhancing the quality of the metadata associated with the images using Structure from Motion. The predicted object geolocation is further refined by imposing contextual geographic information extracted from OpenStreetMap. Our pipeline is validated experimentally against the state of the art approaches for geotagging traffic lights.
翻訳日:2021-08-16 14:20:05 公開日:2021-08-13
# (参考訳) GISを用いた3次元点雲分割 [全文訳有]

3D point cloud segmentation using GIS ( http://arxiv.org/abs/2108.06306v1 )

ライセンス: CC BY 4.0
Chao-Jung Liu, Vladimir Krylov and Rozenn Dahyot(参考訳) 本稿では,2次元gis層(openstreetmap)から地理情報をインポートすることにより,3次元ポイントクラウドデータのセグメンテーションを行う手法を提案する。 提案手法は,GIS多角形周辺と点雲の最適適合性を実現するために,建物などの意味のある単位を特定し,位置を調整する。 私たちの処理パイプラインは、ドローンが収集した光学画像から構築したトリニティ・カレッジ・ダブリン(ireland)キャンパスの分断点雲データによって示され、図示されます。

In this paper we propose an approach to perform semantic segmentation of 3D point cloud data by importing the geographic information from a 2D GIS layer (OpenStreetMap). The proposed automatic procedure identifies meaningful units such as buildings and adjusts their locations to achieve best fit between the GIS polygonal perimeters and the point cloud. Our processing pipeline is presented and illustrated by segmenting point cloud data of Trinity College Dublin (Ireland) campus constructed from optical imagery collected by a drone.
翻訳日:2021-08-16 14:13:16 公開日:2021-08-13
# (参考訳) 時空間分割学習 [全文訳有]

Spatio-Temporal Split Learning ( http://arxiv.org/abs/2108.06309v1 )

ライセンス: CC BY 4.0
Joongheon Kim, Seunghoon Park, Soyi Jung, Seehwan Yoo(参考訳) 本稿では,深層ニューラルネットワーク計算のプライバシー保護を実現するために,複数のエンドシステムを用いた分割学習フレームワークを提案する。 従来の分割学習フレームワークでは、ディープニューラルネットワーク計算は、ネットワークアーキテクチャ全体を隠蔽する複数のコンピュータシステムに分離される。 提案したフレームワークでは,複数のエンドシステムは1つの集中型サーバを分割学習計算で共有し,複数のエンドシステムは入力層,第1の隠蔽層,集中型サーバは他の隠蔽層,出力層と共有する。 この枠組みは時空間分割学習と呼ばれ、複数のエンドシステムからデータを集めるために空間的に分離され、また分割学習の性質により時間的に分離される。 性能評価により,提案手法がデータのプライバシーを保ちながら,ほぼ最適に近い精度を示すことを確認した。

This paper proposes a novel split learning framework with multiple end-systems in order to realize privacypreserving deep neural network computation. In conventional split learning frameworks, deep neural network computation is separated into multiple computing systems for hiding entire network architectures. In our proposed framework, multiple computing end-systems are sharing one centralized server in split learning computation, where the multiple end-systems are with input and first hidden layers and the centralized server is with the other hidden layers and output layer. This framework, which is called as spatio-temporal split learning, is spatially separated for gathering data from multiple end-systems and also temporally separated due to the nature of split learning. Our performance evaluation verifies that our proposed framework shows nearoptimal accuracy while preserving data privacy.
翻訳日:2021-08-16 14:04:42 公開日:2021-08-13
# (参考訳) FlipDA:Few-Shot Learningのための効果的でロバストなデータ拡張 [全文訳有]

FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning ( http://arxiv.org/abs/2108.06332v1 )

ライセンス: CC BY-SA 4.0
Jing Zhou, Yanan Zheng, Jie Tang, Jian Li, Zhilin Yang(参考訳) テキストデータ拡張のほとんどの以前の方法は、単純なタスクと弱いベースラインに限定されている。 ハードタスク(すなわち、少数の自然言語理解)と強いベースライン(つまり10億以上のパラメータを持つ事前学習されたモデル)のデータ拡張について検討する。 この条件下では, 先行手法の多くを再現し, これらの手法が限界ゲインを最善にもたらし, 時には性能を劣化させることがわかった。 この課題に対処するために、生成モデルと分類器を併用してラベルフリップデータを生成する新しいデータ拡張手法FlipDAを提案する。 flipdaのアイデアの中心は、ラベル付きデータを生成するよりも、ラベル付きデータを生成することがパフォーマンスにとって重要であることの発見である。 実験の結果、FlipDAは有効性と堅牢性の間の良好なトレードオフを達成し、多くのタスクを大幅に改善する一方で、他のタスクに悪影響を及ぼさないことがわかった。

Most previous methods for text data augmentation are limited to simple tasks and weak baselines. We explore data augmentation on hard tasks (i.e., few-shot natural language understanding) and strong baselines (i.e., pretrained models with over one billion parameters). Under this setting, we reproduced a large number of previous augmentation methods and found that these methods bring marginal gains at best and sometimes degrade the performance much. To address this challenge, we propose a novel data augmentation method FlipDA that jointly uses a generative model and a classifier to generate label-flipped data. Central to the idea of FlipDA is the discovery that generating label-flipped data is more crucial to the performance than generating label-preserved data. Experiments show that FlipDA achieves a good tradeoff between effectiveness and robustness---it substantially improves many tasks while not negatively affecting the others.
翻訳日:2021-08-16 13:54:20 公開日:2021-08-13
# クラス認識型QAアンサンブルによる請求書抽出のためのゼロショットタスク転送

Zero-shot Task Transfer for Invoice Extraction via Class-aware QA Ensemble ( http://arxiv.org/abs/2108.06069v1 )

ライセンス: Link先を確認
Prithiviraj Damodaran, Prabhkaran Singh, Josemon Achankuju(参考訳) 本稿では,レイアウト,ロケール,ドメインに依存しない文書抽出のためのゼロショットシステムvespaを提案する。 大量の文書が利用可能であるにもかかわらず、ラベル付きおよび検証済みデータセットの欠如は、企業のために文書抽出モデルを識別的に訓練することの課題となっている。 情報抽出(ie)タスクを自然言語質問応答(qa)タスクに、エンジニアリングタスク固有のアーキテクチャを使わずに移すことで、この問題に対処できることを示す。 本システムの有効性は,複数の複雑なレイアウト,ドメイン,地理を持つ実世界の小売・納税請求書を閉じたコーパスで評価することで実証する。 経験的評価の結果,請求書抽出に特化したアーキテクチャを用いた識別訓練モデルを用いた商用請求書ソリューションが4つに上回っていることがわかった。 Avgを用いた事前アノテーションやトレーニングをゼロとした6つのフィールドを抽出した。 f1 87.50。

We present VESPA, an intentionally simple yet novel zero-shot system for layout, locale, and domain agnostic document extraction. In spite of the availability of large corpora of documents, the lack of labeled and validated datasets makes it a challenge to discriminatively train document extraction models for enterprises. We show that this problem can be addressed by simply transferring the information extraction (IE) task to a natural language Question-Answering (QA) task without engineering task-specific architectures. We demonstrate the effectiveness of our system by evaluating on a closed corpus of real-world retail and tax invoices with multiple complex layouts, domains, and geographies. The empirical evaluation shows that our system outperforms 4 prominent commercial invoice solutions that use discriminatively trained models with architectures specifically crafted for invoice extraction. We extracted 6 fields with zero upfront human annotation or training with an Avg. F1 of 87.50.
翻訳日:2021-08-16 13:16:48 公開日:2021-08-13
# 解釈可能な異常検出のためのランダム部分空間混合モデル

Random Subspace Mixture Models for Interpretable Anomaly Detection ( http://arxiv.org/abs/2108.06283v1 )

ライセンス: Link先を確認
Cetin Savkli, Catherine Schwartz(参考訳) 本稿では,高次元データに対する確率モデルを構築するサブスペースに基づく新しい手法を提案する。 この手法は、ランダム部分空間の密度と幾何平均化を組み合わせた確率密度の統計的推定に基づく。 ランダムな部分空間を選択する際、各属性の等式は正しい統計的制限を保証するために用いられる。 ガウス混合モデル(gmms)は、数的属性とカテゴリ的属性の両方を扱うことができる特異点を緩和する技法を含む各部分空間の確率密度を作成するために用いられる。 各GMMの成分数はベイズ情報基準によって自動的に決定され、過度な適合を防止する。 提案するアルゴリズムは,ベンチマーク異常検出データセットに対する著名なアルゴリズムと比較して,単純でスケーラブルで解釈しやすいという利点がある。

We present a new subspace-based method to construct probabilistic models for high-dimensional data and highlight its use in anomaly detection. The approach is based on a statistical estimation of probability density using densities of random subspaces combined with geometric averaging. In selecting random subspaces, equal representation of each attribute is used to ensure correct statistical limits. Gaussian mixture models (GMMs) are used to create the probability densities for each subspace with techniques included to mitigate singularities allowing for the ability to handle both numerical and categorial attributes. The number of components for each GMM is determined automatically through Bayesian information criterion to prevent overfitting. The proposed algorithm attains competitive AUC scores compared with prominent algorithms against benchmark anomaly detection datasets with the added benefits of being simple, scalable, and interpretable.
翻訳日:2021-08-16 13:16:35 公開日:2021-08-13
# 教師なし領域適応のための学習伝達可能なパラメータ

Learning Transferable Parameters for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2108.06129v1 )

ライセンス: Link先を確認
Zhongyi Han, Haoliang Sun, Yilong Yin(参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、学習機械が分散シフトの下でラベル付きソースドメインからラベルなしドメインに適応できるようにする。 ディープニューラルネットワークの強力な表現能力のおかげで、UDAの最近の顕著な成果は、ドメイン不変の機能を学ぶことにある。 直感的には、優れた機能表現が、ソースドメインから学んだ仮説とともに、ターゲットドメインにうまく一般化できることを期待しています。 しかし、ドメイン不変特徴の学習プロセスとソース仮説は、必然的に、対象ドメイン上の UDA モデルの一般化性を低下させるドメイン固有情報を含む。 本稿では,部分的パラメータのみを一般化に必須とする抽選券仮説に動機づけられ,部分的パラメータのみがドメイン不変情報学習とudaでの一般化に不可欠であることを見出した。 このようなパラメータを転送可能なパラメータと呼ぶ。 対照的に、他のパラメータはドメイン固有の詳細に適合し、しばしば一般化に失敗する傾向がある。 そこで本研究では,ドメイン固有情報による学習過程における副作用を低減し,ドメイン不変情報の記憶力を高めるために,Transferable Parameter Learning(TransPar)を提案する。 具体的には、分布の不一致度に応じて、各トレーニングイテレーションにおいて、すべてのパラメータを転送可能および変換不能に分割する。 次に、2つのパラメータの別々の更新ルールを実行します。 画像分類と回帰タスク(キーポイント検出)に関する大規模な実験は、TransParが非自明なマージンで先行技術より優れていることを示している。 さらに実験では、TransParを最も人気のある深層UDAネットワークに統合し、データ分散シフトシナリオを簡単に扱えるように拡張できることが示されている。

Unsupervised domain adaptation (UDA) enables a learning machine to adapt from a labeled source domain to an unlabeled domain under the distribution shift. Thanks to the strong representation ability of deep neural networks, recent remarkable achievements in UDA resort to learning domain-invariant features. Intuitively, the hope is that a good feature representation, together with the hypothesis learned from the source domain, can generalize well to the target domain. However, the learning processes of domain-invariant features and source hypothesis inevitably involve domain-specific information that would degrade the generalizability of UDA models on the target domain. In this paper, motivated by the lottery ticket hypothesis that only partial parameters are essential for generalization, we find that only partial parameters are essential for learning domain-invariant information and generalizing well in UDA. Such parameters are termed transferable parameters. In contrast, the other parameters tend to fit domain-specific details and often fail to generalize, which we term as untransferable parameters. Driven by this insight, we propose Transferable Parameter Learning (TransPar) to reduce the side effect brought by domain-specific information in the learning process and thus enhance the memorization of domain-invariant information. Specifically, according to the distribution discrepancy degree, we divide all parameters into transferable and untransferable ones in each training iteration. We then perform separate updates rules for the two types of parameters. Extensive experiments on image classification and regression tasks (keypoint detection) show that TransPar outperforms prior arts by non-trivial margins. Moreover, experiments demonstrate that TransPar can be integrated into the most popular deep UDA networks and be easily extended to handle any data distribution shift scenarios.
翻訳日:2021-08-16 13:16:23 公開日:2021-08-13
# f-formationを用いた社会的相互作用のあるグループの検出:分類学、方法、データセット、応用、課題、今後の研究方向性の調査

Detecting socially interacting groups using f-formation: A survey of taxonomy, methods, datasets, applications, challenges, and future research directions ( http://arxiv.org/abs/2108.06181v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua, Theint Haythi Mg, Pradip Pramanick, Chayan Sarkar(参考訳) 日々の周囲のロボットは日々増えています。 彼らの使いやすさと受容性は、その明示的で暗黙的な相互作用能力に大きく依存する。 結果として、社会的行動はロボットが持つことのできる最も追求すべき品質の1つである。 しかし、社会的に受け入れられる行動を定義する特定の側面や特徴は存在せず、状況、応用、社会に大きく依存する。 本稿では,コロケーションロボットの社会的行動について検討する。 あるグループが互いに交流していて、グループに参加したいと想像してください。 人間は、社会的に受け入れられる方法で、つまり、グループ内では、誰にも邪魔したり邪魔したりすることなく、グループ活動に参加することができるように、自分自身を位置づけている。 このような品質を持つためには、まずロボットがグループの形成を判断し、次に人間が暗黙的に行う自分自身の位置を決定する必要がある。 f-形式の理論はこの目的のために利用できる。 形成のタイプは非常に多様であるため、社会集団を検出することは簡単な作業ではない。 本稿では,ロボット工学およびその他の応用のためのf-formationを用いた社会的インタラクションおよびグループ検出に関する既存の研究の包括的調査を行う。 この問題に関連するすべての懸念とモジュールを組み合わせた,新たな総合的な調査フレームワークも提案した。 方法,カメラビュー,データセット,検出機能とスケール,評価アプローチ,アプリケーション領域に基づいて分類学を定義する。 我々は,この枠組みに基づく今後の研究の方向性とともに,現在の文献におけるオープンな課題と限界について論じる。 特に,既存の手法や技術,それらの相対的なメリット,デメリット,アプリケーションについて論じ,この領域における未解決だが関連する問題の集合を提供する。

Robots in our daily surroundings are increasing day by day. Their usability and acceptability largely depend on their explicit and implicit interaction capability with fellow human beings. As a result, social behavior is one of the most sought-after qualities that a robot can possess. However, there is no specific aspect and/or feature that defines socially acceptable behavior and it largely depends on the situation, application, and society. In this article, we investigate one such social behavior for collocated robots. Imagine a group of people is interacting with each other and we want to join the group. We as human beings do it in a socially acceptable manner, i.e., within the group, we do position ourselves in such a way that we can participate in the group activity without disturbing/obstructi ng anybody. To possess such a quality, first, a robot needs to determine the formation of the group and then determine a position for itself, which we humans do implicitly. The theory of f-formation can be utilized for this purpose. As the types of formations can be very diverse, detecting the social groups is not a trivial task. In this article, we provide a comprehensive survey of the existing work on social interaction and group detection using f-formation for robotics and other applications. We also put forward a novel holistic survey framework combining all the possible concerns and modules relevant to this problem. We define taxonomies based on methods, camera views, datasets, detection capabilities and scale, evaluation approaches, and application areas. We discuss certain open challenges and limitations in current literature along with possible future research directions based on this framework. In particular, we discuss the existing methods/techniques and their relative merits and demerits, applications, and provide a set of unsolved but relevant problems in this domain.
翻訳日:2021-08-16 13:15:56 公開日:2021-08-13
# タイムセンシティブな質問に対する回答データセット

A Dataset for Answering Time-Sensitive Questions ( http://arxiv.org/abs/2108.06314v1 )

ライセンス: Link先を確認
Wenhu Chen, Xinyi Wang, William Yang Wang(参考訳) 時間は我々の物理的な世界で重要な次元である。 時間に関して多くの事実が進化することができる。 例えば、大統領の任期は4年ごとに変更される。 したがって、時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要である。 しかし、既存のQAデータセットには時間に敏感な質問がほとんどないので、モデルの時間的推論能力の診断やベンチマークには適さない。 この方向の研究を促進するために,時間に敏感なQAデータセットを構築することを提案する。 データセットは,(1)WikiDataから時系列に進化した事実をマイニングし,それらに対応するWikipediaページに整列させる,2)これらのノイズのある事実の検証と校正を行う,3)注釈付きタイムセンシティブな事実に基づいて質問と回答のペアを生成する。 データセットには2つの新しい課題がある: 1) モデルは長い文書における時間情報の明示的および暗黙的な言及の両方を理解する必要があり、2) モデルは比較、加算、減算のような時間的推論を行う必要がある。 我々はデータセット上で、BigBirdやFiDといったSoTAの長期文書QAシステムを評価した。 ベストパフォーマンスモデルfidは46\%の精度しか達成できず、87\%の人間性能よりもはるかに遅れている。 これらのモデルがまだ頑健な時間的理解と推論を行う能力が欠けていることを実証する。 したがって、当社のデータセットは、時間的推論における将来の研究を力づけるベンチマークとして役立つと確信しています。 データセットとコードは~\url{https://github.com/w enhuchen/Time-Sensit ive-QA}でリリースされる。

Time is an important dimension in our physical world. Lots of facts can evolve with respect to time. For example, the U.S. President might change every four years. Therefore, it is important to consider the time dimension and empower the existing QA models to reason over time. However, the existing QA datasets contain rather few time-sensitive questions, hence not suitable for diagnosing or benchmarking the model's temporal reasoning capability. In order to promote research in this direction, we propose to construct a time-sensitive QA dataset. The dataset is constructed by 1) mining time-evolving facts from WikiData and align them to their corresponding Wikipedia page, 2) employing crowd workers to verify and calibrate these noisy facts, 3) generating question-answer pairs based on the annotated time-sensitive facts. Our dataset poses two novel challenges: 1) the model needs to understand both explicit and implicit mention of time information in the long document, 2) the model needs to perform temporal reasoning like comparison, addition, subtraction. We evaluate different SoTA long-document QA systems like BigBird and FiD on our dataset. The best-performing model FiD can only achieve 46\% accuracy, still far behind the human performance of 87\%. We demonstrate that these models are still lacking the ability to perform robust temporal understanding and reasoning. Therefore, we believe that our dataset could serve as a benchmark to empower future studies in temporal reasoning. The dataset and code are released in~\url{https://github.com/w enhuchen/Time-Sensit ive-QA}.
翻訳日:2021-08-16 13:15:32 公開日:2021-08-13
# SPACE : 3次元環境における物理的相互作用と因果学習のシミュレータ

SPACE: A Simulator for Physical Interactions and Causal Learning in 3D Environments ( http://arxiv.org/abs/2108.06180v1 )

ライセンス: Link先を確認
Jiafei Duan, Samson Yu Bai Jian, Cheston Tan(参考訳) ディープラーニング、コンピュータビジョン、具体化aiの最近の進歩は、合成因果推論ビデオデータセットを生み出した。 これらのデータセットは、オブジェクト間の物理的相互作用を推論できるaiアルゴリズムの開発を促進する。 しかし、これまでのデータセットは主に転がりや転がりなどの基本的な物理的事象に焦点を当てていた。 現在、人間が現実世界のオブジェクトと毎日行う物理的相互作用に焦点を当てたデータセットが不足しています。 この不足に対処するために,3次元環境における物理インタラクションと因果学習のシミュレータSPACEを紹介する。 SPACEシミュレータは,3次元環境下での合成ビデオデータセットであるSPACEデータセットを生成し,物理因果推論タスクに基づいて物理ベースのモデルを体系的に評価する。 SPACEデータセットは、毎日のオブジェクトインタラクションにインスパイアされ、封じ込め、安定性、接触という3種類の物理的なイベントを描写したビデオで構成されている。 これらの出来事は、オブジェクト間の基本的な物理的相互作用の大部分を占めている。 さらに、最先端の物理に基づく深層モデルを用いて評価を行い、SPACEデータセットがカリキュラム学習にインスパイアされたアプローチを用いて直感的な物理学習を改善することを示す。 Repository: https://github.com/j iafei1224/SPACE

Recent advancements in deep learning, computer vision, and embodied AI have given rise to synthetic causal reasoning video datasets. These datasets facilitate the development of AI algorithms that can reason about physical interactions between objects. However, datasets thus far have primarily focused on elementary physical events such as rolling or falling. There is currently a scarcity of datasets that focus on the physical interactions that humans perform daily with objects in the real world. To address this scarcity, we introduce SPACE: A Simulator for Physical Interactions and Causal Learning in 3D Environments. The SPACE simulator allows us to generate the SPACE dataset, a synthetic video dataset in a 3D environment, to systematically evaluate physics-based models on a range of physical causal reasoning tasks. Inspired by daily object interactions, the SPACE dataset comprises videos depicting three types of physical events: containment, stability and contact. These events make up the vast majority of the basic physical interactions between objects. We then further evaluate it with a state-of-the-art physics-based deep model and show that the SPACE dataset improves the learning of intuitive physics with an approach inspired by curriculum learning. Repository: https://github.com/j iafei1224/SPACE
翻訳日:2021-08-16 13:15:06 公開日:2021-08-13
# MeetSum: Transforming Meeting Transcript Summarization using Transformer!

MeetSum: Transforming Meeting Transcript Summarization using Transformers! ( http://arxiv.org/abs/2108.06310v1 )

ライセンス: Link先を確認
Nima Sadri, Bohan Zhang, Bihan Liu(参考訳) ミーティングの書き起こしから抽象的な要約を作成することは、ニューラルネットワークモデルのトレーニングに利用可能なラベル付きデータの量が限られているため、困難であることが証明されている。 さらに、トランスフォーマーベースのアーキテクチャは、ニュースデータの要約において最先端のモデルを上回ることが証明されている。 本稿では,トランスフォーマティブなポインタ生成ネットワークを用いて,書き起こしを収集する抽象要約を生成する。 このモデルはエンコーダとデコーダとして2つのlstmを使用し、入力されたテキストから単語をコピーするポインタネットワークと、語彙外の単語を生成するジェネレータネットワーク(要約を抽象化する)である。 さらに、生成された要約における単語の繰り返しを避けるためにカバレッジメカニズムが使用される。 まず,ニュース要約データセット上でモデルをトレーニングし,ゼロショット学習を用いてミーティングデータセットでテストすることで,amiミーティングデータセットでトレーニングするよりも優れた結果が得られることを示す。 第2に、まずCNN-Dailymailデータセットのようなドメイン外のデータに基づいてこのモデルをトレーニングし、続いてAMIミーティングデータセットの微調整ステージにより、モデルの性能を大幅に改善できることを示す。 amiデータセットのテストセットでモデルをテストし、生成された要約のrouge-2スコアを以前の文献と比較するために報告します。 また,ROUGE-2スコアは単語オーバラップに制限されているため,抽象的な要約のベンチマークとして優れているため,要約のFactualスコアも報告する。 改良したモデルでは,少なくとも5つのルージュ-2スコアの改善が可能であり,大幅な改善が得られている。 また,本モデルが生成した要約の質的分析により,これらの要約は人間可読であり,転写から重要な情報の大部分を捉えることができることを示した。

Creating abstractive summaries from meeting transcripts has proven to be challenging due to the limited amount of labeled data available for training neural network models. Moreover, Transformer-based architectures have proven to beat state-of-the-art models in summarizing news data. In this paper, we utilize a Transformer-based Pointer Generator Network to generate abstract summaries for meeting transcripts. This model uses 2 LSTMs as an encoder and a decoder, a Pointer network which copies words from the inputted text, and a Generator network to produce out-of-vocabulary words (hence making the summary abstractive). Moreover, a coverage mechanism is used to avoid repetition of words in the generated summary. First, we show that training the model on a news summary dataset and using zero-shot learning to test it on the meeting dataset proves to produce better results than training it on the AMI meeting dataset. Second, we show that training this model first on out-of-domain data, such as the CNN-Dailymail dataset, followed by a fine-tuning stage on the AMI meeting dataset is able to improve the performance of the model significantly. We test our model on a testing set from the AMI dataset and report the ROUGE-2 score of the generated summary to compare with previous literature. We also report the Factual score of our summaries since it is a better benchmark for abstractive summaries since the ROUGE-2 score is limited to measuring word-overlaps. We show that our improved model is able to improve on previous models by at least 5 ROUGE-2 scores, which is a substantial improvement. Also, a qualitative analysis of the summaries generated by our model shows that these summaries and human-readable and indeed capture most of the important information from the transcripts.
翻訳日:2021-08-16 13:14:49 公開日:2021-08-13
# オープンドメイン生成チャットボットの低リソース適応

Low-Resource Adaptation of Open-Domain Generative Chatbots ( http://arxiv.org/abs/2108.06329v1 )

ライセンス: Link先を確認
Greyson Gerhard-Young, Raviteja Anantha, Srinivas Chappidi, Bj\"orn Hoffmeister(参考訳) 最近のオープンドメインチャットボットの構築は、モデルサイズの増加によるパフォーマンス向上を実証している。 一方、レイテンシと接続性を考慮すると、デバイス上のデジタルアシスタントの動きが決まる。 siriやalexa、google assistantといったデジタルアシスタントに、ほとんど何でも議論できる能力を与えることで、ユーザーのデバイスにフィットするようにチャットボットのモデルサイズを小さくする必要があります。 低パラメータモデルは、特定のドメインを改善しながら、会話能力の一般的な知識を同時に保持できることを示す。 さらに,質問型の多様性を考慮し,複数ターン会話の参照を追跡し,一貫性のない潜在的有害な応答を除去する汎用フレームワークを提案する。 われわれのフレームワークはチャットとトランザクションタスクをシームレスに移行し、最終的にはデジタルアシスタントとの対話をより人間らしくする。 提案手法は, 自動評価指標と人間評価指標の両方を用いて, 1 つの内部ベンチマークデータセットと 4 つの公開ベンチマークデータセット上で評価し, モデルパラメータを90%削減しつつ, 同等の性能を確立する。

Recent work building open-domain chatbots has demonstrated that increasing model size improves performance. On the other hand, latency and connectivity considerations dictate the move of digital assistants on the device. Giving a digital assistant like Siri, Alexa, or Google Assistant the ability to discuss just about anything leads to the need for reducing the chatbot model size such that it fits on the user's device. We demonstrate that low parameter models can simultaneously retain their general knowledge conversational abilities while improving in a specific domain. Additionally, we propose a generic framework that accounts for variety in question types, tracks reference throughout multi-turn conversations, and removes inconsistent and potentially toxic responses. Our framework seamlessly transitions between chatting and performing transactional tasks, which will ultimately make interactions with digital assistants more human-like. We evaluate our framework on 1 internal and 4 public benchmark datasets using both automatic (Perplexity) and human (SSA - Sensibleness and Specificity Average) evaluation metrics and establish comparable performance while reducing model parameters by 90%.
翻訳日:2021-08-16 13:14:19 公開日:2021-08-13
# GQE-PRF:擬似関連フィードバックを用いた生成クエリ拡張

GQE-PRF: Generative Query Expansion with Pseudo-Relevance Feedback ( http://arxiv.org/abs/2108.06010v1 )

ライセンス: Link先を確認
Minghui Huang, Dong Wang, Shuang Liu, Meizhen Ding(参考訳) 擬似関連フィードバック(PRF)を用いたクエリ拡張は、情報検索の有効性を高めるための強力なアプローチである。 近年,ディープラーニング技術の急速な進歩により,ニューラルテキスト生成は多くの自然言語タスクにおいて有望な成功を収めている。 本稿では,情報検索におけるテキスト生成の強みを活用するために,テキスト生成モデルをprfベースのクエリ拡張に効果的に統合する新しい手法を提案する。 特に,初期クエリと疑似関係フィードバックの両方を条件としたニューラルテキスト生成モデルにより,拡張クエリ項を生成する。 さらに,生成モデルを訓練するために条件付き生成敵ネット(cgans)を採用し,擬似関係フィードバックに基づいて生成器と判別器の両方を条件付けしたprf-cgan法を提案する。 2つのベンチマークデータセットを用いて,情報検索タスクに対するアプローチの有効性を評価する。 実験の結果,提案手法はタスクの検索と再ランク付けの両方において,従来のクエリ拡張手法に匹敵する性能あるいは性能を発揮することがわかった。

Query expansion with pseudo-relevance feedback (PRF) is a powerful approach to enhance the effectiveness in information retrieval. Recently, with the rapid advance of deep learning techniques, neural text generation has achieved promising success in many natural language tasks. To leverage the strength of text generation for information retrieval, in this article, we propose a novel approach which effectively integrates text generation models into PRF-based query expansion. In particular, our approach generates augmented query terms via neural text generation models conditioned on both the initial query and pseudo-relevance feedback. Moreover, in order to train the generative model, we adopt the conditional generative adversarial nets (CGANs) and propose the PRF-CGAN method in which both the generator and the discriminator are conditioned on the pseudo-relevance feedback. We evaluate the performance of our approach on information retrieval tasks using two benchmark datasets. The experimental results show that our approach achieves comparable performance or outperforms traditional query expansion methods on both the retrieval and reranking tasks.
翻訳日:2021-08-16 13:14:01 公開日:2021-08-13
# TPRM: Web検索のためのトピックベースのパーソナライズランキングモデル

TPRM: A Topic-based Personalized Ranking Model for Web Search ( http://arxiv.org/abs/2108.06014v1 )

ライセンス: Link先を確認
Minghui Huang, Wei Peng and Dong Wang(参考訳) ランキングモデルは有望な結果を得たが、ユーザプロファイルとクエリとドキュメント間のセマンティック表現を活用するためにパーソナライズされたランキングシステムを設計することは依然として困難である。 本稿では,ユーザのトピックプロファイルと事前学習された文脈化用語表現を統合し,一般文書ランキングを調整したトピックベースパーソナライズランキングモデル(tprm)を提案する。 実世界のデータセットの実験では、TPRMは最先端のアドホックランキングモデルとパーソナライズされたランキングモデルを大きく上回っている。

Ranking models have achieved promising results, but it remains challenging to design personalized ranking systems to leverage user profiles and semantic representations between queries and documents. In this paper, we propose a topic-based personalized ranking model (TPRM) that integrates user topical profile with pretrained contextualized term representations to tailor the general document ranking list. Experiments on the real-world dataset demonstrate that TPRM outperforms state-of-the-art ad-hoc ranking models and personalized ranking models significantly.
翻訳日:2021-08-16 13:13:43 公開日:2021-08-13
# PAIR:Dense Passage Retrieval改善のためのPAIR-Centric similarity Relationの活用

PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval ( http://arxiv.org/abs/2108.06027v1 )

ライセンス: Link先を確認
Ruiyang Ren, Shangwen Lv, Yingqi Qu, Jing Liu, Wayne Xin Zhao, QiaoQiao She, Hua Wu, Haifeng Wang, Ji-Rong Wen(参考訳) 近年,様々な自然言語処理タスクにおいて,関連する情報を見つけるために,高密度経路探索が主流となっている。 広く採用されているデュアルエンコーダアーキテクチャの改善に多くの研究が費やされている。 しかし、従来の研究の多くは、二重エンコーダレトリバーを学習する際にのみ、クエリ中心の類似性関係を考察している。 より包括的類似性関係を捉えるために,クエリ中心とPAssage中心のsマイクロラリティ関係(PAIR)を併用した新しい手法を提案する。 本手法を実践するために, 2種類の類似関係の形式的定式化, 知識蒸留による高品質擬似ラベルデータの生成, 通路中心の類似関係制約を組み込んだ効果的な2段階学習手順の設計という3つの大きな技術的貢献を行った。 広範な実験により,msmarco と natural questions のデータセットでは,従来の最先端モデルを大きく上回っていることがわかった。

Recently, dense passage retrieval has become a mainstream approach to finding relevant information in various natural language processing tasks. A number of studies have been devoted to improving the widely adopted dual-encoder architecture. However, most of the previous studies only consider query-centric similarity relation when learning the dual-encoder retriever. In order to capture more comprehensive similarity relations, we propose a novel approach that leverages both query-centric and PAssage-centric sImilarity Relations (called PAIR) for dense passage retrieval. To implement our approach, we make three major technical contributions by introducing formal formulations of the two kinds of similarity relations, generating high-quality pseudo labeled data via knowledge distillation, and designing an effective two-stage training procedure that incorporates passage-centric similarity relation constraint. Extensive experiments show that our approach significantly outperforms previous state-of-the-art models on both MSMARCO and Natural Questions datasets.
翻訳日:2021-08-16 13:13:32 公開日:2021-08-13
# 簡単な例から難しい例への一般化を研究するデータセット

Datasets for Studying Generalization from Easy to Hard Examples ( http://arxiv.org/abs/2108.06011v1 )

ライセンス: Link先を確認
Avi Schwarzschild, Eitan Borgnia, Arjun Gupta, Arpit Bansal, Zeyad Emam, Furong Huang, Micah Goldblum, Tom Goldstein(参考訳) 簡単な例から難しい例への一般化を研究するための新しいデータセットについて述べる。

We describe new datasets for studying generalization from easy to hard examples.
翻訳日:2021-08-16 13:13:15 公開日:2021-08-13
# 部分観測可能なグリッド環境におけるマルチエージェントパスフィニングのためのQミキシングネットワーク

Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable Grid Environments ( http://arxiv.org/abs/2108.06148v1 )

ライセンス: Link先を確認
Vasilii Davydov, Alexey Skrynnik, Konstantin Yakovlev, Aleksandr I. Panov(参考訳) 本稿では,部分観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題を考える。 この問題は通常、環境に関する完全な知識に依存しているため、集中型計画のアプローチでは困難である。 エージェントがまず、観察を行動にマップするポリシーを学び、そのポリシーに従って目標を達成する場合、強化学習アプローチを利用するように提案する。 協調行動の学習にかかわる課題、すなわち 多くの場合、エージェントはミッションを達成するために互いに譲歩する必要がありますが、個別のポリシーを補完する混合Q-ネットワークを使用します。 実験評価では,このようなアプローチが有望な結果をもたらし,多数のエージェントによく適用できることを示した。

In this paper, we consider the problem of multi-agent navigation in partially observable grid environments. This problem is challenging for centralized planning approaches as they, typically, rely on the full knowledge of the environment. We suggest utilizing the reinforcement learning approach when the agents, first, learn the policies that map observations to actions and then follow these policies to reach their goals. To tackle the challenge associated with learning cooperative behavior, i.e. in many cases agents need to yield to each other to accomplish a mission, we use a mixing Q-network that complements learning individual policies. In the experimental evaluation, we show that such approach leads to plausible results and scales well to large number of agents.
翻訳日:2021-08-16 13:13:13 公開日:2021-08-13
# 人口マッピングのためのワンショット転送学習

One-shot Transfer Learning for Population Mapping ( http://arxiv.org/abs/2108.06228v1 )

ライセンス: Link先を確認
Erzhuo Shao, Jie Feng, Yingheng Wang, Tong Xia and Yong Li(参考訳) 細かな人口分布データは、都市計画、交通スケジューリング、流行モデル、リスクコントロールなど、多くのアプリケーションにとって非常に重要である。 しかしながら、インフラストラクチャ密度、ユーザのプライバシ、ビジネスセキュリティといったデータ収集の制限のため、このようなきめ細かいデータは収集が難しく、通常は粗いデータのみを利用できる。 このように粗粒度分布から細粒度人口分布を得ることが重要な問題となる。 この作業を完了させるためには、既存の手法は主に訓練に十分なきめ細かい真実を頼りにしており、しばしば利用できない。 これにより、これらの手法の適用が制限され、知識をデータに不足した都市からデータに移す必要が生じた。 知識伝達シナリオでは,対象都市における単一参照細粒地真理を基礎的真理として,大規模都市構造に報知し,対象都市における知識伝達を支援する。 この手法により、人口マッピング問題から、人口マッピングタスクのための1ショット移動学習問題へ変換する。 本稿では,ネットワーク構造,データ,最適化の観点から,都市間における空間的時間的知識を詳細な人口マッピングタスクで伝達する一括伝達学習フレームワークPSRNetを提案する。 4つの都市の実生活データセットの実験では、RMSEとMAEを25%以上削減することで、PSRNetが8つのベースラインに対して大きなアドバンテージを持っていることが示されている。 私たちのコードとデータセットはgithubでリリースされています。

Fine-grained population distribution data is of great importance for many applications, e.g., urban planning, traffic scheduling, epidemic modeling, and risk control. However, due to the limitations of data collection, including infrastructure density, user privacy, and business security, such fine-grained data is hard to collect and usually, only coarse-grained data is available. Thus, obtaining fine-grained population distribution from coarse-grained distribution becomes an important problem. To complete this task, existing methods mainly rely on sufficient fine-grained ground truth for training, which is not often available. This limits the applications of these methods and brings the necessity to transfer knowledge from data-sufficient cities to data-scarce cities. In knowledge transfer scenario, we employ single reference fine-grained ground truth in the target city as the ground truth to inform the large-scale urban structure and support the knowledge transfer in the target city. By this approach, we transform the fine-grained population mapping problem into a one-shot transfer learning problem for population mapping task. In this paper, we propose a one-shot transfer learning framework, PSRNet, to transfer spatial-temporal knowledge across cities in fine-grained population mapping task from the view of network structure, data, and optimization. Experiments on real-life datasets of 4 cities demonstrate that PSRNet has significant advantages over 8 baselines by reducing RMSE and MAE for more than 25%. Our code and datasets are released in Github.
翻訳日:2021-08-16 13:13:02 公開日:2021-08-13
# 確率的コア分解のためのマルチステージグラフピーリングアルゴリズム

Multi-Stage Graph Peeling Algorithm for Probabilistic Core Decomposition ( http://arxiv.org/abs/2108.06094v1 )

ライセンス: Link先を確認
Yang Guo, Xuekui Zhang, Fatemeh Esfahani, Venkatesh Srinivasan, Alex Thomo, Li Xing(参考訳) 頂点が互いに密接な関係にある密集した部分グラフのマイニングは、グラフの解析において一般的なタスクである。 部分グラフ解析における非常に一般的な概念は核分解である。 最近、Esfahaniら。 グラフの剥離に基づく確率的コア分解アルゴリズムと、非常に大きなグラフを扱うことができる中央極限定理(CLT)を提示した。 彼らの提案するピーリングアルゴリズム(pa)は、最低次数頂点から始まり、これらの頂点を再帰的に削除し、コア数を割り当て、最大コアに達するまで隣接する頂点の次数を更新する。 しかし、多くの応用、特に生物学において、より貴重な情報は密集したサブコミュニティから得ることができ、頂点が他とあまり相互作用しない小さなコアには興味がない。 従来のpaをより密集したサブグラフに焦点を合わせるために,マルチステージグラフ剥離アルゴリズム(m-pa,multi-stage graph peeling algorithm)を提案する。従来のpaの前に2段階のデータスクリーニング手順を追加する。ユーザが定義したしきい値に基づいてグラフから頂点を取り除いた結果,グラフの複雑性をほとんど低減し,関心のあるサブグラフの頂点に影響を与えることなく,グラフの複雑さを低減できる。 我々は,M-PAが従来のPAよりも効率的であり,適切に設定されたフィルタリングしきい値により,前のPAと同一でない(グラフ密度とクラスタリング係数の点で)非常によく似た部分グラフが得られることを示す。

Mining dense subgraphs where vertices connect closely with each other is a common task when analyzing graphs. A very popular notion in subgraph analysis is core decomposition. Recently, Esfahani et al. presented a probabilistic core decomposition algorithm based on graph peeling and Central Limit Theorem (CLT) that is capable of handling very large graphs. Their proposed peeling algorithm (PA) starts from the lowest degree vertices and recursively deletes these vertices, assigning core numbers, and updating the degree of neighbour vertices until it reached the maximum core. However, in many applications, particularly in biology, more valuable information can be obtained from dense sub-communities and we are not interested in small cores where vertices do not interact much with others. To make the previous PA focus more on dense subgraphs, we propose a multi-stage graph peeling algorithm (M-PA) that has a two-stage data screening procedure added before the previous PA. After removing vertices from the graph based on the user-defined thresholds, we can reduce the graph complexity largely and without affecting the vertices in subgraphs that we are interested in. We show that M-PA is more efficient than the previous PA and with the properly set filtering threshold, can produce very similar if not identical dense subgraphs to the previous PA (in terms of graph density and clustering coefficient).
翻訳日:2021-08-16 13:12:37 公開日:2021-08-13
# FedPara: 効果的なフェデレート学習のための低ランクアダマール製品パラメータ化

FedPara: Low-rank Hadamard Product Parameterization for Efficient Federated Learning ( http://arxiv.org/abs/2108.06098v1 )

ライセンス: Link先を確認
Nam Hyeon-Woo, Moon Ye-Bin, Tae-Hyun Oh(参考訳) フェデレートラーニング(FL)における頻繁なモデルアップロードとダウンロードの負担を克服するため,通信効率の良い再パラメータ化FedParaを提案する。 本手法では, 低ランク行列やテンソルを用いてモデル層を再パラメータ化し, ハダマール積を導出する。 従来の低ランクパラメータ化とは異なり,本手法は低ランク制約に限らない。 したがって、フェドパラは、同じパラメータ数であっても、低ランクのものよりも大きな容量を持つ。 従来の低ランクパラメータ化では達成できないが、従来のモデルに比べて2.8倍から10.1倍の通信コストを必要とする。 また,提案手法と他の効率的なfl手法を組み合わせることにより,その効率をさらに向上させることができる。 また、パラメータをグローバルとローカルに分離するパーソナライズされたFLアプリケーションpFedParaにもメソッドを拡張します。 pfedparaは3倍以上のパラメータでパーソナライズされたflメソッドよりも優れていることを示す。

To overcome the burdens on frequent model uploads and downloads during federated learning (FL), we propose a communication-effici ent re-parameterization, FedPara. Our method re-parameterizes the model's layers using low-rank matrices or tensors followed by the Hadamard product. Different from the conventional low-rank parameterization, our method is not limited to low-rank constraints. Thereby, our FedPara has a larger capacity than the low-rank one, even with the same number of parameters. It can achieve comparable performance to the original models while requiring 2.8 to 10.1 times lower communication costs than the original models, which is not achievable by the traditional low-rank parameterization. Moreover, the efficiency can be further improved by combining our method and other efficient FL techniques because our method is compatible with others. We also extend our method to a personalized FL application, pFedPara, which separates parameters into global and local ones. We show that pFedPara outperforms competing personalized FL methods with more than three times fewer parameters.
翻訳日:2021-08-16 13:11:54 公開日:2021-08-13
# アーキテクチャ単純化によるクラウドグラフニューラルネットワークの効率化

Towards Efficient Point Cloud Graph Neural Networks Through Architectural Simplification ( http://arxiv.org/abs/2108.06317v1 )

ライセンス: Link先を確認
Shyam A. Tailor, Ren\'{e} de Jong, Tiago Azevedo, Matthew Mattina, Partha Maji(参考訳) 近年、グラフニューラルネットワーク(GNN)ベースのアプローチは、ポイントクラウドデータを処理し、さまざまなタスクで定期的に最先端のパフォーマンスを達成する一般的な戦略となっている。 これまでの研究コミュニティは、主にモデル表現性の改善に重点を置いており、スマートフォンや複合現実ヘッドセットなど、リソースに制約のあるモバイルデバイス上で効率的に動作するモデルを設計する方法について、二次的な考察がなされている。 本稿では,gnnモデルが特徴抽出層の表現力に大きく制限されていることを観察することで,これらのモデルの効率を向上させるための一歩を踏み出します。 機能抽出層が最小限の劣化で保持されている限り、これらのモデルを劇的に単純化することが可能であり、さらに、機能抽出層の設計を改善して、modelnet40およびs3disの全体的なパフォーマンスを向上させることが可能であることが判明した。 我々のアプローチでは、dgcnnのようなモデルのグラフ層に対する20$\times$とレイテンシーを最大9.9$\times$に削減し、全体として最大4.5$\times$とピークメモリの72.5%の高速化を実現している。

In recent years graph neural network (GNN)-based approaches have become a popular strategy for processing point cloud data, regularly achieving state-of-the-art performance on a variety of tasks. To date, the research community has primarily focused on improving model expressiveness, with secondary thought given to how to design models that can run efficiently on resource constrained mobile devices including smartphones or mixed reality headsets. In this work we make a step towards improving the efficiency of these models by making the observation that these GNN models are heavily limited by the representational power of their first, feature extracting, layer. We find that it is possible to radically simplify these models so long as the feature extraction layer is retained with minimal degradation to model performance; further, we discover that it is possible to improve performance overall on ModelNet40 and S3DIS by improving the design of the feature extractor. Our approach reduces memory consumption by 20$\times$ and latency by up to 9.9$\times$ for graph layers in models such as DGCNN; overall, we achieve speed-ups of up to 4.5$\times$ and peak memory reductions of 72.5%.
翻訳日:2021-08-16 13:11:36 公開日:2021-08-13
# EEEA-Net: 初期の進化的ニューラルネットワーク検索

EEEA-Net: An Early Exit Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2108.06156v1 )

ライセンス: Link先を確認
Chakkrit Termritthikun, Yeshi Jamtsho, Jirarat Ieamsaard, Paisarn Muneesawang, Ivan Lee(参考訳) この研究の目的は畳み込みニューラルネットワーク(CNN)アーキテクチャを探索することであり、コンピュータリソースが限られており、ネットワークアーキテクチャ探索(NAS)コストが大幅に低いオンデバイスプロセッサに適している。 進化的アルゴリズム (EA) のための初期人口初期化 (EE-PI) という新しいアルゴリズムを開発した。 EE-PIは、最大閾値よりも少ないパラメータでモデルをフィルタリングすることで、検索プロセスにおけるパラメータの総数を削減する。 しきい値以上のパラメータでそれらのモデルを置き換えるための新しいモデルを探している。 これにより、パラメータの数、モデルストレージのメモリ使用量、同じパフォーマンスや精度を維持しながら処理時間を削減することができる。 検索時間は 0.52 gpu に短縮された。 これは、NSGA-Netで達成された4GPU日、AmoebaNetモデルで3150GPU日、NASNetモデルで達成された2000GPU日と比較して、大きく、重要な成果である。 同様に、Early Exit Evolutionary Algorithm Network (EEEA-Nets) は、ネットワークアルゴリズムのクラスとして与えられたデータセットに適した最小のエラーと計算コストでネットワークアーキテクチャを生成する。 CIFAR-10, CIFAR-100, ImageNetデータセットのEEEA-Netを用いて実験したところ, EEEA-Netは最先端NASモデルの中で最も低いエラー率を示し, CIFAR-10は2.46%, CIFAR-100は15.02%, ImageNetデータセットは23.8%であった。 さらに、オブジェクト検出、セマンティックセグメンテーション、キーポイント検出タスクなど他のタスクに対してこの画像認識アーキテクチャを実装し、実験では、これらのタスクすべてにおいて、EEEA-Net-C2がMobileNet-V3よりも優れていた。 (アルゴリズムコードはhttps://github.com/c hakkritte/EEEA-Net)。

The goals of this research were to search for Convolutional Neural Network (CNN) architectures, suitable for an on-device processor with limited computing resources, performing at substantially lower Network Architecture Search (NAS) costs. A new algorithm entitled an Early Exit Population Initialisation (EE-PI) for Evolutionary Algorithm (EA) was developed to achieve both goals. The EE-PI reduces the total number of parameters in the search process by filtering the models with fewer parameters than the maximum threshold. It will look for a new model to replace those models with parameters more than the threshold. Thereby, reducing the number of parameters, memory usage for model storage and processing time while maintaining the same performance or accuracy. The search time was reduced to 0.52 GPU day. This is a huge and significant achievement compared to the NAS of 4 GPU days achieved using NSGA-Net, 3,150 GPU days by the AmoebaNet model, and the 2,000 GPU days by the NASNet model. As well, Early Exit Evolutionary Algorithm networks (EEEA-Nets) yield network architectures with minimal error and computational cost suitable for a given dataset as a class of network algorithms. Using EEEA-Net on CIFAR-10, CIFAR-100, and ImageNet datasets, our experiments showed that EEEA-Net achieved the lowest error rate among state-of-the-art NAS models, with 2.46% for CIFAR-10, 15.02% for CIFAR-100, and 23.8% for ImageNet dataset. Further, we implemented this image recognition architecture for other tasks, such as object detection, semantic segmentation, and keypoint detection tasks, and, in our experiments, EEEA-Net-C2 outperformed MobileNet-V3 on all of these various tasks. (The algorithm code is available at https://github.com/c hakkritte/EEEA-Net).
翻訳日:2021-08-16 13:10:24 公開日:2021-08-13
# 光対向攻撃

Optical Adversarial Attack ( http://arxiv.org/abs/2108.06247v1 )

ライセンス: Link先を確認
Abhiram Gnanasambandam, Alex M. Sherman, Stanley H. Chan(参考訳) 本稿では, OPAD (textbf{OP}tical \textbf{AD}versarial attack) を提案する。 OPADは、物理的に物体に触れることなく画像分類器を騙すことを目的とした物理的空間における敵攻撃である。 OPADの原則は、対象オブジェクトの外観を変更するために構造化照明を使用することである。 システムは低コストのプロジェクター、カメラ、コンピュータで構成されている。 この問題の課題は、プロジェクターの放射応答の非線形性と、シーンの空間的に変化するスペクトル応答である。 従来の手法で生成された攻撃は、そのようなプロジェクタカメラモデルの補正を調整されない限り、この設定では機能しない。 提案手法では, プロジェクタ・カメラモデルを用いて対角攻撃最適化を行い, 新たな攻撃定式化を導出する。 実験により解の妥当性が証明された。 OPADは、ホワイトボックス、ブラックボックス、ターゲット、ターゲット外攻撃の背景照明の存在下で、本物の3Dオブジェクトを光学的に攻撃することができる。 システムの基本性能限界を定量化するために理論的解析を行う。

We introduce \textbf{OP}tical \textbf{AD}versarial attack (OPAD). OPAD is an adversarial attack in the physical space aiming to fool image classifiers without physically touching the objects (e.g., moving or painting the objects). The principle of OPAD is to use structured illumination to alter the appearance of the target objects. The system consists of a low-cost projector, a camera, and a computer. The challenge of the problem is the non-linearity of the radiometric response of the projector and the spatially varying spectral response of the scene. Attacks generated in a conventional approach do not work in this setting unless they are calibrated to compensate for such a projector-camera model. The proposed solution incorporates the projector-camera model into the adversarial attack optimization, where a new attack formulation is derived. Experimental results prove the validity of the solution. It is demonstrated that OPAD can optically attack a real 3D object in the presence of background lighting for white-box, black-box, targeted, and untargeted attacks. Theoretical analysis is presented to quantify the fundamental performance limit of the system.
翻訳日:2021-08-16 13:09:54 公開日:2021-08-13
# リモートセンシング画像復元と融合のためのモデル駆動・データ駆動手法の結合

Coupling Model-Driven and Data-Driven Methods for Remote Sensing Image Restoration and Fusion ( http://arxiv.org/abs/2108.06073v1 )

ライセンス: Link先を確認
Huanfeng Shen, Menghui Jiang, Jie Li, Chenxia Zhou, Qiangqiang Yuan and Liangpei Zhang(参考訳) 画像復元と画像融合の分野では、モデル駆動メソッドとデータ駆動メソッドが2つの代表的なフレームワークである。 しかし、どちらのアプローチもそれぞれの利点と欠点がある。 モデル駆動方式は、決定論的かつ理論的に妥当なイメージング機構を考えるが、複雑な非線形問題を容易にモデル化することはできない。 データ駆動型手法は,大規模データ,特に非線形統計的特徴に対する事前知識学習能力が高いが,ネットワークの解釈性は乏しく,訓練データに過度に依存している。 本稿では,リモートセンシング画像復元と融合コミュニティではほとんど考慮されていないモデル駆動手法とデータ駆動手法の結合を体系的に検討する。 1)データ駆動型およびモデル駆動型カスケード手法,2)組込み学習を伴う変分モデル,3)モデル制約付きネットワーク学習手法である。 リモートセンシング画像の復元と融合のための典型的な既存および潜在的結合法を応用例とともに紹介する。 この論文は、メソッドとアプリケーションの両方の観点から、将来的な方向性に関する新たな洞察を与える。

In the fields of image restoration and image fusion, model-driven methods and data-driven methods are the two representative frameworks. However, both approaches have their respective advantages and disadvantages. The model-driven methods consider the imaging mechanism, which is deterministic and theoretically reasonable; however, they cannot easily model complicated nonlinear problems. The data-driven methods have a stronger prior knowledge learning capability for huge data, especially for nonlinear statistical features; however, the interpretability of the networks is poor, and they are over-dependent on training data. In this paper, we systematically investigate the coupling of model-driven and data-driven methods, which has rarely been considered in the remote sensing image restoration and fusion communities. We are the first to summarize the coupling approaches into the following three categories: 1) data-driven and model-driven cascading methods; 2) variational models with embedded learning; and 3) model-constrained network learning methods. The typical existing and potential coupling methods for remote sensing image restoration and fusion are introduced with application examples. This paper also gives some new insights into the potential future directions, in terms of both methods and applications.
翻訳日:2021-08-16 13:08:52 公開日:2021-08-13
# 画像マッチングとハーモニゼーションを同時に最適化するジェネレータフレームワーク

A Generative Adversarial Framework for Optimizing Image Matting and Harmonization Simultaneously ( http://arxiv.org/abs/2108.06087v1 )

ライセンス: Link先を確認
Xuqian Ren, Yifan Liu, Chunlei Song(参考訳) イメージマッティングとイメージ調和は、画像合成において2つの重要なタスクである。 前景境界の詳細を達成することを目的とした画像マッチングと、背景を前景と互換性を持たせることを目的とした画像調和は、どちらも有望だが困難な課題である。 以前の研究では、これら2つのタスクを別々に最適化することを検討している。 2つのタスクでより優れたパフォーマンスを得られ、より自然な結果が得られるように、マッティングと調和を同時に最適化することを提案する。 本稿では,自己認識型識別器に基づくマッチングネットワークと調和ネットワークを最適化するGAN(Generative Adversarial)フレームワークを提案する。 判別器は、自然画像と異なる種類の偽合成画像とを区別する必要がある。 構築したデータセットに対する大規模な実験により,提案手法の有効性が示された。 我々のデータセットとデータセット生成パイプラインは \url{https://git.io/HaMaG AN} で見ることができる。

Image matting and image harmonization are two important tasks in image composition. Image matting, aiming to achieve foreground boundary details, and image harmonization, aiming to make the background compatible with the foreground, are both promising yet challenging tasks. Previous works consider optimizing these two tasks separately, which may lead to a sub-optimal solution. We propose to optimize matting and harmonization simultaneously to get better performance on both the two tasks and achieve more natural results. We propose a new Generative Adversarial (GAN) framework which optimizing the matting network and the harmonization network based on a self-attention discriminator. The discriminator is required to distinguish the natural images from different types of fake synthesis images. Extensive experiments on our constructed dataset demonstrate the effectiveness of our proposed method. Our dataset and dataset generating pipeline can be found in \url{https://git.io/HaMaG AN}
翻訳日:2021-08-16 13:08:34 公開日:2021-08-13
# HRリモートセンシング画像のセマンティック変化検出のためのバイテンポラルセマンティック推論

Bi-Temporal Semantic Reasoning for the Semantic Change Detection of HR Remote Sensing Images ( http://arxiv.org/abs/2108.06103v1 )

ライセンス: Link先を確認
Lei Ding, Haitao Guo, Sicong Liu, Lichao Mou, Jing Zhang and Lorenzo Bruzzone(参考訳) 意味的変化検出(SCD)は、変化検出(CD)タスクを拡張して、変化箇所だけでなく、詳細な意味カテゴリー(観察間隔の前と後)を提供する。 このきめ細かい変化情報は、土地被覆/土地利用(LC/LU)アプリケーションでより有用である。 最近の研究では、2つの時間枝と1つの変化枝を含む3分岐畳み込みニューラルネットワーク(CNN)を用いてSCDをモデル化できることが示されている。 しかし、このアーキテクチャでは、時間分枝と変更分枝の間の接続が弱い。 これらの制約を克服するため,我々は,時間的特徴を再利用し,時間分枝に深く融合した新しいcnnアーキテクチャを提案する。 さらに,双時間意味相関をモデル化するために,このアーキテクチャを詳述する。 Bi-SRNet(Bi-temporal Semantic Reasoning Network)は,2種類の意味的推論ブロックを1つの時間的および時間的セマンティックな相関関係を推論すると共に,変化検出結果のセマンティック一貫性を改善する新しい損失関数を含む。 ベンチマークデータセットの実験的結果から,提案手法は既存の手法よりも精度が向上するが,bi-srnetでは,セマンティクスカテゴリと変更領域の両方のセグメンテーションがさらに向上した。 https://github.com/g gsDing/Bi-SRNet

Semantic change detection (SCD) extends the change detection (CD) task to provide not only the change locations but also the detailed semantic categories (before and after the observation intervals). This fine-grained change information is more useful in land-cover/land-use (LC/LU) applications. Recent studies indicate that the SCD can be modeled through a triple-branch Convolutional Neural Network (CNN), which contains two temporal branches and a change branch. However, in this architecture, the connections between the temporal branches and the change branch are weak. To overcome these limitations, we propose a novel CNN architecture for the SCD, where the temporal features are re-used and are deeply merged in the temporal branch. Furthermore, we elaborate on this architecture to model the bi-temporal semantic correlations. The resulting Bi-temporal Semantic Reasoning Network (Bi-SRNet) contains two types of semantic reasoning blocks to reason both single-temporal and cross-temporal semantic correlations, as well as a novel loss function to improve the semantic consistency of change detection results. Experimental results on a benchmark dataset show that the proposed architecture obtains significant accuracy improvements over the existing approaches, while the added designs in the Bi-SRNet further improves the segmentation of both semantic categories and the changed areas. The codes in this paper are accessible at: https://github.com/g gsDing/Bi-SRNet
翻訳日:2021-08-16 13:08:19 公開日:2021-08-13
# 未認識オブジェクトクラスによる検出とキャプション

Detection and Captioning with Unseen Object Classes ( http://arxiv.org/abs/2108.06165v1 )

ライセンス: Link先を確認
Berkan Demirel and Ramazan Gokberk Cinbis(参考訳) 画像キャプション生成は、視覚認識と自然言語モデリングドメインの交差において最も難しい問題の一つである。 そこで本研究では,テスト画像に視覚やテキストのトレーニング例を含まないビジュアルオブジェクトを含むことができるような,この問題の実際上重要な変種を提案し,検討する。 そこで本研究では,一般化ゼロショット検出モデルとテンプレートベース文生成モデルに基づく検出駆動型アプローチを提案する。 検出成分を改善するために,クラス間類似度に基づくクラス表現と実用的なスコア校正機構を共同で定義する。 また,字幕の視覚成分と非視覚成分を別々に扱うことにより,字幕出力に対する補完的洞察を提供する新しい評価指標を提案する。 実験の結果,提案したゼロショット検出モデルはMS-COCOデータセット上での最先端性能を得ることができ,ゼロショットキャプション手法は有望な結果をもたらすことがわかった。

Image caption generation is one of the most challenging problems at the intersection of visual recognition and natural language modeling domains. In this work, we propose and study a practically important variant of this problem where test images may contain visual objects with no corresponding visual or textual training examples. For this problem, we propose a detection-driven approach based on a generalized zero-shot detection model and a template-based sentence generation model. In order to improve the detection component, we jointly define a class-to-class similarity based class representation and a practical score calibration mechanism. We also propose a novel evaluation metric that provides complimentary insights to the captioning outputs, by separately handling the visual and non-visual components of the captions. Our experiments show that the proposed zero-shot detection model obtains state-of-the-art performance on the MS-COCO dataset and the zero-shot captioning approach yields promising results.
翻訳日:2021-08-16 13:07:56 公開日:2021-08-13
# IFR:低品質シーン音声認識のための反復融合型認識装置

IFR: Iterative Fusion Based Recognizer For Low Quality Scene Text Recognition ( http://arxiv.org/abs/2108.06166v1 )

ライセンス: Link先を確認
Zhiwei Jia and Shugong Xu and Shiyi Mu and Yue Tao and Shan Cao and Zhiyong Chen(参考訳) ディープラーニングに基づく最近の研究は、シーンのテキスト認識における認識精度の向上に進展しているが、エンド・ツー・エンドのディープネットワークにおける低品質テキスト画像の処理方法が研究課題である。 本稿では,高品質なシーンテキスト認識のためのIFR(Iterative Fusion based Recognizer)を提案する。 IFRには、シーンテキスト認識と低品質のシーンテキストイメージリカバリに焦点を当てた2つのブランチが含まれている。 2つのブランチ間の反復的なコラボレーションを利用して,低品質な入力の影響を効果的に軽減する。 rrfと呼ばれる画像復元ブランチと認識器の特徴が融合される2つのブランチの特徴表現を強化するため、機能融合モジュールが提案されている。 認識ネットワーク構造を変更することなく,提案手法は,テキストZoomデータセットにおけるベンチマークデータセットと低解像度画像の認識精度を高めるために,ベースライン法よりも有意に優れていることを示す。

Although recent works based on deep learning have made progress in improving recognition accuracy on scene text recognition, how to handle low-quality text images in end-to-end deep networks remains a research challenge. In this paper, we propose an Iterative Fusion based Recognizer (IFR) for low quality scene text recognition, taking advantage of refined text images input and robust feature representation. IFR contains two branches which focus on scene text recognition and low quality scene text image recovery respectively. We utilize an iterative collaboration between two branches, which can effectively alleviate the impact of low quality input. A feature fusion module is proposed to strengthen the feature representation of the two branches, where the features from the Recognizer are Fused with image Restoration branch, referred to as RRF. Without changing the recognition network structure, extensive quantitative and qualitative experimental results show that the proposed method significantly outperforms the baseline methods in boosting the recognition accuracy of benchmark datasets and low resolution images in TextZoom dataset.
翻訳日:2021-08-16 13:07:41 公開日:2021-08-13
# 実世界の対向パッチ攻撃に対する自律運転のための意味セグメンテーションのロバスト性評価

Evaluating the Robustness of Semantic Segmentation for Autonomous Driving against Real-World Adversarial Patch Attacks ( http://arxiv.org/abs/2108.06179v1 )

ライセンス: Link先を確認
Federico Nesti, Giulio Rossolini, Saasha Nair, Alessandro Biondi, Giorgio Buttazzo(参考訳) ディープラーニングと畳み込みニューラルネットワークは、オブジェクト検出やセマンティックセグメンテーション(ss)など、コンピュータビジョンタスクで印象的なパフォーマンスを実現する。 しかし、近年の研究では、そのようなモデルの敵対的摂動に対する弱さが示されている。 代わりに、自律運転のような現実のシナリオでは、知覚パイプライン全体と敵対するように最適化された物理的なオブジェクト(例えば、看板やプリント可能なパッチ)である現実世界の敵の例(RWAE)により多くの注意を払わなければならない。 本稿では,デジタルおよび実世界の敵対パッチの効果を検証し,一般的なSSモデルのロバスト性を詳細に評価する。 これらのパッチは、新しい損失関数に富んだ強力な攻撃で作成されている。 まず、ssに対応するために、eot(expectation over transformation)パラダイムを拡張して、cityscapesデータセットに関する調査を行う。 そこで,シーン特異的攻撃と呼ばれる新たな攻撃最適化を提案する。 このような攻撃は、CARLA駆動シミュレータを利用して、提案したEOTベースの攻撃の実際の3D環境への転送性を向上させる。 最後に, 実環境における攻撃の可能性を評価するために, 屋外運転シナリオにおいて, 逆境パッチを含む印刷された物理的看板をテストした。 発掘実験により、提案された攻撃の定式化は、SSのためのデジタルと現実世界の両方の敵パッチを構築するために、以前の作業より優れていることが明らかになった。 同時に、実験結果は、これらの攻撃が現実世界において特に効果が低いことを示し、それゆえ、自律運転のためのssモデルに対する敵意攻撃の実際的妥当性を疑問視した。

Deep learning and convolutional neural networks allow achieving impressive performance in computer vision tasks, such as object detection and semantic segmentation (SS). However, recent studies have shown evident weaknesses of such models against adversarial perturbations. In a real-world scenario instead, like autonomous driving, more attention should be devoted to real-world adversarial examples (RWAEs), which are physical objects (e.g., billboards and printable patches) optimized to be adversarial to the entire perception pipeline. This paper presents an in-depth evaluation of the robustness of popular SS models by testing the effects of both digital and real-world adversarial patches. These patches are crafted with powerful attacks enriched with a novel loss function. Firstly, an investigation on the Cityscapes dataset is conducted by extending the Expectation Over Transformation (EOT) paradigm to cope with SS. Then, a novel attack optimization, called scene-specific attack, is proposed. Such an attack leverages the CARLA driving simulator to improve the transferability of the proposed EOT-based attack to a real 3D environment. Finally, a printed physical billboard containing an adversarial patch was tested in an outdoor driving scenario to assess the feasibility of the studied attacks in the real world. Exhaustive experiments revealed that the proposed attack formulations outperform previous work to craft both digital and real-world adversarial patches for SS. At the same time, the experimental results showed how these attacks are notably less effective in the real world, hence questioning the practical relevance of adversarial attacks to SS models for autonomous/assisted driving.
翻訳日:2021-08-16 13:07:23 公開日:2021-08-13
# 地域別マルチスケール特徴抽出を用いたcnnによる2段階駐車スロット検出

CNN-based Two-Stage Parking Slot Detection Using Region-Specific Multi-Scale Feature Extraction ( http://arxiv.org/abs/2108.06185v1 )

ライセンス: Link先を確認
Quang Huy Bui and Jae Kyu Suhr(参考訳) 自動駐車システムは、利用可能な駐車スロットの検出から始める。 駐車スロット検出性能はディープラーニング技術によって劇的に向上した。 深層学習に基づく物体検出法は1段階と2段階に分類できる。 2段階のアプローチが一般の物体検出において1段階のアプローチを上回っていることはよく知られているが、駐車スロット検出においても同様に行われている。 これは2段方式が駐車スロット検出に十分特化していないためであると考えられる。 そこで本研究では,地域別マルチスケール特徴抽出を用いた2段駐車スロット検出器を提案する。 提案手法は,第1段階において,その中央,長さ,方向を推定し,駐車場の入口をエリア提案とする。 本手法の第2段階は、所望の情報を含む特定領域を指定し、特徴を抽出する。 すなわち、位置と方向の特徴は、位置情報と方向情報を含む特定の領域のみから分離して抽出される。 さらに、マルチレゾリューション特徴マップを利用して、位置付けと分類の両精度を高める。 高分解能特徴マップは詳細な情報(位置と方向)を抽出し、別の低解像度特徴マップは意味情報(タイプと占有)を抽出するために使われる。 実験では,提案手法を2つの大規模公共駐車場スロット検出データセットを用いて定量的に評価した。

Autonomous parking systems start with the detection of available parking slots. Parking slot detection performance has been dramatically improved by deep learning techniques. Deep learning-based object detection methods can be categorized into one-stage and two-stage approaches. Although it is well-known that the two-stage approach outperforms the one-stage approach in general object detection, they have performed similarly in parking slot detection so far. We consider this is because the two-stage approach has not yet been adequately specialized for parking slot detection. Thus, this paper proposes a highly specialized two-stage parking slot detector that uses region-specific multi-scale feature extraction. In the first stage, the proposed method finds the entrance of the parking slot as a region proposal by estimating its center, length, and orientation. The second stage of this method designates specific regions that most contain the desired information and extracts features from them. That is, features for the location and orientation are separately extracted from only the specific regions that most contain the locational and orientational information. In addition, multi-resolution feature maps are utilized to increase both positioning and classification accuracies. A high-resolution feature map is used to extract detailed information (location and orientation), while another low-resolution feature map is used to extract semantic information (type and occupancy). In experiments, the proposed method was quantitatively evaluated with two large-scale public parking slot detection datasets and outperformed previous methods, including both one-stage and two-stage approaches.
翻訳日:2021-08-16 13:06:55 公開日:2021-08-13
# 3次元点雲のセマンティックセグメンテーションのためのゼロショット生成学習

Generative Zero-Shot Learning for Semantic Segmentation of 3D Point Cloud ( http://arxiv.org/abs/2108.06230v1 )

ライセンス: Link先を確認
Bj\"orn Michele, Alexandre Boulch, Gilles Puy, Renaud Marlet(参考訳) 2d画像のゼロショット学習(zsl)に関する研究は数多く行われているが、その3dデータへの応用は、分類に限定されたいくつかの方法を除いて、まだ最新かつ希少である。 本稿では,ZSLと一般化ZSL(GZSL)を3次元データ上に生成し,分類とセマンティックセグメンテーションを両立させる手法を提案する。 インダクティブZSLとインダクティブGZSLの両方に対して,ModelNet40分類における技術状況に到達または向上することを示す。 セマンティックセグメンテーションのために、我々はS3DIS、ScanNet、SemanticKITTIを用いて、この新しいZSLタスクを評価するための3つのベンチマークを作成しました。 実験の結果,本手法は強いベースラインよりも優れており,さらに本手法を提案する。

While there has been a number of studies on Zero-Shot Learning (ZSL) for 2D images, its application to 3D data is still recent and scarce, with just a few methods limited to classification. We present the first generative approach for both ZSL and Generalized ZSL (GZSL) on 3D data, that can handle both classification and, for the first time, semantic segmentation. We show that it reaches or outperforms the state of the art on ModelNet40 classification for both inductive ZSL and inductive GZSL. For semantic segmentation, we created three benchmarks for evaluating this new ZSL task, using S3DIS, ScanNet and SemanticKITTI. Our experiments show that our method outperforms strong baselines, which we additionally propose for this task.
翻訳日:2021-08-16 13:06:34 公開日:2021-08-13
# RGB-D Salient Object Detectionのためのモーダル適応型Gated Recoding Network

Modal-Adaptive Gated Recoding Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2108.06281v1 )

ライセンス: Link先を確認
Feng Dong, Jinchao Zhu, Xian Fang, Qiu Yu(参考訳) RGB-D情報に基づくマルチモーダル・サリエント物体検出モデルは,実世界のロバスト性を向上する。 しかしながら、機能融合フェーズにおいて効果的なマルチモーダル情報を適応的にバランスさせることは、相変わらず自明である。 本稿では,2つのモードの情報妥当性を評価し,その影響のバランスをとるために,GRNet(GRNet)を提案する。 フレームワークは,認識フェーズ,復号混合フェーズ,特徴統合フェーズの3つのフェーズに分けられる。 まず、知覚エンコーダを用いて、マルチレベルな単一モーダル特徴を抽出し、マルチモーダルなセマンティック比較分析の基礎となる。 次に、無効な情報を抑制し、効果的なモード特徴を再コーディングミキサーとハイブリッド分岐デコーダに転送するモード適応ゲートユニット(mgu)を提案する。 リコーディングミキサーは、バランスの取れたマルチモーダル情報をリコーディングしてミキシングする。 最後に、ハイブリッドブランチデコーダは、オプションエッジガイダンスストリーム(OEGS)のガイダンスの下で、マルチレベル機能統合を完成させる。 8つの人気のあるベンチマークの実験と分析により、我々のフレームワークは9つの最先端メソッドに対して好適に機能することを確認した。

The multi-modal salient object detection model based on RGB-D information has better robustness in the real world. However, it remains nontrivial to better adaptively balance effective multi-modal information in the feature fusion phase. In this letter, we propose a novel gated recoding network (GRNet) to evaluate the information validity of the two modes, and balance their influence. Our framework is divided into three phases: perception phase, recoding mixing phase and feature integration phase. First, A perception encoder is adopted to extract multi-level single-modal features, which lays the foundation for multi-modal semantic comparative analysis. Then, a modal-adaptive gate unit (MGU) is proposed to suppress the invalid information and transfer the effective modal features to the recoding mixer and the hybrid branch decoder. The recoding mixer is responsible for recoding and mixing the balanced multi-modal information. Finally, the hybrid branch decoder completes the multi-level feature integration under the guidance of an optional edge guidance stream (OEGS). Experiments and analysis on eight popular benchmarks verify that our framework performs favorably against 9 state-of-art methods.
翻訳日:2021-08-16 13:06:19 公開日:2021-08-13
# 意味セグメンテーションの領域適応のためのデュアルパス学習

Dual Path Learning for Domain Adaptation of Semantic Segmentation ( http://arxiv.org/abs/2108.06337v1 )

ライセンス: Link先を確認
Yiting Cheng, Fangyun Wei, Jianmin Bao, Dong Chen, Fang Wen, Wenqiang Zhang(参考訳) セマンティックセグメンテーションのためのドメイン適応は、大規模なピクセル単位のアノテーションの必要性を軽減することができる。 近年,画像と画像の翻訳を組み合わせた自己教師あり学習(SSL)が適応的セグメンテーションにおいて大きな効果を示している。 最も一般的なプラクティスは、イメージ翻訳とともにSSLを実行し、単一のドメイン(ソースまたはターゲット)を適切に整列させることである。 しかし、この単一ドメインパラダイムでは、画像翻訳によって引き起こされる不可避な視覚不整合は、その後の学習に影響を与える可能性がある。 本稿では,ソース領域とターゲット領域で実行されるドメイン適応フレームワークが画像変換とsslの観点からほぼ相補的であるという観測に基づいて,視覚不整合を緩和する新しいデュアルパス学習(dpl)フレームワークを提案する。 具体的には、dplはソースドメインとターゲットドメインの2つの補完的かつインタラクティブな1ドメイン適応パイプラインを含んでいる。 dplの推論は非常に単純で、対象領域内の1つのセグメンテーションモデルのみを採用する。 2経路画像変換や2経路適応セグメンテーションといった新しい技術が提案され、2経路を相互に対話的に促進する。 GTA5$\rightarrow$Cit yscapesとSynTHIA$\rightarrow$ Cityscapesのシナリオの実験は、最先端の手法よりもDPLモデルの方が優れていることを示している。 コードとモデルは、 \url{https://github.com/r oyee182/dpl} で利用可能である。

Domain adaptation for semantic segmentation enables to alleviate the need for large-scale pixel-wise annotations. Recently, self-supervised learning (SSL) with a combination of image-to-image translation shows great effectiveness in adaptive segmentation. The most common practice is to perform SSL along with image translation to well align a single domain (the source or target). However, in this single-domain paradigm, unavoidable visual inconsistency raised by image translation may affect subsequent learning. In this paper, based on the observation that domain adaptation frameworks performed in the source and target domain are almost complementary in terms of image translation and SSL, we propose a novel dual path learning (DPL) framework to alleviate visual inconsistency. Concretely, DPL contains two complementary and interactive single-domain adaptation pipelines aligned in source and target domain respectively. The inference of DPL is extremely simple, only one segmentation model in the target domain is employed. Novel technologies such as dual path image translation and dual path adaptive segmentation are proposed to make two paths promote each other in an interactive manner. Experiments on GTA5$\rightarrow$Cit yscapes and SYNTHIA$\rightarrow$ Cityscapes scenarios demonstrate the superiority of our DPL model over the state-of-the-art methods. The code and models are available at: \url{https://github.com/r oyee182/DPL}
翻訳日:2021-08-16 13:05:59 公開日:2021-08-13
# TDM:解釈可能性向上による信頼できる意思決定

TDM: Trustworthy Decision-Making via Interpretability Enhancement ( http://arxiv.org/abs/2108.06080v1 )

ライセンス: Link先を確認
Daoming Lyu, Fangkai Yang, Hugh Kwon, Wen Dong, Levent Yilmaz, Bo Liu(参考訳) 人間ロボットによる対話的な意思決定はますます普及しており、信頼は自律性への依存を決定する上で重要な要素である。 しかし、我々の理解を超えたシステムを信頼することは合理的ではなく、典型的な機械学習とデータ駆動意思決定は解釈可能性を妨げるブラックボックスパラダイムである。 したがって、解釈可能性認識戦略によって強化された計算的信頼度の高い意思決定機構を確立することが重要である。 そこで我々は,象徴的計画と逐次的意思決定を統合したTDM(Trustworthy Decision-Making)フレームワークを提案する。 このフレームワークは、複雑な高レベルな複合タスクをもたらす解釈可能なサブタスクを学習し、提案した信頼度を使って形式的に評価できる。 TDMは設計によるサブタスクレベルの解釈を可能にし、学習したサブタスクから最適なシンボリックプランに収束する。 さらに、TDMに基づくアルゴリズムを導入して、シンボル計画と他のシーケンシャル決定アルゴリズムとの統一性を実証し、両方の利点を享受する。 実験結果は,サブタスクの解釈性を改善しつつ,信頼スコアに基づく計画の有効性を検証する。

Human-robot interactive decision-making is increasingly becoming ubiquitous, and trust is an influential factor in determining the reliance on autonomy. However, it is not reasonable to trust systems that are beyond our comprehension, and typical machine learning and data-driven decision-making are black-box paradigms that impede interpretability. Therefore, it is critical to establish computational trustworthy decision-making mechanisms enhanced by interpretability-awa re strategies. To this end, we propose a Trustworthy Decision-Making (TDM) framework, which integrates symbolic planning into sequential decision-making. The framework learns interpretable subtasks that result in a complex, higher-level composite task that can be formally evaluated using the proposed trust metric. TDM enables the subtask-level interpretability by design and converges to an optimal symbolic plan from the learned subtasks. Moreover, a TDM-based algorithm is introduced to demonstrate the unification of symbolic planning with other sequential-decision making algorithms, reaping the benefits of both. Experimental results validate the effectiveness of trust-score-based planning while improving the interpretability of subtasks.
翻訳日:2021-08-16 13:04:11 公開日:2021-08-13
# マルコフ拡散による適応的正定値学習

Adaptive Positive-Unlabelled Learning via Markov Diffusion ( http://arxiv.org/abs/2108.06158v1 )

ライセンス: Link先を確認
Paola Stolfi, Andrea Mastropietro, Giuseppe Pasculli, Paolo Tieri, Davide Vergni(参考訳) positive-unlabelled (pu) learningは、ポジティブなインスタンスのセットのみがラベル付けされ、残りのデータセットがラベル付けされていない機械学習設定である。 ラベルなしのインスタンスは、未特定の正のサンプルまたは真の負のサンプルである。 長年にわたり、PU学習に対処する多くのソリューションが提案されてきた。 いくつかのテクニックは、未ラベルのサンプルを負のものと見なし、ノイズの多い負の集合を持つバイナリ分類に問題を還元する一方、別の手法は、潜在的な負の例の集合を検出し、後に教師付き機械学習戦略(二段階の手法)を適用することを目指している。 この研究で提案されたアプローチは後者のカテゴリに該当し、半教師付き方式で機能する: 以前の研究に動機づけられ、インスパイアされたマルコフ拡散プロセスは、未ラベルのインスタンスに擬ラベルを割り当てるために使われる。 その後、新たに割り当てられたクラスを利用する機械学習モデルをトレーニングする。 このアルゴリズムの主な目的は、元来問題のない正のインスタンスを含む可能性のあるインスタンスの集合を特定することである。

Positive-Unlabelled (PU) learning is the machine learning setting in which only a set of positive instances are labelled, while the rest of the data set is unlabelled. The unlabelled instances may be either unspecified positive samples or true negative samples. Over the years, many solutions have been proposed to deal with PU learning. Some techniques consider the unlabelled samples as negative ones, reducing the problem to a binary classification with a noisy negative set, while others aim to detect sets of possible negative examples to later apply a supervised machine learning strategy (two-step techniques). The approach proposed in this work falls in the latter category and works in a semi-supervised fashion: motivated and inspired by previous works, a Markov diffusion process with restart is used to assign pseudo-labels to unlabelled instances. Afterward, a machine learning model, exploiting the newly assigned classes, is trained. The principal aim of the algorithm is to identify a set of instances which are likely to contain positive instances that were originally unlabelled.
翻訳日:2021-08-16 13:03:55 公開日:2021-08-13
# グラフ畳み込みネットワークにおける構造脆弱性の理解

Understanding Structural Vulnerability in Graph Convolutional Networks ( http://arxiv.org/abs/2108.06280v1 )

ライセンス: Link先を確認
Liang Chen, Jintang Li, Qibiao Peng, Yang Liu, Zibin Zheng and Carl Yang(参考訳) 近年の研究では、グラフ畳み込みネットワーク(GCN)がグラフ構造に対する敵対攻撃に対して脆弱であることが示されている。 このような構造的敵攻撃に対する堅牢性を改善するために複数の研究が提案されているが、この攻撃が成功した理由は不明である。 本研究は,GCNの非ロバストアグリゲーションスキーム(すなわち重み付き平均)による構造逆例を理論的,実証的に証明する。 具体的には,集合スキームのロバスト性を定量的に測定できるブレークダウンポイントを用いて解析を行った。 重要な洞察は、重み付き平均がGCNの基本設計であるように、破壊点が低く、単一のエッジを注入することで出力を劇的に変化させることができることである。 高分解点(中央値、トリミング平均など)の集約方式を採用することで、構造攻撃に対するgcnのロバスト性が著しく向上する可能性が示唆された。 4つの実世界のデータセットに関する広範囲な実験により、そのような単純だが効果的な方法が最先端モデルと比較して最も頑健な性能が得られることが示されている。

Recent studies have shown that Graph Convolutional Networks (GCNs) are vulnerable to adversarial attacks on the graph structure. Although multiple works have been proposed to improve their robustness against such structural adversarial attacks, the reasons for the success of the attacks remain unclear. In this work, we theoretically and empirically demonstrate that structural adversarial examples can be attributed to the non-robust aggregation scheme (i.e., the weighted mean) of GCNs. Specifically, our analysis takes advantage of the breakdown point which can quantitatively measure the robustness of aggregation schemes. The key insight is that weighted mean, as the basic design of GCNs, has a low breakdown point and its output can be dramatically changed by injecting a single edge. We show that adopting the aggregation scheme with a high breakdown point (e.g., median or trimmed mean) could significantly enhance the robustness of GCNs against structural attacks. Extensive experiments on four real-world datasets demonstrate that such a simple but effective method achieves the best robustness performance compared to state-of-the-art models.
翻訳日:2021-08-16 13:03:37 公開日:2021-08-13
# 連続的バックプロップ:持続的ランダム性を伴う確率的勾配降下

Continual Backprop: Stochastic Gradient Descent with Persistent Randomness ( http://arxiv.org/abs/2108.06325v1 )

ライセンス: Link先を確認
Shibhansh Dohare, A. Rupam Mahmood, Richard S. Sutton(参考訳) ニューラルネットワークにおける学習のためのバックプロップアルゴリズムは、確率的勾配降下と、小さなランダムウェイトによる初期化の2つのメカニズムを使用しており、後者は前者の有効性に必須である。 連続的な学習設定では、Backpropは最初はうまく機能するが、時間とともに性能は低下する。 確率的勾配降下だけでは連続学習が不十分であり、初期ランダム性は初期学習のみを可能にするが連続学習はできない。 私たちの知る限りでは、私たちの結果はバックプロップの学習能力の低下を示す最初の結果です。 この問題に対処するために,新しい生成・テストプロセスを用いて,勾配降下に伴うランダムな特徴を連続的に注入するアルゴリズムを提案する。 これを連続バックプロップアルゴリズムと呼ぶ。 Backpropとは異なり、Continuous Backpropは教師付き学習と強化学習の両方に継続的に適応可能であることを示す。 今後,連続学習が一般化するにつれて,ランダム初期化の利点が学習中に存在するような,連続的バックプロップのような手法が不可欠になることを期待する。

The Backprop algorithm for learning in neural networks utilizes two mechanisms: first, stochastic gradient descent and second, initialization with small random weights, where the latter is essential to the effectiveness of the former. We show that in continual learning setups, Backprop performs well initially, but over time its performance degrades. Stochastic gradient descent alone is insufficient to learn continually; the initial randomness enables only initial learning but not continual learning. To the best of our knowledge, ours is the first result showing this degradation in Backprop's ability to learn. To address this issue, we propose an algorithm that continually injects random features alongside gradient descent using a new generate-and-test process. We call this the Continual Backprop algorithm. We show that, unlike Backprop, Continual Backprop is able to continually adapt in both supervised and reinforcement learning problems. We expect that as continual learning becomes more common in future applications, a method like Continual Backprop will be essential where the advantages of random initialization are present throughout learning.
翻訳日:2021-08-16 13:03:18 公開日:2021-08-13
# Co-GAIL:人間-ロボット協調のための多様な戦略を学ぶ

Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration ( http://arxiv.org/abs/2108.06038v1 )

ライセンス: Link先を確認
Chen Wang, Claudia P\'erez-D'Arpino, Danfei Xu, Li Fei-Fei, C. Karen Liu, Silvio Savarese(参考訳) 本稿では,人間とロボットの協調実験から人間とロボットの協調政策を学ぶ方法を提案する。 効果的なロボットアシスタントは、デモで示された多様な人間の行動に対処することを学び、オンラインタスク実行中に人間が戦略を調整すると頑健になる。 本手法は,対話型学習プロセスにおいて,人間ポリシーとロボットポリシーを協調的に最適化する。人間ポリシーは,実証から多種多様な協調行動を生成することを学習し,ロボットポリシーは人間の協力者の意図しない潜在戦略を推定することによって支援する。 2次元戦略ゲーム、人間-ロボットハンドオーバタスク、多段階協調操作タスクにおいて、シミュレーションによる評価と実際の人間のオペレーターによる実行の両方において、この方法が代替案を上回る。 Supplementary Materials and Video at https://sites.google .com/view/co-gail-we b/home

We present a method for learning a human-robot collaboration policy from human-human collaboration demonstrations. An effective robot assistant must learn to handle diverse human behaviors shown in the demonstrations and be robust when the humans adjust their strategies during online task execution. Our method co-optimizes a human policy and a robot policy in an interactive learning process: the human policy learns to generate diverse and plausible collaborative behaviors from demonstrations while the robot policy learns to assist by estimating the unobserved latent strategy of its human collaborator. Across a 2D strategy game, a human-robot handover task, and a multi-step collaborative manipulation task, our method outperforms the alternatives in both simulated evaluations and when executing the tasks with a real human operator in-the-loop. Supplementary materials and videos at https://sites.google .com/view/co-gail-we b/home
翻訳日:2021-08-16 13:02:59 公開日:2021-08-13
# 表現型ニューラルテキスト音声の音質向上

Enhancing audio quality for expressive Neural Text-to-Speech ( http://arxiv.org/abs/2108.06270v1 )

ライセンス: Link先を確認
Abdelhamid Ezzerg, Adam Gabrys, Bartosz Putrycz, Daniel Korzekwa, Daniel Saez-Trigueros, David McHardy, Kamil Pokora, Jakub Lachowicz, Jaime Lorenzo-Trueba, Viacheslav Klimkov(参考訳) 最近のテキスト音声合成システム(TTS)は、人間の録音に類似した品質の音声を生成できるため、人工音声合成は自然性において大きな飛躍を遂げてきた。 しかし、全ての話し方はモデル化が簡単ではない: 非常に表現力の高い音声は、生成した音声の表現性とその信号品質との間にトレードオフがあるように見えるため、最近のTSアーキテクチャでさえも依然として困難である。 本稿では,高表現率音声の信号品質を向上させるために,追加データを用いることなく活用できる一連の手法を提案する。 提案手法は, 学習中の自己回帰ループの粒度調整, 音響モデルにおける生成適応ネットワークの利用, 音響モデルとニューラルボコーダの両方における変分オートエンコーダの使用を含む。 その結果,これらの手法を組み合わせることで,表現力のある有名人声のMUSHRAスコアにおいて,ベースラインシステムと録音との知覚自然性のギャップを39%縮めることがわかった。

Artificial speech synthesis has made a great leap in terms of naturalness as recent Text-to-Speech (TTS) systems are capable of producing speech with similar quality to human recordings. However, not all speaking styles are easy to model: highly expressive voices are still challenging even to recent TTS architectures since there seems to be a trade-off between expressiveness in a generated audio and its signal quality. In this paper, we present a set of techniques that can be leveraged to enhance the signal quality of a highly-expressive voice without the use of additional data. The proposed techniques include: tuning the autoregressive loop's granularity during training; using Generative Adversarial Networks in acoustic modelling; and the use of Variational Auto-Encoders in both the acoustic model and the neural vocoder. We show that, when combined, these techniques greatly closed the gap in perceived naturalness between the baseline system and recordings by 39% in terms of MUSHRA scores for an expressive celebrity voice.
翻訳日:2021-08-16 13:02:43 公開日:2021-08-13
# 高速移動物体の非イメージングリアルタイム検出と追跡

Non-imaging real-time detection and tracking of fast-moving objects ( http://arxiv.org/abs/2108.06009v1 )

ライセンス: Link先を確認
Fengming Zhou, Xuelei Shi, Jie Chen, Tianhang Tang and Yiguang Liu(参考訳) 高速移動物体のリアルタイム検出と追跡は様々な分野で大きな成功を収めている。 しかし,多くの既存手法,特に低コスト手法は,リアルタイム・長期オブジェクト検出・追跡が困難である。 ここでは, 高速移動物体検出と追跡をリアルタイムに実現するための2段階を含む非画像化戦略と, 1) アダマールパターン列を最適化するための輪郭モーメントに基づく手法を提案する。 そして、単画素イメージング技術に基づいて物体の投影曲線を再構成する。 被写体位置情報を含む投影曲線は、単画素検出器によって収集された測定値により直接再構成される; 2) 投影曲線における最も速い変化位置は、一階の勾配を解いて得られる。 勾配微分は、突然の変化位置を持つ微分曲線を計算するために、2つの一階勾配で用いられる。 最後に、高速移動対象の境界情報を得ることができる。 22,000Hzのデジタルマイクロミラーデバイスを用いて, サンプリングレート1.28%で毎秒105フレームの時間分解能が得られることを示す。 提案手法の検出と追跡アルゴリズムは計算効率が高い。 最先端手法と比較して,本手法はサンプリング率を低くすることができる。 さらに、この戦略は各フレーム毎に1MB以上のデータを取得し、オブジェクトをリアルタイムに高速に移動させ、長期的な検出と追跡を行うことができる。

Real-time detection and tracking of fast-moving objects have achieved great success in various fields. However, many existing methods, especially low-cost ones, are difficult to achieve real-time and long-term object detection and tracking. Here, a non-imaging strategy is proposed, including two stages, to realize fast-moving object detection and tracking in real-time and for the long term: 1) a contour-moments-base d method is proposed to optimize the Hadamard pattern sequence. And then reconstructing projection curves of the object based on single-pixel imaging technology. The projection curve, which including the object location information, is reconstructed directly with the measurements collected by a single-pixel detector; 2) The fastest changing position in the projection curve can be obtained by solving first-order gradients. A gradient differential is used in two first-order gradients to calculate a differential curve with the sudden change positions. Finally, we can obtain the boundary information of the fast-moving object. We experimentally demonstrate that our approach can achieve a temporal resolution of 105 frames per second at a 1.28% sampling rate by using a 22,000 Hz digital micro-mirror device. The detection and tracking algorithm of the proposed strategy is computationally efficient. Compared with the state-of-the-art methods, our approach can make the sampling rate lower. Additionally, the strategy acquires not more than 1MB of data for each frame, which is capable of fast-moving object real-time and long-term detection and tracking.
翻訳日:2021-08-16 13:02:01 公開日:2021-08-13
# svc-ongoing: シグネチャ検証競争

SVC-onGoing: Signature Verification Competition ( http://arxiv.org/abs/2108.06090v1 )

ライセンス: Link先を確認
Ruben Tolosana, Ruben Vera-Rodriguez, Carlos Gonzalez-Garcia, Julian Fierrez, Aythami Morales, Javier Ortega-Garcia, Juan Carlos Ruiz-Garcia, Sergio Romero-Tapiador, Santiago Rengifo, Miguel Caruana, Jiajia Jiang, Songxuan Lai, Lianwen Jin, Yecheng Zhu, Javier Galbally, Moises Diaz, Miguel Angel Ferrer, Marta Gomez-Barrero, Ilya Hodashinsky, Konstantin Sarin, Artem Slezkin, Marina Bardamova, Mikhail Svetlakov, Mohammad Saleem, Cintia Lia Szucs, Bence Kovari, Falk Pulsmeyer, Mohamad Wehbi, Dario Zanca, Sumaiya Ahmad, Sarthak Mishra, Suraiya Jabin(参考訳) 本稿では,DeepSignDBやSVC2021_EvalDBといった大規模公開データベースや標準実験プロトコルを使用したオープンな共通プラットフォームにおいて,研究者が自身のシステムを最先端技術に対して容易にベンチマークすることができるオンライン署名検証のコンペティションであるSVC-onGoingを紹介する。 SVC-onGoing は ICDAR 2021 Competition on On-Line Signature Verification (SVC 2021) をベースとしている。 SVC-onGoingの目標は、一般的なシナリオ(オフィス/モバイル)におけるオンライン署名検証システムの限界を評価し、大規模なパブリックデータベースを通じて入力(スタイラス/フィンガー)を書くことである。 競技では3つの異なるタスクが考慮され、各タスクにランダムと熟練した偽造が同時に考慮されるように、現実的なシナリオをシミュレートする。 svc-ongoingにより得られた結果は,従来の手法と比較して,深層学習手法の可能性が高いことを証明した。 特に、ベストシグネチャ検証システムは、3.33%(タスク1)、7.41%(タスク2)、6.04%(タスク3)の等しいエラー率(eer)値を得た。 この分野での今後の研究は、署名取得時に複数のモバイルデバイスと指を使用するSVC-onGoingのモバイルシナリオにおいて、署名検証システムの性能向上を目的としている。

This article presents SVC-onGoing, an on-going competition for on-line signature verification where researchers can easily benchmark their systems against the state of the art in an open common platform using large-scale public databases, such as DeepSignDB and SVC2021_EvalDB, and standard experimental protocols. SVC-onGoing is based on the ICDAR 2021 Competition on On-Line Signature Verification (SVC 2021), which has been extended to allow participants anytime. The goal of SVC-onGoing is to evaluate the limits of on-line signature verification systems on popular scenarios (office/mobile) and writing inputs (stylus/finger) through large-scale public databases. Three different tasks are considered in the competition, simulating realistic scenarios as both random and skilled forgeries are simultaneously considered on each task. The results obtained in SVC-onGoing prove the high potential of deep learning methods in comparison with traditional methods. In particular, the best signature verification system has obtained Equal Error Rate (EER) values of 3.33% (Task 1), 7.41% (Task 2), and 6.04% (Task 3). Future studies in the field should be oriented to improve the performance of signature verification systems on the challenging mobile scenarios of SVC-onGoing in which several mobile devices and the finger are used during the signature acquisition.
翻訳日:2021-08-16 13:01:38 公開日:2021-08-13
# Jasmine: サイバー犯罪に対する新たなアクティブな学習アプローチ

Jasmine: A New Active Learning Approach to Combat Cybercrime ( http://arxiv.org/abs/2108.06238v1 )

ライセンス: Link先を確認
Jan Klein, Sandjai Bhulai, Mark Hoogendoorn, Rob van der Mei(参考訳) 過去10年間、サイバー犯罪の出現はサイバーセキュリティの研究を称賛してきた。 しかし,侵入検知手法の展開は短命である。 この理由の1つは、現実的な評価データセットが欠如していることにある。 これは、サイバーアナリストがネットワーク接続を分類するのに要する膨大な労力によって引き起こされる。 これにより、(i)ラベル付きデータの小さなセットから学習できるメソッド、(ii)ラベルなしデータの大規模なセットを予測できるメソッド、(iii)特別に選択されたラベルなしデータインスタンスのみのラベルを要求するメソッドの必要性が高まった。 したがって、アクティブラーニング(AL)手法は興味深い。 これらのアプローチでは、クエリ関数によってspeci?fic unlabeledインスタンスを選択し、全体的なclassi?cationパフォーマンスを改善することが期待されている。 結果のクエリ観察は、人間の専門家によってラベル付けされ、ラベル付きセットに追加される。 本稿では,Jasmineと呼ばれるハイブリッドAL手法を提案する。 まず、各観測値がクエリにどの程度適しているか、すなわち、クラスi?cationを向上する確率を決定する。 これらの特性は不確実性スコアと異常スコアである。 次に、Jasmineは動的更新を導入した。 これにより、モデルが不確かで異常でランダムに選択された観測のバランスを調整することができる。 この目的のためにJasmineは、ラベル付けプロセスで最高のクエリ戦略を学ぶことができる。 これは、すべて静的で所定のクエリ機能を持つサイバーセキュリティにおける他のALメソッドとは対照的である。 動的更新,すなわちJasmineは,不確実性のみを問合せする,異常や修正された組み合わせのみを問合せするよりも,良質で堅牢な結果が得られることを示す。

Over the past decade, the advent of cybercrime has accelarated the research on cybersecurity. However, the deployment of intrusion detection methods falls short. One of the reasons for this is the lack of realistic evaluation datasets, which makes it a challenge to develop techniques and compare them. This is caused by the large amounts of effort it takes for a cyber analyst to classify network connections. This has raised the need for methods (i) that can learn from small sets of labeled data, (ii) that can make predictions on large sets of unlabeled data, and (iii) that request the label of only specially selected unlabeled data instances. Hence, Active Learning (AL) methods are of interest. These approaches choose speci?fic unlabeled instances by a query function that are expected to improve overall classi?cation performance. The resulting query observations are labeled by a human expert and added to the labeled set. In this paper, we propose a new hybrid AL method called Jasmine. Firstly, it determines how suitable each observation is for querying, i.e., how likely it is to enhance classi?cation. These properties are the uncertainty score and anomaly score. Secondly, Jasmine introduces dynamic updating. This allows the model to adjust the balance between querying uncertain, anomalous and randomly selected observations. To this end, Jasmine is able to learn the best query strategy during the labeling process. This is in contrast to the other AL methods in cybersecurity that all have static, predetermined query functions. We show that dynamic updating, and therefore Jasmine, is able to consistently obtain good and more robust results than querying only uncertainties, only anomalies or a ?fixed combination of the two.
翻訳日:2021-08-16 13:00:48 公開日:2021-08-13
# ロボット工学における安全学習: 学習に基づく制御から安全強化学習へ

Safe Learning in Robotics: From Learning-Based Control to Safe Reinforcement Learning ( http://arxiv.org/abs/2108.06266v1 )

ライセンス: Link先を確認
Lukas Brunke, Melissa Greeff, Adam W. Hall, Zhaocong Yuan, Siqi Zhou, Jacopo Panerati, Angela P. Schoellig (University of Toronto Institute for Aerospace Studies, University of Toronto Robotics Institute, Vector Institute for Artificial Intelligence)(参考訳) この半減期は、コントロールと強化の両方の学習コミュニティから、現実世界のロボット展開のための安全な学習方法への貢献が急増している。 本稿では、制御理論と強化学習研究で使用される言語とフレームワークの統合に焦点をあて、不確実性の下で安全な意思決定を実現するために機械学習を用いた最近の進歩を簡潔に、包括的にレビューする。 不確定なダイナミクスを学習することで、パフォーマンスを安全に向上させる学習ベースの制御アプローチ、安全性や堅牢性を促進する強化学習アプローチ、学習した制御ポリシーの安全性を正式に証明する手法などです。 データと学習に基づくロボット制御の手法が勢いを増し続けており、研究者は、人間の近くで操作する場合など、安全性が不可欠である現実のシナリオにおいて、いつ、どのようにそれらを活用するかを理解する必要がある。 ロボット学習の分野を今後数年間で推進するオープン課題を浮き彫りにして,制御と強化学習のアプローチを公平に比較するための,現実的な物理ベースのベンチマークの必要性を強調した。

The last half-decade has seen a steep rise in the number of contributions on safe learning methods for real-world robotic deployments from both the control and reinforcement learning communities. This article provides a concise but holistic review of the recent advances made in using machine learning to achieve safe decision making under uncertainties, with a focus on unifying the language and frameworks used in control theory and reinforcement learning research. Our review includes: learning-based control approaches that safely improve performance by learning the uncertain dynamics, reinforcement learning approaches that encourage safety or robustness, and methods that can formally certify the safety of a learned control policy. As data- and learning-based robot control methods continue to gain traction, researchers must understand when and how to best leverage them in real-world scenarios where safety is imperative, such as when operating in close proximity to humans. We highlight some of the open challenges that will drive the field of robot learning in the coming years, and emphasize the need for realistic physics-based benchmarks to facilitate fair comparisons between control and reinforcement learning approaches.
翻訳日:2021-08-16 12:59:55 公開日:2021-08-13
# (参考訳) クロスサンプル相互情報最小化によるバイアス不変表現の学習 [全文訳有]

Learning Bias-Invariant Representation by Cross-Sample Mutual Information Minimization ( http://arxiv.org/abs/2108.05449v2 )

ライセンス: CC BY 4.0
Wei Zhu, Haitian Zheng, Haofu Liao, Weijian Li, Jiebo Luo(参考訳) ディープラーニングアルゴリズムはトレーニングデータから知識を抽出するので、データセットのバイアス情報を継承する可能性が高い。 結果として、得られたモデルは一般化が悪く、現実の応用において決定過程を誤解させる結果となった。 本稿では,対象タスクが誤用するバイアス情報を,CSAD法を用いて除去することを提案する。 CSADは、特徴抽出器が生み出す潜在表現から切り離されたターゲット特徴とバイアス特徴を明示的に抽出し、ターゲット特徴とバイアス特徴の相関関係を発見して除去する。 相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。 さらに,協調コンテンツと局所構造表現学習を提案し,相互情報量の推定と性能向上を図る。 我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。

Deep learning algorithms mine knowledge from the training data and thus would likely inherit the dataset's bias information. As a result, the obtained model would generalize poorly and even mislead the decision process in real-life applications. We propose to remove the bias information misused by the target task with a cross-sample adversarial debiasing (CSAD) method. CSAD explicitly extracts target and bias features disentangled from the latent representation generated by a feature extractor and then learns to discover and remove the correlation between the target and bias features. The correlation measurement plays a critical role in adversarial debiasing and is conducted by a cross-sample neural mutual information estimator. Moreover, we propose joint content and local structural representation learning to boost mutual information estimation for better performance. We conduct thorough experiments on publicly available datasets to validate the advantages of the proposed method over state-of-the-art approaches.
翻訳日:2021-08-16 11:28:57 公開日:2021-08-13
# (参考訳) 単眼3次元物体検出のためのプログレッシブ座標変換 [全文訳有]

Progressive Coordinate Transforms for Monocular 3D Object Detection ( http://arxiv.org/abs/2108.05793v2 )

ライセンス: CC BY 4.0
Li Wang, Li Zhang, Yi Zhu, Zhi Zhang, Tong He, Mu Li, Xiangyang Xue(参考訳) 3D空間における物体の認識とローカライズは、AIエージェントが周囲の環境を知覚する重要な能力である。 高価なlidarポイント雲では大きな進歩を遂げているが、単眼像のみを想定して3dオブジェクト検出には大きな課題がある。 この問題に対処するための代替手段はいくつかあるが、RGBと深度情報を融合する重いネットワークを備えていたり、数百万の擬似LiDARポイントを処理するのに実証的に効果がなかったりする。 詳細な検査により、これらの制限が不正確な物体の局在に根ざしていることが分かる。 本稿では,学習座標表現を容易にするための新しい,かつ軽量な手法である {\em progressive coordinate transforms} (pct) を提案する。 具体的には, 位置推定を段階的に洗練するために, 信頼度認識損失を伴う位置推定促進機構を導入する。 さらに、セマンティックイメージ表現はパッチ提案の使用を補うためにも利用される。 軽量でシンプルであるにもかかわらず、我々の戦略はkittiおよびwaymo open dataset monocular 3d detection benchmarksに優れた改善をもたらす。 同時に,提案するpctは,ほとんどの座標に基づく3d検出フレームワークに対して大きな一般化を示す。 https://github.com/a mazon-research/progr essive-coordinate-tr ansforms。

Recognizing and localizing objects in the 3D space is a crucial ability for an AI agent to perceive its surrounding environment. While significant progress has been achieved with expensive LiDAR point clouds, it poses a great challenge for 3D object detection given only a monocular image. While there exist different alternatives for tackling this problem, it is found that they are either equipped with heavy networks to fuse RGB and depth information or empirically ineffective to process millions of pseudo-LiDAR points. With in-depth examination, we realize that these limitations are rooted in inaccurate object localization. In this paper, we propose a novel and lightweight approach, dubbed {\em Progressive Coordinate Transforms} (PCT) to facilitate learning coordinate representations. Specifically, a localization boosting mechanism with confidence-aware loss is introduced to progressively refine the localization prediction. In addition, semantic image representation is also exploited to compensate for the usage of patch proposals. Despite being lightweight and simple, our strategy leads to superior improvements on the KITTI and Waymo Open Dataset monocular 3D detection benchmarks. At the same time, our proposed PCT shows great generalization to most coordinate-based 3D detection frameworks. The code is available at: https://github.com/a mazon-research/progr essive-coordinate-tr ansforms .
翻訳日:2021-08-16 11:08:36 公開日:2021-08-13
# (参考訳) 意味グラフから多様な記述を生成する [全文訳有]

Generating Diverse Descriptions from Semantic Graphs ( http://arxiv.org/abs/2108.05659v2 )

ライセンス: CC BY-SA 4.0
Jiuzhou Han, Daniel Beck, Trevor Cohn(参考訳) 意味グラフからのテキスト生成は伝統的に決定論的手法で行われ、入力グラフが与えられたユニークな記述を生成する。 しかし、生成問題は許容可能なテキスト出力の範囲を認め、語彙的、構文的、意味的変化を示す。 この断絶に対処するため、主な貢献は2つある。 まず,エンコーダ-デコーダモデルに潜在変数を組み込んだ確率的グラフ-テキストモデルとそのアンサンブルでの使用を提案する。 第2に,生成した文の多様性を評価するために,複数参照環境での出力の多様性と品質を共同で評価する新しい自動評価指標を提案する。 我々は,WebNLGデータセットを英語とロシア語で評価し,様々な文の集合を生成する確率的モデルの集合を示すとともに,最先端のモデルに類似した品質を維持した。

Text generation from semantic graphs is traditionally performed with deterministic methods, which generate a unique description given an input graph. However, the generation problem admits a range of acceptable textual outputs, exhibiting lexical, syntactic and semantic variation. To address this disconnect, we present two main contributions. First, we propose a stochastic graph-to-text model, incorporating a latent variable in an encoder-decoder model, and its use in an ensemble. Second, to assess the diversity of the generated sentences, we propose a new automatic evaluation metric which jointly evaluates output diversity and quality in a multi-reference setting. We evaluate the models on WebNLG datasets in English and Russian, and show an ensemble of stochastic models produces diverse sets of generated sentences, while retaining similar quality to state-of-the-art models.
翻訳日:2021-08-16 10:50:39 公開日:2021-08-13
# 条件付きシーケンシャルスレート最適化

Conditional Sequential Slate Optimization ( http://arxiv.org/abs/2108.05618v2 )

ライセンス: Link先を確認
Yipeng Zhang, Mingjian Lu, Saratchandra Indrakanti, Manojkumar Rangasamy Kannadasan, Abraham Bagherjeiran(参考訳) 第1ページに表示されたユーザクエリにマッチする上位検索結果は、検索システムの有効性と知覚に極めて重要である。 検索ランキングシステムは通常、検索結果を独立したクエリ文書スコアで順序付けし、検索結果のスレートを生成する。 しかし、そのような一方的なスコアリング手法は、ユーザが敏感なドキュメント間の依存関係をキャプチャできないため、サブ最適スレートを生成する。 さらに,eコマース検索のような現実のアプリケーションの多くは,ビジネス目的や長期のユーザ保持目標のために,特定の流通基準をスレートレベルで強制する必要がある。 結果の一方的なスコアリングは、スレートに関してそのような目的の最適化を明示的にサポートしない。 したがって、スレート最適化問題の解法は、スレートレベルの分布基準に従うとともに、文書の最適選択と順序を考慮する必要がある。 そこで我々は,条件付きスレート最適化問題を解くために,従来のスレート最適化から拡張したハイブリッドフレームワークを提案する。 本稿では,従来のランク付け指標の最適化と,スレート内の文書の所定の分布基準を共同で学習する条件付きシーケンシャルスレート最適化(CSSO)を提案する。 提案手法は,eコマース検索結果の多様性の強化,トップ検索結果のバイアス軽減,結果のパーソナライズなど,現実的な課題に適用できる。 パブリックデータセットとeコマースデータセットによる実世界のデータに関する実験は、cssoが分布基準への順守という観点で、人気の高い比較ランキング手法を上回っていることを示している。

The top search results matching a user query that are displayed on the first page are critical to the effectiveness and perception of a search system. A search ranking system typically orders the results by independent query-document scores to produce a slate of search results. However, such unilateral scoring methods may fail to capture inter-document dependencies that users are sensitive to, thus producing a sub-optimal slate. Further, in practice, many real-world applications such as e-commerce search require enforcing certain distributional criteria at the slate-level, due to business objectives or long term user retention goals. Unilateral scoring of results does not explicitly support optimizing for such objectives with respect to a slate. Hence, solutions to the slate optimization problem must consider the optimal selection and order of the documents, along with adherence to slate-level distributional criteria. To that end, we propose a hybrid framework extended from traditional slate optimization to solve the conditional slate optimization problem. We introduce conditional sequential slate optimization (CSSO), which jointly learns to optimize for traditional ranking metrics as well as prescribed distribution criteria of documents within the slate. The proposed method can be applied to practical real world problems such as enforcing diversity in e-commerce search results, mitigating bias in top results and personalization of results. Experiments on public datasets and real-world data from e-commerce datasets show that CSSO outperforms popular comparable ranking methods in terms of adherence to distributional criteria while producing comparable or better relevance metrics.
翻訳日:2021-08-16 10:33:53 公開日:2021-08-13
# RW-Resnet:生波形を用いた新しい音声アンチスプーフィングモデル

RW-Resnet: A Novel Speech Anti-Spoofing Model Using Raw Waveform ( http://arxiv.org/abs/2108.05684v2 )

ライセンス: Link先を確認
Youxuan Ma, Zongze Ren, Shugong Xu(参考訳) 近年,TTS(Advanced Text-to-Speech)システムとVC(Voice conversion)システムによって生成される合成音声は,自動話者検証(ASV)システムに大きな打撃を与え,ASVシステムを保護するための合成音声検出システムの設計を促している。 本稿では,ResWavegram-Resnet( RW-Resnet)という新しい音声合成モデルを提案する。 モデルにはConv1D ResblocksとBackbone Resnet34という2つの部分が含まれている。 Conv1D Resblockは残コネクションを持つConv1Dブロックに基づいている。 まず最初に、生波形を入力として使用し、それを積み重ねたConv1D Resblocksに供給してResWavegramを得る。 従来の手法と比較して、ResWavegramは音声信号から全ての情報を保存し、特徴を抽出する能力が強い。 第2部では、抽出された特徴をspoofed又はbonafide決定のためにbackbone resnet34に供給する。 ASVspoof2019 論理アクセス (LA) コーパスを用いて提案した RW-Resnet の評価を行った。 実験の結果、RW-Resnetは他の最先端のアンチスプーフィングモデルよりも優れた性能を示し、合成音声攻撃の検出の有効性を示した。

In recent years, synthetic speech generated by advanced text-to-speech (TTS) and voice conversion (VC) systems has caused great harms to automatic speaker verification (ASV) systems, urging us to design a synthetic speech detection system to protect ASV systems. In this paper, we propose a new speech anti-spoofing model named ResWavegram-Resnet (RW-Resnet). The model contains two parts, Conv1D Resblocks and backbone Resnet34. The Conv1D Resblock is based on the Conv1D block with a residual connection. For the first part, we use the raw waveform as input and feed it to the stacked Conv1D Resblocks to get the ResWavegram. Compared with traditional methods, ResWavegram keeps all the information from the audio signal and has a stronger ability in extracting features. For the second part, the extracted features are fed to the backbone Resnet34 for the spoofed or bonafide decision. The ASVspoof2019 logical access (LA) corpus is used to evaluate our proposed RW-Resnet. Experimental results show that the RW-Resnet achieves better performance than other state-of-the-art anti-spoofing models, which illustrates its effectiveness in detecting synthetic speech attacks.
翻訳日:2021-08-16 10:33:29 公開日:2021-08-13