このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210117となっている論文です。

PDF登録状況(公開日: 20210117)

TitleAuthorsAbstract論文公表日・翻訳日
# SoMin.ai: パーソナリティ駆動のコンテンツ生成プラットフォーム

SoMin.ai: Personality-Driven Content Generation Platform ( http://arxiv.org/abs/2011.14615v2 )

ライセンス: Link先を確認
Aleksandr Farseev, Qi Yang, Andrey Filchenkov, Kirill Lepikhin, Yu-Yi Chu-Farseeva, Daron-Benjamin Loo(参考訳) この技術デモでは、世界初のパーソナリティ駆動のマーケティングコンテンツ生成プラットフォームであるSoMin.aiを紹介します。 このプラットフォームは、ディープマルチビューパーソナリティプロファイリングフレームワークと、異なる人のパーソナリティタイプにアピールするコンテンツの自動生成を容易にするスタイル生成広告ネットワークを組み合わせる。 このプラットフォームは、ソーシャルネットワークのユーザーエクスペリエンスの強化や、コンテンツマーケティングのルーチンに使用できる。 somin.aiは、ユーザのソーシャルネットワークコンテンツから自動的に派生したmbtiパーソナリティタイプに導かれ、ソーシャルネットワーク会場におけるユーザエクスペリエンスの向上と、デジタルマーケティングキャンペーンのための新しいコンテンツ作成におけるマーケターの努力の多様化を目的とした類似のパーソナリティタイプを持つ、他のユーザの好みに基づいて、新しいソーシャルメディアコンテンツを生成する。 プラットフォームGUIによるリアルタイムユーザフィードバックは、コンテンツ生成モデルと評価結果を微調整し、コンテンツ生成シナリオに適用された場合、提案したマルチビューパーソナリティプロファイリングフレームワークの有望な性能を示す。 コンテンツ生成を大規模に活用することで、マーケターはより効果的なデジタルマーケティングキャンペーンを低コストで実行できるようになる。

In this technical demonstration, we showcase the World's first personality-driven marketing content generation platform, called SoMin.ai. The platform combines deep multi-view personality profiling framework and style generative adversarial networks facilitating the automatic creation of content that appeals to different human personality types. The platform can be used for the enhancement of the social networking user experience as well as for content marketing routines. Guided by the MBTI personality type, automatically derived from a user social network content, SoMin.ai generates new social media content based on the preferences of other users with a similar personality type aiming at enhancing the user experience on social networking venues as well diversifying the efforts of marketers when crafting new content for digital marketing campaigns. The real-time user feedback to the platform via the platform's GUI fine-tunes the content generation model and the evaluation results demonstrate the promising performance of the proposed multi-view personality profiling framework when being applied in the content generation scenario. By leveraging content generation at a large scale, marketers will be able to execute more effective digital marketing campaigns at a lower cost.
翻訳日:2021-06-06 14:30:26 公開日:2021-01-17
# 各種低リソース言語における音声認識へのWav2vec2.0の適用

Applying Wav2vec2.0 to Speech Recognition in Various Low-resource Languages ( http://arxiv.org/abs/2012.12121v2 )

ライセンス: Link先を確認
Cheng Yi, Jianzhong Wang, Ning Cheng, Shiyu Zhou, Bo Xu(参考訳) ResNet、BERT、GPT-xなど、広く使われている機能抽出器を所有するドメインはいくつかある。 これらのモデルは、通常、自己スーパービジョンによって大量の未ラベルデータに対して事前訓練され、下流タスクに効果的に適用できる。 音声領域において、wav2vec2.0は、オーディオブックドメインに属するLibrispeechコーパス上で、その強力な表現能力と超低リソース音声認識の実現可能性を示す。 しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。 言語に対する普遍性を検証するため,各種音声言語における低リソース音声認識タスクの解法として,事前学習モデルを適用した。 これまでの作業と比較して、6つの言語で20%以上の相対的な改善を実現しています。 これらの言語の中で、英語は52.4%増加した。 さらに、サブワードやキャラクタなどの粗粒度モデリングユニットを使用することで、電話や文字などの細粒度モデリングユニットよりも優れた結果が得られる。

There are several domains that own corresponding widely used feature extractors, such as ResNet, BERT, and GPT-x. These models are usually pre-trained on large amounts of unlabeled data by self-supervision and can be effectively applied to downstream tasks. In the speech domain, wav2vec2.0 starts to show its powerful representation ability and feasibility of ultra-low resource speech recognition on the Librispeech corpus, which belongs to the audiobook domain. However, wav2vec2.0 has not been examined on real spoken scenarios and languages other than English. To verify its universality over languages, we apply pre-trained models to solve low-resource speech recognition tasks in various spoken languages. We achieve more than 20% relative improvements in six languages compared with previous work. Among these languages, English achieves a gain of 52.4%. Moreover, using coarse-grained modeling units, such as subword or character, achieves better results than fine-grained modeling units, such as phone or letter.
翻訳日:2021-04-26 07:34:41 公開日:2021-01-17
# 心不全患者に対する深部半監督型組込みクラスタリング(DSEC)

Deep Semi-Supervised Embedded Clustering (DSEC) for Stratification of Heart Failure Patients ( http://arxiv.org/abs/2012.13233v3 )

ライセンス: Link先を確認
Oliver Carr, Stojan Jovanovic, Luca Albergante, Fernando Andreotti, Robert D\"urichen, Nadia Lipunova, Janie Baxter, Rabia Khan, Benjamin Irving(参考訳) 疾患の表現型を決定することは、病院内患者のケアや薬物開発にかなりの利益をもたらす。 電子健康記録のような高次元データセットの構造は、しばしば類似した構造のデータをグループ化するクラスタリング法を用いて、データの埋め込みを通して表現される。 サブグループがデータの中に存在することが分かっている場合、教師付き手法が発見されるクラスタに影響を与える可能性がある。 本稿では,半教師付き深層クラスタリングアルゴリズムに深層クラスタリングを拡張して,データ中の既知のラベルを通してサブグループを階層化する手法を提案する。 本研究では,4,487人の心不全とコントロール患者の電子健康記録から,データ駆動型心不全患者サブグループを決定するために,深層半教師付き組込みクラスタリングを適用した。 ヘテロジニアスデータから得られた組込み空間から臨床関連クラスタを見出した。 提案アルゴリズムは、異なる結果を持つ患者の新たな未診断サブグループを見つけることができるため、治療の改善につながる可能性がある。

Determining phenotypes of diseases can have considerable benefits for in-hospital patient care and to drug development. The structure of high dimensional data sets such as electronic health records are often represented through an embedding of the data, with clustering methods used to group data of similar structure. If subgroups are known to exist within data, supervised methods may be used to influence the clusters discovered. We propose to extend deep embedded clustering to a semi-supervised deep embedded clustering algorithm to stratify subgroups through known labels in the data. In this work we apply deep semi-supervised embedded clustering to determine data-driven patient subgroups of heart failure from the electronic health records of 4,487 heart failure and control patients. We find clinically relevant clusters from an embedded space derived from heterogeneous data. The proposed algorithm can potentially find new undiagnosed subgroups of patients that have different outcomes, and, therefore, lead to improved treatments.
翻訳日:2021-04-25 08:11:03 公開日:2021-01-17
# (参考訳) 論理テンソルネットワーク

Logic Tensor Networks ( http://arxiv.org/abs/2012.13635v3 )

ライセンス: CC BY 4.0
Samy Badreddine and Artur d'Avila Garcez and Luciano Serafini and Michael Spranger(参考訳) 人工知能エージェントは、周囲から学び、意思決定のために学習された知識について判断することが求められる。 データからの最先端の学習は、通常、サブシンボリックな分散表現を使用するが、推論は通常、知識表現に一階述語論理言語を用いることでより高度な抽象レベルで有用である。 その結果、シンボリックAIとニューラル計算をニューラルシンボリックシステムに組み合わせようとする試みが増加している。 本稿では,多値・エンドツーエンドの微分可能一階述語論理であるreal logicをディープラーニングの表現言語として導入することにより,学習と推論を支援するニューロシンボリック形式と計算モデルである logic tensor networks (ltn) を提案する。 LTNは,データクラスタリング,マルチラベル分類,リレーショナル学習,クエリ応答,半教師付き学習,回帰学習,埋め込み学習など,いくつかのAIタスクの仕様と計算のための統一言語を提供する。 TensorFlow 2.0を使用した簡単な説明例を多数用意して,上記の各タスクの実装と説明を行う。 キーワード:Neurosymbolic AI, Deep Learning and Reasoning, Many-valued Logic。

Artificial Intelligence agents are required to learn from their surroundings and to reason about the knowledge that has been learned in order to make decisions. While state-of-the-art learning from data typically uses sub-symbolic distributed representations, reasoning is normally useful at a higher level of abstraction with the use of a first-order logic language for knowledge representation. As a result, attempts at combining symbolic AI and neural computation into neural-symbolic systems have been on the increase. In this paper, we present Logic Tensor Networks (LTN), a neurosymbolic formalism and computational model that supports learning and reasoning through the introduction of a many-valued, end-to-end differentiable first-order logic called Real Logic as a representation language for deep learning. We show that LTN provides a uniform language for the specification and the computation of several AI tasks such as data clustering, multi-label classification, relational learning, query answering, semi-supervised learning, regression and embedding learning. We implement and illustrate each of the above tasks with a number of simple explanatory examples using TensorFlow 2. Keywords: Neurosymbolic AI, Deep Learning and Reasoning, Many-valued Logic.
翻訳日:2021-04-25 04:45:36 公開日:2021-01-17
# Dual-Refinement: Unsupervised Domain Adaptive Person Re-Identificationのためのジョイントラベルと特徴リファインメント

Dual-Refinement: Joint Label and Feature Refinement for Unsupervised Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2012.13689v2 )

ライセンス: Link先を確認
Yongxing Dai, Jun Liu, Yan Bai, Zekun Tong, Ling-Yu Duan(参考訳) unsupervised domain adaptive (uda) person re-id(re-id)は、対象ドメインデータのラベルが欠如しているため、困難なタスクである。 この問題に対処するため、最近の研究ではクラスタリングアルゴリズムを用いて擬似ラベルをオフラインで生成し、ターゲットドメインにおけるオンライン機能学習の監視信号として使用することができる。 しかし、オフラインで生成されたラベルには多くのノイズが含まれているため、オンライン学習された特徴の識別が著しく阻害され、最後のUDA再ID性能が制限される。 そこで本研究では,オフラインクラスタリングフェーズにおける擬似ラベルとオンライントレーニングフェーズの特徴を共同で洗練し,より信頼性の高い再識別のために,ターゲット領域におけるラベルの純度と特徴判別性を高める新しい手法であるdual-refinementを提案する。 具体的には、オフラインフェーズにおいて、粗いクラスタ毎に代表プロトタイプを選択する新しい階層的クラスタリングスキームを提案する。 これにより、人物画像の固有階層情報を用いてラベルを効果的に洗練することができる。 さらに,オンライン段階では,提案するインスタントメモリバンクを利用して,データセット全体のサンプル機能を格納し,トレーニングデータ全体のスプレッドアウト機能学習を可能にする,インスタントメモリスプレッドアウト(IM-spread-out)正規化を提案する。 我々のデュアルリファインメント法は, ノイズラベルの影響を低減し, 代替学習プロセスにおける学習特徴を洗練させる。 実験により,本手法は最先端の手法よりも高い性能を示した。

Unsupervised domain adaptive (UDA) person re-identification (re-ID) is a challenging task due to the missing of labels for the target domain data. To handle this problem, some recent works adopt clustering algorithms to off-line generate pseudo labels, which can then be used as the supervision signal for on-line feature learning in the target domain. However, the off-line generated labels often contain lots of noise that significantly hinders the discriminability of the on-line learned features, and thus limits the final UDA re-ID performance. To this end, we propose a novel approach, called Dual-Refinement, that jointly refines pseudo labels at the off-line clustering phase and features at the on-line training phase, to alternatively boost the label purity and feature discriminability in the target domain for more reliable re-ID. Specifically, at the off-line phase, a new hierarchical clustering scheme is proposed, which selects representative prototypes for every coarse cluster. Thus, labels can be effectively refined by using the inherent hierarchical information of person images. Besides, at the on-line phase, we propose an instant memory spread-out (IM-spread-out) regularization, that takes advantage of the proposed instant memory bank to store sample features of the entire dataset and enable spread-out feature learning over the entire training data instantly. Our Dual-Refinement method reduces the influence of noisy labels and refines the learned features within the alternative training process. Experiments demonstrate that our method outperforms the state-of-the-art methods by a large margin.
翻訳日:2021-04-25 01:10:55 公開日:2021-01-17
# 訴訟ライフサイクルにおける異常請求ライン項目の検出

Detecting Anomalous Invoice Line Items in the Legal Case Lifecycle ( http://arxiv.org/abs/2012.14511v2 )

ライセンス: Link先を確認
Valentino Constantinou, Mori Kabiri(参考訳) アメリカ合衆国は世界最大の法律サービスの流通業者であり、437億ドルの市場を代表している。 このうち、法人法務部門は法律事務所に800億ドルを支払っている。 法務部門は毎月、これらの法律事務所や法務機関から請求書を受け取り処理している。 法的な請求書の審査は、企業法務部門のリーダーにとって困難である。 複雑で複雑な法的な請求書には、ハンズオン法務作業からコピー、食事、旅行などの費用まで、数百行の請求書が含まれていることが多い。 請求書審査プロセスに関わる工数や精査は圧倒的に多い。 確立された請求ガイドライン、経験豊富な請求書審査者(典型的には高給の社内弁護士)、規則に基づく電子請求ツール("e-billing")など、一般的な保護措置が設けられても、多くの不一致が検出されない。 機械学習の目標は、法律事務所が企業顧客に対して提出した請求書に対する法的請求書審査プロセスの現在の欠陥を実証し、改善を検討することです。 本研究は,訴訟のライフサイクル(一連の事例レベルと請求項レベルの特徴を用いてモデル化)の適合性に基づいて,異常な請求項を検知するために,機械学習モデルアーキテクチャを適用したアプローチを詳述する。 本稿では, モデル学習に主観的専門知識(SME)と合成データ生成を組み合わせることで, ラベル付きデータがない場合に有効な手法について述べる。 モデルアーキテクチャのセットを用いて,提案手法の性能を特徴付ける。 我々は,このプロセスが異常検出問題,特に異常の特徴がよく知られている場合の解決にどのように進展するかを実証し,実世界データへのアプローチの適用から学んだ教訓を提供する。

The United States is the largest distributor of legal services in the world, representing a \$437 billion market. Of this, corporate legal departments pay law firms \$80 billion for their services. Every month, legal departments receive and process invoices from these law firms and legal service providers. Legal invoice review is and has been a pain point for corporate legal department leaders. Complex and intricate, legal invoices often contain several hundred line-items that account for anything from tasks such as hands-on legal work to expenses such as copying, meals, and travel. The man-hours and scrutiny involved in the invoice review process can be overwhelming. Even with common safeguards in place, such as established billing guidelines, experienced invoice reviewers (typically highly paid in-house attorneys), and rule based electronic billing tools ("e-billing"), many discrepancies go undetected. Using machine learning, our goal is to demonstrate the current flaws of, and to explore improvements to, the legal invoice review process for invoices submitted by law firms to their corporate clients. In this work, we detail our approach, applying several machine learning model architectures, for detecting anomalous invoice line-items based on their suitability in the legal case's lifecycle (modeled using a set of case level and invoice line-item-level features). We illustrate our approach, which works in the absence of labeled data, by utilizing a combination of subject matter expertise ("SME") and synthetic data generation for model training. We characterize our method's performance using a set of model architectures. We demonstrate how this process advances solving anomaly detection problems, specifically when the characteristics of the anomalies are well known, and offer lessons learned from applying our approach to real-world data.
翻訳日:2021-04-19 10:59:50 公開日:2021-01-17
# 強い凸最適化のためのグラディエントDescent AveragingとPrimal-Dual Averaging

Gradient Descent Averaging and Primal-dual Averaging for Strongly Convex Optimization ( http://arxiv.org/abs/2012.14558v2 )

ライセンス: Link先を確認
Wei Tao, Wei Li, Zhisong Pan, Qing Tao(参考訳) 平均化スキームは、従来の機械学習だけでなく、ディープラーニングにも大きな注目を集めている。 理論上最適収束を実現し、経験モデルの性能も向上する。 しかし、強い凸最適化のための十分な収束解析がまだ存在しない。 一般に、勾配降下法の最後の反復に関する収束は、個別収束と呼ばれるが、対数係数の存在によってその最適性を達成することができない。 この因子を取り除くために、まず、強凸設定において一般射影に基づく双対平均化アルゴリズムである勾配降下平均化(gda)を開発する。 さらに, 主観的および双対的平均化方式を併用した強凸症例(SC-PDA)に対する主観的双対平均化法を提案する。 GDAは平均収束率で最適収束率を示し、SC-PDAは最適個人収束率を導出する。 SVMとディープラーニングモデルに関するいくつかの実験は、理論解析の正しさとアルゴリズムの有効性を検証する。

Averaging scheme has attracted extensive attention in deep learning as well as traditional machine learning. It achieves theoretically optimal convergence and also improves the empirical model performance. However, there is still a lack of sufficient convergence analysis for strongly convex optimization. Typically, the convergence about the last iterate of gradient descent methods, which is referred to as individual convergence, fails to attain its optimality due to the existence of logarithmic factor. In order to remove this factor, we first develop gradient descent averaging (GDA), which is a general projection-based dual averaging algorithm in the strongly convex setting. We further present primal-dual averaging for strongly convex cases (SC-PDA), where primal and dual averaging schemes are simultaneously utilized. We prove that GDA yields the optimal convergence rate in terms of output averaging, while SC-PDA derives the optimal individual convergence. Several experiments on SVMs and deep learning models validate the correctness of theoretical analysis and effectiveness of algorithms.
翻訳日:2021-04-18 20:29:15 公開日:2021-01-17
# ブラウザアプリケーションにおけるユーザ指紋追加源としての視線とマウス信号

The Gaze and Mouse Signal as additional Source for User Fingerprints in Browser Applications ( http://arxiv.org/abs/2101.03793v2 )

ライセンス: Link先を確認
Wolfgang Fuhl and Nikolai Sanamrad and Enkelejda Kasneci(参考訳) 本研究ではブラウザ指紋の異なるデータソースを検査する。 ブラウザ統計ではどのような欠点と制限があり、他のデータソースではどのように回避できるかを示す。 人間の視覚行動は豊富な情報ソースであり、個人固有の情報も含むので、ブラウザの指紋の貴重な情報源である。 しかし、ウェブカメラによる不正確さや、ユーザーが最初にカメラへのアクセスを許可しなければならないという制限といった欠点もある。 しかし、マウスの動きとヒトの視線が相関していることも知られており、視線信号の代わりにマウスの動きを用いることができる。 本評価では,3つの情報ソースのすべての組み合わせがユーザ認識に与える影響を示し,簡単なアプローチを詳細に述べる。 データとmatlabコードは、https://atreus.infor matik.uni-tuebingen. de/seafile/d/8e2ab8c 3fdd444e1a135/?p=%2fthe%20gaze%20and% 20mouse%20signal%20a s%20additional%20... &mode=listでダウンロードできる。

In this work we inspect different data sources for browser fingerprints. We show which disadvantages and limitations browser statistics have and how this can be avoided with other data sources. Since human visual behavior is a rich source of information and also contains person specific information, it is a valuable source for browser fingerprints. However, human gaze acquisition in the browser also has disadvantages, such as inaccuracies via webcam and the restriction that the user must first allow access to the camera. However, it is also known that the mouse movements and the human gaze correlate and therefore, the mouse movements can be used instead of the gaze signal. In our evaluation we show the influence of all possible combinations of the three information sources for user recognition and describe our simple approach in detail. The data and the Matlab code can be downloaded here https://atreus.infor matik.uni-tuebingen. de/seafile/d/8e2ab8c 3fdd444e1a135/?p=%2FThe%20Gaze%20and% 20Mouse%20Signal%20a s%20additional%20Sou rce%20...&mode=list
翻訳日:2021-04-04 14:41:52 公開日:2021-01-17
# (参考訳) 視覚的質問応答におけるシーングラフの役割の理解 [全文訳有]

Understanding the Role of Scene Graphs in Visual Question Answering ( http://arxiv.org/abs/2101.05479v2 )

ライセンス: CC BY-SA 4.0
Vinay Damodaran, Sharanya Chakravarthy, Akshay Kumar, Anjana Umapathy, Teruko Mitamura, Yuta Nakashima, Noa Garcia, Chenhui Chu(参考訳) VQA(Visual Question Answering)は、視覚障害者支援や画像検索などの重要な応用が研究コミュニティにとって大きな関心事である。 本稿では,VQAタスクの解決にシーングラフを用いる方法について検討する。 我々はGQAデータセットの実験を行い、数え上げ、構成性、高度な推論能力を必要とする問題集合を示し、多数の画像に対してシーングラフを提供する。 我々は,シーングラフに使用する画像+質問アーキテクチャを採用し,未認識画像の様々なシーングラフ生成手法を評価し,人間の注釈と自動生成シーングラフを活用するためのトレーニングカリキュラムを提案し,複数の画像表現から学習するためのレイトフュージョンアーキテクチャを構築する。 本稿では,VQAにおけるシーングラフの利用に関する多面的研究について述べる。

Visual Question Answering (VQA) is of tremendous interest to the research community with important applications such as aiding visually impaired users and image-based search. In this work, we explore the use of scene graphs for solving the VQA task. We conduct experiments on the GQA dataset which presents a challenging set of questions requiring counting, compositionality and advanced reasoning capability, and provides scene graphs for a large number of images. We adopt image + question architectures for use with scene graphs, evaluate various scene graph generation techniques for unseen images, propose a training curriculum to leverage human-annotated and auto-generated scene graphs, and build late fusion architectures to learn from multiple image representations. We present a multi-faceted study into the use of scene graphs for VQA, making this work the first of its kind.
翻訳日:2021-03-29 08:32:44 公開日:2021-01-17
# 双曲平面における加速のノーゴー理論

No-go Theorem for Acceleration in the Hyperbolic Plane ( http://arxiv.org/abs/2101.05657v2 )

ライセンス: Link先を確認
Linus Hamilton, Ankur Moitra(参考訳) 近年、凸最適化の鍵となるツールやアイデアをリーマン集合に適応させる努力が盛んに行われている。 リーマン多様体上の測地的凸函数に対するネステロフ様加速勾配法は存在するか? 最近の研究は部分的な回答を与えており、これが可能となることを期待している。 ここでは、これらの希望を掘り下げる。 ノイズの多い環境では、双曲平面上の測地凸関数に対する加速度勾配降下の類似性がないことが証明される。 ノイズが指数関数的に小さい場合でも結果が当てはまる。 負の湾曲した空間では、ボールの体積は非常に速く成長し、過去の勾配に関する情報は将来的には役に立たない。

In recent years there has been significant effort to adapt the key tools and ideas in convex optimization to the Riemannian setting. One key challenge has remained: Is there a Nesterov-like accelerated gradient method for geodesically convex functions on a Riemannian manifold? Recent work has given partial answers and the hope was that this ought to be possible. Here we dash these hopes. We prove that in a noisy setting, there is no analogue of accelerated gradient descent for geodesically convex functions on the hyperbolic plane. Our results apply even when the noise is exponentially small. The key intuition behind our proof is short and simple: In negatively curved spaces, the volume of a ball grows so fast that information about the past gradients is not useful in the future.
翻訳日:2021-03-29 00:54:27 公開日:2021-01-17
# 連続機械学習システムにおける隠れフィードバックループの解析

Analysis of hidden feedback loops in continuous machine learning systems ( http://arxiv.org/abs/2101.05673v2 )

ライセンス: Link先を確認
Anton Khritankov(参考訳) 本稿では,持続的・生涯学習型人工知能システムの品質の特定と検証の難しさを論じ,概念の漂流を引き起こす環境に影響を及ぼす。 暗黙的なフィードバックループの問題を示し,例えば住宅価格予測システムにおいて,ユーザの行動にどのように介入するかを示す。 予備モデルに基づいて,このようなフィードバックループが発生する条件を強調し,可能な解法について論じる。

In this concept paper, we discuss intricacies of specifying and verifying the quality of continuous and lifelong learning artificial intelligence systems as they interact with and influence their environment causing a so-called concept drift. We signify a problem of implicit feedback loops, demonstrate how they intervene with user behavior on an exemplary housing prices prediction system. Based on a preliminary model, we highlight conditions when such feedback loops arise and discuss possible solution approaches.
翻訳日:2021-03-29 00:45:43 公開日:2021-01-17
# (参考訳) TrafficSim: リアルなマルチエージェント動作をシミュレートする学習 [全文訳有]

TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors ( http://arxiv.org/abs/2101.06557v1 )

ライセンス: CC BY 4.0
Simon Suo, Sebastian Regalado, Sergio Casas, Raquel Urtasun(参考訳) シミュレーションは、迅速な開発と安全な展開を可能にする自動運転システムの大規模評価の可能性を秘めている。 シミュレーションと現実世界のギャップを埋めるためには、現実的なマルチエージェントの振る舞いをシミュレートする必要がある。 既存のシミュレーション環境は、トラフィックルールを直接エンコードするヒューリスティックなモデルに依存しており、不規則な操作(例えば、ヌーディング、uターン)や複雑な相互作用(例えば、降伏、マージ)をキャプチャできない。 対照的に、実世界のデータを活用して、人間のデモから直接学び、より多様なアクターの振る舞いを捉えます。 そこで本研究では,トラヒックシミュレーションのためのマルチエージェント行動モデルtrafficsimを提案する。 特に,暗黙の潜在変数モデルを利用して,シーン内のすべてのアクターに対して,社会的に一貫性のある計画を生成する共同アクターポリシーをパラメータ化する。 ロングホライズンシミュレーションのための強固なポリシーを学習するために、トレーニングにおけるポリシーを展開し、完全に微分可能なシミュレーションを通じて最適化します。 我々の学習目的は、人間の実演と常識の両方を取り入れている。 trafficsimは、さまざまなベースラインと比べて、はるかにリアルで多様なトラフィックシナリオを生成する。 特に、trafficsimによって生成された軌道を、より良いモーションプランナーをトレーニングするための効果的なデータ拡張として活用できる。

Simulation has the potential to massively scale evaluation of self-driving systems enabling rapid development as well as safe deployment. To close the gap between simulation and the real world, we need to simulate realistic multi-agent behaviors. Existing simulation environments rely on heuristic-based models that directly encode traffic rules, which cannot capture irregular maneuvers (e.g., nudging, U-turns) and complex interactions (e.g., yielding, merging). In contrast, we leverage real-world data to learn directly from human demonstration and thus capture a more diverse set of actor behaviors. To this end, we propose TrafficSim, a multi-agent behavior model for realistic traffic simulation. In particular, we leverage an implicit latent variable model to parameterize a joint actor policy that generates socially-consistent plans for all actors in the scene jointly. To learn a robust policy amenable for long horizon simulation, we unroll the policy in training and optimize through the fully differentiable simulation across time. Our learning objective incorporates both human demonstrations as well as common sense. We show TrafficSim generates significantly more realistic and diverse traffic scenarios as compared to a diverse set of baselines. Notably, we can exploit trajectories generated by TrafficSim as effective data augmentation for training better motion planner.
翻訳日:2021-03-28 03:43:19 公開日:2021-01-17
# (参考訳) マルチエージェント通信における敵攻撃 [全文訳有]

Adversarial Attacks On Multi-Agent Communication ( http://arxiv.org/abs/2101.06560v1 )

ライセンス: CC BY 4.0
James Tu, Tsunhsuan Wang, Jingkang Wang, Sivabalan Manivasagam, Mengye Ren, Raquel Urtasun(参考訳) 非常に速いペースで成長する現代の自律システムは、すぐに大規模に展開され、協調型マルチエージェントシステムの可能性を広げる。 情報を共有し、ワークロードを分散することにより、自律エージェントはより優れたタスクを実行し、計算効率を向上できる。 しかし、このようなアドバンテージは、セキュリティ侵害に弱いことを示す通信チャネルに大きく依存している。 このように、現代のシステムで広く使われているディープラーニングモデルに対する敵対的攻撃を実行するために、コミュニケーションを損なうことができる。 本稿では,エージェントが学習した中間表現を共有してコミュニケーションする新しいマルチエージェント環境において,このような攻撃を探索する。 識別不能な敵対的メッセージは、性能を著しく低下させるが、良性エージェントの数が増加するにつれて弱くなる。 さらに、通信メッセージの配信とドメイン適応を整合させる必要があるため、入力を直接摂動させるよりも、この設定では転送攻撃がより困難であることを示す。 最後に,ストリーミングセンサ入力の時間的一貫性を利用して,低予算のオンライン攻撃を実現できることを示す。

Growing at a very fast pace, modern autonomous systems will soon be deployed at scale, opening up the possibility for cooperative multi-agent systems. By sharing information and distributing workloads, autonomous agents can better perform their tasks and enjoy improved computation efficiency. However, such advantages rely heavily on communication channels which have been shown to be vulnerable to security breaches. Thus, communication can be compromised to execute adversarial attacks on deep learning models which are widely employed in modern systems. In this paper, we explore such adversarial attacks in a novel multi-agent setting where agents communicate by sharing learned intermediate representations. We observe that an indistinguishable adversarial message can severely degrade performance, but becomes weaker as the number of benign agents increase. Furthermore, we show that transfer attacks are more difficult in this setting when compared to directly perturbing the inputs, as it is necessary to align the distribution of communication messages with domain adaptation. Finally, we show that low-budget online attacks can be achieved by exploiting the temporal consistency of streaming sensory inputs.
翻訳日:2021-03-28 03:11:51 公開日:2021-01-17
# (参考訳) 交通状態推定のための物理インフォームド深層学習 [全文訳有]

Physics-Informed Deep Learning for Traffic State Estimation ( http://arxiv.org/abs/2101.06580v1 )

ライセンス: CC BY 4.0
Rongye Shi, Zhaobin Mo, Kuang Huang, Xuan Di, Qiang Du(参考訳) 道路セグメント上の交通変数(例えば密度)を部分的に観測したデータを用いて再構成する交通状態推定(TSE)は、インテリジェント交通システム(ITS)が人々に提供するべき効率的な交通制御と運用において重要な役割を果たす。 何十年もの間、TSEはモデル駆動アプローチとデータ駆動アプローチの2つの主要なカテゴリに分岐してきた。 前者はLighthill-Whitham-Ri chards (LWR) モデルのような既存の物理トラフィックフローモデルに強く依存しており、これは現実世界のトラフィックの限られたダイナミクスを捉えるだけで、低品質な推定が可能であり、後者は正確で一般化可能な推定を行うために大量のデータを必要とする。 そこで本研究では,物理インフォームド・ディープ・ラーニング(PIDL)フレームワークを導入し,少ないデータ量で高品質なTSEを実現する。 pidlにはモデル駆動コンポーネントとデータ駆動コンポーネントの両方が含まれており、両方のアプローチの強みを統合でき、両方の欠点を克服できる。 本稿では,交通密度を交通変数として用いて,ループ検出器からの観測データを用いた高速道路TSEに焦点を当てた。 本稿では,グリーンシールド型LWRと3パラメータ型LWRの2つの物理トラフィックフローモデル,すなわちグリーンシールド型LWRと3パラメータ型LWRの解法とモデルパラメータの探索について述べる。 次に、次世代シミュレーション(NGSIM)データセットを用いてPIDLベースのハイウェイTSEを評価する。 実験結果から, 先進ベースラインTSE法よりも推定精度とデータ効率の点でPIDLに基づくアプローチの利点が示された。

Traffic state estimation (TSE), which reconstructs the traffic variables (e.g., density) on road segments using partially observed data, plays an important role on efficient traffic control and operation that intelligent transportation systems (ITS) need to provide to people. Over decades, TSE approaches bifurcate into two main categories, model-driven approaches and data-driven approaches. However, each of them has limitations: the former highly relies on existing physical traffic flow models, such as Lighthill-Whitham-Ri chards (LWR) models, which may only capture limited dynamics of real-world traffic, resulting in low-quality estimation, while the latter requires massive data in order to perform accurate and generalizable estimation. To mitigate the limitations, this paper introduces a physics-informed deep learning (PIDL) framework to efficiently conduct high-quality TSE with small amounts of observed data. PIDL contains both model-driven and data-driven components, making possible the integration of the strong points of both approaches while overcoming the shortcomings of either. This paper focuses on highway TSE with observed data from loop detectors, using traffic density as the traffic variables. We demonstrate the use of PIDL to solve (with data from loop detectors) two popular physical traffic flow models, i.e., Greenshields-based LWR and three-parameter-base d LWR, and discover the model parameters. We then evaluate the PIDL-based highway TSE using the Next Generation SIMulation (NGSIM) dataset. The experimental results show the advantages of the PIDL-based approach in terms of estimation accuracy and data efficiency over advanced baseline TSE methods.
翻訳日:2021-03-28 02:39:13 公開日:2021-01-17
# (参考訳) MultiBodySync:3次元スキャン同期によるマルチボディセグメンテーションと動作推定 [全文訳有]

MultiBodySync: Multi-Body Segmentation and Motion Estimation via 3D Scan Synchronization ( http://arxiv.org/abs/2101.06605v1 )

ライセンス: CC BY 4.0
Jiahui Huang, He Wang, Tolga Birdal, Minhyuk Sung, Federica Arrigoni, Shi-Min Hu, Leonidas Guibas(参考訳) マルチボディーシンク(MultiBodySync)は、複数入力3Dポイントクラウドのための、エンドツーエンドのトレーニング可能な多体動作セグメンテーションおよび剛性登録フレームワークである。 このマルチスキャン・マルチボディ・セグメンテーションによって引き起こされる2つの非自明な課題は、 (i) 身体や身体の異なる空間配置を捉える複数の入力点雲間の対応とセグメンテーションの整合性を保証すること、 (ii) 新規な対象カテゴリーに適用可能な頑健な動きに基づく剛体セグメンテーションを得ることである。 本稿では、スペクトル同期を反復的深部宣言ネットワークに組み込んだこれらの問題に対処し、一貫した対応と動きのセグメンテーションを同時に再現する手法を提案する。 同時に、対応と動きのセグメンテーション推定モジュールを明示的に切り離すことで、異なる対象カテゴリ間で強い一般化性が得られる。 本手法は, 物体の剛性部分から, 単視点や全点雲などの3次元シーンで個別に移動する物体まで, 様々なデータセットに対して有効であることを示す。

We present MultiBodySync, a novel, end-to-end trainable multi-body motion segmentation and rigid registration framework for multiple input 3D point clouds. The two non-trivial challenges posed by this multi-scan multibody setting that we investigate are: (i) guaranteeing correspondence and segmentation consistency across multiple input point clouds capturing different spatial arrangements of bodies or body parts; and (ii) obtaining robust motion-based rigid body segmentation applicable to novel object categories. We propose an approach to address these issues that incorporates spectral synchronization into an iterative deep declarative network, so as to simultaneously recover consistent correspondences as well as motion segmentation. At the same time, by explicitly disentangling the correspondence and motion segmentation estimation modules, we achieve strong generalizability across different object categories. Our extensive evaluations demonstrate that our method is effective on various datasets ranging from rigid parts in articulated objects to individually moving objects in a 3D scene, be it single-view or full point clouds.
翻訳日:2021-03-28 02:02:41 公開日:2021-01-17
# (参考訳) Network Automatic Pruning: NAPを開始してNapを取る [全文訳有]

Network Automatic Pruning: Start NAP and Take a Nap ( http://arxiv.org/abs/2101.06608v1 )

ライセンス: CC BY 4.0
Wenyuan Zeng, Yuwen Xiong, Raquel Urtasun(参考訳) ネットワークプルーニングは、大規模ニューラルネットワークの計算量とメモリフットプリントを大幅に削減することができる。 モデルサイズと性能の良好なトレードオフを達成するために、一般的なプルーニング技術は手作りのヒューリスティックに依存し、各層に圧縮比を手動で設定する必要がある。 このプロセスは一般的に時間がかかり、優れた結果を得るためには専門家の知識が必要です。 本稿では,粒度および構造化プルーニングのための統一かつ自動プルーニングフレームワークであるNAPを提案する。 ネットワークの重要でないコンポーネントを見つけ出し、理論的に音質基準に基づいて、異なるレイヤに対する適切な圧縮比を自動的に決定する。 この目標に向けて、NAPはKronecker-factored Approximate Curvature法に基づいて、Hessianの効率的な近似を用いてコンポーネントの重要性を評価する。 使いやすさにもかかわらず、NAPは以前のプルーニング法よりも大きなマージンで優れている。 きめ細かいプルーニングのために、NAPはAlexNetとVGG16を25倍圧縮し、ResNet-50を6.7倍圧縮できる。 構造的な刈り取り(例えば vgg16のフロップを5.4倍、resnet-50を2.3倍、精度を1%低下させる。 さらに重要なことに、この方法はハイパーパラメータチューニングがほとんどなく、専門家の知識も必要ありません。 NAPを始めれば、昼寝もできます!

Network pruning can significantly reduce the computation and memory footprint of large neural networks. To achieve a good trade-off between model size and performance, popular pruning techniques usually rely on hand-crafted heuristics and require manually setting the compression ratio for each layer. This process is typically time-consuming and requires expert knowledge to achieve good results. In this paper, we propose NAP, a unified and automatic pruning framework for both fine-grained and structured pruning. It can find out unimportant components of a network and automatically decide appropriate compression ratios for different layers, based on a theoretically sound criterion. Towards this goal, NAP uses an efficient approximation of the Hessian for evaluating the importances of components, based on a Kronecker-factored Approximate Curvature method. Despite its simpleness to use, NAP outperforms previous pruning methods by large margins. For fine-grained pruning, NAP can compress AlexNet and VGG16 by 25x, and ResNet-50 by 6.7x without loss in accuracy on ImageNet. For structured pruning (e.g. channel pruning), it can reduce flops of VGG16 by 5.4x and ResNet-50 by 2.3x with only 1% accuracy drop. More importantly, this method is almost free from hyper-parameter tuning and requires no expert knowledge. You can start NAP and then take a nap!
翻訳日:2021-03-28 01:37:51 公開日:2021-01-17
# (参考訳) ニューラルMCTSを用いたQSAT問題の解法 [全文訳有]

Solving QSAT problems with neural MCTS ( http://arxiv.org/abs/2101.06619v1 )

ライセンス: CC BY 4.0
Ruiyang Xu, Karl Lieberherr(参考訳) セルフプレイによるAlphaZeroの最近の業績は、いくつかのボードゲームで顕著なパフォーマンスを示している。 知識ゼロから始まったセルフプレイは、トレーニングの後に特定の2人プレイの勝利戦略を徐々に近似することができると考えることができる。 本稿では、AlphaZeroのコアアルゴリズムであるニューラルモンテカルロ木探索(Neural MCTS)の計算能力を活用し、PSPACEを完備する量子ブール式満足度(Quantified Boolean Formula Satisfaction, QSAT)問題を解決する。 すべての QSAT 問題が QSAT ゲームと等価であることを知ると、ゲームの結果は元の QSAT 問題の解を導出するために用いられる。 本稿では,量子ブール式(QBF)をグラフとして符号化し,グラフニューラルネットワーク(GNN)を用いてQBFをニューラルネットワークに埋め込む方法を提案する。 トレーニング後、アルゴリズムの性能を評価するために、既製のQSATソルバが使用される。 この結果から,限られたサイズの問題に対して,アルゴリズムは自己プレイからのみ,正しい解法を学習することがわかった。

Recent achievements from AlphaZero using self-play has shown remarkable performance on several board games. It is plausible to think that self-play, starting from zero knowledge, can gradually approximate a winning strategy for certain two-player games after an amount of training. In this paper, we try to leverage the computational power of neural Monte Carlo Tree Search (neural MCTS), the core algorithm from AlphaZero, to solve Quantified Boolean Formula Satisfaction (QSAT) problems, which are PSPACE complete. Knowing that every QSAT problem is equivalent to a QSAT game, the game outcome can be used to derive the solutions of the original QSAT problems. We propose a way to encode Quantified Boolean Formulas (QBFs) as graphs and apply a graph neural network (GNN) to embed the QBFs into the neural MCTS. After training, an off-the-shelf QSAT solver is used to evaluate the performance of the algorithm. Our result shows that, for problems within a limited size, the algorithm learns to solve the problem correctly merely from self-play.
翻訳日:2021-03-28 01:20:35 公開日:2021-01-17
# (参考訳) きめ細かい視覚分類のためのコンテキスト認識注意プール(CAP) [全文訳有]

Context-aware Attentional Pooling (CAP) for Fine-grained Visual Classification ( http://arxiv.org/abs/2101.06635v1 )

ライセンス: CC BY 4.0
Ardhendu Behera, Zachary Wharton, Pradeep Hewage, Asish Bera(参考訳) 深層畳み込みニューラルネットワーク(CNN)は、識別対象のポーズと画像認識のための部分情報のマイニングにおいて強力な能力を示している。 きめ細かな認識では、コンテキスト認識によるオブジェクト/シーンのリッチな特徴表現は、同じサブカテゴリにおいて大きなばらつきと異なるサブカテゴリ間の微妙なばらつきを示すため、重要な役割を果たす。 オブジェクト/シーンを完全に特徴付ける微妙な分散を見つけるのは簡単ではありません。 そこで本研究では,サブピクセル勾配による微妙な変化を効果的に捉えた新しいコンテキスト認識型注意プーリング(cap)を提案する。 また,その意味的相関を捉えるために,積分領域の情報性とその空間構造間の本質的な整合性を考慮した新しい特徴符号化を導入する。 我々のアプローチは単純だが極めて効果的であり、標準的な分類バックボーンネットワーク上で容易に適用できる。 我々は6つの最先端(SotA)バックボーンネットワークと8つのベンチマークデータセットを用いてアプローチを評価する。 提案手法はSotAアプローチを6つのデータセットで大幅に上回り,残りの2つと非常に競合する。

Deep convolutional neural networks (CNNs) have shown a strong ability in mining discriminative object pose and parts information for image recognition. For fine-grained recognition, context-aware rich feature representation of object/scene plays a key role since it exhibits a significant variance in the same subcategory and subtle variance among different subcategories. Finding the subtle variance that fully characterizes the object/scene is not straightforward. To address this, we propose a novel context-aware attentional pooling (CAP) that effectively captures subtle changes via sub-pixel gradients, and learns to attend informative integral regions and their importance in discriminating different subcategories without requiring the bounding-box and/or distinguishable part annotations. We also introduce a novel feature encoding by considering the intrinsic consistency between the informativeness of the integral regions and their spatial structures to capture the semantic correlation among them. Our approach is simple yet extremely effective and can be easily applied on top of a standard classification backbone network. We evaluate our approach using six state-of-the-art (SotA) backbone networks and eight benchmark datasets. Our method significantly outperforms the SotA approaches on six datasets and is very competitive with the remaining two.
翻訳日:2021-03-28 01:07:24 公開日:2021-01-17
# (参考訳) LaneRCNN: グラフ中心モーション予測のための分散表現 [全文訳有]

LaneRCNN: Distributed Representations for Graph-Centric Motion Forecasting ( http://arxiv.org/abs/2101.06653v1 )

ライセンス: CC BY 4.0
Wenyuan Zeng, Ming Liang, Renjie Liao, Raquel Urtasun(参考訳) ダイナミックアクタの将来的な振る舞いを予測することは、自動運転のような多くのロボットアプリケーションにおいて重要なタスクである。 俳優は遅滞した意図を持ち、その軌道は他の俳優たちと自分自身と地図の間の複雑な相互作用によって支配されるため、非常に難しい。 本稿では,グラフ中心の動き予測モデルであるLaneRCNNを提案する。 重要なことは、特別に設計されたグラフエンコーダに頼って、アクターごとの局所レーングラフ表現(LaneRoI)を学び、過去の動きと局所地図トポロジを符号化することである。 さらに,共有グローバルレーングラフ内の局所グラフ表現間の効率的なメッセージパッシングを可能にするインタラクションモジュールを開発した。 さらに、車線グラフに基づく出力トラジェクタのパラメータ化を行い、より快適な予測パラメータ化を行う。 lanercnnは、アクター対アクタとアクタ対マップの関係を、分散およびマップ認識の方法でキャプチャします。 大規模Argoverse Motion Forecasting Benchmarkにおける提案手法の有効性を示す。 私たちはリーダーボードで1位を獲得し、以前の最高の結果を大きく上回っています。

Forecasting the future behaviors of dynamic actors is an important task in many robotics applications such as self-driving. It is extremely challenging as actors have latent intentions and their trajectories are governed by complex interactions between the other actors, themselves, and the maps. In this paper, we propose LaneRCNN, a graph-centric motion forecasting model. Importantly, relying on a specially designed graph encoder, we learn a local lane graph representation per actor (LaneRoI) to encode its past motions and the local map topology. We further develop an interaction module which permits efficient message passing among local graph representations within a shared global lane graph. Moreover, we parameterize the output trajectories based on lane graphs, a more amenable prediction parameterization. Our LaneRCNN captures the actor-to-actor and the actor-to-map relations in a distributed and map-aware manner. We demonstrate the effectiveness of our approach on the large-scale Argoverse Motion Forecasting Benchmark. We achieve the 1st place on the leaderboard and significantly outperform previous best results.
翻訳日:2021-03-28 00:41:48 公開日:2021-01-17
# (参考訳) 効率的な単一画像超解像のための三レベルニューラルネットワーク探索 [全文訳有]

Trilevel Neural Architecture Search for Efficient Single Image Super-Resolution ( http://arxiv.org/abs/2101.06658v1 )

ライセンス: CC BY 4.0
Yan Wu, Zhiwu Huang, Suryansh Kumar, Rhea Sanjay Sukthanker, Radu Timofte, Luc Van Gool(参考訳) 本稿では,効率的な単一画像超解像(SR)のための3レベルニューラルネットワーク探索法を提案する。 そこで,我々はまず,ネットワークレベル,セルレベル,カーネルレベル(畳み込みカーネル)の3レベルにおいて離散探索空間を定義する。 離散探索空間をモデル化するために、離散探索空間に新たな連続緩和を適用し、ネットワークパス、セル操作、カーネル幅の階層的な混合を構築する。 後に,統合畳み込みカーネル幅プルーニング,セル構造探索,ネットワークパス最適化により,グローバルに最適化された圧縮ネットワークを提供する階層型スーパーネット方式による効率的な探索アルゴリズムを提案する。 現在のnas法とは異なり、sparsestmaxアクティベーションによって3段階の神経構造がスパースに寄与する。 したがって、NAS最適化は、これらの神経構造に徐々に収束し、スーパーネットに支配的な貢献をする。 さらに,提案手法では,単一のフェーズで同時探索とトレーニングが可能であり,従来のnasアルゴリズムに比べて検索とトレーニングの時間を劇的に短縮する。 標準ベンチマークデータセットの実験では、我々のNASアルゴリズムはパラメータの数に関して大幅に軽量なSRモデルを提供し、PSNR値のFLOPSは現在の最先端に匹敵することを示している。

This paper proposes a trilevel neural architecture search (NAS) method for efficient single image super-resolution (SR). For that, we first define the discrete search space at three-level, i.e., at network-level, cell-level, and kernel-level (convolution-kernel) . For modeling the discrete search space, we apply a new continuous relaxation on the discrete search spaces to build a hierarchical mixture of network-path, cell-operations, and kernel-width. Later an efficient search algorithm is proposed to perform optimization in a hierarchical supernet manner that provides a globally optimized and compressed network via joint convolution kernel width pruning, cell structure search, and network path optimization. Unlike current NAS methods, we exploit a sorted sparsestmax activation to let the three-level neural structures contribute sparsely. Consequently, our NAS optimization progressively converges to those neural structures with dominant contributions to the supernet. Additionally, our proposed optimization construction enables a simultaneous search and training in a single phase, which dramatically reduces search and train time compared to the traditional NAS algorithms. Experiments on the standard benchmark datasets demonstrate that our NAS algorithm provides SR models that are significantly lighter in terms of the number of parameters and FLOPS with PSNR value comparable to the current state-of-the-art.
翻訳日:2021-03-28 00:23:03 公開日:2021-01-17
# (参考訳) エンドツーエンドの解釈可能なニューラルモーションプランナ [全文訳有]

End-to-end Interpretable Neural Motion Planner ( http://arxiv.org/abs/2101.06679v1 )

ライセンス: CC BY 4.0
Wenyuan Zeng, Wenjie Luo, Simon Suo, Abbas Sadat, Bin Yang, Sergio Casas, Raquel Urtasun(参考訳) 本稿では,交通信号処理,収量処理,複数の道路利用者との対話を含む複雑な都市シナリオにおいて,自律的に走行する学習のためのニューラルモーションプランナーを提案する。 この目的に向けて、入力された生のLIDARデータとHDマップを考慮し、3次元検出と将来の軌跡の形で解釈可能な中間表現を生成する包括的モデルと、自動運転車が計画地平線内で得る各位置の良さを定義するコストボリュームを設計する。 次に、様々な物理的に可能な軌道の集合をサンプリングし、最小の学習コストで選択する。 重要なのは、コストボリュームが自然にマルチモダリティをキャプチャできることです。 北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。 実験の結果,学習したコストは,すべてのベースラインよりも安全な計画を立てることができることがわかった。

In this paper, we propose a neural motion planner (NMP) for learning to drive autonomously in complex urban scenarios that include traffic-light handling, yielding, and interactions with multiple road-users. Towards this goal, we design a holistic model that takes as input raw LIDAR data and a HD map and produces interpretable intermediate representations in the form of 3D detections and their future trajectories, as well as a cost volume defining the goodness of each position that the self-driving car can take within the planning horizon. We then sample a set of diverse physically possible trajectories and choose the one with the minimum learned cost. Importantly, our cost volume is able to naturally capture multi-modality. We demonstrate the effectiveness of our approach in real-world driving data captured in several cities in North America. Our experiments show that the learned cost volume can generate safer planning than all the baselines.
翻訳日:2021-03-27 23:43:47 公開日:2021-01-17
# (参考訳) 制限ボルツマンマシンにおけるエネルギーベースのドロップアウト:なぜランダムにしないのか [全文訳有]

Energy-based Dropout in Restricted Boltzmann Machines: Why not go random ( http://arxiv.org/abs/2101.06741v1 )

ライセンス: CC BY 4.0
Mateus Roder, Gustavo H. de Rosa, Victor Hugo C. de Albuquerque, Andr\'e L. D. Rossi, Jo\~ao P. Papa(参考訳) ディープラーニングアーキテクチャは、オブジェクト認識や画像再構成、信号処理など、幅広いアプリケーションで使用されている。 それでも、そのようなモデルはオーバーフィッティングとして知られる共通の問題に悩まされ、ネットワークが目に見えないデータを効果的に予測することを妨げる。 正規化のアプローチは、このような欠点に対処するために現れる。 中でも有名なのがドロップアウト(dropout)で、ある確率に応じて一連のニューロンとその接続をランダムにシャットダウンすることでこの問題に対処している。 したがって、このアプローチは、どのユニットを切断すべきかを決定するための追加の知識を考慮しない。 本稿では,ニューロンを落とすべきか否かを意識的に判断するエネルギーベースのDropout(E-Dropout)を提案する。 具体的には、制限ボルツマン機械(rbms)のようなエネルギーベースのモデルにさらに適用するための重要レベルとして、ニューロンとモデルエネルギーを関連付けることで、この正規化法を設計する。 複数のベンチマークデータセットに対する実験結果から,従来のDropoutや標準RBMと比較して,提案手法の適合性が確認された。

Deep learning architectures have been widely fostered throughout the last years, being used in a wide range of applications, such as object recognition, image reconstruction, and signal processing. Nevertheless, such models suffer from a common problem known as overfitting, which limits the network from predicting unseen data effectively. Regularization approaches arise in an attempt to address such a shortcoming. Among them, one can refer to the well-known Dropout, which tackles the problem by randomly shutting down a set of neurons and their connections according to a certain probability. Therefore, this approach does not consider any additional knowledge to decide which units should be disconnected. In this paper, we propose an energy-based Dropout (E-Dropout) that makes conscious decisions whether a neuron should be dropped or not. Specifically, we design this regularization method by correlating neurons and the model's energy as an importance level for further applying it to energy-based models, such as Restricted Boltzmann Machines (RBMs). The experimental results over several benchmark datasets revealed the proposed approach's suitability compared to the traditional Dropout and the standard RBMs.
翻訳日:2021-03-27 23:31:04 公開日:2021-01-17
# (参考訳) 深部パラメトリック連続畳み込みニューラルネットワーク [全文訳有]

Deep Parametric Continuous Convolutional Neural Networks ( http://arxiv.org/abs/2101.06742v1 )

ライセンス: CC BY 4.0
Shenlong Wang, Simon Suo, Wei-Chiu Ma, Andrei Pokrovsky, Raquel Urtasun(参考訳) 標準畳み込みニューラルネットワークは、グリッド構造化入力が利用可能であると仮定し、離散畳み込みを基本構成要素として利用する。 これにより、多くの現実世界のアプリケーションに適用性が制限される。 本稿では,非グリッド構造データ上で動作する新しい学習可能な演算子であるParametric Continuous Convolutionを提案する。 鍵となるアイデアは、完全な連続ベクトル空間にまたがるパラメータ化されたカーネル関数を活用することである。 この一般化により、サポート関係が計算可能である限り、任意のデータ構造について学習することができる。 実験では,室内および屋外のポイントクラウドセグメンテーションの最先端化や,運転シーンのライダーモーション推定よりも大幅に改善した。

Standard convolutional neural networks assume a grid structured input is available and exploit discrete convolutions as their fundamental building blocks. This limits their applicability to many real-world applications. In this paper we propose Parametric Continuous Convolution, a new learnable operator that operates over non-grid structured data. The key idea is to exploit parameterized kernel functions that span the full continuous vector space. This generalization allows us to learn over arbitrary data structures as long as their support relationship is computable. Our experiments show significant improvement over the state-of-the-art in point cloud segmentation of indoor and outdoor scenes, and lidar motion estimation of driving scenes.
翻訳日:2021-03-27 23:15:53 公開日:2021-01-17
# (参考訳) Deep Belief Networks を用いた腸管寄生虫の分類 [全文訳有]

Intestinal Parasites Classification Using Deep Belief Networks ( http://arxiv.org/abs/2101.06747v1 )

ライセンス: CC BY 4.0
Mateus Roder, Leandro A. Passos, Luiz Carlos Felix Ribeiro, Barbara Caroline Benato, Alexandre Xavier Falc\~ao, Jo\~ao Paulo Papa(参考訳) 現在、世界中で約4億ドルの人々が腸内寄生虫に感染している。 このような感染によって引き起こされる病気は、ほとんどの熱帯諸国で公衆衛生上の問題となり、身体的・精神的な障害を引き起こし、子供や免疫不全の人にも死に至る。 高い誤差率を受けるが、人間の視覚検査は依然として臨床診断の大半を担当している。 過去数年間では、知的コンピュータ支援の腸内寄生虫の分類に対処する研究もあるが、通常、寄生虫と糞便の不純物との類似性により、誤分類に悩まされる。 本稿では,腸内寄生虫の自動分類の文脈において,深い信念ネットワークを導入する。 卵、幼虫、原生動物からなる3つのデータセットで行われた実験は、不均衡なクラスと糞便不純物を考慮しても、有望な結果をもたらした。

Currently, approximately $4$ billion people are infected by intestinal parasites worldwide. Diseases caused by such infections constitute a public health problem in most tropical countries, leading to physical and mental disorders, and even death to children and immunodeficient individuals. Although subjected to high error rates, human visual inspection is still in charge of the vast majority of clinical diagnoses. In the past years, some works addressed intelligent computer-aided intestinal parasites classification, but they usually suffer from misclassification due to similarities between parasites and fecal impurities. In this paper, we introduce Deep Belief Networks to the context of automatic intestinal parasites classification. Experiments conducted over three datasets composed of eggs, larvae, and protozoa provided promising results, even considering unbalanced classes and also fecal impurities.
翻訳日:2021-03-27 23:03:45 公開日:2021-01-17
# (参考訳) 深層信念ネットワークにおける学習改善のための階層型情報強化手法 [全文訳有]

A Layer-Wise Information Reinforcement Approach to Improve Learning in Deep Belief Networks ( http://arxiv.org/abs/2101.06749v1 )

ライセンス: CC BY 4.0
Mateus Roder, Leandro A. Passos, Luiz Carlos Felix Ribeiro, Clayton Pereira, Jo\~ao Paulo Papa(参考訳) ディープラーニングの出現に伴い、新しい方法の提案や既存のものの改善がここ数年で指数関数的に増加している。 このシナリオでは、「非常に深い」モデルが登場し、より良いパフォーマンスをサポートしながら、より本質的で抽象的な特徴を引き出すと期待された。 しかし、そのようなモデルは勾配の消失に悩まされ、すなわち、バックプロパゲーションの値は浅い層ではゼロに近すぎるため、学習は停滞する。 このような問題は、階層間の「ショートカット接続」を作成することで、畳み込みニューラルネットワークの文脈で克服された。 それでも、deep belief networkと呼ばれる非常に人気のあるディープラーニング技術は、差別的なタスクを扱う場合の勾配の消失に苦しんでいる。 そこで本稿では,情報強化層を層単位で検討し,特徴抽出と知識保持を改善し,識別性能の向上を支援するResidual Deep Belief Networkを提案する。 3つの公開データセットで実施した実験は、バイナリイメージ分類のタスクに関する堅牢性を示している。

With the advent of deep learning, the number of works proposing new methods or improving existent ones has grown exponentially in the last years. In this scenario, "very deep" models were emerging, once they were expected to extract more intrinsic and abstract features while supporting a better performance. However, such models suffer from the gradient vanishing problem, i.e., backpropagation values become too close to zero in their shallower layers, ultimately causing learning to stagnate. Such an issue was overcome in the context of convolution neural networks by creating "shortcut connections" between layers, in a so-called deep residual learning framework. Nonetheless, a very popular deep learning technique called Deep Belief Network still suffers from gradient vanishing when dealing with discriminative tasks. Therefore, this paper proposes the Residual Deep Belief Network, which considers the information reinforcement layer-by-layer to improve the feature extraction and knowledge retaining, that support better discriminative performance. Experiments conducted over three public datasets demonstrate its robustness concerning the task of binary image classification.
翻訳日:2021-03-27 22:56:13 公開日:2021-01-17
# (参考訳) マニフォールド学習による多視点データ可視化 [全文訳有]

Multi-view Data Visualisation via Manifold Learning ( http://arxiv.org/abs/2101.06763v1 )

ライセンス: CC BY-SA 4.0
Theodoulos Rodosthenous and Vahid Shahrezaei and Marina Evangelou(参考訳) 確率的近傍埋め込み(sne)、局所線形埋め込み(lle)、等尺特徴マッピング(isomap)といった多様体学習手法が非線形次元減少のために提案されている。 これらの手法は、データを理解可能な表現で視覚化するために、2つか3つの潜在埋め込みを生成することを目的としている。 本論文は, 学生のt分散SNE(t-SNE), LLE, ISOMAPの拡張を提案する。 今日では、同じサンプルに複数のデータビューを持つことが非常に一般的です。 各データビューには、サンプルの異なる側面を記述する一連の機能が含まれている。 例えば、生物医学研究では、転写学、ゲノム学、疫学など、同一個人のために複数のOMICSデータセットを生成することができ、異なる生物学的プロセス間の関係をよりよく理解することができる。 実データとシミュレーションデータの解析を通じて,提案手法の可視化性能について述べる。 データビジュアライゼーションは、データセット内の潜在的なクラスタを特定するためにしばしば使用される。 マルチビュー多様体学習手法を用いて得られた低次元埋め込みをK-meansアルゴリズムに組み込むことで,サンプルのクラスタを正確に同定できることを示す。 提案手法は,マルチISOMAP法とマルチLLE法より優れている。 興味深いことに、マルチSNEはマルチビュークラスタリングを行うための文献で提案されている手法と同等の性能を持つ。

Manifold learning approaches, such as Stochastic Neighbour Embedding (SNE), Locally Linear Embedding (LLE) and Isometric Feature Mapping (ISOMAP) have been proposed for performing non-linear dimensionality reduction. These methods aim to produce two or three latent embeddings, in order to visualise the data in intelligible representations. This manuscript proposes extensions of Student's t-distributed SNE (t-SNE), LLE and ISOMAP, to allow for dimensionality reduction and subsequent visualisation of multi-view data. Nowadays, it is very common to have multiple data-views on the same samples. Each data-view contains a set of features describing different aspects of the samples. For example, in biomedical studies it is possible to generate multiple OMICS data sets for the same individuals, such as transcriptomics, genomics, epigenomics, enabling better understanding of the relationships between the different biological processes. Through the analysis of real and simulated datasets, the visualisation performance of the proposed methods is illustrated. Data visualisations have been often utilised for identifying any potential clusters in the data sets. We show that by incorporating the low-dimensional embeddings obtained via the multi-view manifold learning approaches into the K-means algorithm, clusters of the samples are accurately identified. Our proposed multi-SNE method outperforms the corresponding multi-ISOMAP and multi-LLE proposed methods. Interestingly, multi-SNE is found to have comparable performance with methods proposed in the literature for performing multi-view clustering.
翻訳日:2021-03-27 22:48:33 公開日:2021-01-17
# (参考訳) 多発性硬化症, ロイコ脳症, 健常患者の3次元MR脳容積に対するVAEおよびIntro-VAEの潜時空間解析 [全文訳有]

Latent Space Analysis of VAE and Intro-VAE applied to 3-dimensional MR Brain Volumes of Multiple Sclerosis, Leukoencephalopathy, and Healthy Patients ( http://arxiv.org/abs/2101.06772v1 )

ライセンス: CC BY 4.0
Christopher Vogelsanger and Christian Federau(参考訳) 多発性硬化症 (MS) と微小血管性白質脳症 (microvascular leukoencephalopathy) は、中枢神経系における局所自己免疫性炎症による2つの神経症状である。 どちらの条件もFluid Attenuated Inversion Recovery (FLAIR) MRIの信号異常を引き起こし、これは専門の神経放射線学者によって区別できるが、両疾患の初期と同様に、訓練されていない眼と非常によく似ている。 本稿では,2つの疾患の特定の特徴を教師なしの方法で学習するために,3次元深層ニューラルネットワークを訓練することを試みる。 このようにして、我々は生成ニューラルネットワークを訓練し、複数の硬化症、ロイコ脳症、および3096患者の5404巻を含む健康患者の混合データセットを用いて、ほぼ明示的な密度で、両方の条件の人工MR画像を作成する。 第2のステップでは、このネットワークの潜伏空間にある異なる病気の特徴を区別し、それらを新しいデータに分類する。

Multiple Sclerosis (MS) and microvascular leukoencephalopathy are two distinct neurological conditions, the first caused by focal autoimmune inflammation in the central nervous system, the second caused by chronic white matter damage from atherosclerotic microvascular disease. Both conditions lead to signal anomalies on Fluid Attenuated Inversion Recovery (FLAIR) magnetic resonance (MR) images, which can be distinguished by an expert neuroradiologist, but which can look very similar to the untrained eye as well as in the early stage of both diseases. In this paper, we attempt to train a 3-dimensional deep neural network to learn the specific features of both diseases in an unsupervised manner. For this manner, in a first step we train a generative neural network to create artificial MR images of both conditions with approximate explicit density, using a mixed dataset of multiple sclerosis, leukoencephalopathy and healthy patients containing in total 5404 volumes of 3096 patients. In a second step, we distinguish features between the different diseases in the latent space of this network, and use them to classify new data.
翻訳日:2021-03-27 22:30:37 公開日:2021-01-17
# (参考訳) パンデミックから学ぶ: 異常な出来事を駆使して病気の流行モデルを改善する [全文訳有]

Learning from pandemics: using extraordinary events can improve disease now-casting models ( http://arxiv.org/abs/2101.06774v1 )

ライセンス: CC BY 4.0
Sara Mesquita, Cl\'audio Haupt Vieira, L\'ilia Perfeito and Joana Gon\c{c}alves-S\'a(参考訳) オンライン検索は、病気の発生をモニターするなど、さまざまな健康関連行動の研究に使われてきた。 明らかな欠点は、個人のモチベーションに欠けているオンライン情報やモデルを探す動機を個人が求める理由は限られており、誤解を招くこともあることである。 これは特に、パンデミックや恐怖、好奇心、その他多くの理由によって、個人が健康関連情報を検索し、疾患による検索を隠蔽する可能性がある、という異常な公衆衛生危機において、特に当てはまる。 しかし、健康危機はまた、異なるドライバーを混乱させ、人間の行動を学ぶ機会を与える。 本稿では,21世紀の2つのパンデミック(2009-H1N1fluとCovid-19)に焦点を当て,一般情報検索(メディア駆動)に関連する検索パターンと,実際の感染に関連する可能性のある検索パターンを識別する手法を提案する。 このようなパンデミック期から学ぶことで、不安感やメディアの誇大宣伝が高まり、オンライン検索を選択し、パンデミックと季節設定の両方でモデル性能を向上させることができる。 さらに、より多くのデータが常に良いという共通の主張にもかかわらず、我々の結果は、特に長期的には、明らかに類似したデータを大量に含むよりも、正しいデータのボリュームが低い方が良いことを示している。 我々の研究は、特定の事象や病気を越えて適用可能な一般的なフレームワークを提供しており、アルゴリズムは(より少ない)データを使用することで簡単に改善できると主張している。 これは例えば、機械学習の正確性-説明可能性のトレードオフを解決するために重要な結果をもたらす。

Online searches have been used to study different health-related behaviours, including monitoring disease outbreaks. An obvious caveat is that several reasons can motivate individuals to seek online information and models that are blind to people's motivations are of limited use and can even mislead. This is particularly true during extraordinary public health crisis, such as the ongoing pandemic, when fear, curiosity and many other reasons can lead individuals to search for health-related information, masking the disease-driven searches. However, health crisis can also offer an opportunity to disentangle between different drivers and learn about human behavior. Here, we focus on the two pandemics of the 21st century (2009-H1N1 flu and Covid-19) and propose a methodology to discriminate between search patterns linked to general information seeking (media driven) and search patterns possibly more associated with actual infection (disease driven). We show that by learning from such pandemic periods, with high anxiety and media hype, it is possible to select online searches and improve model performance both in pandemic and seasonal settings. Moreover, and despite the common claim that more data is always better, our results indicate that lower volume of the right data can be better than including large volumes of apparently similar data, especially in the long run. Our work provides a general framework that can be applied beyond specific events and diseases, and argues that algorithms can be improved simply by using less (better) data. This has important consequences, for example, to solve the accuracy-explainabil ity trade-off in machine-learning.
翻訳日:2021-03-27 22:22:19 公開日:2021-01-17
# (参考訳) 腫瘍病変を有する脳MRIレジストレーションにおけるシンメトリー制約不規則構造 [全文訳有]

Symmetric-Constraine d Irregular Structure Inpainting for Brain MRI Registration with Tumor Pathology ( http://arxiv.org/abs/2101.06775v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Chao Yang, C.-C. Jay Kuo, Georges ElFakhri, Jonghye Woo(参考訳) 脳腫瘍患者と健常者の磁気共鳴画像の変形性登録は、位置アライメントによって腫瘍の形状を特定する重要なツールであり、病理学的解析を容易にする。 腫瘍領域は通常の脳組織と一致しないため、患者の脳を正常な組織に変形的に登録することは困難である。 多くの患者画像は、不規則に分布した病変と関連しており、正常な組織構造のさらなる歪みと登録の類似性尺度の複雑化をもたらす。 本研究は,腫瘍領域の合成組織強度を生成するために,多段階のコンテキスト認識画像塗布フレームワークに従う。 粗い画像と画像の変換を適用して、欠落部分の粗い推測を行う。 次に,パッチ毎の機能間の意味的関連性をモデル化することにより,細部を洗練するために,機能レベルのパッチマッチリファインメントモジュールを適用する。 さらに、より優れた構造理解を実現するために、脳内の解剖学的対称性を反映する対称性制約を提案する。 塗布された患者画像と正常脳の間で変形可能な登録が適用され、最終的なアライメントのために元の患者データを変形するために結果の変形場が最終的に使用される。 この方法は、Multimodal Brain tumor Segmentation (BraTS) 2018 Challenge databaseに適用され、既存の3つの塗装法と比較された。 提案手法は,ピーク信号対雑音比,構造類似度指数,開始スコア,L1誤差を低減し,患者と正常な脳画像の登録に成功した。

Deformable registration of magnetic resonance images between patients with brain tumors and healthy subjects has been an important tool to specify tumor geometry through location alignment and facilitate pathological analysis. Since tumor region does not match with any ordinary brain tissue, it has been difficult to deformably register a patients brain to a normal one. Many patient images are associated with irregularly distributed lesions, resulting in further distortion of normal tissue structures and complicating registration's similarity measure. In this work, we follow a multi-step context-aware image inpainting framework to generate synthetic tissue intensities in the tumor region. The coarse image-to-image translation is applied to make a rough inference of the missing parts. Then, a feature-level patch-match refinement module is applied to refine the details by modeling the semantic relevance between patch-wise features. A symmetry constraint reflecting a large degree of anatomical symmetry in the brain is further proposed to achieve better structure understanding. Deformable registration is applied between inpainted patient images and normal brains, and the resulting deformation field is eventually used to deform original patient data for the final alignment. The method was applied to the Multimodal Brain Tumor Segmentation (BraTS) 2018 challenge database and compared against three existing inpainting methods. The proposed method yielded results with increased peak signal-to-noise ratio, structural similarity index, inception score, and reduced L1 error, leading to successful patient-to-normal brain image registration.
翻訳日:2021-03-27 22:04:02 公開日:2021-01-17
# (参考訳) 電子健康記録上の不均一類似性グラフニューラルネットワーク [全文訳有]

Heterogeneous Similarity Graph Neural Network on Electronic Health Records ( http://arxiv.org/abs/2101.06800v1 )

ライセンス: CC BY 4.0
Zheng Liu, Xiaohan Li, Hao Peng, Lifang He, Philip S. Yu(参考訳) 電子健康記録(ehrs)の採掘は、情報が豊富であることから、有望な話題となっている。 ehrsから学習することで、人間の専門家が医療判断を行なえ、医療品質を改善するために機械学習モデルを構築することができる。 近年,この目的を達成するためにシーケンシャルモデルやグラフモデルに基づくモデルが多数提案されている。 EHRは複数の実体と関係を持ち、不均一グラフと見なすことができる。 しかし、以前の研究では、EHRの不均一性は無視されていた。 一方、現在の異種グラフニューラルネットワークは、ハブノードが存在するため、単にEHRグラフ上では使用できない。 この問題に対処するために,新しい異種GNNを用いた異種類似グラフニューラルネットワーク(HSGNN)を提案する。 フレームワークは2つの部分から構成される: 1つは前処理方式で、もう1つはエンドツーエンドのGNNである。 前処理法はエッジを正規化し、EHRグラフを複数の同質グラフに分割する一方、各同質グラフは元のEHRグラフの部分情報を含む。 GNNは全ての同質グラフを入力として取り、それら全てを1つのグラフに融合して予測する。 実験の結果,HSGNNは診断予測タスクにおいて,他のベースラインよりも優れていた。

Mining Electronic Health Records (EHRs) becomes a promising topic because of the rich information they contain. By learning from EHRs, machine learning models can be built to help human experts to make medical decisions and thus improve healthcare quality. Recently, many models based on sequential or graph models are proposed to achieve this goal. EHRs contain multiple entities and relations and can be viewed as a heterogeneous graph. However, previous studies ignore the heterogeneity in EHRs. On the other hand, current heterogeneous graph neural networks cannot be simply used on an EHR graph because of the existence of hub nodes in it. To address this issue, we propose Heterogeneous Similarity Graph Neural Network (HSGNN) analyze EHRs with a novel heterogeneous GNN. Our framework consists of two parts: one is a preprocessing method and the other is an end-to-end GNN. The preprocessing method normalizes edges and splits the EHR graph into multiple homogeneous graphs while each homogeneous graph contains partial information of the original EHR graph. The GNN takes all homogeneous graphs as input and fuses all of them into one graph to make a prediction. Experimental results show that HSGNN outperforms other baselines in the diagnosis prediction task.
翻訳日:2021-03-27 21:43:55 公開日:2021-01-17
# (参考訳) ganおよび統計距離サーロゲートに最適な定常性を有する測度条件判別器 [全文訳有]

Measure-conditional Discriminator with Stationary Optimum for GANs and Statistical Distance Surrogates ( http://arxiv.org/abs/2101.06802v1 )

ライセンス: CC BY 4.0
Liu Yang, Tingwei Meng, George Em Karniadakis(参考訳) 異なるGANのためのプラグ・アンド・プレイモジュールとして,識別器,すなわち測度条件判別器の簡易かつ効果的な修正を提案する。 生成した分布を入力として、識別器に最適な目標が定常となるようにすることで、提案する判別器はバニラよりも頑健である。 測度条件判別器の変種は、複数の対象分布を扱うこともでき、kl 発散のような統計距離の代理モデルとして働き、転置学習への応用も可能である。

We propose a simple but effective modification of the discriminators, namely measure-conditional discriminators, as a plug-and-play module for different GANs. By taking the generated distributions as part of input so that the target optimum for the discriminator is stationary, the proposed discriminator is more robust than the vanilla one. A variant of the measure-conditional discriminator can also handle multiple target distributions, or act as a surrogate model of statistical distances such as KL divergence with applications to transfer learning.
翻訳日:2021-03-27 21:26:09 公開日:2021-01-17
# (参考訳) free congruence:時系列データに対する拡張された類似性尺度の探索 [全文訳有]

Free congruence: an exploration of expanded similarity measures for time series data ( http://arxiv.org/abs/2101.08659v1 )

ライセンス: CC BY 4.0
Lucas Cassiel Jacaruso(参考訳) 時系列の類似度測定は、機械学習モデルのトレーニング、分類、予測モデリングなど、さまざまな新興アプリケーションで非常に関係がある。 時系列の標準類似度尺度は、しばしばユークリッド距離や動的時間ゆがみを含む点対点距離尺度を含む。 このような類似性尺度は、時系列における値の変動を基本的に必要とし、類似性を確立するための対応する順序やケイデンスに従う。 この論文は、より広い類似性の定義、すなわち、値ラベリングによらず時系列セグメントの統計特性の集合間の厳密な数値的類似性を考慮することによるものである。 さらに, 時系列区間間の共通パターン成分の存在を, 順に変化しても検討し, 従来型の点間距離測定の基準を必ずしも満たさないことを示した。 結果は、同じデータに対するDynamic Time Warpingの結果と比較された。 驚くべきことに、統計特性のセット間の数値的類似性テストは、特定のデータと使用するサンプルサイズに対する動的時間ウォーピングよりも大きな統計的重要性を持つ、減少年数のペアリングのより強い類似性を確立した。

Time series similarity measures are highly relevant in a wide range of emerging applications including training machine learning models, classification, and predictive modeling. Standard similarity measures for time series most often involve point-to-point distance measures including Euclidean distance and Dynamic Time Warping. Such similarity measures fundamentally require the fluctuation of values in the time series being compared to follow a corresponding order or cadence for similarity to be established. This paper is spurred by the exploration of a broader definition of similarity, namely one that takes into account the sheer numerical resemblance between sets of statistical properties for time series segments irrespectively of value labeling. Further, the presence of common pattern components between time series segments was examined even if they occur in a permuted order, which would not necessarily satisfy the criteria of more conventional point-to-point distance measures. Results were compared with those of Dynamic Time Warping on the same data for context. Surprisingly, the test for the numerical resemblance between sets of statistical properties established a stronger resemblance for pairings of decline years with greater statistical significance than Dynamic Time Warping on the particular data and sample size used.
翻訳日:2021-03-27 20:57:18 公開日:2021-01-17
# コスト効率の良いオンラインハイパーパラメータ最適化

Cost-Efficient Online Hyperparameter Optimization ( http://arxiv.org/abs/2101.06590v1 )

ライセンス: Link先を確認
Jingkang Wang, Mengye Ren, Ilija Bogunovic, Yuwen Xiong, Raquel Urtasun(参考訳) ハイパーパラメータ最適化(HPO)に関する最近の研究は、特定のハイパーパラメータを正規パラメータと共に訓練する可能性を示している。 しかし、これらのオンラインHPOアルゴリズムは、トレーニングの各ステップにおける検証例のセットの評価を必要とするため、トレーニングコストが大幅に増加する。 検証損失をいつ問い合わせるかを決定するために,オンラインHPOを時間変動ベイズ最適化問題としてモデル化し,その上で,クエリコストの概念を捉えた新しい‘textit{costly feedback} 設定を提案する。 この設定下では、標準アルゴリズムは各ラウンドの検証セットを評価するため、コスト非効率である。 これとは対照的に,提案したGP-UCBアルゴリズムは,モデルが現在の決定に自信がない場合にのみ,未知の関数を問合せする。 CIFAR-10 と ImageNet100 上で VGG と ResNet のハイパーパラメータをオンラインでチューニングすることで,提案アルゴリズムの評価を行った。 提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。

Recent work on hyperparameters optimization (HPO) has shown the possibility of training certain hyperparameters together with regular parameters. However, these online HPO algorithms still require running evaluation on a set of validation examples at each training step, steeply increasing the training cost. To decide when to query the validation loss, we model online HPO as a time-varying Bayesian optimization problem, on top of which we propose a novel \textit{costly feedback} setting to capture the concept of the query cost. Under this setting, standard algorithms are cost-inefficient as they evaluate on the validation set at every round. In contrast, the cost-efficient GP-UCB algorithm proposed in this paper queries the unknown function only when the model is less confident about current decisions. We evaluate our proposed algorithm by tuning hyperparameters online for VGG and ResNet on CIFAR-10 and ImageNet100. Our proposed online HPO algorithm reaches human expert-level performance within a single run of the experiment, while incurring only modest computational overhead compared to regular training.
翻訳日:2021-03-27 20:23:29 公開日:2021-01-17
# HySTER: ハイブリッド時空間イベント共振器

HySTER: A Hybrid Spatio-Temporal Event Reasoner ( http://arxiv.org/abs/2101.06644v1 )

ライセンス: Link先を確認
Theophile Sautory, Nuri Cingillioglu, Alessandra Russo(参考訳) Video Question Answering(ビデオQA)のタスクは、ビデオに関する自然言語の質問に答えることと、シーンシーケンス理解におけるモデルの性能を評価するプロキシとして機能することである。 最新のビデオQA用に設計されたほとんどの手法は、複雑な時間的および因果推論に苦労し、推論ステップにおいて限られた透明性を提供するエンドツーエンドのディープラーニングアーキテクチャである。 我々はHySTER: a Hybrid Spatio-Temporal Event Reasonerを紹介した。 本モデルでは,映像フレームから情報を取り出すための深層学習手法の強みを活用し,応答集合プログラミングフレームワークにおけるシンボル人工知能の推論能力と説明可能性について考察する。 タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。 我々は,我々のモデルをCLEVRERデータセットに適用し,質問応答精度を示す。 この研究は、ビデオQAの分野における帰納論理プログラミングの組み入れの基礎を定めている。

The task of Video Question Answering (VideoQA) consists in answering natural language questions about a video and serves as a proxy to evaluate the performance of a model in scene sequence understanding. Most methods designed for VideoQA up-to-date are end-to-end deep learning architectures which struggle at complex temporal and causal reasoning and provide limited transparency in reasoning steps. We present the HySTER: a Hybrid Spatio-Temporal Event Reasoner to reason over physical events in videos. Our model leverages the strength of deep learning methods to extract information from video frames with the reasoning capabilities and explainability of symbolic artificial intelligence in an answer set programming framework. We define a method based on general temporal, causal and physics rules which can be transferred across tasks. We apply our model to the CLEVRER dataset and demonstrate state-of-the-art results in question answering accuracy. This work sets the foundations for the incorporation of inductive logic programming in the field of VideoQA.
翻訳日:2021-03-27 20:23:09 公開日:2021-01-17
# 頭部ポーズと細粒度ジェスチャー認識のための地域注意ネットワーク(ran)

Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture Recognition ( http://arxiv.org/abs/2101.06634v1 )

ライセンス: Link先を確認
Ardhendu Behera, Zachary Wharton, Morteza Ghahremani, Swagat Kumar, Nik Bessis(参考訳) 影響はしばしば、人間の行動にとって重要な指標である行動/妊娠などの非言語体語を介して表現される。 近年,単眼画像における細粒度動作の認識に関する研究は,身体のポーズ,人間と物体の相互作用,局所的な外観の変化を表す身体部位の空間的構成のモデル化に主眼を置いている。 その結果,身体の正確な部位や物体の検出に頼っているため,これは脆いアプローチであることがわかった。 本研究は,細粒度なジェスチャーや動作を推測するための注意機構によって評価できる局所的な判別的意味領域が存在することを論じる。 そこで本研究では,あるタスクに最も関係のある画像の一部に焦点をあて,注意機構を通じて複数のコンテキスト領域を結合する,完全な畳み込みニューラルネットワーク(CNN)である,新しいエンドツーエンドの‘textbf{Regional Attention Network’を提案する。 我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。 このモデルは,1)頭部ポーズ認識,2)ドライバーの状態認識,3)人間の行動と表情認識の3つのシナリオに属する10のデータセットで広く評価されている。 提案手法は、異なる指標のかなりの差で最先端の手法より優れている。

Affect is often expressed via non-verbal body language such as actions/gestures, which are vital indicators for human behaviors. Recent studies on recognition of fine-grained actions/gestures in monocular images have mainly focused on modeling spatial configuration of body parts representing body pose, human-objects interactions and variations in local appearance. The results show that this is a brittle approach since it relies on accurate body parts/objects detection. In this work, we argue that there exist local discriminative semantic regions, whose "informativeness" ; can be evaluated by the attention mechanism for inferring fine-grained gestures/actions. To this end, we propose a novel end-to-end \textbf{Regional Attention Network (RAN)}, which is a fully Convolutional Neural Network (CNN) to combine multiple contextual regions through attention mechanism, focusing on parts of the images that are most relevant to a given task. Our regions consist of one or more consecutive cells and are adapted from the strategies used in computing HOG (Histogram of Oriented Gradient) descriptor. The model is extensively evaluated on ten datasets belonging to 3 different scenarios: 1) head pose recognition, 2) drivers state recognition, and 3) human action and facial expression recognition. The proposed approach outperforms the state-of-the-art by a considerable margin in different metrics.
翻訳日:2021-03-27 20:22:55 公開日:2021-01-17
# ドライバの活動認識のための粗時間注意ネットワーク(CTA-Net)

Coarse Temporal Attention Network (CTA-Net) for Driver's Activity Recognition ( http://arxiv.org/abs/2101.06636v1 )

ライセンス: Link先を確認
Zachary Wharton, Ardhendu Behera, Yonghuai Liu, Nik Bessis(参考訳) ビデオから従来の人間の活動を認識することは、差別的身体運動、身体と物体、または人間と人間の相互作用を含む非常に独特な行動に焦点を当てる。 ドライバーの活動は、類似した身体部分の動きを持つ同じ被験者によって実行されるため、微妙な変化をもたらす。 そこで本研究では,時空間的注意を生かして微妙な変化をモデル化する新しい枠組みを提案する。 我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、トレーニング可能な視線ネットワークに粗い時間枝を導入する。 目標は、ビデオの特定の部分に焦点を合わせ、'during'、'before'、'after'などのハイレベルな時間関係を可視化できるようにすることである。 これらの分枝はビデオの時間的ダイナミクスのトポロジーも尊重しており、異なる分枝が意味のある空間的変化と時間的変化を学ぶことを保証している。 このモデルは、LSTMの隠れた状態を探索することによって、アクティビティ認識のための高レベルなアクション特異的コンテキスト情報を生成するために、革新的な注意機構を使用する。 注意機構は、ビデオの表現を構築する際に、認識タスクにおける各隠れ状態の重要性を判断するのに役立つ。 提案手法は4つの公開データセットで評価され,RGB動画のみを入力として,最先端技術よりも大幅に優れていた。

There is significant progress in recognizing traditional human activities from videos focusing on highly distinctive actions involving discriminative body movements, body-object and/or human-human interactions. Driver's activities are different since they are executed by the same subject with similar body parts movements, resulting in subtle changes. To address this, we propose a novel framework by exploiting the spatiotemporal attention to model the subtle changes. Our model is named Coarse Temporal Attention Network (CTA-Net), in which coarse temporal branches are introduced in a trainable glimpse network. The goal is to allow the glimpse to capture high-level temporal relationships, such as 'during', 'before' and 'after' by focusing on a specific part of a video. These branches also respect the topology of the temporal dynamics in the video, ensuring that different branches learn meaningful spatial and temporal changes. The model then uses an innovative attention mechanism to generate high-level action specific contextual information for activity recognition by exploring the hidden states of an LSTM. The attention mechanism helps in learning to decide the importance of each hidden state for the recognition task by weighing them when constructing the representation of the video. Our approach is evaluated on four publicly accessible datasets and significantly outperforms the state-of-the-art by a considerable margin with only RGB video as input.
翻訳日:2021-03-27 20:22:31 公開日:2021-01-17
# 敵対的相互作用攻撃:人間の意図を誤解釈するAI

Adversarial Interaction Attack: Fooling AI to Misinterpret Human Intentions ( http://arxiv.org/abs/2101.06704v1 )

ライセンス: Link先を確認
Nodens Koren, Qiuhong Ke, Yisen Wang, James Bailey, Xingjun Ma(参考訳) 人間と人工知能(AI)エージェントの行動を理解することは、現代のAIシステムが私たちの日常生活に完全に統合される前に重要である。 本稿では、現在大きな成功を収めているにもかかわらず、深層学習に基づくAIシステムは、微妙な敵対的ノイズによって容易に騙され、相互作用シナリオにおけるアクションの意図を誤解釈できることを示す。 骨格に基づく人的相互作用のケーススタディに基づいて, DNNに基づく相互作用モデルを用いて, 参加者の反応を予期しない方法で予測する方法を実証し, 相互作用に対する新たな敵攻撃を提案する。 広い視点から見ると,提案手法の範囲はスケルトンデータに関わる問題に限定されるものではなく,逐次回帰を伴う任意の問題にも拡張できる。 我々の研究は、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループの潜在的なリスクを強調している。

Understanding the actions of both humans and artificial intelligence (AI) agents is important before modern AI systems can be fully integrated into our daily life. In this paper, we show that, despite their current huge success, deep learning based AI systems can be easily fooled by subtle adversarial noise to misinterpret the intention of an action in interaction scenarios. Based on a case study of skeleton-based human interactions, we propose a novel adversarial attack on interactions, and demonstrate how DNN-based interaction models can be tricked to predict the participants' reactions in unexpected ways. From a broader perspective, the scope of our proposed attack method is not confined to problems related to skeleton data but can also be extended to any type of problems involving sequential regressions. Our study highlights potential risks in the interaction loop with AI and humans, which need to be carefully addressed when deploying AI systems in safety-critical applications.
翻訳日:2021-03-27 20:22:10 公開日:2021-01-17
# GENIE:テキスト生成の人間による評価のためのリーダーボード

GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation ( http://arxiv.org/abs/2101.06561v1 )

ライセンス: Link先を確認
Daniel Khashabi, Gabriel Stanovsky, Jonathan Bragg, Nicholas Lourie, Jungo Kasai, Yejin Choi, Noah A. Smith, Daniel S. Weld(参考訳) リーダボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にする。 しかし、それらの採用は、自動的な方法で確実に評価できるタスクに限定されている。 この研究は、テキスト生成タスクにリーダーボードの容易さをもたらす、拡張可能なヒューマン評価リーダーボードであるGENIEを導入している。 GENIEはリーダーボードをクラウドソーシングプラットフォームに自動的に投稿し、人間のアノテータに様々な軸(例えば、正確性、簡潔性、流布性)で評価するよう求め、答えを様々な自動メトリクスと比較する。 本稿では,機械翻訳,要約,コモンセンス推論,機械理解という,テキスト生成における4つの課題について述べる。 我々は,形式的な粒度評価指標を提供し,今後の研究分野を特定する。 私たちはgenieを一般公開し、言語生成モデルと自動および手動による評価の進展を促すことを期待しています。

Leaderboards have eased model development for many NLP datasets by standardizing their evaluation and delegating it to an independent external repository. Their adoption, however, is so far limited to tasks that can be reliably evaluated in an automatic manner. This work introduces GENIE, an extensible human evaluation leaderboard, which brings the ease of leaderboards to text generation tasks. GENIE automatically posts leaderboard submissions to crowdsourcing platforms asking human annotators to evaluate them on various axes (e.g., correctness, conciseness, fluency) and compares their answers to various automatic metrics. We introduce several datasets in English to GENIE, representing four core challenges in text generation: machine translation, summarization, commonsense reasoning, and machine comprehension. We provide formal granular evaluation metrics and identify areas for future research. We make GENIE publicly available and hope that it will spur progress in language generation models as well as their automatic and manual evaluation.
翻訳日:2021-03-27 20:21:55 公開日:2021-01-17
# Smooth Unique Information を用いたサンプルの情報性の推定

Estimating informativeness of samples with Smooth Unique Information ( http://arxiv.org/abs/2101.06640v1 )

ライセンス: Link先を確認
Hrayr Harutyunyan, Alessandro Achille, Giovanni Paolini, Orchid Majumder, Avinash Ravichandran, Rahul Bhotika, Stefano Soatto(参考訳) 我々は、個々のサンプルがニューラルネットワークのトレーニングに与える情報の概念を定義し、サンプルが最終的な重み付けにどの程度情報を与えるか、重みによって計算された関数にどの程度情報を与えるかを計測する。 関連があるものの、これらの量は定性的に異なる挙動を示す。 線形化ネットワークを用いてこれらの量の効率的な近似を行い、事前学習された再ネットのような実世界のアーキテクチャにおいて近似が正確であることを実証的に示す。 これらの手法を,データセットの要約,アンダーサンプリングクラスの解析,異なるデータソースのインフォメーション性の比較,逆および破損例の検出など,いくつかの問題に適用する。 我々の研究は既存のフレームワークを一般化するが、過度にパラメータ化されたモデルでより優れた計算特性を享受し、実世界のネットワークに適用することができる。

We define a notion of information that an individual sample provides to the training of a neural network, and we specialize it to measure both how much a sample informs the final weights and how much it informs the function computed by the weights. Though related, we show that these quantities have a qualitatively different behavior. We give efficient approximations of these quantities using a linearized network and demonstrate empirically that the approximation is accurate for real-world architectures, such as pre-trained ResNets. We apply these measures to several problems, such as dataset summarization, analysis of under-sampled classes, comparison of informativeness of different data sources, and detection of adversarial and corrupted examples. Our work generalizes existing frameworks but enjoys better computational properties for heavily over-parametrized models, which makes it possible to apply it to real-world networks.
翻訳日:2021-03-27 20:21:38 公開日:2021-01-17
# KCP:Dense Labeling Neural Networkのためのカーネルクラスタプルーニング

KCP: Kernel Cluster Pruning for Dense Labeling Neural Networks ( http://arxiv.org/abs/2101.06686v1 )

ライセンス: Link先を確認
Po-Hsiang Yu, Sih-Sian Wu and Liang-Gee Chen(参考訳) プルーニングはニューラルネットワークの圧縮と加速に使われる有望な技術になっている。 既存の手法は主にスペアラベリングアプリケーションで評価される。 しかし、資源制約のあるモバイルデバイス上でリアルタイム処理を必要とする現実的な問題に近づきつつある。 濃密なラベリングアプリケーションに対するプルーニングは、まだほとんど探索されていない分野である。 フィルタチャネルのプルーニング方法は、フィルタチャネル全体を除去する。 したがって、1つのフィルタチャネル内の各カーネル間の相互作用は無視される。 本研究では,高密度ラベリングネットワークに対してkcp(kernel cluster pruning)を提案する。 各層における最小表現型カーネルを識別するクラスタリング手法を開発した。 これらのカーネルを反復的に除去することにより、ネットワーク全体を表現可能なパラメータを保存し、適切なモデルサイズと計算量の削減により精度を向上する。 ステレオマッチングとセマンティックセグメンテーションニューラルネットワークを用いて評価すると,精度の1%以下でFLOPの70%以上を削減できる。 さらに, ILSVRC-2012のResNet-50では, FLOPの50%以上を削減でき, トップ1の精度が0.13%向上した。 したがって、KCPは最先端の刈り取り結果を得る。

Pruning has become a promising technique used to compress and accelerate neural networks. Existing methods are mainly evaluated on spare labeling applications. However, dense labeling applications are those closer to real world problems that require real-time processing on resource-constrained mobile devices. Pruning for dense labeling applications is still a largely unexplored field. The prevailing filter channel pruning method removes the entire filter channel. Accordingly, the interaction between each kernel in one filter channel is ignored. In this study, we proposed kernel cluster pruning (KCP) to prune dense labeling networks. We developed a clustering technique to identify the least representational kernels in each layer. By iteratively removing those kernels, the parameter that can better represent the entire network is preserved; thus, we achieve better accuracy with a decent model size and computation reduction. When evaluated on stereo matching and semantic segmentation neural networks, our method can reduce more than 70% of FLOPs with less than 1% of accuracy drop. Moreover, for ResNet-50 on ILSVRC-2012, our KCP can reduce more than 50% of FLOPs reduction with 0.13% Top-1 accuracy gain. Therefore, KCP achieves state-of-the-art pruning results.
翻訳日:2021-03-27 20:21:03 公開日:2021-01-17
# 高速かつスケーラブルなAC-OPF学習のための空間ネットワーク分解

Spatial Network Decomposition for Fast and Scalable AC-OPF Learning ( http://arxiv.org/abs/2101.06768v1 )

ライセンス: Link先を確認
Minas Chatzos and Terrence W.K. Mak and Pascal Van Hentenryck(参考訳) 本稿では、高速でスケーラブルなトレーニングを特徴とするAC-OPFソリューションを予測するための新しい機械学習手法を提案する。 1) トポロジ最適化と再生可能エネルギー源による確率性が, 基本的に異なるAC-OPFインスタンスに繋がる可能性, (2) 既存の機械学習手法によるAC-OPF予測に要する重要なトレーニング時間である。 提案手法は,領域の集合と見なされる電力ネットワークの空間分解を利用する2段階の手法である。 第1段は、各領域を結合したバスと線路の流速と電圧を予測することを学び、第2段は、各領域の機械学習モデルと並行して訓練を行う。 フランスのトランスミッションシステム(最大6,700のバスと9000の路線)の実験結果は、このアプローチの可能性を示している。 短いトレーニング時間内に、このアプローチは、非常に高い忠実度と小さな制約違反を持つAC-OPFソリューションを予測し、最先端技術よりも大幅に改善する。 また,ac-opf目標の0.03%以内で実現可能な解を返すように負荷フロー最適化を施し,実行時間を大幅に削減できることを示した。

This paper proposes a novel machine-learning approach for predicting AC-OPF solutions that features a fast and scalable training. It is motivated by the two critical considerations: (1) the fact that topology optimization and the stochasticity induced by renewable energy sources may lead to fundamentally different AC-OPF instances; and (2) the significant training time needed by existing machine-learning approaches for predicting AC-OPF. The proposed approach is a 2-stage methodology that exploits a spatial decomposition of the power network that is viewed as a set of regions. The first stage learns to predict the flows and voltages on the buses and lines coupling the regions, and the second stage trains, in parallel, the machine-learning models for each region. Experimental results on the French transmission system (up to 6,700 buses and 9,000 lines) demonstrate the potential of the approach. Within a short training time, the approach predicts AC-OPF solutions with very high fidelity and minor constraint violations, producing significant improvements over the state-of-the-art. The results also show that the predictions can seed a load flow optimization to return a feasible solution within 0.03% of the AC-OPF objective, while reducing running times significantly.
翻訳日:2021-03-27 20:20:48 公開日:2021-01-17
# MPC-MPNet:動力学的制約下での高速ニア最適計画のためのモデル予測運動計画ネットワーク

MPC-MPNet: Model-Predictive Motion Planning Networks for Fast, Near-Optimal Planning under Kinodynamic Constraints ( http://arxiv.org/abs/2101.06798v1 )

ライセンス: Link先を確認
Linjun Li, Yinglong Miao, Ahmed H. Qureshi, and Michael C. Yip(参考訳) Kinodynamic Motion Planning (KMP) とは、運動学と力学の制約を同時に受けるロボットの動きを見つけることである。 現在までに、KMP問題の解法はごく少数であり、計画空間の次元が増加するにつれて、ほぼ最適解を見つけるのに苦労し、高い計算複雑性を示す。 これらの課題に対処するために、我々はスケーラブルで模倣学習に基づくモデル予測型運動計画ネットワークフレームワークを提案し、実用的不動システムに対するキノダイナミック制約の下で最悪の理論的保証を持つ準最適経路解を迅速に見つける。 本フレームワークでは,ニューラルジェネレータ,判別器,並列化モデル予測コントローラ(mpc)の2つのアルゴリズムを導入する。 ジェネレータは、所定のターゲットに対して様々な情報状態を出力し、識別器は、拡張のためにそれらから可能な限り最良のサブセットを選択する。 mpcは、与えられた制約を満たしながら、選択されたインフォームドステートをローカルに接続し、至近の最適解へと導く。 提案アルゴリズムは,計算時間,経路特性,既存手法に対する成功率の大幅な改善を示す結果から,乱れ,キノダイナミックな制約付き,不安定な計画問題に対して評価を行う。

Kinodynamic Motion Planning (KMP) is to find a robot motion subject to concurrent kinematics and dynamics constraints. To date, quite a few methods solve KMP problems and those that exist struggle to find near-optimal solutions and exhibit high computational complexity as the planning space dimensionality increases. To address these challenges, we present a scalable, imitation learning-based, Model-Predictive Motion Planning Networks framework that quickly finds near-optimal path solutions with worst-case theoretical guarantees under kinodynamic constraints for practical underactuated systems. Our framework introduces two algorithms built on a neural generator, discriminator, and a parallelizable Model Predictive Controller (MPC). The generator outputs various informed states towards the given target, and the discriminator selects the best possible subset from them for the extension. The MPC locally connects the selected informed states while satisfying the given constraints leading to feasible, near-optimal solutions. We evaluate our algorithms on a range of cluttered, kinodynamically constrained, and underactuated planning problems with results indicating significant improvements in computation times, path qualities, and success rates over existing methods.
翻訳日:2021-03-27 20:20:24 公開日:2021-01-17
# 漫画ビデオのためのナレーション生成

Narration Generation for Cartoon Videos ( http://arxiv.org/abs/2101.06803v1 )

ライセンス: Link先を確認
Nikos Papasarantopoulos, Shay B. Cohen(参考訳) マルチモーダル入力からのテキスト生成に関する研究は、主に静的画像に焦点を当てている。 本稿では,複数箇所で解釈される動画をナレーションテキストで補完する新たな課題であるナレーション生成を提案する。 ナレーションはビデオの一部であり、その中に展開されるストーリーラインに貢献する。 さらに、それらには、カバーするビデオのタイムフレームに適した情報が含まれており、キャプションのように、入力シーンに表示される詳細をすべて含まないため、コンテキストインフォームされている。 アニメーションテレビシリーズpeppa pigから新しいデータセットを収集した。 さらに、ナレーション生成のタスクを、タイミングとコンテンツ生成という2つの異なるタスクを含むものとして定式化し、新しいタスクに一連のモデルを示す。

Research on text generation from multimodal inputs has largely focused on static images, and less on video data. In this paper, we propose a new task, narration generation, that is complementing videos with narration texts that are to be interjected in several places. The narrations are part of the video and contribute to the storyline unfolding in it. Moreover, they are context-informed, since they include information appropriate for the timeframe of video they cover, and also, do not need to include every detail shown in input scenes, as a caption would. We collect a new dataset from the animated television series Peppa Pig. Furthermore, we formalize the task of narration generation as including two separate tasks, timing and content generation, and present a set of models on the new task.
翻訳日:2021-03-27 20:19:24 公開日:2021-01-17
# gpt-$3$のよいインコンテキストの例は何でしょう?

What Makes Good In-Context Examples for GPT-$3$? ( http://arxiv.org/abs/2101.06804v1 )

ライセンス: Link先を確認
Jiachang Liu, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin, Weizhu Chen(参考訳) gpt-$3$は、幅広いnlpタスクにまたがる優れたパフォーマンス、特に、強力で多彩なコンテキスト内少数ショット学習能力によって、多くの注目を集めている。 その成功にもかかわらず、GPT-$3$の実証結果は、文脈内例の選択に大きく依存していることがわかった。 本研究は,GPT-$3$の複数ショット機能を活用するために,テキスト中のサンプル(ランダムサンプリングに関連して)をより効果的に選択する戦略が存在するかを検討する。 大規模ニューラルネットワークモデルの強化に検索モジュールを活用した最近の成功に触発されて,テストサンプルと意味的に類似した例を検索し,それに対応するプロンプトを定式化する。 直感的には、そのような戦略で選択された文脈内例は、GPT-$3$の広範な知識を解き放つためのより情報的な入力として機能する。 提案手法をいくつかの自然言語理解・生成ベンチマークで評価し、検索に基づくプロンプト選択手法はランダムベースラインを一貫して上回っている。 さらに,タスク関連データセットを微調整した文エンコーダにより,より有用な検索結果が得られることがわかった。 特に、テーブル・ツー・テキスト生成(ToTToデータセットでは41.9%)やオープン・ドメインの質問応答(NQデータセットでは45.5%)といったタスクでは顕著な増加が見られる。 我々は,GPT-$3および大規模事前学習型LMの挙動を概ね理解し,その少数の機能向上に寄与することを期待している。

GPT-$3$ has attracted lots of attention due to its superior performance across a wide range of NLP tasks, especially with its powerful and versatile in-context few-shot learning ability. Despite its success, we found that the empirical results of GPT-$3$ depend heavily on the choice of in-context examples. In this work, we investigate whether there are more effective strategies for judiciously selecting in-context examples (relative to random sampling) that better leverage GPT-$3$'s few-shot capabilities. Inspired by the recent success of leveraging a retrieval module to augment large-scale neural network models, we propose to retrieve examples that are semantically-similar to a test sample to formulate its corresponding prompt. Intuitively, the in-context examples selected with such a strategy may serve as more informative inputs to unleash GPT-$3$'s extensive knowledge. We evaluate the proposed approach on several natural language understanding and generation benchmarks, where the retrieval-based prompt selection approach consistently outperforms the random baseline. Moreover, it is observed that the sentence encoders fine-tuned on task-related datasets yield even more helpful retrieval results. Notably, significant gains are observed on tasks such as table-to-text generation (41.9% on the ToTTo dataset) and open-domain question answering (45.5% on the NQ dataset). We hope our investigation could help understand the behaviors of GPT-$3$ and large-scale pre-trained LMs in general and enhance their few-shot capabilities.
翻訳日:2021-03-27 20:19:12 公開日:2021-01-17
# 人工知能の理解

Understanding in Artificial Intelligence ( http://arxiv.org/abs/2101.06573v1 )

ライセンス: Link先を確認
Stefan Maetschke and David Martinez Iraola and Pieter Barnard and Elaheh ShafieiBavani and Peter Zhong and Ying Xu and Antonio Jimeno Yepes(参考訳) 現在の人工知能(AI)手法は、主にディープラーニングに基づいており、コンピュータビジョンや自然言語理解など、いくつかの分野で進歩を促している。 これらのAI手法の進歩は、視覚的質問応答などの課題を解決するために設計されたベンチマークを用いて測定される。 これらの方法によってどの程度の理解が活用されているか、現在のベンチマークが理解能力を測定するのにどの程度適切か、といった疑問が残る。 これらの疑問に答えるために、既存のベンチマークとその理解能力を、一連の理解能力と現在の研究ストリームで定義した。 我々は、AI手法の理解能力を測定するためのベンチマーク開発における進歩と、現在の手法が理解能力をいかに発展させるかをレビューする。

Current Artificial Intelligence (AI) methods, most based on deep learning, have facilitated progress in several fields, including computer vision and natural language understanding. The progress of these AI methods is measured using benchmarks designed to solve challenging tasks, such as visual question answering. A question remains of how much understanding is leveraged by these methods and how appropriate are the current benchmarks to measure understanding capabilities. To answer these questions, we have analysed existing benchmarks and their understanding capabilities, defined by a set of understanding capabilities, and current research streams. We show how progress has been made in benchmark development to measure understanding capabilities of AI methods and we review as well how current methods develop understanding capabilities.
翻訳日:2021-03-27 20:18:31 公開日:2021-01-17
# S3:3次元人体モデリングのための神経形状,骨格およびスキニング場

S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling ( http://arxiv.org/abs/2101.06571v1 )

ライセンス: Link先を確認
Ze Yang, Shenlong Wang, Sivabalan Manivasagam, Zeng Huang, Wei-Chiu Ma, Xinchen Yan, Ersin Yumer, Raquel Urtasun(参考訳) 人間の構築とアニメーションは、シミュレーションにおけるバーチャルリアリティやロボティクステストなど、さまざまなアプリケーションで仮想世界を構築する上で重要なコンポーネントである。 形状やポーズ、服装のバリエーションは指数関数的に多いため、現実世界のデータから自動的に人間を再構築し、アニメートする手法を開発することが重要である。 この目標に向けて、歩行者の形状、ポーズ、およびスキンの重量を、データから直接学習される神経暗黙の関数として表現する。 この表現によって、人間のパラメトリックなボディモデルに明示的に適合することなく、さまざまな歩行者の形やポーズを処理でき、より広い範囲の人間のジオメトリやトポロジを処理できます。 各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。 さらに,1つのrgb画像(および/または任意のlidarスイープ)から,大規模に3dアニメーションを生成できることを示した。

Constructing and animating humans is an important component for building virtual worlds in a wide variety of applications such as virtual reality or robotics testing in simulation. As there are exponentially many variations of humans with different shape, pose and clothing, it is critical to develop methods that can automatically reconstruct and animate humans at scale from real world data. Towards this goal, we represent the pedestrian's shape, pose and skinning weights as neural implicit functions that are directly learned from data. This representation enables us to handle a wide variety of different pedestrian shapes and poses without explicitly fitting a human parametric body model, allowing us to handle a wider range of human geometries and topologies. We demonstrate the effectiveness of our approach on various datasets and show that our reconstructions outperform existing state-of-the-art methods. Furthermore, our re-animation experiments show that we can generate 3D human animations at scale from a single RGB image (and/or an optional LiDAR sweep) as input.
翻訳日:2021-03-27 20:18:19 公開日:2021-01-17
# 詳細認識型階層型深層ネットワークに基づく遺物スケッチ抽出フレームワーク

A relic sketch extraction framework based on detail-aware hierarchical deep network ( http://arxiv.org/abs/2101.06616v1 )

ライセンス: Link先を確認
Jinye Peng, Jiaxin Wang, Jun Wang, Erlei Zhang, Qunxi Zhang, Yongqin Zhang, Xianlin Peng, Kai Yu(参考訳) 絵画遺物の復元過程の第一段階として、スケッチ抽出は文化研究において重要な役割を担っている。 しかし、スケッチ抽出は深刻な疾患の腐食に悩まされ、破線やノイズが発生する。 これらの問題を克服するために,絵の遺構の深層学習に基づく階層的スケッチ抽出フレームワークを提案する。 スケッチ抽出過程を粗品抽出と細品抽出の2段階に分けて設計する。 そこで本研究では,fdog(flow-based difference-of-gaussi an)エッジ検出とbdcn(bi-directional cascade network)を統合した,より詳細な双方向カスケードネットワークを開発した。 トレーニング済みの戦略を使用して、ディープネットワークトレーニングのための大規模なデータセットの要求を減らし、FDoGから事前の知識によって詳細な特性を学ぶようにネットワークに誘導する。 そこで我々は,病気のノイズを効果的に除去し,スケッチを洗練するために,新しいマルチスケールU-Net(MSU-Net)を設計する。 具体的には、MSU-Netのデコーダ内の複数の中間層から抽出された全ての特徴をスケッチ述語に融合させる。 実験の結果,提案手法は他の7つの最先端手法よりも視覚的,定量的に優れ,複雑な背景にも対処できることがわかった。

As the first step of the restoration process of painted relics, sketch extraction plays an important role in cultural research. However, sketch extraction suffers from serious disease corrosion, which results in broken lines and noise. To overcome these problems, we propose a deep learning-based hierarchical sketch extraction framework for painted cultural relics. We design the sketch extraction process into two stages: coarse extraction and fine extraction. In the coarse extraction stage, we develop a novel detail-aware bi-directional cascade network that integrates flow-based difference-of-Gaussi ans (FDoG) edge detection and a bi-directional cascade network (BDCN) under a transfer learning framework. It not only uses the pre-trained strategy to extenuate the requirements of large datasets for deep network training but also guides the network to learn the detail characteristics by the prior knowledge from FDoG. For the fine extraction stage, we design a new multiscale U-Net (MSU-Net) to effectively remove disease noise and refine the sketch. Specifically, all the features extracted from multiple intermediate layers in the decoder of MSU-Net are fused for sketch predication. Experimental results showed that the proposed method outperforms the other seven state-of-the-art methods in terms of visual and quantitative metrics and can also deal with complex backgrounds.
翻訳日:2021-03-27 20:17:24 公開日:2021-01-17
# クロスプロトコールネットワークトレーニングによるロバスト顔ランドマーク位置推定のための分離バッチ正規化

Separable Batch Normalization for Robust Facial Landmark Localization with Cross-protocol Network Training ( http://arxiv.org/abs/2101.06663v1 )

ライセンス: Link先を確認
Shuangping Jin, Zhenhua Feng, Wankou Yang, Josef Kittler(参考訳) 大規模で多様でバランスの取れたトレーニングデータが、ディープニューラルネットワークトレーニングの成功の鍵である。 しかしながら、顔のランドマークのローカライゼーションで使用される既存の公開データセットは通常、他のコンピュータビジョンタスクよりもはるかに小さい。 多様性とバランスの取れたトレーニングサンプルを持たない小さなデータセットは、ディープネットワークのトレーニングを効果的にサポートできない。 以上の課題に対処するため, 顔ランドマークのロバスト化のためのクロスプロトコールネットワークトレーニング(CNT)戦略を用いた, セパブルバッチ正規化(SepBN)モジュールを提案する。 すべてのトレーニングデータを使用して単一のパラメータのセットを計算する標準BNレイヤとは異なり、SepBNはトレーニングデータセットのサンプルは異なるサブドメインに属する可能性があると考えている。 そのため、提案したSepBNモジュールは複数のパラメータセットを使用し、それぞれが特定のサブドメインに対応する。 しかしながら、テストサンプルのサブドメインが不明であるため、推論段階における適切なブランチの選択は難しい課題である。 この難易度を緩和するために,各枝に異なる重みを割り当て,自動選択を効果的に行う新しい注意機構を提案する。 さらに,提案するcnt戦略は,異なる顔ランドマークアノテーションシステムを持つ複数のデータセットを用いてネットワークを訓練し,その性能を高め,ネットワークの一般化能力を高める。 いくつかのよく知られたデータセットで得られた実験結果は,提案手法の有効性を示している。

A big, diverse and balanced training data is the key to the success of deep neural network training. However, existing publicly available datasets used in facial landmark localization are usually much smaller than those for other computer vision tasks. A small dataset without diverse and balanced training samples cannot support the training of a deep network effectively. To address the above issues, this paper presents a novel Separable Batch Normalization (SepBN) module with a Cross-protocol Network Training (CNT) strategy for robust facial landmark localization. Different from the standard BN layer that uses all the training data to calculate a single set of parameters, SepBN considers that the samples of a training dataset may belong to different sub-domains. Accordingly, the proposed SepBN module uses multiple sets of parameters, each corresponding to a specific sub-domain. However, the selection of an appropriate branch in the inference stage remains a challenging task because the sub-domain of a test sample is unknown. To mitigate this difficulty, we propose a novel attention mechanism that assigns different weights to each branch for automatic selection in an effective style. As a further innovation, the proposed CNT strategy trains a network using multiple datasets having different facial landmark annotation systems, boosting the performance and enhancing the generalization capacity of the trained network. The experimental results obtained on several well-known datasets demonstrate the effectiveness of the proposed method.
翻訳日:2021-03-27 20:17:03 公開日:2021-01-17
# マルチチャネル畳み込みニューラルネットワークを用いたヒューマンアクティビティ認識

Human Activity Recognition Using Multichannel Convolutional Neural Network ( http://arxiv.org/abs/2101.06709v1 )

ライセンス: Link先を確認
Niloy Sikder, Md. Sanaullah Chowdhury, Abu Shamim Mohammad Arif, Abdullah-Al Nahid(参考訳) HAR(Human Activity Recognition)とは、人間の行動を認識する機械の能力のこと。 HARは、コンピュータビジョンを利用して異質な人間の行動の意味を理解する高度な機械学習と人工知能技術の顕著な応用である。 本稿では,実際の動作から収集したデータに基づいて,人間の行動を識別できる教師あり学習法について述べる。 HARで作業する際の最大の課題は、活動信号のサイクロ定常性に伴う困難を克服することである。 本研究では、収集した人間の行動信号の周波数と電力特性を利用した2チャンネル畳み込みニューラルネットワーク(CNN)に基づくHAR分類モデルを提案する。 このモデルはUCI HARデータセットでテストされ、95.25%の分類精度が得られた。 このアプローチは、バイオメディカルシグナルに基づく人間の活動の認識に関するさらなる研究に役立つだろう。

Human Activity Recognition (HAR) simply refers to the capacity of a machine to perceive human actions. HAR is a prominent application of advanced Machine Learning and Artificial Intelligence techniques that utilize computer vision to understand the semantic meanings of heterogeneous human actions. This paper describes a supervised learning method that can distinguish human actions based on data collected from practical human movements. The primary challenge while working with HAR is to overcome the difficulties that come with the cyclostationary nature of the activity signals. This study proposes a HAR classification model based on a two-channel Convolutional Neural Network (CNN) that makes use of the frequency and power features of the collected human action signals. The model was tested on the UCI HAR dataset, which resulted in a 95.25% classification accuracy. This approach will help to conduct further researches on the recognition of human activities based on their biomedical signals.
翻訳日:2021-03-27 20:16:24 公開日:2021-01-17
# マルチチャネル畳み込みニューラルネットワークを用いた表面筋電図信号に基づく不均質手振り分類

Heterogeneous Hand Guise Classification Based on Surface Electromyographic Signals Using Multichannel Convolutional Neural Network ( http://arxiv.org/abs/2101.06715v1 )

ライセンス: Link先を確認
Niloy Sikder, Abu Shamim Mohammad Arif, Abdullah-Al Nahid(参考訳) 筋電図(Electromyography、EMG)は、筋内で発生する生体電気活動を測定する方法である。 EMGは通常、標的領域の神経や筋肉の異常を検出するために行われる。 機械学習の分野での最近の進歩により、EMG信号を使って機械に人間の動作の複雑な特性を教えることができる。 現代の機械は、多数の人間の活動を検出し、それらの活動によって生成されたEMG信号のみに基づいて区別することができる。 しかし、このタスクを成功させるには、主にEMG信号を解析するために機械が使用する学習技術に依存し、最新のアルゴリズムでさえも欠陥のない分類にはならない。 本研究では,電力領域に現れる特性によって表面EMG信号を解釈する多チャンネル畳み込みニューラルネットワーク(CNN)を用いた新しい分類法について述べる。 提案手法は確立されたEMGデータセットで検証され,高い分類精度が得られた。 この学習モデルは、研究者が様々な手の動きを検知し、その後模倣する義肢を開発するのに役立つ。

Electromyography (EMG) is a way of measuring the bioelectric activities that take place inside the muscles. EMG is usually performed to detect abnormalities within the nerves or muscles of a target area. The recent developments in the field of Machine Learning allow us to use EMG signals to teach machines the complex properties of human movements. Modern machines are capable of detecting numerous human activities and distinguishing among them solely based on the EMG signals produced by those activities. However, success in accomplishing this task mostly depends on the learning technique used by the machine to analyze EMG signals; and even the latest algorithms do not result in flawless classification. In this study, a novel classification method has been described employing a multichannel Convolutional Neural Network (CNN) that interprets surface EMG signals by the properties they exhibit in the power domain. The proposed method was tested on a well-established EMG dataset, and the result yields very high classification accuracy. This learning model will help researchers to develop prosthetic arms capable of detecting various hand gestures to mimic them afterwards.
翻訳日:2021-03-27 20:16:11 公開日:2021-01-17
# カテゴリーグループ化と多粒度分岐によるアパレル検出の改善

Improving Apparel Detection with Category Grouping and Multi-grained Branches ( http://arxiv.org/abs/2101.06770v1 )

ライセンス: Link先を確認
Qing Tian, Sampath Chanda, K C Amit Kumar, Douglas Gray(参考訳) 正確な物体検出器の訓練は高価で時間を要する。 主な理由は、全ての画像の全てのインスタンスに対して、アノテートカテゴリとバウンディングボックス情報という、退屈なラベル付けプロセスにある。 本稿では,ディープオブジェクト検出器の性能向上を,余分なラベリングを伴わずに検討する。 まず、高視覚的および意味的類似性の既存のカテゴリを一つのスーパーカテゴリ(またはスーパークラス)としてまとめる。 そして,この階層的カテゴリの知識を利用して,マルチグラニュラルRCNNトップブランチを用いてオブジェクトをよりよく検出する方法について検討する。 deepfashion2とopenimagesv4-clothin gの実験結果から,複数粒度の枝を持つ検出ヘッドは,openimagesv4-clothi ngのdeepfashion2の2.3マップと2.5マップの全体的な性能を,追加の時間を要するアノテーションなしで向上できることが分かった。 さらに重要なことは、トレーニングサンプルが少ないクラスは、スーパークラスグループによる提案されたマルチグラウンドヘッドの恩恵を受ける傾向にある。 特に,DeepFashion2とOpenImagesV4-Clothin gでは,最後の30%(トレーニングサンプル数)のmAPを2.6と4.6に改善する。

Training an accurate object detector is expensive and time-consuming. One main reason lies in the laborious labeling process, i.e., annotating category and bounding box information for all instances in every image. In this paper, we examine ways to improve performance of deep object detectors without extra labeling. We first explore to group existing categories of high visual and semantic similarities together as one super category (or, a superclass). Then, we study how this knowledge of hierarchical categories can be exploited to better detect object using multi-grained RCNN top branches. Experimental results on DeepFashion2 and OpenImagesV4-Clothin g reveal that the proposed detection heads with multi-grained branches can boost the overall performance by 2.3 mAP for DeepFashion2 and 2.5 mAP for OpenImagesV4-Clothin g with no additional time-consuming annotations. More importantly, classes that have fewer training samples tend to benefit more from the proposed multi-grained heads with superclass grouping. In particular, we improve the mAP for last 30% categories (in terms of training sample number) by 2.6 and 4.6 for DeepFashion2 and OpenImagesV4-Clothin g, respectively.
翻訳日:2021-03-27 20:15:54 公開日:2021-01-17
# 変形可能な微細化による電顕画像の時空間適応補間

Temporal Spatial-Adaptive Interpolation with Deformable Refinement for Electron Microscopic Images ( http://arxiv.org/abs/2101.06771v1 )

ライセンス: Link先を確認
Zejin Wang, Guodong Sun, Lina Zhang, Guoqing Li, Hua Han(参考訳) 近年,フローベース手法はビデオフレーム補間において有望な成功を収めている。 しかし、電子顕微鏡(EM)画像は、不安定な画質、低いPSNR、無秩序な変形に悩まされている。 既存の流れに基づく補間法は、各位置のユニークなオフセットを予測できるため、em画像の光学的流れを正確に計算することはできない。 これらの課題を克服するため,我々は,補間特徴を粗い方法で段階的に合成するem画像用補間フレームワークを提案する。 まず,時間空間適応型補間モジュール(TSA)による中間的特徴の欠落を抽出する。 TSA補間モジュールは時間的文脈を集約し、提案した空間適応ブロックを用いて空間的特徴を適応的にサンプリングする。 第2に,重畳変形可能な改良ブロック(SDRB)を導入し,入力フレームの整合位置と関連する特徴をフィードバック機構で認識し,再構成品質をさらに向上する。 実験の結果,従来の研究と比較して,定量的にも定性的にも,アプローチの優れた性能を示した。

Recently, flow-based methods have achieved promising success in video frame interpolation. However, electron microscopic (EM) images suffer from unstable image quality, low PSNR, and disorderly deformation. Existing flow-based interpolation methods cannot precisely compute optical flow for EM images since only predicting each position's unique offset. To overcome these problems, we propose a novel interpolation framework for EM images that progressively synthesizes interpolated features in a coarse-to-fine manner. First, we extract missing intermediate features by the proposed temporal spatial-adaptive (TSA) interpolation module. The TSA interpolation module aggregates temporal contexts and then adaptively samples the spatial-related features with the proposed residual spatial adaptive block. Second, we introduce a stacked deformable refinement block (SDRB) further enhance the reconstruction quality, which is aware of the matching positions and relevant features from input frames with the feedback mechanism. Experimental results demonstrate the superior performance of our approach compared to previous works, both quantitatively and qualitatively.
翻訳日:2021-03-27 20:15:27 公開日:2021-01-17
# 乱れたマスクバックプロパゲーションによる属性マップの生成

Generating Attribution Maps with Disentangled Masked Backpropagation ( http://arxiv.org/abs/2101.06773v1 )

ライセンス: Link先を確認
Adria Ruiz, Antonio Agudo and Francesc Moreno(参考訳) 帰属マップの可視化は、畳み込みニューラルネットワークの基盤となる推論プロセスを理解する最も効果的な手法の1つである。 この課題では、最終的なネットワーク出力への寄与に関連する各画像画素のスコアを計算することを目的としている。 本稿では,reluネットワークの分割線形性を利用して,モデル関数を異なる線形写像に分解する新しい勾配ベース手法であるdisentangled masked backpropagation (dmbp)を提案する。 この分解は、バックプロパゲーション中の各フィルタの寄与をマスキングする一連の変数を学習することにより、帰属写像から正、負、ニュアサンス因子を分離することを目的としている。 標準アーキテクチャ(ResNet50とVGG16)とベンチマークデータセット(PASCAL VOCとImageNet)の徹底的な評価は、DMBPが従来のアプローチよりも視覚的に解釈可能な属性マップを生成することを示している。 さらに,本手法で作成した地図は,最終的なネットワーク出力に対する各画素の真の寄与とより一致していることを示す。

Attribution map visualization has arisen as one of the most effective techniques to understand the underlying inference process of Convolutional Neural Networks. In this task, the goal is to compute an score for each image pixel related with its contribution to the final network output. In this paper, we introduce Disentangled Masked Backpropagation (DMBP), a novel gradient-based method that leverages on the piecewise linear nature of ReLU networks to decompose the model function into different linear mappings. This decomposition aims to disentangle the positive, negative and nuisance factors from the attribution maps by learning a set of variables masking the contribution of each filter during back-propagation. A thorough evaluation over standard architectures (ResNet50 and VGG16) and benchmark datasets (PASCAL VOC and ImageNet) demonstrates that DMBP generates more visually interpretable attribution maps than previous approaches. Additionally, we quantitatively show that the maps produced by our method are more consistent with the true contribution of each pixel to the final network output.
翻訳日:2021-03-27 20:15:13 公開日:2021-01-17
# モーメント法による潜在共同設立者の因果効果の解明

Disentangling Observed Causal Effects from Latent Confounders using Method of Moments ( http://arxiv.org/abs/2101.06614v1 )

ライセンス: Link先を確認
Anqi Liu, Hao Liu, Tongxin Li, Saeed Karimi-Bidhendi, Yisong Yue, Anima Anandkumar(参考訳) 変数群間の因果関係の完全な集合を発見することは、教師なし学習の問題である。 多くの場合、この課題は潜伏または隠れた共同設立者がいるという事実によって複合化される。 観測データのみが利用できる場合、問題は不適切である。 因果関係は 強いモデリングの前提がなければ 特定できない 介入が利用可能であれば、穏やかな仮定の下で、識別性と学習可能性に関する保証を提供する。 線形構造方程式モデル (SEM) と独立な潜伏因子と観測変数間の有向非巡回グラフ (DAG) の関係を仮定する。 潜在変数推論は独立成分分析(ICA)に基づいており、このモデルをSEM-ICAと呼ぶ。 我々はモーメント原理を用いてモデル識別可能性を確立する。 我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。 そこで我々は,因果発見と潜在変数推論の合同問題に取り組むための原理的アプローチを提案する。

Discovering the complete set of causal relations among a group of variables is a challenging unsupervised learning problem. Often, this challenge is compounded by the fact that there are latent or hidden confounders. When only observational data is available, the problem is ill-posed, i.e. the causal relationships are non-identifiable unless strong modeling assumptions are made. When interventions are available, we provide guarantees on identifiability and learnability under mild assumptions. We assume a linear structural equation model (SEM) with independent latent factors and directed acyclic graph (DAG) relationships among the observables. Since the latent variable inference is based on independent component analysis (ICA), we call this model SEM-ICA. We use the method of moments principle to establish model identifiability. We develop efficient algorithms based on coupled tensor decomposition with linear constraints to obtain scalable and guaranteed solutions. Thus, we provide a principled approach to tackling the joint problem of causal discovery and latent variable inference.
翻訳日:2021-03-27 20:14:55 公開日:2021-01-17
# Kubernetes指向エッジクラウドシステムのための階層型学習ベーススケジューリング

Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud System ( http://arxiv.org/abs/2101.06582v1 )

ライセンス: Link先を確認
Yiwen Han and Shihao Shen and Xiaofei Wang and Shiqiang Wang and Victor C.M. Leung(参考訳) Kubernetes(k8s)は、分散エッジとクラウドをマージする可能性があるが、エッジクラウドシステムに特化したスケジューリングフレームワークがない。 さらに、ヘテロジニアスリソースの階層的な分布と要求とリソース間の複雑な依存関係により、k8s指向のエッジクラウドシステムのモデリングとスケジューリングが特に高度になる。 本稿では,このようなエッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを導入し,要求処理の長期スループットを向上させる。 まず,エッジクラスタ内での分散要求ディスパッチと動的ディスパッチ空間を実現するために,協調型マルチエージェントアクタ批判アルゴリズムを設計する。 第2に,多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込み,その埋め込み結果を複数のポリシネットワークと組み合わせることで,ステップワイズスケジューリングによるオーケストレーションの次元性を低減する。 最後に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリング機構を採用し、上記のアルゴリズムをネイティブk8sコンポーネントと互換性のある実装設計を提案する。 実際のワークロードトレースを使用した実験では,要求到着パターンやシステムスケールに関わらず,KaiSが適切なスケジューリングポリシを学習できることが示されている。 さらにkaisは、ベースラインと比較してスケジューリングコストを34.7%削減しながら、平均システムスループットを14.3%向上させることができる。

Kubernetes (k8s) has the potential to merge the distributed edge and the cloud but lacks a scheduling framework specifically for edge-cloud systems. Besides, the hierarchical distribution of heterogeneous resources and the complex dependencies among requests and resources make the modeling and scheduling of k8s-oriented edge-cloud systems particularly sophisticated. In this paper, we introduce KaiS, a learning-based scheduling framework for such edge-cloud systems to improve the long-term throughput rate of request processing. First, we design a coordinated multi-agent actor-critic algorithm to cater to decentralized request dispatch and dynamic dispatch spaces within the edge cluster. Second, for diverse system scales and structures, we use graph neural networks to embed system state information, and combine the embedding results with multiple policy networks to reduce the orchestration dimensionality by stepwise scheduling. Finally, we adopt a two-time-scale scheduling mechanism to harmonize request dispatch and service orchestration, and present the implementation design of deploying the above algorithms compatible with native k8s components. Experiments using real workload traces show that KaiS can successfully learn appropriate scheduling policies, irrespective of request arrival patterns and system scales. Moreover, KaiS can enhance the average system throughput rate by 14.3% while reducing scheduling cost by 34.7% compared to baselines.
翻訳日:2021-03-27 20:14:41 公開日:2021-01-17
# 並列微分進化の性能解析と改善

Performance Analysis and Improvement of Parallel Differential Evolution ( http://arxiv.org/abs/2101.06599v1 )

ライセンス: Link先を確認
Pan Zibin(参考訳) 微分進化 (DE) は、主に連続領域における大域的最適化問題を解くために用いられる効果的な大域的進化最適化アルゴリズムである。 この分野では、より優れたグローバルソリューションを見つけるためにDreの能力向上に研究者はより注意を払うが、Dreの計算性能は特に問題スケールがかなり大きい場合に非常に興味深い側面である。 本稿では,Math Kernel Library (MKL) とCompute Unified Device Architecture (CUDA) で容易に実行できる DE の並列計算設計について分析する。 次に、指数的クロスオーバー演算子の本質を説明し、より優れた並列計算には使用できないことを指摘した。 その後、MKL/CUDAと並列に実行できる新しい指数的クロスオーバー演算子(NEC)を提案する。 次に、拡張実験により、新しいクロスオーバー演算子がdeを大幅に高速化できることが示されている。 最後に、新しい並列de構造をテストし、前者がずっと高速であることを示します。

Differential evolution (DE) is an effective global evolutionary optimization algorithm using to solve global optimization problems mainly in a continuous domain. In this field, researchers pay more attention to improving the capability of DE to find better global solutions, however, the computational performance of DE is also a very interesting aspect especially when the problem scale is quite large. Firstly, this paper analyzes the design of parallel computation of DE which can easily be executed in Math Kernel Library (MKL) and Compute Unified Device Architecture (CUDA). Then the essence of the exponential crossover operator is described and we point out that it cannot be used for better parallel computation. Later, we propose a new exponential crossover operator (NEC) that can be executed parallelly with MKL/CUDA. Next, the extended experiments show that the new crossover operator can speed up DE greatly. In the end, we test the new parallel DE structure, illustrating that the former is much faster.
翻訳日:2021-03-27 20:14:19 公開日:2021-01-17
# 大規模MIMO CSIフィードバックのための集約ネットワーク

Aggregated Network for Massive MIMO CSI Feedback ( http://arxiv.org/abs/2101.06618v1 )

ライセンス: Link先を確認
Zhilin Lu, Hongyi He, Zhengyang Duan, Jintao Wang, Jian Song(参考訳) 周波数分割二重化(FDD)モードでは、ユーザ機器から基地局にチャネル状態情報(CSI)を送信する必要がある。 ダウンリンクcsiは、大量多入力多重出力(mimo)システムが潜在的なゲインを取得するために必須である。 近年,MIMO CSIフィードバックタスクにはディープラーニングが広く採用されており,従来の圧縮センシング手法と比較して有効であることが証明されている。 本稿では,ネットワークアグリゲーションとパラメトリックRuLUアクティベーションによるフィードバック性能の向上を目的として,ACRNetという新しいネットワークを設計する。 さらに,CSIフィードバックタスクにおいて,ネットワークアーキテクチャを性能向上と引き換えに拡張する有効な手法について論じる。 実験の結果、ACRNetは過去の最先端フィードバックネットワークの負荷を余分な情報なしで上回ることがわかった。

In frequency division duplexing (FDD) mode, it is necessary to send the channel state information (CSI) from user equipment to base station. The downlink CSI is essential for the massive multiple-input multiple-output (MIMO) system to acquire the potential gain. Recently, deep learning is widely adopted to massive MIMO CSI feedback task and proved to be effective compared with traditional compressed sensing methods. In this paper, a novel network named ACRNet is designed to boost the feedback performance with network aggregation and parametric RuLU activation. Moreover, valid approach to expand the network architecture in exchange of better performance is first discussed in CSI feedback task. Experiments show that ACRNet outperforms loads of previous state-of-the-art feedback networks without any extra information.
翻訳日:2021-03-27 20:13:34 公開日:2021-01-17
# 強化学習に基づく複雑な運転シナリオのための安全階層計画フレームワーク

A Safe Hierarchical Planning Framework for Complex Driving Scenarios based on Reinforcement Learning ( http://arxiv.org/abs/2101.06778v1 )

ライセンス: Link先を確認
Jinning Li, Liting Sun, Masayoshi Tomizuka and Wei Zhan(参考訳) 自動運転車は様々な交通状況に対処し、安全かつ効率的な意思決定と操作を行う必要がある。 しかしながら、一つの最適化/サンプリングベースのモーションプランナーは、特に近くに多数の対話型車両がある場合、リアルタイムで安全な軌道を効率的に生成できない。 一方,エンド・ツー・エンドの学習方法は,結果の安全性を保証できない。 そこで本研究では,低レベルセーフコントローラ群と高レベル強化学習アルゴリズム(h-ctrl)を低レベルコントローラのコーディネータとして用いた階層的行動計画フレームワークを提案する。 低レベルの最適化/サンプリングベースのコントローラによって安全性が保証され、高レベルの強化学習アルゴリズムはH-CtRLを適応的で効率的な行動プランナにする。 提案アルゴリズムを訓練し,テストするために,実世界のデータセットを用いて交通シーンを再現できるシミュレータを構築した。 提案したH-CtRLは,安全性と効率の両面で性能を満足して,様々な現実的なシミュレーションシナリオにおいて有効であることが証明された。

Autonomous vehicles need to handle various traffic conditions and make safe and efficient decisions and maneuvers. However, on the one hand, a single optimization/samplin g-based motion planner cannot efficiently generate safe trajectories in real time, particularly when there are many interactive vehicles near by. On the other hand, end-to-end learning methods cannot assure the safety of the outcomes. To address this challenge, we propose a hierarchical behavior planning framework with a set of low-level safe controllers and a high-level reinforcement learning algorithm (H-CtRL) as a coordinator for the low-level controllers. Safety is guaranteed by the low-level optimization/samplin g-based controllers, while the high-level reinforcement learning algorithm makes H-CtRL an adaptive and efficient behavior planner. To train and test our proposed algorithm, we built a simulator that can reproduce traffic scenes using real-world datasets. The proposed H-CtRL is proved to be effective in various realistic simulation scenarios, with satisfying performance in terms of both safety and efficiency.
翻訳日:2021-03-27 20:13:22 公開日:2021-01-17
# 非同期マルチビューSLAM

Asynchronous Multi-View SLAM ( http://arxiv.org/abs/2101.06562v1 )

ライセンス: Link先を確認
Anqi Joyce Yang, Can Cui, Ioan Andrei B\^arsan, Raquel Urtasun, Shenlong Wang(参考訳) 既存のマルチカメラslamシステムは全カメラの同期シャッターを想定しており、実際にはそうではないことが多い。 本研究では,非同期センサ観測を考慮した汎用マルチカメラslam方式を提案する。 我々のフレームワークは、トラッキング、ローカルマッピング、ループクローズの間、非同期多フレーム間で情報を関連付けるために、連続時間モーションモデルを統合する。 評価のために、非同期マルチカメラロボットプラットフォームを用いて482kmの走行を記録できるSLAMデータセットであるAMV-Benchを収集した。 AMV-Benchは、以前のマルチビューHD屋外SLAMデータセットよりも桁違いに大きく、多様な、挑戦的な動きと環境をカバーする。 実験では, 非同期センサモデリングの必要性を強調し, 複数のカメラの使用が, 挑戦的な屋外シーンにおいて, 堅牢かつ正確なSLAMに対して重要であることを示す。

Existing multi-camera SLAM systems assume synchronized shutters for all cameras, which is often not the case in practice. In this work, we propose a generalized multi-camera SLAM formulation which accounts for asynchronous sensor observations. Our framework integrates a continuous-time motion model to relate information across asynchronous multi-frames during tracking, local mapping, and loop closing. For evaluation, we collected AMV-Bench, a challenging new SLAM dataset covering 482 km of driving recorded using our asynchronous multi-camera robotic platform. AMV-Bench is over an order of magnitude larger than previous multi-view HD outdoor SLAM datasets, and covers diverse and challenging motions and environments. Our experiments emphasize the necessity of asynchronous sensor modeling, and show that the use of multiple cameras is critical towards robust and accurate SLAM in challenging outdoor scenes.
翻訳日:2021-03-27 20:13:04 公開日:2021-01-17
# スマート環境における行動予測器のプライバシー保護学習

Privacy-Preserving Learning of Human Activity Predictors in Smart Environments ( http://arxiv.org/abs/2101.06564v1 )

ライセンス: Link先を確認
Sharare Zehtabian, Siavash Khodadadeh, Ladislau B\"ol\"oni and Damla Turgut(参考訳) 障害者や高齢者が行う日常活動は、スマート環境によって監視することができ、取得したデータは、ユーザの行動の予測モデルを学ぶために使用することができる。 学習を高速化するため、複数の研究者が複数のユーザーのデータを使用する協調学習システムを設計した。 しかし、高齢者や障害者の日常活動の開示はプライバシー上の懸念を生じさせる。 本稿では,最先端のディープニューラルネットワークに基づく手法を用いて,局所的,集中的,連合的な学習環境における人間の活動モデルを予測する。 我々の研究の新たな側面は、学習者が利用できるデータの時間的進化と、利用者が共有するデータを注意深く追跡することである。 ユーザがすべてのデータを集中学習者と共有する以前の作業とは対照的に,プライバシの保護を目的としたユーザも検討する。 したがって、共有データを最小化しながら予測精度の目標を達成するために、それぞれのアプローチを選択する。 ユーザがデータを開示する前に決定を下すのを助けるために、機械学習を使用して、ユーザが協調学習の恩恵を受ける程度を予測する。 実世界のデータに対するアプローチを検証する。

The daily activities performed by a disabled or elderly person can be monitored by a smart environment, and the acquired data can be used to learn a predictive model of user behavior. To speed up the learning, several researchers designed collaborative learning systems that use data from multiple users. However, disclosing the daily activities of an elderly or disabled user raises privacy concerns. In this paper, we use state-of-the-art deep neural network-based techniques to learn predictive human activity models in the local, centralized, and federated learning settings. A novel aspect of our work is that we carefully track the temporal evolution of the data available to the learner and the data shared by the user. In contrast to previous work where users shared all their data with the centralized learner, we consider users that aim to preserve their privacy. Thus, they choose between approaches in order to achieve their goals of predictive accuracy while minimizing the shared data. To help users make decisions before disclosing any data, we use machine learning to predict the degree to which a user would benefit from collaborative learning. We validate our approaches on real-world data.
翻訳日:2021-03-27 20:12:51 公開日:2021-01-17
# tsec:実験制約下におけるオンライン実験フレームワーク

TSEC: a framework for online experimentation under experimental constraints ( http://arxiv.org/abs/2101.06592v1 )

ライセンス: Link先を確認
Simon Mak, Yuanshuo Zhou, Lavonne Hoang, C. F. Jeff Wu(参考訳) トンプソンサンプリング(Thompson sample)は、多武装バンディット問題を解決するための一般的なアルゴリズムであり、ウェブサイト設計からポートフォリオ最適化まで幅広いアプリケーションに適用されている。 しかし、そのようなアプリケーションでは、選択数(または腕)$N$は大きいため、適応的な決定を行うために必要なデータは高価な実験を必要とする。 すると、各期間内で$k \ll n$ armsの小さなサブセットだけを実験するという制約に直面し、従来のトンプソンサンプリングでは問題となる。 我々は、このいわゆる「武器予算制約」に対処する実験制約(TSEC)に基づく新しいトンプソンサンプリングを提案する。 tsecは、効果階層を優先したベイズ相互作用モデルを使用して、異なる腕の報酬間の相関をモデル化する。 この適合したモデルはトンプソンサンプリングに統合され、実験用の優れたアームのサブセットを共同識別し、これらのアームにリソースを割り当てる。 我々は,arm予算制約を伴う2つの問題に対するtsecの有効性を実証する。 ひとつはWebサイト最適化のシミュレーションで、TSECは業界ベンチマークよりも顕著な改善を示している。 2つ目は、TSECが標準投資戦略よりもより一貫性と富の蓄積を提供する業界ベースの為替取引ファンドにおけるポートフォリオ最適化アプリケーションである。

Thompson sampling is a popular algorithm for solving multi-armed bandit problems, and has been applied in a wide range of applications, from website design to portfolio optimization. In such applications, however, the number of choices (or arms) $N$ can be large, and the data needed to make adaptive decisions require expensive experimentation. One is then faced with the constraint of experimenting on only a small subset of $K \ll N$ arms within each time period, which poses a problem for traditional Thompson sampling. We propose a new Thompson Sampling under Experimental Constraints (TSEC) method, which addresses this so-called "arm budget constraint". TSEC makes use of a Bayesian interaction model with effect hierarchy priors, to model correlations between rewards on different arms. This fitted model is then integrated within Thompson sampling, to jointly identify a good subset of arms for experimentation and to allocate resources over these arms. We demonstrate the effectiveness of TSEC in two problems with arm budget constraints. The first is a simulated website optimization study, where TSEC shows noticeable improvements over industry benchmarks. The second is a portfolio optimization application on industry-based exchange-traded funds, where TSEC provides more consistent and greater wealth accumulation over standard investment strategies.
翻訳日:2021-03-27 20:12:34 公開日:2021-01-17
# 遅延補償のための誘導並列化確率勾配降下法

Guided parallelized stochastic gradient descent for delay compensation ( http://arxiv.org/abs/2101.07259v1 )

ライセンス: Link先を確認
Anuraganand Sharma(参考訳) 確率勾配勾配(SGD)アルゴリズムとそのバリエーションは、ニューラルネットワークモデルの最適化に効果的に使用されている。 しかし、ビッグデータの急速な成長とディープラーニングにより、SGDはエラー関数の逐次最適化の自然な振る舞いのため、もはや最も適した選択肢ではない。 これにより、非同期SGD(ASGD)や同期SGD(SSGD)といった並列SGDアルゴリズムが開発され、ディープニューラルネットワークのトレーニングが行われている。 しかし、パラメータ(重み付き)更新の遅延のため、大きなばらつきが生じる。 提案アルゴリズムでは,この遅延に対処し,その影響を最小限に抑える。 我々は,遅延による予測不可能な偏差を補正することにより,一貫した例に収束を促すガイド付きSGD(gSGD)を採用した。 収束速度もA/SSGDと似ているが、遅延を補うにはいくつかの追加(並列)処理が必要である。 実験の結果,提案手法は,分類精度の向上に要する遅延の影響を軽減することができることがわかった。 SSGDによるガイド付きアプローチは、シーケンシャルSGDよりも明らかに優れており、ベンチマークデータセットのシーケンシャルSGDに近い精度も達成している。

Stochastic gradient descent (SGD) algorithm and its variations have been effectively used to optimize neural network models. However, with the rapid growth of big data and deep learning, SGD is no longer the most suitable choice due to its natural behavior of sequential optimization of the error function. This has led to the development of parallel SGD algorithms, such as asynchronous SGD (ASGD) and synchronous SGD (SSGD) to train deep neural networks. However, it introduces a high variance due to the delay in parameter (weight) update. We address this delay in our proposed algorithm and try to minimize its impact. We employed guided SGD (gSGD) that encourages consistent examples to steer the convergence by compensating the unpredictable deviation caused by the delay. Its convergence rate is also similar to A/SSGD, however, some additional (parallel) processing is required to compensate for the delay. The experimental results demonstrate that our proposed approach has been able to mitigate the impact of delay for the quality of classification accuracy. The guided approach with SSGD clearly outperforms sequential SGD and even achieves the accuracy close to sequential SGD for some benchmark datasets.
翻訳日:2021-03-27 20:12:14 公開日:2021-01-17