このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210302となっている論文です。

PDF登録状況(公開日: 20210302)

TitleAuthorsAbstract論文公表日・翻訳日
# 一般化と記憶:バイアスポテンシャルモデル

Generalization and Memorization: The Bias Potential Model ( http://arxiv.org/abs/2011.14269v4 )

ライセンス: Link先を確認
Hongkang Yang and Weinan E(参考訳) 生成モデルや密度推定器のような確率分布の学習モデルは、学習関数のモデルとは全く異なる振る舞いをする。 1つの例は記憶現象、すなわち、生成的敵ネットワーク(GAN)で起こる経験的分布への究極の収束である。 このため、一般化の問題は教師あり学習よりも微妙である。 バイアスポテンシャルモデルでは, 早期停止が採用されれば, 次元非依存一般化精度は達成可能であり, 長期的には標本を記憶するか, 発散するかのいずれかである。

Models for learning probability distributions such as generative models and density estimators behave quite differently from models for learning functions. One example is found in the memorization phenomenon, namely the ultimate convergence to the empirical distribution, that occurs in generative adversarial networks (GANs). For this reason, the issue of generalization is more subtle than that for supervised learning. For the bias potential model, we show that dimension-independen t generalization accuracy is achievable if early stopping is adopted, despite that in the long term, the model either memorizes the samples or diverges.
翻訳日:2021-06-07 09:07:57 公開日:2021-03-02
# (参考訳) breaking writer's block: 自然言語生成モデルの低コスト微調整 [全文訳有]

Breaking Writer's Block: Low-cost Fine-tuning of Natural Language Generation Models ( http://arxiv.org/abs/2101.03216v2 )

ライセンス: CC BY 4.0
Alexandre Duval, Thomas Lamson, Gael de Leseleuc de Kerouara and Matthias Gall\'e(参考訳) 近年,大規模事前学習言語モデルの微調整による情報抽出課題の解決が標準化されている。 これは、制御された言語生成のための様々な技術に依存している生成タスクには当てはまらない。 本稿では,自然言語生成モデルを用いて,書き手のブロックを解く問題を微調整するシステムについて述べる。 微調整は、左のコンテキストに加えて適切なコンテキストも含むように条件を変更し、また、人間の著者が生成したいという段落のエンティティ、サイズ、ジャンル、要約のオプションリストも変更する。 提案したファインチューニングは,少ないエポックと合計150米ドルのコストで優れた結果が得られる。 システムはwebサービスとしてアクセスでき、すべてのコードがリリースされます。 インターフェースとモデルを展示するビデオも公開されている。

It is standard procedure these days to solve Information Extraction task by fine-tuning large pre-trained language models. This is not the case for generation task, which relies on a variety of techniques for controlled language generation. In this paper, we describe a system that fine-tunes a natural language generation model for the problem of solving Writer's Block. The fine-tuning changes the conditioning to also include the right context in addition to the left context, as well as an optional list of entities, the size, the genre and a summary of the paragraph that the human author wishes to generate. Our proposed fine-tuning obtains excellent results, even with a small number of epochs and a total cost of USD 150. The system can be accessed as a web-service, and all the code is released. A video showcasing the interface and the model is also available.
翻訳日:2021-05-01 15:32:02 公開日:2021-03-02
# 高速逆校正によるディープニューラルネットワークの信頼性予測に向けて

Towards Trustworthy Predictions from Deep Neural Networks with Fast Adversarial Calibration ( http://arxiv.org/abs/2012.10923v2 )

ライセンス: Link先を確認
Christian Tomani, Florian Buettner(参考訳) 現実世界のアプリケーションにおける意思決定を導くAIシステムの広範な受容を促進するために、デプロイされたモデルの信頼性が重要です。 つまり、予測モデルが不確実性を認識し、ドメイン内サンプルとドメイン内シフトの両方に対して適切に調整された(従って信頼できる)予測をもたらすことが重要である。 予測の不確実性を説明する最近の取り組みとしては、トレーニングされたニューラルネットワークの処理ステップ、ベイズニューラルネットワーク、アンサンブルアプローチや実証的ディープラーニングのような非ベイズ的アプローチなどがある。 本稿では,ドメインシフト後に得られたサンプルに対して,信頼度の高い信頼度を得るための効率的かつ汎用的なモデリング手法を提案する。 本稿では,エントロピー増大損失項と逆キャリブレーション損失項を組み合わせた新たなトレーニング戦略を導入し,幅広い領域ドリフトに対する精度の高い技術的信頼性の高い予測が可能であることを示す。 従来提案されてきた様々なデータモダリティ,シーケンスデータ,ネットワークアーキテクチャ,摂動戦略など,幅広いデータセットに対するアプローチを包括的に評価した。 モデリング手法は既存の最先端手法よりも大幅に優れており,ドメインドリフト下での精度の高い予測が得られている。

To facilitate a wide-spread acceptance of AI systems guiding decision making in real-world applications, trustworthiness of deployed models is key. That is, it is crucial for predictive models to be uncertainty-aware and yield well-calibrated (and thus trustworthy) predictions for both in-domain samples as well as under domain shift. Recent efforts to account for predictive uncertainty include post-processing steps for trained neural networks, Bayesian neural networks as well as alternative non-Bayesian approaches such as ensemble approaches and evidential deep learning. Here, we propose an efficient yet general modelling approach for obtaining well-calibrated, trustworthy probabilities for samples obtained after a domain shift. We introduce a new training strategy combining an entropy-encouraging loss term with an adversarial calibration loss term and demonstrate that this results in well-calibrated and technically trustworthy predictions for a wide range of domain drifts. We comprehensively evaluate previously proposed approaches on different data modalities, a large range of data sets including sequence data, network architectures and perturbation strategies. We observe that our modelling approach substantially outperforms existing state-of-the-art approaches, yielding well-calibrated predictions under domain drift.
翻訳日:2021-05-01 04:50:47 公開日:2021-03-02
# グラフレベル外乱検出のための伝搬モデルの問題

Issues with Propagation Based Models for Graph-Level Outlier Detection ( http://arxiv.org/abs/2012.12931v2 )

ライセンス: Link先を確認
Lingxiao Zhao, Leman Akoglu(参考訳) グラフレベルの異常検出 (glod: graph-level outlier detection) は、グラフデータベース内の異常なグラフを識別する作業である。 GNNとグラフカーネルによるグラフ埋め込みは、他のグラフレベルタスク、すなわち、有望な結果を得た。 グラフ分類では、これらのモデルを用いてGLODに取り組む。 本論文は,新しいモデルを開発する代わりに,GLODに伝搬モデルを適用することによる基本的かつ興味深い問題に着目し,一方のクラスを外れ値としてダウンサンプリングしたバイナリグラフ分類データセットを用いて評価する。 モデルのROC-AUC性能は,どのクラスがダウンサンプリングされているかによって大きく変化する。 興味深いことに、これら2つの変種に対するROC-AUCは1に略し、その性能ギャップは伝播の増加とともに増幅される。 本研究では,伝搬モデルにより生成されたグラフ埋め込み空間を慎重に研究し,(1)伝播によって増幅されるクラス内密度の相違,(2)クラス間の重なり合う支持(埋め込みの混合)の2つの駆動因子を求める。 本研究は, グラフ伝搬モデルと分類データセットを用いて, 初めて外乱検出を行った結果に光を当てるものである。

Graph-Level Outlier Detection (GLOD) is the task of identifying unusual graphs within a graph database, which received little attention compared to node-level detection in a single graph. As propagation based graph embedding by GNNs and graph kernels achieved promising results on another graph-level task, i.e. graph classification, we study applying those models to tackle GLOD. Instead of developing new models, this paper identifies and delves into a fundamental and intriguing issue with applying propagation based models to GLOD, with evaluation conducted on repurposed binary graph classification datasets where one class is down-sampled as outlier. We find that ROC-AUC performance of the models change significantly (flips from high to low) depending on which class is down-sampled. Interestingly, ROC-AUCs on these two variants approximately sum to 1 and their performance gap is amplified with increasing propagations. We carefully study the graph embedding space produced by propagation based models and find two driving factors: (1) disparity between within-class densities which is amplified by propagation, and (2) overlapping support (mixing of embeddings) across classes. Our study sheds light onto the effects of using graph propagation based models and classification datasets for outlier detection for the first time.
翻訳日:2021-04-25 18:18:42 公開日:2021-03-02
# (参考訳) メッセージパッシングアルゴリズムのランダムシーケンシャルダイナミクスに対する厳密解 [全文訳有]

Exact solution to the random sequential dynamics of a message passing algorithm ( http://arxiv.org/abs/2101.01571v2 )

ライセンス: CC BY 4.0
Burak \c{C}akmak and Manfred Opper(参考訳) 大規模システム限界におけるランダムな相互作用を持つIsingモデルのメッセージパッシングアルゴリズムのランダムシーケンシャルダイナミクスを解析する。 2時間相関関数と収束速度の厳密な結果を導出する。 静的問題に対する「em de almedia-thouless」の安定性基準は、ランダムなシーケンシャルダイナミクスの大域的な収束に必要かつ十分であることが判明した。

We analyze the random sequential dynamics of a message passing algorithm for Ising models with random interactions in the large system limit. We derive exact results for the two-time correlation functions and the speed of convergence. The {\em de Almedia-Thouless} stability criterion of the static problem is found to be necessary and sufficient for the global convergence of the random sequential dynamics.
翻訳日:2021-04-11 15:31:13 公開日:2021-03-02
# 深層学習に基づく医学的意思決定支援 --皮膚がん診断のケーススタディ-

Deep Learning Based Decision Support for Medicine -- A Case Study on Skin Cancer Diagnosis ( http://arxiv.org/abs/2103.05112v1 )

ライセンス: Link先を確認
Adriano Lucieri, Andreas Dengel and Sheraz Ahmed(参考訳) メラノーマなどの皮膚がんの早期発見は、患者の生存率を高めるために重要である。 皮膚がん検診におけるDeep Learning (DL)-based Decision Support Systems (DSS) の臨床応用は、患者のケアの質を向上させる可能性がある。 医療AIコミュニティにおける作業の大部分は、主に自律的な手術に関連する診断設定に焦点を当てている。 しかし、実際の意思決定支援は、平易な診断を超えて説明を提供するべきである。 本稿では,臨床像,皮膚内視鏡像,病理像から皮膚癌の診断例を例に,医療応用における説明可能なDLベースの意思決定支援に向けた取り組みの概要について述べる。 分析の結果、病理組織学的皮膚像の説明には注意が払われず、現在の研究は視覚関連地図と皮膚内視鏡的特徴同定が支配的であることが明らかとなった。 我々は、将来の作業は、ステークホルダーの認知概念を満たすことに集中し、グローバルなアプローチとローカルなアプローチを組み合わせて多様なモダリティを活用する徹底的な説明を提供するべきであると結論付けている。 さらに、誤った振る舞いの場合にモデルに介入し、ガイドする可能性は、DLベースのDSSなどとしてAIのデプロイを成功させるための大きなステップとして特定されている。

Early detection of skin cancers like melanoma is crucial to ensure high chances of survival for patients. Clinical application of Deep Learning (DL)-based Decision Support Systems (DSS) for skin cancer screening has the potential to improve the quality of patient care. The majority of work in the medical AI community focuses on a diagnosis setting that is mainly relevant for autonomous operation. Practical decision support should, however, go beyond plain diagnosis and provide explanations. This paper provides an overview of works towards explainable, DL-based decision support in medical applications with the example of skin cancer diagnosis from clinical, dermoscopic and histopathologic images. Analysis reveals that comparably little attention is payed to the explanation of histopathologic skin images and that current work is dominated by visual relevance maps as well as dermoscopic feature identification. We conclude that future work should focus on meeting the stakeholder's cognitive concepts, providing exhaustive explanations that combine global and local approaches and leverage diverse modalities. Moreover, the possibility to intervene and guide models in case of misbehaviour is identified as a major step towards successful deployment of AI as DL-based DSS and beyond.
翻訳日:2021-04-05 00:57:00 公開日:2021-03-02
# ブラックボックス学習者における特徴関係の意義評価

Significance tests of feature relevance for a blackbox learner ( http://arxiv.org/abs/2103.04985v1 )

ライセンス: Link先を確認
Ben Dai, Xiaotong Shen, Wei Pan(参考訳) 近年のエキサイティングな発展は、新しい科学的洞察と発見を求める多くの科学分野におけるディープラーニングの普及である。 学習結果を解釈するために、研究者は説明可能な特徴の仮説テストを行い、科学的ドメイン知識を前進させる。 このような状況において、ブラックボックス学習者のテストは、難解なモデル、パラメータ推定の未知の制限分布、高い計算制約のために厳しい課題をもたらす。 本稿では,ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。 1つ目は、モデルフィッティングにおけるパラメータ推定に用いられる推定サンプルとは独立な、推論サンプルの摂動による損失差を評価する。 後者はさらに推論サンプルを2つに分割するが、データの摂動は必要ない。 また、繰り返しサンプル分割に基づく$p$-valuesの順序統計を集約し、それらの組み合わせ版を開発する。 分割率と摂動サイズを推定するために,計算量制約に基づく型 \rom{1} の誤差を適切に制御する適応分割スキームを開発した。 textit{bias-sd-ratio} をデフレーションすることにより、テスト統計の漸近的な零分布とそれらの整合性を統計力の観点から確立する。 理論的パワー分析とシミュレーションにより,1分割試験は2分割試験よりも強力であることがわかったが,後者は大規模データセットに適用しやすくなった。 さらに, 繰り返し試料分割による電力損失を補償しながら, 組合せ試験はより安定である。 数値解析により,提案手法の有効性を2つのベンチマーク例で示す。 提案するテストを実装した python library {\tt dnn-inference} https://dnn-inferenc e.readthedocs.io/en/ latest/ である。

An exciting recent development is the uptake of deep learning in many scientific fields, where the objective is seeking novel scientific insights and discoveries. To interpret a learning outcome, researchers perform hypothesis testing for explainable features to advance scientific domain knowledge. In such a situation, testing for a blackbox learner poses a severe challenge because of intractable models, unknown limiting distributions of parameter estimates, and high computational constraints. In this article, we derive two consistent tests for the feature relevance of a blackbox learner. The first one evaluates a loss difference with perturbation on an inference sample, which is independent of an estimation sample used for parameter estimation in model fitting. The second further splits the inference sample into two but does not require data perturbation. Also, we develop their combined versions by aggregating the order statistics of the $p$-values based on repeated sample splitting. To estimate the splitting ratio and the perturbation size, we develop adaptive splitting schemes for suitably controlling the Type \rom{1} error subject to computational constraints. By deflating the \textit{bias-sd-ratio}, we establish asymptotic null distributions of the test statistics and their consistency in terms of statistical power. Our theoretical power analysis and simulations indicate that the one-split test is more powerful than the two-split test, though the latter is easier to apply for large datasets. Moreover, the combined tests are more stable while compensating for a power loss by repeated sample splitting. Numerically, we demonstrate the utility of the proposed tests on two benchmark examples. Accompanying this paper is our Python library {\tt dnn-inference} https://dnn-inferenc e.readthedocs.io/en/ latest/ that implements the proposed tests.
翻訳日:2021-04-05 00:55:58 公開日:2021-03-02
# ニューロモルフィックコンピューティングとAI応用のための3次元統合システム設計の一事例

A Case for 3D Integrated System Design for Neuromorphic Computing & AI Applications ( http://arxiv.org/abs/2103.04852v1 )

ライセンス: Link先を確認
Eren Kurshan, Hai Li, Mingoo Seok, Yuan Xie(参考訳) 過去10年間、人工知能は社会の多くの応用分野を見つけてきた。 AIソリューションが洗練され、ユースケースが大きくなるにつれて、彼らは、実装プロセス中に直面するパフォーマンスとエネルギー効率の課題に対処する必要性を強調した。 これらの課題に対処するため、ニューロモルフィックチップへの関心が高まっている。 ニューロモルフィックコンピューティングは、非フォン・ノイマンのアーキテクチャと、人間の脳を模倣する新しいデバイス、回路、製造技術に依存している。 このような技術の中で、3D統合は、AIハードウェアとスケーリング法則の継続にとって重要な有効性である。 本稿では、ニューロモルフィックチップ設計における3d統合のユニークな機会を概観し、次世代ニューロモルフィックアーキテクチャにおける新たな機会について論じ、障害をレビューする。 インスピレーションとエミュレーションの目的のために脳に頼っていたニューロモルフィックアーキテクチャは、人間の脳の機能とアーキテクチャの限られた理解のために大きな課題に直面している。 しかし、高レベルの投資はニューロモルフィックチップの開発に向けられている。 3d統合は、コスト効率が良く柔軟なニューロモルフィックチップの設計に戦略的な利点をもたらすだけでなく、将来の設計にさらなる利益をもたらすために高度な機能を取り入れた設計の柔軟性をもたらすかもしれないと論じている。

Over the last decade, artificial intelligence has found many applications areas in the society. As AI solutions have become more sophistication and the use cases grew, they highlighted the need to address performance and energy efficiency challenges faced during the implementation process. To address these challenges, there has been growing interest in neuromorphic chips. Neuromorphic computing relies on non von Neumann architectures as well as novel devices, circuits and manufacturing technologies to mimic the human brain. Among such technologies, 3D integration is an important enabler for AI hardware and the continuation of the scaling laws. In this paper, we overview the unique opportunities 3D integration provides in neuromorphic chip design, discuss the emerging opportunities in next generation neuromorphic architectures and review the obstacles. Neuromorphic architectures, which relied on the brain for inspiration and emulation purposes, face grand challenges due to the limited understanding of the functionality and the architecture of the human brain. Yet, high-levels of investments are dedicated to develop neuromorphic chips. We argue that 3D integration not only provides strategic advantages to the cost-effective and flexible design of neuromorphic chips, it may provide design flexibility in incorporating advanced capabilities to further benefits the designs in the future.
翻訳日:2021-04-05 00:55:30 公開日:2021-03-02
# 複数のトレーニング戦略を用いたBERTに基づく頭字語の曖昧化

BERT-based Acronym Disambiguation with Multiple Training Strategies ( http://arxiv.org/abs/2103.00488v2 )

ライセンス: Link先を確認
Chunguang Pan, Bingyan Song, Shengguang Wang and Zhipeng Luo(参考訳) Acronym disambiguation (AD) タスクは、与えられた文中の曖昧な頭字語を正しく拡張することを目的としている。 頭字語を使うのは便利だが、理解が難しい場合もある。 単語の適切な拡張を識別することは、自然言語処理の実践的な課題である。 科学分野におけるADのための研究はほとんど行われていないため、BERTと動的負のサンプル選択、タスク適応事前学習、対逆訓練、擬似ラベリングを含むいくつかのトレーニング戦略を組み込んだバイナリ分類モデルを提案する。 SciAD実験は,提案手法の有効性を示し,SDU@AAAI-21共有課題2:Acronym Disambiguationで1位となった。

Acronym disambiguation (AD) task aims to find the correct expansions of an ambiguous ancronym in a given sentence. Although it is convenient to use acronyms, sometimes they could be difficult to understand. Identifying the appropriate expansions of an acronym is a practical task in natural language processing. Since few works have been done for AD in scientific field, we propose a binary classification model incorporating BERT and several training strategies including dynamic negative sample selection, task adaptive pretraining, adversarial training and pseudo labeling in this paper. Experiments on SciAD show the effectiveness of our proposed model and our score ranks 1st in SDU@AAAI-21 shared task 2: Acronym Disambiguation.
翻訳日:2021-04-05 00:48:52 公開日:2021-03-02
# 環境騒音を考慮した重み付き多層ネットワークにおけるコミュニティ検出

Community Detection in Weighted Multilayer Networks with Ambient Noise ( http://arxiv.org/abs/2103.00486v2 )

ライセンス: Link先を確認
Mark He, Dylan Lu, Jason Xu, Rose Mary Xavier(参考訳) 本稿では,ブロック間相互作用を管理する大域的環境雑音の存在を考慮した,多層重み付きネットワークのための新しい確率的ブロックモデルを提案する。 重み付き多層ネットワークにおける分類階層は、1つのクラスタ(ブロック)以外はすべて一意な局所信号によって制御されていると仮定し、一方1ブロックは周囲ノイズに分類され、異なるブロック間の相互作用として同一に振る舞う。 階層的変動推論を用いてブロック構造を局所信号や大域雑音として共同で検出・分類する。 これらの原理は、マルチ層重み付きネットワークのためのSBANM(Stochastic Block)と呼ばれる新しいコミュニティ検出アルゴリズムに組み込まれている。 この手法を複数の異なる領域に適用する。 我々はフィラデルフィア神経発達コホートに着目し,精神病症状と精神病に関連する診断カテゴリーを形成する被験者のコミュニティを探索する。

We introduce a novel class of stochastic blockmodel for multilayer weighted networks that accounts for the presence of a global ambient noise that governs between-block interactions. We induce a hierarchy of classifications in weighted multilayer networks by assuming that all but one cluster (block) are governed by unique local signals, while a single block is classified as ambient noise, which behaves identically as interactions across differing blocks. Hierarchical variational inference is employed to jointly detect and typologize block-structures as local signals or global noise. These principles are incorporated into novel community detection algorithm called Stochastic Block (with) Ambient Noise Model (SBANM) for multilayer weighted networks. We apply this method to several different domains. We focus on the Philadelphia Neurodevelopmental Cohort to discover communities of subjects that form diagnostic categories relating psychopathological symptoms to psychosis.
翻訳日:2021-04-05 00:46:44 公開日:2021-03-02
# (参考訳) 強化学習とコンピュータビジョンを用いた自律型ロボット芝刈り機の局所ナビゲーションとドッキング [全文訳有]

Local Navigation and Docking of an Autonomous Robot Mower using Reinforcement Learning and Computer Vision ( http://arxiv.org/abs/2101.06248v3 )

ライセンス: CC BY 4.0
Ali Taghibakhshi, Nathan Ogden, Matthew West(参考訳) 本稿では,John Deere Tango自動芝刈り機のナビゲーションおよびドッキング制御システムについて,単一のカメラのみを入力として実演する。 このビジョンのみのシステムは、安価で製造が簡単で外部センサーを必要としないため、興味深い。 これは、統合位置センサとgps(global positioning system)技術に依存する既存のシステムとは対照的である。 システムを構築するために、最先端のオブジェクト検出アーキテクチャであるYou Only Look Once (YOLO)と強化学習(RL)アーキテクチャであるDouble Deep QNetworks (Double DQN)を組み合わせた。 オブジェクト検出ネットワークは、芝刈り機上の特徴を特定し、その出力をRLネットワークに渡すことで、高速で堅牢なトレーニングを可能にする低次元表現を提供する。 最後に、RLネットワークは、カスタムシミュレーション環境において、マシンを所望の場所にナビゲートする方法を学ぶ。 芝刈り機でテストすると、システムは任意の初期位置と方向からセンチメートルレベルの精度でドッキングできる。

We demonstrate a successful navigation and docking control system for the John Deere Tango autonomous mower, using only a single camera as the input. This vision-only system is of interest because it is inexpensive, simple for production, and requires no external sensing. This is in contrast to existing systems that rely on integrated position sensors and global positioning system (GPS) technologies. To produce our system we combined a state-of-the-art object detection architecture, You Only Look Once (YOLO), with a reinforcement learning (RL) architecture, Double Deep QNetworks (Double DQN). The object detection network identifies features on the mower and passes its output to the RL network, providing it with a low-dimensional representation that enables rapid and robust training. Finally, the RL network learns how to navigate the machine to the desired spot in a custom simulation environment. When tested on mower hardware, the system is able to dock with centimeter-level accuracy from arbitrary initial locations and orientations.
翻訳日:2021-03-28 12:53:29 公開日:2021-03-02
# ベイズ最適化による安全かつ効率的なモデルフリー適応制御

Safe and Efficient Model-free Adaptive Control via Bayesian Optimization ( http://arxiv.org/abs/2101.07825v2 )

ライセンス: Link先を確認
Christopher K\"onig, Matteo Turchetta, John Lygeros, Alisa Rupenyan, Andreas Krause(参考訳) 適応制御アプローチは、正確なシステムモデルやコントローラの適切なパラメトリゼーションが利用できる場合に、高性能なコントローラが得られる。 適応制御のための既存のデータ駆動アプローチは、ダイナミクスの不確実性や外乱に関する追加情報を伴う標準モデルベースメソッドをほとんど強化している。 本研究では,適応制御のための純粋データ駆動モデルフリーアプローチを提案する。 システムデータのみに基づく低レベルコントローラのチューニングは、アルゴリズムの安全性と計算性能に懸念を生じさせる。 提案手法は安全かつサンプル効率のよいベイズ最適化アルゴリズムであるGoOSEに基づいている。 本稿では,GoOSEの回転運動システムにおける実用性を実現するために,いくつかの計算およびアルゴリズムの修正を導入する。 我々は,提案手法がサンプル効率であり,安全性の観点から制約ベイズ最適化よりも優れており,グリッド評価によって計算された性能オプティマを達成することを数値的に示す。 さらに,提案する適応制御手法を回転運動系で実験的に実証する。

Adaptive control approaches yield high-performance controllers when a precise system model or suitable parametrizations of the controller are available. Existing data-driven approaches for adaptive control mostly augment standard model-based methods with additional information about uncertainties in the dynamics or about disturbances. In this work, we propose a purely data-driven, model-free approach for adaptive control. Tuning low-level controllers based solely on system data raises concerns on the underlying algorithm safety and computational performance. Thus, our approach builds on GoOSE, an algorithm for safe and sample-efficient Bayesian optimization. We introduce several computational and algorithmic modifications in GoOSE that enable its practical use on a rotational motion system. We numerically demonstrate for several types of disturbances that our approach is sample efficient, outperforms constrained Bayesian optimization in terms of safety, and achieves the performance optima computed by grid evaluation. We further demonstrate the proposed adaptive control approach experimentally on a rotational motion system.
翻訳日:2021-03-22 11:23:51 公開日:2021-03-02
# 後方分布からのサンプリングによる確率的画像の発声

Stochastic Image Denoising by Sampling from the Posterior Distribution ( http://arxiv.org/abs/2101.09552v2 )

ライセンス: Link先を確認
Bahjat Kawar, Gregory Vaksman, Michael Elad(参考訳) 画像復調はよく知られ、よく研究されている問題であり、結果と元の画像との間の平均二乗誤差(MSE)の最小化を目標としている。 残念なことに、特に厳しいノイズレベルでは、最小MSE(MMSE)ソリューションはぼやけた出力画像をもたらす可能性がある。 本研究は,MSEを小さく保ちつつ,現実的かつ高い知覚的品質の成果を生み出す,新しい確率的 denoising 手法を提案する。 提案手法では,任意のMMSEデノイザの繰り返し適用に依存するランゲヴィンダイナミクスを用いて,後方分布から効果的にサンプリングすることで再構成画像を得る。 その確率性のため、提案アルゴリズムは与えられたノイズ入力に対して様々な高品質な出力を生成できるが、いずれも正当な特徴付けの結果である。 さらに,塗装問題に対処するアルゴリズムを拡張し,部分的な与えられたデータからノイズを取り除き,欠落した画素を復元する。

Image denoising is a well-known and well studied problem, commonly targeting a minimization of the mean squared error (MSE) between the outcome and the original image. Unfortunately, especially for severe noise levels, such Minimum MSE (MMSE) solutions may lead to blurry output images. In this work we propose a novel stochastic denoising approach that produces viable and high perceptual quality results, while maintaining a small MSE. Our method employs Langevin dynamics that relies on a repeated application of any given MMSE denoiser, obtaining the reconstructed image by effectively sampling from the posterior distribution. Due to its stochasticity, the proposed algorithm can produce a variety of high-quality outputs for a given noisy input, all shown to be legitimate denoising results. In addition, we present an extension of our algorithm for handling the inpainting problem, recovering missing pixels while removing noise from partially given data.
翻訳日:2021-03-19 10:41:44 公開日:2021-03-02
# 連続時間競合に基づく検索の改善

Improving Continuous-time Conflict Based Search ( http://arxiv.org/abs/2101.09723v2 )

ライセンス: Link先を確認
Anton Andreychuk, Konstantin Yakovlev, Eli Boyarski and Roni Stern(参考訳) Conflict-Based Search (CBS) は、従来のマルチエージェントパス探索 (MAPF) 問題を最適に解くための強力なアルゴリズムフレームワークである。 Continuous-time CBS(CCBS)は、CBSの最近提案されたバージョンで、時間を差別することなく最適なソリューションを保証します。 しかし、CBSのスケーラビリティはCBSの既知の改善を含まないため制限されている。 本稿では,このギャップを解消し,CBS改善の成功,すなわちコンフリクト(PC)の優先順位付け,ディスジョイント分割(DS)とハイレベルヒューリスティックス(高レベルヒューリスティックス)をCCBSの継続的な時間設定に適応させる方法について検討する。 これらの適応は自明ではなく、異なる種類の制約の慎重な処理、セーフインターバルパス計画(SIPP)アルゴリズムの一般化バージョンの適用、およびカーディナルコンフリクトの概念の拡張を必要とする。 一般グラフと2^k$-neighborhoodグリッドの両方で実験を行い,提案手法の効果を評価した。 これらの改善を伴うCCBSは、バニラCCBSを大幅に上回り、場合によってはほぼ2倍のエージェントで問題を解決し、連続時間領域におけるマルチエージェントパスの発見の限界を押し広げる。

Conflict-Based Search (CBS) is a powerful algorithmic framework for optimally solving classical multi-agent path finding (MAPF) problems, where time is discretized into the time steps. Continuous-time CBS (CCBS) is a recently proposed version of CBS that guarantees optimal solutions without the need to discretize time. However, the scalability of CCBS is limited because it does not include any known improvements of CBS. In this paper, we begin to close this gap and explore how to adapt successful CBS improvements, namely, prioritizing conflicts (PC), disjoint splitting (DS), and high-level heuristics, to the continuous time setting of CCBS. These adaptions are not trivial, and require careful handling of different types of constraints, applying a generalized version of the Safe interval path planning (SIPP) algorithm, and extending the notion of cardinal conflicts. We evaluate the effect of the suggested enhancements by running experiments both on general graphs and $2^k$-neighborhood grids. CCBS with these improvements significantly outperforms vanilla CCBS, solving problems with almost twice as many agents in some cases and pushing the limits of multiagent path finding in continuous-time domains.
翻訳日:2021-03-16 09:12:22 公開日:2021-03-02
# (参考訳) 見えないドメインへの一般化:ドメイン一般化に関する調査 [全文訳有]

Generalizing to Unseen Domains: A Survey on Domain Generalization ( http://arxiv.org/abs/2103.03097v1 )

ライセンス: CC BY 4.0
Jindong Wang, Cuiling Lan, Chang Liu, Yidong Ouyang, Tao Qin(参考訳) ドメイン一般化(Domain Generalization, DG)、すなわち分布外一般化(out-of-distriion generalization)は近年、関心を集めている。 ドメイン一般化は、1つまたは複数の異なるが関連するドメインが与えられる困難な設定を扱い、目的は目に見えないテストドメインに一般化できるモデルを学ぶことです。 長年、大きな進歩を遂げてきた。 本稿では,領域一般化の最近の進歩に対する最初のレビューを紹介する。 まず、ドメイン一般化の形式的な定義を提供し、いくつかの関連分野について議論します。 次に、ドメイン一般化に関する理論を徹底的に検討し、一般化の背後にある理論を慎重に分析する。 次に,最近のアルゴリズムを3つのクラスに分類し,データ操作,表現学習,学習戦略を詳細に提示する。 第三に、一般的なデータセットとアプリケーションを紹介します。 最後に,既存の文献を要約し,今後の研究課題について紹介する。

Domain generalization (DG), i.e., out-of-distribution generalization, has attracted increased interests in recent years. Domain generalization deals with a challenging setting where one or several different but related domain(s) are given, and the goal is to learn a model that can generalize to an unseen test domain. For years, great progress has been achieved. This paper presents the first review for recent advances in domain generalization. First, we provide a formal definition of domain generalization and discuss several related fields. Next, we thoroughly review the theories related to domain generalization and carefully analyze the theory behind generalization. Then, we categorize recent algorithms into three classes and present them in detail: data manipulation, representation learning, and learning strategy, each of which contains several popular algorithms. Third, we introduce the commonly used datasets and applications. Finally, we summarize existing literature and present some potential research topics for the future.
翻訳日:2021-03-08 00:20:28 公開日:2021-03-02
# (参考訳) 深層学習分類器のベンチマーク [全文訳有]

Benchmarking Deep Learning Classifiers: Beyond Accuracy ( http://arxiv.org/abs/2103.03102v1 )

ライセンス: CC BY 4.0
Wei Dai, Daniel Berleant(参考訳) 深層学習(DL)分類器を評価する以前の研究では、top-1/top-5精度がしばしば使用されている。 しかし、DL分類器の精度は不安定であり、不完全または逆の画像で再テストするとしばしば大きく変化する。 本論文は,DL分類器のロバスト性を評価するために,平均精度と変動係数からなる2次元メートル法を提案することによって,不完全画像上でのDL分類器のロバスト性を評価するための,小さいが基本的な作業である。 ピアマンのランク相関係数とピアソンの相関係数を用いて独立性を評価する。 mCVと呼ばれる統計的プロットは、テスト画像中の様々な量の不完全性にまたがるDL分類器の性能のロバスト性を可視化することを目的としている。 最後に,2要素劣化による欠陥画像がDL分類器の堅牢性向上に有効であることを示す。 すべてのソースコードと関連するイメージセットは、将来の研究プロジェクトをサポートするためにウェブサイト(http://www.animpala .com)で共有される。

Previous research evaluating deep learning (DL) classifiers has often used top-1/top-5 accuracy. However, the accuracy of DL classifiers is unstable in that it often changes significantly when retested on imperfect or adversarial images. This paper adds to the small but fundamental body of work on benchmarking the robustness of DL classifiers on imperfect images by proposing a two-dimensional metric, consisting of mean accuracy and coefficient of variation, to measure the robustness of DL classifiers. Spearman's rank correlation coefficient and Pearson's correlation coefficient are used and their independence evaluated. A statistical plot we call mCV is presented which aims to help visualize the robustness of the performance of DL classifiers across varying amounts of imperfection in tested images. Finally, we demonstrate that defective images corrupted by two-factor corruption could be used to improve the robustness of DL classifiers. All source codes and related image sets are shared on a website (http://www.animpala .com) to support future research projects.
翻訳日:2021-03-07 23:33:53 公開日:2021-03-02
# (参考訳) 電力ネットワークチャレンジを実行するための学習 - ふりかえりの分析 [全文訳有]

Learning to run a Power Network Challenge: a Retrospective Analysis ( http://arxiv.org/abs/2103.03104v1 )

ライセンス: CC BY 4.0
Antoine Marot, Benjamin Donnot, Gabriel Dulac-Arnold, Adrian Kelly, A\"idan O'Sullivan, Jan Viebahn, Mariette Awad, Isabelle Guyon, Patrick Panciatici, Camilo Romero(参考訳) 電力網は、地理的に広い地域を横断する電力輸送を担っており、現代の生活が重く依存する複雑なインフラである。 需要と生産のプロファイルの変化、再生可能エネルギーの統合の増加、および高圧ネットワーク技術は、停電を避けながら電気輸送を最適化する際に、人間のオペレーターにとって真の課題です。 電力ネットワーク運用における適応性を実現するための人工知能手法の可能性を探るため,我々は次世代の電力ネットワークにおける重要な問題に対する強化学習ソリューションの開発を促進するため,L2RPNチャレンジを設計した。 NeurIPS 2020コンペティションは、世界中の300以上の参加者が集まる国際コミュニティから好評を博しました。 この課題の主な貢献は、提案された包括的なGrid2Opフレームワークと、現実的なシーケンシャルネットワーク操作シナリオを実行する関連するベンチマークです。 このフレームワークはオープンソース化されており、GridAliveエコシステムで新しい環境を簡単に定義できます。 既存の非線形物理シミュレータに頼り、予測不可能な再生可能エネルギー源の利用の増加による不確実性(a)ライン切断に必要な堅牢性(b)という2つの重要な問題を表す一連の摂動と課題を創出する。 本論文では,コンペティションのハイライトについて詳しく述べる。 ベンチマークスイートを提示し、ベストエージェントによる超人的なパフォーマンス実証を観察し、挑戦の勝利解を解析する。 我々は,競争を成功させるための組織的洞察を提案し,オープン研究の道筋で結論づける。 私たちの研究は、電力ネットワーク運用のためのより持続可能なソリューションを作成するための研究を促進することが期待されます。

Power networks, responsible for transporting electricity across large geographical regions, are complex infrastructures on which modern life critically depend. Variations in demand and production profiles, with increasing renewable energy integration, as well as the high voltage network technology, constitute a real challenge for human operators when optimizing electricity transportation while avoiding blackouts. Motivated to investigate the potential of Artificial Intelligence methods in enabling adaptability in power network operation, we have designed a L2RPN challenge to encourage the development of reinforcement learning solutions to key problems present in the next-generation power networks. The NeurIPS 2020 competition was well received by the international community attracting over 300 participants worldwide. The main contribution of this challenge is our proposed comprehensive Grid2Op framework, and associated benchmark, which plays realistic sequential network operations scenarios. The framework is open-sourced and easily re-usable to define new environments with its companion GridAlive ecosystem. It relies on existing non-linear physical simulators and let us create a series of perturbations and challenges that are representative of two important problems: a) the uncertainty resulting from the increased use of unpredictable renewable energy sources, and b) the robustness required with contingent line disconnections. In this paper, we provide details about the competition highlights. We present the benchmark suite and analyse the winning solutions of the challenge, observing one super-human performance demonstration by the best agent. We propose our organizational insights for a successful competition and conclude on open research avenues. We expect our work will foster research to create more sustainable solutions for power network operations.
翻訳日:2021-03-07 09:38:42 公開日:2021-03-02
# (参考訳) CloudAAE: ポイントクラウド上のオンラインデータ合成による6Dオブジェクトポインター回帰学習 [全文訳有]

CloudAAE: Learning 6D Object Pose Regression with On-line Data Synthesis on Point Clouds ( http://arxiv.org/abs/2103.01977v1 )

ライセンス: CC BY 4.0
Ge Gao, Mikko Lauri, Xiaolin Hu, Jianwei Zhang and Simone Frintrop(参考訳) 手動アノテーションが高価であるため,合成データ上での6次元ポーズ推定システムの訓練が望まれる。 しかし、合成画像と実画像の間の領域ギャップが大きいため、カラー画像の合成は高価である。 対照的に、この領域のギャップはかなり小さく、深度情報を埋めるのが簡単です。 本研究では,ポイントクラウドに代表される深度情報から6Dオブジェクトのポーズを復元するシステムと,トレーニング用の合成ポイントクラウドセグメントを生成する軽量データ合成パイプラインを提案する。 我々は6Dオブジェクトのポーズ情報を符号化する潜在コード学習に、拡張オートエンコーダ(AAE)を用いる。 データ合成パイプラインはテクスチャレスの3Dオブジェクトモデルと望ましい視点のみを必要とし、時間とハードウェアの両方のストレージの点で安価です。 我々のデータ合成プロセスは、RGB画像データをレンダリングする一般的なアプローチよりも最大3桁高速である。 本稿では,linemod,linemodoclo cion,ycbビデオデータセットにおけるシステムの有効性を示す。 私たちのシステムの実装は、https://github.com/G eeeG/CloudAAE.comで利用可能です。

It is often desired to train 6D pose estimation systems on synthetic data because manual annotation is expensive. However, due to the large domain gap between the synthetic and real images, synthesizing color images is expensive. In contrast, this domain gap is considerably smaller and easier to fill for depth information. In this work, we present a system that regresses 6D object pose from depth information represented by point clouds, and a lightweight data synthesis pipeline that creates synthetic point cloud segments for training. We use an augmented autoencoder (AAE) for learning a latent code that encodes 6D object pose information for pose regression. The data synthesis pipeline only requires texture-less 3D object models and desired viewpoints, and it is cheap in terms of both time and hardware storage. Our data synthesis process is up to three orders of magnitude faster than commonly applied approaches that render RGB image data. We show the effectiveness of our system on the LineMOD, LineMOD Occlusion, and YCB Video datasets. The implementation of our system is available at: https://github.com/G eeeG/CloudAAE.
翻訳日:2021-03-07 01:47:01 公開日:2021-03-02
# (参考訳) Deep J-Sense: Unrolled Alternating OptimizationによるMRIの高速化 [全文訳有]

Deep J-Sense: Accelerated MRI Reconstruction via Unrolled Alternating Optimization ( http://arxiv.org/abs/2103.02087v1 )

ライセンス: CC BY 4.0
Marius Arvinte, Sriram Vishwanath, Ahmed H. Tewfik, and Jonathan I. Tamir(参考訳) 高速マルチコイル磁気共鳴画像再構成は, 圧縮センシングと深層学習を併用して, 大幅に改善されている。 しかし、これらの方法はコイル感度プロファイルの推定やモデルパラメータの推定のためのキャリブレーションデータに依存する。 従来の研究では,これらの手法は,これらの推定値の品質が低い場合や,スキャンパラメータが訓練条件と異なる場合,性能が低下することが示されている。 本稿では、非ローリングの交互化に基づくディープラーニングアプローチとしてDeep J-Senseを導入し、ロバスト性を高める:我々のアルゴリズムは磁化(画像)カーネルとコイル感度マップの両方を洗練する。 膝の高速MRIデータセットのサブセットによる実験結果から, 再建性能が向上し, 加速度係数やキャリブレーション領域サイズにかなりのロバスト性が得られることがわかった。

Accelerated multi-coil magnetic resonance imaging reconstruction has seen a substantial recent improvement combining compressed sensing with deep learning. However, most of these methods rely on estimates of the coil sensitivity profiles, or on calibration data for estimating model parameters. Prior work has shown that these methods degrade in performance when the quality of these estimators are poor or when the scan parameters differ from the training conditions. Here we introduce Deep J-Sense as a deep learning approach that builds on unrolled alternating minimization and increases robustness: our algorithm refines both the magnetization (image) kernel and the coil sensitivity maps. Experimental results on a subset of the knee fastMRI dataset show that this increases reconstruction performance and provides a significant degree of robustness to varying acceleration factors and calibration region sizes.
翻訳日:2021-03-06 19:15:43 公開日:2021-03-02
# (参考訳) 情報(pseudo)計量について [全文訳有]

On Information (pseudo) Metric ( http://arxiv.org/abs/2103.02008v1 )

ライセンス: CC BY 4.0
Pierre Baudot(参考訳) このショートノートは情報計量を再検討し、これは確率法則の通常のようにではなく、可観測変数(ランダム変数)の多様体上の擬計量であることを示す。 測地学は境界と条件付き独立条件の点で特徴づけられる。 ピタゴラスの定理が与えられ、特別な場合、潜在的に興味深い自然整数三重項を与える。 このメトリクスはinfotopoパッケージを使用して糖尿病データセットのイラストとして計算される。

This short note revisit information metric, underlining that it is a pseudo metric on manifolds of observables (random variables), rather than as usual on probability laws. Geodesics are characterized in terms of their boundaries and conditional independence condition. Pythagorean theorem is given, providing in special case potentially interesting natural integer triplets. This metric is computed for illustration on Diabetes dataset using infotopo package.
翻訳日:2021-03-06 16:51:14 公開日:2021-03-02
# (参考訳) EnD: バイアス補正のための深部表現のエンタングリングとアンタングリング [全文訳有]

EnD: Entangling and Disentangling deep representations for bias correction ( http://arxiv.org/abs/2103.02023v1 )

ライセンス: CC BY 4.0
Enzo Tartaglione, Carlo Alberto Barbano, Marco Grangetto(参考訳) 人工ニューラルネットワークは、ますます多くのタスクで最先端の処理を行い、今日では驚くほど多くのタスクの解決に使われている。 トレーニングデータにバイアスが存在するなど、これらのモデルの一般化能力を疑問視する問題があります。 本研究では,深層モデルが望ましくないバイアスを学習することを防ぐための正規化戦略であるEnDを提案する。 特に、深層ニューラルネットワークの特定のポイントに「情報のボトルネック」を挿入し、バイアスに関する情報を分離し、モデルの残りの部分でトレーニングタスクに有用な情報を前方に伝播させます。 EnDの大きな利点のひとつは、トレーニングモデルに直接適用される正規化子であるため、追加のトレーニング複雑性(デコーダやモデルの余分なレイヤなど)を必要としないことです。 実験の結果、EnDは非バイアステストセットの一般化を効果的に改善し、X線画像からCOVID-19検出の隠れバイアスを除去するなど、実際のシナリオに効果的に適用できることがわかった。

Artificial neural networks perform state-of-the-art in an ever-growing number of tasks, and nowadays they are used to solve an incredibly large variety of tasks. There are problems, like the presence of biases in the training data, which question the generalization capability of these models. In this work we propose EnD, a regularization strategy whose aim is to prevent deep models from learning unwanted biases. In particular, we insert an "information bottleneck" at a certain point of the deep neural network, where we disentangle the information about the bias, still letting the useful information for the training task forward-propagating in the rest of the model. One big advantage of EnD is that we do not require additional training complexity (like decoders or extra layers in the model), since it is a regularizer directly applied on the trained model. Our experiments show that EnD effectively improves the generalization on unbiased test sets, and it can be effectively applied on real-case scenarios, like removing hidden biases in the COVID-19 detection from radiographic images.
翻訳日:2021-03-06 14:37:15 公開日:2021-03-02
# (参考訳) 逐次的位置学習 : ヒューリスティックフリー高性能長期位置認識 [全文訳有]

Sequential Place Learning: Heuristic-Free High-Performance Long-Term Place Recognition ( http://arxiv.org/abs/2103.02074v1 )

ライセンス: CC BY 4.0
Marvin Chanc\'an, Michael Milford(参考訳) 手作りのヒューリスティックを用いた逐次マッチングは、10年近くにわたってペアワイズ類似性向上のためのルートベースの位置認識において標準的な手法である。 しかし、これらのアルゴリズムの精度リコール性能は、短時間ウィンドウ(TW)の長さを検索する際に劇的に低下し、自律ナビゲーション研究のために大規模なロボットデータセットに高い計算コストとストレージコストを要求します。 ここでは、視覚なしでも時空スケールを強力にナビゲートする生物学的システムの影響を受けて、連続プロセスを介して共同視覚および位置表現学習技術を開発し、バックプロパゲーションを介して訓練可能な学習ベースのCNN+LSTMアーキテクチャを設計、視点および外観不変の場所認識のために。 我々のアプローチであるシーケンシャル・プレース・ラーニング(SPL)は、CNN関数をベースとして、単一のトラバーサルから環境を視覚的に符号化し、ストレージ容量を削減し、LSTMは各視覚埋め込みを、対応する位置データ(動き推定のソースから得られる)と時間的に融合させて直接逐次推論を行う。 従来の2段階のパイプライン、例えばmatch-then-temporall y-filterとは対照的に、ネットワークは、短いtwを使用しても単一の単眼画像シーケンスから一致したシーケンスを共同学習しながら、偽陽性率を直接排除する。 したがって、我々のモデルは、4つの挑戦的ベンチマークデータセット上で新しい最先端性能基準を設定しながら15の古典的手法より優れており、そのうちの1つは100%の精度でリコールレートで解ける。 さらに,SPLは,35,768連続フレームからなる729kmの経路において,従来の方法よりも最大70倍高速に展開可能であることを示す。 ベースラインコードはhttps://github.com/m chancan/deepseqslamで入手できます。

Sequential matching using hand-crafted heuristics has been standard practice in route-based place recognition for enhancing pairwise similarity results for nearly a decade. However, precision-recall performance of these algorithms dramatically degrades when searching on short temporal window (TW) lengths, while demanding high compute and storage costs on large robotic datasets for autonomous navigation research. Here, influenced by biological systems that robustly navigate spacetime scales even without vision, we develop a joint visual and positional representation learning technique, via a sequential process, and design a learning-based CNN+LSTM architecture, trainable via backpropagation through time, for viewpoint- and appearance-invariant place recognition. Our approach, Sequential Place Learning (SPL), is based on a CNN function that visually encodes an environment from a single traversal, thus reducing storage capacity, while an LSTM temporally fuses each visual embedding with corresponding positional data -- obtained from any source of motion estimation -- for direct sequential inference. Contrary to classical two-stage pipelines, e.g., match-then-temporall y-filter, our network directly eliminates false-positive rates while jointly learning sequence matching from a single monocular image sequence, even using short TWs. Hence, we demonstrate that our model outperforms 15 classical methods while setting new state-of-the-art performance standards on 4 challenging benchmark datasets, where one of them can be considered solved with recall rates of 100% at 100% precision, correctly matching all places under extreme sunlight-darkness changes. In addition, we show that SPL can be up to 70x faster to deploy than classical methods on a 729 km route comprising 35,768 consecutive frames. Extensive experiments demonstrate the... Baseline code available at https://github.com/m chancan/deepseqslam
翻訳日:2021-03-06 14:23:09 公開日:2021-03-02
# (参考訳) ミニマックスモデル学習 [全文訳有]

Minimax Model Learning ( http://arxiv.org/abs/2103.02084v1 )

ライセンス: CC BY 4.0
Cameron Voloshin, Nan Jiang, Yisong Yue(参考訳) モデルに基づく強化学習における遷移モデル学習のための新しいオフポリシ損失関数を提案する。 特に、私たちの損失は、分配シフトの修正に重点を置いて、オフポリシ政策評価目標に由来します。 従来のモデルベース技術に比べ、データ生成ポリシーと異なる学習・評価ポリシーにより、モデル誤認や分布シフトによるロバスト性の向上が図れます。 理論解析を行い、既存のモデルに基づくオフポリシ評価手法よりも実証的な改善を示す。 損失がオフポリシ最適化(OPO)に使用できることを示すさらなる分析を提供し、OPOのより最近の改善との統合を実証します。

We present a novel off-policy loss function for learning a transition model in model-based reinforcement learning. Notably, our loss is derived from the off-policy policy evaluation objective with an emphasis on correcting distribution shift. Compared to previous model-based techniques, our approach allows for greater robustness under model misspecification or distribution shift induced by learning/evaluating policies that are distinct from the data-generating policy. We provide a theoretical analysis and show empirical improvements over existing model-based off-policy evaluation methods. We provide further analysis showing our loss can be used for off-policy optimization (OPO) and demonstrate its integration with more recent improvements in OPO.
翻訳日:2021-03-06 12:15:55 公開日:2021-03-02
# (参考訳) n-shot Task-Oriented Dialogue Augmentationへのシンプルだが効果的なアプローチ [全文訳有]

A Simple But Effective Approach to n-shot Task-Oriented Dialogue Augmentation ( http://arxiv.org/abs/2103.00293v2 )

ライセンス: CC BY 4.0
Taha Aksu and Nancy F. Chen and Min-Yen Kan and Zhengyuan Liu(参考訳) タスク指向の会話データの収集とアノテーションはコストと時間を要する方法です。 トレーニングに必要なデータ量を持たない新しいドメインにおける最先端の(SOTA)システムのパフォーマンスを改善するために、多くの拡張技術が提案されている。 しかし、これらの強化技術(例) また、学習ベースのアプローチを使用するため、ある程度の量のデータも必要です。 これにより、新興の低リソースドメインでのSOTAシステムの使用が不可能になる。 そこで我々は,この課題に対処すべく,タスク指向の対話を完全自動的に作成するフレームワークを導入して,少数の対話の入力サイズで動作させる。 我々のフレームワークは、タスク指向対話における各ターンペアが特定の機能を持つという単純な考え方を使い、このアイデアを利用して新しい対話を生成する。 対話状態追跡タスクにおいて,SOTAモデルTRADEと統合することにより,低リソース環境でのフレームワークの評価を行い,複数のドメインにおける微調整シナリオの大幅な改善を観察する。 このエンドツーエンドの対話拡張フレームワークは,タスク指向の対話ドメインにおける自然言語理解のパフォーマンス向上に不可欠なツールである,と我々は結論付けている。

The collection and annotation of task-oriented conversational data is a costly and time-consuming manner. Many augmentation techniques have been proposed to improve the performance of state-of-the-art (SOTA) systems in new domains that lack the necessary amount of data for training. However, these augmentation techniques (e.g. paraphrasing) also require some mediocre amount of data since they use learning-based approaches. This makes using SOTA systems in emerging low-resource domains infeasible. We, to tackle this problem, introduce a framework, that creates synthetic task-oriented dialogues in a fully automatic manner, which operates with input sizes of as small as a few dialogues. Our framework uses the simple idea that each turn-pair in a task-oriented dialogue has a certain function and exploits this idea to mix them creating new dialogues. We evaluate our framework within a low-resource setting by integrating it with a SOTA model TRADE in the dialogue state tracking task and observe significant improvements in the fine-tuning scenarios in several domains. We conclude that this end-to-end dialogue augmentation framework can be a crucial tool for natural language understanding performance in emerging task-oriented dialogue domains.
翻訳日:2021-03-06 08:39:11 公開日:2021-03-02
# (参考訳) MetaSCI:ビデオ圧縮センシングのためのスケーラブルで適応的な再構築 [全文訳有]

MetaSCI: Scalable and Adaptive Reconstruction for Video Compressive Sensing ( http://arxiv.org/abs/2103.01786v1 )

ライセンス: CC BY 4.0
Zhengjue Wang and Hao Zhang and Ziheng Cheng and Bo Chen and Xin Yuan(参考訳) 2次元検出器を用いて高速映像をキャプチャするために、ビデオスナップショット圧縮画像(SCI)は有望なシステムであり、ビデオフレームは異なるマスクで符号化され、スナップショット計測に圧縮される。 これに続いて、効率的なアルゴリズムは、ディープラーニングネットワークによって最先端の結果が達成される高速フレームを再構築することが望まれる。 しかし、これらのネットワークは通常、特定の小規模マスクのために訓練され、訓練時間とgpuメモリの要求が高く、それゆえ、同じサイズの新しいマスクと、より大型のマスクである$ii$)に対して$i$となる。 メタSCIと呼ばれるSCI再構築のためのMeta Modulated Convolutional Networkを開発することで,これらの課題に対処する。 MetaSCIは、異なるマスクのための共有バックボーンと、各マスクごとに異なる変調パラメータに進化する軽量なメタ変調パラメータで構成されており、新しいマスク(またはシステム)へのcbf \emの高速適応の性質を持ち、大きなデータにスケールする準備ができている。 広範なシミュレーションと実データ結果から,提案手法の優れた性能を示す。 私たちのコードは {\small\url{https://github.com/x yvirtualgroup/MetaSC I-CVPR2021}}で利用可能です。

To capture high-speed videos using a two-dimensional detector, video snapshot compressive imaging (SCI) is a promising system, where the video frames are coded by different masks and then compressed to a snapshot measurement. Following this, efficient algorithms are desired to reconstruct the high-speed frames, where the state-of-the-art results are achieved by deep learning networks. However, these networks are usually trained for specific small-scale masks and often have high demands of training time and GPU memory, which are hence {\bf \em not flexible} to $i$) a new mask with the same size and $ii$) a larger-scale mask. We address these challenges by developing a Meta Modulated Convolutional Network for SCI reconstruction, dubbed MetaSCI. MetaSCI is composed of a shared backbone for different masks, and light-weight meta-modulation parameters to evolve to different modulation parameters for each mask, thus having the properties of {\bf \em fast adaptation} to new masks (or systems) and ready to {\bf \em scale to large data}. Extensive simulation and real data results demonstrate the superior performance of our proposed approach. Our code is available at {\small\url{https://github.com/x yvirtualgroup/MetaSC I-CVPR2021}}.
翻訳日:2021-03-06 08:14:06 公開日:2021-03-02
# (参考訳) 生成型逆変換器 [全文訳有]

Generative Adversarial Transformers ( http://arxiv.org/abs/2103.01209v2 )

ライセンス: CC BY 4.0
Drew A. Hudson and C. Lawrence Zitnick(参考訳) 本稿では,新規かつ効率的な変換器であるGANsformerを紹介し,視覚生成モデリングの課題について検討する。 このネットワークは、画像間の長距離相互作用を可能にする二部構造を用いており、線形効率の計算を維持しながら、高分解能合成に容易にスケールできる。 反復的に、潜在的な変数の集合から進化する視覚的特徴に情報を伝達し、その逆は、互いに照らし合わせてそれぞれの洗練をサポートし、オブジェクトやシーンの構成表現の出現を奨励する。 古典的なトランスフォーマーアーキテクチャとは対照的に、フレキシブルな領域ベースの変調を可能にする乗法積分を利用しており、成功しているStyleGANネットワークの一般化と見なすことができる。 シミュレーションされたマルチオブジェクト環境から、実世界のリッチな屋内および屋外シーンまで、さまざまなデータセットに対する注意深く評価することで、モデルの強みと堅牢性を示し、高速な学習とより良いデータ効率を享受しながら、画像品質と多様性の観点から最先端の結果を得る。 さらに質的および定量的な実験により、モデルの内部動作を洞察し、解釈可能性の向上とより強い解離を明らかにし、アプローチのメリットと有効性を示しています。 モデルの実装はhttps://github.com/d orarad/gansformer.or gで利用可能である。

We introduce the GANsformer, a novel and efficient type of transformer, and explore it for the task of visual generative modeling. The network employs a bipartite structure that enables long-range interactions across the image, while maintaining computation of linearly efficiency, that can readily scale to high-resolution synthesis. It iteratively propagates information from a set of latent variables to the evolving visual features and vice versa, to support the refinement of each in light of the other and encourage the emergence of compositional representations of objects and scenes. In contrast to the classic transformer architecture, it utilizes multiplicative integration that allows flexible region-based modulation, and can thus be seen as a generalization of the successful StyleGAN network. We demonstrate the model's strength and robustness through a careful evaluation over a range of datasets, from simulated multi-object environments to rich real-world indoor and outdoor scenes, showing it achieves state-of-the-art results in terms of image quality and diversity, while enjoying fast learning and better data-efficiency. Further qualitative and quantitative experiments offer us an insight into the model's inner workings, revealing improved interpretability and stronger disentanglement, and illustrating the benefits and efficacy of our approach. An implementation of the model is available at https://github.com/d orarad/gansformer.
翻訳日:2021-03-06 07:21:53 公開日:2021-03-02
# (参考訳) 説明することを学びましたか? 解釈可能性手法が解釈中の予測をエンコードする方法 [全文訳有]

Have We Learned to Explain?: How Interpretability Methods Can Learn to Encode Predictions in their Interpretations ( http://arxiv.org/abs/2103.01890v1 )

ライセンス: CC BY 4.0
Neil Jethani, Mukund Sudarshan, Yindalon Aphinyanaphongs, Rajesh Ranganath(参考訳) 解釈可能な機械学習の必要性は確立されているが、多くの一般的なアプローチは遅く、忠実性がなく、評価が難しい。 Amortized descriptionメソッドは、単一のデータインスタンスに特徴的重要性を返すグローバルセレクタモデルを学ぶことで、解釈を提供するコストを削減します。 ターゲットの予測モデルによって評価されるように、セレクタモデルは解釈の忠実度を最適化するように訓練される。 ポピュラーな手法はセレクタモデルと予測モデルを共同で学習し,解釈内で予測を符号化できることを示す。 EVAL-Xは、解釈を定量的に評価する手法であり、REAL-Xは、入力の任意のサブセットを与えられた真のデータ生成分布を近似する予測モデルを学ぶ償却説明法である。 EVAL-Xは、予測が解釈にエンコードされたときに検出でき、定量的および放射線学者評価を通じてREAL-Xの利点を示す。

While the need for interpretable machine learning has been established, many common approaches are slow, lack fidelity, or hard to evaluate. Amortized explanation methods reduce the cost of providing interpretations by learning a global selector model that returns feature importances for a single instance of data. The selector model is trained to optimize the fidelity of the interpretations, as evaluated by a predictor model for the target. Popular methods learn the selector and predictor model in concert, which we show allows predictions to be encoded within interpretations. We introduce EVAL-X as a method to quantitatively evaluate interpretations and REAL-X as an amortized explanation method, which learn a predictor model that approximates the true data generating distribution given any subset of the input. We show EVAL-X can detect when predictions are encoded in interpretations and show the advantages of REAL-X through quantitative and radiologist evaluation.
翻訳日:2021-03-06 06:56:51 公開日:2021-03-02
# (参考訳) 画像デレンダリングのためのデュアル強化ベースの仕様生成 [全文訳有]

Dual Reinforcement-Based Specification Generation for Image De-Rendering ( http://arxiv.org/abs/2103.01867v1 )

ライセンス: CC BY 4.0
Ramakanth Pasunuru, David Rosenberg, Gideon Mann, Mohit Bansal(参考訳) ディープラーニングの進歩は、コンピュータ生成画像のデレンダリングによるグラフィックプログラムの推論に有望な進歩をもたらした。 しかし、現在の手法では、どのデコード方法がグラフィックプログラムを推論するためのインダクティブバイアスを改善するかは検討されていない。 本研究では, LSTM-RNN 対 Transformer ネットワークを, 順序非依存なグラフィックスプログラムのためのデコーダとして有効性を検討した。 これらはシーケンスモデルであるため、可能性トレーニングのためにグラフィックプログラム内のオブジェクトの順序を選択する必要があります。 LSTMの性能はシーケンス順序(ランダム順序とパターンベースの順序)に非常に敏感であるが、トランスフォーマーの性能はシーケンス順序から大きく独立していた。 さらに,グラフィックプログラム仕様とレンダリング画像の両方に基づいて,多種多様な報酬によってデコーダの帰納的バイアスを改善するための,ポリシー勾配に基づく強化学習手法を提案する。 また,これら相補的な報酬の組み合わせについても検討する。 2つのグラフィックプログラム生成データセットの最先端結果を得る。

Advances in deep learning have led to promising progress in inferring graphics programs by de-rendering computer-generated images. However, current methods do not explore which decoding methods lead to better inductive bias for inferring graphics programs. In our work, we first explore the effectiveness of LSTM-RNN versus Transformer networks as decoders for order-independent graphics programs. Since these are sequence models, we must choose an ordering of the objects in the graphics programs for likelihood training. We found that the LSTM performance was highly sensitive to the sequence ordering (random order vs. pattern-based order), while Transformer performance was roughly independent of the sequence ordering. Further, we present a policy gradient based reinforcement learning approach for better inductive bias in the decoder via multiple diverse rewards based both on the graphics program specification and the rendered image. We also explore the combination of these complementary rewards. We achieve state-of-the-art results on two graphics program generation datasets.
翻訳日:2021-03-06 06:28:35 公開日:2021-03-02
# (参考訳) モデル解釈可能性に関する対比的説明 [全文訳有]

Contrastive Explanations for Model Interpretability ( http://arxiv.org/abs/2103.01378v1 )

ライセンス: CC BY 4.0
Alon Jacovi, Swabha Swayamdipta, Shauli Ravfogel, Yanai Elazar, Yejin Choi, Yoav Goldberg(参考訳) 対照的な説明は、ある出来事が他の出来事と対照的に起こった理由を明確にする。 彼らは人間にとってより直感的で、生産も理解もしやすい。 本稿では,非矛盾情報を無視して表現を改変し,コントラスト的推論のみに基づいてモデル行動を変更することにより,分類モデルの対比的説明を作成する手法を提案する。 提案手法はモデル表現を潜在空間に投影し,2つの潜在的な決定を区別するために有用な特徴(モデルに対して)のみをキャプチャする。 2つのテキスト分類タスクにおいて,高レベル抽象概念帰属と低レベル入力トークン/スパン帰属の両方を用いて,コントラスト的説明の価値を示す。 具体的には、どのラベルに対して、どのラベルに対して、入力のいくつかの側面が有用か? そして、入力のどの側面が特定の決定に役に立ちますか? 全体としては,モデル決定のより正確できめ細かな解釈性を提供するために,ラベルコントラスト的説明の能力に光を当てた。

Contrastive explanations clarify why an event occurred in contrast to another. They are more inherently intuitive to humans to both produce and comprehend. We propose a methodology to produce contrastive explanations for classification models by modifying the representation to disregard non-contrastive information, and modifying model behavior to only be based on contrastive reasoning. Our method is based on projecting model representation to a latent space that captures only the features that are useful (to the model) to differentiate two potential decisions. We demonstrate the value of contrastive explanations by analyzing two different scenarios, using both high-level abstract concept attribution and low-level input token/span attribution, on two widely used text classification tasks. Specifically, we produce explanations for answering: for which label, and against which alternative label, is some aspect of the input useful? And which aspects of the input are useful for and against particular decisions? Overall, our findings shed light on the ability of label-contrastive explanations to provide a more accurate and finer-grained interpretability of a model's decision.
翻訳日:2021-03-06 06:00:59 公開日:2021-03-02
# (参考訳) 感情発生ペア抽出のためのエンドツーエンドネットワーク [全文訳有]

An End-to-End Network for Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2103.01544v1 )

ライセンス: CC BY 4.0
Aaditya Singh and Shreeshail Hingane and Saim Wani and Ashutosh Modi(参考訳) Emotion-Cause Pair Extraction(ECPE)のタスクは、文書中の感情とその対応する原因のすべての潜在的な条項ペアを抽出することを目指しています。 感情原因抽出(ECE)のよりよく研究されたタスクとは異なり、ECPEはアノテーションとして提供される感情条項を必要としない。 以前のECPEの研究は、感情抽出、原因抽出、ペアリングを独立して行うマルチステージアプローチ、あるいはその制限を解決するために複雑なアーキテクチャを使用していた。 本稿では,ECPEタスクのエンドツーエンドモデルを提案する。 英語ECPEコーパスが利用できないため、NCCIR-13 ECEコーパスを適応させ、このデータセット上にECPEタスクのベースラインを確立します。 提案手法は,多段階アプローチよりも高い性能向上(F1スコアの約6.5増加)を達成し,最先端手法に匹敵する性能を実現する。

The task of Emotion-Cause Pair Extraction (ECPE) aims to extract all potential clause-pairs of emotions and their corresponding causes in a document. Unlike the more well-studied task of Emotion Cause Extraction (ECE), ECPE does not require the emotion clauses to be provided as annotations. Previous works on ECPE have either followed a multi-stage approach where emotion extraction, cause extraction, and pairing are done independently or use complex architectures to resolve its limitations. In this paper, we propose an end-to-end model for the ECPE task. Due to the unavailability of an English language ECPE corpus, we adapt the NTCIR-13 ECE corpus and establish a baseline for the ECPE task on this dataset. On this dataset, the proposed method produces significant performance improvements (~6.5 increase in F1 score) over the multi-stage approach and achieves comparable performance to the state-of-the-art methods.
翻訳日:2021-03-06 05:38:03 公開日:2021-03-02
# (参考訳) 神経生産システム [全文訳有]

Neural Production Systems ( http://arxiv.org/abs/2103.01937v1 )

ライセンス: CC BY 4.0
Anirudh Goyal, Aniket Didolkar, Nan Rosemary Ke, Charles Blundell, Philippe Beaudoin, Nicolas Heess, Michael Mozer, Yoshua Bengio(参考訳) 視覚環境は、異なるオブジェクトまたはエンティティから構成される。 これらのエンティティは、相互に相互作用する方法を決定するプロパティ -- 可視性と潜在性 -- を持っている。 イメージをエンティティに分割するために、ディープラーニング研究者はスロットベースのアーキテクチャのような構造的誘導バイアスを提案した。 実体間の相互作用をモデル化するために、同値グラフニューラルネットワーク(GNN)が使用されるが、これらは2つの理由でタスクに特に適していない。 第一に、GNNは、独立したエンティティ間の関係がそうであるように、相互作用が疎いことを前提としない。 第二に、GNNはエンティティ条件による相互作用に関する知識を分解しない。 別の方法として、私たちは認知科学からインスピレーションを得て、特定のエンティティに対するルールにプレースホルダ変数をバインドすることで適用される一連のルールテンプレートからなる古典的なアプローチであるプロダクションシステムを復活させます。 ルールはエンティティにマッチしてスコアされ、エンティティプロパティの更新に最適なルールが適用される。 一連の実験では、このアーキテクチャが柔軟でダイナミックな制御フローを達成し、エンティティ固有のルールベースの情報をファクタライズするのに役立つことを実証します。 この知識の分離は、リッチな視覚環境における堅牢な未来予測を実現し、GNNを用いた最先端の手法を上回り、単純な(少数の)環境からより複雑な環境への外挿を可能にします。

Visual environments are structured, consisting of distinct objects or entities. These entities have properties -- both visible and latent -- that determine the manner in which they interact with one another. To partition images into entities, deep-learning researchers have proposed structural inductive biases such as slot-based architectures. To model interactions among entities, equivariant graph neural nets (GNNs) are used, but these are not particularly well suited to the task for two reasons. First, GNNs do not predispose interactions to be sparse, as relationships among independent entities are likely to be. Second, GNNs do not factorize knowledge about interactions in an entity-conditional manner. As an alternative, we take inspiration from cognitive science and resurrect a classic approach, production systems, which consist of a set of rule templates that are applied by binding placeholder variables in the rules to specific entities. Rules are scored on their match to entities, and the best fitting rules are applied to update entity properties. In a series of experiments, we demonstrate that this architecture achieves a flexible, dynamic flow of control and serves to factorize entity-specific and rule-based information. This disentangling of knowledge achieves robust future-state prediction in rich visual environments, outperforming state-of-the-art methods using GNNs, and allows for the extrapolation from simple (few object) environments to more complex environments.
翻訳日:2021-03-06 04:15:12 公開日:2021-03-02
# (参考訳) deepmerge ii: ドメイン間の銀河識別を融合する堅牢なディープラーニングアルゴリズムの構築 [全文訳有]

DeepMerge II: Building Robust Deep Learning Algorithms for Merging Galaxy Identification Across Domains ( http://arxiv.org/abs/2103.01373v1 )

ライセンス: CC BY 4.0
A. \'Ciprijanovi\'c, D. Kafkes, K. Downey, S. Jenkins, G. N. Perdue, S. Madireddy, T. Johnston, G. F. Snyder, B. Nord(参考訳) 天文学では、ニューラルネットワークはしばしばシミュレーションデータで訓練され、望遠鏡の観測に使用されます。 残念ながら、シミュレーションデータ上でモデルをトレーニングし、それを計測データに適用すると、新たなターゲットデータセット上でのモデル精度の相当かつ潜在的に低下につながる。 シミュレーションと計測データは異なるデータドメインを表し、アルゴリズムが両方で動作するためには、ドメイン不変学習が必要である。 ここでは、追加の転送損失として最大平均離散値 (MMD) と、DANN (Domain Adversarial Neural Networks) の$-$を用いて、融合銀河と非融合銀河を分類する天文学的文脈において、ドメイン不変の特徴を抽出する可能性を示す。 さらに,Fisher損失とエントロピー最小化を利用して,ドメイン内クラス識別性を向上する方法について検討する。 従来の深層学習アルゴリズムと比較して,各領域適応手法の追加により分類器の性能が向上することを示した。 この2つの例は、遠方の銀河の2つのIllustris-1シミュレーションデータセットと、近くの銀河のシミュレーションデータとSloan Digital Sky Surveyの観測データである。 私たちの実験におけるドメイン適応技術の使用は、ターゲットドメイン分類精度を${\sim}20\%$まで高めることにつながります。 これらの技術により、シミュレーションデータに基づいて訓練されたニューラルネットワークモデルを成功裏に実装し、現在および将来の大規模天文調査で天体を効率的に検出および研究することができます。

In astronomy, neural networks are often trained on simulation data with the prospect of being used on telescope observations. Unfortunately, training a model on simulation data and then applying it to instrument data leads to a substantial and potentially even detrimental decrease in model accuracy on the new target dataset. Simulated and instrument data represent different data domains, and for an algorithm to work in both, domain-invariant learning is necessary. Here we employ domain adaptation techniques$-$ Maximum Mean Discrepancy (MMD) as an additional transfer loss and Domain Adversarial Neural Networks (DANNs)$-$ and demonstrate their viability to extract domain-invariant features within the astronomical context of classifying merging and non-merging galaxies. Additionally, we explore the use of Fisher loss and entropy minimization to enforce better in-domain class discriminability. We show that the addition of each domain adaptation technique improves the performance of a classifier when compared to conventional deep learning algorithms. We demonstrate this on two examples: between two Illustris-1 simulated datasets of distant merging galaxies, and between Illustris-1 simulated data of nearby merging galaxies and observed data from the Sloan Digital Sky Survey. The use of domain adaptation techniques in our experiments leads to an increase of target domain classification accuracy of up to ${\sim}20\%$. With further development, these techniques will allow astronomers to successfully implement neural network models trained on simulation data to efficiently detect and study astrophysical objects in current and future large-scale astronomical surveys.
翻訳日:2021-03-06 03:05:35 公開日:2021-03-02
# (参考訳) 埋め込み拡張による対話生成の効率化に向けて [全文訳有]

Towards Efficiently Diversifying Dialogue Generation via Embedding Augmentation ( http://arxiv.org/abs/2103.01534v1 )

ライセンス: CC BY 4.0
Yu Cao, Liang Ding, Zhiliang Tian, Meng Fang(参考訳) 対話生成モデルは、ジェネリックで反復的な応答を生成するという課題に直面している。 本論文では, トークン操作を重視し, ハードラベルを用いた単一試料中の本質的多様性を無視する従来の増強法と異なり, ソフト埋め込み拡張とソフトラベルによる神経対話モデルの生成多様性の促進を提案する。 特に、いくつかのキー入力トークンを選択し、その埋め込みとセマンティックに近いトークンからの埋め込みを融合します。 新しい組込みは、元の組込みを置き換えるモデルの入力として機能する。 さらに、ソフトラベルは損失計算に使用され、与えられた入力に対してマルチターゲットの監督を行う。 2つのデータセットの実験結果から,本手法は生モデルよりも多様な応答を生成できる一方,生成した応答の品質を保証するn-gramの精度が維持できることが示された。

Dialogue generation models face the challenge of producing generic and repetitive responses. Unlike previous augmentation methods that mostly focus on token manipulation and ignore the essential variety within a single sample using hard labels, we propose to promote the generation diversity of the neural dialogue models via soft embedding augmentation along with soft labels in this paper. Particularly, we select some key input tokens and fuse their embeddings together with embeddings from their semantic-neighbor tokens. The new embeddings serve as the input of the model to replace the original one. Besides, soft labels are used in loss calculation, resulting in multi-target supervision for a given input. Our experimental results on two datasets illustrate that our proposed method is capable of generating more diverse responses than raw models while remains a similar n-gram accuracy that ensures the quality of generated responses.
翻訳日:2021-03-06 02:22:03 公開日:2021-03-02
# (参考訳) 構成可能なNLPワークフローのためのデータセンタフレームワーク [全文訳有]

A Data-Centric Framework for Composable NLP Workflows ( http://arxiv.org/abs/2103.01834v1 )

ライセンス: CC BY 4.0
Zhengzhong Liu, Guanxiong Ding, Avinash Bukkittu, Mansi Gupta, Pengzhi Gao, Atif Ahmed, Shikun Zhang, Xin Gao, Swapnil Singhavi, Linwei Li, Wei Wei, Zecong Hu, Haoran Shi, Xiaodan Liang, Teruko Mitamura, Eric P. Xing, and Zhiting Hu(参考訳) アプリケーションドメインにおける経験的自然言語処理(NLP)システム(例えば、医療、金融、教育)は、データの取り込み、人間のアノテーション、テキスト検索、分析、生成、可視化など、さまざまなコンポーネント間の相互運用を含む。 このような高度なNLPワークフローの迅速な開発を支援するために,我々は統一されたオープンソースフレームワークを構築している。 このフレームワークは、幅広いNLPタスクによって異種結果をエンコードするための統一データ表現を導入している。 nlpタスク、ビジュアライゼーション、アノテーションのためのプロセッサの大規模なリポジトリを提供しており、統一表現の下で完全な相互運用性で簡単に組み立てることができる。 拡張性の高いフレームワークにより、外部の既製のNLPとディープラーニングライブラリからカスタムプロセッサをプラグインできる。 フレームワーク全体は,2つのモジュール化された統合可能なオープンソースプロジェクト,すなわちforte1(ワークフローインフラストラクチャとnlp関数プロセッサ)とstave2(ユーザインタラクション,可視化,アノテーション)を通じて提供される。

Empirical natural language processing (NLP) systems in application domains (e.g., healthcare, finance, education) involve interoperation among multiple components, ranging from data ingestion, human annotation, to text retrieval, analysis, generation, and visualization. We establish a unified open-source framework to support fast development of such sophisticated NLP workflows in a composable manner. The framework introduces a uniform data representation to encode heterogeneous results by a wide range of NLP tasks. It offers a large repository of processors for NLP tasks, visualization, and annotation, which can be easily assembled with full interoperability under the unified representation. The highly extensible framework allows plugging in custom processors from external off-the-shelf NLP and deep learning libraries. The whole framework is delivered through two modularized yet integratable open-source projects, namely Forte1 (for workflow infrastructure and NLP function processors) and Stave2 (for user interaction, visualization, and annotation).
翻訳日:2021-03-06 02:09:45 公開日:2021-03-02
# (参考訳) カプセルネットワークによる短期動作予測改善のためのスパース意味層の潜時表現 [全文訳有]

Exploiting latent representation of sparse semantic layers for improved short-term motion prediction with Capsule Networks ( http://arxiv.org/abs/2103.01644v1 )

ライセンス: CC BY 4.0
Albert Dulian and John C. Murray(参考訳) 都市環境が高度に複雑化する中、自動運転車(AV)に埋め込まれた安全システムは、近くのエージェントの短期的な将来の動きを正確に予測できることが非常に重要です。 この問題は、追跡されたエージェントの将来の動きを記述する座標列を生成することでさらに理解することができる。 道路構造を規定する特徴を抽出するための畳み込みニューラルネットワーク(CNN)を組み合わせることで,道路のラスタライズされたトップダウンイメージを使用することによる,様々な提案手法が有益であることを示す。 運転可能な区域、車線、通路)。 対照的に,本稿では,ハイデフィケーション(hd)マップの小さな領域に対応する疎意味層の階層的表現を学習する文脈において,カプセルネットワーク(capsnets)の利用について検討する。 地図の各領域は、エージェントの現在の位置に関して抽出された別々の幾何学的層に分解される。 CapsNetsに基づくアーキテクチャを使用することで、検出された画像内の特徴間の階層的関係を維持すると同時に、プール操作によってしばしば発生する空間データの損失を防ぐことができる。 公開データセットのnuTonomyシーンでモデルをトレーニングし、評価し、最近公開された方法と比較します。 提案手法は,ネットワーク全体のサイズを劇的に削減しながら,最近発表された決定論的予測よりも大幅に改善することを示す。

As urban environments manifest high levels of complexity it is of vital importance that safety systems embedded within autonomous vehicles (AVs) are able to accurately anticipate short-term future motion of nearby agents. This problem can be further understood as generating a sequence of coordinates describing the future motion of the tracked agent. Various proposed approaches demonstrate significant benefits of using a rasterised top-down image of the road, with a combination of Convolutional Neural Networks (CNNs), for extraction of relevant features that define the road structure (eg. driveable areas, lanes, walkways). In contrast, this paper explores use of Capsule Networks (CapsNets) in the context of learning a hierarchical representation of sparse semantic layers corresponding to small regions of the High-Definition (HD) map. Each region of the map is dismantled into separate geometrical layers that are extracted with respect to the agent's current position. By using an architecture based on CapsNets the model is able to retain hierarchical relationships between detected features within images whilst also preventing loss of spatial data often caused by the pooling operation. We train and evaluate our model on publicly available dataset nuTonomy scenes and compare it to recently published methods. We show that our model achieves significant improvement over recently published works on deterministic prediction, whilst drastically reducing the overall size of the network.
翻訳日:2021-03-06 02:00:52 公開日:2021-03-02
# (参考訳) 解釈可能なマルチモーダルヘイトスピーチ検出 [全文訳有]

Interpretable Multi-Modal Hate Speech Detection ( http://arxiv.org/abs/2103.01616v1 )

ライセンス: CC BY 4.0
Prashanth Vijayaraghavan, Hugo Larochelle, Deb Roy(参考訳) 世界中の世論や信念の形成におけるソーシャルメディアの役割が高まる中、ソーシャルメディア上でのヘイトスピーチの問題を識別し、対処するための関心が高まっています。 オンライン空間でのヘイトスピーチには、社会的分極や憎悪犯罪など、深刻な兆候がある。 以前の研究ではヘイトスピーチをオンラインで検出する自動化技術が提案されているが、これらの手法はテキストコンテンツを超えては見られない。 さらに、誤った予測の社会的および法的意味から、そのようなモデルの解釈可能性の側面に焦点を合わせる試みは、ほとんど行われていない。 本研究は, 特定の憎悪表現が作られる社会文化的文脈とともに, テキストの意味を効果的に捉えることによって, ヘイトスピーチを効果的に検出し, (b) モデルの決定に対する解釈可能な洞察を提供する, ディープニューラルマルチモーダルモデルを提案する。 異なるモデリング手法の徹底的な評価を行うことで,既存のヘイトスピーチ分類手法を上回るモデルであることが実証された。 最後に、異なるカテゴリの憎悪に関連する未知のクラスタに対する社会的および文化的コンテキスト機能の重要性を示します。

With growing role of social media in shaping public opinions and beliefs across the world, there has been an increased attention to identify and counter the problem of hate speech on social media. Hate speech on online spaces has serious manifestations, including social polarization and hate crimes. While prior works have proposed automated techniques to detect hate speech online, these techniques primarily fail to look beyond the textual content. Moreover, few attempts have been made to focus on the aspects of interpretability of such models given the social and legal implications of incorrect predictions. In this work, we propose a deep neural multi-modal model that can: (a) detect hate speech by effectively capturing the semantics of the text along with socio-cultural context in which a particular hate expression is made, and (b) provide interpretable insights into decisions of our model. By performing a thorough evaluation of different modeling techniques, we demonstrate that our model is able to outperform the existing state-of-the-art hate speech classification approaches. Finally, we show the importance of social and cultural context features towards unearthing clusters associated with different categories of hate.
翻訳日:2021-03-06 00:54:31 公開日:2021-03-02
# (参考訳) AdeNet: 電力線で損傷した電気絶縁体を識別するディープラーニングアーキテクチャ [全文訳有]

AdeNet: Deep learning architecture that identifies damaged electrical insulators in power lines ( http://arxiv.org/abs/2103.01426v1 )

ライセンス: CC BY 4.0
Ademola Okerinde and Lior Shamir and William Hsu and Tom Theis(参考訳) セラミック絶縁体は電子システムにとって重要であり、高電圧電流の危険性から人を守るように設計されている。 しかし、絶縁体は不死ではなく、自然劣化によって徐々に損傷することがある。 そのため、絶縁体の状態は継続的に監視されなければならず、通常はuavを用いて行われる。 UAVは多数の絶縁体の画像を収集し、これらの画像を分析して損傷しているものを識別する。 本稿では,損傷した絶縁体を特定するために設計された深層ニューラルネットワークとしてadenetを記述し,絶縁体状態の自動解析のための複数のアプローチをテストする。 浅い学習方法と同様に、いくつかのディープニューラルネットワークがテストされた。 最良の結果(88.8\%)は、転送学習なしでAdeNetを用いて達成された。 AdeNetはまた、偽陰性率を$\sim$7\%に減らした。 人間の検査を完全に置き換えることはできないが、その高いスループットは損傷した絶縁体を監視するのに要する労力を削減し、損傷した絶縁体を置き換えるための早期警告を提供する。

Ceramic insulators are important to electronic systems, designed and installed to protect humans from the danger of high voltage electric current. However, insulators are not immortal, and natural deterioration can gradually damage them. Therefore, the condition of insulators must be continually monitored, which is normally done using UAVs. UAVs collect many images of insulators, and these images are then analyzed to identify those that are damaged. Here we describe AdeNet as a deep neural network designed to identify damaged insulators, and test multiple approaches to automatic analysis of the condition of insulators. Several deep neural networks were tested, as were shallow learning methods. The best results (88.8\%) were achieved using AdeNet without transfer learning. AdeNet also reduced the false negative rate to $\sim$7\%. While the method cannot fully replace human inspection, its high throughput can reduce the amount of labor required to monitor lines for damaged insulators and provide early warning to replace damaged insulators.
翻訳日:2021-03-05 23:56:49 公開日:2021-03-02
# (参考訳) 多次元時系列における欠落値計算 [全文訳有]

Missing Value Imputation on Multidimensional Time Series ( http://arxiv.org/abs/2103.01600v1 )

ライセンス: CC BY-SA 4.0
Parikshit Bansal, Prathamesh Deshpande, Sunita Sarawagi(参考訳) 本稿では,多次元時系列データセットにおける深層学習手法DeepMVIを提案する。 欠落した値は、異なるソースから長い時間にわたってデータを集約する意思決定支援プラットフォームや、欠落したデータを慎重に処理するための信頼性の高いデータ分析コールに共通する。 1つの戦略は、欠落した値を出力することであり、単純な補間、SVDのような行列分解法、カルマンフィルタのような統計モデル、そして最近のディープラーニング手法にまたがる幅広いアルゴリズムが存在する。 欠落したデータを除外するよりも、集計分析に悪い結果をもたらすことが多いことが示されています。 DeepMVIはニューラルネットワークを使用して、時系列に沿ってきめ細かなパターンと粗いパターンを組み合わせ、関連するシリーズからカテゴリ次元の傾向を結合する。 既製のニューラルネットワークアーキテクチャに失敗した後、私たちは、新しい畳み込みウィンドウ機能を備えたテンポラルトランスと、学習された埋め込みによるカーネル回帰を含む独自のネットワークを設計します。 パラメータとそのトレーニングは、欠落ブロックとデータ特性の異なる配置を一般化するために慎重に設計されている。 9つの実際のデータセット、異なる4つのシナリオ、そして7つの既存のメソッドを比較した実験は、DeepMVIがはるかに正確であることを示し、最も優れた既存のメソッドと比較して、半分以上のケースでエラーを50%以上削減している。 単純な行列分解法よりも遅いが、値の欠落よりも全体として正確な分析を提供するのがdeepmviのみであることを示し、時間オーバーヘッドの増加を正当化する。

We present DeepMVI, a deep learning method for missing value imputation in multidimensional time-series datasets. Missing values are commonplace in decision support platforms that aggregate data over long time stretches from disparate sources, and reliable data analytics calls for careful handling of missing data. One strategy is imputing the missing values, and a wide variety of algorithms exist spanning simple interpolation, matrix factorization methods like SVD, statistical models like Kalman filters, and recent deep learning methods. We show that often these provide worse results on aggregate analytics compared to just excluding the missing data. DeepMVI uses a neural network to combine fine-grained and coarse-grained patterns along a time series, and trends from related series across categorical dimensions. After failing with off-the-shelf neural architectures, we design our own network that includes a temporal transformer with a novel convolutional window feature, and kernel regression with learned embeddings. The parameters and their training are designed carefully to generalize across different placements of missing blocks and data characteristics. Experiments across nine real datasets, four different missing scenarios, comparing seven existing methods show that DeepMVI is significantly more accurate, reducing error by more than 50% in more than half the cases, compared to the best existing method. Although slower than simpler matrix factorization methods, we justify the increased time overheads by showing that DeepMVI is the only option that provided overall more accurate analytics than dropping missing values.
翻訳日:2021-03-05 23:46:01 公開日:2021-03-02
# (参考訳) R'enyi差分プライバシーを用いた実用的なプライバシーフィルタとオドメーターと差分プライベートディープラーニングへの応用 [全文訳有]

Practical Privacy Filters and Odometers with R\'enyi Differential Privacy and Applications to Differentially Private Deep Learning ( http://arxiv.org/abs/2103.01379v1 )

ライセンス: CC BY 4.0
Mathias L\'ecuyer(参考訳) 差分プライバシー(DP)は、ディープラーニングを保護するプライバシーに対する主要なアプローチです。 そのため、DPの一般的なフレームワークへのドロップイン統合を提供するための複数の取り組みがある。 DPを作るために各勾配計算にノイズを加えるこれらの努力は、DP計算のこのシーケンスで生じる総プライバシー損失を束縛するために組成定理に頼っている。 しかし、既存の組成定理は効率と柔軟性の間の緊張を示す。 ほとんどの定理では、シーケンス内のすべての計算はプライバシー予算と呼ばれる予め定義されたDPパラメータを持つ必要がある。 これにより、プライバシ予算を順応するトレーニングアルゴリズムの設計や、あるいはプライバシ損失の総削減のために早期に終了するアルゴリズムの設計が防止される。 あるいは、適応的なプライバシー予算のためのいくつかの既存の構成結果が、プライバシー損失の複雑な境界を提供し、定数が大きすぎて実用的ではない。 本稿では,R\'enyi Differential Privacy のレンズを用いて適応的プライバシー予算の下でDP合成を研究し,より小さな定数を持つより単純な合成定理を証明し,アルゴリズム設計に十分な実用性を持たせる。 DP深層学習のためのこの定理の2つの応用を実証する: ノイズまたはバッチサイズをオンラインで適応して、固定された総プライバシー損失内のモデルの精度を改善すること、そして全プライバシー損失を減らすためにモデルを微調整するときに早めに停止すること。

Differential Privacy (DP) is the leading approach to privacy preserving deep learning. As such, there are multiple efforts to provide drop-in integration of DP into popular frameworks. These efforts, which add noise to each gradient computation to make it DP, rely on composition theorems to bound the total privacy loss incurred over this sequence of DP computations. However, existing composition theorems present a tension between efficiency and flexibility. Most theorems require all computations in the sequence to have a predefined DP parameter, called the privacy budget. This prevents the design of training algorithms that adapt the privacy budget on the fly, or that terminate early to reduce the total privacy loss. Alternatively, the few existing composition results for adaptive privacy budgets provide complex bounds on the privacy loss, with constants too large to be practical. In this paper, we study DP composition under adaptive privacy budgets through the lens of R\'enyi Differential Privacy, proving a simpler composition theorem with smaller constants, making it practical enough to use in algorithm design. We demonstrate two applications of this theorem for DP deep learning: adapting the noise or batch size online to improve a model's accuracy within a fixed total privacy loss, and stopping early when fine-tuning a model to reduce total privacy loss.
翻訳日:2021-03-05 17:45:55 公開日:2021-03-02
# (参考訳) 過パラメータ化下におけるラベル不均衡とグループ感性分類

Label-Imbalanced and Group-Sensitive Classification under Overparameterization ( http://arxiv.org/abs/2103.01550v1 )

ライセンス: CC0 1.0
Ganesh Ramachandra Kini, Orestis Paraskevas, Samet Oymak and Christos Thrampoulidis(参考訳) label-imbalanced and group-sensitive classificationは、標準トレーニングアルゴリズムを適切に修正して、バランスのとれたエラーや機会の均等さといった関連するメトリクスを最適化しようとする。 ラベルの不均衡に対する最近の研究は、標準的な経験的リスク最小化のためのロジット調整された損失修正を提案している。 これは一般には効果がなく、訓練がゼロの訓練・テロ体制で継続する過度にパラメータ化された体制では特にそうである。 特に分離可能なデータセットのバイナリ線形分類では、修正された損失がロジット調整にもかかわらずmax-margin svm分類器に収束することを示す。 代わりに、コストに敏感なsvm(cs-svm)に直接関係するより一般的なベクトルスケーリングの損失を提案し、マイノリティクラスにより大きなマージンを与える。 ガウス混合データモデルに対する鋭い漸近解析を通じて、マイノリティクラスとマイノリティクラスのエラーのバランスをとるCS-SVMの有効性を実証する。 また,本解析はマージン比パラメータを最適に調整するための簡易な手法も導出する。 そこで本研究では, 2つの共通する不均衡(ラベル/グループ)を統一的に処理し, 2つの分類にどのように拡張するかを示す。 我々は, 合成および実世界の両方のデータセットに関する数値実験により, 理論的知見を裏付ける。

Label-imbalanced and group-sensitive classification seeks to appropriately modify standard training algorithms to optimize relevant metrics such as balanced error and/or equal opportunity. For label imbalances, recent works have proposed a logit-adjusted loss modification to standard empirical risk minimization. We show that this might be ineffective in general and, in particular so, in the overparameterized regime where training continues in the zero training-error regime. Specifically for binary linear classification of a separable dataset, we show that the modified loss converges to the max-margin SVM classifier despite the logit adjustment. Instead, we propose a more general vector-scaling loss that directly relates to the cost-sensitive SVM (CS-SVM), thus favoring larger margin to the minority class. Through an insightful sharp asymptotic analysis for a Gaussian-mixtures data model, we demonstrate the efficacy of CS-SVM in balancing the errors of the minority/majority classes. Our analysis also leads to a simple strategy for optimally tuning the involved margin-ratio parameter. Then, we show how our results extend naturally to binary classification with sensitive groups, thus treating the two common types of imbalances (label/group) in a unifying way. We corroborate our theoretical findings with numerical experiments on both synthetic and real-world datasets.
翻訳日:2021-03-05 17:13:15 公開日:2021-03-02
# (参考訳) 時系列データ生成のためのスペクトル化GAN [全文訳有]

A Spectral Enabled GAN for Time Series Data Generation ( http://arxiv.org/abs/2103.01904v1 )

ライセンス: CC BY 4.0
Kaleb E. Smith and Anthony O. Smith(参考訳) 時間依存データは、今日のデータ駆動世界における主要な情報源である。 しかし、この種のデータを生成することは、その課題を示し、生成機械学習の分野で興味深い研究分野となった。 そのようなアプローチの1つは、Smithらによるものである。 彼はTime Series Generative Adversarial Network(TSGAN)を開発し、トレーニングと学習の特定の側面に欠陥があるにもかかわらず、時間依存データの生成と少数のショット生成の能力で有望なパフォーマンスを示した。 本稿では,tsganにおける独立ネットワークの学習を統一し,学習と学習の両方に依存させることにより,tsganの結果を改善し,これらの欠陥に対処することを目的とする。 統合TSGAN(uTSGAN)と呼ばれるこの改善は、コミュニティで使用されている70のベンチマーク時系列データセットで、その前任者に定量的および定性的に評価された。 utsganは、データセット全体のfidスコアが向上し、少数のショット生成能力を維持しながら、トレーニング期間の3/4以下で、データセットのトレーニングエポック数とデータセットの60\%とで、データセットの80\%でtsganを上回ることを示した。

Time dependent data is a main source of information in today's data driven world. Generating this type of data though has shown its challenges and made it an interesting research area in the field of generative machine learning. One such approach was that by Smith et al. who developed Time Series Generative Adversarial Network (TSGAN) which showed promising performance in generating time dependent data and the ability of few shot generation though being flawed in certain aspects of training and learning. This paper looks to improve on the results from TSGAN and address those flaws by unifying the training of the independent networks in TSGAN and creating a dependency both in training and learning. This improvement, called unified TSGAN (uTSGAN) was tested and comapred both quantitatively and qualitatively to its predecessor on 70 benchmark time series data sets used in the community. uTSGAN showed to outperform TSGAN in 80\% of the data sets by the same number of training epochs and 60\% of the data sets in 3/4th the amount of training time or less while maintaining the few shot generation ability with better FID scores across those data sets.
翻訳日:2021-03-05 17:12:05 公開日:2021-03-02
# 金融犯罪と不正検出のためのグラフコンピューティング:トレンド,課題,展望

Graph Computing for Financial Crime and Fraud Detection: Trends, Challenges and Outlook ( http://arxiv.org/abs/2103.03227v1 )

ライセンス: Link先を確認
E.Kurshan, H. Shen(参考訳) デジタル決済の台頭は、金融犯罪の状況に一連の変化をもたらした。 その結果、ルールベースシステムのような従来の不正検出手法は、ほとんど効果が無くなっている。 グラフコンピューティングの原則を用いたAIと機械学習のソリューションは、近年大きな関心を集めている。 グラフベースの技術は、金融犯罪検出にユニークな解決策を提供する。 しかし、リアルタイム金融取引処理システムにおける産業規模でのそのようなソリューションの実装は、多くのアプリケーション課題を浮き彫りにしている。 本稿では,現在および次世代グラフソリューションが直面する実装難しさについて述べる。 さらに、金融犯罪やデジタル決済の傾向は、検出技術の継続的な有効性の新たな課題を示している。 脅威の状況を分析し、グラフベースのソリューションを開発する上で重要な洞察を提供すると主張します。

The rise of digital payments has caused consequential changes in the financial crime landscape. As a result, traditional fraud detection approaches such as rule-based systems have largely become ineffective. AI and machine learning solutions using graph computing principles have gained significant interest in recent years. Graph-based techniques provide unique solution opportunities for financial crime detection. However, implementing such solutions at industrial-scale in real-time financial transaction processing systems has brought numerous application challenges to light. In this paper, we discuss the implementation difficulties current and next-generation graph solutions face. Furthermore, financial crime and digital payments trends indicate emerging challenges in the continued effectiveness of the detection techniques. We analyze the threat landscape and argue that it provides key insights for developing graph-based solutions.
翻訳日:2021-03-05 15:04:55 公開日:2021-03-02
# (参考訳) 画像からの雑草検出のための深層学習手法の検討

A Survey of Deep Learning Techniques for Weed Detection from Images ( http://arxiv.org/abs/2103.01415v1 )

ライセンス: CC BY 4.0
A S M Mahmudul Hasan, Ferdous Sohel, Dean Diepeveen, Hamid Laga and Michael G.K. Jones(参考訳) ディープラーニング(DL)技術の急速な進歩により、画像やビデオからのオブジェクトの迅速な検出、ローカライゼーション、認識が可能になった。 DL技術は現在、農業や農業に関する多くの応用で使われている。 雑草の自動検出と分類は雑草管理において重要な役割を果たすため、高収率に寄与する。 画像からの作物の雑草検出は、雑草と作物の両方に類似した色(「緑と緑」)があり、その形状と食感が成長段階で非常に類似しているため、本質的に困難な問題です。 また、ある設定の作物を別の設定の雑草と見なすこともできる。 その検出に加えて、特定の雑草種の認識が不可欠であり、標的となる制御機構(例えば)が重要である。 適切な除草剤と正しい用量)が適用できる。 本稿では,既存の深層学習に基づく雑草検出・分類手法について概説する。 データ取得、データセット作成、作物の雑草の検出、場所と分類に用いられるDL技術、評価指標のアプローチの4つの主要な手順に関する詳細な文献をカバーしています。 その結果,多くの研究が教師あり学習手法を応用し,植物データセット上で事前学習したモデルを微調整することで,高い分類精度を達成していることがわかった。

The rapid advances in Deep Learning (DL) techniques have enabled rapid detection, localisation, and recognition of objects from images or videos. DL techniques are now being used in many applications related to agriculture and farming. Automatic detection and classification of weeds can play an important role in weed management and so contribute to higher yields. Weed detection in crops from imagery is inherently a challenging problem because both weeds and crops have similar colours ('green-on-green'), and their shapes and texture can be very similar at the growth phase. Also, a crop in one setting can be considered a weed in another. In addition to their detection, the recognition of specific weed species is essential so that targeted controlling mechanisms (e.g. appropriate herbicides and correct doses) can be applied. In this paper, we review existing deep learning-based weed detection and classification techniques. We cover the detailed literature on four main procedures, i.e., data acquisition, dataset preparation, DL techniques employed for detection, location and classification of weeds in crops, and evaluation metrics approaches. We found that most studies applied supervised learning techniques, they achieved high classification accuracy by fine-tuning pre-trained models on any plant dataset, and past experiments have already achieved high accuracy when a large amount of labelled data is available.
翻訳日:2021-03-05 14:37:56 公開日:2021-03-02
# (参考訳) CNN-LSTMによる都市拡張予測手法 [全文訳有]

A Novel CNN-LSTM-based Approach to Predict Urban Expansion ( http://arxiv.org/abs/2103.01695v1 )

ライセンス: CC BY 4.0
Wadii Boulila, Hamza Ghandorh, Mehshan Ahmed Khan, Fawad Ahmed, Jawad Ahmad(参考訳) 時系列リモートセンシングデータは、土地被覆の変化の監視からサーベイリング作物、沿岸部の変化、洪水リスクアセスメント、都市スプロールまで、幅広いアプリケーションで使用できる豊富な情報源を提供します。 本稿では,時系列衛星画像を用いた都市拡大予測の課題について論じる。 そこで本稿では, 都市拡大を予測するために, セマンティックイメージセグメンテーションに基づく新しい2段階アプローチを提案する。 最初のステップは、異なる時間スケールで都市地域に関する情報を抽出し、トレーニングステップで使用するために準備することです。 2番目のステップは、Convolutional Neural Networks(CNN)とLong Short Term Memory(LSTM)を組み合わせ、時間的特徴を学び、都市の拡大を予測します。 本論文では,サウジアラビアの3大都市,すなわちリヤド,ジェッダ,ダムマムを表す複数の衛星画像を用いて実験を行った。 提案手法を実証的に評価し,その成果を最新手法と比較して検討した。 本評価の結果から,新しい結合型CNN-LSTM手法の性能,特に平均正方形誤差,ルート平均正方形誤差,ピーク信号の雑音比,構造類似度指数,全体分類精度に基づく評価の点において,性能が向上していることが判明した。

Time-series remote sensing data offer a rich source of information that can be used in a wide range of applications, from monitoring changes in land cover to surveilling crops, coastal changes, flood risk assessment, and urban sprawl. This paper addresses the challenge of using time-series satellite images to predict urban expansion. Building upon previous work, we propose a novel two-step approach based on semantic image segmentation in order to predict urban expansion. The first step aims to extract information about urban regions at different time scales and prepare them for use in the training step. The second step combines Convolutional Neural Networks (CNN) with Long Short Term Memory (LSTM) methods in order to learn temporal features and thus predict urban expansion. In this paper, experimental results are conducted using several multi-date satellite images representing the three largest cities in Saudi Arabia, namely: Riyadh, Jeddah, and Dammam. We empirically evaluated our proposed technique, and examined its results by comparing them with state-of-the-art approaches. Following this evaluation, we determined that our results reveal improved performance for the new-coupled CNN-LSTM approach, particularly in terms of assessments based on Mean Square Error, Root Mean Square Error, Peak Signal to Noise Ratio, Structural Similarity Index, and overall classification accuracy.
翻訳日:2021-03-05 14:35:56 公開日:2021-03-02
# (参考訳) 解釈可能なハイパースペクトルAI:非凸モデリングがハイパースペクトルリモートセンシングに合うとき [全文訳有]

Interpretable Hyperspectral AI: When Non-Convex Modeling meets Hyperspectral Remote Sensing ( http://arxiv.org/abs/2103.01449v1 )

ライセンス: CC BY 4.0
Danfeng Hong and Wei He and Naoto Yokoya and Jing Yao and Lianru Gao and Liangpei Zhang and Jocelyn Chanussot and Xiao Xiang Zhu(参考訳) ハイパースペクトルイメージング(hyperspectral imaging)は、地球科学とリモートセンシング(rs)における画期的な技術である。 過去10年間で、主に熟練した専門家によってこれらのハイパースペクトル(HS)製品を処理および分析するための膨大な努力が行われています。 しかし、データ量の増加に伴い、人力と材料資源のコストの大部分は、手作業の負担軽減と効率の向上に新たな課題をもたらしている。 そのため、様々なHS RSアプリケーションに対してよりインテリジェントで自動的なアプローチを開発することが急務である。 凸最適化を備えた機械学習(ML)ツールは、多数の人工知能(AI)関連アプリケーションのタスクに成功しました。 しかし、HSイメージングの過程における様々なスペクトル変動の影響と高次元HS信号の複雑さと冗長性により、複雑な実用的問題を扱う能力は限定的であり、特にHSデータでは限られている。 凸モデルと比較して、より複雑な実シーンを特徴付け、技術的・理論的にモデル解釈可能性を提供する非凸モデリングは、難解なHSビジョンタスクと現在の高度なインテリジェントデータ処理モデルとのギャップを減らすための実現可能な解決策であることが証明されている。

Hyperspectral imaging, also known as image spectrometry, is a landmark technique in geoscience and remote sensing (RS). In the past decade, enormous efforts have been made to process and analyze these hyperspectral (HS) products mainly by means of seasoned experts. However, with the ever-growing volume of data, the bulk of costs in manpower and material resources poses new challenges on reducing the burden of manual labor and improving efficiency. For this reason, it is, therefore, urgent to develop more intelligent and automatic approaches for various HS RS applications. Machine learning (ML) tools with convex optimization have successfully undertaken the tasks of numerous artificial intelligence (AI)-related applications. However, their ability in handling complex practical problems remains limited, particularly for HS data, due to the effects of various spectral variabilities in the process of HS imaging and the complexity and redundancy of higher dimensional HS signals. Compared to the convex models, non-convex modeling, which is capable of characterizing more complex real scenes and providing the model interpretability technically and theoretically, has been proven to be a feasible solution to reduce the gap between challenging HS vision tasks and currently advanced intelligent data processing models.
翻訳日:2021-03-05 12:57:22 公開日:2021-03-02
# (参考訳) FinSim-2:Hypernym Detection in the Financial Services Domain using Knowledge Graphs (英語) [全文訳有]

FinMatcher at FinSim-2: Hypernym Detection in the Financial Services Domain using Knowledge Graphs ( http://arxiv.org/abs/2103.01576v1 )

ライセンス: CC BY 4.0
Jan Portisch and Michael Hladik and Heiko Paulheim(参考訳) 本稿では,Web 会議と連携して,Web 上での金融技術ワークショップ (FinWeb) と共同で実施されている FinSim 2021 共有タスクについて,FinMatcher システムとその成果について述べる。 FinSim-2共有タスクは、金融サービスドメインの一連の概念ラベルで構成されています。 ゴールは、与えられた概念セットから最も関連するトップレベル概念を見つけることである。 FinMatcherシステムは、WordNet、Wikidata、WebIsALODの3つの公開知識グラフを利用しています。 グラフは明示的な特徴と、最も近いハイパーネムを予測するためにニューラル分類器に入力される潜時特徴を生成するために使用される。

This paper presents the FinMatcher system and its results for the FinSim 2021 shared task which is co-located with the Workshop on Financial Technology on the Web (FinWeb) in conjunction with The Web Conference. The FinSim-2 shared task consists of a set of concept labels from the financial services domain. The goal is to find the most relevant top-level concept from a given set of concepts. The FinMatcher system exploits three publicly available knowledge graphs, namely WordNet, Wikidata, and WebIsALOD. The graphs are used to generate explicit features as well as latent features which are fed into a neural classifier to predict the closest hypernym.
翻訳日:2021-03-05 10:52:51 公開日:2021-03-02
# (参考訳) ドメイン間の推奨事項: 課題, 進捗, 展望 [全文訳有]

Cross-Domain Recommendation: Challenges, Progress, and Prospects ( http://arxiv.org/abs/2103.01696v1 )

ライセンス: CC BY 4.0
Feng Zhu, Yan Wang, Chaochao Chen, Jun Zhou, Longfei Li, Guanfeng Liu(参考訳) 従来のレコメンデーションシステム(RS)におけるデータ分散性の問題に対処するために、よりリッチなドメインからの比較的リッチな情報を活用するためにクロスドメインレコメンデーション(CDR)が提案されている。 近年、CDRは広範囲に研究されているが、既存のCDRアプローチの体系的なレビューが欠けている。 このギャップを埋めるために,本稿では,課題,研究の進展,今後の方向性など,既存のCDRアプローチの総合的なレビューを行う。 具体的には,既存のCDRアプローチを,まず単一ターゲットCDR,マルチドメインレコメンデーション,デュアルターゲットCDR,マルチターゲットCDRの4つのタイプにまとめる。 次に、これらのCDRアプローチの定義と課題を示す。 次に、これらのアプローチに関する全分類と新しい分類を提案し、研究の進展を詳細に報告する。 最後に、我々はCDRでいくつかの有望な研究の方向を共有します。

To address the long-standing data sparsity problem in recommender systems (RSs), cross-domain recommendation (CDR) has been proposed to leverage the relatively richer information from a richer domain to improve the recommendation performance in a sparser domain. Although CDR has been extensively studied in recent years, there is a lack of a systematic review of the existing CDR approaches. To fill this gap, in this paper, we provide a comprehensive review of existing CDR approaches, including challenges, research progress, and future directions. Specifically, we first summarize existing CDR approaches into four types, including single-target CDR, multi-domain recommendation, dual-target CDR, and multi-target CDR. We then present the definitions and challenges of these CDR approaches. Next, we propose a full-view categorization and new taxonomies on these approaches and report their research progress in detail. In the end, we share several promising research directions in CDR.
翻訳日:2021-03-05 09:48:23 公開日:2021-03-02
# (参考訳) ReLUネットワークにおけるデミスティファイトバッチ正規化:等価凸最適化モデルと命令正規化

Demystifying Batch Normalization in ReLU Networks: Equivalent Convex Optimization Models and Implicit Regularization ( http://arxiv.org/abs/2103.01499v1 )

ライセンス: CC BY 4.0
Tolga Ergen, Arda Sahiner, Batu Ozturkler, John Pauly, Morteza Mardani, Mert Pilanci(参考訳) バッチ正規化(BN)は、ディープニューラルネットワークのトレーニングを加速し、安定化するための一般的な手法である。 実験的な成功にもかかわらず、BNの完全な理論的理解はまだ開発されていない。 本研究では,凸最適化のレンズを用いてBNを解析する。 多項式時間で訓練可能なBNを用いた重量減少正規化RELUネットワークの正確な凸表現を得るために,凸双対性に基づく解析フレームワークを導入する。 また, 最適層重みは高次元および/または過パラメータ化状態において単純な閉形式式として得られることを示した。 さらに、Gradient Descentは標準の非凸BNネットワークにアルゴリズム的バイアス効果を与え、この暗黙的な正規化を凸目標に明示的に符号化するアプローチを設計する。 CIFAR画像分類による実験は、標準BNネットワークのパフォーマンスを模倣し、大幅に改善するためのこの明示的な正規化の有効性を強調している。

Batch Normalization (BN) is a commonly used technique to accelerate and stabilize training of deep neural networks. Despite its empirical success, a full theoretical understanding of BN is yet to be developed. In this work, we analyze BN through the lens of convex optimization. We introduce an analytic framework based on convex duality to obtain exact convex representations of weight-decay regularized ReLU networks with BN, which can be trained in polynomial-time. Our analyses also show that optimal layer weights can be obtained as simple closed-form formulas in the high-dimensional and/or overparameterized regimes. Furthermore, we find that Gradient Descent provides an algorithmic bias effect on the standard non-convex BN network, and we design an approach to explicitly encode this implicit regularization into the convex objective. Experiments with CIFAR image classification highlight the effectiveness of this explicit regularization for mimicking and substantially improving the performance of standard BN networks.
翻訳日:2021-03-05 07:56:46 公開日:2021-03-02
# (参考訳) よりリアルな非線形モデルのヘッシアン固有スペクトル [全文訳有]

Hessian Eigenspectra of More Realistic Nonlinear Models ( http://arxiv.org/abs/2103.01519v1 )

ライセンス: CC BY 4.0
Zhenyu Liao and Michael W. Mahoney(参考訳) 最適化問題を考えると、ヘッセン行列とその固有スペクトルは、より効率的な二次アルゴリズムの設計からモデル解析と回帰診断の実行まで、様々な方法で用いられる。 非線形モデルと非凸問題を考慮すると、ヘッセンスペクトル解析をよりトラクタブルにするために、強い単純化仮定がしばしばなされる。 これは、そのような解析の結論がより現実的な非線形モデルにどの程度関連しているかという問題につながる。 本稿では, ランダム行列理論による決定論的等価性を用いて, 従来の一般化線形モデルを一般化するモデルを含む, 幅広い非線形モデル群に対するヘッセン固有スペクトルの補題を, 従来より強固な単純化の仮定に頼らずに評価する。 データ特性、非線形応答モデル、損失関数に応じて、ヘッシアンは、有界または非有界のサポート、シングルまたはマルチバルク、バルクの左側または右側の孤立した固有値の異なるスペクトル挙動を持つことができることを示しています。 このような単純な非自明な非線形モデルに注目して、より複雑な機械学習モデルで観察される多くの視覚的特徴の理論的起源を明らかにする。

Given an optimization problem, the Hessian matrix and its eigenspectrum can be used in many ways, ranging from designing more efficient second-order algorithms to performing model analysis and regression diagnostics. When nonlinear models and non-convex problems are considered, strong simplifying assumptions are often made to make Hessian spectral analysis more tractable. This leads to the question of how relevant the conclusions of such analyses are for more realistic nonlinear models. In this paper, we exploit deterministic equivalent techniques from random matrix theory to make a \emph{precise} characterization of the Hessian eigenspectra for a broad family of nonlinear models, including models that generalize the classical generalized linear models, without relying on strong simplifying assumptions used previously. We show that, depending on the data properties, the nonlinear response model, and the loss function, the Hessian can have \emph{qualitatively} different spectral behaviors: of bounded or unbounded support, with single- or multi-bulk, and with isolated eigenvalues on the left- or right-hand side of the bulk. By focusing on such a simple but nontrivial nonlinear model, our analysis takes a step forward to unveil the theoretical origin of many visually striking features observed in more complex machine learning models.
翻訳日:2021-03-05 07:55:43 公開日:2021-03-02
# (参考訳) フィッシャーベクトルに基づく顔提示攻撃検出の一般化について [全文訳有]

On the Generalisation Capabilities of Fisher Vector based Face Presentation Attack Detection ( http://arxiv.org/abs/2103.01721v1 )

ライセンス: CC BY 4.0
L\'azaro J. Gonz\'alez-Soler, Marta Gomez-Barrero, Christoph Busch(参考訳) 過去数十年間、生体認証システムによって経験された幅広い発展は、信頼性を低下させるいくつかの脅威を明らかにしてきた。 これらは、バイオメトリックシステムにアクセスする権限のない被験者によって簡単に実行できる攻撃プレゼンテーションです。 これらのセキュリティ上の懸念を軽減するため、ほとんどの顔提示攻撃検出技術は、既知の提示攻撃機器(PAI)および取得条件で評価された場合、未知の攻撃がテストセットに含まれるようなより困難なシナリオとは対照的に、優れた検出性能を報告している。 より現実的なシナリオでは、既存のアルゴリズムは未知のPAI種を検出するのに困難に直面します。 本研究では,2値化統計画像特徴ヒストグラムから計算したフィッシャーベクトルに基づく新しい特徴空間を用いて,未知の攻撃の検出を強化するために,既知のサンプルから意味的特徴部分集合を検出する。 この新たな表現は、無料で利用可能な顔データベースから得られる未知の攻撃に対して評価され、有望な結果を示している: AUCと17%未満のBPCER100と98%以上のAUCは、未知の攻撃の存在下で達成できる。 さらに,限られた数のパラメータをトレーニングすることにより,クロスデータセットシナリオに対する最先端のディープラーニングベースのアプローチを実現することができる。

In the last decades, the broad development experienced by biometric systems has unveiled several threats which may decrease their trustworthiness. Those are attack presentations which can be easily carried out by a non-authorised subject to gain access to the biometric system. In order to mitigate those security concerns, most face Presentation Attack Detection techniques have reported a good detection performance when they are evaluated on known Presentation Attack Instruments (PAI) and acquisition conditions, in contrast to more challenging scenarios where unknown attacks are included in the test set. For those more realistic scenarios, the existing algorithms face difficulties to detect unknown PAI species in many cases. In this work, we use a new feature space based on Fisher Vectors, computed from compact Binarised Statistical Image Features histograms, which allow discovering semantic feature subsets from known samples in order to enhance the detection of unknown attacks. This new representation, evaluated for challenging unknown attacks taken from freely available facial databases, shows promising results: a BPCER100 under 17% together with an AUC over 98% can be achieved in the presence of unknown attacks. In addition, by training a limited number of parameters, our method is able to achieve state-of-the-art deep learning-based approaches for cross-dataset scenarios.
翻訳日:2021-03-05 06:31:13 公開日:2021-03-02
# (参考訳) RuSentEval: 言語ソース,エンコーダフォース! [全文訳有]

RuSentEval: Linguistic Source, Encoder Force! ( http://arxiv.org/abs/2103.00573v2 )

ライセンス: CC BY 4.0
Vladislav Mikhailov and Ekaterina Taktasheva and Elina Sigdel and Ekaterina Artemova(参考訳) 事前に訓練されたトランスフォーマー言語モデルの成功は、これらのモデルがどのように機能するか、そして言語について何を学ぶかに大きな関心をもたらしました。 しかし、この分野の先行研究は主に英語に特化しており、他の言語についてはほとんど知られていない。 この目的のために、ロシア向けの14の探索タスクの強化セットであるRuSentEvalを紹介した。 補足的探索法を組み合わせて,ロシア語と英語の2つのタイプ論的対照的な言語に対して,多言語トランスフォーマー5つの言語特性の分布を探索する。 本研究は,言語知識の表現方法に関する共通理解と矛盾する興味深い知見を示し,言語的差異にもかかわらず,いくつかの性質が類似した方法で学習されていることを示す。

The success of pre-trained transformer language models has brought a great deal of interest on how these models work, and what they learn about language. However, prior research in the field is mainly devoted to English, and little is known regarding other languages. To this end, we introduce RuSentEval, an enhanced set of 14 probing tasks for Russian, including ones that have not been explored yet. We apply a combination of complementary probing methods to explore the distribution of various linguistic properties in five multilingual transformers for two typologically contrasting languages -- Russian and English. Our results provide intriguing findings that contradict the common understanding of how linguistic knowledge is represented, and demonstrate that some properties are learned in a similar manner despite the language differences.
翻訳日:2021-03-05 05:47:57 公開日:2021-03-02
# (参考訳) M6:中国のマルチモーダルプリトレーナー [全文訳有]

M6: A Chinese Multimodal Pretrainer ( http://arxiv.org/abs/2103.00823v2 )

ライセンス: CC BY 4.0
Junyang Lin, Rui Men, An Yang, Chang Zhou, Ming Ding, Yichang Zhang, Peng Wang, Ang Wang, Le Jiang, Xianyan Jia, Jie Zhang, Jianwei Zhang, Xu Zou, Zhikang Li, Xiaodong Deng, Jie Liu, Jinbao Xue, Huiling Zhou, Jianxin Ma, Jin Yu, Yong Li, Wei Lin, Jingren Zhou, Jie Tang, Hongxia Yang(参考訳) 本研究では、1.9TB以上の画像と292GBの幅広い領域をカバーするテキストからなる中国語のマルチモーダルプリトレーニングのための最大のデータセットを構築する。 本稿では,マルチモダリティとマルチモダリティ・マルチタスク・メガトランスフォーマのマルチモダリティに着目し,単一モダリティと複数モダリティのデータの統合プリトレーニングを行うm6というクロスモダリティプリトレーニング手法を提案する。 モデルのサイズを100億から1000億のパラメータに拡大し、中国で最大の事前訓練モデルを構築します。 このモデルを一連の下流アプリケーションに適用し、強力なベースラインと比較して優れた性能を発揮します。 さらに,テキスト誘導画像生成の下流タスクを特に設計し,精細なm6が高精細で精細な画像を生成することができることを示す。

In this work, we construct the largest dataset for multimodal pretraining in Chinese, which consists of over 1.9TB images and 292GB texts that cover a wide range of domains. We propose a cross-modal pretraining method called M6, referring to Multi-Modality to Multi-Modality Multitask Mega-transformer, for unified pretraining on the data of single modality and multiple modalities. We scale the model size up to 10 billion and 100 billion parameters, and build the largest pretrained model in Chinese. We apply the model to a series of downstream applications, and demonstrate its outstanding performance in comparison with strong baselines. Furthermore, we specifically design a downstream task of text-guided image generation, and show that the finetuned M6 can create high-quality images with high resolution and abundant details.
翻訳日:2021-03-05 05:06:04 公開日:2021-03-02
# (参考訳) Hindi-Urdu Adposition and Case Supersenses v1.0

Hindi-Urdu Adposition and Case Supersenses v1.0 ( http://arxiv.org/abs/2103.01399v1 )

ライセンス: CC BY-SA 4.0
Aryaman Arora, Nitin Venkateswaran, Nathan Schneider(参考訳) これらはSNACS(Semantic Network of Adposition and Case Supersenses; Schneider et al)の適用ガイドラインである。 2018) デリーの現代標準ヒンディー語に。 SNACSは50のスーパーセンス(セマンティックラベル)のインベントリであり、語彙・セマンティック関数および基礎となる文脈との関係について、配置とケースマーカーの使用をラベル付けする。 英語ガイドライン(Schneider et al., 2020)は、この文書のモデルとして使用されました。 ケース・システムに加えて、ヒンディー語は斜めのジェネティヴに構築された非常に豊かな代用体系を持ち、現在のヒングリッシュでも生産的な借用語が組み込まれている。 この文書は英語ガイドラインのバージョン2.5と一致している。

These are the guidelines for the application of SNACS (Semantic Network of Adposition and Case Supersenses; Schneider et al. 2018) to Modern Standard Hindi of Delhi. SNACS is an inventory of 50 supersenses (semantic labels) for labelling the use of adpositions and case markers with respect to both lexical-semantic function and relation to the underlying context. The English guidelines (Schneider et al., 2020) were used as a model for this document. Besides the case system, Hindi has an extremely rich adpositional system built on the oblique genitive, with productive incorporation of loanwords even in present-day Hinglish. This document is aligned with version 2.5 of the English guidelines.
翻訳日:2021-03-05 02:54:22 公開日:2021-03-02
# (参考訳) 双方向ニューラル言語モデルを用いた教師なし単語分割 [全文訳有]

Unsupervised Word Segmentation with Bi-directional Neural Language Model ( http://arxiv.org/abs/2103.01421v1 )

ライセンス: CC BY 4.0
Lihao Wang, Zongyi Li, Xiaoqing Zheng(参考訳) 本稿では,教師なし単語分割モデルを提案する。学習目的は,そのすべてのセグメント化を考慮した文の生成確率を最大化することである。 そのような生成確率は、文脈が再帰的に与えられる各可能なセグメントの確率に分解できる。 長期的および短期的な依存関係をよりよく捉えるために、セグメントのコンテキストの特徴をよりよく捉えるために双方向のニューラル言語モデルを提案する。 2つの復号アルゴリズムは、単語境界の曖昧さを和らげる最後のセグメンテーションを生成するために、両方の方向からのコンテキスト特徴を組み合わせるために記述される。 実験結果から,中国語のさまざまなデータセットの異なる評価設定において,文脈に敏感な教師なしセグメンテーションモデルを達成し,タイ語に匹敵する結果を得た。

We present an unsupervised word segmentation model, in which the learning objective is to maximize the generation probability of a sentence given its all possible segmentation. Such generation probability can be factorized into the likelihood of each possible segment given the context in a recursive way. In order to better capture the long- and short-term dependencies, we propose to use bi-directional neural language models to better capture the features of segment's context. Two decoding algorithms are also described to combine the context features from both directions to generate the final segmentation, which helps to reconcile word boundary ambiguities. Experimental results showed that our context-sensitive unsupervised segmentation model achieved state-of-the-art at different evaluation settings on various data sets for Chinese, and the comparable result for Thai.
翻訳日:2021-03-05 02:53:24 公開日:2021-03-02
# (参考訳) 政治的敵に対する憎しみ: 攻撃的言論とスタンス検出に基づく2020年アメリカ合衆国大統領選挙のtwitterコーパス調査 [全文訳有]

Hate Towards the Political Opponent: A Twitter Corpus Study of the 2020 US Elections on the Basis of Offensive Speech and Stance Detection ( http://arxiv.org/abs/2103.01664v1 )

ライセンス: CC BY 4.0
Lara Grimminger and Roman Klinger(参考訳) 2020年の米国選挙は、ソーシャルメディアキャンペーンと相互非難によって特徴づけられています。 本論文では、ヘイトフルで攻撃的なコミュニケーションを発信することで、ビデンとトランプの支持者のオンラインコミュニケーションにも影響するかどうかを考察する。 嫌がらせ/攻撃的なスピーチ検出とスタンス検出のタスクに参加して、候補者に対する特定のスタンスを表現する場合、キャンペーン期間中に3000ツイートを注釈するアノテーションタスクを策定します。 有利と反対の確立されたクラスの横に、我々は混合と中立のスタンスを追加し、また、候補者が意見の表現なしで言及されている場合に注釈を付けます。 さらに、ツイートが攻撃的なスタイルで書かれているかどうかを注釈します。 これにより、ジョー・バイデンと民主党の支持者が、ドナルド・トランプや共和党の支持者と異なるコミュニケーションをとるかどうかを分析できる。 BERTベースライン分類器は、誰かが候補者の支持者である場合の検知を高品質で行うことができる(トランプは.89F1、バイデンは.91F1)一方、候補者に対して反対であることを示す検出はより困難である(それぞれ.79F1、.64F1)。 ヘイト/攻撃音声の自動検出は依然として困難である(.53 f1)。 我々のコーパスは公開されており、姿勢を考慮した攻撃的言語の計算モデリングのための新しい資源となっている。

The 2020 US Elections have been, more than ever before, characterized by social media campaigns and mutual accusations. We investigate in this paper if this manifests also in online communication of the supporters of the candidates Biden and Trump, by uttering hateful and offensive communication. We formulate an annotation task, in which we join the tasks of hateful/offensive speech detection and stance detection, and annotate 3000 Tweets from the campaign period, if they express a particular stance towards a candidate. Next to the established classes of favorable and against, we add mixed and neutral stances and also annotate if a candidate is mentioned without an opinion expression. Further, we annotate if the tweet is written in an offensive style. This enables us to analyze if supporters of Joe Biden and the Democratic Party communicate differently than supporters of Donald Trump and the Republican Party. A BERT baseline classifier shows that the detection if somebody is a supporter of a candidate can be performed with high quality (.89 F1 for Trump and .91 F1 for Biden), while the detection that somebody expresses to be against a candidate is more challenging (.79 F1 and .64 F1, respectively). The automatic detection of hate/offensive speech remains challenging (with .53 F1). Our corpus is publicly available and constitutes a novel resource for computational modelling of offensive language under consideration of stances.
翻訳日:2021-03-05 02:39:57 公開日:2021-03-02
# (参考訳) Emotion Ratings: 強度、アノテーションの信頼性、契約がどう絡み合っているか [全文訳有]

Emotion Ratings: How Intensity, Annotation Confidence and Agreements are Entangled ( http://arxiv.org/abs/2103.01667v1 )

ライセンス: CC BY 4.0
Enrica Troiano and Sebastian Pad\'o and Roman Klinger(参考訳) 人間が文章の感情的内容を判断するとき、その判断の正しさ、すなわちその信頼度も暗黙的に評価する。 私たちは、アノテーションタスクでうまく機能したという人々の(in)自信が、お互いの合意(dis)につながると仮定します。 もしこれが本当なら、信頼はアノテーションの体系的な違いの診断ツールとなるかもしれない。 我々の仮定を調査するため、現代アメリカ英語コーパスのサブセットについて調査を行い、その回答の信頼度を評価しながら、中性文と感情を含む文を区別するようラッカーに求めた。 信頼は、アノテーション間の不一致を近似する。 さらに、テキストプロンプトアノテータの強い影響を知覚し、より特定の分類パフォーマンスを得るという、感情強度と信頼が相関していることがわかります。 この洞察は、自動回帰器や分類器が実際に強度を予測したり、むしろ人間の自己認識された自信を予測したりすることで、強度のモデリング研究に関係している。

When humans judge the affective content of texts, they also implicitly assess the correctness of such judgment, that is, their confidence. We hypothesize that people's (in)confidence that they performed well in an annotation task leads to (dis)agreements among each other. If this is true, confidence may serve as a diagnostic tool for systematic differences in annotations. To probe our assumption, we conduct a study on a subset of the Corpus of Contemporary American English, in which we ask raters to distinguish neutral sentences from emotion-bearing ones, while scoring the confidence of their answers. Confidence turns out to approximate inter-annotator disagreements. Further, we find that confidence is correlated to emotion intensity: perceiving stronger affect in text prompts annotators to more certain classification performances. This insight is relevant for modelling studies of intensity, as it opens the question wether automatic regressors or classifiers actually predict intensity, or rather human's self-perceived confidence.
翻訳日:2021-03-05 02:25:59 公開日:2021-03-02
# (参考訳) AraBERT and Farasa Segmentation Based Approach for Sarcasm and Sentiment Detection in Arabic Tweets [全文訳有]

AraBERT and Farasa Segmentation Based Approach For Sarcasm and Sentiment Detection in Arabic Tweets ( http://arxiv.org/abs/2103.01679v1 )

ライセンス: CC BY 4.0
Anshul Wadhawan(参考訳) 本稿では、EACL WANLP-2021共有タスク2:Sarcasm and Sentiment Detectionに取り組む戦略を紹介します。 サブタスクの1つは、あるアラビア語のツイートが本質的にサッカスティックであるかどうかを識別するシステムを開発することであり、もう1つはアラビア語のツイートの感情を識別することを目的とする。 私たちは2つのステップでそのタスクにアプローチする。 最初のステップでは、テキストのさまざまな部分に挿入、削除、セグメンテーション操作を実行することで、提供されるArSarcasm-v2データセットを前処理する。 2番目のステップは、AraELECTRAとAraBERTという2つのトランスフォーマーベースのモデルの複数のバリエーションの実験である。 最終アプローチはSarcasmとSentiment Detectionのサブタスクでそれぞれ7位と4位にランクされた。

This paper presents our strategy to tackle the EACL WANLP-2021 Shared Task 2: Sarcasm and Sentiment Detection. One of the subtasks aims at developing a system that identifies whether a given Arabic tweet is sarcastic in nature or not, while the other aims to identify the sentiment of the Arabic tweet. We approach the task in two steps. The first step involves pre processing the provided ArSarcasm-v2 dataset by performing insertions, deletions and segmentation operations on various parts of the text. The second step involves experimenting with multiple variants of two transformer based models, AraELECTRA and AraBERT. Our final approach was ranked seventh and fourth in the Sarcasm and Sentiment Detection subtasks respectively.
翻訳日:2021-03-05 02:12:53 公開日:2021-03-02
# (参考訳) ヒトロボット対話のための会話ノルム [全文訳有]

Conversational Norms for Human-Robot Dialogues ( http://arxiv.org/abs/2103.01706v1 )

ライセンス: CC BY 4.0
Maitreyee Tewari, Thomas Hellstr\"om, Suna Bensch(参考訳) 本稿では,gricean maximsのような会話規範の破れを処理し,対話参加者が情報的,関連的,簡潔に,どのように自分の発話を理想的に形成するかを記述した,コンピュータ化された対話システムの開発を支援することを目的とした最近の研究プロジェクトについて述べる。 提案手法は,協調型分散文法システム(cdgss)を用いた対話と規範をモデル化し,侵入を検知し,人間とロボットの対話システムにおいてそれらを扱う手法を開発することである。

This paper describes a recently initiated research project aiming at supporting development of computerised dialogue systems that handle breaches of conversational norms such as the Gricean maxims, which describe how dialogue participants ideally form their utterances in order to be informative, relevant, brief, etc. Our approach is to model dialogue and norms with co-operating distributed grammar systems (CDGSs), and to develop methods to detect breaches and to handle them in dialogue systems for verbal human-robot interaction.
翻訳日:2021-03-05 02:05:07 公開日:2021-03-02
# (参考訳) openspielにおけるマルチエージェント強化学習 : 再現報告 [全文訳有]

Multi-agent Reinforcement Learning in OpenSpiel: A Reproduction Report ( http://arxiv.org/abs/2103.00187v2 )

ライセンス: CC BY 4.0
Michael Walton, Viliam Lisy(参考訳) 本稿では,ゲーム学習のためのOpenSpielフレームワークで実装されたコアアルゴリズムの再現について述べる。 この研究の主な貢献は、OpenSpielの再実装された検索および強化学習アルゴリズムが、それぞれの原作で報告された結果に対する検証である。 さらに、これらの実験を再現するのに必要なハイパーパラメータとソースコードの完全なドキュメントも提供しています。

In this report, we present results reproductions for several core algorithms implemented in the OpenSpiel framework for learning in games. The primary contribution of this work is a validation of OpenSpiel's re-implemented search and Reinforcement Learning algorithms against the results reported in their respective originating works. Additionally, we provide complete documentation of hyperparameters and source code required to reproduce these experiments easily and exactly.
翻訳日:2021-03-05 02:01:51 公開日:2021-03-02
# (参考訳) 協調型ナレッジトランスファーによるネットワーク量子化 [全文訳有]

All at Once Network Quantization via Collaborative Knowledge Transfer ( http://arxiv.org/abs/2103.01435v1 )

ライセンス: CC BY 4.0
Ximeng Sun, Rameswar Panda, Chun-Fu Chen, Naigang Wang, Bowen Pan Kailash Gopalakrishnan, Aude Oliva, Rogerio Feris, Kate Saenko(参考訳) ネットワーク量子化は、エッジデバイス上でディープニューラルネットワークを圧縮および加速するための最も広く使われている方法の1つである。 既存のアプローチは一般的なベンチマークデータセットで印象的な結果を提供するが、一般的には量子化プロセスを繰り返して低精度ネットワークをゼロから再トレーニングし、異なるリソース制約に対応する異なるネットワークへと繋がる。 これは、実際にはビット幅の動的変更が望まれている多くの現実世界のアプリケーションにおけるディープネットワークのスケーラブルな展開を制限する。 異なるシナリオでの即時適応のために、別のモデルを保存するために、再トレーニングや追加メモリを必要とせずに、推論中に単一のディープネットワークのビット幅を柔軟に調整する。 本稿では,全対数量子化ネットワークを効率的に学習するための協調的知識伝達手法を提案する。 具体的には、全てのビット幅でモデルを共同最適化しながら、知識を低精度の学生に伝達するための高精度{teacher}を選択する適応的選択戦略を提案する。 さらに、知識を効果的に伝達するために、低精度の学生ネットワーク内のブロックを高精度の教師ネットワーク内の対応するブロックにランダムに置き換えることにより、動的ブロックスワッピング方法を開発する。 画像と映像の分類に挑戦的かつ多様なデータセットに関する広範囲な実験により,最先端手法に対する提案手法の有効性が実証された。

Network quantization has rapidly become one of the most widely used methods to compress and accelerate deep neural networks on edge devices. While existing approaches offer impressive results on common benchmark datasets, they generally repeat the quantization process and retrain the low-precision network from scratch, leading to different networks tailored for different resource constraints. This limits scalable deployment of deep networks in many real-world applications, where in practice dynamic changes in bit-width are often desired. All at Once quantization addresses this problem, by flexibly adjusting the bit-width of a single deep network during inference, without requiring re-training or additional memory to store separate models, for instant adaptation in different scenarios. In this paper, we develop a novel collaborative knowledge transfer approach for efficiently training the all-at-once quantization network. Specifically, we propose an adaptive selection strategy to choose a high-precision \enquote{teacher} for transferring knowledge to the low-precision student while jointly optimizing the model with all bit-widths. Furthermore, to effectively transfer knowledge, we develop a dynamic block swapping method by randomly replacing the blocks in the lower-precision student network with the corresponding blocks in the higher-precision teacher network. Extensive experiments on several challenging and diverse datasets for both image and video classification well demonstrate the efficacy of our proposed approach over state-of-the-art methods.
翻訳日:2021-03-04 21:44:06 公開日:2021-03-02
# (参考訳) デモグラフィックを超えた顔認識バイアスに関する総合的研究 [全文訳有]

A Comprehensive Study on Face Recognition Biases Beyond Demographics ( http://arxiv.org/abs/2103.01592v1 )

ライセンス: CC BY 4.0
Philipp Terh\"orst, Jan Niklas Kolf, Marco Huber, Florian Kirchbuchner, Naser Damer, Aythami Morales, Julian Fierrez, Arjan Kuijper(参考訳) 顔認識(FR)システムは重要な意思決定プロセスに影響を及ぼす。 近年の研究では、FRソリューションはユーザの人口統計に基づく大きなパフォーマンス差を示すことが示されている。 しかし、信頼性の高いFR技術を実現するためには、人口動態を超えた幅広い顔特性がFRに与える影響を知ることが不可欠である。 そこで本研究では,幅広い属性に対してFRバイアスを解析する。 2つの人気FRモデルの検証性能に及ぼす47属性の影響について検討する。 実験は公開のMAADFace属性データベース上で120万以上の高品質の属性アノテーションを使って行われた。 偏りのある性能に関する誤解を招くことを防ぐため、制御群に基づく妥当性値を導入し、不均衡なテストデータが性能差を引き起こすかどうかを判定した。 その結果,非デマトグラフィー特性は,アクセサリー,髪型,色,顔の形,顔の異常など,認識性能に強く影響を及ぼすことがわかった。 この研究の観察は、FRシステムをより堅牢で説明可能で公正にするためのさらなる進歩に対する強い必要性を示しています。 さらに,frネットワークの動作をよりよく理解し,これらのネットワークの堅牢性を高め,より一般化したバイアス緩和型顔認識ソリューションの開発に寄与する可能性が示唆された。

Face recognition (FR) systems have a growing effect on critical decision-making processes. Recent works have shown that FR solutions show strong performance differences based on the user's demographics. However, to enable a trustworthy FR technology, it is essential to know the influence of an extended range of facial attributes on FR beyond demographics. Therefore, in this work, we analyse FR bias over a wide range of attributes. We investigate the influence of 47 attributes on the verification performance of two popular FR models. The experiments were performed on the publicly available MAADFace attribute database with over 120M high-quality attribute annotations. To prevent misleading statements about biased performances, we introduced control group based validity values to decide if unbalanced test data causes the performance differences. The results demonstrate that also many non-demographic attributes strongly affect the recognition performance, such as accessories, hair-styles and colors, face shapes, or facial anomalies. The observations of this work show the strong need for further advances in making FR system more robust, explainable, and fair. Moreover, our findings might help to a better understanding of how FR networks work, to enhance the robustness of these networks, and to develop more generalized bias-mitigating face recognition solutions.
翻訳日:2021-03-04 21:22:22 公開日:2021-03-02
# (参考訳) 衛星画像からのジオメトリ誘導ストリートビューパノラマ合成 [全文訳有]

Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery ( http://arxiv.org/abs/2103.01623v1 )

ライセンス: CC0 1.0
Yujiao Shi, Dylan Campbell, Xin Yu, Hongdong Li(参考訳) 本稿では,衛星画像を用いた新しいストリートビューパノラマの合成手法を提案する。 提案手法は,小さな衛星画像パッチを入力として,Googleのストリートビュー型パノラマを,衛星画像パッチの中央と同じ地理的位置から取得したかのように生成する。 既存の作業はこの課題を画像生成問題として取り上げ、生成的逆ネットワークを用いて暗黙的にクロスビュー変換を学習し、ドメインの関連性を無視する。 本稿では,2視点画像間の幾何対応性を明確に確立し,相互変換学習を容易にすることを提案する。 具体的には、実世界の3dポイントが両視点で見える場合、この3dポイントの高さ情報から、2次元画像内の投影されたポイントの間に決定論的マッピングが存在することを観察する。 そこで我々は,このような幾何学的対応を明示的に確立し,衛星画像を街路視点に投影する,s2sp(street-view image projection)モジュールを開発した。 次に,衛星画像をネットワーク入力として投影することで,衛星画像と幾何的に整合したリアルなストリートビューパノラマを合成する。 S2SPモジュールは差別化可能であり、フレームワーク全体がエンドツーエンドでトレーニングされています。 2つのクロスビューベンチマークデータセットの広範な実験結果は、既存のアプローチよりもシーンジオメトリをよりよく尊重する画像を生成することを実証している。

This paper presents a new approach for synthesizing a novel street-view panorama given an overhead satellite image. Taking a small satellite image patch as input, our method generates a Google's omnidirectional street-view type panorama, as if it is captured from the same geographical location as the center of the satellite patch. Existing works tackle this task as an image generation problem which adopts generative adversarial networks to implicitly learn the cross-view transformations, while ignoring the domain relevance. In this paper, we propose to explicitly establish the geometric correspondences between the two-view images so as to facilitate the cross-view transformation learning. Specifically, we observe that when a 3D point in the real world is visible in both views, there is a deterministic mapping between the projected points in the two-view images given the height information of this 3D point. Motivated by this, we develop a novel Satellite to Street-view image Projection (S2SP) module which explicitly establishes such geometric correspondences and projects the satellite images to the street viewpoint. With these projected satellite images as network input, we next employ a generator to synthesize realistic street-view panoramas that are geometrically consistent with the satellite images. Our S2SP module is differentiable and the whole framework is trained in an end-to-end manner. Extensive experimental results on two cross-view benchmark datasets demonstrate that our method generates images that better respect the scene geometry than existing approaches.
翻訳日:2021-03-04 20:57:36 公開日:2021-03-02
# (参考訳) 基礎画像からの参照糖尿病網膜症検出のための解釈可能なマルチケースアプローチ [全文訳有]

An Interpretable Multiple-Instance Approach for the Detection of referable Diabetic Retinopathy from Fundus Images ( http://arxiv.org/abs/2103.01702v1 )

ライセンス: CC BY 4.0
Alexandros Papadopoulos, Fotis Topouzis, Anastasios Delopoulos(参考訳) 糖尿病網膜症(DR)は、世界的に視力喪失の主要な原因です。 しかし、その流行にもかかわらず、影響を受けた人々の大半は、その状態を評価するために必要な専門眼科医や機器へのアクセスを欠いています。 これにより治療開始の遅れが生じ、成功へのチャンスが低下する可能性がある。 眼底画像の疾患を自動的に検出する機械学習システムは、遠隔地や人間の診断を補完するためのDR重症度推定へのアクセスを容易にする手段として提案されている。 本論文では,マルチスタンス学習のパラダイムに基づく基盤画像における参照可能なDRの検出のための機械学習システムを提案する。 画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。 さらに、DRが特徴的な病変を通して現れる潜在的な画像領域も強調することができる。 我々は,現在利用可能な網膜画像データセットに対する我々のアプローチを評価するとともに,その予測の解釈可能な可視化も行う。

Diabetic Retinopathy (DR) is a leading cause of vision loss globally. Yet despite its prevalence, the majority of affected people lack access to the specialized ophthalmologists and equipment required for assessing their condition. This can lead to delays in the start of treatment, thereby lowering their chances for a successful outcome. Machine learning systems that automatically detect the disease in eye fundus images have been proposed as a means of facilitating access to DR severity estimates for patients in remote regions or even for complementing the human expert's diagnosis. In this paper, we propose a machine learning system for the detection of referable DR in fundus images that is based on the paradigm of multiple-instance learning. By extracting local information from image patches and combining it efficiently through an attention mechanism, our system is able to achieve high classification accuracy. Moreover, it can highlight potential image regions where DR manifests through its characteristic lesions. We evaluate our approach on publicly available retinal image datasets, in which it exhibits near state-of-the-art performance, while also producing interpretable visualizations of its predictions.
翻訳日:2021-03-04 20:34:49 公開日:2021-03-02
# (参考訳) リソースレポジショニングによるネットワークPruning [全文訳有]

Network Pruning via Resource Reallocation ( http://arxiv.org/abs/2103.01847v1 )

ライセンス: CC BY 4.0
Yuenan Hou, Zheng Ma, Chunxiao Liu, Zhe Wang, and Chen Change Loy(参考訳) チャネルプルーニングは, 大型ネットワークから重要でないチャネルを排除し, 小型化に有効な手法として広く認識されている。 現代の手法では, 従来の過度パラメータ化モデルから反復的プルーニング手順を実行するのが一般的であり, 特にプルーニングが攻撃的である場合, 面倒かつ高価である。 本稿では,rEsource rEalLocation (PEEL) によるネットワーク・プルーニング(ネットワーク・プルーニング)と呼ばれる簡易で効果的なチャネル・プルーニング手法を提案する。 特に、PEELはまず事前に定義されたバックボーンを構築し、リソースのレポジショニングを行い、少ない情報層からより重要な層へのパラメータを1ラウンドでシフトすることで、これらの情報層のポジティブな効果を増幅します。 PEELの有効性を実証するために、ResNet-18、ResNet-50、MobileNetV2、MobileNetV3小型およびEfficientNet-B0でImageNet上で広範な実験を行います。 実験結果から,PEELによって発見された構造は,各種プルーニング条件下での最先端のプルーニングアルゴリズムと競合する性能を示した。 私たちのコードはhttps://github.com/c ardwing/Codes-for-PE ELで入手できます。

Channel pruning is broadly recognized as an effective approach to obtain a small compact model through eliminating unimportant channels from a large cumbersome network. Contemporary methods typically perform iterative pruning procedure from the original over-parameterized model, which is both tedious and expensive especially when the pruning is aggressive. In this paper, we propose a simple yet effective channel pruning technique, termed network Pruning via rEsource rEalLocation (PEEL), to quickly produce a desired slim model with negligible cost. Specifically, PEEL first constructs a predefined backbone and then conducts resource reallocation on it to shift parameters from less informative layers to more important layers in one round, thus amplifying the positive effect of these informative layers. To demonstrate the effectiveness of PEEL , we perform extensive experiments on ImageNet with ResNet-18, ResNet-50, MobileNetV2, MobileNetV3-small and EfficientNet-B0. Experimental results show that structures uncovered by PEEL exhibit competitive performance with state-of-the-art pruning algorithms under various pruning settings. Our code is available at https://github.com/c ardwing/Codes-for-PE EL.
翻訳日:2021-03-04 20:14:48 公開日:2021-03-02
# 野生の視覚機能の自己監督的前訓練

Self-supervised Pretraining of Visual Features in the Wild ( http://arxiv.org/abs/2103.01988v1 )

ライセンス: Link先を確認
Priya Goyal, Mathilde Caron, Benjamin Lefaudeux, Min Xu, Pengchao Wang, Vivek Pai, Mannat Singh, Vitaliy Liptchinsky, Ishan Misra, Armand Joulin, Piotr Bojanowski(参考訳) 近年,MoCo,SimCLR,BYOL,Sw AVといった自己指導型学習手法が,教師付き手法とのギャップを減らしている。 これらの結果は、高度にキュレートされたimagenetデータセットであるコントロール環境で達成されている。 しかし、自己教師付き学習の前提は、任意のランダムな画像と任意の無制限データセットから学習できることである。 本研究では, 自己監督が期待に沿うかどうかを, 監視なく無作為かつ非定型な画像上で大規模モデルを訓練することによって検討する。 私たちの最後のSelf-supervised(SEER )モデルは、512 GPUで1Bランダムイメージで訓練された1.3Bパラメータを持つRegNetYで、84.2%のトップ-1精度を達成し、最高の自己監督プリトレーニングモデルを1%超え、実際の環境で自己監督学習が機能することを確認します。 興味深いことに、自己教師型モデルは、ImageNetの10%にしかアクセスできない77.9%のトップ1を達成している。 コード: https://github.com/f acebookresearch/viss l

Recently, self-supervised learning methods like MoCo, SimCLR, BYOL and SwAV have reduced the gap with supervised methods. These results have been achieved in a control environment, that is the highly curated ImageNet dataset. However, the premise of self-supervised learning is that it can learn from any random image and from any unbounded dataset. In this work, we explore if self-supervision lives to its expectation by training large models on random, uncurated images with no supervision. Our final SElf-supERvised (SEER) model, a RegNetY with 1.3B parameters trained on 1B random images with 512 GPUs achieves 84.2% top-1 accuracy, surpassing the best self-supervised pretrained model by 1% and confirming that self-supervised learning works in a real world setting. Interestingly, we also observe that self-supervised models are good few-shot learners achieving 77.9% top-1 with access to only 10% of ImageNet. Code: https://github.com/f acebookresearch/viss l
翻訳日:2021-03-04 15:12:03 公開日:2021-03-02
# DeepFake-o-meter: DeepFake検出のためのオープンプラットフォーム

DeepFake-o-meter: An Open Platform for DeepFake Detection ( http://arxiv.org/abs/2103.02018v1 )

ライセンス: Link先を確認
Yuezun Li, Cong Zhang, Pu Sun, Honggang Qi, and Siwei Lyu(参考訳) 近年、ディープラーニングベースの技術の出現と計算コストの大幅な削減により、DeepFakesとして知られる人間の顔のリアルなビデオを作成することが可能になった。 DeepFakesを作成するためのオープンソースツールの可用性は、オンラインメディアの信頼性を脅かすものです。 本研究では,DeepFake-o-meterと呼ばれるオープンソースのオンラインプラットフォームを開発し,最新のDeepFake検出手法を統合し,ユーザにとって便利なインターフェースを提供する。 本稿では,DeepFake-o-meterの設計と機能について述べる。

In recent years, the advent of deep learning-based techniques and the significant reduction in the cost of computation resulted in the feasibility of creating realistic videos of human faces, commonly known as DeepFakes. The availability of open-source tools to create DeepFakes poses as a threat to the trustworthiness of the online media. In this work, we develop an open-source online platform, known as DeepFake-o-meter, that integrates state-of-the-art DeepFake detection methods and provide a convenient interface for the users. We describe the design and function of DeepFake-o-meter in this work.
翻訳日:2021-03-04 15:11:42 公開日:2021-03-02
# サブグループサンプリングによるトレーニング予測モデルのばらつき低減

Variance Reduction in Training Forecasting Models with Subgroup Sampling ( http://arxiv.org/abs/2103.02062v1 )

ライセンス: Link先を確認
Yucheng Lu, Youngsuk Park, Lifan Chen, Yuyang Wang, Christopher De Sa, Dean Foster(参考訳) 大規模時系列の現実世界のアプリケーションでは、時系列の時間パターンが時間とともにドリフトしながら同じデータセット内で互いに異なる状況に遭遇することが多い。 本稿では,このような不均一性の下で,確率最適化器を用いて予測モデルを訓練する(例)。 SGD)は大きな勾配のばらつきに苦しむ可能性があるため、長期間の訓練が必要です。 そこで本研究では,プリグループ時系列のサンプリングによる大きなばらつきを緩和するサブグループサンプリングと呼ばれるサンプリング戦略を提案する。 さらに、分散化SGDスタイルの最適化器であるSCottを導入し、サブグループサンプリングを制御変数法と共設計する。 理論的には、スムーズな非凸目的に対するSCottの収束保証を提供する。 SCottと他のベースラインオプティマイザを合成時間と実時間の両方の時系列予測問題で評価し,反復時間と壁時計時間の両方に関してSCottがより高速に収束することを示す。 さらに、予測モデルの一般化を損なうことなく、Adam と Adagrad を高速化できる2つの SCott 変種を示す。

In real-world applications of large-scale time series, one often encounters the situation where the temporal patterns of time series, while drifting over time, differ from one another in the same dataset. In this paper, we provably show under such heterogeneity, training a forecasting model with commonly used stochastic optimizers (e.g. SGD) potentially suffers large gradient variance, and thus requires long time training. To alleviate this issue, we propose a sampling strategy named Subgroup Sampling, which mitigates the large variance via sampling over pre-grouped time series. We further introduce SCott, a variance reduced SGD-style optimizer that co-designs subgroup sampling with the control variate method. In theory, we provide the convergence guarantee of SCott on smooth non-convex objectives. Empirically, we evaluate SCott and other baseline optimizers on both synthetic and real-world time series forecasting problems, and show SCott converges faster with respect to both iterations and wall clock time. Additionally, we show two SCott variants that can speed up Adam and Adagrad without compromising generalization of forecasting models.
翻訳日:2021-03-04 15:09:59 公開日:2021-03-02
# スケーラブルな3Dオブジェクト検出のための擬似ラベル

Pseudo-labeling for Scalable 3D Object Detection ( http://arxiv.org/abs/2103.02093v1 )

ライセンス: Link先を確認
Benjamin Caine, Rebecca Roelofs, Vijay Vasudevan, Jiquan Ngiam, Yuning Chai, Zhifeng Chen, Jonathon Shlens(参考訳) 自動運転車を安全に展開するには、様々な環境や地理的に高い精度で車載認識システムを確実に動作させなければならない。 新しいドメインにおけるそのようなシステムの有効性を改善する最も一般的な手法の1つは、大きなラベル付きデータセットの収集であるが、そのようなデータセットは、特に、新しいデプロイメントのジオグラフィックが高価な3Dバウンディングボックスアノテーションを持つ追加データを必要とする場合、非常にコストがかかる。 3Dオブジェクト検出のための擬似ラベル付けは、安価でより広く利用可能なラベル付きデータを活用する効果的な方法であり、様々なアーキテクチャ、データ拡張戦略、ラベル付きデータセットのサイズでパフォーマンス向上につながることを実証する。 全体として、より良い教師モデルがより良い生徒モデルをもたらすこと、そして高価な教師を効率よくシンプルな学生に蒸留できることを示します。 具体的には,疑似ラベル学習した学生モデルが,ラベル付き例の3~10倍の確率で訓練された教師付きモデルを上回ることを実証する。 学生モデルとして2年前の建築である PointPillars [24] を用いて, 大量の擬似ラベルデータを活用するだけで, 精度の達成が可能となる。 最後に,これらの学習モデルが教師なしモデルよりも一般化し,ラベルなしデータしか持たない新しいドメインに一般化することを示し,擬似ラベル訓練を教師なしドメイン適応の効果的な形態とする。

To safely deploy autonomous vehicles, onboard perception systems must work reliably at high accuracy across a diverse set of environments and geographies. One of the most common techniques to improve the efficacy of such systems in new domains involves collecting large labeled datasets, but such datasets can be extremely costly to obtain, especially if each new deployment geography requires additional data with expensive 3D bounding box annotations. We demonstrate that pseudo-labeling for 3D object detection is an effective way to exploit less expensive and more widely available unlabeled data, and can lead to performance gains across various architectures, data augmentation strategies, and sizes of the labeled dataset. Overall, we show that better teacher models lead to better student models, and that we can distill expensive teachers into efficient, simple students. Specifically, we demonstrate that pseudo-label-trained student models can outperform supervised models trained on 3-10 times the amount of labeled examples. Using PointPillars [24], a two-year-old architecture, as our student model, we are able to achieve state of the art accuracy simply by leveraging large quantities of pseudo-labeled data. Lastly, we show that these student models generalize better than supervised models to a new domain in which we only have unlabeled data, making pseudo-label training an effective form of unsupervised domain adaptation.
翻訳日:2021-03-04 15:09:03 公開日:2021-03-02
# webをナビゲートする学習のためのadversarial environment generation

Adversarial Environment Generation for Learning to Navigate the Web ( http://arxiv.org/abs/2103.01991v1 )

ライセンス: Link先を確認
Izzeddin Gur, Natasha Jaques, Kevin Malta, Manoj Tiwari, Honglak Lee, Aleksandra Faust(参考訳) Webを自律的にナビゲートする学習は、難しいシーケンシャルな意思決定タスクです。 状態空間とアクション空間は自然界において大きく複合的であり、ウェブサイトは複数のページからなる動的環境である。 webナビゲーションエージェントのトレーニングのボトルネックの1つは、様々な現実世界のウェブサイトをカバーするトレーニング環境の学習可能なカリキュラムを提供することである。 そこで本稿では,強化学習(RL)エージェントを訓練する上で困難なWeb環境を生成するために,Adversarial Environment Generation (AEG) を提案する。 我々は、RL敵が合成プリミティブを使用して任意の複雑なWebサイトを生成することができる新しいベンチマーク環境gMiniWoBを提供する。 敵を訓練するために,一対のナビゲータエージェントによって得られたスコアの差を利用して後悔を最大化する新しい手法を提案する。 その結果,我々のアプローチは,ミニマックス後悔AEGの以前の方法を大幅に上回ることがわかった。 残念な目的は、ナビゲーターエージェントのための「ちょうど右の挑戦」である環境のカリキュラムを設計するために敵を訓練します。私たちの結果は、敵がますます複雑なWebナビゲーションタスクを生成することを学ぶことを示しています。 我々の技術で訓練されたナビゲータエージェントは、フォームフィリングやフライトの予約など、困難で高次元のウェブナビゲーションタスクを完成させることを学ぶ。 提案するフレキシブルなb-paired手法で訓練されたナビゲータエージェントは,最先端のrl webナビゲーション手法を含む,競争力の高い自動カリキュラム生成ベースラインを上回っており,いくつかのタスクで80%以上の成功率を達成している。

Learning to autonomously navigate the web is a difficult sequential decision making task. The state and action spaces are large and combinatorial in nature, and websites are dynamic environments consisting of several pages. One of the bottlenecks of training web navigation agents is providing a learnable curriculum of training environments that can cover the large variety of real-world websites. Therefore, we propose using Adversarial Environment Generation (AEG) to generate challenging web environments in which to train reinforcement learning (RL) agents. We provide a new benchmarking environment, gMiniWoB, which enables an RL adversary to use compositional primitives to learn to generate arbitrarily complex websites. To train the adversary, we propose a new technique for maximizing regret using the difference in the scores obtained by a pair of navigator agents. Our results show that our approach significantly outperforms prior methods for minimax regret AEG. The regret objective trains the adversary to design a curriculum of environments that are "just-the-right-chall enge" for the navigator agents; our results show that over time, the adversary learns to generate increasingly complex web navigation tasks. The navigator agents trained with our technique learn to complete challenging, high-dimensional web navigation tasks, such as form filling, booking a flight etc. We show that the navigator agent trained with our proposed Flexible b-PAIRED technique significantly outperforms competitive automatic curriculum generation baselines -- including a state-of-the-art RL web navigation approach -- on a set of challenging unseen test environments, and achieves more than 80% success rate on some tasks.
翻訳日:2021-03-04 15:07:30 公開日:2021-03-02
# pecnet : 好酸球性食道炎の生検診断のための深層マルチラベルセグメンテーションネットワーク

PECNet: A Deep Multi-Label Segmentation Network for Eosinophilic Esophagitis Biopsy Diagnostics ( http://arxiv.org/abs/2103.02015v1 )

ライセンス: Link先を確認
Nati Daniel, Ariel Larey, Eliel Aknin, Garrett A. Osswald, Julie M. Caldwell, Mark Rochman, Margaret H. Collins, Guang-Yu Yang, Nicoleta C. Arva, Kelley E. Capocelli, Marc E. Rothenberg, Yonatan Savir(参考訳) 背景。 好酸球性食道炎 (EoE) は好酸球増加を伴う食道のアレルギー性炎症性疾患である。 疾患の診断とモニタリングには食道生検における好酸球の濃度の決定が必要である。 方法。 ここでは,機械学習を用いてeoeを識別,定量化し,診断することを目的とした。 23名のeoe患者から得られた食道生検のh&e染色標本の全スライドを走査して得られた4345画像の100mピクセル以上をラベルづけした。 このデータセットを使用して,マルチラベルセグメンテーション深層ネットワークをトレーニングした。 そこで本研究では,複数の施設から得られた419例のスライド画像の複製コホートについて検討した。 発見。 PECNetは0.93の結合(mIoU)上の平均交差で、不完全および不完全好酸球の両方を分割した。 このセグメンテーションは、無傷好酸球を平均絶対誤差0.611で定量し、EoE病活性を98.5%の精度で分類することができた。 検証コホートの全スライド画像を用いて、PECNetは94.8%の精度、94.3%の感度、95.14%のEoE疾患活性を報告した。 解釈。 我々は,eoe診断とデジタル病理学における2つの主な課題,複数種類の小さな特徴を同時に検出する必要性,スライド全体を効率的に解析する能力を有する,ディープラーニングマルチラベルセマンティクスセグメンテーションネットワークを開発した。 以上の結果から,eoeの自動診断への道が開けられ,同様の課題のある他の条件でも利用できる。

Background. Eosinophilic esophagitis (EoE) is an allergic inflammatory condition of the esophagus associated with elevated numbers of eosinophils. Disease diagnosis and monitoring requires determining the concentration of eosinophils in esophageal biopsies, a time-consuming, tedious and somewhat subjective task currently performed by pathologists. Methods. Herein, we aimed to use machine learning to identify, quantitate and diagnose EoE. We labeled more than 100M pixels of 4345 images obtained by scanning whole slides of H&E-stained sections of esophageal biopsies derived from 23 EoE patients. We used this dataset to train a multi-label segmentation deep network. To validate the network, we examined a replication cohort of 1089 whole slide images from 419 patients derived from multiple institutions. Findings. PECNet segmented both intact and not-intact eosinophils with a mean intersection over union (mIoU) of 0.93. This segmentation was able to quantitate intact eosinophils with a mean absolute error of 0.611 eosinophils and classify EoE disease activity with an accuracy of 98.5%. Using whole slide images from the validation cohort, PECNet achieved an accuracy of 94.8%, sensitivity of 94.3%, and specificity of 95.14% in reporting EoE disease activity. Interpretation. We have developed a deep learning multi-label semantic segmentation network that successfully addresses two of the main challenges in EoE diagnostics and digital pathology, the need to detect several types of small features simultaneously and the ability to analyze whole slides efficiently. Our results pave the way for an automated diagnosis of EoE and can be utilized for other conditions with similar challenges.
翻訳日:2021-03-04 15:04:56 公開日:2021-03-02
# dp-instahide: 個別データ拡張による中毒やバックドア攻撃の回避

DP-InstaHide: Provably Defusing Poisoning and Backdoor Attacks with Differentially Private Data Augmentations ( http://arxiv.org/abs/2103.02079v1 )

ライセンス: Link先を確認
Eitan Borgnia, Jonas Geiping, Valeriia Cherepanova, Liam Fowl, Arjun Gupta, Amin Ghiasi, Furong Huang, Micah Goldblum, Tom Goldstein(参考訳) データ中毒とバックドア攻撃は、トレーニングデータを操作して、被害者モデルのセキュリティ侵害を引き起こす。 これらの攻撃はディファレンシャル・プライベート(DP)トレーニング手法で確実に偏向することができるが、モデル性能は大幅に低下する。 InstaHide法は、厳格な保証がないにもかかわらず、ミックスアップ強化のプライバシー特性が想定されるDPトレーニングの代替として最近提案されている。 本研究では,混合や無作為な付加雑音などの強いデータ拡張が,少ない精度のトレードオフを保ちながら,毒攻撃を無効にすることを示す。 そこで本研究では,混合正規化器と付加雑音を組み合わせたDP-InstaHideの学習手法を提案する。 DP-InstaHideの厳密な分析によると、ミキサップは確かにプライバシー上の利点があり、kウェイミキサップによるトレーニングは、単純DPメカニズムよりも少なくともk倍強いDP保証が得られる。 ミックスアップは(ノイズとは対照的に)性能をモデル化するのに有益であるため、DP-InstaHideは他のDPメソッドよりも強い経験的性能を達成するためのメカニズムを提供する。

Data poisoning and backdoor attacks manipulate training data to induce security breaches in a victim model. These attacks can be provably deflected using differentially private (DP) training methods, although this comes with a sharp decrease in model performance. The InstaHide method has recently been proposed as an alternative to DP training that leverages supposed privacy properties of the mixup augmentation, although without rigorous guarantees. In this work, we show that strong data augmentations, such as mixup and random additive noise, nullify poison attacks while enduring only a small accuracy trade-off. To explain these finding, we propose a training method, DP-InstaHide, which combines the mixup regularizer with additive noise. A rigorous analysis of DP-InstaHide shows that mixup does indeed have privacy advantages, and that training with k-way mixup provably yields at least k times stronger DP guarantees than a naive DP mechanism. Because mixup (as opposed to noise) is beneficial to model performance, DP-InstaHide provides a mechanism for achieving stronger empirical performance against poisoning attacks than other known DP methods.
翻訳日:2021-03-04 15:04:25 公開日:2021-03-02
# 視覚経路に基づくナビゲーションのためのシーケンスベースフィルタリング : メリット,トレードオフ,設計選択の分析

Sequence-Based Filtering for Visual Route-Based Navigation: Analysing the Benefits, Trade-offs and Design Choices ( http://arxiv.org/abs/2103.01994v1 )

ライセンス: Link先を確認
Mihnea-Alexandru Tomit\u{a}, Mubariz Zaffar, Michael Milford, Klaus McDonald-Maier, Shoaib Ehsan(参考訳) 視覚場所認識(VPR)は、環境、視点、外観の変化の下で視覚情報を使用して、以前に訪れた場所を正しく思い出す機能です。 VPRの新たなトレンドは、経路ベースのナビゲーションのための単一フレームベースの場所マッチング技術の上にシーケンスベースのフィルタリング方法を使用することである。 この組み合わせは、計算コストの増加でパフォーマンスを向上させる潜在的な場所のさまざまなレベルにつながります。 パフォーマンス向上(シーケンシャルなフィルタリングによる)は、シングルフレームベースのマッチングメソッドのスペクトル全体に沿ってどのように変化しますか? シーケンスマッチング長はパフォーマンス曲線にどのように影響しますか? どの特定の組み合わせがパフォーマンスと計算のトレードオフを提供しますか? しかし、これらの重要な質問を検討する以前の作業は不足しており、これまでのシーケンスベースのフィルタリング作業のほとんどは体系的なアプローチなしで使用されています。 この研究ギャップを埋めるために,本研究では,単一フレーム方式の配置マッチング技術の性能と,それらの手法を用いたシーケンスベースフィルタリングの応用との関係を詳細に検討する。 個々のトレードオフ、プロパティ、およびシングルフレームベースとシーケンシャルの異なる組み合わせの制限を分析します。 多くの最先端のVPR手法と広く使われているパブリックデータセットを使用して、VPRコミュニティにとって有意義な洞察を含む調査結果を提示する。

Visual Place Recognition (VPR) is the ability to correctly recall a previously visited place using visual information under environmental, viewpoint and appearance changes. An emerging trend in VPR is the use of sequence-based filtering methods on top of single-frame-based place matching techniques for route-based navigation. The combination leads to varying levels of potential place matching performance boosts at increased computational costs. This raises a number of interesting research questions: How does performance boost (due to sequential filtering) vary along the entire spectrum of single-frame-based matching methods? How does sequence matching length affect the performance curve? Which specific combinations provide a good trade-off between performance and computation? However, there is lack of previous work looking at these important questions and most of the sequence-based filtering work to date has been used without a systematic approach. To bridge this research gap, this paper conducts an in-depth investigation of the relationship between the performance of single-frame-based place matching techniques and the use of sequence-based filtering on top of those methods. It analyzes individual trade-offs, properties and limitations for different combinations of single-frame-based and sequential techniques. A number of state-of-the-art VPR methods and widely used public datasets are utilized to present the findings that contain a number of meaningful insights for the VPR community.
翻訳日:2021-03-04 15:02:13 公開日:2021-03-02
# 材料測定ユニット:調査による基礎

Material Measurement Units: Foundations Through a Survey ( http://arxiv.org/abs/2103.01997v1 )

ライセンス: Link先を確認
Federico Zocco and Se\'an McLoone(参考訳) 鉱物や工業材料の長期利用は、製造製品の成分であるため、持続可能な開発に必要な条件である。 特に、GPUや太陽光発電パネルなどの需要が高まる技術は、重要な原料でできている。 本論文では, 材料管理の効率化を図るため, 文献において, 材料計測ユニット(Material Measurement Unit, MMU)と呼ばれる新しいコンピュータビジョン対応材料モニタリング技術を同定し, 第二に, MMUの開発に関わる作業の調査を行い, 第三に, 複数のMMUを展開している材料在庫監視センサネットワークについて述べる。

Long-term availability of minerals and industrial materials is a necessary condition for sustainable development as they are the constituents of any manufacturing product. In particular, technologies with increasing demand such as GPUs and photovoltaic panels are made of critical raw materials. To enhance the efficiency of material management, in this paper we make three main contributions: first, we identify in the literature an emerging computer-vision-enab led material monitoring technology which we call Material Measurement Unit (MMU); second, we provide a survey of works relevant to the development of MMUs; third, we describe a material stock monitoring sensor network deploying multiple MMUs.
翻訳日:2021-03-04 15:01:53 公開日:2021-03-02
# OCT画像における網膜層の不確実性誘導半監督セグメンテーション

Uncertainty guided semi-supervised segmentation of retinal layers in OCT images ( http://arxiv.org/abs/2103.02083v1 )

ライセンス: Link先を確認
Suman Sedai, Bhavna Antony, Ravneet Rai, Katie Jones, Hiroshi Ishikawa, Joel Schuman, Wollstein Gadi and Rahil Garnavi(参考訳) 深層畳み込みニューラルネットワークは医用画像分割タスクにおいて優れた性能を示している。 教師あり深層学習法を訓練する場合の一般的な問題は、時間と費用がかかるラベル付きデータの欠如である。 本稿では,限定ラベル付きサンプルと多数の未ラベル画像を用いてセグメンテーションネットワークを訓練する学生-教員アプローチに基づく,新しい不確実性誘導半教師付き学習を提案する。 まず,教師セグメンテーションモデルをベイズ深層学習を用いてラベル付きサンプルから学習する。 トレーニングされたモデルは、未ラベル集合に対するソフトセグメンテーションラベルと不確実性マップを生成するために使用される。 教師モデルの不確実性から推定されるセグメント品質のピクセル単位の信頼度を、新たに設計されたロス関数を用いて、ソフトセグメント化サンプルを用いて更新する。 網膜層セグメンテーションタスクの実験結果から,提案手法は完全教師付きアプローチと比較してセグメンテーション性能を向上し,エキスパートアノテータと同等であることがわかった。 提案する半教師付きセグメンテーションフレームワークは,アノテートされた医用画像へのアクセスが困難である様々な画像モダリティのバイオメディカルイメージセグメンテーションに有効である。

Deep convolutional neural networks have shown outstanding performance in medical image segmentation tasks. The usual problem when training supervised deep learning methods is the lack of labeled data which is time-consuming and costly to obtain. In this paper, we propose a novel uncertainty-guided semi-supervised learning based on a student-teacher approach for training the segmentation network using limited labeled samples and a large number of unlabeled images. First, a teacher segmentation model is trained from the labeled samples using Bayesian deep learning. The trained model is used to generate soft segmentation labels and uncertainty maps for the unlabeled set. The student model is then updated using the softly segmented samples and the corresponding pixel-wise confidence of the segmentation quality estimated from the uncertainty of the teacher model using a newly designed loss function. Experimental results on a retinal layer segmentation task show that the proposed method improves the segmentation performance in comparison to the fully supervised approach and is on par with the expert annotator. The proposed semi-supervised segmentation framework is a key contribution and applicable for biomedical image segmentation across various imaging modalities where access to annotated medical images is challenging
翻訳日:2021-03-04 15:01:42 公開日:2021-03-02
# 高リスク意思決定における機械学習のユーザビリティ課題の理解

Understanding the Usability Challenges of Machine Learning In High-Stakes Decision Making ( http://arxiv.org/abs/2103.02071v1 )

ライセンス: Link先を確認
Alexandra Zytek, Dongyu Liu, Rhema Vaithianathan, and Kalyan Veeramachaneni(参考訳) 機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。 多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。 モデルに対するユーザ信頼の欠如、人間-MLの不一致を解決できないこと、複雑な問題を1つのアルゴリズム出力に過度に単純化することに対する倫理的懸念など、複数のMLユーザビリティの問題が発生する可能性がある。 本稿では,児童福祉スクリーニングの分野に存在するmlユーザビリティの課題を,現場観察,インタビュー,正式なユーザ調査を含む児童福祉スクリーニング者との一連のコラボレーションを通して検討する。 コラボレーションを通じて、4つの重要なML課題を特定し、それらに対処する有望なML拡張ツール(ローカルファクターコントリビューション)に注目しました。 また,児童福祉スクリーニングと類似のドメインエキスパートのための今後の強化ツールの開発において考慮すべき設計事項の一覧を作成した。

Machine learning (ML) is being applied to a diverse and ever-growing set of domains. In many cases, domain experts -- who often have no expertise in ML or data science -- are asked to use ML predictions to make high-stakes decisions. Multiple ML usability challenges can appear as result, such as lack of user trust in the model, inability to reconcile human-ML disagreement, and ethical concerns about oversimplification of complex problems to a single algorithm output. In this paper, we investigate the ML usability challenges present in the domain of child welfare screening through a series of collaborations with child welfare screeners, which included field observations, interviews, and a formal user study. Through our collaborations, we identified four key ML challenges, and honed in on one promising ML augmentation tool to address them (local factor contributions). We also composed a list of design considerations to be taken into account when developing future augmentation tools for child welfare screeners and similar domain experts.
翻訳日:2021-03-04 14:55:36 公開日:2021-03-02
# フェアネス、半教師付き学習など:確率的ペアワイズ制約によるクラスタリングの汎用フレームワーク

Fairness, Semi-Supervised Learning, and More: A General Framework for Clustering with Stochastic Pairwise Constraints ( http://arxiv.org/abs/2103.02013v1 )

ライセンス: Link先を確認
Brian Brubach, Darshan Chakrabarti, John P. Dickerson, Aravind Srinivasan, Leonidas Tsepenekas(参考訳) メトリクスクラスタリングは、コンビナート最適化とデータマイニングから機械学習と運用研究まで、さまざまな分野で基本的です。 しかし、さまざまな状況では、どのペアのポイントを一緒にクラスタ化すべきかについて、基本的なメトリクスと異なる追加の要件や知識があるかもしれません。 このようなシナリオを捉え、分析するために、我々はいくつかの必須クラスタリングの目的(半径/中間/平均)に組み込む新しい \emph{確率対方向制約} ファミリーを紹介します。 さらに,これらの制約は,半教師付き学習において,クラスタリングにおける「emph{individual fairness}」や「emph{must-link}」制約を含む,興味をそそるアプリケーションの集合を簡潔にモデル化できることを実証する。 我々の主な成果は、重要なクラスタリング目的に対して証明可能な保証を持つ近似アルゴリズムを出力する一般的なフレームワークと、確率的対の制約を尊重するソリューションを作成することからなる。 さらに,特定の目的に対して,理論的な観点から可能な最善の条件である必然的制約の場合に,改良された結果を考案する。 最後に,アルゴリズムの有効性を検証する実験的な証拠を示す。

Metric clustering is fundamental in areas ranging from Combinatorial Optimization and Data Mining, to Machine Learning and Operations Research. However, in a variety of situations we may have additional requirements or knowledge, distinct from the underlying metric, regarding which pairs of points should be clustered together. To capture and analyze such scenarios, we introduce a novel family of \emph{stochastic pairwise constraints}, which we incorporate into several essential clustering objectives (radius/median/means ). Moreover, we demonstrate that these constraints can succinctly model an intriguing collection of applications, including among others \emph{Individual Fairness} in clustering and \emph{Must-link} constraints in semi-supervised learning. Our main result consists of a general framework that yields approximation algorithms with provable guarantees for important clustering objectives, while at the same time producing solutions that respect the stochastic pairwise constraints. Furthermore, for certain objectives we devise improved results in the case of Must-link constraints, which are also the best possible from a theoretical perspective. Finally, we present experimental evidence that validates the effectiveness of our algorithms.
翻訳日:2021-03-04 14:49:23 公開日:2021-03-02
# 非IIDデータからの分散学習のためのクロスグラデーションアグリゲーション

Cross-Gradient Aggregation for Decentralized Learning from Non-IID data ( http://arxiv.org/abs/2103.02051v1 )

ライセンス: Link先を確認
Yasaman Esfandiari, Sin Yong Tan, Zhanhong Jiang, Aditya Balu, Ethan Herron, Chinmay Hegde, Soumik Sarkar(参考訳) 分散学習により、コラボレーションエージェントのグループは、中央パラメータサーバーを必要とせずに、分散データセットを使用してモデルを学ぶことができる。 近年、分散学習アルゴリズムは、集中型アルゴリズムに匹敵するベンチマークデータセットで最先端の結果を実証している。 しかし、競争性能を達成するための重要な前提は、データは独立して、実生活のアプリケーションでは適用できないエージェント間で均等に分散(IID)されていることである。 連続学習のアイデアから着想を得たCGA(Cross-Gradient Aggregation)を提案する。これは,(i)各エージェントが,隣人のデータセットに対するモデルの派生体であるクロスグラデーション情報を集め,(ii)二次プログラミング(QP)に基づく投影グラデーションを用いてモデルを更新する,新たな分散学習アルゴリズムである。 我々は,CGAの収束特性を理論的に解析し,MNISTおよびCIFAR-10データセットから採取した非IIDデータ分布の効率性を示す。 実験では,既存の最先端分散学習アルゴリズムよりもcgaの学習性能が優れており,ピアツーピア通信のオーバーヘッドを低減するために情報圧縮性能が向上していることを示す。

Decentralized learning enables a group of collaborative agents to learn models using a distributed dataset without the need for a central parameter server. Recently, decentralized learning algorithms have demonstrated state-of-the-art results on benchmark data sets, comparable with centralized algorithms. However, the key assumption to achieve competitive performance is that the data is independently and identically distributed (IID) among the agents which, in real-life applications, is often not applicable. Inspired by ideas from continual learning, we propose Cross-Gradient Aggregation (CGA), a novel decentralized learning algorithm where (i) each agent aggregates cross-gradient information, i.e., derivatives of its model with respect to its neighbors' datasets, and (ii) updates its model using a projected gradient based on quadratic programming (QP). We theoretically analyze the convergence characteristics of CGA and demonstrate its efficiency on non-IID data distributions sampled from the MNIST and CIFAR-10 datasets. Our empirical comparisons show superior learning performance of CGA over existing state-of-the-art decentralized learning algorithms, as well as maintaining the improved performance under information compression to reduce peer-to-peer communication overhead.
翻訳日:2021-03-04 14:49:00 公開日:2021-03-02
# データ拡張とAutoMLによる時系列予測のためのニューラルネットワークの改善

Improving Neural Networks for Time Series Forecasting using Data Augmentation and AutoML ( http://arxiv.org/abs/2103.01992v1 )

ライセンス: Link先を確認
Indrajeet Y. Javeri, Mohammadhossein Toutiaee, Ismailcem B. Arpinar, Tom W. Miller, John A. Miller(参考訳) 時系列予測のためのBox-Jenkins法のような統計手法は1970年に開発されて以来顕著である。 多くの研究者は、効率的に推定し、解釈可能性を提供するため、そのようなモデルに依存しています。 しかし、機械学習研究の進歩は、ニューラルネットワークが大量の学習問題やデータセットに対して高い精度を与えるため、強力なデータモデリング技術になり得ることを示している。 過去にも時系列予測も試みられてきましたが、その全体的な結果は、特に中間長時系列データでは統計モデルよりも有意に良くありませんでした。 それらのモデリング能力は、これらの非線形モデルに必要な大量のパラメータを推定するのに十分なデータが得られない場合に限られる。 本稿では,このようなネットワークの性能を向上させるためのデータ拡張手法について述べる。 本手法は, 統計的モデルからの予測を用いて, 中間時間時系列におけるニューラルネットワークのパワーを解き放ち, 競争的な結果を生み出すことができる。 これは、Neural Architecture Searchのような自動機械学習技術を組み合わせることで、与えられた時系列に最適なニューラルネットワークを見つけるのに役立つことを示している。 これらの組み合わせにより、新型コロナウイルスデータセットの2つの構成が大幅に強化され、拡張データを使用しないニューラルネットワーク上でそれぞれ19.90%と11.43%の予測精度が向上しました。

Statistical methods such as the Box-Jenkins method for time series forecasting have been prominent since their development in 1970. Many researchers rely on such models as they can be efficiently estimated and also provide interpretability. However, advances in machine learning research indicate that neural networks can be powerful data modeling techniques, as they can give higher accuracy for a plethora of learning problems and datasets. In the past, they have been tried on time series forecasting as well, but their overall results have not been significantly better than the statistical models especially for intermediate length times series data. Their modeling capacities are limited in cases where enough data may not be available to estimate the large number of parameters that these non-linear models require. This paper presents an easy to implement data augmentation method to significantly improve the performance of such networks. Our method, Augmented-Neural-Net work, which involves using forecasts from statistical models, can help unlock the power of neural networks on intermediate length time series and produces competitive results. It shows that data augmentation, when paired Automated Machine Learning techniques such as Neural Architecture Search, can help to find the best neural architecture for a given time series. Using the combination of these, demonstrates significant enhancement for two configurations of our technique for COVID-19 dataset, improving forecasting accuracy by 19.90% and 11.43%, respectively, over the neural networks that do not use augmented data.
翻訳日:2021-03-04 14:46:09 公開日:2021-03-02
# オンライン敵攻撃

Online Adversarial Attacks ( http://arxiv.org/abs/2103.02014v1 )

ライセンス: Link先を確認
Andjela Mladenovic, Avishek Joey Bose, Hugo Berard, William L. Hamilton, Simon Lacoste-Julien, Pascal Vincent, Gauthier Gidel(参考訳) 敵対的攻撃はディープラーニングモデルの重大な脆弱性を露呈するが、ストリームとしてデータが到着する設定にはほとんど注意が払われていない。 本稿では,実世界のユースケースに見られる2つの重要な要素を強調して,オンラインの敵対的攻撃問題を形式化する。攻撃者はターゲットモデルの部分的知識の下で行動しなければならない。 まず、よく研究された $k$-\textit{secretary problem} に平行に描画し、オンライン脅威モデルの決定論的変形を厳密に分析し、現在のベストシングルしきい値アルゴリズムよりも$k=2$の競争率を証明できるシンプルかつ実用的なアルゴリズムである \algoname を提案します。 また、オンラインブラックボックス攻撃をノイズ下の$k$-secretary問題に効果的に還元する \textit{stochastic $k$-secretary} を導入し、この設定に適応した \textit{any} オンラインアルゴリズムの競合比に関する理論的境界を証明します。 最後に, MNIST と CIFAR-10 の系統的な実験をバニラとロバストな分類器で行うことによって, 理論結果を補完し, \algoname のようなオンライン秘書アルゴリズムを活用することで, 最適オフラインソリューションによって達成されたものに近いオンライン攻撃成功率が得られることを示した。

Adversarial attacks expose important vulnerabilities of deep learning models, yet little attention has been paid to settings where data arrives as a stream. In this paper, we formalize the online adversarial attack problem, emphasizing two key elements found in real-world use-cases: attackers must operate under partial knowledge of the target model, and the decisions made by the attacker are irrevocable since they operate on a transient data stream. We first rigorously analyze a deterministic variant of the online threat model by drawing parallels to the well-studied $k$-\textit{secretary problem} and propose \algoname, a simple yet practical algorithm yielding a provably better competitive ratio for $k=2$ over the current best single threshold algorithm. We also introduce the \textit{stochastic $k$-secretary} -- effectively reducing online blackbox attacks to a $k$-secretary problem under noise -- and prove theoretical bounds on the competitive ratios of \textit{any} online algorithms adapted to this setting. Finally, we complement our theoretical results by conducting a systematic suite of experiments on MNIST and CIFAR-10 with both vanilla and robust classifiers, revealing that, by leveraging online secretary algorithms, like \algoname, we can get an online attack success rate close to the one achieved by the optimal offline solution.
翻訳日:2021-03-04 14:45:48 公開日:2021-03-02
# (参考訳) botcha: 野生の悪質な非人間トラフィックを検出する [全文訳有]

Botcha: Detecting Malicious Non-Human Traffic in the Wild ( http://arxiv.org/abs/2103.01428v1 )

ライセンス: CC BY 4.0
Sunny Dhamnani, Ritwik Sinha, Vishwa Vinay, Lilly Kumari, Margarita Savova(参考訳) 悪意のあるボットは、ウェブの全トラフィックの約4分の1を占め、eコマースサイトで動作するパーソナライゼーションとレコメンデーションアルゴリズムのパフォーマンスを低下させる。 Positive-Unlabeled Learning(PUラーニング)は、ポジティブ(P)と非ラベル(U)インスタンスのみを使用してバイナリ分類器をトレーニングする機能を提供する。 ラベルなしデータは、正クラスと負クラスの両方からなる。 非悪意のあるアクターの厳格なサブセット、例えば、Webセッション中に人間だけが購入する仮定、または明確なCAPTCHAのラベルを見つけることができます。 しかし、ボットの進化と敵対的な性質のため、悪意のある行動の信号を見つけることはほとんど不可能です。 このようなセットアップは自然にPU学習に役立ちます。 残念なことに、標準的なPU学習アプローチでは、ラベル付けされた正の集合が全ての正のランダムなサンプルであると仮定している。 本研究では,選択された完全無作為仮定の違反に対して,より堅牢なPU学習の2つの修正を提案し,悪意のあるボットを除外するシステムを提案する。 1つのパブリックデータセットと1つのプロプライエタリデータセットにおいて、提案手法は標準的なPU学習法よりも、Webデータ中の人間を特定するのに優れていることを示す。

Malicious bots make up about a quarter of all traffic on the web, and degrade the performance of personalization and recommendation algorithms that operate on e-commerce sites. Positive-Unlabeled learning (PU learning) provides the ability to train a binary classifier using only positive (P) and unlabeled (U) instances. The unlabeled data comprises of both positive and negative classes. It is possible to find labels for strict subsets of non-malicious actors, e.g., the assumption that only humans purchase during web sessions, or clear CAPTCHAs. However, finding signals of malicious behavior is almost impossible due to the ever-evolving and adversarial nature of bots. Such a set-up naturally lends itself to PU learning. Unfortunately, standard PU learning approaches assume that the labeled set of positives are a random sample of all positives, this is unlikely to hold in practice. In this work, we propose two modifications to PU learning that make it more robust to violations of the selected-completely- at-random assumption, leading to a system that can filter out malicious bots. In one public and one proprietary dataset, we show that proposed approaches are better at identifying humans in web data than standard PU learning methods.
翻訳日:2021-03-04 12:38:00 公開日:2021-03-02
# 推薦システムにおけるホットエンベディング活用による高性能トレーニング

High-Performance Training by Exploiting Hot-Embeddings in Recommendation Systems ( http://arxiv.org/abs/2103.00686v2 )

ライセンス: Link先を確認
Muhammad Adnan, Yassaman Ebrahimzadeh Maboud, Divya Mahajan, Prashant J. Nair(参考訳) 推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。 現在の推奨モデルには、ディープラーニングベース(DLRM)と時間ベースシーケンス(TBSM)モデルがある。 これらのモデルは、巨大な埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数(メモリバウンド)の数値表現を格納し、ニューラルネットワークを使用して出力(計算バウンド)を生成する。 これらの競合する計算とメモリの要求のため、レコメンデーションモデルのトレーニングプロセスはそれぞれ、組み込みとニューラルネットワークの実行のためのCPUとGPUに分割される。 このようなトレーニングプロセスは、各埋め込みエントリに同じレベルの重要度を鼻で割り当てる。 本稿では,いくつかの学習入力とその埋め込みテーブルへのアクセスが,最大10000倍以上のエントリがアクセスされることで大きく歪んでいることを観察する。 本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。 そこで本稿では,gpuメモリ容量と入力人気指数に基づいて動的ノブをソフトウェアに公開する,頻繁にアクセスされる組込み(fae)フレームワークを提案する。 このフレームワークは、GPU内の埋め込みテーブルのホット部分のサイズを効率的に見積もり、変更し、残りの埋め込みをCPUに再配置します。 全体として、我々のフレームワークは、Intel-Xeon CPUとNvidia Tesla-V100 GPUを使用するベースラインと比較して、Kaggle、Terabyte、Alibabaデータセットの推奨モデルのトレーニングを2.34倍高速化し、精度を維持しています。

Recommendation models are commonly used learning models that suggest relevant items to a user for e-commerce and online advertisement-based applications. Current recommendation models include deep-learning-based (DLRM) and time-based sequence (TBSM) models. These models use massive embedding tables to store a numerical representation of item's and user's categorical variables (memory-bound) while also using neural networks to generate outputs (compute-bound). Due to these conflicting compute and memory requirements, the training process for recommendation models is divided across CPU and GPU for embedding and neural network executions, respectively. Such a training process naively assigns the same level of importance to each embedding entry. This paper observes that some training inputs and their accesses into the embedding tables are heavily skewed with certain entries being accessed up to 10000x more. This paper tries to leverage skewed embedded table accesses to efficiently use the GPU resources during training. To this end, this paper proposes a Frequently Accessed Embeddings (FAE) framework that exposes a dynamic knob to the software based on the GPU memory capacity and the input popularity index. This framework efficiently estimates and varies the size of the hot portions of the embedding tables within GPUs and reallocates the rest of the embeddings on the CPU. Overall, our framework speeds-up the training of the recommendation models on Kaggle, Terabyte, and Alibaba datasets by 2.34x as compared to a baseline that uses Intel-Xeon CPUs and Nvidia Tesla-V100 GPUs, while maintaining accuracy.
翻訳日:2021-03-04 12:28:10 公開日:2021-03-02
# (参考訳) ForceNet:大規模量子計算のためのグラフニューラルネットワーク [全文訳有]

ForceNet: A Graph Neural Network for Large-Scale Quantum Calculations ( http://arxiv.org/abs/2103.01436v1 )

ライセンス: CC BY 4.0
Weihua Hu, Muhammed Shuaibi, Abhishek Das, Siddharth Goyal, Anuroop Sriram, Jure Leskovec, Devi Parikh, C. Lawrence Zitnick(参考訳) 大量の原子シミュレーションデータが利用できるため、高速で正確な機械学習モデルを開発し、高価な物理ベースの計算を近似する大きな機会がある。 推定する重要な量は原子力であり、最新のグラフニューラルネットワーク(GNN)は回転共分散のような基本的な物理的制約を明示的に強制する。 しかし、物理的制約を厳密に満たすためには、既存のモデルは計算効率とモデル表現性のトレードオフをしなければならない。 ここでは別のアプローチを探求する。 明示的な物理的制約を課さないことで、計算効率を保ちながら表現的モデルを柔軟に設計することができる。 物理的制約は、物理ベースのデータ拡張を使用してモデルをトレーニングすることで暗黙的に課される。 提案手法を評価するため,我々はスケーラブルで表現力に富んだGNNモデルであるForceNetを慎重に設計し,これまでにない規模の量子物理学計算データセットであるOC20(Chanussot et al., 2020)に適用した。 提案したForceNetは、最先端の物理ベースのGNNよりも高精度に原子力を予測できると同時に、トレーニングと推論の両方において高速である。 全体として、我々の有望かつ反直感的な結果は、将来の研究のためのエキサイティングな道を開く。

With massive amounts of atomic simulation data available, there is a huge opportunity to develop fast and accurate machine learning models to approximate expensive physics-based calculations. The key quantity to estimate is atomic forces, where the state-of-the-art Graph Neural Networks (GNNs) explicitly enforce basic physical constraints such as rotation-covariance. However, to strictly satisfy the physical constraints, existing models have to make tradeoffs between computational efficiency and model expressiveness. Here we explore an alternative approach. By not imposing explicit physical constraints, we can flexibly design expressive models while maintaining their computational efficiency. Physical constraints are implicitly imposed by training the models using physics-based data augmentation. To evaluate the approach, we carefully design a scalable and expressive GNN model, ForceNet, and apply it to OC20 (Chanussot et al., 2020), an unprecedentedly-larg e dataset of quantum physics calculations. Our proposed ForceNet is able to predict atomic forces more accurately than state-of-the-art physics-based GNNs while being faster both in training and inference. Overall, our promising and counter-intuitive results open up an exciting avenue for future research.
翻訳日:2021-03-04 12:22:18 公開日:2021-03-02
# (参考訳) スケーラブルなセット符号化のためのミニバッチ一貫性スロットセットエンコーダ [全文訳有]

Mini-Batch Consistent Slot Set Encoder for Scalable Set Encoding ( http://arxiv.org/abs/2103.01615v1 )

ライセンス: CC BY 4.0
Bruno Andreis, Jeffrey Willette, Juho Lee, Sung Ju Hwang(参考訳) ほとんどの既存のセットエンコーディングアルゴリズムは、セットのすべての要素がトレーニングや推論中にアクセス可能であるという前提の下で動作します。 さらに,大濃度集合を同時処理するのに十分な計算資源が存在すると仮定した。 しかし、両方の仮定は集合の濃度が禁止的に大きいときに失敗し、集合をメモリにロードすることもできない。 より極端なケースでは、セットのサイズは潜在的に無制限であり、セットの要素は、モデルが不規則な間隔でフルセットデータのサブセットを受け取るストリーミング方法で与えることができます。 大規模集合符号化におけるそのような実用的な課題に取り組むために,不変性と等分散の通常の制約を超越し,大規模集合符号化に必要な新しい特性であるミニバッチ一貫性を導入する。 本稿では,設定要素に対してミニバッチ処理が可能で,より多くのデータが到着するにつれて,セット表現を更新できる,スケーラブルで効率的なセット符号化機構を提案する。 提案手法は, 入力集合の無作為分割に対して最小バッチ一貫性を持つだけでなく, 不変および等分散に必要な対称性を尊重する。 提案手法は計算効率が高く,集合構造データに対するリッチな集合符号化表現が得られることを示す。

Most existing set encoding algorithms operate under the assumption that all the elements of the set are accessible during training and inference. Additionally, it is assumed that there are enough computational resources available for concurrently processing sets of large cardinality. However, both assumptions fail when the cardinality of the set is prohibitively large such that we cannot even load the set into memory. In more extreme cases, the set size could be potentially unlimited, and the elements of the set could be given in a streaming manner, where the model receives subsets of the full set data at irregular intervals. To tackle such practical challenges in large-scale set encoding, we go beyond the usual constraints of invariance and equivariance and introduce a new property termed Mini-Batch Consistency that is required for large scale mini-batch set encoding. We present a scalable and efficient set encoding mechanism that is amenable to mini-batch processing with respect to set elements and capable of updating set representations as more data arrives. The proposed method respects the required symmetries of invariance and equivariance as well as being Mini-Batch Consistent for random partitions of the input set. We perform extensive experiments and show that our method is computationally efficient and results in rich set encoding representations for set-structured data.
翻訳日:2021-03-04 11:57:40 公開日:2021-03-02
# (参考訳) プロダクトマニホールドプロジェクションによる非絡み合い表現の学習 [全文訳有]

Learning disentangled representations via product manifold projection ( http://arxiv.org/abs/2103.01638v1 )

ライセンス: CC0 1.0
Marco Fumero, Luca Cosmo, Simone Melzi, Emanuele Rodol\`a(参考訳) そこで本研究では,ある観測セットの根底にある変化の生成因子を解き放つ新しい手法を提案する。 我々の手法は、データ空間の下の(未知の)低次元多様体を、部分多様体の積として明示的にモデル化できるという考えに基づいている。 これにより、解束の新しい定義と、データの背後にある未知の説明要因を回復するための新しい弱監督アルゴリズムが生まれます。 トレーニング時に、アルゴリズムは非i.i.dのペアのみを必要とします。 要素が少なくとも1つ、おそらく多次元の変動の生成因子を共有するデータサンプル。 これらの変換の性質に関する知識を必要とせず、各部分空間の性質について限定的な仮定をしない。 我々の手法は実装が容易であり、任意の変換を行う様々な種類のデータ(画像から3次元表面まで)に適用することができる。 標準合成ベンチマークに加えて,本手法を実世界の課題に適用し,技術状況と良好に比較した。

We propose a novel approach to disentangle the generative factors of variation underlying a given set of observations. Our method builds upon the idea that the (unknown) low-dimensional manifold underlying the data space can be explicitly modeled as a product of submanifolds. This gives rise to a new definition of disentanglement, and to a novel weakly-supervised algorithm for recovering the unknown explanatory factors behind the data. At training time, our algorithm only requires pairs of non i.i.d. data samples whose elements share at least one, possibly multidimensional, generative factor of variation. We require no knowledge on the nature of these transformations, and do not make any limiting assumption on the properties of each subspace. Our approach is easy to implement, and can be successfully applied to different kinds of data (from images to 3D surfaces) undergoing arbitrary transformations. In addition to standard synthetic benchmarks, we showcase our method in challenging real-world applications, where we compare favorably with the state of the art.
翻訳日:2021-03-04 11:55:13 公開日:2021-03-02
# (参考訳) Listen, Read, Identify: Multimodal Singing Language Identification [全文訳有]

Listen, Read, and Identify: Multimodal Singing Language Identification ( http://arxiv.org/abs/2103.01893v1 )

ライセンス: CC BY 4.0
Keunwoo Choi, Yuxuan Wang(参考訳) 音声コンテンツとテキストメタデータの両方を用いたマルチモーダル歌唱言語分類モデルを提案する。 提案モデルであるLRID-Netは,メタデータから推定した音声信号と言語確率ベクトルを取り,目標言語10言語の確率を出力する。 オプションとして、LRID-Netは、欠落したモダリティを扱うために、モダリティドロップアウトで容易にされる。 実験では、様々なモードのドロップアウト構成のLRID-Netを訓練し、様々な入力モードの組み合わせでそれらをテストした。 実験の結果,マルチモーダル入力により性能が向上することが示された。 また, モダリティ・ドロップアウトの導入は, 完全なモダリティ・インプットが存在する場合のモデルの性能を低下させることなく, モデルが欠落したモダリティ・ケースをある程度扱えることを示唆している。

We propose a multimodal singing language classification model that uses both audio content and textual metadata. LRID-Net, the proposed model, takes an audio signal and a language probability vector estimated from the metadata and outputs the probabilities of the ten target languages. Optionally, LRID-Net is facilitated with modality dropouts to handle a missing modality. In the experiment, we trained several LRID-Nets with varying modality dropout configuration and test them with various combinations of input modalities. The experiment results demonstrate that using multimodal input improves the performance. The results also suggest that adopting modality dropout does not degrade performance of the model when there are full modality inputs while enabling the model to handle missing modality cases to some extent.
翻訳日:2021-03-04 10:21:01 公開日:2021-03-02
# (参考訳) 騒音環境における視聴覚感情認識の検討 [全文訳有]

Investigations on Audiovisual Emotion Recognition in Noisy Conditions ( http://arxiv.org/abs/2103.01894v1 )

ライセンス: CC BY-SA 4.0
Michael Neumann and Ngoc Thang Vu(参考訳) 本稿では,音声特徴に着目した雑音環境下での聴覚的感情認識について検討する。 i)音声の感情認識は、ノイズの多いデータに対してどのように機能するのか? そして(ii)マルチモーダルアプローチは、精度を改善し、異なるノイズレベルでの潜在的な性能低下を補うために何を拡張するか? 異なる信号-雑音比で重畳された2つの感情データセットの分析を行い、3種類の音響特性を比較した。 視覚的特徴はハイブリッドフュージョンアプローチに組み込まれている。 最初のニューラルネットワーク層は、モダリティ固有のものと別個のもので、次に最終予測の前に少なくとも1つの共有層が続く。 その結果、クリーンオーディオで訓練されたモデルがノイズの多いデータに適用されると、パフォーマンスが大幅に低下し、視覚機能の追加によりこの効果が軽減されます。

In this paper we explore audiovisual emotion recognition under noisy acoustic conditions with a focus on speech features. We attempt to answer the following research questions: (i) How does speech emotion recognition perform on noisy data? and (ii) To what extend does a multimodal approach improve the accuracy and compensate for potential performance degradation at different noise levels? We present an analytical investigation on two emotion datasets with superimposed noise at different signal-to-noise ratios, comparing three types of acoustic features. Visual features are incorporated with a hybrid fusion approach: The first neural network layers are separate modality-specific ones, followed by at least one shared layer before the final prediction. The results show a significant performance decrease when a model trained on clean audio is applied to noisy data and that the addition of visual features alleviates this effect.
翻訳日:2021-03-04 09:53:03 公開日:2021-03-02
# (参考訳) 医用画像におけるROI検出の実践的枠組み-骨盤後部X線写真における股関節検出のケーススタディ [全文訳有]

A Practical Framework for ROI Detection in Medical Images -- a case study for hip detection in anteroposterior pelvic radiographs ( http://arxiv.org/abs/2103.01584v1 )

ライセンス: CC BY 4.0
Feng-Yu Liu, Chih-Chi Chen, Shann-Ching Chen, Chien-Hung Liao(参考訳) 胸部X線像における心ROI検出,胸部X線像における肺境界検出,骨盤X線像における大腿骨頭検出など,多くの医療画像応用においてROI自動検出は重要なステップである。 そこで本研究では, 医療画像におけるROI検出の実践的枠組みを提案し, 骨盤X線写真における股関節検出のケーススタディを行った。 資料と方法:Chang Gung Memorial Hospital Osteoarthritisの4,290の高解像度ラジオグラフ、Osteoarthritis Initiativeの3,008の低中解像度ラジオグラフ、およびGoogleイメージ検索エンジンの101の異種ラジオグラフを含む、3つの多様なソースから7,399AP骨盤ラジオグラフで見られる股関節を分析したレトロスペクティブ研究を実施しました。 ResNet-101バックボーンを備えたシングルショットマルチボックスディテクタ(SSD)を用いたディープラーニングベースのROI検出フレームワークと、得られたデータセットの特性に基づいてカスタマイズされたヘッド構造を提示した。 結果:IoU=0.8115,平均信頼=0.9812,およびIoU=0.5(AP50)=0.9901の平均精度を独立したテストセットで達成し,検出された股関節領域が股関節の主な特徴を適切にカバーしていることを示唆した。 結論:提案されたアプローチは、低コストのラベリング、データ駆動モデル設計、異種データテストを特徴とする。 我々はap骨盤x線写真に対するロバストな股関節領域検出器の訓練の可能性を示した。 この実用的なフレームワークは、幅広い医療画像応用に有望な可能性を秘めている。

Purpose Automated detection of region of interest (ROI) is a critical step for many medical image applications such as heart ROIs detection in perfusion MRI images, lung boundary detection in chest X-rays, and femoral head detection in pelvic radiographs. Thus, we proposed a practical framework of ROIs detection in medical images, with a case study for hip detection in anteroposterior (AP) pelvic radiographs. Materials and Methods: We conducted a retrospective study which analyzed hip joints seen on 7,399 AP pelvic radiographs from three diverse sources, including 4,290 high resolution radiographs from Chang Gung Memorial Hospital Osteoarthritis, 3,008 low to medium resolution radiographs from Osteoarthritis Initiative, and 101 heterogeneous radiographs from Google image search engine. We presented a deep learning-based ROI detection framework utilizing single-shot multi-box detector (SSD) with ResNet-101 backbone and customized head structure based on the characteristics of the obtained datasets, whose ground truths were labeled by non-medical annotators in a simple graphical interface. Results: Our method achieved average intersection over union (IoU)=0.8115, average confidence=0.9812, and average precision with threshold IoU=0.5 (AP50)=0.9901 in the independent test set, suggesting that the detected hip regions have appropriately covered main features of the hip joints. Conclusion: The proposed approach featured on low-cost labeling, data-driven model design, and heterogeneous data testing. We have demonstrated the feasibility of training a robust hip region detector for AP pelvic radiographs. This practical framework has a promising potential for a wide range of medical image applications.
翻訳日:2021-03-04 08:15:56 公開日:2021-03-02
# (参考訳) 新型コロナウイルス(covid-19)の感染拡大に伴う都市封鎖による交通密度の低下--高解像度リモートセンシング画像から [全文訳有]

Transportation Density Reduction Caused by City Lockdowns Across the World during the COVID-19 Epidemic: From the View of High-resolution Remote Sensing Imagery ( http://arxiv.org/abs/2103.01717v1 )

ライセンス: CC BY 4.0
Chen Wu, Sihan Zhu, Jiaqi Yang, Meiqi Hu, Bo Du, Liangpei Zhang, Lefei Zhang, Chengxi Han, and Meng Lan(参考訳) 2020年前半に新型コロナウイルス(COVID-19)の流行が悪化し始めると、世界中の多くの都市で人的感染を抑え、感染拡大を緩和する厳格なロックダウン政策が実施された。 都市内の交通密度の低下は主観的に感じられたが,1m以下の高解像度のリモートセンシング画像から都市内人口の流れとロックダウン政策の拘束性との関係を反映する客観的かつ定量的な研究はこれまでにない。 したがって、新型コロナウイルス(COVID-19)の流行の中で、世界中の6つの震源都市(ウハン、ミラノ、マドリッド、パリ、ニューヨーク、ロンドン)でロックダウンが実施された前後の交通密度の減少を定量的に調査し、多時的高分解能リモートセンシング画像から車両を抽出します。 0.5mの解像度を持つ画像に対して,教師なし車両候補抽出とディープラーニング同定を組み合わせた新しい車両検出モデルを提案した。 その結果,ロックダウン後の6都市で交通密度が平均50%(最大75.96%)減少したことが示唆された。 また, 輸送密度低下率に対する影響は, R^2値が0.83を超え, 政策制約性とも高い相関関係を示した。 特定都市内においても交通密度の変化は相違し、市の土地利用パターンに応じて分布する傾向にあった。 公共交通機関の削減や禁止などを考えると,都市封鎖政策は都市内における人道感染の抑制に有効であることが示唆された。

As the COVID-19 epidemic began to worsen in the first months of 2020, stringent lockdown policies were implemented in numerous cities throughout the world to control human transmission and mitigate its spread. Although transportation density reduction inside the city was felt subjectively, there has thus far been no objective and quantitative study of its variation to reflect the intracity population flows and their corresponding relationship with lockdown policy stringency from the view of remote sensing images with the high resolution under 1m. Accordingly, we here provide a quantitative investigation of the transportation density reduction before and after lockdown was implemented in six epicenter cities (Wuhan, Milan, Madrid, Paris, New York, and London) around the world during the COVID-19 epidemic, which is accomplished by extracting vehicles from the multi-temporal high-resolution remote sensing images. A novel vehicle detection model combining unsupervised vehicle candidate extraction and deep learning identification was specifically proposed for the images with the resolution of 0.5m. Our results indicate that transportation densities were reduced by an average of approximately 50% (and as much as 75.96%) in these six cities following lockdown. The influences on transportation density reduction rates are also highly correlated with policy stringency, with an R^2 value exceeding 0.83. Even within a specific city, the transportation density changes differed and tended to be distributed in accordance with the city's land-use patterns. Considering that public transportation was mostly reduced or even forbidden, our results indicate that city lockdown policies are effective at limiting human transmission within cities.
翻訳日:2021-03-04 08:03:33 公開日:2021-03-02
# (参考訳) 一般化制御障壁関数を用いたモデルベース安全強化学習 [全文訳有]

Model-based Safe Reinforcement Learning using Generalized Control Barrier Function ( http://arxiv.org/abs/2103.01556v1 )

ライセンス: CC0 1.0
Haitong Ma, Jianyu Chen, Shengbo Eben Li, Ziyu Lin, Sifa Zheng(参考訳) モデル情報は将来の軌道を予測するのに使用できるため、自動運転のような現実世界のタスクに強化学習(rl)を実装する際に危険領域を避ける可能性がある。 しかし、既存の研究ではモデルフリーの制約付きRLがほとんどであり、これは必然的な制約違反を引き起こす。 本稿では,制約境界までの距離で定義される一般化制御障壁関数(gcbf)を用いて,制約付きrlのモデルベース実現可能性向上手法を提案する。 モデル情報を使用することで、実際の安全制約に従わずに安全にポリシーを最適化でき、サンプル効率が向上します。 制約付きポリシー勾配の解法における実現不可能性の難しさは、適応係数機構によって処理される。 複雑な自律運転衝突回避タスクにおいて,シミュレーションと実車実験の両方において提案手法を評価する。 提案手法は最大4倍の制約違反を達成し、ベースライン制約RLアプローチよりも3.36倍の速度で収束する。

Model information can be used to predict future trajectories, so it has huge potential to avoid dangerous region when implementing reinforcement learning (RL) on real-world tasks, like autonomous driving. However, existing studies mostly use model-free constrained RL, which causes inevitable constraint violations. This paper proposes a model-based feasibility enhancement technique of constrained RL, which enhances the feasibility of policy using generalized control barrier function (GCBF) defined on the distance to constraint boundary. By using the model information, the policy can be optimized safely without violating actual safety constraints, and the sample efficiency is increased. The major difficulty of infeasibility in solving the constrained policy gradient is handled by an adaptive coefficient mechanism. We evaluate the proposed method in both simulations and real vehicle experiments in a complex autonomous driving collision avoidance task. The proposed method achieves up to four times fewer constraint violations and converges 3.36 times faster than baseline constrained RL approaches.
翻訳日:2021-03-04 01:56:21 公開日:2021-03-02
# (参考訳) マシンラーニングによるダブルカバー [全文訳有]

Double Coverage with Machine-Learned Advice ( http://arxiv.org/abs/2103.01640v1 )

ライセンス: CC BY 4.0
Alexander Lindermayr, Nicole Megow, Bertrand Simon(参考訳) オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。 従来のオンラインモデルでは、アルゴリズムはリクエストシーケンスに関する情報を持たないが、いくつかのアドバイスが与えられた(例)。 アルゴリズムの決定に関する機械的な予測)。 しかし、予測の質は保証されておらず、その正確さには程遠いかもしれない。 私たちの主な結果は、ライン上のkサーバ(Chrobak et al.、SIDMA 1991)のためのよく知られたダブルカバレッジアルゴリズムの学習強化されたバリエーションであり、予測と私たちの信頼を彼らの品質に統合しています。 ユーザ定義信頼度パラメータの関数であり、最適な一貫性、全ての予測が正しい場合のパフォーマンス、そして予測品質に関係なく最適なロバスト性の間をスムーズに補間する誤差依存競争比を与える。 良い予測を与えると、オンラインアルゴリズムの既知の下限をアドバイスなしで改善します。 さらに,本アルゴリズムは局所特性とメモリレス特性を尊重する決定論的アルゴリズムのクラスにおいて,任意のkに対してほぼ最適な一貫性-破壊性トレードオフを達成することを示す。 我々のアルゴリズムは、以前に提案された(より一般的な)学習増強アルゴリズムより優れている。 これまでのアルゴリズムはメモリを多用していたが、我々のアルゴリズムはメモリレスである。 最後に、実世界のデータに対するアルゴリズムの実践性と優れた性能を実験で実証する。

We study the fundamental online $k$-server problem in a learning-augmented setting. While in the traditional online model, an algorithm has no information about the request sequence, we assume that there is given some advice (e.g. machine-learned predictions) on an algorithm's decision. There is, however, no guarantee on the quality of the prediction and it might be far from being correct. Our main result is a learning-augmented variation of the well-known Double Coverage algorithm for k-server on the line (Chrobak et al., SIDMA 1991) in which we integrate predictions as well as our trust into their quality. We give an error-dependent competitive ratio, which is a function of a user-defined trustiness parameter, and which interpolates smoothly between an optimal consistency, the performance in case that all predictions are correct, and the best-possible robustness regardless of the prediction quality. When given good predictions, we improve upon known lower bounds for online algorithms without advice. We further show that our algorithm achieves for any k an almost optimal consistency-robustne ss tradeoff, within a class of deterministic algorithms respecting local and memoryless properties. Our algorithm outperforms a previously proposed (more general) learning-augmented algorithm. It is remarkable that the previous algorithm heavily exploits memory, whereas our algorithm is memoryless. Finally, we demonstrate in experiments the practicability and the superior performance of our algorithm on real-world data.
翻訳日:2021-03-04 01:41:17 公開日:2021-03-02
# (参考訳) Implicit Graph Neural Networksにおけるグラフ情報消失現象 [全文訳有]

Graph Information Vanishing Phenomenon inImplicit Graph Neural Networks ( http://arxiv.org/abs/2103.01770v1 )

ライセンス: CC BY 4.0
Haifeng Li, Jun Cao, Jiawei Zhu, Qing Zhu, Guohua Wu(参考訳) GNNの重要な問題の1つは、ノード表現を学ぶための集約プロセスにおける隣ノードの重要性を記述する方法である。 GNNのクラスは、グラフ注意ネットワークのような暗黙のGNNと呼ばれる近隣ノードの重要性を表現するために暗黙の重みを学習することでこの問題を解決する。 暗黙的なGNNsの基本的な考え方は、データ駆動の方法で隣ノードの重要性をエンコードするLearlable Transformation Structures(LTS)に続く特殊なプロパティを持つグラフ情報を導入することである。 本稿では,この学習過程において,LTSがグラフ情報の特殊特性を消失させ,ノード表現の学習に不適なグラフ情報をもたらすことを論じる。 この現象をグラフ情報消滅(GIV)と呼ぶ。 また、LTSは異なるグラフ情報を非常に類似した結果にマップします。 以上の2点を検証するために, グラフ情報の順序をランダムにディスラプトし, グラフ情報をランダム値に置き換えるランダムな置換演算子を用いて, 5つの暗黙的GNN法と7つのベンチマークデータセットを用いて, 70のランダムな実験の2組を設計した。 その結果、ランダム化はモデル性能に93\%は影響せず、約7%が平均0.5\%の精度損失を引き起こすことがわかった。 また、LTSマッピングによって生成された出力結果のコサイン類似性は、81.%の比率で99.%以上である。 実験結果から,Implicit GNNにおけるGIVの存在を裏付ける証拠が得られ,既存のImplicit GNNの手法がグラフ情報をうまく利用していないことが示唆された。 グラフ情報とltsの関係を再考して、グラフ情報がノード表現で使われるようにすべきである。

One of the key problems of GNNs is how to describe the importance of neighbor nodes in the aggregation process for learning node representations. A class of GNNs solves this problem by learning implicit weights to represent the importance of neighbor nodes, which we call implicit GNNs such as Graph Attention Network. The basic idea of implicit GNNs is to introduce graph information with special properties followed by Learnable Transformation Structures (LTS) which encode the importance of neighbor nodes via a data-driven way. In this paper, we argue that LTS makes the special properties of graph information disappear during the learning process, resulting in graph information unhelpful for learning node representations. We call this phenomenon Graph Information Vanishing (GIV). Also, we find that LTS maps different graph information into highly similar results. To validate the above two points, we design two sets of 70 random experiments on five Implicit GNNs methods and seven benchmark datasets by using a random permutation operator to randomly disrupt the order of graph information and replacing graph information with random values. We find that randomization does not affect the model performance in 93\% of the cases, with about 7 percentage causing an average 0.5\% accuracy loss. And the cosine similarity of output results, generated by LTS mapping different graph information, over 99\% with an 81\% proportion. The experimental results provide evidence to support the existence of GIV in Implicit GNNs and imply that the existing methods of Implicit GNNs do not make good use of graph information. The relationship between graph information and LTS should be rethought to ensure that graph information is used in node representation.
翻訳日:2021-03-04 01:02:31 公開日:2021-03-02
# (参考訳) 戦略分類を実践する [全文訳有]

Strategic Classification Made Practical ( http://arxiv.org/abs/2103.01826v1 )

ライセンス: CC BY 4.0
Sagi Levanon and Nir Rosenfeld(参考訳) 戦略分類は、ユーザーが結果を改善するために戦略的に機能を変更できるような環境での学習の問題について考察する。 この設定は広く適用され、近年注目を集めている。 しかし、その実用的意義にもかかわらず、この空間での作業はこれまで主に理論的に行われてきた。 本稿では,戦略的分類のための実践的な学習フレームワークを提案する。 当社のアプローチは,ユーザの戦略的対応を通じて差別化することで達成される,"戦略的"経験的リスクを直接的に最小化する。 これにより、元の問題定式化を超えて、より現実的な学習シナリオに拡張できる柔軟性を提供します。 様々な学習環境におけるアプローチの有効性について実験を行った。

Strategic classification regards the problem of learning in settings where users can strategically modify their features to improve outcomes. This setting applies broadly and has received much recent attention. But despite its practical significance, work in this space has so far been predominantly theoretical. In this paper we present a learning framework for strategic classification that is practical. Our approach directly minimizes the "strategic" empirical risk, achieved by differentiating through the strategic response of users. This provides flexibility that allows us to extend beyond the original problem formulation and towards more realistic learning scenarios. A series of experiments demonstrates the effectiveness of our approach on various learning settings.
翻訳日:2021-03-04 00:46:03 公開日:2021-03-02
# (参考訳) 鼻をたどる -- どのコードの臭いが追いかける価値があるか? [全文訳有]

Follow Your Nose -- Which Code Smells are Worth Chasing? ( http://arxiv.org/abs/2103.01861v1 )

ライセンス: CC BY 4.0
Idan Amit, Nili Ben Ezra, Dror G. Feitelson(参考訳) コードの臭いの一般的なユースケースは因果関係を仮定している:臭いを識別し、除去し、そうすることでコードを改善する。 私たちは、この使用に対する彼らのフィットネスを実証的に調査します。 コードの臭いが品質を低下させるような特性のリストを提示します。 私たちは、677のgithubリポジトリから31,687のjavaファイルの臭いを評価しました。 匂いの影響を,品質,生産性,バグ検出効率の4つの指標で測定した。 CheckStyleの臭い検出器によって計算された151のコードの臭いのうち、20%未満が原因であることが判明し、ほんの一握りだけがかなり堅牢である。 最も強い臭いは、シンプルさ、防御的なプログラミング、抽象化です。 潜在的な原因臭のないファイルは、高品質である可能性が高い50%です。 残念なことに、ほとんどの臭いは取り除かれず、開発者は簡単に取り除く傾向があり、効果的ではない。

The common use case of code smells assumes causality: Identify a smell, remove it, and by doing so improve the code. We empirically investigate their fitness to this use. We present a list of properties that code smells should have if they indeed cause lower quality. We evaluated the smells in 31,687 Java files from 677 GitHub repositories, all the repositories with 200+ commits in 2019. We measured the influence of smells on four metrics for quality, productivity, and bug detection efficiency. Out of 151 code smells computed by the CheckStyle smell detector, less than 20% were found to be potentially causal, and only a handful are rather robust. The strongest smells deal with simplicity, defensive programming, and abstraction. Files without the potentially causal smells are 50% more likely to be of high quality. Unfortunately, most smells are not removed, and developers tend to remove the easy ones and not the effective ones.
翻訳日:2021-03-04 00:26:32 公開日:2021-03-02
# (参考訳) 幾何対応インスタンス強調学習のロバスト性評価 [全文訳有]

Evaluating the Robustness of Geometry-Aware Instance-Reweighted Adversarial Training ( http://arxiv.org/abs/2103.01914v1 )

ライセンス: CC BY 4.0
Dorjan Hitaj, Giulio Pagnotta, Iacopo Masi, Luigi V. Mancini(参考訳) 本技術報告では、Geometry-aware Instance-reweighted Adversarial Training[7]と呼ばれる最近の手法の対比堅牢性を評価します。 GAIRATは、CIFAR-10データセットに対する敵対攻撃に対する防御に関する最新の結果を報告します。 実際、この方法で訓練されたネットワークは、通常の敵対的トレーニング(AT)よりも改善を示しながら、損失を再スケーリングすることによって特定のサンプルにモデルを偏っていることがわかります。 実際、これはロジットをスケールする攻撃の影響を受けやすいモデルにつながります。 オリジナルのモデルはAutoAttackで59%の精度を示しており、擬似ラベルで追加データでトレーニングされている。 我々は逆を示す分析を提供する。 特に, CIFAR-10のみをトレーニングした場合, GAIRATの精度を55%から44%に低下させる正のスカラーでロジットを乗算するPGD攻撃を行う。 本報告では,この攻撃に対するGAIRATの脆弱性の背後にある理由について,モデルを厳格に評価し,知見を提供する。 結果の再現性を実現するために、早急にコードを公開します。

In this technical report, we evaluate the adversarial robustness of a very recent method called "Geometry-aware Instance-reweighted Adversarial Training"[7]. GAIRAT reports state-of-the-art results on defenses to adversarial attacks on the CIFAR-10 dataset. In fact, we find that a network trained with this method, while showing an improvement over regular adversarial training (AT), is biasing the model towards certain samples by re-scaling the loss. Indeed, this leads the model to be susceptible to attacks that scale the logits. The original model shows an accuracy of 59% under AutoAttack - when trained with additional data with pseudo-labels. We provide an analysis that shows the opposite. In particular, we craft a PGD attack multiplying the logits by a positive scalar that decreases the GAIRAT accuracy from from 55% to 44%, when trained solely on CIFAR-10. In this report, we rigorously evaluate the model and provide insights into the reasons behind the vulnerability of GAIRAT to this adversarial attack. We will release the code promptly to enable the reproducibility of our findings.
翻訳日:2021-03-04 00:04:19 公開日:2021-03-02
# (参考訳) Frank-Wolfe法によるオンライン直交辞書学習 [全文訳有]

Online Orthogonal Dictionary Learning Based on Frank-Wolfe Method ( http://arxiv.org/abs/2103.01484v1 )

ライセンス: CC BY 4.0
Ye Xue and Vincent Lau(参考訳) 辞書学習は信号処理や機械学習で広く使われている教師なし学習手法である。 既存の辞書学習のほとんどがオフラインで行われている。 主に辞書学習のオフライン方法が2つある。 1つは辞書とスパースコードの両方の代替最適化を行うことであり、もう1つは直交群に制限することで辞書を最適化することである。 後者は直交辞書学習と呼ばれ、複雑さの低い実装であるため、低コストのデバイスに好適である。 しかし、直交辞書学習の既存のスキームはバッチデータのみで動作し、リアルタイムアプリケーションには適用できないオンライン実装はできない。 本稿では,履歴データを保存せずに,ストリーミングデータから動的に辞書を学習するオンライン直交辞書スキームを提案する。 提案手法は,新しい問題定式化と収束解析を用いた効率的なオンラインアルゴリズム設計を含む。 問題定式化において,直交制約を緩和し,効率的なオンラインアルゴリズムを実現する。 アルゴリズム設計では,O(ln t/t^(1/4))の収束率を持つ新しいフランク・ウルフ型オンラインアルゴリズムを提案する。 重要なシステムパラメータの観点からの収束率も導出される。 合成データと実世界のセンサ読み取りによる実験は、提案されたオンライン直交辞書学習スキームの有効性と効率を示す。

Dictionary learning is a widely used unsupervised learning method in signal processing and machine learning. Most existing works of dictionary learning are in an offline manner. There are mainly two offline ways for dictionary learning. One is to do an alternative optimization of both the dictionary and the sparse code; the other way is to optimize the dictionary by restricting it over the orthogonal group. The latter one is called orthogonal dictionary learning which has a lower complexity implementation, hence, it is more favorable for lowcost devices. However, existing schemes on orthogonal dictionary learning only work with batch data and can not be implemented online, which is not applicable for real-time applications. This paper proposes a novel online orthogonal dictionary scheme to dynamically learn the dictionary from streaming data without storing the historical data. The proposed scheme includes a novel problem formulation and an efficient online algorithm design with convergence analysis. In the problem formulation, we relax the orthogonal constraint to enable an efficient online algorithm. In the algorithm design, we propose a new Frank-Wolfe-based online algorithm with a convergence rate of O(ln t/t^(1/4)). The convergence rate in terms of key system parameters is also derived. Experiments with synthetic data and real-world sensor readings demonstrate the effectiveness and efficiency of the proposed online orthogonal dictionary learning scheme.
翻訳日:2021-03-03 20:12:51 公開日:2021-03-02
# (参考訳) 冗長非局在マイクロホンアレイを用いた音場モニタリング [全文訳有]

Audio scene monitoring using redundant un-localized microphone arrays ( http://arxiv.org/abs/2103.01830v1 )

ライセンス: CC BY 4.0
Peter Gerstoft, Yihan Hu, Chaitanya Patil, Ardel Alegre, Michael J. Bianco, Yoav Freund, and Francois Grondin(参考訳) 複数のマイクロホンアレイを備えた部屋で音源をローカライズするシステムを提案する。 既存の多くのアプローチとは異なり、空間内の配列の位置は未知であると仮定される。 各円配列は、独立して到着方向推定(DOA)を行う。 doasは融合センターに供給され、結合され、キャリブレーションのためにラベル付きソース位置をほとんど必要としない2つの提案方法に基づいてローカライズを行うために使用される。 最初の提案方法は、観察されたDOAの主成分分析(PCA)に基づいており、校正を必要としません。 配列クラスタは、時間とともに連結DOAのPCAによって定義される多様体上でローカライズを行うことができる。 提案手法は, DOAベクトルと室内多様体間のアフィン変換を用いて局所化を行う。 PCAアプローチはトレーニングシーケンスの要件が少ないが、アレイの1つからDOAを欠いた場合の堅牢性は低い。 このアプローチは、オフィス内の未知の固定位置に配置された5つの8マイクロホン円配列で実証される。 PCAアプローチと直接アプローチの両方は、キャリブレーションポイントと同じような精度で数個のキャリブレーションポイントに基づいて、容易に矩形をマッピングすることができる。 ここで示した方法は、スマートホームにおけるアクティビティを監視するためのステップを提供し、配列位置を必要としないため、インストールの手間をほとんど必要としない。

We present a system for localizing sound sources in a room with several microphone arrays. Unlike most existing approaches, the positions of the arrays in space are assumed to be unknown. Each circular array performs direction of arrival (DOA) estimation independently. The DOAs are then fed to a fusion center where they are concatenated and used to perform the localization based on two proposed methods, which require only few labeled source locations for calibration. The first proposed method is based on principal component analysis (PCA) of the observed DOA and does not require any calibration. The array cluster can then perform localization on a manifold defined by the PCA of concatenated DOAs over time. The second proposed method performs localization using an affine transformation between the DOA vectors and the room manifold. The PCA approach has fewer requirements on the training sequence, but is less robust to missing DOAs from one of the arrays. The approach is demonstrated with a set of five 8-microphone circular arrays, placed at unknown fixed locations in an office. Both the PCA approach and the direct approach can easily map out a rectangle based on a few calibration points with similar accuracy as calibration points. The methods demonstrated here provide a step towards monitoring activities in a smart home and require little installation effort as the array locations are not needed.
翻訳日:2021-03-03 19:12:48 公開日:2021-03-02
# (参考訳) SoundCLR:環境音の分類改善のための表現のコントラスト学習 [全文訳有]

SoundCLR: Contrastive Learning of Representations For Improved Environmental Sound Classification ( http://arxiv.org/abs/2103.01929v1 )

ライセンス: CC BY 4.0
Alireza Nasiri, and Jianjun Hu(参考訳) 環境音分類(ESC)は、非音声音声処理の研究の挑戦的な分野です。 escにおける現在の研究のほとんどは、特定のオーディオデータセットに合わせた特殊なアーキテクチャを持つ深層モデルの設計に重点を置いている。 しかし最近の研究では、ImageNetで訓練されたモデルからの転送学習がESCで非常に効果的な技術であることを驚くほど示しています。 本稿では,各クラスのサンプルを他のクラスから切り離した表現を学習する,最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習法であるSoundCLRを提案する。 当社のディープネットワークモデルは、分類層によるより良い確率出力に寄与するコントラスト損失と、分類層の出力におけるクロスエントロピー損失を組み合わせて、サンプルをそれぞれの1ホットエンコードラベルにマッピングすることによって訓練されます。 利用可能な環境音データセットの比較的小さなサイズのために、我々は、転送学習と強力なデータ拡張パイプラインを提案し、モデルに入力する前に、音信号とそのログメル分光器の両方に増分を適用します。 実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。 ESC-10, ESC-50, US8K, 検証精度99.75\%, 93.4\%, 86.49\%の3つのベンチマークデータセットにおいて, 比較対象とクロスエントロピー損失を併用してトレーニングしたハイブリッドディープネットワークモデルの有効性が示された。 私たちのモデルのアンサンブルバージョンは、他のトップアンサンブルメソッドよりも優れています。 コードはhttps://github.com/a lireza-nasiri/SoundC LRで入手できる。

Environmental Sound Classification (ESC) is a challenging field of research in non-speech audio processing. Most of current research in ESC focuses on designing deep models with special architectures tailored for specific audio datasets, which usually cannot exploit the intrinsic patterns in the data. However recent studies have surprisingly shown that transfer learning from models trained on ImageNet is a very effective technique in ESC. Herein, we propose SoundCLR, a supervised contrastive learning method for effective environment sound classification with state-of-the-art performance, which works by learning representations that disentangle the samples of each class from those of other classes. Our deep network models are trained by combining a contrastive loss that contributes to a better probability output by the classification layer with a cross-entropy loss on the output of the classifier layer to map the samples to their respective 1-hot encoded labels. Due to the comparatively small sizes of the available environmental sound datasets, we propose and exploit a transfer learning and strong data augmentation pipeline and apply the augmentations on both the sound signals and their log-mel spectrograms before inputting them to the model. Our experiments show that our masking based augmentation technique on the log-mel spectrograms can significantly improve the recognition performance. Our extensive benchmark experiments show that our hybrid deep network models trained with combined contrastive and cross-entropy loss achieved the state-of-the-art performance on three benchmark datasets ESC-10, ESC-50, and US8K with validation accuracies of 99.75\%, 93.4\%, and 86.49\% respectively. The ensemble version of our models also outperforms other top ensemble methods. The code is available at https://github.com/a lireza-nasiri/SoundC LR.
翻訳日:2021-03-03 18:57:52 公開日:2021-03-02
# PHASE:Physically-gro unded Abstract Social Events for Machine Social Perception

PHASE: PHysically-grounded Abstract Social Events for Machine Social Perception ( http://arxiv.org/abs/2103.01933v1 )

ライセンス: Link先を確認
Aviv Netanyahu, Tianmin Shu, Boris Katz, Andrei Barbu, Joshua B. Tenenbaum(参考訳) 物理的環境の文脈における社会的相互作用を知覚し、推論する能力は、人間の社会的知能と人間と機械の協調の中核である。 しかしながら、事前のデータセットやベンチマークは、ハイファイブのような短い行動や、集まりのような単純なグループ活動など、複雑な社会的相互作用に対する物理的に根ざした認識を体系的に評価していない。 本研究は,他者のエージェント支援などの社会的概念を含め,実生活における幅広いソーシャルインタラクションに類似した,物理的に根拠のある抽象的ソーシャルイベント,フェーズのデータセットを作成する。 PHASEは、物理エンジンと階層的プランナーを用いて手続き的に生成された連続空間で動くエージェントのペアの2次元アニメーションで構成されている。 エージェントは視野が限られており、複数のランドマークや障害物のある環境で複数のオブジェクトと対話することができる。 PHASEを用いて,社会認識タスクと社会的予測タスクを設計する。 PHASEは、人間が社会的出来事における豊かな相互作用を知覚し、シミュレートされたエージェントが人間と同様に振る舞うことを示す人間の実験によって検証される。 ベースラインモデルとして,最先端のフィードフォワードニューラルネットワークに匹敵するベイズ逆計画手法(シミュレーション,計画,局所推定)を導入する。 PHASEは、複雑な社会的相互作用を認識できる新しいモデルを開発するための困難な新しい挑戦として役立つことを願っています。

The ability to perceive and reason about social interactions in the context of physical environments is core to human social intelligence and human-machine cooperation. However, no prior dataset or benchmark has systematically evaluated physically grounded perception of complex social interactions that go beyond short actions, such as high-fiving, or simple group activities, such as gathering. In this work, we create a dataset of physically-grounded abstract social events, PHASE, that resemble a wide range of real-life social interactions by including social concepts such as helping another agent. PHASE consists of 2D animations of pairs of agents moving in a continuous space generated procedurally using a physics engine and a hierarchical planner. Agents have a limited field of view, and can interact with multiple objects, in an environment that has multiple landmarks and obstacles. Using PHASE, we design a social recognition task and a social prediction task. PHASE is validated with human experiments demonstrating that humans perceive rich interactions in the social events, and that the simulated agents behave similarly to humans. As a baseline model, we introduce a Bayesian inverse planning approach, SIMPLE (SIMulation, Planning and Local Estimation), which outperforms state-of-the-art feed-forward neural networks. We hope that PHASE can serve as a difficult new challenge for developing new models that can recognize complex social interactions.
翻訳日:2021-03-03 17:35:16 公開日:2021-03-02
# BERTをベースとした特許ノベルティ検索のトレーニング

BERT based patent novelty search by training claims to their own description ( http://arxiv.org/abs/2103.01126v2 )

ライセンス: Link先を確認
Michael Freunek and Andr\'e Bodmer(参考訳) 本稿では,特許クレームを自己記述に結合する手法を提案する。 この方法を適用することで、BERTはクレームの適切な記述を訓練する。 このようなトレーニングされたBERT (claim-to-descriptio n- BERT) は、特許の新規性に関する記述を識別することができる。 さらに,BERTの出力を有意に処理するために,新たなスコアリング方式,関連スコア,あるいは新規スコアを導入する。 特許に関する最初の主張とそれに対応する記述に基づいてBERTを訓練することにより,特許出願の手法を検証した。 BERTの出力は、検索レポートの引用X文書と比較して、関連スコアと結果に基づいて処理されている。 テストの結果、BERTは引用されたX文書のいくつかを非常に関連性が高いと評価した。

In this paper we present a method to concatenate patent claims to their own description. By applying this method, BERT trains suitable descriptions for claims. Such a trained BERT (claim-to-descriptio n- BERT) could be able to identify novelty relevant descriptions for patents. In addition, we introduce a new scoring scheme, relevance scoring or novelty scoring, to process the output of BERT in a meaningful way. We tested the method on patent applications by training BERT on the first claims of patents and corresponding descriptions. BERT's output has been processed according to the relevance score and the results compared with the cited X documents in the search reports. The test showed that BERT has scored some of the cited X documents as highly relevant.
翻訳日:2021-03-03 17:34:51 公開日:2021-03-02
# プロジェクションフリーニューラルtd学習におけるサンプル複雑性と過パラメータ境界

Sample Complexity and Overparameterization Bounds for Projection-Free Neural TD Learning ( http://arxiv.org/abs/2103.01391v1 )

ライセンス: Link先を確認
Semih Cayci, Siddhartha Satpathi, Niao He, R. Srikant(参考訳) ニューラルネットワークに基づく値関数近似による時間差学習のダイナミクスを一般状態空間、すなわち \emph{Neural TD Learning} 上で研究する。 既存のニューラルネットワークによるTD学習の分析は、無限幅解析または(ランダム)コンパクト集合におけるネットワークパラメータの制約に依存しており、その結果、各イテレーションで追加のプロジェクションステップが必要になる。 本稿では,ニューラルTD学習における新たな収束解析手法であるemph{without any projection}を確立する。 我々は、$poly(\overline{\nu},1/\epsilon)$を超える任意の幅の2層ReLUネットワークを備えた投影のないTD学習が、$poly(\overline{\nu},1/\epsilon)$与えられた$poly(\overline{\nu},1/\epsilon)$反復またはサンプルで真の値関数に収束することを示した。 我々のサンプル複雑性と過パラメータ境界は、遅延トレーニング環境で停止されたランダムプロセスとしてネットワークパラメータのドリフト解析に基づいている。

We study the dynamics of temporal-difference learning with neural network-based value function approximation over a general state space, namely, \emph{Neural TD learning}. Existing analysis of neural TD learning relies on either infinite width-analysis or constraining the network parameters in a (random) compact set; as a result, an extra projection step is required at each iteration. This paper establishes a new convergence analysis of neural TD learning \emph{without any projection}. We show that the projection-free TD learning equipped with a two-layer ReLU network of any width exceeding $poly(\overline{\nu},1/\epsilon)$ converges to the true value function with error $\epsilon$ given $poly(\overline{\nu},1/\epsilon)$ iterations or samples, where $\overline{\nu}$ is an upper bound on the RKHS norm of the value function induced by the neural tangent kernel. Our sample complexity and overparameterization bounds are based on a drift analysis of the network parameters as a stopped random process in the lazy training regime.
翻訳日:2021-03-03 17:33:18 公開日:2021-03-02
# 対人訓練における損失関数の平滑性解析

Smoothness Analysis of Loss Functions of Adversarial Training ( http://arxiv.org/abs/2103.01400v1 )

ライセンス: Link先を確認
Sekitoshi Kanai, Masanori Yamada, Hiroshi Takahashi, Yuki Yamanaka, Yasutoshi Ida(参考訳) ディープニューラルネットワークは敵の攻撃に弱い。 対比ロバスト性に関する最近の研究は、最適化性能に関連しているため、パラメータ空間の損失ランドスケープに焦点を当てている。 これらの研究は、損失関数が滑らかでない、すなわちその勾配がリプシッツ連続ではないため、パラメータに関する逆トレーニングの損失関数を最適化することは難しいと結論付けている。 しかし、この分析は、パラメータに対する敵対攻撃の依存を無視します。 敵の攻撃はモデルにとって最悪のノイズであるため、モデルのパラメータに依存するべきである。 本研究では, 依存度を考慮した二分線形分類のための対向学習における損失関数の滑らかさを解析する。 リプシッツ連続性は、この場合の敵対攻撃の制約の種類に依存することが明らかとなった。 特に、L2 の制約の下では、逆損失は 0 を除いて滑らかである。

Deep neural networks are vulnerable to adversarial attacks. Recent studies of adversarial robustness focus on the loss landscape in the parameter space since it is related to optimization performance. These studies conclude that it is hard to optimize the loss function for adversarial training with respect to parameters because the loss function is not smooth: i.e., its gradient is not Lipschitz continuous. However, this analysis ignores the dependence of adversarial attacks on parameters. Since adversarial attacks are the worst noise for the models, they should depend on the parameters of the models. In this study, we analyze the smoothness of the loss function of adversarial training for binary linear classification considering the dependence. We reveal that the Lipschitz continuity depends on the types of constraints of adversarial attacks in this case. Specifically, under the L2 constraints, the adversarial loss is smooth except at zero.
翻訳日:2021-03-03 17:32:50 公開日:2021-03-02
# A HINT from Arithmetic: on systematic generalization of Perception, Syntax, and Semantics (特集 認知・シンタックス・セマンティックス)

A HINT from Arithmetic: On Systematic Generalization of Perception, Syntax, and Semantics ( http://arxiv.org/abs/2103.01403v1 )

ライセンス: Link先を確認
Qing Li, Siyuan Huang, Yining Hong, Yixin Zhu, Ying Nian Wu, Song-Chun Zhu(参考訳) 人間が算術を習得し、未知の問題に一般化する能力に着想を得て、知覚、構文、セマンティクスの3つの異なるレベルで一般化可能な概念を学習する機械の能力を研究するための新しいデータセット「ヒント」を提案する。 特に、指と演算子の両方を含むヒントの概念は、弱い教師のやり方で学ぶ必要がある:手書き式の最終結果のみが監督として提供される。 学習エージェントは、イメージ(知覚)のような生の信号から概念がどのように認識されるか、複数の概念が構造的に組み合わされ、有効な表現(構文)を形成するか、そして様々な推論タスク(意味論)が実現されるかを考える必要がある。 体系的な一般化に焦点をあてて,学習概念の補間と補間の両方を評価する5次元テストセットを慎重に設計する。 そこで本研究では,ニューラルネットと文法解析とプログラム合成を統合し,新たな推論・アブダクション戦略によって学習したニューラルシンボリックシステムを提案する。 実験では、提案されたニューラルシンボリックシステムは強力な一般化能力を示し、RNNやTransformerのようなエンドツーエンドのニューラルメソッドを大幅に上回る。 また,構文と意味論の補間における再帰的前置法の重要性も示唆した。

Inspired by humans' remarkable ability to master arithmetic and generalize to unseen problems, we present a new dataset, HINT, to study machines' capability of learning generalizable concepts at three different levels: perception, syntax, and semantics. In particular, concepts in HINT, including both digits and operators, are required to learn in a weakly-supervised fashion: Only the final results of handwriting expressions are provided as supervision. Learning agents need to reckon how concepts are perceived from raw signals such as images (i.e., perception), how multiple concepts are structurally combined to form a valid expression (i.e., syntax), and how concepts are realized to afford various reasoning tasks (i.e., semantics). With a focus on systematic generalization, we carefully design a five-fold test set to evaluate both the interpolation and the extrapolation of learned concepts. To tackle this challenging problem, we propose a neural-symbolic system by integrating neural networks with grammar parsing and program synthesis, learned by a novel deduction--abduction strategy. In experiments, the proposed neural-symbolic system demonstrates strong generalization capability and significantly outperforms end-to-end neural methods like RNN and Transformer. The results also indicate the significance of recursive priors for extrapolation on syntax and semantics.
翻訳日:2021-03-03 17:30:29 公開日:2021-03-02
# 私は本物か偽のセレブか? deepfake偽装攻撃下での顔認識ウェブapiの測定

Am I a Real or Fake Celebrity? Measuring Commercial Face Recognition Web APIs under Deepfake Impersonation Attack ( http://arxiv.org/abs/2103.00847v2 )

ライセンス: Link先を確認
Shahroz Tariq, Sowon Jeon, Simon S. Woo(参考訳) 近年,ディープニューラルネットワークを用いた顔認識技術が進歩している。 その結果、Microsoft、Amazon、Naverなどの企業は、エンドユーザーのニーズを満たすために、さまざまなアプリケーション向けに高精度な商用顔認識Webサービスを提供しています。 しかしながら、このような技術は、事実上すべての個人が迅速に偽造攻撃を実施できるため、永続的に脅威にさらされている。 特に、これらの攻撃は認証および識別サービスにとって重大な脅威となり、顔認識技術の精度と堅牢性に大きく依存します。 その重力にもかかわらず、商用Web APIを用いたディープフェイクの悪用とその堅牢性に関する問題は、まだ十分に調査されていない。 本研究では,セレブリティ認識APIを用いたDeepfake Impersonation (DI)攻撃に対するブラックボックス商用顔認識APIの堅牢性に関する測定研究を事例として紹介する。 5つのディープフェイクデータセットを使用します。そのうち2つは私たちによって作成され、リリースされる予定です。 より具体的には,2つのシナリオ(ターゲットと非ターゲット)に基づいて攻撃性能を測定し,忠実度,信頼度,類似度指標を用いてシステムの挙動をさらに分析する。 したがって、人気企業の顔認識技術がDI攻撃にいかに脆弱であるかを実証し、ターゲット(すなわち正確なマッチング)と非ターゲット(すなわちセレブと一致する)攻撃の最大成功率78.0%と99.9%を達成した。 また、標的攻撃と非標的攻撃の攻撃成功率を0%と0.02%に低下させ、DI攻撃を緩和するための実用的防御戦略を提案します。

Recently, significant advancements have been made in face recognition technologies using Deep Neural Networks. As a result, companies such as Microsoft, Amazon, and Naver offer highly accurate commercial face recognition web services for diverse applications to meet the end-user needs. Naturally, however, such technologies are threatened persistently, as virtually any individual can quickly implement impersonation attacks. In particular, these attacks can be a significant threat for authentication and identification services, which heavily rely on their underlying face recognition technologies' accuracy and robustness. Despite its gravity, the issue regarding deepfake abuse using commercial web APIs and their robustness has not yet been thoroughly investigated. This work provides a measurement study on the robustness of black-box commercial face recognition APIs against Deepfake Impersonation (DI) attacks using celebrity recognition APIs as an example case study. We use five deepfake datasets, two of which are created by us and planned to be released. More specifically, we measure attack performance based on two scenarios (targeted and non-targeted) and further analyze the differing system behaviors using fidelity, confidence, and similarity metrics. Accordingly, we demonstrate how vulnerable face recognition technologies from popular companies are to DI attack, achieving maximum success rates of 78.0% and 99.9% for targeted (i.e., precise match) and non-targeted (i.e., match with any celebrity) attacks, respectively. Moreover, we propose practical defense strategies to mitigate DI attacks, reducing the attack success rates to as low as 0% and 0.02% for targeted and non-targeted attacks, respectively.
翻訳日:2021-03-03 17:30:03 公開日:2021-03-02
# 自動符号化による関節後部最大化による逆問題の解法

Solving Inverse Problems by Joint Posterior Maximization with Autoencoding Prior ( http://arxiv.org/abs/2103.01648v1 )

ライセンス: Link先を確認
Mario Gonz\'alez, Andr\'es Almansa, Pauline Tan(参考訳) 本研究では,前者が変分オートエンコーダ(VAE)である画像の逆問題に対する問題に対処する。 具体的には、プリエントが一度トレーニングされ、再トレーニングせずに多くの異なるログコンケーブ劣化モデルで再利用できるデカップリングケースを考える。 この問題に対する従来のMAPベースのアプローチは、非凸最適化アルゴリズムをもたらすが、我々のアプローチは、自然に代替最適化アルゴリズムに導かれるジョイント(空間遅延)MAPを計算し、確率エンコーダを用いて計算を高速化する。 得られた技術(JPMAP)は、オートエンコーディングプリミティブを使用して関節後部最大化を行う。 提案する対象関数が bi-convex に非常に近いという理論的および実験的証拠を示す。 実際、我々の最適化スキームが定常点に収束することを保証するのに十分である弱い双凸性特性を満たす。 また, 生成モデルの品質に影響を与えることなく, エンコーダが分布外画像によく一般化することを保証するため, 発声基準を用いてvaeを正しくトレーニングすることの重要性を強調する。 この単純な変更は、手順全体に堅牢性を提供するための鍵です。 最後に、共同MAP手法がより一般的なMAPアプローチとどのように関連しているかを示し、JPMAPアルゴリズムを使用してより堅牢なMAP推定を提供する継続スキームを提案します。 実験結果はまた、JPMAPアプローチで得られたソリューションの高品質を他の非凸MAPアプローチと比較して示し、より頻繁にスプリアスローカルオプティマで立ち往生します。

In this work we address the problem of solving ill-posed inverse problems in imaging where the prior is a variational autoencoder (VAE). Specifically we consider the decoupled case where the prior is trained once and can be reused for many different log-concave degradation models without retraining. Whereas previous MAP-based approaches to this problem lead to highly non-convex optimization algorithms, our approach computes the joint (space-latent) MAP that naturally leads to alternate optimization algorithms and to the use of a stochastic encoder to accelerate computations. The resulting technique (JPMAP) performs Joint Posterior Maximization using an Autoencoding Prior. We show theoretical and experimental evidence that the proposed objective function is quite close to bi-convex. Indeed it satisfies a weak bi-convexity property which is sufficient to guarantee that our optimization scheme converges to a stationary point. We also highlight the importance of correctly training the VAE using a denoising criterion, in order to ensure that the encoder generalizes well to out-of-distribution images, without affecting the quality of the generative model. This simple modification is key to providing robustness to the whole procedure. Finally we show how our joint MAP methodology relates to more common MAP approaches, and we propose a continuation scheme that makes use of our JPMAP algorithm to provide more robust MAP estimates. Experimental results also show the higher quality of the solutions obtained by our JPMAP approach with respect to other non-convex MAP approaches which more often get stuck in spurious local optima.
翻訳日:2021-03-03 17:29:15 公開日:2021-03-02
# Abstractive Query-Focused Multi-Document Summarizationのためのデータ拡張

Data Augmentation for Abstractive Query-Focused Multi-Document Summarization ( http://arxiv.org/abs/2103.01863v1 )

ライセンス: Link先を確認
Ramakanth Pasunuru, Asli Celikyilmaz, Michel Galley, Chenyan Xiong, Yizhe Zhang, Mohit Bansal, Jianfeng Gao(参考訳) クエリ指向のマルチドキュメント要約(QMDS)の進歩は、十分な大規模な高品質のトレーニングデータセットが不足しているため、制限されている。 本稿では,QMDSCNNデータセットを作成するために,(1)一般的な単一文書CNN/デイリーメール要約データセットを転送し,(2)QMDSIRデータセットを作成するために検索クエリログをマイニングする2つのQMDSトレーニングデータセットについて述べる。 これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。 これらの実際の要約とクエリの両方をカバーするために、ducデータセットに新しい最先端の転送結果をもたらす複合データセット上に、抽象的なエンドツーエンドニューラルネットワークモデルを構築します。 また,複数の文書とともにクエリをより効率的なエンコーディングを可能にする新しい階層エンコーダも導入する。 実験の結果,データ拡張およびエンコーディング手法は,複数の属性による評価と同様に,自動メトリクスのベースラインモデルよりも優れていることがわかった。

The progress in Query-focused Multi-Document Summarization (QMDS) has been limited by the lack of sufficient largescale high-quality training datasets. We present two QMDS training datasets, which we construct using two data augmentation methods: (1) transferring the commonly used single-document CNN/Daily Mail summarization dataset to create the QMDSCNN dataset, and (2) mining search-query logs to create the QMDSIR dataset. These two datasets have complementary properties, i.e., QMDSCNN has real summaries but queries are simulated, while QMDSIR has real queries but simulated summaries. To cover both these real summary and query aspects, we build abstractive end-to-end neural network models on the combined datasets that yield new state-of-the-art transfer results on DUC datasets. We also introduce new hierarchical encoders that enable a more efficient encoding of the query together with multiple documents. Empirical results demonstrate that our data augmentation and encoding methods outperform baseline models on automatic metrics, as well as on human evaluations along multiple attributes.
翻訳日:2021-03-03 17:28:34 公開日:2021-03-02
# 構造化例に対する微分可能帰納論理プログラミング

Differentiable Inductive Logic Programming for Structured Examples ( http://arxiv.org/abs/2103.01719v1 )

ライセンス: Link先を確認
Hikaru Shindo, Masaaki Nishino, Akihiro Yamamoto(参考訳) 論理の微分可能な実装は、シンボリック推論とディープニューラルネットワークのシームレスな組み合わせをもたらす。 実例から論理プログラムを学ぶための微分可能なフレームワークを開発した最近の研究は、ノイズの多いデータセットから合理的な解を得ることもできる。 しかし、このフレームワークは、例えば、関数シンボルが許されず、節の形状が固定されるなど、ソリューションの表現を厳しく制限する。 その結果、フレームワークは構造化された例を扱うことができない。 そこで本研究では, 雑音や構造化例から論理プログラムを学習するための新しいフレームワークを提案する。 まず,各節の一般性によって定義される構造空間を探索し,微分可能なソルバの効率的な探索空間を得るための適応項探索法を提案する。 第2に,異なる推論関数を実行するために必要な基底原子の集合を決定するために,基底原子の列挙アルゴリズムを提案する。 最後に,論理プログラムをソフトに構成する新しい手法を提案し,複数の節からなる複雑なプログラムを扱えるようにした。 実験の結果,新しいフレームワークは,シーケンスやツリーなど,ノイズの多い構造化例から論理プログラムを学習できることが判明した。 我々のフレームワークは、関数記号を持つ複数の節からなる複雑なプログラムを扱うためにスケールできる。

The differentiable implementation of logic yields a seamless combination of symbolic reasoning and deep neural networks. Recent research, which has developed a differentiable framework to learn logic programs from examples, can even acquire reasonable solutions from noisy datasets. However, this framework severely limits expressions for solutions, e.g., no function symbols are allowed, and the shapes of clauses are fixed. As a result, the framework cannot deal with structured examples. Therefore we propose a new framework to learn logic programs from noisy and structured examples, including the following contributions. First, we propose an adaptive clause search method by looking through structured space, which is defined by the generality of the clauses, to yield an efficient search space for differentiable solvers. Second, we propose for ground atoms an enumeration algorithm, which determines a necessary and sufficient set of ground atoms to perform differentiable inference functions. Finally, we propose a new method to compose logic programs softly, enabling the system to deal with complex programs consisting of several clauses. Our experiments show that our new framework can learn logic programs from noisy and structured examples, such as sequences or trees. Our framework can be scaled to deal with complex programs that consist of several clauses with function symbols.
翻訳日:2021-03-03 17:22:23 公開日:2021-03-02
# 分布形式意味論

Distributional Formal Semantics ( http://arxiv.org/abs/2103.01713v1 )

ライセンス: Link先を確認
Noortje J. Venhuizen and Petra Hendriks and Matthew W. Crocker and Harm Brouwer(参考訳) 自然言語のセマンティクスは最近、形式的アプローチと分布的アプローチの補完的な強みを意味に組み合わせようとしている。 より具体的には、形式的意味表現による形式的意味機械の強化、形式的意味論への意味的類似性の概念の導入、あるいは包含や構成性といった形式的概念を組み入れることを目的とした分布システムの定義が提案されている。 しかし、世界の形式的および分布的アプローチモデルと言語的共起の基本的な「表現的通貨」を考えると、その統一は非常に困難であることが証明されている。 ここでは,形式モデルのレベルでの形式的意味体系に分布性を統合する分布形式意味論を定義する。 このアプローチは、本質的にも構成的である確率的で分散的な意味表現を提供し、量化や関係性といった基本的な意味概念を自然に捉える。 さらに,これらの表現の確率論的性質が確率的推論を可能にし,情報理論的な「情報」概念(エントロピーと超越性の観点から測定)がいかに自然にそれに従うかを示す。 最後に, 再帰的ニューラルネットワークモデルを用いて, 言語入力から意味表現を漸進的に導出する方法と, 帰納法, 前置法, 照応性といった重要な意味的現象を直感的に捉えた帰納的意味構築手法について述べる。

Natural language semantics has recently sought to combine the complementary strengths of formal and distributional approaches to meaning. More specifically, proposals have been put forward to augment formal semantic machinery with distributional meaning representations, thereby introducing the notion of semantic similarity into formal semantics, or to define distributional systems that aim to incorporate formal notions such as entailment and compositionality. However, given the fundamentally different 'representational currency' underlying formal and distributional approaches - models of the world versus linguistic co-occurrence - their unification has proven extremely difficult. Here, we define a Distributional Formal Semantics that integrates distributionality into a formal semantic system on the level of formal models. This approach offers probabilistic, distributed meaning representations that are also inherently compositional, and that naturally capture fundamental semantic notions such as quantification and entailment. Furthermore, we show how the probabilistic nature of these representations allows for probabilistic inference, and how the information-theoreti c notion of "information" (measured in terms of Entropy and Surprisal) naturally follows from it. Finally, we illustrate how meaning representations can be derived incrementally from linguistic input using a recurrent neural network model, and how the resultant incremental semantic construction procedure intuitively captures key semantic phenomena, including negation, presupposition, and anaphoricity.
翻訳日:2021-03-03 17:21:10 公開日:2021-03-02
# 線形ニューラルネットワークによる高速適応

Fast Adaptation with Linearized Neural Networks ( http://arxiv.org/abs/2103.01439v1 )

ライセンス: Link先を確認
Wesley J. Maddox, Shuai Tang, Pablo Garcia Moreno, Andrew Gordon Wilson, Andreas Damianou(参考訳) 訓練されたニューラルネットワークの誘導バイアスを理解することは困難であり、その結果、新しい設定に適応する。 ニューラルネットワークの線形化の帰納的バイアスについて検討し,全ネットワーク関数の驚くほどよい要約であることを示した。 この発見に触発されて,これらの帰納的バイアスをネットワークのヤコビアンから設計されたカーネルを通してガウス過程に埋め込む手法を提案する。 この設定では、領域適応は不確実性推定を伴う解釈可能な後方推論の形式を取る。 この推論は分析的であり、新しいタスクへの微調整ニューラルネットワーク重み付けのような標準技術で見られる局所的な最適問題を含まない。 スケーラブルなフィッシャーベクター製品の新しい実装を含むマトリックスマルチプライに基づく重要な計算速度を開発しています。 画像分類と回帰に関する実験は,ニューラルネットワークの微調整と比較して,トランスファー学習におけるこのフレームワークの期待と利便性を示すものである。 コードはhttps://github.com/a mzn/xfer/tree/master /finite_ntkで入手できる。

The inductive biases of trained neural networks are difficult to understand and, consequently, to adapt to new settings. We study the inductive biases of linearizations of neural networks, which we show to be surprisingly good summaries of the full network functions. Inspired by this finding, we propose a technique for embedding these inductive biases into Gaussian processes through a kernel designed from the Jacobian of the network. In this setting, domain adaptation takes the form of interpretable posterior inference, with accompanying uncertainty estimation. This inference is analytic and free of local optima issues found in standard techniques such as fine-tuning neural network weights to a new task. We develop significant computational speed-ups based on matrix multiplies, including a novel implementation for scalable Fisher vector products. Our experiments on both image classification and regression demonstrate the promise and convenience of this framework for transfer learning, compared to neural network fine-tuning. Code is available at https://github.com/a mzn/xfer/tree/master /finite_ntk.
翻訳日:2021-03-03 17:16:44 公開日:2021-03-02
# スケーラブルなオンラインガウスプロセスのためのカーネル補間

Kernel Interpolation for Scalable Online Gaussian Processes ( http://arxiv.org/abs/2103.01454v1 )

ライセンス: Link先を確認
Samuel Stanton, Wesley J. Maddox, Ian Delbridge, Andrew Gordon Wilson(参考訳) gaussian process(gps)は、サンプル効率のよいコントロールやブラックボックス最適化など、オンライン設定におけるパフォーマンスのゴールドスタンダードを提供します。 しかし、$n$ポイントを観測した後に単一の新しい観測を収容するためにGP後部を更新すると、正確な設定で少なくとも$O(n)$計算が発生します。 本稿では,一定時間$O(1)$のオンライン更新に対して,正確な推論を維持しつつ,構造化カーネル補間を用いて効率よく計算をリサイクルする方法を示す。 我々は,マラリア発生率予測の誤差を低減するために,オンライン回帰と分類,ベイズ最適化,アクティブサンプリングの多岐にわたる手法の可能性を実証する。 コードはhttps://github.com/w jmaddox/online_gpで入手できる。

Gaussian processes (GPs) provide a gold standard for performance in online settings, such as sample-efficient control and black box optimization, where we need to update a posterior distribution as we acquire data in a sequential fashion. However, updating a GP posterior to accommodate even a single new observation after having observed $n$ points incurs at least $O(n)$ computations in the exact setting. We show how to use structured kernel interpolation to efficiently recycle computations for constant-time $O(1)$ online updates with respect to the number of points $n$, while retaining exact inference. We demonstrate the promise of our approach in a range of online regression and classification settings, Bayesian optimization, and active sampling to reduce error in malaria incidence forecasting. Code is available at https://github.com/w jmaddox/online_gp.
翻訳日:2021-03-03 17:16:27 公開日:2021-03-02
# Wasserstein GANsは失敗した(Wasserstein距離を近似するため)

Wasserstein GANs Work Because They Fail (to Approximate the Wasserstein Distance) ( http://arxiv.org/abs/2103.01678v1 )

ライセンス: Link先を確認
Jan Stanczuk, Christian Etmann, Lisa Maria Kreusser, Carola-Bibiane Schonlieb(参考訳) wasserstein gans は実分布と生成分布の間の wasserstein 距離を最小化するアイデアに基づいている。 理論的なセットアップとWasserstein GANのトレーニングの現実の違いの詳細な数学的分析を提供します。 本研究では、WGAN損失がWasserstein距離の有意義な近似ではないという理論的および実証的な証拠を収集する。 さらに、wasserstein距離は深い生成モデルにとって望ましい損失関数ではないと論じ、wasserstein gansの成功は、実際にはwasserstein距離を近似しなかったことに起因していると結論づける。

Wasserstein GANs are based on the idea of minimising the Wasserstein distance between a real and a generated distribution. We provide an in-depth mathematical analysis of differences between the theoretical setup and the reality of training Wasserstein GANs. In this work, we gather both theoretical and empirical evidence that the WGAN loss is not a meaningful approximation of the Wasserstein distance. Moreover, we argue that the Wasserstein distance is not even a desirable loss function for deep generative models, and conclude that the success of Wasserstein GANs can in truth be attributed to a failure to approximate the Wasserstein distance.
翻訳日:2021-03-03 17:16:13 公開日:2021-03-02
# ベイズネットワークの混合学習を用いた石油・ガス貯留層パラメータ解析

Oil and Gas Reservoirs Parameters Analysis Using Mixed Learning of Bayesian Networks ( http://arxiv.org/abs/2103.01804v1 )

ライセンス: Link先を確認
Irina Deeva, Anna Bubnova, Petr Andriushchenko, Anton Voskresenskiy, Nikita Bukhanov, Nikolay O. Nikitin, Anna V. Kalyuzhnaya(参考訳) 本稿では,石油・ガス貯留層開発におけるデータ解析,因果推論,予測のための多目的ベイズ法について考察する。 これにより、貯水池のパラメータの分析、パラメータ間の発見依存性(原因と影響の関係を含む)、異常のチェック、欠落したパラメータの期待値の予測、最も近い類似点の検索などが可能になる。 この手法はベイズネットワークの構造学習のための拡張アルゴリズムMixLearn@BNに基づいている。 MixLearn@BNの主なアイデアは、(1)均質なデータサブセット上のネットワーク構造を学習すること、(2)専門家によって構造の一部を割り当てること、(3)混合データ上の分布パラメータを学習すること(離散的および連続的)である。 均質なデータサブセットは類似した特徴(アナローグ)を持つ貯水池のさまざまなグループとして識別され、類似度測定はいくつかの種類の距離に基づいている可能性がある。 ベイジアンネットワーク学習の手法は,そのようなネットワーク上での予測や因果推論の質を向上させることを目的としている。 実験により,提案手法が欠落値の予測と異常検出精度に有意な利点があることが証明された。 さらに、この手法は世界中の1000以上の石油貯水池のデータベースに適用され、地質学的パラメーターの関係に関する新たな知見を発見できた。

In this paper, a multipurpose Bayesian-based method for data analysis, causal inference and prediction in the sphere of oil and gas reservoir development is considered. This allows analysing parameters of a reservoir, discovery dependencies among parameters (including cause and effects relations), checking for anomalies, prediction of expected values of missing parameters, looking for the closest analogues, and much more. The method is based on extended algorithm MixLearn@BN for structural learning of Bayesian networks. Key ideas of MixLearn@BN are following: (1) learning the network structure on homogeneous data subsets, (2) assigning a part of the structure by an expert, and (3) learning the distribution parameters on mixed data (discrete and continuous). Homogeneous data subsets are identified as various groups of reservoirs with similar features (analogues), where similarity measure may be based on several types of distances. The aim of the described technique of Bayesian network learning is to improve the quality of predictions and causal inference on such networks. Experimental studies prove that the suggested method gives a significant advantage in missing values prediction and anomalies detection accuracy. Moreover, the method was applied to the database of more than a thousand petroleum reservoirs across the globe and allowed to discover novel insights in geological parameters relationships.
翻訳日:2021-03-03 17:15:58 公開日:2021-03-02
# 低次元埋め込みによる事前知識の分解

Factoring out prior knowledge from low-dimensional embeddings ( http://arxiv.org/abs/2103.01828v1 )

ライセンス: Link先を確認
Edith Heiter, Jonas Fischer, Jilles Vreeken(参考訳) tSNEやUMAPのような低次元埋め込み技術は、高次元データを可視化し、興味深い構造の発見を促進する。 これらは広く使われているが、データに関する背景知識に照らしてではなく、そのままデータを視覚化する。 しかし、我々がすでに知っていることは、何が新しく、それゆえ興味深いかを強く決定する。 本稿では,低次元埋め込みから距離行列の形で事前知識を分解する2つの手法を提案する。 tSNE埋め込みから事前知識を抽出するために,Jensen-Shannon分散を用いた原則的手法でtSNEの目的を適応するJEDIを提案する。 下流の組込み手法の事前知識を評価するために、入力距離行列上で直接操作するCONFETTIを提案します。 合成データと実世界のデータの両方に関する広範囲な実験は、両方の方法がうまく機能していることを示し、それ以外は隠れている有意義な構造を示す埋め込みを提供する。

Low-dimensional embedding techniques such as tSNE and UMAP allow visualizing high-dimensional data and therewith facilitate the discovery of interesting structure. Although they are widely used, they visualize data as is, rather than in light of the background knowledge we have about the data. What we already know, however, strongly determines what is novel and hence interesting. In this paper we propose two methods for factoring out prior knowledge in the form of distance matrices from low-dimensional embeddings. To factor out prior knowledge from tSNE embeddings, we propose JEDI that adapts the tSNE objective in a principled way using Jensen-Shannon divergence. To factor out prior knowledge from any downstream embedding approach, we propose CONFETTI, in which we directly operate on the input distance matrices. Extensive experiments on both synthetic and real world data show that both methods work well, providing embeddings that exhibit meaningful structure that would otherwise remain hidden.
翻訳日:2021-03-03 17:15:35 公開日:2021-03-02
# 個人化フェデレーション学習のための選択肢の理論

A Theorem of the Alternative for Personalized Federated Learning ( http://arxiv.org/abs/2103.01901v1 )

ライセンス: Link先を確認
Shuxiao Chen, Qinqing Zheng, Qi Long, Weijie J. Su(参考訳) フェデレートラーニングの難しさは、クライアント間の統計的異質性から広く認識されている: ローカルデータセットは、しばしば異なるが、全く関係のない分布から来ており、パーソナライゼーションは、各個人の観点から最適な結果を達成するために必要である。 本稿では,スムースで強い凸損失を伴う個人化連合学習の余剰リスクが,ミニマックスの観点からのデータ不均一性にどのように依存するかを示す。 我々の分析は、個人化学習の代替案の驚くべき定理を明らかにしている: (a) あるデータ不均一性の測定値がこのしきい値以下である場合、FedAvgアルゴリズム [McMahan et al., 2017] は極小最適である; (b) 不均一性の測定値がこのしきい値以上である場合、純粋なローカルトレーニングを行う(つまり、クライアントがローカルデータセット上で、通信なしで経験的リスク最小化問題を解く)。 その結果,クライアントワイドの不均一性に適応する難解な(無限次元)問題は,2つのベースラインアルゴリズム間で選択する単純な二項決定問題に還元できることが示唆された。 我々の分析は、連帯学習の性質を考慮したアルゴリズム安定性という新しい概念に依存している。

A widely recognized difficulty in federated learning arises from the statistical heterogeneity among clients: local datasets often come from different but not entirely unrelated distributions, and personalization is, therefore, necessary to achieve optimal results from each individual's perspective. In this paper, we show how the excess risks of personalized federated learning with a smooth, strongly convex loss depend on data heterogeneity from a minimax point of view. Our analysis reveals a surprising theorem of the alternative for personalized federated learning: there exists a threshold such that (a) if a certain measure of data heterogeneity is below this threshold, the FedAvg algorithm [McMahan et al., 2017] is minimax optimal; (b) when the measure of heterogeneity is above this threshold, then doing pure local training (i.e., clients solve empirical risk minimization problems on their local datasets without any communication) is minimax optimal. As an implication, our results show that the presumably difficult (infinite-dimensiona l) problem of adapting to client-wise heterogeneity can be reduced to a simple binary decision problem of choosing between the two baseline algorithms. Our analysis relies on a new notion of algorithmic stability that takes into account the nature of federated learning.
翻訳日:2021-03-03 17:15:19 公開日:2021-03-02
# WIT:マルチモーダル多言語機械学習のためのウィキペディアベースの画像テキストデータセット

WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning ( http://arxiv.org/abs/2103.01913v1 )

ライセンス: Link先を確認
Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork(参考訳) 深層表現学習と事前学習技術によるマイルストーンの改善は、下流のNLP、IR、ビジョンタスク間で大きなパフォーマンス向上をもたらした。 マルチモーダルモデリング技術は、補完的な情報(画像とテキストのモダリティ)を学習するための大規模な高品質の視覚言語データセットを活用することを目指している。 本稿では,ウィキペディアベースの画像テキスト (WIT) Dataset\footnote{\url{https://github.com/g oogle-research-datas ets/wit}} を紹介する。 witは3760万のエンティティリッチな画像テキスト例のキュレーションセットで構成されており、108のwikipedia言語で1150万のユニークな画像がある。 そのサイズは、画像テキスト検索などの下流タスクに適用した場合に示すように、WITをマルチモーダルモデルの事前トレーニングデータセットとして使用することができる。 WITには4つの利点がある。 まず、WITは(執筆時点で)3倍の画像-テキストのサンプル数によって最大のマルチモーダルデータセットです。 第二に、WITは100以上の言語(それぞれが少なくとも12Kの例を持っている)をカバーし、多くの画像に多言語テキストを提供しています。 第三に、WITは、以前のデータセットがカバーするものと比較して、より多様な概念と現実世界のエンティティのセットを表します。 最後に、WITは、画像テキスト検索タスクを例に、実世界の非常に困難なテストセットを提供する。

The milestone improvements brought about by deep representation learning and pre-training techniques have led to large performance gains across downstream NLP, IR and Vision tasks. Multimodal modeling techniques aim to leverage large high-quality visio-linguistic datasets for learning complementary information (across image and text modalities). In this paper, we introduce the Wikipedia-based Image Text (WIT) Dataset\footnote{\url{https://github.com/g oogle-research-datas ets/wit}} to better facilitate multimodal, multilingual learning. WIT is composed of a curated set of 37.6 million entity rich image-text examples with 11.5 million unique images across 108 Wikipedia languages. Its size enables WIT to be used as a pretraining dataset for multimodal models, as we show when applied to downstream tasks such as image-text retrieval. WIT has four main and unique advantages. First, WIT is the largest multimodal dataset by the number of image-text examples by 3x (at the time of writing). Second, WIT is massively multilingual (first of its kind) with coverage over 100+ languages (each of which has at least 12K examples) and provides cross-lingual texts for many images. Third, WIT represents a more diverse set of concepts and real world entities relative to what previous datasets cover. Lastly, WIT provides a very challenging real-world test set, as we empirically illustrate using an image-text retrieval task as an example.
翻訳日:2021-03-03 17:14:53 公開日:2021-03-02
# 普遍的敵対攻撃に関する調査

A Survey On Universal Adversarial Attack ( http://arxiv.org/abs/2103.01498v1 )

ライセンス: Link先を確認
Chaoning Zhang, Philipp Benz, Chenguo Lin, Adil Karjauv, Jing Wu, In So Kweon(参考訳) ディープニューラルネットワーク(DNN)は様々なアプリケーションで顕著な性能を示してきたが、敵の摂動の攻撃に弱いことが広く知られている。 この興味深い現象は機械学習に大きな注目を集めており、コミュニティにとってより驚くべきのは、普遍的敵対的摂動(UAP)の存在である。 ほとんどの画像に対してターゲットのDNNを騙す単一の摂動。 UAPの利点は、事前に生成し、攻撃中にオンザフライで適用できることである。 本調査は, 深層分類器に対するUAPの取り組みから, 攻撃・防衛双方の課題とUAPの存在理由を論じ, 近年の普遍的敵攻撃の進展をまとめたものである。 さらに、深い分類を超えた幅広いアプリケーションにおけるユニバーサルアタックもカバーされている。

Deep neural networks (DNNs) have demonstrated remarkable performance for various applications, meanwhile, they are widely known to be vulnerable to the attack of adversarial perturbations. This intriguing phenomenon has attracted significant attention in machine learning and what might be more surprising to the community is the existence of universal adversarial perturbations (UAPs), i.e. a single perturbation to fool the target DNN for most images. The advantage of UAP is that it can be generated beforehand and then be applied on-the-fly during the attack. With the focus on UAP against deep classifiers, this survey summarizes the recent progress on universal adversarial attacks, discussing the challenges from both the attack and defense sides, as well as the reason for the existence of UAP. Additionally, universal attacks in a wide range of applications beyond deep classification are also covered.
翻訳日:2021-03-03 17:10:49 公開日:2021-03-02
# TransTailor: トランスファー学習を改善するための事前トレーニングモデル

TransTailor: Pruning the Pre-trained Model for Improved Transfer Learning ( http://arxiv.org/abs/2103.01542v1 )

ライセンス: Link先を確認
Bingyan Liu, Yifeng Cai, Yao Guo, Xiangqun Chen(参考訳) 事前学習モデルの増加により、転送学習による限られたデータタスクのパフォーマンスが大幅に向上しました。 しかし、転送学習の進歩は主に、モデルと対象タスクの間の構造ミスマッチを無視した事前学習モデルの重み付けを最適化することに焦点を当てている。 本稿では,重みの調整に加えて,目標課題に合うように事前訓練されたモデルの構造を調整し,他の角度からの転送性能を向上させることを目的とする。 そこで本研究では,事前学習モデルの構築を目標としたtranstailorを提案する。 従来のプランニングパイプラインと異なり、トレーニング済みモデルを目標重量の重要度に応じて微調整し、特定のターゲットタスクに合わせて最適なサブモデルを生成します。 このようにして、ファイナルパフォーマンスのために微調整時に適用できるより適切なサブ構造を転送する。 複数の事前訓練されたモデルとデータセットに関する広範な実験は、TransTailorが従来の耕作方法よりも優れていることを実証し、より小さなモデルを使用して、他の最先端の転送学習方法よりも競争力またはさらに優れたパフォーマンスを実現します。 特にstanford dogsデータセットでは、transtailorは他の転送方法よりも2.7%精度が向上し、フラップは20%減少した。

The increasing of pre-trained models has significantly facilitated the performance on limited data tasks with transfer learning. However, progress on transfer learning mainly focuses on optimizing the weights of pre-trained models, which ignores the structure mismatch between the model and the target task. This paper aims to improve the transfer performance from another angle - in addition to tuning the weights, we tune the structure of pre-trained models, in order to better match the target task. To this end, we propose TransTailor, targeting at pruning the pre-trained model for improved transfer learning. Different from traditional pruning pipelines, we prune and fine-tune the pre-trained model according to the target-aware weight importance, generating an optimal sub-model tailored for a specific target task. In this way, we transfer a more suitable sub-structure that can be applied during fine-tuning to benefit the final performance. Extensive experiments on multiple pre-trained models and datasets demonstrate that TransTailor outperforms the traditional pruning methods and achieves competitive or even better performance than other state-of-the-art transfer learning methods while using a smaller model. Notably, on the Stanford Dogs dataset, TransTailor can achieve 2.7% accuracy improvement over other transfer methods with 20% fewer FLOPs.
翻訳日:2021-03-03 17:10:34 公開日:2021-03-02
# 最も転送可能な表現を学習するための文脈誘導畳み込みニューラルネットワーク

Contextually Guided Convolutional Neural Networks for Learning Most Transferable Representations ( http://arxiv.org/abs/2103.01566v1 )

ライセンス: Link先を確認
Olcay Kursun, Semih Dinc, Oleg V. Favorov(参考訳) 非常に大きなラベル付きデータセットで広く訓練されたDeep Convolutional Neural Networks(CNN)は、入力パターンの優先的に強力な特徴を認識し、客観的なコンテンツを効率的に表現することを学びます。 このような内部表現の客観性により、ディープCNNは容易にこれらの表現を新しい分類タスクに適用することができる。 深いcnnは、エラーバックプロパゲーションに基づく教師付きトレーニングの難しいプロセスを通じて内部表現を開発する。 対照的に、大脳皮質の深いニューラルネットワークは、文脈情報によって局所レベルで誘導される、監視されていないプロセスでさらに強力な内部表現を開発する。 このような局所的な文脈的ガイダンス原則を単一層CNNアーキテクチャで実装し、限られたサイズのデータセットで訓練された浅いCNNにおいて、汎用表現(追加のトレーニングなしで新しいタスクに転送可能な表現)を開発するための効率的なアルゴリズムを提案する。 コンテキストガイド付きCNN(CG-CNN)は、データセット内のランダムな画像位置で選択された近隣画像パッチのグループに基づいて訓練される。 このような隣接パッチは共通のコンテキストを持つ可能性が高いため、トレーニング目的で同じクラスに属するものとして扱われる。 イメージパッチの異なるコンテキスト共有グループでのトレーニングの繰り返し、ひとつのイテレーションで最適化されたCNN機能は、さらに最適化するために次のイテレーションに転送される。 この過程において、cnnの特徴は、転送ユーティリティとして定量化される任意の分類タスクに対して高い多能性、または推論的ユーティリティを取得する。 自然画像への応用において、CG-CNNの機能は、転送ユーティリティと分類精度が、よく知られたディープネットワークの第1CNN層で同等であることを示す。

Deep Convolutional Neural Networks (CNNs), trained extensively on very large labeled datasets, learn to recognize inferentially powerful features in their input patterns and represent efficiently their objective content. Such objectivity of their internal representations enables deep CNNs to readily transfer and successfully apply these representations to new classification tasks. Deep CNNs develop their internal representations through a challenging process of error backpropagation-base d supervised training. In contrast, deep neural networks of the cerebral cortex develop their even more powerful internal representations in an unsupervised process, apparently guided at a local level by contextual information. Implementing such local contextual guidance principles in a single-layer CNN architecture, we propose an efficient algorithm for developing broad-purpose representations (i.e., representations transferable to new tasks without additional training) in shallow CNNs trained on limited-size datasets. A contextually guided CNN (CG-CNN) is trained on groups of neighboring image patches picked at random image locations in the dataset. Such neighboring patches are likely to have a common context and therefore are treated for the purposes of training as belonging to the same class. Across multiple iterations of such training on different context-sharing groups of image patches, CNN features that are optimized in one iteration are then transferred to the next iteration for further optimization, etc. In this process, CNN features acquire higher pluripotency, or inferential utility for any arbitrary classification task, which we quantify as a transfer utility. In our application to natural images, we find that CG-CNN features show the same, if not higher, transfer utility and classification accuracy as comparable transferable features in the first CNN layer of the well-known deep networks.
翻訳日:2021-03-03 17:10:12 公開日:2021-03-02
# 教師学習による内視鏡機器セグメンテーションのシミュレーション・トゥ・リアル・ドメイン適応

Simulation-to-Real domain adaptation with teacher-student learning for endoscopic instrument segmentation ( http://arxiv.org/abs/2103.01593v1 )

ライセンス: Link先を確認
Manish Sahu, Anirban Mukhopadhyay, Stefan Zachow(参考訳) 目的: 内視鏡映像における手術器具のセグメンテーションは、手術シーンの自動理解とプロセスモデリングに不可欠です。 しかし,手動アノテーションが臨床専門家の貴重な時間を占有しているため,完全教師付き深層学習に頼ることは困難である。 方法:現在の一貫性に基づく非教師付きドメイン適応フレームワークの誤学習問題に取り組むために,注釈付きシミュレーションデータとラベルなし実データから共同で学習する教師学習手法を提案する。 結果: 3つのデータセットに対する実験結果から, 内視鏡機器分割作業に対する現在のアプローチよりも, 提案フレームワークの有効性が示された。 さらに、すべてのデータセットのパフォーマンスに影響を及ぼす主要な要因を分析し、アプローチの強みと失敗モードを強調します。 結論: 提案手法は, 未ラベルの実映像フレームを有効利用し, 純粋なシミュレーションベーストレーニングや過去の最先端技術よりも, 一般化性能を向上させることができることを示す。 これにより、アノテーション不足設定における外科的ツールの効果的なセグメンテーションに一歩近づきます。

Purpose: Segmentation of surgical instruments in endoscopic videos is essential for automated surgical scene understanding and process modeling. However, relying on fully supervised deep learning for this task is challenging because manual annotation occupies valuable time of the clinical experts. Methods: We introduce a teacher-student learning approach that learns jointly from annotated simulation data and unlabeled real data to tackle the erroneous learning problem of the current consistency-based unsupervised domain adaptation framework. Results: Empirical results on three datasets highlight the effectiveness of the proposed framework over current approaches for the endoscopic instrument segmentation task. Additionally, we provide analysis of major factors affecting the performance on all datasets to highlight the strengths and failure modes of our approach. Conclusion: We show that our proposed approach can successfully exploit the unlabeled real endoscopic video frames and improve generalization performance over pure simulation-based training and the previous state-of-the-art. This takes us one step closer to effective segmentation of surgical tools in the annotation scarce setting.
翻訳日:2021-03-03 17:09:42 公開日:2021-03-02
# 超球面一様性による学習

Learning with Hyperspherical Uniformity ( http://arxiv.org/abs/2103.01649v1 )

ライセンス: Link先を確認
Weiyang Liu, Rongmei Lin, Zhen Liu, Li Xiong, Bernhard Sch\"olkopf, Adrian Weller(参考訳) 過パラメータの性質から、ニューラルネットワークは非線形関数近似の強力なツールである。 目に見えないデータに対する良好な一般化を達成するためには、適切な誘導バイアスがニューラルネットワークにとって非常に重要です。 最も簡単な方法の1つは、追加の目的でニューラルネットワークを正規化することだ。 L2正規化はニューラルネットワークの標準正規化として機能する。 その人気にもかかわらず、本質的には個々のニューロンの1次元を正則化しており、高パラメータのニューラルネットワークの能力を制御するには十分ではない。 このことから、超球面均一性は神経細胞間の相互作用に影響を与える新しいリレーショナル正規化の族として提案されている。 超球面均一性を達成するための幾何的に異なる方法を考える。 超球面均一性の有効性は理論的な洞察と経験的評価によって正当化される。

Due to the over-parameterizatio n nature, neural networks are a powerful tool for nonlinear function approximation. In order to achieve good generalization on unseen data, a suitable inductive bias is of great importance for neural networks. One of the most straightforward ways is to regularize the neural network with some additional objectives. L2 regularization serves as a standard regularization for neural networks. Despite its popularity, it essentially regularizes one dimension of the individual neuron, which is not strong enough to control the capacity of highly over-parameterized neural networks. Motivated by this, hyperspherical uniformity is proposed as a novel family of relational regularizations that impact the interaction among neurons. We consider several geometrically distinct ways to achieve hyperspherical uniformity. The effectiveness of hyperspherical uniformity is justified by theoretical insights and empirical evaluations.
翻訳日:2021-03-03 17:09:25 公開日:2021-03-02
# 最大および平均ポーリングの一般化法の比較

Comparison of Methods Generalizing Max- and Average-Pooling ( http://arxiv.org/abs/2103.01746v1 )

ライセンス: Link先を確認
Florentin Bieder, Robin Sandk\"uhler, Philippe C. Cattin(参考訳) 最大および平均プールは、畳み込みニューラルネットワークにおけるダウンサンプリングの最も一般的なプーリング方法である。 本稿では,最大値と平均値の両方を一般化する異なるプール法の比較を行う。 さらに, 最大関数の円滑な近似に基づく別の手法を提案し, 関連手法を用いて文脈に配置する。 比較のために、VGG16画像分類ネットワークを使用して、自然の高解像度画像の大きなデータセット(Google Open Images v5)でトレーニングする。 結果は、より洗練された方法のどれでも、標準的な最大または平均プールよりもこの分類タスクで有意に優れています。

Max- and average-pooling are the most popular pooling methods for downsampling in convolutional neural networks. In this paper, we compare different pooling methods that generalize both max- and average-pooling. Furthermore, we propose another method based on a smooth approximation of the maximum function and put it into context with related methods. For the comparison, we use a VGG16 image classification network and train it on a large dataset of natural high-resolution images (Google Open Images v5). The results show that none of the more sophisticated methods perform significantly better in this classification task than standard max- or average-pooling.
翻訳日:2021-03-03 17:09:15 公開日:2021-03-02
# 教師なし機械学習モデルの逆例

Adversarial Examples for Unsupervised Machine Learning Models ( http://arxiv.org/abs/2103.01895v1 )

ライセンス: Link先を確認
Chia-Yi Hsu, Pin-Yu Chen, Songtao Lu, Sijia Lu, Chia-Mu Yu(参考訳) 回避予測を引き起こす逆例は、機械学習モデルの堅牢性を評価および改善するために広く使用されている。 しかし、近年の敵対的事例研究は、教師付き学習課題に焦点をあて、基礎的真理データラベル、目標目標、訓練された分類器からの監督に頼っている。 本稿では,教師なしモデルの逆例生成の枠組みを提案し,データ拡張のための新しい応用例を示す。 本フレームワークは,相互情報推定器を情報理論的類似性尺度として活用し,監視なしに逆例を生成する。 我々は、教師なし逆数例の効率的な生成のための証明可能な収束保証を備えた新しいMinMaxアルゴリズムを提案する。 我々のフレームワークは、教師付き敵の例にも拡張できる。 教師なしの逆例をモデルリトレーニングのための単純なプラグインデータ拡張ツールとして使用する場合、データ再構成、表現学習、コントラスト学習など、教師なしのタスクやデータセット間で一貫して重要な改善が観察される。 本研究は,非教師なし学習問題の頑健さを研究・改善するための新しい手法と利点を示す。 当社のコードはhttps://github.com/I BM/UAEで入手できます。

Adversarial examples causing evasive predictions are widely used to evaluate and improve the robustness of machine learning models. However, current studies on adversarial examples focus on supervised learning tasks, relying on the ground-truth data label, a targeted objective, or supervision from a trained classifier. In this paper, we propose a framework of generating adversarial examples for unsupervised models and demonstrate novel applications to data augmentation. Our framework exploits a mutual information neural estimator as an information-theoreti c similarity measure to generate adversarial examples without supervision. We propose a new MinMax algorithm with provable convergence guarantees for efficient generation of unsupervised adversarial examples. Our framework can also be extended to supervised adversarial examples. When using unsupervised adversarial examples as a simple plug-in data augmentation tool for model retraining, significant improvements are consistently observed across different unsupervised tasks and datasets, including data reconstruction, representation learning, and contrastive learning. Our results show novel methods and advantages in studying and improving robustness of unsupervised learning problems via adversarial examples. Our codes are available at https://github.com/I BM/UAE.
翻訳日:2021-03-03 17:09:06 公開日:2021-03-02
# 対向ロバスト性を改善するためのデータ拡張

Fixing Data Augmentation to Improve Adversarial Robustness ( http://arxiv.org/abs/2103.01946v1 )

ライセンス: Link先を確認
Sylvestre-Alvise Rebuffi, Sven Gowal, Dan A. Calian, Florian Stimberg, Olivia Wiles, Timothy Mann(参考訳) 相手のトレーニングは、トレーニング中に堅牢なテスト精度が低下し始める現象である、堅牢なオーバーフィッティングに苦しむ。 本稿では,ロバストなオーバーフィッティングを減らす手段として,ヒューリスティックス駆動とデータ駆動の強化に焦点をあてる。 まず, 従来の結果とは対照的に, モデル重量平均化と組み合わせることで, データの増大がロバストな精度を著しく向上させることを示した。 第2に,最先端生成モデルを活用してトレーニングセットのサイズを人工的に拡大し,さらに敵対的ロバスト性を向上させる方法について検討する。 最後に, CIFAR-10 に対する $\ell_\infty$ と $\ell_2$ サイズ $\epsilon = 8/255$ と $\epsilon = 128/255$ に対するアプローチを評価した。 従来の最先端手法に比べて,+7.06%と+5.88%の絶対値が大幅に向上した。 特に、サイズが$\epsilon = 8/255$の$\ell_\infty$ノルムバウンドの摂動に対して、我々のモデルは、外部データを用いずに64.20%の堅牢な精度に達し、外部データを使用するほとんどの先行処理を上回っています。

Adversarial training suffers from robust overfitting, a phenomenon where the robust test accuracy starts to decrease during training. In this paper, we focus on both heuristics-driven and data-driven augmentations as a means to reduce robust overfitting. First, we demonstrate that, contrary to previous findings, when combined with model weight averaging, data augmentation can significantly boost robust accuracy. Second, we explore how state-of-the-art generative models can be leveraged to artificially increase the size of the training set and further improve adversarial robustness. Finally, we evaluate our approach on CIFAR-10 against $\ell_\infty$ and $\ell_2$ norm-bounded perturbations of size $\epsilon = 8/255$ and $\epsilon = 128/255$, respectively. We show large absolute improvements of +7.06% and +5.88% in robust accuracy compared to previous state-of-the-art methods. In particular, against $\ell_\infty$ norm-bounded perturbations of size $\epsilon = 8/255$, our model reaches 64.20% robust accuracy without using any external data, beating most prior works that use external data.
翻訳日:2021-03-03 17:08:49 公開日:2021-03-02
# VQVAEによる映像予測

Predicting Video with VQVAE ( http://arxiv.org/abs/2103.01950v1 )

ライセンス: Link先を確認
Jacob Walker, Ali Razavi, and A\"aron van den Oord(参考訳) 近年は、過去の映像枠に与えた将来の映像予測の課題が研究コミュニティで注目を集めています。 本稿では,Vector Quantized Variational Auto Encoders (VQ-VAE) を用いた新しいアプローチを提案する。 VQ-VAEでは、高解像度のビデオを階層的な多スケール離散潜在変数に圧縮する。 画素と比較すると、圧縮された潜在空間は次元を劇的に減らし、スケーラブルな自己回帰生成モデルを適用して映像を予測できる。 高度に制約されたデータセットを強調した以前の研究とは対照的に、kinetics-600のような非常に多様な大規模データセットにフォーカスしています。 私達は私達の知識に他のどの方法よりも制約のないビデオ、256x256のより高い分解能で映像を、予測します。 さらに,クラウドソーシングによる人的評価を通じて,先行研究に対するアプローチを検証する。

In recent years, the task of video prediction-forecasti ng future video given past video frames-has attracted attention in the research community. In this paper we propose a novel approach to this problem with Vector Quantized Variational AutoEncoders (VQ-VAE). With VQ-VAE we compress high-resolution videos into a hierarchical set of multi-scale discrete latent variables. Compared to pixels, this compressed latent space has dramatically reduced dimensionality, allowing us to apply scalable autoregressive generative models to predict video. In contrast to previous work that has largely emphasized highly constrained datasets, we focus on very diverse, large-scale datasets such as Kinetics-600. We predict video at a higher resolution on unconstrained videos, 256x256, than any other previous method to our knowledge. We further validate our approach against prior work via a crowdsourced human evaluation.
翻訳日:2021-03-03 17:08:24 公開日:2021-03-02
# サンプリング下における推奨評価指標の推定

On Estimating Recommendation Evaluation Metrics under Sampling ( http://arxiv.org/abs/2103.01474v1 )

ライセンス: Link先を確認
Ruoming Jin and Dong Li and Benjamin Mudrak and Jing Gao Zhi Liu(参考訳) krichene と rendle による最近の研究 ~\cite{krichene20@kdd20} は、レコメンデーションのためのサンプリングベースのtop-k評価基準に基づいており、レコメンデーションアルゴリズムの評価にサンプリングを使用することの妥当性について多くの議論がなされている。 彼らの研究と最近の研究 ~\cite{li@kdd20} は、サンプリングベースのメトリクスを、アイテムのセット全体をランク付けするグローバルな指標にマッピングするための基本的なアプローチを提案しているが、サンプリングがレコメンデーション評価にどのように使われるべきかについての理解とコンセンサスはまだ欠如している。 提案手法はかなり非形式的(サンプリングを計量評価にリンクする)か、Recall/Precision~\ci te{Krichene20@KDD20,Li@ KDD20}のような単純なメトリクスでしか動作できない。 本稿では,経験的ランク分布の学習に関する新しい研究課題と,推定ランク分布に基づく新しいアプローチを導入し,トップkの指標を推定する。 この質問は、推奨のためのサンプリングの基盤となるメカニズムと密接に関連しているため、サンプリングのパワーをよりよく理解し、推奨を評価するためにサンプリングを使うべきか、どのように使うべきかという疑問を解決するのに役立ちます。 我々は、MLE(Maximal Likelihood Estimation)とその重み付き変種に基づく2つのアプローチと、ME(Maximal Entropy)プリンシパルを導入して、経験的ランク分布を復元し、それをメトリクス推定に利用する。 実験結果から,トップkメトリクスに基づく推薦アルゴリズムの評価に新たなアプローチを用いることの利点が示された。

Since the recent study ~\cite{Krichene20@KDD20} done by Krichene and Rendle on the sampling-based top-k evaluation metric for recommendation, there has been a lot of debates on the validity of using sampling to evaluate recommendation algorithms. Though their work and the recent work ~\cite{Li@KDD20} have proposed some basic approaches for mapping the sampling-based metrics to their global counterparts which rank the entire set of items, there is still a lack of understanding and consensus on how sampling should be used for recommendation evaluation. The proposed approaches either are rather uninformative (linking sampling to metric evaluation) or can only work on simple metrics, such as Recall/Precision~\ci te{Krichene20@KDD20,Li@ KDD20}. In this paper, we introduce a new research problem on learning the empirical rank distribution, and a new approach based on the estimated rank distribution, to estimate the top-k metrics. Since this question is closely related to the underlying mechanism of sampling for recommendation, tackling it can help better understand the power of sampling and can help resolve the questions of if and how should we use sampling for evaluating recommendation. We introduce two approaches based on MLE (Maximal Likelihood Estimation) and its weighted variants, and ME (Maximal Entropy) principals to recover the empirical rank distribution, and then utilize them for metrics estimation. The experimental results show the advantages of using the new approaches for evaluating recommendation algorithms based on top-k metrics.
翻訳日:2021-03-03 17:08:12 公開日:2021-03-02
# 絶え間ない、オンライン、無監視の深さに向けて

Towards Continual, Online, Unsupervised Depth ( http://arxiv.org/abs/2103.00369v2 )

ライセンス: Link先を確認
Muhammad Umar Karim Khan(参考訳) 受動センサによる深度抽出は深層学習によって著しく改善されているが、トレーニング中に観察されていない環境にさらされた場合、これらのアプローチは正確な深度を得ることができない可能性がある。 ニューラルネットワークがデプロイ中にトレーニングするオンライン適応は、教師なし学習によって便利なソリューションを提供する。 しかし、オンライン適応は、ニューラルネットワークが過去を忘れる原因となります。 このように、過去のトレーニングは無駄にされ、過去のシーンを観察してもネットワークは良い結果が得られない。 この作業は、入力がオンラインで時間的に関連付けられており、トレーニングは完全に教師なしである、実用的なオンライン適応を扱う。 タスク境界のない正規化とリプレイに基づく手法は、オンラインデータに適応しながら破滅的な忘れ込みを避けるために提案される。 実験は、構造から運動とステレオの両方の異なるデータセット上で行われる。 近年の手法よりも優れている適応性とともに忘れられる結果が得られる。 提案されたアプローチは、ニューラルネットワークが監視(ターゲットラベルとタスク)なしでデプロイされる場面を学習し、過去を忘れずに展開するという、人工知能のパラダイムに合致している。 コードは github.com/umarKarim /cou_stereo と github.com/umarKarim /cou_sfm で入手できる。

Although depth extraction with passive sensors has seen remarkable improvement with deep learning, these approaches may fail to obtain correct depth if they are exposed to environments not observed during training. Online adaptation, where the neural network trains while deployed, with unsupervised learning provides a convenient solution. However, online adaptation causes a neural network to forget the past. Thus, past training is wasted and the network is not able to provide good results if it observes past scenes. This work deals with practical online-adaptation where the input is online and temporally-correlate d, and training is completely unsupervised. Regularization and replay-based methods without task boundaries are proposed to avoid catastrophic forgetting while adapting to online data. Experiments are performed on different datasets with both structure-from-motio n and stereo. Results of forgetting as well as adaptation are provided, which are superior to recent methods. The proposed approach is more inline with the artificial general intelligence paradigm as the neural network learns the scene where it is deployed without any supervision (target labels and tasks) and without forgetting about the past. Code is available at github.com/umarKarim /cou_stereo and github.com/umarKarim /cou_sfm.
翻訳日:2021-03-03 17:07:20 公開日:2021-03-02
# 深層言語モデルを用いた語彙・構成構文・意味論の分解

Decomposing lexical and compositional syntax and semantics with deep language models ( http://arxiv.org/abs/2103.01620v1 )

ライセンス: Link先を確認
Charlotte Caucheteux, Alexandre Gramfort, Jean-Remi King(参考訳) GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。 しかし、これらの活性化の性質は未知であり、おそらく異なる言語分類を混同している。 本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つの組み合わせクラスに分類する分類法を提案する。 次に、GPT2の活性化のレンズを通して、約4.6時間のナレーションテキストの聴取中に、機能的磁気共鳴画像(fMRI)で記録された345人の脳活動を分解する統計的方法を紹介した。 その結果は2つの結果が浮かび上がった。 まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。 第二に、以前の主張に反して、構文とセマンティクスは分離されたモジュールに関連づけられず、代わりに共通の分散ニューラルネットワークを共有するように見える。 全体として、本研究は自然主義的な設定で生成された言語構成の分散表現を分離する一般的な枠組みを導入する。

The activations of language transformers like GPT2 have been shown to linearly map onto brain activity during speech comprehension. However, the nature of these activations remains largely unknown and presumably conflate distinct linguistic classes. Here, we propose a taxonomy to factorize the high-dimensional activations of language models into four combinatorial classes: lexical, compositional, syntactic, and semantic representations. We then introduce a statistical method to decompose, through the lens of GPT2's activations, the brain activity of 345 subjects recorded with functional magnetic resonance imaging (fMRI) during the listening of ~4.6 hours of narrated text. The results highlight two findings. First, compositional representations recruit a more widespread cortical network than lexical ones, and encompass the bilateral temporal, parietal and prefrontal cortices. Second, contrary to previous claims, syntax and semantics are not associated with separated modules, but, instead, appear to share a common and distributed neural substrate. Overall, this study introduces a general framework to isolate the distributed representations of linguistic constructs generated in naturalistic settings.
翻訳日:2021-03-03 17:05:53 公開日:2021-03-02
# PFA: 効果的なモデルパーソナライゼーションのためのプライバシ保護フェデレーション適応

PFA: Privacy-preserving Federated Adaptation for Effective Model Personalization ( http://arxiv.org/abs/2103.01548v1 )

ライセンス: Link先を確認
Bingyan Liu, Yao Guo, Xiangqun Chen(参考訳) フェデレートラーニング(FL)は、プライバシを改善した分散機械学習パラダイムとして普及している。 学習後、結果のフェデレーションモデルは、各クライアントにさらにパーソナライズされるべきです。 パーソナライゼーションを実現するいくつかの方法が提案されているが、典型的には単一のローカルデバイスに限定される。 本論文では,単一クライアントを超えたパーソナライゼーションの実現を試みる。 その動機は、FLの間、類似したデータ配信を持つ多くのクライアントが存在し、類似したクライアントが相互に協力できれば、パーソナライズ性能が大幅に向上する可能性があることである。 そこで本研究では,より優れたパーソナライズ結果を得るために,訓練されたモデルをフェデレーション方式で適応させることを目的とした,フェデレーション適応という新しい概念を提案する。 しかし、連合適応の鍵となる課題は、プライバシの懸念のため、適応中にクライアントから生データをアウトソースできないことです。 本稿では,プライバシ保護フェデレーテッド・アダプテーションを実現するフレームワークであるPFAを提案する。 pfaは、プライバシ保存表現を生成するためにニューラルネットワークのスパーシティ特性を利用して、同様のデータ分布を持つクライアントを効率的に識別する。 グループ化の結果に基づいて、PFAは適応を達成するためにフェデレーションモデル上でグループ的にFLプロセスを実行する。 評価のために、クラス不均衡条件と背景拡散条件の両方をシミュレートするために、公開データセットに基づくいくつかの実用的なflデータセットを手作業で構築する。 これらのデータセットと一般的なモデルアーキテクチャに関する広範な実験は、PFAの有効性を実証し、ユーザーのプライバシーを確保しながら、他の最先端のメソッドを大きなマージンで上回る。 コードはhttps://github.com/l ebyni/PFAで公開します。

Federated learning (FL) has become a prevalent distributed machine learning paradigm with improved privacy. After learning, the resulting federated model should be further personalized to each different client. While several methods have been proposed to achieve personalization, they are typically limited to a single local device, which may incur bias or overfitting since data in a single device is extremely limited. In this paper, we attempt to realize personalization beyond a single client. The motivation is that during FL, there may exist many clients with similar data distribution, and thus the personalization performance could be significantly boosted if these similar clients can cooperate with each other. Inspired by this, this paper introduces a new concept called federated adaptation, targeting at adapting the trained model in a federated manner to achieve better personalization results. However, the key challenge for federated adaptation is that we could not outsource any raw data from the client during adaptation, due to privacy concerns. In this paper, we propose PFA, a framework to accomplish Privacy-preserving Federated Adaptation. PFA leverages the sparsity property of neural networks to generate privacy-preserving representations and uses them to efficiently identify clients with similar data distributions. Based on the grouping results, PFA conducts an FL process in a group-wise way on the federated model to accomplish the adaptation. For evaluation, we manually construct several practical FL datasets based on public datasets in order to simulate both the class-imbalance and background-differenc e conditions. Extensive experiments on these datasets and popular model architectures demonstrate the effectiveness of PFA, outperforming other state-of-the-art methods by a large margin while ensuring user privacy. We will release our code at: https://github.com/l ebyni/PFA.
翻訳日:2021-03-03 17:01:24 公開日:2021-03-02
# スケーラブルで効率的なエージェントのためのスパーストレーニング理論

Sparse Training Theory for Scalable and Efficient Agents ( http://arxiv.org/abs/2103.01636v1 )

ライセンス: Link先を確認
Decebal Constantin Mocanu, Elena Mocanu, Tiago Pinto, Selima Curci, Phuong H. Nguyen, Madeleine Gibescu, Damien Ernst, Zita A. Vale(参考訳) 人工知能の基本的なタスクは学習です。 ディープニューラルネットワークは、すべての学習パラダイム、すなわち、完璧に対処できることが証明されている。 教師なし、監督なし、強化学習。 それでも、従来のディープラーニングアプローチはクラウドコンピューティング機能を活用しており、低い計算リソースを持つ自律エージェントにはうまくスケールしない。 クラウドでも、計算とメモリの制限に悩まされており、数十億のニューロンを持つネットワークを仮定するエージェントに対して、適切に大きな物理世界をモデル化することはできない。 これらの問題は、スパースネットワークをゼロからトレーニングするスパーストレーニングという新しいトピックによってここ数年で解決されます。 本稿では,分散トレーニングの課題と限界について述べるとともに,スパーストレーニングの制約を緩和し,ディープラーニングのスケーラビリティを現在の限界をはるかに越える可能性を持つ,新たな理論研究の方向性をいくつか紹介する。 それにもかかわらず、複雑なマルチエージェント設定における理論的進歩は、スマートグリッドケーススタディを用いて、現実世界の観点から議論される。

A fundamental task for artificial intelligence is learning. Deep Neural Networks have proven to cope perfectly with all learning paradigms, i.e. supervised, unsupervised, and reinforcement learning. Nevertheless, traditional deep learning approaches make use of cloud computing facilities and do not scale well to autonomous agents with low computational resources. Even in the cloud, they suffer from computational and memory limitations, and they cannot be used to model adequately large physical worlds for agents which assume networks with billions of neurons. These issues are addressed in the last few years by the emerging topic of sparse training, which trains sparse networks from scratch. This paper discusses sparse training state-of-the-art, its challenges and limitations while introducing a couple of new theoretical research directions which has the potential of alleviating sparse training limitations to push deep learning scalability well beyond its current boundaries. Nevertheless, the theoretical advancements impact in complex multi-agents settings is discussed from a real-world perspective, using the smart grid case study.
翻訳日:2021-03-03 17:00:55 公開日:2021-03-02
# グラフ時間畳み込みニューラルネットワーク

Graph-Time Convolutional Neural Networks ( http://arxiv.org/abs/2103.01730v1 )

ライセンス: Link先を確認
Elvin Isufi and Gabriele Mazzola(参考訳) 時空間データはグラフ上のプロセスとして表現することができ、その空間関係を明示的または暗黙的に捉える。 このような構造を利用して表現を学習する方法は、グラフを扱う上で重要な課題の1つである。 本稿では,製品グラフによる時空間関係を表現し,第1原理のグラフ時間畳み込みニューラルネットワーク(GTCNN)を開発する。 gtcnnは、各層がグラフ時間畳み込みモジュール、グラフ時間プーリングモジュール、非線形性からなる合成アーキテクチャである。 我々は,畳み込み演算子のシフト・アンド・サム原理に従い,製品グラフ上の高レベル特徴を学習し,グラフ時間畳み込みフィルタを開発する。 製品グラフ自体はパラメトリックであるため、データから時空間結合も学ぶことができます。 我々は,アクティブノード数とパラメータを削減しつつ,空間グラフ(データに関する先行情報)を保存するゼロパッドプーリングを開発した。 合成および実データを用いた実験結果は、異なるコンポーネントを相関させ、ベースラインおよび最先端ソリューションと比較する。

Spatiotemporal data can be represented as a process over a graph, which captures their spatial relationships either explicitly or implicitly. How to leverage such a structure for learning representations is one of the key challenges when working with graphs. In this paper, we represent the spatiotemporal relationships through product graphs and develop a first principle graph-time convolutional neural network (GTCNN). The GTCNN is a compositional architecture with each layer comprising a graph-time convolutional module, a graph-time pooling module, and a nonlinearity. We develop a graph-time convolutional filter by following the shift-and-sum principles of the convolutional operator to learn higher-level features over the product graph. The product graph itself is parametric so that we can learn also the spatiotemporal coupling from data. We develop a zero-pad pooling that preserves the spatial graph (the prior about the data) while reducing the number of active nodes and the parameters. Experimental results with synthetic and real data corroborate the different components and compare with baseline and state-of-the-art solutions.
翻訳日:2021-03-03 17:00:38 公開日:2021-03-02
# 多エージェント協調ゲームにおけるMAPPOのサプライズ効果

The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games ( http://arxiv.org/abs/2103.01955v1 )

ライセンス: Link先を確認
Chao Yu, Akash Velu, Eugene Vinitsky, Yu Wang, Alexandre Bayen, Yi Wu(参考訳) Proximal Policy Optimization(PPO)は、ポピュラーなオンポリシー強化学習アルゴリズムであるが、マルチエージェント問題におけるオフポリシー学習アルゴリズムよりも大幅に少ない。 本研究では,集中型値関数を採用したマルチエージェントPPO (Multi-Agent PPO) の変種について検討する。 1GPUデスクトップを使用して、MAPPOが3つの一般的なマルチエージェントテストベッド(パーティクルワールド環境、Starcraft II Micromanagement Tasks、Hanabi Challenge)で最先端のパフォーマンスを実現し、ハイパーパラメータのチューニングを最小限に抑え、ドメイン固有のアルゴリズムの変更やアーキテクチャなしで達成できることを示します。 ほとんどの環境において、MAPPOはオフポリシのベースラインと比較して、サンプルの複雑さと実行時間の大幅な短縮を実現していることがわかります。 最後に、MAPPOの実用性能に最も影響する5つの要因をアブレーション研究で紹介します。

Proximal Policy Optimization (PPO) is a popular on-policy reinforcement learning algorithm but is significantly less utilized than off-policy learning algorithms in multi-agent problems. In this work, we investigate Multi-Agent PPO (MAPPO), a multi-agent PPO variant which adopts a centralized value function. Using a 1-GPU desktop, we show that MAPPO achieves performance comparable to the state-of-the-art in three popular multi-agent testbeds: the Particle World environments, Starcraft II Micromanagement Tasks, and the Hanabi Challenge, with minimal hyperparameter tuning and without any domain-specific algorithmic modifications or architectures. In the majority of environments, we find that compared to off-policy baselines, MAPPO achieves better or comparable sample complexity as well as substantially faster running time. Finally, we present 5 factors most influential to MAPPO's practical performance with ablation studies.
翻訳日:2021-03-03 17:00:21 公開日:2021-03-02
# DPlis:ランダム化スムージングによるプライベートディープラーニングの有用性向上

DPlis: Boosting Utility of Differentially Private Deep Learning via Randomized Smoothing ( http://arxiv.org/abs/2103.01496v1 )

ライセンス: Link先を確認
Wenxiao Wang (1), Tianhao Wang (2), Lun Wang (3), Nanqing Luo (4), Pan Zhou (4), Dawn Song (3), Ruoxi Jia (5) ((1) Tsinghua University, (2) Harvard University, (3) University of California, Berkeley, (4) Huazhong University of Science and Technology, (5) Virginia Tech)(参考訳) 深層学習技術は、幅広いタスクで顕著なパフォーマンスを達成しました。 ただし、プライバシーに敏感なデータセットでトレーニングする場合、モデルパラメータはトレーニングデータに個人情報を公開することがあります。 事前のプライベートトレーニングの試みは、厳格なプライバシー保証を提供するが、非プライベートトレーニングよりもはるかに低いモデルパフォーマンスをもたらす。 さらに、同じトレーニングアルゴリズムの異なる実行は、大きなパフォーマンスのばらつきを持つモデルを生成する。 これらの課題を解決するため,DPlis--Differential ly Private Learning wIth Smoothingを提案する。 DPlisの中心的な考えは損失の風景の大きい平らな地域にある騒音抵抗力があるモデルに好む滑らかな損失機能を構築することです。 DPlisの実用性向上のための理論的正当性を提供する。 広範な実験は、DPlisが与えられたプライバシー予算の下でモデル品質とトレーニングの安定性を効果的に向上できることを示した。

Deep learning techniques have achieved remarkable performance in wide-ranging tasks. However, when trained on privacy-sensitive datasets, the model parameters may expose private information in training data. Prior attempts for differentially private training, although offering rigorous privacy guarantees, lead to much lower model performance than the non-private ones. Besides, different runs of the same training algorithm produce models with large performance variance. To address these issues, we propose DPlis--Differentiall y Private Learning wIth Smoothing. The core idea of DPlis is to construct a smooth loss function that favors noise-resilient models lying in large flat regions of the loss landscape. We provide theoretical justification for the utility improvements of DPlis. Extensive experiments also demonstrate that DPlis can effectively boost model quality and training stability under a given privacy budget.
翻訳日:2021-03-03 16:58:16 公開日:2021-03-02
# private stochastic convex optimization: optimal rate in $\ell_1$ geometry

Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$ Geometry ( http://arxiv.org/abs/2103.01516v1 )

ライセンス: Link先を確認
Hilal Asi, Vitaly Feldman, Tomer Koren, Kunal Talwar(参考訳) $\ell_1$-boundedドメインに対する確率的凸最適化は、LASSOのような機械学習アプリケーションではユビキタスだが、差分プライバシーで学ぶ際には理解されていない。 対数係数まで、任意の $(\varepsilon,\delta )$-differentially private optimizationr の最適過剰人口損失は $\sqrt{\log(d)/n} + \sqrt{d}/\varepsilon n.$ 上界は、~\citet{FeldmanKoTa20} の反復的局在化アプローチと、プライベート正規化ミラー降下の新しい解析を組み合わせた新しいアルゴリズムに基づいている。 p\in [1,2]$ の $\ell_p$ 境界付きドメインに適用され、最大 $n^{3/2}$ 勾配でのクエリは、$n^2$ 勾配を必要とする $\ell_2$ の場合に対する最もよく知られたアルゴリズムよりも改善される。 さらに、損失関数が追加の平滑性仮定を満たすと、余剰損失は $\sqrt{\log(d)/n} + (\log(d)/\varepsilon n)^{2/3}.$ この境界は、データの単一のパスを必要とするフランク・ウルフアルゴリズムの新しい分散還元バージョンによって達成される。 また、この場合の下限が上記の2つのレートの最小値であることも示します。

Stochastic convex optimization over an $\ell_1$-bounded domain is ubiquitous in machine learning applications such as LASSO but remains poorly understood when learning with differential privacy. We show that, up to logarithmic factors the optimal excess population loss of any $(\varepsilon,\delta )$-differentially private optimizer is $\sqrt{\log(d)/n} + \sqrt{d}/\varepsilon n.$ The upper bound is based on a new algorithm that combines the iterative localization approach of~\citet{FeldmanKoTa20} with a new analysis of private regularized mirror descent. It applies to $\ell_p$ bounded domains for $p\in [1,2]$ and queries at most $n^{3/2}$ gradients improving over the best previously known algorithm for the $\ell_2$ case which needs $n^2$ gradients. Further, we show that when the loss functions satisfy additional smoothness assumptions, the excess loss is upper bounded (up to logarithmic factors) by $\sqrt{\log(d)/n} + (\log(d)/\varepsilon n)^{2/3}.$ This bound is achieved by a new variance-reduced version of the Frank-Wolfe algorithm that requires just a single pass over the data. We also show that the lower bound in this case is the minimum of the two rates mentioned above.
翻訳日:2021-03-03 16:58:05 公開日:2021-03-02
# 構造ヘルスモニタリングのための確率的推論--データからの新しい学習モード

Probabilistic Inference for Structural Health Monitoring: New Modes of Learning from Data ( http://arxiv.org/abs/2103.01676v1 )

ライセンス: Link先を確認
Lawrence A. Bull, Paul Gardner, Timothy J. Rogers, Elizabeth J. Cross, Nikolaos Dervilis, Keith Worden(参考訳) データ駆動型SHMでは、運用中のシステムから記録された信号はノイズが多く不完全である。 操作状態、環境状態、損傷状態のそれぞれに対応するデータは、前もって利用されることは稀であり、さらに、測定値を記述するラベル付けは、しばしば利用できない。 その結果、SHMを実装するために使用されるアルゴリズムは堅牢で適応的であり、トレーニングデータに欠落した情報(新しい情報が利用可能になったら、新しい情報を含めることができる)を収容する必要がある。 統計的学習のための新しい手法(以前の研究で導入された)をレビューすることで、確率論的アルゴリズムは実際にSHMデータのモデリングに自然な解決策をもたらすと論じられている。 3つのケーススタディでは、半教師付き学習、アクティブ学習、マルチタスク学習を含むSHM信号への適用のために確率的手法が適応される。

In data-driven SHM, the signals recorded from systems in operation can be noisy and incomplete. Data corresponding to each of the operational, environmental, and damage states are rarely available a priori; furthermore, labelling to describe the measurements is often unavailable. In consequence, the algorithms used to implement SHM should be robust and adaptive, while accommodating for missing information in the training-data -- such that new information can be included if it becomes available. By reviewing novel techniques for statistical learning (introduced in previous work), it is argued that probabilistic algorithms offer a natural solution to the modelling of SHM data in practice. In three case-studies, probabilistic methods are adapted for applications to SHM signals -- including semi-supervised learning, active learning, and multi-task learning.
翻訳日:2021-03-03 16:57:25 公開日:2021-03-02
# 信用スコアリングにおける公平性:アセスメント、実施、利益インプリケーション

Fairness in Credit Scoring: Assessment, Implementation and Profit Implications ( http://arxiv.org/abs/2103.01907v1 )

ライセンス: Link先を確認
Nikita Kozodoi, Johannes Jacob, Stefan Lessmann(参考訳) アルゴリズムによる意思決定の台頭は、公正機械学習(ML)に関する多くの研究を生み出した。 金融機関は、さまざまな信用関連の決定をサポートするリスクスコアカードを構築するためにMLを使用します。 しかし、信用スコアリングにおける公正MLに関する文献は乏しい。 論文には2つの貢献がある。 まず、MLモデル開発パイプラインに公平性目標を組み込むためのアルゴリズムオプションの体系的な概要を提供する。 この範囲では、統計的公平性基準の空間を集約し、信用スコアの妥当性を検討します。 第2に,7つの実世界のデータセットを用いて,利益指向の信用スコア設定において,異なる公平性プロセッサについて実証研究を行う。 実証的な結果は、公平性措置の評価を実証し、公正な信用スコアリングを実行するためのますます適切なオプションを特定し、貸付決定における利益公平性トレードオフを明確にします。 具体的には、複数のフェアネス基準をほぼ同時に満たし、スコアカードのフェアネスを測定するための適切な基準として分離を識別する。 また、公正なプロセッサは利益と公平さのバランスを良好に保ちます。 より一般的には、比較的低コストでアルゴリズムの識別を合理的なレベルに還元できることを示す。

The rise of algorithmic decision-making has spawned much research on fair machine learning (ML). Financial institutions use ML for building risk scorecards that support a range of credit-related decisions. Yet, the literature on fair ML in credit scoring is scarce. The paper makes two contributions. First, we provide a systematic overview of algorithmic options for incorporating fairness goals in the ML model development pipeline. In this scope, we also consolidate the space of statistical fairness criteria and examine their adequacy for credit scoring. Second, we perform an empirical study of different fairness processors in a profit-oriented credit scoring setup using seven real-world data sets. The empirical results substantiate the evaluation of fairness measures, identify more and less suitable options to implement fair credit scoring, and clarify the profit-fairness trade-off in lending decisions. Specifically, we find that multiple fairness criteria can be approximately satisfied at once and identify separation as a proper criterion for measuring the fairness of a scorecard. We also find fair in-processors to deliver a good balance between profit and fairness. More generally, we show that algorithmic discrimination can be reduced to a reasonable level at a relatively low cost.
翻訳日:2021-03-03 16:57:12 公開日:2021-03-02
# 成長が遅い木

Slow-Growing Trees ( http://arxiv.org/abs/2103.01926v1 )

ライセンス: Link先を確認
Philippe Goulet Coulombe(参考訳) ランダムフォレストの性能は、CARTの欲張りアルゴリズムに学習率を利用する1つの遅い成長木(SGT)によって一致させることができる。 SGTは、CARTは反復重み付き最小二乗手順の極端な場合である、という見解を利用する。 さらに,樹木群落(BT)と森林群落(RF)の統一的な景観を提示する。 Greedy MLアルゴリズムの結果は、“スローラーニング”あるいは多様化”によって改善できる。 SGTは1つの深い木を推定するために前者を適用し、Booging(高い学習率の確率BTを袋詰めする)は後者を付加的な浅い木と使用します。 この木アンサンブル四重項(Booging, BT, SGT, RF)の性能をシミュレーションおよび実回帰タスクで評価する。

Random Forest's performance can be matched by a single slow-growing tree (SGT), which uses a learning rate to tame CART's greedy algorithm. SGT exploits the view that CART is an extreme case of an iterative weighted least square procedure. Moreover, a unifying view of Boosted Trees (BT) and Random Forests (RF) is presented. Greedy ML algorithms' outcomes can be improved using either "slow learning" or diversification. SGT applies the former to estimate a single deep tree, and Booging (bagging stochastic BT with a high learning rate) uses the latter with additive shallow trees. The performance of this tree ensemble quaternity (Booging, BT, SGT, RF) is assessed on simulated and real regression tasks.
翻訳日:2021-03-03 16:56:55 公開日:2021-03-02
# 効率的なデノナイジングのための特徴量ネットワークと知識蒸留

Feature-Align Network and Knowledge Distillation for Efficient Denoising ( http://arxiv.org/abs/2103.01524v1 )

ライセンス: Link先を確認
Lucas D. Young, Fitsum A. Reda, Rakesh Ranjan, Jon Morton, Jun Hu, Yazhu Ling, Xiaoyu Xiang, David Liu, Vikas Chandra(参考訳) 深層学習に基づくRAW画像復調は画像復元において重要な問題である。 近年の作品は、画像品質を問う最新技術を押し上げている。 しかし、これらのネットワークの多くは、モバイルデバイスで効率的に使うには計算コストがかかりすぎる。 本稿では,モバイルデバイス上でのRAWデノイジングを効率的に行うための新しいネットワークを提案する。 1)空間的に変化するノイズに対応するために,新しい特徴分離層を付加した効率的なエンコーダ・デコーダネットワーク。 2) RAW領域で計算された新しい知覚的特徴損失を高周波画像コンテンツとして保存する。 (3) 雑音レベルの異なるサブレンジに調整された複数のモデルの使用の分析。 (4) ノイズモデリングを伴うオープンソースの生ノイズクリーンペアデータセットであり、生雑音の研究を容易にする。 提案するネットワークとトレーニング技術の有効性を評価し、最先端のネットワークと競合する結果を示し、パラメータとMACを大幅に削減します。 Darmstadt Noise Datasetベンチマークでは、24.28dBのPSNRを達成し、MACは263倍、パラメータは49.12dBを達成した最先端のネットワークよりも17.6倍少ない。

Deep learning-based RAW image denoising is a quintessential problem in image restoration. Recent works have pushed the state-of-the-art in denoising image quality. However, many of these networks are computationally too expensive for efficient use in mobile devices. Here, we propose a novel network for efficient RAW denoising on mobile devices. Our contributions are: (1) An efficient encoder-decoder network augmented with a new Feature-Align layer to attend to spatially varying noise. (2) A new perceptual Feature Loss calculated in the RAW domain to preserve high frequency image content. (3) An analysis of the use of multiple models tuned to different subranges of noise levels. (4) An open-source RAW noisy-clean paired dataset with noise modeling, to facilitate research in RAW denoising. We evaluate the effectiveness of our proposed network and training techniques and show results that compete with the state-of-the-art network, while using significantly fewer parameters and MACs. On the Darmstadt Noise Dataset benchmark, we achieve a PSNR of 48.28dB, with 263 times fewer MACs, and 17.6 times fewer parameters than the state-of-the-art network, which achieves 49.12 dB.
翻訳日:2021-03-03 16:53:47 公開日:2021-03-02
# SME:ReRAMベースのスパースマルチプリケーションエンジンでニューラルネットワークのビットスパースを絞り込む

SME: ReRAM-based Sparse-Multiplicatio n-Engine to Squeeze-Out Bit Sparsity of Neural Network ( http://arxiv.org/abs/2103.01705v1 )

ライセンス: Link先を確認
Fangxin Liu, Wenbo Zhao, Yilong Zhao, Zongwu Wang, Tao Yang, Zhezhi He, Naifeng Jing, Xiaoyao Liang, Li Jiang(参考訳) Resistive Random-Access-Memory (ReRAM)クロスバーは、Vector-Matrix Multiplication-and-A ccumulations(VMM)のインメモリおよびインサイドアナログコンピューティング能力のおかげで、ディープニューラルネットワーク(DNN)アクセラレータのための有望な技術です。 しかし、DNNの空間性を利用するクロスバーアーキテクチャは困難である。 これは必然的に複雑でコストのかかる制御を引き起こし、密結合のクロスバー構造が制限されるため、きめ細かな粒度を悪用する。 この対策として,ハードウェアとソフトウェアの共同設計フレームワークをベースとした,新しいReRAMベースのDNNアクセラレータであるSparse-Multiplicatio n-Engine(SME)を開発した。 まず、ビットスパースパターンを編成し、既存の量子化法に基づいてビットスパース密度を増加させる。 第2に,重みのビットをクロスバーにスライスし,周辺回路の活性化結果をスプライシングする新しい重み付けマッピング機構を提案する。 この機構は、密結合したクロスバー構造を分離し、クロスバーの間隔を累積することができる。 最後に、上質な押出し方式は、以前の2つのステップから高度にスパースなノンゼロでマッピングされたクロスバーを空にする。 我々は、SMEアーキテクチャを設計し、他の量子化手法と異なるReRAMセル技術の使用について議論する。 従来の最先端の設計と比較すると、SMEはResent-50とMobileNet-v2を使用してクロスバーの使用を8.7xと2.1xに縮小し、ImageNetの精度は0.3%未満である。

Resistive Random-Access-Memory (ReRAM) crossbar is a promising technique for deep neural network (DNN) accelerators, thanks to its in-memory and in-situ analog computing abilities for Vector-Matrix Multiplication-and-A ccumulations (VMMs). However, it is challenging for crossbar architecture to exploit the sparsity in the DNN. It inevitably causes complex and costly control to exploit fine-grained sparsity due to the limitation of tightly-coupled crossbar structure. As the countermeasure, we developed a novel ReRAM-based DNN accelerator, named Sparse-Multiplicatio n-Engine (SME), based on a hardware and software co-design framework. First, we orchestrate the bit-sparse pattern to increase the density of bit-sparsity based on existing quantization methods. Second, we propose a novel weigh mapping mechanism to slice the bits of a weight across the crossbars and splice the activation results in peripheral circuits. This mechanism can decouple the tightly-coupled crossbar structure and cumulate the sparsity in the crossbar. Finally, a superior squeeze-out scheme empties the crossbars mapped with highly-sparse non-zeros from the previous two steps. We design the SME architecture and discuss its use for other quantization methods and different ReRAM cell technologies. Compared with prior state-of-the-art designs, the SME shrinks the use of crossbars up to 8.7x and 2.1x using Resent-50 and MobileNet-v2, respectively, with less than 0.3% accuracy drop on ImageNet.
翻訳日:2021-03-03 16:53:29 公開日:2021-03-02
# 医用イメージングと機械学習

Medical Imaging and Machine Learning ( http://arxiv.org/abs/2103.01938v1 )

ライセンス: Link先を確認
Rohan Shad, John P. Cunningham, Euan A. Ashley, Curtis P. Langlotz, William Hiesinger(参考訳) 計算能力、ディープラーニングアーキテクチャ、およびエキスパートラベル付きデータセットの進歩は、様々なシナリオで臨床専門家に匹敵する医療画像人工知能システムの開発を促した。 2018年に国立衛生研究所は、画像取得、アルゴリズム、データ標準化、および翻訳可能な臨床決定支援システムの研究の基礎的ロードマップを作成し、医療画像における人工知能の未来のための重要な焦点領域を特定しました。 データ可用性、新しいコンピューティングアーキテクチャの必要性、そして説明可能なAIアルゴリズムは、過去数年間だけで非常に進歩したにもかかわらず、依然として関係がある。 さらに、データ共有の翻訳目標、規制承認のためのパフォーマンスの検証、意図しないバイアスの一般化と緩和は、開発プロセスの初期段階において考慮する必要がある。 本稿では,高次元臨床画像データに特有の課題について考察するとともに,高次元マルチモダリティ・機械学習システムの開発における技術的・倫理的考察を強調する。

Advances in computing power, deep learning architectures, and expert labelled datasets have spurred the development of medical imaging artificial intelligence systems that rival clinical experts in a variety of scenarios. The National Institutes of Health in 2018 identified key focus areas for the future of artificial intelligence in medical imaging, creating a foundational roadmap for research in image acquisition, algorithms, data standardization, and translatable clinical decision support systems. Among the key issues raised in the report: data availability, need for novel computing architectures and explainable AI algorithms, are still relevant despite the tremendous progress made over the past few years alone. Furthermore, translational goals of data sharing, validation of performance for regulatory approval, generalizability and mitigation of unintended bias must be accounted for early in the development process. In this perspective paper we explore challenges unique to high dimensional clinical imaging data, in addition to highlighting some of the technical and ethical considerations in developing high-dimensional, multi-modality, machine learning systems for clinical decision support.
翻訳日:2021-03-03 16:53:01 公開日:2021-03-02
# チューンイン:カクテルパーティー効果をシミュレートした注意ネットワークに干渉するネガティブな環境下でのトレーニング

Tune-In: Training Under Negative Environments with Interference for Attention Networks Simulating Cocktail Party Effect ( http://arxiv.org/abs/2103.01461v1 )

ライセンス: Link先を確認
Jun Wang, Max W. Y. Lam, Dan Su, Dong Yu(参考訳) 本研究では, カクテルパーティー問題について検討し, 干渉を伴う負の環境下でのトレーニングを省略した, Tune-In と呼ばれる新しい注意ネットワークを提案する。 まず、共有特徴空間に基づいて話者知識と音声刺激の2つの異なる空間を学習し、そこで新しいブロック構造を全ての空間のビルディングブロックとして設計し、協調して異なるタスクを解く。 2つの空間の間には、人間のカクテルパーティ効果のボトムアップとトップダウンのプロセスを模倣した、新しいクロス・アンド・デュアル・アテンション・メカニズムによって情報を互いに向き合う。 その結果、実質的に識別可能で一般化可能な話者表現は、我々の自己監督訓練を通じて、厳しい干渉条件下で学習できることがわかった。 実験結果は、このパラドックスを検証します。 一方、tune-inはsi-snriとsdriにおいて、あらゆるテストモードで一貫して、特に最先端のベンチマークシステムよりも低いメモリと計算消費において、極めて優れた音声分離性能を達成している。

We study the cocktail party problem and propose a novel attention network called Tune-In, abbreviated for training under negative environments with interference. It firstly learns two separate spaces of speaker-knowledge and speech-stimuli based on a shared feature space, where a new block structure is designed as the building block for all spaces, and then cooperatively solves different tasks. Between the two spaces, information is cast towards each other via a novel cross- and dual-attention mechanism, mimicking the bottom-up and top-down processes of a human's cocktail party effect. It turns out that substantially discriminative and generalizable speaker representations can be learnt in severely interfered conditions via our self-supervised training. The experimental results verify this seeming paradox. The learnt speaker embedding has superior discriminative power than a standard speaker verification method; meanwhile, Tune-In achieves remarkably better speech separation performances in terms of SI-SNRi and SDRi consistently in all test modes, and especially at lower memory and computational consumption, than state-of-the-art benchmark systems.
翻訳日:2021-03-03 16:52:03 公開日:2021-03-02
# 非線形制御-アフィン系の不確かさ環境の安全学習

Safe Learning of Uncertain Environments for Nonlinear Control-Affine Systems ( http://arxiv.org/abs/2103.01413v1 )

ライセンス: Link先を確認
Farhad Farokhi, Alex Leong, Iman Shames, Mohammad Zamani(参考訳) 多くの学習ベースの制御手法では、未知の動的モデルを学習することが制御フェーズに先行し、状態空間の安全な領域に留まるようにシステムを制御することを目的としている。 この作業では,学習と制御の同時進行による安全性の確保が目標です。 具体的には,未知の加法的不確実性を考慮した非線形制御系における安全学習の問題を考える。 不確かさをガウス信号としてモデル化し、状態測定を用いて平均と共分散を学習する。 我々は,不確実性の平均と共分散に関する厳密な時間変動境界を提供し,それらの制約を状態空間上の障壁関数としてコード化された安全制約により最適化プログラムを介して制御入力を変更する。 最適化問題に対して実現可能な解が存在することを条件に学習と制御を同時に実施しながら、任意に大きな確率で状態が安全セットに残ることを保証できることを示す。 この最適化の二次的定式化は計算効率が良い。 これは、学習した平均と共分散に関する不確実性に対処するために安全性の制約を締め付けることに基づいている。 学習平均に対する我々の信頼度と共分散が増加するにつれて、締め付けの規模は小さくなる(つまり、環境に関するより多くの測定値を集めるにつれて)。 この方法の拡張は、より一般的な環境に対応するために、区分的な定数平均と共変性を持つガウスの不確かさに対して与えられる。

In many learning based control methodologies, learning the unknown dynamic model precedes the control phase, while the aim is to control the system such that it remains in some safe region of the state space. In this work our aim is to guarantee safety while learning and control proceed simultaneously. Specifically, we consider the problem of safe learning in nonlinear control-affine systems subject to unknown additive uncertainty. We model uncertainty as a Gaussian signal and use state measurements to learn its mean and covariance. We provide rigorous time-varying bounds on the mean and covariance of the uncertainty and employ them to modify the control input via an optimisation program with safety constraints encoded as a barrier function on the state space. We show that with an arbitrarily large probability we can guarantee that the state will remain in the safe set, while learning and control are carried out simultaneously, provided that a feasible solution exists for the optimisation problem. We provide a secondary formulation of this optimisation that is computationally more efficient. This is based on tightening the safety constraints to counter the uncertainty about the learned mean and covariance. The magnitude of the tightening can be decreased as our confidence in the learned mean and covariance increases (i.e., as we gather more measurements about the environment). Extensions of the method are provided for Gaussian uncertainties with piecewise constant mean and covariance to accommodate more general environments.
翻訳日:2021-03-03 16:51:42 公開日:2021-03-02
# ProtoDUNE生データ復調のためのディープラーニング戦略

Deep Learning strategies for ProtoDUNE raw data denoising ( http://arxiv.org/abs/2103.01596v1 )

ライセンス: Link先を確認
Marco Rossi, Sofia Vallecorsa(参考訳) 本研究では、ProtoDUNE実験から生のシミュレーションデータを消すためのさまざまな機械学習ベースの戦略を検討する。 ProtoDUNE検出器はCERNによってホストされ、ニュートリノ物理学の実験であるDUNEの技術のテストと校正を目的としている。 私たちのモデルは、ディープラーニングアルゴリズムを活用して、デジタル検出器信号を物理的高レベルな量に変換することからなる再構築作業チェーンの最初のステップを作ります。 DUNEコラボレーションによって実装された従来のアルゴリズムに対して、このアプローチをベンチマークします。 グラフニューラルネットワークの能力をテストしながら、マルチGPUセットアップを活用してトレーニングと推論プロセスを加速します。

In this work we investigate different machine learning based strategies for denoising raw simulation data from ProtoDUNE experiment. ProtoDUNE detector is hosted by CERN and it aims to test and calibrate the technologies for DUNE, a forthcoming experiment in neutrino physics. Our models leverage deep learning algorithms to make the first step in the reconstruction workchain, which consists in converting digital detector signals into physical high level quantities. We benchmark this approach against traditional algorithms implemented by the DUNE collaboration. We test the capabilities of graph neural networks, while exploiting multi-GPU setups to accelerate training and inference processes.
翻訳日:2021-03-03 16:51:20 公開日:2021-03-02
# 過パラメータ2層ニューラルネットワークにおける非負出力重みの自己規則性

Self-Regularity of Non-Negative Output Weights for Overparameterized Two-Layer Neural Networks ( http://arxiv.org/abs/2103.01887v1 )

ライセンス: Link先を確認
David Gamarnik, Eren C. K{\i}z{\i}lda\u{g}, and Ilias Zadik(参考訳) 我々は、Sigmoid, rectified linear unit (ReLU) またはバイナリステップアクティベーション関数を用いて、トレーニングエラーによって定量化されたトレーニングデータセットを可能な限り正確に“適合”する2層ニューラルネットワークを見つけることの問題を考察し、以下の質問に答える: \emph{does a low training error guarantees the norm of the output layer (outer norm) itself? 非負の出力重みの場合、この質問は肯定的に答える。 単純な被覆数引数を用いて,入力/ラベル対の分布分布的仮定をかなり軽度に満たし,そのようなネットワークが多項式数のデータに対して小さなトレーニングエラーを発生させることは,必ずしも制御の行き届いた外部ノルムであることを示す。 特に、(a) は多項式($d$) サンプル複雑性を持ち、(b) は隠れた単位数から独立しており(非常に高い可能性がある)、(c) はトレーニングアルゴリズムに従わない、そして(d) はデータに対して非常に穏やかな仮定を必要とする(特に入力ベクトル $x\in\mathbb{r}^d$ は独立座標を持つ必要はない)。 次に、境界を利用してそのようなネットワークに対する一般化保証を確立する。これは、我々が調査するネットワークアーキテクチャが属する複雑性クラスのスケール感知尺度である。 特に、我々の一般化境界は、良いサンプル複雑性(plynomials in $d$ with a low degree)を持ち、実際、いくつかの重要な場合においてほぼ直線的である。

We consider the problem of finding a two-layer neural network with sigmoid, rectified linear unit (ReLU), or binary step activation functions that "fits" a training data set as accurately as possible as quantified by the training error; and study the following question: \emph{does a low training error guarantee that the norm of the output layer (outer norm) itself is small?} We answer affirmatively this question for the case of non-negative output weights. Using a simple covering number argument, we establish that under quite mild distributional assumptions on the input/label pairs; any such network achieving a small training error on polynomially many data necessarily has a well-controlled outer norm. Notably, our results (a) have a polynomial (in $d$) sample complexity, (b) are independent of the number of hidden units (which can potentially be very high), (c) are oblivious to the training algorithm; and (d) require quite mild assumptions on the data (in particular the input vector $X\in\mathbb{R}^d$ need not have independent coordinates). We then leverage our bounds to establish generalization guarantees for such networks through \emph{fat-shattering dimension}, a scale-sensitive measure of the complexity class that the network architectures we investigate belong to. Notably, our generalization bounds also have good sample complexity (polynomials in $d$ with a low degree), and are in fact near-linear for some important cases of interest.
翻訳日:2021-03-03 16:51:11 公開日:2021-03-02
# 後方蒸留による製品記述の探索

Probing Product Description Generation via Posterior Distillation ( http://arxiv.org/abs/2103.01594v1 )

ライセンス: Link先を確認
Haolan Zhan, Hainan Zhang, Hongshen Chen, Lei Shen, Zhuoye Ding, Yongjun Bao, Weipeng Yan, Yanyan Lan(参考訳) 製品記述生成(pdg)では,ユーザのエクスペリエンスを向上させるだけでなく,より多くのクリックを得ることができるレコメンデーションシステムにおいて,ユーザ対応の側面が重要である。 高品質な顧客レビューは、ユーザ主導の側面を掘り下げるのに理想的なソースだと見なすことができます。 しかし、実際には、多くの新製品(ロングテール商品として知られる)が十分な量の顧客レビューを収集できないため、製品記述生成タスクにおいて大きな課題が生じる。 既存の作品は、商品情報、すなわち商品属性やタイトルワードのみに基づいて製品記述を生成する傾向にあり、退屈な内容につながり、顧客を効果的に惹きつけることができない。 そこで本研究では,顧客レビューのユーザケア情報を活用したTransformerアーキテクチャに基づく適応型後方ネットワークを提案する。 具体的には、まず製品タイトルと属性をエンコードする自己注意型トランスフォーマーエンコーダを拡張します。 次に, ユーザ主導のアスペクトを生成プロセスに統合する有用なレビュー情報を活用するために, 適応型後部蒸留モジュールを適用した。 最後に,コピー機構を付加したトランスベース復号位相を適用し,製品記述を自動的に生成する。 また,中国の大規模製品記述データセットも収集し,この分野での研究を支援している。 実験結果から,本モデルは自動指標と人的評価の両方において従来の生成モデルよりも優れていることがわかった。

In product description generation (PDG), the user-cared aspect is critical for the recommendation system, which can not only improve user's experiences but also obtain more clicks. High-quality customer reviews can be considered as an ideal source to mine user-cared aspects. However, in reality, a large number of new products (known as long-tailed commodities) cannot gather sufficient amount of customer reviews, which brings a big challenge in the product description generation task. Existing works tend to generate the product description solely based on item information, i.e., product attributes or title words, which leads to tedious contents and cannot attract customers effectively. To tackle this problem, we propose an adaptive posterior network based on Transformer architecture that can utilize user-cared information from customer reviews. Specifically, we first extend the self-attentive Transformer encoder to encode product titles and attributes. Then, we apply an adaptive posterior distillation module to utilize useful review information, which integrates user-cared aspects to the generation process. Finally, we apply a Transformer-based decoding phase with copy mechanism to automatically generate the product description. Besides, we also collect a large-scare Chinese product description dataset to support our work and further research in this field. Experimental results show that our model is superior to traditional generative models in both automatic indicators and human evaluation.
翻訳日:2021-03-03 16:47:57 公開日:2021-03-02
# 再発見仮説:言語モデルは言語学を満たさなければならない

The Rediscovery Hypothesis: Language Models Need to Meet Linguistics ( http://arxiv.org/abs/2103.01819v1 )

ライセンス: Link先を確認
Vassilina Nikoulina, Maxat Tezekbayev, Nuradil Kozhakhmet, Madina Babazhanova, Matthias Gall\'e, Zhenisbek Assylbekov(参考訳) nlpコミュニティでは、現代言語モデルに言語知識が含まれているかどうか、いわゆる \textit{probes} を通じて議論が続いている。 本稿では,言語知識が現代言語モデルの性能向上の条件であるかどうかを考察し,それを「textit{rediscovery hypothesis}」と呼ぶ。 第一に, 言語構造を探索すると, かなり圧縮されるが, 事前学習目標によく適合する言語モデルが良好なスコアを保っていることを示す。 この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。 このフレームワークはまた、単語予測タスクに対する言語情報の影響を測定するためのメトリクスを提供する。 我々は, 分析結果を, 実タスクと合成の両方で, 様々な実験で強化する。

There is an ongoing debate in the NLP community whether modern language models contain linguistic knowledge, recovered through so-called \textit{probes}. In this paper we study whether linguistic knowledge is a necessary condition for good performance of modern language models, which we call the \textit{rediscovery hypothesis}. In the first place we show that language models that are significantly compressed but perform well on their pretraining objectives retain good scores when probed for linguistic structures. This result supports the rediscovery hypothesis and leads to the second contribution of our paper: an information-theoreti c framework that relates language modeling objective with linguistic information. This framework also provides a metric to measure the impact of linguistic information on the word prediction task. We reinforce our analytical results with various experiments, both on synthetic and on real tasks.
翻訳日:2021-03-03 16:47:37 公開日:2021-03-02
# MultiSubs: 大規模マルチモーダルおよびマルチ言語データセット

MultiSubs: A Large-scale Multimodal and Multilingual Dataset ( http://arxiv.org/abs/2103.01910v1 )

ライセンス: Link先を確認
Josiah Wang, Pranava Madhyastha, Josiel Figueiredo, Chiraag Lala, Lucia Specia(参考訳) 本稿では,単語から画像への接地の研究を容易にすることを目的とした,大規模マルチモーダル・多言語データセットを提案する。 データセットは、映画の字幕から文章で表現された概念を曖昧に描写するために選択された画像からなる。 データセットは、(i) 画像が全文ではなくテキスト断片に整列される、(ii) テキスト断片と文に対して複数の画像が可能、(iii) 文は自由形式であり、実世界的である、(iv) 並列テキストは多言語である、という貴重なリソースである。 我々は、データセットの自動画像選択プロセスの品質を評価するために、人間のための補足ゲームを構築した。 i) 空白を埋める, (ii) 語彙変換という2つの自動タスクにおけるデータセットの有用性を示す。 人間の評価および自動モデルの結果はイメージがテキスト文脈に有用な補足であることができることを示します。 このデータセットは、特に自由形式の文の文脈における単語の視覚的接地に関する研究に有効である。

This paper introduces a large-scale multimodal and multilingual dataset that aims to facilitate research on grounding words to images in their contextual usage in language. The dataset consists of images selected to unambiguously illustrate concepts expressed in sentences from movie subtitles. The dataset is a valuable resource as (i) the images are aligned to text fragments rather than whole sentences; (ii) multiple images are possible for a text fragment and a sentence; (iii) the sentences are free-form and real-world like; (iv) the parallel texts are multilingual. We set up a fill-in-the-blank game for humans to evaluate the quality of the automatic image selection process of our dataset. We show the utility of the dataset on two automatic tasks: (i) fill-in-the blank; (ii) lexical translation. Results of the human evaluation and automatic models demonstrate that images can be a useful complement to the textual context. The dataset will benefit research on visual grounding of words especially in the context of free-form sentences.
翻訳日:2021-03-03 16:47:25 公開日:2021-03-02
# 授業増分学習におけるデータの蒸留因果効果

Distilling Causal Effect of Data in Class-Incremental Learning ( http://arxiv.org/abs/2103.01737v1 )

ライセンス: Link先を確認
Xinting Hu, Kaihua Tang, Chunyan Miao, Xian-Sheng Hua, Hanwang Zhang(参考訳) 本研究では,CIL(Class-Increment al Learning)における破滅的忘れについて説明し,データリプレイや特徴/ラベル蒸留といった既存のアンチフォーガーティング手法に直交する新しい蒸留法を導出するための因果的枠組みを提案する。 まず最初に、CILをフレームワークに配置し、2) 忘れる理由に答える: 古いデータの因果効果が新しいトレーニングで失われ、3) 既存のテクニックがそれを緩和する方法について説明する: 因果効果を取り戻せる。 この枠組みから, 特徴・ラベル蒸留は貯蔵効率が高いが, その因果効果は, データ再生によって保存されるエンドツーエンドの特徴学習の長所と一致しないことがわかった。 そこで本研究では,データ再生の因果効果と基本的に等価であるが,再生ストレージのコストを伴わずに,古いデータと新しいデータとの衝突効果を蒸留することを提案する。 因果効果分析のおかげで、データストリームのIncremental Momentum Effectをさらにキャプチャし、新しいデータ効果によって圧倒された古い効果を保持するのに役立つものを削除し、テストにおける古いクラスの忘れを軽減することができます。 CIFAR-100、ImageNet-Sub&Fullの3つのCILベンチマークに関する広範な実験は、提案された因果効果蒸留が、様々な最先端のCIL法を大きなマージン(0.72%--9.06%)で改善できることを示した。

We propose a causal framework to explain the catastrophic forgetting in Class-Incremental Learning (CIL) and then derive a novel distillation method that is orthogonal to the existing anti-forgetting techniques, such as data replay and feature/label distillation. We first 1) place CIL into the framework, 2) answer why the forgetting happens: the causal effect of the old data is lost in new training, and then 3) explain how the existing techniques mitigate it: they bring the causal effect back. Based on the framework, we find that although the feature/label distillation is storage-efficient, its causal effect is not coherent with the end-to-end feature learning merit, which is however preserved by data replay. To this end, we propose to distill the Colliding Effect between the old and the new data, which is fundamentally equivalent to the causal effect of data replay, but without any cost of replay storage. Thanks to the causal effect analysis, we can further capture the Incremental Momentum Effect of the data stream, removing which can help to retain the old effect overwhelmed by the new data effect, and thus alleviate the forgetting of the old class in testing. Extensive experiments on three CIL benchmarks: CIFAR-100, ImageNet-Sub&Full, show that the proposed causal effect distillation can improve various state-of-the-art CIL methods by a large margin (0.72%--9.06%).
翻訳日:2021-03-03 16:45:13 公開日:2021-03-02
# 可変リリース日数によるシングルおよびパラレルマシンスケジューリング

Single and Parallel Machine Scheduling with Variable Release Dates ( http://arxiv.org/abs/2103.01785v1 )

ライセンス: Link先を確認
Felix Mohr, Gonzalo Mej\'ia, Francisco Yuraszeck(参考訳) 本稿では,同一並列マシンにおける全重み付き流れ時間最小化問題の簡単な拡張について検討する。 標準問題は、処理時間と重み付きジョブの集合を単純に定義し、すべてのジョブがリリース日0を持ち、期限がないと仮定するが、各ジョブのリリース日は、単一のグローバル最新の到着期限によってのみ制約される決定変数であると仮定する。 私たちの知る限り、この単純で実際的に非常に関係のある拡張は研究されていない。 本研究の主な貢献は, 単一マシンの場合においてもNP完全性を示し, 遺伝的アルゴリズム, 木探索, 制約プログラミングなど, 様々な典型的なアプローチについて, 徹底的な実証研究を行うことである。

In this paper we study a simple extension of the total weighted flowtime minimization problem for single and identical parallel machines. While the standard problem simply defines a set of jobs with their processing times and weights and assumes that all jobs have release date 0 and have no deadline, we assume that the release date of each job is a decision variable that is only constrained by a single global latest arrival deadline. To our knowledge, this simple yet practically highly relevant extension has never been studied. Our main contribution is that we show the NP- completeness of the problem even for the single machine case and provide an exhaustive empirical study of different typical approaches including genetic algorithms, tree search, and constraint programming.
翻訳日:2021-03-03 16:44:48 公開日:2021-03-02
# OMNet: 部分から部分へのポイントクラウド登録のためのオーバーラップマスクの学習

OMNet: Learning Overlapping Mask for Partial-to-Partial Point Cloud Registration ( http://arxiv.org/abs/2103.00937v2 )

ライセンス: Link先を確認
Hao Xu, Shuaicheng Liu, Guangfu Wang, Guanghui Liu, Bing Zeng(参考訳) ポイントクラウド登録は、多くの計算分野で重要なタスクです。 以前の対応マッチングに基づく手法では、点雲は、点のスパース特徴マッチングに従って3次元の剛性変換に適合する特徴的な幾何学的構造を持つ必要がある。 しかし、変換の精度は抽出された特徴の品質に大きく依存しており、入力の偏りやノイズに関してエラーが発生しやすい。 また、すべての領域の幾何学的知識を活用できない。 一方で、以前のグローバル機能ベースのディープラーニングアプローチでは、登録にポイントクラウド全体を活用することが可能だが、グローバル機能をポイント単位の機能から集約する場合、重複しないポイントの悪影響を無視する。 本稿では、部分から部分へのポイントクラウド登録のためのグローバル機能ベースの反復ネットワークOMNetについて述べる。 マスクを粗雑に学習し,重複しない領域を拒絶し,部分から部分への登録を同一形状の登録に変換する。 さらに、以前の作業で使用されたデータは、各オブジェクトのcadモデルから一度だけサンプリングされ、ソースと参照の同じポイントクラウドになる。 ソースと参照点のクラウドに対してCADモデルを2回サンプリングし、従来は存在していたオーバーフィッティングの問題を回避する、より実用的なデータ生成方法を提案する。 実験結果から,従来の学習法や深層学習法に比べ,最先端のパフォーマンスを実現した。

Point cloud registration is a key task in many computational fields. Previous correspondence matching based methods require the point clouds to have distinctive geometric structures to fit a 3D rigid transformation according to point-wise sparse feature matches. However, the accuracy of transformation heavily relies on the quality of extracted features, which are prone to errors with respect partiality and noise of the inputs. In addition, they can not utilize the geometric knowledge of all regions. On the other hand, previous global feature based deep learning approaches can utilize the entire point cloud for the registration, however they ignore the negative effect of non-overlapping points when aggregating global feature from point-wise features. In this paper, we present OMNet, a global feature based iterative network for partial-to-partial point cloud registration. We learn masks in a coarse-to-fine manner to reject non-overlapping regions, which converting the partial-to-partial registration to the registration of the same shapes. Moreover, the data used in previous works are only sampled once from CAD models for each object, resulting the same point cloud for the source and the reference. We propose a more practical manner for data generation, where a CAD model is sampled twice for the source and the reference point clouds, avoiding over-fitting issues that commonly exist previously. Experimental results show that our approach achieves state-of-the-art performance compared to traditional and deep learning methods.
翻訳日:2021-03-03 16:34:59 公開日:2021-03-02
# オープンセット認識のための対比相互点学習

Adversarial Reciprocal Points Learning for Open Set Recognition ( http://arxiv.org/abs/2103.00953v2 )

ライセンス: Link先を確認
Guangyao Chen and Peixi Peng and Xiangqian Wang and Yonghong Tian(参考訳) オープンセット認識(OSR)は,未知のクラスを同時に分類し,未知のクラスを「未知」と識別することを目的として,信頼性の高い機械学習に不可欠であり,ラベル付き既知のデータに対する経験的分類リスクと潜在的未知データに対するオープンスペースリスクを同時に低減する方法がOSRの課題である。 この課題に対処するために,マルチクラス統合の観点からオープンスペースリスク問題を定式化し,新しい概念の相互的視点で未展開のクラス外空間をモデル化する。 これに従い、ARPL(Adversarial Reciprocal Point Learning)と呼ばれる新しい学習フレームワークが提案され、既知の分類精度を失うことなく、既知の分布と未知分布の重複を最小限に抑える。 具体的には、対応する既知のカテゴリを持つクラス外空間で各相互ポイントを学習し、複数の既知のカテゴリ間の対立を利用して経験的分類リスクを低減させる。 次に,相反点によって構築される潜在開空間を制限し,オープンスペースリスクを低減するために,逆マージン制約を提案する。 オープンスペースから未知の分布を更に推定するために、相互ポイントと既知のクラスとの間の逆機構に基づいて、多様で紛らわしいトレーニングサンプルを生成するために、インスタンス化逆拡張法が設計されている。 これにより、未知のクラスに対するモデル識別性が効果的に向上する。 各種ベンチマークデータセットの大規模な実験結果から,提案手法は他の既存手法よりもかなり優れていることが示唆され,最先端の性能が達成された。

Open set recognition (OSR), aiming to simultaneously classify the seen classes and identify the unseen classes as 'unknown', is essential for reliable machine learning.The key challenge of OSR is how to reduce the empirical classification risk on the labeled known data and the open space risk on the potential unknown data simultaneously. To handle the challenge, we formulate the open space risk problem from the perspective of multi-class integration, and model the unexploited extra-class space with a novel concept Reciprocal Point. Follow this, a novel learning framework, termed Adversarial Reciprocal Point Learning (ARPL), is proposed to minimize the overlap of known distribution and unknown distributions without loss of known classification accuracy. Specifically, each reciprocal point is learned by the extra-class space with the corresponding known category, and the confrontation among multiple known categories are employed to reduce the empirical classification risk. Then, an adversarial margin constraint is proposed to reduce the open space risk by limiting the latent open space constructed by reciprocal points. To further estimate the unknown distribution from open space, an instantiated adversarial enhancement method is designed to generate diverse and confusing training samples, based on the adversarial mechanism between the reciprocal points and known classes. This can effectively enhance the model distinguishability to the unknown classes. Extensive experimental results on various benchmark datasets indicate that the proposed method is significantly superior to other existing approaches and achieves state-of-the-art performance.
翻訳日:2021-03-03 16:34:04 公開日:2021-03-02
# AttriMeter: 人物再識別のための属性ガイド付きメトリクスインタプリタ

AttriMeter: An Attribute-guided Metric Interpreter for Person Re-Identification ( http://arxiv.org/abs/2103.01451v1 )

ライセンス: Link先を確認
Xiaodong Chen, Xinchen Liu, Wu Liu, Xiao-Ping Zhang, Yongdong Zhang, and Tao Mei(参考訳) ReID(Person Re-identification)は、CNN(Convolutional Neural Networks)の採用により大幅に改善されました。 しかし、人物認証システムは2人の人物とマッチングする場合に距離または類似性しか提供しないため、ユーザーが類似点を理解できない。 そこで我々は,CNNベースのReIDモデルの結果を意味的に,定量的に説明するAttribute-Guided Metric Interpreter(AttriMet er)を提案する。 AttriMeterにはプラグイン可能な構造があり、任意のターゲットモデル、すなわち解釈が必要なReIDモデルにグラフ化することができる。 属性分解ヘッドを使用すると、ターゲットモデルから属性誘導注意マップ(AAM)のグループを生成することを学ぶことができます。 対象モデルから2人の特徴にAAMを適用することにより、個々の属性の寄与を測定することができる属性誘導コンポーネントのセットに、それらの距離を分解する。 さらに, 対象モデルの結果と分解成分のアトリメータからの一貫性を保証するために, 距離蒸留損失を設計, 属性の不均衡分布に起因するバイアスを解消するために, 属性先行損失を設計できる。 最後に、さまざまなReIDモデルとデータセットに関する広範な実験と分析は、AttriMeterの有効性を示している。

Person Re-identification (ReID) has achieved significant improvement due to the adoption of Convolutional Neural Networks (CNNs). However, person ReID systems only provide a distance or similarity when matching two persons, which makes users hardly understand why they are similar or not. Therefore, we propose an Attribute-guided Metric Interpreter, named AttriMeter, to semantically and quantitatively explain the results of CNN-based ReID models. The AttriMeter has a pluggable structure that can be grafted on arbitrary target models, i.e., the ReID models that need to be interpreted. With an attribute decomposition head, it can learn to generate a group of attribute-guided attention maps (AAMs) from the target model. By applying AAMs to features of two persons from the target model, their distance will be decomposed into a set of attribute-guided components that can measure the contributions of individual attributes. Moreover, we design a distance distillation loss to guarantee the consistency between the results from the target model and the decomposed components from AttriMeter, and an attribute prior loss to eliminate the biases caused by the unbalanced distribution of attributes. Finally, extensive experiments and analysis on a variety of ReID models and datasets show the effectiveness of AttriMeter.
翻訳日:2021-03-03 16:29:03 公開日:2021-03-02
# 階層的スタイル・ディエンタングルメントによる画像と画像の翻訳

Image-to-image Translation via Hierarchical Style Disentanglement ( http://arxiv.org/abs/2103.01456v1 )

ライセンス: Link先を確認
Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji(参考訳) 近年,画像から画像への変換は,複数ラベル(異なるラベルで条件付翻訳)と複数スタイル(多様なスタイル付き生成)の両タスクの実現に大きく進歩している。 しかし、ラベルの独立性と排他性が未熟であるため、既存の努力は翻訳結果に制御不能な操作を伴って打ち破られる。 本論文では,この問題に対処するためにHiSD(Hierarchical Style Disentanglement)を提案する。 具体的には,ラベルを階層的な木構造に整理し,独立タグ,排他属性,不規則なスタイルを上下に割り当てる。 対応する新しい翻訳プロセスは、制御可能な翻訳のためにスタイルを識別する上記の構造に適応するように設計されている。 CelebA-HQデータセットの定性的および定量的結果の両方が提案されたHiSDの能力を検証する。 この手法が確固たるベースラインとなり、画像から画像への翻訳における将来の研究のための階層的に整理されたアノテーションで新しい洞察を提供することを期待しています。 コードはhttps://github.com/i mlixinyang/hisdでリリースされた。

Recently, image-to-image translation has made significant progress in achieving both multi-label (\ie, translation conditioned on different labels) and multi-style (\ie, generation with diverse styles) tasks. However, due to the unexplored independence and exclusiveness in the labels, existing endeavors are defeated by involving uncontrolled manipulations to the translation results. In this paper, we propose Hierarchical Style Disentanglement (HiSD) to address this issue. Specifically, we organize the labels into a hierarchical tree structure, in which independent tags, exclusive attributes, and disentangled styles are allocated from top to bottom. Correspondingly, a new translation process is designed to adapt the above structure, in which the styles are identified for controllable translations. Both qualitative and quantitative results on the CelebA-HQ dataset verify the ability of the proposed HiSD. We hope our method will serve as a solid baseline and provide fresh insights with the hierarchically organized annotations for future research in image-to-image translation. The code has been released at https://github.com/i mlixinyang/HiSD.
翻訳日:2021-03-03 16:28:41 公開日:2021-03-02
# 3次元点生成のための拡散確率モデル

Diffusion Probabilistic Models for 3D Point Cloud Generation ( http://arxiv.org/abs/2103.01458v1 )

ライセンス: Link先を確認
Shitong Luo, Wei Hu(参考訳) 本稿では,形状補完,アップサンプリング,合成,データ拡張といった様々な3次元視覚タスクにおいて重要なポイントクラウド生成の確率モデルを提案する。 非平衡熱力学における拡散過程に触発されて、点雲内の点を熱浴と接触する熱力学系の粒子として捉え、元の分布からノイズ分布に拡散する。 したがって、点雲の発生は、ノイズ分布を所望の形状の分布に変換する逆拡散過程を学習する量になる。 具体的には,特定の形状に潜むマルコフ連鎖として,点雲の逆拡散過程をモデル化する。 我々は、トレーニングのための閉形式における変分境界を導出し、モデルの実装を提供する。 実験により,本モデルがポイントクラウド生成および自動符号化における最先端性能を実現することを示す。 コードは \url{https://github.com/l uost26/diffusion-poi nt-cloud} で入手できる。

We present a probabilistic model for point cloud generation, which is critical for various 3D vision tasks such as shape completion, upsampling, synthesis and data augmentation. Inspired by the diffusion process in non-equilibrium thermodynamics, we view points in point clouds as particles in a thermodynamic system in contact with a heat bath, which diffuse from the original distribution to a noise distribution. Point cloud generation thus amounts to learning the reverse diffusion process that transforms the noise distribution to the distribution of a desired shape. Specifically, we propose to model the reverse diffusion process for point clouds as a Markov chain conditioned on certain shape latent. We derive the variational bound in closed form for training and provide implementations of the model. Experimental results demonstrate that our model achieves the state-of-the-art performance in point cloud generation and auto-encoding. The code is available at \url{https://github.com/l uost26/diffusion-poi nt-cloud}.
翻訳日:2021-03-03 16:28:24 公開日:2021-03-02
# Patch-NetVLAD:場所認識のためのローカルグローバルディスクリプタのマルチスケール融合

Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition ( http://arxiv.org/abs/2103.01486v1 )

ライセンス: Link先を確認
Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer(参考訳) 視覚場所認識は、常に変化する世界の外観と視点の変化の双対の問題に対処する必要があるロボットと自律システムのための挑戦的なタスクです。 本論文では,パッチレベルの特徴をNetVLAD残余から導出することにより,ローカルとグローバルの両方のディスクリプタメソッドの利点を組み合わせるための新しい定式化を提供する。 既存の局所キーポイント特徴の固定空間近傍体制とは異なり、特徴空間グリッド上で定義された深層学習局所特徴の集約とマッチングを可能にする。 さらに、補完的スケールを持つパッチ機能のマルチスケール融合についても紹介する。 パッチサイズ) 統合的な特徴空間を通して、融合した特徴が条件(シーズン、構造、照明)と視点(翻訳と回転)の両方に非常に不変であることを示す。 Patch-NetVLADは、同等の計算でグローバルとローカルのフィーチャーディスクリプタベースのメソッドを上回り、ECCV2020でFacebook Mapillary Visual Place Recognition Challengeを受賞するなど、さまざまな困難な現実世界のデータセットで最先端のビジュアルプレース認識結果を達成します。 ユーザ要件にも適応可能で、スピード最適化バージョンは最先端のものよりも桁違いに高速に動作する。 Patch-NetVLADは、構成可能なフレームワークで優れたパフォーマンスと計算効率を組み合わせることで、スタンドアロンの認識能力とSLAMシステムの全体的なパフォーマンスの両方を向上させるのに適しています。

Visual Place Recognition is a challenging task for robotics and autonomous systems, which must deal with the twin problems of appearance and viewpoint change in an always changing world. This paper introduces Patch-NetVLAD, which provides a novel formulation for combining the advantages of both local and global descriptor methods by deriving patch-level features from NetVLAD residuals. Unlike the fixed spatial neighborhood regime of existing local keypoint features, our method enables aggregation and matching of deep-learned local features defined over the feature-space grid. We further introduce a multi-scale fusion of patch features that have complementary scales (i.e. patch sizes) via an integral feature space and show that the fused features are highly invariant to both condition (season, structure, and illumination) and viewpoint (translation and rotation) changes. Patch-NetVLAD outperforms both global and local feature descriptor-based methods with comparable compute, achieving state-of-the-art visual place recognition results on a range of challenging real-world datasets, including winning the Facebook Mapillary Visual Place Recognition Challenge at ECCV2020. It is also adaptable to user requirements, with a speed-optimised version operating over an order of magnitude faster than the state-of-the-art. By combining superior performance with improved computational efficiency in a configurable framework, Patch-NetVLAD is well suited to enhance both stand-alone place recognition capabilities and the overall performance of SLAM systems.
翻訳日:2021-03-03 16:28:08 公開日:2021-03-02
# 年齢不変顔認識が顔年齢合成に会うとき:マルチタスク学習フレームワーク

When Age-Invariant Face Recognition Meets Face Age Synthesis: A Multi-Task Learning Framework ( http://arxiv.org/abs/2103.01520v1 )

ライセンス: Link先を確認
Zhizhong Huang, Junping Zhang, Hongming Shan(参考訳) To minimize the effects of age variation in face recognition, previous work either extracts identity-related discriminative features by minimizing the correlation between identity- and age-related features, called age-invariant face recognition (AIFR), or removes age variation by transforming the faces of different age groups into the same age group, called face age synthesis (FAS); however, the former lacks visual results for model interpretation while the latter suffers from artifacts compromising downstream recognition. そこで本論文では,この2つのタスクを共同で処理するための統合型マルチタスクフレームワークである \methodname を提案する。 具体的には、顔の特徴を2つの非相関なコンポーネント(アイデンティティ関連と年齢関連)に注意メカニズムで分解し、マルチタスクトレーニングと継続的ドメインアダプションを使用してこれらの2つのコンポーネントをデコレーションします。 グループレベルのfasを実現する従来のone-hotエンコーディングとは対照的に, 合成顔の年齢平滑性を改善するための重み共有戦略を用いて, アイデンティティレベルfasを実現する新しいアイデンティティ条件モジュールを提案する。 さらに、AIFRとFASの開発を進めるために、年齢と性別のアノテーションを備えた大規模なクロスエイジフェイスデータセットを収集し、リリースします。 5つのベンチマーククロスエイジデータセットに関する広範な実験は、AIFRとFASの既存の最先端の方法よりも、提案された \methodname の優れたパフォーマンスを示しています。 さらに2つの一般的な顔認識データセットで \methodname を検証し,野放しの顔認識性能を示す。 ソースコードとデータセットは~\url{https://github.com/H zzone/MTLFace}で入手できる。

To minimize the effects of age variation in face recognition, previous work either extracts identity-related discriminative features by minimizing the correlation between identity- and age-related features, called age-invariant face recognition (AIFR), or removes age variation by transforming the faces of different age groups into the same age group, called face age synthesis (FAS); however, the former lacks visual results for model interpretation while the latter suffers from artifacts compromising downstream recognition. Therefore, this paper proposes a unified, multi-task framework to jointly handle these two tasks, termed \methodname, which can learn age-invariant identity-related representation while achieving pleasing face synthesis. Specifically, we first decompose the mixed face feature into two uncorrelated components -- identity- and age-related feature -- through an attention mechanism, and then decorrelate these two components using multi-task training and continuous domain adaption. In contrast to the conventional one-hot encoding that achieves group-level FAS, we propose a novel identity conditional module to achieve identity-level FAS, with a weight-sharing strategy to improve the age smoothness of synthesized faces. In addition, we collect and release a large cross-age face dataset with age and gender annotations to advance the development of the AIFR and FAS. Extensive experiments on five benchmark cross-age datasets demonstrate the superior performance of our proposed \methodname over existing state-of-the-art methods for AIFR and FAS. We further validate \methodname on two popular general face recognition datasets, showing competitive performance for face recognition in the wild. The source code and dataset are available at~\url{https://github.com/H zzone/MTLFace}.
翻訳日:2021-03-03 16:27:41 公開日:2021-03-02
# 変換一貫性による数発オープンセット認識

Few-shot Open-set Recognition by Transformation Consistency ( http://arxiv.org/abs/2103.01537v1 )

ライセンス: Link先を確認
Minki Jeong, Seokeon Choi, Changick Kim(参考訳) 本稿では,FSL ( few-shot Learning) とOSR (open-set recognition) を組み合わせたFSOSR ( few-shot open-set recognition) 問題に対処する。 目立たないクラスのサンプルを拒絶しながら、与えられた小さなラベル付きサンプルセットに迅速にモデルを適用することを目指しています。 OSRはリッチなデータを必要とし、FSLは閉集合分類を考慮するため、既存のOSRとFSL法はFSOSR問題を解決する上で性能が悪い。 以前のFSOSR法は擬似未見のクラス標本ベース法に従っており、他のデータセットから擬似未見のサンプルを収集するか、サンプルを合成して未見のクラス表現をモデル化する。 しかし、このアプローチは疑似サンプルの組成に大きく依存しています。 本論文では,疑似未知のサンプルを必要としない新規な未知クラスの試料検出器であるSnaTCHerを提案する。 本手法は,変換整合性に基づいて,変換されたプロトタイプと修正されたプロトタイプセットとの差を測定する。 修正セットはクエリ機能とその予測クラスプロトタイプを置き換えることで構成される。 SnaTCHerは変換されたプロトタイプと大きく異なるサンプルを拒絶する。 提案手法は,未知のクラス分布推定問題を疑似未知のクラスサンプルとは独立に,相対的な特徴変換問題に変更する。 SnaTCHerを様々なプロトタイプ変換法で検討し、閉集合分類の低減なしに、見当たらないサンプル検出性能を一貫して改善することを観察します。

In this paper, we attack a few-shot open-set recognition (FSOSR) problem, which is a combination of few-shot learning (FSL) and open-set recognition (OSR). It aims to quickly adapt a model to a given small set of labeled samples while rejecting unseen class samples. Since OSR requires rich data and FSL considers closed-set classification, existing OSR and FSL methods show poor performances in solving FSOSR problems. The previous FSOSR method follows the pseudo-unseen class sample-based methods, which collect pseudo-unseen samples from the other dataset or synthesize samples to model unseen class representations. However, this approach is heavily dependent on the composition of the pseudo samples. In this paper, we propose a novel unknown class sample detector, named SnaTCHer, that does not require pseudo-unseen samples. Based on the transformation consistency, our method measures the difference between the transformed prototypes and a modified prototype set. The modified set is composed by replacing a query feature and its predicted class prototype. SnaTCHer rejects samples with large differences to the transformed prototypes. Our method alters the unseen class distribution estimation problem to a relative feature transformation problem, independent of pseudo-unseen class samples. We investigate our SnaTCHer with various prototype transformation methods and observe that our method consistently improves unseen class sample detection performance without closed-set classification reduction.
翻訳日:2021-03-03 16:27:15 公開日:2021-03-02
# 本物のマスクとフェイクフェイス:仮面提示攻撃検出について

Real Masks and Fake Faces: On the Masked Face Presentation Attack Detection ( http://arxiv.org/abs/2103.01546v1 )

ライセンス: Link先を確認
Meiling Fang, Naser Damer, Florian Kirchbuchner, Arjan Kuijper(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、大規模な公衆衛生問題を引き起こしている。 マスクは、新型コロナウイルス感染を減らす最も効率的な方法の1つとなっている。 これにより、顔認識(FR)はいくつかの識別的特徴が隠されているため、困難なタスクとなる。 さらに、顔提示攻撃検出(PAD)はFRシステムのセキュリティを確保するために重要です。 マスク付きFR研究の増加とは対照的に、PADに対するマスク付き攻撃の影響は検討されていない。 そこで本研究では,実世界の状況を反映して,実写マスクを装着した新たなアタックと,実写マスクを装着したアタックを提案する。 さらに,7つの最新のPADアルゴリズムをデータベース内およびクロスデータベースシナリオで使用し,マスキング攻撃がPAD性能に及ぼす影響を検討した。 マスク攻撃に対するFRシステムの脆弱性も評価した。 この実験は、実際のマスク攻撃がfrシステムの運用とセキュリティに深刻な脅威をもたらすことを示している。

The ongoing COVID-19 pandemic has lead to massive public health issues. Face masks have become one of the most efficient ways to reduce coronavirus transmission. This makes face recognition (FR) a challenging task as several discriminative features are hidden. Moreover, face presentation attack detection (PAD) is crucial to ensure the security of FR systems. In contrast to growing numbers of masked FR studies, the impact of masked attacks on PAD has not been explored. Therefore, we present novel attacks with real masks placed on presentations and attacks with subjects wearing masks to reflect the current real-world situation. Furthermore, this study investigates the effect of masked attacks on PAD performance by using seven state-of-the-art PAD algorithms under intra- and cross-database scenarios. We also evaluate the vulnerability of FR systems on masked attacks. The experiments show that real masked attacks pose a serious threat to the operation and security of FR systems.
翻訳日:2021-03-03 16:26:49 公開日:2021-03-02
# 顔認識のためのクラス間差分アライメント

Inter-class Discrepancy Alignment for Face Recognition ( http://arxiv.org/abs/2103.01559v1 )

ライセンス: Link先を確認
Jiaheng Liu, Yudong Wu, Yichao Wu, Zhenmao Li, Chen Ken, Ding Liang, Junjie Yan(参考訳) 顔認識(FR)の分野は、深層学習の急増とともに大きな進歩をみせている。 既存の手法は主に識別的特徴の抽出に重点を置いており、文脈情報を考慮せずにコサイン距離やl2距離を直接計算している。 本研究では,実例とクラス間の類似性で表される局所的なcon-textがFRにとって重要な役割を担っていることを示す。 具体的には,特徴空間の局所的なインフォームをメトリックに組み込んで,IDA(Inter-class DiscrepancyAlignment )と呼ばれる統合フレームワークを2つの専用モジュール,IDA-DAO(Disdisrepan cy Alignment Operator)とSupport Set Estimation(IDA-SSE)で提案する。 ida-daoは、超球面上の適応的支持集合によって定義される画像と隣接点の間の不一致を考慮した類似度スコアの調整に用いられる。 実際の推論では,オンライン推論におけるサポートセットの取得は困難である。 IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。 さらに,評価プロセスにおいて,他の画像を必要としない暗黙的に推定を行うことができる学習可能なIDA-SSEを提案する。 提案するidaは既存のfrシステムにシームレスかつ効率的に組み込むことができる。 このフレームワークは、1)精度を大幅に向上させることができ、2)さまざまな分布の顔画像に堅牢なモデルを作ることができ、ベルやホイッスルがなければ、私たちの方法は複数の標準FRベンチマークで最先端のパフォーマンスを達成します。

The field of face recognition (FR) has witnessed great progress with the surge of deep learning. Existing methods mainly focus on extracting discriminative features, and directly compute the cosine or L2 distance by the point-to-point way without considering the context information. In this study, we make a key observation that the local con-text represented by the similarities between the instance and its inter-class neighbors1plays an important role forFR. Specifically, we attempt to incorporate the local in-formation in the feature space into the metric, and pro-pose a unified framework calledInter-class DiscrepancyAlignment (IDA), with two dedicated modules, Discrepancy Alignment Operator(IDA-DAO) andSupport Set Estimation(IDA-SSE). IDA-DAO is used to align the similarity scores considering the discrepancy between the images and its neighbors, which is defined by adaptive support sets on the hypersphere. For practical inference, it is difficult to acquire support set during online inference. IDA-SSE can provide convincing inter-class neighbors by introducing virtual candidate images generated with GAN. Further-more, we propose the learnable IDA-SSE, which can implicitly give estimation without the need of any other images in the evaluation process. The proposed IDA can be incorporated into existing FR systems seamlessly and efficiently. Extensive experiments demonstrate that this frame-work can 1) significantly improve the accuracy, and 2) make the model robust to the face images of various distributions.Withou t bells and whistles, our method achieves state-of-the-art performance on multiple standard FR benchmarks.
翻訳日:2021-03-03 16:26:36 公開日:2021-03-02
# CNNを使って指静脈画像の起源を特定する

Using CNNs to Identify the Origin of Finger Vein Image ( http://arxiv.org/abs/2103.01632v1 )

ライセンス: Link先を確認
Babak Maser, Andreas Uhl(参考訳) 深層学習手法を用いて指静脈(FV)センサモデル同定タスクについて検討する。 これまでのバイオメトリック・モダリティでは,相関に基づくPRNUとテクスチャ記述子に基づく手法のみが適用されている。 我々は、VGG16、ResNet、Xceptionモデルなど、幅広いCNNファミリーモデルをカバーするCNNアーキテクチャを5つ採用している。 さらに、FV2021と呼ばれる新しいアーキテクチャが提案され、そのコンパクトさと訓練すべきパラメータの数が少ないことに長けている。 8つの公的なFVデータセットからの関心データだけでなく、元のサンプルも実験に使用されている。 センサ識別に優れたAUC-ROCスコア1.0、ROIサンプル0.9997が達成されている。 以前の方法と比較して、CNNベースのアプローチが優れていることを示し、結果を改善しました。

We study the finger vein (FV) sensor model identification task using a deep learning approach. So far, for this biometric modality, only correlation-based PRNU and texture descriptor-based methods have been applied. We employ five prominent CNN architectures covering a wide range of CNN family models, including VGG16, ResNet, and the Xception model. In addition, a novel architecture termed FV2021 is proposed in this work, which excels by its compactness and a low number of parameters to be trained. Original samples, as well as the region of interest data from eight publicly accessible FV datasets, are used in experimentation. An excellent sensor identification AUC-ROC score of 1.0 for patches of uncropped samples and 0.9997 for ROI samples have been achieved. The comparison with former methods shows that the CNN-based approach is superior and improved the results.
翻訳日:2021-03-03 16:26:08 公開日:2021-03-02
# Part2Whole: 部分クエリによるクロスモーダル検索の反復的な詳細化

Part2Whole: Iteratively Enrich Detail for Cross-Modal Retrieval with Partial Query ( http://arxiv.org/abs/2103.01654v1 )

ライセンス: Link先を確認
Guanyu Cai, Xinyang Jiang, Jun Zhang, Yifei Gong, Lianghua He, Pai Peng, Xiaowei Guo, Xing Sun(参考訳) 近年,テキストによる画像検索が著しく進歩している。 しかし、ユーザが複雑なシーンの不完全な記述を提供する可能性があり、その結果が不完全な記述に適合する偽陽性で満たされることが多いため、既存のメソッドのパフォーマンスは実生活に苦しむ。 本稿では,部分検索問題を導入し,テキストベース画像検索におけるその影響を広範囲に分析する。 そこで我々は,欠落した詳細を反復的に拡張することでこの問題に取り組むための対話型検索フレームワークPart2Wholeを提案する。 特に、インタラクティブ検索エージェントは、ユーザフレンドリーなインタラクションとギャラリーの統計的特性に基づいて、初期クエリを洗練するための最適なポリシーを構築するように訓練される。 ユーザに大きく依存して差別化情報をフィードバックする他のダイアログベースの方法と比較して、AIは最適なフィードバック検索プロセスを引き継ぎ、ユーザに詳細に関する確認ベースの質問を知らせます。 さらに,人間-機械対話データ取得の難しさから,完全教師付き学習は実現できないことが多いため,テキスト-画像データセット以外の人間-注釈データを必要としない弱教師付き強化学習手法を提案する。 実験により,複雑なシーンにおけるテキスト画像検索の性能が大幅に向上することを示した。

Text-based image retrieval has seen considerable progress in recent years. However, the performance of existing methods suffers in real life since the user is likely to provide an incomplete description of a complex scene, which often leads to results filled with false positives that fit the incomplete description. In this work, we introduce the partial-query problem and extensively analyze its influence on text-based image retrieval. We then propose an interactive retrieval framework called Part2Whole to tackle this problem by iteratively enriching the missing details. Specifically, an Interactive Retrieval Agent is trained to build an optimal policy to refine the initial query based on a user-friendly interaction and statistical characteristics of the gallery. Compared to other dialog-based methods that rely heavily on the user to feed back differentiating information, we let AI take over the optimal feedback searching process and hint the user with confirmation-based questions about details. Furthermore, since fully-supervised training is often infeasible due to the difficulty of obtaining human-machine dialog data, we present a weakly-supervised reinforcement learning method that needs no human-annotated data other than the text-image dataset. Experiments show that our framework significantly improves the performance of text-based image retrieval under complex scenes.
翻訳日:2021-03-03 16:25:53 公開日:2021-03-02
# 自己拘束型トリプルトロスによる顔認識のためのアンマスキングエンベディング

Unmasking Face Embeddings by Self-restrained Triplet Loss for Accurate Masked Face Recognition ( http://arxiv.org/abs/2103.01716v1 )

ライセンス: Link先を確認
Fadi Boutros, Naser Damer, Florian Kirchbuchner and Arjan Kuijper(参考訳) 顔を生体認証特性として用いることは、捕捉過程の接触のない性質と認識アルゴリズムの高精度により動機付けられる。 新型コロナウイルス(COVID-19)のパンデミックの後、公衆の場でマスクを着用してパンデミックを管理することが課された。 しかし,マスク着用による顔隠蔽は,顔認識システムにとって新たな課題となる。 本稿では,マスク付き顔認識性能を改善するためのソリューションを提案する。 具体的には,既存の顔認識モデル上で動作させるEmbedding Unmasking Model (EUM)を提案する。 また、EUMが同一アイデンティティのマスクされていない顔のこれらに類似した埋め込みを作成することを可能にする新しい損失関数、自己拘束トリプルト(SRT)を提案します。 2つの顔認識モデルと2つの実マスキングデータセットによる評価結果から,提案手法がほとんどの実験環境における性能を著しく向上することを示した。

Using the face as a biometric identity trait is motivated by the contactless nature of the capture process and the high accuracy of the recognition algorithms. After the current COVID-19 pandemic, wearing a face mask has been imposed in public places to keep the pandemic under control. However, face occlusion due to wearing a mask presents an emerging challenge for face recognition systems. In this paper, we presented a solution to improve the masked face recognition performance. Specifically, we propose the Embedding Unmasking Model (EUM) operated on top of existing face recognition models. We also propose a novel loss function, the Self-restrained Triplet (SRT), which enabled the EUM to produce embeddings similar to these of unmasked faces of the same identities. The achieved evaluation results on two face recognition models and two real masked datasets proved that our proposed approach significantly improves the performance in most experimental settings.
翻訳日:2021-03-03 16:25:32 公開日:2021-03-02
# Image/Video Deep Anomaly Detection: A Survey

Image/Video Deep Anomaly Detection: A Survey ( http://arxiv.org/abs/2103.01739v1 )

ライセンス: Link先を確認
Bahram Mohammadi, Mahmood Fathy and Mohammad Sabokrou(参考訳) 異常検出(AD)問題の重要性は、最近多くの研究者が注目している。 その結果,本研究における提案手法の数は着実に増加している。 ADは、画像/ビデオ異常、不規則性、突然のイベント検出などの重要なコンピュータビジョンおよび画像処理タスクと強く相関します。 最近では、Deep Neural Networks(DNN)は高性能なソリューションを提供していますが、計算コストを犠牲にしています。 しかし,提案手法と適用可能な実語アプローチの間には明らかなギャップがある。 ADが現在進行中の課題である、特に画像やビデオにおける懸念の高まりに対して、視覚的なADタスクに対処する手法の落とし穴と展望について議論する時が来た。 本稿では,画像/ビデオの深層学習に基づくAD手法について,詳細な調査を行う。 また、現在の課題と今後の研究の方向性を徹底的に議論する。

The considerable significance of Anomaly Detection (AD) problem has recently drawn the attention of many researchers. Consequently, the number of proposed methods in this research field has been increased steadily. AD strongly correlates with the important computer vision and image processing tasks such as image/video anomaly, irregularity and sudden event detection. More recently, Deep Neural Networks (DNNs) offer a high performance set of solutions, but at the expense of a heavy computational cost. However, there is a noticeable gap between the previously proposed methods and an applicable real-word approach. Regarding the raised concerns about AD as an ongoing challenging problem, notably in images and videos, the time has come to argue over the pitfalls and prospects of methods have attempted to deal with visual AD tasks. Hereupon, in this survey we intend to conduct an in-depth investigation into the images/videos deep learning based AD methods. We also discuss current challenges and future research directions thoroughly.
翻訳日:2021-03-03 16:25:16 公開日:2021-03-02
# IdentityDP: 顔画像に対する差分的個人識別保護

IdentityDP: Differential Private Identification Protection for Face Images ( http://arxiv.org/abs/2103.01745v1 )

ライセンス: Link先を確認
Yunqian Wen, Li Song, Bo Liu, Ming Ding, and Rong Xie(参考訳) 顔写真が爆発的に成長し、ソーシャルメディアで広く普及し、アクセスが容易になったため、個人情報のセキュリティとプライバシーは前例のない課題となっている。 一方、高度なアイデンティティ非依存のコンピュータビジョン技術によってもたらされる利便性は魅力的である。 そのため、人物の身元保護を慎重に検討しながら、顔画像を使用することが重要である。 顔画像が与えられたとき、顔の匿名化(face anonymization)とも呼ばれる顔の識別は、同じ外観と同じ背景を持つ別の画像を生成し、実際の身元は隠されている。 大規模な努力が続けられているが、既存の顔の識別技術は写真に不十分であるか、プライバシーとユーティリティのバランスが取れないかのいずれかである。 本稿では,これらの課題に対処し,顔の特定を改善することに焦点を当てる。 データ駆動のディープニューラルネットワークと差分プライバシー(DP)メカニズムを組み合わせた顔の匿名化フレームワークであるIdentityDPを提案する。 このフレームワークは、顔表現のゆがみ、$\epsilon$-IdentityD P摂動、画像再構成の3段階を含む。 私たちのモデルは、顔の識別関連情報を効果的に隠蔽し、視覚的な類似性を保持し、検出、追跡などのアイデンティティ非依存なコンピュータビジョンタスクに使用できる高品質な画像を生成することができる。 従来の方法とは違って,プライバシとユーティリティのバランスを,実践的な要求に応じて調整し,事前アノテーションなしで結果の多様性を提供する。 提案された匿名化フレームワークの有効性と一般化能力を示す広範な実験。

Because of the explosive growth of face photos as well as their widespread dissemination and easy accessibility in social media, the security and privacy of personal identity information becomes an unprecedented challenge. Meanwhile, the convenience brought by advanced identity-agnostic computer vision technologies is attractive. Therefore, it is important to use face images while taking careful consideration in protecting people's identities. Given a face image, face de-identification, also known as face anonymization, refers to generating another image with similar appearance and the same background, while the real identity is hidden. Although extensive efforts have been made, existing face de-identification techniques are either insufficient in photo-reality or incapable of well-balancing privacy and utility. In this paper, we focus on tackling these challenges to improve face de-identification. We propose IdentityDP, a face anonymization framework that combines a data-driven deep neural network with a differential privacy (DP) mechanism. This framework encompasses three stages: facial representations disentanglement, $\epsilon$-IdentityD P perturbation and image reconstruction. Our model can effectively obfuscate the identity-related information of faces, preserve significant visual similarity, and generate high-quality images that can be used for identity-agnostic computer vision tasks, such as detection, tracking, etc. Different from the previous methods, we can adjust the balance of privacy and utility through the privacy budget according to pratical demands and provide a diversity of results without pre-annotations. Extensive experiments demonstrate the effectiveness and generalization ability of our proposed anonymization framework.
翻訳日:2021-03-03 16:25:01 公開日:2021-03-02
# 重度の教師付きセマンティックセグメンテーションにおけるコンテキストデカップリング拡張

Context Decoupling Augmentation for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2103.01795v1 )

ライセンス: Link先を確認
Yukun Su, Ruizhou Sun, Guosheng Lin, Qingyao Wu(参考訳) ディープラーニングニューラルネットワークにはデータ拡張が不可欠である。 大量のトレーニングサンプルを提供することで、モデルの一般化能力を向上させることができる。 弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は近年深く研究されている課題であり、WSSSの従来のデータ拡張手法は通常、幾何学的変換、ランダムなトリミング、カラージッタリングを用いている。 しかし、同じ文脈のセマンティックデータを増やすだけで、オブジェクトを区別するためにネットワークに大きな利益をもたらすわけではない。例えば、「飛行機」の正しい画像レベルの分類は、オブジェクト自体の認識によるだけでなく、「スキー」のような共起コンテキストによっても、モデルがオブジェクトの特徴に焦点を絞ることが少なくなる。 この目的のために、オブジェクトが出現する固有のコンテキストを変更するためのContext Decoupling Augmentation (CDA) 法を提案し、それによって、オブジェクトインスタンスとコンテキスト情報間の依存を除去するネットワークを駆動する。 提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。

Data augmentation is vital for deep learning neural networks. By providing massive training samples, it helps to improve the generalization ability of the model. Weakly supervised semantic segmentation (WSSS) is a challenging problem that has been deeply studied in recent years, conventional data augmentation approaches for WSSS usually employ geometrical transformations, random cropping and color jittering. However, merely increasing the same contextual semantic data does not bring much gain to the networks to distinguish the objects, e.g., the correct image-level classification of "aeroplane" may be not only due to the recognition of the object itself, but also its co-occurrence context like "sky", which will cause the model to focus less on the object features. To this end, we present a Context Decoupling Augmentation (CDA) method, to change the inherent context in which the objects appear and thus drive the network to remove the dependence between object instances and contextual information. To validate the effectiveness of the proposed method, extensive experiments on PASCAL VOC 2012 dataset with several alternative network architectures demonstrate that CDA can boost various popular WSSS methods to the new state-of-the-art by a large margin.
翻訳日:2021-03-03 16:24:36 公開日:2021-03-02
# 大規模復元のための正方根束調整

Square Root Bundle Adjustment for Large-Scale Reconstruction ( http://arxiv.org/abs/2103.01843v1 )

ライセンス: Link先を確認
Nikolaus Demmel, Christiane Sommer, Daniel Cremers, Vladyslav Usenko(参考訳) QR分解によるランドマーク変数のnullspace marginalizationに依存するバンドル調整問題の新たな定式化を提案する。 我々のアプローチは正方形根束調整と呼ばれ、よく使われるシュア補体系と代数的に等価であり、計算の数値安定性を改善し、単一精度浮動小数点数による大規模束調整問題を解くことができる。 我々は,BALデータセットを用いた実世界の実験において,提案した解法が平均的に同じ精度で達成できることを示す。 かなり高速で動作しますが、密集した問題に対するメモリ量の増大が必要になります。 提案手法は単純な線形代数演算に依存し,単一精度線形代数処理に最適化されたハードウェアプラットフォームへのバンドル調整の効率的な実装への道を開く。

We propose a new formulation for the bundle adjustment problem which relies on nullspace marginalization of landmark variables by QR decomposition. Our approach, which we call square root bundle adjustment, is algebraically equivalent to the commonly used Schur complement trick, improves the numeric stability of computations and allows for solving large-scale bundle adjustment problems with single precision floating point numbers. We show in real-world experiments with the BAL datasets that even in single precision the proposed solver achieves on average equally accurate solutions compared to Schur complement solvers using double precision. It runs significantly faster, but can require larger amounts of memory on dense problems. The proposed formulation relies on simple linear algebra operations and opens the way for efficient implementations of bundle adjustment on hardware platforms optimized for single precision linear algebra processing.
翻訳日:2021-03-03 16:24:11 公開日:2021-03-02
# 空間位相浅層学習:周波数領域における顔偽造検出の再考

Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in Frequency Domain ( http://arxiv.org/abs/2103.01856v1 )

ライセンス: Link先を確認
Honggu Liu, Xiaodan Li, Wenbo Zhou, Yuefeng Chen, Yuan He, Hui Xue, Weiming Zhang and Nenghai Yu(参考訳) 顔偽造技術における顕著な成功は、セキュリティ上の懸念からコンピュータビジョンにおいて大きな注目を集めている。 我々は、アップサンプリングがほとんどの顔偽造技術に必要なステップであり、累積アップサンプリングは、特に位相スペクトルにおいて、周波数領域に明らかな変化をもたらすことを観察する。 自然画像の特性によると、位相スペクトルは余分な情報を提供し、振幅スペクトルの損失を補完する豊富な周波数成分を保持します。 そこで本論文では, 空間画像と位相スペクトルを組み合わせ, 顔偽造のアップサンプリングアーチファクトを捕捉し, 顔偽造検出のための移動性を改善する, 空間位相浅化学習(SPSL)法を提案する。 また、位相スペクトルの有効性も理論的に解析します。 さらに,顔偽造検出タスクにおいて,局所的なテクスチャ情報の方が高レベルな意味情報よりも重要であることに気付く。 そこで我々は,ネットワークを浅め,高次特徴を抑え,局所領域に焦点を合わせることにより受容場を小さくする。 大規模な実験により,SPSLはクロスデータセット評価における最先端性能とマルチクラス分類を達成でき,単一データセット評価において同等の結果を得ることができることが示された。

The remarkable success in face forgery techniques has received considerable attention in computer vision due to security concerns. We observe that up-sampling is a necessary step of most face forgery techniques, and cumulative up-sampling will result in obvious changes in the frequency domain, especially in the phase spectrum. According to the property of natural images, the phase spectrum preserves abundant frequency components that provide extra information and complement the loss of the amplitude spectrum. To this end, we present a novel Spatial-Phase Shallow Learning (SPSL) method, which combines spatial image and phase spectrum to capture the up-sampling artifacts of face forgery to improve the transferability, for face forgery detection. And we also theoretically analyze the validity of utilizing the phase spectrum. Moreover, we notice that local texture information is more crucial than high-level semantic information for the face forgery detection task. So we reduce the receptive fields by shallowing the network to suppress high-level features and focus on the local region. Extensive experiments show that SPSL can achieve the state-of-the-art performance on cross-datasets evaluation as well as multi-class classification and obtain comparable results on single dataset evaluation.
翻訳日:2021-03-03 16:23:59 公開日:2021-03-02
# ショット安定な少数ショット物体検出のための意味関係推論

Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection ( http://arxiv.org/abs/2103.01903v1 )

ライセンス: Link先を確認
Chenchen Zhu, Fangyi Chen, Uzair Ahmed, Marios Savvides(参考訳) フェーショット物体検出は、実世界のデータの固有の長尾分布のために、必要かつ長続きする問題である。 そのパフォーマンスは、新しいクラスのデータ不足に大きく影響されます。 しかし、新しいクラスとベースクラスのセマンティックな関係は、データの可用性に関係なく一定である。 本研究では,この意味的関係を視覚情報とともに利用し,新たな物体検出の学習に明示的な関係推論を導入する。 具体的には、大きなテキストコーパスから学んだ意味的埋め込みによって、各クラスの概念を表します。 検出器は、対象のイメージ表現をこの埋め込み空間に投影するように訓練される。 また, 生の埋め込みをヒューリスティックな知識グラフで自明に利用する問題を特定し, 動的関係グラフによる埋め込みの強化を提案する。 その結果、SRR-FSDと呼ばれる少数ショット検出器は、新しい物体のショットの変動に対して頑丈で安定である。 実験では、SRR-FSDは、より高いショットで競争力のある結果を達成することができ、さらに重要なことは、より低い明示的なショットと暗黙的なショットの両方で、大幅にパフォーマンスが向上します。 事前訓練された分類データセットから暗黙的なショットを除去したベンチマークプロトコルは、将来の研究にとってより現実的な設定となる。

Few-shot object detection is an imperative and long-lasting problem due to the inherent long-tail distribution of real-world data. Its performance is largely affected by the data scarcity of novel classes. But the semantic relation between the novel classes and the base classes is constant regardless of the data availability. In this work, we investigate utilizing this semantic relation together with the visual information and introduce explicit relation reasoning into the learning of novel object detection. Specifically, we represent each class concept by a semantic embedding learned from a large corpus of text. The detector is trained to project the image representations of objects into this embedding space. We also identify the problems of trivially using the raw embeddings with a heuristic knowledge graph and propose to augment the embeddings with a dynamic relation graph. As a result, our few-shot detector, termed SRR-FSD, is robust and stable to the variation of shots of novel objects. Experiments show that SRR-FSD can achieve competitive results at higher shots, and more importantly, a significantly better performance given both lower explicit and implicit shots. The proposed benchmark protocol with implicit shots removed from the pretrained classification dataset can serve as a more realistic setting for future research.
翻訳日:2021-03-03 16:23:37 公開日:2021-03-02
# グラフニューラルネットワークのためのマルチレベルアテンションプール:複数の局所性を持つグラフ表現の統合

Multi-Level Attention Pooling for Graph Neural Networks: Unifying Graph Representations with Multiple Localities ( http://arxiv.org/abs/2103.01488v1 )

ライセンス: Link先を確認
Takeshi D. Itoh and Takatomi Kubo and Kazushi Ikeda(参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データのベクトル表現の学習に広く用いられ,従来の手法よりも優れたタスク性能を実現している。 GNNsの基礎は、ノード内の情報を隣人に伝搬するメッセージパッシング手順である。 この手順は層ごとに1ステップ進むので、ノード間の情報伝達の範囲は初期層では小さく、後層に向かって拡張される。 ここでの問題は、レイヤ数の増加に伴ってモデルパフォーマンスが低下することです。 潜在的な原因は、ディープGNNモデルが多くのメッセージパッシングステップを通じて、優れたモデルパフォーマンスに不可欠なノードのローカル情報を失う傾向があることである。 いわゆる過スムージング問題を解決するため,MLAP(Multi-level attention pooling)アーキテクチャを提案する。 メッセージパッシングの各ステップに注目のプーリング層を持ち、レイヤーワイズグラフ表現を統合して最終的なグラフ表現を計算します。 MLAPアーキテクチャは、モデルが複数のレベルの局所性を持つグラフの構造情報を利用することを可能にする。 実験結果から, MLAPアーキテクチャは, ベースラインアーキテクチャと比較して, グラフ分類タスクにおけるモデルのパフォーマンスを向上することを示した。 さらに,レイヤワイドグラフ表現の解析から,複数レベルの局所性を持つ情報を集約することで,クラス識別性が向上したグラフ表現を学習できる可能性が示唆された。

Graph neural networks (GNNs) have been widely used to learn vector representation of graph-structured data and achieved better task performance than conventional methods. The foundation of GNNs is the message passing procedure, which propagates the information in a node to its neighbors. Since this procedure proceeds one step per layer, the scope of the information propagation among nodes is small in the early layers, and it expands toward the later layers. The problem here is that the model performances degrade as the number of layers increases. A potential cause is that deep GNN models tend to lose the nodes' local information, which would be essential for good model performances, through many message passing steps. To solve this so-called oversmoothing problem, we propose a multi-level attention pooling (MLAP) architecture. It has an attention pooling layer for each message passing step and computes the final graph representation by unifying the layer-wise graph representations. The MLAP architecture allows models to utilize the structural information of graphs with multiple levels of localities because it preserves layer-wise information before losing them due to oversmoothing. Results of our experiments show that the MLAP architecture improves deeper models' performance in graph classification tasks compared to the baseline architectures. In addition, analyses on the layer-wise graph representations suggest that MLAP has the potential to learn graph representations with improved class discriminability by aggregating information with multiple levels of localities.
翻訳日:2021-03-03 16:15:34 公開日:2021-03-02
# メタコントラスト学習によるタスク適応ニューラルネットワークの検索

Task-Adaptive Neural Network Retrieval with Meta-Contrastive Learning ( http://arxiv.org/abs/2103.01495v1 )

ライセンス: Link先を確認
Wonyong Jeong, Hayeon Lee, Gun Park, Eunyoung Hyung, Jinheon Baek, Sung Ju Hwang(参考訳) 従来のニューラルアーキテクチャサーチ(NAS)アプローチのほとんどは、最適なパラメータを検索せずにアーキテクチャ(ネットワークトポロジ)だけを生成するという点で制限されている。 一部のNASメソッドは、ImageNetのような大規模データセットでトレーニングされたスーパーネットを利用することでこの問題に対処するが、ターゲットタスクがスーパーネットがトレーニングされたデータセットと非常に異なる場合、サブ最適である可能性がある。 そこで本研究では,与えられたタスクや制約に対して最適な事前学習ネットワークを求めるニューラルネットワーク探索手法を提案する。 モデル動物園からのパラメータの数)。 コントラスト損失を伴うクロスモーダル潜在空間をメタラーニングし、ハイパフォーマンスを得るデータセットとネットワークの類似性を最大化し、無関係なデータセット-ネットワークペア間の類似性を最小化することにより、このフレームワークをトレーニングする。 提案手法の有効性を,既存のNASベースラインに対して10個の実世界のデータセット上で検証する。 その結果,本手法は,目標性能に達するためのトレーニングステップが大幅に少ないベースラインで得られたモデルを上回るネットワークを瞬時に検索する。

Most conventional Neural Architecture Search (NAS) approaches are limited in that they only generate architectures (network topologies) without searching for optimal parameters. While some NAS methods handle this issue by utilizing a supernet trained on a large-scale dataset such as ImageNet, they may be suboptimal if the target tasks are highly dissimilar from the dataset the supernet is trained on. To tackle this issue, we propose a novel neural network retrieval method, which retrieves the most optimal pre-trained network for a given task and constraints (e.g. number of parameters) from a model zoo. We train this framework by meta-learning a cross-modal latent space with contrastive loss, to maximize the similarity between a dataset and a network that obtains high performance on it, and minimize the similarity between an irrelevant dataset-network pair. We validate the efficacy of our method on ten real-world datasets, against existing NAS baselines. The results show that our method instantly retrieves networks that outperforms models obtained with the baselines with significantly fewer training steps to reach the target performance.
翻訳日:2021-03-03 16:15:11 公開日:2021-03-02
# 適応共振理論に基づくクラスタリングによるマルチラベル分類

Multi-label Classification via Adaptive Resonance Theory-based Clustering ( http://arxiv.org/abs/2103.01511v1 )

ライセンス: Link先を確認
Naoki Masuyama, Yusuke Nojima, Chu Kiong Loo, Hisao Ishibuchi(参考訳) 本稿では,適応共振理論(art)に基づくクラスタリングアルゴリズムとラベル確率計算のためのベイズ法を適用し,連続学習が可能なマルチラベル分類アルゴリズムを提案する。 artベースのクラスタリングアルゴリズムは、所定のデータに対応するプロトタイプノードを適応的かつ継続的に生成し、生成されたノードを分類器として使用する。 ラベル確率計算は、クラスごとにラベルの出現回数を独立にカウントし、ベイズ確率を計算する。 したがって、ラベル確率計算は、ラベルの数の増加に対処することができる。 合成および実世界のマルチラベルデータセットによる実験結果から,提案アルゴリズムは連続学習を実現しつつ,他のよく知られたアルゴリズムと競合する分類性能を有することが示された。

This paper proposes a multi-label classification algorithm capable of continual learning by applying an Adaptive Resonance Theory (ART)-based clustering algorithm and the Bayesian approach for label probability computation. The ART-based clustering algorithm adaptively and continually generates prototype nodes corresponding to given data, and the generated nodes are used as classifiers. The label probability computation independently counts the number of label appearances for each class and calculates the Bayesian probabilities. Thus, the label probability computation can cope with an increase in the number of labels. Experimental results with synthetic and real-world multi-label datasets show that the proposed algorithm has competitive classification performance to other well-known algorithms while realizing continual learning.
翻訳日:2021-03-03 16:14:51 公開日:2021-03-02
# DeepCert:ニューラルネットワーク画像分類器のコンテキスト関連ロバスト性検証

DeepCert: Verification of Contextually Relevant Robustness for Neural Network Image Classifiers ( http://arxiv.org/abs/2103.01629v1 )

ライセンス: Link先を確認
Colin Paterson, Haoze Wu, John Grese, Radu Calinescu, Corina S. Pasareanu and Clark Barrett(参考訳) 本稿では,ディープニューラルネットワーク(DNN)画像分類器の堅牢性を検証するツールであるDeepCertを紹介する。 近年,DNN分類器のロバスト性は激しい研究の対象となっているが,本研究では,既存のLpノルムを用いて,画像の小さな摂動に対するDNNのロバスト性を検証することに焦点を当てた。 これは、DNN画像分類器に対する潜在的な敵対的攻撃を特定するのに有用であるが、文脈的に関連する画像の摂動に対するDNN堅牢性を検証することはできない。 DeepCert addresses this underexplored verification problem by supporting:(1) the encoding of real-world image perturbations; (2) the systematic evaluation of contextually relevant DNN robustness, using both testing and formal verification; (3) the generation of contextually relevant counterexamples; and, through these, (4) the selection of DNN image classifiers suitable for the operational context (i)envisaged when a potentially safety-critical system is designed, or (ii)observed by a deployed system. 本稿では,DNN画像分類器が2つのベンチマークデータセット(「ドイツ交通信号」と「CIFAR-10」)に対して,複数の文脈に関連のある摂動に対して構築するロバスト性を検証するために,DeepCertの有効性を示す。

We introduce DeepCert, a tool-supported method for verifying the robustness of deep neural network (DNN) image classifiers to contextually relevant perturbations such as blur, haze, and changes in image contrast. While the robustness of DNN classifiers has been the subject of intense research in recent years, the solutions delivered by this research focus on verifying DNN robustness to small perturbations in the images being classified, with perturbation magnitude measured using established Lp norms. This is useful for identifying potential adversarial attacks on DNN image classifiers, but cannot verify DNN robustness to contextually relevant image perturbations, which are typically not small when expressed with Lp norms. DeepCert addresses this underexplored verification problem by supporting:(1) the encoding of real-world image perturbations; (2) the systematic evaluation of contextually relevant DNN robustness, using both testing and formal verification; (3) the generation of contextually relevant counterexamples; and, through these, (4) the selection of DNN image classifiers suitable for the operational context (i)envisaged when a potentially safety-critical system is designed, or (ii)observed by a deployed system. We demonstrate the effectiveness of DeepCert by showing how it can be used to verify the robustness of DNN image classifiers build for two benchmark datasets (`German Traffic Sign' and `CIFAR-10') to multiple contextually relevant perturbations.
翻訳日:2021-03-03 16:14:38 公開日:2021-03-02
# 自己監督対称非負行列ファクタリゼーション

Self-supervised Symmetric Nonnegative Matrix Factorization ( http://arxiv.org/abs/2103.01689v1 )

ライセンス: Link先を確認
Yuheng Jia, Hui Liu, Junhui Hou, Sam Kwong, Qingfu Zhang(参考訳) 対称非負行列ファクタリゼーション(SNMF)は、データクラスタリングの強力な方法であることが実証されている。 しかし、SNMFは非凸最適化問題として数学的に定式化されており、変数の初期化に敏感である。 クラスタリング結果の集合からより優れたクラスタリング結果を求めるアンサンブルクラスタリングに着想を得て,SNMFの初期化特性に対する感度を利用して,追加情報に頼ることなく,クラスタリング性能を段階的に向上させることができる自己教師型SNMF(S$^3$NMF)を提案する。 具体的には、まずランダムな非負行列でSNMFを繰り返し実行し、毎回初期化を行い、複数の分解行列を作ります。 次に、得られた行列の質を適応的に学習した重みでランク付けし、SNMFに対してさらに識別性が期待される新しい類似性行列を再構成する。 これら2つのステップは、停止基準/最大イテレーション数を達成するまで繰り返します。 S$^3$NMFを制約最適化問題として数学的に定式化し、理論的収束が保証された代替最適化アルゴリズムを提供する。 一般的に使用される10$のベンチマークデータセットに関する広範な実験結果は、$ 5$の量的指標の観点から、$ 12$の最先端の方法よりもS$^3$NMFの重大な利点を示しています。 ソースコードはhttps://github.com/j yh-learning/SSSNMFで公開されている。

Symmetric nonnegative matrix factorization (SNMF) has demonstrated to be a powerful method for data clustering. However, SNMF is mathematically formulated as a non-convex optimization problem, making it sensitive to the initialization of variables. Inspired by ensemble clustering that aims to seek a better clustering result from a set of clustering results, we propose self-supervised SNMF (S$^3$NMF), which is capable of boosting clustering performance progressively by taking advantage of the sensitivity to initialization characteristic of SNMF, without relying on any additional information. Specifically, we first perform SNMF repeatedly with a random nonnegative matrix for initialization each time, leading to multiple decomposed matrices. Then, we rank the quality of the resulting matrices with adaptively learned weights, from which a new similarity matrix that is expected to be more discriminative is reconstructed for SNMF again. These two steps are iterated until the stopping criterion/maximum number of iterations is achieved. We mathematically formulate S$^3$NMF as a constraint optimization problem, and provide an alternative optimization algorithm to solve it with the theoretical convergence guaranteed. Extensive experimental results on $10$ commonly used benchmark datasets demonstrate the significant advantage of our S$^3$NMF over $12$ state-of-the-art methods in terms of $5$ quantitative metrics. The source code is publicly available at https://github.com/j yh-learning/SSSNMF.
翻訳日:2021-03-03 16:14:14 公開日:2021-03-02
# Autobahn: 自己同型に基づくグラフニューラルネットワーク

Autobahn: Automorphism-based Graph Neural Nets ( http://arxiv.org/abs/2103.01710v1 )

ライセンス: Link先を確認
Erik Henning Thiede, Wenda Zhou, Risi Kondor(参考訳) グラフニューラルネットワークの新しいファミリーであるAutomorphismベースのグラフニューラルネットワーク(Autobahn)を紹介します。 Autobahnでは、グラフをサブグラフの集合に分解し、各サブグラフの自己同型群と等価な局所畳み込みを適用する。 ローカル地区やサブグラフの特定の選択は、メッセージパッシングニューラルネットワークなどの既存のアーキテクチャを回復する。 例として、グラフをパスとサイクルに分解するグラフニューラルネットワークを紹介します。 結果として生じる畳み込みは、グラフの一部が変換できる自然な方法を反映しており、大域的置換等分散を犠牲にすることなく畳み込みの直感的な意味を保っている。 Autobahnを分子グラフに適用することで、最先端の結果が得られることを検証します。

We introduce Automorphism-based graph neural networks (Autobahn), a new family of graph neural networks. In an Autobahn, we decompose the graph into a collection of subgraphs and applying local convolutions that are equivariant to each subgraph's automorphism group. Specific choices of local neighborhoods and subgraphs recover existing architectures such as message passing neural networks. However, our formalism also encompasses novel architectures: as an example, we introduce a graph neural network that decomposes the graph into paths and cycles. The resulting convolutions reflect the natural way that parts of the graph can transform, preserving the intuitive meaning of convolution without sacrificing global permutation equivariance. We validate our approach by applying Autobahn to molecular graphs, where it achieves state-of-the-art results.
翻訳日:2021-03-03 16:13:51 公開日:2021-03-02
# グラフモデルと公平性正規化としてのフェアI-プロジェクションのKL分散

The KL-Divergence between a Graph Model and its Fair I-Projection as a Fairness Regularizer ( http://arxiv.org/abs/2103.01846v1 )

ライセンス: Link先を確認
Maarten Buyl, Tijl De Bie(参考訳) グラフ上の学習と推論は確率モデル(例えば、確率モデル)によってますます行われる。 指数的ランダムグラフモデル、グラフ埋め込みモデル、グラフニューラルネットワーク。 しかし、グラフが人間の関係をモデル化する場合、それらは必然的にバイアスや偏見、その他の不等式や不等式を反映する。 したがって、重要な課題は、正確なグラフモデリングアプローチを設計し、問題に必要な公正性の概念に従って公正性を保証することである。 しかし、このトピックに関する過去の研究は乏しく、特定のグラフモデリング手法の偏りに限られており、しばしば間接的に公正性を確保することを目的としている。 本稿では,ほとんどの確率グラフモデリング手法に適用可能な汎用的なアプローチを提案する。 具体的には、選択された公正度基準に対応するフェアグラフモデルのクラスを最初に定義する。 そこで本稿では,グラフモデルとI-射影とのKL分割として定義される公正正則化器をフェアモデルの集合上に提案する。 既存のグラフモデリング手法と組み合わせてこのフェアネス正規化器を効率よくフェアネスと精度を交換できることを実証する一方、最先端のモデルは、彼らが特別に設計したフェアネス基準に対してのみ、このトレードオフを行うことができる。

Learning and reasoning over graphs is increasingly done by means of probabilistic models, e.g. exponential random graph models, graph embedding models, and graph neural networks. When graphs are modeling relations between people, however, they will inevitably reflect biases, prejudices, and other forms of inequity and inequality. An important challenge is thus to design accurate graph modeling approaches while guaranteeing fairness according to the specific notion of fairness that the problem requires. Yet, past work on the topic remains scarce, is limited to debiasing specific graph modeling methods, and often aims to ensure fairness in an indirect manner. We propose a generic approach applicable to most probabilistic graph modeling approaches. Specifically, we first define the class of fair graph models corresponding to a chosen set of fairness criteria. Given this, we propose a fairness regularizer defined as the KL-divergence between the graph model and its I-projection onto the set of fair models. We demonstrate that using this fairness regularizer in combination with existing graph modeling approaches efficiently trades-off fairness with accuracy, whereas the state-of-the-art models can only make this trade-off for the fairness criterion that they were specifically designed for.
翻訳日:2021-03-03 16:13:37 公開日:2021-03-02
# グラフコンピューティングによる金融犯罪と不正検出: アプリケーションの考察と展望

Financial Crime & Fraud Detection Using Graph Computing: Application Considerations & Outlook ( http://arxiv.org/abs/2103.01854v1 )

ライセンス: Link先を確認
E. Kurshan, H. Shen, H.Yu(参考訳) 近年、デジタル決済の先例のない成長は、詐欺や金融犯罪の連続的な変化を促した。 この新しい状況では、ルールベースのエンジンのような従来の不正検出アプローチはほとんど効果がない。 グラフコンピューティングの原則を使ったaiと機械学習のソリューションが大きな関心を集めている。 グラフニューラルネットワークと新たな適応ソリューションは、詐欺や金融犯罪検出の将来に魅力的な機会を提供する。 しかし、金融取引処理システムにおけるグラフベースのソリューションの実装は、多くの障害とアプリケーションの考慮を明らかにした。 本稿では,金融犯罪現場の最新動向を概観し,現在と新興のグラフソリューションが直面する実装の難しさについて論じる。 アプリケーションの要求と実装の課題は、効果的なソリューションを開発する上で重要な洞察を提供する。

In recent years, the unprecedented growth in digital payments fueled consequential changes in fraud and financial crimes. In this new landscape, traditional fraud detection approaches such as rule-based engines have largely become ineffective. AI and machine learning solutions using graph computing principles have gained significant interest. Graph neural networks and emerging adaptive solutions provide compelling opportunities for the future of fraud and financial crime detection. However, implementing the graph-based solutions in financial transaction processing systems has brought numerous obstacles and application considerations to light. In this paper, we overview the latest trends in the financial crimes landscape and discuss the implementation difficulties current and emerging graph solutions face. We argue that the application demands and implementation challenges provide key insights in developing effective solutions.
翻訳日:2021-03-03 16:13:17 公開日:2021-03-02
# 機械学習とディープラーニング分類器のアンサンブルに対する並列的アプローチに基づく身体活動認識

Physical Activity Recognition Based on a Parallel Approach for an Ensemble of Machine Learning and Deep Learning Classifiers ( http://arxiv.org/abs/2103.01859v1 )

ライセンス: Link先を確認
M. Abid, A. Khabou, Y. Ouakrim, H. Watel, S. Chemkhi, A. Mitiche, A.Benazza-Benyahia, and N. Mezghani(参考訳) モノのインターネット(IOT)に組み込まれたウェアラブルセンサーデバイスによる人間の活動認識(HAR)は、リモートヘルス監視と緊急通知において重要な役割を果たし、より高い基準の医療を提供することができます。 本研究の目的は,医療に適用可能な意思決定の正確性と実行速度を推定するヒューマンアクティビティ認識手法を検討することである。 本手法は、特徴工学に基づく効率的な分類器と特徴学習に基づくデータ表現を組み合わせることで、ウェアラブルセンサの加速度時系列データを分類する。 スマートテキスタイルに単一ウエストウーン加速度計を装着した44名の被験者から取得したデータを用いて,10種類の活動を行い,平均認識率90%を達成し,個々の分類器よりも有意に良好な結果を得た。 この方法は、機能的および計算的並列化を容易に適応し、実行時間を著しく短縮する。

Human activity recognition (HAR) by wearable sensor devices embedded in the Internet of things (IOT) can play a significant role in remote health monitoring and emergency notification, to provide healthcare of higher standards. The purpose of this study is to investigate a human activity recognition method of accrued decision accuracy and speed of execution to be applicable in healthcare. This method classifies wearable sensor acceleration time series data of human movement using efficient classifier combination of feature engineering-based and feature learning-based data representation. Leave-one-subject-ou t cross-validation of the method with data acquired from 44 subjects wearing a single waist-worn accelerometer on a smart textile, and engaged in a variety of 10 activities, yields an average recognition rate of 90%, performing significantly better than individual classifiers. The method easily accommodates functional and computational parallelization to bring execution time significantly down.
翻訳日:2021-03-03 16:13:07 公開日:2021-03-02
# 健康産業におけるDMアルゴリズム

DM algorithms in healthindustry ( http://arxiv.org/abs/2103.01888v1 )

ライセンス: Link先を確認
Li Wang(参考訳) 本調査は, 保健産業におけるデータマイニング(dm)のアプローチを, 様々な研究グループからレビューするものである。 現在のコモディティコンピュータに組み込まれた現代的なマルチコアプロセッサにフォーカスしており、これは通常、小さなサーバーとワークステーションのコンピュータとして大学の研究所で見られる。 故意に高性能なコンピュータではない。 現代のマルチコアプロセッサは、複数の (2から100以上) コンピュータコアで構成されており、"multiple instruction multiple data" (mimd) の原則に従って互いに独立して動作する。 彼らは共通のメインメモリ(共有メモリ)を持っています。 これらのコンピュータコアには複数の(2-16)算術論理ユニットがあり、ベクトルのような方法で複数のデータ上で同じ演算を同時に行うことができる(命令多重データ、SIMD)。 DMアルゴリズムは両方のタイプの並列処理(SIMDとMIMD)を使用しなければならず、メインメモリ(集中化コンポーネント)へのアクセスは効率向上の主な障壁である。 これは、ECG、EEG、CT、SPECT、fMRI、DTI、超音波、顕微鏡、皮膚顕微鏡などの医療分野におけるDMにとって重要である。

This survey reviews several approaches of data mining (DM) in healthindustry from many research groups world wide. The focus is on modern multi-core processors built into today's commodity computers, which are typically found at university institutes both as small server and workstation computers. So they are deliberately not high-performance computers. Modern multi-core processors consist of several (2 to over 100) computer cores, which work independently of each other according to the principle of "multiple instruction multiple data" (MIMD). They have a common main memory (shared memory). Each of these computer cores has several (2-16) arithmetic-logic units, which can simultaneously carry out the same arithmetic operation on several data in a vector-like manner (single instruction multiple data, SIMD). DM algorithms must use both types of parallelism (SIMD and MIMD), with access to the main memory (centralized component) being the main barrier to increased efficiency. This is important for DM in healthindustry applications like ECG, EEG, CT, SPECT, fMRI, DTI, ultrasound, microscopy, dermascopy, etc.
翻訳日:2021-03-03 16:12:51 公開日:2021-03-02
# 擬似学習によるオフライン強化学習

Offline Reinforcement Learning with Pseudometric Learning ( http://arxiv.org/abs/2103.01948v1 )

ライセンス: Link先を確認
Robert Dadashi, Shideh Rezaeifar, Nino Vieillard, L\'eonard Hussenot, Olivier Pietquin, Matthieu Geist(参考訳) オフライン強化学習手法は、対話なしに環境のログ化された遷移からポリシーを学習しようとする。 関数近似の存在下、および環境の状態-動作空間の限られた範囲の仮定下において、ログされた遷移の支持に近い状態-アクションペアを訪問するようにポリシーを強制する必要がある。 本研究では、ログ化された遷移から擬似測度(擬似測度に近縁な)を学習するための反復的手順を提案し、その手法を用いて近接性の概念を定義する。 我々は、その収束を示し、関数近似設定に拡張する。 次に、この擬似メトリックを使用して、アクター-批判アルゴリズムで新しいルックアップベースのボーナスを定義する。 このボーナスは、記録された遷移をサポートするために、決定された擬似メトリックの観点からアクターに近づき続けるよう促す。 最後に,手動操作と移動作業における手法の評価を行った。

Offline Reinforcement Learning methods seek to learn a policy from logged transitions of an environment, without any interaction. In the presence of function approximation, and under the assumption of limited coverage of the state-action space of the environment, it is necessary to enforce the policy to visit state-action pairs close to the support of logged transitions. In this work, we propose an iterative procedure to learn a pseudometric (closely related to bisimulation metrics) from logged transitions, and use it to define this notion of closeness. We show its convergence and extend it to the function approximation setting. We then use this pseudometric to define a new lookup based bonus in an actor-critic algorithm: PLOff. This bonus encourages the actor to stay close, in terms of the defined pseudometric, to the support of logged transitions. Finally, we evaluate the method on hand manipulation and locomotion tasks.
翻訳日:2021-03-03 16:12:32 公開日:2021-03-02
# TopicTracker: トピックの軌道識別と可視化のためのプラットフォーム

TopicTracker: A Platform for Topic Trajectory Identification and Visualisation ( http://arxiv.org/abs/2103.01432v1 )

ライセンス: Link先を確認
Yong-Bin Kang and Timos Sellis(参考訳) トピックの軌跡情報は、特定の時間におけるトピックとその進化的関係のダイナミクスに関する重要な洞察を提供する。 また、この情報は、前回のトピックの出現、修正、統合に関するシーケンシャルまたは相互関連イベントを通じて、新しいトピックがどのように出現または形成されたかを理解するのに役立つ。 それにもかかわらず、トピック軌道識別のための既存の方法の実装は、使用可能なソフトウェアとしてほとんど利用できません。 本稿では,トピックトラック識別と可視化のためのプラットフォームである topictracker を提案する。 トピックトラッカーの鍵は、情報の3つの側面を一緒に表現できることです。2つの種類の入力が与えられます:時間の経過とともに基礎となるトピックのセットからなるタイムスタンプされたトピックプロファイルとその中の進化強度マトリックス:動的トピックの進化経路、トピックの進化状態、およびトピックの重要性。 TopicTrackerは、Rソフトウェアを使って実装された公開ソフトウェアである。

Topic trajectory information provides crucial insight into the dynamics of topics and their evolutionary relationships over a given time. Also, this information can help to improve our understanding on how new topics have emerged or formed through a sequential or interrelated events of emergence, modification and integration of prior topics. Nevertheless, the implementation of the existing methods for topic trajectory identification is rarely available as usable software. In this paper, we present TopicTracker, a platform for topic trajectory identification and visualisation. The key of Topic Tracker is that it can represent the three facets of information together, given two kinds of input: a time-stamped topic profile consisting of the set of the underlying topics over time, and the evolution strength matrix among them: evolutionary pathways of dynamic topics, evolution states of the topics, and topic importance. TopicTracker is a publicly available software implemented using the R software.
翻訳日:2021-03-03 16:10:51 公開日:2021-03-02
# 長時間音声認識:オンラインASRとVADのためのエンドツーエンドマルチタスク学習フレームワーク

Long-Running Speech Recognizer:An End-to-End Multi-Task Learning Framework for Online ASR and VAD ( http://arxiv.org/abs/2103.01661v1 )

ライセンス: Link先を確認
Meng Li, Shiyu Zhou, Bo Xu(参考訳) 実世界のアプリケーションにエンドツーエンドの自動音声認識(E2E-ASR)システムを使用する場合、通常、音声中の非音声部分を捨ててパフォーマンスを改善し、計算コストを削減するために音声活動検出(VAD)システムが必要です。 本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。 提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。 VADの補助により、その接続性時間分類(CTC)損失関数がVADアライメント情報を活用することにより、ASR性能が向上する。 推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。 セグメント化音声データを用いた実験の結果,提案フレームワークは,asrタスクにおけるstlフレームワークよりも優れていることがわかった。 非セグメント音声データから、LR-SRシステムは、追加のGMMベースまたはDNNベースの音声活動検知器を構築するベースラインASRシステムより優れていることが分かる。

When we use End-to-end automatic speech recognition (E2E-ASR) system for real-world applications, a voice activity detection (VAD) system is usually needed to improve the performance and to reduce the computational cost by discarding non-speech parts in the audio. This paper presents a novel end-to-end (E2E), multi-task learning (MTL) framework that integrates ASR and VAD into one model. The proposed system, which we refer to as Long-Running Speech Recognizer (LR-SR), learns ASR and VAD jointly from two seperate task-specific datasets in the training stage. With the assistance of VAD, the ASR performance improves as its connectionist temporal classification (CTC) loss function can leverage the VAD alignment information. In the inference stage, the LR-SR system removes non-speech parts at low computational cost and recognizes speech parts with high robustness. Experimental results on segmented speech data show that the proposed MTL framework outperforms the baseline single-task learning (STL) framework in ASR task. On unsegmented speech data, we find that the LR-SR system outperforms the baseline ASR systems that build an extra GMM-based or DNN-based voice activity detector.
翻訳日:2021-03-03 16:09:34 公開日:2021-03-02
# カメラモーションからの深さと物体検出

Depth from Camera Motion and Object Detection ( http://arxiv.org/abs/2103.01468v1 )

ライセンス: Link先を確認
Brent A. Griffin and Jason J. Corso(参考訳) 本稿では, カメラ動作の測定値から検出対象の深さを推定する学習(例えば, ロボット運動学や車体計測学など)の課題に対処する。 1)境界ボックスとアンキャリブレーションカメラの動きの一般化された表現を用いてオブジェクトの深さを推定するリカレントニューラルネットワーク(DBox)を設計し、2)モーションおよび検出データセット(ODMD)を介してオブジェクト深さを導入する。 ODMDトレーニングデータは拡張可能で構成可能であり、ODMDベンチマークには4つの検証とテストセットにわたる21,600の例が含まれている。 これらのセットには、エンドエフェクタカメラを使用してYCBデータセットからオブジェクトを見つけるモバイルロボット実験や、カメラの動きやバウンディングボックスデータに摂動を加えた例が含まれる。 odmdベンチマークに加えて、他の単眼アプリケーションドメインにおけるdboxを評価し、既存の運転およびロボティクスベンチマークで最先端の結果を達成し、カメラフォンを用いてオブジェクトの深さを推定する。

This paper addresses the problem of learning to estimate the depth of detected objects given some measurement of camera motion (e.g., from robot kinematics or vehicle odometry). We achieve this by 1) designing a recurrent neural network (DBox) that estimates the depth of objects using a generalized representation of bounding boxes and uncalibrated camera movement and 2) introducing the Object Depth via Motion and Detection Dataset (ODMD). ODMD training data are extensible and configurable, and the ODMD benchmark includes 21,600 examples across four validation and test sets. These sets include mobile robot experiments using an end-effector camera to locate objects from the YCB dataset and examples with perturbations added to camera motion or bounding box data. In addition to the ODMD benchmark, we evaluate DBox in other monocular application domains, achieving state-of-the-art results on existing driving and robotics benchmarks and estimating the depth of objects using a camera phone.
翻訳日:2021-03-03 16:04:03 公開日:2021-03-02
# 点と線の特徴を持つ単眼視SLAMの退化回避

Avoiding Degeneracy for Monocular Visual SLAM with Point and Line Features ( http://arxiv.org/abs/2103.01501v1 )

ライセンス: Link先を確認
Hyunjun Lim, Yeeun Kim, Kwangik Jung, Sumin Hu, and Hyun Myung(参考訳) 本論文では, 点と線に基づく視覚SLAMアルゴリズムの退化回避法を提案する。 Visual SLAMは主にポイント機能を使用します。 しかし、低テクスチャと照度変動環境では点特徴が頑健性に欠ける。 したがって、線特徴は点特徴の弱点を補うために用いられる。 さらに、点特徴は肉眼で識別可能な特徴を表すには不十分であり、つまり写像点特徴は認識できない。 上記の制限を克服するため、以前の研究ではラインの特徴が積極的に採用されていた。 しかし,本論文では,ライン機能の使用過程で退化が起きるため,この問題の解決を試みる。 まず, 縮退線を識別する簡単な方法を提案する。 さらに, 縮退問題を回避するために, 新たな構造制約を提案する。 最後に、堅牢な光フローに基づくリエン追跡法を用いた点線単眼SLAMシステムを実装します。 結果はEuRoCデータセットを用いて検証され、他の最先端アルゴリズムと比較される。 より正確な位置決めとマッピング結果が得られることが証明されています。

In this paper, a degeneracy avoidance method for a point and line based visual SLAM algorithm is proposed. Visual SLAM predominantly uses point features. However, point features lack robustness in low texture and illuminance variant environments. Therefore, line features are used to compensate the weaknesses of point features. In addition, point features are poor in representing discernable features for the naked eye, meaning mapped point features cannot be recognized. To overcome the limitations above, line features were actively employed in previous studies. However, since degeneracy arises in the process of using line features, this paper attempts to solve this problem. First, a simple method to identify degenerate lines is presented. In addition, a novel structural constraint is proposed to avoid the degeneracy problem. At last, a point and line based monocular SLAM system using a robust optical-flow based lien tracking method is implemented. The results are verified using experiments with the EuRoC dataset and compared with other state-of-the-art algorithms. It is proven that our method yields more accurate localization as well as mapping results.
翻訳日:2021-03-03 16:03:45 公開日:2021-03-02
# 視覚的再構成とナビゲーションのためのポースオンリーソリューション

A Pose-only Solution to Visual Reconstruction and Navigation ( http://arxiv.org/abs/2103.01530v1 )

ライセンス: Link先を確認
Qi Cai, Lilian Zhang, Yuanxin Wu, Wenxian Yu, Dewen Hu(参考訳) ロボットが周囲の環境と対話するためには,視覚ナビゲーションと3次元シーン再構成が不可欠である。 大規模なシーンやクリティカルなカメラの動きは、この目標を達成するために研究コミュニティが直面する大きな課題です。 私たちは、これらの課題を解決できるポーズオンリーのイメージングジオメトリフレームワークとアルゴリズムを立ち上げました。 この表現はカメラグローバル翻訳の線形関数であり、効率的で堅牢なカメラモーション推定を可能にする。 その結果、空間的特徴座標は解析的に再構成でき、非線形最適化を必要としない。 実験により,シーンの復元と関連するカメラポーズの計算効率が2~4桁向上することを示した。 このソリューションは、多くのフォアフロントアプリケーションでリアルタイムの3Dビジュアルコンピューティングをアンロックすることを約束するかもしれない。

Visual navigation and three-dimensional (3D) scene reconstruction are essential for robotics to interact with the surrounding environment. Large-scale scenes and critical camera motions are great challenges facing the research community to achieve this goal. We raised a pose-only imaging geometry framework and algorithms that can help solve these challenges. The representation is a linear function of camera global translations, which allows for efficient and robust camera motion estimation. As a result, the spatial feature coordinates can be analytically reconstructed and do not require nonlinear optimization. Experiments demonstrate that the computational efficiency of recovering the scene and associated camera poses is significantly improved by 2-4 orders of magnitude. This solution might be promising to unlock real-time 3D visual computing in many forefront applications.
翻訳日:2021-03-03 16:03:31 公開日:2021-03-02
# クラス特異的畳み込みによる効率的なDeep Image Denoising

Efficient Deep Image Denoising via Class Specific Convolution ( http://arxiv.org/abs/2103.01624v1 )

ライセンス: Link先を確認
Lu Xu, Jiawei Zhang, Xuanye Cheng, Feng Zhang, Xing Wei, Jimmy Ren(参考訳) 深層ニューラルネットワークはここ数年、画像の雑音化に広く使われてきた。 この問題で大きな成功を収めたものの、計算的に非効率であり、モバイルデバイスで実装するには不適当である。 本稿では,画素ワイド分類に基づく画像認識のための効率的なディープニューラルネットワークを提案する。 計算効率の良いネットワークでは、どんなコンテンツからでもノイズを効果的に取り除くことはできないが、特定のタイプのパターンやテクスチャから切り離すことができる。 提案手法は,このような分割征服方式に従う。 まず,局所勾配統計に基づく雑音画像中の画素の分類に効率的なU-netを用いる。 次に、既存のデノナイジングネットワークにおける畳み込み層の一部を、異なるクラスのピクセルに対して異なる重みを使用するクラス固有畳み込み層(CSConv)によって置き換える。 公開データセット上での定量的・定性評価は,提案手法が最先端アルゴリズムと比較して性能を犠牲にすることなく計算コストを削減できることを実証する。

Deep neural networks have been widely used in image denoising during the past few years. Even though they achieve great success on this problem, they are computationally inefficient which makes them inappropriate to be implemented in mobile devices. In this paper, we propose an efficient deep neural network for image denoising based on pixel-wise classification. Despite using a computationally efficient network cannot effectively remove the noises from any content, it is still capable to denoise from a specific type of pattern or texture. The proposed method follows such a divide and conquer scheme. We first use an efficient U-net to pixel-wisely classify pixels in the noisy image based on the local gradient statistics. Then we replace part of the convolution layers in existing denoising networks by the proposed Class Specific Convolution layers (CSConv) which use different weights for different classes of pixels. Quantitative and qualitative evaluations on public datasets demonstrate that the proposed method can reduce the computational costs without sacrificing the performance compared to state-of-the-art algorithms.
翻訳日:2021-03-03 16:03:23 公開日:2021-03-02
# 視覚データ処理のための脳型アルゴリズム

Brain-inspired algorithms for processing of visual data ( http://arxiv.org/abs/2103.01634v1 )

ライセンス: Link先を確認
Nicola Strisciuglio(参考訳) 脳の視覚系の研究は、脳を構成するいくつかの種類のニューロンの計算モデルから派生した多くの神経科学者の関心と関心を惹きつけている。 これらの発見は画像処理とコンピュータビジョンの研究者に視覚データ処理の問題を解決するためにそのようなモデルをデプロイするきっかけとなった。 本稿では、視覚野におけるいくつかのニューロンの機能に関する神経科学的な知見に基づいて、画像処理とコンピュータビジョンのアプローチを検討する。 さらに、脳の視覚系の階層構造と畳み込みネットワーク(Convolutional Networks, ConvNets)の構造とのつながりを分析します。 入力刺激の変化に対する安定性が向上した視覚系を提供するニューロンの応答抑制機構に特に注意を払い、画像処理オペレータとconvnetsにおけるそれらの実装について論じる。

The study of the visual system of the brain has attracted the attention and interest of many neuro-scientists, that derived computational models of some types of neuron that compose it. These findings inspired researchers in image processing and computer vision to deploy such models to solve problems of visual data processing. In this paper, we review approaches for image processing and computer vision, the design of which is based on neuro-scientific findings about the functions of some neurons in the visual cortex. Furthermore, we analyze the connection between the hierarchical organization of the visual system of the brain and the structure of Convolutional Networks (ConvNets). We pay particular attention to the mechanisms of inhibition of the responses of some neurons, which provide the visual system with improved stability to changing input stimuli, and discuss their implementation in image processing operators and in ConvNets.
翻訳日:2021-03-03 16:03:09 公開日:2021-03-02
# 超解像圧縮画像の並列化とアーティファクト低減と分解能向上のシリーズ統合

Super-resolving Compressed Images via Parallel and Series Integration of Artifact Reduction and Resolution Enhancement ( http://arxiv.org/abs/2103.01698v1 )

ライセンス: Link先を確認
Hongming Luo, Fei Zhou, Guangsen Liao, and Guoping Qiu(参考訳) 実世界のアプリケーションでは、画像はサブサンプリングされるだけでなく、様々なアーティファクトを含むように重く圧縮される。 このような画像の解像度を高める簡単な方法は、アーティファクトを悪化させ、視覚的に不快にさせる。 実用的価値は高いものの,圧縮画像の超解像は文献ではあまり研究されていない。 本論文では,アーティファクト除去と解像度向上の並列および直列統合に基づく新しい圧縮画像超解像(CISR)フレームワークを提案する。 クリーンな低分解能(LR)入力画像と、ダウンサンプリングおよび圧縮観察からのクリーンな高分解能(HR)出力イメージを推定するための最大後方推論に基づいて、アーティファクトリダクションモジュール(ARM)とリゾリューションエンハンスモジュール(REM)の2つのディープニューラルネットワークモジュールからなるCISRアーキテクチャを設計しました。 ARMとREMは、圧縮LRイメージを入力として取得することと並行して動作し、REMはARMの出力を入力の1つとして取得し、ARMはREMの出力を他の入力として取得する。 CSIRシステムのユニークな特徴は、異なる方法で圧縮されたLR画像を様々な品質に超解ける1つの訓練されたモデルである。 これは、画像劣化を処理するためのディープニューラルネットワーク容量と、ARMとREM間の並列および直列接続を利用して、特定の劣化への依存を減らすことで実現される。 ARMとREMは、深層展開技術によって同時に訓練される。 JPEGとWebP圧縮画像の混合に対して,圧縮型と圧縮係数の事前知識のない実験を行った。 視覚的および定量的比較は,最先端スーパーリゾルメンテーション法よりも優れていることを示す。

In real-world applications, images may be not only sub-sampled but also heavily compressed thus often containing various artifacts. Simple methods for enhancing the resolution of such images will exacerbate the artifacts, rendering them visually objectionable. In spite of its high practical values, super-resolving compressed images is not well studied in the literature. In this paper, we propose a novel compressed image super resolution (CISR) framework based on parallel and series integration of artifact removal and resolution enhancement. Based on maximum a posterior inference for estimating a clean low-resolution (LR) input image and a clean high resolution (HR) output image from down-sampled and compressed observations, we have designed a CISR architecture consisting of two deep neural network modules: the artifact reduction module (ARM) and resolution enhancement module (REM). ARM and REM work in parallel with both taking the compressed LR image as their inputs, while they also work in series with REM taking the output of ARM as one of its inputs and ARM taking the output of REM as its other input. A unique property of our CSIR system is that a single trained model is able to super-resolve LR images compressed by different methods to various qualities. This is achieved by exploiting deep neural net-works capacity for handling image degradations, and the parallel and series connections between ARM and REM to reduce the dependency on specific degradations. ARM and REM are trained simultaneously by the deep unfolding technique. Experiments are conducted on a mixture of JPEG and WebP compressed images without a priori knowledge of the compression type and com-pression factor. Visual and quantitative comparisons demonstrate the superiority of our method over state-of-the-art super resolu-tion methods.
翻訳日:2021-03-03 16:02:56 公開日:2021-03-02
# wavelet-based subband decompositionを用いた画像分類のための構造的正規化畳み込みニューラルネットワーク

A Structurally Regularized Convolutional Neural Network for Image Classification using Wavelet-based SubBand Decomposition ( http://arxiv.org/abs/2103.01823v1 )

ライセンス: Link先を確認
Pavel Sinha, Ioannis Psaromiligkos, Zeljko Zilic(参考訳) ウェーブレットを用いた画像のサブバンド分解に基づく画像分類のための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 提案アーキテクチャは、入力画像スペクトルを複数の臨界サンプリングサブバンドに分解し、サブバンド毎に1つのCNNを用いて特徴を抽出し、最後に、抽出した特徴を完全連結層を用いて分類する。 各サブバンドを個別のCNNで処理することにより、各CNNの学習範囲を単一のサブバンドに制限し、構造正規化の形式を課す。 これにより、上述した結果に示すように、より優れた一般化能力が得られる。 提案アーキテクチャは,総乗算加算器演算における最良クラス性能と,総パラメータの観点からは最良クラス性能を実現するが,競合クラス性能は維持する。 また,提案手法は,重みとバイアスの量子化と入力量子化によって生じる雑音に対して,通常のフルバンドcnnよりも頑健であることを示す。

We propose a convolutional neural network (CNN) architecture for image classification based on subband decomposition of the image using wavelets. The proposed architecture decomposes the input image spectra into multiple critically sampled subbands, extracts features using a single CNN per subband, and finally, performs classification by combining the extracted features using a fully connected layer. Processing each of the subbands by an individual CNN, thereby limiting the learning scope of each CNN to a single subband, imposes a form of structural regularization. This provides better generalization capability as seen by the presented results. The proposed architecture achieves best-in-class performance in terms of total multiply-add-accumul ator operations and nearly best-in-class performance in terms of total parameters required, yet it maintains competitive classification performance. We also show the proposed architecture is more robust than the regular full-band CNN to noise caused by weight-and-bias quantization and input quantization.
翻訳日:2021-03-03 16:02:29 公開日:2021-03-02
# grad-cam heatmapsによるテスト自動化 -- vision aiのためのmlopsの今後のパイプセグメント?

Test Automation with Grad-CAM Heatmaps -- A Future Pipe Segment in MLOps for Vision AI? ( http://arxiv.org/abs/2103.01837v1 )

ライセンス: Link先を確認
Markus Borg, Ronald Jabangwe, Simon {\AA}berg, Arvid Ekblom, Ludwig Hedlund, August Lidfeldt(参考訳) 機械学習(ML)は現代の知覚システムの基本部分である。 過去10年間、訓練されたディープニューラルネットワークを用いたコンピュータビジョンのパフォーマンスは、注意深い機能工学に基づく以前のアプローチを上回っている。 しかし、大規模なMLモデルの不透明さは、自動車の文脈のような重要な応用にとって重大な障害となる。 モデル内部を視覚的に説明するために,グラデーション重み付けクラスアクティベーションマッピング(grad-cam)が提案されている。 本稿では,Grad-CAMのヒートマップを用いて,歩行者の地下道で訓練された画像認識モデルの説明性を高める方法について述べる。 我々は、このヒートマップがEUの7つの重要な要件であるTrustworthy AIへのコンプライアンスをどのようにサポートしているかを議論する。 最後に、MLOpsパイプラインにパイプセグメントとして自動ヒートマップ解析を追加することを提案する。 このようなビルディングブロックは、テストイメージの無効なピクセルに基づいて訓練されたMLモデルがアクティブになっているかどうかを自動的に検出し、バイアスモデルを提案する。

Machine Learning (ML) is a fundamental part of modern perception systems. In the last decade, the performance of computer vision using trained deep neural networks has outperformed previous approaches based on careful feature engineering. However, the opaqueness of large ML models is a substantial impediment for critical applications such as in the automotive context. As a remedy, Gradient-weighted Class Activation Mapping (Grad-CAM) has been proposed to provide visual explanations of model internals. In this paper, we demonstrate how Grad-CAM heatmaps can be used to increase the explainability of an image recognition model trained for a pedestrian underpass. We argue how the heatmaps support compliance to the EU's seven key requirements for Trustworthy AI. Finally, we propose adding automated heatmap analysis as a pipe segment in an MLOps pipeline. We believe that such a building block can be used to automatically detect if a trained ML-model is activated based on invalid pixels in test images, suggesting biased models.
翻訳日:2021-03-03 16:02:11 公開日:2021-03-02
# HED-UNet:南極海岸線監視のためのセグメンテーションとエッジ検出の組み合わせ

HED-UNet: Combined Segmentation and Edge Detection for Monitoring the Antarctic Coastline ( http://arxiv.org/abs/2103.01849v1 )

ライセンス: Link先を確認
Konrad Heidler, Lichao Mou, Celia Baumhoer, Andreas Dietz, Xiao Xiang Zhu(参考訳) 近年, 深層学習に基づく海岸線検出アルゴリズムが, 従来の統計手法を上回り始めている。 しかし、それらは通常、陸地と水を分断するか、海岸線を分断する単一目的のモデルとしてのみ訓練される。 これとは対照的に、人間のアノテーションーは通常、手動海岸線検出を行う際に、セグメンテーションとデラインの両方のメンタルマップを保持します。 このタスクの双対性を考慮するため、我々はこれらの2つのアプローチを深層学習モデルで統一する新しいモデルを考え出した。 セマンティックセグメンテーションフレームワーク(UNet)とエッジ検出フレームワーク(HED)の主なビルディングブロックからインスピレーションを得て、どちらのタスクも自然な方法で結合される。 複数の解像度でサイド予測を深く監視し、トレーニングを効率化します。 最後に、これらの多スケール予測を最終モデル出力に適応的にマージする階層的注意機構を導入する。 このアプローチの利点は、海岸線検出が難しい南極海岸の一部をカバーするセンチネル-1画像のデータセットで、他の伝統的および深層学習に基づく海岸線検出方法よりも優れている。 このメソッドの実装は \url{https://github.com/k hdlr/HED-UNet} で入手できる。

Deep learning-based coastline detection algorithms have begun to outshine traditional statistical methods in recent years. However, they are usually trained only as single-purpose models to either segment land and water or delineate the coastline. In contrast to this, a human annotator will usually keep a mental map of both segmentation and delineation when performing manual coastline detection. To take into account this task duality, we therefore devise a new model to unite these two approaches in a deep learning model. By taking inspiration from the main building blocks of a semantic segmentation framework (UNet) and an edge detection framework (HED), both tasks are combined in a natural way. Training is made efficient by employing deep supervision on side predictions at multiple resolutions. Finally, a hierarchical attention mechanism is introduced to adaptively merge these multiscale predictions into the final model output. The advantages of this approach over other traditional and deep learning-based methods for coastline detection are demonstrated on a dataset of Sentinel-1 imagery covering parts of the Antarctic coast, where coastline detection is notoriously difficult. An implementation of our method is available at \url{https://github.com/k hdlr/HED-UNet}.
翻訳日:2021-03-03 16:01:57 公開日:2021-03-02
# Masked Face Recognition: Human vs. Machine

Masked Face Recognition: Human vs. Machine ( http://arxiv.org/abs/2103.01924v1 )

ライセンス: Link先を確認
Naser Damer, Fadi Boutros, Marius S\"u{\ss}milch, Meiling Fang, Florian Kirchbuchner, Arjan Kuijper(参考訳) 最近のCOVID-19パンデミックは、衛生的で無接触のアイデンティティ検証方法に焦点を当てています。 しかし、パンデミックは、パンデミックをコントロールし続けるために不可欠なフェイスマスクの広範な使用につながりました。 協調環境における顔認識に対するマスク着用の影響は,現在,未検討の課題である。 最近の報告では、自動顔認識ソリューションの性能に対するマスクプローブ効果を評価している。 しかし、そのようなソリューションは特定のプロセスで失敗し、人間の専門家による検証タスクを実行する。 本研究は,最先端の顔認識ソリューションと比較して,人間専門家の顔認証性能を共同評価し,詳細な分析を行う。 これには、12人の人間専門家と4つの自動認識ソリューションによる広範な評価が含まれる。 この研究は、人間と機械の検証行動の相関の異なる側面に関する一連のテイクホームメッセージで締めくくっている。

The recent COVID-19 pandemic has increased the focus on hygienic and contactless identity verification methods. However, the pandemic led to the wide use of face masks, essential to keep the pandemic under control. The effect of wearing a mask on face recognition in a collaborative environment is currently sensitive yet understudied issue. Recent reports have tackled this by evaluating the masked probe effect on the performance of automatic face recognition solutions. However, such solutions can fail in certain processes, leading to performing the verification task by a human expert. This work provides a joint evaluation and in-depth analyses of the face verification performance of human experts in comparison to state-of-the-art automatic face recognition solutions. This involves an extensive evaluation with 12 human experts and 4 automatic recognition solutions. The study concludes with a set of take-home-messages on different aspects of the correlation between the verification behavior of human and machine.
翻訳日:2021-03-03 16:01:36 公開日:2021-03-02
# 効率的なニューラルレンダリングのためのボリュームプリミティブの混合

Mixture of Volumetric Primitives for Efficient Neural Rendering ( http://arxiv.org/abs/2103.01954v1 )

ライセンス: Link先を確認
Stephen Lombardi, Tomas Simon, Gabriel Schwartz, Michael Zollhoefer, Yaser Sheikh, Jason Saragih(参考訳) 人間のリアルタイムレンダリングとアニメーションは、ゲーム、映画、テレプレゼンスアプリケーションにおいてコア機能である。 既存の方法には、私たちの仕事で対処しようとする多くの欠点があります。 トライアングルメッシュは、ヘアのような薄い構造をモデル化するのが困難であり、ニューラルネットワークボリュームのようなボリューム表現は、適切なメモリ予算を考えると解像度が低く、ニューラルネットワークの放射フィールドのような高分解能の暗黙表現は、リアルタイムアプリケーションで使用するには遅すぎる。 本稿では,ボリューム表現の完全性と,ポイントベースやメッシュベースといったプリミティブベースのレンダリング効率を組み合わせた動的3dコンテンツのレンダリングのための表現であるボリュームプリミティブ(mvp)の混合について述べる。 提案手法は,空間的に共有された計算をデコンボリューションアーキテクチャで利用し,空間の空き領域における計算を,占有領域のみをカバーできる体積プリミティブで最小化する。 パラメータ化は対応制約と追跡制約の統合をサポートし、また、薄いあるいは半透明な構造や大きなトポロジカル変数を持つ領域など、古典的な追跡が失敗する領域に対して堅牢である。 MVPは、ボリュームとプリミティブベースの表現の両方を一般化するハイブリッドです。 一連の広範な実験を通じて、我々はそれがそれらの制限の多くを避けながら、各々の強みを継承することを実証します。 我々はまた、私たちのアプローチを最先端のいくつかのメソッドと比較し、MVPが品質と実行時のパフォーマンスの点で優れた結果をもたらすことを示す。

Real-time rendering and animation of humans is a core function in games, movies, and telepresence applications. Existing methods have a number of drawbacks we aim to address with our work. Triangle meshes have difficulty modeling thin structures like hair, volumetric representations like Neural Volumes are too low-resolution given a reasonable memory budget, and high-resolution implicit representations like Neural Radiance Fields are too slow for use in real-time applications. We present Mixture of Volumetric Primitives (MVP), a representation for rendering dynamic 3D content that combines the completeness of volumetric representations with the efficiency of primitive-based rendering, e.g., point-based or mesh-based methods. Our approach achieves this by leveraging spatially shared computation with a deconvolutional architecture and by minimizing computation in empty regions of space with volumetric primitives that can move to cover only occupied regions. Our parameterization supports the integration of correspondence and tracking constraints, while being robust to areas where classical tracking fails, such as around thin or translucent structures and areas with large topological variability. MVP is a hybrid that generalizes both volumetric and primitive-based representations. Through a series of extensive experiments we demonstrate that it inherits the strengths of each, while avoiding many of their limitations. We also compare our approach to several state-of-the-art methods and demonstrate that MVP produces superior results in terms of quality and runtime performance.
翻訳日:2021-03-03 16:01:23 公開日:2021-03-02
# DeepReDuce: 高速プライベート推論のためのReLU削減

DeepReDuce: ReLU Reduction for Fast Private Inference ( http://arxiv.org/abs/2103.01396v1 )

ライセンス: Link先を確認
Nandan Kumar Jha, Zahra Ghodsi, Siddharth Garg, Brandon Reagen(参考訳) 最近のプライバシーの懸念の高まりにより、研究者はプライベートなニューラルネットワーク推論の手法を考案しました。 プライベート推論に直面する主な課題は、暗号化されたデータに対する計算が非現実的に高いレイテンシのペナルティを課すことである。 実用的でプライベートな推論を可能にするには、精度を維持しながらネットワークリルーカウントを最小化する新しい最適化手法が必要である。 本稿では,プライベートな推論遅延を低減するために,ReLUを不正に除去するための最適化セットであるDeepReDuceを提案する。 重要な洞察は、すべてのReLUが正確性に等しく貢献するわけではないことである。 この洞察を利用して、古典的なネットワークからReLUをドロップまたは削除し、推論遅延を大幅に低減し、高い精度を維持する。 DeepReDuceは、ターゲットネットワークを指定し、ReLUの数と精度をトレードオフするネットワークのParetoフロンティアを出力します。 プライベート推論のための最先端のDeepReDuceと比較して、精度が向上し、ReLUカウントを最大3.5%(iso-ReLUカウント)と3.5$\times$(iso-accu racy)に削減します。

The recent rise of privacy concerns has led researchers to devise methods for private neural inference -- where inferences are made directly on encrypted data, never seeing inputs. The primary challenge facing private inference is that computing on encrypted data levies an impractically-high latency penalty, stemming mostly from non-linear operators like ReLU. Enabling practical and private inference requires new optimization methods that minimize network ReLU counts while preserving accuracy. This paper proposes DeepReDuce: a set of optimizations for the judicious removal of ReLUs to reduce private inference latency. The key insight is that not all ReLUs contribute equally to accuracy. We leverage this insight to drop, or remove, ReLUs from classic networks to significantly reduce inference latency and maintain high accuracy. Given a target network, DeepReDuce outputs a Pareto frontier of networks that tradeoff the number of ReLUs and accuracy. Compared to the state-of-the-art for private inference DeepReDuce improves accuracy and reduces ReLU count by up to 3.5% (iso-ReLU count) and 3.5$\times$ (iso-accuracy), respectively.
翻訳日:2021-03-03 15:52:36 公開日:2021-03-02
# 木質構造を有する複合広告クリエイティブの効率的な最適選定

Efficient Optimal Selection for Composited Advertising Creatives with Tree Structure ( http://arxiv.org/abs/2103.01453v1 )

ライセンス: Link先を確認
Jin Chen, Tiezheng Ge, Gangwei Jiang, Zhiqiang Zhang, Defu Lian, Kai Zheng(参考訳) 広告クリエイティビティはオンラインeコマース広告の著名な媒体の1つだ。 視覚的に楽しめる広告クリエイティビティは、製品のクリックスルーレート(CTR)を増加させる可能性がある。 広告クリエイティブは通常、広告主によって手作りされ、広告プラットフォームに配信される。 近年、広告プラットフォームは、各要素の任意に指定された要素を広告クリエイティビティに即時に組み込むことができるため、広告主は基本資料の提供しか必要としない。 広告主をファシリテートしながら、多くの潜在的な広告クリエイティブをコンポジットすることができ、限られたリアルタイムフィードバックでCTRを正確に推定することは困難です。 そこで本研究では,木構造に基づく適応的で効率的なアドクリエイティブ選択(AES)フレームワークを提案する。 合成材料上の木構造は、CTRに基づく効率的な広告創造的選択のための動的プログラミングを可能にする。 限られたフィードバックのため、CTR推定器は通常高いばらつきを持つ。 トンプソンサンプリングに基づく探索手法は、CTR推定器のばらつきを低減し、フィードバック間隔を緩和するために広く用いられている。 ツリー構造に基づいて、トンプソンサンプリングは動的プログラミングに適応され、最大のCTRを持つ潜在的な広告クリエイティブの効率的な探索につながります。 最後に,提案アルゴリズムを合成データセットと実世界のデータセットで評価する。 その結果, コンバージェンス率とCTR全体の比較では, 競合するベースラインよりも優れていることがわかった。

Ad creatives are one of the prominent mediums for online e-commerce advertisements. Ad creatives with enjoyable visual appearance may increase the click-through rate (CTR) of products. Ad creatives are typically handcrafted by advertisers and then delivered to the advertising platforms for advertisement. In recent years, advertising platforms are capable of instantly compositing ad creatives with arbitrarily designated elements of each ingredient, so advertisers are only required to provide basic materials. While facilitating the advertisers, a great number of potential ad creatives can be composited, making it difficult to accurately estimate CTR for them given limited real-time feedback. To this end, we propose an Adaptive and Efficient ad creative Selection (AES) framework based on a tree structure. The tree structure on compositing ingredients enables dynamic programming for efficient ad creative selection on the basis of CTR. Due to limited feedback, the CTR estimator is usually of high variance. Exploration techniques based on Thompson sampling are widely used for reducing variances of the CTR estimator, alleviating feedback sparsity. Based on the tree structure, Thompson sampling is adapted with dynamic programming, leading to efficient exploration for potential ad creatives with the largest CTR. We finally evaluate the proposed algorithm on the synthetic dataset and the real-world dataset. The results show that our approach can outperform competing baselines in terms of convergence rate and overall CTR.
翻訳日:2021-03-03 15:52:15 公開日:2021-03-02
# エンコーダデコーダに基づく深畳み込みニューラルネットワークを用いたグリッド温度予測の統計的後処理

Statistical Post-processing for Gridded Temperature Forecasts Using Encoder-Decoder Based Deep Convolutional Neural Networks ( http://arxiv.org/abs/2103.01479v1 )

ライセンス: Link先を確認
Atsushi Kudo(参考訳) 日本気象庁(JMA)は,表層温度の影響を受けやすいため,積雪量や降水量を予測するための格子状温度誘導を運用している。 操作温度誘導はカルマンフィルタ法に基づいており,観測地点でのみ温度観測とNWP出力を用いるが,NWPモデルが前線の位置を正確に予測しなかったり,観測温度が極端に寒かったり,高温であったりする場合には温度場を補正することは困難である。 本稿では, 関東地方の表面の格子温度を予測するために, エンコーダデコーダ型畳み込みニューラルネットワーク(cnns)を用いた。 評価の結果,提案手法は操作指針を大幅に改善し,前線の位置誤差や極温度などのNWPモデルのバイアスを補正できることがわかった。

Japan Meteorological Agency (JMA) has been operating gridded temperature guidance for predicting snow amount and precipitation type because those elements are susceptible to a temperature at the surface. The operational temperature guidance is based on the Kalman filter technique and uses temperature observation and NWP outputs only at observation sites; it has been difficult to correct a temperature field when NWP models did not predict the location of a front correctly or when the observed temperature was extremely cold or hot. In the present paper, encoder-decoder-base d convolutional neural networks (CNNs) were employed to predict gridded temperatures at the surface around the Kanto district. The verification results showed that the proposed method improves operational guidance significantly and can correct NWP model biases, including a positional error of fronts and extreme temperatures.
翻訳日:2021-03-03 15:51:56 公開日:2021-03-02
# マインドマッピング: 効率的なアルゴリズムアクセラレータマッピング空間検索の実現

Mind Mappings: Enabling Efficient Algorithm-Accelerato r Mapping Space Search ( http://arxiv.org/abs/2103.01489v1 )

ライセンス: Link先を確認
Kartik Hegde, Po-An Tsai, Sitao Huang, Vikas Chandra, Angshuman Parashar, and Christopher W. Fletcher(参考訳) 現代のコンピューティングは、増大する性能と効率の要求を満たすために、ますます専門化に依存している。 このような特殊なハードウェアアーキテクチャを設計する上でのコアとなる課題は、マッピング空間探索、すなわちアルゴリズムからハードウェアへの最適なマッピングの探索方法である。 以前の研究によると、非効率なマッピングを選択すると、乗算係数の効率のオーバーヘッドが生じる可能性がある。 さらに、検索空間は大きいだけでなく、高度な検索テクニックを前もって非凸かつ非平滑である。 その結果、従来の研究は、専門家の選択や準最適探索ヒューリスティックを用いて、マッピング空間探索を実装することを余儀なくされた。 本研究では,アルゴリズムアクセラレータマッピング空間探索のための新しい勾配に基づく探索手法であるマインドマッピングを提案する。 鍵となるアイデアは、滑らかで微分可能な近似を非滑らかで凸でない探索空間に導出することである。 滑らかで微分可能な近似により、効率的な勾配に基づく探索アルゴリズムを利用して高品質なマッピングを見つけることができる。 我々は、マインドマッピングを事前作業で使用されるブラックボックス最適化スキームと比較する。 2つの重要なワークロード(CNNとMTTKRP)のマッピングを見つけるために、提案された検索は、平均$1.40\times$、$1.76\times$、$1.29\times$(一定数のステップで実行される場合)と$3.16\times$、$4.19\times$、および$2.90\times$(一定の時間で実行される場合)シミュレートアニーリング、遺伝的アルゴリズムおよび強化学習と比較してより良いエネルギー遅延製品(EDP)を達成するマッピングを見つける。 一方、マインドマッピングは理論上の下界よりも高い5.32\times$5.32\time sのマッピングを返す。

Modern day computing increasingly relies on specialization to satiate growing performance and efficiency requirements. A core challenge in designing such specialized hardware architectures is how to perform mapping space search, i.e., search for an optimal mapping from algorithm to hardware. Prior work shows that choosing an inefficient mapping can lead to multiplicative-facto r efficiency overheads. Additionally, the search space is not only large but also non-convex and non-smooth, precluding advanced search techniques. As a result, previous works are forced to implement mapping space search using expert choices or sub-optimal search heuristics. This work proposes Mind Mappings, a novel gradient-based search method for algorithm-accelerato r mapping space search. The key idea is to derive a smooth, differentiable approximation to the otherwise non-smooth, non-convex search space. With a smooth, differentiable approximation, we can leverage efficient gradient-based search algorithms to find high-quality mappings. We extensively compare Mind Mappings to black-box optimization schemes used in prior work. When tasked to find mappings for two important workloads (CNN and MTTKRP), the proposed search finds mappings that achieve an average $1.40\times$, $1.76\times$, and $1.29\times$ (when run for a fixed number of steps) and $3.16\times$, $4.19\times$, and $2.90\times$ (when run for a fixed amount of time) better energy-delay product (EDP) relative to Simulated Annealing, Genetic Algorithms and Reinforcement Learning, respectively. Meanwhile, Mind Mappings returns mappings with only $5.32\times$ higher EDP than a possibly unachievable theoretical lower-bound, indicating proximity to the global optima.
翻訳日:2021-03-03 15:51:39 公開日:2021-03-02
# activeguard:adversar ial exampleによるアクティブなdnn ip保護技術

ActiveGuard: An Active DNN IP Protection Technique via Adversarial Examples ( http://arxiv.org/abs/2103.01527v1 )

ライセンス: Link先を確認
Mingfu Xue, Shichang Sun, Can He, Yushu Zhang, Jian Wang, Weiqiang Liu(参考訳) ディープニューラルネットワーク(DNN)のトレーニングは高価であるため、DNNはモデル所有者の知的財産(IP)と見なすことができます。 これまで、既存の保護作業のほとんどは、DNNモデルが盗まれた後に所有権を検証することに重点を置いています。 そこで本研究では,DNN海賊行為に対する敵例に基づくアクティブなDNNIP保護手法であるActiveGuardを提案する。 ActiveGuardは、敵の例を通じて認証制御とユーザの指紋管理を実現し、オーナシップの検証を提供する。 具体的には、activeguardは、認証されたユーザーと不正なユーザーを区別するユーザーの指紋として、複雑な敵の例を利用する。 認証認証や認証使用のためにDNNに指紋を入力できるが、認証されていないユーザは、追加のコントロール層により、モデルのパフォーマンスが低下する。 さらに、ActiveGuardはモデル所有者がDNNの重みに透かしを埋め込むことを可能にする。 dnnが違法に海賊化されると、モデルオーナーは埋め込み透かしを抽出し、所有権確認を行うことができる。 実験の結果,LeNet-5 と Wide Residual Network (WRN) の試験精度はそれぞれ 99.15% と 91.46% であり,未承認のユーザでは2つの DNN の試験精度は 8.92% (LeNet-5) と 10% (WRN) であることがわかった。 さらに、認証された各ユーザは、高い成功率(最大100%)で指紋認証をパスすることができる。 オーナシップ検証では,DNNモデルの通常の性能には影響しないが,組込み透かしをうまく抽出することができる。 さらに、ActiveGuardは指紋偽造攻撃、モデル微調整攻撃、プルーニング攻撃に対して堅牢であることが示されている。

The training of Deep Neural Networks (DNN) is costly, thus DNN can be considered as the intellectual properties (IP) of model owners. To date, most of the existing protection works focus on verifying the ownership after the DNN model is stolen, which cannot resist piracy in advance. To this end, we propose an active DNN IP protection method based on adversarial examples against DNN piracy, named ActiveGuard. ActiveGuard aims to achieve authorization control and users' fingerprints management through adversarial examples, and can provide ownership verification. Specifically, ActiveGuard exploits the elaborate adversarial examples as users' fingerprints to distinguish authorized users from unauthorized users. Legitimate users can enter fingerprints into DNN for identity authentication and authorized usage, while unauthorized users will obtain poor model performance due to an additional control layer. In addition, ActiveGuard enables the model owner to embed a watermark into the weights of DNN. When the DNN is illegally pirated, the model owner can extract the embedded watermark and perform ownership verification. Experimental results show that, for authorized users, the test accuracy of LeNet-5 and Wide Residual Network (WRN) models are 99.15% and 91.46%, respectively, while for unauthorized users, the test accuracy of the two DNNs are only 8.92% (LeNet-5) and 10% (WRN), respectively. Besides, each authorized user can pass the fingerprint authentication with a high success rate (up to 100%). For ownership verification, the embedded watermark can be successfully extracted, while the normal performance of the DNN model will not be affected. Further, ActiveGuard is demonstrated to be robust against fingerprint forgery attack, model fine-tuning attack and pruning attack.
翻訳日:2021-03-03 15:50:59 公開日:2021-03-02
# 気を付けて! 物性推定のための人の動きの観察

Careful with That! Observation of Human Movements to Estimate Objects Properties ( http://arxiv.org/abs/2103.01555v1 )

ライセンス: Link先を確認
Linda Lastrico, Alessandro Carf\`i, Alessia Vignolo, Alessandra Sciutti, Fulvio Mastrogiovanni and Francesco Rea(参考訳) 人間はパートナーの動きの微妙な特性を解釈し、このスキルを使用してスムーズな相互作用を促進するのに非常に効果的です。 したがって、人間の活動を支援するロボットプラットフォームは、同様の能力を得る必要がある。 この研究では、物体の重さとその操作に必要な注意力についての洞察を伝える人間の運動行動の特徴に焦点を当てた。 最終目標は、ロボットがオブジェクトハンドリングに必要なケアの度合いを自律的に推測し、人間の操作を観察するだけで、そのアイテムが軽いか重いかを識別できるようにすることです。 この予備研究は、カメラでシーンを観察するロボットにこれらの能力を実装するための有望なステップである。 実際、ロボットカメラやモーションキャプチャシステムからの視覚的取得のストリームに依存する機械学習アルゴリズムを通じて、オブジェクトを処理する際に人間のオペレータが慎重であるかどうかを確実に控除できることを実証しました。 一方,光と重物体を区別するには同じアプローチが不十分であることがわかった。

Humans are very effective at interpreting subtle properties of the partner's movement and use this skill to promote smooth interactions. Therefore, robotic platforms that support human partners in daily activities should acquire similar abilities. In this work we focused on the features of human motor actions that communicate insights on the weight of an object and the carefulness required in its manipulation. Our final goal is to enable a robot to autonomously infer the degree of care required in object handling and to discriminate whether the item is light or heavy, just by observing a human manipulation. This preliminary study represents a promising step towards the implementation of those abilities on a robot observing the scene with its camera. Indeed, we succeeded in demonstrating that it is possible to reliably deduct if the human operator is careful when handling an object, through machine learning algorithms relying on the stream of visual acquisition from either a robot camera or from a motion capture system. On the other hand, we observed that the same approach is inadequate to discriminate between light and heavy objects.
翻訳日:2021-03-03 15:50:28 公開日:2021-03-02
# 企業システムにおけるログ配置勧告の探索的研究

An Exploratory Study of Log Placement Recommendation in an Enterprise System ( http://arxiv.org/abs/2103.01755v1 )

ライセンス: Link先を確認
Jeanderson C\^andido, Jan Haesen, Maur\'icio Aniche, Arie van Deursen(参考訳) ロギングは複雑なシステムの運用と監視において重要な役割を果たす開発プラクティスである。 開発者は、ログステートメントをソースコードに置き、ログデータを使用して、システムが本番環境でどのように振る舞うかを理解する。 残念ながら、開発中のログの場所を期待することは難しい。 これまでの研究では、ログはコードベース全体のごく一部であるため、データの不均衡にもかかわらず、機械学習を活用してログ配置を推奨する可能性を示している。 しかし、これらの技術が業界にどのように当てはまるのかは不明であり、不均衡なデータやサンプリング技術の影響についてはほとんど知られていない。 本稿では,大規模決済企業であるAdyenのコードベースにおけるログ配置問題について検討する。 2M SLOCを合計する34,526のJavaファイルと309,527のメソッドを分析します。 コードメトリクスに基づく5つのモデルの有効性を体系的に評価し、サンプリング手法の効果を調査し、どのモデルが予測に関連があると考えられるかを理解し、29のApacheプロジェクトから388,086のメソッドを活用でき、業界環境でログの場所を学べるかどうかを評価する。 当社の最高の性能モデルは、バランスの取れた精度の79%、精度の81%、リコールの60%を実現します。 サンプリング技術はリコールを改善する一方で、精度を制限されたコストで罰する。 オープンソースデータを用いた実験は、Adyenのテストセットよりも性能の低いモデルが得られるが、偽陽性率の低いため有用である。 当社のサポートスクリプトとツールは、コミュニティで利用可能です。

Logging is a development practice that plays an important role in the operations and monitoring of complex systems. Developers place log statements in the source code and use log data to understand how the system behaves in production. Unfortunately, anticipating where to log during development is challenging. Previous studies show the feasibility of leveraging machine learning to recommend log placement despite the data imbalance since logging is a fraction of the overall code base. However, it remains unknown how those techniques apply to an industry setting, and little is known about the effect of imbalanced data and sampling techniques. In this paper, we study the log placement problem in the code base of Adyen, a large-scale payment company. We analyze 34,526 Java files and 309,527 methods that sum up +2M SLOC. We systematically measure the effectiveness of five models based on code metrics, explore the effect of sampling techniques, understand which features models consider to be relevant for the prediction, and evaluate whether we can exploit 388,086 methods from 29 Apache projects to learn where to log in an industry setting. Our best performing model achieves 79% of balanced accuracy, 81% of precision, 60% of recall. While sampling techniques improve recall, they penalize precision at a prohibitive cost. Experiments with open-source data yield under-performing models over Adyen's test set; nevertheless, they are useful due to their low rate of false positives. Our supporting scripts and tools are available to the community.
翻訳日:2021-03-03 15:50:13 公開日:2021-03-02
# スケジュール付きeMBBトラフィックを用いたURLLCデータ管理のための深層強化学習

Deep Reinforcement Learning for URLLC data management on top of scheduled eMBB traffic ( http://arxiv.org/abs/2103.01801v1 )

ライセンス: Link先を確認
Fabio Saggese, Luca Pasqualini, Marco Moretti, and Andrea Abrardo(参考訳) 5Gの出現と5G(B5G)ネットワークを超えての研究により、新しい非常に関連性の高い研究課題は、異なる種類のトラフィックの共存を管理する方法です。 本稿では,高信頼低遅延通信 (URLLC) と拡張モバイルブロードバンド (eMBB) トラフィック間で利用可能な物理層資源をスライスする深層強化学習 (DRL) アルゴリズムを提案する。 具体的には、時間周波数リソースグリッドをeMBBトラフィックで完全に占有し、最新のDRLアルゴリズムである近位ポリシー最適化(PPO)を採用するようDRLエージェントを訓練し、eMBBコードワードを句読して着信URLLCトラフィックを動的に割り当てます。 各eMBBコードワードが停止している以上の一定の限られた量の句読点を許容できると仮定すると、DRLエージェントによって考案されたポリシーがURLLCトラフィックのレイテンシ要件に違反しないことを示し、同時に、他の最先端のスキームと比較して、eMBBコードワードの数を最小限のレベルで停止に保つことを管理しています。

With the advent of 5G and the research into beyond 5G (B5G) networks, a novel and very relevant research issue is how to manage the coexistence of different types of traffic, each with very stringent but completely different requirements. In this paper we propose a deep reinforcement learning (DRL) algorithm to slice the available physical layer resources between ultra-reliable low-latency communications (URLLC) and enhanced Mobile BroadBand (eMBB) traffic. Specifically, in our setting the time-frequency resource grid is fully occupied by eMBB traffic and we train the DRL agent to employ proximal policy optimization (PPO), a state-of-the-art DRL algorithm, to dynamically allocate the incoming URLLC traffic by puncturing eMBB codewords. Assuming that each eMBB codeword can tolerate a certain limited amount of puncturing beyond which is in outage, we show that the policy devised by the DRL agent never violates the latency requirement of URLLC traffic and, at the same time, manages to keep the number of eMBB codewords in outage at minimum levels, when compared to other state-of-the-art schemes.
翻訳日:2021-03-03 15:49:49 公開日:2021-03-02
# 中間最適治療レジム

Median Optimal Treatment Regimes ( http://arxiv.org/abs/2103.01802v1 )

ライセンス: Link先を確認
Liu Leqi, Edward H. Kennedy(参考訳) 最適な治療体制は、対象特性に基づいて治療決定を行うためのパーソナライズされたポリシーであり、ある価値を最大化するポリシーが選択される。 治療において平均的な結果が治療対統制において高い者に対してのみ治療を割り当てる体制を通じて、人口の平均的な結果の最大化を目指すのが一般的である。 しかし、平均は不安定な集中度尺度であり、不正確な統計手続きと少数の被験者に過度に影響される不公平な決定をもたらす可能性がある。 そこで本研究では, 条件中央値が高い患者を治療対象として, 適切な治療体制を新たに提案する。 これにより、同じグループの個人に対する最適な決定は、(i)グループのごく一部(平均基準とは違って)または(ii)異なるグループの無関係な被験者(限界中央値/量子的基準とは違って)によって過度に影響されない。 本稿では,政策の全体的中央値処理結果と最適な中央値処理体制の最大化をまとめた,新たな評価尺度であるACME(Average Conditional Median Effect)を導入する。 平均的および限界的最適治療体制と中間的最適治療体制を区別する重要な動機づけ例を開発した後、政策のACMEを推定するための非パラメトリックな効率性を与え、弱条件下での効率性を実現する新しい二重堅牢型推定器を提案する。 数値シミュレーションにより推定器の有限サンプル特性を考察し, hiv患者に対するランダム化臨床試験から得られたデータを用いて, 提案アルゴリズムを示した。

Optimal treatment regimes are personalized policies for making a treatment decision based on subject characteristics, with the policy chosen to maximize some value. It is common to aim to maximize the mean outcome in the population, via a regime assigning treatment only to those whose mean outcome is higher under treatment versus control. However, the mean can be an unstable measure of centrality, resulting in imprecise statistical procedures, as well as unfair decisions that can be overly influenced by a small fraction of subjects. In this work, we propose a new median optimal treatment regime that instead treats individuals whose conditional median is higher under treatment. This ensures that optimal decisions for individuals from the same group are not overly influenced either by (i) a small fraction of the group (unlike the mean criterion), or (ii) unrelated subjects from different groups (unlike marginal median/quantile criteria). We introduce a new measure of value, the Average Conditional Median Effect (ACME), which summarizes across-group median treatment outcomes of a policy, and which the optimal median treatment regime maximizes. After developing key motivating examples that distinguish median optimal treatment regimes from mean and marginal median optimal treatment regimes, we give a nonparametric efficiency bound for estimating the ACME of a policy, and propose a new doubly robust-style estimator that achieves the efficiency bound under weak conditions. Finite-sample properties of the estimator are explored via numerical simulations and the proposed algorithm is illustrated using data from a randomized clinical trial in patients with HIV.
翻訳日:2021-03-03 15:49:26 公開日:2021-03-02
# 学習に基づく資源制約型移動ロボットの超広帯域位置推定時間差のバイアス補正

Learning-based Bias Correction for Time Difference of Arrival Ultra-wideband Localization of Resource-constrained Mobile Robots ( http://arxiv.org/abs/2103.01885v1 )

ライセンス: Link先を確認
Wenda Zhao, Jacopo Panerati, Angela P. Schoellig (University of Toronto Institute for Aerospace Studies, Vector Institute for Artificial Intelligence)(参考訳) 正確な屋内ローカライゼーションは、倉庫管理から監視タスクまで、多くのロボティクスアプリケーションにとって重要な技術である。 ultra-wideband (uwb) time difference of arrival (tdoa)ベースのローカライゼーションは、多くのデバイスにスケール可能な軽量で低コストなソリューションであり、特にリソースに制約のあるマルチロボットアプリケーションに適している。 しかし、標準の商用UWB無線のローカライゼーション精度は、しばしば測定バイアスと外れ値のために不十分である。 本稿では,(i)学習に基づくバイアス補正と(ii)M推定に基づくロバストフィルタを併用して,アウトレーヤの処理を行う,ロバストなUWB TDOAローカライゼーションフレームワークを提案する。 提案手法の主な特徴は, 学習バイアスが異なるUWBアンカーのセットアップに一般化され, (ii) 資源制約ハードウェア上での動作に十分な計算効率が得られたことである。 Crazyflieナノクワッドコプターのアプローチを実証します。 実験の結果, 提案手法は, imu と uwb にのみ依存しており, バイアス補償のないベースラインアプローチと比較して, 平均42.08パーセントのローカライズ誤差 (3つの異なるアンカー設定) を低減できることがわかった。 また、UWB TDOAローカライゼーション手法を用いて、クワッドコプター上での自律軌道追跡も行う。

Accurate indoor localization is a crucial enabling technology for many robotics applications, from warehouse management to monitoring tasks. Ultra-wideband (UWB) time difference of arrival (TDOA)-based localization is a promising lightweight, low-cost solution that can scale to a large number of devices -- making it especially suited for resource-constrained multi-robot applications. However, the localization accuracy of standard, commercially available UWB radios is often insufficient due to significant measurement bias and outliers. In this letter, we address these issues by proposing a robust UWB TDOA localization framework comprising of (i) learning-based bias correction and (ii) M-estimation-based robust filtering to handle outliers. The key properties of our approach are that (i) the learned biases generalize to different UWB anchor setups and (ii) the approach is computationally efficient enough to run on resource-constrained hardware. We demonstrate our approach on a Crazyflie nano-quadcopter. Experimental results show that the proposed localization framework, relying only on the onboard IMU and UWB, provides an average of 42.08 percent localization error reduction (in three different anchor setups) compared to the baseline approach without bias compensation. {We also show autonomous trajectory tracking on a quadcopter using our UWB TDOA localization approach.}
翻訳日:2021-03-03 15:48:56 公開日:2021-03-02
# グラディエント学習のカテゴリー的基礎

Categorical Foundations of Gradient-Based Learning ( http://arxiv.org/abs/2103.01931v1 )

ライセンス: Link先を確認
G.S.H. Cruttwell, Bruno Gavranovi\'c, Neil Ghani, Paul Wilson, Fabio Zanasi(参考訳) 本稿では,レンズ,パラメータマップ,逆微分カテゴリの観点から,勾配に基づく機械学習アルゴリズムの分類的基礎を提案する。 この基盤は強力な説明と統一の枠組みを提供しており、ADAM、AdaGrad、Nesterov運動量などの様々な勾配降下アルゴリズムと、MSEやSoftmaxのクロスエントロピーのような様々な損失関数を包含し、それらの類似点と相違点に新たな光を当てている。 また,このアプローチでは,(滑らかな写像のカテゴリでモデル化された)ニューラルネットワークを超えて一般化し,ブール回路などの勾配ベースの学習に関連する他の構造を説明する。 最後に,Pythonにおける勾配に基づく学習の新たな実装も開発し,フレームワークが導入した原則を取り入れた。

We propose a categorical foundation of gradient-based machine learning algorithms in terms of lenses, parametrised maps, and reverse derivative categories. This foundation provides a powerful explanatory and unifying framework: it encompasses a variety of gradient descent algorithms such as ADAM, AdaGrad, and Nesterov momentum, as well as a variety of loss functions such as as MSE and Softmax cross-entropy, shedding new light on their similarities and differences. Our approach also generalises beyond neural networks (modelled in categories of smooth maps), accounting for other structures relevant to gradient-based learning such as boolean circuits. Finally, we also develop a novel implementation of gradient-based learning in Python, informed by the principles introduced by our framework.
翻訳日:2021-03-03 15:48:28 公開日:2021-03-02
# データ分布シフトによるモデルの局所予測不確実性を定量化するカーネルフレームワーク

A Kernel Framework to Quantify a Model's Local Predictive Uncertainty under Data Distributional Shifts ( http://arxiv.org/abs/2103.01374v1 )

ライセンス: Link先を確認
Rishabh Singh and Jose C. Principe(参考訳) モデル不確実性の定量化のための従来のベイズアプローチは、各ネットワークパラメータ上の境界化の悪名高い困難なプロセスに依存して、その確率密度関数を推定する(PDF)。 我々の仮説は、トレーニングされたニューラルネットワークの内部層出力は、そのマッピング機能(重みによって定量化される)と入力データ分布の両方に関連する全ての情報を含んでいるということである。 そこで本研究では,ガウス再生カーネルヒルベルト空間(RKHS)において,生予測空間(活性化前),p(y'|x,w)のPDFをモデルPDFとして明示的に推定する訓練ニューラルネットワークの予測不確実性定量のためのフレームワークを提案する。 ガウス RKHS は p(y'|x,w) の局所密度推定を提供しており、これによりさらに、グラデーションに基づく量子物理学の定式化を利用して、複数の局所不確実性モーメントの観点からモデル PDF を分解することができる。 これにより、フレームワークは、モデルによって学習されたトレーニングデータPDFからテストデータの分散シフトを検出することができる。 既存の不確実性の定量化手法に対するフレームワークを, 一般的な摂動法を用いて破損したベンチマークデータセット上で評価する。 カーネルフレームワークは、モデル予測エラーを検出する能力に基づいて、はるかに精度の高いモデル不確実性推定を提供する。

Traditional Bayesian approaches for model uncertainty quantification rely on notoriously difficult processes of marginalization over each network parameter to estimate its probability density function (PDF). Our hypothesis is that internal layer outputs of a trained neural network contain all of the information related to both its mapping function (quantified by its weights) as well as the input data distribution. We therefore propose a framework for predictive uncertainty quantification of a trained neural network that explicitly estimates the PDF of its raw prediction space (before activation), p(y'|x,w), which we refer to as the model PDF, in a Gaussian reproducing kernel Hilbert space (RKHS). The Gaussian RKHS provides a localized density estimate of p(y'|x,w), which further enables us to utilize gradient based formulations of quantum physics to decompose the model PDF in terms of multiple local uncertainty moments that provide much greater resolution of the PDF than the central moments characterized by Bayesian methods. This provides the framework with a better ability to detect distributional shifts in test data away from the training data PDF learned by the model. We evaluate the framework against existing uncertainty quantification methods on benchmark datasets that have been corrupted using common perturbation techniques. The kernel framework is observed to provide model uncertainty estimates with much greater precision based on the ability to detect model prediction errors.
翻訳日:2021-03-03 15:43:18 公開日:2021-03-02
# 非同期フェデレーション学習のための無線ネットワークにおける適応伝送スケジューリング

Adaptive Transmission Scheduling in Wireless Networks for Asynchronous Federated Learning ( http://arxiv.org/abs/2103.01422v1 )

ライセンス: Link先を確認
Hyun-Suk Lee, Jang-Won Lee(参考訳) 本稿では,無線分散学習ネットワーク(WDLN)における非同期フェデレーション学習(FL)について検討する。 各エッジ装置が非同期FLを介してローカルデータをより効率的に利用できるようにするため、WDLNにおける非同期FLの送信スケジューリングは、時間変化チャネルや確率データ到着などのシステム不確実性や、WDLN内の無線リソースの不足を考慮して慎重に決定する必要がある。 そこで本研究では,非同期FLからの学習量を表す効果スコアという指標を提案する。 そこで, Asynchronous Learning-aware transmission Scheduling (ALS) 問題を定式化し, 効果スコアを最大化し, ALSA-PI, BALSA, BALSA-PO という3つのALSアルゴリズムを開発し, それを解いた。 不確実性に関する統計的情報が分かっていれば、ALSA-PIによって最適かつ効率的に解ける。 たとえそうでなくても、デバイスから報告された状態情報を用いてベイズ的アプローチに基づいて不確実性を学ぶBALSAによって、最適に解ける。 BALSA-POはこの問題を解決するが、実際にはより制限されたWDLNに対処し、APはBALSAで使用される情報と比較して限られた状態情報を観察することができる。 ALSアルゴリズムによって訓練されたモデルが、理想的なベンチマークによりそれに近い性能を達成し、モデル精度、トレーニング損失、学習速度、学習の堅牢性の観点から、他の最先端のベースラインスケジューリングアルゴリズムよりも優れていることを示す。 これらの結果は,alsアルゴリズムの適応スケジューリング戦略が非同期flに有効であることを示す。

In this paper, we study asynchronous federated learning (FL) in a wireless distributed learning network (WDLN). To allow each edge device to use its local data more efficiently via asynchronous FL, transmission scheduling in the WDLN for asynchronous FL should be carefully determined considering system uncertainties, such as time-varying channel and stochastic data arrivals, and the scarce radio resources in the WDLN. To address this, we propose a metric, called an effectivity score, which represents the amount of learning from asynchronous FL. We then formulate an Asynchronous Learning-aware transmission Scheduling (ALS) problem to maximize the effectivity score and develop three ALS algorithms, called ALSA-PI, BALSA, and BALSA-PO, to solve it. If the statistical information about the uncertainties is known, the problem can be optimally and efficiently solved by ALSA-PI. Even if not, it can be still optimally solved by BALSA that learns the uncertainties based on a Bayesian approach using the state information reported from devices. BALSA-PO suboptimally solves the problem, but it addresses a more restrictive WDLN in practice, where the AP can observe a limited state information compared with the information used in BALSA. We show via simulations that the models trained by our ALS algorithms achieve performances close to that by an ideal benchmark and outperform those by other state-of-the-art baseline scheduling algorithms in terms of model accuracy, training loss, learning speed, and robustness of learning. These results demonstrate that the adaptive scheduling strategy in our ALS algorithms is effective to asynchronous FL.
翻訳日:2021-03-03 15:42:50 公開日:2021-03-02
# ZeroSARAH:ゼロフルグラデーション計算による効率的な非凸有限数最適化

ZeroSARAH: Efficient Nonconvex Finite-Sum Optimization with Zero Full Gradient Computation ( http://arxiv.org/abs/2103.01447v1 )

ライセンス: Link先を確認
Zhize Li, Peter Richt\'arik(参考訳) 本稿では,多数の非凸関数 $\frac{1}{n}\sum_{i=1}^{n}f_i(x)$ の平均を最小化するために,分散還元法 SARAH (Nguyen et al., 2017) の新しい変種である ZeroSARAH を提案する。 我々の知る限り、この非凸有限サム法では、SARAH, SVRG, SAGA およびそれらの変種を含む既存の分散還元法は、初期点 $x^0$ ですべての$n$のデータサンプルの完全な勾配を計算し、数回の繰り返し(SVRG, SARAH およびそれらの変種)で周期的に全勾配を計算する必要がある。 さらに、SVRG、SAGAおよびそれらの変種は通常、SARAHの変種よりも弱い収束結果が得られる: $n^{2/3}/\epsilon^2$ vs. $n^{1/2}/\epsilon^2$。 ZeroSARAHは、初期点においても完全な勾配計算を必要としない最初の分散還元法である。 さらに、ZeroSARAHは新たな最先端コンバージェンス結果を得ることができ(例えば、SPIDER、SpiderBoost、SARAH、SSRGD、PAGEなど)、以前の最もよく知られた結果を改善することができる。 データサンプル$n$の数が通常非常に大きいので、すべてのグラデーション計算(これは時間のかかるステップです)を避けることは多くのアプリケーションで重要です。 特に分散設定では、すべてのデータサンプルに対するフルグラデーションの定期的な計算は、すべてのマシン/デバイスを定期的に同期させる必要があります。 したがって、ZeroSARAHは、完全なデバイス参加が現実的でない分散・フェデレーション学習において実践的な影響を期待する。

We propose ZeroSARAH -- a novel variant of the variance-reduced method SARAH (Nguyen et al., 2017) -- for minimizing the average of a large number of nonconvex functions $\frac{1}{n}\sum_{i=1}^{n}f_i(x)$. To the best of our knowledge, in this nonconvex finite-sum regime, all existing variance-reduced methods, including SARAH, SVRG, SAGA and their variants, need to compute the full gradient over all $n$ data samples at the initial point $x^0$, and then periodically compute the full gradient once every few iterations (for SVRG, SARAH and their variants). Moreover, SVRG, SAGA and their variants typically achieve weaker convergence results than variants of SARAH: $n^{2/3}/\epsilon^2$ vs. $n^{1/2}/\epsilon^2$. ZeroSARAH is the first variance-reduced method which does not require any full gradient computations, not even for the initial point. Moreover, ZeroSARAH obtains new state-of-the-art convergence results, which can improve the previous best-known result (given by e.g., SPIDER, SpiderBoost, SARAH, SSRGD and PAGE) in certain regimes. Avoiding any full gradient computations (which is a time-consuming step) is important in many applications as the number of data samples $n$ usually is very large. Especially in the distributed setting, periodic computation of full gradient over all data samples needs to periodically synchronize all machines/devices, which may be impossible or very hard to achieve. Thus, we expect that ZeroSARAH will have a practical impact in distributed and federated learning where full device participation is impractical.
翻訳日:2021-03-03 15:42:21 公開日:2021-03-02
# クロスモーダル対応損失を用いた視聴覚分離

Audio-Visual Speech Separation Using Cross-Modal Correspondence Loss ( http://arxiv.org/abs/2103.01463v1 )

ライセンス: Link先を確認
Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi, Ryo Masumura(参考訳) 本稿では,訓練中の音声特性を反映するために,分離信号と視覚信号との対応を考慮した音声・音声分離学習手法を提案する。 音声-視覚音声分離は、話者の視覚信号を用いて混合音から個々の音声信号を推定する手法である。 音声-視覚音声分離に関する従来の研究は、主に音源信号と分離信号の間の距離を反映した音声のみ損失の分離モデルを訓練する。 しかし、従来の損失は、話者の特徴や音声情報を含む音声信号の特性を反映していないため、歪みや残音につながる。 そこで本研究では,音声信号と視覚信号の同時発生に基づくクロスモーダル対応(CMC)損失を提案する。 視覚信号は背景雑音の影響を受けず、話者および音声情報を含むため、CMC損失を使用することにより、音声特性を維持しながら音声-視覚音声分離モデルがノイズを除去することができる。 実験の結果,提案手法はCMC損失に基づいて共起を学習し,分離性能を向上することを示した。

We present an audio-visual speech separation learning method that considers the correspondence between the separated signals and the visual signals to reflect the speech characteristics during training. Audio-visual speech separation is a technique to estimate the individual speech signals from a mixture using the visual signals of the speakers. Conventional studies on audio-visual speech separation mainly train the separation model on the audio-only loss, which reflects the distance between the source signals and the separated signals. However, conventional losses do not reflect the characteristics of the speech signals, including the speaker's characteristics and phonetic information, which leads to distortion or remaining noise. To address this problem, we propose the cross-modal correspondence (CMC) loss, which is based on the cooccurrence of the speech signal and the visual signal. Since the visual signal is not affected by background noise and contains speaker and phonetic information, using the CMC loss enables the audio-visual speech separation model to remove noise while preserving the speech characteristics. Experimental results demonstrate that the proposed method learns the cooccurrence on the basis of CMC loss, which improves separation performance.
翻訳日:2021-03-03 15:41:44 公開日:2021-03-02
# テンソルパワーリカレントモデルの記憶機構について

On the Memory Mechanism of Tensor-Power Recurrent Models ( http://arxiv.org/abs/2103.01521v1 )

ライセンス: Link先を確認
Hejia Qiu, Chao Li, Ying Weng, Zhun Sun, Xingyu He, Qibin Zhao(参考訳) テンソルパワー(TP)リカレントモデル(英: Tensor-power Recurrent model)は、リカレント関係がp倍(すなわち次数-p)テンソル積からなる非線形力学系の族である。 このようなモデルがadvanced recurrent neural networks (rnns) によく現れるにもかかわらず、この時点では、シーケンスタスクにおいて重要な特性であるメモリ特性の研究は限られている。 本研究では,tpリカレントモデルの記憶機構を徹底的に検討する。 理論的には、大きなpが長いメモリ効果を達成するための必須条件であることは証明するが、不安定な動的挙動を引き起こす。 実験的には、p級を離散から微分可能な領域に拡張し、さまざまなデータセットから効率的に学習できるようにすることでこの問題に取り組みます。 合わせて、新しいモデルは安定した方法で長い記憶効果の恩恵を受けることが期待されます。 提案モデルが単一セルアーキテクチャとseq2seqアーキテクチャの両方の様々な高度なRNNと比較して競争性能を達成することを実験的に示した。

Tensor-power (TP) recurrent model is a family of non-linear dynamical systems, of which the recurrence relation consists of a p-fold (a.k.a., degree-p) tensor product. Despite such the model frequently appears in the advanced recurrent neural networks (RNNs), to this date there is limited study on its memory property, a critical characteristic in sequence tasks. In this work, we conduct a thorough investigation of the memory mechanism of TP recurrent models. Theoretically, we prove that a large degree p is an essential condition to achieve the long memory effect, yet it would lead to unstable dynamical behaviors. Empirically, we tackle this issue by extending the degree p from discrete to a differentiable domain, such that it is efficiently learnable from a variety of datasets. Taken together, the new model is expected to benefit from the long memory effect in a stable manner. We experimentally show that the proposed model achieves competitive performance compared to various advanced RNNs in both the single-cell and seq2seq architectures.
翻訳日:2021-03-03 15:41:24 公開日:2021-03-02
# ガウス過程分散最小化に基づくグラフへの影響最大化のためのカーネルモデル

Kernel-Based Models for Influence Maximization on Graphs based on Gaussian Process Variance Minimization ( http://arxiv.org/abs/2103.01575v1 )

ライセンス: Link先を確認
Salvatore Cuomo and Wolfgang Erb and Gabriele Santin(参考訳) 新しい知識の推論、隠されたパターンの発見、および多数のソースからの大量のデータからの洞察の発見は、単に科学的な分野ではなく、データサイエンス(DS)を芸術にします。 情報解析が可能な数理モデルの研究と設計はdsの中心的な研究テーマである。 本研究では,カーネル・ベース近似,ガウス過程回帰,対応する分散項の最小化といった考え方を用いて,グラフに対する影響最大化(im)の新しいモデルを紹介し,検討する。 このIMモデルの適切なカーネルを決定するためにデータ駆動アプローチを適用することができ、モデルパラメータをチューニングするために機械学習手法が採用される。 コストのかかるモンテカルロシミュレーションに依拠するこの分野の確率モデルと比較して,本モデルは,グラフ上のノードの最適影響を計算するための,単純かつ費用効率の高い更新戦略を可能にする。 いくつかの数値実験では、この新しいモデルの特性と利点を示す。

The inference of novel knowledge, the discovery of hidden patterns, and the uncovering of insights from large amounts of data from a multitude of sources make Data Science (DS) to an art rather than just a mere scientific discipline. The study and design of mathematical models able to analyze information represents a central research topic in DS. In this work, we introduce and investigate a novel model for influence maximization (IM) on graphs using ideas from kernel-based approximation, Gaussian process regression, and the minimization of a corresponding variance term. Data-driven approaches can be applied to determine proper kernels for this IM model and machine learning methodologies are adopted to tune the model parameters. Compared to stochastic models in this field that rely on costly Monte-Carlo simulations, our model allows for a simple and cost-efficient update strategy to compute optimal influencing nodes on a graph. In several numerical experiments, we show the properties and benefits of this new model.
翻訳日:2021-03-03 15:41:05 公開日:2021-03-02
# 不均一勾配符号化における最適通信計算トレードオフ

Optimal Communication-Comput ation Trade-Off in Heterogeneous Gradient Coding ( http://arxiv.org/abs/2103.01589v1 )

ライセンス: Link先を確認
Tayyebeh Jahani-Nezhad, Mohammad Ali Maddah-Ali(参考訳) グラディエントコーディングにより、マスターノードは部分勾配の集約を導出することができ、いくつかのワーカノードがローカルデータセット上で計算し、最小の通信コストとストラグラーの存在下で計算する。 本稿では,線形符号化を用いた勾配符号化において,emph{arbitrary}データ配置を持つ異種分散システムの最適な通信コストを,s \in \mathbb{n}$ stragglers と $a \in \mathbb{n}$ adversarial node で特徴付ける。 特に、勾配ベクトルの大きさで正規化された最適な通信コストは$(r-s-2a)^{-1}$に等しいことが示され、ここでは$r \in \mathbb{n}$はデータ分割が複製される最小数である。 言い換えれば、通信コストは、配置の構造に関係なく、最小限の複製でデータパーティションによって決定されます。 提案された達成可能なスキームは、集合勾配行列の多項式関数の計算も対象とすることができる。 また、データ配置の繰り返しが通信コストに課される制限を満たすために必要なものよりも小さい場合や、システム設計の推定値よりもストラグラーの数が多いと思われる場合に、近似計算からいくつかのアイデアを借り、近似勾配符号化スキームを提案します。

Gradient coding allows a master node to derive the aggregate of the partial gradients, calculated by some worker nodes over the local data sets, with minimum communication cost, and in the presence of stragglers. In this paper, for gradient coding with linear encoding, we characterize the optimum communication cost for heterogeneous distributed systems with \emph{arbitrary} data placement, with $s \in \mathbb{N}$ stragglers and $a \in \mathbb{N}$ adversarial nodes. In particular, we show that the optimum communication cost, normalized by the size of the gradient vectors, is equal to $(r-s-2a)^{-1}$, where $r \in \mathbb{N}$ is the minimum number that a data partition is replicated. In other words, the communication cost is determined by the data partition with the minimum replication, irrespective of the structure of the placement. The proposed achievable scheme also allows us to target the computation of a polynomial function of the aggregated gradient matrix. It also allows us to borrow some ideas from approximation computing and propose an approximate gradient coding scheme for the cases when the repetition in data placement is smaller than what is needed to meet the restriction imposed on communication cost or when the number of stragglers appears to be more than the presumed value in the system design.
翻訳日:2021-03-03 15:40:50 公開日:2021-03-02
# MISOダウンリンクシステムの学習ロバストビームフォーミング

Learning Robust Beamforming for MISO Downlink Systems ( http://arxiv.org/abs/2103.01602v1 )

ライセンス: Link先を確認
Junbeom Kim, Hoon Lee, Seok-Hwan Park(参考訳) 本稿では,ダウンリンクマルチユーザシステムにおけるロバストビームフォーミング最適化のための学習ソリューションについて検討する。 基地局(BS)は、不完全チャネル状態情報(CSI)とその確率的特徴のみで効率的なマルチアンテナ伝送戦略を特定する。 そこで本研究では,完全なCSIの推定値と統計的知識のみを受け入れる深層ニューラルネットワーク(DNN)を実世界の伝播環境に適合するように最適化した,堅牢なトレーニングアルゴリズムを提案する。 これにより、トレーニングされたDNNは、実際のCSIの完全な観測のみに基づいて、効率的なロバストなビームフォーミングソリューションを提供することができる。 従来の手法と比較して,提案手法の利点を数値的に検証した。

This paper investigates a learning solution for robust beamforming optimization in downlink multi-user systems. A base station (BS) identifies efficient multi-antenna transmission strategies only with imperfect channel state information (CSI) and its stochastic features. To this end, we propose a robust training algorithm where a deep neural network (DNN), which only accepts estimates and statistical knowledge of the perfect CSI, is optimized to fit to real-world propagation environment. Consequently, the trained DNN can provide efficient robust beamforming solutions based only on imperfect observations of the actual CSI. Numerical results validate the advantages of the proposed learning approach compared to conventional schemes.
翻訳日:2021-03-03 15:40:24 公開日:2021-03-02
# 深層学習に基づくデータ隠蔽, ステレオグラフィー, 透かしに関する簡易調査

A Brief Survey on Deep Learning Based Data Hiding, Steganography and Watermarking ( http://arxiv.org/abs/2103.01607v1 )

ライセンス: Link先を確認
Chaoning Zhang, Chenguo Lin, Philipp Benz, Kejiang Chen, Weiming Zhang and In So Kweon(参考訳) データ非表示は、限られた知覚的変化でメッセージを隠す技術です。 近年、深層学習はそれに対する豊富な視点を提供し、大きな進歩を遂げています。 本稿では,既存の文献を簡潔かつ包括的にレビューし,3つのメタアーキテクチャを概説する。 そこで本研究では,ステガノグラフィ,ライトフィールドメッセージング,ウォーターマーキングなど,深層隠れの応用に関する具体的な戦略を概説する。 最後に、敵攻撃の視点を取り入れることで、深い隠れに関するさらなる洞察を提供する。

Data hiding is the art of concealing messages with limited perceptual changes. Recently, deep learning has provided enriching perspectives for it and made significant progress. In this work, we conduct a brief yet comprehensive review of existing literature and outline three meta-architectures. Based on this, we summarize specific strategies for various applications of deep hiding, including steganography, light field messaging and watermarking. Finally, further insight into deep hiding is provided through incorporating the perspective of adversarial attack.
翻訳日:2021-03-03 15:40:14 公開日:2021-03-02
# Virufy:COVID-19の自動検出のためのマルチブランチディープラーニングネットワーク

Virufy: A Multi-Branch Deep Learning Network for Automated Detection of COVID-19 ( http://arxiv.org/abs/2103.01806v1 )

ライセンス: Link先を確認
Ahmed Fakhry, Xinyi Jiang, Jaclyn Xiao, Gunvant Chaudhari, Asriel Han, Amil Khanzada(参考訳) 新型コロナウイルス検査の迅速で手頃な価格のソリューションは、世界的なパンデミックの広がりを封じ込め、医療機関の負担を軽減するために必要です。 現在、限られたテスト場所と高価な機器は、特に低リソース設定でテストしようとする個人にとって困難です。 研究者らは、臨床設定 [5, 15] に記録された音声サンプルを使用して、COVID-19感染状況を検出するモデルを提示し、音声ベースの人工知能モデルを使用してCOVID-19を識別することができることを示唆した。 このようなモデルは、高速、広範、低リソースのテストのためにスマートフォンにデプロイされる可能性がある。 しかし、以前の研究では、主に臨床設定から収集されたクリーンオーディオサンプルのモデルを訓練していますが、平均的なスマートフォンから収集されたオーディオサンプルは、モデルがトレーニングしたクリーンデータとは異なる最適な品質データをもたらす可能性があります。 この不一致は、新型コロナウイルス(COVID-19)のステータス予測に影響を及ぼすバイアスをもたらす可能性がある。 そこで本研究では,データ処理が手作業で行われていないクラウドソースデータに対して,トレーニングとテストを行うマルチブランチ深層学習ネットワークを提案する。 さらに,このモデルにより,COUGHVIDデータセット [16] の最先端結果が得られる。 各カテゴリーの結果を分解した後、covid-19陽性のラベルを持つオーディオサンプルのaucは0.99であることを示した。

Fast and affordable solutions for COVID-19 testing are necessary to contain the spread of the global pandemic and help relieve the burden on medical facilities. Currently, limited testing locations and expensive equipment pose difficulties for individuals trying to be tested, especially in low-resource settings. Researchers have successfully presented models for detecting COVID-19 infection status using audio samples recorded in clinical settings [5, 15], suggesting that audio-based Artificial Intelligence models can be used to identify COVID-19. Such models have the potential to be deployed on smartphones for fast, widespread, and low-resource testing. However, while previous studies have trained models on cleaned audio samples collected mainly from clinical settings, audio samples collected from average smartphones may yield suboptimal quality data that is different from the clean data that models were trained on. This discrepancy may add a bias that affects COVID-19 status predictions. To tackle this issue, we propose a multi-branch deep learning network that is trained and tested on crowdsourced data where most of the data has not been manually processed and cleaned. Furthermore, the model achieves state-of-art results for the COUGHVID dataset [16]. After breaking down results for each category, we have shown an AUC of 0.99 for audio samples with COVID-19 positive labels.
翻訳日:2021-03-03 15:40:06 公開日:2021-03-02
# 深部強化学習を用いた室温および双方向EV充電のデータ駆動MIMO制御:シミュレーションと実験

Data-driven MIMO control of room temperature and bidirectional EV charging using deep reinforcement learning: simulation and experiments ( http://arxiv.org/abs/2103.01886v1 )

ライセンス: Link先を確認
B. Svetozarevic, C.Baumann, S. Muntwiler, L. Di Natale, P. Heer, M. Zeilinger(参考訳) 現代の建物の制御は、再生可能エネルギー発生装置、貯蔵装置、電気自動車の接続(evs)の統合による複雑な多変量制御問題であり、一方、全体的なエネルギーの最小化と快適さの要求による複雑な多変量制御問題である。 従来のルールベース(rb)とモデル予測制御(mpc)のような先進的なモデルベースのコントローラは、現代の建物のシステム全体の最適性能を達成するための現在の自動化産業要件を、低い手数料とメンテナンスコストで満たすことができない。 本研究では,ビル内におけるマルチインプット・マルチ・アウトプット(MIMO)問題(室温と双方向EV充電の連成制御)の制御ポリシを,次回の旅行に必要なEVバッテリに十分なエネルギーを残しながら,収容者の快適さと省エネを最大化することを目的とした,完全にブラックボックスなデータ駆動方式を提案する。 室内温度とEV帯電を,繰り返しニューラルネットワークと一方向線形関数を用いてモデル化し,これらのモデルをDDPG(Deep Deterministic Policy Gradient)強化学習アルゴリズムのシミュレーション環境として利用し,最適制御ポリシーの探索を行った。 シミュレーションでは、DDPG制御剤は標準のRBコントローラと比較して平均17%の省エネと19%の快適性を達成した。 同様に、ジョイントルームの暖房と双方向のEV充電制御では、DDPG MIMOコントローラは2つの標準RBコントローラと比較して平均12%の快適さ、11%の省エネ、42%の省エネを実現した。 また、スイスのデュッベンドルフのエムパにあるDFAB HOUSEの手法も検証し、暖房シーズン中に3週間にわたってより良い快適さで27%の省エネを得ました。

The control of modern buildings is, on one hand, a complex multi-variable control problem due to the integration of renewable energy generation devices, storage devices, and connection of electrical vehicles (EVs), and, on the other hand, a complex multi-criteria problem due to requirements for overall energy minimization and comfort satisfaction. Both conventional rule-based (RB) and advanced model-based controllers, such as model predictive control (MPC), cannot fulfil the current building automation industry requirements of achieving system-wide optimal performance of a modern building at low commissioning and maintenance costs. In this work, we present a fully black-box, data-driven method to obtain a control policy for a multi-input-multi-ou tput (MIMO) problem in buildings -- the joint control of a room temperature and a bidirectional EV charging -- with the aim to maximize occupants comfort and energy savings while leaving enough energy in the EV battery for the next trip. We modelled the room temperature and EV charging using recurrent neural networks and a piece-wise linear function, respectively, and used these models as a simulation environment for the Deep Deterministic Policy Gradient (DDPG) reinforcement learning algorithm to find an optimal control policy. In the simulation, the DDPG control agent achieved on average 17% energy savings and 19% better comfort during the heating season compared to a standard RB controller. Similarly, for the joint room heating and bidirectional EV charging control, the DDPG MIMO controller achieved on average 12% better comfort satisfaction, 11% energy savings, and 42% energy costs savings compared to two standard RB controllers. We also validated the method on the DFAB HOUSE at Empa, Duebendorf, in Switzerland where we obtained 27% energy savings at better comfort over three weeks during the heating season.
翻訳日:2021-03-03 15:39:45 公開日:2021-03-02
# 不確実な風条件下でのメタラーニングに基づくロバスト適応飛行制御

Meta-Learning-Based Robust Adaptive Flight Control Under Uncertain Wind Conditions ( http://arxiv.org/abs/2103.01932v1 )

ライセンス: Link先を確認
Michael O'Connell, Guanya Shi, Xichen Shi, Soon-Jo Chung(参考訳) リアルタイムモデル学習は、可変風条件で飛行するドローンのような複雑な力学システムにとって困難であることを証明する。 ディープニューラルネットワークのような機械学習技術は、高い表現力を持つが、頻繁に更新するには遅すぎる。 一方、適応制御は単純な線形パラメータモデルに依存しており、フィードバック制御ループと同じくらい速く更新できます。 本稿では,ディープニューラルネットワークからの出力を,異なる風条件を表現できる基本関数の集合として扱うオンライン複合適応手法を提案する。 トレーニングを支援するため、メタ学習技術は適応に有用なネットワーク出力の最適化に使用される。 我々は,風条件の異なる空洞でドローンを飛ばし,挑戦的な軌道を飛行させることにより,我々のアプローチを検証する。 私達は異なった基礎機能セットの他の適応的なコントローラーと結果を比較し、追跡および予測の間違い上の改善を示します。

Realtime model learning proves challenging for complex dynamical systems, such as drones flying in variable wind conditions. Machine learning technique such as deep neural networks have high representation power but is often too slow to update onboard. On the other hand, adaptive control relies on simple linear parameter models can update as fast as the feedback control loop. We propose an online composite adaptation method that treats outputs from a deep neural network as a set of basis functions capable of representing different wind conditions. To help with training, meta-learning techniques are used to optimize the network output useful for adaptation. We validate our approach by flying a drone in an open air wind tunnel under varying wind conditions and along challenging trajectories. We compare the result with other adaptive controller with different basis function sets and show improvement over tracking and prediction errors.
翻訳日:2021-03-03 15:39:07 公開日:2021-03-02
# ユーザサンプリングとワイヤレスアグリゲーションによるフェデレーション学習のプライバシー増幅

Privacy Amplification for Federated Learning via User Sampling and Wireless Aggregation ( http://arxiv.org/abs/2103.01953v1 )

ライセンス: Link先を確認
Mohamed Seif, Wei-Ting Chang, Ravi Tandon(参考訳) 本稿では,ガウスマルチアクセスチャネルをモデルとしたユーザサンプリングによる無線チャネル上でのフェデレーション学習の問題点を,DP/LDP(集中的および局所的差分プライバシ)制約下で検討する。 無線チャネルの重畳特性は、ユーザに対する強力なDP保証とともに、帯域幅効率のよい勾配アグリゲーションの2つの利点をもたらすことが示されている。 具体的には、中央DPプライバシーリークは$\mathcal{O}(1/K^{1/2})$としてスケールすることが示されています。 また, 直交送信と併用したユーザサンプリングにより, 同じスケーリング動作でDPプライバシリークの中央化が図られている。 本研究では,ワイヤレスアグリゲーションとユーザサンプリングの両方を組み込むことで,より強力なプライバシー保証を得ることができることを示す。 本稿では,各ユーザによる個別のランダム参加決定に依拠する個人無線勾配集約方式を提案する。 提案手法の中心となるDPリークは$\mathcal{O}(1/K^{3/4})$である。 さらに,LDPもユーザサンプリングによって向上していることを示した。 また,提案手法の収束率の解析を行い,パラメータサーバにおけるサンプル参加者数$(a)$known,$(b)$ unknownの2つのシナリオに対して,無線リソース,収束,プライバシ間のトレードオフを理論的および実証的に検討する。

In this paper, we study the problem of federated learning over a wireless channel with user sampling, modeled by a Gaussian multiple access channel, subject to central and local differential privacy (DP/LDP) constraints. It has been shown that the superposition nature of the wireless channel provides a dual benefit of bandwidth efficient gradient aggregation, in conjunction with strong DP guarantees for the users. Specifically, the central DP privacy leakage has been shown to scale as $\mathcal{O}(1/K^{1/2})$, where $K$ is the number of users. It has also been shown that user sampling coupled with orthogonal transmission can enhance the central DP privacy leakage with the same scaling behavior. In this work, we show that, by join incorporating both wireless aggregation and user sampling, one can obtain even stronger privacy guarantees. We propose a private wireless gradient aggregation scheme, which relies on independently randomized participation decisions by each user. The central DP leakage of our proposed scheme scales as $\mathcal{O}(1/K^{3/4})$. In addition, we show that LDP is also boosted by user sampling. We also present analysis for the convergence rate of the proposed scheme and study the tradeoffs between wireless resources, convergence, and privacy theoretically and empirically for two scenarios when the number of sampled participants are $(a)$ known, or $(b)$ unknown at the parameter server.
翻訳日:2021-03-03 15:38:55 公開日:2021-03-02
# 自然言語ビデオのローカライゼーション: Span-based Question Answering Frameworkの再考

Natural Language Video Localization: A Revisit in Span-based Question Answering Framework ( http://arxiv.org/abs/2102.13558v3 )

ライセンス: Link先を確認
Hao Zhang, Aixin Sun, Wei Jing, Liangli Zhen, Joey Tianyi Zhou, Rick Siow Mong Goh(参考訳) 自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに意味的に対応する未編集ビデオからターゲットモーメントを見つけることを目的としている。 既存のアプローチは主にコンピュータビジョンの観点からNLVL問題をランク付け、アンカー、回帰タスクとして定式化することで解決している。 これらの手法は、長いビデオのローカライズ時に大きな性能劣化に悩まされる。 本研究では,入力映像をテキストパスとして扱うことにより,スパンベースの質問応答 (QA) という新たな視点からNLVLに対処する。 NLVLに対処するために、標準のスパンベースのQAフレームワーク(VSLBaseという名前)上にビデオスパンローカライズネットワーク(VSLNet)を提案します。 VSLNetは、シンプルで効果的なクエリガイドハイライト(QGH)戦略を通じて、NLVLとスパンベースのQAの違いに取り組みます。 QGHはVSLNetをガイドして、ハイライトされた領域内のマッチングビデオスパンを検索する。 長編ビデオのパフォーマンス劣化に対処するため,マルチスケールスプリット・アンド・コンカネーション戦略を適用し,VSLNetをVSLNet-Lに拡張する。 VSLNet-Lはまず、トリミングされていないビデオを短いクリップセグメントに分割し、ターゲットモーメントを含むクリップセグメントを予測し、他のセグメントの重要性を抑制します。 最後に、クリップセグメントを異なる信頼度で結合して、ターゲットモーメントを正確に特定する。 3つのベンチマークデータセットに関する広範な実験では、提案された VSLNet と VSLNet-L が最新手法を上回っていることが示された。 本研究は,NLVL問題の解決に有効な手法として,スパンベースQAフレームワークが重要であることを示唆する。

Natural Language Video Localization (NLVL) aims to locate a target moment from an untrimmed video that semantically corresponds to a text query. Existing approaches mainly solve the NLVL problem from the perspective of computer vision by formulating it as ranking, anchor, or regression tasks. These methods suffer from large performance degradation when localizing on long videos. In this work, we address the NLVL from a new perspective, i.e., span-based question answering (QA), by treating the input video as a text passage. We propose a video span localizing network (VSLNet), on top of the standard span-based QA framework (named VSLBase), to address NLVL. VSLNet tackles the differences between NLVL and span-based QA through a simple yet effective query-guided highlighting (QGH) strategy. QGH guides VSLNet to search for the matching video span within a highlighted region. To address the performance degradation on long videos, we further extend VSLNet to VSLNet-L by applying a multi-scale split-and-concatenat ion strategy. VSLNet-L first splits the untrimmed video into short clip segments; then, it predicts which clip segment contains the target moment and suppresses the importance of other segments. Finally, the clip segments are concatenated, with different confidences, to locate the target moment accurately. Extensive experiments on three benchmark datasets show that the proposed VSLNet and VSLNet-L outperform the state-of-the-art methods; VSLNet-L addresses the issue of performance degradation on long videos. Our study suggests that the span-based QA framework is an effective strategy to solve the NLVL problem.
翻訳日:2021-03-03 11:58:53 公開日:2021-03-02