このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210312となっている論文です。

PDF登録状況(公開日: 20210312)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) テストのパスによる学習とニューラルアーキテクチャ探索への応用 [全文訳有]

Learning by Passing Tests, with Application to Neural Architecture Search ( http://arxiv.org/abs/2011.15102v2 )

ライセンス: CC BY 4.0
Xuefeng Du, Haochen Zhang, Pengtao Xie(参考訳) テストを通じて学ぶことは、ヒトの学習において広く使われる方法論であり、学習結果を改善する上で大きな効果を示す。 一連のテストは、難易度の増加によって行われる;学習者は、これらのテストを使って学習の弱点を特定し、これらの弱点に継続的に対処して、これらのテストに合格する。 この強力な学習技術が、機械の学習能力を向上させるために人間から借用できるかどうかを調べることに興味がある。 本稿では,パステスト(LPT)による学習という新しい学習手法を提案する。 我々のアプローチでは、テスタモデルは学習者モデルを評価するためにますますディファレントなテストを作成します。 学習者は、テスターが作成する難しいテストにうまく合格できるように、学習能力を継続的に改善しようとする。 我々は、lptを定式化するマルチレベル最適化フレームワークを提案し、テスト担当者は困難で有意義なテストを作成し、学習者はこれらのテストに合格することを学習する。 LPT問題を解決するための効率的なアルゴリズムを開発した。 本手法はニューラルネットワーク探索に適用され,CIFAR-100,CIFAR-10, ImageNetの最先端ベースラインよりも大幅に向上する。

Learning through tests is a broadly used methodology in human learning and shows great effectiveness in improving learning outcome: a sequence of tests are made with increasing levels of difficulty; the learner takes these tests to identify his/her weak points in learning and continuously addresses these weak points to successfully pass these tests. We are interested in investigating whether this powerful learning technique can be borrowed from humans to improve the learning abilities of machines. We propose a novel learning approach called learning by passing tests (LPT). In our approach, a tester model creates increasingly more-difficult tests to evaluate a learner model. The learner tries to continuously improve its learning ability so that it can successfully pass however difficult tests created by the tester. We propose a multi-level optimization framework to formulate LPT, where the tester learns to create difficult and meaningful tests and the learner learns to pass these tests. We develop an efficient algorithm to solve the LPT problem. Our method is applied for neural architecture search and achieves significant improvement over state-of-the-art baselines on CIFAR-100, CIFAR-10, and ImageNet.
翻訳日:2021-06-06 22:54:11 公開日:2021-03-12
# (参考訳) Skillearn: 人間の学習スキルに触発された機械学習

Skillearn: Machine Learning Inspired by Humans' Learning Skills ( http://arxiv.org/abs/2012.04863v2 )

ライセンス: CC BY 4.0
Pengtao Xie, Xuefeng Du, Hao Ban(参考訳) 人間は、地球上でもっとも強力な学習者として、テストによる学習、インターリーブ学習、自己説明、アクティブリコールなど、多くの学習スキルを蓄積しています。 これらの学習スキルと方法論により、人間は新しいトピックをより効率的に学習することができる。 私たちは、機械の学習を支援するために人間の学習スキルを借用できるかどうか調査することに興味を持っています。 具体的には、これらのスキルを形式化し、機械学習(ML)モデルのトレーニングに活用することを目指している。 この目標を達成するために、人間の学習スキルを数学的に表現し、形式的に表現されたスキルを用いてMLモデルのトレーニングを改善するための原則的な方法を提供する一般的なフレームワークであるSkillearnを開発する。 2つのケーススタディにおいて、skillearnを人間の2つの学習スキルの形式化に応用した。 さまざまなデータセットの実験では、Skillearnによって形式化されたスキルを使用してトレーニングされたMLモデルは、はるかに優れたパフォーマンスを実現している。

Humans, as the most powerful learners on the planet, have accumulated a lot of learning skills, such as learning through tests, interleaving learning, self-explanation, active recalling, to name a few. These learning skills and methodologies enable humans to learn new topics more effectively and efficiently. We are interested in investigating whether humans' learning skills can be borrowed to help machines to learn better. Specifically, we aim to formalize these skills and leverage them to train better machine learning (ML) models. To achieve this goal, we develop a general framework -- Skillearn, which provides a principled way to represent humans' learning skills mathematically and use the formally-represented skills to improve the training of ML models. In two case studies, we apply Skillearn to formalize two learning skills of humans: learning by passing tests and interleaving learning, and use the formalized skills to improve neural architecture search. Experiments on various datasets show that trained using the skills formalized by Skillearn, ML models achieve significantly better performance.
翻訳日:2021-05-16 12:40:17 公開日:2021-03-12
# ステレオ画像からの衝突のない空間検出の学習:ホモグラフィマトリクスによるデータの強化

Learning Collision-Free Space Detection from Stereo Images: Homography Matrix Brings Better Data Augmentation ( http://arxiv.org/abs/2012.07890v3 )

ライセンス: Link先を確認
Rui Fan, Hengli Wang, Peide Cai, Jin Wu, Mohammud Junaid Bocus, Lei Qiao and Ming Liu(参考訳) 衝突のない空間検出は、自動運転車の知覚の重要な要素である。 最先端のアルゴリズムは一般的に教師付き学習に基づいている。 このような手法の性能は常にラベル付きトレーニングデータの品質と量に依存する。 さらに、少量のトレーニングサンプルだけでディープ畳み込みニューラルネットワーク(DCNN)をトレーニングすることは、依然としてオープンな課題である。 そこで本稿では,異なる視点から得られた追加画像が利用可能である場合,DCNN全体の性能向上に有効なトレーニングデータ拡張手法を主に検討する。 異なる視点から撮影された2つの画像間の衝突のない空間(一般に平面面と見なされる)の画素がホモグラフィ行列によって関連付けられるため、対象画像のシナリオを参照ビューに変換することができる。 これは、追加のマルチビュー画像からトレーニングデータを生成する、シンプルだが効果的な方法を提供する。 3つのデータセット上で6つの最先端セマンティクスセグメンテーションdcnnを用いた大規模実験を行い,衝突のない空間検出性能向上のためのトレーニングデータ拡張アルゴリズムの有効性を実証した。 kitti roadベンチマークで検証すると、ステレオビジョンに基づく衝突のない空間検出に最適な結果が得られる。

Collision-free space detection is a critical component of autonomous vehicle perception. The state-of-the-art algorithms are typically based on supervised learning. The performance of such approaches is always dependent on the quality and amount of labeled training data. Additionally, it remains an open challenge to train deep convolutional neural networks (DCNNs) using only a small quantity of training samples. Therefore, this paper mainly explores an effective training data augmentation approach that can be employed to improve the overall DCNN performance, when additional images captured from different views are available. Due to the fact that the pixels of the collision-free space (generally regarded as a planar surface) between two images captured from different views can be associated by a homography matrix, the scenario of the target image can be transformed into the reference view. This provides a simple but effective way of generating training data from additional multi-view images. Extensive experimental results, conducted with six state-of-the-art semantic segmentation DCNNs on three datasets, demonstrate the effectiveness of our proposed training data augmentation algorithm for enhancing collision-free space detection performance. When validated on the KITTI road benchmark, our approach provides the best results for stereo vision-based collision-free space detection.
翻訳日:2021-05-08 14:19:06 公開日:2021-03-12
# 不確定モデリング

Indecision Modeling ( http://arxiv.org/abs/2012.08485v2 )

ライセンス: Link先を確認
Duncan C McElfresh, Lok Chan, Kenzie Doyle, Walter Sinnott-Armstrong, Vincent Conitzer, Jana Schaich Borg, John P Dickerson(参考訳) AIシステムは、刑事司法、雇用、医療など、幅広い分野で重要な決定を下す、または貢献するためにしばしば使用される。 これらの決定は人間の生活に影響を与えるため、AIシステムが人間の価値観と整合して行動することが重要である。 選好モデリングと社会的選好のテクニックは、aiの行動を導くために使用される人の選好を研究者が学び、集約するのに役立ちます。 これらのテクニックは、人々が選択肢よりも厳格な好みを表現しようとすると仮定することが多い。 人はしばしば非決定的であり、特に彼らの決定が道徳的な意味を持つときである。 哲学と心理学の文献は、不決定は測定可能でニュアンスのある行動であり、人々が不決定的な理由がいくつかあることを示している。 これは、多くの文献が不確定の意味について限定的な仮定をしているため、学習と選好の集約の両方のタスクを複雑にする。 このギャップは、哲学、心理学、経済学の理論に基づく数種類の数学的な「emph{indecision}」モデルを定式化することによって解決され、これらのモデルは、不確定性を表現することが許されたときとそうでないときの両方において、(決定不能な)エージェント決定を記述するのに使用できる。 これらのモデルをオンライン調査から収集したデータを用いてテストし,移植待ちの患者に対して臓器の割り当て方法を選択する。

AI systems are often used to make or contribute to important decisions in a growing range of applications, including criminal justice, hiring, and medicine. Since these decisions impact human lives, it is important that the AI systems act in ways which align with human values. Techniques for preference modeling and social choice help researchers learn and aggregate peoples' preferences, which are used to guide AI behavior; thus, it is imperative that these learned preferences are accurate. These techniques often assume that people are willing to express strict preferences over alternatives; which is not true in practice. People are often indecisive, and especially so when their decision has moral implications. The philosophy and psychology literature shows that indecision is a measurable and nuanced behavior -- and that there are several different reasons people are indecisive. This complicates the task of both learning and aggregating preferences, since most of the relevant literature makes restrictive assumptions on the meaning of indecision. We begin to close this gap by formalizing several mathematical \emph{indecision} models based on theories from philosophy, psychology, and economics; these models can be used to describe (indecisive) agent decisions, both when they are allowed to express indecision and when they are not. We test these models using data collected from an online survey where participants choose how to (hypothetically) allocate organs to patients waiting for a transplant.
翻訳日:2021-05-07 05:14:31 公開日:2021-03-12
# SWAオブジェクト検出

SWA Object Detection ( http://arxiv.org/abs/2012.12645v3 )

ライセンス: Link先を確認
Haoyang Zhang, Ying Wang, Feras Dayoub and Niko S\"underhauf(参考訳) オブジェクト検出器の1.0 APを、推論コストや検出器の変更なしに改善したいですか? そんなレシピを教えてあげよう。 循環学習率を使って12のエポックで検出器を訓練し、最終的な検出モデルとしてこれらの12のチェックポイントを平均化する。 この強力なレシピは、深いニューラルネットワークの一般化を改善するためにarXiv:1803.05407で提案されているSWA(Stochastic Weights Averaging)にインスパイアされている。 物体検出にも非常に有効であることがわかった。 本報告では,swaをオブジェクト検出やインスタンス分割に適用する効果について体系的に検討する。 大規模な実験を通じて、オブジェクト検出においてSWAを実行するための実行可能なポリシを発見し、Mask RCNN、Faster RCNN、RetinaNet、FCOS、YOLOv3、VFNetなど、さまざまな人気検出器に対する$\sim$1.0 APの改善を一貫して達成している。 この研究により、より多くの物体検出研究者がこの技術を知って、より優れた物体検出器の訓練に役立てることを願っている。 コードは、https://github.com/h yz-xmaster/swa_objec t_detection で入手できる。

Do you want to improve 1.0 AP for your object detector without any inference cost and any change to your detector? Let us tell you such a recipe. It is surprisingly simple: train your detector for an extra 12 epochs using cyclical learning rates and then average these 12 checkpoints as your final detection model}. This potent recipe is inspired by Stochastic Weights Averaging (SWA), which is proposed in arXiv:1803.05407 for improving generalization in deep neural networks. We found it also very effective in object detection. In this technique report, we systematically investigate the effects of applying SWA to object detection as well as instance segmentation. Through extensive experiments, we discover the aforementioned workable policy of performing SWA in object detection, and we consistently achieve $\sim$1.0 AP improvement over various popular detectors on the challenging COCO benchmark, including Mask RCNN, Faster RCNN, RetinaNet, FCOS, YOLOv3 and VFNet. We hope this work will make more researchers in object detection know this technique and help them train better object detectors. Code is available at: https://github.com/h yz-xmaster/swa_objec t_detection .
翻訳日:2021-04-25 18:08:15 公開日:2021-03-12
# 手続き生成によるエンドツーエンド運転の一般化の改善

Improving the Generalization of End-to-End Driving through Procedural Generation ( http://arxiv.org/abs/2012.13681v2 )

ライセンス: Link先を確認
Quanyi Li, Zhenghao Peng, Qihang Zhang, Chunxiao Liu, Bolei Zhou(参考訳) ここ数年、学習ベースの自動運転システムへの関心が高まっている。 安全性を確保するため、これらのシステムはまずシミュレータで開発、検証され、その後現実世界に配備される。 しかし、既存の運転シミュレータのほとんどは、固定されたシーンセットと限られた設定可能な設定しか含まない。 これは、学習ベースの運転システムに対する過剰な問題や、シナリオを認識できない一般化能力の欠如を容易に引き起こす可能性がある。 エンド・ツー・エンドの運転の一般化をよりよく評価・改善するために,プロシージャ生成の重要な特徴であるPGDriveと呼ばれるオープンエンドかつ高構成の運転シミュレータを導入する。 多様な道路網は, 基本道路ブロックからのサンプリングにより, 提案アルゴリズムによって生成される。 次に、現実的なキネマティクスを備えた近隣車両の交通の流れをレンダリングするインタラクティブなトレーニング環境へと変換される。 我々は,プロシージャ生成シーンの増加によるトレーニングが,交通密度や道路網の異なるシナリオにおけるエージェントの一般化を著しく改善することを検証する。 マルチエージェント交通シミュレーションや安全な運転ベンチマークなどの多くのアプリケーションがシミュレータ上に構築できる。 エンド・ツー・エンド・ドライブの共同研究を容易にするため、シミュレーターと事前訓練されたモデルをhttps://decisionforc e.github.io/pgdriveでリリースする。

Over the past few years there is a growing interest in the learning-based self driving system. To ensure safety, such systems are first developed and validated in simulators before being deployed in the real world. However, most of the existing driving simulators only contain a fixed set of scenes and a limited number of configurable settings. That might easily cause the overfitting issue for the learning-based driving systems as well as the lack of their generalization ability to unseen scenarios. To better evaluate and improve the generalization of end-to-end driving, we introduce an open-ended and highly configurable driving simulator called PGDrive, following a key feature of procedural generation. Diverse road networks are first generated by the proposed generation algorithm via sampling from elementary road blocks. Then they are turned into interactive training environments where traffic flows of nearby vehicles with realistic kinematics are rendered. We validate that training with the increasing number of procedurally generated scenes significantly improves the generalization of the agent across scenarios of different traffic densities and road networks. Many applications such as multi-agent traffic simulation and safe driving benchmark can be further built upon the simulator. To facilitate the joint research effort of end-to-end driving, we release the simulator and pretrained models at https://decisionforc e.github.io/pgdrive
翻訳日:2021-04-25 01:11:24 公開日:2021-03-12
# (参考訳) コーナーケースデータ記述と検出 [全文訳有]

Corner case data description and detection ( http://arxiv.org/abs/2101.02494v2 )

ライセンス: CC0 1.0
Tinghui Ouyang, Vicent Sant Marco, Yoshinao Isobe, Hideki Asoh, Yutaka Oiwa, Yoshiki Seo(参考訳) ディープラーニングモデルの安全性に影響を与える主要な要因として、コーナーケースと関連する検出は、安全およびセキュリティクリティカルなシステムを構築するためのAI品質保証に不可欠である。 一般的なコーナーケースの研究には2つの興味深いトピックがある。 1つは、DLモデルの堅牢性を高め、パラメータや構造を調整してケースデータを詰め込むことである。 もう1つは、モデルの再トレーニングと改善のための新しいコーナーケースを生成することです。 しかし、複雑なアーキテクチャと膨大なパラメータにより、DLモデルの堅牢な調整は容易ではなく、一方、DLトレーニングのための実世界のすべてのコーナーケースを生成することはできない。 そこで本稿では,特定指標によるコーナーケースデータ検出を目的とした簡易かつ新しい研究を提案する。 このメトリクスは、データの振る舞いをキャプチャする利点を持つサプライズアデクシー(SA)に基づいて開発されている。 さらに, コーナーケースデータの特徴をターゲットとして, 距離ベースSAを3つの改良を加えて分類を行った。 その結果、MNISTデータと産業データに関する実験分析により、コーナーケースデータ検出における提案手法の有効性と有用性を確認した。

As the major factors affecting the safety of deep learning models, corner cases and related detection are crucial in AI quality assurance for constructing safety- and security-critical systems. The generic corner case researches involve two interesting topics. One is to enhance DL models robustness to corner case data via the adjustment on parameters/structure . The other is to generate new corner cases for model retraining and improvement. However, the complex architecture and the huge amount of parameters make the robust adjustment of DL models not easy, meanwhile it is not possible to generate all real-world corner cases for DL training. Therefore, this paper proposes to a simple and novel study aiming at corner case data detection via a specific metric. This metric is developed on surprise adequacy (SA) which has advantages on capture data behaviors. Furthermore, targeting at characteristics of corner case data, three modifications on distanced-based SA are developed for classification applications in this paper. Consequently, through the experiment analysis on MNIST data and industrial data, the feasibility and usefulness of the proposed method on corner case data detection are verified.
翻訳日:2021-04-10 17:43:19 公開日:2021-03-12
# (参考訳) 適応スパイキングリカレントニューラルネットワークを用いた高精度かつ効率的な時間領域分類 [全文訳有]

Accurate and efficient time-domain classification with adaptive spiking recurrent neural networks ( http://arxiv.org/abs/2103.12593v1 )

ライセンス: CC0 1.0
Bojian Yin, Federico Corradi, Sander M. Bohte(参考訳) 生物学的ニューロンのより詳細なモデリングにインスパイアされたスパイキングニューラルネットワーク(SNN)は、神経計算のより生物学的に可塑性かつ潜在的に強力なモデルとして研究され、また生物学的ニューロンのエネルギー効率を抽出することを目的としている。 本稿では,音声やジェスチャ認識などの時間領域における難解なベンチマークにおいて,新たなサーロゲート勾配と,可変および適応的なスパイクニューロンの反復的ネットワークがsnsの最先端をもたらすことを示す。 これはまた、標準の古典的リカレントニューラルネットワーク(RNN)の性能を超え、最新のANNのそれにアプローチする。 これらのSNNはスパーススパイクを示すため、理論上は同等の性能を持つRNNに比べて1~3桁の計算効率が優れていることを示す。 これにより、SNNはAIハードウェア実装の魅力的なソリューションとして位置づけられる。

Inspired by more detailed modeling of biological neurons, Spiking neural networks (SNNs) have been investigated both as more biologically plausible and potentially more powerful models of neural computation, and also with the aim of extracting biological neurons' energy efficiency; the performance of such networks however has remained lacking compared to classical artificial neural networks (ANNs). Here, we demonstrate how a novel surrogate gradient combined with recurrent networks of tunable and adaptive spiking neurons yields state-of-the-art for SNNs on challenging benchmarks in the time-domain, like speech and gesture recognition. This also exceeds the performance of standard classical recurrent neural networks (RNNs) and approaches that of the best modern ANNs. As these SNNs exhibit sparse spiking, we show that they theoretically are one to three orders of magnitude more computationally efficient compared to RNNs with comparable performance. Together, this positions SNNs as an attractive solution for AI hardware implementations.
翻訳日:2021-04-05 03:51:54 公開日:2021-03-12
# (参考訳) 法律技術におけるNLPツールキットの性能と評価基準の比較

Comparing the Performance of NLP Toolkits and Evaluation measures in Legal Tech ( http://arxiv.org/abs/2103.11792v1 )

ライセンス: CC BY 4.0
Muhammad Zohaib Khan(参考訳) 近年の自然言語処理の発展は、さまざまな事前学習目的を用いて、教師なし転送可能な学習で実現される最先端のニューラルネットワークモデルの導入につながった。 これらのモデルは下流のnlpタスクで優れた結果を得るが、様々なドメイン適応技術はドメイン固有のタスクのパフォーマンスを向上させることができる。 我々は,事前訓練されたニューラルネットワークモデル,XLNet(autoregressiv e),BERT(autoencoder) を比較し,分析する。 その結果、XLNet Model は法的な意見分類のシーケンス分類タスクにおいて、BERT は NER タスクにおいて、より良い結果をもたらすことがわかった。 我々は、BERTモデルをさらに法律ドメインに適応させるために、ドメイン固有の事前訓練と追加の法的語彙を使用します。 BERTモデルの複数の変種を作成し,その組み合わせについて検討した。 法域に特化しているBERTモデルの変種を比較すると,新たな事前学習手法と語彙技術により,法オプション分類タスクにおけるBERTモデルの性能が向上することがわかった。 追加の法的語彙は、NERタスクにおけるBERTのパフォーマンスを改善する。 事前学習と語彙技法を組み合わせることで、最終的な結果がさらに向上する。 我々の法-Vocab-BERTモデルは、より大規模な事前訓練された汎用言語モデル、すなわちBERT-BaseとXLNet-Baseよりも優れた結果をもたらす。

Recent developments in Natural Language Processing have led to the introduction of state-of-the-art Neural Language Models, enabled with unsupervised transferable learning, using different pretraining objectives. While these models achieve excellent results on the downstream NLP tasks, various domain adaptation techniques can improve their performance on domain-specific tasks. We compare and analyze the pretrained Neural Language Models, XLNet (autoregressive), and BERT (autoencoder) on the Legal Tasks. Results show that XLNet Model performs better on our Sequence Classification task of Legal Opinions Classification, whereas BERT produces better results on the NER task. We use domain-specific pretraining and additional legal vocabulary to adapt BERT Model further to the Legal Domain. We prepared multiple variants of the BERT Model, using both methods and their combination. Comparing our variants of the BERT Model, specializing in the Legal Domain, we conclude that both additional pretraining and vocabulary techniques enhance the BERT model's performance on the Legal Opinions Classification task. Additional legal vocabulary improves BERT's performance on the NER task. Combining the pretraining and vocabulary techniques further improves the final results. Our Legal-Vocab-BERT Model gives the best results on the Legal Opinions Task, outperforming the larger pretrained general Language Models, i.e., BERT-Base and XLNet-Base.
翻訳日:2021-04-05 03:30:11 公開日:2021-03-12
# アスペクトレベルの知覚分類のための複数依存木を用いたグラフアンサンブル学習

Graph Ensemble Learning over Multiple Dependency Trees for Aspect-level Sentiment Classification ( http://arxiv.org/abs/2103.11794v1 )

ライセンス: Link先を確認
Xiaochen Hou, Peng Qi, Guangtao Wang, Rex Ying, Jing Huang, Xiaodong He, Bowen Zhou(参考訳) アスペクトレベルの感情分類に関する最近の研究は、依存木などの構文構造をグラフニューラルネットワーク(GNN)に組み込むことの有効性を実証している。 回避不能なエラーに直面した構文情報をよりよく活用するために,グラフアンサンブル手法であるGraphMergeを提案する。 各依存ツリーに1組のモデルパラメータを割り当てる代わりに、まず、結果のグラフにGNNを適用する前に、異なるパースから依存関係を結合する。 これにより、GNNモジュールは、余分な計算コストなしでエラーを解析しやすくなり、アンサンブルグラフにより多くの接続性を導入することで、GNNレイヤのオーバーパラメータ化やオーバーフィッティングを避けることができる。 SemEval 2014 Task 4とACL 14のTwitterデータセットの実験では、GraphMergeモデルは単一の依存ツリーでモデルを上回るだけでなく、モデルパラメータを追加せずに他のアンサンブルモジュールを上回ります。

Recent work on aspect-level sentiment classification has demonstrated the efficacy of incorporating syntactic structures such as dependency trees with graph neural networks(GNN), but these approaches are usually vulnerable to parsing errors. To better leverage syntactic information in the face of unavoidable errors, we propose a simple yet effective graph ensemble technique, GraphMerge, to make use of the predictions from differ-ent parsers. Instead of assigning one set of model parameters to each dependency tree, we first combine the dependency relations from different parses before applying GNNs over the resulting graph. This allows GNN mod-els to be robust to parse errors at no additional computational cost, and helps avoid overparameterization and overfitting from GNN layer stacking by introducing more connectivity into the ensemble graph. Our experiments on the SemEval 2014 Task 4 and ACL 14 Twitter datasets show that our GraphMerge model not only outperforms models with single dependency tree, but also beats other ensemble mod-els without adding model parameters.
翻訳日:2021-04-05 01:03:53 公開日:2021-03-12
# スティーフェルとその商多様体上のリーマン対数を計算する閉形式測地学と信頼領域法

Closed-form geodesics and trust-region method to calculate Riemannian logarithms on Stiefel and its quotient manifolds ( http://arxiv.org/abs/2103.13327v1 )

ライセンス: Link先を確認
Du Nguyen(参考訳) 2つの閉形式の測地線式をスティーフェル多様体上の計量の族に与え, 2つの正の数でパラメータ化し, 埋め込み計量と標準計量の両方を特別な場合とする。 閉形式公式は、低ランク多様体の縮小次元における行列指数による測地学の計算を可能にする。 多様体上の測地線終点から与えられた点への正方形のフロベニウス距離の勾配を計算するためにfr{\'e}chet微分を用いることで、多様体上の2つの端点の間の対数写像と測地線距離を、この平方距離を {\it 信頼領域解によって最小化することで計算できることを示した。 これにより、既知の測地線公式を持つが閉形式の対数写像を持たない多様体の測地線距離を計算する新しい枠組みが導かれる。 このアプローチは、Stiefel やフラッグ多様体にも有効であることを示す。 対数写像は、上記の計量を備えたこれらの多様体のリーマン中心の計算に使うことができる。 また、グラスマン多様体上のリーマン指数および対数写像に対する単純な三角公式を導出する。

We provide two closed-form geodesic formulas for a family of metrics on Stiefel manifold, parameterized by two positive numbers, having both the embedded and canonical metrics as special cases. The closed-form formulas allow us to compute geodesics by matrix exponential in reduced dimension for low-rank manifolds. Combining with the use of Fr{\'e}chet derivatives to compute the gradient of the square Frobenius distance between a geodesic ending point to a given point on the manifold, we show the logarithm map and geodesic distance between two endpoints on the manifold could be computed by {\it minimizing} this square distance by a {\it trust-region} solver. This leads to a new framework to compute the geodesic distance for manifolds with known geodesic formula but no closed-form logarithm map. We show the approach works well for Stiefel as well as flag manifolds. The logarithm map could be used to compute the Riemannian center of mass for these manifolds equipped with the above metrics. We also deduce simple trigonometric formulas for the Riemannian exponential and logarithm maps on the Grassmann manifold.
翻訳日:2021-04-05 00:59:49 公開日:2021-03-12
# LLA:Dense Pedestrian DetectionのためのLos-Aware Label Assignment

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection ( http://arxiv.org/abs/2101.04307v3 )

ライセンス: Link先を確認
Zheng Ge, Jianfeng Wang, Xin Huang, Songtao Liu, Osamu Yoshie(参考訳) ラベル割り当ては検出器の性能に大きな影響を与えるため、一般的な物体検出において広く研究されている。 しかし、いずれも密集した歩行者検出におけるラベル割り当てに重点を置いていない。 本稿では,群衆シナリオにおける歩行者検知器の性能向上を図るため,Los-Aware Label Assignment (LLA) と呼ばれる簡易かつ効果的なアサイン方式を提案する。 LLAはまず、各アンカーとグラウンドトラス(GT)ペア間の分類(cl)と回帰(reg)損失を計算する。 次に、結合損失を割り当て指標としてclsとreg損失の重み付け和として定義する。 最後に、あるGTボックスに対するトップKの最小関節損失を持つアンカーを正のアンカーとして割り当てる。 GTボックスに割り当てられていないアンカーは負と見なされる。 ロスアウェアラベルの割り当ては、低い関節損失のアンカーは、通常よりリッチな意味情報を含むため、対応するGTボックスをよりよく表現できるという観察に基づいている。 CrowdHuman(英語版)とCityPersons(英語版)の実験では、これらの単純なラベル割り当て戦略は2つの有名な1段検出器であるRetinaNetとFCOSでMRを9.53%、そして5.47%向上させ、LLAの有効性を示す。

Label assignment has been widely studied in general object detection because of its great impact on detectors' performance. However, none of these works focus on label assignment in dense pedestrian detection. In this paper, we propose a simple yet effective assigning strategy called Loss-aware Label Assignment (LLA) to boost the performance of pedestrian detectors in crowd scenarios. LLA first calculates classification (cls) and regression (reg) losses between each anchor and ground-truth (GT) pair. A joint loss is then defined as the weighted summation of cls and reg losses as the assigning indicator. Finally, anchors with top K minimum joint losses for a certain GT box are assigned as its positive anchors. Anchors that are not assigned to any GT box are considered negative. Loss-aware label assignment is based on an observation that anchors with lower joint loss usually contain richer semantic information and thus can better represent their corresponding GT boxes. Experiments on CrowdHuman and CityPersons show that such a simple label assigning strategy can boost MR by 9.53% and 5.47% on two famous one-stage detectors - RetinaNet and FCOS, respectively, demonstrating the effectiveness of LLA.
翻訳日:2021-04-04 01:46:03 公開日:2021-03-12
# (参考訳) 深部物体検出器における回帰予測の不確かさの推定と評価 [全文訳有]

Estimating and Evaluating Regression Predictive Uncertainty in Deep Object Detectors ( http://arxiv.org/abs/2101.05036v3 )

ライセンス: CC BY 4.0
Ali Harakeh and Steven L. Waslander(参考訳) 予測的不確実性推定は、ディープオブジェクト検出器を安全クリティカルなタスクに確実に配置するための重要な次のステップである。 本研究では,分散ネットワークを用いた境界ボックス回帰出力の予測分布の推定に着目する。 オブジェクト検出の文脈では、負の対数確率(NLL)を持つトレーニング分散ネットワークは、出力平均の正確性に関わらず、高いエントロピー予測分布をもたらすことが示される。 エネルギースコアを非局所的適切なスコアリングルールとして使用し、トレーニングに使用する場合、エネルギースコアがnllよりも校正され、エントロピー予測分布が低くなることを示す。 また、適切なスコアリングルールに基づく代替評価手法を提案し、ディープオブジェクト検出器から予測分布を評価するために、非プロプライエタリなスコアリング指標が広く用いられていることに対処する。 提案する評価ツールを用いて,分散ネットワークは高品質な予測分布を生成するのに使用できるが,訓練中の回帰目標の選択に有意な対象検出器が使用するアドホックなアプローチは,信頼性の高い分散学習のための十分なデータサポートを提供していないことを示す。 我々の研究は、確率的オブジェクト検出における評価のシフトに役立ち、他の機械学習領域における予測の不確実性評価との整合性を高めることを願っている。 すべてのモデル、評価、データセットのコードは、https://github.com/a sharakeh/probdet.git .comで入手できる。

Predictive uncertainty estimation is an essential next step for the reliable deployment of deep object detectors in safety-critical tasks. In this work, we focus on estimating predictive distributions for bounding box regression output with variance networks. We show that in the context of object detection, training variance networks with negative log likelihood (NLL) can lead to high entropy predictive distributions regardless of the correctness of the output mean. We propose to use the energy score as a non-local proper scoring rule and find that when used for training, the energy score leads to better calibrated and lower entropy predictive distributions than NLL. We also address the widespread use of non-proper scoring metrics for evaluating predictive distributions from deep object detectors by proposing an alternate evaluation approach founded on proper scoring rules. Using the proposed evaluation tools, we show that although variance networks can be used to produce high quality predictive distributions, ad-hoc approaches used by seminal object detectors for choosing regression targets during training do not provide wide enough data support for reliable variance learning. We hope that our work helps shift evaluation in probabilistic object detection to better align with predictive uncertainty evaluation in other machine learning domains. Code for all models, evaluation, and datasets is available at: https://github.com/a sharakeh/probdet.git .
翻訳日:2021-03-30 14:05:34 公開日:2021-03-12
# ItNet: 正確なリアルタイム予測のための小さなグラフ付き反復ニューラルネットワーク

ItNet: iterative neural networks with small graphs for accurate and efficient anytime prediction ( http://arxiv.org/abs/2101.08685v2 )

ライセンス: Link先を確認
Thomas Pfeil(参考訳) ディープニューラルネットワークは通常、低消費電力での使用のために圧縮され、加速される。 モバイル、デバイス。 近年,メモリ内計算を利用して低消費電力で高スループット,低レイテンシを実現するハードウェアアクセラレータが開発されている。 しかし、これらの利点を利用するには、ニューラルネットワークの計算グラフは、通常サイズがかなり限られているこれらのハードウェアシステムの計算メモリに収まる必要がある。 本研究では,計算グラフの観点から,メモリフットプリントが小さいネットワークモデルについて紹介する。 この目的のために、グラフは単一のネットワークビルディングブロックを反復実行することでループを含むように設計されている。 さらに、トレーニングと推論の間に複数の中間出力を追加することにより、いわゆる反復ニューラルネットワークの精度とレイテンシのトレードオフが改善される。 計算資源の面で特に要求されるcamvidおよびcityscapesデータセットにおける意味セグメンテーションに関する最新の結果を示す。 アブレーション研究では,中間的ネットワーク出力によるネットワークトレーニングの改善と,反復による重み共有とネットワークサイズとのトレードオフについて検討した。

Deep neural networks have usually to be compressed and accelerated for their usage in low-power, e.g. mobile, devices. Recently, massively-parallel hardware accelerators were developed that offer high throughput and low latency at low power by utilizing in-memory computation. However, to exploit these benefits the computational graph of a neural network has to fit into the in-computation memory of these hardware systems that is usually rather limited in size. In this study, we introduce a class of network models that have a small memory footprint in terms of their computational graphs. To this end, the graph is designed to contain loops by iteratively executing a single network building block. Furthermore, the trade-off between accuracy and latency of these so-called iterative neural networks is improved by adding multiple intermediate outputs both during training and inference. We show state-of-the-art results for semantic segmentation on the CamVid and Cityscapes datasets that are especially demanding in terms of computational resources. In ablation studies, the improvement of network training by intermediate network outputs as well as the trade-off between weight sharing over iterations and the network size are investigated.
翻訳日:2021-03-21 08:07:37 公開日:2021-03-12
# (参考訳) オーバー・ザ・カウンタ社債市場におけるディーラーの行動予測 [全文訳有]

Predicting the Behavior of Dealers in Over-The-Counter Corporate Bond Markets ( http://arxiv.org/abs/2103.09098v1 )

ライセンス: CC BY 4.0
Yusen Lin, Jinming Xue, Louiqa Raschid(参考訳) オーバー・ザ・カウンタ(Over-The-Counter、OTC)市場での取引はブローカーディーラーによって促進され、ニューヨーク証券取引所(NYSE)のような公開取引所と比較される。 ディーラーは、otc市場で価格の安定化と流動性の提供に重要な役割を果たしている。 我々は、米国社債のotcディーラーの取引行動のモデル化と予測に機械学習手法を適用する。 我々は、米国の社債の語彙を巡って、ディーラーごとに毎日の歴史的取引報告のシーケンスを作成します。 このディーラー活動の歴史を利用して、ディーラーの将来的な取引決定を予測する。 ニューラルネットワークに基づく予測モデルについて検討する。 本稿では,PPRZ(Pointwise-Prod uct ReZero) Transformerモデルの拡張を提案する。 個々の履歴が最もアクティブなディーラーにとって最良の予測モデルであることを示します。 アクティブなディーラーが少ない場合、集団モデルによってパフォーマンスが向上する。 さらに、類似性に基づくクラスタリングディーラーの性能を向上させることができる。 最後に、予測精度は、結合とディーラーの両方の活性レベルによって変化する。

Trading in Over-The-Counter (OTC) markets is facilitated by broker-dealers, in comparison to public exchanges, e.g., the New York Stock Exchange (NYSE). Dealers play an important role in stabilizing prices and providing liquidity in OTC markets. We apply machine learning methods to model and predict the trading behavior of OTC dealers for US corporate bonds. We create sequences of daily historical transaction reports for each dealer over a vocabulary of US corporate bonds. Using this history of dealer activity, we predict the future trading decisions of the dealer. We consider a range of neural network-based prediction models. We propose an extension, the Pointwise-Product ReZero (PPRZ) Transformer model, and demonstrate the improved performance of our model. We show that individual history provides the best predictive model for the most active dealers. For less active dealers, a collective model provides improved performance. Further, clustering dealers based on their similarity can improve performance. Finally, prediction accuracy varies based on the activity level of both the bond and the dealer.
翻訳日:2021-03-19 03:28:25 公開日:2021-03-12
# (参考訳) 都市交通インプテーション改善のための時空間テンソル補完 [全文訳有]

Spatiotemporal Tensor Completion for Improved Urban Traffic Imputation ( http://arxiv.org/abs/2103.08323v1 )

ライセンス: CC0 1.0
Ahmed Ben Said, Abdelkarim Erradi(参考訳) 都市交通の効果的な管理は、スマートシティイニシアチブにとって重要である。 したがって、感覚交通データの質は極めて重要である。 しかし、他のセンサデータと同様に、都市交通データは不完全であり、測定に欠けている。 本稿では,地域間トラフィックデータの補完に注目する。 本研究では,地域間トラフィックを時空間テンソルとしてモデル化する。 そこで本研究では,交通の都市的側面と時間的側面を考慮したCANDECOMP/PARAFAC(CP )補完手法を提案する。 都市特性を導出するために,研究領域を地域に分割する。 そして,各地域では,都市類似度行列の計算に使用される生物多様性から着想を得た都市特徴ベクトルを計算する。 時間的側面を掘り下げるために、まずエントロピー解析を行い、最も定期的な時系列を決定する。 そして,連成フーリエと相関解析を行い,その周期性を計算し,時間行列を構成する。 都市および時間行列は、修正CP補完目的関数に供給される。 この目的を達成するために,入力のベクトル化バージョンで動作する交互最小二乗法を提案する。 2つの評価シナリオで総合的な比較研究を行う。 まず、ランダムに欠落した値をシミュレートする。 第2のシナリオでは、特定の領域と時間における欠落値をシミュレートする。 提案手法は, 最先端CP手法に比べて26%, 最先端生成モデルを用いた手法に比べて35%, 有効回復性能が26%向上することを示した。

Effective management of urban traffic is important for any smart city initiative. Therefore, the quality of the sensory traffic data is of paramount importance. However, like any sensory data, urban traffic data are prone to imperfections leading to missing measurements. In this paper, we focus on inter-region traffic data completion. We model the inter-region traffic as a spatiotemporal tensor that suffers from missing measurements. To recover the missing data, we propose an enhanced CANDECOMP/PARAFAC (CP) completion approach that considers the urban and temporal aspects of the traffic. To derive the urban characteristics, we divide the area of study into regions. Then, for each region, we compute urban feature vectors inspired from biodiversity which are used to compute the urban similarity matrix. To mine the temporal aspect, we first conduct an entropy analysis to determine the most regular time-series. Then, we conduct a joint Fourier and correlation analysis to compute its periodicity and construct the temporal matrix. Both urban and temporal matrices are fed into a modified CP-completion objective function. To solve this objective, we propose an alternating least square approach that operates on the vectorized version of the inputs. We conduct comprehensive comparative study with two evaluation scenarios. In the first one, we simulate random missing values. In the second scenario, we simulate missing values at a given area and time duration. Our results demonstrate that our approach provides effective recovering performance reaching 26% improvement compared to state-of-art CP approaches and 35% compared to state-of-art generative model-based approaches.
翻訳日:2021-03-19 03:22:28 公開日:2021-03-12
# (参考訳) FES: 高速でスケーラブルなQoS予測フレームワーク [全文訳有]

FES: A Fast Efficient Scalable QoS Prediction Framework ( http://arxiv.org/abs/2103.07494v1 )

ライセンス: CC BY 4.0
Soumi Chattopadhyay, Chandranath Adak, Ranjana Roy Chowdhury(参考訳) Webサービスのクオリティ・オブ・サービス予測は、サービス構成、サービス選択、サービスレコメンデーションなど、サービスライフサイクルのさまざまな側面における多様なアプリケーションのために、サービスコンピューティングの不可欠な部分です。 QoS予測アルゴリズムを設計する主な目的の1つは、良好な予測精度を達成することである。 しかし、QoS予測アルゴリズムを開発する際に満たすべき基準は精度だけではない。 アルゴリズムは、リアルタイムのレコメンデーションやコンポジションシステムに統合できるように、予測時間の観点からより高速でなければならない。 予測アルゴリズムを設計する際に考慮すべきもう1つの重要な要素は、予測アルゴリズムが大規模データセットに対処できるように拡張性である。 QoS予測の既存のアルゴリズムは、他のアルゴリズムを確実にしながら、ある目標に対して妥協することが多い。 本稿では,高い精度,高速な予測時間,スケーラビリティの3つの重要な目標を同時に達成する半オフラインQoS予測モデルを提案する。 ここでは,ユーザ間で異なるサービスのqos価値を予測することを目的とする。 本フレームワークは,前処理フェーズ予測,オンライン予測,事前学習モデルを用いた予測といった多相予測アルゴリズムからなる。 プリプロセッシングフェーズでは、まずデータセットにマルチレベルクラスタリングを適用し、相関のあるユーザとサービスを得る。 次に、協調フィルタリングを用いてクラスタを前処理し、与えられたQoS呼び出しログ行列の間隔を除去する。 最後に,ニューラルネットワークを用いた2段階の半オフライン回帰モデルを作成し,ユーザがリアルタイムに呼び出すサービスのqos値を予測する。 公開された4つのWS-DREAMデータセットの実験結果は、最先端の手法と比較して、フレームワークの正確性、スケーラビリティ、迅速な応答性の観点から効率性を示している。

Quality-of-Service prediction of web service is an integral part of services computing due to its diverse applications in the various facets of a service life cycle, such as service composition, service selection, service recommendation. One of the primary objectives of designing a QoS prediction algorithm is to achieve satisfactory prediction accuracy. However, accuracy is not the only criteria to meet while developing a QoS prediction algorithm. The algorithm has to be faster in terms of prediction time so that it can be integrated into a real-time recommendation or composition system. The other important factor to consider while designing the prediction algorithm is scalability to ensure that the prediction algorithm can tackle large-scale datasets. The existing algorithms on QoS prediction often compromise on one goal while ensuring the others. In this paper, we propose a semi-offline QoS prediction model to achieve three important goals simultaneously: higher accuracy, faster prediction time, scalability. Here, we aim to predict the QoS value of service that varies across users. Our framework consists of multi-phase prediction algorithms: preprocessing-phase prediction, online prediction, and prediction using the pre-trained model. In the preprocessing phase, we first apply multi-level clustering on the dataset to obtain correlated users and services. We then preprocess the clusters using collaborative filtering to remove the sparsity of the given QoS invocation log matrix. Finally, we create a two-staged, semi-offline regression model using neural networks to predict the QoS value of service to be invoked by a user in real-time. Our experimental results on four publicly available WS-DREAM datasets show the efficiency in terms of accuracy, scalability, fast responsiveness of our framework as compared to the state-of-the-art methods.
翻訳日:2021-03-19 01:40:54 公開日:2021-03-12
# (参考訳) 線形状態空間モデルマルコフ決定過程への予測の導入について [全文訳有]

On Incorporating Forecasts into Linear State Space Model Markov Decision Processes ( http://arxiv.org/abs/2103.07533v1 )

ライセンス: CC BY 4.0
Jacques A. de Chalendar and Peter W. Glynn(参考訳) 天気予報情報は将来のエネルギーシステムの制御にますます応用される可能性が高い。 本稿では,線形力学を用いた拡張状態空間モデルの定式化について述べる。そこでは,基礎となる状態変数の進化とともに動的に表される予測情報を組み込むことができる。 我々は、予測進化(MMFE)にマーチンゲールモデルを用いて、予測と基礎状態の合同進化を管理するために必要な一貫性特性を強制する。 この定式化はまた、計算的に抽出可能なマルコフ決定過程(MDP)を生じさせる共同マルコフ力学を生成する。 本稿では, トラクタビリティを保った MDP の定式化において, MMFE の整合性要件を適用した最初の事例である。

Weather forecast information will very likely find increasing application in the control of future energy systems. In this paper, we introduce an augmented state space model formulation with linear dynamics, within which one can incorporate forecast information that is dynamically revealed alongside the evolution of the underlying state variable. We use the martingale model for forecast evolution (MMFE) to enforce the necessary consistency properties that must govern the joint evolution of forecasts with the underlying state. The formulation also generates jointly Markovian dynamics that give rise to Markov decision processes (MDPs) that remain computationally tractable. This paper is the first to enforce MMFE consistency requirements within an MDP formulation that preserves tractability.
翻訳日:2021-03-18 12:47:33 公開日:2021-03-12
# (参考訳) 廃止論者ネットワーク:19世紀アクティビスト新聞における言語変化のモデル化 [全文訳有]

Abolitionist Networks: Modeling Language Change in Nineteenth-Century Activist Newspapers ( http://arxiv.org/abs/2103.07538v1 )

ライセンス: CC BY 4.0
Sandeep Soni and Lauren Klein and Jacob Eisenstein(参考訳) 19世紀のアメリカ合衆国における奴隷制度廃止運動は、アメリカ合衆国史上最も重要な社会・政治運動である。 奴隷制度廃止運動の新聞は、情報の普及と、奴隷制度廃止に関する様々な問題に関する世論の形成に重要な役割を果たした。 これらの新聞は今日の学者たちの運動に関する主要な情報源となり、運動とその指導者に関する強力な新しい証言を生み出した。 本稿では,奴隷制度廃止運動の前衛として女性の役割に関する最近の定性的研究と,ブラックプレスの役割を定量的なテキスト・モデリングのアプローチで補足する。 ダイアクロニックな単語の埋め込みを使用して、どの新聞が語彙的セマンティックなイノベーション、すなわち特定の単語の新しい使用法を導入し、どの新聞がフォローする傾向があったかを特定する。 次に、何百もの変更の証拠を重み付けされたネットワークに集約し、新聞をノードとして表示する。 このネットワークの分析は、この期間に起こった意味の変化と区別されたリーダーとフォロワーを区別する語彙的意味的影響の経路を明らかにする。 より具体的には、女性によって編集された2つの新聞(ProviNCIAL FREEMANとThe LILY)が、私たちのコーパスに多くの意味的変化をもたらし、女性の多人種的連立が思考と行動の両方の観点から奴隷制度廃止運動を導いたという議論にさらなる信条を与えた。 また、奴隷制度廃止運動と女性参政権運動の関係と、その関係を特徴づける不平等な人種政治との関係を区別しようとする奨学金にも、さらに複雑さをもたらしている。

The abolitionist movement of the nineteenth-century United States remains among the most significant social and political movements in US history. Abolitionist newspapers played a crucial role in spreading information and shaping public opinion around a range of issues relating to the abolition of slavery. These newspapers also serve as a primary source of information about the movement for scholars today, resulting in powerful new accounts of the movement and its leaders. This paper supplements recent qualitative work on the role of women in abolition's vanguard, as well as the role of the Black press, with a quantitative text modeling approach. Using diachronic word embeddings, we identify which newspapers tended to lead lexical semantic innovations -- the introduction of new usages of specific words -- and which newspapers tended to follow. We then aggregate the evidence across hundreds of changes into a weighted network with the newspapers as nodes; directed edge weights represent the frequency with which each newspaper led the other in the adoption of a lexical semantic change. Analysis of this network reveals pathways of lexical semantic influence, distinguishing leaders from followers, as well as others who stood apart from the semantic changes that swept through this period. More specifically, we find that two newspapers edited by women -- THE PROVINCIAL FREEMAN and THE LILY -- led a large number of semantic changes in our corpus, lending additional credence to the argument that a multiracial coalition of women led the abolitionist movement in terms of both thought and action. It also contributes additional complexity to the scholarship that has sought to tease apart the relation of the abolitionist movement to the women's suffrage movement, and the vexed racial politics that characterized their relation.
翻訳日:2021-03-18 11:18:38 公開日:2021-03-12
# (参考訳) フレア予測モデルのトレーニング方法:レアイベントのロバストサンプリングを再検討 [全文訳有]

How to Train Your Flare Prediction Model: Revisiting Robust Sampling of Rare Events ( http://arxiv.org/abs/2103.07542v1 )

ライセンス: CC BY 4.0
Azim Ahmadzadeh, Berkay Aydin, Manolis K. Georgoulis, Dustin J. Kempton, Sushant S. Mahajan, and Rafal A. Angryk(参考訳) 本稿では,メタデータの特徴時系列による太陽フレア予測のケーススタディとして,顕著なクラス不均衡と時間的コヒーレントな問題として扱う。 太陽活動領域のプレフレア時系列をフルに活用することは、SDO (Space Weather Analytics for Solar Flares) ベンチマークデータセットによって可能であり、4075領域から9年間にわたる太陽ダイナミクス観測所 (Solar Dynamics Observatory) の運用期間の多変量時系列の分割されたコレクションである。 時系列予測における連続性の要求によって引き起こされる時間的コヒーレンスの概念を概観し、この効果の適切な理解の欠如がモデルの性能を飛躍的に向上させることを示した。 さらに,希少事象予測における新たな課題であるクラス不均衡問題にも対処する。 SWAN-SFは、GOES M級とX級のフレアに対する60:1の不均衡比と、フレアキートインスタンスに対するX級フレアに対する800:1である。 これらの課題に対する主要な改善策を再考し、これらの改善がパフォーマンスに与える影響を正確に示すいくつかの実験を示す。 さらに、データ正規化やクロスバリデーションといった基本的なデータ操作タスクがパフォーマンスにも影響を与える可能性があることを認めます。 このフレームワークでは、フレア予測タスクで広く使われている2つのパフォーマンス検証指標として、true skill statisticとheidke skill scoreを使用する主な利点と欠点をレビューする。 結論として,上記の課題が測定可能かつ定量的に解決されることを前提として,時系列とポイントインタイム予測の利点を提示し,提唱する。

We present a case study of solar flare forecasting by means of metadata feature time series, by treating it as a prominent class-imbalance and temporally coherent problem. Taking full advantage of pre-flare time series in solar active regions is made possible via the Space Weather Analytics for Solar Flares (SWAN-SF) benchmark dataset; a partitioned collection of multivariate time series of active region properties comprising 4075 regions and spanning over 9 years of the Solar Dynamics Observatory (SDO) period of operations. We showcase the general concept of temporal coherence triggered by the demand of continuity in time series forecasting and show that lack of proper understanding of this effect may spuriously enhance models' performance. We further address another well-known challenge in rare event prediction, namely, the class-imbalance issue. The SWAN-SF is an appropriate dataset for this, with a 60:1 imbalance ratio for GOES M- and X-class flares and a 800:1 for X-class flares against flare-quiet instances. We revisit the main remedies for these challenges and present several experiments to illustrate the exact impact that each of these remedies may have on performance. Moreover, we acknowledge that some basic data manipulation tasks such as data normalization and cross validation may also impact the performance -- we discuss these problems as well. In this framework we also review the primary advantages and disadvantages of using true skill statistic and Heidke skill score, as two widely used performance verification metrics for the flare forecasting task. In conclusion, we show and advocate for the benefits of time series vs. point-in-time forecasting, provided that the above challenges are measurably and quantitatively addressed.
翻訳日:2021-03-18 10:45:34 公開日:2021-03-12
# (参考訳) アセンブリのメタモデリングと修復計画 [全文訳有]

Meta-Modeling of Assembly Contingencies and Planning for Repair ( http://arxiv.org/abs/2103.07544v1 )

ライセンス: CC BY 4.0
Priyam Parashar, Aayush Naik, Jiaming Hu and Henrik I. Christensen(参考訳) 世界ロボティクスチャレンジ(2018年と2020年)は、新しいタスクに適応しやすいシステムの設計と、半構造化環境での堅牢な運用の確保にチームが挑戦するように設計されている。 ミッションをタスクやアクションに変換するための階層化された戦略を提案し、シンプルで複雑な障害に対処するための一連の戦略を提供します。 本稿では,本モデルを用いて故障を特徴付けるモデルを提案する。 単純な失敗は、我々のWRCシステムで最も一般的であり、またどのように修正したかを示します。

The World Robotics Challenge (2018 & 2020) was designed to challenge teams to design systems that are easy to adapt to new tasks and to ensure robust operation in a semi-structured environment. We present a layered strategy to transform missions into tasks and actions and provide a set of strategies to address simple and complex failures. We propose a model for characterizing failures using this model and discuss repairs. Simple failures are by far the most common in our WRC system and we also present how we repaired them.
翻訳日:2021-03-18 10:02:35 公開日:2021-03-12
# (参考訳) Triplet Networks, Data Augmentation, Curriculum Learning を用いたFew-Shotテキスト分類 [全文訳有]

Few-Shot Text Classification with Triplet Networks, Data Augmentation, and Curriculum Learning ( http://arxiv.org/abs/2103.07552v1 )

ライセンス: CC BY 4.0
Jason Wei, Chengyu Huang, Soroush Vosoughi, Yu Cheng, Shiqi Xu(参考訳) Few-shot テキスト分類は、モデルがテキストを多数のカテゴリに分類することを目的とした基本的な NLP タスクである。 本稿では、この数発の高マルチクラスのテキスト分類設定に対して、データ拡張(特に限られたデータによるトレーニングに適したテクニック)について検討する。 4つの多種多様なテキスト分類タスクにおいて,3重項ネットワークの性能を平均3.0%向上させることができることを示す。 そこで本研究では,カリキュラムデータ強化という簡単な学習戦略を提案する。この手法は,最初のサンプルのみをトレーニングし,トレーニングの進行とともに拡張データを導入することでカリキュラム学習を活用する。 2段階と段階的なスケジュールを調査し,標準の単段階トレーニングと比較して,カリキュラムデータ拡張トレーニングの高速化,パフォーマンスの向上,強化による高レベルのノイズに対して頑健なままであることを見いだした。

Few-shot text classification is a fundamental NLP task in which a model aims to classify text into a large number of categories, given only a few training examples per category. This paper explores data augmentation -- a technique particularly suitable for training with limited data -- for this few-shot, highly-multiclass text classification setting. On four diverse text classification tasks, we find that common data augmentation techniques can improve the performance of triplet networks by up to 3.0% on average. To further boost performance, we present a simple training strategy called curriculum data augmentation, which leverages curriculum learning by first training on only original examples and then introducing augmented data as training progresses. We explore a two-stage and a gradual schedule, and find that, compared with standard single-stage training, curriculum data augmentation trains faster, improves performance, and remains robust to high amounts of noising from augmentation.
翻訳日:2021-03-18 09:48:03 公開日:2021-03-12
# (参考訳) Causal Markov境界 [全文訳有]

Causal Markov Boundaries ( http://arxiv.org/abs/2103.07560v1 )

ライセンス: CC BY 4.0
Sofia Triantafillou and Fattaneh Jabbari and Greg Cooper(参考訳) 最適な予測モデルにつながる変数を選択することを目的とした機械学習では、機能選択が重要な問題である。 本稿では,介入前変数からの介入後結果予測のための特徴選択に着目する。 我々は、特定の患者の結果を最大化する治療を選択することを目標とする医療設定に動機付けられているが、条件付き治療効果を適切に識別する十分なランダム化制御試験データを持っていないことが多い。 a)因果グラフを知っているときに観測データを使用し、(b)因果グラフを知らないが、観察的かつ限定的な実験データを持っている場合である。 本稿では,マルコフ境界の概念を治療成果対に拡張する。 我々は導入する手法を理論的に保証する。 シミュレーションデータでは,観測データと実験データを組み合わせることで特徴選択と効果推定が向上することを示す。

Feature selection is an important problem in machine learning, which aims to select variables that lead to an optimal predictive model. In this paper, we focus on feature selection for post-intervention outcome prediction from pre-intervention variables. We are motivated by healthcare settings, where the goal is often to select the treatment that will maximize a specific patient's outcome; however, we often do not have sufficient randomized control trial data to identify well the conditional treatment effect. We show how we can use observational data to improve feature selection and effect estimation in two cases: (a) using observational data when we know the causal graph, and (b) when we do not know the causal graph but have observational and limited experimental data. Our paper extends the notion of Markov boundary to treatment-outcome pairs. We provide theoretical guarantees for the methods we introduce. In simulated data, we show that combining observational and experimental data improves feature selection and effect estimation.
翻訳日:2021-03-18 09:21:57 公開日:2021-03-12
# (参考訳) プライバシ規則化:言語モデルにおける統合プライバシ-ユーティリティ最適化 [全文訳有]

Privacy Regularization: Joint Privacy-Utility Optimization in Language Models ( http://arxiv.org/abs/2103.07567v1 )

ライセンス: CC BY 4.0
Fatemehsadat Mireshghallah, Huseyin A. Inan, Marcello Hasegawa, Victor R\"uhle, Taylor Berg-Kirkpatrick, Robert Sim(参考訳) ニューラルネットワークモデルは、トレーニングサンプルの記憶能力が高いことが知られている。 これは、電子メール通信のようなユーザーコンテンツのトレーニングモデルに深刻なプライバシーの影響をもたらす可能性がある。 プライバシ保証付きモデルをトレーニングする一般的な選択肢である差分プライバシー(DP)には,ユーティリティの劣化とユーザサブグループへの影響の相違という面で,大幅なコストが伴う。 本研究は,(1)判別器の使用,(2)三重項を含むことにより,ユーティリティとプライバシの協調最適化を可能にする言語モデルの学習のための2つのプライバシ保存正規化手法を提案する。 本手法をdpと比較し,広範な評価を行った。 本研究は,既存最適化手法を取り入れた学習の高速化,非表現サブグループの統一的処理の確保など,レギュラーライザの優位性を示す。

Neural language models are known to have a high capacity for memorization of training samples. This may have serious privacy implications when training models on user content such as email correspondence. Differential privacy (DP), a popular choice to train models with privacy guarantees, comes with significant costs in terms of utility degradation and disparate impact on subgroups of users. In this work, we introduce two privacy-preserving regularization methods for training language models that enable joint optimization of utility and privacy through (1) the use of a discriminator and (2) the inclusion of a triplet-loss term. We compare our methods with DP through extensive evaluation. We show the advantages of our regularizers with favorable utility-privacy trade-off, faster training with the ability to tap into existing optimization approaches, and ensuring uniform treatment of under-represented subgroups.
翻訳日:2021-03-18 08:25:09 公開日:2021-03-12
# (参考訳) 単一画像からの深度推定のための拡張完全畳み込みニューラルネットワーク [全文訳有]

Dilated Fully Convolutional Neural Network for Depth Estimation from a Single Image ( http://arxiv.org/abs/2103.07570v1 )

ライセンス: CC BY 4.0
Binghan Li, Yindong Hua, Yifeng Liu, Mi Lu(参考訳) 深度予測は3Dシーンを理解する上で重要な役割を果たす。 畳み込みニューラルネットワーク(Convolutional Neural Network)は、最近、1つの画像から深度を推定する最先端のパフォーマンスを達成した。 しかし、従来のCNNはプール層に起因する解像度の低下と情報損失に悩まされている。 そして、完全に接続された層から生成される過大なパラメータは、しばしば爆発的なメモリ使用問題を引き起こす。 本稿では,その欠陥に対処する高度な拡張完全畳み込みニューラルネットワークを提案する。 拡張畳み込みにおける受容場の指数的拡大の利点を生かして、我々のモデルは分解能の喪失を最小限に抑えることができる。 また、完全連結層を完全畳み込み層に置き換えることでパラメータの量を大幅に削減する。 本研究では,nyu深部v2データセットを用いて,従来のcnns手法よりも奥行き予測が基礎的真理にかなり近いことを示す。

Depth prediction plays a key role in understanding a 3D scene. Several techniques have been developed throughout the years, among which Convolutional Neural Network has recently achieved state-of-the-art performance on estimating depth from a single image. However, traditional CNNs suffer from the lower resolution and information loss caused by the pooling layers. And oversized parameters generated from fully connected layers often lead to a exploded memory usage problem. In this paper, we present an advanced Dilated Fully Convolutional Neural Network to address the deficiencies. Taking advantages of the exponential expansion of the receptive field in dilated convolutions, our model can minimize the loss of resolution. It also reduces the amount of parameters significantly by replacing the fully connected layers with the fully convolutional layers. We show experimentally on NYU Depth V2 datasets that the depth prediction obtained from our model is considerably closer to ground truth than that from traditional CNNs techniques.
翻訳日:2021-03-18 08:11:45 公開日:2021-03-12
# (参考訳) 半教師付き関係抽出に関するレビュー [全文訳有]

A Review on Semi-Supervised Relation Extraction ( http://arxiv.org/abs/2103.07575v1 )

ライセンス: CC BY 4.0
Yusen Lin(参考訳) 関係抽出(RE)は、構造化されていないテキストから知識を抽出する上で重要な役割を果たすが、大量のラベル付きコーパスを必要とする。 高価なアノテーションを減らすために、半教師付き学習はラベル付きデータとラベルなしデータの両方を活用することを目的としている。 本稿では,半教師型REと深層学習,メタラーニングの3つの典型的な手法をレビュー・比較する: 摂動下で一貫した力を持つが,監督が不十分な自己学習,擬似ラベルを反復的に生成し,拡張されたラベルセットで再学習する自己学習,予備的タスクと二重タスクを併用して相互フィードバックを行う二重学習。 平均教師 (Tarvainen と Valpola, 2017), LST (Li et al., 2019), DualRE (Lin et al., 2019) は, これら3つの手法の弱点を緩和する代表として, それぞれ詳しく説明されている。

Relation extraction (RE) plays an important role in extracting knowledge from unstructured text but requires a large amount of labeled corpus. To reduce the expensive annotation efforts, semisupervised learning aims to leverage both labeled and unlabeled data. In this paper, we review and compare three typical methods in semi-supervised RE with deep learning or meta-learning: self-ensembling, which forces consistent under perturbations but may confront insufficient supervision; self-training, which iteratively generates pseudo labels and retrain itself with the enlarged labeled set; dual learning, which leverages a primal task and a dual task to give mutual feedback. Mean-teacher (Tarvainen and Valpola, 2017), LST (Li et al., 2019), and DualRE (Lin et al., 2019) are elaborated as the representatives to alleviate the weakness of these three methods, respectively.
翻訳日:2021-03-18 07:56:35 公開日:2021-03-12
# ベイズゲームによるセキュリティのためのシステムコンポーネントレベル自己適応

System Component-Level Self-Adaptations for Security via Bayesian Games ( http://arxiv.org/abs/2103.08673v1 )

ライセンス: Link先を確認
Mingyue Zhang(参考訳) セキュリティ攻撃は、環境の敵対的性質により、自己適応型システム設計に特有の課題をもたらす。 しかし、セキュリティ領域における以前の作業でなされたように、システムを単一プレイヤーとしてモデル化することは、部分的に妥協されたシステムや、自律的なシステムの残りの部分が攻撃の影響を軽減するために協力できるきめ細かい防御戦略の設計には不十分である。 このような問題に対処するために,ベイズゲームとディフェンダー(システム)をシステムアーキテクチャのコンポーネントの粒度でモデル化した,新たな自己適応型フレームワークを提案する。 システムアーキテクチャモデルはベイジアンマルチプレイヤーゲームに変換され、各コンポーネントは独立したプレーヤとしてモデル化され、セキュリティアタックはコンポーネントの変種としてエンコードされる。 システムに対する防御戦略は、純粋な均衡を解いて最善のシステムユーティリティを達成することで動的に計算され、セキュリティ攻撃に対するシステムの弾力性が向上する。

Security attacks present unique challenges to self-adaptive system design due to the adversarial nature of the environment. However, modeling the system as a single player, as done in prior works in security domain, is insufficient for the system under partial compromise and for the design of fine-grained defensive strategies where the rest of the system with autonomy can cooperate to mitigate the impact of attacks. To deal with such issues, we propose a new self-adaptive framework incorporating Bayesian game and model the defender (i.e., the system) at the granularity of components in system architecture. The system architecture model is translated into a Bayesian multi-player game, where each component is modeled as an independent player while security attacks are encoded as variant types for the components. The defensive strategy for the system is dynamically computed by solving the pure equilibrium to achieve the best possible system utility, improving the resiliency of the system against security attacks.
翻訳日:2021-03-17 13:31:14 公開日:2021-03-12
# リカレントニューラルネットワークのための連続学習:レビューと経験的評価

Continual Learning for Recurrent Neural Networks: a Review and Empirical Evaluation ( http://arxiv.org/abs/2103.07492v1 )

ライセンス: Link先を確認
Andrea Cossu, Antonio Carta, Vincenzo Lomonaco, Davide Bacciu(参考訳) すべてのモデルのライフタイムで継続的に学習することは、データ分散のドリフトにロバストな機械学習ソリューションをデプロイする上で基本です。 繰り返しニューラルネットワークによる継続学習(CL)の進歩は、自然言語処理やロボティクスなど、入力データが定常的でない多くのアプリケーションへの道を開く可能性がある。 しかしながら、このトピックに関する既存の作業は、アプリケーション固有のアプローチと、異種学習プロトコルとデータセットに基づいた評価によって、いまだに断片化されている。 本稿では、コントリビューションの分類とベンチマークのレビューを提供することにより、逐次データ処理のためのCLに関する文献を整理する。 我々は既存のデータセットに基づくシーケンシャルデータを持つclの新しいベンチマークを2つ提案する。 また,クラスインクリメンタルシナリオにおけるclとリカレントニューラルネットワークの広範な経験的評価を行い,シーケンシャルなデータ処理に特化していない多くの異なる戦略で忘れを緩和する能力をテストする。 本結果は,シーケンス長が果たす重要な役割と,CLシナリオの明確な仕様の重要性を強調した。

Learning continuously during all model lifetime is fundamental to deploy machine learning solutions robust to drifts in the data distribution. Advances in Continual Learning (CL) with recurrent neural networks could pave the way to a large number of applications where incoming data is non stationary, like natural language processing and robotics. However, the existing body of work on the topic is still fragmented, with approaches which are application-specific and whose assessment is based on heterogeneous learning protocols and datasets. In this paper, we organize the literature on CL for sequential data processing by providing a categorization of the contributions and a review of the benchmarks. We propose two new benchmarks for CL with sequential data based on existing datasets, whose characteristics resemble real-world applications. We also provide a broad empirical evaluation of CL and Recurrent Neural Networks in class-incremental scenario, by testing their ability to mitigate forgetting with a number of different strategies which are not specific to sequential data processing. Our results highlight the key role played by the sequence length and the importance of a clear specification of the CL scenario.
翻訳日:2021-03-16 14:29:19 公開日:2021-03-12
# 一致する市場での分散バンディットに対する$\log^2(t)$の後悔

Beyond $\log^2(T)$ Regret for Decentralized Bandits in Matching Markets ( http://arxiv.org/abs/2103.07501v1 )

ライセンス: Link先を確認
Soumya Basu, Karthik Abinav Sankararaman, Abishek Sankararaman(参考訳) 両サイドマッチング市場における後悔の最小化のための分散アルゴリズムを,前作(Liu et al.)において有意に改善した片側バンディットフィードバックを用いて設計した。 2020a, 2020b, Sankararaman et al。 2020). まず、一般市場では、任意の $\varepsilon > 0$ に対して、$O(\log^{1+\varepsilon}(T))$ をエージェント最適安定マッチングに後悔するアルゴリズムを設計し、未知の時空 $T$ で、$O(\log^{2}(T))$ で達成された後悔(Liu et al)に改善します。 2020年)。 第二に、参加者が元の安定したマッチングを変更しない市場 - ユニークさの一貫性を満たす市場のために最適な$\Theta(\log(T))$エージェント最適の後悔を提供します。 以前は$\Theta(\log(T))$ regretは達成できた(Sankararaman et al)。 2020年、Luら。 2020b) はるかに制限された連続独裁設定において、すべての武器がエージェントに対して同じ好みを有する場合。 我々は,各フェーズにおいて,エージェントが頻繁に衝突する腕を局所的に除去する,グローバルに通信される支配的武器を除去するフェーズベースのアルゴリズムを提案する。 この局所的な削除は、腕間のエージェントのランクの不均一性から生じるデッドロックを壊す上で重要である。 さらにシミュレーションにより,既存の手法よりもアルゴリズムが優れていることを示す。

We design decentralized algorithms for regret minimization in the two-sided matching market with one-sided bandit feedback that significantly improves upon the prior works (Liu et al. 2020a, 2020b, Sankararaman et al. 2020). First, for general markets, for any $\varepsilon > 0$, we design an algorithm that achieves a $O(\log^{1+\varepsilon}(T))$ regret to the agent-optimal stable matching, with unknown time horizon $T$, improving upon the $O(\log^{2}(T))$ regret achieved in (Liu et al. 2020b). Second, we provide the optimal $\Theta(\log(T))$ agent-optimal regret for markets satisfying uniqueness consistency -- markets where leaving participants don't alter the original stable matching. Previously, $\Theta(\log(T))$ regret was achievable (Sankararaman et al. 2020, Liu et al. 2020b) in the much restricted serial dictatorship setting, when all arms have the same preference over the agents. We propose a phase-based algorithm, wherein each phase, besides deleting the globally communicated dominated arms the agents locally delete arms with which they collide often. This local deletion is pivotal in breaking deadlocks arising from rank heterogeneity of agents across arms. We further demonstrate the superiority of our algorithm over existing works through simulations.
翻訳日:2021-03-16 14:27:09 公開日:2021-03-12
# 見えない領域における顔認識のためのクロスドメイン類似度学習

Cross-Domain Similarity Learning for Face Recognition in Unseen Domains ( http://arxiv.org/abs/2103.07503v1 )

ライセンス: Link先を確認
Masoud Faraki, Xiang Yu, Yi-Hsuan Tsai, Yumin Suh, Manmohan Chandraker(参考訳) 同じ訓練とテスト分布の仮定の下で訓練された顔認識モデルは、テスト時間中に新しい民族や予測不可能な個々のメイクアップなどの未知のバリエーションに直面した場合、しばしば悪い一般化に苦しむ。 本稿では,cdt(cross-domain triplet, クロスドメイントリプレット)の損失をダビングし,未認識領域の顔認識を改善する新しいクロスドメインメトリック学習損失を提案する。 cdt損失は、異なる統計量を持つ別のトレーニングドメインに属する下位の類似度メトリクスによってコンパクトさを測定する、あるドメインからアイデンティティのコンパクトな特徴クラスタを強制することによって、意味的に意味のある特徴の学習を促進する。 直感的には、ネットワーク内で最小化される統一損失関数内の他のドメインからのトリプレットサンプルと、あるドメインに由来する明示的なメトリクスを識別的に関連付けることにより、トレーニングドメインのアライメントが向上する。 ネットワークパラメータは、モデルに依存しない学習パイプラインにおいて、ドメインシフト下で一般化された機能を学ぶためにさらに強化される。 最近のメタ顔認識とは異なり,本手法ではトレーニング中に注意深いハードペアサンプルマイニングやフィルタリング戦略を必要としない。 さまざまな顔認識ベンチマークに関する広範な実験は、ベースラインと最先端の方法と比較して、変化を処理する方法の優位性を示しています。

Face recognition models trained under the assumption of identical training and test distributions often suffer from poor generalization when faced with unknown variations, such as a novel ethnicity or unpredictable individual make-ups during test time. In this paper, we introduce a novel cross-domain metric learning loss, which we dub Cross-Domain Triplet (CDT) loss, to improve face recognition in unseen domains. The CDT loss encourages learning semantically meaningful features by enforcing compact feature clusters of identities from one domain, where the compactness is measured by underlying similarity metrics that belong to another training domain with different statistics. Intuitively, it discriminatively correlates explicit metrics derived from one domain, with triplet samples from another domain in a unified loss function to be minimized within a network, which leads to better alignment of the training domains. The network parameters are further enforced to learn generalized features under domain shift, in a model-agnostic learning pipeline. Unlike the recent work of Meta Face Recognition, our method does not require careful hard-pair sample mining and filtering strategy during training. Extensive experiments on various face recognition benchmarks show the superiority of our method in handling variations, compared to baseline and the state-of-the-art methods.
翻訳日:2021-03-16 14:25:10 公開日:2021-03-12
# 識別シーケンス学習のための自然勾配とヘッセンフリーを組み合わせた分散最適化フレームワーク

A Distributed Optimisation Framework Combining Natural Gradient with Hessian-Free for Discriminative Sequence Training ( http://arxiv.org/abs/2103.07554v1 )

ライセンス: Link先を確認
Adnan Haider and Chao Zhang and Florian L. Kreyssig and Philip C. Woodland(参考訳) 本論文では,ニューラルネットワークトレーニングのための自然勾配とヘッセンフリー(NGHF)最適化フレームワークを提案する。 これは、自然勾配(ng)法とヘッセンフリー(hf)や他の二次法からの局所曲率情報を組み合わせた線形共役勾配(cg)アルゴリズムに依存している。 CGにおける数値問題に対する解決策は、有効なパラメータ更新を、通常よりもはるかに少ないCGイテレーションで生成することができる(例)。 200の代わりに5-8)。 また,共有パラメータを持つモデルに対するcg個別イテレーションの進捗を改善するための新しい事前調整手法を提案する。 他のトレーニング損失やモデル構造にも適用できるが、標準リカレントニューラルネットワーク、長期短期記憶、出力確率計算のための時間遅延ニューラルネットワークモデルを用いたハイブリッド隠れマルコフモデル音響モデルの格子に基づく判別シーケンストレーニングについて検討する。 各種音響モデルを対象としたマルチジャンル放送データセットに音声認識実験を報告する。 これらの実験は、NGHFが標準の確率勾配降下やアダムよりも大きな単語誤り率の減少を達成し、パラメータ更新の順序を小さくすることを示した。

This paper presents a novel natural gradient and Hessian-free (NGHF) optimisation framework for neural network training that can operate efficiently in a distributed manner. It relies on the linear conjugate gradient (CG) algorithm to combine the natural gradient (NG) method with local curvature information from Hessian-free (HF) or other second-order methods. A solution to a numerical issue in CG allows effective parameter updates to be generated with far fewer CG iterations than usually used (e.g. 5-8 instead of 200). This work also presents a novel preconditioning approach to improve the progress made by individual CG iterations for models with shared parameters. Although applicable to other training losses and model structures, NGHF is investigated in this paper for lattice-based discriminative sequence training for hybrid hidden Markov model acoustic models using a standard recurrent neural network, long short-term memory, and time delay neural network models for output probability calculation. Automatic speech recognition experiments are reported on the multi-genre broadcast data set for a range of different acoustic model types. These experiments show that NGHF achieves larger word error rate reductions than standard stochastic gradient descent or Adam, while requiring orders of magnitude fewer parameter updates.
翻訳日:2021-03-16 14:22:27 公開日:2021-03-12
# ワクチンアドバースイベントメンション抽出のためのプライベートクロスサイロフェデレーション学習

Private Cross-Silo Federated Learning for Extracting Vaccine Adverse Event Mentions ( http://arxiv.org/abs/2103.07491v1 )

ライセンス: Link先を確認
Pallika Kanani, Virendra J. Marathe, Daniel Peterson, Rave Harpaz, Steve Bright(参考訳) フェデレーションラーニング(FL)は、データを物理的に共有することなく、グローバルモデルを共同でトレーニングするためのゴト分散トレーニングパラダイムになりつつある。 ユーザーは間接的にコントリビュートし、グローバルモデルのトレーニングに使用されるはるかに大きな集計データコーパスから直接利益を得ることができます。 しかし、現実世界の問題設定におけるFLの応用の成功に関する文献はやや乏しい。 本稿では,大規模ワクチン接種プログラムの文脈における有害事象検出アプリケーションに対して,名前付きエンティティ認識(NER)タスクにFLベースのソリューションを適用した経験について述べる。 FLベースのトレーニングで得られたさまざまな利点の次元の包括的な実証的分析を紹介します。 さらに、より密接な差分プライバシー(DP)制約の影響を、フェデレーションユーザーが厳重なプライバシー保証を確保するためにローカルDPを強制しなければならない高感度設定で調査します。 ローカルDPは,グローバルモデルの予測精度を著しく損なう可能性を示し,ユーザによるフェデレーションへの参加を阻害する。 これに対し,近年のパーソナライズ手法の革新が,失われた精度の回復に有効であることを実証した。 私たちはFederated Fine-Tuningアルゴリズム、FedFTに分析を集中し、PACIdentifiableではないことを証明し、FLベースのトレーニングにさらに魅力的にします。

Federated Learning (FL) is quickly becoming a goto distributed training paradigm for users to jointly train a global model without physically sharing their data. Users can indirectly contribute to, and directly benefit from a much larger aggregate data corpus used to train the global model. However, literature on successful application of FL in real-world problem settings is somewhat sparse. In this paper, we describe our experience applying a FL based solution to the Named Entity Recognition (NER) task for an adverse event detection application in the context of mass scale vaccination programs. We present a comprehensive empirical analysis of various dimensions of benefits gained with FL based training. Furthermore, we investigate effects of tighter Differential Privacy (DP) constraints in highly sensitive settings where federation users must enforce Local DP to ensure strict privacy guarantees. We show that local DP can severely cripple the global model's prediction accuracy, thus dis-incentivizing users from participating in the federation. In response, we demonstrate how recent innovation on personalization methods can help significantly recover the lost accuracy. We focus our analysis on the Federated Fine-Tuning algorithm, FedFT, and prove that it is not PAC Identifiable, thus making it even more attractive for FL-based training.
翻訳日:2021-03-16 14:21:42 公開日:2021-03-12
# TensorGP --TensorFlowの遺伝的プログラミングエンジン

TensorGP -- Genetic Programming Engine in TensorFlow ( http://arxiv.org/abs/2103.07512v1 )

ライセンス: Link先を確認
Francisco Baeta, Jo\~ao Correia, Tiago Martins and Penousal Machado(参考訳) 本稿では,データベクトル化と適合性キャッシング手法を遺伝的プログラミングにおけるドメイン評価に適用するメリットを検討するために,tensorflowフレームワークを利用する。 この目的のために、独立したエンジンであるTensorGPが開発され、異なるアーキテクチャと反復およびベクトル化の両方のアプローチで比較タイミングを抽出するテストスイートが開発された。 私たちのパフォーマンスベンチマークは、tensorflow eager実行モデルを活用することで、標準的な反復的アプローチと比較して、専用ハードウェア上で動作する並列アプローチで最大2桁のパフォーマンス向上が達成できることを示しています。

In this paper, we resort to the TensorFlow framework to investigate the benefits of applying data vectorization and fitness caching methods to domain evaluation in Genetic Programming. For this purpose, an independent engine was developed, TensorGP, along with a testing suite to extract comparative timing results across different architectures and amongst both iterative and vectorized approaches. Our performance benchmarks demonstrate that by exploiting the TensorFlow eager execution model, performance gains of up to two orders of magnitude can be achieved on a parallel approach running on dedicated hardware when compared to a standard iterative approach.
翻訳日:2021-03-16 14:14:38 公開日:2021-03-12
# 未確認領域に対する不確かさ誘導モデル一般化

Uncertainty-guided Model Generalization to Unseen Domains ( http://arxiv.org/abs/2103.07531v1 )

ライセンス: Link先を確認
Fengchun Qiao, Xi Peng(参考訳) 一般化における最悪のシナリオとして,単一ソースからの領域外一般化について検討する。 目標は、単一のソースから堅牢なモデルを学び、多くの未知のディストリビューションを一般化することである。 この困難な問題はほとんど調査されていないが、既存のソリューションには様々な制限がある。 本稿では,新しい解決法を提案する。 重要なアイデアは、入力スペースとラベルスペースの両方のソース容量を強化することですが、拡張は不確実性評価によって導かれます。 私たちの知る限りでは、(1)単一のソースから一般化の不確実性にアクセスし、(2)入力とラベルの強化をガイドして堅牢な一般化を行う最初の作業です。 モデルのトレーニングとデプロイは、ベイズメタラーニングフレームワークで効果的に構成される。 我々はアプローチを検証するために広範囲な比較とアブレーション研究を行っている。 その結果,画像分類,意味セグメンテーション,テキスト分類,音声認識など幅広いタスクで優れた性能が得られた。

We study a worst-case scenario in generalization: Out-of-domain generalization from a single source. The goal is to learn a robust model from a single source and expect it to generalize over many unknown distributions. This challenging problem has been seldom investigated while existing solutions suffer from various limitations. In this paper, we propose a new solution. The key idea is to augment the source capacity in both input and label spaces, while the augmentation is guided by uncertainty assessment. To the best of our knowledge, this is the first work to (1) access the generalization uncertainty from a single source and (2) leverage it to guide both input and label augmentation for robust generalization. The model training and deployment are effectively organized in a Bayesian meta-learning framework. We conduct extensive comparisons and ablation study to validate our approach. The results prove our superior performance in a wide scope of tasks including image classification, semantic segmentation, text classification, and speech recognition.
翻訳日:2021-03-16 14:12:59 公開日:2021-03-12
# クロスドメイン機能適応による単眼画像から食品移植の学習に向けて

Towards Learning Food Portion From Monocular Images With Cross-Domain Feature Adaptation ( http://arxiv.org/abs/2103.07562v1 )

ライセンス: Link先を確認
Zeman Shao, Shaobo Fang, Runyu Mao, Jiangpeng He, Janine Wright, Deborah Kerr, Carol Jo Boushey, Fengqing Zhu(参考訳) 実生活環境下における単一眼像から3次元空間における食品物の存在に強く関係する食品部分の大きさを推定することを目指しています。 具体的には、個人の健康管理の分野で大きな可能性を秘めた食品部分サイズのエンドツーエンド推定に興味があります。 大規模なクラウドソーシングによってアノテーションを得ることができる画像分割やオブジェクト認識とは異なり、人間が専門知識のない任意の2次元画像においてオブジェクトのサイズを正確に推定できないため、部分サイズ推定のためのデータセットを集めることははるかに困難である。 そこで本研究では、登録栄養士が栄養エネルギー(カロリー)を提供する栄養研究から収集した実生活用食品画像データセットについて紹介し、研究コミュニティに公開します。 本稿では,RGBと学習エネルギー分布領域の両方から推定される特徴を組み合わせることで,部分サイズ推定のための深回帰過程を提案する。 食品エネルギーの推計値は11.47%で、非専門家の推計を27.56%上回っている。

We aim to estimate food portion size, a property that is strongly related to the presence of food object in 3D space, from single monocular images under real life setting. Specifically, we are interested in end-to-end estimation of food portion size, which has great potential in the field of personal health management. Unlike image segmentation or object recognition where annotation can be obtained through large scale crowd sourcing, it is much more challenging to collect datasets for portion size estimation since human cannot accurately estimate the size of an object in an arbitrary 2D image without expert knowledge. To address such challenge, we introduce a real life food image dataset collected from a nutrition study where the groundtruth food energy (calorie) is provided by registered dietitians, and will be made available to the research community. We propose a deep regression process for portion size estimation by combining features estimated from both RGB and learned energy distribution domains. Our estimates of food energy achieved state-of-the-art with a MAPE of 11.47%, significantly outperforms non-expert human estimates by 27.56%.
翻訳日:2021-03-16 14:12:45 公開日:2021-03-12
# ベイジアン隠れ物理モデルによる物理の発見とデータからの微細構造のキャラクタリゼーション

Discovery of Physics and Characterization of Microstructure from Data with Bayesian Hidden Physics Models ( http://arxiv.org/abs/2103.07502v1 )

ライセンス: Link先を確認
Steven Atkinson and Yiming Zhang and Liping Wang(参考訳) 観察データを説明するための知識の定式化の科学的プロセスを支援するために機械学習技術を使用するという関心が高まっている。 本研究では, バイエルン隠れ物理モデルを用いて, プリスティーヌ試料から得られたデータを用いて, 金属試料中の音響インパルスの伝播を規定する物理を初めて解明する。 次に、学習した物理を用いて、表面破断欠陥のある別個の標本の微細構造を特徴づける。 興味深いことに、最初の標本から学んだ物理学は、物理学が推測された標本から完全に欠如している定性的な特徴である後者のサンプルで観察された後方散乱を理解することを可能にする。 後方散乱は、メディア内の音の速度として認識できる潜在空間場の非均質性によって説明される。

There has been a surge in the interest of using machine learning techniques to assist in the scientific process of formulating knowledge to explain observational data. We demonstrate the use of Bayesian Hidden Physics Models to first uncover the physics governing the propagation of acoustic impulses in metallic specimens using data obtained from a pristine sample. We then use the learned physics to characterize the microstructure of a separate specimen with a surface-breaking crack flaw. Remarkably, we find that the physics learned from the first specimen allows us to understand the backscattering observed in the latter sample, a qualitative feature that is wholly absent from the specimen from which the physics were inferred. The backscattering is explained through inhomogeneities of a latent spatial field that can be recognized as the speed of sound in the media.
翻訳日:2021-03-16 13:50:12 公開日:2021-03-12
# 菌糸体semマイクログラフの鉱業用アーティファクト

Mining Artifacts in Mycelium SEM Micrographs ( http://arxiv.org/abs/2103.07573v1 )

ライセンス: Link先を確認
Thaicia Stona de Almeida(参考訳) 菌糸体は菌糸体に基づく有望な生体材料であり、非常に多孔質なナノファイバー構造である。 走査型電子顕微鏡はネットワークの特徴付けに用いられているが、現在利用可能なナノ繊維マイクロ構造のためのツールは、生体材料の特異性を考慮していない。 菌糸体キャラクタリゼーションにおける人工ナノ繊維のソフトウェアの採用は、解析にイメージングアーティファクトの形成の不確実性をもたらす。 報告された研究は、ミセリウムのマッピングされた細孔内のアーティファクトの同定を自動化する、教師付きおよび教師なしの機械学習手法を組み合わせている。 キーワード:機械学習、教師なし学習、画像処理、菌糸体、組織情報学

Mycelium is a promising biomaterial based on fungal mycelium, a highly porous, nanofibrous structure. Scanning electron micrographs are used to characterize its network, but the currently available tools for nanofibrous microstructures do not contemplate the particularities of biomaterials. The adoption of a software for artificial nanofibrous in mycelium characterization adds the uncertainty of imaging artifact formation to the analysis. The reported work combines supervised and unsupervised machine learning methods to automate the identification of artifacts in the mapped pores of mycelium microstructure. Keywords: Machine learning; unsupervised learning; image processing; mycelium; microstructure informatics
翻訳日:2021-03-16 13:46:52 公開日:2021-03-12
# (参考訳) 観測予測のための時間グラフと静的グラフの等価性について

On the Equivalence Between Temporal and Static Graph Representations for Observational Predictions ( http://arxiv.org/abs/2103.07016v1 )

ライセンス: CC BY-SA 4.0
Jianfei Gao, Bruno Ribeiro(参考訳) 本研究では、時間グラフにおけるノード属性の進化を予測する(純粋な観測)タスクを定式化する。 We show that node representations of temporal graphs can be cast into two distinct frameworks: (a) The de-facto standard approach, which we denote {\em time-and-graph}, where equivariant graph (e.g., GNN) and sequence (e.g., RNN) representations are intertwined to represent the temporal evolution of the graph; and (b) an approach that we denote {\em time-then-graph}, where the sequences describing the node and edge dynamics are represented first (e.g., RNN), then fed as node and edge attributes into a (static) equivariant graph representation that comes after (e.g., GNN). 実世界のデータセットでは、我々の時間とグラフのフレームワークが、最先端の時間とグラフの手法と同じ予測性能を達成することを示す。 興味深いことに、1-Weisfeiler-Lehman GNN のように、最も表現力のない成分 GNN を使用する場合、時間とグラフの表現よりも表現性が有利である。 この表現力の利点により、state-of-the-art {\em-time-and-graph} メソッドが失敗する間に {\em time-then-graph} メソッドが成功するタスクを導入する。

In this work we formalize the (pure observational) task of predicting node attribute evolution in temporal graphs. We show that node representations of temporal graphs can be cast into two distinct frameworks: (a) The de-facto standard approach, which we denote {\em time-and-graph}, where equivariant graph (e.g., GNN) and sequence (e.g., RNN) representations are intertwined to represent the temporal evolution of the graph; and (b) an approach that we denote {\em time-then-graph}, where the sequences describing the node and edge dynamics are represented first (e.g., RNN), then fed as node and edge attributes into a (static) equivariant graph representation that comes after (e.g., GNN). In real-world datasets, we show that our {\em time-then-graph} framework achieves the same prediction performance as state-of-the-art {\em time-and-graph} methods. Interestingly, {\em time-then-graph} representations have an expressiveness advantage over {\em time-and-graph} representations when both use component GNNs that are not most-expressive (e.g., 1-Weisfeiler-Lehman GNNs). We introduce a task where this expressiveness advantage allows {\em time-then-graph} methods to succeed while state-of-the-art {\em time-and-graph} methods fail.
翻訳日:2021-03-15 23:28:54 公開日:2021-03-12
# (参考訳) インターリーブ学習とニューラルアーキテクチャ探索への応用 [全文訳有]

Interleaving Learning, with Application to Neural Architecture Search ( http://arxiv.org/abs/2103.07018v1 )

ライセンス: CC BY 4.0
Hao Ban, Pengtao Xie(参考訳) インターリーブ学習は、学習者が複数のトピックの研究をインターリーブする人間の学習技術であり、長期の保持を高め、学習した知識を伝達する能力を向上させます。 本稿では,人間の相互学習技術に着想を得て,この学習手法が機械学習モデルの性能向上にも有効であるかどうかを検討する。 本稿では、interleaving learning(il)と呼ばれる新しい機械学習フレームワークを提案する。 私たちのフレームワークでは、一連のモデルが共同でデータエンコーダをインターリーブ形式で学習します。エンコーダはしばらくモデル1によって訓練され、さらにトレーニングするためにモデル2に渡され、そしてモデル3に渡されます。すべてのモデルによって訓練された後、エンコーダはモデル1に戻り、再びトレーニングされ、モデル2、3などに移動します。 このプロセスは複数のラウンドで繰り返される。 このフレームワークは,複数の相互接続学習段階からなるマルチレベル最適化に基づいている。 マルチレベル最適化問題を解くために,効率的な勾配に基づくアルゴリズムを開発した。 CIFAR-10, CIFAR-100, ImageNetの画像分類にインターリービング学習を適用した。 実験結果により,本手法の有効性が実証された。

Interleaving learning is a human learning technique where a learner interleaves the studies of multiple topics, which increases long-term retention and improves ability to transfer learned knowledge. Inspired by the interleaving learning technique of humans, in this paper we explore whether this learning methodology is beneficial for improving the performance of machine learning models as well. We propose a novel machine learning framework referred to as interleaving learning (IL). In our framework, a set of models collaboratively learn a data encoder in an interleaving fashion: the encoder is trained by model 1 for a while, then passed to model 2 for further training, then model 3, and so on; after trained by all models, the encoder returns back to model 1 and is trained again, then moving to model 2, 3, etc. This process repeats for multiple rounds. Our framework is based on multi-level optimization consisting of multiple inter-connected learning stages. An efficient gradient-based algorithm is developed to solve the multi-level optimization problem. We apply interleaving learning to search neural architectures for image classification on CIFAR-10, CIFAR-100, and ImageNet. The effectiveness of our method is strongly demonstrated by the experimental results.
翻訳日:2021-03-15 23:27:26 公開日:2021-03-12
# (参考訳) ニューラルマシン翻訳のためのバイリンガル辞書に基づく言語モデル [全文訳有]

Bilingual Dictionary-based Language Model Pretraining for Neural Machine Translation ( http://arxiv.org/abs/2103.07040v1 )

ライセンス: CC BY 4.0
Yusen Lin, Jiayong Lin, Shuaicheng Zhang, Haoying Dai(参考訳) 近年の研究では、言語間言語モデル事前学習(Lample and Conneau, 2019)、特に翻訳言語モデリング(TLM)の適用により、ニューラルネットワーク翻訳の性能が向上することが示されている。 本研究では、TLMによる高価な並列コーポラの必要性を軽減するために、辞書からの翻訳情報を事前学習プロセスに組み込み、新しいバイリンガル辞書ベース言語モデル(BDLM)を提案する。 BDLMを中国語、英語、ルーマニア語で評価します。 WMT-News19 (Tiedemann, 2012) では 55.0 BLEU、WMT20 では 24.3 BLEU を取得し、それぞれ 8.4 BLEU と 2.3 BLEU 以上で Vanilla Transformer (Vaswani et al., 2017) を上回った。 以上の結果から,BDLMは収束速度と稀な単語の予測にも利点があることがわかった。 WMT16ルーマニア英語のためのBLEUの増加は、低リソース言語翻訳にもその効果を示しています。

Recent studies have demonstrated a perceivable improvement on the performance of neural machine translation by applying cross-lingual language model pretraining (Lample and Conneau, 2019), especially the Translation Language Modeling (TLM). To alleviate the need for expensive parallel corpora by TLM, in this work, we incorporate the translation information from dictionaries into the pretraining process and propose a novel Bilingual Dictionary-based Language Model (BDLM). We evaluate our BDLM in Chinese, English, and Romanian. For Chinese-English, we obtained a 55.0 BLEU on WMT-News19 (Tiedemann, 2012) and a 24.3 BLEU on WMT20 news-commentary, outperforming the Vanilla Transformer (Vaswani et al., 2017) by more than 8.4 BLEU and 2.3 BLEU, respectively. According to our results, the BDLM also has advantages on convergence speed and predicting rare words. The increase in BLEU for WMT16 Romanian-English also shows its effectiveness in low-resources language translation.
翻訳日:2021-03-15 22:58:36 公開日:2021-03-12
# (参考訳) 単一雑音軌道からの$\ell_1$-regularized PDE同定の漸近理論

Asymptotic Theory of $\ell_1$-Regularized PDE Identification from a Single Noisy Trajectory ( http://arxiv.org/abs/2103.07045v1 )

ライセンス: CC BY 4.0
Yuchen He, Namjoon Suh, Xiaoming Huo, Sungha Kang, Yajun Mei(参考訳) 線形および非線形進化的偏微分方程式(PDE)の一般クラスに対するサポート回復を,$\ell_1$正規化Pseudo-Least Squaresモデル~($\ell_1$-PsLS)を用いて1つの雑音軌道から同定する。 未知の PDE 演算子を含む有限個の微分演算子によって生成される任意の連想 $\mathbb{R}$-代数において、$\ell_1$-PsLS を与えられたデータセットに適用すると、正規化重み $\lambda\geq 0$ によってパラメータ化された係数 $\mathbf{c}(\lambda)$ の候補モデルの族が得られる。 $\{\mathbf{c}(\lambda)\}_{\lambda\geq 0}$のトレースは、データノイズと有限差近似誤差のために高いばらつきに苦しんでいる。 ローカル-ポリノミカルフィルタでデノベートされた単一の軌道データから、$\mathbf{c}(\lambda)$ asymptotically のサポートは、十分に多くのデータと一定の範囲の$\lambda$に対して基礎となる PDE に関連する真の符号付きサポートに収束することを保証する十分な条件のセットを提供する。 また,理論を検証するために様々な数値実験を行う。

We prove the support recovery for a general class of linear and nonlinear evolutionary partial differential equation (PDE) identification from a single noisy trajectory using $\ell_1$ regularized Pseudo-Least Squares model~($\ell_1$-PsLS ). In any associative $\mathbb{R}$-algebra generated by finitely many differentiation operators that contain the unknown PDE operator, applying $\ell_1$-PsLS to a given data set yields a family of candidate models with coefficients $\mathbf{c}(\lambda)$ parameterized by the regularization weight $\lambda\geq 0$. The trace of $\{\mathbf{c}(\lambda)\}_{\lambda\geq 0}$ suffers from high variance due to data noises and finite difference approximation errors. We provide a set of sufficient conditions which guarantee that, from a single trajectory data denoised by a Local-Polynomial filter, the support of $\mathbf{c}(\lambda)$ asymptotically converges to the true signed-support associated with the underlying PDE for sufficiently many data and a certain range of $\lambda$. We also show various numerical experiments to validate our theory.
翻訳日:2021-03-15 22:47:04 公開日:2021-03-12
# (参考訳) 言語発散を利用したオーサシップ検証の改善 [全文訳有]

Improving Authorship Verification using Linguistic Divergence ( http://arxiv.org/abs/2103.07052v1 )

ライセンス: CC BY 4.0
Yifan Zhang, Dainis Boumber, Marjan Hosseinia, Fan Yang, Arjun Mukherjee(参考訳) 本稿では,事前学習した深層言語モデルを用いてDV-Distanceと呼ばれる新しいメトリクスを演算するオーサシップ検証タスクの教師なし解を提案する。 提案するメトリクスは,事前学習した言語モデルと比較した2人の著者間の差異の尺度である。 著者検証における非互換性の問題に対処し,小領域やクロスドメインのコーパスで頻繁に発生する。 我々の知る限り、本論文は、間接的ではなく、ゼロから非互換性を念頭に置いて設計された手法を初めて導入するものである。 また、この設定でDeep Language Modelsを使った最初の例の1つです。 アプローチは直感的で、視覚化を通じて理解し、解釈するのは簡単です。 4つのデータセットの実験は、ほとんどのタスクで現在の最新かつ強力なベースラインと一致するか、上回る方法を示しています。

We propose an unsupervised solution to the Authorship Verification task that utilizes pre-trained deep language models to compute a new metric called DV-Distance. The proposed metric is a measure of the difference between the two authors comparing against pre-trained language models. Our design addresses the problem of non-comparability in authorship verification, frequently encountered in small or cross-domain corpora. To the best of our knowledge, this paper is the first one to introduce a method designed with non-comparability in mind from the ground up, rather than indirectly. It is also one of the first to use Deep Language Models in this setting. The approach is intuitive, and it is easy to understand and interpret through visualization. Experiments on four datasets show our methods matching or surpassing current state-of-the-art and strong baselines in most tasks.
翻訳日:2021-03-15 22:45:40 公開日:2021-03-12
# (参考訳) 分解画像と合成ヘイズ生成に先立って応用した高度多重線形回帰型ダークチャネル [全文訳有]

Advanced Multiple Linear Regression Based Dark Channel Prior Applied on Dehazing Image and Generating Synthetic Haze ( http://arxiv.org/abs/2103.07065v1 )

ライセンス: CC BY 4.0
Binghan Li, Yindong Hua, Mi Lu(参考訳) ヘイズ除去は非常に困難な作業であり、近年、自動運転や交通監視の普及により、ヘイズ環境での物体検出が注目されています。 本研究では,Dark Channel Prior という,広く採用されているデハージングアルゴリズムに基づく複数の線形回帰ヘイズ除去モデルを提案する。 合成ハジーデータセットを用いてこのモデルを訓練することにより,暗チャネルプリエントにおける送信マップと大気光の粗さ推定から生じる予期せぬ偏差を低減できる。 ヘージー環境における物体検出精度を高めるために、著者らは、MS COCOトレーニングデータセットに人工ヘーゼを生成して合成ヘージーCOCOトレーニングデータセットを構築するアルゴリズムを提示した。 実験の結果,提案モデルは従来のピクセルベースデヘイジングアルゴリズムやニューラルネットワークによるヘイズ除去モデルよりも画質が高く,グラウンド真理画像との類似度が高いことがわかった。 また,提案モデルを用いてhazeを除去し,合成hazy cocoトレーニングデータセットと前処理テストhazyデータセットを用いてネットワークをトレーニングする場合,マスクr-cnnの平均精度を評価する。 どちらのアプローチも、オブジェクトの検出精度を大幅に向上させ、ヘイズ画像よりも既存のほとんどのオブジェクト検出モデルより優れています。

Haze removal is an extremely challenging task, and object detection in the hazy environment has recently gained much attention due to the popularity of autonomous driving and traffic surveillance. In this work, the authors propose a multiple linear regression haze removal model based on a widely adopted dehazing algorithm named Dark Channel Prior. Training this model with a synthetic hazy dataset, the proposed model can reduce the unanticipated deviations generated from the rough estimations of transmission map and atmospheric light in Dark Channel Prior. To increase object detection accuracy in the hazy environment, the authors further present an algorithm to build a synthetic hazy COCO training dataset by generating the artificial haze to the MS COCO training dataset. The experimental results demonstrate that the proposed model obtains higher image quality and shares more similarity with ground truth images than most conventional pixel-based dehazing algorithms and neural network based haze-removal models. The authors also evaluate the mean average precision of Mask R-CNN when training the network with synthetic hazy COCO training dataset and preprocessing test hazy dataset by removing the haze with the proposed dehazing model. It turns out that both approaches can increase the object detection accuracy significantly and outperform most existing object detection models over hazy images.
翻訳日:2021-03-15 22:28:54 公開日:2021-03-12
# (参考訳) Twitterの返信のスタンスを分類するアプローチ [全文訳有]

A Weakly Supervised Approach for Classifying Stance in Twitter Replies ( http://arxiv.org/abs/2103.07098v1 )

ライセンス: CC BY 4.0
Sumeet Kumar, Ramon Villa Cox, Matthew Babcock, Kathleen M. Carley(参考訳) ソーシャルメディア(SM)に関する議論は、オンラインハラスメントや噂の拡散など、ウェブ上の社会問題の調査にますます利用されている。 このような問題に対して、共通の研究のスレッドは、例えば、噂の事実的不正確さを指摘する返信など、逆反応を使用する。 敵の反応はオンライン会話で広く見られるが、これらの不利な見解(あるいは姿勢)を回答中のテキストから推測することは困難であり、複雑な自然言語処理(nlp)モデルを必要とする。 さらに,従来のNLPモデルでは,教師あり学習のためのラベル付きデータが必要である。 ラベル付き会話は、どんなトピックでも会話ができるので、それ自体が困難であり、トピックは時間とともに変化する。 これらの課題は、姿勢の学習を困難なNLP問題にする。 本研究では,各トピックに対するユーザの意見(プロ/コンなど)と,他の投稿(好意的/好意的)に対するユーザのスタンスの両方をラベル付けして,3つの異なるトピックからなる新しいスタンスデータセットを作成する。 教師付きアプローチによる制限を見つけるため,Twitter応答の姿勢を予測する弱教師付きアプローチを提案する。 提案手法では,少数のハッシュタグを用いてTwitter応答の弱いラベルを生成することができる。 教師付き学習と比較して,トレーニングセットに手作業による例を使わずに,手作業によるデータセットの平均F1-macroを8\%改善する。 さらに,提案手法のtwitter上でのcovid-19関連会話への適用性を示す。

Conversations on social media (SM) are increasingly being used to investigate social issues on the web, such as online harassment and rumor spread. For such issues, a common thread of research uses adversarial reactions, e.g., replies pointing out factual inaccuracies in rumors. Though adversarial reactions are prevalent in online conversations, inferring those adverse views (or stance) from the text in replies is difficult and requires complex natural language processing (NLP) models. Moreover, conventional NLP models for stance mining need labeled data for supervised learning. Getting labeled conversations can itself be challenging as conversations can be on any topic, and topics change over time. These challenges make learning the stance a difficult NLP problem. In this research, we first create a new stance dataset comprised of three different topics by labeling both users' opinions on the topics (as in pro/con) and users' stance while replying to others' posts (as in favor/oppose). As we find limitations with supervised approaches, we propose a weakly-supervised approach to predict the stance in Twitter replies. Our novel method allows using a smaller number of hashtags to generate weak labels for Twitter replies. Compared to supervised learning, our method improves the mean F1-macro by 8\% on the hand-labeled dataset without using any hand-labeled examples in the training set. We further show the applicability of our proposed method on COVID 19 related conversations on Twitter.
翻訳日:2021-03-15 22:04:39 公開日:2021-03-12
# (参考訳) 説明可能なAIフレームワークを用いたネットワーク侵入検知システム [全文訳有]

Explaining Network Intrusion Detection System Using Explainable AI Framework ( http://arxiv.org/abs/2103.07110v1 )

ライセンス: CC BY 4.0
Shraddha Mane, Dattaraj Rao(参考訳) サイバーセキュリティは、サイバーインフラを攻撃する新しいパターンを探求する攻撃者とのデータ分布が絶えず変化しているドメインです。 侵入検知システムは、今日の世界のサイバー安全の重要なレイヤーの1つです。 近年,機械学習によるネットワーク侵入検知システムが有効性を示した。 ディープラーニングモデルでは、ネットワーク侵入検知システムの検出率が改善される。 モデルがより正確になり、複雑さが増し、解釈性が低下する。 ディープニューラルネットワークは複雑で解釈が難しいため、意思決定の背後にある理由が分からないため、プロダクションで使用するのが難しい。 本稿では,ディープニューラルネットワークをネットワーク侵入検出に使用し,機械学習パイプラインのすべてのステージに透過性を加えるための説明可能なaiフレームワークを提案する。 これは、予測された理由に関する説明を提供することで、MLモデルをブラックボックスより少なくすることに焦点を当てた説明可能なAIアルゴリズムを活用することで実現される。 説明は、サイバー攻撃の予測にどのような特徴が影響するか、そしてどの程度まで測定可能な要因を提供します。 これらの説明は SHAP, LIME, Contrastive Explanations Method, ProtoDash, Boolean Decision Rules から列生成を介して生成される。 侵入検知システムのためのNSL KDDデータセットにこれらの手法を適用し,結果を実証する。

Cybersecurity is a domain where the data distribution is constantly changing with attackers exploring newer patterns to attack cyber infrastructure. Intrusion detection system is one of the important layers in cyber safety in today's world. Machine learning based network intrusion detection systems started showing effective results in recent years. With deep learning models, detection rates of network intrusion detection system are improved. More accurate the model, more the complexity and hence less the interpretability. Deep neural networks are complex and hard to interpret which makes difficult to use them in production as reasons behind their decisions are unknown. In this paper, we have used deep neural network for network intrusion detection and also proposed explainable AI framework to add transparency at every stage of machine learning pipeline. This is done by leveraging Explainable AI algorithms which focus on making ML models less of black boxes by providing explanations as to why a prediction is made. Explanations give us measurable factors as to what features influence the prediction of a cyberattack and to what degree. These explanations are generated from SHAP, LIME, Contrastive Explanations Method, ProtoDash and Boolean Decision Rules via Column Generation. We apply these approaches to NSL KDD dataset for intrusion detection system and demonstrate results.
翻訳日:2021-03-15 21:44:06 公開日:2021-03-12
# (参考訳) 脳波異種データの特徴選択のためのGA

GA for feature selection of EEG heterogeneous data ( http://arxiv.org/abs/2103.07117v1 )

ライセンス: CC BY 4.0
Aurora Saibene (1 and 2) and Francesca Gasparini (1 and 2) ((1) University of Milano-Bicocca, Department of Informatics, Systems and Communications, Multi Media Signal Processing Laboratory, (2) University of Milano-Bicocca, NeuroMI)(参考訳) 脳波信号(EEG)は、脳の活動と機能に関する高い情報を提供する。 しかし、その不均一性と高次元性は解釈の障害となるかもしれない。 先行知識の導入は、高次元問題を緩和する最善の選択肢と思われるが、データに存在する情報やパターンが失われる可能性がある一方で、データの均一性はしばしば一般化を難しくするオープンな問題である。 本研究では,教師なしあるいは教師なしのアプローチで利用可能な特徴選択のための遺伝的アルゴリズム(GA)を提案する。 専門家の知識に頼らず、3つのフィットネス機能を検討します。 認知作業負荷と運動/画像に関する2つの公開データセットから始めて、EEG信号は処理され、正規化され、その特徴が時間、周波数、時間周波数ドメインで計算される。 特徴ベクトルの選択は、GA提案を適用して、2つのベンチマーク手法と比較することで行う。 その結果,提案手法の異なる組み合わせは,全体的な性能と機能削減の観点から,ベンチマークよりも優れた結果が得られることがわかった。 さらに, 提案したGAは, 新たな適合度関数に基づいて, 検討した2つの異なるデータセットをマージした場合のベンチマークを上回り, 異種データに対する提案の有効性を示す。

The electroencephalograp hic (EEG) signals provide highly informative data on brain activities and functions. However, their heterogeneity and high dimensionality may represent an obstacle for their interpretation. The introduction of a priori knowledge seems the best option to mitigate high dimensionality problems, but could lose some information and patterns present in the data, while data heterogeneity remains an open issue that often makes generalization difficult. In this study, we propose a genetic algorithm (GA) for feature selection that can be used with a supervised or unsupervised approach. Our proposal considers three different fitness functions without relying on expert knowledge. Starting from two publicly available datasets on cognitive workload and motor movement/imagery, the EEG signals are processed, normalized and their features computed in the time, frequency and time-frequency domains. The feature vector selection is performed by applying our GA proposal and compared with two benchmarking techniques. The results show that different combinations of our proposal achieve better results in respect to the benchmark in terms of overall performance and feature reduction. Moreover, the proposed GA, based on a novel fitness function here presented, outperforms the benchmark when the two different datasets considered are merged together, showing the effectiveness of our proposal on heterogeneous data.
翻訳日:2021-03-15 21:36:36 公開日:2021-03-12
# (参考訳) パラメータ化ニューラルネットワークを用いた複素音のスペクトル時間表現の学習

Learning spectro-temporal representations of complex sounds with parameterized neural networks ( http://arxiv.org/abs/2103.07125v1 )

ライセンス: CC BY-SA 4.0
Rachid Riad and Julien Karadayi and Anne-Catherine Bachoud-L\'evi and Emmanuel Dupoux(参考訳) 深層学習モデルは、近年の様々な聴覚タスクの成功により、聴覚神経科学研究の候補となりつつある。 しかし、これらのモデルはしばしば、実行された正確な計算を完全に理解する解釈能力が欠けている。 そこで本研究では,Gaborカーネル(Learnable STRF)に基づく特定のスペクトル時間変調を算出し,完全に解釈可能なパラメータ化ニューラルネットワーク層を提案する。 音声活動検出,話者照合,都市音響分類,ゼブラフィンチ呼出タイプの分類において,この層の予測能力を評価した。 その結果、学習可能なSTRFに基づくモデルは、トポラインの異なる全てのタスクに対して同等であり、音声活動検出に最適な性能が得られることがわかった。 この層は完全に解釈可能であるので、学習した分光時間変調の分布を記述するために定量的な尺度を用いた。 各タスクに適応し、主に低時間およびスペクトル変調に焦点を当てたフィルタ。 分析の結果,ヒトの音声で学習したフィルタは,ヒトの聴覚野で直接測定されたフィルタとよく似たスペクトル時間パラメータを持つことがわかった。 最後に,人間の声化タスクが互いに近接し,鳥の声化タスクが人間の声化タスクや都市音化タスクから遠く離れた,有意義な方法で編成されたことを観察した。

Deep Learning models have become potential candidates for auditory neuroscience research, thanks to their recent successes on a variety of auditory tasks. Yet, these models often lack interpretability to fully understand the exact computations that have been performed. Here, we proposed a parametrized neural network layer, that computes specific spectro-temporal modulations based on Gabor kernels (Learnable STRFs) and that is fully interpretable. We evaluated predictive capabilities of this layer on Speech Activity Detection, Speaker Verification, Urban Sound Classification and Zebra Finch Call Type Classification. We found out that models based on Learnable STRFs are on par for all tasks with different toplines, and obtain the best performance for Speech Activity Detection. As this layer is fully interpretable, we used quantitative measures to describe the distribution of the learned spectro-temporal modulations. The filters adapted to each task and focused mostly on low temporal and spectral modulations. The analyses show that the filters learned on human speech have similar spectro-temporal parameters as the ones measured directly in the human auditory cortex. Finally, we observed that the tasks organized in a meaningful way: the human vocalizations tasks closer to each other and bird vocalizations far away from human vocalizations and urban sounds tasks.
翻訳日:2021-03-15 21:35:35 公開日:2021-03-12
# (参考訳) UIEC^2-Net:2色空間を用いたCNNによる水中画像強調 [全文訳有]

UIEC^2-Net: CNN-based Underwater Image Enhancement Using Two Color Space ( http://arxiv.org/abs/2103.07138v1 )

ライセンス: CC BY 4.0
Yudong Wang, Jichang Guo, Huan Gao, Huihui Yue(参考訳) 近年,海洋資源開発が盛んになり,水中画像の強調が注目されている。 Convolution Neural Networks(CNN)の強力な表現能力の利点は、CNNに基づく複数の水中画像強化アルゴリズムがここ数年で提案されています。 しかし、これらのアルゴリズムのほとんどがrgb色空間設定を採用しており、輝度や彩度などの画像特性に影響を受けない。 2色空間(UICE^2-Net)を用いた水中画像強調畳み込みニューラルネットワークを提案し、1つのCNNでRGB色空間とHSV色空間を効率的に効率的に統合した。 我々の知る限り、この手法は深層学習に基づく水中画像強調に初めてHSV色空間を用いたものである。 UIEC^2-Netは、RGBピクセルレベルのブロックは、カラーキャストの消色除去などの基本的な操作、新しいニューラルカーブ層を採用して水中の画像輝度、色、彩度をグローバルに調整するためのHSVグローバル調整ブロック、各ピクセルに重みを分散してRGBとHSVブロック出力画像の利点を組み合わせるための注意マップブロックの3つのブロックからなるエンドツーエンドのトレーニング可能なネットワークである。 合成および実世界の水中画像に対する実験結果から,提案手法の主観的比較と客観的評価の両方において良好な性能を示した。

Underwater image enhancement has attracted much attention due to the rise of marine resource development in recent years. Benefit from the powerful representation capabilities of Convolution Neural Networks(CNNs), multiple underwater image enhancement algorithms based on CNNs have been proposed in the last few years. However, almost all of these algorithms employ RGB color space setting, which is insensitive to image properties such as luminance and saturation. To address this problem, we proposed Underwater Image Enhancement Convolution Neural Network using 2 Color Space (UICE^2-Net) that efficiently and effectively integrate both RGB Color Space and HSV Color Space in one single CNN. To our best knowledge, this method is the first to use HSV color space for underwater image enhancement based on deep learning. UIEC^2-Net is an end-to-end trainable network, consisting of three blocks as follow: a RGB pixel-level block implements fundamental operations such as denoising and removing color cast, a HSV global-adjust block for globally adjusting underwater image luminance, color and saturation by adopting a novel neural curve layer, and an attention map block for combining the advantages of RGB and HSV block output images by distributing weight to each pixel. Experimental results on synthetic and real-world underwater images show the good performance of our proposed method in both subjective comparisons and objective metrics.
翻訳日:2021-03-15 21:31:52 公開日:2021-03-12
# (参考訳) スペクトル圧縮イメージングに先立つ深部ガウススケール混合物 [全文訳有]

Deep Gaussian Scale Mixture Prior for Spectral Compressive Imaging ( http://arxiv.org/abs/2103.07152v1 )

ライセンス: CC BY 4.0
Tao Huang, Weisheng Dong, Xin Yuan, Jinjian Wu, Guangming Shi(参考訳) 符号化開口分光画像(CASSI)システムでは、撮像された圧縮画像から実世界のハイパースペクトル画像(HSI)を再構成することができる。 モデルに基づくhsi再構成法では,手作りプリアーを用いて復元問題を解決するが,そのほとんどが,手作りプリアーの表現能力の低さにより限界的な成功を収めた。 深層学習に基づく圧縮画像とHSI間のマッピング学習手法は、はるかに優れた結果を得た。 しかし、満足な結果を得るために強力なディープ・ネットワークをヒューリスティックに設計するのは簡単ではない。 本稿では,学習型ガウススケール混合 (gsm) を用いた最大後方推定法(map)に基づく新しいhsi再構成法を提案する。 手作りのスケールプリエント(例えばjeffrey's prior)を用いた既存のgsmモデルとは異なり、我々はdeep convolutional neural network(dcnn)を通じてそのスケールを学習することを提案する。 さらに,DCNN による GSM モデルの局所的平均値の推定も提案する。 MAP推定アルゴリズムとDCNNパラメータの全てのパラメータは、エンドツーエンドのトレーニングによって共同最適化される。 合成データと実データの両方に関する広範な実験結果から,提案手法が既存の最先端手法よりも優れていることが分かる。 コードはhttps://see.xidian.e du.cn/faculty/wsdong /Projects/DGSM-SCI.h tmで入手できる。

In coded aperture snapshot spectral imaging (CASSI) system, the real-world hyperspectral image (HSI) can be reconstructed from the captured compressive image in a snapshot. Model-based HSI reconstruction methods employed hand-crafted priors to solve the reconstruction problem, but most of which achieved limited success due to the poor representation capability of these hand-crafted priors. Deep learning based methods learning the mappings between the compressive images and the HSIs directly achieved much better results. Yet, it is nontrivial to design a powerful deep network heuristically for achieving satisfied results. In this paper, we propose a novel HSI reconstruction method based on the Maximum a Posterior (MAP) estimation framework using learned Gaussian Scale Mixture (GSM) prior. Different from existing GSM models using hand-crafted scale priors (e.g., the Jeffrey's prior), we propose to learn the scale prior through a deep convolutional neural network (DCNN). Furthermore, we also propose to estimate the local means of the GSM models by the DCNN. All the parameters of the MAP estimation algorithm and the DCNN parameters are jointly optimized through end-to-end training. Extensive experimental results on both synthetic and real datasets demonstrate that the proposed method outperforms existing state-of-the-art methods. The code is available at https://see.xidian.e du.cn/faculty/wsdong /Projects/DGSM-SCI.h tm.
翻訳日:2021-03-15 21:07:17 公開日:2021-03-12
# (参考訳) BAPCによる説明可能なAI -- 修正パラメータの前後比較 [全文訳有]

Explainable AI by BAPC -- Before and After correction Parameter Comparison ( http://arxiv.org/abs/2103.07155v1 )

ライセンス: CC BY 4.0
Florian Sobieczky, Salma Mahmoud, Simon Neugebauer, Lukas Rippitsch, Manuela Gei{\ss}(参考訳) 局所的なサーロゲートアプローチによって、回帰モデルの枠組みにおけるai予測の説明を得る分析手法が定義される。 ベースモデルの予測に対する追加補正を生成するAIモデルの場合、AIモデル予測が厳密に定義された意味で小さい限り、その解釈可能なパラメータのシフトの形で説明が提供されます。 基準は、失われた精度とモデル忠実性の欠如の間に正確な関係を定式化する。 2つの応用は、基盤となるベースモデルの意味において、ニューラルネットワークとランダムフォレストモデルの動作を物理的または計量的パラメータを用いて解釈する方法を示している。 ISM 2020カンファレンスで発表された論文の拡張版で、新しいアプローチであるBAPCを最初に紹介しました。

By means of a local surrogate approach, an analytical method to yield explanations of AI-predictions in the framework of regression models is defined. In the case of the AI-model producing additive corrections to the predictions of a base model, the explanations are delivered in the form of a shift of its interpretable parameters as long as the AI- predictions are small in a rigorously defined sense. Criteria are formulated giving a precise relation between lost accuracy and lacking model fidelity. Two applications show how physical or econometric parameters may be used to interpret the action of neural network and random forest models in the sense of the underlying base model. This is an extended version of our paper presented at the ISM 2020 conference, where we first introduced our new approach BAPC.
翻訳日:2021-03-15 20:51:52 公開日:2021-03-12
# (参考訳) BERTはCross-Disciplinary Knowledge Learnerですか? 事前訓練されたモデルの伝達性に関する一考察 [全文訳有]

Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of Pre-trained Models' Transferability ( http://arxiv.org/abs/2103.07162v1 )

ライセンス: CC BY 4.0
Wei-Tsung Kao, Hung-Yi Lee(参考訳) 本稿では,BERTなどのテキストデータに事前学習したモデルのパワーを,一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討する。 学習済みモデルの転送性を検証するために,(1)トークンミスマッチの意味を持つテキスト分類タスク,(2)アミノ酸配列,DNA配列,音楽を含む実世界の非テキストトークン配列分類データについて,学習済みモデルの検証を行った。 非テキストデータでも、テキスト上で事前トレーニングされたモデルはランダムに初期化されたモデルよりも速く収束し、事前トレーニングされたモデルのテスト性能は特定のタスク用に設計されたモデルよりもわずかに悪いことが分かります。

In this paper, we investigate whether the power of the models pre-trained on text data, such as BERT, can be transferred to general token sequence classification applications. To verify pre-trained models' transferability, we test the pre-trained models on (1) text classification tasks with meanings of tokens mismatches, and (2) real-world non-text token sequence classification data, including amino acid sequence, DNA sequence, and music. We find that even on non-text data, the models pre-trained on text converge faster than the randomly initialized models, and the testing performance of the pre-trained models is merely slightly worse than the models designed for the specific tasks.
翻訳日:2021-03-15 20:25:33 公開日:2021-03-12
# (参考訳) オブジェクト中心プロセスキューブを用いたプロセス比較 [全文訳有]

Process Comparison Using Object-Centric Process Cubes ( http://arxiv.org/abs/2103.07184v1 )

ライセンス: CC BY 4.0
Anahita Farhang Ghahfarokhi, Alessandro Berti, Wil M.P. van der Aalst(参考訳) プロセスマイニングはビジネスプロセスを分析する方法を提供する。 一般的なプロセスマイニング技術は、プロセス全体を考慮します。 しかし、実生活のビジネスプロセスでは、プロセス全体を複雑に解釈しがちな振る舞いが存在します。 プロセス比較は、プロセスキューブを使用して、プロセスの異なる動作を互いに分離するプロセスマイニングのブランチです。 プロセスキューブはイベントデータを異なる次元で整理する。 各セルは、プロセスマイニング技術を適用するインプットとして使用できる一連のイベントを含んでいる。 プロセスキューブに関する既存の作業は、単一のケース概念を前提としている。 しかし、実際のプロセスでは、いくつかのケース概念(順序、アイテム、パッケージなど)がある。 絡み合っています オブジェクト中心のプロセスマイニングは、プロセス内の複数のケース概念に対処するプロセスマイニングの新しいブランチである。 オブジェクト中心のプロセスマイニングとプロセス比較を橋渡しするために、オブジェクト中心のイベントログ上でスライスやサイスのようなプロセスキューブ操作をサポートするプロセスキューブフレームワークを提案する。 比較を容易にするため、このフレームワークはいくつかのオブジェクト中心のプロセス発見アプローチと統合されている。

Process mining provides ways to analyze business processes. Common process mining techniques consider the process as a whole. However, in real-life business processes, different behaviors exist that make the overall process too complex to interpret. Process comparison is a branch of process mining that isolates different behaviors of the process from each other by using process cubes. Process cubes organize event data using different dimensions. Each cell contains a set of events that can be used as an input to apply process mining techniques. Existing work on process cubes assume single case notions. However, in real processes, several case notions (e.g., order, item, package, etc.) are intertwined. Object-centric process mining is a new branch of process mining addressing multiple case notions in a process. To make a bridge between object-centric process mining and process comparison, we propose a process cube framework, which supports process cube operations such as slice and dice on object-centric event logs. To facilitate the comparison, the framework is integrated with several object-centric process discovery approaches.
翻訳日:2021-03-15 20:22:17 公開日:2021-03-12
# (参考訳) DDSPを用いた歌声合成の潜時空間探索 [全文訳有]

Latent Space Explorations of Singing Voice Synthesis using DDSP ( http://arxiv.org/abs/2103.07197v1 )

ライセンス: CC BY-SA 4.0
Juan Alonso and Cumhur Erkut(参考訳) 機械学習ベースの歌声モデルは、大きなデータセットと長いトレーニング時間を必要とする。 本研究では,音高と振幅のみを条件とした音声を,12時間に及ぶ未処理音声の小さなデータセットを用いて出力することが可能な,微分可能ディジタル信号処理(DDSP)ライブラリに基づく軽量アーキテクチャを提案する。 メロディと歌手の声の両方が認識できるので、結果は有望である。 さらに,新しいモデルを訓練し,実験するためのゼロ設定ツールを2つ提示する。 現在、我々はDDSPライブラリに含まれるが、元のDDSPの例には含まれていない潜在空間表現を探っている。 以上の結果から,潜伏空間は歌唱者の識別と歌詞の理解の両方を改善することが示唆された。 私たちのコードは、ゼロコンフィグレーションノートブックへのリンク付きのhttps://github.com/j uanalonso/ddsp-sing- experimentsで利用可能です。

Machine learning based singing voice models require large datasets and lengthy training times. In this work we present a lightweight architecture, based on the Differentiable Digital Signal Processing (DDSP) library, that is able to output song-like utterances conditioned only on pitch and amplitude, after twelve hours of training using small datasets of unprocessed audio. The results are promising, as both the melody and the singer's voice are recognizable. In addition, we present two zero-configuration tools to train new models and experiment with them. Currently we are exploring the latent space representation, which is included in the DDSP library, but not in the original DDSP examples. Our results indicate that the latent space improves both the identification of the singer as well as the comprehension of the lyrics. Our code is available at https://github.com/j uanalonso/DDSP-singi ng-experiments with links to the zero-configuration notebooks, and our sound examples are at https://juanalonso.g ithub.io/DDSP-singin g-experiments/ .
翻訳日:2021-03-15 20:09:03 公開日:2021-03-12
# (参考訳) アラビア語書誌記録の自動ロマン化 [全文訳有]

Automatic Romanization of Arabic Bibliographic Records ( http://arxiv.org/abs/2103.07199v1 )

ライセンス: CC BY 4.0
Eryani Fadhl and Habash Nizar(参考訳) 国際図書館標準では、特定の言語知識を持たない図書館利用者の利益のために、カタログレコードのローマ字化を退屈に行う必要がある。 本稿では,未診断アラビア語書誌エントリの自動ロマン化に関する最初の報告結果について述べる。 この複雑な作業はアラビア音韻学、形態学、さらには意味論のモデリングを必要とする。 並列アラビア語とローマ字の書誌エントリからなる2.5Mワードコーパスを収集し、複雑さとリソース依存の点で異なるモデルをベンチマークした。 私達の最もよいシステムは盲目のテスト セットの89.3%の厳密な単語のロマン化に達します。 データとコードを公開しています。

International library standards require cataloguers to tediously input Romanization of their catalogue records for the benefit of library users without specific language expertise. In this paper, we present the first reported results on the task of automatic Romanization of undiacritized Arabic bibliographic entries. This complex task requires the modeling of Arabic phonology, morphology, and even semantics. We collected a 2.5M word corpus of parallel Arabic and Romanized bibliographic entries, and benchmarked a number of models that vary in terms of complexity and resource dependence. Our best system reaches 89.3% exact word Romanization on a blind test set. We make our data and code publicly available.
翻訳日:2021-03-15 19:55:51 公開日:2021-03-12
# (参考訳) 逐次変分オートエンコーダを用いた医用データラング [全文訳有]

Medical data wrangling with sequential variational autoencoders ( http://arxiv.org/abs/2103.07206v1 )

ライセンス: CC BY 4.0
Daniel Barrej\'on, Pablo M. Olmos, Antonio Art\'es-Rodr\'iguez(参考訳) 医療データセットは通常、ノイズや欠落したデータによって破損する。 これらの欠落パターンは、一般的には完全にランダムであると仮定されるが、医学的なシナリオでは、このパターンは一定期間オフになっているセンサーや、不均一な方法で収集されたデータなどによってバーストで発生する。 本論文では,医用データレコードを不均一なデータ型とバースト的欠落データとでモデル化することを提案する。 特に,観測の欠如したデータストリームにvaesの機能を拡張する新しい手法であるshi-vaeを提案する。 我々は、集中治療単位データベース(ICU)と受動的人体監視データセットにおける最先端のソリューションと比較した。 さらに,rmseなどの標準誤差指標は,時間モデルを評価するのに十分な決定性を持たず,基礎的真理と含意的信号との相互相関を解析した。 本研究では,医療記録の最先端の手法であるGP-VAEモデルよりも計算の複雑性が低く,両指標の使い勝手が最良であることを示した。

Medical data sets are usually corrupted by noise and missing data. These missing patterns are commonly assumed to be completely random, but in medical scenarios, the reality is that these patterns occur in bursts due to sensors that are off for some time or data collected in a misaligned uneven fashion, among other causes. This paper proposes to model medical data records with heterogeneous data types and bursty missing data using sequential variational autoencoders (VAEs). In particular, we propose a new methodology, the Shi-VAE, which extends the capabilities of VAEs to sequential streams of data with missing observations. We compare our model against state-of-the-art solutions in an intensive care unit database (ICU) and a dataset of passive human monitoring. Furthermore, we find that standard error metrics such as RMSE are not conclusive enough to assess temporal models and include in our analysis the cross-correlation between the ground truth and the imputed signal. We show that Shi-VAE achieves the best performance in terms of using both metrics, with lower computational complexity than the GP-VAE model, which is the state-of-the-art method for medical records.
翻訳日:2021-03-15 19:42:53 公開日:2021-03-12
# (参考訳) 特徴分布に照らして:ニューラルスタイル転送のためのモーメントマッチング [全文訳有]

In the light of feature distributions: moment matching for Neural Style Transfer ( http://arxiv.org/abs/2103.07208v1 )

ライセンス: CC BY 4.0
Nikolai Kalischek, Jan Dirk Wegner, Konrad Schindler(参考訳) スタイル転送は、ある画像のコンテンツを別の画像のグラフィカル/アーティスティックスタイルでレンダリングすることを目的としています。 NeuralStyle Transfer(NST)の基本コンセプトは、Convolutional Neural Networkの特徴空間における分布としてスタイルを解釈し、その特徴分布を一致させることで望ましいスタイルを実現できるようにすることである。 この概念の現在の実装のほとんどは、機能分布の部分的な整合性のため、重要な理論的および実践的な制限があることを示します。 本稿では,より正確に分布をマッチングし,計算効率を保ちつつ,より忠実に所望のスタイルを再現する手法を提案する。 具体的には、最近ドメイン適応のために提案されたCMD(Central Moment Discrepancy)の二重形式を適用し、出力画像の特徴分布とターゲットスタイルの違いを最小限に抑える。 この計量の双対解釈は、すべての高階集中モーメントと明示的に一致し、従って、第1モーメントと第2モーメントのみを考慮に入れた既存のNST法の自然な拡張である。 実験により,強い理論的特性は視覚的に優れたスタイル伝達とセマンティックな画像コンテンツからより良いアンタングルスタイルに変換されることが確認された。

Style transfer aims to render the content of a given image in the graphical/artistic style of another image. The fundamental concept underlying NeuralStyle Transfer (NST) is to interpret style as a distribution in the feature space of a Convolutional Neural Network, such that a desired style can be achieved by matching its feature distribution. We show that most current implementations of that concept have important theoretical and practical limitations, as they only partially align the feature distributions. We propose a novel approach that matches the distributions more precisely, thus reproducing the desired style more faithfully, while still being computationally efficient. Specifically, we adapt the dual form of Central Moment Discrepancy (CMD), as recently proposed for domain adaptation, to minimize the difference between the target style and the feature distribution of the output image. The dual interpretation of this metric explicitly matches all higher-order centralized moments and is therefore a natural extension of existing NST methods that only take into account the first and second moments. Our experiments confirm that the strong theoretical properties also translate to visually better style transfer, and better disentangle style from semantic image content.
翻訳日:2021-03-15 19:21:28 公開日:2021-03-12
# (参考訳) DDSPを用いたリアルタイムタイミング転送と音合成 [全文訳有]

Real-time Timbre Transfer and Sound Synthesis using DDSP ( http://arxiv.org/abs/2103.07220v1 )

ライセンス: CC BY-SA 4.0
Francesco Ganis, Erik Frej Knudesn, S{\o}ren V. K. Lyster, Robin Otterbein, David S\"udholt and Cumhur Erkut(参考訳) ニューラルオーディオ合成は積極的に研究されているトピックであり、機械学習アーキテクチャを活用した幅広い技術を生み出した。 google magenta氏は、ディープニューラルネットワークとプリコンディショニングされたデジタル信号処理技術を組み込んだ差分デジタル信号処理(ddsp)と呼ばれる新しいアプローチを詳しく説明した。 しかし、DDSPを含むこれらの技術の多くは、一般にリアルタイムの制約には適用されず、音楽のワークフローでは無視できる。 本稿では,デジタルオーディオワークステーションで使用可能なプラグインとして,仮想シンセサイザーに埋め込まれたDDSPライブラリのリアルタイム実装について述べる。 実楽器の学習表現から任意の音響入力への音色伝達とMIDIによるこれらのモデル制御に着目した。 さらに,ニューラルネットワークによって推定されるパラメータの処理や操作に使用可能な,直感的な高レベル制御のためのGUIを開発した。 7名の参加者によるユーザー体験テストをオンラインで実施しました。 その結果,ユーザインターフェースが魅力的で,理解しやすく,さらに探究する価値があることがわかった。 同時に、私たちは、音色転送の品質、実装していないいくつかのコンポーネント、プラグインのインストールと配布の問題を特定しました。 デザインの次のイテレーションでは、これらの問題に対処します。 リアルタイムMATLABとJUCEの実装は、https://github.com/S MC704/juce-ddspとhttps://github.com/S MC704/matlab-ddspで利用できます。

Neural audio synthesis is an actively researched topic, having yielded a wide range of techniques that leverages machine learning architectures. Google Magenta elaborated a novel approach called Differential Digital Signal Processing (DDSP) that incorporates deep neural networks with preconditioned digital signal processing techniques, reaching state-of-the-art results especially in timbre transfer applications. However, most of these techniques, including the DDSP, are generally not applicable in real-time constraints, making them ineligible in a musical workflow. In this paper, we present a real-time implementation of the DDSP library embedded in a virtual synthesizer as a plug-in that can be used in a Digital Audio Workstation. We focused on timbre transfer from learned representations of real instruments to arbitrary sound inputs as well as controlling these models by MIDI. Furthermore, we developed a GUI for intuitive high-level controls which can be used for post-processing and manipulating the parameters estimated by the neural network. We have conducted a user experience test with seven participants online. The results indicated that our users found the interface appealing, easy to understand, and worth exploring further. At the same time, we have identified issues in the timbre transfer quality, in some components we did not implement, and in installation and distribution of our plugin. The next iteration of our design will address these issues. Our real-time MATLAB and JUCE implementations are available at https://github.com/S MC704/juce-ddsp and https://github.com/S MC704/matlab-ddsp , respectively.
翻訳日:2021-03-15 19:04:52 公開日:2021-03-12
# (参考訳) きめ細かい画像分類のための逐次ランダムネットワーク [全文訳有]

Sequential Random Network for Fine-grained Image Classification ( http://arxiv.org/abs/2103.07230v1 )

ライセンス: CC BY 4.0
Chaorong Li, Malu Zhang, Wei Huang, Fengqing Qin, Anping Zeng, Yuanyuan Huang(参考訳) Deep Convolutional Neural Network (DCNN)とTransformerは、画像認識において顕著な成功を収めている。 しかし, 画像認識におけるそれらの性能は, 実際の要求を満たすことは依然として困難である。 本稿では、DCNNの性能を高めるためにSRN(Sequence Random Network)を提案する。 DCNNの出力は1次元機能です。 この一次元特徴は抽象的に画像情報を表すが、画像の詳細な情報をうまく表現していない。 本稿では,BiLSTMといくつかのTanh-Dropoutブロック(BiLSTM-TDN)から構成されるSRNを用いて,DCNNの一次元特徴を処理し,画像の詳細情報を強調する。 BiLSTM-TDNによる特徴変換の後、認識性能が大幅に向上した。 6つの微細な画像データセットで実験を行った。 FGVC-Aircraftを除いて、他のデータセットに対する提案手法の精度は99%を超えた。 実験の結果, BiLSTM-TDNは既存の最先端手法よりもはるかに優れていることがわかった。 DCNNに加えて、BiLSTM-TDNはTransformerのような他のモデルにも拡張できます。

Deep Convolutional Neural Network (DCNN) and Transformer have achieved remarkable successes in image recognition. However, their performance in fine-grained image recognition is still difficult to meet the requirements of actual needs. This paper proposes a Sequence Random Network (SRN) to enhance the performance of DCNN. The output of DCNN is one-dimensional features. This one-dimensional feature abstractly represents image information, but it does not express well the detailed information of image. To address this issue, we use the proposed SRN which composed of BiLSTM and several Tanh-Dropout blocks (called BiLSTM-TDN), to further process DCNN one-dimensional features for highlighting the detail information of image. After the feature transform by BiLSTM-TDN, the recognition performance has been greatly improved. We conducted the experiments on six fine-grained image datasets. Except for FGVC-Aircraft, the accuracies of the proposed methods on the other datasets exceeded 99%. Experimental results show that BiLSTM-TDN is far superior to the existing state-of-the-art methods. In addition to DCNN, BiLSTM-TDN can also be extended to other models, such as Transformer.
翻訳日:2021-03-15 18:53:46 公開日:2021-03-12
# (参考訳) 行列の低ランク近似を効率的に計算するための投影型QLPアルゴリズム [全文訳有]

Projection-based QLP Algorithm for Efficiently Computing Low-Rank Approximation of Matrices ( http://arxiv.org/abs/2103.07245v1 )

ライセンス: CC BY 4.0
Maboud F. Kaloorazi and Jie Chen(参考訳) 数値階級の低い行列は、多くの信号処理やデータ解析の応用において一様である。 ピボットQLP (p-QLP) アルゴリズムは入力された低ランク行列に対する高精度な近似を構築する。 しかし、大きな行列に対しては計算的に禁止される。 本稿では,プロジェクションベース部分QLP(PbP-QLP)と呼ばれる新しいアルゴリズムを導入し,p-QLPを高精度に近似する。 我々の研究の基本はランダム化の活用であり、p-QLPとは対照的に、PbP-QLPはピボット戦略を使わない。 したがって、pbp-qlpは、競合するランダム化アルゴリズムよりも、現代のコンピュータアーキテクチャを活用できる。 提案するPbP-QLPアルゴリズムの有効性を,合成および実世界のデータ行列の様々なクラスを用いて検討した。

Matrices with low numerical rank are omnipresent in many signal processing and data analysis applications. The pivoted QLP (p-QLP) algorithm constructs a highly accurate approximation to an input low-rank matrix. However, it is computationally prohibitive for large matrices. In this paper, we introduce a new algorithm termed Projection-based Partial QLP (PbP-QLP) that efficiently approximates the p-QLP with high accuracy. Fundamental in our work is the exploitation of randomization and in contrast to the p-QLP, PbP-QLP does not use the pivoting strategy. As such, PbP-QLP can harness modern computer architectures, even better than competing randomized algorithms. The efficiency and effectiveness of our proposed PbP-QLP algorithm are investigated through various classes of synthetic and real-world data matrices.
翻訳日:2021-03-15 18:36:24 公開日:2021-03-12
# (参考訳) ヒトポース推定のための深層二重連続ネットワーク [全文訳有]

Deep Dual Consecutive Network for Human Pose Estimation ( http://arxiv.org/abs/2103.07254v1 )

ライセンス: CC BY 4.0
Zhenguang Liu, Haoming Chen, Runyang Feng, Shuang Wu, Shouling Ji, Bailin Yang, Xun Wang(参考訳) 複雑な状況下でのマルチフレーム人間のポーズ推定は困難です。 最先端のヒト関節検出器は静的画像に対して顕著な結果を示したが,これらのモデルをビデオシーケンスに適用した場合,その性能は短かった。 一般的な欠点は、モーションボケ、ビデオデフォーカス、またはビデオフレーム間の時間依存性をキャプチャできないことから生じる閉塞を処理できないことです。 一方、従来のリカレントニューラルネットワークを直接利用すると、特にポーズオクルージョンを扱う場合、空間コンテキストのモデリングにおいて経験的な困難が生じる。 本稿では,ビデオフレーム間の豊富な時間的手がかりを活用し,キーポイント検出を容易にするマルチフレームの人物ポーズ推定フレームワークを提案する。 3つのモジュールコンポーネントがフレームワークで設計されています。 ポーズ時間マージはキーポイント時空間を符号化して効果的な探索スコープを生成し、ポーズ残差融合モジュールは重み付きポーズ残差を2方向で計算する。 これらは、ポーズ推定の効率的な精錬のためにPose Correction Networkを介して処理されます。 提案手法は,大規模ベンチマークデータセットPoseTrack2017とPoseTrack2018において,多フレームPerson Pose Estimation Challengeの1位にランクインする。 将来の研究に刺激を与えることを期待して、コードをリリースしました。

Multi-frame human pose estimation in complicated situations is challenging. Although state-of-the-art human joints detectors have demonstrated remarkable results for static images, their performances come short when we apply these models to video sequences. Prevalent shortcomings include the failure to handle motion blur, video defocus, or pose occlusions, arising from the inability in capturing the temporal dependency among video frames. On the other hand, directly employing conventional recurrent neural networks incurs empirical difficulties in modeling spatial contexts, especially for dealing with pose occlusions. In this paper, we propose a novel multi-frame human pose estimation framework, leveraging abundant temporal cues between video frames to facilitate keypoint detection. Three modular components are designed in our framework. A Pose Temporal Merger encodes keypoint spatiotemporal context to generate effective searching scopes while a Pose Residual Fusion module computes weighted pose residuals in dual directions. These are then processed via our Pose Correction Network for efficient refining of pose estimations. Our method ranks No.1 in the Multi-frame Person Pose Estimation Challenge on the large-scale benchmark datasets PoseTrack2017 and PoseTrack2018. We have released our code, hoping to inspire future research.
翻訳日:2021-03-15 17:18:27 公開日:2021-03-12
# (参考訳) 語彙意味変化検出におけるbert性能の説明と改善 [全文訳有]

Explaining and Improving BERT Performance on Lexical Semantic Change Detection ( http://arxiv.org/abs/2103.07259v1 )

ライセンス: CC BY 4.0
Severin Laicher, Sinan Kurtyigit, Dominik Schlechtweg, Jonas Kuhn, Sabine Schulte im Walde(参考訳) 型およびトークンベースの埋め込みアーキテクチャは、いまだに語彙的セマンティックな変更検出に競合している。 最近のSemEval-2020 Task 1の型ベースのモデルの成功は、他のさまざまなNLPタスクにおけるトークンベースのモデルの成功がなぜ私たちのフィールドに翻訳されないのかという疑問を引き起こしました。 BERTベクトルのクラスタリングに対する変数の範囲の影響を調査し、その低パフォーマンスはターゲット語の正則情報によるものであり、BERT表現のより高い層でも符号化されていることを示した。 オーソグラフィの影響を低減することで、BERTの性能を大幅に向上させます。

Type- and token-based embedding architectures are still competing in lexical semantic change detection. The recent success of type-based models in SemEval-2020 Task 1 has raised the question why the success of token-based models on a variety of other NLP tasks does not translate to our field. We investigate the influence of a range of variables on clusterings of BERT vectors and show that its low performance is largely due to orthographic information on the target word, which is encoded even in the higher layers of BERT representations. By reducing the influence of orthography we considerably improve BERT's performance.
翻訳日:2021-03-15 16:55:50 公開日:2021-03-12
# (参考訳) 音響モニタリングと深層学習を用いた動物生物多様性のモデル化 [全文訳有]

Modelling Animal Biodiversity Using Acoustic Monitoring and Deep Learning ( http://arxiv.org/abs/2103.07276v1 )

ライセンス: CC BY 4.0
C. Chalmers, P.Fergus, S. Wich and S. N. Longmore(参考訳) 何世紀にもわたって、研究者は野生動物の監視と研究に音を使用しています。 伝統的に、保全主義者は種を耳で識別してきたが、現在では動物や生態系の音を監視するために音声記録技術を導入するのが一般的である。 動物は通信、交尾、航行、領土防衛に音を使う。 動物の音は貴重な情報を提供し、生物多様性の定量化に役立つ。 カメラトラップ、ポータブル音響センサー、受動的音響センサー、スマートフォンなど、多様なセンサータイプが利用可能になったことで、音響モニタリングの人気が高まっている。 受動的音響センサーは展開が容易で、環境や動物による音や違法な活動についての洞察を提供するため、長時間走行することができる。 この技術は大きなメリットをもたらしますが、生成されるデータ量によって、処理は保存主義者にとって時間がかかります。 その結果,生物多様性評価の迅速化を支援するために,音響データを自動処理することに関心がある。 これらの大きなデータソースを処理し、バックグラウンドノイズから関連する音を抽出することは、大きな課題です。 本稿では,機械学習の最先端技術を用いて,時系列音声信号から特徴を自動的に抽出し,深層学習モデルをモデル化し,音に基づいて異なる鳥種を分類する手法について概説する。 獲得した鳥の歌はメル周波数ケプストラム(mfc)を用いて処理され、後に多層パーセプトロン(mlp)によって分類される特徴を抽出する。 提案手法は感度0.74,特異度0.92,精度0.74で有望な結果を得た。

For centuries researchers have used sound to monitor and study wildlife. Traditionally, conservationists have identified species by ear; however, it is now common to deploy audio recording technology to monitor animal and ecosystem sounds. Animals use sound for communication, mating, navigation and territorial defence. Animal sounds provide valuable information and help conservationists to quantify biodiversity. Acoustic monitoring has grown in popularity due to the availability of diverse sensor types which include camera traps, portable acoustic sensors, passive acoustic sensors, and even smartphones. Passive acoustic sensors are easy to deploy and can be left running for long durations to provide insights on habitat and the sounds made by animals and illegal activity. While this technology brings enormous benefits, the amount of data that is generated makes processing a time-consuming process for conservationists. Consequently, there is interest among conservationists to automatically process acoustic data to help speed up biodiversity assessments. Processing these large data sources and extracting relevant sounds from background noise introduces significant challenges. In this paper we outline an approach for achieving this using state of the art in machine learning to automatically extract features from time-series audio signals and modelling deep learning models to classify different bird species based on the sounds they make. The acquired bird songs are processed using mel-frequency cepstrum (MFC) to extract features which are later classified using a multilayer perceptron (MLP). Our proposed method achieved promising results with 0.74 sensitivity, 0.92 specificity and an accuracy of 0.74.
翻訳日:2021-03-15 16:42:54 公開日:2021-03-12
# (参考訳) Word Mover 距離を用いたテキストの可読性評価のための簡単な後処理手法 [全文訳有]

A Simple Post-Processing Technique for Improving Readability Assessment of Texts using Word Mover's Distance ( http://arxiv.org/abs/2103.07277v1 )

ライセンス: CC BY 4.0
Joseph Marvin Imperial, Ethel Ong(参考訳) 資料やテキスト全般の適切な難易度を評価することは、効果的な理解と学習への第一歩である。 本研究では,分類されたテキストの単語移動距離(wmd)を,モデルによる難易度レベルをさらに高めるために追加後処理手法として組み込むことにより,従来の可読性評価手法を改善する。 フィリピン, ドイツ語, 英語の3つの多言語データセットに対する実験の結果, ポストプロセッシング手法は, SVMを用いた以前のバニラモデルやランキングベースモデルよりも優れていることが示された。

Assessing the proper difficulty levels of reading materials or texts in general is the first step towards effective comprehension and learning. In this study, we improve the conventional methodology of automatic readability assessment by incorporating the Word Mover's Distance (WMD) of ranked texts as an additional post-processing technique to further ground the difficulty level given by a model. Results of our experiments on three multilingual datasets in Filipino, German, and English show that the post-processing technique outperforms previous vanilla and ranking-based models using SVM.
翻訳日:2021-03-15 16:33:47 公開日:2021-03-12
# (参考訳) 生成による検索:アーキテクチャジェネレータによる柔軟で効率的なワンショットNAS [全文訳有]

Searching by Generating: Flexible and Efficient One-Shot NAS with Architecture Generator ( http://arxiv.org/abs/2103.07289v1 )

ライセンス: CC BY 4.0
Sian-Yao Huang and Wei-Ta Chu(参考訳) ワンショットNASでは、異なるハードウェア制約を満たすために、サブネットワークをスーパーネットから検索する必要がある。 しかし、検索コストは高く、N$の異なる制約に対して、検索回数は$N$である。 本研究では,検索処理をより効率的かつ柔軟にするために,サブネットワークを生成させることで検索するアーキテクチャジェネレータと呼ばれる新しい検索戦略を提案する。 訓練されたアーキテクチャジェネレーターにより、ターゲットハードウェアの制約を入力として、$N$の優れたアーキテクチャは、再検索とスーパーネットの再トレーニングなしで1つのフォワードパスで$N$の制約で生成できます。 さらに,新たなシングルパススーパーネットであるUnified Supernetを提案し,検索効率の向上とアーキテクチャジェネレータのGPUメモリ消費の削減を図る。 アーキテクチャジェネレータと統一スーパーネットにより、柔軟で効率的なNASフレームワークであるSearching by Generating NAS(SGNAS)を提案します。 事前訓練されたスーパーントでは、ハードウェアの制約が異なる$ N$のSGNASの検索時間はわずか5 GPU時間であり、従来のSOTAシングルパスメソッドよりも4N$の速度です。 スクラッチからトレーニングした後、ImageNet上のSGNASのトップ1精度は77.1%であり、SOTAに匹敵する。 コードはhttps://github.com/e ric8607242/sgnas。

In one-shot NAS, sub-networks need to be searched from the supernet to meet different hardware constraints. However, the search cost is high and $N$ times of searches are needed for $N$ different constraints. In this work, we propose a novel search strategy called architecture generator to search sub-networks by generating them, so that the search process can be much more efficient and flexible. With the trained architecture generator, given target hardware constraints as the input, $N$ good architectures can be generated for $N$ constraints by just one forward pass without re-searching and supernet retraining. Moreover, we propose a novel single-path supernet, called unified supernet, to further improve search efficiency and reduce GPU memory consumption of the architecture generator. With the architecture generator and the unified supernet, we propose a flexible and efficient one-shot NAS framework, called Searching by Generating NAS (SGNAS). With the pre-trained supernt, the search time of SGNAS for $N$ different hardware constraints is only 5 GPU hours, which is $4N$ times faster than previous SOTA single-path methods. After training from scratch, the top1-accuracy of SGNAS on ImageNet is 77.1%, which is comparable with the SOTAs. The code is available at: https://github.com/e ric8607242/SGNAS.
翻訳日:2021-03-15 16:25:01 公開日:2021-03-12
# (参考訳) 逆グラフの解離 [全文訳有]

Adversarial Graph Disentanglement ( http://arxiv.org/abs/2103.07295v1 )

ライセンス: CC BY 4.0
Shuai Zheng, Zhenfeng Zhu, Zhizhe Liu, Shuiwang Ji, Yao Zhao(参考訳) 実世界グラフは複雑な位相構造を持ち、しばしば異なる潜在因子の相互作用によって形成される。 これらの潜在因子の分離は、グラフのノード表現の堅牢性と解釈性を効果的に改善することができる。 しかし、既存のほとんどの手法は、要因の絡み合いに起因するリンクの本質的な違いを考慮していない。 本稿では,不整合グラフ表現学習のためのadGCN(Adversarial Disentangled Graph Convolutional Network)を提案する。 特に、動的多成分畳み込み層は、ノード間のリンクを引き起こす潜在コンポーネントを推論することにより、マイクロ・ディエンタングル化を実現するように設計されている。 さらに, マイクロディスタングル化に基づいて, 成分分布の分離性を向上し, 成分間の相互依存を抑えるマクロディケンタングメント逆正則化器を提案する。 さらに,より不整合性のある表現とトポロジ構造を協調的に学習するために,グラフ構造の多様性保存ノードサンプリングに基づくプログレッシブリファインメントを提案する。 さまざまな実世界のグラフデータの実験結果は、ADGCNが現在利用可能な代替品よりも著しく有利なパフォーマンスを得ることを確認します。

A real-world graph has a complex topology structure, which is often formed by the interaction of different latent factors. Disentanglement of these latent factors can effectively improve the robustness and interpretability of node representation of the graph. However, most existing methods lack consideration of the intrinsic differences in links caused by factor entanglement. In this paper, we propose an Adversarial Disentangled Graph Convolutional Network (ADGCN) for disentangled graph representation learning. Specifically, a dynamic multi-component convolution layer is designed to achieve micro-disentanglemen t by inferring latent components that caused links between nodes. On the basis of micro-disentanglemen t, we further propose a macro-disentanglemen t adversarial regularizer that improves the separability between component distributions, thus restricting interdependence among components. Additionally, to learn collaboratively a better disentangled representation and topological structure, a diversity preserving node sampling-based progressive refinement of graph structure is proposed. The experimental results on various real-world graph data verify that our ADGCN obtains remarkably more favorable performance over currently available alternatives.
翻訳日:2021-03-15 16:06:23 公開日:2021-03-12
# (参考訳) Androidアプリケーションにおけるクロスボーダー個人データ転送に対するGDPRコンプライアンスアセスメントの自動化 [全文訳有]

Automating the GDPR Compliance Assessment for Cross-border Personal Data Transfers in Android Applications ( http://arxiv.org/abs/2103.07297v1 )

ライセンス: CC BY 4.0
Danny S. Guam\'an, Xavier Ferrer, Jose M. del Alamo, Jose Such(参考訳) 一般データ保護規則(GDPR)は、すべての個人データ処理活動がEU(EU)市民にとって公正で透明性のあるものであることを保証することを目的としています。 この目的のために、EU外で個人データを転送するための厳格な要件を設定します。 しかし、こうした要件のチェックは、監視当局にとって、特にモバイルアプリドメインにおいて、膨大な数のアプリとその動的な性質のために、大変なタスクである。 本稿では,国境を越えた個人データ転送のためのGDPR要件でモバイルアプリのコンプライアンスを評価するための,完全に自動化された手法を提案する。 われわれはこの方法をGoogle Play Storeのトップフリー10,080アプリに適用した。 その結果、アプリプロバイダーとサードパーティの受信者が実際に何をしているのか、GDPRが意図しているのか、まだ非常に大きなギャップがあることが明らかになった。 分析対象アプリの56%は、GDPRのクロスボーダー転送要件に準拠していない可能性がある。

The General Data Protection Regulation (GDPR) aims to ensure that all personal data processing activities are fair and transparent for the European Union (EU) citizens, regardless of whether these are carried out within the EU or anywhere else. To this end, it sets strict requirements to transfer personal data outside the EU. However, checking these requirements is a daunting task for supervisory authorities, particularly in the mobile app domain due to the huge number of apps available and their dynamic nature. In this paper, we propose a fully automated method to assess the compliance of mobile apps with the GDPR requirements for cross-border personal data transfers. We have applied the method to the top-free 10,080 apps from the Google Play Store. The results reveal that there is still a very significant gap between what app providers and third-party recipients do in practice and what is intended by the GDPR. A substantial 56% of analysed apps are potentially non-compliant with the GDPR cross-border transfer requirements.
翻訳日:2021-03-15 15:46:36 公開日:2021-03-12
# (参考訳) 半群のためのニューラルネットワーク [全文訳有]

A Neural Network for Semigroups ( http://arxiv.org/abs/2103.07388v1 )

ライセンス: CC BY 4.0
Edouard Balzin, Boris Shminke(参考訳) コンピュータビジョンにおける画像再構築、レコメンダーシステムにおける行列補完、グラフ理論におけるリンク予測などのタスクは、機械学習文学においてよく研究されている。 本研究では,有限半群の部分乗算(cayley)テーブルを完備するタスクに,雑音化オートエンコーダに基づくニューラルネットワークアーキテクチャを適用する。 半群データの代数的性質に基づいて,そのタスクに対する新たな損失関数を提案する。 また,本研究で実施した実験と同じような実験を行うソフトウェアパッケージも提供する。 私たちの実験では、利用可能なデータの約10%しかなければ、全体のケイリーを約80%のケースで半分から再構築できるモデルを構築することが可能であることが示されました。

Tasks like image reconstruction in computer vision, matrix completion in recommender systems and link prediction in graph theory, are well studied in machine learning literature. In this work, we apply a denoising autoencoder-based neural network architecture to the task of completing partial multiplication (Cayley) tables of finite semigroups. We suggest a novel loss function for that task based on the algebraic nature of the semigroup data. We also provide a software package for conducting experiments similar to those carried out in this work. Our experiments showed that with only about 10% of the available data, it is possible to build a model capable of reconstructing a full Cayley from only half of it in about 80% of cases.
翻訳日:2021-03-15 15:17:13 公開日:2021-03-12
# (参考訳) 腫瘍野効果を特徴付けるr-depth (radiomic deformation and textural heterogeneity)ディスクリプタ:グリオブラスト腫における生存予測への応用 [全文訳有]

Radiomic Deformation and Textural Heterogeneity (R-DepTH) Descriptor to characterize Tumor Field Effect: Application to Survival Prediction in Glioblastoma ( http://arxiv.org/abs/2103.07423v1 )

ライセンス: CC BY 4.0
Marwa Ismail, Prateek Prasanna, Kaustav Bera, Volodymyr Statsevych, Virginia Hill, Gagandeep Singh, Sasan Partovi, Niha Beig, Sean McGarry, Peter Laviolette, Manmeet Ahluwalia, Anant Madabhushi, and Pallavi Tiwari(参考訳) 腫瘍野効果の概念は、がんが可視性腫瘍を超える影響を持つ全身疾患であることを意味する。 例えば、積極的な脳腫瘍であるGlioblastoma(GBM)では、腫瘍の負担による頭蓋内圧の増加は、しばしば脳のヘルニア化と貧弱な結果をもたらす。 本研究は,高侵襲性腫瘍が制御不能に増殖する傾向があるという理論的根拠に基づいて,正常頭葉における生体力学的組織の変化を識別し,mriスキャンで腫瘍の局所形態学的差異と組み合わせることで,腫瘍フィールド効果を包括的に把握する。 具体的には、統合MRIベースの記述子、放射線変形およびテクスチャ不均一性(r-DepTH)を提示する。 この記述子は、質量効果による周囲の正常発作全体の組織変形の微妙な摂動の測定を含む。 これは、異形登録を介してMRIスキャンを健康なアトラスに非厳格に整列させることを含む。 得られた逆写像は、通常のパレンキマにおける変形場の大きさを求めるために用いられる。 これらの測定は、3Dテクスチャ記述子(co-occurrence of Local Anisotropic Gradient Orientations (COLLAGE))と組み合わせられ、MRIスキャンで腫瘍の凹部における形態的不均一性を捉える。 R-DepTH, N = 207 GBM (トレーニングセット (St) = 128, テストセット (Sv) = 79) では, 患者を低生存(長期生存)群と高生存(St, p-value = 0.0000035, Svではp-value = 0.0024)群に分類し, 総合生存の予後を向上した。 R-DepTH記述子は、固形腫瘍における疾患のアグレッシブ性および生存の包括的なMRIベースの予後マーカーとして役立つ。

The concept of tumor field effect implies that cancer is a systemic disease with its impact way beyond the visible tumor confines. For instance, in Glioblastoma (GBM), an aggressive brain tumor, the increase in intracranial pressure due to tumor burden often leads to brain herniation and poor outcomes. Our work is based on the rationale that highly aggressive tumors tend to grow uncontrollably, leading to pronounced biomechanical tissue deformations in the normal parenchyma, which when combined with local morphological differences in the tumor confines on MRI scans, will comprehensively capture tumor field effect. Specifically, we present an integrated MRI-based descriptor, radiomic-Deformation and Textural Heterogeneity (r-DepTH). This descriptor comprises measurements of the subtle perturbations in tissue deformations throughout the surrounding normal parenchyma due to mass effect. This involves non-rigidly aligning the patients MRI scans to a healthy atlas via diffeomorphic registration. The resulting inverse mapping is used to obtain the deformation field magnitudes in the normal parenchyma. These measurements are then combined with a 3D texture descriptor, Co-occurrence of Local Anisotropic Gradient Orientations (COLLAGE), which captures the morphological heterogeneity within the tumor confines, on MRI scans. R-DepTH, on N = 207 GBM cases (training set (St) = 128, testing set (Sv) = 79), demonstrated improved prognosis of overall survival by categorizing patients into low- (prolonged survival) and high-risk (poor survival) groups (on St, p-value = 0.0000035, and on Sv, p-value = 0.0024). R-DepTH descriptor may serve as a comprehensive MRI-based prognostic marker of disease aggressiveness and survival in solid tumors.
翻訳日:2021-03-15 15:06:40 公開日:2021-03-12
# (参考訳) トップファンイン2を用いた深度3回路の高効率再構成

Efficient reconstruction of depth three circuits with top fan-in two ( http://arxiv.org/abs/2103.07445v1 )

ライセンス: CC BY 4.0
Gaurav Sinha(参考訳) 我々は,有限体上の多項式のブラックボックス再構成問題を,入出力ゲートが2次加算ゲートであるような加算/乗算ゲートを交互に有する深さ3個の演算回路で計算できる効率的なランダム化アルゴリズムを開発した。 これらの回路は $G\times(T_1 + T_2)$ の多項式を計算し、$G,T_1,T_2$ はアフィン形式の積であり、多項式 $T_1,T_2$ は共通の因子を持たない。 このような回路のランクは、$T_1$ と $T_2$ のすべてのアフィン因子によってまたがるベクトル空間の次元として定義される。 そのような回路で計算可能な多項式 $f$ に対して、$rank(f)$ はそのような回路の最小ランクとして定義される。 このような回路で計算可能な多項式$f$(有限フィールド$\mathbb{F}$)への入力ブラックボックスアクセスを行うランダム化再構成アルゴリズムを開発した。 以下は結果です。 1 [低ランク]: 5\leq rank(f) = o(\log^3d)$ の場合、時刻 $(nd^{\log^3d}\log |\mathbb{f}|)^{o(1)}$ で動作し、高い確率で深さ 3 の回路を f$ で計算し、最上位の加算ゲートは $\leq d^{rank(f)}$ となる。 2 [high rank]: $rank(f) = \omega(\log^3 d)$ の場合、時刻$(nd\log |\mathbb{f}|)^{o(1)}$ で動作し、高い確率で深さ3の回路をf$で計算し、最上位の加算ゲートは2度である。 この回路クラスに対する最初のブラックボックス再構成アルゴリズムであり、$\log |\mathbb{F}|$ の時間多項式で実行される。 この問題は[GKL12](STOC 2012)のオープンな問題として言及されています。

We develop efficient randomized algorithms to solve the black-box reconstruction problem for polynomials over finite fields, computable by depth three arithmetic circuits with alternating addition/multiplicat ion gates, such that output gate is an addition gate with in-degree two. These circuits compute polynomials of form $G\times(T_1 + T_2)$, where $G,T_1,T_2$ are product of affine forms, and polynomials $T_1,T_2$ have no common factors. Rank of such a circuit is defined as dimension of vector space spanned by all affine factors of $T_1$ and $T_2$. For any polynomial $f$ computable by such a circuit, $rank(f)$ is defined to be the minimum rank of any such circuit computing it. Our work develops randomized reconstruction algorithms which take as input black-box access to a polynomial $f$ (over finite field $\mathbb{F}$), computable by such a circuit. Here are the results. 1 [Low rank]: When $5\leq rank(f) = O(\log^3 d)$, it runs in time $(nd^{\log^3d}\log |\mathbb{F}|)^{O(1)}$, and, with high probability, outputs a depth three circuit computing $f$, with top addition gate having in-degree $\leq d^{rank(f)}$. 2 [High rank]: When $rank(f) = \Omega(\log^3 d)$, it runs in time $(nd\log |\mathbb{F}|)^{O(1)}$, and, with high probability, outputs a depth three circuit computing $f$, with top addition gate having in-degree two. Ours is the first blackbox reconstruction algorithm for this circuit class, that runs in time polynomial in $\log |\mathbb{F}|$. This problem has been mentioned as an open problem in [GKL12] (STOC 2012)
翻訳日:2021-03-15 14:35:57 公開日:2021-03-12
# (参考訳) Zero-Shot Machine Reading Comprehensionの協調学習 [全文訳有]

Cooperative Learning of Zero-Shot Machine Reading Comprehension ( http://arxiv.org/abs/2103.07449v1 )

ライセンス: CC BY 4.0
Hongyin Luo, Seunghak Yu, James Glass(参考訳) 事前学習された言語モデルは、高品質のコンテキスト化された単語埋め込みを提供することで、抽出的質問応答などの下流タスクのパフォーマンスを大幅に向上させた。 しかし、質問応答モデルの学習には、特定の領域で大規模なデータアノテーションが必要である。 本研究では,質問生成と回答のための協調型自己学習モデルを提案する。 質問生成器と質問抽出器を含む対話型学習環境を備えたマスク付き回答エンティティ抽出タスクを実装した。 マスクを持つ通路を与えられた場合、質問生成器はマスクされた実体について質問する一方、抽出器は生成された質問と生のテキストでマスクされた実体を取り出すように訓練される。 この戦略により、注釈なしで任意のテキストコーポラの質問生成と回答モデルをトレーニングできます。 そこで本研究では,質問応答モデルの性能向上を図るために,生成した質問に報酬を与える強化学習手法を提案する。 実験結果から,本モデルは標準質問応答ベンチマークにおいて最先端言語モデルよりも優れており,ゼロショット学習環境下では最先端言語性能に到達した。

Pretrained language models have significantly improved the performance of down-stream tasks, for example extractive question answering, by providing high-quality contextualized word embeddings. However, learning question answering models still need large-scale data annotation in specific domains. In this work, we propose a cooperative, self-play learning model for question generation and answering. We implemented a masked answer entity extraction task with an interactive learning environment, containing a question generator and a question extractor. Given a passage with a mask, a question generator asks a question about the masked entity, meanwhile the extractor is trained to extract the masked entity with the generated question and raw texts. With this strategy, we can train question generation and answering models on any textual corpora without annotation. To further improve the performances of the question answering model, we propose a reinforcement learning method that rewards generated questions that improves the extraction learning. Experimental results showed that our model outperforms the state-of-the-art pretrained language models on standard question answering benchmarks, and reaches the state-of-the-art performance under the zero-shot learning setting.
翻訳日:2021-03-15 14:34:22 公開日:2021-03-12
# (参考訳) 関数型データ解析のための機械学習支援直交ベース選択 [全文訳有]

Machine Learning Assisted Orthonormal Basis Selection for Functional Data Analysis ( http://arxiv.org/abs/2103.07453v1 )

ライセンス: CC BY 4.0
Rani Basna, Hiba Nassar and Krzysztof Podg\'orski(参考訳) 関数型データメソッドの実装において、直交基底の初期の選択の効果は過去にはあまり注目されていない。 通常、フーリエ、ウェーブレット、スプラインなどいくつかの標準ベースがある。 観測された関数データを変換すると考えられており、データの関数への初期変換にどれが好ましいかを示す公式な基準なしで選択される。 そこで本研究では, 直交基底選択の厳密なデータ駆動手法を提案する。 b-スプラインの効率的な直交化により得られたスプラインと呼ばれる直交スプラインベースを用いる。 このアルゴリズムは機械学習スタイルのデータから学習し、効率的に結び目を配置する。 最適性基準は平均(機能的データ点あたり)二乗誤差に基づいており、学習アルゴリズムと比較研究の両方で利用されている。 後者は、疎関数的データに対して特に明らかな効率を示し、複雑な物理系に対する応答の分析において少ない程度を示す。

In implementations of the functional data methods, the effect of the initial choice of an orthonormal basis has not gained much attention in the past. Typically, several standard bases such as Fourier, wavelets, splines, etc. are considered to transform observed functional data and a choice is made without any formal criteria indicating which of the bases is preferable for the initial transformation of the data into functions. In an attempt to address this issue, we propose a strictly data-driven method of orthogonal basis selection. The method uses recently introduced orthogonal spline bases called the splinets obtained by efficient orthogonalization of the B-splines. The algorithm learns from the data in the machine learning style to efficiently place knots. The optimality criterion is based on the average (per functional data point) mean square error and is utilized both in the learning algorithms and in comparison studies. The latter indicates efficiency that is particularly evident for the sparse functional data and to a lesser degree in analyses of responses to complex physical systems.
翻訳日:2021-03-15 14:10:45 公開日:2021-03-12
# 深層強化学習における多様なソリューションの発見

Discovering Diverse Solutions in Deep Reinforcement Learning ( http://arxiv.org/abs/2103.07084v1 )

ライセンス: Link先を確認
Takayuki Osa, Voot Tangkaratt and Masashi Sugiyama(参考訳) 強化学習(rl)アルゴリズムは通常、特定のタスクに対する多様なソリューションが存在する場合が多いが、特定のタスクの単一のソリューションを学ぶことに限定される。 単一のソリューションを学習することに比べ、多様なソリューションのセットを学習することは有益である。 従来の研究では、潜伏変数に条件付きポリシーで多様な挙動をモデル化できることが示されているが、連続潜伏変数を持つ無限の多様な解をモデル化するためのアプローチは研究されていない。 本研究では,連続的あるいは離散的低次元潜在変数に基づくポリシー条件を訓練することにより無限に多くの解を学習できるrl法を提案する。 連続的な制御タスクを通じて,本手法がデータ効率のよい方法で多様な解を学習し,その解を無意味な課題の解決に使用できることを実証する。

Reinforcement learning (RL) algorithms are typically limited to learning a single solution of a specified task, even though there often exists diverse solutions to a given task. Compared with learning a single solution, learning a set of diverse solutions is beneficial because diverse solutions enable robust few-shot adaptation and allow the user to select a preferred solution. Although previous studies have showed that diverse behaviors can be modeled with a policy conditioned on latent variables, an approach for modeling an infinite set of diverse solutions with continuous latent variables has not been investigated. In this study, we propose an RL method that can learn infinitely many solutions by training a policy conditioned on a continuous or discrete low-dimensional latent variable. Through continuous control tasks, we demonstrate that our method can learn diverse solutions in a data-efficient manner and that the solutions can be used for few-shot adaptation to solve unseen tasks.
翻訳日:2021-03-15 13:33:48 公開日:2021-03-12
# 深部強化学習のための大規模バッチシミュレーション

Large Batch Simulation for Deep Reinforcement Learning ( http://arxiv.org/abs/2103.07013v1 )

ライセンス: Link先を確認
Brennan Shacklett, Erik Wijmans, Aleksei Petrenko, Manolis Savva, Dhruv Batra, Vladlen Koltun, Kayvon Fatahalian(参考訳) 我々は,視覚複雑な3d環境における深層強化学習に基づくトレーニングを,事前作業よりも2桁高速化し,単一のgpu上で19,000フレーム/秒,最大72,000フレーム/秒というエンドツーエンドのトレーニング速度を実現する。 このアプローチの鍵となる考え方は、"バッチシミュレーション"の原則に基づいて、3Dレンダラーと具体化されたナビゲーションシミュレータを設計することである。 バッチシミュレーションは、大量の作業を一度に公開するだけでなく、シーンアセットのインメモリストレージ、レンダリング作業、データローディング、同期コストを多くのシミュレーションリクエストで改善し、GPU当たりのシミュレーションエージェントの数と全体的なシミュレーションスループットを大幅に改善する。 DNN推論とトレーニングコストを高速なシミュレーションとバランスをとるために,タスク性能を向上する計算効率の高いポリシDNNを構築し,大規模なミニバッチでトレーニングする際のサンプル効率を維持するためのトレーニングアルゴリズムを修正した。 バッチシミュレーションとDNN性能最適化を組み合わせることで、ポイントゴールナビゲーションエージェントを1つのGPU上の複雑な3D環境で1.5日以内から97%の精度で3日間にわたって64-GPUクラスタを使用してトレーニングできることを示した。 バッチ3Dレンダラとシミュレータのオープンソースリファレンス実装を提供し、これらのアイデアをRLシステムに組み込むのを容易にする。

We accelerate deep reinforcement learning-based training in visually complex 3D environments by two orders of magnitude over prior work, realizing end-to-end training speeds of over 19,000 frames of experience per second on a single GPU and up to 72,000 frames per second on a single eight-GPU machine. The key idea of our approach is to design a 3D renderer and embodied navigation simulator around the principle of "batch simulation": accepting and executing large batches of requests simultaneously. Beyond exposing large amounts of work at once, batch simulation allows implementations to amortize in-memory storage of scene assets, rendering work, data loading, and synchronization costs across many simulation requests, dramatically improving the number of simulated agents per GPU and overall simulation throughput. To balance DNN inference and training costs with faster simulation, we also build a computationally efficient policy DNN that maintains high task performance, and modify training algorithms to maintain sample efficiency when training with large mini-batches. By combining batch simulation and DNN performance optimizations, we demonstrate that PointGoal navigation agents can be trained in complex 3D environments on a single GPU in 1.5 days to 97% of the accuracy of agents trained on a prior state-of-the-art system using a 64-GPU cluster over three days. We provide open-source reference implementations of our batch 3D renderer and simulator to facilitate incorporation of these ideas into RL systems.
翻訳日:2021-03-15 13:33:33 公開日:2021-03-12
# 逆学習特徴のゲーム理論的理解

Game-theoretic Understanding of Adversarially Learned Features ( http://arxiv.org/abs/2103.07364v1 )

ライセンス: Link先を確認
Jie Ren, Die Zhang, Yisen Wang, Lu Chen, Zhanpeng Zhou, Xu Cheng, Xin Wang, Yiting Chen, Jie Shi, Quanshi Zhang(参考訳) 本論文は,DNNの信号処理挙動という,新たな種別からの敵対攻撃と防御を理解することを目的とする。 6つの性質を満たすゲーム理論における多階相互作用を新たに定義する。 マルチオーダーの相互作用では、敵対攻撃がDNNをだますために高階の相互作用に主に影響することを発見します。 さらに、敵対的に訓練されたDNNのロバスト性は、カテゴリー固有の低次相互作用によってもたらされる。 本研究は,敵意学習機能の形状バイアスに対する事前理解のさらなる考察と修正を行う。 さらに、多階相互作用は逆例の回復可能性も説明できる。

This paper aims to understand adversarial attacks and defense from a new perspecitve, i.e., the signal-processing behavior of DNNs. We novelly define the multi-order interaction in game theory, which satisfies six properties. With the multi-order interaction, we discover that adversarial attacks mainly affect high-order interactions to fool the DNN. Furthermore, we find that the robustness of adversarially trained DNNs comes from category-specific low-order interactions. Our findings provide more insights into and make a revision of previous understanding for the shape bias of adversarially learned features. Besides, the multi-order interaction can also explain the recoverability of adversarial examples.
翻訳日:2021-03-15 13:33:10 公開日:2021-03-12
# 精神状態遷移と人的有用性を持つ社会知的なエージェントを目指して

Towards Socially Intelligent Agents with Mental State Transition and Human Utility ( http://arxiv.org/abs/2103.07011v1 )

ライセンス: Link先を確認
Liang Qiu, Yizhou Zhao, Yuan Liang, Pan Lu, Weiyan Shi, Zhou Yu, Song-Chun Zhu(参考訳) 社会的にインテリジェントなエージェントの構築には多くの課題があり、その1つはエージェントの精神状態遷移を追跡し、エージェントに人間のようにそのユーティリティによって導かれる合理的な決定をするように教えることです。 そのために,対話エージェントに精神状態解析と実用性モデルを取り入れることを提案する。 複合精神状態解析装置は、対話とイベントの両方から情報を抽出し、エージェントの心のグラフィカルな表現を維持する。一方、ユーティリティモデルは、クラウドソースのソーシャルコモンセンスデータセットであるSocial IQAから人間の嗜好を学習するランキングモデルである。 実験結果から,提案手法は,ファンタジーテキストアドベンチャーゲームデータセットLIGHTにおける対話/行動/感情予測タスクにおいて,最先端のパフォーマンスを実現することを示す。 また,次の例を示す: (\textit{i}) 提案するメンタルステートパーサが,位置やオブジェクトなどのコンテキストを基盤としてエージェントの判断を支援する方法,および (\textit{ii}) ユーティリティモデルがエージェントがジレンマの中で合理的な決定を行うのにどのように役立つかを示す。 我々の知る限りでは、我々は、離散的なイベントと連続的な対話解析と人間のようなユーティリティモデリングの両方に、ハイブリッドなメンタルステートパーサーを組み込むことで、社会的にインテリジェントなエージェントを構築する最初の作品です。

Building a socially intelligent agent involves many challenges, one of which is to track the agent's mental state transition and teach the agent to make rational decisions guided by its utility like a human. Towards this end, we propose to incorporate a mental state parser and utility model into dialogue agents. The hybrid mental state parser extracts information from both the dialogue and event observations and maintains a graphical representation of the agent's mind; Meanwhile, the utility model is a ranking model that learns human preferences from a crowd-sourced social commonsense dataset, Social IQA. Empirical results show that the proposed model attains state-of-the-art performance on the dialogue/action/emot ion prediction task in the fantasy text-adventure game dataset, LIGHT. We also show example cases to demonstrate: (\textit{i}) how the proposed mental state parser can assist agent's decision by grounding on the context like locations and objects, and (\textit{ii}) how the utility model can help the agent make reasonable decisions in a dilemma. To the best of our knowledge, we are the first work that builds a socially intelligent agent by incorporating a hybrid mental state parser for both discrete events and continuous dialogues parsing and human-like utility modeling.
翻訳日:2021-03-15 13:33:00 公開日:2021-03-12
# 動的ネットワークにおける予測課題に対するDynACPD埋め込みアルゴリズム

DynACPD Embedding Algorithm for Prediction Tasks in Dynamic Networks ( http://arxiv.org/abs/2103.07080v1 )

ライセンス: Link先を確認
Chris Connell and Yang Wang(参考訳) 古典的なネットワーク埋め込みは、ノード間の特徴間の学習された関係を低次元で表現する。 このような埋め込みは、リンク予測やノード分類などのタスクに重要です。 本稿では,ノード間の時間的および空間的リンク関係が存在する時間変化ネットワーク群である動的ネットワークの低次元埋め込みについて考察する。 本稿では,動的ネットワークのテンソル表現に対する高次テンソル分解に基づく動的ネットワークに対する新しい埋め込み手法を提案する。 ある意味では、我々の埋め込みは静的ネットワークのスペクトル埋め込みメソッドに似ている。 我々は、アルゴリズムの有効性の潜在的な理由を数学的に解析することで、アルゴリズムの理論的根拠を提供する。 最後に、リンク予測タスクにおけるアルゴリズムの性能を、3つの異なる実世界の動的ネットワークにわたる現在のベースライン手法の配列と比較することにより、我々のアプローチのパワーと効率を実証する。

Classical network embeddings create a low dimensional representation of the learned relationships between features across nodes. Such embeddings are important for tasks such as link prediction and node classification. In the current paper, we consider low dimensional embeddings of dynamic networks, that is a family of time varying networks where there exist both temporal and spatial link relationships between nodes. We present novel embedding methods for a dynamic network based on higher order tensor decompositions for tensorial representations of the dynamic network. In one sense, our embeddings are analogous to spectral embedding methods for static networks. We provide a rationale for our algorithms via a mathematical analysis of some potential reasons for their effectiveness. Finally, we demonstrate the power and efficiency of our approach by comparing our algorithms' performance on the link prediction task against an array of current baseline methods across three distinct real-world dynamic networks.
翻訳日:2021-03-15 13:32:36 公開日:2021-03-12
# モバイルエッジコンピューティングシステムにおけるオークションに基づくクラスタ化フェデレーション学習

Auction Based Clustered Federated Learning in Mobile Edge Computing System ( http://arxiv.org/abs/2103.07150v1 )

ライセンス: Link先を確認
Renhao Lu, Weizhe Zhang, Qiong Li, Xiaoxiong Zhong and Athanasios V. Vasilakos(参考訳) 近年、モバイルクライアントのコンピューティング能力とストレージ容量は大幅に改善され、ローカルでいくつかのアプリケーションを効率的に処理している。 Federated Learningは、ローカルコンピューティングとローカルデータを使用して人工知能(AI)モデルをトレーニングする有望な分散機械学習ソリューションです。 ローカルコンピューティングとフェデレーション学習を組み合わせることで、モバイルクライアントのリソースをフル活用しながら、ローカルデータのプライバシを保証するという前提の下で、強力なAIモデルをトレーニングすることができる。 しかし、ローカルデータの不均一性、すなわち非独立で同一の分布(非IID)とローカルデータサイズの不均衡は、モバイルエッジコンピューティング(MEC)システムにおけるフェデレーションラーニングの適用を妨げるボトルネックをもたらす可能性がある。 そこで本稿では,その影響を相殺するために,グローバル分布を満足するフェデレーション仮想データセットを生成するクラスタベースのクライアント選択手法を提案し,提案手法が近似最適解に収束できることを検証した。 クラスタリング手法に基づいて,各クラスタ内のオークションベースのクライアント選択方式を提案し,システムのエネルギー不均一性を十分に考慮し,エネルギー消費の均衡と収束率の向上を図り,提案手法のナッシュ平衡解を与える。 シミュレーションの結果,提案手法とオークションベースの連合学習により,異なるデータ分布下での畳み込みニューラルネットワークモデル(cnn)により,よりよい性能が得られることがわかった。

In recent years, mobile clients' computing ability and storage capacity have greatly improved, efficiently dealing with some applications locally. Federated learning is a promising distributed machine learning solution that uses local computing and local data to train the Artificial Intelligence (AI) model. Combining local computing and federated learning can train a powerful AI model under the premise of ensuring local data privacy while making full use of mobile clients' resources. However, the heterogeneity of local data, that is, Non-independent and identical distribution (Non-IID) and imbalance of local data size, may bring a bottleneck hindering the application of federated learning in mobile edge computing (MEC) system. Inspired by this, we propose a cluster-based clients selection method that can generate a federated virtual dataset that satisfies the global distribution to offset the impact of data heterogeneity and proved that the proposed scheme could converge to an approximate optimal solution. Based on the clustering method, we propose an auction-based clients selection scheme within each cluster that fully considers the system's energy heterogeneity and gives the Nash equilibrium solution of the proposed scheme for balance the energy consumption and improving the convergence rate. The simulation results show that our proposed selection methods and auction-based federated learning can achieve better performance with the Convolutional Neural Network model (CNN) under different data distributions.
翻訳日:2021-03-15 13:32:26 公開日:2021-03-12
# 6Gの対比機械学習セキュリティ問題:mm波ビーム予測利用ケース

Adversarial Machine Learning Security Problems for 6G: mmWave Beam Prediction Use-Case ( http://arxiv.org/abs/2103.07268v1 )

ライセンス: Link先を確認
Evren Catak, Ferhat Ozgur Catak, Arild Moldsvor(参考訳) 6Gは次世代の通信システムである。 近年、機械学習アルゴリズムは、健康、交通、自動運転車など、さまざまな分野で広く適用されています。 予測アルゴリズムは6G問題で使用されます。 深層学習技術の急速な発展に伴い,セキュリティ上の懸念を考慮に入れてアルゴリズムを適用することが重要である。 機械学習は6Gに大きな利点をもたらすが、AIモデルのセキュリティは無視される。 現実世界には多くのアプリケーションがあるので、セキュリティはアルゴリズムの重要な部分です。 本稿では,ミリ波(mmwave)ビーム予測のための6g機械学習モデルに対する,逆学習による逆攻撃の軽減法を提案する。 機械学習モデルに対する敵対的な攻撃の背後にある主なアイデアは、mmWaveビーム予測ユースケース用の6Gアプリケーション用の訓練されたディープラーニングモデルを操作することによって、欠陥のある結果を生成することです。 また,高速な勾配符号法攻撃を伴うミリ波ビーム予測アプリケーションにおいて,6gセキュリティのための逆学習緩和法の性能を示す。 防御モデルと無防御モデルの平均二乗誤差は非常に近いです。

6G is the next generation for the communication systems. In recent years, machine learning algorithms have been applied widely in various fields such as health, transportation, and the autonomous car. The predictive algorithms will be used in 6G problems. With the rapid developments of deep learning techniques, it is critical to take the security concern into account to apply the algorithms. While machine learning offers significant advantages for 6G, AI models' security is ignored. Since it has many applications in the real world, security is a vital part of the algorithms. This paper has proposed a mitigation method for adversarial attacks against proposed 6G machine learning models for the millimeter-wave (mmWave) beam prediction with adversarial learning. The main idea behind adversarial attacks against machine learning models is to produce faulty results by manipulating trained deep learning models for 6G applications for mmWave beam prediction use case. We have also presented the adversarial learning mitigation method's performance for 6G security in millimeter-wave beam prediction application with fast gradient sign method attack. The mean square errors of the defended model and undefended model are very close.
翻訳日:2021-03-15 13:32:05 公開日:2021-03-12
# 高精度低ビットニューラルネットワークのための学習型複合量子化

Learnable Companding Quantization for Accurate Low-bit Neural Networks ( http://arxiv.org/abs/2103.07156v1 )

ライセンス: Link先を確認
Kohei Yamamoto(参考訳) ディープニューラルネットワークの定量化は、メモリ消費の削減と推論速度の向上に有効な手法であり、リソース制約のあるデバイスの実装に有用である。 しかし、超低ビットモデルがフル精度モデルと同等の精度を達成することは依然として困難です。 そこで本研究では,2ビット,3ビット,4ビットモデルの非一様量子化手法として,LCQ(Learable Companding Quantization)を提案する。 LCQは、重みとアクティベーションの量子化レベルを柔軟かつ不均一に制御できるモデルウェイトと学習可能なコンパイル関数を共同で最適化する。 また,より安定した量子化訓練を可能にする新しい重み正規化手法を提案する。 実験の結果,LCQは従来の最先端手法よりも優れており,画像分類と物体検出タスクにおける定量化モデルと完全精度モデルとのギャップを狭めることがわかった。 特にImageNetの2ビットResNet-50モデルは、トップ1の精度75.1%を達成し、ギャップを1.7%に削減し、LCQは非均一量子化の可能性をさらに活用することができます。

Quantizing deep neural networks is an effective method for reducing memory consumption and improving inference speed, and is thus useful for implementation in resource-constrained devices. However, it is still hard for extremely low-bit models to achieve accuracy comparable with that of full-precision models. To address this issue, we propose learnable companding quantization (LCQ) as a novel non-uniform quantization method for 2-, 3-, and 4-bit models. LCQ jointly optimizes model weights and learnable companding functions that can flexibly and non-uniformly control the quantization levels of weights and activations. We also present a new weight normalization technique that allows more stable training for quantization. Experimental results show that LCQ outperforms conventional state-of-the-art methods and narrows the gap between quantized and full-precision models for image classification and object detection tasks. Notably, the 2-bit ResNet-50 model on ImageNet achieves top-1 accuracy of 75.1% and reduces the gap to 1.7%, allowing LCQ to further exploit the potential of non-uniform quantization.
翻訳日:2021-03-15 13:31:37 公開日:2021-03-12
# 人工知能とタイムラプス画像シーケンスに基づくロバストかつ一般化可能な胚選択

Robust and generalizable embryo selection based on artificial intelligence and time-lapse image sequences ( http://arxiv.org/abs/2103.07262v1 )

ライセンス: Link先を確認
J{\o}rgen Berntsen, Jens Rimestad, Jacob Theilgaard Lassen, Dang Tran, Mikkel Fly Kragh(参考訳) 移植に最も有効な胚の評価と選択は、in vitro fertilization (ivf) の重要な部分である。 近年,ai(artificial intelligence)とディープラーニング(deep learning)を用いて,手順の改善と自動化を行う手法がいくつか提案されている。 既知の移植データ(kid)を持つ胚の画像に基づいて、aiモデルは移植成功の確率に関連する胚を自動的にスコア付けするように訓練されている。 しかし、現在、新しい診療所への胚選抜モデルの適用方法や、様々な条件におけるサブグループ分析の実施方法を評価するための限定的な研究が実施されているのみである。 本稿では, 経時的画像列のみを用いた深層学習に基づく胚選択モデルが, 患者年齢や臨床状況によってどのように機能するか, 従来の形態動態パラメータとどのように相関するかを検討する。 このモデルは、115,832個の胚からなる18のIVFセンターからの大規模なデータセットに基づいて訓練および評価され、14,644個の胚がKID胚に転送された。 独立したテストセットでは、AIモデルは、0.67の受信機動作特性曲線の曲線下の領域(AUC)と、AUCの0.95のすべての胚のKID胚をソートした。 クリニックホールドアウトテストでは、KID胚に対するAUC範囲0.60-0.75の新しいクリニックに一般化された。 年齢、授精方法、インキュベーション時間、転送プロトコルの異なるサブグループで、AUCは0.63から0.69の範囲であった。 さらに, モデル予測はブラストシストグレーディングと正の相関を示し, 直接切断と負の相関を示した。 完全自動化されたiDAScore v1.0モデルは、少なくとも最先端の手動胚選択モデルと同じくらいの性能を示した。 さらに、胚スコアリングのフルオートマチック化は、手動評価を少なくし、サーバー間およびサーバー内変動によるバイアスを排除します。

Assessing and selecting the most viable embryos for transfer is an essential part of in vitro fertilization (IVF). In recent years, several approaches have been made to improve and automate the procedure using artificial intelligence (AI) and deep learning. Based on images of embryos with known implantation data (KID), AI models have been trained to automatically score embryos related to their chance of achieving a successful implantation. However, as of now, only limited research has been conducted to evaluate how embryo selection models generalize to new clinics and how they perform in subgroup analyses across various conditions. In this paper, we investigate how a deep learning-based embryo selection model using only time-lapse image sequences performs across different patient ages and clinical conditions, and how it correlates with traditional morphokinetic parameters. The model was trained and evaluated based on a large dataset from 18 IVF centers consisting of 115,832 embryos, of which 14,644 embryos were transferred KID embryos. In an independent test set, the AI model sorted KID embryos with an area under the curve (AUC) of a receiver operating characteristic curve of 0.67 and all embryos with an AUC of 0.95. A clinic hold-out test showed that the model generalized to new clinics with an AUC range of 0.60-0.75 for KID embryos. Across different subgroups of age, insemination method, incubation time, and transfer protocol, the AUC ranged between 0.63 and 0.69. Furthermore, model predictions correlated positively with blastocyst grading and negatively with direct cleavages. The fully automated iDAScore v1.0 model was shown to perform at least as good as a state-of-the-art manual embryo selection model. Moreover, full automatization of embryo scoring implies fewer manual evaluations and eliminates biases due to inter- and intraobserver variation.
翻訳日:2021-03-15 13:31:18 公開日:2021-03-12
# VDSM: 状態空間モデリングとエキスパートの深層混合による教師なしビデオディスタングル

VDSM: Unsupervised Video Disentanglement with State-Space Modeling and Deep Mixtures of Experts ( http://arxiv.org/abs/2103.07292v1 )

ライセンス: Link先を確認
Matthew J. Vowels, Necati Cihan Camgoz and Richard Bowden(参考訳) 絡み合った表現は、因果推論、生成モデリング、公平な機械学習など、下流タスクの範囲をサポートする。 残念なことに、混乱は監督や帰納的偏見を取り入れずには不可能であることが示されている。 監視は、しばしばコストがかかるか、取得できないことを考えると、構造的帰納バイアスを取り入れ、教師なしの深いビデオディスタングルのための状態空間モデル(VDSM)を提示する。 モデルは、動的先行とエキスパートデコーダの混合と階層構造を組み込むことによって、潜時変動と動的要因を解き放つ。 VDSMは、ビデオ中のオブジェクトまたは人のアイデンティティと、実行中のアクションに対する分離された不整合表現を学習する。 我々はvdsmを,アイデンティティやダイナミクスの伝達,シーケンス生成,fr\'echetインセプション距離,因子分類など,質的かつ定量的なタスクで評価する。 VDSMは最先端のパフォーマンスを提供し、メソッドが追加の監視を使用する場合でも、敵メソッドを超える。

Disentangled representations support a range of downstream tasks including causal reasoning, generative modeling, and fair machine learning. Unfortunately, disentanglement has been shown to be impossible without the incorporation of supervision or inductive bias. Given that supervision is often expensive or infeasible to acquire, we choose to incorporate structural inductive bias and present an unsupervised, deep State-Space-Model for Video Disentanglement (VDSM). The model disentangles latent time-varying and dynamic factors via the incorporation of hierarchical structure with a dynamic prior and a Mixture of Experts decoder. VDSM learns separate disentangled representations for the identity of the object or person in the video, and for the action being performed. We evaluate VDSM across a range of qualitative and quantitative tasks including identity and dynamics transfer, sequence generation, Fr\'echet Inception Distance, and factor classification. VDSM provides state-of-the-art performance and exceeds adversarial methods, even when the methods use additional supervision.
翻訳日:2021-03-15 13:30:44 公開日:2021-03-12
# 自己機能規則化:教師モデルのない自己機能蒸留

Self-Feature Regularization: Self-Feature Distillation Without Teacher Models ( http://arxiv.org/abs/2103.07350v1 )

ライセンス: Link先を確認
Wenxuan Fan, Zhenyan Hou(参考訳) 知識蒸留(英: knowledge distillation)は、知識を大きなモデルから小さなモデルに移す過程である。 この過程において、小モデルは、大模型の一般化能力を学び、大模型のそれに近い性能を維持する。 知識蒸留は、モデルの知識を移行し、モデルの展開を促進し、推論を高速化する訓練手段を提供する。 しかし、以前の蒸留法では、事前に訓練された教師モデルが必要です。 本稿では,深層の特徴を用いて浅層における特徴学習を監督し,より意味的な情報を保持する,セルフ・フィーチャー・レギュライゼーション(sfr)と呼ばれる新しい汎用学習フレームワークを提案する。 具体的には,まずEMD-l2損失を局所的な特徴に合わせるために利用し,チャネル次元においてより集中的に特徴を蒸留するための多対一のアプローチを提案する。 次に、出力層で動的ラベル平滑化を用い、よりよい性能を得る。 さらに,提案手法の有効性を示す実験を行った。

Knowledge distillation is the process of transferring the knowledge from a large model to a small model. In this process, the small model learns the generalization ability of the large model and retains the performance close to that of the large model. Knowledge distillation provides a training means to migrate the knowledge of models, facilitating model deployment and speeding up inference. However, previous distillation methods require pre-trained teacher models, which still bring computational and storage overheads. In this paper, a novel general training framework called Self-Feature Regularization~(SFR) is proposed, which uses features in the deep layers to supervise feature learning in the shallow layers, retains more semantic information. Specifically, we firstly use EMD-l2 loss to match local features and a many-to-one approach to distill features more intensively in the channel dimension. Then dynamic label smoothing is used in the output layer to achieve better performance. Experiments further show the effectiveness of our proposed framework.
翻訳日:2021-03-15 13:30:25 公開日:2021-03-12
# 低リソースエンドツーエンド音声認識のためのBPE-Dropoutによる動的音響ユニット拡張

Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition ( http://arxiv.org/abs/2103.07186v1 )

ライセンス: Link先を確認
Aleksandr Laptev, Andrei Andrusenko, Ivan Podluzhny, Anton Mitrofanov, Ivan Medennikov, Yuri Matveev(参考訳) 音声アシスタントの急速な発展に伴い、サーバーによる自動音声認識(ASR)ソリューションを直接デバイスに適応させることが重要です。 研究者や業界は、デバイス上の音声認識タスクにエンドツーエンドのASRシステムを使うことを好む。 これは、ハイブリッドシステムと比較して高い品質を維持しながら、エンドツーエンドシステムをリソース効率にすることができるためです。 しかし、エンドツーエンドモデルの構築には大量の音声データが必要である。 音声アシスタントに関連するもう1つの課題はパーソナライズであり、主に語彙外単語(OOV)を扱うことである。 本研究では,Babel Turk と Babel Georgian のタスクを具体化した,高OOV レートの低リソース構成で効率的なエンドツーエンド ASR システムを構築することを検討する。 そこで本研究では,BPE-dropout法を用いた動的音響ユニット増強法を提案する。 非決定論的に発話をトークン化して、トークンのコンテキストを拡張し、モデルの目に見えない単語認識のための分布を正規化します。 また、最適なサブワード語彙サイズ検索の必要性も減らす。 この手法は、正規およびパーソナライズされた(oov指向)音声認識タスク(少なくとも6%の相対werと25%の相対f-score)を計算コストなしで着実に改善する。 我々の単言語であるトルコ語コンフォーマーは、BPEドロップアウトの使用により、22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。

With the rapid development of speech assistants, adapting server-intended automatic speech recognition (ASR) solutions to a direct device has become crucial. Researchers and industry prefer to use end-to-end ASR systems for on-device speech recognition tasks. This is because end-to-end systems can be made resource-efficient while maintaining a higher quality compared to hybrid systems. However, building end-to-end models requires a significant amount of speech data. Another challenging task associated with speech assistants is personalization, which mainly lies in handling out-of-vocabulary (OOV) words. In this work, we consider building an effective end-to-end ASR system in low-resource setups with a high OOV rate, embodied in Babel Turkish and Babel Georgian tasks. To address the aforementioned problems, we propose a method of dynamic acoustic unit augmentation based on the BPE-dropout technique. It non-deterministicall y tokenizes utterances to extend the token's contexts and to regularize their distribution for the model's recognition of unseen words. It also reduces the need for optimal subword vocabulary size search. The technique provides a steady improvement in regular and personalized (OOV-oriented) speech recognition tasks (at least 6% relative WER and 25% relative F-score) at no additional computational cost. Owing to the use of BPE-dropout, our monolingual Turkish Conformer established a competitive result with 22.2% character error rate (CER) and 38.9% word error rate (WER), which is close to the best published multilingual system.
翻訳日:2021-03-15 13:30:09 公開日:2021-03-12
# BDD4BNN:バイナライズニューラルネットワークのためのBDDベースの定量的分析フレームワーク

BDD4BNN: A BDD-based Quantitative Analysis Framework for Binarized Neural Networks ( http://arxiv.org/abs/2103.07224v1 )

ライセンス: Link先を確認
Yedi Zhang and Zhe Zhao and Guangke Chen and Fu Song and Taolue Chen(参考訳) ニューラルネットワークの振る舞いの検証と説明は、特に安全クリティカルなアプリケーションにデプロイされている場合、ますます重要になっている。 本稿では,一般実数ニューラルネットワークの1ビット量子化手法であるBinarized Neural Networks(BNNs)の検証問題について検討する。 我々のアプローチは,BNNの内部構造を利用して,BNNをBDD(Bibinary Decision Diagram)にエンコードすることである。 特に,BNNにおけるブロックの入出力関係を,BDDで符号化された濃度制約に変換する。 符号化に基づいて,BNNの高精度かつ包括的分析が可能なBNNの定量的検証フレームワークを開発する。 BNNに定量的な堅牢性解析と解釈性を提供することで、フレームワークの適用を実証します。 BDD4BNNのプロトタイプツールを実装し、アプローチの有効性と効率を確認する広範な実験を実施します。

Verifying and explaining the behavior of neural networks is becoming increasingly important, especially when they are deployed in safety-critical applications. In this paper, we study verification problems for Binarized Neural Networks (BNNs), the 1-bit quantization of general real-numbered neural networks. Our approach is to encode BNNs into Binary Decision Diagrams (BDDs), which is done by exploiting the internal structure of the BNNs. In particular, we translate the input-output relation of blocks in BNNs to cardinality constraints which are then encoded by BDDs. Based on the encoding, we develop a quantitative verification framework for BNNs where precise and comprehensive analysis of BNNs can be performed. We demonstrate the application of our framework by providing quantitative robustness analysis and interpretability for BNNs. We implement a prototype tool BDD4BNN and carry out extensive experiments which confirm the effectiveness and efficiency of our approach.
翻訳日:2021-03-15 13:29:41 公開日:2021-03-12
# 証拠に基づく政策学習

Evidence-Based Policy Learning ( http://arxiv.org/abs/2103.07066v1 )

ライセンス: Link先を確認
Jann Spiess and Vasilis Syrgkanis(参考訳) 過去数年間、ランダム化比較試験からパーソナライズされた治療割り当てポリシーを推定する機械学習アルゴリズムの開発と展開が見られた。 しかし、そのような治療の割り当てのアルゴリズムは、通常、治療の割り当てがしばしば仮説テストの対象となることを考慮せずに、期待される結果を最適化する。 本稿では, 治療適応政策の効果を考慮に入れ, 統計的に有意な治療効果を有する個人のサブセットを見つける確率を最適化する課題について検討する。 本稿では, 決定木を用いた効率的な実装を提案し, 正(推定)処理効果に基づくサブセットの選択よりも有利であることを示す。 標準的な木ベースの回帰および分類ツールと比較して、このアプローチは肯定的な治療効果を有する部分群の検出において実質的に高いパワーをもたらす傾向にある。

The past years have seen seen the development and deployment of machine-learning algorithms to estimate personalized treatment-assignment policies from randomized controlled trials. Yet such algorithms for the assignment of treatment typically optimize expected outcomes without taking into account that treatment assignments are frequently subject to hypothesis testing. In this article, we explicitly take significance testing of the effect of treatment-assignment policies into account, and consider assignments that optimize the probability of finding a subset of individuals with a statistically significant positive treatment effect. We provide an efficient implementation using decision trees, and demonstrate its gain over selecting subsets based on positive (estimated) treatment effects. Compared to standard tree-based regression and classification tools, this approach tends to yield substantially higher power in detecting subgroups with positive treatment effects.
翻訳日:2021-03-15 13:29:20 公開日:2021-03-12
# 確率的デジタル双子を用いた最適逐次決定法

Optimal sequential decision making with probabilistic digital twins ( http://arxiv.org/abs/2103.07405v1 )

ライセンス: Link先を確認
Christian Agrell, Kristina Rognlien Dahl, Andreas Hafver(参考訳) デジタル双子は多くの業界で登場しており、典型的にはシミュレーションモデルと特定の物理システムに関連するデータで構成されている。 デジタル双生児を開発する主な理由の1つは、物理的なシステム自体に干渉することなく、与えられたアクションの結果のシミュレーションを可能にすることである。 興味のある物理的システムとそれらが操作する環境は、常に決定論的に振る舞うとは限らない。 さらに、システムとその環境に関する情報は通常不完全または不完全です。 したがって、システムと環境の確率的表現は、特にアクションが深刻な結果をもたらす可能性のあるアプリケーション領域における決定を支援するために要求される。 本稿では,確率論的ディジタルツイン(PDT)を紹介する。 まずは、$\sigma$-algebrasを介してててんかん情報をモデル化することにより、測定理論を用いてててんかんの不確実性をどのように扱うことができるかについて議論する。 これに基づいて、疫学の不確実性をPDTでどのように更新できるかを公式に定義します。 次に、最適な逐次意思決定の問題を研究する。 すなわち、各決定の結果が次の決定を知らせる可能性がある場合を考える。 PDTフレームワーク内ではこの最適化問題を定式化する。 この問題を(少なくとも理論上は)最大原理法や動的プログラミング原理によってどのように解決するかを議論する。 しかし、次元の呪いのために、これらの方法は実際には扱いにくいことが多い。 そこで本研究では,深層強化学習と集合上に定義されたニューラルネットワークを用いた汎用近似解を提案する。 本手法は,故障確率の推定に最適な情報収集を考慮し,実用的課題の解法を示す。

Digital twins are emerging in many industries, typically consisting of simulation models and data associated with a specific physical system. One of the main reasons for developing a digital twin, is to enable the simulation of possible consequences of a given action, without the need to interfere with the physical system itself. Physical systems of interest, and the environments they operate in, do not always behave deterministically. Moreover, information about the system and its environment is typically incomplete or imperfect. Probabilistic representations of systems and environments may therefore be called for, especially to support decisions in application areas where actions may have severe consequences. In this paper we introduce the probabilistic digital twin (PDT). We will start by discussing how epistemic uncertainty can be treated using measure theory, by modelling epistemic information via $\sigma$-algebras. Based on this, we give a formal definition of how epistemic uncertainty can be updated in a PDT. We then study the problem of optimal sequential decision making. That is, we consider the case where the outcome of each decision may inform the next. Within the PDT framework, we formulate this optimization problem. We discuss how this problem may be solved (at least in theory) via the maximum principle method or the dynamic programming principle. However, due to the curse of dimensionality, these methods are often not tractable in practice. To mend this, we propose a generic approximate solution using deep reinforcement learning together with neural networks defined on sets. We illustrate the method on a practical problem, considering optimal information gathering for the estimation of a failure probability.
翻訳日:2021-03-15 13:29:06 公開日:2021-03-12
# 胸部X線特徴コーパスを用いたCOVID-19 CXR診断用視覚変換器

Vision Transformer for COVID-19 CXR Diagnosis using Chest X-ray Feature Corpus ( http://arxiv.org/abs/2103.07055v1 )

ライセンス: Link先を確認
Sangjoon Park, Gwanghyun Kim, Yujin Oh, Joon Beom Seo, Sang Min Lee, Jin Hwan Kim, Sungjun Moon, Jae-Kwang Lim, Jong Chul Ye(参考訳) 世界的なCOVID-19危機下では、CXRを用いた新型コロナウイルスの堅牢な診断アルゴリズムの開発は、他の疾患を持つCXRデータが豊富であるにもかかわらず、よく集められたCOVID-19データセットの欠如によって妨げられている。 この状況は、事前トレーニングを使用して豊富なラベルのないデータを活用できるビジョントランスフォーマーアーキテクチャに適している。 しかし、ResNetによって生成されたコーパスを使用する既存の視覚変換器の直接使用は、正確な特徴埋め込みには最適ではない。 そこで本研究では, 異常cxr特徴を抽出した低レベルcxr特徴コーパスを用いて, 新たな視覚トランスフォーマを提案する。 具体的には、大規模な公開データセットを使用してバックボーンネットワークを訓練し、統合、ガラスグラス不透明度(GGO)などのルーチン診断における異常な特徴を得る。 次に、バックボーンネットワークからの埋め込み特徴を視覚トランスフォーマートレーニング用コーパスとして使用する。 全く異なる機関から取得した各種外部テストデータセットのモデルを検討し、一般化能力を評価する。 本実験は,本手法が最先端性能を達成し,より優れた一般化能力を有することを示すものである。

Under the global COVID-19 crisis, developing robust diagnosis algorithm for COVID-19 using CXR is hampered by the lack of the well-curated COVID-19 data set, although CXR data with other disease are abundant. This situation is suitable for vision transformer architecture that can exploit the abundant unlabeled data using pre-training. However, the direct use of existing vision transformer that uses the corpus generated by the ResNet is not optimal for correct feature embedding. To mitigate this problem, we propose a novel vision Transformer by using the low-level CXR feature corpus that are obtained to extract the abnormal CXR features. Specifically, the backbone network is trained using large public datasets to obtain the abnormal features in routine diagnosis such as consolidation, glass-grass opacity (GGO), etc. Then, the embedded features from the backbone network are used as corpus for vision transformer training. We examine our model on various external test datasets acquired from totally different institutions to assess the generalization ability. Our experiments demonstrate that our method achieved the state-of-art performance and has better generalization capability, which are crucial for a widespread deployment.
翻訳日:2021-03-15 13:28:42 公開日:2021-03-12
# ビジョントランスを用いたCXRにおけるCOVID-19の重症度定量と病変局在

Severity Quantification and Lesion Localization of COVID-19 on CXR using Vision Transformer ( http://arxiv.org/abs/2103.07062v1 )

ライセンス: Link先を確認
Gwanghyun Kim, Sangjoon Park, Yujin Oh, Joon Beom Seo, Sang Min Lee, Jin Hwan Kim, Sungjun Moon, Jae-Kwang Lim, Jong Chul Ye(参考訳) 新型コロナウイルスの世界的なパンデミック下では、covid-19の重症度を定量化し、胸部x線画像上の関連病変をローカライズする自動化フレームワークの構築がますます重要になっている。 ピクセルレベルの病変の重度ラベルは、例えば。 病変分割は、堅牢なモデルを構築するための最も優れたターゲットであり、そのようなラベルで十分なデータを収集することは、時間と労働集約的なアノテーションタスクのために困難です。 代わりに、6つの肺の分割に整数スコアを割り当てる配列ベースの重篤なラベル付けは、高速なラベル付けを可能にする代替選択肢となる。 いくつかのグループは、配列ベースのCOVID-19ラベルを使用してCOVID-19の重症度を定量化し、説明可能なマップで病変をローカライズするディープラーニングアルゴリズムを提案した。 さらに精度と解釈性を向上させるために、重症度の定量化と新型コロナウイルス関連病変の臨床的に適用可能な局在化の両方に適した新しいVision Transformerを提案します。 我々のモデルは、弱い配列に基づくラベルから全確率マップを生成するために、弱教師付きで訓練されている。 さらに、新しいプログレッシブな自己学習手法により、小さなラベル付きデータセットでモデルを構築することができる。 外部テストセットの定量的・定性的分析により,実世界のアプリケーションにおいて,両課題とも放射線科医と同等の性能を示すことが示された。

Under the global pandemic of COVID-19, building an automated framework that quantifies the severity of COVID-19 and localizes the relevant lesion on chest X-ray images has become increasingly important. Although pixel-level lesion severity labels, e.g. lesion segmentation, can be the most excellent target to build a robust model, collecting enough data with such labels is difficult due to time and labor-intensive annotation tasks. Instead, array-based severity labeling that assigns integer scores on six subdivisions of lungs can be an alternative choice enabling the quick labeling. Several groups proposed deep learning algorithms that quantify the severity of COVID-19 using the array-based COVID-19 labels and localize the lesions with explainability maps. To further improve the accuracy and interpretability, here we propose a novel Vision Transformer tailored for both quantification of the severity and clinically applicable localization of the COVID-19 related lesions. Our model is trained in a weakly-supervised manner to generate the full probability maps from weak array-based labels. Furthermore, a novel progressive self-training method enables us to build a model with a small labeled dataset. The quantitative and qualitative analysis on the external testset demonstrates that our method shows comparable performance with radiologists for both tasks with stability in a real-world application.
翻訳日:2021-03-15 13:28:22 公開日:2021-03-12
# 患者固有の仮想脊椎矯正と椎体塗布 : 骨形成計画のための自動的枠組み

Patient-specific virtual spine straightening and vertebra inpainting: An automatic framework for osteoplasty planning ( http://arxiv.org/abs/2103.07279v1 )

ライセンス: Link先を確認
Christina Bukas, Bailiang Jian, Luis F. Rodriguez Venegas, Francesca De Benetti, Sebastian Ruehling, Anjany Sekubojina, Jens Gempt, Jan S. Kirschke, Marie Piraud, Johannes Oberreuter, Nassir Navab and Thomas Wendler(参考訳) 症状性脊椎圧迫骨折(VCF)はしばしば骨形成術を必要とする。 骨にセメント様の材料を注入して骨折を安定させ、椎体の高さを回復し、痛みを軽減する。 漏れは一般的な合併症であり、過剰なセメントの注入によって生じることがある。 そこで本研究では, 医師が注射用セメントの上限を算出し, 骨形成術の最適成績を推定できる, 患者固有の自動フレームワークを提案する。 このフレームワークは、患者のCTスキャンと骨折した椎骨ラベルを使って、高レベルのアプローチで仮想的な健康な脊椎を構築する。 まず、骨折した脊椎は3段階の畳み込みニューラルネットワーク(CNN)アーキテクチャで分割される。 次に、健康な脊椎アトラスに対する椎間板リジッド登録は、その曲率を回復する。 最後に、GANベースの塗装アプローチは、骨折した椎骨を元の形状の推定に置き換えます。 この結果に基づいて、注入のための骨セメントの最大量を推定します。 10人の患者の仮想椎骨容積を健康な同値値と比較し,平均誤差を3.88$\pm$7.63\%と報告した。 提案するパイプラインは,osteoplasty手順を計画するためのパーソナライズされたハイレベルなフレームワークに対して,最初のアプローチを提供する。

Symptomatic spinal vertebral compression fractures (VCFs) often require osteoplasty treatment. A cement-like material is injected into the bone to stabilize the fracture, restore the vertebral body height and alleviate pain. Leakage is a common complication and may occur due to too much cement being injected. In this work, we propose an automated patient-specific framework that can allow physicians to calculate an upper bound of cement for the injection and estimate the optimal outcome of osteoplasty. The framework uses the patient CT scan and the fractured vertebra label to build a virtual healthy spine using a high-level approach. Firstly, the fractured spine is segmented with a three-step Convolution Neural Network (CNN) architecture. Next, a per-vertebra rigid registration to a healthy spine atlas restores its curvature. Finally, a GAN-based inpainting approach replaces the fractured vertebra with an estimation of its original shape. Based on this outcome, we then estimate the maximum amount of bone cement for injection. We evaluate our framework by comparing the virtual vertebrae volumes of ten patients to their healthy equivalent and report an average error of 3.88$\pm$7.63\%. The presented pipeline offers a first approach to a personalized automatic high-level framework for planning osteoplasty procedures.
翻訳日:2021-03-15 13:28:00 公開日:2021-03-12
# スケーラブルで保証された凸プログラミングによる最大線形回帰

Max-Linear Regression by Scalable and Guaranteed Convex Programming ( http://arxiv.org/abs/2103.07020v1 )

ライセンス: Link先を確認
Seonho Kim, Sohail Bahmani, and Kiryung Lee(参考訳) モデルパラメータ $\boldsymbol{\beta}_{1},\dotsc,\boldsymbol{\beta}_{k}\in\mathbb{R}^{p}$ が (ノイズの多い)観測 $y = \max_{1\leq j \leq k} \boldsymbol{\beta}_{j}^{\mathsf{T}} \boldsymbol{x} + \mathrm{noise}$ の独立したサンプルから推定される必要がある。 最大線形モデルは、従来の線形モデルを大幅に一般化し、線型モデルが十分に大きい場合、任意の凸関数を任意の精度に近似することができる。 しかし、マックス・リニアモデルの固有非線形性は計算上難しい回帰パラメータの推定を導出する。 特に、凸プログラミングに基づく推定器は文献で知られていない。 最大線形回帰問題の推定器としてスケーラブル凸プログラムを定式化し,解析する。 標準ガウス観測条件では、凸プログラムが高い確率でパラメータを回復することを示す非漸近的な性能保証を示す。 線形成分 $k$ が等しく最大値に達する可能性が高い場合、その結果、十分な数の観測が対数係数まで $k^{2}p$ としてスケールすることを示しています。 これは交代最小化(ghosh et al., 2019)に基づく類似の先行結果を大幅に改善する。 最後に,モンテカルロシミュレーションにより,理論結果が経験的挙動と一致していることを示し,最大線形回帰の凸推定器は,実際には交互最小化アルゴリズムと同等の競合性を示す。

We consider the multivariate max-linear regression problem where the model parameters $\boldsymbol{\beta}_{1},\dotsc,\boldsymbol{\beta}_{k}\in\mathbb{R}^{p}$ need to be estimated from $n$ independent samples of the (noisy) observations $y = \max_{1\leq j \leq k} \boldsymbol{\beta}_{j}^{\mathsf{T}} \boldsymbol{x} + \mathrm{noise}$. The max-linear model vastly generalizes the conventional linear model, and it can approximate any convex function to an arbitrary accuracy when the number of linear models $k$ is large enough. However, the inherent nonlinearity of the max-linear model renders the estimation of the regression parameters computationally challenging. Particularly, no estimator based on convex programming is known in the literature. We formulate and analyze a scalable convex program as the estimator for the max-linear regression problem. Under the standard Gaussian observation setting, we present a non-asymptotic performance guarantee showing that the convex program recovers the parameters with high probability. When the $k$ linear components are equally likely to achieve the maximum, our result shows that a sufficient number of observations scales as $k^{2}p$ up to a logarithmic factor. This significantly improves on the analogous prior result based on alternating minimization (Ghosh et al., 2019). Finally, through a set of Monte Carlo simulations, we illustrate that our theoretical result is consistent with empirical behavior, and the convex estimator for max-linear regression is as competitive as the alternating minimization algorithm in practice.
翻訳日:2021-03-15 13:27:40 公開日:2021-03-12
# 未知の順列を持つマルチビューセンシング:最適なトランスポートアプローチ

Multiview Sensing With Unknown Permutations: An Optimal Transport Approach ( http://arxiv.org/abs/2103.07458v1 )

ライセンス: Link先を確認
Yanting Ma, Petros T. Boufounos, Hassan Mansour, Shuchin Aeron(参考訳) 動作中の変形可能な物体の撮像、同時局在化とマッピング、ラベルなしセンシングなど、いくつかの応用において、未知の順列によって測定される信号の復元の問題に遭遇する。 本論文では、最適搬送(OT)のレンズを通して、この問題を新たな視点で検討する。 特に、ほとんどの実用的な応用において、未知の置換は任意ではないが、あるものは他のものよりも起こりやすいと認識している。 これを利用して、ソリューションのより可能性の高い置換を促進する正規化関数を導入しています。 一般的な問題は凸ではありませんが、結果として生じる正規化問題の適切な緩和は、OTのよく発達した機械を利用し、トラクタブルアルゴリズムを開発することを可能にします。

In several applications, including imaging of deformable objects while in motion, simultaneous localization and mapping, and unlabeled sensing, we encounter the problem of recovering a signal that is measured subject to unknown permutations. In this paper we take a fresh look at this problem through the lens of optimal transport (OT). In particular, we recognize that in most practical applications the unknown permutations are not arbitrary but some are more likely to occur than others. We exploit this by introducing a regularization function that promotes the more likely permutations in the solution. We show that, even though the general problem is not convex, an appropriate relaxation of the resulting regularized problem allows us to exploit the well-developed machinery of OT and develop a tractable algorithm.
翻訳日:2021-03-15 13:27:12 公開日:2021-03-12
# BERTによる誘導関係予測

Inductive Relation Prediction by BERT ( http://arxiv.org/abs/2103.07102v1 )

ライセンス: Link先を確認
Hanwen Zha, Zhiyu Chen and Xifeng Yan(参考訳) 知識グラフにおける関係予測は、主にトランスダクティブな設定に焦点を当てた埋め込みベース手法によって支配される。 残念なことに、彼らは見えない実体や関係が存在する帰納的学習を処理できず、事前の知識を活用できない。 さらに、推論プロセスは簡単に説明できない。 本研究では、事前学習した言語モデルを活用し、関係インスタンスとその可能な推論パスをトレーニングサンプルとして取得することにより、それを微調整する、BERTRL(BERT-based Relational Learning)と呼ばれるオールインワンソリューションを提案する。 BERTRLはインダクティブとトランスダクティブの両方の設定で18例中15例でSOTAを上回っています。 一方,単発学習では強力な一般化能力を示し,説明可能である。

Relation prediction in knowledge graphs is dominated by embedding based methods which mainly focus on the transductive setting. Unfortunately, they are not able to handle inductive learning where unseen entities and relations are present and cannot take advantage of prior knowledge. Furthermore, their inference process is not easily explainable. In this work, we propose an all-in-one solution, called BERTRL (BERT-based Relational Learning), which leverages pre-trained language model and fine-tunes it by taking relation instances and their possible reasoning paths as training samples. BERTRL outperforms the SOTAs in 15 out of 18 cases in both inductive and transductive settings. Meanwhile, it demonstrates strong generalization capability in few-shot learning and is explainable.
翻訳日:2021-03-15 13:26:28 公開日:2021-03-12
# グローバルガイダンスによる制約付きテキスト生成 -- CommonGen のケーススタディ

Constrained Text Generation with Global Guidance -- Case Study on CommonGen ( http://arxiv.org/abs/2103.07170v1 )

ライセンス: Link先を確認
Yixian Liu, Liwen Zhang, Wenjuan Han, Yue Zhang, Kewei Tu(参考訳) 本稿では,特定の前提条件下で文を生成する制約付きテキスト生成について検討する。 制約付きテキスト生成の代表的なタスクとして,概念セットに基づいたテキスト生成タスクであるCommonGenに注目した。 従来の手法は, 対象文の可能性を最大化するために指導的訓練を主眼とするが, 自己回帰的復号プロセスの潜在的目的には, 常識やカバレッジといったグローバルな制約が組み込まれない。 本稿では,強化学習の報奨となる総合的なスコアを用いて,フラレンシ,常識,概念カバレッジなど世界的な制約を測定することを目的とした強化学習について検討する。 さらに,単語,フラグメント,文レベルでのガイド付き復号法を設計する。 実験により,提案手法は概念カバレッジを著しく向上させ,既存のモデルを各種自動評価で上回ることを示した。

This paper studies constrained text generation, which is to generate sentences under certain pre-conditions. We focus on CommonGen, the task of generating text based on a set of concepts, as a representative task of constrained text generation. Traditional methods mainly rely on supervised training to maximize the likelihood of target sentences.However, global constraints such as common sense and coverage cannot be incorporated into the likelihood objective of the autoregressive decoding process. In this paper, we consider using reinforcement learning to address the limitation, measuring global constraints including fluency, common sense and concept coverage with a comprehensive score, which serves as the reward for reinforcement learning. Besides, we design a guided decoding method at the word, fragment and sentence levels. Experiments demonstrate that our method significantly increases the concept coverage and outperforms existing models in various automatic evaluations.
翻訳日:2021-03-15 13:26:16 公開日:2021-03-12
# NLPモデルは、単純な数学の単語問題を本当に解決できますか?

Are NLP Models really able to Solve Simple Math Word Problems? ( http://arxiv.org/abs/2103.07191v1 )

ライセンス: Link先を確認
Arkil Patel, Satwik Bhattamishra, Navin Goyal(参考訳) 数学語問題 (MWP) のためのNLPソルバを設計する問題は, 研究活動が継続し, 試験精度が着実に向上した。 既存の解法は1つの未知の算術語問題を含む初等レベルのMWPのベンチマークデータセットで高い性能を達成しているため、そのような問題はより複雑なMWPに注目が集まる中で「解決」されることが多い。 本論文では,4年生以下の英語MWPに注意を向ける。 既存のMWPソルバは、ベンチマークデータセット上で高い性能を達成するために、浅いヒューリスティックに依存しているという強い証拠を提供する。 この結果から,MWP で質問された質問にアクセスできない MWP の解法は,依然として少数の MWP を解くことができることを示す。 同様に、mwpを単語の袋として扱うモデルも驚くほど高い精度を達成できる。 さらに,既存のデータセットからサンプルしたサンプルに対して,慎重に選択したバリエーションを適用して作成するチャレンジデータセットsvampを紹介する。 最先端モデルによって達成される最高の精度はSVAMPよりも大幅に低いため、MWPの最も単純なモデルでも多くの処理が可能であることが示される。

The problem of designing NLP solvers for math word problems (MWP) has seen sustained research activity and steady gains in the test accuracy. Since existing solvers achieve high performance on the benchmark datasets for elementary level MWPs containing one-unknown arithmetic word problems, such problems are often considered "solved" with the bulk of research attention moving to more complex MWPs. In this paper, we restrict our attention to English MWPs taught in grades four and lower. We provide strong evidence that the existing MWP solvers rely on shallow heuristics to achieve high performance on the benchmark datasets. To this end, we show that MWP solvers that do not have access to the question asked in the MWP can still solve a large fraction of MWPs. Similarly, models that treat MWPs as bag-of-words can also achieve surprisingly high accuracy. Further, we introduce a challenge dataset, SVAMP, created by applying carefully chosen variations over examples sampled from existing datasets. The best accuracy achieved by state-of-the-art models is substantially lower on SVAMP, thus showing that much remains to be done even for the simplest of the MWPs.
翻訳日:2021-03-15 13:26:02 公開日:2021-03-12
# 視覚手がかりと誤り訂正による翻訳ロバスト性の向上

Improving Translation Robustness with Visual Cues and Error Correction ( http://arxiv.org/abs/2103.07352v1 )

ライセンス: Link先を確認
Zhenhao Li, Marek Rei, Lucia Specia(参考訳) ニューラルマシン翻訳モデルは入力ノイズに弱いです。 現在の堅牢性技術は、主に既存のノイズの多いテキストにモデルを適用しますが、これらのモデルは一般的に、見えないノイズに直面して、クリーンテキストのパフォーマンスが低下すると失敗します。 本稿では,ノイズの多いテキストに対する翻訳堅牢性を改善するための視覚的文脈の概念を紹介する。 さらに,誤り訂正を補助タスクとして扱うことで,ロバスト性をさらに向上させる新しい誤り訂正訓練手法を提案する。 英語とフランス語とドイツ語の翻訳実験では、マルチモーダリティと誤り訂正トレーニングの両方が、既知の新しいタイプのエラーに対するモデル堅牢性に有益であり、クリーンテキストの品質を維持している。

Neural Machine Translation models are brittle to input noise. Current robustness techniques mostly adapt models to existing noisy texts, but these models generally fail when faced with unseen noise and their performance degrades on clean texts. In this paper, we introduce the idea of visual context to improve translation robustness against noisy texts. In addition, we propose a novel error correction training regime by treating error correction as an auxiliary task to further improve robustness. Experiments on English-French and English-German translation show that both multimodality and error correction training are beneficial for model robustness to known and new types of errors, while keeping the quality on clean texts.
翻訳日:2021-03-15 13:25:42 公開日:2021-03-12
# CRFace:モデル診断顔検出リファインメントのための信頼ランキング

CRFace: Confidence Ranker for Model-Agnostic Face Detection Refinement ( http://arxiv.org/abs/2103.07017v1 )

ライセンス: Link先を確認
Noranart Vesdapunt, Baoyuan Wang(参考訳) 顔検出は多くの下流のアプリケーションにとって根本的な問題であり、より速く、より正確に、より高解像度な顔検出のサポートに対する需要が高まっている。 最近のスマートフォンは8k解像度でビデオを撮影できるが、既存の顔検出装置の多くはアンカーサイズとトレーニングデータのために失敗している。 故障事例を解析し,不正確な信頼度で多数の予測ボックスを観測する。 本研究では,これらの信頼度を測定するために,同一画像内で予測される信頼度を局所的に再ランクするペアワイズランキング損失を持つ信頼度ランキングネットワークを提案する。 当社の信頼ランキングはモデルに依存しないため、トレーニング中に複数の顔検出器からペアを選択し、テスト中に幅広い顔検出器に一般化することでデータを強化できます。 WiderFaceでは、単一スケールで最高のAPを達成することができ、我々のAPは従来のマルチスケールメソッドと競合すると同時に、はるかに高速である。 8k解像度では、gpuメモリの問題を解決し、8k上で間接的にトレーニングできる。 改善を示すために8K解像度テストセットを収集し、将来の研究のための新しいベンチマークとしてテストセットをリリースします。

Face detection is a fundamental problem for many downstream face applications, and there is a rising demand for faster, more accurate yet support for higher resolution face detectors. Recent smartphones can record a video in 8K resolution, but many of the existing face detectors still fail due to the anchor size and training data. We analyze the failure cases and observe a large number of correct predicted boxes with incorrect confidences. To calibrate these confidences, we propose a confidence ranking network with a pairwise ranking loss to re-rank the predicted confidences locally within the same image. Our confidence ranker is model-agnostic, so we can augment the data by choosing the pairs from multiple face detectors during the training, and generalize to a wide range of face detectors during the testing. On WiderFace, we achieve the highest AP on the single-scale, and our AP is competitive with the previous multi-scale methods while being significantly faster. On 8K resolution, our method solves the GPU memory issue and allows us to indirectly train on 8K. We collect 8K resolution test set to show the improvement, and we will release our test set as a new benchmark for future research.
翻訳日:2021-03-15 13:24:26 公開日:2021-03-12
# 降雨ストレークと雨滴除去の2重注意モデル

Dual Attention-in-Attenti on Model for Joint Rain Streak and Raindrop Removal ( http://arxiv.org/abs/2103.07051v1 )

ライセンス: Link先を確認
Kaihao Zhang, Dongxu Li, Wenhan Luo, Wenqi Ren, Lin Ma, Hongdong Li(参考訳) 雨滴と雨滴は2つの自然現象であり、異なる方法でイメージキャプチャーを劣化させる。 現在、ほとんどの既存の深層排水ネットワークは、それらを2つの異なる問題として捉え、個別に対処するため、両方を同時に処理することはできません。 そこで本研究では,降雨量と降雨量の両方を除去する2つのDAMを含むDual Attention-in-Attenti on Model (DAiAM)を提案する。 DAM内には、重雨地域と軽雨地帯にそれぞれ参列する2つの注意深い地図記があり、適用地域ごとに異なる導出過程を導出する。 さらに, ディファレンシャル駆動のデュアルアテンション・イン・アテンション・モデル (D-DAiAM) は, 不満足な降雨領域に対処して雨を除去する「軽量」方式で提案されている。 1つの公共雨害データセット,1つの公共雨害データセット,および2つの複合雨害・降雨雨害データセットに対する大規模な実験により,提案手法が同時に雨害・降雨害を除去できるだけでなく,両課題における最先端の性能も達成できることが実証された。

Rain streaks and rain drops are two natural phenomena, which degrade image capture in different ways. Currently, most existing deep deraining networks take them as two distinct problems and individually address one, and thus cannot deal adequately with both simultaneously. To address this, we propose a Dual Attention-in-Attenti on Model (DAiAM) which includes two DAMs for removing both rain streaks and raindrops. Inside the DAM, there are two attentive maps - each of which attends to the heavy and light rainy regions, respectively, to guide the deraining process differently for applicable regions. In addition, to further refine the result, a Differential-driven Dual Attention-in-Attenti on Model (D-DAiAM) is proposed with a "heavy-to-light" scheme to remove rain via addressing the unsatisfying deraining regions. Extensive experiments on one public raindrop dataset, one public rain streak and our synthesized joint rain streak and raindrop (JRSRD) dataset have demonstrated that the proposed method not only is capable of removing rain streaks and raindrops simultaneously, but also achieves the state-of-the-art performance on both tasks.
翻訳日:2021-03-15 13:24:07 公開日:2021-03-12
# FS-Net - Decoupled Rotation Mechanismを用いたカテゴリレベル6Dオブジェクトポース推定のための高速シェイプベースネットワーク

FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism ( http://arxiv.org/abs/2103.07054v1 )

ライセンス: Link先を確認
Wei Chen, Xi Jia, Hyung Jin Chang, Jinming Duan, Linlin Shen, Ales Leonardis(参考訳) 本稿では,モノクロRGB-D画像からカテゴリレベルの6Dポーズとサイズ推定に焦点をあてる。 従来の手法は非効率なカテゴリレベルのポーズ特徴抽出に苦しむため、精度と推論速度が低下する。 そこで本研究では,6次元ポーズ推定のためのカテゴリレベルの特徴抽出を効率的に行う高速形状ネットワーク(FS-Net)を提案する。 まず, 3次元グラフ畳み込みを用いた指向性を考慮したオートエンコーダの設計を行った。 学習された潜在機能は、3Dグラフ畳み込みのシフトとスケール不変性のおかげで、点シフトやオブジェクトサイズに敏感である。 次に,潜在特徴からカテゴリレベルの回転情報を効率的にデコードするために,2つのデコーダを用いた新しいデカップリング回転機構を提案する。 一方,対象点の平均と接地真理変換の差である2つの残差による翻訳とサイズを推定し,各カテゴリーの平均サイズと接地真理変換の差を推定する。 最後に、FS-Netの一般化能力を高めるために、トレーニングデータを拡張するためのオンラインボックスケージベースの3次元変形機構を提案する。 2つのベンチマークデータセットの大規模な実験により、提案手法はカテゴリレベルとインスタンスレベルの6Dオブジェクトのポーズ推定の両方において最先端の性能を達成することが示された。 特にカテゴリレベルのポーズ推定では、余分な合成データなしで、この手法はNOCS-REALデータセット上の既存のメソッドを6.3%上回る。

In this paper, we focus on category-level 6D pose and size estimation from monocular RGB-D image. Previous methods suffer from inefficient category-level pose feature extraction which leads to low accuracy and inference speed. To tackle this problem, we propose a fast shape-based network (FS-Net) with efficient category-level feature extraction for 6D pose estimation. First, we design an orientation aware autoencoder with 3D graph convolution for latent feature extraction. The learned latent feature is insensitive to point shift and object size thanks to the shift and scale-invariance properties of the 3D graph convolution. Then, to efficiently decode category-level rotation information from the latent feature, we propose a novel decoupled rotation mechanism that employs two decoders to complementarily access the rotation information. Meanwhile, we estimate translation and size by two residuals, which are the difference between the mean of object points and ground truth translation, and the difference between the mean size of the category and ground truth size, respectively. Finally, to increase the generalization ability of FS-Net, we propose an online box-cage based 3D deformation mechanism to augment the training data. Extensive experiments on two benchmark datasets show that the proposed method achieves state-of-the-art performance in both category- and instance-level 6D object pose estimation. Especially in category-level pose estimation, without extra synthetic data, our method outperforms existing methods by 6.3% on the NOCS-REAL dataset.
翻訳日:2021-03-15 13:23:43 公開日:2021-03-12
# バイラテラル拡張と適応核融合による実点雲シーンのセマンティックセグメンテーション

Semantic Segmentation for Real Point Cloud Scenes via Bilateral Augmentation and Adaptive Fusion ( http://arxiv.org/abs/2103.07074v1 )

ライセンス: Link先を確認
Shi Qiu, Saeed Anwar and Nick Barnes(参考訳) 現在の3Dセンサーの優位性を考えると、基本的なクラウドデータのきめ細かい分析はさらなる調査に値する。 特に、現実のクラウドシーンは実世界の複雑な環境を直感的に捉えることができるが、3Dデータの生の特性のため、マシン認識は非常に困難である。 本研究では,現実に収集された大規模ポイントクラウドデータに対して,視覚的タスクであるセマンティックセグメンテーションに注目する。 一方,近接点の曖昧さを低減すべく,2つの構造における幾何学的特徴と意味的特徴を十分に活用することにより,局所的文脈を増強する。 一方,複数の解像度からの点の識別性を包括的に解釈し,正確な意味セグメンテーションのための点レベルで適応融合法に従って特徴マップを表現する。 さらに,重要なモジュールを検証するために,アブレーション研究と直感的な可視化を提供する。 3つのベンチマークで最先端のネットワークと比較することにより,ネットワークの有効性を実証する。

Given the prominence of current 3D sensors, a fine-grained analysis on the basic point cloud data is worthy of further investigation. Particularly, real point cloud scenes can intuitively capture complex surroundings in the real world, but due to 3D data's raw nature, it is very challenging for machine perception. In this work, we concentrate on the essential visual task, semantic segmentation, for large-scale point cloud data collected in reality. On the one hand, to reduce the ambiguity in nearby points, we augment their local context by fully utilizing both geometric and semantic features in a bilateral structure. On the other hand, we comprehensively interpret the distinctness of the points from multiple resolutions and represent the feature map following an adaptive fusion method at point-level for accurate semantic segmentation. Further, we provide specific ablation studies and intuitive visualizations to validate our key modules. By comparing with state-of-the-art networks on three different benchmarks, we demonstrate the effectiveness of our network.
翻訳日:2021-03-15 13:23:21 公開日:2021-03-12
# ニューラル再投影エラー:機能学習とカメラポース推定のマージ

Neural Reprojection Error: Merging Feature Learning and Camera Pose Estimation ( http://arxiv.org/abs/2103.07153v1 )

ライセンス: Link先を確認
Hugo Germain and Vincent Lepetit and Guillaume Bourmaud(参考訳) 絶対的なカメラポーズ推定は通常、2つの異なるサブプロブレムを逐次解決することで解決される: まず2D-3D対応を確立する特徴マッチング問題、次にカメラポーズに関して、いわゆるリジェクションエラー(RE)の和を最小化するパースペクティブ-n-Point問題である。 提案する2D-3D対応の生成は,ロバストな損失の選択とハイパーパラメータのチューニングを通じて,RE内において可能な限り補償が必要な重要な情報の損失を招き,その誤データをポーズ推定器に伝達するREにつながる可能性がある。 本稿では,REの代用としてNRE(Neural Reprojection Error)について紹介する。 NREは、カメラのポーズ推定問題を特徴学習問題と組み合わせることで再考し、2D-3D対応よりもリッチな情報を活用し、ロバストな損失とハイパーパラメータを選択する必要をなくす。 したがって、NREは、ポーズ推定に適した画像記述子を学ぶためのトレーニング損失として使用できる。 また,カメラのポーズに関して,NRE項の和を極めて効率的に最小化できる粗大な最適化手法を提案する。 カメラポーズ推定のロバスト性と精度が大幅に向上し,メモリ効率が向上し,reの代替としてnreが有効であることを実験的に実証した。 より広い視点から見ると、深層学習と3次元幾何学を融合させる新しい方法は、他のコンピュータビジョンアプリケーションに有用であると考える。

Absolute camera pose estimation is usually addressed by sequentially solving two distinct subproblems: First a feature matching problem that seeks to establish putative 2D-3D correspondences, and then a Perspective-n-Point problem that minimizes, with respect to the camera pose, the sum of so-called Reprojection Errors (RE). We argue that generating putative 2D-3D correspondences 1) leads to an important loss of information that needs to be compensated as far as possible, within RE, through the choice of a robust loss and the tuning of its hyperparameters and 2) may lead to an RE that conveys erroneous data to the pose estimator. In this paper, we introduce the Neural Reprojection Error (NRE) as a substitute for RE. NRE allows to rethink the camera pose estimation problem by merging it with the feature learning problem, hence leveraging richer information than 2D-3D correspondences and eliminating the need for choosing a robust loss and its hyperparameters. Thus NRE can be used as training loss to learn image descriptors tailored for pose estimation. We also propose a coarse-to-fine optimization method able to very efficiently minimize a sum of NRE terms with respect to the camera pose. We experimentally demonstrate that NRE is a good substitute for RE as it significantly improves both the robustness and the accuracy of the camera pose estimate while being computationally and memory highly efficient. From a broader point of view, we believe this new way of merging deep learning and 3D geometry may be useful in other computer vision applications.
翻訳日:2021-03-15 13:23:03 公開日:2021-03-12
# グラフカットによるSARトモグラフィの都市表面再構成

Urban Surface Reconstruction in SAR Tomography by Graph-Cuts ( http://arxiv.org/abs/2103.07202v1 )

ライセンス: Link先を確認
Cl\'ement Rambour, Lo\"ic Denis, Florence Tupin, H\'el\`ene Oriot, Yue Huang, Laurent Ferro-Famil(参考訳) SAR(Synthetic Aperture Radar)トモグラフィは,SAR画像のスタックから3次元ボリュームを再構成する。 TerraSAR-Xのような高解像度の衛星は、3Dモデルを作成するために組み合わせられる画像を提供する。 都市部では、所与のレーダー分解能セル内で見られる散乱器の位置を取得するために、トモグラフィ反転プロセス中にスパーシティ優先度が一般に強制される。 しかし、このような先例はしばしば都市表面の一部を見逃す。 欠落した部分は通常、地上や屋上などの平坦な地域である。 本稿では,フローネットワークにおける最適カットの計算に基づく表面分割アルゴリズムを提案する。 このセグメンテーションプロセスは、都市表面の回復を改善するために、3次元再構築フレームワークに含めることができる。 TerraSAR-Xトモグラフィデータセットのイラストレーションは、地上、fa\c{c}アーケード、屋上などの都市表面の3次元モデルを作成するアプローチの可能性を示しています。

SAR (Synthetic Aperture Radar) tomography reconstructs 3-D volumes from stacks of SAR images. High-resolution satellites such as TerraSAR-X provide images that can be combined to produce 3-D models. In urban areas, sparsity priors are generally enforced during the tomographic inversion process in order to retrieve the location of scatterers seen within a given radar resolution cell. However, such priors often miss parts of the urban surfaces. Those missing parts are typically regions of flat areas such as ground or rooftops. This paper introduces a surface segmentation algorithm based on the computation of the optimal cut in a flow network. This segmentation process can be included within the 3-D reconstruction framework in order to improve the recovery of urban surfaces. Illustrations on a TerraSAR-X tomographic dataset demonstrate the potential of the approach to produce a 3-D model of urban surfaces such as ground, fa\c{c}ades and rooftops.
翻訳日:2021-03-15 13:22:35 公開日:2021-03-12
# 弱教師付き意味セグメンテーションに対する識別領域抑圧

Discriminative Region Suppression for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2103.07246v1 )

ライセンス: Link先を確認
Beomyoung Kim, Sangeun Han. Junmo Kim(参考訳) 画像レベルラベルを用いたweakly-supervised semantic segmentation (wsss) はアノテーションコストの低減に多くの注目を集めている。 既存のWSSSメソッドは、分類ネットワークからのローカリゼーションマップを利用して擬似セグメンテーションラベルを生成する。 しかし,分類器から得られるローカライゼーションマップはスパース識別対象領域のみに焦点が当てられているため,高品質なセグメンテーションラベルを生成することは困難である。 この問題に対処するために,オブジェクトのアクティベーション領域を拡大するための簡易かつ効果的な方法である識別領域抑制 (DRS) モジュールを導入する。 DRSは識別領域への注意を抑制し、隣接する非差別領域に拡散し、密な局在地図を生成する。 DRSは追加のパラメータをほとんど必要とせず、任意のネットワークにプラグインできる。 さらに,ローカライズマップリファインメント学習という,ローカライズマップの自己強化を実現するための新たな学習戦略を提案する。 この改良学習を活かしたローカライゼーションマップは、欠落した部分の復元やノイズ自体の除去によって洗練・強化される。 その単純さと有効性から,画像レベルラベルのみを用いたPASCAL VOC 2012セグメンテーションベンチマークでmIoU 71.4%を達成した。 広範な実験が我々のアプローチの有効性を実証している。 コードはhttps://github.com/q jadud1994/DRSで入手できる。

Weakly-supervised semantic segmentation (WSSS) using image-level labels has recently attracted much attention for reducing annotation costs. Existing WSSS methods utilize localization maps from the classification network to generate pseudo segmentation labels. However, since localization maps obtained from the classifier focus only on sparse discriminative object regions, it is difficult to generate high-quality segmentation labels. To address this issue, we introduce discriminative region suppression (DRS) module that is a simple yet effective method to expand object activation regions. DRS suppresses the attention on discriminative regions and spreads it to adjacent non-discriminative regions, generating dense localization maps. DRS requires few or no additional parameters and can be plugged into any network. Furthermore, we introduce an additional learning strategy to give a self-enhancement of localization maps, named localization map refinement learning. Benefiting from this refinement learning, localization maps are refined and enhanced by recovering some missing parts or removing noise itself. Due to its simplicity and effectiveness, our approach achieves mIoU 71.4% on the PASCAL VOC 2012 segmentation benchmark using only image-level labels. Extensive experiments demonstrate the effectiveness of our approach. The code is available at https://github.com/q jadud1994/DRS.
翻訳日:2021-03-15 13:22:22 公開日:2021-03-12
# 長期保存型ブラインドビデオ一貫性の学習

Learning Long-Term Style-Preserving Blind Video Temporal Consistency ( http://arxiv.org/abs/2103.07278v1 )

ライセンス: Link先を確認
Hugo Thimonier, Julien Despois, Robin Kips, Matthieu Perrot(参考訳) ビデオの連続フレームに画像学習アルゴリズムを独立に適用しようとすると、有害なフリックが現れる傾向がある。 時間的一貫性を育み、他の時間的アーティファクトを生成し、ビデオのスタイルを視覚的に変えることを目的とした、最先端のポストプロセッシング技術。 ビデオに適用される変換に非依存な後処理モデルを提案する(例)。 スタイル転送、GANを用いた画像操作など。 ) 再帰的なニューラルネットワークの形で表される。 近年GANビデオ生成のために導入されたPing Pongプロシージャとそれに対応する損失と、知覚的損失を保存する新しいスタイルを用いてトレーニングを行った。 前者は長期的一貫性学習を改善し、後者はスタイル保存を促進する。 DAVISとvidevo.netデータセットのモデルを評価し、フリック除去に関する最先端の結果を提供し、従来の手法よりもビデオ全体のスタイルを良く維持していることを示す。

When trying to independently apply image-trained algorithms to successive frames in videos, noxious flickering tends to appear. State-of-the-art post-processing techniques that aim at fostering temporal consistency, generate other temporal artifacts and visually alter the style of videos. We propose a postprocessing model, agnostic to the transformation applied to videos (e.g. style transfer, image manipulation using GANs, etc.), in the form of a recurrent neural network. Our model is trained using a Ping Pong procedure and its corresponding loss, recently introduced for GAN video generation, as well as a novel style preserving perceptual loss. The former improves long-term temporal consistency learning, while the latter fosters style preservation. We evaluate our model on the DAVIS and videvo.net datasets and show that our approach offers state-of-the-art results concerning flicker removal, and better keeps the overall style of the videos than previous approaches.
翻訳日:2021-03-15 13:22:01 公開日:2021-03-12
# 音声の形状を求めて : 対人関係学習のための適応的枠組み

Seeking the Shape of Sound: An Adaptive Framework for Learning Voice-Face Association ( http://arxiv.org/abs/2103.07293v1 )

ライセンス: Link先を確認
Peisong Wen, Qianqian Xu, Yangbangyan Jiang, Zhiyong Yang, Yuan He and Qingming Huang(参考訳) 今日、私たちは音声と顔の関連を自動で学習する初期の進歩を目撃し、コンピュータビジョンコミュニティに新たな研究の波をもたらしました。 しかし、この線に沿った先行技術の大半(a)は、単に局所的な情報を用いてモダリティアライメントを行い、(b)異なる科目間での学習困難の多様性を無視する。 本稿では,上記の課題を共同で解決するための新しい枠組みを提案する。 a)を目標として,グローバル情報とローカル情報の両方を考慮する2段階のモダリティアライメント損失を提案する。 既存の手法と比較して、モーダリティアライメントプロセスにグローバルな損失を導入する。 損失のグローバルコンポーネントは、アイデンティティ分類によって駆動される。 理論的には、損失の最小化は、異なるアイデンティティにまたがる埋め込み間の距離を最大化し、同じアイデンティティに属する埋め込み間の距離を(ミニバッチではなく)大域的に最小化することができる。 b)を目標に、学習不能なアイデンティティを除外しながら、ハードだが価値のあるアイデンティティをよりよく探索するための動的再重み付けスキームを提案します。 実験の結果,提案手法は,音声照合,検証,検索など,複数の設定において従来の手法よりも優れていた。

Nowadays, we have witnessed the early progress on learning the association between voice and face automatically, which brings a new wave of studies to the computer vision community. However, most of the prior arts along this line (a) merely adopt local information to perform modality alignment and (b) ignore the diversity of learning difficulty across different subjects. In this paper, we propose a novel framework to jointly address the above-mentioned issues. Targeting at (a), we propose a two-level modality alignment loss where both global and local information are considered. Compared with the existing methods, we introduce a global loss into the modality alignment process. The global component of the loss is driven by the identity classification. Theoretically, we show that minimizing the loss could maximize the distance between embeddings across different identities while minimizing the distance between embeddings belonging to the same identity, in a global sense (instead of a mini-batch). Targeting at (b), we propose a dynamic reweighting scheme to better explore the hard but valuable identities while filtering out the unlearnable identities. Experiments show that the proposed method outperforms the previous methods in multiple settings, including voice-face matching, verification and retrieval.
翻訳日:2021-03-15 13:21:44 公開日:2021-03-12
# siamese infrared and visible light fusion network for rgb-t tracking

Siamese Infrared and Visible Light Fusion Network for RGB-T Tracking ( http://arxiv.org/abs/2103.07302v1 )

ライセンス: Link先を確認
Peng Jingchao, Zhao Haitao, Hu Zhengwei, Zhuang Yi, Wang Bofan(参考訳) 赤外線と可視光の感光性が異なるため、同じシーンで撮影されたrgb-t画像ペアは、非常に異なる特性を示す。 本稿では,RBG-T画像追跡のためのシアム赤外可視光融合ネットワーク(SiamIVFN)を提案する。 SiamIVFNは、補体核融合ネットワーク(CFFN)とコントリビューション集約ネットワーク(CAN)の2つの主要なサブネットワークを含んでいる。 CFFNは、赤外線画像と可視光画像から抽出した特徴を融合させるために、各層に対するフィルタを部分的に結合した2列多層畳み込み構造を用いる。 CFFNは機能レベルの融合ネットワークであり、RGB-Tイメージペアの誤配に対処することができる。 CFFNから得られる赤外および可視光特性の寄与を適応的に計算することにより、CANは様々な光条件下でロバストする。 2つのRGB-T追跡ベンチマークデータセットの実験は、提案されたSiamIVFNが最先端のパフォーマンスを達成したことを示している。 SiamIVFNの追跡速度は、現在の最速RGB-T融合トラッカーである147.6FPSである。

Due to the different photosensitive properties of infrared and visible light, the registered RGB-T image pairs shot in the same scene exhibit quite different characteristics. This paper proposes a siamese infrared and visible light fusion Network (SiamIVFN) for RBG-T image-based tracking. SiamIVFN contains two main subnetworks: a complementary-featur e-fusion network (CFFN) and a contribution-aggrega tion network (CAN). CFFN utilizes a two-stream multilayer convolutional structure whose filters for each layer are partially coupled to fuse the features extracted from infrared images and visible light images. CFFN is a feature-level fusion network, which can cope with the misalignment of the RGB-T image pairs. Through adaptively calculating the contributions of infrared and visible light features obtained from CFFN, CAN makes the tracker robust under various light conditions. Experiments on two RGB-T tracking benchmark datasets demonstrate that the proposed SiamIVFN has achieved state-of-the-art performance. The tracking speed of SiamIVFN is 147.6FPS, the current fastest RGB-T fusion tracker.
翻訳日:2021-03-15 13:21:23 公開日:2021-03-12
# 表現とジャグリング:マルチモーダル意味論のための画像、点雲、メッシュ間の情報伝達について

Juggling With Representations: On the Information Transfer Between Imagery, Point Clouds, and Meshes for Multi-Modal Semantics ( http://arxiv.org/abs/2103.07348v1 )

ライセンス: Link先を確認
Dominik Laupheimer and Norbert Haala(参考訳) 膨大な量のリモートセンシングデータの自動セマンティックセグメンテーションは、過去10年で重要なタスクとなっています。 イメージとポイントクラウド(pcs)は、特に都市地図アプリケーションにおける基本的なデータ表現である。 テクスチャ化された3Dメッシュは、PCを配線し、利用可能な画像で表面要素をテクスチャすることで、両方のデータ表現を幾何学的に統合します。 我々は,画像,pc,メッシュの実体を明示的に統合するメッシュ中心の全体構造駆動手法を提案する。 その統合的な性格から、画像中の点の可視性問題を解決するのに役立つコア表現としてメッシュを選択します。 提案されたマルチモーダル融合をバックボーンとして利用し、確立されたエンティティ関係を考慮することで、モダリティイメージ、PC、メッシュ間の情報の共有を、(i)機能転送と(ii)ラベル転送の2つの方法で実現します。 これらの方法により,各表現に対する特徴ベクトルをマルチモーダル特徴ベクトルに拡張する。 同時に、すべての表現を一貫してラベル付けし、手動のラベルの労力を単一の表現に減らします。 その結果、機械学習アルゴリズムをトレーニングし、これらのデータ表現のいずれかをマルチモーダルとシングルモーダルの両方でセマンティックにセグメント化することができます。 本論文では,マルチモーダルシーン解析の基礎となるコネクティビティ機構とその後の情報伝達について述べる。 さらに,提案手法の前提条件と限界についても詳細に検討する。 ISPRS 3Dセマンティックラベリングコンテスト(Vaihingen 3D)および独自のデータセット(Hessigheim 3D)における方法論の有効性を実証します。

The automatic semantic segmentation of the huge amount of acquired remote sensing data has become an important task in the last decade. Images and Point Clouds (PCs) are fundamental data representations, particularly in urban mapping applications. Textured 3D meshes integrate both data representations geometrically by wiring the PC and texturing the surface elements with available imagery. We present a mesh-centered holistic geometry-driven methodology that explicitly integrates entities of imagery, PC and mesh. Due to its integrative character, we choose the mesh as the core representation that also helps to solve the visibility problem for points in imagery. Utilizing the proposed multi-modal fusion as the backbone and considering the established entity relationships, we enable the sharing of information across the modalities imagery, PC and mesh in a two-fold manner: (i) feature transfer and (ii) label transfer. By these means, we achieve to enrich feature vectors to multi-modal feature vectors for each representation. Concurrently, we achieve to label all representations consistently while reducing the manual label effort to a single representation. Consequently, we facilitate to train machine learning algorithms and to semantically segment any of these data representations - both in a multi-modal and single-modal sense. The paper presents the association mechanism and the subsequent information transfer, which we believe are cornerstones for multi-modal scene analysis. Furthermore, we discuss the preconditions and limitations of the presented approach in detail. We demonstrate the effectiveness of our methodology on the ISPRS 3D semantic labeling contest (Vaihingen 3D) and a proprietary data set (Hessigheim 3D).
翻訳日:2021-03-15 13:21:06 公開日:2021-03-12
# モノクロ擬似3次元物体追跡

Monocular Quasi-Dense 3D Object Tracking ( http://arxiv.org/abs/2103.07351v1 )

ライセンス: Link先を確認
Hou-Ning Hu, Yung-Hsu Yang, Tobias Fischer, Trevor Darrell, Fisher Yu, Min Sun(参考訳) 周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。 移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。 オブジェクトアソシエーションは、擬似密接な類似性学習を利用して、様々なポーズや視点のオブジェクトを識別する。 初期2Dアソシエーション後,ロバストなインスタンスアソシエーションと3次元軌跡予測に3Dバウンディングボックスの奥行きヒューリスティックスを利用する。 最後に、LSTMに基づく物体速度学習モジュールは、より正確な運動外挿のための長期軌跡情報を集約する。 提案するシミュレーションデータと,kitti,nuscenes,waym oデータセットを含む実世界のベンチマーク実験から,我々の追跡フレームワークがロバストなオブジェクト関連付けと都市走行シナリオの追跡を提供することが示された。 Waymo Openベンチマークでは、3Dトラッキングと3D検出の課題において、初めてカメラのみのベースラインを確立する。 当社の準強度3Dトラッキングパイプラインは、nuScenes 3Dトラッキングベンチマークの印象的な改善を達成し、公開されたすべての方法の中で最高のビジョンのみの提出の精度を5倍近く追跡します。 私たちのコード、データ、トレーニングされたモデルはhttps://github.com/s yscv/qd-3dtで利用可能です。

A reliable and accurate 3D tracking framework is essential for predicting future locations of surrounding objects and planning the observer's actions in numerous applications such as autonomous driving. We propose a framework that can effectively associate moving objects over time and estimate their full 3D bounding box information from a sequence of 2D images captured on a moving platform. The object association leverages quasi-dense similarity learning to identify objects in various poses and viewpoints with appearance cues only. After initial 2D association, we further utilize 3D bounding boxes depth-ordering heuristics for robust instance association and motion-based 3D trajectory prediction for re-identification of occluded vehicles. In the end, an LSTM-based object velocity learning module aggregates the long-term trajectory information for more accurate motion extrapolation. Experiments on our proposed simulation data and real-world benchmarks, including KITTI, nuScenes, and Waymo datasets, show that our tracking framework offers robust object association and tracking on urban-driving scenarios. On the Waymo Open benchmark, we establish the first camera-only baseline in the 3D tracking and 3D detection challenges. Our quasi-dense 3D tracking pipeline achieves impressive improvements on the nuScenes 3D tracking benchmark with near five times tracking accuracy of the best vision-only submission among all published methods. Our code, data and trained models are available at https://github.com/S ysCV/qd-3dt.
翻訳日:2021-03-15 13:20:36 公開日:2021-03-12
# PLADE-Net:Neural Positional Encoding と Distilled Matting Loss による自己監督単視深度推定のためのピクセルレベルの精度向上

PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View Depth Estimation with Neural Positional Encoding and Distilled Matting Loss ( http://arxiv.org/abs/2103.07362v1 )

ライセンス: Link先を確認
Juan Luis Gonzalez Bello, Munchurl Kim(参考訳) 本稿では,plade-netと呼ばれる,自己教師付き単視点画素レベル精度深度推定ネットワークを提案する。 PLADE-Netは、挑戦的なKITTIデータセットの$\delta^1$メトリックで95\%を超える、前例のない精度レベルを示す最初の作品です。 私たちのPLADE-Netは、ニューラルポジショナルエンコーディングを備えた新しいネットワークアーキテクチャと、マッティングラプラシアンのクローズドフォームソリューションを借りてステレオ画像からピクセルレベルの正確な深度推定を学ぶ新しい損失関数に基づいています。 ニューラル位置符号化により、PLADE-Netは、レンズや投射歪みなどの位置固有の画像特性に関するネットワーク推論を可能とし、より一貫した深度推定を可能にします。 新しい蒸留マッティングラプラシアン損失により,ネットワークは物体境界の鋭い深さとより均一な深さを,高度に均質な領域で予測できる。 提案手法は,従来の自己監視型シングルビュー深度推定法を,困難であるKITTIデータセットに対して,前例のない精度で大きなマージンで上回っている。 さらに, ステレオ入力に対してナレーション的に拡張されたPLADE-Netは, 1次元相関や3次元畳み込み, 空間ピラミッドプールなどの高度なブロックがなくても, 最新の自己教師型ステレオ手法よりも優れている。 本手法の有効性をKITTI、CityScapes、Make3Dデータセット上で支援する広範なアブレーション研究と実験を紹介します。

In this paper, we propose a self-supervised single-view pixel-level accurate depth estimation network, called PLADE-Net. The PLADE-Net is the first work that shows unprecedented accuracy levels, exceeding 95\% in terms of the $\delta^1$ metric on the challenging KITTI dataset. Our PLADE-Net is based on a new network architecture with neural positional encoding and a novel loss function that borrows from the closed-form solution of the matting Laplacian to learn pixel-level accurate depth estimation from stereo images. Neural positional encoding allows our PLADE-Net to obtain more consistent depth estimates by letting the network reason about location-specific image properties such as lens and projection distortions. Our novel distilled matting Laplacian loss allows our network to predict sharp depths at object boundaries and more consistent depths in highly homogeneous regions. Our proposed method outperforms all previous self-supervised single-view depth estimation methods by a large margin on the challenging KITTI dataset, with unprecedented levels of accuracy. Furthermore, our PLADE-Net, naively extended for stereo inputs, outperforms the most recent self-supervised stereo methods, even without any advanced blocks like 1D correlations, 3D convolutions, or spatial pyramid pooling. We present extensive ablation studies and experiments that support our method's effectiveness on the KITTI, CityScapes, and Make3D datasets.
翻訳日:2021-03-15 13:20:11 公開日:2021-03-12
# マルチビュー自己照合による情報最大化クラスタリング

Information Maximization Clustering via Multi-View Self-Labelling ( http://arxiv.org/abs/2103.07368v1 )

ライセンス: Link先を確認
Foivos Ntelemis, Yaochu Jin, Spencer A. Thomas(参考訳) 画像クラスタリングは、人間の監督なしにアノテーションを生成することを目的とした、特に難しいコンピュータビジョンタスクです。 近年の進歩は、イメージクラスタリングにおける自己教師付き学習戦略の利用に焦点を当て、まず価値あるセマンティクスを学習し、次にイメージ表現をクラスタリングする。 しかし、これらの多相アルゴリズムは計算時間を増加させ、最終的な性能は第1段階に依存します。 自己教師型アプローチを拡張して,意味のある表現を同時に学習し,対応するアノテーションを割り当てる単一フェーズクラスタリング手法を提案する。 これは、離散表現を分類器ネットを通じて自己監督パラダイムに統合することで達成される。 具体的には,提案手法は相互情報を用い,統合的離散表現と離散確率分布との依存性を最大化する。 離散確率分布は、学習した潜在表現と訓練可能なプロトタイプの集合を比較して自己教師過程を導出する。 分類器の学習性能を高めるために,複数ループビュー間で相互情報を共同で適用する。 本論文では,CIFAR-10およびCIFAR-100/20データセットの平均精度が89.1%と49.0%と最新技術を上回ることを実証した。 最後に,提案手法はパラメータ設定に対して魅力的なロバスト性を示し,他のデータセットに適用できることを示す。

Image clustering is a particularly challenging computer vision task, which aims to generate annotations without human supervision. Recent advances focus on the use of self-supervised learning strategies in image clustering, by first learning valuable semantics and then clustering the image representations. These multiple-phase algorithms, however, increase the computational time and their final performance is reliant on the first stage. By extending the self-supervised approach, we propose a novel single-phase clustering method that simultaneously learns meaningful representations and assigns the corresponding annotations. This is achieved by integrating a discrete representation into the self-supervised paradigm through a classifier net. Specifically, the proposed clustering objective employs mutual information, and maximizes the dependency between the integrated discrete representation and a discrete probability distribution. The discrete probability distribution is derived though the self-supervised process by comparing the learnt latent representation with a set of trainable prototypes. To enhance the learning performance of the classifier, we jointly apply the mutual information across multi-crop views. Our empirical results show that the proposed framework outperforms state-of-the-art techniques with the average accuracy of 89.1% and 49.0%, respectively, on CIFAR-10 and CIFAR-100/20 datasets. Finally, the proposed method also demonstrates attractive robustness to parameter settings, making it ready to be applicable to other datasets.
翻訳日:2021-03-15 13:19:41 公開日:2021-03-12
# 腹腔鏡画像のリアルタイム非剛性モザイク

Real-time Nonrigid Mosaicking of Laparoscopy Images ( http://arxiv.org/abs/2103.07414v1 )

ライセンス: Link先を確認
Haoyin Zhou, Jagadeesan Jayender(参考訳) 腹腔鏡検査画像の視野を広げる能力は、外科医が解剖学的コンテキストをよりよく理解するのに役立ちます。 しかし, 組織変形, 複雑なカメラ運動, 有意な3次元解剖学的表面のため, 画像画素は非剛性であり, 従来のモザイク法はリアルタイムでの腹腔鏡像に対して頑健に機能しない。 そこで本論文では, 画素の変形を補い, リアルタイムに画像モザイキングを行うことのできる, 新規な2次元(2次元)非リジッド同時局在化マッピング(SLAM)システムを提案する。 この2次元非剛性SLAMシステムの鍵となるアルゴリズムは期待最大化と2重四元数(EMDQ)アルゴリズムであり、スパース像とノイズ像の特徴マッチングから滑らかで密度の高い変形場をリアルタイムで生成することができる。 不確実性に基づくループ閉鎖法を提案し、累積誤差を低減した。 リアルタイム性能を達成するため、CPUおよびGPU並列計算技術は、すべてのピクセルの高密度モザイクに使用される。 合成データとtextit{in vivo} を用いた実験結果から, モザイク法の有効性と精度が示された。

The ability to extend the field of view of laparoscopy images can help the surgeons to obtain a better understanding of the anatomical context. However, due to tissue deformation, complex camera motion and significant three-dimensional (3D) anatomical surface, image pixels may have non-rigid deformation and traditional mosaicking methods cannot work robustly for laparoscopy images in real-time. To solve this problem, a novel two-dimensional (2D) non-rigid simultaneous localization and mapping (SLAM) system is proposed in this paper, which is able to compensate for the deformation of pixels and perform image mosaicking in real-time. The key algorithm of this 2D non-rigid SLAM system is the expectation maximization and dual quaternion (EMDQ) algorithm, which can generate smooth and dense deformation field from sparse and noisy image feature matches in real-time. An uncertainty-based loop closing method has been proposed to reduce the accumulative errors. To achieve real-time performance, both CPU and GPU parallel computation technologies are used for dense mosaicking of all pixels. Experimental results on \textit{in vivo} and synthetic data demonstrate the feasibility and accuracy of our non-rigid mosaicking method.
翻訳日:2021-03-15 13:18:53 公開日:2021-03-12
# 確率的二段階検出

Probabilistic two-stage detection ( http://arxiv.org/abs/2103.07461v1 )

ライセンス: Link先を確認
Xingyi Zhou, Vladlen Koltun, Philipp Kr\"ahenb\"uhl(参考訳) 2段階物体検出の確率的解釈を開発する。 この確率論的解釈が,多くの経験的実践を動機づけていることを示す。 また、2段階検出パイプラインの変更も示唆している。 具体的には、第一段階は適切なオブジェクト-vs-バックグラウンドの確率を推測し、検出器の全体的なスコアを知らせる。 標準領域提案ネットワーク(RPN)は、これを十分に推測することができないが、多くの1段検出器が可能である。 現状の1段階検出器から2段階の確率的検出器を構築する方法を示す。 その結果、検出器は1段と2段の両方の前駆体よりも高速で精度が高い。 当社の検出器は、単スケール試験でCOCO試験で56.4 mAPを達成し、公表されたすべての結果を上回る性能を発揮します。 当社の検出器は軽量バックボーンを使用して、Titan Xpの33 fpsでCOCOで49.2 mAPを達成し、人気のYOLOv4モデルよりも優れています。

We develop a probabilistic interpretation of two-stage object detection. We show that this probabilistic interpretation motivates a number of common empirical training practices. It also suggests changes to two-stage detection pipelines. Specifically, the first stage should infer proper object-vs-background likelihoods, which should then inform the overall score of the detector. A standard region proposal network (RPN) cannot infer this likelihood sufficiently well, but many one-stage detectors can. We show how to build a probabilistic two-stage detector from any state-of-the-art one-stage detector. The resulting detectors are faster and more accurate than both their one- and two-stage precursors. Our detector achieves 56.4 mAP on COCO test-dev with single-scale testing, outperforming all published results. Using a lightweight backbone, our detector achieves 49.2 mAP on COCO at 33 fps on a Titan Xp, outperforming the popular YOLOv4 model.
翻訳日:2021-03-15 13:18:29 公開日:2021-03-12
# 3Dセマンティックシーンの完成:調査

3D Semantic Scene Completion: a Survey ( http://arxiv.org/abs/2103.07466v1 )

ライセンス: Link先を確認
Luis Roldao, Raoul de Charette, Anne Verroust-Blondet(参考訳) Semantic Scene Completion(SSC)は、部分的なスパース入力を想定して、シーンの完全なジオメトリとセマンティクスを共同で推定することを目的とする。 大規模な3Dデータセットの乗算後、SSCは未解決の課題を抱えているため、研究コミュニティで大きな勢いを得ています。 具体的には、SSCは大きな未観測領域の曖昧な完備化と、地上の真実の弱い監視信号に関係している。 これにより、この問題に関する論文が大幅に増えた。 本調査は,SSC文献を手法とデータセットの両方で重要な分析を行う技術を特定し,比較し,分析することを目的としている。 本論文を通じて,著者が行ったすべての選択を網羅し,研究の残りの道筋を強調しながら,既存の作品の詳細な分析を行う。 最も人気のあるデータセット上のSoAのSSCパフォーマンスも評価され、分析されます。

Semantic Scene Completion (SSC) aims to jointly estimate the complete geometry and semantics of a scene, assuming partial sparse input. In the last years following the multiplication of large-scale 3D datasets, SSC has gained significant momentum in the research community because it holds unresolved challenges. Specifically, SSC lies in the ambiguous completion of large unobserved areas and the weak supervision signal of the ground truth. This led to a substantially increasing number of papers on the matter. This survey aims to identify, compare and analyze the techniques providing a critical analysis of the SSC literature on both methods and datasets. Throughout the paper, we provide an in-depth analysis of the existing works covering all choices made by the authors while highlighting the remaining avenues of research. SSC performance of the SoA on the most popular datasets is also evaluated and analyzed.
翻訳日:2021-03-15 13:18:14 公開日:2021-03-12
# 連続学習の共分散空間における訓練ネットワーク

Training Networks in Null Space of Covariance for Continual Learning ( http://arxiv.org/abs/2103.07113v1 )

ライセンス: Link先を確認
Shipeng Wang, Xiaorong Li, Jian Sun, Zongben Xu(参考訳) 連続学習の設定では、ネットワークは一連のタスクで訓練され、壊滅的な忘れに苦しんでいます。 連続学習におけるネットワークの可塑性と安定性のバランスをとるため,本論文では,ネットワークパラメータを逐次最適化するadam-nsclと呼ばれる新しいネットワーク学習アルゴリズムを提案する。 まず,連続学習におけるネットワーク安定性と可塑性を達成するための2つの数学的条件を提案する。 これらに基づいて、Adamにより候補パラメータ更新を生成するネットワークトレーニングプロセスにおいて、候補パラメータ更新をすべての前のタスクの近似ヌル空間に投影することで、シーケンシャルタスクのためのネットワークトレーニングが簡単に実現できる。 近似ヌル空間は、各線形層に対する前のタスクの全ての入力特徴の非中心共分散行列に特異値分解を適用することで導出することができる。 効率のために、各タスクを学習した後、非中心共分散行列を漸進的に計算することができる。 また,各線形層における近似ヌル空間の合理性を実験的に検証する。 我々は,CIFAR-100とTinyImageNetのベンチマークデータセットを用いた連続学習のためのトレーニングネットワークにアプローチを適用し,提案手法が最先端の連続学習手法よりも優れているか,あるいは適合しているかを示唆した。

In the setting of continual learning, a network is trained on a sequence of tasks, and suffers from catastrophic forgetting. To balance plasticity and stability of network in continual learning, in this paper, we propose a novel network training algorithm called Adam-NSCL, which sequentially optimizes network parameters in the null space of previous tasks. We first propose two mathematical conditions respectively for achieving network stability and plasticity in continual learning. Based on them, the network training for sequential tasks can be simply achieved by projecting the candidate parameter update into the approximate null space of all previous tasks in the network training process, where the candidate parameter update can be generated by Adam. The approximate null space can be derived by applying singular value decomposition to the uncentered covariance matrix of all input features of previous tasks for each linear layer. For efficiency, the uncentered covariance matrix can be incrementally computed after learning each task. We also empirically verify the rationality of the approximate null space at each linear layer. We apply our approach to training networks for continual learning on benchmark datasets of CIFAR-100 and TinyImageNet, and the results suggest that the proposed approach outperforms or matches the state-ot-the-art continual learning approaches.
翻訳日:2021-03-15 13:17:39 公開日:2021-03-12
# Deep Networkの時系列表現の可視化

Visualising Deep Network's Time-Series Representations ( http://arxiv.org/abs/2103.07176v1 )

ライセンス: Link先を確認
B{\l}a\.zej Leporowski and Alexandros Iosifidis(参考訳) 機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。 モデルが特定の予測をした理由を視覚化して説明できる方法はいくつかあります。 しかし、これらの方法はモデルの入力と出力の間の因果関係を、モデルがどのようにしてデータを表現するかを示さずに見ることができる。 本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。 高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。 大規模なデータセットを素早く1つのプロット上で視覚化することで、学習したデータ表現をユーザが簡単に比較できるようになる。 本手法は, 既知の手法と証明された手法を組み合わせて, 時系列分類器モデルの内部動作に関する新たな知見を提供する。

Despite the popularisation of the machine learning models, more often than not they still operate as black boxes with no insight into what is happening inside the model. There exist a few methods that allow to visualise and explain why the model has made a certain prediction. Those methods, however, allow viewing the causal link between the input and output of the model without presenting how the model learns to represent the data. In this paper, a method that addresses that issue is proposed, with a focus on visualising multi-dimensional time-series data. Experiments on a high-frequency stock market dataset show that the method provides fast and discernible visualisations. Large datasets can be visualised quickly and on one plot, which makes it easy for a user to compare the learned representations of the data. The developed method successfully combines known and proven techniques to provide novel insight into the inner workings of time-series classifier models.
翻訳日:2021-03-15 13:17:18 公開日:2021-03-12
# 多元経路探索のためのペアワイズ対称性推論

Pairwise Symmetry Reasoning for Multi-Agent Path Finding Search ( http://arxiv.org/abs/2103.07116v1 )

ライセンス: Link先を確認
Jiaoyang Li, Daniel Harabor, Peter J. Stuckey, Sven Koenig(参考訳) マルチエージェントパス探索(mapf)は,協調エージェントのチームに対して,衝突のないパスを計画することを求めるコンビネーション問題である。 本研究では, mapf が解くのが難しい理由の1つとして, 2 つのエージェントがそれぞれ異なる経路を持ち, それぞれが有望に見えるが, それらの組み合わせが衝突を生じさせる, ペアワイズ対称性と呼ばれる現象があげられる。 いくつかのペアワイズ対称性のクラスを同定し、各クラスが実際に一般的に発生することを示し、衝突解決の可能な空間において指数的爆発を引き起こすことを示し、現在の最先端(有界)MAPFアルゴリズムに対する受け入れがたいランタイムを生み出す。 単一分岐ステップにおける対衝突経路の全ての置換を排除すべく, 特殊制約を用いて, 対称性の発生を効率的に検出し, 解決する様々な推論手法を提案する。 私たちは、これらのアイデアを最先端のMAPFアルゴリズムCBSの文脈で実装し、対称性推論技術の追加は、その性能に劇的なプラスの効果をもたらすことができることを示しています - 我々は、最大4桁のノード拡張の減少と最大30倍のスケーラビリティの増加を報告します。 これらの利益により、これまでCBSに到達できなかった様々な挑戦的なMAPFインスタンスを最適に解決することができます。

Multi-Agent Path Finding (MAPF) is a challenging combinatorial problem that asks us to plan collision-free paths for a team of cooperative agents. In this work, we show that one of the reasons why MAPF is so hard to solve is due to a phenomenon called pairwise symmetry, which occurs when two agents have many different paths to their target locations, all of which appear promising, but every combination of them results in a collision. We identify several classes of pairwise symmetries and show that each one arises commonly in practice and can produce an exponential explosion in the space of possible collision resolutions, leading to unacceptable runtimes for current state-of-the-art (bounded-sub)optimal MAPF algorithms. We propose a variety of reasoning techniques that detect the symmetries efficiently as they arise and resolve them by using specialized constraints to eliminate all permutations of pairwise colliding paths in a single branching step. We implement these ideas in the context of the leading optimal MAPF algorithm CBS and show that the addition of the symmetry reasoning techniques can have a dramatic positive effect on its performance - we report a reduction in the number of node expansions by up to four orders of magnitude and an increase in scalability by up to thirty times. These gains allow us to solve to optimality a variety of challenging MAPF instances previously considered out of reach for CBS.
翻訳日:2021-03-15 13:17:06 公開日:2021-03-12
# Sentinel: ミュータント還元戦略の生成のためのハイパーヒューリスティック

Sentinel: A Hyper-Heuristic for the Generation of Mutant Reduction Strategies ( http://arxiv.org/abs/2103.07241v1 )

ライセンス: Link先を確認
Giovani Guizzo, Federica Sarro, Jens Krinke, Silvia Regina Vergilio(参考訳) 突然変異テストはソフトウェアテストスイートの評価と強化に有効なアプローチであるが、その採用はミュータントの実行計算コストによって制限されている。 このコストを削減するためのいくつかの戦略が提案されている。 しかし、テスト中のソフトウェア(SUT)に応じてアドホックな手動選択と構成を必要とすることが多いため、これらのいずれもすべてのシナリオに有効であることが証明されていません。 本稿では,新しいSUT毎に最適なコスト削減戦略を自動生成する,Sentinelと呼ばれる新しい多目的進化的ハイパーヒューリスティック手法を提案する。 我々はSentinelを、10のオープンソース実世界のソフトウェアシステムの40リリースと、ベースラインと最先端の戦略をベンチマークとして、徹底した実証研究によって評価する。 総計4,800の実験を行い,最近の文献のベストプラクティスに従って,質指標と統計的意義試験の両方を用いて結果を評価する。 その結果、Sentinelが生成した戦略は、95%のケースで常に大きな効果サイズでベースライン戦略を上回ります。 88%の症例で最先端の戦略よりも統計的に優れた結果が得られ、95%の症例で大きな効果が得られた。 また,本研究では,Sentinelが特定のソフトウェアバージョンに対して生成した突然変異戦略を,95%のケースにおいて,その後の開発バージョンの品質を損なうことなく利用できることを示した。 これらの結果から,Sentinelは変異検査コストを低減させる突然変異戦略を自動生成できることが示唆された。 したがって、テスターの肩から離陸すると、各SUTの戦略を手動で選択して設定する負担がかかります。

Mutation testing is an effective approach to evaluate and strengthen software test suites, but its adoption is currently limited by the mutants' execution computational cost. Several strategies have been proposed to reduce this cost (a.k.a. mutation cost reduction strategies), however none of them has proven to be effective for all scenarios since they often need an ad-hoc manual selection and configuration depending on the software under test (SUT). In this paper, we propose a novel multi-objective evolutionary hyper-heuristic approach, dubbed Sentinel, to automate the generation of optimal cost reduction strategies for every new SUT. We evaluate Sentinel by carrying out a thorough empirical study involving 40 releases of 10 open-source real-world software systems and both baseline and state-of-the-art strategies as a benchmark. We execute a total of 4,800 experiments, and evaluate their results with both quality indicators and statistical significance tests, following the most recent best practice in the literature. The results show that strategies generated by Sentinel outperform the baseline strategies in 95% of the cases always with large effect sizes. They also obtain statistically significantly better results than state-of-the-art strategies in 88% of the cases, with large effect sizes for 95% of them. Also, our study reveals that the mutation strategies generated by Sentinel for a given software version can be used without any loss in quality for subsequently developed versions in 95% of the cases. These results show that Sentinel is able to automatically generate mutation strategies that reduce mutation testing cost without affecting its testing effectiveness (i.e. mutation score), thus taking off from the tester's shoulders the burden of manually selecting and configuring strategies for each SUT.
翻訳日:2021-03-15 13:16:43 公開日:2021-03-12
# 友達: 近所のコヒーレンスを使って、Twitterで潜在的なイデオロギー機能を広める

Your most telling friends: Propagating latent ideological features on Twitter using neighborhood coherence ( http://arxiv.org/abs/2103.07250v1 )

ライセンス: Link先を確認
Pedro Ramaciotti Morales, Jean-Philippe Cointet and Julio Laborde(参考訳) ネットワークにおける多次元スケーリングにより、ある特徴空間にノードを埋め込むことで、その構造に関する潜伏情報を発見することができる。 twitterのようなソーシャルネットワークのユーザのためのイデオロギースケーリングもその例だが、同様の設定は、他のネットワークやメディアプラットフォームやeコマースでも多様なアプリケーションを含むことができる。 ソーシャルネットワークにおけるイデオロギースケーリング手法の文献は、機能空間の解釈性を提供するノードへのスケーリング手順を制限している。Twitterでは、議会派とそのフォロワーのサブネットワークを考慮することが一般的である。 これにより、潜在的な特徴を、議会議員の地位を検査するイデオロギー関連の概念の指標として解釈することができる。 有意義な特徴を推測するのに有効であるが、これは一般にこれらのサブネットワークに抑制され、国全体の偏光測定やその進化などの興味深いアプリケーションを制限する。 我々は,これらサブネットワークを超えてイデオロギー的特徴を広める2つの方法を提案する。1つはホモフィリー(リンクされた利用者は類似したイデオロギーを持つ)と、もう1つは構造的類似性(類似した近傍を持つノードは類似したイデオロギーを持つ)である。 提案手法では,近傍イデオロギーコヒーレンスの概念を伝播のパラメータとして活用する。 Twitterデータを用いて,370万ユーザを対象としたイデオロギースケーリングを作成し,人口650万ユーザを対象とした2種類の伝搬方法の解析を行った。 我々は、コヒーレンスが考慮されると、ユーザーのイデオロギーは、近隣の隣人よりも、類似の地区を持つ人々から推定される。

Multidimensional scaling in networks allows for the discovery of latent information about their structure by embedding nodes in some feature space. Ideological scaling for users in social networks such as Twitter is an example, but similar settings can include diverse applications in other networks and even media platforms or e-commerce. A growing literature of ideology scaling methods in social networks restricts the scaling procedure to nodes that provide interpretability of the feature space: on Twitter, it is common to consider the sub-network of parliamentarians and their followers. This allows to interpret inferred latent features as indices for ideology-related concepts inspecting the position of members of parliament. While effective in inferring meaningful features, this is generally restrained to these sub-networks, limiting interesting applications such as country-wide measurement of polarization and its evolution. We propose two methods to propagate ideological features beyond these sub-networks: one based on homophily (linked users have similar ideology), and the other on structural similarity (nodes with similar neighborhoods have similar ideologies). In our methods, we leverage the concept of neighborhood ideological coherence as a parameter for propagation. Using Twitter data, we produce an ideological scaling for 370K users, and analyze the two families of propagation methods on a population of 6.5M users. We find that, when coherence is considered, the ideology of a user is better estimated from those with similar neighborhoods, than from their immediate neighbors.
翻訳日:2021-03-15 13:16:15 公開日:2021-03-12
# 協調型AIのリスクモデリングに向けて

Towards Risk Modeling for Collaborative AI ( http://arxiv.org/abs/2103.07460v1 )

ライセンス: Link先を確認
Matteo Camilli, Michael Felderer, Andrea Giusti, Dominik T. Matt, Anna Perini, Barbara Russo, Angelo Susi(参考訳) コラボレーティブaiシステムは、共通の目標を達成するために、共有空間で人間と協力することを目指している。 この設定は、人間を傷つける可能性のある接触により、潜在的に危険な状況を引き起こす。 したがって、要求ドメイン固有の標準や規制に強く準拠したシステムを構築することが最重要となる。 このようなシステムがトップダウンルールベースのAIではなく、機械学習コンポーネントに依存している場合、この目標の達成に関連する課題はさらに深刻になります。 本稿では,協調型AIシステムに適したリスクモデリング手法を提案する。 リスクモデルは、人間を危険に晒す可能性のある目標、リスクイベント、ドメイン固有の指標を含む。 リスクモデルを利用して、実行時の証拠から抽出した洞察を通じてリスクモデルに供給する保証メソッドを駆動する。 提案手法は,ロボットアームに視覚知覚コンポーネントを組み込んだ産業用4.0の動作例を用いて記述し,人間の操作者と協力して生産関連タスクを行う。

Collaborative AI systems aim at working together with humans in a shared space to achieve a common goal. This setting imposes potentially hazardous circumstances due to contacts that could harm human beings. Thus, building such systems with strong assurances of compliance with requirements domain specific standards and regulations is of greatest importance. Challenges associated with the achievement of this goal become even more severe when such systems rely on machine learning components rather than such as top-down rule-based AI. In this paper, we introduce a risk modeling approach tailored to Collaborative AI systems. The risk model includes goals, risk events and domain specific indicators that potentially expose humans to hazards. The risk model is then leveraged to drive assurance methods that feed in turn the risk model through insights extracted from run-time evidence. Our envisioned approach is described by means of a running example in the domain of Industry 4.0, where a robotic arm endowed with a visual perception component, implemented with machine learning, collaborates with a human operator for a production-relevant task.
翻訳日:2021-03-15 13:15:49 公開日:2021-03-12
# マルチモーダルデータ解析のための直交統計推論

Orthogonal Statistical Inference for Multimodal Data Analysis ( http://arxiv.org/abs/2103.07088v1 )

ライセンス: Link先を確認
Xiaowu Dai and Lexin Li(参考訳) マルチモーダルイメージングは神経科学の研究を変えた。 前例のない機会を提供する一方で、深刻な課題も課している。 特に、単純な関連モデルに起因する解釈可能性の利点と、高度に適応的な非線形モデルによって達成される柔軟性を組み合わせることは困難です。 本稿では,マルチモーダルデータ解析のために,ニーマン直交性に基づく直交統計推論フレームワークと分解直交性の形式を提案する。 我々は、関心の主モダリティと追加の補助モダリティが存在するほとんどすべてのマルチモーダル研究において自然に発生する設定を目標とする。 推定一次パラメータのroot-$n$-consistency と漸近正規性、半パラメトリック推定効率、予測された一次様相効果の信頼区間の漸近的正直性を確立することに成功した。 私たちの提案は、モデル解釈可能性とモデルの柔軟性の両方を十分に楽しんでいます。 また、マルチモーダルデータ統合のための既存の統計手法と、高次元推論のための直交性に基づく方法とは大きく異なる。 シミュレーションおよびアルツハイマー病のマルチモーダル・ニューロイメージング研究への応用により,本手法の有効性を実証する。

Multimodal imaging has transformed neuroscience research. While it presents unprecedented opportunities, it also imposes serious challenges. Particularly, it is difficult to combine the merits of interpretability attributed to a simple association model and flexibility achieved by a highly adaptive nonlinear model. In this article, we propose an orthogonal statistical inferential framework, built upon the Neyman orthogonality and a form of decomposition orthogonality, for multimodal data analysis. We target the setting that naturally arises in almost all multimodal studies, where there is a primary modality of interest, plus additional auxiliary modalities. We successfully establish the root-$N$-consistency and asymptotic normality of the estimated primary parameter, the semi-parametric estimation efficiency, and the asymptotic honesty of the confidence interval of the predicted primary modality effect. Our proposal enjoys, to a good extent, both model interpretability and model flexibility. It is also considerably different from the existing statistical methods for multimodal data integration, as well as the orthogonality-based methods for high-dimensional inferences. We demonstrate the efficacy of our method through both simulations and an application to a multimodal neuroimaging study of Alzheimer's disease.
翻訳日:2021-03-15 13:15:34 公開日:2021-03-12
# 海馬形成誘発確率生成モデル

Hippocampal formation-inspired probabilistic generative model ( http://arxiv.org/abs/2103.07356v1 )

ライセンス: Link先を確認
Akira Taniguchi, Ayako Fukawa, Hiroshi Yamakawa(参考訳) 構造拘束型界面分解法による海馬形成(HPF)誘導確率生成モデル(HPF-PGM)の構築を行った。 PGMで脳領域をモデル化することで、全脳PGMとして統合できるモジュールとして位置づけられています。 ロボット工学におけるSLAM(同時局在とマッピング)と神経科学におけるHPFの発見の関係について考察する。 さらに,脳にインスパイアされたSLAM,空間概念形成,深部生成モデルなど,HPFおよび各種計算モデルのモデル化について検討した。 HPF-PGMは、従来のSLAMモデルとは対照的に、HPFの解剖学的構造と機能に非常に整合性がある計算モデルである。 脳を参照することにより、脳内皮質から海馬への自己中心的/高度中心的情報の統合と離散イベントキューの使用の重要性を示唆する。

We constructed a hippocampal formation (HPF)-inspired probabilistic generative model (HPF-PGM) using the structure-constraine d interface decomposition method. By modeling brain regions with PGMs, this model is positioned as a module that can be integrated as a whole-brain PGM. We discuss the relationship between simultaneous localization and mapping (SLAM) in robotics and the findings of HPF in neuroscience. Furthermore, we survey the modeling for HPF and various computational models, including brain-inspired SLAM, spatial concept formation, and deep generative models. The HPF-PGM is a computational model that is highly consistent with the anatomical structure and functions of the HPF, in contrast to typical conventional SLAM models. By referencing the brain, we suggest the importance of the integration of egocentric/allocentr ic information from the entorhinal cortex to the hippocampus and the use of discrete-event queues.
翻訳日:2021-03-15 13:15:16 公開日:2021-03-12
# 自動運転車の安全試験シナリオの生成と評価

Generating and Characterizing Scenarios for Safety Testing of Autonomous Vehicles ( http://arxiv.org/abs/2103.07403v1 )

ライセンス: Link先を確認
Zahra Ghodsi, Siva Kumar Sastry Hari, Iuri Frosio, Timothy Tsai, Alejandro Troccoli, Stephen W. Keckler, Siddharth Garg, Anima Anandkumar(参考訳) 現実世界のデータから興味深いシナリオを抽出し、障害ケースを生成することは、自律システムの開発とテストにとって重要です。 最先端運転シミュレータを用いて,テストシナリオのキャラクタリゼーションと生成の両方を行う効率的なメカニズムを提案する。 いずれのシナリオにおいても,本手法は可能な運転経路のセットを生成し,異なる時刻に開始可能な安全運転経路を識別し,シナリオの複雑さを定量化するメトリクスを計算する。 本手法を用いて、次世代シミュレーション(NGSIM)プロジェクトの実際の運転データとシミュレーションで生成された対比シナリオを特徴づけます。 事故回避の複雑さに基づいてメトリクスを定義してシナリオをランク付けし、事故発生の可能性を最小限に抑えるための洞察を提供します。 提案する指標と人間の直観との間に強い相関関係を示す。

Extracting interesting scenarios from real-world data as well as generating failure cases is important for the development and testing of autonomous systems. We propose efficient mechanisms to both characterize and generate testing scenarios using a state-of-the-art driving simulator. For any scenario, our method generates a set of possible driving paths and identifies all the possible safe driving trajectories that can be taken starting at different times, to compute metrics that quantify the complexity of the scenario. We use our method to characterize real driving data from the Next Generation Simulation (NGSIM) project, as well as adversarial scenarios generated in simulation. We rank the scenarios by defining metrics based on the complexity of avoiding accidents and provide insights into how the AV could have minimized the probability of incurring an accident. We demonstrate a strong correlation between the proposed metrics and human intuition.
翻訳日:2021-03-15 13:15:02 公開日:2021-03-12
# DP画像:特徴空間における画像データの差分プライバシー

DP-Image: Differential Privacy for Image Data in Feature Space ( http://arxiv.org/abs/2103.07073v1 )

ライセンス: Link先を確認
Bo Liu, Ming Ding, Hanyu Xue, Tianqing Zhu, Dayong Ye, Li Song, Wanlei Zhou(参考訳) ソーシャルネットワーク、政府データベース、産業アプリケーションにおける画像の過剰使用は、大きなプライバシーリスクをもたらし、国民からの深刻な懸念を引き起こした。 差分プライバシー(DP)は、証明可能なプライバシー保証を提供することができる広く受け入れられている基準ですが、画像などの非構造化データへのDPの適用は、任意の2つの画像間の有意義な違いの明確な資格の欠如のために自明ではありません。 本稿では,画像中のユーザの個人情報を人間とAIの双方の敵から保護する,DP-imageと呼ばれる新たな画像認識型差分プライバシーの概念を初めて紹介する。 DP-Image定義は、画像の特徴空間ベクトル間の距離測定を考慮して、従来の差分プライバシーの拡張版として定式化されている。 次に,画像特徴ベクトルに雑音を加えることでDP画像を実現する機構を提案する。 最後に,顔画像プライバシに関するケーススタディを用いて実験を行う。 提案手法は, 画像に対して優れたDP保護を提供し, 顔への歪みを制御可能であることを示す。

The excessive use of images in social networks, government databases, and industrial applications has posed great privacy risks and raised serious concerns from the public. Even though differential privacy (DP) is a widely accepted criterion that can provide a provable privacy guarantee, the application of DP on unstructured data such as images is not trivial due to the lack of a clear qualification on the meaningful difference between any two images. In this paper, for the first time, we introduce a novel notion of image-aware differential privacy, referred to as DP-image, that can protect user's personal information in images, from both human and AI adversaries. The DP-Image definition is formulated as an extended version of traditional differential privacy, considering the distance measurements between feature space vectors of images. Then we propose a mechanism to achieve DP-Image by adding noise to an image feature vector. Finally, we conduct experiments with a case study on face image privacy. Our results show that the proposed DP-Image method provides excellent DP protection on images, with a controllable distortion to faces.
翻訳日:2021-03-15 13:14:36 公開日:2021-03-12
# iToF2dToF:データ駆動飛行時間イメージングのためのロバストでフレキシブルな表現

iToF2dToF: A Robust and Flexible Representation for Data-Driven Time-of-Flight Imaging ( http://arxiv.org/abs/2103.07087v1 )

ライセンス: Link先を確認
Felipe Gutierrez-Barragan, Huaijin Chen, Mohit Gupta, Andreas Velten, Jinwei Gu(参考訳) 間接飛行時間(iToF)カメラは、有望な深度検出技術です。 しかし,マルチパス干渉 (MPI) と低信号対雑音比 (SNR) による誤差が生じる傾向にある。 従来の手法では、深さを符号化する過渡画像を推定することでmpiを緩和する。 近年,MPI を相乗分解・緩和するデータ駆動方式が,中間的過渡表現を使わずに最先端化している。 本稿では,過渡表現を再検討することを提案する。 データ駆動前処理を用いて、itof周波数を補間・補間し、過渡画像を推定する。 直接ToF(dToF)センサーが過渡画像をキャプチャすると、iToF2dToFと名付けられます。 一時的な表現は柔軟です。 低SNRに対して堅牢で、実際に発生するあいまいなシナリオ(例えば、スペクトルMPI、光クロストーク)に対処できる、ルールベースの異なる深度検出アルゴリズムと統合することができる。 我々は,iToF2dToFの従来手法に対する利点を実深度センシングのシナリオで示す。

Indirect Time-of-Flight (iToF) cameras are a promising depth sensing technology. However, they are prone to errors caused by multi-path interference (MPI) and low signal-to-noise ratio (SNR). Traditional methods, after denoising, mitigate MPI by estimating a transient image that encodes depths. Recently, data-driven methods that jointly denoise and mitigate MPI have become state-of-the-art without using the intermediate transient representation. In this paper, we propose to revisit the transient representation. Using data-driven priors, we interpolate/extrapol ate iToF frequencies and use them to estimate the transient image. Given direct ToF (dToF) sensors capture transient images, we name our method iToF2dToF. The transient representation is flexible. It can be integrated with different rule-based depth sensing algorithms that are robust to low SNR and can deal with ambiguous scenarios that arise in practice (e.g., specular MPI, optical cross-talk). We demonstrate the benefits of iToF2dToF over previous methods in real depth sensing scenarios.
翻訳日:2021-03-15 13:14:17 公開日:2021-03-12
# PVStereo: エンドツーエンドのステレオマッチングのためのピラミッド投票モジュール

PVStereo: Pyramid Voting Module for End-to-End Self-Supervised Stereo Matching ( http://arxiv.org/abs/2103.07094v1 )

ライセンス: Link先を確認
Hengli Wang, Rui Fan, Peide Cai, Ming Liu(参考訳) 深層畳み込みニューラルネットワーク(DCNN)による教師付き学習はステレオマッチングに大きく採用されている。 しかし、十分にラベル付けされた基盤真理を持つ大規模データセットの取得は煩雑で労働集約的であり、教師付き学習ベースのアプローチを実践することはしばしば困難である。 この欠点を克服するため,我々は,ピラミッド投票モジュール(PVM)と新しいDCNNアーキテクチャ(OptStereo)からなる,堅牢で効果的な自己教師型ステレオマッチング手法を提案する。 具体的には、我々のopstereoは、まず、マルチスケールなコストボリュームを構築し、その後、反復的に、高解像度で異質な推定値を更新するために、recurrent unitを採用しています。 さらに,大規模合成ステレオデータセットであるHKUST-Driveデータセットを,異なる照明条件と気象条件で収集し,研究目的で公開する。 KITTI StereoベンチマークとHKUST-Driveデータセットを用いた自己教師型ステレオマッチング手法の有効性と有効性を示した。 当社のベストパフォーマンス実装であるPVStereoは、他の最先端の自己監視型ステレオマッチングアプローチを大幅に上回ります。 プロジェクトページはsites.google.com/vie w/pvstereoで閲覧できます。

Supervised learning with deep convolutional neural networks (DCNNs) has seen huge adoption in stereo matching. However, the acquisition of large-scale datasets with well-labeled ground truth is cumbersome and labor-intensive, making supervised learning-based approaches often hard to implement in practice. To overcome this drawback, we propose a robust and effective self-supervised stereo matching approach, consisting of a pyramid voting module (PVM) and a novel DCNN architecture, referred to as OptStereo. Specifically, our OptStereo first builds multi-scale cost volumes, and then adopts a recurrent unit to iteratively update disparity estimations at high resolution; while our PVM can generate reliable semi-dense disparity images, which can be employed to supervise OptStereo training. Furthermore, we publish the HKUST-Drive dataset, a large-scale synthetic stereo dataset, collected under different illumination and weather conditions for research purposes. Extensive experimental results demonstrate the effectiveness and efficiency of our self-supervised stereo matching approach on the KITTI Stereo benchmarks and our HKUST-Drive dataset. PVStereo, our best-performing implementation, greatly outperforms all other state-of-the-art self-supervised stereo matching approaches. Our project page is available at sites.google.com/vie w/pvstereo.
翻訳日:2021-03-15 13:14:01 公開日:2021-03-12
# 1000対1: 概念的コーディングのためのセマンティック事前モデリング

Thousand to One: Semantic Prior Modeling for Conceptual Coding ( http://arxiv.org/abs/2103.07131v1 )

ライセンス: Link先を確認
Jianhui Chang, Zhenghui Zhao, Lingbo Yang, Chuanmin Jia, Jian Zhang, Siwei Ma(参考訳) 概念符号化は近年,自然画像を圧縮のための非絡み合った概念表現に符号化する,新たな研究トピックとなっている。 しかし,速度制約や復元品質の総合的な考慮が欠如しているため,既存手法の圧縮性能は相変わらず最適である。 そこで本論文では,エントロピー推定とテクスチャ合成の統一化に先立ち,意味的に深い表現を応用した,極めて低ビットレートな画像圧縮に向けた概念符号化手法を提案する。 具体的には, 構造的ガイダンスとして意味セグメンテーションマップを用い, テクスチャの細粒度分布モデルを提供し, より詳細な構成と, 高レベルの視覚タスクの柔軟性を高める。 さらに、空間的に独立なセマンティック先行のチャネル間相関をさらに活用するために、チャネル間エントロピーモデルを提案し、より正確なエントロピー推定を行う。 提案手法は,視覚処理および解析タスクに対して高い視覚的再構成品質と汎用性を保ちながら,超高1000倍圧縮比を実現する。

Conceptual coding has been an emerging research topic recently, which encodes natural images into disentangled conceptual representations for compression. However, the compression performance of the existing methods is still sub-optimal due to the lack of comprehensive consideration of rate constraint and reconstruction quality. To this end, we propose a novel end-to-end semantic prior modeling-based conceptual coding scheme towards extremely low bitrate image compression, which leverages semantic-wise deep representations as a unified prior for entropy estimation and texture synthesis. Specifically, we employ semantic segmentation maps as structural guidance for extracting deep semantic prior, which provides fine-grained texture distribution modeling for better detail construction and higher flexibility in subsequent high-level vision tasks. Moreover, a cross-channel entropy model is proposed to further exploit the inter-channel correlation of the spatially independent semantic prior, leading to more accurate entropy estimation for rate-constrained training. The proposed scheme achieves an ultra-high 1000x compression ratio, while still enjoying high visual reconstruction quality and versatility towards visual processing and analysis tasks.
翻訳日:2021-03-15 13:13:40 公開日:2021-03-12
# 胸部CTによるCOVID-19感染進展の経時的評価

Longitudinal Quantitative Assessment of COVID-19 Infection Progression from Chest CTs ( http://arxiv.org/abs/2103.07240v1 )

ライセンス: Link先を確認
Seong Tae Kim, Leili Goli, Magdalini Paschali, Ashkan Khakzar, Matthias Keicher, Tobias Czempiel, Egon Burian, Rickmer Braren, Nassir Navab, Thomas Wendler(参考訳) 胸部CT(Chest Computed Tomography)は、グラウンドグラス不透明度やコンソリデーションなどの疾患特異的な画像特徴を示すことにより、COVID-19患者の診断に不可欠な役割を担っている。 画像分割方法は、病気の負担を定量化し、結果を予測するのに役立つことが証明されています。 縦型ctシリーズの有用性は、covid-19の進行、治癒過程の監視、治療戦略の異なる反応を確実に評価する効率的かつ効果的な方法をもたらす可能性がある。 本稿では, ボクセルレベル(健常肺の同定, 固形化, グラウンドグラスの透明度)での感染を同定し, 低用量非造影CTスキャンを用いて, COVID-19の進行を可視化する新しい枠組みを提案する。 特に,参照スキャン情報を利用した縦断セグメンテーションネットワークを考案し,疾患識別の性能を向上させる。 本施設で収集した臨床縦断データセットの実験結果から, 静的深部神経ネットワークを用いた疾患定量法との比較検討を行った。

Chest computed tomography (CT) has played an essential diagnostic role in assessing patients with COVID-19 by showing disease-specific image features such as ground-glass opacity and consolidation. Image segmentation methods have proven to help quantify the disease burden and even help predict the outcome. The availability of longitudinal CT series may also result in an efficient and effective method to reliably assess the progression of COVID-19, monitor the healing process and the response to different therapeutic strategies. In this paper, we propose a new framework to identify infection at a voxel level (identification of healthy lung, consolidation, and ground-glass opacity) and visualize the progression of COVID-19 using sequential low-dose non-contrast CT scans. In particular, we devise a longitudinal segmentation network that utilizes the reference scan information to improve the performance of disease identification. Experimental results on a clinical longitudinal dataset collected in our institution show the effectiveness of the proposed method compared to the static deep neural networks for disease quantification.
翻訳日:2021-03-15 13:13:18 公開日:2021-03-12
# 低ランクおよびスパース表現に基づくハイパースペクトル画像のノイズ化と異常検出

Hyperspectral Image Denoising and Anomaly Detection Based on Low-rank and Sparse Representations ( http://arxiv.org/abs/2103.07437v1 )

ライセンス: Link先を確認
Lina Zhuang, Lianru Gao, Bing Zhang, Xiyou Fu, Jose M. Bioucas-Dias(参考訳) ハイパースペクトルイメージングは、数百または数千のスペクトルチャネルで非常に高い分解能で、瞬間的な視野を越えて電磁エネルギーの量を測定します。 これにより、物体を検知し、それらの間に微妙な違いがある物質を識別することができる。 しかし、スペクトル分解能の増大は、各チャンネルで受信される光子数が減少することを意味することが多く、画像形成過程に関連付けられたノイズが大きくなることを意味する。 この劣化は抽出された情報の品質と潜在的な応用を制限する。 したがって、高スペクトル画像(HSI)処理におけるノイズ除去は根本的な問題である。 高相関スペクトルチャネルを持つ自然のシーンの画像として、HSIは高レベルの自己相似性によって特徴づけられ、低ランク表現によってよく近似できる。 これらの特徴は、HSI denoisingで使用される最先端の手法の根底にある。 しかし、稀に発生する画素タイプが存在する場合、これらの手法の劣化性能は最適ではなく、その後の検出が損なわれる可能性がある。 本稿では、RhyDe(Robust Hyperspectral Denoising)という強力なHSIデノイザーについて紹介します。これは、明示的な低ランク表現を実装し、自己相似性を促進し、協調的なスパーシティの形式を使用して、まれなピクセルを保存します。 提案するロバストhsiデノイザーの消音・検出効果を準実データと実データを用いて示す。

Hyperspectral imaging measures the amount of electromagnetic energy across the instantaneous field of view at a very high resolution in hundreds or thousands of spectral channels. This enables objects to be detected and the identification of materials that have subtle differences between them. However, the increase in spectral resolution often means that there is a decrease in the number of photons received in each channel, which means that the noise linked to the image formation process is greater. This degradation limits the quality of the extracted information and its potential applications. Thus, denoising is a fundamental problem in hyperspectral image (HSI) processing. As images of natural scenes with highly correlated spectral channels, HSIs are characterized by a high level of self-similarity and can be well approximated by low-rank representations. These characteristics underlie the state-of-the-art methods used in HSI denoising. However, where there are rarely occurring pixel types, the denoising performance of these methods is not optimal, and the subsequent detection of these pixels may be compromised. To address these hurdles, in this article, we introduce RhyDe (Robust hyperspectral Denoising), a powerful HSI denoiser, which implements explicit low-rank representation, promotes self-similarity, and, by using a form of collaborative sparsity, preserves rare pixels. The denoising and detection effectiveness of the proposed robust HSI denoiser is illustrated using semireal and real data.
翻訳日:2021-03-15 13:13:00 公開日:2021-03-12
# SCEI: IoTシステムのためのスマートコントラクト駆動エッジインテリジェンスフレームワーク

SCEI: A Smart-Contract Driven Edge Intelligence Framework for IoT Systems ( http://arxiv.org/abs/2103.07050v1 )

ライセンス: Link先を確認
Chenhao Xu, Yong Li, Yao Deng, Jiaqi Ge, Longxiang Gao, Mengshi Zhang, Yong Xiang, Xi Zheng(参考訳) federated learning (fl) はエッジコンピューティングデバイスを使用して共有モデルを協調的にトレーニングし、各デバイスはローカルデータアクセスを完全に制御できる。 一般的にFL技術では、独立および同一分散(iid)データセットの学習モデルに焦点を当てており、非iidデータセット(例えば)で満足できるパフォーマンスを達成できない。 マルチクラス分類器を学ぶが、各クライアントは単一のクラスデータセットしか持たない)。 非iid問題を緩和するためのパーソナライズドアプローチがいくつか提案されている。 しかし、そのようなアプローチは根底にあるデータ分散のシフト、すなわち実際のシナリオ(例えば、データ分散のスキュー)を扱うことができない。 レコメンデーションシステムは、時間とともに変化するユーザの行動を学ぶ)。 本研究では、スマートコントラクトとフェデレーション学習を活用して、最適化されたパーソナライズされたディープラーニングモデルを構築することで、課題に対する解決策を提供する。 具体的には,個別化モデルの最適重み付けについて,分散トレーナー間のコンセンサスを得るためにスマートコントラクトを利用する。 複数のモデル(CNNとMLP)と複数のデータセット(MNISTとCIFAR-10)で実験を行います。 実験の結果,従来のフェデレーションやパーソナライズドラーニングと比較して,パーソナライズドラーニングモデルの方が精度が高く,コンバージェンスも速いことがわかった。 ベースラインFedAvgアルゴリズムによって与えられたモデルと比較して、私たちのパーソナライズされた学習モデルの平均精度は2%から20%改善され、収束率は約2$\times$高速です。 さらに,本手法が分散学習に対する最近の攻撃に対して安全であることを示す。

Federated learning (FL) utilizes edge computing devices to collaboratively train a shared model while each device can fully control its local data access. Generally, FL techniques focus on learning model on independent and identically distributed (iid) dataset and cannot achieve satisfiable performance on non-iid datasets (e.g. learning a multi-class classifier but each client only has a single class dataset). Some personalized approaches have been proposed to mitigate non-iid issues. However, such approaches cannot handle underlying data distribution shift, namely data distribution skew, which is quite common in real scenarios (e.g. recommendation systems learn user behaviors which change over time). In this work, we provide a solution to the challenge by leveraging smart-contract with federated learning to build optimized, personalized deep learning models. Specifically, our approach utilizes smart contract to reach consensus among distributed trainers on the optimal weights of personalized models. We conduct experiments across multiple models (CNN and MLP) and multiple datasets (MNIST and CIFAR-10). The experimental results demonstrate that our personalized learning models can achieve better accuracy and faster convergence compared to classic federated and personalized learning. Compared with the model given by baseline FedAvg algorithm, the average accuracy of our personalized learning models is improved by 2% to 20%, and the convergence rate is about 2$\times$ faster. Moreover, we also illustrate that our approach is secure against recent attack on distributed learning.
翻訳日:2021-03-15 13:11:58 公開日:2021-03-12
# シングルシャッフルSGDはSGDとGDのリシャッフルより優れているか?

Can Single-Shuffle SGD be Better than Reshuffling SGD and GD? ( http://arxiv.org/abs/2103.07079v1 )

ライセンス: Link先を確認
Chulhee Yun, Suvrit Sra, Ali Jadbabaie(参考訳) 非可換 AM-GM の不等式上の Recht-R\'e (2012) 予想を拡張する行列ノルムの不等式を提案する。 一般の正の半定値行列の代わりに、SGDの分析で生じる行列とより関係のある十分な条件数を持つ正の定値行列に注意を限定する。 そのような行列に対して、SGDの非置換変種に対応する行列積の手段は、一連のスペクトルノルムの不等式を満たすことを予想する: 「単一シャッフルSGDはランダムリシャッフルSGDよりも早く収束し、非置換SGDよりも高速である」。 我々は、いくつかの特別な場合を証明し、予想を支持する定理を示す。

We propose matrix norm inequalities that extend the Recht-R\'e (2012) conjecture on a noncommutative AM-GM inequality by supplementing it with another inequality that accounts for single-shuffle, which is a widely used without-replacement sampling scheme that shuffles only once in the beginning and is overlooked in the Recht-R\'e conjecture. Instead of general positive semidefinite matrices, we restrict our attention to positive definite matrices with small enough condition numbers, which are more relevant to matrices that arise in the analysis of SGD. For such matrices, we conjecture that the means of matrix products corresponding to with- and without-replacement variants of SGD satisfy a series of spectral norm inequalities that can be summarized as: "single-shuffle SGD converges faster than random-reshuffle SGD, which is in turn faster than with-replacement SGD." We present theorems that support our conjecture by proving several special cases.
翻訳日:2021-03-15 13:11:29 公開日:2021-03-12
# マシンラーニングモデルにおける属性推論攻撃の(in)実現性について

On the (In)Feasibility of Attribute Inference Attacks on Machine Learning Models ( http://arxiv.org/abs/2103.07101v1 )

ライセンス: Link先を確認
Benjamin Zi Hao Zhao, Aviral Agrawal, Catisha Coburn, Hassan Jameel Asghar, Raghav Bhaskar, Mohamed Ali Kaafar, Darren Webb, and Peter Dickinson(参考訳) 低コストの機械学習APIの増加に伴い、高度な機械学習モデルはプライベートデータセットでトレーニングされ、サービスとして提供することで収益化される。 しかし、プライバシ研究者は、これらのモデルがメンバーシップ推論攻撃によってトレーニングデータセット内のレコードに関する情報を漏洩する可能性があることを実証した。 本稿では、属性推論と呼ばれる文献で報告されている別の推論攻撃について、機械学習モデルにAPIとしてアクセスすることで、トレーニングデータセットで使用される部分的に知られているレコードの欠落した属性を推論しようとする。 分類モデルがメンバーシップ推論攻撃に結びついたとしても、アトリビュート推論攻撃の影響を受けにくいことが示されています。 これは、会員推論攻撃がメンバーを近隣の非メンバーと区別できないためである。 我々は攻撃者が2つの(類似した)ベクトルを強いメンバーシップ推論として区別する能力と呼ぶ。 この強い設定では、メンバシップ推論攻撃はメンバーシップを推測できないため、属性の推測は不可能である。 しかし、近似属性推論と呼ばれる緩和された属性推論の概念の下では、真の属性に近い属性を推測することは可能であることを示す。 3つの公開データセット、5つのメンバーシップ、3つの属性推論攻撃の結果を文献で検証します。

With an increase in low-cost machine learning APIs, advanced machine learning models may be trained on private datasets and monetized by providing them as a service. However, privacy researchers have demonstrated that these models may leak information about records in the training dataset via membership inference attacks. In this paper, we take a closer look at another inference attack reported in literature, called attribute inference, whereby an attacker tries to infer missing attributes of a partially known record used in the training dataset by accessing the machine learning model as an API. We show that even if a classification model succumbs to membership inference attacks, it is unlikely to be susceptible to attribute inference attacks. We demonstrate that this is because membership inference attacks fail to distinguish a member from a nearby non-member. We call the ability of an attacker to distinguish the two (similar) vectors as strong membership inference. We show that membership inference attacks cannot infer membership in this strong setting, and hence inferring attributes is infeasible. However, under a relaxed notion of attribute inference, called approximate attribute inference, we show that it is possible to infer attributes close to the true attributes. We verify our results on three publicly available datasets, five membership, and three attribute inference attacks reported in literature.
翻訳日:2021-03-15 13:11:07 公開日:2021-03-12
# ドメイン好奇心: ドメイン適応のための効率的なデータ収集戦略の学習

Domain Curiosity: Learning Efficient Data Collection Strategies for Domain Adaptation ( http://arxiv.org/abs/2103.07223v1 )

ライセンス: Link先を確認
Karol Arndt, Oliver Struckmeier, Ville Kyrki(参考訳) ドメイン適応はロボット工学において一般的な問題であり、シミュレーションから実世界へのポリシー移行や生涯学習などの応用がある。 しかし、このような適応を行うには、適応中に利用可能な環境に関する情報が必要である。 本稿では,モデルが環境の未知の側面について学習できるように,データ提供のために明示的に最適化された探索ポリシーを訓練する手法であるドメイン好奇性について述べる。 ほとんどの好奇心の手法とは対照的に,本手法は学習に有意な報酬を与えるため,学習能力を犠牲にすることなく環境騒音に頑健である。 提案手法によって収集されたデータから,モデルが環境ダイナミクスについてどの程度学習できるかを,標準の好奇心とランダムな方針と比較して評価する。 この評価は,実世界の触覚探索作業において,玩具環境と2つの模擬ロボット設定を用いて行う。 提案手法は,データ効率,高精度な動的推定を可能にする。

Domain adaptation is a common problem in robotics, with applications such as transferring policies from simulation to real world and lifelong learning. Performing such adaptation, however, requires informative data about the environment to be available during the adaptation. In this paper, we present domain curiosity -- a method of training exploratory policies that are explicitly optimized to provide data that allows a model to learn about the unknown aspects of the environment. In contrast to most curiosity methods, our approach explicitly rewards learning, which makes it robust to environment noise without sacrificing its ability to learn. We evaluate the proposed method by comparing how much a model can learn about environment dynamics given data collected by the proposed approach, compared to standard curious and random policies. The evaluation is performed using a toy environment, two simulated robot setups, and on a real-world haptic exploration task. The results show that the proposed method allows data-efficient and accurate estimation of dynamics.
翻訳日:2021-03-15 13:10:47 公開日:2021-03-12
# グラフニューラルネットワークを用いたエネルギーシステムの知識とデータ駆動サービス

Knowledge- and Data-driven Services for Energy Systems using Graph Neural Networks ( http://arxiv.org/abs/2103.07248v1 )

ライセンス: Link先を確認
Francesco Fusco, Bradley Eck, Robert Gormally, Mark Purcell, Seshu Tirupathi(参考訳) 炭素系エネルギー源からの遷移は、配電システムの運用にいくつかの課題をもたらす。 分散型エネルギー資源のシェアの増加(例) 再生可能エネルギー発電機、電気自動車、およびインターネットに接続されたセンシングおよび制御装置(例えば。 スマートな暖房と冷却) 正確でデータ駆動の意思決定をサポートする新しいツールが必要です。 電力グリッドにおけるこのような複雑化の影響をモデル化することは、原則として最先端の電力フローモデルを用いて可能である。 実際には、これらの物理シミュレーションに必要な詳細な情報は未知あるいは違法に入手する費用がかかる可能性がある。 したがって、フィードフォワードニューラルネットワークやオートエンコーダなどのパワーシステムモデリングへのデータ駆動アプローチは、センサーデータの可用性の増大を活用すべく研究されているが、大規模問題に対する透明性の欠如と非効率性のために、実用的採用は限られている。 本研究では、グラフニューラルネットワーク(GNNs)の枠組みに基づくエネルギーシステムのためのデータ駆動と知識駆動の確率的グラフィカルモデルを提案することにより、このギャップに対処する。 このモデルは、グリッドトポロジや物理学の制約という形で、ドメイン知識を明示的に評価できるため、従来の機械学習モデルと同じような精度で比較すると、スパースアーキテクチャとより小さなパラメータの寸法性につながります。 実世界のスマートグリッド実証プロジェクトから得られた結果は、GNNがエネルギー柔軟性市場に参加する配電システム事業者のグリッド混雑予測および市場入札サービスにどのように使用されていたかを示しています。

The transition away from carbon-based energy sources poses several challenges for the operation of electricity distribution systems. Increasing shares of distributed energy resources (e.g. renewable energy generators, electric vehicles) and internet-connected sensing and control devices (e.g. smart heating and cooling) require new tools to support accurate, datadriven decision making. Modelling the effect of such growing complexity in the electrical grid is possible in principle using state-of-the-art power-power flow models. In practice, the detailed information needed for these physical simulations may be unknown or prohibitively expensive to obtain. Hence, datadriven approaches to power systems modelling, including feedforward neural networks and auto-encoders, have been studied to leverage the increasing availability of sensor data, but have seen limited practical adoption due to lack of transparency and inefficiencies on large-scale problems. Our work addresses this gap by proposing a data- and knowledge-driven probabilistic graphical model for energy systems based on the framework of graph neural networks (GNNs). The model can explicitly factor in domain knowledge, in the form of grid topology or physics constraints, thus resulting in sparser architectures and much smaller parameters dimensionality when compared with traditional machine-learning models with similar accuracy. Results obtained from a real-world smart-grid demonstration project show how the GNN was used to inform grid congestion predictions and market bidding services for a distribution system operator participating in an energy flexibility market.
翻訳日:2021-03-15 13:10:32 公開日:2021-03-12
# 故障検出のための二次成分分析

Second-Order Component Analysis for Fault Detection ( http://arxiv.org/abs/2103.07303v1 )

ライセンス: Link先を確認
Peng Jingchao, Zhao Haitao, Hu Zhengwei(参考訳) ニューラルネットワークに基づくプロセス監視は、ますます注目を集めています。 従来のニューラルネットワークと比較して、高階ニューラルネットワークは異種データを扱う上で自然な利点があります。 しかし、高次ニューラルネットワークは、元のデータやノイズ、異常から重要な情報をオーバーフィットし、学習するリスクをもたらす可能性がある。 直交制約は抽出された特徴間の相関を著しく減少させ、過度に適合するリスクを減少させる。 本稿では,2次成分分析(SCA)と呼ばれる新しい故障検出手法を提案する。 SCAは、直交制約のある2階自動エンコーダを最適化することで、プロシースデータのヘテロセシスティック性を排除します。 本稿では, この制約付き最適化問題に対処するため, シュティーフェル多様体とユークリッド多様体の組み合わせに対して幾何的最適化を行う幾何共役勾配アルゴリズムを適用した。 テネシー-イーストマンベンチマークプロケースに関する広範な実験は、SCAがPCA、KPCA、オートエンコーダをミス検出率(MDR)と誤報率(FAR)で上回っていることを示しています。

Process monitoring based on neural networks is getting more and more attention. Compared with classical neural networks, high-order neural networks have natural advantages in dealing with heteroscedastic data. However, high-order neural networks might bring the risk of overfitting and learning both the key information from original data and noises or anomalies. Orthogonal constraints can greatly reduce correlations between extracted features, thereby reducing the overfitting risk. This paper proposes a novel fault detection method called second-order component analysis (SCA). SCA rules out the heteroscedasticity of pro-cess data by optimizing a second-order autoencoder with orthogonal constraints. In order to deal with this constrained optimization problem, a geometric conjugate gradient algorithm is adopted in this paper, which performs geometric optimization on the combination of Stiefel manifold and Euclidean manifold. Extensive experiments on the Tennessee-Eastman benchmark pro-cess show that SCA outperforms PCA, KPCA, and autoencoder in missed detection rate (MDR) and false alarm rate (FAR).
翻訳日:2021-03-15 13:09:49 公開日:2021-03-12
# EventGraD: 並列機械学習におけるイベントトリガー通信

EventGraD: Event-Triggered Communication in Parallel Machine Learning ( http://arxiv.org/abs/2103.07454v1 )

ライセンス: Link先を確認
Soumyadip Ghosh, Bernardo Aquino, Vijay Gupta(参考訳) 並列システムにおける通信は、大きなオーバーヘッドを課し、しばしば並列機械学習のボトルネックとなる。 本稿では,このオーバーヘッドを解消するため,並列機械学習における確率勾配降下のためのイベントトリガー通信アルゴリズムであるEventGraDを提案する。 このアルゴリズムの主な考え方は、並列機械学習における確率勾配勾配の標準実装において、イテレーション毎に通信要求を変更することで、特定のイテレーションでのみ通信することである。 提案アルゴリズムの収束の理論的解析を行います。 また、cifar-10データセットのトレーニングに使用される一般的な残留ニューラルネットワークのデータ並列トレーニングアルゴリズムを実装し、同じレベルの精度を維持しながら、eventgradが通信負荷を最大60%削減できることを示した。

Communication in parallel systems imposes significant overhead which often turns out to be a bottleneck in parallel machine learning. To relieve some of this overhead, in this paper, we present EventGraD - an algorithm with event-triggered communication for stochastic gradient descent in parallel machine learning. The main idea of this algorithm is to modify the requirement of communication at every iteration in standard implementations of stochastic gradient descent in parallel machine learning to communicating only when necessary at certain iterations. We provide theoretical analysis of convergence of our proposed algorithm. We also implement the proposed algorithm for data-parallel training of a popular residual neural network used for training the CIFAR-10 dataset and show that EventGraD can reduce the communication load by up to 60% while retaining the same level of accuracy.
翻訳日:2021-03-15 13:08:53 公開日:2021-03-12
# (参考訳) 解釈可能な車両状態予測のためのハイブリッド物理とディープラーニングモデル [全文訳有]

Hybrid Physics and Deep Learning Model for Interpretable Vehicle State Prediction ( http://arxiv.org/abs/2103.06727v2 )

ライセンス: CC BY 4.0
Alexandra Baier and Zeyd Boukhers and Steffen Staab(参考訳) 物理運動モデルは、車両の動きの解釈可能な予測を提供する。 しかし、空気力学や流体力学に関連するいくつかのモデルパラメータは測定に費用がかかり、予測精度を略して近似するだけである。 リカレントニューラルネットワークは、車両のルーチン操作中に収集された安価な測定値を使用することができるため、低コストで高い予測精度を達成するが、その結果は解釈が難しい。 物理パラメータの高価な測定をせずに車両の状態を正確に予測するために,新しい二相訓練法を含む深層学習モデルと物理運動モデルを組み合わせたハイブリッド手法を提案する。 ニューラルネットワークがもたらす不確実性を既知の量に制限するハイブリッドモデルの一部として、ディープニューラルネットワークの出力範囲を制限することにより、解釈可能性を実現します。 船舶とクアッドコプターの動作のユースケースに対するアプローチを評価しました。 その結果, ハイブリッドモデルでは, 既存のディープラーニング手法に比べて精度を低下させることなく, モデル解釈性が向上できることがわかった。

Physical motion models offer interpretable predictions for the motion of vehicles. However, some model parameters, such as those related to aero- and hydrodynamics, are expensive to measure and are often only roughly approximated reducing prediction accuracy. Recurrent neural networks achieve high prediction accuracy at low cost, as they can use cheap measurements collected during routine operation of the vehicle, but their results are hard to interpret. To precisely predict vehicle states without expensive measurements of physical parameters, we propose a hybrid approach combining deep learning and physical motion models including a novel two-phase training procedure. We achieve interpretability by restricting the output range of the deep neural network as part of the hybrid model, which limits the uncertainty introduced by the neural network to a known quantity. We have evaluated our approach for the use case of ship and quadcopter motion. The results show that our hybrid model can improve model interpretability with no decrease in accuracy compared to existing deep learning approaches.
翻訳日:2021-03-15 11:24:11 公開日:2021-03-12
# Bitext Retrievalのための双方向事前翻訳による多数投票

Majority Voting with Bidirectional Pre-translation For Bitext Retrieval ( http://arxiv.org/abs/2103.06369v2 )

ライセンス: Link先を確認
Alex Jones and Derry Tanti Wijaya(参考訳) 高品質の並列コーポラの取得は、NMTシステムのトレーニングに非常に重要です。 しかし、多くの言語ペアは十分な金本位制の訓練データを持っていないため、2つの言語でペアの文書からいわゆる"pseudo-parallel" ;文をマイニングする手法が一般的である。 本稿では,現在の手法の問題点を概説し,それらの問題に対する計算学的に経済的な解決策を提案し,タトエバ類似度検索ベンチマークと下流タスク,すなわちNMTでの新しい手法で成功を実証する。 資源関連要因(リソース関連因子)の効果を明らかにする。 バイテキストマイニングアプローチの最適選択に関する単言語/バイリンガルデータ(ある言語でどの程度)と、他の言語で観測されているbuccデータセットとのエコー問題。 実験に使用されるコードとデータは公開されています。

Obtaining high-quality parallel corpora is of paramount importance for training NMT systems. However, as many language pairs lack adequate gold-standard training data, a popular approach has been to mine so-called "pseudo-parallel" ; sentences from paired documents in two languages. In this paper, we outline some problems with current methods, propose computationally economical solutions to those problems, and demonstrate success with novel methods on the Tatoeba similarity search benchmark and on a downstream task, namely NMT. We uncover the effect of resource-related factors (i.e. how much monolingual/bilingua l data is available for a given language) on the optimal choice of bitext mining approach, and echo problems with the oft-used BUCC dataset that have been observed by others. We make the code and data used for our experiments publicly available.
翻訳日:2021-03-15 11:01:43 公開日:2021-03-12
# MediaSum:対話要約のための大規模メディアインタビューデータセット

MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization ( http://arxiv.org/abs/2103.06410v2 )

ライセンス: Link先を確認
Chenguang Zhu, Yang Liu, Jie Mei, Michael Zeng(参考訳) MediaSumは463.6Kのトランスクリプトと抽象的な要約からなる大規模なメディアインタビューデータセットである。 このデータセットを作成するために,NPRとCNNからインタビュー書き起こしを収集し,概要とトピック記述を要約として利用する。 対話要約のための既存の公開コーパスと比較して、我々のデータセットは桁違いに大きく、複数のドメインからの複雑な多人数会話を含んでいる。 我々は,テレビインタビューやラジオインタビューの台本に現れるユニークな位置バイアスを統計的に分析する。 また,他の対話要約タスクにおけるモデルの性能向上のために,メディアサムが伝達学習に利用できることを示す。

MediaSum, a large-scale media interview dataset consisting of 463.6K transcripts with abstractive summaries. To create this dataset, we collect interview transcripts from NPR and CNN and employ the overview and topic descriptions as summaries. Compared with existing public corpora for dialogue summarization, our dataset is an order of magnitude larger and contains complex multi-party conversations from multiple domains. We conduct statistical analysis to demonstrate the unique positional bias exhibited in the transcripts of televised and radioed interviews. We also show that MediaSum can be used in transfer learning to improve a model's performance on other dialogue summarization tasks.
翻訳日:2021-03-15 11:01:27 公開日:2021-03-12
# ポリップセグメンテーションのための二重文脈関係ネットワーク

Duplex Contextual Relation Network for Polyp Segmentation ( http://arxiv.org/abs/2103.06725v2 )

ライセンス: Link先を確認
Zijin Yin, Kongming Liang, Zhanyu Ma, Jun Guo(参考訳) ポリープ分画は早期大腸癌の診断と治療において極めて重要である。 ポリプの形状、サイズ、色、テクスチャは様々であるため、正確なポリプのセグメンテーションは非常に難しい。 ポリプの多様性を緩和する1つの有望な方法は、アテンション機構などの各ピクセルのコンテキスト関係をモデル化することである。 しかし、従来の手法では、個々の画像内の位置間の依存関係を学習することのみに集中し、異なる画像間のコンテキスト関係を無視する。 本稿では,画像内のコンテキスト関係と画像間のコンテキスト関係の両方をキャプチャする二重文脈関係ネットワーク(dcrnet)を提案する。 具体的には、まず内部文脈関係モジュールを設計し、各位置と同一画像内のすべての位置との類似性を推定する。 次に、外部の文脈関連モジュールを組み込んで、異なる画像間の各位置と位置の類似度を推定する。 上記の2種類の類似性に基づき、画像内および画像間のコンテキスト領域埋め込みにより、1つの位置における特徴をさらに強化することができる。 すべての画像から埋め込まれた特徴領域を保存するため、メモリバンクはキューとして設計・運用される。 そこで,提案手法では,異なる画像からでも類似した特徴を関連付けることができる。 提案手法をEndoScene, Kvasir-SEG, 最近リリースされた大規模PICCOLOデータセット上で評価した。 実験の結果,提案したDCRNetは,広く利用されている評価指標で最先端の手法よりも優れていた。

Polyp segmentation is of great importance in the early diagnosis and treatment of colorectal cancer. Since polyps vary in their shape, size, color, and texture, accurate polyp segmentation is very challenging. One promising way to mitigate the diversity of polyps is to model the contextual relation for each pixel such as using attention mechanism. However, previous methods only focus on learning the dependencies between the position within an individual image and ignore the contextual relation across different images. In this paper, we propose Duplex Contextual Relation Network (DCRNet) to capture both within-image and cross-image contextual relations. Specifically, we first design Interior Contextual-Relation Module to estimate the similarity between each position and all the positions within the same image. Then Exterior Contextual-Relation Module is incorporated to estimate the similarity between each position and the positions across different images. Based on the above two types of similarity, the feature at one position can be further enhanced by the contextual region embedding within and across images. To store the characteristic region embedding from all the images, a memory bank is designed and operates as a queue. Therefore, the proposed method can relate similar features even though they come from different images. We evaluate the proposed method on the EndoScene, Kvasir-SEG and the recently released large-scale PICCOLO dataset. Experimental results show that the proposed DCRNet outperforms the state-of-the-art methods in terms of the widely-used evaluation metrics.
翻訳日:2021-03-15 11:01:16 公開日:2021-03-12
# U-Net Transformer: 医療画像セグメンテーションのための自己およびクロスアテンション

U-Net Transformer: Self and Cross Attention for Medical Image Segmentation ( http://arxiv.org/abs/2103.06104v2 )

ライセンス: Link先を確認
Olivier Petit, Nicolas Thome, Cl\'ement Rambour, Luc Soler(参考訳) 医療画像セグメンテーションは、複雑で低コントラストな解剖学的構造にとって特に困難です。 本稿では,イメージセグメンテーションのためのU字型アーキテクチャと,トランスフォーマーからの自己および相互アテンションを組み合わせたU-Transformerネットワークを提案する。 U-Transformerは、U-Netが長距離のコンテキスト相互作用と空間依存をモデル化できないことを克服している。 この目的のために、セルフアテンションモジュールはエンコーダ特徴間のグローバルな相互作用を活用する一方、スキップ接続におけるクロスアテンションは、非セマンティック特徴をフィルタリングすることでU-Netデコーダの空間的復元を可能にする。 2つの腹部CT画像データセットの実験は、U-NetおよびローカルアテンションU-Netと比較してU-Transformerがもたらした大きなパフォーマンス向上を示しています。 また,U-Transformerが生み出した自己認識と相互認識の両面の重要性を強調した。

Medical image segmentation remains particularly challenging for complex and low-contrast anatomical structures. In this paper, we introduce the U-Transformer network, which combines a U-shaped architecture for image segmentation with self- and cross-attention from Transformers. U-Transformer overcomes the inability of U-Nets to model long-range contextual interactions and spatial dependencies, which are arguably crucial for accurate segmentation in challenging contexts. To this end, attention mechanisms are incorporated at two main levels: a self-attention module leverages global interactions between encoder features, while cross-attention in the skip connections allows a fine spatial recovery in the U-Net decoder by filtering out non-semantic features. Experiments on two abdominal CT-image datasets show the large performance gain brought out by U-Transformer compared to U-Net and local Attention U-Nets. We also highlight the importance of using both self- and cross-attention, and the nice interpretability features brought out by U-Transformer.
翻訳日:2021-03-15 11:00:54 公開日:2021-03-12