このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210530となっている論文です。

PDF登録状況(公開日: 20210530)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 攻撃的言語検出のためのニューラルモデル

Neural Models for Offensive Language Detection ( http://arxiv.org/abs/2106.14609v1 )

ライセンス: CC BY 4.0
Ehab Hamdy(参考訳) offensive language detectionは、成長を続ける自然言語処理(nlp)アプリケーションである。 この成長は主にソーシャルネットワークの普及によるものであり、人々がエンターテイメントコンテンツをコミュニケーションし、仕事し、楽しむための主流のチャンネルとなっている。 攻撃的で攻撃的なコンテンツを共有する多くの出来事は、社会に大きな影響を及ぼした。 このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標であると考えています。 攻撃言語検出のための効率的な自動モデルを構築するための攻撃言語検出の課題を目標とした。 近年のnlpモデル、特にトランスフォーマーモデルの発展に伴い、標準的なseq-to-seq技術の欠点に対処した。 BERTモデルは、多くのNLPタスクに対して最先端の結果を示している。 文学はまだNLP分野におけるBERTの業績の理由を探求している。 その他、RoBERTaやALBERTといった標準的なBERTを改善するために、効率的なバリエーションが開発されている。 さらに,ソーシャルメディア上でのテキストの多言語性から,100言語で訓練されたXLM-RoBERTaのような多言語モデルや,非言語モデルとの比較が重要になっている。 RoBERTaベースのモデルは最も有能なモデルであることが判明し、タスクの最高スコアを達成した。 十分に取り囲まれた攻撃的言語検出システムのもう一つの重要な側面は、モデルを訓練し、推論できる速度である。 その点において、我々は、このモデルを実行時に考慮し、BlazingTextと呼ばれる非常に効率的なFastTextの実装を微調整した。

Offensive language detection is an ever-growing natural language processing (NLP) application. This growth is mainly because of the widespread usage of social networks, which becomes a mainstream channel for people to communicate, work, and enjoy entertainment content. Many incidents of sharing aggressive and offensive content negatively impacted society to a great extend. We believe contributing to improving and comparing different machine learning models to fight such harmful contents is an important and challenging goal for this thesis. We targeted the problem of offensive language detection for building efficient automated models for offensive language detection. With the recent advancements of NLP models, specifically, the Transformer model, which tackled many shortcomings of the standard seq-to-seq techniques. The BERT model has shown state-of-the-art results on many NLP tasks. Although the literature still exploring the reasons for the BERT achievements in the NLP field. Other efficient variants have been developed to improve upon the standard BERT, such as RoBERTa and ALBERT. Moreover, due to the multilingual nature of text on social media that could affect the model decision on a given tween, it is becoming essential to examine multilingual models such as XLM-RoBERTa trained on 100 languages and how did it compare to unilingual models. The RoBERTa based model proved to be the most capable model and achieved the highest F1 score for the tasks. Another critical aspect of a well-rounded offensive language detection system is the speed at which a model can be trained and make inferences. In that respect, we have considered the model run-time and fine-tuned the very efficient implementation of FastText called BlazingText that achieved good results, which is much faster than BERT-based models.
翻訳日:2021-07-05 01:17:12 公開日:2021-05-30
# 高忠実度画像生成のためのカスケード拡散モデル

Cascaded Diffusion Models for High Fidelity Image Generation ( http://arxiv.org/abs/2106.15282v1 )

ライセンス: Link先を確認
Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, Tim Salimans(参考訳) その結果, カスケード拡散モデルは, 補助画像分類器を介さずに高忠実度画像を生成することができ, サンプル品質の向上が期待できることがわかった。 カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含み、低解像度で標準拡散モデルから始まり、1つ以上の超解像拡散モデルにより、画像を順次アップサンプリングし、高解像度の詳細を追加する。 その結果,cascadingパイプラインのサンプル品質は,スーパーレゾリューションモデルに対する低分解能コンディショニング入力のコンディショニング増補法であるコンディショニング増補法に大きく依存していることがわかった。 実験の結果,コンディショニングの増大はカスケードモデルにおけるサンプリング中の複合的誤差を防止し,64x64で1.48点,128x128で3.52点,256x256で4.88点のFIDスコアを達成できるカスケードパイプラインの訓練に役立てた。

We show that cascaded diffusion models are capable of generating high fidelity images on the class-conditional ImageNet generation challenge, without any assistance from auxiliary image classifiers to boost sample quality. A cascaded diffusion model comprises a pipeline of multiple diffusion models that generate images of increasing resolution, beginning with a standard diffusion model at the lowest resolution, followed by one or more super-resolution diffusion models that successively upsample the image and add higher resolution details. We find that the sample quality of a cascading pipeline relies crucially on conditioning augmentation, our proposed method of data augmentation of the lower resolution conditioning inputs to the super-resolution models. Our experiments show that conditioning augmentation prevents compounding error during sampling in a cascaded model, helping us to train cascading pipelines achieving FID scores of 1.48 at 64x64, 3.52 at 128x128 and 4.88 at 256x256 resolutions, outperforming BigGAN-deep.
翻訳日:2021-07-04 19:34:41 公開日:2021-05-30
# 科学的データ削減と可視化のための階層的超解法

Deep Hierarchical Super-Resolution for Scientific Data Reduction and Visualization ( http://arxiv.org/abs/2107.00462v1 )

ライセンス: Link先を確認
Skylar W. Wurster, Han-Wei Shen, Hanqi Guo, Thomas Peterka, Mukund Raj, and Jiayi Xu(参考訳) 我々は,オクツリーデータ表現上のニューラルネットワークを用いた階層的超解像(SR)に対するアプローチを提案する。 ニューラルネットワークの階層をトレーニングし,それぞれの空間次元において2倍のスケールアップが可能で,これらのネットワークをタンデムで使用することで,大規模ファクタのスーパーレゾリューションを実現し,トレーニングされたネットワークの数をスケールする。 我々はこれらのネットワークを,オクツリーノード境界にシームアーティファクトを導入することなく,マルチ解像度データを一様高解像度にスケールアップする階層的超解法アルゴリズムで利用する。 本稿では,入力データをoctreeベースのデータ構造に動的にスケールダウンして,圧縮前のマルチレゾリューションデータを表現することにより,データ削減フレームワークにおけるこのアルゴリズムの適用を評価する。 提案手法は,マルチレゾリューションデータ形式に共通するSeamアーチファクトを回避し,ニューラルネットワークによる超解像支援データ削減が,圧縮機単独で同じ圧縮比でグローバルな特徴を保てることを示す。

We present an approach for hierarchical super resolution (SR) using neural networks on an octree data representation. We train a hierarchy of neural networks, each capable of 2x upscaling in each spatial dimension between two levels of detail, and use these networks in tandem to facilitate large scale factor super resolution, scaling with the number of trained networks. We utilize these networks in a hierarchical super resolution algorithm that upscales multiresolution data to a uniform high resolution without introducing seam artifacts on octree node boundaries. We evaluate application of this algorithm in a data reduction framework by dynamically downscaling input data to an octree-based data structure to represent the multiresolution data before compressing for additional storage reduction. We demonstrate that our approach avoids seam artifacts common to multiresolution data formats, and show how neural network super resolution assisted data reduction can preserve global features better than compressors alone at the same compression ratios.
翻訳日:2021-07-04 19:33:44 公開日:2021-05-30
# Xihe:モバイル拡張現実のための3Dビジョンベースの照明推定フレームワーク

Xihe: A 3D Vision-based Lighting Estimation Framework for Mobile Augmented Reality ( http://arxiv.org/abs/2106.15280v1 )

ライセンス: Link先を確認
Yiqin Zhao and Tian Guo(参考訳) Omnidirectional Lightingは、空間的に変化する光リアルな3Dレンダリングを実現するための基盤を提供する。 しかし、実際には、レンダリング位置の部分的なパノラマや、固有の環境照明やモバイルユーザダイナミクスといった制限のため、全方向照明の推定は困難である。 モバイル3Dビジョンの進歩には、高精度深度センサーとディープラーニングによるアルゴリズムが組み込まれており、物理的な環境をよりよく理解し理解するための手段となっている。 3Dビジョンのキーとなるアイデアを中心として、我々はXiheと呼ばれるエッジ支援フレームワークを設計し、モバイルARアプリケーションに正確な全方位照明推定をリアルタイムで得る能力を提供する。 具体的には,モバイル端末で発生する原点雲の入力を効率的に圧縮する新しいサンプリング手法を開発した。 この手法は、最近の3次元屋内データセットの実証分析に基づいて導出され、我々の3次元視覚に基づく照明推定パイプライン設計において重要な役割を果たす。 リアルタイムの目標を達成するため,オンデバイスクラウド処理に適したGPUパイプラインを開発し,ネットワーク伝送バイトを減らすエンコーディング技術を使用する。 最後に,不必要な照明推定を省略できる適応トリガ方式と,モバイルARエコシステムとの時間的コヒーレントなレンダリング統合を実現する実用的な方法を提案する。 我々は,XiheのAPIで開発したリファレンスモバイルアプリケーションを用いて,Xiheの照明推定精度と時間の両方を評価する。 その結果、xiheは光量推定に20.67ミリ秒を要し、最先端のニューラルネットワークよりも9.4%精度が向上した。

Omnidirectional lighting provides the foundation for achieving spatially-variant photorealistic 3D rendering, a desirable property for mobile augmented reality applications. However, in practice, estimating omnidirectional lighting can be challenging due to limitations such as partial panoramas of the rendering positions, and the inherent environment lighting and mobile user dynamics. A new opportunity arises recently with the advancements in mobile 3D vision, including built-in high-accuracy depth sensors and deep learning-powered algorithms, which provide the means to better sense and understand the physical surroundings. Centering the key idea of 3D vision, in this work, we design an edge-assisted framework called Xihe to provide mobile AR applications the ability to obtain accurate omnidirectional lighting estimation in real time. Specifically, we develop a novel sampling technique that efficiently compresses the raw point cloud input generated at the mobile device. This technique is derived based on our empirical analysis of a recent 3D indoor dataset and plays a key role in our 3D vision-based lighting estimator pipeline design. To achieve the real-time goal, we develop a tailored GPU pipeline for on-device point cloud processing and use an encoding technique that reduces network transmitted bytes. Finally, we present an adaptive triggering strategy that allows Xihe to skip unnecessary lighting estimations and a practical way to provide temporal coherent rendering integration with the mobile AR ecosystem. We evaluate both the lighting estimation accuracy and time of Xihe using a reference mobile application developed with Xihe's APIs. Our results show that Xihe takes as fast as 20.67ms per lighting estimation and achieves 9.4% better estimation accuracy than a state-of-the-art neural network.
翻訳日:2021-07-04 19:33:01 公開日:2021-05-30
# (参考訳) ブロードインパクト要求によるAIの倫理教育 [全文訳有]

Institutionalising Ethics in AI through Broader Impact Requirements ( http://arxiv.org/abs/2106.11039v1 )

ライセンス: CC BY 4.0
Carina Prunkl, Carolyn Ashurst, Markus Anderljung, Helena Webb, Jan Leike, Allan Dafoe(参考訳) 原則を実践に変えることは、人工知能(AI)ガバナンスの最も急進的な課題の1つだ。 この記事では、世界最大のAIカンファレンスのひとつによる、新しいガバナンスイニシアチブについて振り返る。 2020年、神経情報処理システム会議(NeurIPS)は、著者に研究のより広範な社会的影響に関する声明を提出するよう要求した。 組織的レビューボード(irbs)や資金提供に対する影響要件など,類似したガバナンスイニシアチブからの洞察を引き合いに出し,このようなイニシアティブのリスク,課題,潜在的利益について検討する。 課題として,ベストプラクティスの欠如,手続きの透明性,研究者の機会コスト,制度的・社会的プレッシャー,認知バイアス,本質的に困難なタスクの性質を挙げる。 一方、潜在的な利益には、影響の予測と識別の改善、政策やガバナンスの専門家とのコミュニケーションの改善、責任ある研究に関する規範の全般的な強化が含まれる。 成功のチャンスを最大化するため、透明性の向上、ガイダンスの改善、プロセスに真剣に関与するためのインセンティブの作成、要件のメリットと将来に関する公的な審議の促進を推奨します。 この分析から得られる最も重要な貢献は、効果的なコミュニティベースのガバナンスと、AI研究コミュニティの役割と責任について、より広く得ることができる洞察である。

Turning principles into practice is one of the most pressing challenges of artificial intelligence (AI) governance. In this article, we reflect on a novel governance initiative by one of the world's largest AI conferences. In 2020, the Conference on Neural Information Processing Systems (NeurIPS) introduced a requirement for submitting authors to include a statement on the broader societal impacts of their research. Drawing insights from similar governance initiatives, including institutional review boards (IRBs) and impact requirements for funding applications, we investigate the risks, challenges and potential benefits of such an initiative. Among the challenges, we list a lack of recognised best practice and procedural transparency, researcher opportunity costs, institutional and social pressures, cognitive biases, and the inherently difficult nature of the task. The potential benefits, on the other hand, include improved anticipation and identification of impacts, better communication with policy and governance experts, and a general strengthening of the norms around responsible research. To maximise the chance of success, we recommend measures to increase transparency, improve guidance, create incentives to engage earnestly with the process, and facilitate public deliberation on the requirement's merits and future. Perhaps the most important contribution from this analysis are the insights we can gain regarding effective community-based governance and the role and responsibility of the AI research community more broadly.
翻訳日:2021-06-27 13:04:12 公開日:2021-05-30
# グラフィックス処理ユニットを用いた高性能ハイパースペクトル画像分類

High Performance Hyperspectral Image Classification using Graphics Processing Units ( http://arxiv.org/abs/2106.12942v1 )

ライセンス: Link先を確認
Mahmoud Hossam(参考訳) 捜索および救助任務、軍事目標検出、環境監視、ハザード防止などのリアルタイムリモートセンシングアプリケーションは、搭載されたリアルタイム処理機能や自律的な意思決定を必要とする。 衛星のような無人の遠隔システムはオペレーターから物理的に遠ざかっており、宇宙船が返した全ての制御とデータを無線無線で送信しなければならない。 このリンクは、衛星が地上局の視界外にある場合、長期間は利用できない可能性がある。 そのため、オンボードリアルタイム処理システムには軽量で小型で低消費電力のハードウェアが不可欠である。 近年のハイパースペクトルイメージングセンサの寸法、サイズ、解像度が向上するにつれて、リモートセンシング処理システムやより有能なコンピューティングアーキテクチャに新たな課題が生まれている。 gpu(graphical processing unit)は軽量高性能コンピューティングのための有望なアーキテクチャとして登場し、オンボードシステムにおけるこれらの計算要件に対処できる。 本研究の目的は,オンボードハイパースペクトル解析のための高性能手法を構築することである。 本稿では,GPUを用いたRHSEGクラスタリング手法,GPUを用いたハイブリッドマルチコアCPU,ハイブリッドマルチコアCPU/GPUクラスタの高速化手法を提案する。 RHSEGはNASA(National Aeronautics and Space Administration)によって開発された手法で、複数の出力レベルを持つ豊富な分類情報を提供するように設計されている。 CPUシーケンシャル実装と比較して達成された並列ソリューションによるスピードアップは、並列シングルGPUで21倍、ハイブリッドマルチノードコンピュータクラスタで16の計算ノードで240倍である。 同等の並列CPUクラスタと比較して、単一のGPUを使用してエネルギー消費量を74%に削減する。

Real-time remote sensing applications like search and rescue missions, military target detection, environmental monitoring, hazard prevention and other time-critical applications require onboard real time processing capabilities or autonomous decision making. Some unmanned remote systems like satellites are physically remote from their operators, and all control of the spacecraft and data returned by the spacecraft must be transmitted over a wireless radio link. This link may not be available for extended periods when the satellite is out of line of sight of its ground station. Therefore, lightweight, small size and low power consumption hardware is essential for onboard real time processing systems. With increasing dimensionality, size and resolution of recent hyperspectral imaging sensors, additional challenges are posed upon remote sensing processing systems and more capable computing architectures are needed. Graphical Processing Units (GPUs) emerged as promising architecture for light weight high performance computing that can address these computational requirements for onboard systems. The goal of this study is to build high performance methods for onboard hyperspectral analysis. We propose accelerated methods for the well-known recursive hierarchical segmentation (RHSEG) clustering method, using GPUs, hybrid multicore CPU with a GPU and hybrid multi-core CPU/GPU clusters. RHSEG is a method developed by the National Aeronautics and Space Administration (NASA), which is designed to provide rich classification information with several output levels. The achieved speedups by parallel solutions compared to CPU sequential implementations are 21x for parallel single GPU and 240x for hybrid multi-node computer clusters with 16 computing nodes. The energy consumption is reduced to 74% using a single GPU compared to the equivalent parallel CPU cluster.
翻訳日:2021-06-27 09:02:34 公開日:2021-05-30
# xgboostと多目的遺伝的アルゴリズムを用いた癌分類のためのハイブリッド遺伝子選択アプローチ

Hybrid gene selection approach using XGBoost and multi-objective genetic algorithm for cancer classification ( http://arxiv.org/abs/2106.05841v1 )

ライセンス: Link先を確認
Xiongshi Deng, Min Li, Shaobo Deng, Lei Wang(参考訳) マイクロアレイ遺伝子発現データは、多くの遺伝子と少数のサンプルが伴っていることが多い。 しかし、これらの遺伝子のうち、がんに関連するものはほとんどなく、有意な遺伝子選択が困難となる。 そこで我々は,マイクロアレイデータセットにおける癌分類のための極勾配増強(XGBoost)と多目的最適化遺伝的アルゴリズム(XGBoost-MOGA)を組み合わせた2段階遺伝子選択手法を提案する。 第1段階では、XGBoostを用いたアンサンブルベースの特徴選択を用いてランク付けされる。 この段階は、無関係な遺伝子を効果的に除去し、クラスに関連する最も関連する遺伝子からなる群を生じることができる。 第2段階では、XGBoost-MOGAは、多目的最適化遺伝的アルゴリズムを用いて、最も関連性の高い遺伝子群に基づく最適な遺伝子サブセットを探索する。 xgboost-mogaを13のマイクロアレイ式データセット上で2つのよく知られた学習分類器を用いて,他の最先端特徴選択法と比較する包括的な実験を行った。 実験結果から,XGBoost-MOGAは,精度,Fスコア,精度,リコールなどの様々な評価基準において,従来の最先端アルゴリズムよりも有意に優れた結果が得られることが示された。

Microarray gene expression data are often accompanied by a large number of genes and a small number of samples. However, only a few of these genes are relevant to cancer, resulting in signigicant gene selection challenges. Hence, we propose a two-stage gene selection approach by combining extreme gradient boosting (XGBoost) and a multi-objective optimization genetic algorithm (XGBoost-MOGA) for cancer classification in microarray datasets. In the first stage, the genes are ranked use an ensemble-based feature selection using XGBoost. This stage can effectively remove irrelevant genes and yield a group comprising the most relevant genes related to the class. In the second stage, XGBoost-MOGA searches for an optimal gene subset based on the most relevant genes's group using a multi-objective optimization genetic algorithm. We performed comprehensive experiments to compare XGBoost-MOGA with other state-of-the-art feature selection methods using two well-known learning classifiers on 13 publicly available microarray expression datasets. The experimental results show that XGBoost-MOGA yields significantly better results than previous state-of-the-art algorithms in terms of various evaluation criteria, such as accuracy, F-score, precision, and recall.
翻訳日:2021-06-13 13:58:21 公開日:2021-05-30
# multimodal pretraining unmasked:メタアナリシスと視覚言語bertの統一フレームワーク

Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs ( http://arxiv.org/abs/2011.15124v2 )

ライセンス: Link先を確認
Emanuele Bugliarello, Ryan Cotterell, Naoaki Okazaki, Desmond Elliott(参考訳) 大規模事前学習とタスク固有の微調整は、コンピュータビジョンや自然言語処理における多くのタスクの標準的な方法論である。 近年,この2つの重要な領域の交差点における課題に対処するために,ビジョンと言語BERTの事前学習のための様々な手法が提案されている。 これらのモデルはシングルストリームまたはデュアルストリームエンコーダに分類できる。 これら2つの分類の相違について検討し,単一理論的枠組みの下でどのように統一できるかを示す。 次に,5つのV&L BERT間の経験的差異を明らかにするための制御実験を行った。 実験の結果, 実験データとハイパーパラメータは, 結果の相違の大部分の原因であるが, 埋込層がこれらの大規模モデルにおいて重要な役割を担っていることが明らかとなった。

Large-scale pretraining and task-specific fine-tuning is now the standard methodology for many tasks in computer vision and natural language processing. Recently, a multitude of methods have been proposed for pretraining vision and language BERTs to tackle challenges at the intersection of these two key areas of AI. These models can be categorised into either single-stream or dual-stream encoders. We study the differences between these two categories, and show how they can be unified under a single theoretical framework. We then conduct controlled experiments to discern the empirical differences between five V&L BERTs. Our experiments show that training data and hyperparameters are responsible for most of the differences between the reported results, but they also reveal that the embedding layer plays a crucial role in these massive models.
翻訳日:2021-06-06 15:01:35 公開日:2021-05-30
# (参考訳) スパースグラフのサンプルfr\'echet平均はスパースである [全文訳有]

The Sample Fr\'echet Mean of Sparse Graphs is Sparse ( http://arxiv.org/abs/2105.14397v1 )

ライセンス: CC BY 4.0
Francois G. Meyer, Daniel Ferguson(参考訳) ここでは、以下の結果を証明する: スパースグラフの集合のサンプル Fr\'echet 平均はスパースである。 グラフハミング距離とスペクトル隣接擬メトリックに対する結果は、非常に異なる引数を用いて証明する。

In this note we prove the following result: the sample Fr\'echet mean of a set of sparse graphs is sparse. We prove the result for the graph Hamming distance, and the spectral adjacency pseudometric, using very different arguments.
翻訳日:2021-06-03 13:04:56 公開日:2021-05-30
# (参考訳) 機能的および構造的結合マニフォールドを行動現象型で案内する行列オートエンコーダフレームワーク [全文訳有]

A Matrix Autoencoder Framework to Align the Functional and Structural Connectivity Manifolds as Guided by Behavioral Phenotypes ( http://arxiv.org/abs/2105.14409v1 )

ライセンス: CC BY 4.0
Niharika Shimona D'Souza, Mary Beth Nebel, Deana Crocetti, Nicholas Wymbs, Joshua Robinson, Stewart Mostofsky, Archana Venkataraman(参考訳) 本研究では,静止状態fMRI (rs-fMRI) から拡散テンソルイメージング (DTI) の構造的コネクトームへ写像する新しい行列オートエンコーダを提案する。 我々の特殊オートエンコーダは、標準外積分解を模倣したrs-fMRI相関行列に対して低次元多様体を埋め込む。 埋め込みは、第2の多様体アライメントデコーダを介してDTIトラクトグラフィ行列を再構成し、人工ニューラルネットワークを介してオブジェクト間の表現型変動を予測するために同時に使用される。 本研究では,ヒトコネクトームプロジェクトデータベースから275名の健常者のデータセットと,自閉症スペクトラム障害患者57名からなる第2の臨床データセットを検証した。 本モデルでは, 個体間の構造的接続パターンを確実に復元すると同時に, 予測的, 解釈可能な脳バイオマーカーを相互に有意に抽出する。 最後に、実世界の両方のデータセットにおける行動表現型を予測する上で、我々のフレームワークはいくつかのベースラインを上回っている。

We propose a novel matrix autoencoder to map functional connectomes from resting state fMRI (rs-fMRI) to structural connectomes from Diffusion Tensor Imaging (DTI), as guided by subject-level phenotypic measures. Our specialized autoencoder infers a low dimensional manifold embedding for the rs-fMRI correlation matrices that mimics a canonical outer-product decomposition. The embedding is simultaneously used to reconstruct DTI tractography matrices via a second manifold alignment decoder and to predict inter-subject phenotypic variability via an artificial neural network. We validate our framework on a dataset of 275 healthy individuals from the Human Connectome Project database and on a second clinical dataset consisting of 57 subjects with Autism Spectrum Disorder. We demonstrate that the model reliably recovers structural connectivity patterns across individuals, while robustly extracting predictive and interpretable brain biomarkers in a cross-validated setting. Finally, our framework outperforms several baselines at predicting behavioral phenotypes in both real-world datasets.
翻訳日:2021-06-03 12:49:02 公開日:2021-05-30
# (参考訳) 放射移動方程式の機械学習モーメント閉包モデルII:勾配に基づく閉包における大域的双曲性 [全文訳有]

Machine learning moment closure models for the radiative transfer equation II: enforcing global hyperbolicity in gradient based closures ( http://arxiv.org/abs/2105.14410v1 )

ライセンス: CC BY 4.0
Juntao Huang, Yingda Cheng, Andrew J. Christlieb, Luke F. Roberts, Wen-An Yong(参考訳) 本稿では,放射移動方程式(RTE)のための機械学習(ML)モーメントクロージャモデルを開発するシリーズの2番目の論文である。 先行研究である「cite{huang2021gradient}」では、未閉高次モーメントの勾配を直接学習する手法を提案し、モーメント自体と従来の$P_N$閉包を学習するよりもはるかに優れた性能を示した。 しかし、 \cite{huang2021gradient} のMLモーメントクロージャモデルでは、双曲性や長期安定性は保証できない。 本稿では,ML閉鎖モデルの大域的双曲性を強制する手法を提案する。 主なアイデアは閉包系のシンメトリザー(対称正定値行列)を探し、系が大域的に対称性を持つ双曲型であるような制約を導出することである。 新しいML閉包系は、RTEの散逸性を継承し、クンスデン数が 0 になるにつれて正しい拡散限界を保っていることが示されている。 gaussian source problemやtwo-material problemを含むいくつかのベンチマークテストは、我々のグローバル双曲mlクロージャモデルの精度、長期安定性、一般化性を示している。

This is the second paper in a series in which we develop machine learning (ML) moment closure models for the radiative transfer equation (RTE). In our previous work \cite{huang2021gradient}, we proposed an approach to directly learn the gradient of the unclosed high order moment, which performs much better than learning the moment itself and the conventional $P_N$ closure. However, the ML moment closure model in \cite{huang2021gradient} is not able to guarantee hyperbolicity and long time stability. We propose in this paper a method to enforce the global hyperbolicity of the ML closure model. The main idea is to seek a symmetrizer (a symmetric positive definite matrix) for the closure system, and derive constraints such that the system is globally symmetrizable hyperbolic. It is shown that the new ML closure system inherits the dissipativeness of the RTE and preserves the correct diffusion limit as the Knunsden number goes to zero. Several benchmark tests including the Gaussian source problem and the two-material problem show the good accuracy, long time stability and generalizability of our globally hyperbolic ML closure model.
翻訳日:2021-06-03 12:39:12 公開日:2021-05-30
# (参考訳) 深部ResNetの過パラメータ化:ゼロ損失と平均場解析

Overparameterization of deep ResNet: zero loss and mean-field analysis ( http://arxiv.org/abs/2105.14417v1 )

ライセンス: CC BY 4.0
Zhiyan Ding and Shi Chen and Qin Li and Stephen Wright(参考訳) トレーニングデータに適合する深層ニューラルネットワーク(nn)内のパラメータを見つけることは、非凸最適化問題であるが、基本的な一階最適化法(勾配降下法)は、多くの実用的な状況において完全なグローバルソリューションを見つける。 本研究では,Residual Neural Networks(ResNet)において,各層(深度)と各層(幅)のニューロン数の両方が無限大となる制限条件下でのスムーズな活性化機能を有する現象について検討する。 まず, パラメータトレーニングの勾配降下が偏微分方程式(pde)となり, 大nn限界の確率分布に対する勾配流れを特徴付けることを証明するために, 平均場-極限引数を用いる。 次に、PDEの解は学習時間内にゼロロス解に収束することを示す。 これらの結果は、resnetが十分に大きい場合、resnetのトレーニングもほぼゼロの損失をもたらすことを示している。 所定の閾値以下で損失を減少させるのに必要な深さと幅を高い確率で見積もる。

Finding parameters in a deep neural network (NN) that fit training data is a nonconvex optimization problem, but a basic first-order optimization method (gradient descent) finds a global solution with perfect fit in many practical situations. We examine this phenomenon for the case of Residual Neural Networks (ResNet) with smooth activation functions in a limiting regime in which both the number of layers (depth) and the number of neurons in each layer (width) go to infinity. First, we use a mean-field-limit argument to prove that the gradient descent for parameter training becomes a partial differential equation (PDE) that characterizes gradient flow for a probability distribution in the large-NN limit. Next, we show that the solution to the PDE converges in the training time to a zero-loss solution. Together, these results imply that training of the ResNet also gives a near-zero loss if the Resnet is large enough. We give estimates of the depth and width needed to reduce the loss below a given threshold, with high probability.
翻訳日:2021-06-03 12:26:20 公開日:2021-05-30
# (参考訳) ICDAR 2021 Conference on Scientific Table Image Recognition to LaTeX [全文訳有]

ICDAR 2021 Competition on Scientific Table Image Recognition to LaTeX ( http://arxiv.org/abs/2105.14426v1 )

ライセンス: CC BY 4.0
Pratik Kayal, Mrinal Anand, Harsh Desai, Mayank Singh(参考訳) 表は多くの科学的文書に簡潔に重要な情報を示す。 数学的記号、方程式、スパンニングセルなどの視覚的特徴は、研究文書に埋め込まれたテーブルから構造と内容の抽出を困難にする。 本稿では,LaTeX における ICDAR 2021 Competition on Scientific Table Image Recognition のデータセット,タスク,参加者の方法,および結果について論じる。 具体的には、競合のタスクは、表イメージを対応するlatexソースコードに変換することである。 我々は2つのサブタスクを提案した。 Subtask 1では、参加者にイメージからLaTeX構造コードを再構築するよう依頼する。 Subtask 2では、参加者にイメージからLaTeXコンテンツコードを再構築するよう依頼する。 本報告では、データセットと基底真理の仕様、使用するパフォーマンス評価メトリクスの詳細、最終結果の提示、参加方法の要約について述べる。 team vcgroupによる投稿は、subtask 1で74%、subtask 2で55%、以前のベースラインで5%、そして12%という、最も正確なマッチング精度スコアを得た。 モデルの認識能力にはまだ改善の余地があるが、このコンペティションは、特定の制約の下で問題を解決するために実践者に挑戦し、そのアプローチを共有することによって、完全に自動化されたテーブル認識システムの開発に寄与する。

Tables present important information concisely in many scientific documents. Visual features like mathematical symbols, equations, and spanning cells make structure and content extraction from tables embedded in research documents difficult. This paper discusses the dataset, tasks, participants' methods, and results of the ICDAR 2021 Competition on Scientific Table Image Recognition to LaTeX. Specifically, the task of the competition is to convert a tabular image to its corresponding LaTeX source code. We proposed two subtasks. In Subtask 1, we ask the participants to reconstruct the LaTeX structure code from an image. In Subtask 2, we ask the participants to reconstruct the LaTeX content code from an image. This report describes the datasets and ground truth specification, details the performance evaluation metrics used, presents the final results, and summarizes the participating methods. Submission by team VCGroup got the highest Exact Match accuracy score of 74% for Subtask 1 and 55% for Subtask 2, beating previous baselines by 5% and 12%, respectively. Although improvements can still be made to the recognition capabilities of models, this competition contributes to the development of fully automated table recognition systems by challenging practitioners to solve problems under specific constraints and sharing their approaches; the platform will remain available for post-challenge submissions at https://competitions .codalab.org/competi tions/26979 .
翻訳日:2021-06-03 12:25:10 公開日:2021-05-30
# (参考訳) NAS-BERT:ニューラルアーキテクチャ探索によるタスク非依存かつ適応サイズBERT圧縮 [全文訳有]

NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search ( http://arxiv.org/abs/2105.14444v1 )

ライセンス: CC BY 4.0
Jin Xu, Xu Tan, Renqian Luo, Kaitao Song, Jian Li, Tao Qin, Tie-Yan Liu(参考訳) 事前訓練された言語モデル(例えばBERT)は、異なる自然言語処理タスクにおいて印象的な結果を得たが、多くのパラメータを持ち、計算とメモリのコストに悩まされており、現実のデプロイメントでは困難である。 したがって、事前訓練されたモデルの計算とメモリコストを低減するためにモデル圧縮が必要である。 本研究は,BERTを圧縮し,次の2つの課題に対処することを目的としている。(1) 圧縮アルゴリズムは,異なるメモリと遅延制限を持つデバイスをサポートするために,異なるサイズとレイテンシを持つ複数の圧縮モデルを出力できなければならない。 我々は、NAS(Neural Architecture Search)の手法を活用し、BERT圧縮の効率的な方法であるNAS-BERTを提案する。 NAS-BERTは、様々なアーキテクチャを含む検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮されたモデルを出力する。 さらに、NAS-BERTのトレーニングは、標準的な自己監督型事前訓練タスク(例えば、マスク付き言語モデル)で行われ、特定の下流タスクに依存しない。 したがって、圧縮されたモデルは様々な下流タスクで使用できる。 NAS-BERTの技術的課題は、トレーニング前のタスクで大きなスーパーネットをトレーニングすることは非常にコストがかかることである。 我々は,ブロックワイズ探索,探索空間の刈り取り,性能近似などの手法を用いて,探索効率と精度を向上させる。 グルーとスクワッドベンチマークデータセットに関する広範な実験は、nas-bertが以前のアプローチよりも精度の高い軽量モデルを見つけることができ、メモリやレイテンシの異なる要件に対して、適応モデルサイズを備えた下流タスクに直接適用できることを示している。

While pre-trained language models (e.g., BERT) have achieved impressive results on different natural language processing tasks, they have large numbers of parameters and suffer from big computational and memory costs, which make them difficult for real-world deployment. Therefore, model compression is necessary to reduce the computation and memory cost of pre-trained models. In this work, we aim to compress BERT and address the following two challenging practical issues: (1) The compression algorithm should be able to output multiple compressed models with different sizes and latencies, in order to support devices with different memory and latency limitations; (2) The algorithm should be downstream task agnostic, so that the compressed models are generally applicable for different downstream tasks. We leverage techniques in neural architecture search (NAS) and propose NAS-BERT, an efficient method for BERT compression. NAS-BERT trains a big supernet on a search space containing a variety of architectures and outputs multiple compressed models with adaptive sizes and latency. Furthermore, the training of NAS-BERT is conducted on standard self-supervised pre-training tasks (e.g., masked language model) and does not depend on specific downstream tasks. Thus, the compressed models can be used across various downstream tasks. The technical challenge of NAS-BERT is that training a big supernet on the pre-training task is extremely costly. We employ several techniques including block-wise search, search space pruning, and performance approximation to improve search efficiency and accuracy. Extensive experiments on GLUE and SQuAD benchmark datasets demonstrate that NAS-BERT can find lightweight models with better accuracy than previous approaches, and can be directly applied to different downstream tasks with adaptive model sizes for different requirements of memory or latency.
翻訳日:2021-06-03 12:15:07 公開日:2021-05-30
# (参考訳) マルチモーダルダイアログ生成のためのテキスト視覚的相互依存のモデル化 [全文訳有]

Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation ( http://arxiv.org/abs/2105.14445v1 )

ライセンス: CC BY 4.0
Shuhe Wang, Yuxian Meng, Xiaofei Sun, Fei Wu, Rongbin Ouyang, Rui Yan, Tianwei Zhang, Jiwei Li(参考訳) マルチモーダルダイアログモデリングは関心が増している。 本研究では,実世界におけるマルチモーダルダイアログ生成をよりよく模倣する,マルチモーダルダイアログ生成の特定のケースを解決するためのフレームワークを提案する。 具体的には,テキスト・視覚的特徴間の相互依存をモデル化することを提案する。このモデルでは,先行するダイアログ発話と視覚的コンテキストから次のダイアログ発話を生成する確率を学習するだけでなく,ダイアログ発話の発生する視覚的特徴を予測する確率も学習し,生成したダイアログ発話を視覚的コンテキストに特有のものに導く。 テキストと視覚特徴の相互依存がモデル化された場合,バニラモデルに対する大幅なパフォーマンス向上が観察される。 コードはhttps://github.com/S hannonAI/OpenViDial. comで入手できる。

Multi-modal dialog modeling is of growing interest. In this work, we propose frameworks to resolve a specific case of multi-modal dialog generation that better mimics multi-modal dialog generation in the real world, where each dialog turn is associated with the visual context in which it takes place. Specifically, we propose to model the mutual dependency between text-visual features, where the model not only needs to learn the probability of generating the next dialog utterance given preceding dialog utterances and visual contexts, but also the probability of predicting the visual features in which a dialog utterance takes place, leading the generated dialog utterance specific to the visual context. We observe significant performance boosts over vanilla models when the mutual dependency between text and visual features is modeled. Code is available at https://github.com/S hannonAI/OpenViDial.
翻訳日:2021-06-03 11:52:24 公開日:2021-05-30
# (参考訳) NeuralWOZ:モデルベースシミュレーションによるタスク指向対話の収集学習 [全文訳有]

NeuralWOZ: Learning to Collect Task-Oriented Dialogue via Model-Based Simulation ( http://arxiv.org/abs/2105.14454v1 )

ライセンス: CC BY 4.0
Sungdong Kim, Minsuk Chang and Sang-Woo Lee(参考訳) 本稿では,モデルに基づく対話シミュレーションを用いた対話収集フレームワークNeuralWOZを提案する。 NeuralWOZには2つのパイプラインモデル、CollectorとLabelerがある。 コレクタは,(1)自然言語におけるユーザコンテキストとタスク制約であるユーザ目標指示,(2)与えられた知識ベースからユーザ要求に対して可能なクエリ応答のリストであるシステムapiコール結果から対話を生成する。 ラベルラは、アノテーションを複数選択問題として定式化し、目標指示とAPI呼び出し結果から候補ラベルを抽出することで生成された対話を注釈する。 対話状態追跡のためのゼロショットドメイン転送学習における提案手法の有効性を実証する。 評価において、NeuralWOZから生成された合成対話コーパスは、ドメイン間の平均的な共同ゴール精度4.4%の改善と、MultiWOZ 2.1データセットに対するゼロショットカバレッジの5.7%の改善により、新たな最先端を実現する。

We propose NeuralWOZ, a novel dialogue collection framework that uses model-based dialogue simulation. NeuralWOZ has two pipelined models, Collector and Labeler. Collector generates dialogues from (1) user's goal instructions, which are the user context and task constraints in natural language, and (2) system's API call results, which is a list of possible query responses for user requests from the given knowledge base. Labeler annotates the generated dialogue by formulating the annotation as a multiple-choice problem, in which the candidate labels are extracted from goal instructions and API call results. We demonstrate the effectiveness of the proposed method in the zero-shot domain transfer learning for dialogue state tracking. In the evaluation, the synthetic dialogue corpus generated from NeuralWOZ achieves a new state-of-the-art with improvements of 4.4% point joint goal accuracy on average across domains, and improvements of 5.7% point of zero-shot coverage against the MultiWOZ 2.1 dataset.
翻訳日:2021-06-03 11:35:53 公開日:2021-05-30
# (参考訳) d-セパレーションによる近似的含意 [全文訳有]

Approximate Implication with d-Separation ( http://arxiv.org/abs/2105.14463v1 )

ライセンス: CC BY 4.0
Batya Kenig(参考訳) 確率的グラフモデル(PGM)のグラフィカル構造は、モデル分布に保持される条件独立性(CI)関係を符号化する。 d-セパレーションのようなグラフアルゴリズムは、この構造を用いて、追加の条件の不依存性を推測し、特定のCIが分布に保持されているかどうかを問う。 PGMにおけるCIを導出するための現在のシステム・オブ・推論の前提は、PGMの構築に使用されるCIの集合が正確に保持されていることである。 実際には、データからPGMの構造を抽出するアルゴリズムは、分布に正確に保持されていない近似CIを発見する。 本稿では、このセットのエラーが、図形構造から読み取った推論CIにどのように伝播するかを問う。 より正確に言うと、それに関連するCIのセットがほぼ保持している場合に、推論CIにどのような保証ができますか? 最近、一般的な場合、そのような保証は提供されないことが示されている。 このような保証は、有向グラフモデルで推定されるCIの集合に対して存在し、d-セパレーションアルゴリズムを近似CIを推定するための健全かつ完全なシステムとする。 また,境界cisから導かれる独立関係の近似保証を証明した。

The graphical structure of Probabilistic Graphical Models (PGMs) encodes the conditional independence (CI) relations that hold in the modeled distribution. Graph algorithms, such as d-separation, use this structure to infer additional conditional independencies, and to query whether a specific CI holds in the distribution. The premise of all current systems-of-inference for deriving CIs in PGMs, is that the set of CIs used for the construction of the PGM hold exactly. In practice, algorithms for extracting the structure of PGMs from data, discover approximate CIs that do not hold exactly in the distribution. In this paper, we ask how the error in this set propagates to the inferred CIs read off the graphical structure. More precisely, what guarantee can we provide on the inferred CI when the set of CIs that entailed it hold only approximately? It has recently been shown that in the general case, no such guarantee can be provided. We prove that such a guarantee exists for the set of CIs inferred in directed graphical models, making the d-separation algorithm a sound and complete system for inferring approximate CIs. We also prove an approximation guarantee for independence relations derived from marginal CIs.
翻訳日:2021-06-03 11:00:12 公開日:2021-05-30
# (参考訳) 非対称アーキテクチャによる深層強化学習エージェントの展開時間推論制御コストの削減 [全文訳有]

Reducing the Deployment-Time Inference Control Costs of Deep Reinforcement Learning Agents via an Asymmetric Architecture ( http://arxiv.org/abs/2105.14471v1 )

ライセンス: CC BY 4.0
Chin-Jui Chang, Yu-Wei Chu, Chao-Hsien Ting, Hao-Kang Liu, Zhang-Wei Hong, Chun-Yi Lee(参考訳) 深層強化学習(DRL)は、いくつかの困難な意思決定と制御タスクにおいて有望な結果をもたらすことが示されている。 しかし、ディープニューラルネットワーク(DNN)に必要な推論コストは、DRLが高エネルギー消費計算の余裕のない移動ロボットに適用されるのを防ぐことができる。 そこで本稿では, DRL法をエネルギー制限型プラットフォームで安価に利用するために, 計算コストのかかるポリシーと経済政策を切り替えることで, 全体的な推論コストを削減できる非対称アーキテクチャを提案する。 ロボット制御タスクの代表的ベンチマークスイートを用いて評価した結果,エージェント全体の性能を維持しながら,提案手法が推論コストを低減できることが実証された。

Deep reinforcement learning (DRL) has been demonstrated to provide promising results in several challenging decision making and control tasks. However, the required inference costs of deep neural networks (DNNs) could prevent DRL from being applied to mobile robots which cannot afford high energy-consuming computations. To enable DRL methods to be affordable in such energy-limited platforms, we propose an asymmetric architecture that reduces the overall inference costs via switching between a computationally expensive policy and an economic one. The experimental results evaluated on a number of representative benchmark suites for robotic control tasks demonstrate that our method is able to reduce the inference costs while retaining the agent's overall performance.
翻訳日:2021-06-03 10:37:22 公開日:2021-05-30
# (参考訳) REAM$\sharp$:オープンドメインダイアログ生成のための参照ベース評価指標の拡張アプローチ [全文訳有]

REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation Metrics for Open-domain Dialog Generation ( http://arxiv.org/abs/2105.14488v1 )

ライセンス: CC BY 4.0
Jun Gao, Wei Bi, Ruifeng Xu and Shuming Shi(参考訳) 信頼性の高い自動評価指標の欠如は、オープンドメイン対話システムの開発に大きな障害となる。 予測応答と少ない参照集合の間のスコアを計算するために、様々な基準ベースのメトリクスが提案されている。 しかし、これらの指標は人間の判断と不満足な相関を示す。 基準に基づく計量では、その信頼性は主に、予測応答と基準応答の類似性を測定する能力と、与えられた基準集合の信頼性の2つの要因に依存する。 しかし、後者については議論がほとんどない。 私たちの仕事はこの空き地を埋めようとしている。 まず、基準セットにより高品質な参照を追加すれば、基準の信頼性が向上するという、基準ベースのメトリクスの仮定を明確にする。 次に、オープンドメイン対話システムのための参照ベースのEvAluation Metricsへの拡張アプローチREAM$\sharp$を提案する。 予測モデルは、与えられた参照集合の信頼性を推定するために設計される。 本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。 予測モデルの有効性と参照ベースメトリクスの信頼性が拡張参照セットにより向上することを示す実験を行った。

The lack of reliable automatic evaluation metrics is a major impediment to the development of open-domain dialogue systems. Various reference-based metrics have been proposed to calculate a score between a predicted response and a small set of references. However, these metrics show unsatisfactory correlations with human judgments. For a reference-based metric, its reliability mainly depends on two factors: its ability to measure the similarity between the predicted response and the reference response, as well as the reliability of the given reference set. Yet, there are few discussions on the latter. Our work attempts to fill this vacancy. We first clarify an assumption on reference-based metrics that, if more high-quality references are added into the reference set, the reliability of the metric will increase. Next, we present REAM$\sharp$: an enhancement approach to Reference-based EvAluation Metrics for open-domain dialogue systems. A prediction model is designed to estimate the reliability of the given reference set. We show how its predicted results can be helpful to augment the reference set, and thus improve the reliability of the metric. Experiments validate both the effectiveness of our prediction model and that the reliability of reference-based metrics improves with the augmented reference sets.
翻訳日:2021-06-03 10:22:02 公開日:2021-05-30
# (参考訳) 依存グラフ解析としての構造化感情分析 [全文訳有]

Structured Sentiment Analysis as Dependency Graph Parsing ( http://arxiv.org/abs/2105.14504v1 )

ライセンス: CC BY 4.0
Jeremy Barnes, Robin Kurtz, Stephan Oepen, Lilja {\O}vrelid, Erik Velldal(参考訳) 構造化感情分析(Structured sentiment analysis)は、テキストから完全な意見のタプルを抽出しようとするが、時間が経つにつれて、このタスクはより小さなサブタスク、例えばターゲット抽出、あるいはターゲット極性分類に分割される。 この部門は非生産的になり、状況を改善するための新しい統一フレームワークを提案している。 我々は、構造化された感情問題を依存グラフ解析として、ノードは感情保持者、ターゲット、表現の領域であり、弧はそれらの関係であると考えた。 我々は4つの言語(英語、ノルウェー語、バスク語、カタルーニャ語)で5つのデータセットの実験を行い、このアプローチが最先端のベースラインよりも強力な改善をもたらすことを示す。 分析の結果,構文依存情報による感情グラフの精細化により,結果がさらに向上することが示された。

Structured sentiment analysis attempts to extract full opinion tuples from a text, but over time this task has been subdivided into smaller and smaller sub-tasks, e,g,, target extraction or targeted polarity classification. We argue that this division has become counterproductive and propose a new unified framework to remedy the situation. We cast the structured sentiment problem as dependency graph parsing, where the nodes are spans of sentiment holders, targets and expressions, and the arcs are the relations between them. We perform experiments on five datasets in four languages (English, Norwegian, Basque, and Catalan) and show that this approach leads to strong improvements over state-of-the-art baselines. Our analysis shows that refining the sentiment graphs with syntactic dependency information further improves results.
翻訳日:2021-06-03 10:08:15 公開日:2021-05-30
# (参考訳) 人間の解釈可能なAI:Drop ClauseでTsetlinマシンの確率を高める [全文訳有]

Human Interpretable AI: Enhancing Tsetlin Machine Stochasticity with Drop Clause ( http://arxiv.org/abs/2105.14506v1 )

ライセンス: CC BY-SA 4.0
Jivitesh Sharma, Rohan Yadav, Ole-Christoffer Granmo and Lei Jiao(参考訳) 本稿では,TM の重要な学習要素である節をランダムにドロップする Tsetlin Machine (TM) の新たな変種を紹介する。 事実上、ドロップ節を持つTMは、予め定義された確率に応じて選択された各エポックにおける節のランダムな選択を無視する。 このようにして、TMの学習フェーズにさらなる確率性を導入する。 パフォーマンスを改善するために、より明瞭でよく構造化されたパターンを生成するとともに、節のドロップが学習の堅牢性を高めることも示しています。 そこで本研究では,自然言語処理(nlp,imdb,sst2)とコンピュータビジョン(mnist,cifar10)の様々なベンチマークデータセットについて,文節の削除が正確性,訓練時間,解釈性に与える影響を検討する。 要約すると、精度は+2%から+4%、学習速度は2倍から4倍に向上しています。 さらに、CIFAR10データセット上での解釈結果の文書化にConvolutional TMを使用します。 我々の知る限りでは、CIFAR10で画素レベルの人間解釈結果を生成するために、解釈可能な機械学習アルゴリズムが使用されるのはこれが初めてである。 また,注目の可視化や勾配の解釈性に着目した従来の解釈可能な手法とは異なり,TMはより一般的な解釈可能な手法であることを示す。 すなわち、規則に基づく命題論理式を「emph{ human}-prepretable」として生成することにより、コンピュータビジョンのピクセルレベルで、NLPのワードレベルで、特定のインスタンスをどのように分類するかを説明することができる。

In this article, we introduce a novel variant of the Tsetlin machine (TM) that randomly drops clauses, the key learning elements of a TM. In effect, TM with drop clause ignores a random selection of the clauses in each epoch, selected according to a predefined probability. In this way, additional stochasticity is introduced in the learning phase of TM. Along with producing more distinct and well-structured patterns that improve the performance, we also show that dropping clauses increases learning robustness. To explore the effects clause dropping has on accuracy, training time, and interpretability, we conduct extensive experiments on various benchmark datasets in natural language processing (NLP) (IMDb and SST2) as well as computer vision (MNIST and CIFAR10). In brief, we observe from +2% to +4% increase in accuracy and 2x to 4x faster learning. We further employ the Convolutional TM to document interpretable results on the CIFAR10 dataset. To the best of our knowledge, this is the first time an interpretable machine learning algorithm has been used to produce pixel-level human-interpretable results on CIFAR10. Also, unlike previous interpretable methods that focus on attention visualisation or gradient interpretability, we show that the TM is a more general interpretable method. That is, by producing rule-based propositional logic expressions that are \emph{human}-interpretable, the TM can explain how it classifies a particular instance at the pixel level for computer vision and at the word level for NLP.
翻訳日:2021-06-03 09:50:09 公開日:2021-05-30
# (参考訳) どのくらい低いか? 極低リソース言語に関する計算論的考察 [全文訳有]

How Low is Too Low? A Computational Perspective on Extremely Low-Resource Languages ( http://arxiv.org/abs/2105.14515v1 )

ライセンス: CC BY 4.0
Rachit Bansal, Himanshu Choudhary, Ravneet Punia, Niko Schenk, Jacob L Dahl, \'Emilie Pag\'e-Perron(参考訳) 自然言語処理タスクの大部分にわたる注意に基づくディープラーニングアーキテクチャの最近の進歩にもかかわらず、それらのアプリケーションは、そのような言語のための事前学習されたモデルが欠如しているため、低リソース環境では限定されている。 本研究では,少なくとも紀元前3千年紀の初めに証明された世界最古の文献言語である,非常に低リソースな言語であるシュメール語cuneiformにこれらのテクニックを適用することの課題について,最初の試みを行う。 具体的には,パート・オブ・スパイチタグ,名前付きエンティティ認識,機械翻訳などを含む,最初の言語間情報抽出パイプラインを提案する。 さらに、低リソースNLPの解釈可能性ツールキットであるInterpretLRを、人間の属性とともに利用して、モデルを理解する。 すべての技術を評価するために、人間の評価を強調します。 特に、パイプラインのほとんどのコンポーネントは、特に低リソース環境で、解釈可能な技術の実行を得るために、他の言語に一般化することができます。 我々は,すべてのソフトウェア,モデルチェックポイント,ドメイン固有の事前処理を備えた新しいデータセットを公開して,さらなる研究を促進する。

Despite the recent advancements of attention-based deep learning architectures across a majority of Natural Language Processing tasks, their application remains limited in a low-resource setting because of a lack of pre-trained models for such languages. In this study, we make the first attempt to investigate the challenges of adapting these techniques for an extremely low-resource language -- Sumerian cuneiform -- one of the world's oldest written languages attested from at least the beginning of the 3rd millennium BC. Specifically, we introduce the first cross-lingual information extraction pipeline for Sumerian, which includes part-of-speech tagging, named entity recognition, and machine translation. We further curate InterpretLR, an interpretability toolkit for low-resource NLP, and use it alongside human attributions to make sense of the models. We emphasize on human evaluations to gauge all our techniques. Notably, most components of our pipeline can be generalised to any other language to obtain an interpretable execution of the techniques, especially in a low-resource setting. We publicly release all software, model checkpoints, and a novel dataset with domain-specific pre-processing to promote further research.
翻訳日:2021-06-03 09:11:27 公開日:2021-05-30
# (参考訳) ダイナミックディープ:ECGタスク認識圧縮 [全文訳有]

Dynamic-Deep: ECG Task-Aware Compression ( http://arxiv.org/abs/2106.00606v1 )

ライセンス: CC BY 4.0
Eli Brosh, Elad Wasserstein, Anat Bremler-Barr(参考訳) 心電図(ECG)信号などの医療データを監視することは、IoT(Internet of Things)デバイスの一般的な用途である。 圧縮方法は、クラウドに送信する前に生成された大量のセンサーデータに適用され、ストレージとデリバリコストを削減します。 損失圧縮は高い圧縮ゲイン(CG)を提供するが、情報損失によりECGアプリケーション(ダウンストリームタスク)の性能が低下する可能性がある。 以前のECG監視では、信号再構成の最適化やタスクのパフォーマンスの最適化に重点が置かれていた。 代わりに、最適化されたCGを維持しながら、下流タスクで所望のパフォーマンスレベルを設定することのできる、損失の多い圧縮ソリューションを提案します。 畳み込みオートエンコーダを用いたタスク認識圧縮であるDynamic-Deepを提案する。 圧縮レベルは動的に選択され、タスクのパフォーマンス要求に違反することなく最適化された圧縮が得られる。 我々は、心拍不整脈分類を含む2つの一般的なECGアプリケーションを用いて、一般的なECGデータセットに対するアプローチを広範囲に評価する。 動的ディープは、従来の最先端(オートエンコーダベース)圧縮機と比較して、HR分類F1スコアを3倍改善し、CGを83%向上させることを示した。 さらに、Dynamic-Deepはメモリフットプリントが67%低い。 Google Cloud PlatformのDynamic-Deepを分析して、圧縮しないソリューションと比較して、クラウドコストの97%削減を観察します。 私たちの知る限りでは、dynamic-deepはクラウドベースのダウンストリームタスクのハイパフォーマンスの必要性と、iot ecg監視設定で最適化された圧縮を実現する意向のバランスをとる最初の提案です。

Monitoring medical data, e.g., Electrocardiogram (ECG) signals, is a common application of Internet of Things (IoT) devices. Compression methods are often applied on the massive amounts of sensor data generated before sending it to the Cloud to reduce storage and delivery costs. A lossy compression provides high compression gain (CG) but may reduce the performance of an ECG application (downstream task) due to information loss. Previous works on ECG monitoring focus either on optimizing the signal reconstruction or the task's performance. Instead, we advocate a lossy compression solution that allows configuring a desired performance level on the downstream tasks while maintaining an optimized CG. We propose Dynamic-Deep, a task-aware compression that uses convolutional autoencoders. The compression level is dynamically selected to yield an optimized compression without violating tasks' performance requirements. We conduct an extensive evaluation of our approach on common ECG datasets using two popular ECG applications, which includes heart rate (HR) arrhythmia classification. We demonstrate that Dynamic-Deep improves HR classification F1-score by a factor of 3 and increases CG by up to 83% compared to the previous state-of-the-art (autoencoder-based) compressor. Additionally, Dynamic-Deep has a 67% lower memory footprint. Analyzing Dynamic-Deep on the Google Cloud Platform, we observe a 97% reduction in cloud costs compared to a no compression solution. To the best of our knowledge, Dynamic-Deep is the first proposal to focus on balancing the need for high performance of cloud-based downstream tasks and the desire to achieve optimized compression in IoT ECG monitoring settings.
翻訳日:2021-06-03 08:55:30 公開日:2021-05-30
# モバイルリアルタイムBERTアプリケーションのための圧縮コンパイルフレームワーク

A Compression-Compilat ion Framework for On-mobile Real-time BERT Applications ( http://arxiv.org/abs/2106.00526v1 )

ライセンス: Link先を確認
Wei Niu, Zhenglun Kong, Geng Yuan, Weiwen Jiang, Jiexiong Guan, Caiwen Ding, Pu Zhao, Sijia Liu, Bin Ren, Yanzhi Wang(参考訳) トランスフォーマティブベースのディープラーニングモデルは、多くの自然言語処理(nlp)タスクにおいて高い精度を示している。 本稿では,モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすために,識別モデルを保証できる圧縮コンパイル協調設計フレームワークを提案する。 我々のフレームワークはコンパイラ対応のニューラルネットワーク最適化手法(CANAO)を適用し、精度とレイテンシのバランスをとる最適な圧縮モデルを生成する。 TensorFlow-Liteと比較して7.8倍のスピードアップを達成できます。 本稿では,質問応答(QA)とテキスト生成の2種類のBERTアプリケーションについて述べる。 どちらも、45ms以下のレイテンシでリアルタイムで実行できる。 フレームワークのデモビデオはhttps://www.youtube. com/watch?v=_WIRvK_2PZIで見ることができる。

Transformer-based deep learning models have increasingly demonstrated high accuracy on many natural language processing (NLP) tasks. In this paper, we propose a compression-compilat ion co-design framework that can guarantee the identified model to meet both resource and real-time specifications of mobile devices. Our framework applies a compiler-aware neural architecture optimization method (CANAO), which can generate the optimal compressed model that balances both accuracy and latency. We are able to achieve up to 7.8x speedup compared with TensorFlow-Lite with only minor accuracy loss. We present two types of BERT applications on mobile devices: Question Answering (QA) and Text Generation. Both can be executed in real-time with latency as low as 45ms. Videos for demonstrating the framework can be found on https://www.youtube. com/watch?v=_WIRvK_2PZI
翻訳日:2021-06-02 14:35:56 公開日:2021-05-30
# 低電圧負荷予測の概観:方法・応用・勧告

Review of Low-Voltage Load Forecasting: Methods, Applications, and Recommendations ( http://arxiv.org/abs/2106.00006v1 )

ライセンス: Link先を確認
Stephen Haben, Siddharth Arora, Georgios Giasemidis, Marcus Voss, Danica Vukadinovic Greetham(参考訳) エネルギーシステムのデジタル化と監視の増大は、エネルギーシステムの脱炭素に役立つ多くの機会と解決策を開放する。 低電圧(LV)、地域エネルギー市場やスマートストレージといったローカライズドネットワークの応用は脱炭を促進するが、高度な制御と管理が必要である。 信頼性の高い予測は、重要な特徴や不確実性を予測するために、これらのシステムの多くに必要なコンポーネントとなるでしょう。 この緊急の需要にもかかわらず、スマートメータレベル以外では、低電圧レベル予測の現在の技術に関する広範囲な調査はまだ行われていない。 本稿では,景観,現在のアプローチ,コアアプリケーション,課題,レコメンデーションを総合的に概観することを目的とする。 本稿のもう一つの目的は,この分野の継続的な改善と発展を促進することである。 この目的のために、論文は最も関連性があり有望なトレンドについても調査している。 研究と開発を促進するために、既知のLVレベルのオープンデータセットのオープンでコミュニティ主導のリストを確立する。

The increased digitalisation and monitoring of the energy system opens up numerous opportunities % and solutions which can help to decarbonise the energy system. Applications on low voltage (LV), localised networks, such as community energy markets and smart storage will facilitate decarbonisation, but they will require advanced control and management. Reliable forecasting will be a necessary component of many of these systems to anticipate key features and uncertainties. Despite this urgent need, there has not yet been an extensive investigation into the current state-of-the-art of low voltage level forecasts, other than at the smart meter level. This paper aims to provide a comprehensive overview of the landscape, current approaches, core applications, challenges and recommendations. Another aim of this paper is to facilitate the continued improvement and advancement in this area. To this end, the paper also surveys some of the most relevant and promising trends. It establishes an open, community-driven list of the known LV level open datasets to encourage further research and development.
翻訳日:2021-06-02 14:09:41 公開日:2021-05-30
# 角度パラメトリゼーション直交行列による並列計算とバックプロパゲーション

Parallelized Computation and Backpropagation Under Angle-Parametrized Orthogonal Matrices ( http://arxiv.org/abs/2106.00003v1 )

ライセンス: Link先を確認
Firas Hamze(参考訳) 本稿では,機械学習のいくつかの分野において,行列直交と一元性制約の存在下での学習の並列高速化手法を提案する。 完全グラフのエッジをカラー化するためのよく知られたツールを用いて, 連続した初等回転パラメトリゼーションを可換操作ブロックに再構成し, ラウンドロビン(全アゲインスト)スポーツトーナメントのスケジュールに広く適用可能であることを示す。 結果として得られる分解は、その回転パラメータから完全パラメータ化された直交行列を$o(n)$シーケンシャルステップで計算し、そのパラメータに対するトレーニング損失の勾配を$o(n\log n)$ステップで計算するアルゴリズムを許す。 本稿では、生成モデルに対する関心のパラメトリックな制限について論じ、GPUのプロトタイプ実装による有望な性能結果を示す。

We present a methodology for parallel acceleration of learning in the presence of matrix orthogonality and unitarity constraints of interest in several branches of machine learning. We show how an apparently sequential elementary rotation parametrization can be restructured into blocks of commutative operations using a well-known tool for coloring the edges of complete graphs, in turn widely applied to schedule round-robin (all-against-all) sports tournaments. The resulting decomposition admits an algorithm to compute a fully-parametrized orthogonal matrix from its rotation parameters in $O(n)$ sequential steps and one to compute the gradient of a training loss with respect to its parameters in $O(n\log n)$ steps. We discuss parametric restrictions of interest to generative modeling and present promising performance results with a prototype GPU implementation.
翻訳日:2021-06-02 14:07:03 公開日:2021-05-30
# DikpolaSat Mission: 訓練されたディープニューラルネットワークによる宇宙飛行性能の向上と最適制御 -- 宇宙物体衝突回避のための軌道制御

DikpolaSat Mission: Improvement of Space Flight Performance and Optimal Control Using Trained Deep Neural Network -- Trajectory Controller for Space Objects Collision Avoidance ( http://arxiv.org/abs/2106.00007v1 )

ライセンス: Link先を確認
Manuel Ntumba, Saurabh Gore, Jean Baptiste Awanyo(参考訳) 本稿では、DikpolaSat Missionという宇宙ミッションを紹介し、この研究がミッションにどのように適合するか、そして通常のGN&C機能の代わりに訓練されたDNNモデルを持つことの重要性について述べる。 本稿では, 宇宙船が所望の経路をたどることで, 制御器の実証を行う方法を示す。 DNNの構築に使用される経路を調べ、様々な活性化関数がシステム効率に与える影響を理解することで、増大を図ることができる。 障害回避アルゴリズムは、ニューラルネットワークからの入力を用いて自然に応答する制御機能に組み込まれ、修正された軌道を最適化する。 制御系における非線形機構の適応性を制御するニューラルネットワークの動作により、制御系は制御アルゴリズムで誘導されていない複数の非線形事象や不確実性を処理することができる。 飛行制御と燃料消費を最適化するための複数のアルゴリズムは、軌道における飛行力学の知識や障害物回避の場合にも実装できる。 また、DNNが飛行経路を制御し、打ち上げ毎にシステムをより信頼性の高いものにすることで、宇宙物体の衝突を予測できる可能性を改善する方法について述べる。 この研究から得られたデータは、他の軌道イベントを予測できるより高度なDNNモデルの設計に使用される。

This paper introduced the space mission DikpolaSat Mission, how this research fits into the mission, and the importance of having a trained DNN model instead of the usual GN&C functionality. This paper shows how the controller demonstration is carried out by having the spacecraft follow a desired path, specified in the referenced model. Increases can be made by examining the route used to construct a DNN and understanding the effects of various activating functions on system efficiency. The obstacle avoidance algorithm is built into the control features to respond spontaneously using inputs from the neural network for collision avoidance while optimizing the modified trajectory. The action of a neural network to control the adaptive nature of the nonlinear mechanisms in the controller will make the control system capable of handling multiple nonlinear events and also uncertainties that have not been induced in the control algorithm. Multiple algorithms for optimizing flight controls and fuel consumption can be implemented using knowledge of flight dynamics in trajectory and also in the event of obstacle avoidance. This paper also explains how a DNN can learn to control the flight path and make the system more reliable with each launch, thereby improving the chances of predicting collisions of space objects. The data released from this research is used to design more advanced DNN model capable of predicting other orbital events as well.
翻訳日:2021-06-02 14:06:47 公開日:2021-05-30
# バイトペア符号化による時系列パターン発見

Pattern Discovery in Time Series with Byte Pair Encoding ( http://arxiv.org/abs/2106.00614v1 )

ライセンス: Link先を確認
Nazgol Tavabi, Kristina Lerman(参考訳) ウェアラブルセンサーの普及により、時間的生理的および活動的データが大量に生み出されている。 このデータを分析する能力は、リアルタイムの健康モニタリングと予測の新しい機会を提供する。 しかし、時間的生理学的データは、ノイズが多く、多くの欠落した値を含み、各系列の長さが異なる。 時系列分析と分類のために提案されるほとんどの手法は、これらの特徴を持つデータセットを扱わず、解釈可能性や説明可能性も提供せず、健康領域における重要な要件である。 そこで本研究では,時系列の表現を教師なしで学習する手法を提案する。 パターンは解釈可能で、長さの可変であり、Byte Pair Encoding圧縮技術を用いて抽出される。 このようにして、この方法は、データに存在する長期的および短期的な依存関係の両方をキャプチャできる。 本手法は,ウェアラブルセンサから収集した実世界のデータセットにおいて,非変量時系列と多変量時系列の両方に適用できることを示す。

The growing popularity of wearable sensors has generated large quantities of temporal physiological and activity data. Ability to analyze this data offers new opportunities for real-time health monitoring and forecasting. However, temporal physiological data presents many analytic challenges: the data is noisy, contains many missing values, and each series has a different length. Most methods proposed for time series analysis and classification do not handle datasets with these characteristics nor do they offer interpretability and explainability, a critical requirement in the health domain. We propose an unsupervised method for learning representations of time series based on common patterns identified within them. The patterns are, interpretable, variable in length, and extracted using Byte Pair Encoding compression technique. In this way the method can capture both long-term and short-term dependencies present in the data. We show that this method applies to both univariate and multivariate time series and beats state-of-the-art approaches on a real world dataset collected from wearable sensors.
翻訳日:2021-06-02 14:04:54 公開日:2021-05-30
# 量子データを用いた量子フェデレーション学習

Quantum Federated Learning with Quantum Data ( http://arxiv.org/abs/2106.00005v1 )

ライセンス: Link先を確認
Mahdi Chehimi and Walid Saad(参考訳) 量子機械学習(QML)は、量子コンピューティングの発展に頼って、大規模な複雑な機械学習問題を探求する、有望な分野として登場した。 近年、量子データの分類を行うために量子畳み込みニューラルネットワーク(QCNN)などの純粋量子機械学習モデルが提案されている。 しかし、既存のQMLモデルはすべて、大規模かつ分散量子ネットワークではうまくスケールできない集中型ソリューションに依存している。 したがって、新しい量子ネットワークアーキテクチャに合わせた、より実用的な量子フェデレーション学習(qfl)ソリューションを考えることが望ましい。 実際、量子ネットワークのためのqflフレームワークの開発は、計算キュービットの脆弱な性質とそれらの転送の難しさから、非常に重要である。 QFLはその実用的重要性に加えて、既存の無線通信インフラを活用して分散量子学習を可能にする。 本稿では、量子データ上で動作し、量子回路パラメータの学習を分散的に共有できる初めての完全量子連合学習フレームワークを提案する。 まず、文献に既存の量子フェデレーションデータセットがないことを考慮し、提案されたフレームワークは、分散量子ネットワークのための階層的なデータ形式を持つ最初の量子フェデレーションデータセットを生成することから始まる。 そして、QCNNモデルを共有するクライアントに量子データを送り、分類タスクを実行する。 その後、サーバは、学習可能な量子回路パラメータをクライアントから集約し、フェデレーション平均化を行う。 提案するqfl溶液の有効性を評価し検証するために,広範な実験を行った。 この作業は、GoogleのTensorFlow FederatedとTensorFlow Quantumを実践的に組み合わせた初めてのものだ。

Quantum machine learning (QML) has emerged as a promising field that leans on the developments in quantum computing to explore large complex machine learning problems. Recently, some purely quantum machine learning models were proposed such as the quantum convolutional neural networks (QCNN) to perform classification on quantum data. However, all of the existing QML models rely on centralized solutions that cannot scale well for large-scale and distributed quantum networks. Hence, it is apropos to consider more practical quantum federated learning (QFL) solutions tailored towards emerging quantum network architectures. Indeed, developing QFL frameworks for quantum networks is critical given the fragile nature of computing qubits and the difficulty of transferring them. On top of its practical momentousness, QFL allows for distributed quantum learning by leveraging existing wireless communication infrastructure. This paper proposes the first fully quantum federated learning framework that can operate over quantum data and, thus, share the learning of quantum circuit parameters in a decentralized manner. First, given the lack of existing quantum federated datasets in the literature, the proposed framework begins by generating the first quantum federated dataset, with a hierarchical data format, for distributed quantum networks. Then, clients sharing QCNN models are fed with the quantum data to perform a classification task. Subsequently, the server aggregates the learnable quantum circuit parameters from clients and performs federated averaging. Extensive experiments are conducted to evaluate and validate the effectiveness of the proposed QFL solution. This work is the first to combine Google's TensorFlow Federated and TensorFlow Quantum in a practical implementation.
翻訳日:2021-06-02 14:03:19 公開日:2021-05-30
# 単一チャネル脳波によるクロスオブジェクトドライバの動作検出のためのコンパクトかつ解釈可能な畳み込みニューラルネットワーク

A Compact and Interpretable Convolutional Neural Network for Cross-Subject Driver Drowsiness Detection from Single-Channel EEG ( http://arxiv.org/abs/2106.00613v1 )

ライセンス: Link先を確認
Jian Cui, Zirui Lan, Yisi Liu, Ruilin Li, Fan Li, Olga Sourina, and Wolfgang Mueller-Wittig(参考訳) 運転者の眠気は、交通産業における道路事故や危険につながる主要な要因の1つである。 脳波(EEG)は、脳内の神経生理学的活動を直接測定するため、運転者のドロージー状態を検出する最も優れた生理的信号の1つと考えられている。 しかし、脳波によるドライバーの眠気検知のためのキャリブレーションフリーシステムの設計は、さまざまな被験者の心身のドリフトに悩まされているため、依然として難しい課題である。 本稿では,ドライバの眠気検出のために,複数の被験者間で共有された脳波特徴を検出するための,コンパクトで解釈可能な畳み込みニューラルネットワークを提案する。 モデル構造にGAP(Global Average Pooling)層を組み込むことで,クラス活性化マップ(Class Activation Map, CAM)法を入力信号の領域のローカライズに利用することができる。 その結果,従来の機械学習手法や最先端の深層学習手法よりも高い2クラスクロスオブジェクト脳波信号分類では,被験者11名に対して平均73.22%の精度が得られることがわかった。 可視化技術により、このモデルは生物学的に説明可能な特徴、例えばアルファスピンドルやテータバーストを、眠気状態の証拠として学習したことが明らかとなった。 また、このモデルでは通常、覚醒性脳波(筋肉のアーティファクトやセンサードリフトなど)を支配する人工物を使用して警告状態を認識することも興味深い。 提案モデルは、脳波信号から異なる被験者にまたがる異なる精神状態に関連する特徴を共有できる強力なツールとして、cnnモデルを使用する可能性を示す。

Driver drowsiness is one of main factors leading to road fatalities and hazards in the transportation industry. Electroencephalograp hy (EEG) has been considered as one of the best physiological signals to detect drivers drowsy states, since it directly measures neurophysiological activities in the brain. However, designing a calibration-free system for driver drowsiness detection with EEG is still a challenging task, as EEG suffers from serious mental and physical drifts across different subjects. In this paper, we propose a compact and interpretable Convolutional Neural Network (CNN) to discover shared EEG features across different subjects for driver drowsiness detection. We incorporate the Global Average Pooling (GAP) layer in the model structure, allowing the Class Activation Map (CAM) method to be used for localizing regions of the input signal that contribute most for classification. Results show that the proposed model can achieve an average accuracy of 73.22% on 11 subjects for 2-class cross-subject EEG signal classification, which is higher than conventional machine learning methods and other state-of-art deep learning methods. It is revealed by the visualization technique that the model has learned biologically explainable features, e.g., Alpha spindles and Theta burst, as evidence for the drowsy state. It is also interesting to see that the model uses artifacts that usually dominate the wakeful EEG, e.g., muscle artifacts and sensor drifts, to recognize the alert state. The proposed model illustrates a potential direction to use CNN models as a powerful tool to discover shared features related to different mental states across different subjects from EEG signals.
翻訳日:2021-06-02 13:59:28 公開日:2021-05-30
# (参考訳) GeoQA:マルチモーダル数値推論のための幾何学的質問応答ベンチマーク [全文訳有]

GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning ( http://arxiv.org/abs/2105.14517v1 )

ライセンス: CC BY 4.0
Jiaqi Chen, Jianheng Tang, Jinghui Qin, Xiaodan Liang, Lingbo Liu, Eric P. Xing, Liang Lin(参考訳) 数学の自動問題解決は、長年のAIベンチマークとして注目を集めている。 本稿では,テキスト記述,視覚図,定理知識の包括的理解を必要とする幾何学的問題を解くことに焦点を当てる。 しかし,既存の手法は工芸規則に強く依存しており,小規模なデータセットでのみ評価された。 そこで本研究では,与えられた問題の解法を記述した,対応する注釈付きプログラムと5,010個の幾何学的問題を含む幾何学的質問応答型データセットgeoqaを提案する。 他の公開データセットGeoSと比較して、GeoQAは25倍大きく、プログラムアノテーションは、明示的で説明可能な数値推論に関する将来の研究のための実用的なテストベッドを提供することができる。 さらに,マルチモーダル情報を包括的に解析し,解釈可能なプログラムを生成することで,幾何学的問題に対処するためのニューラルジオメトリソルバ(ngs)を提案する。 さらに,NGSに複数の自己教師付き補助タスクを追加し,モーダル間セマンティック表現を強化する。 geoqaに関する広範な実験は、提案するngsと補助タスクの有効性を検証する。 しかし、その結果は人間のパフォーマンスよりもはるかに低いため、将来の研究の余地は大きい。 私たちのベンチマークとコードはhttps://github.com/c hen-judge/GeoQA で公開されています。

Automatic math problem solving has recently attracted increasing attention as a long-standing AI benchmark. In this paper, we focus on solving geometric problems, which requires a comprehensive understanding of textual descriptions, visual diagrams, and theorem knowledge. However, the existing methods were highly dependent on handcraft rules and were merely evaluated on small-scale datasets. Therefore, we propose a Geometric Question Answering dataset GeoQA, containing 5,010 geometric problems with corresponding annotated programs, which illustrate the solving process of the given problems. Compared with another publicly available dataset GeoS, GeoQA is 25 times larger, in which the program annotations can provide a practical testbed for future research on explicit and explainable numerical reasoning. Moreover, we introduce a Neural Geometric Solver (NGS) to address geometric problems by comprehensively parsing multimodal information and generating interpretable programs. We further add multiple self-supervised auxiliary tasks on NGS to enhance cross-modal semantic representation. Extensive experiments on GeoQA validate the effectiveness of our proposed NGS and auxiliary tasks. However, the results are still significantly lower than human performance, which leaves large room for future research. Our benchmark and code are released at https://github.com/c hen-judge/GeoQA .
翻訳日:2021-06-02 13:54:36 公開日:2021-05-30
# (参考訳) リカレントネットを用いたSEIRモデルのパラメータ推定 [全文訳有]

Parameter Estimation for the SEIR Model Using Recurrent Nets ( http://arxiv.org/abs/2105.14524v1 )

ライセンス: CC BY 4.0
Chun Fan, Yuxian Meng, Xiaofei Sun, Fei Wu, Tianwei Zhang, Jiwei Li(参考訳) SEIRモデルのパラメータ$\Theta_\text{SEIR}$(例えば、送信レート$\beta$)を推定する標準的な方法は、グリッドサーチを使用することで、各パラメータに対してシミュレーションが行われ、予測された感染数と観測された感染数の間の最小のL_2$距離につながるパラメータセットが選択される。 このブルートフォース戦略は、人口が大きくなるとシミュレーションが遅くなるだけでなく、全てのパラメータの組み合わせを列挙することは不可能であるため、不正確である。 これらの問題に対処するため、本稿では、最適な$\Theta_\text{SEIR}$を微分可能なものにすることで、最小限のシミュレーションデータに適合するようにリカレントネットをトレーニングする。 次に、SEIRシミュレーションを一般化できるこのリカレントネットに基づいて、$\Theta_\text{SEIR}$に対して目的を微分可能なものに変換し、その最適値を簡単に得ることができる。 提案された戦略は、少数のseirシミュレーションのみに依存しているため、時間効率が良く、微分可能な目的に基づいて最適な$\theta_\text{seir}$を見つけることができるため、正確である。 2つのCOVID-19データセットにおいて、提案した戦略が、シミュレーションの少ないパラメータ推定を著しく向上させるのを観察する。

The standard way to estimate the parameters $\Theta_\text{SEIR}$ (e.g., the transmission rate $\beta$) of an SEIR model is to use grid search, where simulations are performed on each set of parameters, and the parameter set leading to the least $L_2$ distance between predicted number of infections and observed infections is selected. This brute-force strategy is not only time consuming, as simulations are slow when the population is large, but also inaccurate, since it is impossible to enumerate all parameter combinations. To address these issues, in this paper, we propose to transform the non-differentiable problem of finding optimal $\Theta_\text{SEIR}$ to a differentiable one, where we first train a recurrent net to fit a small number of simulation data. Next, based on this recurrent net that is able to generalize SEIR simulations, we are able to transform the objective to a differentiable one with respect to $\Theta_\text{SEIR}$, and straightforwardly obtain its optimal value. The proposed strategy is both time efficient as it only relies on a small number of SEIR simulations, and accurate as we are able to find the optimal $\Theta_\text{SEIR}$ based on the differentiable objective. On two COVID-19 datasets, we observe that the proposed strategy leads to significantly better parameter estimations with a smaller number of simulations.
翻訳日:2021-06-02 13:39:36 公開日:2021-05-30
# (参考訳) LRTuner: ディープニューラルネットワークのための学習率チューニング [全文訳有]

LRTuner: A Learning Rate Tuner for Deep Neural Networks ( http://arxiv.org/abs/2105.14526v1 )

ライセンス: CC BY 4.0
Nikhil Iyer, V Thejas, Nipun Kwatra, Ramachandran Ramjee, Muthian Sivathanu(参考訳) ディープニューラルネットワークをトレーニングするための非常に重要なハイパーパラメータの1つは、オプティマイザの学習率スケジュールである。 学習率のスケジュールの選択は、ミニマに近づくための計算コスト、実際にミニマにどれだけ近づいたか、そして最も重要なのは、ローカルなミニマ(ワイド/ナロー)が到達したかを決定する。 達成されたミニマは、ネットワークの一般化精度に大きな影響を及ぼす。 現在のシステムでは、ネットワークやデータセットごとに苦労して調整される、手書きの学習率スケジュールを採用している。 スケジュールの状態空間が巨大であることを考えると、十分な学習率のスケジュールを見つけるのは非常に時間がかかる。 本稿では,学習が進むにつれて学習率を調整するLRTunerを提案する。 本手法は任意のオプティマイザと連携し,MomentumとAdamオプティマイザによるSGDの結果を示す。 複数のデータセット、モデル、およびオプティマイザ間でLRTunerを広範囲に評価する。 resnet-50のimagenet、resnet-18のcifar-10、bertのsquad fine-tuningなど、所定のデータセットとモデルの標準学習率スケジュールと比較した。 例えば、ImageNet with Resnet-50では、LRTunerは手作業のベースラインスケジュールと比較してテスト精度が0.2%向上している。 さらに、lrtunerは29%の最適化ステップでベースラインスケジュールと同じ精度を達成することができる。

One very important hyperparameter for training deep neural networks is the learning rate schedule of the optimizer. The choice of learning rate schedule determines the computational cost of getting close to a minima, how close you actually get to the minima, and most importantly the kind of local minima (wide/narrow) attained. The kind of minima attained has a significant impact on the generalization accuracy of the network. Current systems employ hand tuned learning rate schedules, which are painstakingly tuned for each network and dataset. Given that the state space of schedules is huge, finding a satisfactory learning rate schedule can be very time consuming. In this paper, we present LRTuner, a method for tuning the learning rate as training proceeds. Our method works with any optimizer, and we demonstrate results on SGD with Momentum, and Adam optimizers. We extensively evaluate LRTuner on multiple datasets, models, and across optimizers. We compare favorably against standard learning rate schedules for the given dataset and models, including ImageNet on Resnet-50, Cifar-10 on Resnet-18, and SQuAD fine-tuning on BERT. For example on ImageNet with Resnet-50, LRTuner shows up to 0.2% absolute gains in test accuracy compared to the hand-tuned baseline schedule. Moreover, LRTuner can achieve the same accuracy as the baseline schedule in 29% less optimization steps.
翻訳日:2021-06-02 13:23:13 公開日:2021-05-30
# (参考訳) 高速近傍機械翻訳 [全文訳有]

Fast Nearest Neighbor Machine Translation ( http://arxiv.org/abs/2105.14528v1 )

ライセンス: CC BY 4.0
Yuxian Meng, Xiaoya Li, Xiayu Zheng, Fei Wu, Xiaofei Sun, Tianwei Zhang, Jiwei Li(参考訳) 近隣のMachine Translation (k$NN-MT) \cite{khandelwal 2020nearest} は、標準的なニューラルMTシステムよりも大幅に性能が向上することが証明されているが、近隣の検索のためのデータストアとして参照コーパス全体を使用するため、明らかに遅い。 つまり、ビーム探索の各ステップは、参照コーパス全体を検索しなければならない。 したがって、$k$NN-MTはバニラMTモデルよりも2桁遅いため、現実世界のアプリケーション、特にオンラインサービスに適用することは困難である。 本稿では,この問題に対処するため,Fast $k$NN-MTを提案する。 ソース文の各ワードに対して、fast $k$nn-mtはまず、クエリトークンと同じトークンに制限された、最も近いトークンレベルの近傍を選択する。 そして、各復号ステップにおいて、コーパス全体をデータストアとして使用するのに対し、検索スペースは、予め選択された参照元トークンに対応するターゲットトークンに制限される。 この戦略は、近隣のデータストア全体の検索を回避し、デコード効率を大幅に改善する。 性能を損なうことなく、Fast $k$NN-MTは$k$NN-MTより2桁高速で、標準のNTTモデルよりわずか2倍遅い。 Fast $k$NN-MT は実世界の MT アプリケーションで$k$NN-MT システムの実用的な利用を可能にし、\footnote{Code は \url{https://github.com/S hannonAI/fast-knn-nm t}} で利用可能である。

Though nearest neighbor Machine Translation ($k$NN-MT) \cite{khandelwal2020neares t} has proved to introduce significant performance boosts over standard neural MT systems, it is prohibitively slow since it uses the entire reference corpus as the datastore for the nearest neighbor search. This means each step for each beam in the beam search has to search over the entire reference corpus. $k$NN-MT is thus two-order slower than vanilla MT models, making it hard to be applied to real-world applications, especially online services. In this work, we propose Fast $k$NN-MT to address this issue. Fast $k$NN-MT constructs a significantly smaller datastore for the nearest neighbor search: for each word in a source sentence, Fast $k$NN-MT first selects its nearest token-level neighbors, which is limited to tokens that are the same as the query token. Then at each decoding step, in contrast to using the entire corpus as the datastore, the search space is limited to target tokens corresponding to the previously selected reference source tokens. This strategy avoids search through the whole datastore for nearest neighbors and drastically improves decoding efficiency. Without loss of performance, Fast $k$NN-MT is two-order faster than $k$NN-MT, and is only two times slower than the standard NMT model. Fast $k$NN-MT enables the practical use of $k$NN-MT systems in real-world MT applications.\footno te{Code is available at \url{https://github.com/S hannonAI/fast-knn-nm t.}}
翻訳日:2021-06-02 13:08:35 公開日:2021-05-30
# (参考訳) 不変性に基づく領域一般化における表現正規化の利点について [全文訳有]

On the benefits of representation regularization in invariance based domain generalization ( http://arxiv.org/abs/2105.14529v1 )

ライセンス: CC BY 4.0
Changjian Shui, Boyu Wang, Christian Gagn\'e(参考訳) 信頼できる機械学習における重要な側面は、新しい関連するが観測されていない環境を一般化するデプロイ可能なシステムを設計することである。 ドメインの一般化は、観測された環境と見えない環境の間の予測ギャップを軽減することを目的としている。 従来のアプローチでは、優れた経験的パフォーマンスを達成するために、学習不変表現を一般的に取り入れていた。 本稿では,不変表現の学習が未知環境に対して脆弱であることを示す。 この目的のために,表現の滑らかさを制御することの重要性を強調する表現学習において,目に見えないテスト環境エラーを制御するための新しい理論解析を導出する。 実際、この分析はドメインの一般化におけるロバスト性を改善するための効率的な正規化法をさらに刺激する。 我々の正規化は直交的であり、不変表現学習のための既存の領域一般化アルゴリズムで直接適用することができる。 実験結果から,本アルゴリズムは様々なデータセットと不変性基準においてベースバージョンを上回っていることがわかった。

A crucial aspect in reliable machine learning is to design a deployable system in generalizing new related but unobserved environments. Domain generalization aims to alleviate such a prediction gap between the observed and unseen environments. Previous approaches commonly incorporated learning invariant representation for achieving good empirical performance. In this paper, we reveal that merely learning invariant representation is vulnerable to the unseen environment. To this end, we derive novel theoretical analysis to control the unseen test environment error in the representation learning, which highlights the importance of controlling the smoothness of representation. In practice, our analysis further inspires an efficient regularization method to improve the robustness in domain generalization. Our regularization is orthogonal to and can be straightforwardly adopted in existing domain generalization algorithms for invariant representation learning. Empirical results show that our algorithm outperforms the base versions in various dataset and invariance criteria.
翻訳日:2021-06-02 12:49:05 公開日:2021-05-30
# (参考訳) 網膜画像キャプションのためのディープコンテキストエンコーディングネットワーク」の長バージョン [全文訳有]

Longer Version for "Deep Context-Encoding Network for Retinal Image Captioning" ( http://arxiv.org/abs/2105.14538v1 )

ライセンス: CC BY 4.0
Jia-Hong Huang, Ting-Wei Wu, Chao-Han Huck Yang, Marcel Worring(参考訳) 網膜画像の医療レポートを自動的に生成することは、眼科医が作業負荷を減らし、作業効率を改善するための有望な方法の1つだ。 本研究では,網膜画像の医用レポートを自動的に生成するコンテキスト駆動エンコーディングネットワークを提案する。 提案するモデルは,主にマルチモーダル入力エンコーダと融合機能デコーダから構成される。 実験の結果,提案手法は入力画像とコンテキスト間の対話的情報,すなわちキーワードを効果的に活用できることがわかった。 提案手法は、ベースラインモデルよりも精度が高く有意義な網膜画像のレポートを作成し、最先端の性能を実現する。 この性能は、BLEU-avg (+16%)、CIDEr (+10.2%)、ROUGE (+8.6%)といった医療レポート生成タスクでよく使われる指標で示されている。

Automatically generating medical reports for retinal images is one of the promising ways to help ophthalmologists reduce their workload and improve work efficiency. In this work, we propose a new context-driven encoding network to automatically generate medical reports for retinal images. The proposed model is mainly composed of a multi-modal input encoder and a fused-feature decoder. Our experimental results show that our proposed method is capable of effectively leveraging the interactive information between the input image and context, i.e., keywords in our case. The proposed method creates more accurate and meaningful reports for retinal images than baseline models and achieves state-of-the-art performance. This performance is shown in several commonly used metrics for the medical report generation task: BLEU-avg (+16%), CIDEr (+10.2%), and ROUGE (+8.6%).
翻訳日:2021-06-02 12:16:09 公開日:2021-05-30
# (参考訳) 自然災害評価のためのUAVデータセットの注意に基づくセマンティックセマンティックセグメンテーション [全文訳有]

Attention Based Semantic Segmentation on UAV Dataset for Natural Disaster Damage Assessment ( http://arxiv.org/abs/2105.14540v1 )

ライセンス: CC BY 4.0
Tashnim Chowdhury, Maryam Rahnemoonfar(参考訳) 気候変動による有害な影響には、世界中の強大で破壊的なハリケーンが含まれる。 自然災害による被害を最小限に抑えるため、救助隊の計画を支援するため、建物や道路を含む地域の被害の異なる構造物の特定が不可欠である。 セマンティックセグメンテーションは、画像の異なる部分を特定するのに役立つ。 我々は,高分解能UAVデータセット上に,自己注意に基づくセマンティックセマンティックセマンティクスモデルを実装し,テストセットの約88%のMean IoUスコアを得る。 その結果、人命を救うとともに経済損失を減らす自然災害被害評価に自己注意型スキームを使うことが示唆された。

The detrimental impacts of climate change include stronger and more destructive hurricanes happening all over the world. Identifying different damaged structures of an area including buildings and roads are vital since it helps the rescue team to plan their efforts to minimize the damage by a natural disaster. Semantic segmentation helps to identify different parts of an image. We implement a novel self-attention based semantic segmentation model on a high resolution UAV dataset and attain Mean IoU score of around88%on the test set. The result inspires to use self-attention schemes in natural disaster damage assessment which will save human lives and reduce economic losses.
翻訳日:2021-06-02 12:02:22 公開日:2021-05-30
# (参考訳) 性能の犠牲のない単語置換から事前学習言語モデルを守る [全文訳有]

Defending Pre-trained Language Models from Adversarial Word Substitutions Without Performance Sacrifice ( http://arxiv.org/abs/2105.14553v1 )

ライセンス: CC BY 4.0
Rongzhou Bao, Jiayi Wang, Hai Zhao(参考訳) 事前学習された文脈言語モデル(prlm)は、下流の自然言語理解タスクのパフォーマンス向上につながった。 しかし、PrLMは、最も難易度の高いテキスト逆攻撃手法の1つである逆語置換によって、いまだに容易に騙される。 既存の防御アプローチは、顕著なパフォーマンス損失と複雑さに苦しむ。 そこで本稿では,ADFAR(Anomaly Detection with Frequency-Aware Randomization)という,コンパクトかつ高性能なフレームワークを提案する。 そこで,本研究では,複数タスクの学習手順を用いて,逆入力サンプルを識別可能な補助的異常検出分類器を設計する。 そして、敵語置換を防御するために、認識された敵語入力サンプルに周波数認識ランダム化処理を適用する。 実験の結果, ADFARは, 予測速度がはるかに高い各種タスクにおいて, 新たに提案した防御手法よりも有意に優れていた。 ADFARはPrLMの全体的な性能を損なわない。 コードはhttps://github.com/L ilyNLP/ADFARで入手できる。

Pre-trained contextualized language models (PrLMs) have led to strong performance gains in downstream natural language understanding tasks. However, PrLMs can still be easily fooled by adversarial word substitution, which is one of the most challenging textual adversarial attack methods. Existing defence approaches suffer from notable performance loss and complexities. Thus, this paper presents a compact and performance-preserve d framework, Anomaly Detection with Frequency-Aware Randomization (ADFAR). In detail, we design an auxiliary anomaly detection classifier and adopt a multi-task learning procedure, by which PrLMs are able to distinguish adversarial input samples. Then, in order to defend adversarial word substitution, a frequency-aware randomization process is applied to those recognized adversarial input samples. Empirical results show that ADFAR significantly outperforms those newly proposed defense methods over various tasks with much higher inference speed. Remarkably, ADFAR does not impair the overall performance of PrLMs. The code is available at https://github.com/L ilyNLP/ADFAR
翻訳日:2021-06-02 11:56:15 公開日:2021-05-30
# (参考訳) 適応ラベル平滑化によるダイアログの多様化 [全文訳有]

Diversifying Dialog Generation via Adaptive Label Smoothing ( http://arxiv.org/abs/2105.14556v1 )

ライセンス: CC BY 4.0
Yida Wang, Yinhe Zheng, Yong Jiang, Minlie Huang(参考訳) 1ホットターゲット分布で訓練されたニューラルダイアログ生成モデルは、文献で広く報告されているように、自信過剰の問題に悩まされる。 ラベル平滑化のような既存のアプローチはこの問題を軽減することができるが、多様なダイアログコンテキストに適応できない。 本稿では,異なる文脈における各段階における目標ラベル分布を適応的に推定できる適応ラベル平滑化(AdaLabel)手法を提案する。 予測分布の最大確率は、新しい軽量双方向デコーダモジュールによって生成されたソフトターゲット分布を変更するために用いられる。 得られたターゲット分布は、前と将来の両方のコンテキストを認識し、対話モデルの過度なトレーニングを避けるために調整される。 私たちのモデルはエンドツーエンドでトレーニングできます。 2つのベンチマークデータセットに関する広範な実験は、我々のアプローチがさまざまな応答を生成する上で、様々な競合ベースラインを上回ることを示している。

Neural dialogue generation models trained with the one-hot target distribution suffer from the over-confidence issue, which leads to poor generation diversity as widely reported in the literature. Although existing approaches such as label smoothing can alleviate this issue, they fail to adapt to diverse dialog contexts. In this paper, we propose an Adaptive Label Smoothing (AdaLabel) approach that can adaptively estimate a target label distribution at each time step for different contexts. The maximum probability in the predicted distribution is used to modify the soft target distribution produced by a novel light-weight bi-directional decoder module. The resulting target distribution is aware of both previous and future contexts and is adjusted to avoid over-training the dialogue model. Our model can be trained in an end-to-end manner. Extensive experiments on two benchmark datasets show that our approach outperforms various competitive baselines in producing diverse responses.
翻訳日:2021-06-02 11:42:31 公開日:2021-05-30
# (参考訳) グラフニューラルネットワークはネットワークデータの不正検出にどの程度有効か? [全文訳有]

How effective are Graph Neural Networks in Fraud Detection for Network Data? ( http://arxiv.org/abs/2105.14568v1 )

ライセンス: CC BY 4.0
Ronald D. R. Pereira and Fabr\'icio Murai(参考訳) グラフベースニューラルネットワーク(英: graph-based neural network、gnns)は、ノード(およびグラフ)の表現を学習するために作られた最近のモデルである。 これらのパターンのうち、金融詐欺はその社会経済的関連性と、ポジティブな(詐欺)クラスとネガティブな(合法的な取引)クラスの極端な不均衡、そして概念ドリフト(すなわち、時間とともにデータの変化の統計的特性)のような特定の課題を提示する上で際立っている。 GNNはメッセージの伝搬に基づくため、ノードの表現は隣人やネットワークのハブによって強く影響され、不均衡効果が増幅される。 最近の研究は、コンセプトドリフトを考慮せずにこの効果を緩和するために、GNNのアンダーサンプリングとオーバーサンプリング戦略を適応させようとしている。 本研究では,従来の2つの課題を考慮したネットワーク不正検出手法の評価実験を行った。 このために私たちは、ここで導入された新しい方法論から生成された合成データによって補完される、実際のデータセットを使用します。 この分析に基づいて,今後の研究で検討すべき改善点のシリーズを提案する。

Graph-based Neural Networks (GNNs) are recent models created for learning representations of nodes (and graphs), which have achieved promising results when detecting patterns that occur in large-scale data relating different entities. Among these patterns, financial fraud stands out for its socioeconomic relevance and for presenting particular challenges, such as the extreme imbalance between the positive (fraud) and negative (legitimate transactions) classes, and the concept drift (i.e., statistical properties of the data change over time). Since GNNs are based on message propagation, the representation of a node is strongly impacted by its neighbors and by the network's hubs, amplifying the imbalance effects. Recent works attempt to adapt undersampling and oversampling strategies for GNNs in order to mitigate this effect without, however, accounting for concept drift. In this work, we conduct experiments to evaluate existing techniques for detecting network fraud, considering the two previous challenges. For this, we use real data sets, complemented by synthetic data created from a new methodology introduced here. Based on this analysis, we propose a series of improvement points that should be investigated in future research.
翻訳日:2021-06-02 11:24:53 公開日:2021-05-30
# (参考訳) スケーラブルで解釈可能なマークポイントプロセス [全文訳有]

Scalable and Interpretable Marked Point Processes ( http://arxiv.org/abs/2105.14574v1 )

ライセンス: CC BY 4.0
Aristeidis Panos, Ioannis Kosmidis, Petros Dellaportas(参考訳) スケーラビリティと解釈可能性の両方を享受するマークポイントプロセスのための新しい推論フレームワークを導入する。 このフレームワークは変分推論に基づいており、プロセス濾過によって与えられた時間の条件分布と、プロセス濾過と現在の時間によるマークの条件分布という観点から、時間とマークの結合分布を指定できるマークポイントプロセスの柔軟なファミリーの推論をスピードアップすることを目的としている。 提案手法の予測能力を実世界の4つのデータセットで評価し,他のベースラインと競合する性能を示す。 マークポイント・プロセスのモデリングのためのフレームワークの魅力は,拡張性や解釈性を利用して有用な情報パターンを抽出する関連サッカーデータのケーススタディによって説明される。

We introduce a novel inferential framework for marked point processes that enjoys both scalability and interpretability. The framework is based on variational inference and it aims to speed up inference for a flexible family of marked point processes where the joint distribution of times and marks can be specified in terms of the conditional distribution of times given the process filtration, and of the conditional distribution of marks given the process filtration and the current time. We assess the predictive ability of our proposed method over four real-world datasets where results show its competitive performance against other baselines. The attractiveness of our framework for the modelling of marked point processes is illustrated through a case study of association football data where scalability and interpretability are exploited for extracting useful informative patterns.
翻訳日:2021-06-02 10:37:35 公開日:2021-05-30
# (参考訳) StyTr^2: トランスフォーマーを用いた画像スタイル転送 [全文訳有]

StyTr^2: Unbiased Image Style Transfer with Transformers ( http://arxiv.org/abs/2105.14576v1 )

ライセンス: CC BY 4.0
Yingying Deng and Fan Tang and Xingjia Pan, Weiming Dong and ChongyangMa and Changsheng Xu(参考訳) 画像スタイル転送の目標は、オリジナルコンテンツを維持しながら、スタイル参照による芸術的特徴を持った画像をレンダリングすることである。 CNNの局所性と空間的不変性のため、入力画像のグローバルな情報を抽出・維持することは困難である。 したがって、従来のニューラルスタイル転送法は通常偏りがあり、同じ参照スタイルイメージでスタイル転送処理を複数回実行することでコンテンツリークを観測することができる。 この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr^2を提案することにより、入力画像の長距離依存性を非バイアスなスタイル転送を考慮した。 他の視覚タスクの視覚変換器とは対照的に、StyTr^2には2つの異なる変換器エンコーダがあり、それぞれコンテンツとスタイルのドメイン固有シーケンスを生成する。 エンコーダに続いて、スタイルシーケンスに従ってコンテンツシーケンスをスタイリングするために多層トランスフォーマーデコーダが採用される。 さらに、既存の位置符号化手法の欠如を分析し、スケール不変で画像スタイルの転送作業に適しているコンテンツ認識位置符号化(CAPE)を提案する。 定性的かつ定量的な実験により,提案したStyTr^2の有効性を,最先端CNNおよびフローベースアプローチと比較した。

The goal of image style transfer is to render an image with artistic features guided by a style reference while maintaining the original content. Due to the locality and spatial invariance in CNNs, it is difficult to extract and maintain the global information of input images. Therefore, traditional neural style transfer methods are usually biased and content leak can be observed by running several times of the style transfer process with the same reference style image. To address this critical issue, we take long-range dependencies of input images into account for unbiased style transfer by proposing a transformer-based approach, namely StyTr^2. In contrast with visual transformers for other vision tasks, our StyTr^2 contains two different transformer encoders to generate domain-specific sequences for content and style, respectively. Following the encoders, a multi-layer transformer decoder is adopted to stylize the content sequence according to the style sequence. In addition, we analyze the deficiency of existing positional encoding methods and propose the content-aware positional encoding (CAPE) which is scale-invariant and more suitable for image style transfer task. Qualitative and quantitative experiments demonstrate the effectiveness of the proposed StyTr^2 compared to state-of-the-art CNN-based and flow-based approaches.
翻訳日:2021-06-02 10:18:42 公開日:2021-05-30
# (参考訳) 多角形点集合追跡 [全文訳有]

Polygonal Point Set Tracking ( http://arxiv.org/abs/2105.14584v1 )

ライセンス: CC BY 4.0
Gunhee Nam, Miran Heo, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim(参考訳) 本稿では,学習に基づく多角形点集合追跡手法を提案する。 画素単位のオブジェクトマスク情報を伝搬する既存のビデオオブジェクトセグメンテーション~(VOS)手法と比較して,フレーム上に設定された多角形点を伝搬する。 具体的には、集合は対象輪郭内の点のサブセットとして定義され、我々の目標は対象輪郭上の対応する点を追跡することである。 これらの出力により、動き追跡、部分変形、テクスチャマッピングなど様々な視覚効果が適用できます。 そこで本研究では,微妙に設計された損失と正規化項を含むグローバルなアライメントにより,フレーム間の対応点を追跡する新しい手法を提案する。 また,点対応データセットを開発することなくこの問題に対処可能な合成およびvosデータセットを用いた新しい学習戦略を提案する。 既存のデータセットは本手法の検証には適さないため,新しい多角形点集合追跡データセットを構築し,本手法のベースラインおよび既存輪郭型VOS法よりも優れた性能を示す。 さらに,部分歪みとテキストマッピングにおける視覚効果の応用について述べる。

In this paper, we propose a novel learning-based polygonal point set tracking method. Compared to existing video object segmentation~(VOS) methods that propagate pixel-wise object mask information, we propagate a polygonal point set over frames. Specifically, the set is defined as a subset of points in the target contour, and our goal is to track corresponding points on the target contour. Those outputs enable us to apply various visual effects such as motion tracking, part deformation, and texture mapping. To this end, we propose a new method to track the corresponding points between frames by the global-local alignment with delicately designed losses and regularization terms. We also introduce a novel learning strategy using synthetic and VOS datasets that makes it possible to tackle the problem without developing the point correspondence dataset. Since the existing datasets are not suitable to validate our method, we build a new polygonal point set tracking dataset and demonstrate the superior performance of our method over the baselines and existing contour-based VOS methods. In addition, we present visual-effects applications of our method on part distortion and text mapping.
翻訳日:2021-06-02 10:01:20 公開日:2021-05-30
# (参考訳) 重み付き深層学習におけるスパース不確かさ表現 [全文訳有]

Sparse Uncertainty Representation in Deep Learning with Inducing Weights ( http://arxiv.org/abs/2105.14594v1 )

ライセンス: CC BY 4.0
Hippolyt Ritter, Martin Kukla, Cheng Zhang, Yingzhen Li(参考訳) ベイズニューラルネットワークとディープアンサンブルは、ディープラーニングにおける不確実性定量化の2つの近代パラダイムを表している。 しかし、これらのアプローチは、主にメモリ不効率の問題のため、パラメータストレージが決定論的よりも数倍高いため、スケールするのに苦労する。 これを解決するために、各層の重み行列を少量の誘導重みで拡張し、不確実な定量化をそのような低次元空間に投影する。 我々はさらに,Matheronの条件付きガウスサンプリングルールを拡張して,高速な重量サンプリングを可能にする。 重要なことに,本手法は,完全連結ニューラルネットワークとResNetを用いた予測および不確実性推定タスクにおける最先端の課題に対する競合性能を実現すると同時に,パラメータサイズを$$single$ニューラルネットワークの$\leq 24.3\%に削減する。

Bayesian neural networks and deep ensembles represent two modern paradigms of uncertainty quantification in deep learning. Yet these approaches struggle to scale mainly due to memory inefficiency issues, since they require parameter storage several times higher than their deterministic counterparts. To address this, we augment the weight matrix of each layer with a small number of inducing weights, thereby projecting the uncertainty quantification into such low dimensional spaces. We further extend Matheron's conditional Gaussian sampling rule to enable fast weight sampling, which enables our inference method to maintain reasonable run-time as compared with ensembles. Importantly, our approach achieves competitive performance to the state-of-the-art in prediction and uncertainty estimation tasks with fully connected neural networks and ResNets, while reducing the parameter size to $\leq 24.3\%$ of that of a $single$ neural network.
翻訳日:2021-06-02 09:45:25 公開日:2021-05-30
# (参考訳) HIT:ロバストなコード混合言語表現のための階層的に融合したディープアテンションネットワーク [全文訳有]

HIT: A Hierarchically Fused Deep Attention Network for Robust Code-mixed Language Representation ( http://arxiv.org/abs/2105.14600v1 )

ライセンス: CC BY 4.0
Ayan Sengupta, Sourabh Kumar Bhattacharjee, Tanmoy Chakraborty, Md Shad Akhtar(参考訳) 資源スカースなコード混在テキストの言語学と形態学を理解することは、テキスト処理において重要な課題である。 ワード埋め込みは低リソース言語の下流タスクをサポートするのに便利だが、特にコード混在言語の言語表現の品質向上には多くのスコープがある。 本稿では,コード混合テキストの堅牢な表現学習手法であるHITを提案する。 hitは、単語間の意味関係をキャプチャし、融合した注意機構を用いて文レベルの意味を階層的に学習する階層的トランスフォーマティブベースのフレームワークである。 HITは2つのアテンションモジュール、多頭部自己注意モジュールと外積アテンションモジュールを組み込み、その重み付け和を計算してアテンション重みを得る。 ヨーロッパ(スペイン語)とインド語(ヒンディー語、ベンガル語、タミル語、テルグ語、マラヤラム語)の11つのデータセット上の4つのNLPタスクに対するHITの評価は、様々な最先端システムに対する大幅な性能改善を示唆している。 さらに,タスク間での学習表現の適応性について,(微調整なしで)伝達学習設定で示す。

Understanding linguistics and morphology of resource-scarce code-mixed texts remains a key challenge in text processing. Although word embedding comes in handy to support downstream tasks for low-resource languages, there are plenty of scopes in improving the quality of language representation particularly for code-mixed languages. In this paper, we propose HIT, a robust representation learning method for code-mixed texts. HIT is a hierarchical transformer-based framework that captures the semantic relationship among words and hierarchically learns the sentence-level semantics using a fused attention mechanism. HIT incorporates two attention modules, a multi-headed self-attention and an outer product attention module, and computes their weighted sum to obtain the attention weights. Our evaluation of HIT on one European (Spanish) and five Indic (Hindi, Bengali, Tamil, Telugu, and Malayalam) languages across four NLP tasks on eleven datasets suggests significant performance improvement against various state-of-the-art systems. We further show the adaptability of learned representation across tasks in a transfer learning setup (with and without fine-tuning).
翻訳日:2021-06-02 09:04:13 公開日:2021-05-30
# (参考訳) SDN-Enabled Fog アーキテクチャのパワーとパフォーマンス [全文訳有]

Power and Performance Efficient SDN-Enabled Fog Architecture ( http://arxiv.org/abs/2105.14607v1 )

ライセンス: CC BY 4.0
Adnan Akhunzada (Senior Member, IEEE), Sherali Zeadally (Senior Member, IEEE), Saif ul Islam(参考訳) Software Defined Networks (SDN) は、ネットワーク管理を劇的に単純化した。 しかし、大量のデータを処理しながら、純粋なSDNをリアルタイムで応答させることは、依然として難しい課題である。 対照的に、フォグコンピューティングは、リアルタイムに大量のデータを提供する強い可能性を持っている。 SDNコントロールプレーンは、イノベーションを可能にし、ネットワーク操作と管理を大幅に単純化することで、エネルギーとパフォーマンスを意識したSDN対応のフォグコンピューティングを実装するための有望なソリューションを提供する。 さらに、SDN対応のフォグコンピューティングにおける電力効率と性能評価は、まだ研究コミュニティによって完全に調査されていない分野である。 本稿では,協調型および非協調型ポリシベースコンピューティングを活用し,電力効率と性能を向上させるための新しいsdn対応フォグアーキテクチャを提案する。 大規模なシミュレーションによる予備的な結果は、電力利用の改善と全体的な性能(処理時間、応答時間)を示している。 最後に,今後さらなる調査が必要となるいくつかのオープン研究課題について考察する。

Software Defined Networks (SDNs) have dramatically simplified network management. However, enabling pure SDNs to respond in real-time while handling massive amounts of data still remains a challenging task. In contrast, fog computing has strong potential to serve large surges of data in real-time. SDN control plane enables innovation, and greatly simplifies network operations and management thereby providing a promising solution to implement energy and performance aware SDN-enabled fog computing. Besides, power efficiency and performance evaluation in SDN-enabled fog computing is an area that has not yet been fully explored by the research community. We present a novel SDN-enabled fog architecture to improve power efficacy and performance by leveraging cooperative and non-cooperative policy-based computing. Preliminary results from extensive simulation demonstrate an improvement in the power utilization as well as the overall performance (i.e., processing time, response time). Finally, we discuss several open research issues that need further investigation in the future.
翻訳日:2021-06-02 08:42:37 公開日:2021-05-30
# (参考訳) Thumbnail upscaling のアイデンティティと属性保存 [全文訳有]

Identity and Attribute Preserving Thumbnail Upscaling ( http://arxiv.org/abs/2105.14609v1 )

ライセンス: CC BY 4.0
Noam Gat, Sagie Benaim, Lior Wolf(参考訳) 我々は、人物の低解像度サムネイル画像を高解像度画像にアップスケールする作業を検討し、その人物のアイデンティティやその他の属性を保存する。 サムネイル画像は解像度が低いため、多くの高解像度版が存在する。 以前のアプローチでは、人のアイデンティティが保存されないようなソリューションや、主にコーカサス的顔のような偏ったソリューションを生み出している。 まず、顔の識別性、顔の属性(笑顔の有無など)、人種をよりよく捉えるために特徴抽出器を増強し、次に、この機能抽出器を使用して、アイデンティティを保存し、人種や顔の属性を条件とした高解像度画像を生成することにより、既存の曖昧さに対処する。 以上の結果から,顔の類似性認識とルックアライズ生成の改善に加えて,入力サムネイルのアイデンティティを保ち,人種や属性を維持できる高解像度画像を生成する能力の向上が示唆された。

We consider the task of upscaling a low resolution thumbnail image of a person, to a higher resolution image, which preserves the person's identity and other attributes. Since the thumbnail image is of low resolution, many higher resolution versions exist. Previous approaches produce solutions where the person's identity is not preserved, or biased solutions, such as predominantly Caucasian faces. We address the existing ambiguity by first augmenting the feature extractor to better capture facial identity, facial attributes (such as smiling or not) and race, and second, use this feature extractor to generate high-resolution images which are identity preserving as well as conditioned on race and facial attributes. Our results indicate an improvement in face similarity recognition and lookalike generation as well as in the ability to generate higher resolution images which preserve an input thumbnail identity and whose race and attributes are maintained.
翻訳日:2021-06-02 08:35:17 公開日:2021-05-30
# (参考訳) ビジュアルデータに対する非局所的パッチベース低ランクテンソルリング補完 [全文訳有]

Non-local Patch-based Low-rank Tensor Ring Completion for Visual Data ( http://arxiv.org/abs/2105.14620v1 )

ライセンス: CC BY 4.0
Yicong He, George K. Atia(参考訳) テンソル完全度(tensor completion)は、ある低ランク構造を持つ部分観測テンソルの欠落エントリを推定する問題である。 このようなデータに固有の追加構造情報をキャプチャすることで、画像および映像データの行列補完を改善する。 % マトリックスよりもテンソル構造に係わる固有情報が多いため,特に画像やビデオデータにおいて,テンソル補完は行列補完よりも優れた性能を示した。 従来の補完アルゴリズムでは、視覚データ全体をテンソルとして扱うが、カメラや物体の動きがある場合には必ずしもうまく機能しない。 本稿では,非局所パッチベースのテンソルリング補完アルゴリズムを提案する。 提案手法では,視覚データの空間的領域および時間的領域に沿って,参照パッチ毎に類似したパッチを抽出する。 収集されたパッチは高次テンソルに形成され、完成テンソルを回復するためにテンソルリング補完アルゴリズムが提案される。 また,新しい間隔サンプリングベースブロックマッチング(ISBM)戦略とハイブリッドコンプリート戦略も提案し,効率と精度の向上を図っている。 さらに,ストリーミングビデオデータを扱うオンラインパッチベースの補完アルゴリズムを開発した。 時間コストを削減するために,効率的なオンラインテンソルリング補完アルゴリズムを提案する。 実験結果から,提案手法は最先端手法と比較して優れた性能を示した。

Tensor completion is the problem of estimating the missing entries of a partially observed tensor with a certain low-rank structure. It improves on matrix completion for image and video data by capturing additional structural information intrinsic to such data. % With more inherent information involving in tensor structure than matrix, tensor completion has shown better performance compared with matrix completion especially in image and video data. Traditional completion algorithms treat the entire visual data as a tensor, which may not always work well especially when camera or object motion exists. In this paper, we develop a novel non-local patch-based tensor ring completion algorithm. In the proposed approach, similar patches are extracted for each reference patch along both the spatial and temporal domains of the visual data. The collected patches are then formed into a high-order tensor and a tensor ring completion algorithm is proposed to recover the completed tensor. A novel interval sampling-based block matching (ISBM) strategy and a hybrid completion strategy are also proposed to improve efficiency and accuracy. Further, we develop an online patch-based completion algorithm to deal with streaming video data. An efficient online tensor ring completion algorithm is proposed to reduce the time cost. Extensive experimental results demonstrate the superior performance of the proposed algorithms compared with state-of-the-art methods.
翻訳日:2021-06-02 08:20:20 公開日:2021-05-30
# (参考訳) DAAIN:正規化流を用いた異常・逆入力の検出 [全文訳有]

DAAIN: Detection of Anomalous and Adversarial Input using Normalizing Flows ( http://arxiv.org/abs/2105.14638v1 )

ライセンス: CC BY-SA 4.0
Samuel von Bau{\ss}nern, Johannes Otterbach, Adrian Loy, Mathieu Salzmann, Thomas Wollmann(参考訳) 最近の研究にもかかわらず、コンピュータビジョンモデルに対するアウト・オブ・ディストリビューション(OOD)の入力と敵攻撃(AA)の検出は依然として困難である。 本研究では,OOD入力を検出する新しい手法であるDAAINと,画像セグメンテーションのためのAAを紹介する。 本稿では,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。 密度推定器に分類ヘッドを装備し,正規入力と異常入力を判別する。 典型的なセグメンテーションネットワークの高次元アクティベーション空間に対処するために、それらをサブサンプル化し、均質な空間的および層的カバレッジを得る。 サブサンプリングパターンは、監視されたモデル毎に一度選択され、すべての入力に対して固定される。 攻撃者は、検出モデルもサンプリングキーもアクセスできないので、検知器を介して攻撃をバックプロパゲートできないため、セグメンテーションネットワークを攻撃することが難しくなる。 我々は,cityscapesデータセットをセグメンテーションモデルとしてトレーニングしたespnet,密度推定器としてのアフィン正規化フロー,均質サンプリングのためのブルーノイズを用いた手法の有効性を示す。 当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。

Despite much recent work, detecting out-of-distribution (OOD) inputs and adversarial attacks (AA) for computer vision models remains a challenge. In this work, we introduce a novel technique, DAAIN, to detect OOD inputs and AA for image segmentation in a unified setting. Our approach monitors the inner workings of a neural network and learns a density estimator of the activation distribution. We equip the density estimator with a classification head to discriminate between regular and anomalous inputs. To deal with the high-dimensional activation-space of typical segmentation networks, we subsample them to obtain a homogeneous spatial and layer-wise coverage. The subsampling pattern is chosen once per monitored model and kept fixed for all inputs. Since the attacker has access to neither the detection model nor the sampling key, it becomes harder for them to attack the segmentation network, as the attack cannot be backpropagated through the detector. We demonstrate the effectiveness of our approach using an ESPNet trained on the Cityscapes dataset as segmentation model, an affine Normalizing Flow as density estimator and use blue noise to ensure homogeneous sampling. Our model can be trained on a single GPU making it compute efficient and deployable without requiring specialized accelerators.
翻訳日:2021-06-02 07:59:48 公開日:2021-05-30
# (参考訳) 経路を用いた進化戦略の整形政策探索 [全文訳有]

Shaped Policy Search for Evolutionary Strategies using Waypoints ( http://arxiv.org/abs/2105.14639v1 )

ライセンス: CC BY 4.0
Kiran Lekkala, Laurent Itti(参考訳) 本稿では,中間経路ポイント/サブゴールが利用できる強化学習(RL)問題に適用した場合,ブラックボックス手法,特に進化戦略(ES)の探索を改善することを試みる。 進化的戦略は非常に並列化可能であり、単にスカラー累積報酬を抽出するのではなく、ロールアウト/評価時に得られた軌道から状態-作用対を用いてエージェントのダイナミクスを学習する。 学習ダイナミクスは、トレーニングをスピードアップするために最適化手順で使用される。 最後に,カーラ駆動とUR5ロボットアームシミュレータを用いた実験の結果から,提案手法が広く適用可能であることを示す。

In this paper, we try to improve exploration in Blackbox methods, particularly Evolution strategies (ES), when applied to Reinforcement Learning (RL) problems where intermediate waypoints/subgoals are available. Since Evolutionary strategies are highly parallelizable, instead of extracting just a scalar cumulative reward, we use the state-action pairs from the trajectories obtained during rollouts/evaluations , to learn the dynamics of the agent. The learnt dynamics are then used in the optimization procedure to speed-up training. Lastly, we show how our proposed approach is universally applicable by presenting results from experiments conducted on Carla driving and UR5 robotic arm simulators.
翻訳日:2021-06-02 07:41:40 公開日:2021-05-30
# (参考訳) 単一変数の滑らかな関数のオンライン学習のためのよりシャープな境界 [全文訳有]

Sharper bounds for online learning of smooth functions of a single variable ( http://arxiv.org/abs/2105.14648v1 )

ライセンス: CC BY 4.0
Jesse Geneson(参考訳) 連続実数値単変数関数に対する誤りバウンドモデルの一般化について検討する。 0, 1] \rightarrow \mathbb{R}$ with $|f'||_q \le 1$, and defined $opt_p(\mathcal{F}_q)$ as the best possible bound on the worst-case sum of the $p^{th}$ power of the absolute prediction error over any number of trial。 Kimber and Long (Theoretical Computer Science, 1995) は$q \ge 2$に対して$opt_p(\mathcal{F}_q) = 1$ = $p \ge 2$と$opt_p(\mathcal{F}_q) = \infty$は$p = 1$であることを示した。 1 < p < 2$ with $p = 1+\epsilon$ に対し、唯一知られている境界は同じ論文から$opt_p(\mathcal{f}_{q}) = o(\epsilon^{-1})$ である。 すべての$\epsilon \in (0, 1)$および$q \ge 2$ that $opt_{1+\epsilon}(\mathcal{F}_q) = \Theta(\epsilon^{-\frac{1}{2}})$に対して、境界の定数は$q$に依存しない。 また、$opt_{1+\epsilon}(\mathcal{F}_{\infty}) = \Theta(\epsilon^{-\frac{1}{2}})$ を示す。

We investigate the generalization of the mistake-bound model to continuous real-valued single variable functions. Let $\mathcal{F}_q$ be the class of absolutely continuous functions $f: [0, 1] \rightarrow \mathbb{R}$ with $||f'||_q \le 1$, and define $opt_p(\mathcal{F}_q)$ as the best possible bound on the worst-case sum of the $p^{th}$ powers of the absolute prediction errors over any number of trials. Kimber and Long (Theoretical Computer Science, 1995) proved for $q \ge 2$ that $opt_p(\mathcal{F}_q) = 1$ when $p \ge 2$ and $opt_p(\mathcal{F}_q) = \infty$ when $p = 1$. For $1 < p < 2$ with $p = 1+\epsilon$, the only known bound was $opt_p(\mathcal{F}_{q}) = O(\epsilon^{-1})$ from the same paper. We show for all $\epsilon \in (0, 1)$ and $q \ge 2$ that $opt_{1+\epsilon}(\mathcal{F}_q) = \Theta(\epsilon^{-\frac{1}{2}})$, where the constants in the bound do not depend on $q$. We also show that $opt_{1+\epsilon}(\mathcal{F}_{\infty}) = \Theta(\epsilon^{-\frac{1}{2}})$.
翻訳日:2021-06-02 07:30:45 公開日:2021-05-30
# 言語間バイオメディカルエンティティリンクのためのドメイン特化表現の学習

Learning Domain-Specialised Representations for Cross-Lingual Biomedical Entity Linking ( http://arxiv.org/abs/2105.14398v1 )

ライセンス: Link先を確認
Fangyu Liu, Ivan Vuli\'c, Anna Korhonen, Nigel Collier(参考訳) 外部ドメイン固有の知識(UMLSなど)を事前訓練された言語モデル(LM)に注入することで、バイオメディカルエンティティリンク(BEL)のような専門的なドメイン内タスクを扱う能力が向上する。 しかし、そのような豊富な専門知識は少数の言語(例えば英語)でのみ利用可能である。 本稿では,新しいクロスリンガル・バイオメディカル・エンティティ・リンク・タスク (xl-bel) の提案と、10種類の類型的言語にまたがる新しいxl-belベンチマークの確立を通じて,まず,標準知識非依存および知識強化単言語・多言語lmsの能力について,標準英語ベルタスクを超えて検討する。 スコアは英語のパフォーマンスに大きな差を示している。 次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。 そこで本論文では,XL-BELタスクの言語間移動手法の一連の提案と評価を行い,一般分野のbitextが,ドメイン内データが少ない言語への英語知識の普及に有効であることを実証する。 注目すべきは、提案したドメイン固有トランスファー手法が、最大20のPrecision@1ポイント、ターゲット言語におけるドメイン内知識、ドメイン内並列データなしで、すべてのターゲット言語に対して一貫した利得が得られることである。

Injecting external domain-specific knowledge (e.g., UMLS) into pretrained language models (LMs) advances their capability to handle specialised in-domain tasks such as biomedical entity linking (BEL). However, such abundant expert knowledge is available only for a handful of languages (e.g., English). In this work, by proposing a novel cross-lingual biomedical entity linking task (XL-BEL) and establishing a new XL-BEL benchmark spanning 10 typologically diverse languages, we first investigate the ability of standard knowledge-agnostic as well as knowledge-enhanced monolingual and multilingual LMs beyond the standard monolingual English BEL task. The scores indicate large gaps to English performance. We then address the challenge of transferring domain-specific knowledge in resource-rich languages to resource-poor ones. To this end, we propose and evaluate a series of cross-lingual transfer methods for the XL-BEL task, and demonstrate that general-domain bitext helps propagate the available English knowledge to languages with little to no in-domain data. Remarkably, we show that our proposed domain-specific transfer methods yield consistent gains across all target languages, sometimes up to 20 Precision@1 points, without any in-domain knowledge in the target language, and without any in-domain parallel data.
翻訳日:2021-06-01 17:55:44 公開日:2021-05-30
# 等尺距離と最小距離スコアを用いたエントロピー分布検出の改善

Improving Entropic Out-of-Distribution Detection using Isometric Distances and the Minimum Distance Score ( http://arxiv.org/abs/2105.14399v1 )

ライセンス: Link先を確認
David Mac\^edo, Teresa Ludermir(参考訳) 現在の分散検出アプローチでは、通常、特別な要件(例えば、異常データやハイパーパラメータの検証)を示し、副作用(分類精度の低下と遅い/非効率な推論)を生み出す。 近年,エントロピー外分布検出(entropic out-of-distribution detection)がシームレスなアプローチとして提案されている。 トレーニング用isomax損失と、分散検出用エントロピースコアとを含むエントロピックアウトオブ・ディストリビューション検出ソリューション。 IsoMaxの損失は、SoftMaxの損失をIsoMaxの損失に置き換えるには、モデルのアーキテクチャやトレーニング手順やハイパーパラメータを変更する必要はない。 本稿では,IsoMax損失における距離の等化を行う手法を提案する。 さらに,エントロピースコアを最小距離スコアに置き換えることを提案する。 実験の結果,これらの簡単な修正は解をシームレスに保ちながら分布外検出性能を向上させることがわかった。

Current out-of-distribution detection approaches usually present special requirements (e.g., collecting outlier data and hyperparameter validation) and produce side effects (classification accuracy drop and slow/inefficient inferences). Recently, entropic out-of-distribution detection has been proposed as a seamless approach (i.e., a solution that avoids all the previously mentioned drawbacks). The entropic out-of-distribution detection solution comprises the IsoMax loss for training and the entropic score for out-of-distribution detection. The IsoMax loss works as a SoftMax loss drop-in replacement because swapping the SoftMax loss with the IsoMax loss requires no changes in the model's architecture or training procedures/hyperpara meters. In this paper, we propose to perform what we call an isometrization of the distances used in the IsoMax loss. Additionally, we propose to replace the entropic score with the minimum distance score. Our experiments showed that these simple modifications increase out-of-distribution detection performance while keeping the solution seamless.
翻訳日:2021-06-01 17:52:43 公開日:2021-05-30
# 誤解を招く理由:マルチモーダル機械翻訳における視覚的文脈の必要性に関する経験的再検討

Good for Misconceived Reasons: An Empirical Revisiting on the Need for Visual Context in Multimodal Machine Translation ( http://arxiv.org/abs/2105.14462v1 )

ライセンス: Link先を確認
Zhiyong Wu, Lingpeng Kong, Wei Bi, Xiang Li, Ben Kao(参考訳) ニューラルマルチモーダル機械翻訳システム(MMT)は,従来のテキストのみの翻訳モデルを多モーダル情報で拡張することにより,より良い翻訳を実現することを目的としたシステムである。 最近の多くの研究は、そのような改善が実際にマルチモーダル部分から来るかどうかの議論にもかかわらず、モデルをマルチモーダルモジュールに装備する際の改善を報告している。 我々は、2つの解釈可能なMTモデルを考案し、MTにおけるマルチモーダル情報の貢献を再考する。 驚いたことに、我々のモデルは、最近開発されたマルチモーダル統合システムを再現するが、我々のモデルはマルチモーダル情報を無視することを学ぶ。 さらに調査した結果,テキストのみに対するマルチモーダルモデルによる改善は,実際に正規化効果の結果であることがわかった。 MMTモデルの解釈可能性の重要性を強調した実証的な知見を報告し、今後の研究にどのように役立つかについて議論する。

A neural multimodal machine translation (MMT) system is one that aims to perform better translation by extending conventional text-only translation models with multimodal information. Many recent studies report improvements when equipping their models with the multimodal module, despite the controversy of whether such improvements indeed come from the multimodal part. We revisit the contribution of multimodal information in MMT by devising two interpretable MMT models. To our surprise, although our models replicate similar gains as recently developed multimodal-integrate d systems achieved, our models learn to ignore the multimodal information. Upon further investigation, we discover that the improvements achieved by the multimodal models over text-only counterparts are in fact results of the regularization effect. We report empirical findings that highlight the importance of MMT models' interpretability, and discuss how our findings will benefit future research.
翻訳日:2021-06-01 17:49:26 公開日:2021-05-30
# 事前学習型ユニバーサル言語表現

Pre-training Universal Language Representation ( http://arxiv.org/abs/2105.14478v1 )

ライセンス: Link先を確認
Yian Li, Hai Zhao(参考訳) 言語のための十分に発達したカットエッジ表現学習にもかかわらず、ほとんどの言語表現モデルは言語単位の特定のレベルに焦点を当てている。 この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。 本研究では,事前学習言語モデルに対する単純かつ効果的なアルゴリズムを用いて,大規模なラベル付きコーパスから抽出した有意義なn-gramを利用する学習目標MISADを提案する。 次に,事前学習方式が普遍的な言語表現を効果的に生み出す可能性があることを実証的に検証し,複数の言語オブジェクトの層を統一的に扱う場合の利便性を明らかにした。 特に,異なる言語レベルでのアナロジータスクの最高精度を達成し,glueベンチマークと質問応答データセットにおけるダウンストリームタスクのパフォーマンスを大幅に向上させる。

Despite the well-developed cut-edge representation learning for language, most language representation models usually focus on specific levels of linguistic units. This work introduces universal language representation learning, i.e., embeddings of different levels of linguistic units or text with quite diverse lengths in a uniform vector space. We propose the training objective MiSAD that utilizes meaningful n-grams extracted from large unlabeled corpus by a simple but effective algorithm for pre-trained language models. Then we empirically verify that well designed pre-training scheme may effectively yield universal language representation, which will bring great convenience when handling multiple layers of linguistic objects in a unified way. Especially, our model achieves the highest accuracy on analogy tasks in different language levels and significantly improves the performance on downstream tasks in the GLUE benchmark and a question answering dataset.
翻訳日:2021-06-01 17:49:11 公開日:2021-05-30
# MLPruning: トランスフォーマーモデルのためのマルチレベル構造化プルーニングフレームワーク

MLPruning: A Multilevel Structured Pruning Framework for Transformer-based Models ( http://arxiv.org/abs/2105.14636v1 )

ライセンス: Link先を確認
Zhewei Yao, Linjian Ma, Sheng Shen, Kurt Keutzer, Michael W. Mahoney(参考訳) プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。 しかし、現在のアプローチでは、プルーニング比が限られているヘッドプルーニングのみを探索するか、非構造化プルーニングのみに焦点を当て、実際の推論時間や電力消費に無視できる効果を持つ。 これらの課題に対処するために,頭部刈り,行刈り,ブロックワイドスパース刈りという3つの異なるレベルの構造化刈りのレベルを利用する,新しいMultiLevel Structured Pruning (MLPruning) フレームワークを開発した。 適応正則化を用いて正規化度を適応的に調整する学習可能なTop-kしきい値を用いて、異なる重み行列に対して適切なプルーニング比を選択する。 また,ブロックワイドプルーニングとヘッド/ロープルーニングを併用して,最小精度で高構造プルーニング比を実現するための2ステップパイプラインを提案する。 実験の結果, 残り重量の \textapprox20\% である \bertbase では, QQP/MNLI/\squad の完全モデルに匹敵する精度を最大で \textapprox3.69x のスピードアップで達成できることがわかった。 私たちのフレームワークはオープンソースになりました。

Pruning is an effective method to reduce the memory footprint and computational cost associated with large natural language processing models. However, current approaches either only explore head pruning, which has a limited pruning ratio, or only focus on unstructured pruning, which has negligible effects on the real inference time and/or power consumption. To address these challenges, we develop a novel MultiLevel structured Pruning (MLPruning) framework, which uses three different levels of structured pruning: head pruning, row pruning, and block-wise sparse pruning. We propose using a learnable Top-k threshold, which employs an adaptive regularization to adjust the regularization magnitude adaptively, to select appropriate pruning ratios for different weight matrices. We also propose a two-step pipeline to combine block-wise pruning with head/row pruning to achieve high structured pruning ratios with minimum accuracy degradation. Our empirical results show that for \bertbase, with \textapprox20\% of remaining weights, \OURS can achieve an accuracy that is comparable to the full model on QQP/MNLI/\squad, with up to \textapprox3.69x speedup. Our framework has been open sourced~\cite{codebase}.
翻訳日:2021-06-01 17:44:48 公開日:2021-05-30
# BABA:ベイジアンアクティブラーニングのためのベータ近似

BABA: Beta Approximation for Bayesian Active Learning ( http://arxiv.org/abs/2105.14559v1 )

ライセンス: Link先を確認
Jae Oh Woo(参考訳) 本稿では,ベイジアンアクティブラーニングフレームワークBABAに基づく新たな獲得機能を提案する。 これは、以前に確立されたBALDと、モデルパラメータとデータの予測出力の間の相互情報をキャプチャするBatchBALDによって動機付けられている。 提案手法であるBABAは,ベータ分布を用いて予測確率の確率を近似することにより,正規化された相互情報の定量化を図る。 BABAはBALDやBatchBALDなど、よく知られた買収機能群を上回っている。 MNIST と EMNIST のデータセットから得られた実験結果について示す。

This paper introduces a new acquisition function under the Bayesian active learning framework, namely BABA. It is motivated by previously well-established works BALD, and BatchBALD which capture the mutual information between the model parameters and the predictive outputs of the data. Our proposed measure, BABA, endeavors to quantify the normalized mutual information by approximating the stochasticity of predictive probabilities using Beta distributions. BABA outperforms the well-known family of acquisition functions, including BALD and BatchBALD. We demonstrate this by showing extensive experimental results obtained from MNIST and EMNIST datasets.
翻訳日:2021-06-01 17:40:45 公開日:2021-05-30
# ディープニューラルネットワークにおけるロスランドスケープの埋め込み原理

Embedding Principle of Loss Landscape of Deep Neural Networks ( http://arxiv.org/abs/2105.14573v1 )

ライセンス: Link先を確認
Yaoyu Zhang, Zhongwang Zhang, Tao Luo, Zhi-Qin John Xu(参考訳) ディープニューラルネットワーク(DNN)の損失景観の構造を理解することは明らかに重要である。 本研究では、DNNの損失景観が、より狭いDNNのすべての臨界点を「含んでいる」という埋め込み原理を証明する。 より正確には、より狭いDNNの局所小数点や大域小数点などの臨界点を、高い縮退性を持ち、DNN出力関数を保持するターゲットDNNの臨界点/超平面に埋め込むことができる臨界埋め込みを提案する。 臨界点の埋め込み構造は損失関数や訓練データとは独立であり、タンパク質の折り畳みなど他の非凸問題とは大きく異なる。 経験的に、広いDNNは狭いDNNから埋め込まれた高度に退化した臨界点にしばしば惹かれる。 埋め込み原理は、広義のDNNの一般的な最適化についての説明を提供し、訓練中に暗黙の低複雑さ正規化を解き放つ。 全体として、我々の研究は、DNNの失われた風景とその意味を研究するための骨格を提供し、より正確で包括的な理解が近日中に期待できる。

Understanding the structure of loss landscape of deep neural networks (DNNs)is obviously important. In this work, we prove an embedding principle that the loss landscape of a DNN "contains" all the critical points of all the narrower DNNs. More precisely, we propose a critical embedding such that any critical point, e.g., local or global minima, of a narrower DNN can be embedded to a critical point/hyperplane of the target DNN with higher degeneracy and preserving the DNN output function. The embedding structure of critical points is independent of loss function and training data, showing a stark difference from other nonconvex problems such as protein-folding. Empirically, we find that a wide DNN is often attracted by highly-degenerate critical points that are embedded from narrow DNNs. The embedding principle provides an explanation for the general easy optimization of wide DNNs and unravels a potential implicit low-complexity regularization during the training. Overall, our work provides a skeleton for the study of loss landscape of DNNs and its implication, by which a more exact and comprehensive understanding can be anticipated in the near
翻訳日:2021-06-01 17:40:37 公開日:2021-05-30
# 単語モーバー距離の再評価

Re-evaluating Word Mover's Distance ( http://arxiv.org/abs/2105.14403v1 )

ライセンス: Link先を確認
Ryoma Sato, Makoto Yamada, Hisashi Kashima(参考訳) モービル距離 (WMD) は2つの文書の類似度を測定するための基本的な手法である。 WMDの要点として、最適な輸送定式化を用いることで、単語空間の基盤となる幾何学を活用できる。 WMDに関する最初の研究は、WMDがback-of-words (BOW) やTF-IDFといった古典的なベースラインを様々なデータセットで大幅に上回っていることを報告した。 本稿では,本研究における評価が誤解を招く可能性があることを指摘する。 我々は、wmdおよび古典ベースラインの性能を再評価し、適切な前処理、すなわちl1正規化を用いる場合、古典ベースラインがwmdと競合していることを見出す。 しかし、この結果は直感的ではない。 WMDがBOWより優れているのは、WMDが基礎となる幾何学を考慮に入れることができるからである。 我々の分析は、これは基礎となる計量の高次元の性質によるものであることを示している。 高次元空間におけるWMDは、次元性の呪いにより、低次元空間においてよりBOWに類似した振る舞いをする。

The word mover's distance (WMD) is a fundamental technique for measuring the similarity of two documents. As the crux of WMD, it can take advantage of the underlying geometry of the word space by employing an optimal transport formulation. The original study on WMD reported that WMD outperforms classical baselines such as bag-of-words (BOW) and TF-IDF by significant margins in various datasets. In this paper, we point out that the evaluation in the original study could be misleading. We re-evaluate the performances of WMD and the classical baselines and find that the classical baselines are competitive with WMD if we employ an appropriate preprocessing, i.e., L1 normalization. However, this result is not intuitive. WMD should be superior to BOW because WMD can take the underlying geometry into account, whereas BOW cannot. Our analysis shows that this is due to the high-dimensional nature of the underlying metric. We find that WMD in high-dimensional spaces behaves more similarly to BOW than in low-dimensional spaces due to the curse of dimensionality.
翻訳日:2021-06-01 17:37:20 公開日:2021-05-30
# 周期gp:ガウス過程バンディットを用いた周期世界学習

Periodic-GP: Learning Periodic World with Gaussian Process Bandits ( http://arxiv.org/abs/2105.14422v1 )

ライセンス: Link先を確認
Hengrui Cai, Zhihao Cen, Ling Leng, Rui Song(参考訳) 配車におけるドライバーの日々の需要や交通の動的な交通パターンなど、データが季節性を伴う場合に、様々な実世界のアプリケーションで発生する周期的環境における逐次的決定最適化を考える。 本研究では,この季節法則を活用し,確率的周期世界を学ぶことに注力する。 一般作用空間に対処するために,ガウス過程(GP)に基づくバンドイットを基本モデルとして,その柔軟性と一般性から用い,高信頼度境界に基づく周期的カーネルを用いた周期的GP法を提案する。 理論的には、周期的定常モデルにおいて周期的核を明示的に特徴付けることにより、提案手法の新たな後悔のバウンドを与える。 実験的に,提案アルゴリズムは,マドリードの交通汚染に対する合成データ実験と実データ応用の両方において,既存の手法を著しく上回っている。

We consider the sequential decision optimization on the periodic environment, that occurs in a wide variety of real-world applications when the data involves seasonality, such as the daily demand of drivers in ride-sharing and dynamic traffic patterns in transportation. In this work, we focus on learning the stochastic periodic world by leveraging this seasonal law. To deal with the general action space, we use the bandit based on Gaussian process (GP) as the base model due to its flexibility and generality, and propose the Periodic-GP method with a temporal periodic kernel based on the upper confidence bound. Theoretically, we provide a new regret bound of the proposed method, by explicitly characterizing the periodic kernel in the periodic stationary model. Empirically, the proposed algorithm significantly outperforms the existing methods in both synthetic data experiments and a real data application on Madrid traffic pollution.
翻訳日:2021-06-01 17:33:58 公開日:2021-05-30
# 2.5次元分散モデルトレーニング

2.5-dimensional distributed model training ( http://arxiv.org/abs/2105.14500v1 )

ライセンス: Link先を確認
Boxiang Wang, Qifan Xu, Zhengda Bian, Yang You(参考訳) データ並列処理はトレーニングのスピードアップに役立ちます。 しかし、単一のデバイスのメモリがモデル全体をホストできない場合、データ並列処理は、何もできないだろう。 もうひとつの選択肢は、モデルをオペレータによって、あるいは水平に分割することです。 Megatron-LMはトレーニングプロセスを高速化するためにGPUを使用する1次元分散手法を導入した。 Optimusは分散テンソル並列性のための2次元解である。 しかし,これらの手法は大規模コンピューティングクラスタ上での通信オーバーヘッドが高く,スケーリング効率も低い。 本研究では, 2.5次元分散テンソル並列性について検討し, 2.5次元行列乗算法を用いて複数のキャノンのアルゴリズムを同時に実行し, 効率を向上させる効果的な手法を開発した。 キャノンアルゴリズムの多くの制限と膨大なシフト演算により、性能を向上させるために2.5次元行列乗算の新しい手法を考案する必要がある。 SUMMAと2.5次元行列乗法の両方の本質を吸収し,言語モデルにおけるSUMMA2.5-LMを導入し,言語モデル並列化の増大による不必要な伝達損失の増大を克服した。 従来の言語モデルの1Dおよび2Dモデル並列化と比較して,SUMMA2.5-LMは,2.5-D[4,4,4]配列と2-D[8,8,1]配列の弱いスケーリング結果に応じて,各層での伝送コストを1.45倍に削減することができた。

Data parallelism does a good job in speeding up the training. However, when it comes to the case when the memory of a single device can not host a whole model, data parallelism would not have the chance to do anything. Another option is to split the model by operator, or horizontally. Megatron-LM introduced a 1-Dimensional distributed method to use GPUs to speed up the training process. Optimus is a 2D solution for distributed tensor parallelism. However, these methods have a high communication overhead and a low scaling efficiency on large-scale computing clusters. To solve this problem, we investigate the 2.5-Dimensional distributed tensor parallelism.Introduc ed by Solomonik et al., 2.5-Dimensional Matrix Multiplication developed an effective method to perform multiple Cannon's algorithm at the same time to increase the efficiency. With many restrictions of Cannon's Algorithm and a huge amount of shift operation, we need to invent a new method of 2.5-dimensional matrix multiplication to enhance the performance. Absorbing the essence from both SUMMA and 2.5-Dimensional Matrix Multiplication, we introduced SUMMA2.5-LM for language models to overcome the abundance of unnecessary transmission loss result from the increasing size of language model parallelism. Compared to previous 1D and 2D model parallelization of language models, our SUMMA2.5-LM managed to reduce the transmission cost on each layer, which could get a 1.45X efficiency according to our weak scaling result between 2.5-D [4,4,4] arrangement and 2-D [8,8,1] arrangement.
翻訳日:2021-06-01 17:33:42 公開日:2021-05-30
# アンサンブルによるロバストな動的ネットワーク埋め込み

Robust Dynamic Network Embedding via Ensembles ( http://arxiv.org/abs/2105.14557v1 )

ライセンス: Link先を確認
Chengbin Hou, Guoji Fu, Peng Yang, Shan He, Ke Tang(参考訳) 動的ネットワーク埋め込み(DNE)は、様々なアプリケーションにネットワークを埋め込むことの利点と、多くの実世界のネットワークの動的性質により、近年大きな注目を集めている。 動的ネットワークでは、動的ネットワークにまたがる連続的なスナップショット間のエッジの変化数の平均として定義される変更の度合いは、現実のシナリオにおいて非常に異なる可能性がある。 多くのdne法が提案されているが、既存のdne法がどの程度変化の度合いにロバストであるかはまだ不明であり、学術研究と産業応用の両方において重要な要素である。 本研究では,DNE法w.r.tのロバスト性問題について検討する。 変更の度合いが初めてであり、それ故に堅牢なDNE法を提案する。 具体的には、ベース学習者が漸進的なSkip-Gramニューラル埋め込みアプローチを採用するアンサンブルの概念に従う。 さらに,局所的グローバルトポロジーの異なるレベルを捉えることにより,各時間ステップにおけるベース学習者間の多様性を高めるための新しい戦略を提案する。 広範な実験により,提案手法における特殊設計の利点と,提案手法が最先端手法よりも優れた性能を示すことができた。 比較研究は、いくつかのDNE手法の堅牢性の問題も明らかにしている。 ソースコードはhttps://github.com/h ouchengbin/sg-edneで入手できる。

Dynamic Network Embedding (DNE) has recently attracted considerable attention due to the advantage of network embedding in various applications and the dynamic nature of many real-world networks. For dynamic networks, the degree of changes, i.e., defined as the averaged number of changed edges between consecutive snapshots spanning a dynamic network, could be very different in real-world scenarios. Although quite a few DNE methods have been proposed, it still remains unclear that whether and to what extent the existing DNE methods are robust to the degree of changes, which is however an important factor in both academic research and industrial applications. In this work, we investigate the robustness issue of DNE methods w.r.t. the degree of changes for the first time and accordingly, propose a robust DNE method. Specifically, the proposed method follows the notion of ensembles where the base learner adopts an incremental Skip-Gram neural embedding approach. To further boost the performance, a novel strategy is proposed to enhance the diversity among base learners at each timestep by capturing different levels of local-global topology. Extensive experiments demonstrate the benefits of special designs in the proposed method, and the superior performance of the proposed method compared to state-of-the-art methods. The comparative study also reveals the robustness issue of some DNE methods. The source code is available at https://github.com/h ouchengbin/SG-EDNE
翻訳日:2021-06-01 17:33:19 公開日:2021-05-30
# kolmogorov-smirnov test-based active-adaptive thompson sampling for non-stationary bandits

Kolmogorov-Smirnov Test-Based Actively-Adaptive Thompson Sampling for Non-Stationary Bandits ( http://arxiv.org/abs/2105.14586v1 )

ライセンス: Link先を確認
Gourab Ghatak, Hardhik Mohanty, Aniq Ur Rahman(参考訳) 本稿では,mab(non-stationary multi-armed bandit)フレームワークを検討し,ts-ks(kolmogorov-sm irnov)テストに基づくts-ks(ts)アルゴリズムを提案する。 特に、両腕のバンディットの場合、報奨分布のサンプル数に基づいて境界を導出し、一度変化が生じたときにその変化を検出する。 その結果,提案アルゴリズムはサブ線形後悔であることがわかった。 既存の研究とは対照的に,平均報酬が同じであっても,基礎となる報酬分布が変化しても,アルゴリズムは変化を検出することができる。 最後に,提案アルゴリズムの有効性を検証するために,無線エッジコンピューティングにおけるタスクオフロードシナリオとポートフォリオ最適化の2つのケーススタディを用いた。 その結果,提案アルゴリズムは静的TSアルゴリズムだけでなく,非定常環境向けに設計された他の帯域幅アルゴリズムよりも優れていた。 さらに、TS-KSの性能は、Facebook-PROPHETやARIMAのような最先端の予測アルゴリズムと同等である。

We consider the non-stationary multi-armed bandit (MAB) framework and propose a Kolmogorov-Smirnov (KS) test based Thompson Sampling (TS) algorithm named TS-KS, that actively detects change points and resets the TS parameters once a change is detected. In particular, for the two-armed bandit case, we derive bounds on the number of samples of the reward distribution to detect the change once it occurs. Consequently, we show that the proposed algorithm has sub-linear regret. Contrary to existing works, our algorithm is able to detect a change when the underlying reward distribution changes even though the mean reward remains the same. Finally, to test the efficacy of the proposed algorithm, we employ it in two case-studies: i) task-offloading scenario in wireless edge-computing, and ii) portfolio optimization. Our results show that the proposed TS-KS algorithm outperforms not only the static TS algorithm but also it performs better than other bandit algorithms designed for non-stationary environments. Moreover, the performance of TS-KS is at par with the state-of-the-art forecasting algorithms such as Facebook-PROPHET and ARIMA.
翻訳日:2021-06-01 17:29:38 公開日:2021-05-30
# ディープニューラルネットワークにおける一般化と記憶の幾何学について

On the geometry of generalization and memorization in deep neural networks ( http://arxiv.org/abs/2105.14602v1 )

ライセンス: Link先を確認
Cory Stephenson, Suchismita Padhy, Abhinav Ganesh, Yue Hui, Hanlin Tang and SueYeon Chung(参考訳) 大規模なニューラルネットワークがトレーニングデータの記憶を避ける方法を理解することが、その高い一般化性能を説明する鍵となる。 深層ネットワークにおいて記憶がいつ,どこで発生したかを調べるために,最近開発したレプリカベース平均場理論幾何学解析法を用いる。 すべてのレイヤが特徴を共有する例から優先的に学習し、この振る舞いを一般化性能にリンクする。 記憶は、物体多様体の半径と次元を減少させるため、より深い層で顕著に起こるが、初期層は最小限の影響を受ける。 これにより、最終的な数層重みを、重要な記憶化が起こる前に以前のエポックに戻すことで一般化を回復できると予測され、実験によって確認される。 さらに,異なるモデルサイズでの一般化を研究することにより,二重降下現象とモデル幾何との関係を明らかにする。 最後に、解析解析により、ネットワークは初期化に近く、置換例からの勾配寄与が小さいため、トレーニングの早い段階で記憶を避けていることが示された。 これらの知見は、深層ニューラルネットワークの層間における記憶構造、その構造のドライバ、および多様体幾何学的性質との関係に関する定量的な証拠を提供する。

Understanding how large neural networks avoid memorizing training data is key to explaining their high generalization performance. To examine the structure of when and where memorization occurs in a deep network, we use a recently developed replica-based mean field theoretic geometric analysis method. We find that all layers preferentially learn from examples which share features, and link this behavior to generalization performance. Memorization predominately occurs in the deeper layers, due to decreasing object manifolds' radius and dimension, whereas early layers are minimally affected. This predicts that generalization can be restored by reverting the final few layer weights to earlier epochs before significant memorization occurred, which is confirmed by the experiments. Additionally, by studying generalization under different model sizes, we reveal the connection between the double descent phenomenon and the underlying model geometry. Finally, analytical analysis shows that networks avoid memorization early in training because close to initialization, the gradient contribution from permuted examples are small. These findings provide quantitative evidence for the structure of memorization across layers of a deep neural network, the drivers for such structure, and its connection to manifold geometric properties.
翻訳日:2021-06-01 17:29:18 公開日:2021-05-30
# Z2P: ポイントクラウドのインスタントレンダリング

Z2P: Instant Rendering of Point Clouds ( http://arxiv.org/abs/2105.14548v1 )

ライセンス: Link先を確認
Gal Metzer, Rana Hanocka, Raja Giryes, Niloy J. Mitra, Daniel Cohen-Or(参考訳) ニューラルネットワークを用いて点雲をレンダリングする手法を提案する。 既存のポイントレンダリング技術は、スプレイティングを使用するか、最初にレンダリング可能な表面メッシュを再構築する。 これらの手法はどちらも、大域点正規化の解決を必要とするが、これはそれ自体が難しい問題である。 さらに、スプレーティング技術は穴と重なりを生じさせるが、メッシュの再構築は特に、特に薄い表面やシートの場合において困難である。 レンダリング問題を条件付き画像から画像への変換問題として用いた。 提案手法では,z2p,すなわち,対象カメラの視点から見る奥行き推定点特徴を,ニューラルネットワークによって直接画像に変換し,制御変数(色,光など)を条件とする。 我々は、スプレーティング(すなわち穴と重なり)の避けられない問題を避け、悪名高い表面再構成問題や指向正規値の推定をバイパスする。 しかし,本手法では,表面メッシュが再構築されたようなレンダリング画像が得られる。 我々は,本フレームワークが可塑性画像を生成し,ノイズ,非一様サンプリング,薄い表面/シートを効果的に処理し,高速であることを示す。

We present a technique for rendering point clouds using a neural network. Existing point rendering techniques either use splatting, or first reconstruct a surface mesh that can then be rendered. Both of these techniques require solving for global point normal orientation, which is a challenging problem on its own. Furthermore, splatting techniques result in holes and overlaps, whereas mesh reconstruction is particularly challenging, especially in the cases of thin surfaces and sheets. We cast the rendering problem as a conditional image-to-image translation problem. In our formulation, Z2P, i.e., depth-augmented point features as viewed from target camera view, are directly translated by a neural network to rendered images, conditioned on control variables (e.g., color, light). We avoid inevitable issues with splatting (i.e., holes and overlaps), and bypass solving the notoriously challenging surface reconstruction problem or estimating oriented normals. Yet, our approach results in a rendered image as if a surface mesh was reconstructed. We demonstrate that our framework produces a plausible image, and can effectively handle noise, non-uniform sampling, thin surfaces / sheets, and is fast.
翻訳日:2021-06-01 17:27:46 公開日:2021-05-30
# IoTアプリケーションのための改良されたLogNNet分類器

An improved LogNNet classifier for IoT application ( http://arxiv.org/abs/2105.14412v1 )

ライセンス: Link先を確認
Hanif Heidari and Andrei Velichko(参考訳) モノのインターネットデバイスは低メモリに苦しむ一方で、精度も高い。 この主題には適切なアルゴリズムの設計が不可欠である。 本稿では,半線形ヘノン型離散カオスマップを用いてmnist-10データセットを分類するフィードフォワードlognnetニューラルネットワークを提案する。 モデルは、貯留部と訓練可能な分類器から構成される。 貯留部の目的は、特殊行列ファイリング法とカオスマップによって生成された時系列を用いて、入力を変換して分類精度を最大化することである。 カオスマップのパラメータはランダム移民による粒子群最適化を用いて最適化される。 その結果、提案したLogNNet/Henon分類器は、LogNNetのオリジナルのバージョンに匹敵する精度とRAMの節約が図られ、IoTデバイスで実装される見込みが広いことがわかった。 また,エントロピーと分類の精度との関係について検討した。 エントロピーの値と分類の精度の間には直接的な関係があることが示されている。

The internet of things devices suffer of low memory while good accuracy is needed. Designing suitable algorithms is vital in this subject. This paper proposes a feed forward LogNNet neural network which uses a semi-linear Henon type discrete chaotic map to classify MNIST-10 dataset. The model is composed of reservoir part and trainable classifier. The aim of reservoir part is transforming the inputs to maximize the classification accuracy using a special matrix filing method and a time series generated by the chaotic map. The parameters of the chaotic map are optimized using particle swarm optimization with random immigrants. The results show that the proposed LogNNet/Henon classifier has higher accuracy and same RAM saving comparable to the original version of LogNNet and has broad prospects for implementation in IoT devices. In addition, the relation between the entropy and accuracy of the classification is investigated. It is shown that there exists a direct relation between the value of entropy and accuracy of the classification.
翻訳日:2021-06-01 17:25:19 公開日:2021-05-30
# CLEVE: イベント抽出のための対照的な事前トレーニング

CLEVE: Contrastive Pre-training for Event Extraction ( http://arxiv.org/abs/2105.14485v1 )

ライセンス: Link先を確認
Ziqi Wang, Xiaozhi Wang, Xu Han, Yankai Lin, Lei Hou, Zhiyuan Liu, Peng Li, Juanzi Li, Jie Zhou(参考訳) イベント抽出(EE)は、微調整によって事前訓練された言語モデル(PLM)からかなり恩恵を受けている。 しかし、既存の事前学習手法ではイベント特性のモデル化は行っていないため、開発済みのEEモデルは大規模な教師なしデータを完全に活用することはできない。 この目的のために、我々は、大規模な教師なしデータとその意味構造からイベント知識を学習するための、EEのための対照的な事前学習フレームワークであるCLEVEを提案する。 amr) 自動解析器で得られた。 cleveには、イベントセマンティクスを学ぶテキストエンコーダと、イベント構造を学ぶグラフエンコーダが含まれている。 具体的には、テキストエンコーダは、自己教師付きコントラスト学習によってイベント意味表現を学習し、関連しない単語よりも同じイベントの単語を表現し、グラフエンコーダは、解析されたイベント関連意味構造上でグラフコントラストプリトレーニングによりイベント構造表現を学習する。 この2つの補完的な表現は、従来の教師付きeeと教師なしの"リベラル"eeの両方を改善するために協力して働き、アノテートされたデータなしでイベントを抽出し、イベントスキーマを発見する必要がある。 ACE 2005とMAVENデータセットの実験では、CLEVEは特に教師なしの困難な環境で、大幅な改善を達成している。 ソースコードと事前訓練されたチェックポイントはhttps://github.com/T HU-KEG/CLEVEから取得できる。

Event extraction (EE) has considerably benefited from pre-trained language models (PLMs) by fine-tuning. However, existing pre-training methods have not involved modeling event characteristics, resulting in the developed EE models cannot take full advantage of large-scale unsupervised data. To this end, we propose CLEVE, a contrastive pre-training framework for EE to better learn event knowledge from large unsupervised data and their semantic structures (e.g. AMR) obtained with automatic parsers. CLEVE contains a text encoder to learn event semantics and a graph encoder to learn event structures respectively. Specifically, the text encoder learns event semantic representations by self-supervised contrastive learning to represent the words of the same events closer than those unrelated words; the graph encoder learns event structure representations by graph contrastive pre-training on parsed event-related semantic structures. The two complementary representations then work together to improve both the conventional supervised EE and the unsupervised "liberal" EE, which requires jointly extracting events and discovering event schemata without any annotated data. Experiments on ACE 2005 and MAVEN datasets show that CLEVE achieves significant improvements, especially in the challenging unsupervised setting. The source code and pre-trained checkpoints can be obtained from https://github.com/T HU-KEG/CLEVE.
翻訳日:2021-06-01 17:23:25 公開日:2021-05-30
# VersatileGait:Wildシミュレーションに向けた大規模合成ゲイトデータセット

VersatileGait: A Large-Scale Synthetic Gait Dataset Towards in-the-Wild Simulation ( http://arxiv.org/abs/2105.14421v1 )

ライセンス: Link先を確認
Pengyi Zhang, Huanzhang Dou, Wenhu Zhang, Yuhan Zhao, Songyuan Li, Zequn Qin, Xi Li(参考訳) 近年,歩行認識が急速に進展している。 しかし、野生での歩行認識はまだ十分に研究されていない。 明らかな理由は、本質的および外生的要因の観点からの多様なトレーニングデータが欠如していることにある。 この問題を解決するために,制御可能なコンピュータシミュレーションを用いて大規模歩行データセットを構築することを提案する。 詳しくは,歩行の本質的要因を多様化するために,多様な属性を持つ多数のキャラクターを生成し,様々なタイプの歩行スタイルを付与する。 歩行の外部要因を多様化するために,高密度カメラレイアウトの複雑なシーンを構築する。 最後に、歩行シナリオをシミュレーションし、歩行データを自動キャプチャする自動生成ツールキットをUnity3Dで設計する。 その結果,多種多様なシナリオを持つ1万件の被験者のシルエット配列を100万件以上持つVersatileGaitという,Wildの歩行データセットが得られた。 versatilegaitには、巨大なデータセットサイズ、多様な歩行者属性、複雑なカメラレイアウト、高品質なアノテーション、実際のドメイン間隙、新しい要求に対する優れたスケーラビリティ、プライバシ問題のない、いくつかの優れた特性があります。 versatilegaitを基盤として,野生の歩行研究と実用研究の両面において,一連の実験と応用を提案する。 我々のデータセットとその生成ツールキットは、さらなる研究のために公開されます。

Gait recognition has a rapid development in recent years. However, gait recognition in the wild is not well explored yet. An obvious reason could be ascribed to the lack of diverse training data from the perspective of intrinsic and extrinsic factors. To remedy this problem, we propose to construct a large-scale gait dataset with the help of controllable computer simulation. In detail, to diversify the intrinsic factors of gait, we generate numerous characters with diverse attributes and empower them with various types of walking styles. To diversify the extrinsic factors of gait, we build a complicated scene with a dense camera layout. Finally, we design an automated generation toolkit under Unity3D for simulating the walking scenario and capturing the gait data automatically. As a result, we obtain an in-the-wild gait dataset, called VersatileGait, which has more than one million silhouette sequences of 10,000 subjects with diverse scenarios. VersatileGait possesses several nice properties, including huge dataset size, diverse pedestrian attributes, complicated camera layout, high-quality annotations, small domain gap with the real one, good scalability for new demands, and no privacy issues. Based on VersatileGait, we propose series of experiments and applications for both research exploration of gait in the wild and practical applications. Our dataset and its corresponding generation toolkit will be publicly available for further studies.
翻訳日:2021-06-01 17:14:31 公開日:2021-05-30
# 変圧器を用いた視線推定

Gaze Estimation using Transformer ( http://arxiv.org/abs/2105.14424v1 )

ライセンス: Link先を確認
Yihua Cheng and Feng Lu(参考訳) 近年、多くのコンピュータビジョンタスクにおいてトランスフォーマーの有効性が証明されている。 しかし、視線推定における変圧器の性能はまだ未定である。 本稿では,変圧器を用いて視線推定の有効性を評価する。 我々は、純粋変換器とハイブリッド変換器の2種類の視覚変換器を考える。 私たちはまず、人気の高いViTに従い、画像から視線を推定するために純粋なトランスフォーマーを使用します。 一方、我々は畳み込み層を保存し、CNNとトランスフォーマーを統合する。 トランスはCNNを補完するコンポーネントとして機能する。 2つの変圧器の性能を視線推定で比較する。 ハイブリッドトランスは、パラメータが少ない全ての評価データセットにおいて純粋なトランスフォーマーを著しく上回る。 さらに,ハイブリッドトランスの有効性評価実験を行い,自己注意機構の活用について検討する。 実験では、ハイブリッドトランスフォーマーがすべてのベンチマークにおいて、事前学習によって最先端のパフォーマンスを達成できることが示されています。

Recent work has proven the effectiveness of transformers in many computer vision tasks. However, the performance of transformers in gaze estimation is still unexplored. In this paper, we employ transformers and assess their effectiveness for gaze estimation. We consider two forms of vision transformer which are pure transformers and hybrid transformers. We first follow the popular ViT and employ a pure transformer to estimate gaze from images. On the other hand, we preserve the convolutional layers and integrate CNNs as well as transformers. The transformer serves as a component to complement CNNs. We compare the performance of the two transformers in gaze estimation. The Hybrid transformer significantly outperforms the pure transformer in all evaluation datasets with less parameters. We further conduct experiments to assess the effectiveness of the hybrid transformer and explore the advantage of self-attention mechanism. Experiments show the hybrid transformer can achieve state-of-the-art performance in all benchmarks with pre-training.To facilitate further research, we release codes and models in https://github.com/y ihuacheng/GazeTR.
翻訳日:2021-06-01 17:14:10 公開日:2021-05-30
# マルチモーダルフュージョンの制約を再考する:弱視映像解析におけるケーススタディ

Rethinking the constraints of multimodal fusion: case study in Weakly-Supervised Audio-Visual Video Parsing ( http://arxiv.org/abs/2105.14430v1 )

ライセンス: Link先を確認
Jianning Wu, Zhuqing Jiang, Shiping Wen, Aidong Men, Haiying Wang(参考訳) マルチモーダルタスクでは,優れた特徴抽出ネットワークが可能な限り情報を抽出し,抽出した特徴の埋め込みやその他の特徴の埋め込みが相互理解に優れるようにする必要がある。 後者は、しばしば前者よりも機能融合において重要である。 したがって、最適特徴抽出ネットワークコロケーションの選択は、マルチモーダルタスクにおいて非常に重要な部分問題である。 既存の研究の多くはこの問題を無視したり、エルゴード的なアプローチを採用したりしている。 本稿では,この問題を最適化問題としてモデル化する。 数学における極限値変換(extreme value conversion)の一般的な実践を参考に,最適化問題を比較上限問題に変換する新しい手法を提案する。 従来の方法と比較すると、時間コストが削減される。 一方,マルチモーダル時系列問題では特徴類似性と特徴意味類似性が一致しないという共通問題に対して,コントラスト学習の考え方を言及し,マルチモーダル時系列比較損失(MTSC)を提案する。 以上の課題に基づき,音声・視覚的ビデオ解析におけるアプローチの有効性を実証した。 本手法が様々なモーダル特徴の融合を促進することを確認する。

For multimodal tasks, a good feature extraction network should extract information as much as possible and ensure that the extracted feature embedding and other modal feature embedding have an excellent mutual understanding. The latter is often more critical in feature fusion than the former. Therefore, selecting the optimal feature extraction network collocation is a very important subproblem in multimodal tasks. Most of the existing studies ignore this problem or adopt an ergodic approach. This problem is modeled as an optimization problem in this paper. A novel method is proposed to convert the optimization problem into an issue of comparative upper bounds by referring to the general practice of extreme value conversion in mathematics. Compared with the traditional method, it reduces the time cost. Meanwhile, aiming at the common problem that the feature similarity and the feature semantic similarity are not aligned in the multimodal time-series problem, we refer to the idea of contrast learning and propose a multimodal time-series contrastive loss(MTSC). Based on the above issues, We demonstrated the feasibility of our approach in the audio-visual video parsing task. Substantial analyses verify that our methods promote the fusion of different modal features.
翻訳日:2021-06-01 17:13:56 公開日:2021-05-30
# 一般化された人物再識別のためのトランスベース深部画像マッチング

Transformer-Based Deep Image Matching for Generalizable Person Re-identification ( http://arxiv.org/abs/2105.14432v1 )

ライセンス: Link先を確認
Shengcai Liao and Ling Shao(参考訳) 近年、トランスフォーマーはコンピュータビジョンに注目が集まっている。 しかし、既存の研究は主に特徴表現学習にトランスフォーマーを使用している。 画像分類と密集予測に役立ちます 本研究では,画像マッチングとメトリック学習にトランスフォーマーを適用する可能性についてさらに検討する。 視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。 したがって、我々はさらに2つの単純解を設計する。 ViTにおけるクエリギャラリ結合、バニラトランスフォーマーにおけるクエリガラリクロスアテンション。 後者は性能が向上するが、まだ限定されている。 このことはトランスフォーマーのアテンションメカニズムが主にグローバルな特徴集約のために設計されていることを示唆している。 そこで本研究では,softmax重み付けによる完全注意実装を廃止し,クエリキー類似性計算のみを保持する新しい簡易デコーダを提案する。 さらに、マッチング結果を復号するために、グローバルマックスプーリングと多層パーセプトロン(MLP)ヘッドを適用する。 このように、単純化されたデコーダは計算効率が良く、同時に画像マッチングにも効果的である。 提案手法はTransMatcherと呼ばれ,複数の一般的なデータセットを用いて,最大6.1%と5.7%の性能向上を達成している。 この研究のソースコードは公開される予定だ。

Transformers have recently gained increasing attention in computer vision. However, existing studies mostly use Transformers for feature representation learning, e.g. for image classification and dense predictions. In this work, we further investigate the possibility of applying Transformers for image matching and metric learning given pairs of images. We find that the Vision Transformer (ViT) and the vanilla Transformer with decoders are not adequate for image matching due to their lack of image-to-image attention. Thus, we further design two naive solutions, i.e. query-gallery concatenation in ViT, and query-gallery cross-attention in the vanilla Transformer. The latter improves the performance, but it is still limited. This implies that the attention mechanism in Transformers is primarily designed for global feature aggregation, which is not naturally suitable for image matching. Accordingly, we propose a new simplified decoder, which drops the full attention implementation with the softmax weighting, keeping only the query-key similarity computation. Additionally, global max pooling and a multilayer perceptron (MLP) head are applied to decode the matching result. This way, the simplified decoder is computationally more efficient, while at the same time more effective for image matching. The proposed method, called TransMatcher, achieves state-of-the-art performance in generalizable person re-identification, with up to 6.1% and 5.7% performance gains in Rank-1 and mAP, respectively, on several popular datasets. The source code of this study will be made publicly available.
翻訳日:2021-06-01 17:13:38 公開日:2021-05-30
# EPSANet:畳み込みニューラルネットワーク上での効率的なピラミッド分割注意ブロック

EPSANet: An Efficient Pyramid Split Attention Block on Convolutional Neural Network ( http://arxiv.org/abs/2105.14447v1 )

ライセンス: Link先を確認
Hu Zhang and Keke Zu and Jian Lu and Yuru Zou and Deyu Meng(参考訳) 近年,注目モジュールを組み込むことで,深層畳み込みニューラルネットワークの性能を効果的に向上できることが実証されている。 本研究では, ピラミッド分割注意(PSA)モジュールという, 軽量で効果的な注意方法を提案する。 ResNetのボトルネックブロックにおける3x3畳み込みをPSAモジュールに置き換えることで、EPSA(Efficient Pyramid Split Attention)と呼ばれる新しい表現ブロックを得る。 EPSAブロックは、確立されたバックボーンネットワークにプラグイン・アンド・プレイコンポーネントとして簡単に追加でき、モデル性能の大幅な改善が達成できる。 したがって、これらのResNetスタイルのEPSAブロックを積み重ねることで、EPSANetというシンプルで効率的なバックボーンアーキテクチャが開発されている。 それに対応して、画像分類、オブジェクト検出、インスタンスのセグメンテーションなどを含む様々なコンピュータビジョンタスクに対して、提案したEPSANetによってより強力なマルチスケール表現能力が提供される。 ベルとホイッスルがなければ、EPSANetの性能は最先端のチャネルアテンション手法よりも優れる。 SENet-50と比較して、ImageNetデータセットのTop-1精度は1.93%向上し、オブジェクト検出のための+2.7ボックスAPのより大きなマージンと、MS-COCOデータセット上のMask-RCNNを使用してインスタンスセグメンテーションのための+1.7マスクAPが改善された。 ソースコードはhttps://github.com/m urufeng/epsanet.com/ で入手できます。

Recently, it has been demonstrated that the performance of a deep convolutional neural network can be effectively improved by embedding an attention module into it. In this work, a novel lightweight and effective attention method named Pyramid Split Attention (PSA) module is proposed. By replacing the 3x3 convolution with the PSA module in the bottleneck blocks of the ResNet, a novel representational block named Efficient Pyramid Split Attention (EPSA) is obtained. The EPSA block can be easily added as a plug-and-play component into a well-established backbone network, and significant improvements on model performance can be achieved. Hence, a simple and efficient backbone architecture named EPSANet is developed in this work by stacking these ResNet-style EPSA blocks. Correspondingly, a stronger multi-scale representation ability can be offered by the proposed EPSANet for various computer vision tasks including but not limited to, image classification, object detection, instance segmentation, etc. Without bells and whistles, the performance of the proposed EPSANet outperforms most of the state-of-the-art channel attention methods. As compared to the SENet-50, the Top-1 accuracy is improved by 1.93 % on ImageNet dataset, a larger margin of +2.7 box AP for object detection and an improvement of +1.7 mask AP for instance segmentation by using the Mask-RCNN on MS-COCO dataset are obtained. Our source code is available at:https://github.co m/murufeng/EPSANet.
翻訳日:2021-06-01 17:13:15 公開日:2021-05-30
# 未編集ビデオの多様な段落字幕化に向けて

Towards Diverse Paragraph Captioning for Untrimmed Videos ( http://arxiv.org/abs/2105.14477v1 )

ライセンス: Link先を確認
Yuqing Song, Shizhe Chen, Qin Jin(参考訳) ビデオキャプションは、説明文付き未編集ビデオで複数のイベントを記述することを目的としている。 既存のアプローチは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。 このような2段階の方法により、生成した段落の品質は、すでに困難な課題であるイベント提案検出の精度に大きく依存する。 本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落キャプションモデルを提案する。 協調的かつ多様な出来事を説明するため,動的ビデオ記憶による従来の時間的注意力を高めることを提案し,新たな映像特徴を徐々に公開し,過度にアクセスされた映像コンテンツを抑圧し,モデルの視覚的焦点を制御する。 さらに,言語の観点から段落の多様性を改善するために,多様性駆動型学習戦略を提案する。 非トリミングビデオは概して巨大だが冗長なフレームを含んでいるため、ビデオエンコーダをキーフレーム認識で強化し、効率を向上させる。 ActivityNetとCharadesのデータセットによる実験結果から,提案モデルではイベント境界アノテーションを使わずに,精度と多様性の両指標において,最先端のパフォーマンスを著しく向上させることが示された。 コードはhttps://github.com/s yuqings/video-paragr aph.comでリリースされる。

Video paragraph captioning aims to describe multiple events in untrimmed videos with descriptive paragraphs. Existing approaches mainly solve the problem in two steps: event detection and then event captioning. Such two-step manner makes the quality of generated paragraphs highly dependent on the accuracy of event proposal detection which is already a challenging task. In this paper, we propose a paragraph captioning model which eschews the problematic event detection stage and directly generates paragraphs for untrimmed videos. To describe coherent and diverse events, we propose to enhance the conventional temporal attention with dynamic video memories, which progressively exposes new video features and suppresses over-accessed video contents to control visual focuses of the model. In addition, a diversity-driven training strategy is proposed to improve diversity of paragraph on the language perspective. Considering that untrimmed videos generally contain massive but redundant frames, we further augment the video encoder with keyframe awareness to improve efficiency. Experimental results on the ActivityNet and Charades datasets show that our proposed model significantly outperforms the state-of-the-art performance on both accuracy and diversity metrics without using any event boundary annotations. Code will be released at https://github.com/s yuqings/video-paragr aph.
翻訳日:2021-06-01 17:12:49 公開日:2021-05-30
# ビデオからの深度, 光学的流れ, エゴモーションの教師なし共同学習

Unsupervised Joint Learning of Depth, Optical Flow, Ego-motion from Video ( http://arxiv.org/abs/2105.14520v1 )

ライセンス: Link先を確認
Jianfeng Li, Junqiao Zhao, Shuangfu Song, Tiantian Feng(参考訳) 画像から深度、カメラの動き、光の流れなどの幾何学的要素を推定することは、ロボットの視覚知覚の重要な部分である。 3つの幾何学的要素を推定するために,共同自己教師手法を用いる。 深度ネットワーク、光フローネットワーク、カメラモーションネットワークは互いに独立しているが、トレーニング段階では共同最適化されている。 独立トレーニングと比較して、関節トレーニングは幾何学的要素間の幾何学的関係をフル活用し、シーンの動的および静的情報を提供する。 本稿では,ネットワーク構造,動的オブジェクトセグメンテーション,幾何学的制約という3つの側面から,ジョイント・セルフスーパービジョン法を改善する。 ネットワーク構造の観点からは,注意機構をカメラ動作ネットワークに適用し,フレーム間のカメラ移動の類似性を活用する。 また,変圧器のアテンション機構により,プラグアンドプレイ畳み込みアテンションモジュールを提案する。 動的物体に関しては,光学フロー自己監督フレームワークと奥行き自己監督フレームワークにおける動的物体の影響の相違から,動的領域を検出するしきい値アルゴリズムを提案し,損失関数における物体をマスキングする。 幾何学的制約の観点からは、カメラ動作ネットワークを制約するために、対応する点から基本行列を推定するために従来の手法を用いる。 KITTIデータセットにおける本手法の有効性を示す。 提案手法は,他の関節型自己監督法と比較して,ポーズと光流の推定における最先端性能を実現し,深度推定も競争力のある結果を得た。 コードはhttps://github.com/j ianfenglihg/unsuperv ised_geometryで利用できる。

Estimating geometric elements such as depth, camera motion, and optical flow from images is an important part of the robot's visual perception. We use a joint self-supervised method to estimate the three geometric elements. Depth network, optical flow network and camera motion network are independent of each other but are jointly optimized during training phase. Compared with independent training, joint training can make full use of the geometric relationship between geometric elements and provide dynamic and static information of the scene. In this paper, we improve the joint self-supervision method from three aspects: network structure, dynamic object segmentation, and geometric constraints. In terms of network structure, we apply the attention mechanism to the camera motion network, which helps to take advantage of the similarity of camera movement between frames. And according to attention mechanism in Transformer, we propose a plug-and-play convolutional attention module. In terms of dynamic object, according to the different influences of dynamic objects in the optical flow self-supervised framework and the depth-pose self-supervised framework, we propose a threshold algorithm to detect dynamic regions, and mask that in the loss function respectively. In terms of geometric constraints, we use traditional methods to estimate the fundamental matrix from the corresponding points to constrain the camera motion network. We demonstrate the effectiveness of our method on the KITTI dataset. Compared with other joint self-supervised methods, our method achieves state-of-the-art performance in the estimation of pose and optical flow, and the depth estimation has also achieved competitive results. Code will be available https://github.com/j ianfenglihg/Unsuperv ised_geometry.
翻訳日:2021-06-01 17:12:31 公開日:2021-05-30
# マルチスケールiou:微細構造物を用いたサルエント物体検出評価のための指標

Multiscale IoU: A Metric for Evaluation of Salient Object Detection with Fine Structures ( http://arxiv.org/abs/2105.14572v1 )

ライセンス: Link先を確認
Azim Ahmadzadeh, Dustin J. Kempton, Yang Chen, Rafal A. Angryk(参考訳) 汎用オブジェクト検出アルゴリズムはしばしば検出対象の微細構造を除去する。 これは、提案されたリージョンの評価方法にまで遡ることができる。 我々の目標は、これらのアルゴリズムの一般性と粗い検出との間のトレードオフを再交渉することである。 本稿では,一般評価指標であるiou(intersection over union)とフラクタル次元(fractal dimension)という幾何学的概念を融合した新しい計量を提案する。 複数の解像度レベルで検出された地中構造領域と地中構造領域の比較を可能にするマルチスケールIoU(MIoU)を提案する。 いくつかの再現可能な例を通して、MIoU は IoU と f1-score が完全に見落としている境界構造に本当に敏感であることを示す。 さらに、オブジェクトの合成および実世界のデータセット上で、MIoUの分布とIoUの分布を比較することで、MIoUの全体的な信頼性について検討する。 本研究では,物体検出アルゴリズムの新しい評価手法の再検討を行う。

General-purpose object-detection algorithms often dismiss the fine structure of detected objects. This can be traced back to how their proposed regions are evaluated. Our goal is to renegotiate the trade-off between the generality of these algorithms and their coarse detections. In this work, we present a new metric that is a marriage of a popular evaluation metric, namely Intersection over Union (IoU), and a geometrical concept, called fractal dimension. We propose Multiscale IoU (MIoU) which allows comparison between the detected and ground-truth regions at multiple resolution levels. Through several reproducible examples, we show that MIoU is indeed sensitive to the fine boundary structures which are completely overlooked by IoU and f1-score. We further examine the overall reliability of MIoU by comparing its distribution with that of IoU on synthetic and real-world datasets of objects. We intend this work to re-initiate exploration of new evaluation methods for object-detection algorithms.
翻訳日:2021-06-01 17:12:06 公開日:2021-05-30
# 科学コミュニケーションの信頼性の決定

Determining the Credibility of Science Communication ( http://arxiv.org/abs/2105.14473v1 )

ライセンス: Link先を確認
Isabelle Augenstein(参考訳) 学術文書処理に関するほとんどの研究は、処理された情報は信頼性が高く、事実的に正しいと仮定している。 しかし、必ずしもそうとは限らない。 1) 科学的出版物が信頼できることを保証すること。 その主張は,証拠を裏付けることなくなされ,かつ,すべての関連する証拠が提供される。2) 科学的発見は,ジャーナリスト又は一般大衆によって伝達されたときに,誤って表現され,歪められ,又は完全に誤報されない。 これらの問題を解決するための最初のステップを示し、残りの課題を概説します。

Most work on scholarly document processing assumes that the information processed is trustworthy and factually correct. However, this is not always the case. There are two core challenges, which should be addressed: 1) ensuring that scientific publications are credible -- e.g. that claims are not made without supporting evidence, and that all relevant supporting evidence is provided; and 2) that scientific findings are not misrepresented, distorted or outright misreported when communicated by journalists or the general public. I will present some first steps towards addressing these problems and outline remaining challenges.
翻訳日:2021-06-01 17:05:59 公開日:2021-05-30
# CSCAD:複雑なシステムにおける相関構造に基づく集団異常検出

CSCAD: Correlation Structure-based Collective Anomaly Detection in Complex System ( http://arxiv.org/abs/2105.14476v1 )

ライセンス: Link先を確認
Huiling Qin, Xianyuan Zhan, Yu Zheng(参考訳) 大規模システムにおける異常検出は、重要かつ困難な課題である。 困難はいくつかの側面から生じる。 まず、現実のシステムでは、基底の真理ラベルや事前の異常に関する知識の収集は困難であり、しばしばデータセット内の限定的または非異常なラベルにつながる。 第二に、大きなシステムにおける異常は通常、デバイスやセンサー間の依存関係構造によって集団的に発生する。 最後に、高次元データのリアルタイム異常検出には、異なる種類のデータ(例えば)を処理できる効率的なアルゴリズムが必要である。 連続的かつ離散的)。 本研究では,大規模システムにおける高次元異常検出問題に対する相関構造に基づく集団異常検出(cscad)モデルを提案する。 本フレームワークは,変分オートエンコーダを組み合わせたグラフ畳み込みネットワークを用いて,特徴空間相関とサンプルの再構成不足を併用して異常検出を行う。 本稿では,CSCADのデータ再構成能力を高めるために,データ特徴間の内部相関構造を抽出する拡張相互情報(EMI)メトリクスを提案する。 再構成ネットワークから得られたサンプルの復元損失と遅延標準偏差ベクトルは、2つの自然な異常度尺度とみなすことができる。 異常判別ネットワークは、低異常度サンプルを正サンプルとして、高異常度サンプルを負サンプルとしてトレーニングすることができる。 5つの公開データセットの実験結果は、我々のアプローチが競合するベースライン全てを一貫して上回っていることを示している。

Detecting anomalies in large complex systems is a critical and challenging task. The difficulties arise from several aspects. First, collecting ground truth labels or prior knowledge for anomalies is hard in real-world systems, which often lead to limited or no anomaly labels in the dataset. Second, anomalies in large systems usually occur in a collective manner due to the underlying dependency structure among devices or sensors. Lastly, real-time anomaly detection for high-dimensional data requires efficient algorithms that are capable of handling different types of data (i.e. continuous and discrete). We propose a correlation structure-based collective anomaly detection (CSCAD) model for high-dimensional anomaly detection problem in large systems, which is also generalizable to semi-supervised or supervised settings. Our framework utilize graph convolutional network combining a variational autoencoder to jointly exploit the feature space correlation and reconstruction deficiency of samples to perform anomaly detection. We propose an extended mutual information (EMI) metric to mine the internal correlation structure among different data features, which enhances the data reconstruction capability of CSCAD. The reconstruction loss and latent standard deviation vector of a sample obtained from reconstruction network can be perceived as two natural anomalous degree measures. An anomaly discriminating network can then be trained using low anomalous degree samples as positive samples, and high anomalous degree samples as negative samples. Experimental results on five public datasets demonstrate that our approach consistently outperforms all the competing baselines.
翻訳日:2021-06-01 17:05:39 公開日:2021-05-30
# グラフニューラルネットワークのホップ対応次元最適化

Hop-Aware Dimension Optimization for Graph Neural Networks ( http://arxiv.org/abs/2105.14490v1 )

ライセンス: Link先を確認
Ailing Zeng, Minhao Liu, Zhiwei Liu, Ruiyuan Gao, Qiang Xu(参考訳) グラフニューラルネットワーク(gnns)では、情報をその直接および間接の隣接ノードに集約することで、各ノードの埋め込みを得る。 ノード間で渡されるメッセージには情報とノイズの両方が含まれているため、GNN表現学習における重要な問題は、ノイズを抑えながら情報を効果的に取得する方法である。 一般に、遠いノードとの相互作用は、近接ノードを持つノードよりも特定のノードにノイズをもたらす。 しかし、既存のほとんどの作業では、ノード間で渡されるメッセージは混ざり合わされ、通信の観点からは非効率である。 クリーンソース(低次の隣人)とノイズソース(高次隣人)からの情報を混合することは、識別的特徴抽出を困難にする。 以上のことを動機として,LADDER-GNNという,単純で効果的なはしご型GNNアーキテクチャを提案する。 具体的には、異なるホップからメッセージを分離し、それらを結合する前に異なる次元を割り当ててノード表現を得る。 このような不整合表現は、異なるホップから渡されたメッセージから情報を抽出し、その対応する次元を強化学習に基づくニューラルネットワーク探索戦略で決定する。 結果として得られるホップ対応表現は一般に、低階隣人に対してより多くの次元と高階隣人に対してより少ない次元を含む。 提案するLADDER-GNNを,複数の半教師付きノード分類データセット上で検証する。 実験の結果,提案する単純なホップアウェア表現学習ソリューションは,ほとんどのデータセットにおいて最先端のパフォーマンスを達成できることがわかった。

In Graph Neural Networks (GNNs), the embedding of each node is obtained by aggregating information with its direct and indirect neighbors. As the messages passed among nodes contain both information and noise, the critical issue in GNN representation learning is how to retrieve information effectively while suppressing noise. Generally speaking, interactions with distant nodes usually introduce more noise for a particular node than those with close nodes. However, in most existing works, the messages being passed among nodes are mingled together, which is inefficient from a communication perspective. Mixing the information from clean sources (low-order neighbors) and noisy sources (high-order neighbors) makes discriminative feature extraction challenging. Motivated by the above, we propose a simple yet effective ladder-style GNN architecture, namely LADDER-GNN. Specifically, we separate messages from different hops and assign different dimensions for them before concatenating them to obtain the node representation. Such disentangled representations facilitate extracting information from messages passed from different hops, and their corresponding dimensions are determined with a reinforcement learning-based neural architecture search strategy. The resulted hop-aware representations generally contain more dimensions for low-order neighbors and fewer dimensions for high-order neighbors, leading to a ladder-style aggregation scheme. We verify the proposed LADDER-GNN on several semi-supervised node classification datasets. Experimental results show that the proposed simple hop-aware representation learning solution can achieve state-of-the-art performance on most datasets.
翻訳日:2021-06-01 17:05:19 公開日:2021-05-30
# グラフ注意ネットワークはどの程度注意すべきか?

How Attentive are Graph Attention Networks? ( http://arxiv.org/abs/2105.14491v1 )

ライセンス: Link先を確認
Shaked Brody, Uri Alon, Eran Yahav(参考訳) グラフ注意ネットワーク(GAT)は最も人気のあるGNNアーキテクチャの1つであり、グラフを用いた表現学習のための最先端アーキテクチャであると考えられている。 GATでは、各ノードは、クエリとして独自の表現を与えられた隣人に出席する。 しかし,本論文では,gatsはクエリノード上でのノードのランキングが無条件の場合にのみ制限された注意値を計算することができることを示す。 我々は、この制限された注意を静的な注意と定義し、より表現力のあるダイナミックな注意と区別する。 GATは静的アテンション機構を使用するため、GATが表現できない単純なグラフ問題があり、制御された問題では、静的アテンションがGATのトレーニングデータへの適合を妨げていることを示す。 この制限を取り除くため、操作順序を変更して簡単な修正を導入し、GATよりも厳密に表現可能な動的グラフアテンション変種であるGATv2を提案する。 GATv2は11OGBや他のベンチマークでGATよりも優れており、パラメトリックコストに適合していることを示す。 私たちのコードはhttps://github.com/t ech-srl/how_attentiv e_are_gatsで利用可能です。

Graph Attention Networks (GATs) are one of the most popular GNN architectures and are considered as the state-of-the-art architecture for representation learning with graphs. In GAT, every node attends to its neighbors given its own representation as the query. However, in this paper we show that GATs can only compute a restricted kind of attention where the ranking of attended nodes is unconditioned on the query node. We formally define this restricted kind of attention as static attention and distinguish it from a strictly more expressive dynamic attention. Because GATs use a static attention mechanism, there are simple graph problems that GAT cannot express: in a controlled problem, we show that static attention hinders GAT from even fitting the training data. To remove this limitation, we introduce a simple fix by modifying the order of operations and propose GATv2: a dynamic graph attention variant that is strictly more expressive than GAT. We perform an extensive evaluation and show that GATv2 outperforms GAT across 11 OGB and other benchmarks while we match their parametric costs. Our code is available at https://github.com/t ech-srl/how_attentiv e_are_gats .
翻訳日:2021-06-01 17:04:56 公開日:2021-05-30
# RFCBF:高速相関フィルタの性能と安定性の向上

RFCBF: enhance the performance and stability of Fast Correlation-Based Filter ( http://arxiv.org/abs/2105.14519v1 )

ライセンス: Link先を確認
Xiongshi Deng, Min Li, Lei Wang, Qikang Wan(参考訳) 機能選択は、機械学習とデータマイニングの領域において重要な役割を果たす前処理ステップである。 特徴選択手法は冗長かつ無関係な特徴の除去と学習アルゴリズムの予測性能の向上に寄与することが示されている。 冗長性に基づく様々な特徴選択法のうち、高速相関フィルタ(FCBF)が最も効果的である。 本稿では,分類精度を向上させるために再サンプリング技術を組み合わせたFCBFの新たな拡張であるRFCBFを提案する。 12個の公開データセット上のKNN分類器を用いてRFCBFと他の最先端機能選択手法との比較実験を行った。 実験結果から,RFCBFアルゴリズムは従来の最先端手法よりも,分類精度と実行時間で有意に優れた結果が得られることがわかった。

Feature selection is a preprocessing step which plays a crucial role in the domain of machine learning and data mining. Feature selection methods have been shown to be effctive in removing redundant and irrelevant features, improving the learning algorithm's prediction performance. Among the various methods of feature selection based on redundancy, the fast correlation-based filter (FCBF) is one of the most effective. In this paper, we proposed a novel extension of FCBF, called RFCBF, which combines resampling technique to improve classification accuracy. We performed comprehensive experiments to compare the RFCBF with other state-of-the-art feature selection methods using the KNN classifier on 12 publicly available data sets. The experimental results show that the RFCBF algorithm yields significantly better results than previous state-of-the-art methods in terms of classification accuracy and runtime.
翻訳日:2021-06-01 17:04:38 公開日:2021-05-30
# SPOTを用いた深層学習のための代理モデルに基づくハイパーパラメータチューニング

Surrogate Model Based Hyperparameter Tuning for Deep Learning with SPOT ( http://arxiv.org/abs/2105.14625v1 )

ライセンス: Link先を確認
Thomas Bartz-Beielstein(参考訳) ディープラーニングのためのサロゲートモデルに基づくハイパーパラメータチューニング手法を提案する。 本稿では、Keras/tensorflowで実装されたディープラーニングモデルのアーキテクチャレベルパラメータ(ハイパーパラメータ)をどのように最適化できるかを示す。 チューニング手順の実装は、統計計算のためのソフトウェア環境であるrに基づいて100%である。 数行のコードで、既存のRパッケージ(tfrunsとSPOT)を組み合わせてハイパーパラメータチューニングを実行することができる。 このアプローチを実証するために、基本的なハイパーパラメータチューニングタスク(神経ネットワークとMNISTデータ)が使用される。

A surrogate model based hyperparameter tuning approach for deep learning is presented. This article demonstrates how the architecture-level parameters (hyperparameters) of deep learning models that were implemented in Keras/tensorflow can be optimized. The implementation of the tuning procedure is 100 % based on R, the software environment for statistical computing. With a few lines of code, existing R packages (tfruns and SPOT) can be combined to perform hyperparameter tuning. An elementary hyperparameter tuning task (neural network and the MNIST data) is used to exemplify this approach.
翻訳日:2021-06-01 17:04:28 公開日:2021-05-30
# 逆行回避攻撃に対する暗号化トラフィック分類のレジリエンス評価

Evaluating Resilience of Encrypted Traffic Classification Against Adversarial Evasion Attacks ( http://arxiv.org/abs/2105.14564v1 )

ライセンス: Link先を確認
Ramy Maarouf, Danish Sattar, and Ashraf Matrawy(参考訳) マシンラーニングとディープラーニングアルゴリズムは、暗号化されたインターネットトラフィックの分類に使用できる。 暗号化されたトラフィックの分類は、学習アルゴリズムをターゲットとする敵攻撃の存在下でより困難になる可能性がある。 本稿では,様々な回避攻撃の有効性を調査し,回復力のある機械とディープラーニングアルゴリズムについて検討する。 すなわち、C4.5決定木、K-Nearest Neighbor(KNN)、Artificial Neural Network(ANN)、Convolutional Neural Networks(CNN)、Recurrent Neural Networks(RNN)をテストする。 実験結果のほとんどにおいて、ディープラーニングは機械学習と比較して、敵のサンプルに対するレジリエンスが向上しています。 一方、攻撃の影響は攻撃の種類によって異なる。

Machine learning and deep learning algorithms can be used to classify encrypted Internet traffic. Classification of encrypted traffic can become more challenging in the presence of adversarial attacks that target the learning algorithms. In this paper, we focus on investigating the effectiveness of different evasion attacks and see how resilient machine and deep learning algorithms are. Namely, we test C4.5 Decision Tree, K-Nearest Neighbor (KNN), Artificial Neural Network (ANN), Convolutional Neural Networks (CNN) and Recurrent Neural Networks (RNN). In most of our experimental results, deep learning shows better resilience against the adversarial samples in comparison to machine learning. Whereas, the impact of the attack varies depending on the type of attack.
翻訳日:2021-06-01 17:02:42 公開日:2021-05-30
# 二項分類器の論理とその説明

A logic for binary classifiers and their explanation ( http://arxiv.org/abs/2105.14452v1 )

ライセンス: Link先を確認
Xinghan Liu and Emiliano Lorini(参考訳) 近年では、説明可能なAI(XAI)分野におけるバイナリ分類器の説明において、ブール関数に対する新たな関心が高まっている。 ブール関数の標準的なアプローチは命題論理である。 我々は,二項分類子とその性質に関する推論をサポートするceteris paribusの性質の様相言語を提案する。 我々は二項分類器の判定モデル群について研究し、それらを公理化し、公理化の完全性を示す。 さらに、これらのモデル上で解釈された有限命題原子を持つモーダル言語の変種はNP完全であることを示す。 我々は、この言語を利用して、帰納的、対比的、反実質的説明、バイアスといった説明の束と同様に、反事実条件を形式化します。 最後に,この言語の2つの拡張について述べる: 代入可能分類器変更の概念による動的拡張と,実際の入力に対する分類器の不確実性を表現できる認識的拡張である。

Recent years have witnessed a renewed interest in Boolean function in explaining binary classifiers in the field of explainable AI (XAI). The standard approach of Boolean function is propositional logic. We present a modal language of a ceteris paribus nature which supports reasoning about binary classifiers and their properties. We study families of decision models for binary classifiers, axiomatize them and show completeness of our axiomatics. Moreover, we prove that the variant of our modal language with finite propositional atoms interpreted over these models is NP-complete. We leverage the language to formalize counterfactual conditional as well as a bunch of notions of explanation such as abductive, contrastive and counterfactual explanations, and biases. Finally, we present two extensions of our language: a dynamic extension by the notion of assignment enabling classifier change and an epistemic extension in which the classifier's uncertainty about the actual input can be represented.
翻訳日:2021-06-01 17:01:01 公開日:2021-05-30
# 少数の例から個人的スタイルを学ぶ

Learning Personal Style from Few Examples ( http://arxiv.org/abs/2105.14457v1 )

ライセンス: Link先を確認
David Chuan-En Lin, Nikolas Martelaro(参考訳) 設計作業における重要なタスクは、クライアントの暗黙の味をつかむことです。 設計者は、しばしばクライアントからの一連の例に基づいてこれをします。 しかし、色、テクスチャ、レイアウトなどの多くの交互変数の共通パターンを認識し、それらを複合的な嗜好に合成することは困難である。 本稿では,この課題を支援するために,計算モデルのパターン認識能力を活用する。 我々は、パーソナルスタイルを計算的に学習するための一連の原則を提供する。 この原則は pseudoclient という深層学習フレームワークで示されており、ほんの一握りの例からパーソナルグラフィックデザインスタイルのための計算モデルを学ぶ。 いくつかの実験で、PseudoClientは正と負の5つの例で79.40%の精度を達成し、いくつかの代替手法を上回りました。 最後に、pseudoclientをビルディングブロックとして活用し、将来の設計アプリケーションの開発を支援する方法について論じる。

A key task in design work is grasping the client's implicit tastes. Designers often do this based on a set of examples from the client. However, recognizing a common pattern among many intertwining variables such as color, texture, and layout and synthesizing them into a composite preference can be challenging. In this paper, we leverage the pattern recognition capability of computational models to aid in this task. We offer a set of principles for computationally learning personal style. The principles are manifested in PseudoClient, a deep learning framework that learns a computational model for personal graphic design style from only a handful of examples. In several experiments, we found that PseudoClient achieves a 79.40% accuracy with only five positive and negative examples, outperforming several alternative methods. Finally, we discuss how PseudoClient can be utilized as a building block to support the development of future design applications.
翻訳日:2021-06-01 16:59:26 公開日:2021-05-30
# 新規白質路の少数ショットセグメンテーションのための知識伝達

Knowledge Transfer for Few-shot Segmentation of Novel White Matter Tracts ( http://arxiv.org/abs/2105.14513v1 )

ライセンス: Link先を確認
Qi Lu and Chuyang Ye(参考訳) 畳み込みニューラルネットワーク(CNN)は,拡散磁気共鳴画像(dMRI)に基づいて,白色物質(WM)トラクションセグメンテーションの最先端性能を達成した。 これらのCNNは、一般に労働集約的でコストがかかるWMの訓練に多くの手作業による指示を必要とする。 新しいWMトラクション、すなわち既存の手動デラインに含まれていないトラクションを解析する場合、高価な手動デライン化は特に不利になる可能性がある。 新規WMトラクトを正確にセグメンテーションするには、既存のWMトラクトについて学んだ知識を伝達することが望ましいので、新規WMトラクトをわずかに記述しても、CNNはセグメンテーションのために適切に学習することができる。 本稿では,これらの知識を,いくつかの場面で新規なWMトラクトのセグメンテーションに移行することを検討する。 古典的な微調整戦略は目的に利用できるが、既存のwmパスをセグメント化するための最後のタスク特定層の情報は、完全に破棄される。 我々は、この最後の層の重みは、新しいWMトラクトをセグメント化するための貴重な情報を保持することができるため、情報を完全に破棄することは最適ではないと仮定する。 特に,新しいWMトラクトは既存のWMトラクトと相関し,新しいWMトラクトのセグメンテーションは既存のWMトラクトのロジットで予測できると考えられる。 このように、微調整のためにランダム初期化よりも最終層のより良い初期化が達成できる。 さらに,古典的な微調整の前にウォームアップステージを挿入するだけで,既存のWMトラクトを分割するための最終層における知識をより適応的に利用できることを示す。 提案手法はdmriデータセット上で評価され,提案手法が新規なwm路の少数画分節化に有用であることを実証した。

Convolutional neural networks (CNNs) have achieved stateof-the-art performance for white matter (WM) tract segmentation based on diffusion magnetic resonance imaging (dMRI). These CNNs require a large number of manual delineations of the WM tracts of interest for training, which are generally labor-intensive and costly. The expensive manual delineation can be a particular disadvantage when novel WM tracts, i.e., tracts that have not been included in existing manual delineations, are to be analyzed. To accurately segment novel WM tracts, it is desirable to transfer the knowledge learned about existing WM tracts, so that even with only a few delineations of the novel WM tracts, CNNs can learn adequately for the segmentation. In this paper, we explore the transfer of such knowledge to the segmentation of novel WM tracts in the few-shot setting. Although a classic fine-tuning strategy can be used for the purpose, the information in the last task-specific layer for segmenting existing WM tracts is completely discarded. We hypothesize that the weights of this last layer can bear valuable information for segmenting the novel WM tracts and thus completely discarding the information is not optimal. In particular, we assume that the novel WM tracts can correlate with existing WM tracts and the segmentation of novel WM tracts can be predicted with the logits of existing WM tracts. In this way, better initialization of the last layer than random initialization can be achieved for fine-tuning. Further, we show that a more adaptive use of the knowledge in the last layer for segmenting existing WM tracts can be conveniently achieved by simply inserting a warmup stage before classic fine-tuning. The proposed method was evaluated on a publicly available dMRI dataset, where we demonstrate the benefit of our method for few-shot segmentation of novel WM tracts.
翻訳日:2021-06-01 16:59:12 公開日:2021-05-30
# SyReNets: シンボリック残留ニューラルネットワーク

SyReNets: Symbolic Residual Neural Networks ( http://arxiv.org/abs/2105.14396v1 )

ライセンス: Link先を確認
Carlos Magno C. O. Valle, Sami Haddadin(参考訳) 文学における受動的システムの研究は成功したが、実験データから制御力学系に対する自由形式の物理法則を学習することは依然として未解決の問題である。 何十年もの間、記号的数式とシステム同定が黄金の標準であった。 残念なことに、基盤となるシステムの特性に関する一連の仮定が必要であり、モデルは非常に堅固で、予期せぬ物理システムの変化に適応できない。 一方、ニューラルネットワークは普遍関数近似子として知られているが、過剰適合性、精度の制限、バイアス問題を起こしやすいため、そのようなタスクの候補として信頼できない。 本稿では,ニューラルネットワークを利用して記号関係を学習し,データから動的物理系を正確に記述するSyReNetsを提案する。 入力変数から与えられた所望の出力を記述する数学的関係を、残留的に構築するシンボリックなレイヤのシーケンスを探索する。 与えられた物理系のラグランジアンを記述する記号方程式を学ぶためにこれを応用する。 入力としての位置,速度,加速度のランダムなサンプルのみを観測し,トルクを出力とする。 したがって、ラグランジアンを潜在表現とし、オイラー・ラグランジ方程式を用いてトルクを求める。 このアプローチは、シミュレーション制御された二重振り子を用いて評価され、ニューラルネットワーク、遺伝的プログラミング、従来のシステム同定と比較される。 結果は、ニューラルネットワークや遺伝的プログラミングと比較して、SyReNetsは状態空間全体を通してより正確で正確な表現に収束することを示した。 ニューラルネットワークと同様に、従来のシステム識別よりも収束が遅いにもかかわらず、このアプローチは、予期せぬ物理的システム構造の変化に適応できるほど柔軟である。

Despite successful seminal works on passive systems in the literature, learning free-form physical laws for controlled dynamical systems given experimental data is still an open problem. For decades, symbolic mathematical equations and system identification were the golden standards. Unfortunately, a set of assumptions about the properties of the underlying system is required, which makes the model very rigid and unable to adapt to unforeseen changes in the physical system. Neural networks, on the other hand, are known universal function approximators but are prone to over-fit, limited accuracy, and bias problems, which makes them alone unreliable candidates for such tasks. In this paper, we propose SyReNets, an approach that leverages neural networks for learning symbolic relations to accurately describe dynamic physical systems from data. It explores a sequence of symbolic layers that build, in a residual manner, mathematical relations that describes a given desired output from input variables. We apply it to learn the symbolic equation that describes the Lagrangian of a given physical system. We do this by only observing random samples of position, velocity, and acceleration as input and torque as output. Therefore, using the Lagrangian as a latent representation from which we derive torque using the Euler-Lagrange equations. The approach is evaluated using a simulated controlled double pendulum and compared with neural networks, genetic programming, and traditional system identification. The results demonstrate that, compared to neural networks and genetic programming, SyReNets converges to representations that are more accurate and precise throughout the state space. Despite having slower convergence than traditional system identification, similar to neural networks, the approach remains flexible enough to adapt to an unforeseen change in the physical system structure.
翻訳日:2021-06-01 16:53:48 公開日:2021-05-30
# $\ell_2$-norm Flow Diffusion in Near-Linear Time

$\ell_2$-norm Flow Diffusion in Near-Linear Time ( http://arxiv.org/abs/2105.14629v1 )

ライセンス: Link先を確認
Li Chen, Richard Peng, and Di Wang(参考訳) 拡散は基本的なグラフプロセスであり、グラフクラスタリングやノード分類などのグラフ学習タスクの研究において基礎的な構成要素となっている。 本稿では,ランダムウォークを超える計算効率の良い拡散プリミティブの研究を開始する。 我々は$\ell_2$-normフロー拡散問題に対して$\widetilde{O}(m)$-timeランダム化アルゴリズムを提供し、近似係数を1+1/\mathrm{poly}(n)$とする。 双対解と局所切断構造との接続を用いて,局所バイアスによる低導電率切断を見つける方法を提案する。 これは単に双対解ベクトルの上を掃くことによって行われる。 このアルゴリズムはグラフ最適化問題において不等式制約を扱う新しい方法を示す。 これはラプラシアン・システム・ソルバの高レベルなアルゴリズム・フレームワークに適応するが、制約下での頂点除去、グラフ超分離器の新たなファミリー、不正確な近位写像計算による近位勾配法などの新しいツールを必要とする。

Diffusion is a fundamental graph process and has been a basic building block in the study of graph clustering and graph learning tasks such as node classification. In this paper, we initiate the study of computationally efficient diffusion primitives beyond random walk. We provide an $\widetilde{O}(m)$-time randomized algorithm for the $\ell_2$-norm flow diffusion problem, obtaining the approximation factor of $1+1/\mathrm{poly}(n)$. Using the connection between its dual solution and local cut structure, we give an alternative approach for finding locally-biased low conductance cuts. It is done simply by sweeping over the dual solution vector. This algorithm demonstrates a novel way of dealing with inequality constraints in graph optimization problems. It adapts the high-level algorithmic framework of Laplacian system solvers, but requires several new tools: vertex elimination under constraints, a new family of graph ultra-sparsifiers, and accelerated proximal gradient methods with inexact proximal mapping computation.
翻訳日:2021-06-01 16:53:22 公開日:2021-05-30
# グラフニューラルネットワークによる逆例生成

Generating Adversarial Examples with Graph Neural Networks ( http://arxiv.org/abs/2105.14644v1 )

ライセンス: Link先を確認
Florian Jaeckle and M. Pawan Kumar(参考訳) 近年、ニューラルネットワークの堅牢性を評価するために敵攻撃が展開されているのが目撃されている。 この分野での過去の作業は、問題やデータの本質的な構造を無視する従来の最適化アルゴリズムや、純粋に学習に依存し、見つけにくい敵の例を生成するのに失敗する生成手法に依存してきた。 これらの欠陥を軽減するために,両アプローチの長所を生かしたグラフニューラルネットワーク(GNN)に基づく新たな攻撃を提案し,これをAdvGNNと呼ぶ。 我々のGNNアーキテクチャは、攻撃したいネットワークによく似ている。 推論中、我々はGNN層を前方に通過し、敵の例に向けて反復的な手順を導出する。 トレーニング中、そのパラメータは時間軸上の逆例の効率的な計算を促進する損失関数によって推定される。 本手法は,pgd攻撃,mi-fgsm攻撃,carlyni攻撃,wagner攻撃など,最先端の対向攻撃を上回っており,摂動規範の小さい対向攻撃例の生成に要する時間を65%以上削減できることを示す。 さらに、AdvGNNは、目に見えないネットワーク上での優れた一般化性能を実現する。 最後に,adversarial attackのより説明的な比較を可能にするために特別に設計された,新たな挑戦的なデータセットを提供する。

Recent years have witnessed the deployment of adversarial attacks to evaluate the robustness of Neural Networks. Past work in this field has relied on traditional optimization algorithms that ignore the inherent structure of the problem and data, or generative methods that rely purely on learning and often fail to generate adversarial examples where they are hard to find. To alleviate these deficiencies, we propose a novel attack based on a graph neural network (GNN) that takes advantage of the strengths of both approaches; we call it AdvGNN. Our GNN architecture closely resembles the network we wish to attack. During inference, we perform forward-backward passes through the GNN layers to guide an iterative procedure towards adversarial examples. During training, its parameters are estimated via a loss function that encourages the efficient computation of adversarial examples over a time horizon. We show that our method beats state-of-the-art adversarial attacks, including PGD-attack, MI-FGSM, and Carlini and Wagner attack, reducing the time required to generate adversarial examples with small perturbation norms by over 65\%. Moreover, AdvGNN achieves good generalization performance on unseen networks. Finally, we provide a new challenging dataset specifically designed to allow for a more illustrative comparison of adversarial attacks.
翻訳日:2021-06-01 16:53:04 公開日:2021-05-30
# フィッションシステムの多次元回帰に関する経験モデル

Empirical Models for Multidimensional Regression of Fission Systems ( http://arxiv.org/abs/2105.14645v1 )

ライセンス: Link先を確認
Akshay J. Dave (1), Jiankai Yu (1), Jarod Wilson (1), Bren Phillips (1), Kaichao Sun (1), Benoit Forget (1) ((1) Massachusetts Institute of Technology)(参考訳) 原子力発電所などの核分裂システムの次世代自律制御の開発には、機械学習の進歩の活用が必要である。 核分裂系では、核輸送の正確な予測は安全マージンを定量化し、性能を最適化するために重要である。 この問題に対する最先端のアプローチは、中性子輸送方程式の解を近似するモンテカルロ(MC)シミュレーションである。 このようなアプローチは、設計やライセンスなど、オフラインで計算できるが、モデルベースのコントローラとしての使用は禁止されている。 本研究では、ニューラルネットワーク(ANN)、グラディエントブースティング回帰(GBR)、ガウスプロセス回帰(GPR)、サポートベクトル回帰(SVR)を用いて経験的モデルを生成する。 経験的モデルは、例えばモデル予測コントローラにデプロイすることができる。 サブクリティカルなMIT Graphite Exponential Pile (MGEP) と、重要なMIT Research Reactor (MITR) の2つのフィッションシステムが探索されている。 この研究から得られた発見は、中性子輸送の多次元回帰のための経験的モデルを開発するためのガイドラインを確立する。 精度と精度を評価すると、SVRがANNに追随し、最高の性能を発揮することが分かる。 MGEPとMITRの両方で、最適化されたSVRモデルは、平均的な、平均的な絶対的なパーセンテージエラー0.17%を示した。 性能測定値の空間分布は、低性能の物理領域が最大の中性子フラックス摂動位置と一致することを示しており、この結果はANNとSVRによって緩和される。 局所的な最大でも、ANNとSVRバイアスは実験的な不確実性境界内にある。 パフォーマンスとトレーニングデータセットのサイズを比較すると、SVRはANNよりもデータ効率が高いことがわかった。 ANNとSVRは、MCシミュレーションと比較して評価時間の7桁以上削減できる。

The development of next-generation autonomous control of fission systems, such as nuclear power plants, will require leveraging advancements in machine learning. For fission systems, accurate prediction of nuclear transport is important to quantify the safety margin and optimize performance. The state-of-the-art approach to this problem is costly Monte Carlo (MC) simulations to approximate solutions of the neutron transport equation. Such an approach is feasible for offline calculations e.g., for design or licensing, but is precluded from use as a model-based controller. In this work, we explore the use of Artificial Neural Networks (ANN), Gradient Boosting Regression (GBR), Gaussian Process Regression (GPR) and Support Vector Regression (SVR) to generate empirical models. The empirical model can then be deployed, e.g., in a model predictive controller. Two fission systems are explored: the subcritical MIT Graphite Exponential Pile (MGEP), and the critical MIT Research Reactor (MITR). Findings from this work establish guidelines for developing empirical models for multidimensional regression of neutron transport. An assessment of the accuracy and precision finds that the SVR, followed closely by ANN, performs the best. For both MGEP and MITR, the optimized SVR model exhibited a domain-averaged, test, mean absolute percentage error of 0.17 %. A spatial distribution of performance metrics indicates that physical regions of poor performance coincide with locations of largest neutron flux perturbation -- this outcome is mitigated by ANN and SVR. Even at local maxima, ANN and SVR bias is within experimental uncertainty bounds. A comparison of the performance vs. training dataset size found that SVR is more data-efficient than ANN. Both ANN and SVR achieve a greater than 7 order reduction in evaluation time vs. a MC simulation.
翻訳日:2021-06-01 16:52:43 公開日:2021-05-30
# 大規模ニューラルネットワークの分散学習における並列性の最大化

Maximizing Parallelism in Distributed Training for Huge Neural Networks ( http://arxiv.org/abs/2105.14450v1 )

ライセンス: Link先を確認
Zhengda Bian and Qifan Xu and Boxiang Wang and Yang You(参考訳) 最近の自然言語処理技術は、最先端のパフォーマンスを驚くほどのスピードでリフレッシュしている。 したがって、巨大な言語モデルのトレーニングは、産業とアカデミーの両方において必須の需要である。 しかし、巨大な言語モデルはハードウェアとソフトウェアの両方に課題を課している。 グラフィカル処理ユニット(GPU)は爆発的な需要を満たすために頻繁にイテレーションされ、TPUのような様々なASICが生成される。 しかし、非常に巨大なモデルの急速な成長とムーアの法則が終わりに近づいているという事実の間にはまだ緊張関係がある。 この目的のために、モデルパラメータを複数のデバイスに分散し、メモリと計算の両方の張力を軽減するために、多くのモデル並列化手法が提案されている。 我々の研究は,大規模言語モデルを実現するための3次元モデル並列処理を導入する最初の試みである。 完全なロードバランスに達することで、既存の1次元および2次元モデル並列処理よりも、メモリと通信コストが小さくなります。 64TACCのV100 GPUに対する実験により、我々の3次元並列処理は、それぞれ2.32倍と1.57倍のスピードアップで1次元と2次元の並列処理より優れていた。

The recent Natural Language Processing techniques have been refreshing the state-of-the-art performance at an incredible speed. Training huge language models is therefore an imperative demand in both industry and academy. However, huge language models impose challenges to both hardware and software. Graphical processing units (GPUs) are iterated frequently to meet the exploding demand, and a variety of ASICs like TPUs are spawned. However, there is still a tension between the fast growth of the extremely huge models and the fact that Moore's law is approaching the end. To this end, many model parallelism techniques are proposed to distribute the model parameters to multiple devices, so as to alleviate the tension on both memory and computation. Our work is the first to introduce a 3-dimensional model parallelism for expediting huge language models. By reaching a perfect load balance, our approach presents smaller memory and communication cost than existing state-of-the-art 1-D and 2-D model parallelism. Our experiments on 64 TACC's V100 GPUs show that our 3-D parallelism outperforms the 1-D and 2-D parallelism with 2.32x and 1.57x speedup, respectively.
翻訳日:2021-06-01 16:49:12 公開日:2021-05-30
# 4つの単純なモータ画像を用いた10個のBCIコマンドの生成

Generating Ten BCI Commands Using Four Simple Motor Imageries ( http://arxiv.org/abs/2105.14493v1 )

ライセンス: Link先を確認
Nuri Korkan, Tamer Olmez, Zumray Dokur(参考訳) 脳コンピュータインタフェース(bci)システムは、脳波(eeg)記録を分析して人間とコンピュータの間での情報伝達に利用され、体外出力を発生せずに運動運動を精神的にプレビューする過程を運動画像(mi)と呼ぶことができる。この新興研究分野においては、miタスク数に関してもコマンド数も制限されており、現在の文献では、主に2つまたは4つのコマンド(クラス)が研究されている。 この問題の解決策として、心的タスクやMIタスクの使用が推奨されている。 残念ながら、このアプローチを用いることでMI EEG信号の分類性能が低下する。 fMRI解析により、運動画像に関連する脳の資源は独立して活性化できることが示された。 身体部位の組み合わせのMIによって引き起こされる脳活動は、各身体部位の単純なMIの間に生じる活動の重ね合わせに対応していると推定される。 本研究では, BCIコマンドを4つ以上作成するために, 左手, 右手, 舌, 足の運動画像を用いて, 人工的にMIEEG信号を生成することを提案する。 本研究は,bciコンペティションiiiとivの4つのクラスデータセット上で,小型深層ニューラルネットワーク(dnn)を実装して,4つのモータイメージから生成されたbciコマンドに対して,最大10個の異なるbciコマンドを生成し,平均81.8%の分類性能を10クラスで達成することを目的としている。 上記の仮定は、リアルタイムに取得した単純なmi eeg信号と組み合わせた別のデータセットでも検証される。 人工的に生成されたMI EEG信号で訓練した結果、DivFEはリアルタイムで取得したMI EEG信号の76.5%の成功率を得た。

The brain computer interface (BCI) systems are utilized for transferring information among humans and computers by analyzing electroencephalogram (EEG) recordings.The process of mentally previewing a motor movement without generating the corporal output can be described as motor imagery (MI).In this emerging research field, the number of commands is also limited in relation to the number of MI tasks; in the current literature, mostly two or four commands (classes) are studied. As a solution to this problem, it is recommended to use mental tasks as well as MI tasks. Unfortunately, the use of this approach reduces the classification performance of MI EEG signals. The fMRI analyses show that the resources in the brain associated with the motor imagery can be activated independently. It is assumed that the brain activity induced by the MI of the combination of body parts corresponds to the superposition of the activities generated during each body parts's simple MI. In this study, in order to create more than four BCI commands, we suggest to generate combined MI EEG signals artificially by using left hand, right hand, tongue, and feet motor imageries in pairs. A maximum of ten different BCI commands can be generated by using four motor imageries in pairs.This study aims to achieve high classification performances for BCI commands produced from four motor imageries by implementing a small-sized deep neural network (DNN).The presented method is evaluated on the four-class datasets of BCI Competitions III and IV, and an average classification performance of 81.8% is achieved for ten classes. The above assumption is also validated on a different dataset which consists of simple and combined MI EEG signals acquired in real time. Trained with the artificially generated combined MI EEG signals, DivFE resulted in an average of 76.5% success rate for the combined MI EEG signals acquired in real-time.
翻訳日:2021-06-01 16:48:53 公開日:2021-05-30
# (参考訳) 企業の衣料品ネットワークにおける効率的な仮想試行 [全文訳有]

An Efficient Style Virtual Try on Network for Clothing Business Industry ( http://arxiv.org/abs/2105.13183v2 )

ライセンス: CC BY 4.0
Shanchen Pang, Xixi Tao, Neal N. Xiong, Yukun Dong(参考訳) With the increasing development of garment manufacturing industry, the method of combining neural network with industry to reduce product redundancy has been paid more and more attention.In order to reduce garment redundancy and achieve personalized customization, more researchers have appeared in the field of virtual trying on.They try to transfer the target clothing to the reference figure, and then stylize the clothes to meet user's requirements for fashion.But the biggest problem of virtual try on is that the shape and motion blocking distort the clothes, causing the patterns and texture on the clothes to be impossible to restore. 本稿では, 衣服のテクスチャとパターンの信頼性を保てるだけでなく, 識別不能なスタイル化試行を実現するための, 新たな仮想試行法を提案する。 ネットワークを3つのサブネットワークに分割し、第1にユーザ画像、対象の衣服画像の前面、セマンティックセグメンテーション画像、姿勢熱マップを作成し、より詳細な人体解析マップを生成する。 第2に、uv位置マップと密接な対応を用いて、変形したシルエットのパターンやテクスチャをリアルタイムにマッピングすることにより、リアルタイムに保持することができ、画像の信頼性を向上させることにより、空間構造の合理性を保証することができる。 第3に、生成された仮想トライ画像をスタイライズし、調整する。 最も微妙な変更によって、ユーザは、ユーザ体験を改善するために、テクスチャ、色、スタイルを選択することができる。

With the increasing development of garment manufacturing industry, the method of combining neural network with industry to reduce product redundancy has been paid more and more attention.In order to reduce garment redundancy and achieve personalized customization, more researchers have appeared in the field of virtual trying on.They try to transfer the target clothing to the reference figure, and then stylize the clothes to meet user's requirements for fashion.But the biggest problem of virtual try on is that the shape and motion blocking distort the clothes, causing the patterns and texture on the clothes to be impossible to restore. This paper proposed a new stylized virtual try on network, which can not only retain the authenticity of clothing texture and pattern, but also obtain the undifferentiated stylized try on. The network is divided into three sub-networks, the first is the user image, the front of the target clothing image, the semantic segmentation image and the posture heat map to generate a more detailed human parsing map. Second, UV position map and dense correspondence are used to map patterns and textures to the deformed silhouettes in real time, so that they can be retained in real time, and the rationality of spatial structure can be guaranteed on the basis of improving the authenticity of images. Third,Stylize and adjust the generated virtual try on image. Through the most subtle changes, users can choose the texture, color and style of clothing to improve the user's experience.
翻訳日:2021-06-01 13:11:38 公開日:2021-05-30
# 強化学習における固有動機づけ

Adversarial Intrinsic Motivation for Reinforcement Learning ( http://arxiv.org/abs/2105.13345v2 )

ライセンス: Link先を確認
Ishan Durugkar, Mauricio Tec, Scott Niekum, Peter Stone(参考訳) 参照分布とのミスマッチを最小限に抑えることを目的とした学習は、生成的モデリングと模倣学習に有用であることが示されている。 本稿では,政策の国家訪問分布と目標分布とのWasserstein-1距離の1つの目的が,強化学習(RL)タスクに有効に活用できるかどうかを検討する。 具体的には、理想化された(達成不可能な)目標分布が目的とする目標条件強化学習に焦点を当てた。 本稿では,マルコフ決定過程(MDPs)に特異的な準測度を導入し,この準測度の下では,その状態訪問分布から目標分布へのワッサーシュタイン-1距離を極力最小化する政策が,目標を達成するための政策であることを示す。 我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。 実験の結果, この報酬関数はMDPの遷移に対して円滑に変化し, エージェントの学習を支援することがわかった。 さらに,AIM と Hindsight Experience Replay (HER) を組み合わせることで,HER が目標状態の低い正の報酬と比べ,複数のシミュレーションロボットタスクにおいて,アルゴリズムが学習を著しく加速することを示す。

Learning with an objective to minimize the mismatch with a reference distribution has been shown to be useful for generative modeling and imitation learning. In this paper, we investigate whether one such objective, the Wasserstein-1 distance between a policy's state visitation distribution and a target distribution, can be utilized effectively for reinforcement learning (RL) tasks. Specifically, this paper focuses on goal-conditioned reinforcement learning where the idealized (unachievable) target distribution has full measure at the goal. We introduce a quasimetric specific to Markov Decision Processes (MDPs), and show that the policy that minimizes the Wasserstein-1 distance of its state visitation distribution to this target distribution under this quasimetric is the policy that reaches the goal in as few steps as possible. Our approach, termed Adversarial Intrinsic Motivation (AIM), estimates this Wasserstein-1 distance through its dual objective and uses it to compute a supplemental reward function. Our experiments show that this reward function changes smoothly with respect to transitions in the MDP and assists the agent in learning. Additionally, we combine AIM with Hindsight Experience Replay (HER) and show that the resulting algorithm accelerates learning significantly on several simulated robotics tasks when compared to HER with a sparse positive reward at the goal state.
翻訳日:2021-06-01 11:40:56 公開日:2021-05-30