このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210429)

# (参考訳) proactive pseudo-intervention: 解釈可能な視覚モデルのための因果的コントラスト学習 [全文訳有]

Proactive Pseudo-Intervention: Causally Informed Contrastive Learning For Interpretable Vision Models ( http://arxiv.org/abs/2012.03369v2 )

ライセンス: CC BY 4.0
Dong Wang, Yuewei Yang, Chenyang Tao, Zhe Gan, Liqun Chen, Fanjie Kong, Ricardo Henao, Lawrence Carin(参考訳) ディープニューラルネットワークは、複雑な視覚信号の理解に優れ、人間の専門家と同等あるいはそれ以上のパフォーマンスを提供する。 しかし、モデル決定のアドホックな視覚的な説明は、訓練データのターゲットラベルと強く相関する非causalな視覚手がかりの活用に依存していることをしばしば示している。 このように、ディープニューラルネットは、異なるソースから収集された新しい入力への妥協された一般化に苦しめられ、決定ルールのリバースエンジニアリングは、限定的な解釈可能性を提供する。 これらの制約を克服するため, 因果関係のない画像特徴の保護に積極的に介入することを活用する, {\it Proactive Pseudo-Intervention} (PPI) と呼ばれる新しいコントラスト学習戦略を提案する。 また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。 提案手法の有用性を実証するため,標準の自然画像と課題の画像データセットをベンチマークした。 PPI強化モデルは、特に異種ソースからのドメイン外予測とデータ統合において、競合するソリューションと比較して一貫して優れたパフォーマンスを提供する。 さらに、我々の因果訓練されたサリエンシマップは、その非因果関係に対して簡潔で有意義である。

Deep neural networks excel at comprehending complex visual signals, delivering on par or even superior performance to that of human experts. However, ad-hoc visual explanations of model decisions often reveal an alarming level of reliance on exploiting non-causal visual cues that strongly correlate with the target label in training data. As such, deep neural nets suffer compromised generalization to novel inputs collected from different sources, and the reverse engineering of their decision rules offers limited interpretability. To overcome these limitations, we present a novel contrastive learning strategy called {\it Proactive Pseudo-Intervention} (PPI) that leverages proactive interventions to guard against image features with no causal relevance. We also devise a novel causally informed salience mapping module to identify key image pixels to intervene, and show it greatly facilitates model interpretability. To demonstrate the utility of our proposals, we benchmark on both standard natural images and challenging medical image datasets. PPI-enhanced models consistently deliver superior performance relative to competing solutions, especially on out-of-domain predictions and data integration from heterogeneous sources. Further, our causally trained saliency maps are more succinct and meaningful relative to their non-causal counterparts.
翻訳日:2021-05-22 03:07:31 公開日:2021-04-29
# (参考訳) トランスフォーマーを使って教師に教室の会話に対するパーソナライズされたフィードバックを提供する: talkmovesアプリケーション [全文訳有]

Using Transformers to Provide Teachers with Personalized Feedback on their Classroom Discourse: The TalkMoves Application ( http://arxiv.org/abs/2105.07949v1 )

ライセンス: CC BY 4.0
Abhijit Suresh, Jennifer Jacobs, Vivian Lai, Chenhao Tan, Wayne Ward, James H. Martin, Tamara Sumner(参考訳) TalkMovesはK-12数学教師の振り返りを支援するために設計された革新的なアプリケーションである。 本アプリケーションでは,最新の自然言語処理機能と自動音声認識を組み合わせることで教室の録音を自動的に分析し,教室での数学に関する会話の拡大と深化を目的とした特定の種類の談話の使用について教師にパーソナライズされたフィードバックを提供する。 これらの特定の談話戦略は、数学教育コミュニティ内で「トーク・ムーブメント」と呼ばれ、以前の研究は、これらの談話戦略の体系的な使用が学生の関与と学習に積極的に影響を与える方法を文書化してきた。 本稿では,talkmovesアプリケーションの授業記録の管理と処理のためのクラウドベースのインフラストラクチャと,個々の授業エピソードにおける講演動作の使用に関するフィードバックを教師に提供するためのインタフェースについて述べる。 我々は,我々が開発した一連のモデルアーキテクチャと検討を行い,最高性能のトランスフォーマーベースモデル(f1 = 79.3%)の開発を行った。 また,雑音の多いK-12教室の実際の音声と言語データを扱う際に,対処すべき技術的課題についても論じる。

TalkMoves is an innovative application designed to support K-12 mathematics teachers to reflect on, and continuously improve their instructional practices. This application combines state-of-the-art natural language processing capabilities with automated speech recognition to automatically analyze classroom recordings and provide teachers with personalized feedback on their use of specific types of discourse aimed at broadening and deepening classroom conversations about mathematics. These specific discourse strategies are referred to as "talk moves" within the mathematics education community and prior research has documented the ways in which systematic use of these discourse strategies can positively impact student engagement and learning. In this article, we describe the TalkMoves application's cloud-based infrastructure for managing and processing classroom recordings, and its interface for providing teachers with feedback on their use of talk moves during individual teaching episodes. We present the series of model architectures we developed, and the studies we conducted, to develop our best-performing, transformer-based model (F1 = 79.3%). We also discuss several technical challenges that need to be addressed when working with real-world speech and language data from noisy K-12 classrooms.
翻訳日:2021-05-20 08:14:30 公開日:2021-04-29
# 生成的逆ネットワークを用いたグローバル気候モデルのゆるい条件付きエミュレーション

Loosely Conditioned Emulation of Global Climate Models With Generative Adversarial Networks ( http://arxiv.org/abs/2105.06386v1 )

ライセンス: Link先を確認
Alexis Ayala, Christopher Drazic, Brian Hutchinson, Ben Kravitz, Claudia Tebaldi(参考訳) 気候モデルは、地球システムに関する最良の理解をカプセル化しており、人間主導の気候力がどのように進化するかという別の仮定の下で、その将来について研究することができる。 気候モデルの重要な応用は、特にこれらの代替シナリオの下で、平均的および極端な気候変動のメトリクスを提供することである。 多様な代替シナリオや、他の不確実性の源を計算効率良く探究する必要があるため、気候モデルは、重要な計算資源を必要とするため、特に極端な事象を特徴付けようとする場合には、その変化の統計を正確に表現するために、長いシミュレーションを必要としている。 ここでは、さまざまなシナリオでグローバルな気候モデル出力をエミュレートする基礎となる概念実証にディープラーニングを使用します。 我々は,完全に結合した地球系モデルから1日あたりの降水量をエミュレートする2つのgan(lowosely conditioned)生成型逆境ネットワーク(gans)を訓練した。 私たちのganは時空間的なサンプルを生成するように訓練されています。 klの発散に基づく一連の関連するパフォーマンス指標を用いてジェネレータを評価し、生成したサンプルがテストデータと同様にテストデータとほぼ一致していることを確認します。 また,32日間の平均乾日数と平均乾日スペルを正確に推定した。 我々の訓練されたGANは、極端な事象の統計を推定するのに大いに役立つ大規模な気候モデルと比較して、計算コストを大幅に削減して、多くの実現を迅速に得ることができる。

Climate models encapsulate our best understanding of the Earth system, allowing research to be conducted on its future under alternative assumptions of how human-driven climate forces are going to evolve. An important application of climate models is to provide metrics of mean and extreme climate changes, particularly under these alternative future scenarios, as these quantities drive the impacts of climate on society and natural systems. Because of the need to explore a wide range of alternative scenarios and other sources of uncertainties in a computationally efficient manner, climate models can only take us so far, as they require significant computational resources, especially when attempting to characterize extreme events, which are rare and thus demand long and numerous simulations in order to accurately represent their changing statistics. Here we use deep learning in a proof of concept that lays the foundation for emulating global climate model output for different scenarios. We train two "loosely conditioned" Generative Adversarial Networks (GANs) that emulate daily precipitation output from a fully coupled Earth system model: one GAN modeling Fall-Winter behavior and the other Spring-Summer. Our GANs are trained to produce spatiotemporal samples: 32 days of precipitation over a 64x128 regular grid discretizing the globe. We evaluate the generator with a set of related performance metrics based upon KL divergence, and find the generated samples to be nearly as well matched to the test data as the validation data is to test. We also find the generated samples to accurately estimate the mean number of dry days and mean longest dry spell in the 32 day samples. Our trained GANs can rapidly generate numerous realizations at a vastly reduced computational expense, compared to large ensembles of climate models, which greatly aids in estimating the statistics of extreme events.
翻訳日:2021-05-15 11:30:44 公開日:2021-04-29
# (参考訳) alrelu: ニューラルネットワークの性能向上のためのリーク型reluアクティベーション関数の異なるアプローチ [全文訳有]

ALReLU: A different approach on Leaky ReLU activation function to improve Neural Networks Performance ( http://arxiv.org/abs/2012.07564v2 )

ライセンス: CC0 1.0
Stamatis Mastromichalakis(参考訳) 未解決の「ダイイングReLU問題」にもかかわらず、古典的なReLU活性化関数(AF)はディープニューラルネットワーク(DNN)、特に畳み込みニューラルネットワーク(CNN)で画像分類に広く応用されている。 ReLUの一般的な勾配問題は、アカデミーや産業分野での応用に課題をもたらす。 改良のための最近のアプローチは、Leaky ReLU(LRELU)のようなAFのバリエーションを提案しながら、解を同じ未解決勾配問題内で維持することによって、同様の方向にある。 本稿では,lreluの変種である絶対漏洩relu (alrelu) afを,nnに基づく教師付き学習アルゴリズムにおける共通「ダイニングrelu問題」の解法として提案する。 実験の結果,LRELUの負勾配の絶対値を用いることで,5つのデータセット上でのテキストや表形式のデータ分類タスクなどの画像分類において,LRELUやReLUと比較して顕著な改善が得られた。

Despite the unresolved 'dying ReLU problem', the classical ReLU activation function (AF) has been extensively applied in Deep Neural Networks (DNN), in particular Convolutional Neural Networks (CNN), for image classification. The common gradient issues of ReLU pose challenges in applications on academy and industry sectors. Recent approaches for improvements are in a similar direction by just proposing variations of the AF, such as Leaky ReLU (LReLU), while maintaining the solution within the same unresolved gradient problems. In this paper, the Absolute Leaky ReLU (ALReLU) AF, a variation of LReLU, is proposed, as an alternative method to resolve the common 'dying ReLU problem' on NN-based algorithms for supervised learning. The experimental results demonstrate that by using the absolute values of LReLU's small negative gradient, has a significant improvement in comparison with LReLU and ReLU, on image classification of diseases such as COVID-19, text and tabular data classification tasks on five different datasets.
翻訳日:2021-05-14 07:25:44 公開日:2021-04-29
# (参考訳) NATOMの認識と処理 [全文訳有]

Recognition and Processing of NATOM ( http://arxiv.org/abs/2105.03314v1 )

ライセンス: CC BY 4.0
YiPeng Deng, YinHui Luo(参考訳) 本稿では,民間航空分野におけるNOTAM(Notice to Airmen)データの処理方法について述べる。 主な研究内容は以下の通りである: データ前処理:NOTAMの原データには中国語と英語が混在しており、構造は貧弱である。 元のデータをクリーニングし、中国語データと英語データを別々に処理し、単語分割を完了し、停止語を除去する。 Gloveワードベクトルメソッドを使用して、カスタムマッピング語彙を使用するデータを表現する。 2.特徴と分類器の分離: テキスト分類モデルのマイノリティサンプル認識能力を向上させるため、全体的なモデルトレーニングプロセスはアルゴリズム全体の観点から分離され、特徴学習と分類学習の2つの段階に分けられる。 特徴学習段階と分類器学習段階の重みは、分類モデルに設定された不均衡データセットの頭部データと尾データの影響を克服するための異なる戦略を採用する。 実験により、ニューラルネットワーク分類モデルに基づくデカップリング特徴と分類手法を用いることで、民間航空分野におけるテキスト多分類タスクを完遂できると同時に、データセット内のマイノリティサンプルの認識精度を向上させることが証明された。

In this paper we show how to process the NOTAM (Notice to Airmen) data of the field in civil aviation. The main research contents are as follows: 1.Data preprocessing: For the original data of the NOTAM, there is a mixture of Chinese and English, and the structure is poor. The original data is cleaned, the Chinese data and the English data are processed separately, word segmentation is completed, and stopping-words are removed. Using Glove word vector methods to represent the data for using a custom mapping vocabulary. 2.Decoupling features and classifiers: In order to improve the ability of the text classification model to recognize minority samples, the overall model training process is decoupled from the perspective of the algorithm as a whole, divided into two stages of feature learning and classifier learning. The weights of the feature learning stage and the classifier learning stage adopt different strategies to overcome the influence of the head data and tail data of the imbalanced data set on the classification model. Experiments have proved that the use of decoupling features and classifier methods based on the neural network classification model can complete text multi-classification tasks in the field of civil aviation, and at the same time can improve the recognition accuracy of the minority samples in the data set.
翻訳日:2021-05-11 09:07:52 公開日:2021-04-29
# ソーシャルメディア投稿からの自殺予測のための学習モデル

Learning Models for Suicide Prediction from Social Media Posts ( http://arxiv.org/abs/2105.03315v1 )

ライセンス: Link先を確認
Ning Wang, Fan Luo, Yuvraj Shivtare, Varsha D. Badal, K.P. Subbalakshmi, R. Chandramouli, Ellen Lee(参考訳) CLPsych 2021共有タスクで提供されるソーシャルメディア投稿データを用いて,(1)30日と(2)6ヶ月以内に自殺を試みる個人を自動的に検出するために,ディープラーニングアーキテクチャを提案し,他の3つの機械学習モデルをテストする。 さらに,自殺の3段階の理論と先行研究に基づく自殺リスク検出のための3つの手工的な特徴と,自殺観念を示す人々の間での代名詞の使用を作成した。 広範な実験により、従来の機械学習手法のいくつかは、サブタスク1(30日前の自殺未遂の予測)において、f1スコア 0.741 とf2スコア 0.833 でベースラインを上回った。 しかし,提案手法は,F1スコアが0.737,F2スコアが0.843,サブタスク2が0.843(約6ヶ月前の自殺予測)でベースラインを上回った。

We propose a deep learning architecture and test three other machine learning models to automatically detect individuals that will attempt suicide within (1) 30 days and (2) six months, using their social media post data provided in the CLPsych 2021 shared task. Additionally, we create and extract three sets of handcrafted features for suicide risk detection based on the three-stage theory of suicide and prior work on emotions and the use of pronouns among persons exhibiting suicidal ideations. Extensive experimentations show that some of the traditional machine learning methods outperform the baseline with an F1 score of 0.741 and F2 score of 0.833 on subtask 1 (prediction of a suicide attempt 30 days prior). However, the proposed deep learning method outperforms the baseline with F1 score of 0.737 and F2 score of 0.843 on subtask 2 (prediction of suicide 6 months prior).
翻訳日:2021-05-11 08:35:55 公開日:2021-04-29
# 継続的学習のためのナレッジキャプチャとリプレイ

Knowledge Capture and Replay for Continual Learning ( http://arxiv.org/abs/2012.06789v2 )

ライセンス: Link先を確認
Saisubramaniam Gopalakrishnan, Pranshu Ranjan Singh, Haytham Fayek, Savitha Ramasamy, Arulmurugan Ambikapathi(参考訳) 深層ニューラルネットワークはいくつかの領域で約束を示し、学習データ(タスク)固有の情報はネットワークパラメータに暗黙的に格納される。 エンコードされた知識表現の抽出と利用は、データが将来、特に継続的な学習シナリオで利用できない場合に不可欠である。 本研究では,事前に定義されたランダムな画像パターンの再帰的関数として,ネットワークの符号化された知識をキャプチャする視覚表現である.emフラッシュカードを導入する。 連続的な学習シナリオでは、フラッシュカードは破滅的な忘れ込みや過去のすべてのタスクの知識の統合を防ぐのに役立つ。 フラッシュカードは、次のタスクを学習する前にのみ構築される必要があり、従って、トレーニングされたタスクの数に依存しない。 本研究では,(オリジナルデータセットの代替として)学習知識表現のキャプチャにおけるフラッシュカードの有効性を実証し,複数のヘテロジニアスベンチマークデータセットを用いて,レコンストラクション,デノージング,タスクインクリメンタル学習,新たなインテンス学習分類など,さまざまな連続学習タスクを経験的に検証する。 i)リプレイ戦略としてのフラッシュカードは { \em task agnostic} であり、 (ii) 生成的リプレイよりも優れた性能を示し、 (iii) メモリオーバーヘッドを伴わずにエピソード・リプレイと同等である。

Deep neural networks have shown promise in several domains, and the learned data (task) specific information is implicitly stored in the network parameters. Extraction and utilization of encoded knowledge representations are vital when data is no longer available in the future, especially in a continual learning scenario. In this work, we introduce {\em flashcards}, which are visual representations that {\em capture} the encoded knowledge of a network as a recursive function of predefined random image patterns. In a continual learning scenario, flashcards help to prevent catastrophic forgetting and consolidating knowledge of all the previous tasks. Flashcards need to be constructed only before learning the subsequent task, and hence, independent of the number of tasks trained before. We demonstrate the efficacy of flashcards in capturing learned knowledge representation (as an alternative to the original dataset) and empirically validate on a variety of continual learning tasks: reconstruction, denoising, task-incremental learning, and new-instance learning classification, using several heterogeneous benchmark datasets. Experimental evidence indicates that: (i) flashcards as a replay strategy is { \em task agnostic}, (ii) performs better than generative replay, and (iii) is on par with episodic replay without additional memory overhead.
翻訳日:2021-05-10 05:28:01 公開日:2021-04-29
# D-LEMA: 複数のアノテーションからのディープラーニングアンサンブル-皮膚病変セグメンテーションへの応用

D-LEMA: Deep Learning Ensembles from Multiple Annotations -- Application to Skin Lesion Segmentation ( http://arxiv.org/abs/2012.07206v2 )

ライセンス: Link先を確認
Zahra Mirikharaji, Kumar Abhishek, Saeed Izadi, Ghassan Hamarneh(参考訳) 医用画像分割アノテーションは、人間の注釈とあいまいな境界に固有の違いがあるため、専門家の間でも、サーバ間およびサーバ内の違いに苦しむ。 画像に対する注釈者の意見の収集を活用することは、金の基準を推定する興味深い方法である。 画像毎に1つのアノテーションで教師あり環境での深層モデルのトレーニングは広く研究されているが、画像毎に複数のアノテーションを含むデータセットを扱うためのトレーニングの一般化は、かなり未解決の問題である。 本稿では, 深層モデルのトレーニングにおいて, アノテーションの相違に対処する手法を提案する。 そこで本研究では,(1)アノテーション間不一致から生ずる訓練データにおける矛盾するアノテーションの扱い,(2)ベースモデルの予測の融合による信頼度校正の改善という2つの要因を考慮し,セグメンテーションタスクのためのベイズ完全畳み込みネットワーク(fcns)のアンサンブルを提案する。 我々はISICアーカイブ上でのアプローチの優れた性能を実証し、提案手法の一般化性能をPH2およびDermoFitデータセットのクロスデータセット評価により検証する。

Medical image segmentation annotations suffer from inter- and intra-observer variations even among experts due to intrinsic differences in human annotators and ambiguous boundaries. Leveraging a collection of annotators' opinions for an image is an interesting way of estimating a gold standard. Although training deep models in a supervised setting with a single annotation per image has been extensively studied, generalizing their training to work with datasets containing multiple annotations per image remains a fairly unexplored problem. In this paper, we propose an approach to handle annotators' disagreements when training a deep model. To this end, we propose an ensemble of Bayesian fully convolutional networks (FCNs) for the segmentation task by considering two major factors in the aggregation of multiple ground truth annotations: (1) handling contradictory annotations in the training data originating from inter-annotator disagreements and (2) improving confidence calibration through the fusion of base models' predictions. We demonstrate the superior performance of our approach on the ISIC Archive and explore the generalization performance of our proposed method by cross-dataset evaluation on the PH2 and DermoFit datasets.
翻訳日:2021-05-08 14:35:29 公開日:2021-04-29
# (参考訳) 修正分類:説明フィードバックを用いたベイズ的フレームワークによる分類能力の向上 [全文訳有]

Correcting Classification: A Bayesian Framework Using Explanation Feedback to Improve Classification Abilities ( http://arxiv.org/abs/2105.02653v1 )

ライセンス: CC BY 4.0
Yanzhe Bekkemoen, Helge Langseth(参考訳) しかし、ニューラルネットワーク(NN)は高い予測性能を示しており、欠点がある。 第一に、分類の背後にある理由は完全には理解されていない。 いくつかの説明方法が開発されているが、ユーザが説明とやり取りするメカニズムを提供していない。 説明は社会的なものであり、相互に通じる知識の伝達である。 それでも、現在の説明手法は一方的なコミュニケーションにのみ寄与する。 第二に、nnは自信過剰になりがちで、分布外観測で不確実性の推定が不適切である。 我々は、説明フィードバックを用いたベイズ畳み込みニューラルネットワーク(CNN)を訓練することで、これらの困難を克服する。 トレーニング後、モデルは、アノテータにサンプル分類を訓練する説明を示す。 提供された情報に基づいて、アノテーションはフィードバックを提供することで説明を受け入れたり拒否したりすることができる。 提案手法は,このフィードバックを微調整に利用して,説明や分類が改善するモデルを修正する。 既存のCNNアーキテクチャを用いて、1つのおもちゃのデータセット(デコイなMNIST)と2つの現実世界のデータセット(Dogs vs. CatsとISIC皮膚がん)でメソッドの有効性を実証する。 実験は、モデルと予測性能を改善するために、注釈付き説明と微調整の時期がほとんど必要であり、モデルの信頼性と理解性が向上していることを示している。

Neural networks (NNs) have shown high predictive performance, however, with shortcomings. Firstly, the reasons behind the classifications are not fully understood. Several explanation methods have been developed, but they do not provide mechanisms for users to interact with the explanations. Explanations are social, meaning they are a transfer of knowledge through interactions. Nonetheless, current explanation methods contribute only to one-way communication. Secondly, NNs tend to be overconfident, providing unreasonable uncertainty estimates on out-of-distribution observations. We overcome these difficulties by training a Bayesian convolutional neural network (CNN) that uses explanation feedback. After training, the model presents explanations of training sample classifications to an annotator. Based on the provided information, the annotator can accept or reject the explanations by providing feedback. Our proposed method utilizes this feedback for fine-tuning to correct the model such that the explanations and classifications improve. We use existing CNN architectures to demonstrate the method's effectiveness on one toy dataset (decoy MNIST) and two real-world datasets (Dogs vs. Cats and ISIC skin cancer). The experiments indicate that few annotated explanations and fine-tuning epochs are needed to improve the model and predictive performance, making the model more trustworthy and understandable.
翻訳日:2021-05-08 05:00:24 公開日:2021-04-29
# 視覚的およびテキスト的説明による説明可能なTextVQAモデルに向けた一考察

A First Look: Towards Explainable TextVQA Models via Visual and Textual Explanations ( http://arxiv.org/abs/2105.02626v1 )

ライセンス: Link先を確認
Varun Nagaraj Rao, Xingjian Zhen, Karen Hovsepian, Mingwei Shen(参考訳) 説明可能なディープラーニングモデルは、多くの状況において有利である。 以前の作業は、元々のシステム設計の一部ではないポストホックなアプローチを通じて、主にユニモーダルな説明を提供する。 説明機構はまた、画像に存在する有用なテキスト情報も無視する。 本稿では,画像中のテキストに焦点をあてたマルチモーダル記述を生成する,エンドツーエンドのトレーニング可能なマルチモーダルアーキテクチャMTXNetを提案する。 我々は、トレーニングと評価の両方で活用できる、真実と多参照のテキスト説明を含む新しいデータセットTextVQA-Xをキュレートする。 次に,マルチモーダルな説明を用いたトレーニングがモデル性能を補完し,CIDErスコアの最大7%,IoUスコアの最大2%を超越することを示す。 さらに重要なことは、マルチモーダルな説明が人間の解釈と一致していることを示し、モデルの判断を正当化し、誤った予測を診断するのに有用な洞察を提供する。 最後に、生成されたマルチモーダル説明を利用する実世界のeコマースアプリケーションについて述べる。

Explainable deep learning models are advantageous in many situations. Prior work mostly provide unimodal explanations through post-hoc approaches not part of the original system design. Explanation mechanisms also ignore useful textual information present in images. In this paper, we propose MTXNet, an end-to-end trainable multimodal architecture to generate multimodal explanations, which focuses on the text in the image. We curate a novel dataset TextVQA-X, containing ground truth visual and multi-reference textual explanations that can be leveraged during both training and evaluation. We then quantitatively show that training with multimodal explanations complements model performance and surpasses unimodal baselines by up to 7% in CIDEr scores and 2% in IoU. More importantly, we demonstrate that the multimodal explanations are consistent with human interpretations, help justify the models' decision, and provide useful insights to help diagnose an incorrect prediction. Finally, we describe a real-world e-commerce application for using the generated multimodal explanations.
翻訳日:2021-05-08 00:00:22 公開日:2021-04-29
# byolの超球面正規化ネットワークによる特徴均一性と分離性の向上

Hyperspherically Regularized Networks for BYOL Improves Feature Uniformity and Separability ( http://arxiv.org/abs/2105.00925v1 )

ライセンス: Link先を確認
Aiden Durrant and Georgios Leontidis(参考訳) Bootstrap Your Own Latent (BYOL)は、対照的なパラダイムを避けるための自己教師型学習アプローチを導入し、その後、負サンプリングの計算負担を取り除く。 しかし、このパラダイムに基づく特徴表現は、対照的な方法と比較して単位超球面表現空間の表面には分布しない。 この研究は、対照的な損失によって課される特徴の多様性がbyolで使われる場合に有益であることを実証的に示しており、それによってクラス間の特徴分離性が向上する。 したがって、より均一な特徴分布を達成するため、超球面エネルギー(すなわち、超球面エネルギー)の最小化を提唱する。 byolネットワーク重みにおけるエントロピーの最大化) 標準損失と並行して一様性の尺度を直接最適化したり、byolアーキテクチャのネットワークを調整してニューロンの超球面エネルギーを最小化することで、より均一に分散し、下流タスクの表現をより良くできることを示す。

Bootstrap Your Own Latent (BYOL) introduced an approach to self-supervised learning avoiding the contrastive paradigm and subsequently removing the computational burden of negative sampling. However, feature representations under this paradigm are poorly distributed on the surface of the unit-hypersphere representation space compared to contrastive methods. This work empirically demonstrates that feature diversity enforced by contrastive losses is beneficial when employed in BYOL, and as such, provides greater inter-class feature separability. Therefore to achieve a more uniform distribution of features, we advocate the minimization of hyperspherical energy (i.e. maximization of entropy) in BYOL network weights. We show that directly optimizing a measure of uniformity alongside the standard loss, or regularizing the networks of the BYOL architecture to minimize the hyperspherical energy of neurons can produce more uniformly distributed and better performing representations for downstream tasks.
翻訳日:2021-05-04 13:56:19 公開日:2021-04-29
# 複素数値畳み込みニューラルネットワークによる高次レーダ信号分解と干渉緩和

Complex-valued Convolutional Neural Networks for Enhanced Radar Signal Denoising and Interference Mitigation ( http://arxiv.org/abs/2105.00929v1 )

ライセンス: Link先を確認
Alexander Fuchs, Johanna Rock, Mate Toth, Paul Meissner, Franz Pernkopf(参考訳) 自律運転は、環境を認識し、車両の制御システムに信頼できる情報を提供する能力のあるセンサーに大きく依存する。 堅牢性を高めるために、レーダーセンサーを含む多様なセンサーセットが使用される。 レーダーは感覚情報の重要な貢献であり、高分解能範囲と速度測定を提供する。 道路交通におけるレーダーセンサーの利用の増加は、新たな課題をもたらす。 これまでの規制のない周波数帯域がますます混雑するにつれて、レーダーセンサーは複数のレーダーセンサー間の相互干渉に苦しむ。 この干渉は、高いかつ一貫した検出感度を確保するために緩和されなければならない。 本稿では,レーダセンサ間の相互干渉問題に対処するために,複素値畳み込みニューラルネットワーク(CVCNN)を提案する。 従来開発された手法を複素領域に拡張して,その物理特性に応じてレーダデータを処理する。 これによりデータ効率が向上するだけでなく、アングル推定などのさらなる処理に欠かせないフィルタリング時の位相情報の保存も向上する。 実験の結果,CVCNNはデータ効率を向上し,ネットワークトレーニングを高速化し,干渉除去時の位相情報の保存を大幅に改善することがわかった。

Autonomous driving highly depends on capable sensors to perceive the environment and to deliver reliable information to the vehicles' control systems. To increase its robustness, a diversified set of sensors is used, including radar sensors. Radar is a vital contribution of sensory information, providing high resolution range as well as velocity measurements. The increased use of radar sensors in road traffic introduces new challenges. As the so far unregulated frequency band becomes increasingly crowded, radar sensors suffer from mutual interference between multiple radar sensors. This interference must be mitigated in order to ensure a high and consistent detection sensitivity. In this paper, we propose the use of Complex-Valued Convolutional Neural Networks (CVCNNs) to address the issue of mutual interference between radar sensors. We extend previously developed methods to the complex domain in order to process radar data according to its physical characteristics. This not only increases data efficiency, but also improves the conservation of phase information during filtering, which is crucial for further processing, such as angle estimation. Our experiments show, that the use of CVCNNs increases data efficiency, speeds up network training and substantially improves the conservation of phase information during interference removal.
翻訳日:2021-05-04 13:47:59 公開日:2021-04-29
# マルチスケールスペクトルと空間特性を融合したSentinel-2A画像の軽量深層学習クラウド検出法

A lightweight deep learning based cloud detection method for Sentinel-2A imagery fusing multi-scale spectral and spatial features ( http://arxiv.org/abs/2105.00967v1 )

ライセンス: Link先を確認
Jun Li, Zhaocong Wu, Zhongwen Hu, Canliang Jian, Shaojie Luo, Lichao Mou, Xiao Xiang Zhu and Matthieu Molinier(参考訳) 雲は光リモートセンシング画像の可用性において非常に重要な要素である。 近年,ディープラーニングに基づくクラウド検出手法が,クラウドのルールや物理モデルに基づく古典的手法を上回っている。 しかし、これらの深層モデルのほとんどは適用性と説明可能性を制限する非常に大きなものであり、他のモデルではSentinel-2のようなマルチスペクトル画像の完全なスペクトル情報を使用しない。 本稿では,クラウド検出のための軽量ネットワークを提案し,マルチスケールのスペクトル・空間特性(CDFM3SF)を融合させて,Sentinel-2A画像中の全てのスペクトル帯域を処理する。 提案手法はエンコーダとデコーダからなる。 エンコーダでは、3つの入力分岐がスペクトル帯域をネイティブ解像度で処理し、マルチスケールのスペクトル特徴を抽出するように設計されている。 3つの新しいコンポーネントは、多次元空間特徴を抽出する混合深度分離型畳み込み(MDSC)と共有拡張残差ブロック(SDRB)と、計算の少ない多次元スペクトルおよび空間的特徴を融合させる結合和(CS)演算である。 cd-fm3sfのデコーダは、3つのクラウドマスクを入力バンドと同じ解像度で出力し、小中大の雲の監督情報を強化する。 提案手法の有効性を検証するため,中国本土に均等に分布する36のSentinel-2Aシーンを手動でラベル付けした。 実験の結果,CD-FM3SFは従来のクラウド検出手法や最先端のディープラーニング手法よりも精度と速度で優れていた。

Clouds are a very important factor in the availability of optical remote sensing images. Recently, deep learning-based cloud detection methods have surpassed classical methods based on rules and physical models of clouds. However, most of these deep models are very large which limits their applicability and explainability, while other models do not make use of the full spectral information in multi-spectral images such as Sentinel-2. In this paper, we propose a lightweight network for cloud detection, fusing multi-scale spectral and spatial features (CDFM3SF) and tailored for processing all spectral bands in Sentinel- 2A images. The proposed method consists of an encoder and a decoder. In the encoder, three input branches are designed to handle spectral bands at their native resolution and extract multiscale spectral features. Three novel components are designed: a mixed depth-wise separable convolution (MDSC) and a shared and dilated residual block (SDRB) to extract multi-scale spatial features, and a concatenation and sum (CS) operation to fuse multi-scale spectral and spatial features with little calculation and no additional parameters. The decoder of CD-FM3SF outputs three cloud masks at the same resolution as input bands to enhance the supervision information of small, middle and large clouds. To validate the performance of the proposed method, we manually labeled 36 Sentinel-2A scenes evenly distributed over mainland China. The experiment results demonstrate that CD-FM3SF outperforms traditional cloud detection methods and state-of-theart deep learning-based methods in both accuracy and speed.
翻訳日:2021-05-04 13:47:40 公開日:2021-04-29
# 感情伝染と深層強化学習を統合した対角的集団シミュレーションモデル

Antagonistic Crowd Simulation Model Integrating Emotion Contagion and Deep Reinforcement Learning ( http://arxiv.org/abs/2105.00854v1 )

ライセンス: Link先を確認
Pei Lv, Boya Xu, Chaochao Li, Qingqing Yu, Bing Zhou, Mingliang Xu(参考訳) 群衆の敵意的な行動は、しばしば突然の暴動における状況の深刻さを悪化させ、群衆における敵意的な感情の拡散と行動決定が非常に重要な役割を果たす。 しかし、特に突然の対決の環境において、複雑な感情が意思決定に影響を及ぼすメカニズムはまだ解明されていない。 本稿では,感情の伝染と深層強化学習(ACSED)を併用した,新たな対角的群集シミュレーションモデルを提案する。 まず,改良されたsis伝染病モデルに基づく集団感情伝染モデルを構築し,シミュレーション中の各時間ステップにおける集団の感情状態を推定する。 次に、エージェントが自律的に戦闘行動を学ぶことができるディープQネットワーク(DQN)に基づいて集団対角行動の傾向をモデル化し、平均場理論を活用して、周囲の個人が中央に与える影響を迅速に計算する。 最後に、dqnによる予測行動の合理性をさらにグループ感情と組み合わせて分析し、エージェントの最終的な戦闘行動を決定する。 本論文で提案する手法は,いくつかの異なる実験で検証される。 その結果、感情が集団の戦闘に重要な影響を与えることが証明され、ポジティブな感情状態は戦闘に強いことが判明した。 さらに,シミュレーション結果を実シーンと比較することにより,戦闘計画の策定や,様々な状況下での正義集団戦闘の勝利率の向上に寄与する手法の有効性をさらに検証する。

The antagonistic behavior of the crowd often exacerbates the seriousness of the situation in sudden riots, where the spreading of antagonistic emotion and behavioral decision making in the crowd play very important roles. However, the mechanism of complex emotion influencing decision making, especially in the environment of sudden confrontation, has not yet been explored clearly. In this paper, we propose one new antagonistic crowd simulation model by combing emotional contagion and deep reinforcement learning (ACSED). Firstly, we build a group emotional contagion model based on the improved SIS contagion disease model, and estimate the emotional state of the group at each time step during the simulation. Then, the tendency of group antagonistic behavior is modeled based on Deep Q Network (DQN), where the agent can learn the combat behavior autonomously, and leverages the mean field theory to quickly calculate the influence of other surrounding individuals on the central one. Finally, the rationality of the predicted behaviors by the DQN is further analyzed in combination with group emotion, and the final combat behavior of the agent is determined. The method proposed in this paper is verified through several different settings of experiments. The results prove that emotions have a vital impact on the group combat, and positive emotional states are more conducive to combat. Moreover, by comparing the simulation results with real scenes, the feasibility of the method is further verified, which can provide good reference for formulating battle plans and improving the winning rate of righteous groups battles in a variety of situations.
翻訳日:2021-05-04 13:36:11 公開日:2021-04-29
# 多元性データを用いた転送学習

Transfer Learning on Multi-Fidelity Data ( http://arxiv.org/abs/2105.00856v1 )

ライセンス: Link先を確認
Dong H. Song and Daniel M. Tartakovsky(参考訳) ニューラルネットワーク(nns)は、複雑なシステムのダイナミクスを記述する偏微分方程式(pdes)のサロゲートやエミュレータとしてよく用いられる。 このようなサロゲートの事実上無視可能な計算コストは、多くの繰り返しPDE解決を必要とするアンサンブルベースの計算の魅力的なツールとなる。 NNトレーニングに十分なデータを生成するためにも後者が必要であるため、NNベースのサロゲートの有用性は、トレーニングコストと、その展開から生じる計算利得のバランスに左右される。 我々は、転送学習を用いた深層畳み込みNN(CNN)の訓練において、データ生成コストを低減するために、多要素シミュレーションを利用する。 微細メッシュと粗メッシュでそれぞれpdesを解いて高精細画像と低精細画像を生成する。 我々は,マルチレベルモンテカルロの理論的結果を用いて,各種類の画像数の選択を導く。 非線形PDE(異種多孔質媒質における多相流のパラボリックPDE)と不確実/ランダムパラメータのシステムによって制御される関心量の分布を推定する問題に対して,この多相性トレーニング戦略の性能を実証する。 数値実験により,比較的多数の低忠実度データと少ない高忠実度データとを混合することにより,計算速度と予測精度の最適バランスが得られた。 前者は高忠実度画像のみのCNNトレーニングとPDEのモンテカルロソリューションの両方と比較して報告されている。 後者はwasserstein距離とkullback-leibler発散の両方で表される。

Neural networks (NNs) are often used as surrogates or emulators of partial differential equations (PDEs) that describe the dynamics of complex systems. A virtually negligible computational cost of such surrogates renders them an attractive tool for ensemble-based computation, which requires a large number of repeated PDE solves. Since the latter are also needed to generate sufficient data for NN training, the usefulness of NN-based surrogates hinges on the balance between the training cost and the computational gain stemming from their deployment. We rely on multi-fidelity simulations to reduce the cost of data generation for subsequent training of a deep convolutional NN (CNN) using transfer learning. High- and low-fidelity images are generated by solving PDEs on fine and coarse meshes, respectively. We use theoretical results for multilevel Monte Carlo to guide our choice of the numbers of images of each kind. We demonstrate the performance of this multi-fidelity training strategy on the problem of estimation of the distribution of a quantity of interest, whose dynamics is governed by a system of nonlinear PDEs (parabolic PDEs of multi-phase flow in heterogeneous porous media) with uncertain/random parameters. Our numerical experiments demonstrate that a mixture of a comparatively large number of low-fidelity data and smaller numbers of high- and low-fidelity data provides an optimal balance of computational speed-up and prediction accuracy. The former is reported relative to both CNN training on high-fidelity images only and Monte Carlo solution of the PDEs. The latter is expressed in terms of both the Wasserstein distance and the Kullback-Leibler divergence.
翻訳日:2021-05-04 13:35:46 公開日:2021-04-29
# (参考訳) 部分空間制約平均シフトアルゴリズムの線形収束:ユークリッドから方向データへ

Linear Convergence of the Subspace Constrained Mean Shift Algorithm: From Euclidean to Directional Data ( http://arxiv.org/abs/2104.14977v1 )

ライセンス: CC BY 4.0
Yikun Zhang and Yen-Chi Chen(参考訳) 本稿では,カーネル密度推定器によって定義される密度リッジを同定するアルゴリズムとして,部分空間制約平均シフト(SCMS)アルゴリズムの線形収束について検討する。 SCMSアルゴリズムは、適応的なステップサイズを持つ部分空間制約勾配上昇(SCGA)アルゴリズムの特別な変種であるとして、そのようなSCGAアルゴリズムの線形収束を導出する。 既存の研究は主にユークリッド空間の密度リッジに焦点を当てているが、我々は密度リッジとSCMSアルゴリズムを方向データに一般化する。 特に、方向データを用いた密度リッジの安定性定理を確立し、提案した方向性SCMSアルゴリズムの線形収束性を証明する。

This paper studies linear convergence of the subspace constrained mean shift (SCMS) algorithm, a well-known algorithm for identifying a density ridge defined by a kernel density estimator. By arguing that the SCMS algorithm is a special variant of a subspace constrained gradient ascent (SCGA) algorithm with an adaptive step size, we derive linear convergence of such SCGA algorithm. While the existing research focuses mainly on density ridges in the Euclidean space, we generalize density ridges and the SCMS algorithm to directional data. In particular, we establish the stability theorem of density ridges with directional data and prove the linear convergence of our proposed directional SCMS algorithm.
翻訳日:2021-05-04 04:25:13 公開日:2021-04-29
# (参考訳) 自動ソフトウェア脆弱性検出のためのニューラルネットワーク技術の比較研究 [全文訳有]

A comparative study of neural network techniques for automatic software vulnerability detection ( http://arxiv.org/abs/2104.14978v1 )

ライセンス: CC BY 4.0
Gaigai Tang, Lianxiao Meng, Shuangyin Ren, Weipeng Cao, Qiang Wang, Lin Yang(参考訳) ソフトウェア脆弱性は通常、設計上の欠陥や実装エラーによって引き起こされ、システムのセキュリティにダメージを与えるために悪用される可能性がある。 現在、ソフトウェア脆弱性を検出する最も一般的な方法は静的解析である。 関連技術のほとんどはルールやコード類似性(コードレベル)に基づいて動作し、手動で定義された脆弱性機能に依存します。 しかし、これらのルールと脆弱性の特徴は正確に定義し設計することは困難であり、静的解析は実用アプリケーションにおいて多くの課題に直面している。 この問題を軽減するために、一部の研究者は、自動特徴抽出機能を備えたニューラルネットワークを使用して検出の知性を改善することを提案した。 しかし、ニューラルネットワークにはさまざまな種類があり、さまざまなデータ前処理手法がモデルパフォーマンスに大きな影響を与えるだろう。 エンジニアや研究者にとって、与えられた問題に対して適切なニューラルネットワークとデータ前処理方法を選択することは大きな課題である。 この問題を解決するために,我々は2つの典型的なニューラルネットワーク(bi-lstmおよびrvfl)と,ソフトウェア脆弱性検出問題に関する2つの古典的なデータプリプロセッシング手法(ベクター表現およびプログラム記号化法)の性能をテストするための広範な実験を行い,研究者や技術者に有用なガイドラインを提供するための興味深い研究結果を得た。 具体的には,1) RVFL のトレーニング速度は BiLSTM よりも常に速いが,Bi-LSTM モデルの予測精度は RVFL よりも高いこと,2) ベクトル表現に doc2vec を用いることで,ワード2vec よりも高速なトレーニング速度と一般化能力が得られること,3) マルチレベル記号化がニューラルネットワークモデルの精度向上に有効であること,などが判明した。

Software vulnerabilities are usually caused by design flaws or implementation errors, which could be exploited to cause damage to the security of the system. At present, the most commonly used method for detecting software vulnerabilities is static analysis. Most of the related technologies work based on rules or code similarity (source code level) and rely on manually defined vulnerability features. However, these rules and vulnerability features are difficult to be defined and designed accurately, which makes static analysis face many challenges in practical applications. To alleviate this problem, some researchers have proposed to use neural networks that have the ability of automatic feature extraction to improve the intelligence of detection. However, there are many types of neural networks, and different data preprocessing methods will have a significant impact on model performance. It is a great challenge for engineers and researchers to choose a proper neural network and data preprocessing method for a given problem. To solve this problem, we have conducted extensive experiments to test the performance of the two most typical neural networks (i.e., Bi-LSTM and RVFL) with the two most classical data preprocessing methods (i.e., the vector representation and the program symbolization methods) on software vulnerability detection problems and obtained a series of interesting research conclusions, which can provide valuable guidelines for researchers and engineers. Specifically, we found that 1) the training speed of RVFL is always faster than BiLSTM, but the prediction accuracy of Bi-LSTM model is higher than RVFL; 2) using doc2vec for vector representation can make the model have faster training speed and generalization ability than using word2vec; and 3) multi-level symbolization is helpful to improve the precision of neural network models.
翻訳日:2021-05-04 04:23:29 公開日:2021-04-29
# (参考訳) MuyGPs:ローカルクロスバリデーションを用いたスケーラブルガウスプロセスハイパーパラメータ推定 [全文訳有]

MuyGPs: Scalable Gaussian Process Hyperparameter Estimation Using Local Cross-Validation ( http://arxiv.org/abs/2104.14581v1 )

ライセンス: CC BY 4.0
Amanda Muyskens, Benjamin Priest, Im\`ene Goumiri, and Michael Schneider(参考訳) ガウス過程 (GP) は、多くのアプリケーションで人気のある非線形確率モデルである。 しかし、共分散行列と立方体計算を格納し、推測や可能性関数の評価を行うために、na\ GP の実現には二次記憶が必要である。 これらのボトルネックは、現代のデータ駆動アプリケーションで一般的な大規模データサイズにスケールするgp代替品の開発に多大な投資をしてきた。 本稿では,新しいGPハイパーパラメータ推定法であるMuyGPsについて述べる。 MuyGPは、データに最も近い隣り合う構造を利用する事前の手法の上に構築され、余剰のクロスバリデーションを使用して、コストのかかる可能性に気付かずに共分散(カーネル)ハイパーパラメータを最適化する。 本稿では,我々のモデルと手法を詳細に記述し,その実装をベンチマーク空間統計問題における最先端の競合相手と比較する。 提案手法は, 解法と予測値の平均二乗誤差の両方において, 既知の競合よりも優れていることを示す。

Gaussian processes (GPs) are non-linear probabilistic models popular in many applications. However, na\"ive GP realizations require quadratic memory to store the covariance matrix and cubic computation to perform inference or evaluate the likelihood function. These bottlenecks have driven much investment in the development of approximate GP alternatives that scale to the large data sizes common in modern data-driven applications. We present in this manuscript MuyGPs, a novel efficient GP hyperparameter estimation method. MuyGPs builds upon prior methods that take advantage of the nearest neighbors structure of the data, and uses leave-one-out cross-validation to optimize covariance (kernel) hyperparameters without realizing a possibly expensive likelihood. We describe our model and methods in detail, and compare our implementations against the state-of-the-art competitors in a benchmark spatial statistics problem. We show that our method outperforms all known competitors both in terms of time-to-solution and the root mean squared error of the predictions.
翻訳日:2021-05-04 04:08:22 公開日:2021-04-29
# (参考訳) D-VAL:ドメインモデルを計画するための機能等価自動検証ツール [全文訳有]

D-VAL: An automatic functional equivalence validation tool for planning domain models ( http://arxiv.org/abs/2104.14602v1 )

ライセンス: CC BY 4.0
Anas Shrinah, Derek Long and Kerstin Eder(参考訳) 本稿では,計画ドメインモデルの機能的等価性を検証するためのアプローチを提案する。 計画ドメインモデルの関数同値性を検証することは、2つの計画ドメインモデルが同じ問題の集合を解くために使用できることを正式に確認する問題である。 計画ドメインモデルの機能的等価性を検証する技術の必要性は、これまでの研究で強調され、モデル学習、開発、拡張に応用されている。 我々はその方法の健全性と完全性を証明する。 また、ドメインモデルを計画するための機能等価自動検証ツールD-VALを開発した。 実験により,D-VALは5分以内でほとんどの検査領域の機能的等価性を検証した。 さらに、この実現可能性と拡張性を評価するベンチマークと、今後の関連作業についても提供します。

In this paper, we introduce an approach to validate the functional equivalence of planning domain models. Validating the functional equivalence of planning domain models is the problem of formally confirming that two planning domain models can be used to solve the same set of problems. The need for techniques to validate the functional equivalence of planning domain models has been highlighted in previous research and has applications in model learning, development and extension. We prove the soundness and completeness of our method. We also develop D-VAL, an automatic functional equivalence validation tool for planning domain models. Empirical evaluation shows that D-VAL validates the functional equivalence of most examined domains in less than five minutes. Additionally, we provide a benchmark to evaluate the feasibility and scalability of this and future related work.
翻訳日:2021-05-04 03:52:36 公開日:2021-04-29
# (参考訳) 伝達エントロピーによるフィードフォワードニューラルネットワークの学習 [全文訳有]

Learning in Feedforward Neural Networks Accelerated by Transfer Entropy ( http://arxiv.org/abs/2104.14616v1 )

ライセンス: CC BY 4.0
Adrian Moldovan and Angel Ca\c{t}aron and R\u{a}zvan Andonie(参考訳) 現在のニューラルネットワークアーキテクチャは、使用されるデータセットのサイズと複雑さが増加するため、トレーニングが困難である。 我々の目標は、ニューラルネットワークから推定される因果関係を利用したより効率的なトレーニングアルゴリズムを設計することである。 転送エントロピー(te)は当初、事象(時系列)間の統計的コヒーレンスを定量化する情報伝達尺度として導入された。 その後、たとえ同じでなくても因果関係に関係していた。 ニューラルネットワークにおける因果性やTEの適用を報告している論文は少ない。 我々の貢献は、フィードフォワードニューラルネットワークのノード間の情報伝達を分析する情報理論である。 情報伝達は、フィードバック神経接続のteによって測定される。 直感的には、teはネットワーク内の接続の関連性を測定し、フィードバックはこの接続を増幅する。 本稿では,TEフィードバック接続を用いたバックプロパゲーション型トレーニングアルゴリズムを提案する。

Current neural networks architectures are many times harder to train because of the increasing size and complexity of the used datasets. Our objective is to design more efficient training algorithms utilizing causal relationships inferred from neural networks. The transfer entropy (TE) was initially introduced as an information transfer measure used to quantify the statistical coherence between events (time series). Later, it was related to causality, even if they are not the same. There are only few papers reporting applications of causality or TE in neural networks. Our contribution is an information-theoreti cal method for analyzing information transfer between the nodes of feedforward neural networks. The information transfer is measured by the TE of feedback neural connections. Intuitively, TE measures the relevance of a connection in the network and the feedback amplifies this connection. We introduce a backpropagation type training algorithm that uses TE feedback connections to improve its performance.
翻訳日:2021-05-04 03:39:35 公開日:2021-04-29
# (参考訳) メタ強化学習エージェントの内部で何が起きているのか? [全文訳有]

What is Going on Inside Recurrent Meta Reinforcement Learning Agents? ( http://arxiv.org/abs/2104.14644v1 )

ライセンス: CC BY 4.0
Safa Alver, Doina Precup(参考訳) リカレントメタ強化学習(recurrent meta reinforcement learning、meta-RL)は、リカレントニューラルネットワーク(RNN)を用いて「学習アルゴリズムを学ぶ」エージェントである。 予め特定されたタスク分布をトレーニングした後、エージェントのRNNの学習重量は、そのアクティビティダイナミクスを通して効率的な学習アルゴリズムを実装し、エージェントは同じ分布からサンプリングされた新しいタスクを迅速に解くことができる。 しかし、これらのエージェントのブラックボックスの性質から、それらの動作方法はまだ完全には理解されていない。 本研究では, 部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより, これらのエージェントの内部動作機構を明らかにする。 我々は、学習された活動のダイナミクスがそのようなエージェントの信念状態として作用していると仮定する。 いくつかの実証実験は、この仮説が正しいことを示唆し、反復的なメタRLエージェントは複数の関連するタスクからなる部分的に観察可能な環境で最適な行動を学ぶエージェントと見なすことができる。 この見解は、彼らの失敗事例と、文献に報告された興味深いモデルに基づく結果を理解するのに役立つ。

Recurrent meta reinforcement learning (meta-RL) agents are agents that employ a recurrent neural network (RNN) for the purpose of "learning a learning algorithm". After being trained on a pre-specified task distribution, the learned weights of the agent's RNN are said to implement an efficient learning algorithm through their activity dynamics, which allows the agent to quickly solve new tasks sampled from the same distribution. However, due to the black-box nature of these agents, the way in which they work is not yet fully understood. In this study, we shed light on the internal working mechanisms of these agents by reformulating the meta-RL problem using the Partially Observable Markov Decision Process (POMDP) framework. We hypothesize that the learned activity dynamics is acting as belief states for such agents. Several illustrative experiments suggest that this hypothesis is true, and that recurrent meta-RL agents can be viewed as agents that learn to act optimally in partially observable environments consisting of multiple related tasks. This view helps in understanding their failure cases and some interesting model-based results reported in the literature.
翻訳日:2021-05-04 03:27:50 公開日:2021-04-29
# (参考訳) チューリング完全性とシド・マイアーの文明 [全文訳有]

Turing Completeness and Sid Meier's Civilization ( http://arxiv.org/abs/2104.14647v1 )

ライセンス: CC BY 4.0
Adrian de Wynter(参考訳) Sid Meier's Civilization: Beyond Earth, Sid Meier's Civilization V, Sid Meier's Civilization VIの3つの戦略ビデオゲームがチューリング完了であることを示す。 我々は,ゲーム内に存在する要素のみを用いて,ゲームごとに3つの汎用チューリングマシンを構築し,その内部ルールと力学を遷移関数として利用する。 そのようなマシンの存在は、仮定の下でゲームが決定不能であることを意味する。 動作中のゲームセッション内でこれらのマシンの構成を示し、我々のマシンの1つで3状態のBusy Beaverのアルゴリズムのサンプル実行を提供する。

We prove that three strategy video games from the Sid Meier's Civilization series: Sid Meier's Civilization: Beyond Earth, Sid Meier's Civilization V, and Sid Meier's Civilization VI, are Turing complete. We achieve this by building three universal Turing machines-one for each game-using only the elements present in the games, and using their internal rules and mechanics as the transition function. The existence of such machines imply that under the assumptions made, the games are undecidable. We show constructions of these machines within a running game session, and we provide a sample execution of an algorithm-the three-state Busy Beaver-with one of our machines.
翻訳日:2021-05-04 03:18:49 公開日:2021-04-29
# (参考訳) 多症例学習と放射線検査に基づく深部注意による肺癌の診断 [全文訳有]

Lung Cancer Diagnosis Using Deep Attention Based on Multiple Instance Learning and Radiomics ( http://arxiv.org/abs/2104.14655v1 )

ライセンス: CC BY 4.0
Junhua Chen, Haiyan Zeng, Chong Zhang, Zhenwei Shi, Andre Dekker, Leonard Wee, Inigo Bermejo(参考訳) 早期の肺癌の診断は、肺がんコンピュータ支援診断(CAD)の治療法として重要な役割を担っている。 しかし、ほとんどのcad法は肺がんの診断を、特定の結節ではなく、一連の結節の画像に基づいて患者を診断する臨床医のプラクティスを反映しない肺結節分類問題として扱う。 さらに、これらの方法によって提供される出力の低解釈性は、その採用において重要な障壁となる。 本稿では, 肺がんの診断を多症例学習(MIL)問題として扱うことにより, 臨床現場での診断過程をよりよく反映し, 出力の高い解釈可能性を実現する。 We chose radiomics as the source of input features and deep attention-based MIL as the classification algorithm.The attention mechanism provides higher interpretability by estimating the importance of each instance in the set for the final diagnosis.In order to improve the model's performance in a small imbalanced dataset, we introduce a new bag simulation method for MIL.The results show that our method can achieve a mean accuracy of 0.807 with a standard error of the mean (SEM) of 0.069, a recall of 0.870 (SEM 0.061), a positive predictive value of 0.928 (SEM 0.078), a negative predictive value of 0.591 (SEM 0.155) and an area under the curve (AUC) of 0.842 (SEM 0.074), outperforming other MIL methods.Additional experiments show that the proposed oversampling strategy significantly improves the model's performance. また,本手法は,診断における各結節の重要性を示す指標であり,放射線学的特徴と組み合わせることで,医師や患者にとってより解釈可能かつ許容可能な結果が得られることを示す。

Early diagnosis of lung cancer is a key intervention for the treatment of lung cancer computer aided diagnosis (CAD) can play a crucial role. However, most published CAD methods treat lung cancer diagnosis as a lung nodule classification problem, which does not reflect clinical practice, where clinicians diagnose a patient based on a set of images of nodules, instead of one specific nodule. Besides, the low interpretability of the output provided by these methods presents an important barrier for their adoption. In this article, we treat lung cancer diagnosis as a multiple instance learning (MIL) problem in order to better reflect the diagnosis process in the clinical setting and for the higher interpretability of the output. We chose radiomics as the source of input features and deep attention-based MIL as the classification algorithm.The attention mechanism provides higher interpretability by estimating the importance of each instance in the set for the final diagnosis.In order to improve the model's performance in a small imbalanced dataset, we introduce a new bag simulation method for MIL.The results show that our method can achieve a mean accuracy of 0.807 with a standard error of the mean (SEM) of 0.069, a recall of 0.870 (SEM 0.061), a positive predictive value of 0.928 (SEM 0.078), a negative predictive value of 0.591 (SEM 0.155) and an area under the curve (AUC) of 0.842 (SEM 0.074), outperforming other MIL methods.Additional experiments show that the proposed oversampling strategy significantly improves the model's performance. In addition, our experiments show that our method provides an indication of the importance of each nodule in determining the diagnosis, which combined with the well-defined radiomic features, make the results more interpretable and acceptable for doctors and patients.
翻訳日:2021-05-04 03:01:07 公開日:2021-04-29
# (参考訳) メタ強化学習を用いたエネルギー需要応答のシミュレーションと実験の間にギャップを埋める [全文訳有]

Using Meta Reinforcement Learning to Bridge the Gap between Simulation and Experiment in Energy Demand Response ( http://arxiv.org/abs/2104.14670v1 )

ライセンス: CC BY-SA 4.0
Doseok Jang, Lucas Spangher, Manan Khattar, Utkarsha Agwan, Costas Spanos(参考訳) 私たちのチームは、オフィスビルで本格的なエネルギー需要対応実験を行うことを提案しています。 これはコミュニティに価値を提供するエキサイティングな取り組みですが、強化学習エージェントのトレーニングデータの収集にはコストがかかり、制限されます。 本研究では,シミュレーションタスクによる実験開始を温め,サンプル効率を向上させるメタラーニングアーキテクチャを適用した。 同様の複雑性のステップアップを示す結果が,いまだよい学習と一致しています。

Our team is proposing to run a full-scale energy demand response experiment in an office building. Although this is an exciting endeavor which will provide value to the community, collecting training data for the reinforcement learning agent is costly and will be limited. In this work, we apply a meta-learning architecture to warm start the experiment with simulated tasks, to increase sample efficiency. We present results that demonstrate a similar a step up in complexity still corresponds with better learning.
翻訳日:2021-05-04 02:48:26 公開日:2021-04-29
# (参考訳) 物理的に実現可能な車両軌道予測 [全文訳有]

Physically Feasible Vehicle Trajectory Prediction ( http://arxiv.org/abs/2104.14679v1 )

ライセンス: CC BY 4.0
Harshayu Girase, Jerrick Hoang, Sai Yalamanchi, and Micol Marchetti-Bowick(参考訳) 交通シーンにおけるアクターの将来の動きを予測することは、自動運転システムにとって重要な部分である。 この領域における最近の研究は、標準軌道誤差メトリクスを最適化する軌道予測アプローチに焦点を当てている。 本稿では,実世界で安全かつ実用的に動作する自動運転システムを開発する上で,物理リアリズム保証,システム保守性,サンプル効率という3つの重要な特性について述べる。 さらに,従来の純粋追従経路追跡アルゴリズムと最新のグラフベースニューラルネットワークを組み合わせた,車両軌道予測のための新しい手法であるptnet(pathtrackingne t)を提案する。 構造化ロボット技術とフレキシブルな学習手法を組み合わせることで,従来の軌道誤差測定法において,他の最先端手法と同等の性能を達成できるだけでなく,予測された軌道の物理的リアリズムを保証し,データ量の半分を必要とすることができる。 この新しいハイブリッドアプローチにフォーカスすることは、安全クリティカルな自動運転システムの開発と維持に有用な方向だと考えています。

Predicting the future motion of actors in a traffic scene is a crucial part of any autonomous driving system. Recent research in this area has focused on trajectory prediction approaches that optimize standard trajectory error metrics. In this work, we describe three important properties -- physical realism guarantees, system maintainability, and sample efficiency -- which we believe are equally important for developing a self-driving system that can operate safely and practically in the real world. Furthermore, we introduce PTNet (PathTrackingNet), a novel approach for vehicle trajectory prediction that is a hybrid of the classical pure pursuit path tracking algorithm and modern graph-based neural networks. By combining a structured robotics technique with a flexible learning approach, we are able to produce a system that not only achieves the same level of performance as other state-of-the-art methods on traditional trajectory error metrics, but also provides strong guarantees about the physical realism of the predicted trajectories while requiring half the amount of data. We believe focusing on this new class of hybrid approaches is an useful direction for developing and maintaining a safety-critical autonomous driving system.
翻訳日:2021-05-04 02:39:06 公開日:2021-04-29
# (参考訳) interspeech zero resource speech challenge 2021: 音声言語モデリング [全文訳有]

The Interspeech Zero Resource Speech Challenge 2021: Spoken language modelling ( http://arxiv.org/abs/2104.14700v1 )

ライセンス: CC BY 4.0
Ewan Dunbar, Mathieu Bernard, Nicolas Hamilakis, Tu Anh Nguyen, Maureen de Seyssel, Patricia Roz\'e, Morgane Rivi\`ere, Eugene Kharitonov, Emmanuel Dupoux(参考訳) 本稿では,テキストやラベルを使わずに,音声から直接言語モデルを学ぶよう参加者に求めるゼロリソース音声チャレンジ2021を紹介する。 この課題はLibri-lightデータセットに基づいており、関連するテキストなしで英語のオーディオブックから最大60k時間のオーディオを提供する。 コントラスト予測符号化(cpc)、量子化器(k$-means)、標準言語モデル(bertまたはlstm)に基づくエンコーダに基づくパイプラインベースラインシステムを提供する。 評価基準は,音響(ABX識別),語彙(スポット・ザ・ワード),構文(アクセプタビリティ判定),意味レベル(類似性判定)における学習表現を評価する。 本稿では,4つのグループから提出された8つのシステムの概要を紹介する。

We present the Zero Resource Speech Challenge 2021, which asks participants to learn a language model directly from audio, without any text or labels. The challenge is based on the Libri-light dataset, which provides up to 60k hours of audio from English audio books without any associated text. We provide a pipeline baseline system consisting on an encoder based on contrastive predictive coding (CPC), a quantizer ($k$-means) and a standard language model (BERT or LSTM). The metrics evaluate the learned representations at the acoustic (ABX discrimination), lexical (spot-the-word), syntactic (acceptability judgment) and semantic levels (similarity judgment). We present an overview of the eight submitted systems from four groups and discuss the main results.
翻訳日:2021-05-04 02:27:06 公開日:2021-04-29
# Few-shot Deep Adaptive Graph を用いたX線画像のスケーラブル半教師付きランドマーク位置決め

Scalable Semi-supervised Landmark Localization for X-ray Images using Few-shot Deep Adaptive Graph ( http://arxiv.org/abs/2104.14629v1 )

ライセンス: Link先を確認
Xiao-Yun Zhou, Bolin Lai, Weijian Li, Yirui Wang, Kang Zheng, Fakai Wang, Chihung Lin, Le Lu, Lingyun Huang, Mei Han, Guotong Xie, Jing Xiao, Kuo Chang-Fu, Adam Harrison, Shun Miao(参考訳) ランドマークのローカライゼーションは、医療画像解析において重要な役割を果たす。 CNNやGCNといった学習ベースの手法は、最先端のパフォーマンスを実証している。 しかし、これらの手法のほとんどは完全に教師され、大規模なトレーニングデータセットのマニュアルラベル付けに大きく依存している。 本稿では,完全教師付きグラフベースDAGに基づいて,このDAGの半教師付き拡張について提案した。 まず、ラベル付きデータ上でDAGモデルをトレーニングし、教師のSSLメカニズムを使用してラベル付きデータ上で事前トレーニングされたモデルを微調整する。 半教師付き損失に加えて、中間特徴写像の整合性を制御するためにJS分散を用いた別の損失を提案する。 骨盤,手指,胸部ランドマーク検出タスクについて広範囲に検討を行った。 実験の結果,従来の手法よりも一貫した有意な改善が得られた。

Landmark localization plays an important role in medical image analysis. Learning based methods, including CNN and GCN, have demonstrated the state-of-the-art performance. However, most of these methods are fully-supervised and heavily rely on manual labeling of a large training dataset. In this paper, based on a fully-supervised graph-based method, DAG, we proposed a semi-supervised extension of it, termed few-shot DAG, \ie five-shot DAG. It first trains a DAG model on the labeled data and then fine-tunes the pre-trained model on the unlabeled data with a teacher-student SSL mechanism. In addition to the semi-supervised loss, we propose another loss using JS divergence to regulate the consistency of the intermediate feature maps. We extensively evaluated our method on pelvis, hand and chest landmark detection tasks. Our experiment results demonstrate consistent and significant improvements over previous methods.
翻訳日:2021-05-03 13:54:05 公開日:2021-04-29
# ファウショット学習者としてのエンターテイメント

Entailment as Few-Shot Learner ( http://arxiv.org/abs/2104.14690v1 )

ライセンス: Link先を確認
Sinong Wang, Han Fang, Madian Khabsa, Hanzi Mao, Hao Ma(参考訳) 大規模な事前学習言語モデル (LM) は、数発の学習者として顕著な能力を示している。 しかし、その成功はモデルパラメータのスケーリングに大きく依存しており、トレーニングとサービスの提供が難しくなっています。 本稿では,小さなLMをより優れた少人数の学習者に変えるための新しいアプローチであるEFLを提案する。 このアプローチの鍵となる考え方は、潜在的NLPタスクをentailmentタスクに再構成し、モデルを8つの例で微調整することである。 提案手法は, (i) 教師なしのコントラスト学習に基づくデータ拡張法と自然に組み合わされ, (ii) 多言語限定学習に容易に拡張できることを示す。 18 の標準 NLP タスクの体系的評価は,既存の SOTA 数ショット学習手法を 12 % 改善し,GPT-3 などの500 倍のモデルで競合的な数ショット性能が得られることを示す。

Large pre-trained language models (LMs) have demonstrated remarkable ability as few-shot learners. However, their success hinges largely on scaling model parameters to a degree that makes it challenging to train and serve. In this paper, we propose a new approach, named as EFL, that can turn small LMs into better few-shot learners. The key idea of this approach is to reformulate potential NLP task into an entailment one, and then fine-tune the model with as little as 8 examples. We further demonstrate our proposed method can be: (i) naturally combined with an unsupervised contrastive learning-based data augmentation method; (ii) easily extended to multilingual few-shot learning. A systematic evaluation on 18 standard NLP tasks demonstrates that this approach improves the various existing SOTA few-shot learning methods by 12\%, and yields competitive few-shot performance with 500 times larger models, such as GPT-3.
翻訳日:2021-05-03 13:53:02 公開日:2021-04-29
# ReLUネットワークの局所リプシッツ定数に関する解析的境界

Analytical bounds on the local Lipschitz constants of ReLU networks ( http://arxiv.org/abs/2104.14672v1 )

ライセンス: Link先を確認
Trevor Avant and Kristi A. Morgansen(参考訳) 本稿では,ReLUアクティベーション機能を有するフィードフォワードニューラルネットワークの局所リプシッツ定数に関する解析的上限を決定する。 我々は、ReLU、アフィン-ReLU、最大プール関数に対してリプシッツ定数とバウンダリを導出し、その結果を組み合わせてネットワーク全体のバウンダリを決定する。 本手法では, 各層の零要素の追跡やアフィンおよびReLU関数の構成解析など, 厳密な境界を求めるためにいくつかの知見を用いる。 さらに,AlexNet や VGG-16 などの大規模ネットワークに適用可能な,慎重な計算手法を採用した。 異なるネットワークを用いて、我々の局所リプシッツ境界がグローバルリプシッツ境界よりも厳密であることを示すいくつかの例を示す。 また,本手法を分類ネットワークの逆境界に適用する方法について述べる。 これらの結果から,AlexNet や VGG-16 などの大規模ネットワークに対して,最小対向摂動に基づく最大境界が得られた。

In this paper, we determine analytical upper bounds on the local Lipschitz constants of feedforward neural networks with ReLU activation functions. We do so by deriving Lipschitz constants and bounds for ReLU, affine-ReLU, and max pooling functions, and combining the results to determine a network-wide bound. Our method uses several insights to obtain tight bounds, such as keeping track of the zero elements of each layer, and analyzing the composition of affine and ReLU functions. Furthermore, we employ a careful computational approach which allows us to apply our method to large networks such as AlexNet and VGG-16. We present several examples using different networks, which show how our local Lipschitz bounds are tighter than the global Lipschitz bounds. We also show how our method can be applied to provide adversarial bounds for classification networks. These results show that our method produces the largest known bounds on minimum adversarial perturbations for large networks such as AlexNet and VGG-16.
翻訳日:2021-05-03 13:51:08 公開日:2021-04-29
# AttendSeg:エッジ上のセマンティックセグメンテーションのためのTiny Attention Condenser Neural Network

AttendSeg: A Tiny Attention Condenser Neural Network for Semantic Segmentation on the Edge ( http://arxiv.org/abs/2104.14623v1 )

ライセンス: Link先を確認
Xiaoyu Wen, Mahmoud Famouri, Andrew Hryniowski, and Alexander Wong(参考訳) 本研究では,デバイス上のセマンティックセマンティックセグメンテーションに適した,低精度でコンパクトなディープニューラルネットワークである \textbf{AttendSeg} を紹介する。 AttendSegは,空間チャネル選択型アテンションを改善する軽量アテンションコンデンサからなる自己アテンションネットワークアーキテクチャを極めて低複雑性で備えている。 AttendSegの独特なマクロアーキテクチャとマイクロアーキテクチャ設計特性は、手作業に特化したマシン駆動設計探索戦略によって達成された、表現力と効率のバランスを強くする。 実験の結果,提案手法は,アーキテクチャや計算の複雑さ(macの27倍,パラメータの72倍,メモリの288倍)をかなり低く抑えつつ,より複雑な深層ニューラルネットワークに匹敵するセグメント化精度を実現し,エッジ上のtinymlアプリケーションに適していることが分かった。

In this study, we introduce \textbf{AttendSeg}, a low-precision, highly compact deep neural network tailored for on-device semantic segmentation. AttendSeg possesses a self-attention network architecture comprising of light-weight attention condensers for improved spatial-channel selective attention at a very low complexity. The unique macro-architecture and micro-architecture design properties of AttendSeg strike a strong balance between representational power and efficiency, achieved via a machine-driven design exploration strategy tailored specifically for the task at hand. Experimental results demonstrated that the proposed AttendSeg can achieve segmentation accuracy comparable to much larger deep neural networks with greater complexity while possessing a significantly lower architecture and computational complexity (requiring as much as >27x fewer MACs, >72x fewer parameters, and >288x lower weight memory requirements), making it well-suited for TinyML applications on the edge.
翻訳日:2021-05-03 13:49:59 公開日:2021-04-29
# 複数のドメイン上でのクラスタ駆動グラフフェデレーション学習

Cluster-driven Graph Federated Learning over Multiple Domains ( http://arxiv.org/abs/2104.14628v1 )

ライセンス: Link先を確認
Debora Caldarola, Massimiliano Mancini, Fabio Galasso, Marco Ciccone, Emanuele Rodol\`a, Barbara Caputo(参考訳) フェデレートラーニング(FL)は、中央モデル(すなわち、学習モデル)を扱う。 プライバシに制約のあるシナリオでは、データは複数のデバイス(つまり)に格納される。 クライアント)。 中央モデルにはデータへの直接アクセスはなく、各クライアントがローカルに計算したパラメータの更新のみである。 これは、クライアントが異なるデータ分布(すなわち、異なるデータ分布)を持つため、統計的不均一性と呼ばれる問題を引き起こす。 ドメイン)。 これはクライアントのクラスタ化によって部分的に緩和されるだけである。 クラスタリングはドメインを識別することで異質性を低下させるが、データのクラスタモデルや他者の監視を損なう。 本稿では,クラスタ駆動グラフフェデレーション学習(FedCG)を提案する。 FedCGでは、クラスタリングは統計的不均一性に対応するのに役立ち、グラフ畳み込みネットワーク(GCN)はそれらの間の知識の共有を可能にする。 FedCG: i) FL準拠のクラスタリングを通じてドメインを特定し、各ドメインのドメイン固有のモジュール(残留ブランチ)をインスタンス化し、i) ドメイン間の相互作用を学び、知識を共有するためのトレーニングにおいてGCNを介してドメイン固有のモジュールを接続する。 クラスタ上のGCNのユニークな相互作用のおかげで、FedCGは複数のFLベンチマークの最先端を実現している。

Federated Learning (FL) deals with learning a central model (i.e. the server) in privacy-constrained scenarios, where data are stored on multiple devices (i.e. the clients). The central model has no direct access to the data, but only to the updates of the parameters computed locally by each client. This raises a problem, known as statistical heterogeneity, because the clients may have different data distributions (i.e. domains). This is only partly alleviated by clustering the clients. Clustering may reduce heterogeneity by identifying the domains, but it deprives each cluster model of the data and supervision of others. Here we propose a novel Cluster-driven Graph Federated Learning (FedCG). In FedCG, clustering serves to address statistical heterogeneity, while Graph Convolutional Networks (GCNs) enable sharing knowledge across them. FedCG: i) identifies the domains via an FL-compliant clustering and instantiates domain-specific modules (residual branches) for each domain; ii) connects the domain-specific modules through a GCN at training to learn the interactions among domains and share knowledge; and iii) learns to cluster unsupervised via teacher-student classifier-training iterations and to address novel unseen test domains via their domain soft-assignment scores. Thanks to the unique interplay of GCN over clusters, FedCG achieves the state-of-the-art on multiple FL benchmarks.
翻訳日:2021-05-03 13:49:41 公開日:2021-04-29
# グラフニューラルネットワークの論理

The Logic of Graph Neural Networks ( http://arxiv.org/abs/2104.14624v1 )

ライセンス: Link先を確認
Martin Grohe(参考訳) グラフニューラルネットワーク(gnns)は、グラフ上の機械学習問題のディープラーニングアーキテクチャである。 近年、GNNの表現性は、組合せWeisfeiler-Lemanアルゴリズムと有限変数カウント論理によって正確に特徴づけられることが示されている。 この対応により、より高次元のWLアルゴリズムに対応する新しい高階GNNがもたらされた。 本研究の目的は,GNNのこれらの記述的特徴を説明することである。

Graph neural networks (GNNs) are deep learning architectures for machine learning problems on graphs. It has recently been shown that the expressiveness of GNNs can be characterised precisely by the combinatorial Weisfeiler-Leman algorithms and by finite variable counting logics. The correspondence has even led to new, higher-order GNNs corresponding to the WL algorithm in higher dimensions. The purpose of this paper is to explain these descriptive characterisations of GNNs.
翻訳日:2021-05-03 13:48:06 公開日:2021-04-29
# マルチモーダルグラフ畳み込みネットワークによる都市動態のモデル化

Modelling Urban Dynamics with Multi-Modal Graph Convolutional Networks ( http://arxiv.org/abs/2104.14633v1 )

ライセンス: Link先を確認
Krittika D'Silva, Jordan Cambe, Anastasios Noulas, Cecilia Mascolo, Adam Waksman(参考訳) 都市会場のダイナミクスのモデル化は、自然界では多面的であるため、難しい課題である。 需要は、近隣構成、リアルタイムイベント、季節性など、多くの複雑で非線形な特徴の関数である。 グラフ畳み込みネットワーク(GCN)の最近の進歩は、システムのグラフィカルな表現を構築し、ディープラーニングアーキテクチャの可能性を活用することで、有望な成果を上げている。 しかし、ネットワークの動的依存関係をモデル化するための時間的設定では、GCNを使用する作業は限られている。 さらに、都市環境の文脈では、場所需要分析と予測を支援するために動的GCNを用いた以前の作業は行われていない。 本稿では,都市会場の人気と成長をモデル化することを目的とした,新しい深層学習フレームワークを提案する。 位置技術プラットフォームfoursquareの縦長データセットを使用して、ロンドンとパリをまたいで、個々の会場や会場タイプをモデル化します。 まず、都市を会場の接続ネットワークとして表現し、その構造を定量化し、これらの小売ネットワークにおける強力なコミュニティ構造に注目する。 次に,空間的特徴と位相的特徴の両方を時間モデルに統合したディープラーニングアーキテクチャを提案する。 我々の実験は,会場需要の時空間的傾向を学習し,ベースラインモデルより一貫して優れていることを示す。 最先端のディープラーニングモデルと比較して、私たちのモデルはRSMEをロンドンで約28%、パリで約13%削減します。 本手法は,都市環境予測モデル構築における複雑なネットワーク対策とGCNの力を強調する。 このモデルは、店舗の需要と成長をより良くモデル化するために、小売部門内で多くの応用を行うことができる。

Modelling the dynamics of urban venues is a challenging task as it is multifaceted in nature. Demand is a function of many complex and nonlinear features such as neighborhood composition, real-time events, and seasonality. Recent advances in Graph Convolutional Networks (GCNs) have had promising results as they build a graphical representation of a system and harness the potential of deep learning architectures. However, there has been limited work using GCNs in a temporal setting to model dynamic dependencies of the network. Further, within the context of urban environments, there has been no prior work using dynamic GCNs to support venue demand analysis and prediction. In this paper, we propose a novel deep learning framework which aims to better model the popularity and growth of urban venues. Using a longitudinal dataset from location technology platform Foursquare, we model individual venues and venue types across London and Paris. First, representing cities as connected networks of venues, we quantify their structure and note a strong community structure in these retail networks, an observation that highlights the interplay of cooperative and competitive forces that emerge in local ecosystems of retail businesses. Next, we present our deep learning architecture which integrates both spatial and topological features into a temporal model which predicts the demand of a venue at the subsequent time-step. Our experiments demonstrate that our model can learn spatio-temporal trends of venue demand and consistently outperform baseline models. Relative to state-of-the-art deep learning models, our model reduces the RSME by ~ 28% in London and ~ 13% in Paris. Our approach highlights the power of complex network measures and GCNs in building prediction models for urban environments. The model could have numerous applications within the retail sector to better model venue demand and growth.
翻訳日:2021-05-03 13:48:00 公開日:2021-04-29
# 非ユークリッド損失下での低ランクテンソル分解に対する確率鏡像

Stochastic Mirror Descent for Low-Rank Tensor Decomposition Under Non-Euclidean Losses ( http://arxiv.org/abs/2104.14562v1 )

ライセンス: Link先を確認
Wenqiang Pu, Shahana Ibrahim, Xiao Fu, and Mingyi Hong(参考訳) この研究は、統計機械学習や信号処理で頻繁に発生する非ユークリッド損失関数のクラスの下で、低ランクな正準多元分解(CPD)を考える。 これらの損失関数は、例えば、最小二乗の損失が非自然であると考えられ、最小二乗の損失が最小二乗の損失であるような、ある種のテンソルデータに対してしばしば用いられる。 非ユークリッドのcpdはかなりの関心を集め、多くの先行作品が存在する。 しかし、拡張性や収束性といった計算的および理論的課題はいまだに残っている。 この研究は、様々な非ユークリッド損失関数の下での大規模CPD分解のための統合確率的アルゴリズムフレームワークを提供する。 我々の重要な貢献は、テンソルファイバーサンプリング戦略に基づくフレキシブル確率ミラー降下フレームワークである。 サンプリングスキームと低ランクテンソルの多線形代数構造を利用して,提案する軽量アルゴリズムは,合理的な条件下で静止点への大域収束を保証する。 その結果,本フレームワークは非ユークリッドcpd性能を期待できることがわかった。 提案手法は,最先端手法と比較して計算量を大幅に削減する。

This work considers low-rank canonical polyadic decomposition (CPD) under a class of non-Euclidean loss functions that frequently arise in statistical machine learning and signal processing. These loss functions are often used for certain types of tensor data, e.g., count and binary tensors, where the least squares loss is considered unnatural.Compared to the least squares loss, the non-Euclidean losses are generally more challenging to handle. Non-Euclidean CPD has attracted considerable interests and a number of prior works exist. However, pressing computational and theoretical challenges, such as scalability and convergence issues, still remain. This work offers a unified stochastic algorithmic framework for large-scale CPD decomposition under a variety of non-Euclidean loss functions. Our key contribution lies in a tensor fiber sampling strategy-based flexible stochastic mirror descent framework. Leveraging the sampling scheme and the multilinear algebraic structure of low-rank tensors, the proposed lightweight algorithm ensures global convergence to a stationary point under reasonable conditions. Numerical results show that our framework attains promising non-Euclidean CPD performance. The proposed framework also exhibits substantial computational savings compared to state-of-the-art methods.
翻訳日:2021-05-03 13:46:40 公開日:2021-04-29
# Action-Pointer Transformer を用いたAMR解析

AMR Parsing with Action-Pointer Transformer ( http://arxiv.org/abs/2104.14674v1 )

ライセンス: Link先を確認
Jiawei Zhou, Tahira Naseem, Ram\'on Fernandez Astudillo, Radu Florian(参考訳) 抽象的意味表現解析(Abstract Meaning Representation parsing)は、ターゲットノードが文トークンに明示的に一致していない文間予測タスクである。 しかし、グラフノードは1つ以上の文トークンを意味的にベースとしているため、暗黙のアライメントを導出することができる。 トランジションベースのパーサーは文を左から右に操作し、この帰納的バイアスを限定的な表現性のコストでアライメントする。 本研究では,文上のハードアテンションとターゲット側のアクションポインタ機構を組み合わせることで,ノード表現やアドレスアライメントからソーストークンを分離するトランジションベースシステムを提案する。 我々は、単一のトランスフォーマーアーキテクチャ内で簡単に修正することで、遷移とポインタメカニズムをモデル化する。 注意ヘッドを用いてパーザ状態とグラフ構造情報を効率的に符号化する。 我々は, アクション・ポインターのアプローチによって表現性が向上し, 最適な遷移型AMRパーサに対して大きな利得(+1.6点)が得られることを示す。 グラフの再分類は行わないが,AMR 2.0 (81.8) ではSmatchスコアが第2位となり,銀データとアンサンブル復号により83.4に向上した。

Abstract Meaning Representation parsing is a sentence-to-graph prediction task where target nodes are not explicitly aligned to sentence tokens. However, since graph nodes are semantically based on one or more sentence tokens, implicit alignments can be derived. Transition-based parsers operate over the sentence from left to right, capturing this inductive bias via alignments at the cost of limited expressiveness. In this work, we propose a transition-based system that combines hard-attention over sentences with a target-side action pointer mechanism to decouple source tokens from node representations and address alignments. We model the transitions as well as the pointer mechanism through straightforward modifications within a single Transformer architecture. Parser state and graph structure information are efficiently encoded using attention heads. We show that our action-pointer approach leads to increased expressiveness and attains large gains (+1.6 points) against the best transition-based AMR parser in very similar conditions. While using no graph re-categorization, our single model yields the second best Smatch score on AMR 2.0 (81.8), which is further improved to 83.4 with silver data and ensemble decoding.
翻訳日:2021-05-03 13:46:23 公開日:2021-04-29
# Mono-Polyをプレイしよう:BERTは単語のポリセミーレベルと分割性をセンセーションに活用できる

Let's Play Mono-Poly: BERT Can Reveal Words' Polysemy Level and Partitionability into Senses ( http://arxiv.org/abs/2104.14694v1 )

ライセンス: Link先を確認
Aina Gar\'i Soler and Marianna Apidianaki(参考訳) 事前学習言語モデル(LM)は言語構造に関する豊富な情報を符号化しているが、語彙多節語に関する知識は未だ不明である。 本稿では,異なる言語(英語,フランス語,スペイン語,ギリシア語)と多言語BERTで訓練されたLMにおいて,この知識を解析するための新たな実験装置を提案する。 我々は、異なる感覚分布を反映するように設計されたデータセットを慎重に分析し、周波数や文法カテゴリーなどの多義性と高い相関を持つパラメータの制御を行う。 BERTに基づく表現は、単語のポリセミーレベルとその分割可能性を知覚に反映することを示した。 ポリセミー関連情報は、英語のbert埋め込みにおいてより明確に存在するが、他の言語におけるモデルは、異なるポリセミーレベルにおける単語間の関連した区別を確立することもできる。 本研究では,文脈化表現にエンコードされた知識の理解を深め,多言語語彙意味論研究の新たな道を開く。

Pre-trained language models (LMs) encode rich information about linguistic structure but their knowledge about lexical polysemy remains unclear. We propose a novel experimental setup for analysing this knowledge in LMs specifically trained for different languages (English, French, Spanish and Greek) and in multilingual BERT. We perform our analysis on datasets carefully designed to reflect different sense distributions, and control for parameters that are highly correlated with polysemy such as frequency and grammatical category. We demonstrate that BERT-derived representations reflect words' polysemy level and their partitionability into senses. Polysemy-related information is more clearly present in English BERT embeddings, but models in other languages also manage to establish relevant distinctions between words at different polysemy levels. Our results contribute to a better understanding of the knowledge encoded in contextualised representations and open up new avenues for multilingual lexical semantics research.
翻訳日:2021-05-03 13:46:02 公開日:2021-04-29
# 教師なし階層画像のオブジェクトプロトタイプへの分解

Unsupervised Layered Image Decomposition into Object Prototypes ( http://arxiv.org/abs/2104.14575v1 )

ライセンス: Link先を確認
Tom Monnier, Elliot Vincent, Jean Ponce, Mathieu Aubry(参考訳) 自動検出対象モデルの層に画像を分解するための教師なし学習フレームワークを提案する。 オートエンコーダネットワークで画像層をモデル化する最近のアプローチとは対照的に、我々はそれらを少数の原型画像の明示的な変換として表現する。 モデルには3つの主要要素がある: (i) 学習可能な画像にスプライト(sprite)と呼ばれる透明なチャネルを組み込んだオブジェクトプロトタイプセット、 (ii) 任意の画像中のスプライトをインスタンス化するのに必要なオクルージョンと変換パラメータを予測可能なパラメトリック関数、 (iii) これらのインスタンスを背景を含む完全な画像に合成するための層画像形成モデル。 スプライトとオクルージョン/トランスフォーメーション予測器を共同で学習することで,画像の正確な階層化を実現するだけでなく,オブジェクトのカテゴリやインスタンスパラメータも識別する。 まず、標準的なマルチオブジェクト合成ベンチマーク(Tetrominoes、Multi-dSprites、CLEVR6)上で、技術の現状と同等の結果を提供することで、我々のアプローチを検証する。 次に、クラスタリング(SVHN, GTSRB)、コセグメンテーション(Weizmann Horse)、未フィルタリングのソーシャルネットワーク画像からのオブジェクト発見などのタスクにおいて、モデルが実際の画像に適用可能であることを示す。 我々の知る限りでは、我々のアプローチは、オブジェクトタイプの明示的で共有された概念を学習する最初の階層化画像分解アルゴリズムであり、実際の画像に適用できるほど堅牢である。

We present an unsupervised learning framework for decomposing images into layers of automatically discovered object models. Contrary to recent approaches that model image layers with autoencoder networks, we represent them as explicit transformations of a small set of prototypical images. Our model has three main components: (i) a set of object prototypes in the form of learnable images with a transparency channel, which we refer to as sprites; (ii) differentiable parametric functions predicting occlusions and transformation parameters necessary to instantiate the sprites in a given image; (iii) a layered image formation model with occlusion for compositing these instances into complete images including background. By jointly learning the sprites and occlusion/transforma tion predictors to reconstruct images, our approach not only yields accurate layered image decompositions, but also identifies object categories and instance parameters. We first validate our approach by providing results on par with the state of the art on standard multi-object synthetic benchmarks (Tetrominoes, Multi-dSprites, CLEVR6). We then demonstrate the applicability of our model to real images in tasks that include clustering (SVHN, GTSRB), cosegmentation (Weizmann Horse) and object discovery from unfiltered social network images. To the best of our knowledge, our approach is the first layered image decomposition algorithm that learns an explicit and shared concept of object type, and is robust enough to be applied to real images.
翻訳日:2021-05-03 13:44:27 公開日:2021-04-29
# HandsFormer: インタラクションにおける手とオブジェクトのモノクロ3次元ポス推定のためのキーポイント変換器

HandsFormer: Keypoint Transformer for Monocular 3D Pose Estimation ofHands and Object in Interaction ( http://arxiv.org/abs/2104.14639v1 )

ライセンス: Link先を確認
Shreyas Hampali, Sayan Deb Sarkar, Mahdi Rad, Vincent Lepetit(参考訳) 単色画像からの密接な相互作用で両手の3次元ポーズを推定する頑健で正確な手法を提案する。 これは非常に難しい問題であり、大きな咬合と関節間の多くの混乱が起こる可能性がある。 本手法は, 両手関節の電位2d位置をヒートマップの極値として抽出することから始まる。 すべての位置がジョイントに対応している必要はなく、すべてのジョイントが検出されるわけではない。 我々はこれらの位置の外観と空間のエンコーディングをトランスの入力として使用し、注意機構を利用して関節の正確な構成をソートし、両手の3Dポーズを出力する。 提案手法は,変換器の認識能力をヒートマップ方式の精度に適応させる。 また,手が操作する物体の3dポーズを推定するために拡張できることを示した。 我々は最近のInterHand2.6MとHO-3Dデータセットに対するアプローチを評価した。 ベースラインよりも17%改善しています。 さらに、3Dで完全に注釈付けされたオブジェクトを操作する2つの手によるアクションシーケンスからなる最初のデータセットを導入し、公開する。

We propose a robust and accurate method for estimating the 3D poses of two hands in close interaction from a single color image. This is a very challenging problem, as large occlusions and many confusions between the joints may happen. Our method starts by extracting a set of potential 2D locations for the joints of both hands as extrema of a heatmap. We do not require that all locations correctly correspond to a joint, not that all the joints are detected. We use appearance and spatial encodings of these locations as input to a transformer, and leverage the attention mechanisms to sort out the correct configuration of the joints and output the 3D poses of both hands. Our approach thus allies the recognition power of a Transformer to the accuracy of heatmap-based methods. We also show it can be extended to estimate the 3D pose of an object manipulated by one or two hands. We evaluate our approach on the recent and challenging InterHand2.6M and HO-3D datasets. We obtain 17% improvement over the baseline. Moreover, we introduce the first dataset made of action sequences of two hands manipulating an object fully annotated in 3D and will make it publicly available.
翻訳日:2021-05-03 13:43:58 公開日:2021-04-29
# AGORA: 回帰分析に最適化された地理のアバター

AGORA: Avatars in Geography Optimized for Regression Analysis ( http://arxiv.org/abs/2104.14643v1 )

ライセンス: Link先を確認
Priyanka Patel, Chun-Hao P. Huang, Joachim Tesch, David T. Hoffmann, Shashank Tripathi, Michael J. Black(参考訳) ベンチマークデータセットでは,画像からの3次元ポーズ推定の精度が着実に向上しているが,実世界のシナリオでは依然として最善の方法が失われている。 これは、現在のデータセットと人を含む一般的なシーンの間にはドメインギャップがあることを示している。 地味な3Dポーズを得るために、現在のデータセットは、衣服の複雑さ、環境条件、被写体数、閉塞を制限する。 さらに、現在のデータセットは、手ポーズや顔の形状を無視して、体の主関節に対応するスパース3D関節位置を評価する。 より難解な画像に対する現在の最先端の手法を評価し,新しい問題に対処するための分野を開拓するために,高リアリズムかつ高精度な基盤真理を持つ合成データセットである agora を紹介する。 ここでは4240の市販品、高品質、テクスチャ化された人間のスキャンをさまざまなポーズや自然の衣服に使用しています。 SMPL-Xボディモデル(顔と手)を3Dスキャンに装着し,衣服を考慮した基準3Dポーズと体形を作成する。 画像ベースの照明やレンダリングされた3D環境を使って、1枚あたり5~15人の画像をレンダリングすることで、約14Kのトレーニングと3Kテスト画像を作成します。 AGORAは合計173万個体の作物から構成されている。 このデータセットを用いて既存の3次元ポーズ推定手法の評価を行い、ほとんどの手法が子供の画像に悪影響を及ぼすことを示した。 したがって、SMPL-Xモデルを拡張して、子供の形状をよりよく把握する。 さらに,AGORA上での微調整を行い,AGORAと3DPWの両方の性能向上を示し,データセットの現実性を確認した。 登録された3D参照トレーニングデータ、レンダリング画像、およびWebベースの評価サイトをhttps://agora.is.tue .mpg.de/.comで提供します。

While the accuracy of 3D human pose estimation from images has steadily improved on benchmark datasets, the best methods still fail in many real-world scenarios. This suggests that there is a domain gap between current datasets and common scenes containing people. To obtain ground-truth 3D pose, current datasets limit the complexity of clothing, environmental conditions, number of subjects, and occlusion. Moreover, current datasets evaluate sparse 3D joint locations corresponding to the major joints of the body, ignoring the hand pose and the face shape. To evaluate the current state-of-the-art methods on more challenging images, and to drive the field to address new problems, we introduce AGORA, a synthetic dataset with high realism and highly accurate ground truth. Here we use 4240 commercially-availab le, high-quality, textured human scans in diverse poses and natural clothing; this includes 257 scans of children. We create reference 3D poses and body shapes by fitting the SMPL-X body model (with face and hands) to the 3D scans, taking into account clothing. We create around 14K training and 3K test images by rendering between 5 and 15 people per image using either image-based lighting or rendered 3D environments, taking care to make the images physically plausible and photoreal. In total, AGORA consists of 173K individual person crops. We evaluate existing state-of-the-art methods for 3D human pose estimation on this dataset and find that most methods perform poorly on images of children. Hence, we extend the SMPL-X model to better capture the shape of children. Additionally, we fine-tune methods on AGORA and show improved performance on both AGORA and 3DPW, confirming the realism of the dataset. We provide all the registered 3D reference training data, rendered images, and a web-based evaluation site at https://agora.is.tue .mpg.de/.
翻訳日:2021-05-03 13:43:41 公開日:2021-04-29
# 顔認証のための手動および自動皮膚トーン割り当ての解析

Analysis of Manual and Automated Skin Tone Assignments for Face Recognition Applications ( http://arxiv.org/abs/2104.14685v1 )

ライセンス: Link先を確認
KS Krishnapriya, Michael C. King, Kevin W. Bowyer(参考訳) ニュース報道によると、肌の色が暗くなると顔認識エラーが増加するという。 フィッツパトリックスケールは皮膚科学において、日光や皮膚のトーンに対する感受性を分類するために広く用いられている。 本稿では,手作業によるフィッツパトリックスキンタイプの課題を分析し,個別のタイポロジーアングルを用いて顔画像から皮膚のトーンを自動的に推定する。 手動の肌のトーン評価実験のセットは、人間のパーサーの間には排除が難しい不一致があることを示しています。 皮膚のトーン評価を自動化しようとする試みは、シーンに校正対象のない画像が特に難しいことを示唆している。 しかし、色補正後、自動アプローチと手動アプローチの一致度は、MORPH画像の96%以上であることが判明した。 本研究は, (a) 観察者間の手動肌色評価の一貫性を検討すること, (b) 指導のために例示画像が与えられ, すべての画像が色補正された場合でも, 異なる観察者による同一画像の格付けにかなりの変動があること, (c) 手動肌色評価と自動肌色評価を比較したことである。

News reports have suggested that darker skin tone causes an increase in face recognition errors. The Fitzpatrick scale is widely used in dermatology to classify sensitivity to sun exposure and skin tone. In this paper, we analyze a set of manual Fitzpatrick skin type assignments and also employ the individual typology angle to automatically estimate the skin tone from face images. The set of manual skin tone rating experiments shows that there are inconsistencies between human raters that are difficult to eliminate. Efforts to automate skin tone rating suggest that it is particularly challenging on images collected without a calibration object in the scene. However, after the color-correction, the level of agreement between automated and manual approaches is found to be 96% or better for the MORPH images. To our knowledge, this is the first work to: (a) examine the consistency of manual skin tone ratings across observers, (b) document that there is substantial variation in the rating of the same image by different observers even when exemplar images are given for guidance and all images are color-corrected, and (c) compare manual versus automated skin tone ratings.
翻訳日:2021-05-03 13:43:07 公開日:2021-04-29
# スピリット蒸留:多領域知識伝達を用いたモデル圧縮法

Spirit Distillation: A Model Compression Method with Multi-domain Knowledge Transfer ( http://arxiv.org/abs/2104.14696v1 )

ライセンス: Link先を確認
Zhiyuan Wu, Yu Jiang, Minghao Zhao, Chupeng Cui, Zongmin Yang, Xinhui Xue, Hong Qi(参考訳) 近年のアプリケーションは、訓練データ不足と限られた計算資源のために、クロスドメイン知識伝達とモデル圧縮の両方を機械学習モデルに要求している。 本稿では,多分野知識伝達を用いたモデル圧縮法であるスピリット蒸留(SD)と呼ばれる新しい知識蒸留モデルを提案する。 コンパクトな学生ネットワークは、教師ネットワークの前部に相当する表現を模倣し、ソースドメイン(教師)からターゲットドメイン(学生)へ一般知識を転送する。 学生のロバスト性をさらに向上するため,SDを拡張スピリット蒸留(ESD)に拡張し,特徴抽出のターゲット領域に類似した近接領域を導入することにより,より包括的知識を活用する。 その結果,miou とhigh-precision の精度をそれぞれ 78.2% のセグメンテーション分散で 1.4% と 8.2% 向上させ,41.8% のフロップで正確なコンパクトネットワークを得ることができた。

Recent applications pose requirements of both cross-domain knowledge transfer and model compression to machine learning models due to insufficient training data and limited computational resources. In this paper, we propose a new knowledge distillation model, named Spirit Distillation (SD), which is a model compression method with multi-domain knowledge transfer. The compact student network mimics out a representation equivalent to the front part of the teacher network, through which the general knowledge can be transferred from the source domain (teacher) to the target domain (student). To further improve the robustness of the student, we extend SD to Enhanced Spirit Distillation (ESD) in exploiting a more comprehensive knowledge by introducing the proximity domain which is similar to the target domain for feature extraction. Results demonstrate that our method can boost mIOU and high-precision accuracy by 1.4% and 8.2% respectively with 78.2% segmentation variance, and can gain a precise compact network with only 41.8% FLOPs.
翻訳日:2021-05-03 13:42:43 公開日:2021-04-29
# 医用画像分割用ピラミッド型医用トランス

Pyramid Medical Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2104.14702v1 )

ライセンス: Link先を確認
Zhuangzhuang Zhang, Baozhou Sun, Weixiong Zhang(参考訳) 深層ニューラルネットワークは、医療画像処理の分野で広く使われている技術である。 しかし、最も一般的な畳み込みニューラルネットワーク(cnns)ベースの医療画像分割法は、長距離画素関係を適切にモデル化できないため不完全である。 近年, トランスフォーマーと自己着脱機構が提案されているが, その位置に関わらず, 単語間注意のすべてのペアをモデル化することにより, 長距離依存を効果的に学習できる。 このアイデアは、イメージパッチを埋め込みとして作成し、扱い、コンピュータビジョン分野にも拡張された。 画像全体の自己アテンションの計算複雑性を考慮すると、現在のトランスフォーマーベースのモデルは、情報的関係を失う可能性のある厳密な分割スキームに着目する。 さらに、現在の医療トランスフォーマーは全解像度画像のグローバルコンテキストをモデル化し、不要な計算コストにつながる。 これらの問題に対処するため,我々はピラミッド型ネットワークアーキテクチャであるピラミッド型医療トランスフォーマ(pmtrans)を用いて,マルチスケール注意とcnn特徴抽出を統合する新しい手法を開発した。 pmtransはマルチレゾリューション画像を用いてマルチレンジ関係を捉えた。 情報的関係を保ち、異なる受容場に効率的にアクセスするために適応的な分割方式が実装された。 2つの医用画像データセット(腺セグメンテーションとMoNuSegデータセット)の実験結果は、PMTransが最新のCNNベースおよびトランスフォーマーベースの医療用画像セグメンテーションモデルより優れていることを示した。

Deep neural networks have been a prevailing technique in the field of medical image processing. However, the most popular convolutional neural networks (CNNs) based methods for medical image segmentation are imperfect because they cannot adequately model long-range pixel relations. Transformers and the self-attention mechanism are recently proposed to effectively learn long-range dependencies by modeling all pairs of word-to-word attention regardless of their positions. The idea has also been extended to the computer vision field by creating and treating image patches as embeddings. Considering the computation complexity for whole image self-attention, current transformer-based models settle for a rigid partitioning scheme that would potentially lose informative relations. Besides, current medical transformers model global context on full resolution images, leading to unnecessary computation costs. To address these issues, we developed a novel method to integrate multi-scale attention and CNN feature extraction using a pyramidal network architecture, namely Pyramid Medical Transformer (PMTrans). The PMTrans captured multi-range relations by working on multi-resolution images. An adaptive partitioning scheme was implemented to retain informative relations and to access different receptive fields efficiently. Experimental results on two medical image datasets, gland segmentation and MoNuSeg datasets, showed that PMTrans outperformed the latest CNN-based and transformer-based models for medical image segmentation.
翻訳日:2021-05-03 13:42:24 公開日:2021-04-29
# 平均場ゲームにおける最大エントロピー逆強化学習

Maximum Entropy Inverse Reinforcement Learning for Mean Field Games ( http://arxiv.org/abs/2104.14654v1 )

ライセンス: Link先を確認
Yang Chen, Jiamou Liu and Bakhadyr Khoussainov(参考訳) 平均場ゲーム (MFG) は, 大規模マルチエージェントシステム (MAS) において, 個々のエージェントと人口の集団との間のエージェント間の相互作用を減らし, 難易度の高い強化学習 (RL) を促進する。 一方、RLエージェントは報酬のミス特定のために予期せぬ行動を起こすことが知られている。 この問題は、拡大するMASによって悪化する。 逆強化学習(IRL)は、専門家によるデモンストレーションから適切な報酬関数を自動的に取得するフレームワークを提供する。 しかし、IRLをMFGに拡張することは、平均場型平衡の複雑な概念とエージェントレベルと集団レベルのダイナミクスの結合により困難である。 そこで本研究では,MFGのための新しいモデルフリーIRLフレームワークである平均場逆強化学習(MFIRL)を提案する。 我々は、エントロピー正規化と最大エントロピー irl フレームワークを組み込んだ新しい平衡概念に基づいてアルゴリズムを導出する。 シミュレーション環境における実験結果から,MFIRLは試料効率が良く,基礎構造報酬関数を精度良く回収できることが示された。

Mean field games (MFG) facilitate the otherwise intractable reinforcement learning (RL) in large-scale multi-agent systems (MAS), through reducing interplays among agents to those between a representative individual agent and the mass of the population. While, RL agents are notoriously prone to unexpected behaviours due to reward mis-specification. This problem is exacerbated by an expanding scale of MAS. Inverse reinforcement learning (IRL) provides a framework to automatically acquire proper reward functions from expert demonstrations. Extending IRL to MFG, however, is challenging due to the complex notion of mean-field-type equilibria and the coupling between agent-level and population-level dynamics. To this end, we propose mean field inverse reinforcement learning (MFIRL), a novel model-free IRL framework for MFG. We derive the algorithm based on a new equilibrium concept that incorporates entropy regularization, and the maximum entropy IRL framework. Experimental results on simulated environments demonstrate that MFIRL is sample efficient and can accurately recover the ground-truth reward functions, compared to the state-of-the-art method.
翻訳日:2021-05-03 13:35:33 公開日:2021-04-29
# 完全注意戦略を用いたu-netを用いた亀裂セグメンテーション

Crack Semantic Segmentation using the U-Net with Full Attention Strategy ( http://arxiv.org/abs/2104.14586v1 )

ライセンス: Link先を確認
Fangzheng Lin, Jiesheng Yang, Jiangpeng Shu, Raimar J. Scherer(参考訳) 構造体はひび割れの発生に悩まされるため、ひび割れ検出は構造体の健康モニタリングにおいて常に問題となる。 ディープラーニング技術の急速な進歩とともに、画像セマンティックセグメンテーション(能動的研究分野)は、より効率的でインテリジェントなクラック検出のための別のソリューションを提供する。 本稿では,画像セマンティクスセグメンテーションのためのフルアテンションu-netという新しい人工ニューラルネットワークアーキテクチャを提案する。 提案アーキテクチャはU-netをバックボーンとして利用し,アテンション機構と各符号化層からの出力をスキップ接続で合成するフルアテンション戦略を採用する。 トレーニングのハードウェアに従うと、実験は検証と検証で構成されます。 検証では,U-net,Attention U-net,Advanced Attention U-net,Full Attention U-netの4つのネットワークをセルイメージを用いてテストし,競合研究を行った。 平均交叉対とエッジ識別の明確性に関して、Full Attention U-netは検証において最良であり、その有効性を実証するために、検証におけるセマンティックセグメンテーションに適用される。

Structures suffer from the emergence of cracks, therefore, crack detection is always an issue with much concern in structural health monitoring. Along with the rapid progress of deep learning technology, image semantic segmentation, an active research field, offers another solution, which is more effective and intelligent, to crack detection Through numerous artificial neural networks have been developed to address the preceding issue, corresponding explorations are never stopped improving the quality of crack detection. This paper presents a novel artificial neural network architecture named Full Attention U-net for image semantic segmentation. The proposed architecture leverages the U-net as the backbone and adopts the Full Attention Strategy, which is a synthesis of the attention mechanism and the outputs from each encoding layer in skip connection. Subject to the hardware in training, the experiments are composed of verification and validation. In verification, 4 networks including U-net, Attention U-net, Advanced Attention U-net, and Full Attention U-net are tested through cell images for a competitive study. With respect to mean intersection-over-un ions and clarity of edge identification, the Full Attention U-net performs best in verification, and is hence applied for crack semantic segmentation in validation to demonstrate its effectiveness.
翻訳日:2021-05-03 13:32:13 公開日:2021-04-29
# text2video: 音声辞書を用いた音声対話型ビデオ合成

Text2Video: Text-driven Talking-head Video Synthesis with Phonetic Dictionary ( http://arxiv.org/abs/2104.14631v1 )

ライセンス: Link先を確認
Sibo Zhang, Jiahong Yuan, Miao Liao, Liangjun Zhang(参考訳) ディープラーニング技術の進歩により、音声やテキストからの自動ビデオ生成が、新しくて有望な研究トピックになりつつある。 本稿では,テキストから映像を合成する新しい手法を提案する。 この方法は、音素ポーズ辞書を構築し、音素ポーズの補間からビデオを生成するために生成広告ネットワーク(gan)を訓練する。 音声駆動ビデオ生成アルゴリズムと比較して,(1)音声駆動アプローチで使用されるトレーニングデータのほんの一部しか必要とせず,2)話者のばらつきにより柔軟性が高く,脆弱性を伴わない,3)前処理,トレーニング,推論時間を大幅に削減する,という利点がある。 提案手法をベンチマークデータセットとデータセット上で,最先端の会話顔生成手法と比較するために,広範囲にわたる実験を行った。 その結果,我々のアプローチの有効性と優位性を示した。

With the advance of deep learning technology, automatic video generation from audio or text has become an emerging and promising research topic. In this paper, we present a novel approach to synthesize video from the text. The method builds a phoneme-pose dictionary and trains a generative adversarial network (GAN) to generate video from interpolated phoneme poses. Compared to audio-driven video generation algorithms, our approach has a number of advantages: 1) It only needs a fraction of the training data used by an audio-driven approach; 2) It is more flexible and not subject to vulnerability due to speaker variation; 3) It significantly reduces the preprocessing, training and inference time. We perform extensive experiments to compare the proposed method with state-of-the-art talking face generation methods on a benchmark dataset and datasets of our own. The results demonstrate the effectiveness and superiority of our approach.
翻訳日:2021-05-03 13:31:52 公開日:2021-04-29
# eagermot:センサー融合による3dマルチオブジェクトトラッキング

EagerMOT: 3D Multi-Object Tracking via Sensor Fusion ( http://arxiv.org/abs/2104.14682v1 )

ライセンス: Link先を確認
Aleksandr Kim, Aljo\v{s}a O\v{s}ep, Laura Leal-Taix\'e(参考訳) マルチオブジェクトトラッキング(MOT)により、移動ロボットは周囲の物体を3次元空間と時間で位置づけすることで、良好な動作計画とナビゲーションを行うことができる。 既存の手法では、深度センサー(lidarなど)を使用して3d空間でターゲットを検出し追跡するが、信号のスパース性のため検出範囲は限られている。 一方、カメラは密集したリッチな視覚信号を提供し、遠方の物体を位置決めするのに役立ちますが、画像領域に限られます。 本稿では,両方のセンサモダリティから利用可能な物体の全ての観察を熱心に統合し,シーンのダイナミックスを適切に解釈する簡易な追跡定式化であるengagemotを提案する。 画像を用いて、遠方の物体を識別できる一方、深度推定では、物体が深度感知範囲内にあると、正確な軌跡定位が可能となる。 EagerMOTでは、KITTIおよびNuScenesデータセット上の複数のMOTタスクにまたがる最先端の結果が得られます。 私たちのコードはhttps://github.com/a leksandrkim61/eagerm otで利用可能です。

Multi-object tracking (MOT) enables mobile robots to perform well-informed motion planning and navigation by localizing surrounding objects in 3D space and time. Existing methods rely on depth sensors (e.g., LiDAR) to detect and track targets in 3D space, but only up to a limited sensing range due to the sparsity of the signal. On the other hand, cameras provide a dense and rich visual signal that helps to localize even distant objects, but only in the image domain. In this paper, we propose EagerMOT, a simple tracking formulation that eagerly integrates all available object observations from both sensor modalities to obtain a well-informed interpretation of the scene dynamics. Using images, we can identify distant incoming objects, while depth estimates allow for precise trajectory localization as soon as objects are within the depth-sensing range. With EagerMOT, we achieve state-of-the-art results across several MOT tasks on the KITTI and NuScenes datasets. Our code is available at https://github.com/a leksandrkim61/EagerM OT.
翻訳日:2021-05-03 13:31:37 公開日:2021-04-29
# SynFIX:コンパイラ診断による構文エラーの自動修正

SYNFIX: Automatically Fixing Syntax Errors using Compiler Diagnostics ( http://arxiv.org/abs/2104.14671v1 )

ライセンス: Link先を確認
Toufique Ahmed, Noah Rose Ledesma, Premkumar Devanbu(参考訳) プログラマはJavaのようなモダンなプログラミング言語の複雑な文法に苦労し、多くの構文エラーを起こします。 コンパイラやideからの診断構文エラーメッセージは、時には便利だが、多くの場合、メッセージは暗号化され、混乱する。 生徒は、構文エラーを扱う際の自動修正提案によって助けられ、インストラクターの時間を節約できる。 学生のエラーや修正の大規模なサンプルが利用可能になり、学生が構文エラーを修正するのに役立つデータ駆動機械学習のアプローチが可能になる。 現在の機械学習アプローチは、短いプログラムの構文エラーを適度に修正するが、適度に長いプログラムでもうまく機能しない。 機械学習ベースのツールであるSynFIXを導入し、コンパイラ診断を学習し、教師なし事前学習を活用する非常に大きなニューラルモデルを採用し、自動回帰合成よりもマルチラベル分類に頼って(障害のある)出力を生成する。 我々はSynFIXのアーキテクチャを詳細に記述し、詳細な評価を行う。 私たちはSynFIXを、Visual Studio Codeの無償のオープンソースバージョンに組み込みました。

Beginning programmers struggle with the complex grammar of modern programming languages like Java, and make lot of syntax errors. The diagnostic syntax error messages from compilers and IDEs are sometimes useful, but often the messages are cryptic and puzzling. Students could be helped, and instructors' time saved, by automated repair suggestions when dealing with syntax errors. Large samples of student errors and fixes are now available, offering the possibility of data-driven machine-learning approaches to help students fix syntax errors. Current machine-learning approaches do a reasonable job fixing syntax errors in shorter programs, but don't work as well even for moderately longer programs. We introduce SYNFIX, a machine-learning based tool that substantially improves on the state-of-the-art, by learning to use compiler diagnostics, employing a very large neural model that leverages unsupervised pre-training, and relying on multi-label classification rather than autoregressive synthesis to generate the (repaired) output. We describe SYNFIX's architecture in detail, and provide a detailed evaluation. We have built SYNFIX into a free, open-source version of Visual Studio Code; we make all our source code and models freely available.
翻訳日:2021-05-03 13:28:47 公開日:2021-04-29
# LIDAR支援データ駆動型ミリ波ビーム選択の新展開

A Novel Look at LIDAR-aided Data-driven mmWave Beam Selection ( http://arxiv.org/abs/2104.14579v1 )

ライセンス: Link先を確認
Matteo Zecchin, Mahdi Boloursaz Mashhadi, Mikolaj Jankowski, Deniz Gunduz, Marios Kountouris, David Gesbert(参考訳) 車両間通信(V2I)における効率の良いミリ波 (mmWave) ビーム選択は, 狭いミリ波ビーム幅と高いユーザ移動性のために重要な課題である。 反復ビーム検出手法の探索オーバーヘッドを低減するため、車両に搭載された光検出・測光センサ(LIDAR)からのコンテキスト情報をデータ駆動方式で利用し、有用な側情報を生成する。 本稿では,それに対応するLIDAR前処理とともに,軽量ニューラルネットワーク(NN)アーキテクチャを提案する。 提案手法はモデルの収束速度と最終的な精度の両方を改善する複数の新規性を含んでいる。 特に, 知識蒸留に触発された新しい損失関数を定義し, 視線(los)/非視線(nlos)情報を活用したカリキュラムトレーニング手法を導入し, より困難なnlos症例の性能を向上させるための非局所注意モジュールを提案する。 LIDARデータと受信者位置のみを用いて,我々のNNベースのビーム選択方式は,ビーム探索オーバーヘッドを伴わずに79.9%のスループットを実現し,最大6本のビームを探索することで95%のスループットを達成できることを示す。

Efficient millimeter wave (mmWave) beam selection in vehicle-to-infrastru cture (V2I) communication is a crucial yet challenging task due to the narrow mmWave beamwidth and high user mobility. To reduce the search overhead of iterative beam discovery procedures, contextual information from light detection and ranging (LIDAR) sensors mounted on vehicles has been leveraged by data-driven methods to produce useful side information. In this paper, we propose a lightweight neural network (NN) architecture along with the corresponding LIDAR preprocessing, which significantly outperforms previous works. Our solution comprises multiple novelties that improve both the convergence speed and the final accuracy of the model. In particular, we define a novel loss function inspired by the knowledge distillation idea, introduce a curriculum training approach exploiting line-of-sight (LOS)/non-line-of-si ght (NLOS) information, and we propose a non-local attention module to improve the performance for the more challenging NLOS cases. Simulation results on benchmark datasets show that, utilizing solely LIDAR data and the receiver position, our NN-based beam selection scheme can achieve 79.9% throughput of an exhaustive beam sweeping approach without any beam search overhead and 95% by searching among as few as 6 beams.
翻訳日:2021-05-03 13:27:25 公開日:2021-04-29
# パラメータ自動調整のための探索アルゴリズム

Search Algorithms for Automated Hyper-Parameter Tuning ( http://arxiv.org/abs/2104.14677v1 )

ライセンス: Link先を確認
Leila Zahedi, Farid Ghareh Mohammadi, Shabnam Rezapour, Matthew W. Ohland, M. Hadi Amini(参考訳) 機械学習は、教育などさまざまな分野におけるモデリングの強力な方法である。 生徒の成功を正確に予測する能力は、高等教育に関連する意思決定タスクに理想的なツールである。 機械学習モデルの精度は、適切なハイパーパラメータの選択に依存する。 しかし、機械学習モデルに合うようにハイパーパラメータを調整するのに時間と専門知識を必要とするため、これは簡単なタスクではない。 本稿では,自動ハイパーパラメータチューニング技術の有効性を学生の成功の領域で検証する。 そこで我々は,グリッド探索とランダム探索という2つの自動ハイパーパラメータ最適化手法を開発し,先行研究の性能評価と改善を行った。 実験の結果,ランダム探索とグリッド探索を機械学習アルゴリズムに適用することにより精度が向上した。 実世界教育データ(midfield)を用いた従来型機械学習分類器のhpsチューニングにおける自動化手法の優位性を実証的に示す。 本研究は,教育現場で機械学習を適用して,学生の成功を改善するための学部,ディレクター,あるいは専門家でないユーザの意思決定を支援することで,自動ハイパーパラメータ最適化の有効性を強調した。

Machine learning is a powerful method for modeling in different fields such as education. Its capability to accurately predict students' success makes it an ideal tool for decision-making tasks related to higher education. The accuracy of machine learning models depends on selecting the proper hyper-parameters. However, it is not an easy task because it requires time and expertise to tune the hyper-parameters to fit the machine learning model. In this paper, we examine the effectiveness of automated hyper-parameter tuning techniques to the realm of students' success. Therefore, we develop two automated Hyper-Parameter Optimization methods, namely grid search and random search, to assess and improve a previous study's performance. The experiment results show that applying random search and grid search on machine learning algorithms improves accuracy. We empirically show automated methods' superiority on real-world educational data (MIDFIELD) for tuning HPs of conventional machine learning classifiers. This work emphasizes the effectiveness of automated hyper-parameter optimization while applying machine learning in the education field to aid faculties, directors', or non-expert users' decisions to improve students' success.
翻訳日:2021-05-03 13:27:03 公開日:2021-04-29
# (参考訳) 認知症検出支援のための人工知能の応用--現在の能力と今後の方向性について [全文訳有]

Applications of Artificial Intelligence to aid detection of dementia: a narrative review on current capabilities and future directions ( http://arxiv.org/abs/2104.14073v1 )

ライセンス: CC BY 4.0
Renjie Li, Xinyi Wang, Katherine Lawler, Saurabh Garg, Quan Bai, Jane Alty(参考訳) 高齢化に伴い、世界の認知症の人口は2050年までに3億5200万人になると予想されている。 症例の70%はアルツハイマー病(AD)の病因であり、認知低下が起こる前に10~20年の「前臨床」期間がある。 早期にADなどの認知症を早期に検出するためには,緊急かつ費用対効果,客観的な方法が必要である。 リスクファクターの修正により、40%のケースが予防され、早期に参加者が採用される場合、薬物による臨床試験が成功の可能性が高まる。 現在、認知症の検出は、主にペンと紙の認知テストによって行われているが、これらは時間がかかり、前臨床段階に敏感である。 専門的な脳スキャンと体液バイオマーカーは認知症の初期段階を検出することができるが、広範に使用するには侵襲的または高価すぎる。 技術の進歩により、人工知能(AI)は早期認知症の検出を支援する有望な成果を示す。 既存のAI支援手法と今後の研究方向性をレビューし、議論する。

With populations ageing, the number of people with dementia worldwide is expected to triple to 152 million by 2050. Seventy percent of cases are due to Alzheimer's disease (AD) pathology and there is a 10-20 year 'pre-clinical' period before significant cognitive decline occurs. We urgently need, cost effective, objective methods to detect AD, and other dementias, at an early stage. Risk factor modification could prevent 40% of cases and drug trials would have greater chances of success if participants are recruited at an earlier stage. Currently, detection of dementia is largely by pen and paper cognitive tests but these are time consuming and insensitive to pre-clinical phases. Specialist brain scans and body fluid biomarkers can detect the earliest stages of dementia but are too invasive or expensive for widespread use. With the advancement of technology, Artificial Intelligence (AI) shows promising results in assisting with detection of early-stage dementia. Existing AI-aided methods and potential future research directions are reviewed and discussed.
翻訳日:2021-05-01 00:28:13 公開日:2021-04-29
# (参考訳) 帯域データに基づくM推定器の統計的推測

Statistical Inference with M-Estimators on Bandit Data ( http://arxiv.org/abs/2104.14074v1 )

ライセンス: CC BY 4.0
Kelly W. Zhang, Lucas Janson, and Susan A. Murphy(参考訳) banditアルゴリズムは、オンライン広告からモバイルの健康に至るまで、現実世界の逐次意思決定問題でますます使われている。 その結果、バンディットアルゴリズムを使って収集されたデータセットが増えており、これらのデータセットを使用して科学的質問に答えたいという願望が高まっている。 モバイルヘルス介入はどのような文脈で有効か? しかしながら、通常の最小二乗推定値に基づくような古典的な統計的アプローチでは、バンディットデータで使用する場合の信頼性の高い信頼区間を提供できないことが示されている。 近年,マルチアームバンディットで収集したデータに適合する単純なモデルを用いて統計的推測を行う手法が開発されている。 しかし、より複雑なモデルを用いて統計的推論を行う一般的な方法がない。 本研究では,従来i.i.dデータで用いられてきたm推定法(van der vaart, 2000)を用いて,最小二乗法や最大ラピッド推定法を含む,多種多様な推定法を提供する理論を構築し,現在では(文脈的)バンディットアルゴリズムを用いて収集する。 これを実現するために、Hadadらによって先駆けられた適応重みの使用を一般化する。 (2019年)とDeshpande et al。 (2018). 具体的には,適応重み付けされたM推定器が一様に漸近的に正常であることを証明し,その漸近分布を用いて様々な推定対象に対して信頼性の高い信頼領域を構築することができることを実証する。

Bandit algorithms are increasingly used in real world sequential decision making problems, from online advertising to mobile health. As a result, there are more datasets collected using bandit algorithms and with that an increased desire to be able to use these datasets to answer scientific questions like: Did one type of ad increase the click-through rate more or lead to more purchases? In which contexts is a mobile health intervention effective? However, it has been shown that classical statistical approaches, like those based on the ordinary least squares estimator, fail to provide reliable confidence intervals when used with bandit data. Recently methods have been developed to conduct statistical inference using simple models fit to data collected with multi-armed bandits. However there is a lack of general methods for conducting statistical inference using more complex models. In this work, we develop theory justifying the use of M-estimation (Van der Vaart, 2000), traditionally used with i.i.d data, to provide inferential methods for a large class of estimators -- including least squares and maximum likelihood estimators -- but now with data collected with (contextual) bandit algorithms. To do this we generalize the use of adaptive weights pioneered by Hadad et al. (2019) and Deshpande et al. (2018). Specifically, in settings in which the data is collected via a (contextual) bandit algorithm, we prove that certain adaptively weighted M-estimators are uniformly asymptotically normal and demonstrate empirically that we can use their asymptotic distribution to construct reliable confidence regions for a variety of inferential targets.
翻訳日:2021-05-01 00:04:18 公開日:2021-04-29
# (参考訳) Bridge to Answer: ビデオ質問応答のための構造対応グラフインタラクションネットワーク [全文訳有]

Bridge to Answer: Structure-aware Graph Interaction Network for Video Question Answering ( http://arxiv.org/abs/2104.14085v1 )

ライセンス: CC BY 4.0
Jungin Park, Jiyoung Lee, Kwanghoon Sohn(参考訳) 本稿では,不均一なクロスモーダルグラフの適切なグラフ相互作用を活用することにより,あるビデオに関する質問に対する正しい回答を推測する手法であるBridge to Answerを提案する。 これを実現するために,映像と問合せの関係を利用した質問条件付き視覚グラフを学習し,問合せ相互作用を用いた各視覚ノードを視覚と言語の両方の手がかりに含めるようにした。 さらに,質問グラフを中間ブリッジとして配置することにより,外観と動きに関する2つの相補的な視覚情報を組み込むブリッジ型視覚対視覚インタラクションを提案する。 このブリッジアーキテクチャは、質問の構成的意味論を通して信頼できるメッセージパッシングを可能にし、適切な回答を生成する。 その結果,ビデオ質問応答の強力な機能を示す外観や動きに起因する質問条件付き視覚表現を学習することが可能となった。 大規模な実験により,提案手法はいくつかのベンチマークにおける最先端手法よりも有効かつ優れた性能を示すことが示された。

This paper presents a novel method, termed Bridge to Answer, to infer correct answers for questions about a given video by leveraging adequate graph interactions of heterogeneous crossmodal graphs. To realize this, we learn question conditioned visual graphs by exploiting the relation between video and question to enable each visual node using question-to-visual interactions to encompass both visual and linguistic cues. In addition, we propose bridged visual-to-visual interactions to incorporate two complementary visual information on appearance and motion by placing the question graph as an intermediate bridge. This bridged architecture allows reliable message passing through compositional semantics of the question to generate an appropriate answer. As a result, our method can learn the question conditioned visual representations attributed to appearance and motion that show powerful capability for video question answering. Extensive experiments prove that the proposed method provides effective and superior performance than state-of-the-art methods on several benchmarks.
翻訳日:2021-05-01 00:02:14 公開日:2021-04-29
# (参考訳) 変圧器の多項式単純化能力のニュアンス解析 [全文訳有]

Analyzing the Nuances of Transformers' Polynomial Simplification Abilities ( http://arxiv.org/abs/2104.14095v1 )

ライセンス: CC BY 4.0
Vishesh Agarwal, Somak Aditya, Navin Goyal(参考訳) 統合のような象徴的な数学的タスクは、解に到達するのに複数のよく定義されたステップとサブタスクの理解を必要とする。 このようなタスクにおけるトランスフォーマーの能力を理解するために、従来のエンドツーエンド設定から逸脱し、ステップワイズ多項式単純化タスクを探索する。 多項式は、語彙順に順序付けられた単項の和として単純な正規形式で書くことができる。 この正規形式に必ずしも従わない多項式に対しては、単純化ステップの列を適用して、完全に単純化された多項式(すなわち正規形式)に到達する。 独自の証明ステップを持つ多項式を生成する合成多項式データセット生成アルゴリズムを提案する。 様々な係数構成、入力表現、証明粒度、広範ハイパーパラメータチューニングにより、トランスフォーマーは数値乗算に一貫して苦労する。 カリキュラム学習(Curriculum Learning)とシンボリック計算機(Symbolic Calculator)アプローチ(数値演算を計算機にオフロードする)の2つの方法を模索する。 どちらのアプローチも、バニラトランスフォーマーベースのベースラインを大きく上回っている。

Symbolic Mathematical tasks such as integration often require multiple well-defined steps and understanding of sub-tasks to reach a solution. To understand Transformers' abilities in such tasks in a fine-grained manner, we deviate from traditional end-to-end settings, and explore a step-wise polynomial simplification task. Polynomials can be written in a simple normal form as a sum of monomials which are ordered in a lexicographic order. For a polynomial which is not necessarily in this normal form, a sequence of simplification steps is applied to reach the fully simplified (i.e., in the normal form) polynomial. We propose a synthetic Polynomial dataset generation algorithm that generates polynomials with unique proof steps. Through varying coefficient configurations, input representation, proof granularity, and extensive hyper-parameter tuning, we observe that Transformers consistently struggle with numeric multiplication. We explore two ways to mitigate this: Curriculum Learning and a Symbolic Calculator approach (where the numeric operations are offloaded to a calculator). Both approaches provide significant gains over the vanilla Transformers-based baseline.
翻訳日:2021-04-30 23:48:42 公開日:2021-04-29
# (参考訳) 効率的なブールスコレム関数合成のための正規形式解析 [全文訳有]

A Normal Form Characterization for Efficient Boolean Skolem Function Synthesis ( http://arxiv.org/abs/2104.14098v1 )

ライセンス: CC BY-SA 4.0
Preey Shah, Aman Bansal, S. Akshay and Supratik Chakraborty(参考訳) ブールスコーレム関数合成は、入力と出力の間の関係仕様を満たすような入力のブール関数として出力を合成する。 この問題はブール関数合成(Boolean functional synthesis)としても知られ、自律システムのための安全なコントローラの設計、認定QBF解決、暗号解析など、いくつかの応用がある。 近年,本論文で提案されているいくつかのアルゴリズムが実際にうまく機能することが知られているが,複雑性理論的な難易度がこの問題に対して示されてきた。 この理論的な硬さと実用性の間の二分法は、効率的な合成を可能にする入力仕様の正規形式や表現の研究を動機付け、おそらくこれらのアルゴリズムの有効性を説明する。 本稿では、この先一歩を踏み出し、「効率的な」合成を正確に特徴づける正規形式表現が存在するかどうかを問う。 我々は, 抽出可能な合成を正確に特徴付ける正規形式 SAUNF を提案する: 仕様は多項式時間合成可能なフであり, 多項式時間でSAUNF にコンパイルできる。 さらに、明細書は多項式サイズ汎関数解 iff を許容し、意味的に等価な多項式サイズソーンフ表現が存在する。 SAUNFは、BDDやDNNFのような確立された正常な形式よりも指数関数的に簡潔であり、AI問題の文脈で使用される。 DNNFと同様の組成特性を享受している。 したがって、SAUNFはブール関数合成の知識表現における正しいトレードオフを提供する。

Boolean Skolem function synthesis concerns synthesizing outputs as Boolean functions of inputs such that a relational specification between inputs and outputs is satisfied. This problem, also known as Boolean functional synthesis, has several applications, including design of safe controllers for autonomous systems, certified QBF solving, cryptanalysis etc. Recently, complexity theoretic hardness results have been shown for the problem, although several algorithms proposed in the literature are known to work well in practice. This dichotomy between theoretical hardness and practical efficacy has motivated the research into normal forms or representations of input specifications that permit efficient synthesis, thus explaining perhaps the efficacy of these algorithms. In this paper we go one step beyond this and ask if there exists a normal form representation that can in fact precisely characterize "efficient" synthesis. We present a normal form called SAUNF that precisely characterizes tractable synthesis in the following sense: a specification is polynomial time synthesizable iff it can be compiled to SAUNF in polynomial time. Additionally, a specification admits a polynomial-sized functional solution iff there exists a semantically equivalent polynomial-sized SAUNF representation. SAUNF is exponentially more succinct than well-established normal forms like BDDs and DNNFs, used in the context of AI problems, and strictly subsumes other more recently proposed forms like SynNNF. It enjoys compositional properties that are similar to those of DNNF. Thus, SAUNF provides the right trade-off in knowledge representation for Boolean functional synthesis.
翻訳日:2021-04-30 23:28:19 公開日:2021-04-29
# (参考訳) 人間とaiの視覚的推論の比較 [全文訳有]

Comparing Visual Reasoning in Humans and AI ( http://arxiv.org/abs/2104.14102v1 )

ライセンス: CC BY 4.0
Shravan Murlidaran, William Yang Wang, Miguel P. Eckstein(参考訳) 自然言語処理とコンピュータビジョンの最近の進歩は、人間のレベルで単純なシーンを解釈するAIモデルにつながっている。 しかし、人間とAIモデルは、より複雑なシーンの解釈においてどのように異なるかを完全には理解していない。 人間の行動や社会的相互作用を含む複雑なシーンのデータセットを作成しました。 aiと人間はシーンを文で記述しなければならなかった。 ai/ヒューマンのシーン記述と、各シーンの他の5つの人間記述の地上真実との類似度を定量的に測定した。 以上の結果から, マシン/ヒューマンコンセンサスシーン記述は, 複雑なシーンに対する人間/人間コンセンサスよりもはるかに少ないことがわかった。 シーンの異なる空間領域を遮蔽する実験的な操作を用いて、シーンを理解するために画像の領域を利用することで、機械と人間がどのように異なるかを評価する。 共に、人間の行動を描いた複雑なシーンで、機械が人間の視覚的推論を欠く方法を理解するための第一歩です。

Recent advances in natural language processing and computer vision have led to AI models that interpret simple scenes at human levels. Yet, we do not have a complete understanding of how humans and AI models differ in their interpretation of more complex scenes. We created a dataset of complex scenes that contained human behaviors and social interactions. AI and humans had to describe the scenes with a sentence. We used a quantitative metric of similarity between scene descriptions of the AI/human and ground truth of five other human descriptions of each scene. Results show that the machine/human agreement scene descriptions are much lower than human/human agreement for our complex scenes. Using an experimental manipulation that occludes different spatial regions of the scenes, we assessed how machines and humans vary in utilizing regions of images to understand the scenes. Together, our results are a first step toward understanding how machines fall short of human visual reasoning with complex scenes depicting human behaviors.
翻訳日:2021-04-30 22:41:31 公開日:2021-04-29
# (参考訳) 大きな領域におけるガウス過程最適化の後悔境界 [全文訳有]

Regret Bounds for Gaussian-Process Optimization in Large Domains ( http://arxiv.org/abs/2104.14113v1 )

ライセンス: CC BY 4.0
Manuel W\"uthrich, Bernhard Sch\"olkopf, Andreas Krause(参考訳) 本論文の目的は,機能領域が許容機能評価数に対して大きい設定,すなわち大域的最適性を見出すことができない設定において,ガウス過程最適化を特徴付けることである。 最適化戦略から得られた解の準最適性(ベイジアン的単純後悔)の上限は、広く使われている期待改善(EI)と高信頼境界(UCB)アルゴリズムに密接に関連している。 これらの後悔は、評価の数、ドメインサイズ(すなわち)の関係を照らす。 有限領域の濃度 / 連続領域における共分散関数のリプシッツ定数)、および得られた関数値の最適性。 特に、評価の数が小さすぎて大域的な最適値が見つからなかったとしても、非自明な関数値(例)を見つけることができる。 最適な値と一定の比率を達成する値)。

The goal of this paper is to characterize Gaussian-Process optimization in the setting where the function domain is large relative to the number of admissible function evaluations, i.e., where it is impossible to find the global optimum. We provide upper bounds on the suboptimality (Bayesian simple regret) of the solution found by optimization strategies that are closely related to the widely used expected improvement (EI) and upper confidence bound (UCB) algorithms. These regret bounds illuminate the relationship between the number of evaluations, the domain size (i.e. cardinality of finite domains / Lipschitz constant of the covariance function in continuous domains), and the optimality of the retrieved function value. In particular, they show that even when the number of evaluations is far too small to find the global optimum, we can find nontrivial function values (e.g. values that achieve a certain ratio with the optimal value).
翻訳日:2021-04-30 22:34:56 公開日:2021-04-29
# (参考訳) 新型コロナウイルスのタイムリー診断と予後の自動化 [全文訳有]

An Automated Approach for Timely Diagnosis and Prognosis of Coronavirus Disease ( http://arxiv.org/abs/2104.14116v1 )

ライセンス: CC BY 4.0
Abbas Raza Ali and Marcin Budka(参考訳) コロナウイルス病2019(COVID-19)の流行以降、感染した患者の多くは高熱、乾ききき、喉の腫れなどと診断され、重篤な肺炎に繋がった。 そのため、これまでに肺画像検査によるCOVID-19の診断は、早期診断の大きな証拠であることが証明されている。 実時間逆転写酵素ポリメラーゼ鎖反応(rRT-PCR)を用いた核酸検出は、COVID-19検出のゴールドスタンダードであるが、提案手法は、患者のタイムリーな診断とトリアージのための非コントラスト胸部CTスキャンによる疾患の自動診断と予後に焦点を当てている。 予後は、医療スタッフ、人工呼吸器、集中治療室(icus)などの重要な資源の管理と計画を行う病院を支援する疾患の定量化と評価をカバーしている。 このアプローチは、複数の丸いグラウンドグラス不透明度(GGO)の面積を測定し、肺の周囲(CP)の凝縮を計測し、それらを蓄積して重症度スコアを形成することにより、COVID-19 病の重症度を自動定量化するためのディープラーニング技術を利用する。 この疾患の重症度は、治療の効果を評価するためにトリアージ中に処方された薬と相関することができる。 提案手法は,分類モデルが保持データに対して93%の精度を達成できる有望な結果を示す。

Since the outbreak of Coronavirus Disease 2019 (COVID-19), most of the impacted patients have been diagnosed with high fever, dry cough, and soar throat leading to severe pneumonia. Hence, to date, the diagnosis of COVID-19 from lung imaging is proved to be a major evidence for early diagnosis of the disease. Although nucleic acid detection using real-time reverse-transcriptas e polymerase chain reaction (rRT-PCR) remains a gold standard for the detection of COVID-19, the proposed approach focuses on the automated diagnosis and prognosis of the disease from a non-contrast chest computed tomography (CT)scan for timely diagnosis and triage of the patient. The prognosis covers the quantification and assessment of the disease to help hospitals with the management and planning of crucial resources, such as medical staff, ventilators and intensive care units (ICUs) capacity. The approach utilises deep learning techniques for automated quantification of the severity of COVID-19 disease via measuring the area of multiple rounded ground-glass opacities (GGO) and consolidations in the periphery (CP) of the lungs and accumulating them to form a severity score. The severity of the disease can be correlated with the medicines prescribed during the triage to assess the effectiveness of the treatment. The proposed approach shows promising results where the classification model achieved 93% accuracy on hold-out data.
翻訳日:2021-04-30 22:00:53 公開日:2021-04-29
# (参考訳) real negatives matter:遅延フィードバックモデリングのためのreal negativesによる継続的トレーニング [全文訳有]

Real Negatives Matter: Continuous Training with Real Negatives for Delayed Feedback Modeling ( http://arxiv.org/abs/2104.14121v1 )

ライセンス: CC BY 4.0
Siyu Gu, Xiang-Rong Sheng, Ying Fan, Guorui Zhou, Xiaoqiang Zhu(参考訳) コンバージョンレート(cvr)予測の難しさの1つは、コンバージョンがクリック後に遅延し、起きる可能性があることである。 新鮮なデータは継続的トレーニングには有益ですが、トレーニングパイプラインに入力された時点では、完全なラベル情報を持っていない場合もあります。 モデルの鮮度とラベルの確実性をバランスさせるため、以前の方法は短い待ち窓を設定したり、変換信号を待たなかったりする。 待機ウィンドウの外で変換が発生した場合、このサンプルは複製され、正のラベルでトレーニングパイプラインに取り込みます。 しかし、これらの方法にはいくつかの問題がある。 まず、観測された特徴分布は実際の分布と同じであると仮定する。 しかし、この仮定は重複サンプルの摂取によって成立しない。 第二に、変換作用の確実性は正からのみ生じる。 しかし、商業システムでは変換が不足しているため、ポジティブは少ない。 これらの問題は、遅延したフィードバックのモデリング中にバイアスを引き起こす。 本稿では,これらの問題に対処するため,Real negatives (DEFER) 法によるdelayed FEedbackモデリングを提案する。 提案手法は実際の負のサンプルをトレーニングパイプラインに取り込みます。 実際の負の取り込みは、観測された特徴分布が実際の分布と等価であることを保証する。 真の負の摂取は、変換に関するより確かな情報をもたらす。 分散シフトを修正するために、DeFERは損失関数の重み付けに重要サンプリングを用いる。 産業データセットの実験結果から,DEFERの優位性を検証した。 DEFERはAlibabaのディスプレイ広告システムにデプロイされており、いくつかのシナリオでCVRが6.0%改善している。 この論文のコードとデータは、https://github.com/g usuperstar/defer.git } としてオープンソース化された。

One of the difficulties of conversion rate (CVR) prediction is that the conversions can delay and take place long after the clicks. The delayed feedback poses a challenge: fresh data are beneficial to continuous training but may not have complete label information at the time they are ingested into the training pipeline. To balance model freshness and label certainty, previous methods set a short waiting window or even do not wait for the conversion signal. If conversion happens outside the waiting window, this sample will be duplicated and ingested into the training pipeline with a positive label. However, these methods have some issues. First, they assume the observed feature distribution remains the same as the actual distribution. But this assumption does not hold due to the ingestion of duplicated samples. Second, the certainty of the conversion action only comes from the positives. But the positives are scarce as conversions are sparse in commercial systems. These issues induce bias during the modeling of delayed feedback. In this paper, we propose DElayed FEedback modeling with Real negatives (DEFER) method to address these issues. The proposed method ingests real negative samples into the training pipeline. The ingestion of real negatives ensures the observed feature distribution is equivalent to the actual distribution, thus reducing the bias. The ingestion of real negatives also brings more certainty information of the conversion. To correct the distribution shift, DEFER employs importance sampling to weigh the loss function. Experimental results on industrial datasets validate the superiority of DEFER. DEFER have been deployed in the display advertising system of Alibaba, obtaining over 6.0% improvement on CVR in several scenarios. The code and data in this paper are now open-sourced {https://github.com/g usuperstar/defer.git }.
翻訳日:2021-04-30 21:47:36 公開日:2021-04-29
# (参考訳) グラフ中心性を用いたトレーニングポイントの選択 [全文訳有]

Selecting the Points for Training using Graph Centrality ( http://arxiv.org/abs/2104.14123v1 )

ライセンス: CC BY 4.0
Sandeep CR, Asif Salim and Sumitra S(参考訳) トレーニングのためにグラフデータセット内のノードを選択する方法を説明し、選択したポイントでトレーニングされたモデルが、トレーニングのために他のポイントを選択する場合よりも優れているようにします。 ポイントをラベル付けするプロセスは、しばしばコストがかかる問題であるので、これは非常に重要な側面です。 通常のアクティブラーニング手法はよいが、これらの手法に関わるペナルティは、アクティブラーニングサイクルの各イテレーションでノードを選択した後、モデルを再訓練する必要があることである。 まず,グラフ中心性(graph centrality)という概念を用いてラベル付けとトレーニングを行うノードを選択する手法を考案した。 私たちはこのアイデアをCora、Citeseer、Pubmedの3つのグラフデータセットでテストしました。

We describe a method to select the nodes in Graph datasets for training so that the model trained on the points selected will be be better than the ones if we select other points for the purpose of training. This is a very important aspect as the process of labelling the points is often a costly affair. The usual Active Learning methods are good but the penalty involved with these methods is that, we need to re-train the model after selecting the nodes in each iteration of Active Learning cycle. We come up with a method which use the concept of Graph Centrality to select the nodes for labeling and training initially and the training is needed to perform only once. We have tested this idea on three graph datasets - Cora, Citeseer and Pubmed- and the results are really encouraging.
翻訳日:2021-04-30 21:33:00 公開日:2021-04-29
# (参考訳) 予測学習を用いたストリーミング動画におけるアクター中心表現の学習 [全文訳有]

Learning Actor-centered Representations for Action Localization in Streaming Videos using Predictive Learning ( http://arxiv.org/abs/2104.14131v1 )

ライセンス: CC BY 4.0
Sathyanarayanan N. Aakur, Sudeep Sarkar(参考訳) ストリーミングビデオにおける認識やローカライズといったイベント認識タスクは、視覚的理解タスクに取り組む上で不可欠である。 進歩は、主に、教師付きの方法で、大規模な注釈付きトレーニングデータを使用することによってもたらされている。 本研究では,継続的な階層的予測学習の概念を用いて,ストリーミング映像における行動のローカライズを学習する手法である \textit{actor-centered} 表現を学習する。 イベント知覚の認知理論に着想を得て,階層的予測学習の概念を駆使して,注意に基づく文脈化によってアクタ中心の特徴を構築する新しい自己教師付きフレームワークを提案する。 3つのベンチマークデータセットの大規模な実験によると、このアプローチは1つのエポックなトレーニング、すなわち1フレームずつのストリーミング形式でモデルをトレーニングし、トレーニングビデオに1回パスすることで、アクションをローカライズするための堅牢な表現を学ぶことができる。 提案手法は,教師なしのベースラインと弱い教師なしのベースラインを上回り,完全に監督されたアプローチに競争力のある性能を提供する。 最後に,提案手法は,認識処理と局所処理の両方を微調整することなく,性能を損なうことなく,ドメイン外データに一般化できることを示す。

Event perception tasks such as recognizing and localizing actions in streaming videos are essential for tackling visual understanding tasks. Progress has primarily been driven by the use of large-scale, annotated training data in a supervised manner. In this work, we tackle the problem of learning \textit{actor-centered} representations through the notion of continual hierarchical predictive learning to localize actions in streaming videos without any training annotations. Inspired by cognitive theories of event perception, we propose a novel, self-supervised framework driven by the notion of hierarchical predictive learning to construct actor-centered features by attention-based contextualization. Extensive experiments on three benchmark datasets show that the approach can learn robust representations for localizing actions using only one epoch of training, i.e., we train the model continually in streaming fashion - one frame at a time, with a single pass through training videos. We show that the proposed approach outperforms unsupervised and weakly supervised baselines while offering competitive performance to fully supervised approaches. Finally, we show that the proposed model can generalize to out-of-domain data without significant loss in performance without any finetuning for both the recognition and localization tasks.
翻訳日:2021-04-30 21:24:27 公開日:2021-04-29
# (参考訳) 教師付き単視点深層学習のためのベイズ深層ネットワーク [全文訳有]

Bayesian Deep Networks for Supervised Single-View Depth Learning ( http://arxiv.org/abs/2104.14202v1 )

ライセンス: CC BY 4.0
Javier Rodr\'iguez-Puigvert, Rub\'en Mart\'inez-Cant\'in, Javier Civera(参考訳) 不確実性定量化はロボットの知覚において重要な側面であり、過信または点推定器は環境とロボットに衝突や損傷をもたらす可能性がある。 本稿では,一視点教師付き深度学習,特にMCドロップアウトと深度アンサンブルにおける不確実性定量化へのスケーラブルなアプローチを評価する。 特に MC のドロップアウトについて,アーキテクチャの異なるレベルにおけるドロップアウトの影響について検討する。 我々は、エンコーダにドロップアウトを加えると、デコーダにそれを追加するよりも良い結果が得られることを実証する。 また、擬似RGBD ICPの適用における深度不確実性の利用を提案し、その課題における精度向上の可能性を示す。

Uncertainty quantification is a key aspect in robotic perception, as overconfident or point estimators can lead to collisions and damages to the environment and the robot. In this paper, we evaluate scalable approaches to uncertainty quantification in single-view supervised depth learning, specifically MC dropout and deep ensembles. For MC dropout, in particular, we explore the effect of the dropout at different levels in the architecture. We demonstrate that adding dropout in the encoder leads to better results than adding it in the decoder, the latest being the usual approach in the literature for similar problems. We also propose the use of depth uncertainty in the application of pseudo-RGBD ICP and demonstrate its potential for improving the accuracy in such a task.
翻訳日:2021-04-30 21:08:22 公開日:2021-04-29
# (参考訳) N-gramsのアソシエーション評価のためのフィッシャーのエクササイズテスト [全文訳有]

Using Fisher's Exact Test to Evaluate Association Measures for N-grams ( http://arxiv.org/abs/2104.14209v1 )

ライセンス: CC BY 4.0
Yves Bestgen(参考訳) 確率が観測されるn-gramに対して高いスコアを割り当てる頻度の高い語彙連想法があるかどうかを判断するために、フィッシャーの正確なテストを2語以上のシーケンスに拡張し、400万単語のコーパスを分析した。 その結果, 誤差補正平均精度という新しい指標と高精度リコール曲線に基づいて, 期待通り, 単純llが極めて有効であることが示唆された。 しかし、MI3は他の仮説テストベース尺度よりも効率的であり、3グラムの単純なllにほぼ等しい性能レベルに達することも示している。 さらに、2グラムよりも3グラムの方が効率的であるものもあれば、停滞するものもある。

To determine whether some often-used lexical association measures assign high scores to n-grams that chance could have produced as frequently as observed, we used an extension of Fisher's exact test to sequences longer than two words to analyse a corpus of four million words. The results, based on the precision-recall curve and a new index called chance-corrected average precision, show that, as expected, simple-ll is extremely effective. They also show, however, that MI3 is more efficient than the other hypothesis tests-based measures and even reaches a performance level almost equal to simple-ll for 3-grams. It is additionally observed that some measures are more efficient for 3-grams than for 2-grams, while others stagnate.
翻訳日:2021-04-30 20:57:27 公開日:2021-04-29
# (参考訳) グラフ表現学習における公平性向上のための偏りエッジドロップアウト [全文訳有]

Biased Edge Dropout for Enhancing Fairness in Graph Representation Learning ( http://arxiv.org/abs/2104.14210v1 )

ライセンス: CC BY 4.0
Indro Spinelli, Simone Scardapane, Amir Hussain, Aurelio Uncini(参考訳) グラフ表現学習は、ソーシャルネットワーク分析からスマートグリッドでのエネルギー予測まで、多くのシナリオでユビキタスなコンポーネントになっています。 いくつかのアプリケーションでは、保護された属性に対するノード(またはグラフ)表現の公平性を保証することが、正しい配置に不可欠である。 しかし、グラフの深層学習における公正さは未解決のままであり、ソリューションはほとんどない。 特に、いくつかの実世界のグラフ(すなわちホモフィリー)上の類似ノードのクラスタ化傾向は、これらのプロシージャの公平性を劇的に悪化させる。 本稿では,グラフ表現学習におけるホモフィリーの反作用と公平性向上のためのバイアスドエッジドロップアウトアルゴリズム(FairDrop)を提案する。 FairDropは、既存の多くのアルゴリズムで簡単にプラグインでき、効率的で適応性があり、他のフェアネス誘導ソリューションと組み合わせることができる。 一般的なアルゴリズムを記述した後、ノード埋め込みを生成するランダムウォークモデルと、リンク予測のためのグラフ畳み込みネットワークという2つのベンチマークタスクでその応用例を示す。 提案手法は,すべてのモデルのフェアネスを小さく,あるいは無視できる精度まで向上し,既存の最先端ソリューションと比較することができることを実証する。 アブレーション研究において,本アルゴリズムは公平性に対する偏りと偏りのないエッジドロップアウトを柔軟に補間できることを実証する。 さらに,利得をより良く評価するために,グループベースフェアネス指標と組み合わせた場合のリンク予測タスクのバイアスを測定するための新しいdyadicグループ定義を提案する。 特に、グラフ構造を考慮したノード埋め込みにおけるバイアスを測定するために用いられる計量を拡張した。

Graph representation learning has become a ubiquitous component in many scenarios, ranging from social network analysis to energy forecasting in smart grids. In several applications, ensuring the fairness of the node (or graph) representations with respect to some protected attributes is crucial for their correct deployment. Yet, fairness in graph deep learning remains under-explored, with few solutions available. In particular, the tendency of similar nodes to cluster on several real-world graphs (i.e., homophily) can dramatically worsen the fairness of these procedures. In this paper, we propose a biased edge dropout algorithm (FairDrop) to counter-act homophily and improve fairness in graph representation learning. FairDrop can be plugged in easily on many existing algorithms, is efficient, adaptable, and can be combined with other fairness-inducing solutions. After describing the general algorithm, we demonstrate its application on two benchmark tasks, specifically, as a random walk model for producing node embeddings, and to a graph convolutional network for link prediction. We prove that the proposed algorithm can successfully improve the fairness of all models up to a small or negligible drop in accuracy, and compares favourably with existing state-of-the-art solutions. In an ablation study, we demonstrate that our algorithm can flexibly interpolate between biasing towards fairness and an unbiased edge dropout. Furthermore, to better evaluate the gains, we propose a new dyadic group definition to measure the bias of a link prediction task when paired with group-based fairness metrics. In particular, we extend the metric used to measure the bias in the node embeddings to take into account the graph structure.
翻訳日:2021-04-30 20:50:05 公開日:2021-04-29
# (参考訳) Inspect, Understand, Overcome: AI安全性のための実践的手法の調査

Inspect, Understand, Overcome: A Survey of Practical Methods for AI Safety ( http://arxiv.org/abs/2104.14235v1 )

ライセンス: CC BY 4.0
Sebastian Houben, Stephanie Abrecht, Maram Akila, Andreas B\"ar, Felix Brockherde, Patrick Feifel, Tim Fingscheidt, Sujan Sai Gannamaneni, Seyed Eghbal Ghobadi, Ahmed Hammam, Anselm Haselhoff, Felix Hauser, Christian Heinzemann, Marco Hoffmann, Nikhil Kapoor, Falk Kappel, Marvin Klingner, Jan Kronenberger, Fabian K\"uppers, Jonas L\"ohdefink, Michael Mlynarski, Michael Mock, Firas Mualla, Svetlana Pavlitskaya, Maximilian Poretschkin, Alexander Pohl, Varun Ravi-Kumar, Julia Rosenzweig, Matthias Rottmann, Stefan R\"uping, Timo S\"amann, Jan David Schneider, Elena Schulz, Gesina Schwalbe, Joachim Sicking, Toshika Srivastava, Serin Varghese, Michael Weber, Sebastian Wirkert, Tim Wirtz, Matthias Woehrle(参考訳) モバイルヘルスや自動運転といった安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多くのモデル固有の欠点のために困難である。 これらの欠点は多様であり、不十分な解釈よりも一般化の欠如から悪意のある入力の問題まで様々である。 したがって、DNNを用いたサイバー物理システムは、安全上の懸念に悩まされる可能性が高い。 近年,これらの安全対策を目的とした最先端技術動物園が出現している。 この作業は、構造化され、より広い概要を提供する。 まず,その検出,定量化,緩和を目的とした研究活動を記述するために,不足のカテゴリを特定する。 我々の論文は、機械学習の専門家と安全エンジニアの両方を扱っている。 前者は、最近の方法の制限に関する議論やカバーする幅広い機械学習のトピックから利益を得るかもしれない。 後者は、現代のMLメソッドの具体性に関する洞察を得るかもしれない。 さらに、当社のコントリビューションは、mlシステムのdesiderataに関する議論と、既存のアプローチを適切に推進するための戦略に拍車をかけることを願っています。

The use of deep neural networks (DNNs) in safety-critical applications like mobile health and autonomous driving is challenging due to numerous model-inherent shortcomings. These shortcomings are diverse and range from a lack of generalization over insufficient interpretability to problems with malicious inputs. Cyber-physical systems employing DNNs are therefore likely to suffer from safety concerns. In recent years, a zoo of state-of-the-art techniques aiming to address these safety concerns has emerged. This work provides a structured and broad overview of them. We first identify categories of insufficiencies to then describe research activities aiming at their detection, quantification, or mitigation. Our paper addresses both machine learning experts and safety engineers: The former ones might profit from the broad range of machine learning topics covered and discussions on limitations of recent methods. The latter ones might gain insights into the specifics of modern ML methods. We moreover hope that our contribution fuels discussions on desiderata for ML systems and strategies on how to propel existing approaches accordingly.
翻訳日:2021-04-30 20:31:55 公開日:2021-04-29
# (参考訳) ディープニューラルネットワークを用いた文書画像におけるテーブル認識の現状と性能解析 [全文訳有]

Current Status and Performance Analysis of Table Recognition in Document Images with Deep Neural Networks ( http://arxiv.org/abs/2104.14272v1 )

ライセンス: CC BY 4.0
Khurram Azeem Hashmi, Marcus Liwicki, Didier Stricker, Muhammad Adnan Afzal, Muhammad Ahtsham Afzal and Muhammad Zeshan Afzal(参考訳) テーブル認識の第1フェーズは、文書内の表領域を検出することである。 その後、各セルから情報を抽出するために第2フェーズで表構造を認識する。 テーブル検出と構造認識は、テーブル理解の領域において重要な問題である。 しかし、テーブル分析は、テーブルの多様性と非対称性の余剰量のために、複雑なタスクである。 したがって、文書画像解析における研究の活発な領域である。 グラフィカル処理ユニットの計算能力の最近の進歩により、ディープニューラルネットワークは従来の最先端の機械学習手法より優れている。 テーブル理解は、ディープニューラルネットワークの最近のブレークスルーから大きな恩恵を受けている。 しかし,テーブル検出とテーブル構造認識のための深層学習手法の統一的な説明は行われていない。 本稿では,ディープニューラルネットワークを利用した現代手法の詳細な分析を行う。 この研究は、文書画像のテーブル理解の現在の状況と関連する課題を徹底的に理解した。 さらに、先行するデータセットとその複雑さを定量的な結果とともに詳述した。 さらに,ドキュメント画像のテーブル解析をさらに改善するためのガイドとして機能する有望な方向性について,概要を述べる。

The first phase of table recognition is to detect the tabular area in a document. Subsequently, the tabular structures are recognized in the second phase in order to extract information from the respective cells. Table detection and structural recognition are pivotal problems in the domain of table understanding. However, table analysis is a perplexing task due to the colossal amount of diversity and asymmetry in tables. Therefore, it is an active area of research in document image analysis. Recent advances in the computing capabilities of graphical processing units have enabled deep neural networks to outperform traditional state-of-the-art machine learning methods. Table understanding has substantially benefited from the recent breakthroughs in deep neural networks. However, there has not been a consolidated description of the deep learning methods for table detection and table structure recognition. This review paper provides a thorough analysis of the modern methodologies that utilize deep neural networks. This work provided a thorough understanding of the current state-of-the-art and related challenges of table understanding in document images. Furthermore, the leading datasets and their intricacies have been elaborated along with the quantitative results. Moreover, a brief overview is given regarding the promising directions that can serve as a guide to further improve table analysis in document images.
翻訳日:2021-04-30 20:30:45 公開日:2021-04-29
# (参考訳) クロスモーダル変圧器の全ネットワーク構造 [全文訳有]

The entire network structure of Crossmodal Transformer ( http://arxiv.org/abs/2104.14273v1 )

ライセンス: CC0 1.0
Meng Li, Changyan Lin, Lixia Shu, Xin Pu, Yi Chen, Heng Wu, Jiasong Li, Hongshuai Cao(参考訳) 固定化2次元X線と未定義3次元CTとのマッピング関係は不確かであるため、補助的位置決め装置や医療用インプラントなどの身体マーカーが一般的にこの関係を決定するために用いられる。 しかし,このようなアプローチは複雑な現実のために臨床で広くは利用できない。 マッピング関係を判定し,補助装置やマーカーを使わずに人体の初期化後推定を実現するため,2次元X線画像と3次元CT画像を直接マッチングするクロスモーダルマッチングトランスフォーマネットワークを提案する。 提案手法はまず2次元X線と3次元CT画像から骨格の特徴を深く学習する。 その後、1次元X線とCT表現ベクトルに変換され、マルチモーダル変換器を用いて合成される。 その結果、よく訓練されたネットワークは、任意の2次元X線と3次元CTとの空間対応を直接予測できる。 実験の結果,本手法と従来のアプローチを組み合わせると,達成した精度と速度は臨床介入の基本的なニーズを満たし,インターベンション内登録への新たな方向性が得られた。

Since the mapping relationship between definitized intra-interventional 2D X-ray and undefined pre-interventional 3D Computed Tomography(CT) is uncertain, auxiliary positioning devices or body markers, such as medical implants, are commonly used to determine this relationship. However, such approaches can not be widely used in clinical due to the complex realities. To determine the mapping relationship, and achieve a initializtion post estimation of human body without auxiliary equipment or markers, a cross-modal matching transformer network is proposed to matching 2D X-ray and 3D CT images directly. The proposed approach first deep learns skeletal features from 2D X-ray and 3D CT images. The features are then converted into 1D X-ray and CT representation vectors, which are combined using a multi-modal transformer. As a result, the well-trained network can directly predict the spatial correspondence between arbitrary 2D X-ray and 3D CT. The experimental results show that when combining our approach with the conventional approach, the achieved accuracy and speed can meet the basic clinical intervention needs, and it provides a new direction for intra-interventional registration.
翻訳日:2021-04-30 20:06:44 公開日:2021-04-29
# (参考訳) 自己監督型視覚変換器の創発特性 [全文訳有]

Emerging Properties in Self-Supervised Vision Transformers ( http://arxiv.org/abs/2104.14294v1 )

ライセンス: CC BY 4.0
Mathilde Caron, Hugo Touvron, Ishan Misra, Herv\'e J\'egou, Julien Mairal, Piotr Bojanowski, Armand Joulin(参考訳) 本稿では,畳み込みネットワーク(convnets)と比較して,視覚トランスフォーマー(vit)に自己教師付き学習が新たな特性をもたらすかどうかを問う。 自己組織化されたViT特徴には、教師付きViTやコンブネットでは明らかに現れない、画像の意味的セグメンテーションに関する明示的な情報が含まれる。 第二に、これらの機能は優れたk-NN分類器であり、小さなViTでImageNetで78.3%のトップ-1に達した。 また, 運動量エンコーダの重要性, マルチクロップトレーニング, およびViTを用いたパッチの使用について検討した。 本研究は, ラベルのない自己蒸留方式として, DINOと呼ばれる簡易自己監督法を用いて実施した。 我々は,VT-Base を用いた線形評価において,ImageNet 上で 80.1% のトップ-1 を達成することで,DINO と ViT の相乗効果を示す。

In this paper, we question if self-supervised learning provides new properties to Vision Transformer (ViT) that stand out compared to convolutional networks (convnets). Beyond the fact that adapting self-supervised methods to this architecture works particularly well, we make the following observations: first, self-supervised ViT features contain explicit information about the semantic segmentation of an image, which does not emerge as clearly with supervised ViTs, nor with convnets. Second, these features are also excellent k-NN classifiers, reaching 78.3% top-1 on ImageNet with a small ViT. Our study also underlines the importance of momentum encoder, multi-crop training, and the use of small patches with ViTs. We implement our findings into a simple self-supervised method, called DINO, which we interpret as a form of self-distillation with no labels. We show the synergy between DINO and ViTs by achieving 80.1% top-1 on ImageNet in linear evaluation with ViT-Base.
翻訳日:2021-04-30 19:57:33 公開日:2021-04-29
# (参考訳) MOROCCO:モデルリソース比較フレームワーク [全文訳有]

MOROCCO: Model Resource Comparison Framework ( http://arxiv.org/abs/2104.14314v1 )

ライセンス: CC BY 4.0
Valentin Malykh, Alexander Kukushkin, Ekaterina Artemova, Vladislav Mikhailov, Maria Tikhonova, Tatiana Shavrina(参考訳) 次世代の訓練済みNLPモデルはSOTAを新たな限界に押し上げるが、計算資源のコストは実際の生産環境での使用が禁止されることが多い。 ダウンストリームタスクにおける標準品質指標だけでなく,メモリフットプリントや推論時間を評価することで,この問題に対処する。 提案するMOROCCOは,SuperGLUEベンチマークや複数の探索スイートを含む50以上のNLUタスクをサポートする,texttt{jiant}環境と互換性のある言語モデルを比較するフレームワークである。 異なる言語で2つのGLUEライクなスイートに適用可能であることを示す。

The new generation of pre-trained NLP models push the SOTA to the new limits, but at the cost of computational resources, to the point that their use in real production environments is often prohibitively expensive. We tackle this problem by evaluating not only the standard quality metrics on downstream tasks but also the memory footprint and inference time. We present MOROCCO, a framework to compare language models compatible with \texttt{jiant} environment which supports over 50 NLU tasks, including SuperGLUE benchmark and multiple probing suites. We demonstrate its applicability for two GLUE-like suites in different languages.
翻訳日:2021-04-30 19:30:39 公開日:2021-04-29
# (参考訳) 物理インフォームドニューラルネットワークを用いた逆多タスク学習による部分微分方程式の解法 [全文訳有]

Adversarial Multi-task Learning Enhanced Physics-informed Neural Networks for Solving Partial Differential Equations ( http://arxiv.org/abs/2104.14320v1 )

ライセンス: CC BY 4.0
Pongpisit Thanasutives, Ken-ichi Fukui, Masayuki Numao(参考訳) 近年,ニューラルネットワークを用いて偏微分方程式(pdes)を高精度に解く手法が提案されている。 残念ながら、高い非線形性領域に遭遇するとネットワーク性能は低下する。 一般化性を向上させるため,PDE学習におけるマルチタスク学習手法,不確実性重み付け損失,勾配手術を用いた新しい手法を提案する。 マルチタスク方式は、PDEパラメータ化係数の変動によって得られる複数の関連するPDE間のクロススティックモジュールによって制御される共有表現の学習の利点を利用して、元のPDEをより一般化する。 また,ネットワークが学習が難しい高非線形領域に注意を向けるよう促し,同様に元のトレーニング分布に分散した補足的な高損失サンプルを生成するための敵意訓練を提案する。 実験では, 提案手法は, 高次元確率PDEを含む様々なPDE例において, 従来の手法と比較して, 未知のデータ点の誤差を低減し, 有効であることがわかった。

Recently, researchers have utilized neural networks to accurately solve partial differential equations (PDEs), enabling the mesh-free method for scientific computation. Unfortunately, the network performance drops when encountering a high nonlinearity domain. To improve the generalizability, we introduce the novel approach of employing multi-task learning techniques, the uncertainty-weightin g loss and the gradients surgery, in the context of learning PDE solutions. The multi-task scheme exploits the benefits of learning shared representations, controlled by cross-stitch modules, between multiple related PDEs, which are obtainable by varying the PDE parameterization coefficients, to generalize better on the original PDE. Encouraging the network pay closer attention to the high nonlinearity domain regions that are more challenging to learn, we also propose adversarial training for generating supplementary high-loss samples, similarly distributed to the original training distribution. In the experiments, our proposed methods are found to be effective and reduce the error on the unseen data points as compared to the previous approaches in various PDE examples, including high-dimensional stochastic PDEs.
翻訳日:2021-04-30 19:20:38 公開日:2021-04-29
# (参考訳) 非凸規則化に基づく手のジェスチャー認識 [全文訳有]

Hand Gesture Recognition Based on a Nonconvex Regularization ( http://arxiv.org/abs/2104.14349v1 )

ライセンス: CC BY 4.0
Jing Qin and Joshua Ashley and Biyun Xie(参考訳) 手の動きの認識は人間とロボットの相互作用において最も基本的なタスクの1つである。 スパース表現に基づく手法は、その効率性と訓練データに対する低要求のために広く用いられている。 近年,画像処理コミュニティにおいて,効率の良い性能を保ちながら疎性を促進するために,$\ell_{1-2}$正規化を含む非凸正則化技術が提案されている。 本稿では,乗算器の交互方向法(ADMM)を用いて,$\ell_{1-2}$正規化に基づく視覚に基づく人間の腕のジェスチャー認識モデルを提案する。 現実的なデータセットに関する数値実験により,腕のジェスチャーの同定における本手法の有効性が示された。

Recognition of hand gestures is one of the most fundamental tasks in human-robot interaction. Sparse representation based methods have been widely used due to their efficiency and low requirements on the training data. Recently, nonconvex regularization techniques including the $\ell_{1-2}$ regularization have been proposed in the image processing community to promote sparsity while achieving efficient performance. In this paper, we propose a vision-based human arm gesture recognition model based on the $\ell_{1-2}$ regularization, which is solved by the alternating direction method of multipliers (ADMM). Numerical experiments on realistic data sets have shown the effectiveness of this method in identifying arm gestures.
翻訳日:2021-04-30 19:01:37 公開日:2021-04-29
# (参考訳) 参照型ロバスト変分情報ボトルネックの学習 [全文訳有]

Learning Robust Variational Information Bottleneck with Reference ( http://arxiv.org/abs/2104.14379v1 )

ライセンス: CC BY 4.0
Weizhu Qian, Bowei Chen, Xiaowei Huang(参考訳) そこで本研究では, 変動情報ボトルネック(vib)を訓練し, 逆摂動に対するロバスト性を改善するための新しい手法を提案する。 分類作業にハードラベルを通常使用する従来の方法とは異なり、トレーニングフェーズにおける分類的クラス情報を、事前訓練された参照ニューラルネットワークから得られるソフトラベルで洗練し、元のクラスラベルの可能性を反映することができる。 また,vib実装におけるgaussian posterior assumptionを相互情報ニューラル推定を用いて緩和する。 MNIST と CIFAR-10 データセットを用いて大規模な実験を行い,提案手法がベンチマークモデルより有意に優れていることを示す。

We propose a new approach to train a variational information bottleneck (VIB) that improves its robustness to adversarial perturbations. Unlike the traditional methods where the hard labels are usually used for the classification task, we refine the categorical class information in the training phase with soft labels which are obtained from a pre-trained reference neural network and can reflect the likelihood of the original class labels. We also relax the Gaussian posterior assumption in the VIB implementation by using the mutual information neural estimation. Extensive experiments have been performed with the MNIST and CIFAR-10 datasets, and the results show that our proposed approach significantly outperforms the benchmarked models.
翻訳日:2021-04-30 18:50:15 公開日:2021-04-29
# (参考訳) 分割属性に基づくプライバシ保護フェデレーション学習 [全文訳有]

Privacy-Preserving Federated Learning on Partitioned Attributes ( http://arxiv.org/abs/2104.14383v1 )

ライセンス: CC BY 4.0
Shuang Zhang, Liyao Xiang, Xi Yu, Pengzhi Chu, Yingqi Chen, Chen Cen, Li Wang(参考訳) 現実世界のデータは通常属性によってセグメント化され、異なるパーティに分散される。 フェデレーション学習は、ローカルデータやモデルを公開することなく、協調的なトレーニングを促進する。 設計した攻撃を通じて示すように、少数の破損したデータであっても、敵は入力属性を正確に推測することができる。 本稿では,プライバシを保存する中間表現をリリースするために,ローカルモデルをチューニングする逆学習に基づく手順を提案する。 そこで本研究では,前傾降下ステップと後傾降下ステップの精度損失とプライバシ損失をそれぞれ処理し,同時に2つの目的を達成する前方後方分割アルゴリズムに基づく防御手法を提案する。 さまざまなデータセットに対する大規模な実験により、我々の防衛は、フェデレートされた学習タスクに無視できない影響でプライバシー漏洩を著しく軽減することが示された。

Real-world data is usually segmented by attributes and distributed across different parties. Federated learning empowers collaborative training without exposing local data or models. As we demonstrate through designed attacks, even with a small proportion of corrupted data, an adversary can accurately infer the input attributes. We introduce an adversarial learning based procedure which tunes a local model to release privacy-preserving intermediate representations. To alleviate the accuracy decline, we propose a defense method based on the forward-backward splitting algorithm, which respectively deals with the accuracy loss and privacy loss in the forward and backward gradient descent steps, achieving the two objectives simultaneously. Extensive experiments on a variety of datasets have shown that our defense significantly mitigates privacy leakage with negligible impact on the federated learning task.
翻訳日:2021-04-30 18:37:39 公開日:2021-04-29
# (参考訳) 対向タスク拡張によるクロスドメインFew-Shot分類 [全文訳有]

Cross-Domain Few-Shot Classification via Adversarial Task Augmentation ( http://arxiv.org/abs/2104.14385v1 )

ライセンス: CC BY 4.0
Haoqing Wang, Zhi-Hong Deng(参考訳) ほとんどショットの分類は、各クラスからラベル付きサンプルがほとんどない未確認のクラスを認識することを目的としている。 多くのメタラーニングモデルは、タスク共有誘導バイアス(meta-knowledge)を精巧に設計し、そのようなタスクを解決し、印象的なパフォーマンスを達成する。 しかし、トレーニングタスクとテストタスクの間にドメインシフトが存在する場合、得られた帰納的バイアスはドメイン全体に一般化できず、メタラーニングモデルの性能が低下する。 本研究では,タスク強化による帰納的バイアスの堅牢性の向上を目指す。 具体的には,ソースタスクの分散に関する最悪の問題について考察し,帰納的バイアス適応型「チャリング」タスクを生成できる逆タスク拡張手法を提案する。 本手法は,様々なメタラーニングモデルのためのシンプルなプラグイン・アンド・プレイモジュールとして利用でき,ドメイン間の一般化能力を向上させることができる。 我々は,mini-imagenet, cub, cars, places, plantae, cropdiseases, eurosat, isic, chestxの9つの少数ショット分類データセットを用いて,クロスドメイン環境で広範な実験を行う。 実験結果から,メタラーニングモデルのドメインシフト下での分類性能を効果的に向上し,既存手法よりも優れることが示された。

Few-shot classification aims to recognize unseen classes with few labeled samples from each class. Many meta-learning models for few-shot classification elaborately design various task-shared inductive bias (meta-knowledge) to solve such tasks, and achieve impressive performance. However, when there exists the domain shift between the training tasks and the test tasks, the obtained inductive bias fails to generalize across domains, which degrades the performance of the meta-learning models. In this work, we aim to improve the robustness of the inductive bias through task augmentation. Concretely, we consider the worst-case problem around the source task distribution, and propose the adversarial task augmentation method which can generate the inductive bias-adaptive 'challenging' tasks. Our method can be used as a simple plug-and-play module for various meta-learning models, and improve their cross-domain generalization capability. We conduct extensive experiments under the cross-domain setting, using nine few-shot classification datasets: mini-ImageNet, CUB, Cars, Places, Plantae, CropDiseases, EuroSAT, ISIC and ChestX. Experimental results show that our method can effectively improve the few-shot classification performance of the meta-learning models under domain shift, and outperforms the existing works.
翻訳日:2021-04-30 18:27:29 公開日:2021-04-29
# (参考訳) ドメインランダム化学習のための深部RLエージェントの事前学習 [全文訳有]

Pre-training of Deep RL Agents for Improved Learning under Domain Randomization ( http://arxiv.org/abs/2104.14386v1 )

ライセンス: CC BY 4.0
Artemij Amiranashvili, Max Argus, Lukas Hermann, Wolfram Burgard, Thomas Brox(参考訳) シミュレーション環境におけるビジュアルドメインのランダム化は、シミュレーションで訓練されたポリシーを実際のロボットに移すために広く使われている手法である。 しかし、ドメインのランダム化と拡張はポリシーのトレーニングを妨げる。 強化学習はノイズの多い訓練信号に苦しむため、この追加のニュアンスはトレーニングを劇的に阻害する可能性がある。 難しいタスクでは、学習が完全に失敗することもあります。 この問題を解決するために,すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習を提案する。 本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境におけるゼロショットを物理ロボットに転送することで、一貫した改善結果が得られることを示す。

Visual domain randomization in simulated environments is a widely used method to transfer policies trained in simulation to real robots. However, domain randomization and augmentation hamper the training of a policy. As reinforcement learning struggles with a noisy training signal, this additional nuisance can drastically impede training. For difficult tasks it can even result in complete failure to learn. To overcome this problem we propose to pre-train a perception encoder that already provides an embedding invariant to the randomization. We demonstrate that this yields consistently improved results on a randomized version of DeepMind control suite tasks and a stacking environment on arbitrary backgrounds with zero-shot transfer to a physical robot.
翻訳日:2021-04-30 18:11:24 公開日:2021-04-29
# (参考訳) 非小細胞肺癌再発予測のための遺伝子型x線標識 [全文訳有]

Genotype-Guided Radiomics Signatures for Recurrence Prediction of Non-Small-Cell Lung Cancer ( http://arxiv.org/abs/2104.14420v1 )

ライセンス: CC BY 4.0
Panyanat Aonpong, Yutaro Iwamoto, Xian-Hua Han, Lanfen Lin, Yen-Wei Chen(参考訳) 非小細胞肺癌(non-small cell lung cancer, nclc)は重症疾患であり,術後再発率が高い。 近年,再発予測のための機械学習手法が数多く提案されている。 遺伝子データを用いた方法は予測精度が高いが、コストが高い。 CT画像のみを用いた放射能シグネチャは高価ではないが,精度は比較的低い。 本稿では,高い予測精度を低コストで得るための遺伝子型誘導ラジオミック法(ggr)を提案する。 我々はCT画像と遺伝子データを含むNSCLCの公開ラジオゲノミクスデータセットを使用した。 提案手法は2つのモデルからなる2段階の手法である。 第1のモデルは遺伝子推定モデルであり、ct画像から抽出した放射線学的特徴と深部特徴から遺伝子発現を推定するために用いられる。 第2のモデルは、推定された遺伝子発現データを用いて再発を予測するために使用される。 提案手法は,手作り学習と深層学習を組み合わせたハイブリッド機能に基づいて設計した。 実験の結果、予測精度は78.61%(既存の放射能法)と79.14%(深層学習法)から83.28%まで大幅に改善できることがわかった。

Non-small cell lung cancer (NSCLC) is a serious disease and has a high recurrence rate after the surgery. Recently, many machine learning methods have been proposed for recurrence prediction. The methods using gene data have high prediction accuracy but require high cost. Although the radiomics signatures using only CT image are not expensive, its accuracy is relatively low. In this paper, we propose a genotype-guided radiomics method (GGR) for obtaining high prediction accuracy with low cost. We used a public radiogenomics dataset of NSCLC, which includes CT images and gene data. The proposed method is a two-step method, which consists of two models. The first model is a gene estimation model, which is used to estimate the gene expression from radiomics features and deep features extracted from computer tomography (CT) image. The second model is used to predict the recurrence using the estimated gene expression data. The proposed GGR method designed based on hybrid features which is combination of handcrafted-based and deep learning-based. The experiments demonstrated that the prediction accuracy can be improved significantly from 78.61% (existing radiomics method) and 79.14% (deep learning method) to 83.28% by the proposed GGR.
翻訳日:2021-04-30 17:55:41 公開日:2021-04-29
# (参考訳) 失敗から学ぶことによる述語発明 [全文訳有]

Predicate Invention by Learning From Failures ( http://arxiv.org/abs/2104.14426v1 )

ライセンス: CC BY 4.0
Andrew Cropper and Rolf Morel(参考訳) 新たなハイレベルな概念を発見することは、人間レベルのAIに必要な最も重要なステップの1つだ。 帰納論理プログラミング(ILP)では、新しいハイレベルな概念の発見は述語発明(PI)として知られている。 ILPの設立以来重要視されているが、PIは極めて困難であり、ほとんどのILPシステムはそれをサポートしない。 本稿では,PI問題を解集合プログラミング問題として定式化するLPシステムであるPOPPIを紹介する。 実験の結果, (i) PIは有用であれば学習性能を劇的に向上させることができ, (ii) PIは不要であればあまりコストがかからず, (iii) POPPIは既存のIPPシステムよりも大幅に向上することがわかった。

Discovering novel high-level concepts is one of the most important steps needed for human-level AI. In inductive logic programming (ILP), discovering novel high-level concepts is known as predicate invention (PI). Although seen as crucial since the founding of ILP, PI is notoriously difficult and most ILP systems do not support it. In this paper, we introduce POPPI, an ILP system that formulates the PI problem as an answer set programming problem. Our experiments show that (i) PI can drastically improve learning performance when useful, (ii) PI is not too costly when unnecessary, and (iii) POPPI can substantially outperform existing ILP systems.
翻訳日:2021-04-30 17:43:51 公開日:2021-04-29
# (参考訳) coqにおけるtrakhtenbrotの定理:構成レンズによる有限モデル理論 [全文訳有]

Trakhtenbrot's Theorem in Coq: Finite Model Theory through the Constructive Lens ( http://arxiv.org/abs/2104.14445v1 )

ライセンス: CC BY 4.0
Dominik Kirst and Dominique Larchey-Wendling(参考訳) 従属型理論の構成的設定における有限一階満足度(FSAT)について検討する。 可算性と決定可能性の総合的な説明を用いて、非論理記号の1次符号に依存するFSATの完全な分類を行う。 一方、我々の発展はトラクテンブロットの定理に焦点を合わせ、符号が少なくとも二項関係記号を含むと、FSATは決定不能であると述べた。 我々の証明はPost対応問題から始まる多くの還元鎖によって進行する。 一方、モナディックな一階述語論理に対する FSAT の決定可能性を確立する。 ここでは、シグネチャは、ほとんどの単項関数と関係シンボルと、任意のエヌマブルシグネチャに対するFSATのエヌマビリティのみを含む。 Trakthenbrot の定理の応用を実証するために、我々は FSAT から分離論理へ何度も還元された還元鎖を継続する。 すべての結果は、合成不確定性証明のcoqライブラリの枠組みで機械化されています。

We study finite first-order satisfiability (FSAT) in the constructive setting of dependent type theory. Employing synthetic accounts of enumerability and decidability, we give a full classification of FSAT depending on the first-order signature of non-logical symbols. On the one hand, our development focuses on Trakhtenbrot's theorem, stating that FSAT is undecidable as soon as the signature contains an at least binary relation symbol. Our proof proceeds by a many-one reduction chain starting from the Post correspondence problem. On the other hand, we establish the decidability of FSAT for monadic first-order logic, i.e. where the signature only contains at most unary function and relation symbols, as well as the enumerability of FSAT for arbitrary enumerable signatures. To showcase an application of Trakthenbrot's theorem, we continue our reduction chain with a many-one reduction from FSAT to separation logic. All our results are mechanised in the framework of a growing Coq library of synthetic undecidability proofs.
翻訳日:2021-04-30 17:28:39 公開日:2021-04-29
# (参考訳) DeepCBRのための双対システム: 説明とデータ拡張のための深層学習とケースベース推論ペア [全文訳有]

Twin Systems for DeepCBR: A Menagerie of Deep Learning and Case-Based Reasoning Pairings for Explanation and Data Augmentation ( http://arxiv.org/abs/2104.14461v1 )

ライセンス: CC BY 4.0
Mark T Keane and Eoin M Kenny and Mohammed Temraz and Derek Greene and Barry Smyth(参考訳) 近年,Deep Learning (DL) と Case Based Reasoning (CBR) の間には実りの多い相乗効果が存在することが示唆されている。 本稿では,DLにおける説明可能なAI(XAI)問題にCBRソリューションを適用した研究プログラムについて報告する。 本報告では,不透明なdlモデルと透明なcbrモデルとの双体系のペアリングについて述べる。 このツインニングは、DLの機能的抽象化(例えば、特徴重み、特徴重要度、決定境界)が、これらの説明解を駆動するために使用できることを示している。 また、この研究がdlのデータ拡張問題にも応用され、これらのdeepcbrの考え方の強大さを強調する。

Recently, it has been proposed that fruitful synergies may exist between Deep Learning (DL) and Case Based Reasoning (CBR); that there are insights to be gained by applying CBR ideas to problems in DL (what could be called DeepCBR). In this paper, we report on a program of research that applies CBR solutions to the problem of Explainable AI (XAI) in the DL. We describe a series of twin-systems pairings of opaque DL models with transparent CBR models that allow the latter to explain the former using factual, counterfactual and semi-factual explanation strategies. This twinning shows that functional abstractions of DL (e.g., feature weights, feature importance and decision boundaries) can be used to drive these explanatory solutions. We also raise the prospect that this research also applies to the problem of Data Augmentation in DL, underscoring the fecundity of these DeepCBR ideas.
翻訳日:2021-04-30 16:45:44 公開日:2021-04-29
# (参考訳) 専門家、エラー、コンテキスト:機械翻訳における人的評価の大規模研究 [全文訳有]

Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation ( http://arxiv.org/abs/2104.14478v1 )

ライセンス: CC BY-SA 4.0
Markus Freitag, George Foster, David Grangier, Viresh Ratnakar, Qijun Tan, Wolfgang Macherey(参考訳) 現代の高品質機械翻訳システムの人間的評価は難しい問題であり、不適切な評価手順が誤った結論につながるという証拠が増えている。 人的評価に関する研究は盛んに行われているが、この分野には一般に受け入れられる標準的な手順が欠けている。 本研究の目的は,Multidimensional Quality Metrics (MQM) フレームワークに基づく明示的エラー解析に基づく評価手法を提案することである。 我々はこれまでで最大のMQM研究を行い、WMT 2020の共有タスクの上位システムのアウトプットを2つの言語ペアで評価した。 得られたデータを広範囲に分析し,wmt群集作業員が確立したシステムと,評価されたシステムのランキングが実質的に異なることを見出し,マシン出力よりも人間を優先する傾向を示した。 驚いたことに、事前学習した埋め込みに基づく自動メトリクスは、人間の群衆労働者よりも優れる。 我々はさらなる研究のためにコーパスを公開する。

Human evaluation of modern high-quality machine translation systems is a difficult problem, and there is increasing evidence that inadequate evaluation procedures can lead to erroneous conclusions. While there has been considerable research on human evaluation, the field still lacks a commonly-accepted standard procedure. As a step toward this goal, we propose an evaluation methodology grounded in explicit error analysis, based on the Multidimensional Quality Metrics (MQM) framework. We carry out the largest MQM research study to date, scoring the outputs of top systems from the WMT 2020 shared task in two language pairs using annotations provided by professional translators with access to full document context. We analyze the resulting data extensively, finding among other results a substantially different ranking of evaluated systems from the one established by the WMT crowd workers, exhibiting a clear preference for human over machine output. Surprisingly, we also find that automatic metrics based on pre-trained embeddings can outperform human crowd workers. We make our corpus publicly available for further research.
翻訳日:2021-04-30 16:33:40 公開日:2021-04-29
# (参考訳) ニューラルネットワークによる組合せ論の構成 [全文訳有]

Constructions in combinatorics via neural networks ( http://arxiv.org/abs/2104.14516v1 )

ライセンス: CC BY 4.0
Adam Zsolt Wagner(参考訳) 本研究では,強化学習アルゴリズムである深層クロスエントロピー法を用いて,極値コンビネータとグラフ理論のいくつかの開予想に対する明示的な構成や反例を見出す方法を示す。 予想の中には、パターン回避行列の永続性を最大化するブルールディとカオの問題や、グラフの隣接性と距離固有値に関連するいくつかの問題がある。

We demonstrate how by using a reinforcement learning algorithm, the deep cross-entropy method, one can find explicit constructions and counterexamples to several open conjectures in extremal combinatorics and graph theory. Amongst the conjectures we refute are a question of Brualdi and Cao about maximizing permanents of pattern avoiding matrices, and several problems related to the adjacency and distance eigenvalues of graphs.
翻訳日:2021-04-30 16:14:42 公開日:2021-04-29
# (参考訳) 脳にインスパイアされたコンピューティング:マスタープランが必要だ [全文訳有]

Brain-inspired computing: We need a master plan ( http://arxiv.org/abs/2104.14517v1 )

ライセンス: CC BY 4.0
Adnan Mehonic and Anthony J Kenyon(参考訳) 脳にインスパイアされた新しいコンピューティング技術は、極端にエネルギー効率で情報を処理し、不規則でノイズの多いデータの雪崩を処理する能力を、基本的に異なる方法で約束する。 この約束を実現するには、異なる研究コミュニティをまとめ、必要な資金、集中、支援を提供する勇敢で協調的な計画が必要である。 私たちは過去に、デジタル技術を使ってこれを行い、量子技術を使ってそれを実行しています。

New computing technologies inspired by the brain promise fundamentally different ways to process information with extreme energy efficiency and the ability to handle the avalanche of unstructured and noisy data that we are generating at an ever-increasing rate. To realise this promise requires a brave and coordinated plan to bring together disparate research communities and to provide them with the funding, focus and support needed. We have done this in the past with digital technologies; we are in the process of doing it with quantum technologies; can we now do it for brain-inspired computing?
翻訳日:2021-04-30 15:55:39 公開日:2021-04-29
# (参考訳) パーソナライズドレコメンデーションシステムのための選好ベースフェアネスのオンライン認証 [全文訳有]

Online certification of preference-based fairness for personalized recommender systems ( http://arxiv.org/abs/2104.14527v1 )

ライセンス: CC BY 4.0
Virginie Do, Sam Corbett-Davies, Jamal Atif, Nicolas Usunier(参考訳) 各(グループ)利用者は、他の(グループ)利用者の推薦よりも、それぞれの(グループ)利用者の推薦を優先すべきである。 envy-freenessの監査には、潜在的な盲点を検出するためにユーザの好みを調べる必要があるため、レコメンデーションパフォーマンスが低下する可能性がある。 探索コストを抑えるため,本研究では,純探索と多腕包帯の保守的制約に基づく監査アルゴリズムを提案する。 このアルゴリズムによって達成されたトレードオフを理論的にも実証的にも検討した。

We propose to assess the fairness of personalized recommender systems in the sense of envy-freeness: every (group of) user(s) should prefer their recommendations to the recommendations of other (groups of) users. Auditing for envy-freeness requires probing user preferences to detect potential blind spots, which may deteriorate recommendation performance. To control the cost of exploration, we propose an auditing algorithm based on pure exploration and conservative constraints in multi-armed bandits. We study, both theoretically and empirically, the trade-offs achieved by this algorithm.
翻訳日:2021-04-30 15:45:02 公開日:2021-04-29
# (参考訳) GasHis-Transformer:胃病理像分類のためのマルチスケール視覚変換器アプローチ [全文訳有]

GasHis-Transformer: A Multi-scale Visual Transformer Approach for Gastric Histopathology Image Classification ( http://arxiv.org/abs/2104.14528v1 )

ライセンス: CC BY 4.0
Haoyuan Chen, Chen Li, Xiaoyan Li, Ge Wang, Weiming Hu, Yixin Li, Wanli Liu, Changhao Sun, Yudong Yao, Marcin Grzegorzek(参考訳) 胃癌の診断にインテリジェントに応用する深層学習法では,既存の手法は畳み込みニューラルネットワーク(cnn)に重点を置いているが,視覚トランスフォーマ(vt)を用いたアプローチはない。 VTの効率的で安定したディープラーニングモデルは、コンピュータビジョンの分野における最新の応用であり、画像におけるグローバル情報の認識を改善することができる。 本稿では, 胃病理組織像分類(ghic)課題に対して, 光学顕微鏡により胃組織像と正常癌の胃組織像を自動的に分類し, 病理医の医療作業を容易にするマルチスケール視覚トランスフォーマモデル(gashis-transformer) を提案する。 このGasHis-Transformerモデルは,グローバル情報モジュール(GIM)とローカル情報モジュール(LIM)の2つの基本モジュール上に構築されている。 実験では、280個の異常または正常な画像を有するオープンソースのヘマトキシリンおよびエオシン(H&E)染色胃病理データセットを1:1:2の割合でトレーニング、バリデーション、テストセットに分割した。 そして、試験セット98.0%,100.0%,96.0%,9 8.0%の精度、リコール、f1スコア、精度を得る。 さらにコントラスト実験では、374の画像を含むリンパ腫画像データセットと2つの拡張実験で1390画像を含む乳がんデータセットを用いてgathis-transformerモデルの一般化能力を試験し、それぞれ83.9%と89.4%の精度を達成した。 最後に、GasHis-Transformerモデルは高い分類性能を示し、GHICタスクの有効性と膨大なポテンシャルを示す。

For deep learning methods applied to the diagnosis of gastric cancer intelligently, existing methods concentrate more on Convolutional Neural Networks (CNN) but no approaches are available using Visual Transformer (VT). VT's efficient and stable deep learning models with the most recent application in the field of computer vision, which is capable of improving the recognition of global information in images. In this paper, a multi-scale visual transformer model (GasHis-Transformer) is proposed for a gastric histopathology image classification (GHIC) task, which enables the automatic classification of gastric histological images of abnormal and normal cancer by obtained by optical microscopy to facilitate the medical work of histopathologists. This GasHis-Transformer model is built on two fundamental modules, including a global information module (GIM) and a local information module (LIM). In the experiment, an open source hematoxylin and eosin (H&E) stained gastric histopathology dataset with 280 abnormal or normal images are divided into training, validation, and test sets at a ratio of 1:1:2 first. Then, GasHis-Transformer obtains precision, recall, F1-score, and accuracy on the testing set of 98.0%, 100.0%, 96.0%, and 98.0%. Furthermore, a contrast experiment also tests the generalization ability of the proposed GatHis-Transformer model with a lymphoma image dataset including 374 images and a breast cancer dataset including 1390 images in two extended experiments and achieves an accuracy of 83.9% and 89.4%, respectively. Finally, GasHis-Transformer model demonstrates high classification performance and shows its effectiveness and enormous potential in GHIC tasks.
翻訳日:2021-04-30 15:10:18 公開日:2021-04-29
# (参考訳) 深い生成的見解を持つさま [全文訳有]

Ensembling with Deep Generative Views ( http://arxiv.org/abs/2104.14551v1 )

ライセンス: CC BY 4.0
Lucy Chai, Jun-Yan Zhu, Eli Shechtman, Phillip Isola, Richard Zhang(参考訳) 最近の生成モデルは、ラベルのない画像コレクションから学習することで、色やポーズの変化のような現実世界の変動を模倣する人工画像のビューを合成することができる。 本稿では,このようなビューを実画像に適用して,画像分類などの下流分析タスクに役立てることができるかを検討する。 事前訓練された生成器を用いて、与えられた実入力画像に対応する潜時符号を求める。 コードに摂動を適用すると、画像の自然なバリエーションが生まれ、テスト時に一緒にアンサンブルできる。 生成促進の源としてStyleGAN2を用い, 顔の特徴, 猫の顔, 自動車などの分類タスクについて検討した。 批判的なことに、このプロセスの動作にはいくつかの設計上の決定が必要である。摂動手順、増大と原画像の間の重み付け、合成画像上の分類器の訓練など、すべてが結果に影響を与える可能性がある。 現在、GANベースの拡張によるテスト時間アンサンブルは、いくつかの小さな改善をもたらすが、残りのボトルネックは、GAN再構成の効率と精度であり、GAN生成画像のアーティファクトに対する分類器の感度が伴っている。

Recent generative models can synthesize "views" of artificial images that mimic real-world variations, such as changes in color or pose, simply by learning from unlabeled image collections. Here, we investigate whether such views can be applied to real images to benefit downstream analysis tasks such as image classification. Using a pretrained generator, we first find the latent code corresponding to a given real input image. Applying perturbations to the code creates natural variations of the image, which can then be ensembled together at test-time. We use StyleGAN2 as the source of generative augmentations and investigate this setup on classification tasks involving facial attributes, cat faces, and cars. Critically, we find that several design decisions are required towards making this process work; the perturbation procedure, weighting between the augmentations and original image, and training the classifier on synthesized images can all impact the result. Currently, we find that while test-time ensembling with GAN-based augmentations can offer some small improvements, the remaining bottlenecks are the efficiency and accuracy of the GAN reconstructions, coupled with classifier sensitivities to artifacts in GAN-generated images.
翻訳日:2021-04-30 14:45:02 公開日:2021-04-29
# (参考訳) marionette: 自己教師付きスプライト学習 [全文訳有]

MarioNette: Self-Supervised Sprite Learning ( http://arxiv.org/abs/2104.14553v1 )

ライセンス: CC BY 4.0
Dmitriy Smirnov, Michael Gharbi, Matthew Fisher, Vitor Guizilini, Alexei A. Efros, Justin Solomon(参考訳) 視覚コンテンツはしばしば繰り返し要素を含む。 テキストは、同じフォントのグリフで構成され、漫画やビデオゲームのようなアニメーションは、画面を移動するスプライトで構成され、自然ビデオは、しばしばオブジェクトの繰り返しビューを持つ。 本稿では,再帰的要素の図形的に切り離された表現を,完全に自己管理的に獲得する深層学習手法を提案する。 テクスチャパッチの辞書を共同で学習し,それらをキャンバスに配置するネットワークを訓練することにより,スプライトベースのコンテンツを,下流タスクで容易に使用できるスパースで一貫性のある解釈可能な表現に効果的に分解する。 当社のフレームワークは,イメージコレクションの繰り返しパターンを監視せずに発見するための,有望なアプローチを提供します。

Visual content often contains recurring elements. Text is made up of glyphs from the same font, animations, such as cartoons or video games, are composed of sprites moving around the screen, and natural videos frequently have repeated views of objects. In this paper, we propose a deep learning approach for obtaining a graphically disentangled representation of recurring elements in a completely self-supervised manner. By jointly learning a dictionary of texture patches and training a network that places them onto a canvas, we effectively deconstruct sprite-based content into a sparse, consistent, and interpretable representation that can be easily used in downstream tasks. Our framework offers a promising approach for discovering recurring patterns in image collections without supervision.
翻訳日:2021-04-30 14:15:18 公開日:2021-04-29
# (参考訳) 画像分類器の未知のバイアス属性を発見する [全文訳有]

Discover the Unknown Biased Attribute of an Image Classifier ( http://arxiv.org/abs/2104.14556v1 )

ライセンス: CC BY 4.0
Zhiheng Li, Chenliang Xu(参考訳) 最近の研究によると、AIアルゴリズムはデータからバイアスを学ぶ。 したがって、AIアルゴリズムのバイアスを特定することは緊急かつ不可欠である。 しかし、以前のバイアス識別パイプラインは、人間の専門家が潜在的なバイアス(例えば性別)を推測することに依存している。 人間の専門家がAIアルゴリズムのバイアスをよりよく見つけるのを助けるために、この研究で新しい問題を研究する。入力画像のターゲット属性を予測する分類器で、その未知のバイアス属性を発見する。 この課題を解決するために、生成モデルの潜時空間における超平面を用いて画像属性を表現するため、原問題は超平面の正規ベクトルとオフセットを最適化するために変換される。 目的関数として,この枠組みにおける新しい全変量損失と制約としての新たな直交ペナルティを提案する。 後者は、発見されたバイアス属性がターゲットまたは既知のバイアス属性の1つと同一であるような自明な解を防止する。 不等角化データセットと実世界のデータセットの両方に関する広範囲な実験により、偏りのある属性を発見し、より良い不等角化 w.r.t。 ターゲット属性。 さらに, 画像の様々な領域におけるバイアス属性を検出するための手法の一般化性を証明し, 様々なオブジェクトやシーンの分類器に対して有意なバイアス属性を検出できることを示す。 コードはhttps://git.io/j3kmh で入手できる。

Recent works find that AI algorithms learn biases from data. Therefore, it is urgent and vital to identify biases in AI algorithms. However, the previous bias identification pipeline overly relies on human experts to conjecture potential biases (e.g., gender), which may neglect other underlying biases not realized by humans. To help human experts better find the AI algorithms' biases, we study a new problem in this work -- for a classifier that predicts a target attribute of the input image, discover its unknown biased attribute. To solve this challenging problem, we use a hyperplane in the generative model's latent space to represent an image attribute; thus, the original problem is transformed to optimizing the hyperplane's normal vector and offset. We propose a novel total-variation loss within this framework as the objective function and a new orthogonalization penalty as a constraint. The latter prevents trivial solutions in which the discovered biased attribute is identical with the target or one of the known-biased attributes. Extensive experiments on both disentanglement datasets and real-world datasets show that our method can discover biased attributes and achieve better disentanglement w.r.t. target attributes. Furthermore, the qualitative results show that our method can discover unnoticeable biased attributes for various object and scene classifiers, proving our method's generalizability for detecting biased attributes in diverse domains of images. The code is available at https://git.io/J3kMh .
翻訳日:2021-04-30 14:01:43 公開日:2021-04-29
# TabAug: 拡張テーブル構造認識のためのデータ駆動拡張

TabAug: Data Driven Augmentation for Enhanced Table Structure Recognition ( http://arxiv.org/abs/2104.14237v1 )

ライセンス: Link先を確認
Umar Khan, Sohaib Zahid, Muhammad Asad Ali, Adnan ul Hassan, Faisal Shafait(参考訳) 表構造認識は、文書画像におけるエンドツーエンドの表データ抽出の重要な部分である。 最近のコンピュータビジョンにおけるディープラーニングモデルアーキテクチャの成功は、テーブル構造認識における非反射的であり続けている。 伝統的にコンピュータビジョンでは、これらの課題はカラージッタリングやランダムクロッピングのような画像変換に基づく標準的な拡張技術によって解決される。 実験で示されたように,これらの手法は表構造認識のタスクには有効ではない。 本稿では,テーブル画像の構造変化を列と列の複製と削除によって生成するデータ拡張手法であるTabAugを提案する。 また、拡張プロセスの制御を可能にするデータ駆動確率モデルで構成されている。 提案手法の有効性を実証するため,評価指標のすべての面において一貫した改善を示すICDAR 2013データセットを用いて実験を行い,細胞レベルでの正確な検出精度は92.16%から96.11%に向上した。

Table Structure Recognition is an essential part of end-to-end tabular data extraction in document images. The recent success of deep learning model architectures in computer vision remains to be non-reflective in table structure recognition, largely because extensive datasets for this domain are still unavailable while labeling new data is expensive and time-consuming. Traditionally, in computer vision, these challenges are addressed by standard augmentation techniques that are based on image transformations like color jittering and random cropping. As demonstrated by our experiments, these techniques are not effective for the task of table structure recognition. In this paper, we propose TabAug, a re-imagined Data Augmentation technique that produces structural changes in table images through replication and deletion of rows and columns. It also consists of a data-driven probabilistic model that allows control over the augmentation process. To demonstrate the efficacy of our approach, we perform experimentation on ICDAR 2013 dataset where our approach shows consistent improvements in all aspects of the evaluation metrics, with cell-level correct detections improving from 92.16% to 96.11% over the baseline.
翻訳日:2021-04-30 13:15:10 公開日:2021-04-29
# ELF-VC: 効率的なフレキシブルレートビデオ符号化

ELF-VC: Efficient Learned Flexible-Rate Video Coding ( http://arxiv.org/abs/2104.14335v1 )

ライセンス: Link先を確認
Oren Rippel, Alexander G. Anderson, Kedar Tatwawadi, Sanjay Nair, Craig Lytle, Lubomir Bourdev(参考訳) 学習したビデオコーデックは大きな可能性を秘めているが、実際の展開に十分な効率を達成できていない。 本研究では,低レイテンシモード(IフレームとPフレームのみ)の性能向上と,計算効率の大幅な向上を実現するための,学習ビデオ圧縮のための新しいアイデアを提案する。 この設定では、我々のアプローチは、PSNR、MS-SSIM、VMAFの基準の下でR-D曲線全体に対して、主要なビデオ標準(H.264、H.265、AV1)と全てのMLコーデックに対して好意的に比較する。 同時に、我々の手法は少なくとも5倍高速に動作し、これらの数値を報告する全てのMLコーデックよりもパラメータが少ない。 コントリビューションには,計算量やパラメータカウントの無視可能な増加,MLベースのコーデックに最適化された効率的なバックボーン,事前情報をより効率的な圧縮に活用する新たなループ内フロー予測スキームなどが含まれている。 提案手法は,PSNR,MS-SSIM,VMAFを用いて,一般的なビデオテストセットUVGおよびMCL-JCV上でのELF-VC(Efficient, Learned and Flexible Video Coding)をベンチマークする。 例えば、PSNRのUVGでは、BD-rateはH.264に対して44%、H.265に対して26%、AV1に対して15%、現在の最高のMLコーデックに対して35%減少する。 NVIDIA Titan V GPUでは、VGAを49/91 FPSで、HD 720を19/35 FPSで、HD 1080を10/18 FPSでエンコード/デコードしています。

While learned video codecs have demonstrated great promise, they have yet to achieve sufficient efficiency for practical deployment. In this work, we propose several novel ideas for learned video compression which allow for improved performance for the low-latency mode (I- and P-frames only) along with a considerable increase in computational efficiency. In this setting, for natural videos our approach compares favorably across the entire R-D curve under metrics PSNR, MS-SSIM and VMAF against all mainstream video standards (H.264, H.265, AV1) and all ML codecs. At the same time, our approach runs at least 5x faster and has fewer parameters than all ML codecs which report these figures. Our contributions include a flexible-rate framework allowing a single model to cover a large and dense range of bitrates, at a negligible increase in computation and parameter count; an efficient backbone optimized for ML-based codecs; and a novel in-loop flow prediction scheme which leverages prior information towards more efficient compression. We benchmark our method, which we call ELF-VC (Efficient, Learned and Flexible Video Coding) on popular video test sets UVG and MCL-JCV under metrics PSNR, MS-SSIM and VMAF. For example, on UVG under PSNR, it reduces the BD-rate by 44% against H.264, 26% against H.265, 15% against AV1, and 35% against the current best ML codec. At the same time, on an NVIDIA Titan V GPU our approach encodes/decodes VGA at 49/91 FPS, HD 720 at 19/35 FPS, and HD 1080 at 10/18 FPS.
翻訳日:2021-04-30 13:14:52 公開日:2021-04-29
# 教師なし時空間表現学習に関する大規模研究

A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning ( http://arxiv.org/abs/2104.14558v1 )

ライセンス: Link先を確認
Christoph Feichtenhofer, Haoqi Fan, Bo Xiong, Ross Girshick, Kaiming He(参考訳) 本稿では,ビデオからの非教師なし時空間表現学習に関する大規模研究を行う。 近年の4つの画像ベースフレームワークの統一的な視点から、これらの手法を時空に簡単に一般化できる単純な目的について検討する。 我々の目標は、同じビデオで時間的に持続する機能を奨励し、そのシンプルさにもかかわらず、驚くほどうまく機能します。 (i) 異なる教師なしフレームワーク、 (ii) 事前トレーニングデータセット、 (iii) 下流データセット、 (iv) バックボーンアーキテクチャ。 この研究から, 長寿命の持続性を促進することが, 60秒のタイムスパンであっても有効であることを発見した。 複数のベンチマークにおける最先端の結果に加えて、教師なし事前学習が監督対象よりも優れているといういくつかの有望な事例を報告する。 コードはhttps://github.com/f acebookresearch/slow fastで入手できる。

We present a large-scale study on unsupervised spatiotemporal representation learning from videos. With a unified perspective on four recent image-based frameworks, we study a simple objective that can easily generalize all these methods to space-time. Our objective encourages temporally-persisten t features in the same video, and in spite of its simplicity, it works surprisingly well across: (i) different unsupervised frameworks, (ii) pre-training datasets, (iii) downstream datasets, and (iv) backbone architectures. We draw a series of intriguing observations from this study, e.g., we discover that encouraging long-spanned persistency can be effective even if the timespan is 60 seconds. In addition to state-of-the-art results in multiple benchmarks, we report a few promising cases in which unsupervised pre-training can outperform its supervised counterpart. Code is made available at https://github.com/f acebookresearch/Slow Fast
翻訳日:2021-04-30 13:14:03 公開日:2021-04-29
# ActNN:2ビットアクティベーション圧縮トレーニングによるトレーニングメモリのフットプリント削減

ActNN: Reducing Training Memory Footprint via 2-Bit Activation Compressed Training ( http://arxiv.org/abs/2104.14129v1 )

ライセンス: Link先を確認
Jianfei Chen, Lianmin Zheng, Zhewei Yao, Dequan Wang, Ion Stoica, Michael W. Mahoney, Joseph E. Gonzalez(参考訳) ニューラルネットワークモデルのサイズの増加は、その正確性の向上に不可欠だが、デバイスメモリは、同じ速度で成長していない。 これにより、限られたメモリ環境内でニューラルネットワークをトレーニングするための根本的な課題が生まれる。 本研究では,ランダムに量子化されたアクティベーションを格納したメモリ効率のよいトレーニングフレームワークactnnを提案する。 本稿では,一般的なネットワークアーキテクチャにおけるActNNの収束性を証明し,勾配分散の正確な式による収束に対する量子化の影響を特徴付ける。 この理論を用いて,特徴次元,サンプル,層間の活性化の不均一性を生かした,新しい混合精度量子化戦略を提案する。 これらのテクニックは、レイヤを置換するだけで、PyTorchのような既存の動的グラフフレームワークに簡単に適用できる。 本稿では,分類,検出,セグメンテーションタスクのための主流コンピュータビジョンモデル上でのActNNの評価を行う。 これらすべてのタスクにおいて、ActNNはアクティベーションを平均2ビットに圧縮し、無視できる精度の損失を発生させる。 ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでのトレーニングを可能にする。

The increasing size of neural network models has been critical for improvements in their accuracy, but device memory is not growing at the same rate. This creates fundamental challenges for training neural networks within limited memory environments. In this work, we propose ActNN, a memory-efficient training framework that stores randomly quantized activations for back propagation. We prove the convergence of ActNN for general network architectures, and we characterize the impact of quantization on the convergence via an exact expression for the gradient variance. Using our theory, we propose novel mixed-precision quantization strategies that exploit the activation's heterogeneity across feature dimensions, samples, and layers. These techniques can be readily applied to existing dynamic graph frameworks, such as PyTorch, simply by substituting the layers. We evaluate ActNN on mainstream computer vision models for classification, detection, and segmentation tasks. On all these tasks, ActNN compresses the activation to 2 bits on average, with negligible accuracy loss. ActNN reduces the memory footprint of the activation by 12x, and it enables training with a 6.6x to 14x larger batch size.
翻訳日:2021-04-30 13:13:48 公開日:2021-04-29
# プライバシ保護ポートレートマッチング

Privacy-Preserving Portrait Matting ( http://arxiv.org/abs/2104.14222v1 )

ライセンス: Link先を確認
Jizhizi Li, Sihan Ma, Jing Zhang, Dacheng Tao(参考訳) 近年,個人識別可能な情報を機械学習に利用することで生じるプライバシー問題に対する懸念が高まっている。 しかし、過去の肖像画マッチング手法はすべて、識別可能な肖像画に基づいていた。 このギャップを埋めるために,プライバシ保存ポートレートマッチングのための大規模な匿名化ベンチマークであるP3M-10kを紹介する。 P3M-10kは1万枚の高解像度の顔黒の肖像画と高品質のアルファマットで構成されている。 我々は,p3m-10kにおけるtrimap-free法とtrimap-based matting法の両方を体系的に評価し,既存のmatting法がppt(privacy-preservi ng training)設定に従うと異なる一般化能力を示すことを見出した。 そこで我々は,より優れたtrimapフリーなポートレート・マットリング・モデルを開発するために,意味知覚とディテール・マットングの両方のための統一フレームワークのパワーを生かしたp3m-netを提案する。 P3M-10kの広汎な実験により、P3M-Netは客観的メトリクスと主観的視覚的品質の両方の観点から最先端の手法より優れていることが示された。 さらに、PPT設定下での優れた一般化能力を示し、将来の研究を容易にし、潜在的な現実世界の応用を可能にするためにP3M-10kの価値を確認する。 ソースコードとデータセットは一般公開される予定だ。

Recently, there has been an increasing concern about the privacy issue raised by using personally identifiable information in machine learning. However, previous portrait matting methods were all based on identifiable portrait images. To fill the gap, we present P3M-10k in this paper, which is the first large-scale anonymized benchmark for Privacy-Preserving Portrait Matting. P3M-10k consists of 10,000 high-resolution face-blurred portrait images along with high-quality alpha mattes. We systematically evaluate both trimap-free and trimap-based matting methods on P3M-10k and find that existing matting methods show different generalization capabilities when following the Privacy-Preserving Training (PPT) setting, i.e., "training on face-blurred images and testing on arbitrary images". To devise a better trimap-free portrait matting model, we propose P3M-Net, which leverages the power of a unified framework for both semantic perception and detail matting, and specifically emphasizes the interaction between them and the encoder to facilitate the matting process. Extensive experiments on P3M-10k demonstrate that P3M-Net outperforms the state-of-the-art methods in terms of both objective metrics and subjective visual quality. Besides, it shows good generalization capacity under the PPT setting, confirming the value of P3M-10k for facilitating future research and enabling potential real-world applications. The source code and dataset will be made publicly available.
翻訳日:2021-04-30 13:12:54 公開日:2021-04-29
# 労働予防におけるNLPに基づく産業事故対応システムRECKONition

RECKONition: a NLP-based system for Industrial Accidents at Work Prevention ( http://arxiv.org/abs/2104.14150v1 )

ライセンス: Link先を確認
Patrizia Agnello, Silvia M. Ansaldi, Emilia Lenzi, Alessio Mongelluzzo, Manuel Roveri(参考訳) 自然言語データセットからパターンや有用な情報を抽出することは、特にイタリア語のような英語とは異なる言語で書かれたデータを扱う場合、難しい作業である。 機械学習とディープラーニングは、自然言語処理(NLP)技術とともに近年広く普及し、テキスト情報における教師なしと教師なしの両方の問題に対処する有用な方法が数多く提供されている。 労働予防におけるNLPに基づく産業事故対応システムであるRECKONitionを提案する。 RECKONitionは、Natural Language Understanding, Clustering and Inference(自然言語理解、クラスタリング、推論)の提供を目的としており、イタリアのInstitute for Insurance for Accidents at Work (INAIL)と共同で活動している。 その結果、産業事故のダイナミクスと結果を記述するイタリア語で書かれたテキストデータを処理することができた。

Extracting patterns and useful information from Natural Language datasets is a challenging task, especially when dealing with data written in a language different from English, like Italian. Machine and Deep Learning, together with Natural Language Processing (NLP) techniques have widely spread and improved lately, providing a plethora of useful methods to address both Supervised and Unsupervised problems on textual information. We propose RECKONition, a NLP-based system for Industrial Accidents at Work Prevention. RECKONition, which is meant to provide Natural Language Understanding, Clustering and Inference, is the result of a joint partnership with the Italian National Institute for Insurance against Accidents at Work (INAIL). The obtained results showed the ability to process textual data written in Italian describing industrial accidents dynamics and consequences.
翻訳日:2021-04-30 13:12:28 公開日:2021-04-29
# WGCN: 軽量構造を持つグラフ畳み込みネットワーク

WGCN: Graph Convolutional Networks with Weighted Structural Features ( http://arxiv.org/abs/2104.14060v1 )

ライセンス: Link先を確認
Yunxiang Zhao and Jianzhong Qi and Qingwei Liu and Rui Zhang(参考訳) トポロジや接続性などのグラフ構造情報は、ノードの表現を学ぶためのグラフ畳み込みネットワーク(GCN)に有用なガイダンスを提供する。 既存のGCNモデルは、ノードの局所的なトポロジを考慮せずに、ノードの構造的情報重みを内外から等しく、あるいは世界中に区別する。 ローカルトポロジの異なるノードに対して, 隣り合うノードと隣り合うノードが異なった貢献をする。 異なるノードの方向構造情報を探索するため、重み付き構造特徴を持つGCNモデルWGCNを提案する。 WGCNはまず、ノードの構造的指紋を方向と度合いを意識したランダムウォークをRestartアルゴリズムでキャプチャし、ウォークはエッジ方向とノードの内外の両方でガイドされる。 次に、重み付けノード構造特徴として、ノードの構造指紋間の相互作用を用いる。 ノードの高次依存性とグラフ幾何をさらに捉えるため、wgcnはグラフを潜在空間に埋め込み、ノードの潜在隣接と幾何学的関係を得る。 潜在空間におけるノードの幾何学的関係に基づいて、WGCNは、注意に基づく幾何学的集約を伴う潜在、内、外隣を区別する。 トランスダクティブノード分類タスクの実験は、WGCNが5つのベンチマークデータセットの精度において、ベースラインモデルを最大17.07%向上させることを示した。

Graph structural information such as topologies or connectivities provides valuable guidance for graph convolutional networks (GCNs) to learn nodes' representations. Existing GCN models that capture nodes' structural information weight in- and out-neighbors equally or differentiate in- and out-neighbors globally without considering nodes' local topologies. We observe that in- and out-neighbors contribute differently for nodes with different local topologies. To explore the directional structural information for different nodes, we propose a GCN model with weighted structural features, named WGCN. WGCN first captures nodes' structural fingerprints via a direction and degree aware Random Walk with Restart algorithm, where the walk is guided by both edge direction and nodes' in- and out-degrees. Then, the interactions between nodes' structural fingerprints are used as the weighted node structural features. To further capture nodes' high-order dependencies and graph geometry, WGCN embeds graphs into a latent space to obtain nodes' latent neighbors and geometrical relationships. Based on nodes' geometrical relationships in the latent space, WGCN differentiates latent, in-, and out-neighbors with an attention-based geometrical aggregation. Experiments on transductive node classification tasks show that WGCN outperforms the baseline models consistently by up to 17.07% in terms of accuracy on five benchmark datasets.
翻訳日:2021-04-30 13:12:13 公開日:2021-04-29
# ベクトル値学習の細粒度一般化解析

Fine-grained Generalization Analysis of Vector-valued Learning ( http://arxiv.org/abs/2104.14173v1 )

ライセンス: Link先を確認
Liang Wu, Antoine Ledent, Yunwen Lei, Marius Kloft(参考訳) 多くの基本的な機械学習タスクはベクトル値関数で学習する問題として定式化することができ、複数のスカラー値関数を同時に学習する。 経験的リスク最小化原理の下では、異なる特定のアルゴリズムに関する一般化分析がいくつかあるが、正規化フレームワーク下でのベクトル値学習の統一解析はいまだに欠けている。 本稿では, 正規化ベクトル値学習アルゴリズムの一般化解析を, 出力次元に軽度に依存し, サンプルサイズに高速なバウンダリを提示することによって開始する。 本稿では,仮説空間の制約制約,損失関数の滑らかさ,低雑音条件に関する既存の仮定を緩和する。 さらに,最適化と学習の相互作用を理解するために,ベクトル値関数を用いた確率勾配降下に対する最初の一般化境界を導出する。 本研究は,Frobenius正則化を用いた極端多ラベル分類において,出力次元に対数依存を持つ最初の境界を生じる多クラス分類と多ラベル分類に適用する。 副生成物として、一般凸函数の項で定義される損失関数クラスに対してラデマッハ複雑性を導出する。

Many fundamental machine learning tasks can be formulated as a problem of learning with vector-valued functions, where we learn multiple scalar-valued functions together. Although there is some generalization analysis on different specific algorithms under the empirical risk minimization principle, a unifying analysis of vector-valued learning under a regularization framework is still lacking. In this paper, we initiate the generalization analysis of regularized vector-valued learning algorithms by presenting bounds with a mild dependency on the output dimension and a fast rate on the sample size. Our discussions relax the existing assumptions on the restrictive constraint of hypothesis spaces, smoothness of loss functions and low-noise condition. To understand the interaction between optimization and learning, we further use our results to derive the first generalization bounds for stochastic gradient descent with vector-valued functions. We apply our general results to multi-class classification and multi-label classification, which yield the first bounds with a logarithmic dependency on the output dimension for extreme multi-label classification with the Frobenius regularization. As a byproduct, we derive a Rademacher complexity bound for loss function classes defined in terms of a general strongly convex function.
翻訳日:2021-04-30 13:11:50 公開日:2021-04-29
# 深層学習における不特定性の神経異方性

A neural anisotropic view of underspecification in deep learning ( http://arxiv.org/abs/2104.14372v1 )

ライセンス: Link先を確認
Guillermo Ortiz-Jimenez, Itamar Franco Salazar-Reque, Apostolos Modas, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard(参考訳) ほとんどの機械学習パイプラインの下位仕様化は、自然発生する分散シフトに対するディープラーニングシステムの堅牢性を評価するために、バリデーションパフォーマンスのみに頼ることはできないことを意味する。 代わりに、ニューラルネットワークが多数の異なる状況にまたがって一般化できるようにするためには、タスクを解く特定の方法を理解する必要がある。 本研究では,学習関数の幾何学はどのようにデータ表現に関連しているかという,ニューラルネットワークの解の2つの重要な特徴を理解することを目的として,幾何学的な観点からこの問題を研究することを提案する。 そして、最近の文献で予想されているように、ディープネットワークは常に単純なソリューションに偏っているのだろうか? ニューラルネットワークがこれらの問題の不特定性を処理する方法は、データ表現に大きく依存していることを示し、学習した予測子の幾何学的および複雑さに影響を与える。 この結果から,ディープラーニングにおけるアーキテクチャ帰納的バイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処するための基本的手法であることが示唆された。

The underspecification of most machine learning pipelines means that we cannot rely solely on validation performance to assess the robustness of deep learning systems to naturally occurring distribution shifts. Instead, making sure that a neural network can generalize across a large number of different situations requires to understand the specific way in which it solves a task. In this work, we propose to study this problem from a geometric perspective with the aim to understand two key characteristics of neural network solutions in underspecified settings: how is the geometry of the learned function related to the data representation? And, are deep networks always biased towards simpler solutions, as conjectured in recent literature? We show that the way neural networks handle the underspecification of these problems is highly dependent on the data representation, affecting both the geometry and the complexity of the learned predictors. Our results highlight that understanding the architectural inductive bias in deep learning is fundamental to address the fairness, robustness, and generalization of these systems.
翻訳日:2021-04-30 13:11:30 公開日:2021-04-29
# トレインバリデーションスプリットを用いたニューラルネットワーク探索のための一般化保証

Generalization Guarantees for Neural Architecture Search with Train-Validation Split ( http://arxiv.org/abs/2104.14132v1 )

ライセンス: Link先を確認
Samet Oymak, Mingchen Li, Mahdi Soltanolkotabi(参考訳) neural architecture search(nas)は、ハイパフォーマンスなディープラーニングのために最適化されたアーキテクチャを自動的に設計する一般的な方法である。 このアプローチでは、トレーニングデータ(下層問題)と、検証データ(上層問題)上のアーキテクチャの構成など、さまざまなハイパーパラメータよりもモデルの重みを最適化する二層最適化を用いるのが一般的である。 本稿では,列車値分割問題における統計的側面について考察する。 実際には、低いレベルの問題はしばしば過度にパラメータ化され、簡単にゼロ損失を達成することができる。 したがって、a-prioriでは、列車の分割の役割をよりよく理解する動機となるトレーニング損失のみに基づいて、正しいハイパーパラメータを区別することは不可能に思える。 この目的のために、この研究は以下の結果を確立する。 1) リスクや過勾配などの検証損失の洗練された特性は, 真のテスト損失の指標であることを示す。 このことは、上層問題は最も一般化可能なモデルを選択し、最小限の検証サンプルサイズでオーバーフィッティングを防ぐのに役立つことを示している。 重要なのは、これは連続空間 -- 一般的な微分可能検索スキームに非常に関係のある -- のために確立されていることである。 2) 活性化探索問題に重点を置いたNAS問題の一般化境界を確立する。 勾配勾配に最適化すると、すべてのアーキテクチャがトレーニングデータに完全に適合してゼロエラーを達成できたとしても、列車検証手順が最良の(モデル、アーキテクチャ)ペアを返すことを示す。 (3) 最後に,NAS,マルチカーネル学習,低ランク行列学習の厳密な関係を強調した。 後者はアルゴリズム上の問題に対する解法を効率的なスペクトル法によって正確に学習し、最小限のリスクを達成できる新しいアルゴリズムの洞察をもたらす。

Neural Architecture Search (NAS) is a popular method for automatically designing optimized architectures for high-performance deep learning. In this approach, it is common to use bilevel optimization where one optimizes the model weights over the training data (lower-level problem) and various hyperparameters such as the configuration of the architecture over the validation data (upper-level problem). This paper explores the statistical aspects of such problems with train-validation splits. In practice, the lower-level problem is often overparameterized and can easily achieve zero loss. Thus, a-priori it seems impossible to distinguish the right hyperparameters based on training loss alone which motivates a better understanding of the role of train-validation split. To this aim this work establishes the following results. (1) We show that refined properties of the validation loss such as risk and hyper-gradients are indicative of those of the true test loss. This reveals that the upper-level problem helps select the most generalizable model and prevent overfitting with a near-minimal validation sample size. Importantly, this is established for continuous spaces -- which are highly relevant for popular differentiable search schemes. (2) We establish generalization bounds for NAS problems with an emphasis on an activation search problem. When optimized with gradient-descent, we show that the train-validation procedure returns the best (model, architecture) pair even if all architectures can perfectly fit the training data to achieve zero error. (3) Finally, we highlight rigorous connections between NAS, multiple kernel learning, and low-rank matrix learning. The latter leads to novel algorithmic insights where the solution of the upper problem can be accurately learned via efficient spectral methods to achieve near-minimal risk.
翻訳日:2021-04-30 13:10:50 公開日:2021-04-29
# 動的情報を用いたメタラーニング

Meta-learning using privileged information for dynamics ( http://arxiv.org/abs/2104.14290v1 )

ライセンス: Link先を確認
Ben Day, Alexander Norcliffe, Jacob Moss, Pietro Li\`o(参考訳) ニューラルODEプロセスは、潜在変数モデルを使用して動的にメタラーニングする問題にアプローチし、コンテキスト情報の柔軟な集約を可能にする。 この柔軟性はneural process frameworkから継承され、任意のサイズのコンテキスト観察の集合を固定長表現に集約することができる。 物理科学では、保存された量の値や理解されたコンポーネントの記述など、システムの生の観察に加え、構造化された知識へのアクセスがしばしば行われます。 集約の柔軟性を活かし,ニューラルネットワークのodeプロセスモデルを拡張し,特権情報設定を用いた学習における付加情報の利用を行い,シミュレーションダイナミクスタスクにおける精度とキャリブレーションの改善を示す実験を行い,拡張性を検証する。

Neural ODE Processes approach the problem of meta-learning for dynamics using a latent variable model, which permits a flexible aggregation of contextual information. This flexibility is inherited from the Neural Process framework and allows the model to aggregate sets of context observations of arbitrary size into a fixed-length representation. In the physical sciences, we often have access to structured knowledge in addition to raw observations of a system, such as the value of a conserved quantity or a description of an understood component. Taking advantage of the aggregation flexibility, we extend the Neural ODE Process model to use additional information within the Learning Using Privileged Information setting, and we validate our extension with experiments showing improved accuracy and calibration on simulated dynamics tasks.
翻訳日:2021-04-30 13:10:24 公開日:2021-04-29
# ベイジアン・ニューラル・ネットワークはどんな感じ?

What Are Bayesian Neural Network Posteriors Really Like? ( http://arxiv.org/abs/2104.14421v1 )

ライセンス: Link先を確認
Pavel Izmailov, Sharad Vikram, Matthew D. Hoffman, Andrew Gordon Wilson(参考訳) bnn(backer over bayesian neural network)パラメータは非常に高次元で非凸である。 計算上の理由から、研究者はこの後方を平均場変動推論や確率勾配マルコフ連鎖モンテカルロ(sgmcmc)のような安価なミニバッチ法で近似した。 ベイズ深層学習における基礎的問題を調査するために、我々は代わりに近代建築にフルバッチハミルトンモンテカルロ (hmc) を用いる。 We show that (1) BNNs can achieve significant performance gains over standard training and deep ensembles; (2) a single long HMC chain can provide a comparable representation of the posterior to multiple shorter chains; (3) in contrast to recent studies, we find posterior tempering is not needed for near-optimal performance, with little evidence for a "cold posterior" effect, which we show is largely an artifact of data augmentation; (4) BMA performance is robust to the choice of prior scale, and relatively similar for diagonal Gaussian, mixture of Gaussian, and logistic priors; (5) Bayesian neural networks show surprisingly poor generalization under domain shift; (6) while cheaper alternatives such as deep ensembles and SGMCMC methods can provide good generalization, they provide distinct predictive distributions from HMC. 特に、深いアンサンブル予測分布は標準SGLDと同様にHMCに近く、標準変分推論に近い。

The posterior over Bayesian neural network (BNN) parameters is extremely high-dimensional and non-convex. For computational reasons, researchers approximate this posterior using inexpensive mini-batch methods such as mean-field variational inference or stochastic-gradient Markov chain Monte Carlo (SGMCMC). To investigate foundational questions in Bayesian deep learning, we instead use full-batch Hamiltonian Monte Carlo (HMC) on modern architectures. We show that (1) BNNs can achieve significant performance gains over standard training and deep ensembles; (2) a single long HMC chain can provide a comparable representation of the posterior to multiple shorter chains; (3) in contrast to recent studies, we find posterior tempering is not needed for near-optimal performance, with little evidence for a "cold posterior" effect, which we show is largely an artifact of data augmentation; (4) BMA performance is robust to the choice of prior scale, and relatively similar for diagonal Gaussian, mixture of Gaussian, and logistic priors; (5) Bayesian neural networks show surprisingly poor generalization under domain shift; (6) while cheaper alternatives such as deep ensembles and SGMCMC methods can provide good generalization, they provide distinct predictive distributions from HMC. Notably, deep ensemble predictive distributions are similarly close to HMC as standard SGLD, and closer than standard variational inference.
翻訳日:2021-04-30 13:10:10 公開日:2021-04-29
# HPCにおけるフォトニックコプロセッサ--ランダム化数値線形代数におけるLightOn OPUを用いた

Photonic co-processors in HPC: using LightOn OPUs for Randomized Numerical Linear Algebra ( http://arxiv.org/abs/2104.14429v1 )

ライセンス: Link先を確認
Daniel Hesslow, Alessandro Cappelli, Igor Carron, Laurent Daudet, Rapha\"el Lafargue, Kilian M\"uller, Ruben Ohana, Gustave Pariente, and Iacopo Poli(参考訳) Randomized Numerical Linear Algebra (RandNLA) は、ハイパフォーマンスコンピューティング(HPC)で広く使われている強力な手法のクラスである。 RandNLAは、大信号に適用される線形代数関数の近似解を、計算コストを削減して提供する。 しかし、次元減少のためのランダム化ステップは、従来のハードウェアにおける計算ボトルネックとなるかもしれない。 LightOn Optical Processing Unitsによって提供されるほぼ定時間線形ランダムプロジェクションを活用することで、RandSVDやトレース推定器など、幅広い重要なRandNLAアルゴリズムにおいて、ランダム化は無視可能な精度で大幅に加速できることを示す。

Randomized Numerical Linear Algebra (RandNLA) is a powerful class of methods, widely used in High Performance Computing (HPC). RandNLA provides approximate solutions to linear algebra functions applied to large signals, at reduced computational costs. However, the randomization step for dimensionality reduction may itself become the computational bottleneck on traditional hardware. Leveraging near constant-time linear random projections delivered by LightOn Optical Processing Units we show that randomization can be significantly accelerated, at negligible precision loss, in a wide range of important RandNLA algorithms, such as RandSVD or trace estimators.
翻訳日:2021-04-30 13:09:49 公開日:2021-04-29
# メガボクセル領域上の分散多重グリッドニューラルネットワーク

Distributed Multigrid Neural Solvers on Megavoxel Domains ( http://arxiv.org/abs/2104.14538v1 )

ライセンス: Link先を確認
Aditya Balu, Sergio Botelho, Biswajit Khara, Vinay Rao, Chinmay Hegde, Soumik Sarkar, Santi Adavani, Adarsh Krishnamurthy, Baskar Ganapathysubramanian (参考訳) 我々はPDEソルバとして機能する大規模ニューラルネットワークの分散トレーニングについて検討する。 特に,メガボクセル領域上の一般化された3次元ポアソン方程式に対するニューラルソルバについて考察する。 2つの異なる進歩を統合するスケーラブルなフレームワークが紹介されている。 まず,数値線形代数で用いられる乗法に類似した手法を用いて,大規模モデルの学習を高速化する。 ここで、ネットワークは、マルチグリッドアプローチで使用される'V'、'W'、'F'、'Half-V'サイクルに類似した、シーケンス内の解像度入力の増加階層を用いて訓練される。 マルチグリッドアプローチと連動して,分散ディープラーニングフレームワークを実装し,解く時間を大幅に削減する。 このアプローチのスケーラビリティをGPU(クラウド上のAzure VM)とCPUクラスタ(PSC Bridges2)の両方で示す。 このアプローチは、高次元の入力族に対する512x512x512の分解能まで出力フルフィールドソリューションを予測するためによくスケールする一般化された3d poissonソルバをトレーニングするためにデプロイされる。

We consider the distributed training of large-scale neural networks that serve as PDE solvers producing full field outputs. We specifically consider neural solvers for the generalized 3D Poisson equation over megavoxel domains. A scalable framework is presented that integrates two distinct advances. First, we accelerate training a large model via a method analogous to the multigrid technique used in numerical linear algebra. Here, the network is trained using a hierarchy of increasing resolution inputs in sequence, analogous to the 'V', 'W', 'F', and 'Half-V' cycles used in multigrid approaches. In conjunction with the multi-grid approach, we implement a distributed deep learning framework which significantly reduces the time to solve. We show the scalability of this approach on both GPU (Azure VMs on Cloud) and CPU clusters (PSC Bridges2). This approach is deployed to train a generalized 3D Poisson solver that scales well to predict output full-field solutions up to the resolution of 512x512x512 for a high dimensional family of inputs.
翻訳日:2021-04-30 13:09:37 公開日:2021-04-29
# セマンティックセグメンテーションに基づく教師なしドメイン適応のためのアンサンブル蒸留の再考

Rethinking Ensemble-Distillatio n for Semantic Segmentation Based Unsupervised Domain Adaptation ( http://arxiv.org/abs/2104.14203v1 )

ライセンス: Link先を確認
Chen-Hao Chao, Bo-Wun Cheng, Chun-Yi Lee(参考訳) 教師なしドメイン適応(UDA)に関する最近の研究は、エンドツーエンドのアンサンブル学習フレームワークがUDAタスクに魅力的な選択肢であることを示した。 しかしながら、これらのエンドツーエンドアンサンブル学習手法は、アンサンブルの変更がフレームワークの再トレーニングを必要とするため、柔軟性に欠けることが多い。 この問題に対処するために,セマンティックセグメンテーションに基づくUDAを行うためのフレキシブルアンサンブル蒸留フレームワークを提案する。 このような柔軟性を達成するため、我々のフレームワークは、アンサンブル内のメンバーの出力不整合やパフォーマンスの変動に対して堅牢であるように設計されている。 本手法の有効性とロバスト性を検討するため,本手法で実現可能な改善を定量的に検証するために,gta5と都市景観のシンセシアと都市景観のベンチマークの両方について広範な実験を行った。 さらに,設計選択が実用的かつ有益であることを検証するために,詳細な分析を行う。 提案手法は, セマンティックセグメンテーションに基づくUDAタスクにおいて, 優れた性能, 堅牢性, 柔軟性を提供することを示す。

Recent researches on unsupervised domain adaptation (UDA) have demonstrated that end-to-end ensemble learning frameworks serve as a compelling option for UDA tasks. Nevertheless, these end-to-end ensemble learning methods often lack flexibility as any modification to the ensemble requires retraining of their frameworks. To address this problem, we propose a flexible ensemble-distillatio n framework for performing semantic segmentation based UDA, allowing any arbitrary composition of the members in the ensemble while still maintaining its superior performance. To achieve such flexibility, our framework is designed to be robust against the output inconsistency and the performance variation of the members within the ensemble. To examine the effectiveness and the robustness of our method, we perform an extensive set of experiments on both GTA5 to Cityscapes and SYNTHIA to Cityscapes benchmarks to quantitatively inspect the improvements achievable by our method. We further provide detailed analyses to validate that our design choices are practical and beneficial. The experimental evidence validates that the proposed method indeed offer superior performance, robustness and flexibility in semantic segmentation based UDA tasks against contemporary baseline methods.
翻訳日:2021-04-30 13:09:21 公開日:2021-04-29
# 半ショット異常検出のための階層変換識別生成モデル

A Hierarchical Transformation-Discr iminating Generative Model for Few Shot Anomaly Detection ( http://arxiv.org/abs/2104.14535v1 )

ライセンス: Link先を確認
Shelly Sheynin, Sagie Benaim and Lior Wolf(参考訳) データ中の異常なサンプルを識別するタスクである異常検出は、しばしば大量のトレーニングサンプルに依存する。 本研究では,訓練中に数枚の画像しか与えられていない画像における,数発の異常検出の設定について検討する。 各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。 画像変換を用いて,画像の実際のパッチと偽のパッチを区別するために,スケール固有のパッチ判別器を最適化することで,モデル表現をさらに強化する。 この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。 本研究では,パリ,CIFAR10,MNIST,Fashi onMNISTのデータセットとMVTecの欠陥検出の設定において,ワンショットと少数ショットの両方で手法が優れていることを示す。 いずれの場合も,本手法は最近のベースライン法よりも優れている。

Anomaly detection, the task of identifying unusual samples in data, often relies on a large set of training samples. In this work, we consider the setting of few-shot anomaly detection in images, where only a few images are given at training. We devise a hierarchical generative model that captures the multi-scale patch distribution of each training image. We further enhance the representation of our model by using image transformations and optimize scale-specific patch-discriminators to distinguish between real and fake patches of the image, as well as between different transformations applied to those patches. The anomaly score is obtained by aggregating the patch-based votes of the correct transformation across scales and image regions. We demonstrate the superiority of our method on both the one-shot and few-shot settings, on the datasets of Paris, CIFAR10, MNIST and FashionMNIST as well as in the setting of defect detection on MVTec. In all cases, our method outperforms the recent baseline methods.
翻訳日:2021-04-30 13:08:58 公開日:2021-04-29
# NURBS-Diff:機械学習CADアプリケーションのための微分可能なNURBSレイヤ

NURBS-Diff: A Differentiable NURBS Layer for Machine Learning CAD Applications ( http://arxiv.org/abs/2104.14547v1 )

ライセンス: Link先を確認
Anjana Deva Prasad, Aditya Balu, Harshil Shah, Soumik Sarkar, Adarsh Krishnamurthy(参考訳) 近年,画像や点雲などの入力表現からジオメトリを再構築する深層学習技術が,幾何学的機械学習の研究の進展に役立っている。 これらの技術のほとんどは、幾何学を表現するために三角形メッシュ表現に依存しており、近年ではBスプラインの使用が試みられている。 非統一論理的B-スプライン(NURBS)はCAD業界のデファクトスタンダードであるが、ディープラーニングフレームワークと幾何学のNURBS表現とのギャップを埋めるための最小限の努力がなされている。 現代のディープラーニング技術のバックボーンは、トレーニング中の損失のバックプロパゲーションを可能にするために、数学演算ごとに完全に自動微分可能な定義を使用することである。 本研究では,CADモデルのNURBS表現を深層学習法と統合するために,一組のNURBSパラメータを与えられた曲線や曲面を評価するための微分可能なNURBS層を提案する。 我々は,自動微分に必要な前方パスと後方パスを定義するNURBS層を開発した。 我々の実装はGPUアクセラレーションであり、人気のあるディープラーニングフレームワークであるPyTorchと直接統合されています。 本稿では,このアルゴリズムを確率勾配降下アルゴリズムに自動的に組み込んで,曲線や表面嵌合,表面オフセットなどのCAD操作を行うことで,NURBS層の有効性を示す。 さらに,点雲再構成や心臓弁などのシェル構造の構造モデリング,解析などの深層学習応用において,その有用性を示す。 これらの例は、私たちのレイヤが特定のディープラーニングフレームワークに対してより良いパフォーマンスを示し、NURBSを必要とするCADディープラーニングフレームワークと直接統合可能であることを示している。

Recent deep-learning-based techniques for the reconstruction of geometries from different input representations such as images and point clouds have been instrumental in advancing research in geometric machine learning. Most of these techniques rely on a triangular mesh representation for representing the geometry, with very recent attempts in using B-splines. While Non-Uniform Rational B-splines (NURBS) are the de facto standard in the CAD industry, minimal efforts have been made to bridge the gap between deep-learning frameworks and the NURBS representation for geometry. The backbone of modern deep learning techniques is the use of a fully automatic differentiable definition for each mathematical operation to enable backpropagation of losses while training. In order to integrate the NURBS representation of CAD models with deep learning methods, we propose a differentiable NURBS layer for evaluating the curve or surface given a set of NURBS parameters. We have developed a NURBS layer defining the forward and backward pass required for automatic differentiation. Our implementation is GPU accelerated and is directly integrated with PyTorch, a popular deep learning framework. We demonstrate the efficacy of our NURBS layer by automatically incorporating it with the stochastic gradient descent algorithm and performing CAD operations such as curve or surface fitting and surface offsetting. Further, we show its utility in deep learning applications such as point cloud reconstruction and structural modeling and analysis of shell structures such as heart valves. These examples show that our layer has better performance for certain deep learning frameworks and can be directly integrated with any CAD deep-learning framework that require the use of NURBS.
翻訳日:2021-04-30 13:08:41 公開日:2021-04-29
# MongeNet: 幾何学的ディープラーニングのための効率的なサンプリング

MongeNet: Efficient Sampler for Geometric Deep Learning ( http://arxiv.org/abs/2104.14554v1 )

ライセンス: Link先を確認
L\'eo Lebrat, Rodrigo Santa Cruz, Clinton Fookes, Olivier Salvado(参考訳) 幾何学的ディープラーニングの最近の進歩は、メッシュ間の距離を評価するための複雑な計算課題を導入する。 メッシュモデルでは、表面品質の評価やトレーニングモデルの損失関数の一部として、ロバストな距離メトリックとともにポイントクラウドが必要である。 現在の手法は、不規則サンプリングとノイズ距離推定を生じる均一なランダムメッシュ離散化に依存することが多い。 本稿では,より高精度な近似特性を持つメッシュの高精度離散化を実現する高速で最適なトランスポートベース・サンプラーであるmongenetを提案する。 本手法をユビキタスなランダムな一様サンプリングと比較し,近似誤差がほぼ半分であり,計算オーバーヘッドが非常に小さいことを示す。

Recent advances in geometric deep-learning introduce complex computational challenges for evaluating the distance between meshes. From a mesh model, point clouds are necessary along with a robust distance metric to assess surface quality or as part of the loss function for training models. Current methods often rely on a uniform random mesh discretization, which yields irregular sampling and noisy distance estimation. In this paper we introduce MongeNet, a fast and optimal transport based sampler that allows for an accurate discretization of a mesh with better approximation properties. We compare our method to the ubiquitous random uniform sampling and show that the approximation error is almost half with a very small computational overhead.
翻訳日:2021-04-30 13:08:16 公開日:2021-04-29
# 6GシステムにおけるAI学習とブロックチェーンマイニングの接続

Connecting AI Learning and Blockchain Mining in 6G Systems ( http://arxiv.org/abs/2104.14088v1 )

ライセンス: Link先を確認
Yunkai Wei, Zixian An, Supeng Leng and Kun Yang(参考訳) 6世代(6g)システムは一般にユビキタス人工知能(ai)とブロックチェーンのような分散台帳上で確立されていると認識されている。 しかし、AIトレーニングは、ほとんどの6Gデバイスで制限されている膨大なコンピューティングリソースを必要とする。 一方、Proof-of-Work(PoW)ベースのブロックチェーンのマイニングは、マイニングをブロックするために巨大なコンピューティングパワーを消費し、計算の無駄によって広く批判されている。 このジレンマに対処するために、AIトレーニングに広く存在する行列計算をブロックマイニングにおけるブルートフォース探索のプロセスに統合できるEvolved-Proof-of-Wor k (E-PoW)コンセンサスを提案する。 その結果、E-PoWはAI学習を接続し、乗算に使われる共通コンピューティングリソースを介してマイニングをブロックすることができる。 実験の結果、E-PoWは6Gシステムにおける並列AIトレーニングのために、純粋なブロックマイニングから最大80%のコンピューティングパワーを節約できることがわかった。

The sixth generation (6G) systems are generally recognized to be established on ubiquitous Artificial Intelligence (AI) and distributed ledger such as blockchain. However, the AI training demands tremendous computing resource, which is limited in most 6G devices. Meanwhile, miners in Proof-of-Work (PoW) based blockchains devote massive computing power to block mining, and are widely criticized for the waste of computation. To address this dilemma, we propose an Evolved-Proof-of-Wor k (E-PoW) consensus that can integrate the matrix computations, which are widely existed in AI training, into the process of brute-force searches in the block mining. Consequently, E-PoW can connect AI learning and block mining via the multiply used common computing resource. Experimental results show that E-PoW can salvage by up to 80 percent computing power from pure block mining for parallel AI training in 6G systems.
翻訳日:2021-04-30 13:07:47 公開日:2021-04-29
# InsertionNet - インストールのためのスケーラブルなソリューション

InsertionNet -- A Scalable Solution for Insertion ( http://arxiv.org/abs/2104.14223v1 )

ライセンス: Link先を確認
Oren Spector and Dotan Di Castro(参考訳) 複雑な組み立てプロセスは、握りと挿入の2つの主要なアクティビティのシーケンスとして記述できる。 一般的な把握解は業界では一般的であるが、挿入は、固定された位置における単純な形状と、そのバリエーションを考慮していない部分集合にのみ適用される。 近年、事前知識(例えばLfDや残留ポリシー)を持つRLアプローチが採用されている。 しかし、これらのアプローチはロボットとその機器を危険にさらす可能性があるため、接触の多いタスクでは問題となる可能性がある。 本稿では,この問題を回帰問題として定式化し,この問題に対処する。 視覚入力と力入力を組み合わせることで,10分以内で16個の挿入タスクにスケールアップできることを実証する。 結果として得られるポリシーはソケットの位置や方向、ペグの色の変化やペグ形状の小さな違いに対して堅牢である。 最後に,組立基板をランダムにテーブル上に配置した場合に,複数挿入目標を持つ2つの複雑な組立タスクに対するエンドツーエンドのソリューションを示す。

Complicated assembly processes can be described as a sequence of two main activities: grasping and insertion. While general grasping solutions are common in industry, insertion is still only applicable to small subsets of problems, mainly ones involving simple shapes in fixed locations and in which the variations are not taken into consideration. Recently, RL approaches with prior knowledge (e.g., LfD or residual policy) have been adopted. However, these approaches might be problematic in contact-rich tasks since interaction might endanger the robot and its equipment. In this paper, we tackled this challenge by formulating the problem as a regression problem. By combining visual and force inputs, we demonstrate that our method can scale to 16 different insertion tasks in less than 10 minutes. The resulting policies are robust to changes in the socket position, orientation or peg color, as well as to small differences in peg shape. Finally, we demonstrate an end-to-end solution for 2 complex assembly tasks with multi-insertion objectives when the assembly board is randomly placed on a table.
翻訳日:2021-04-30 13:07:29 公開日:2021-04-29
# 分散機械学習から連合学習へ:調査

From Distributed Machine Learning to Federated Learning: A Survey ( http://arxiv.org/abs/2104.14362v1 )

ライセンス: Link先を確認
Ji Liu, Jizhou Huang, Yang Zhou, Xuhong Li, Shilei Ji, Haoyi Xiong, Dejing Dou(参考訳) 近年、データとコンピューティングのリソースは一般的にエンドユーザー、様々な地域、組織のデバイスに分散している。 法律や規則により、分散データと計算リソースは、機械学習タスクのために異なるリージョンや組織間で直接共有することはできない。 フェデレートされた学習は、分散データとコンピューティングリソースを活用するための効率的なアプローチとして現れ、機械学習モデルを協調的にトレーニングし、法律や規則に従い、データのセキュリティとデータのプライバシを確保する。 本稿では,フェデレート学習のための既存の研究を包括的に調査する。 本稿では,連合学習システムの機能的アーキテクチャと関連する技術の分類について述べる。 さらに,FLシステムの分散トレーニング,データ通信,セキュリティについて述べる。 最後に,その限界を分析し,今後の研究方向性を提案する。

In recent years, data and computing resources are typically distributed in the devices of end users, various regions or organizations. Because of laws or regulations, the distributed data and computing resources cannot be directly shared among different regions or organizations for machine learning tasks. Federated learning emerges as an efficient approach to exploit distributed data and computing resources, so as to collaboratively train machine learning models, while obeying the laws and regulations and ensuring data security and data privacy. In this paper, we provide a comprehensive survey of existing works for federated learning. We propose a functional architecture of federated learning systems and a taxonomy of related techniques. Furthermore, we present the distributed training, data communication, and security of FL systems. Finally, we analyze their limitations and propose future research directions.
翻訳日:2021-04-30 13:07:14 公開日:2021-04-29
# スパースデータ上の関数近似に対する非線形レベルセット学習とパラメトリック微分方程式への応用

Nonlinear Level Set Learning for Function Approximation on Sparse Data with Applications to Parametric Differential Equations ( http://arxiv.org/abs/2104.14072v1 )

ライセンス: Link先を確認
Anthony Gruber, Max Gunzburger, Lili Ju, Yuankai Teng, Zhu Wang(参考訳) 疎サンプリングされた関数のポイントワイズ予測に対して, 非線形レベルセット学習(NLL)アプローチに基づく次元削減手法を提案する。 暗黙関数定理によって提供される幾何学的情報を利用して、提案アルゴリズムは入力次元を理論下限まで効果的に低減し、小さな精度損失を伴い、回帰解析や感度解析に使用できる関数の1次元表現を提供する。 この修正されたNLLと元のNLLとActive Subspaces (AS) メソッドを比較する実験とアプリケーションが提示される。 パラメトリック微分方程式の解に依存する2つの状態依存量と高次元領域を持つ2つの例関数において,提案アルゴリズムはスパース入力データに適応しながら,高速にトレーニングし,元のnllよりも精度と情報的低減をもたらすことが示されている。

A dimension reduction method based on the "Nonlinear Level set Learning" (NLL) approach is presented for the pointwise prediction of functions which have been sparsely sampled. Leveraging geometric information provided by the Implicit Function Theorem, the proposed algorithm effectively reduces the input dimension to the theoretical lower bound with minor accuracy loss, providing a one-dimensional representation of the function which can be used for regression and sensitivity analysis. Experiments and applications are presented which compare this modified NLL with the original NLL and the Active Subspaces (AS) method. While accommodating sparse input data, the proposed algorithm is shown to train quickly and provide a much more accurate and informative reduction than either AS or the original NLL on two example functions with high-dimensional domains, as well as two state-dependent quantities depending on the solutions to parametric differential equations.
翻訳日:2021-04-30 13:07:05 公開日:2021-04-29
# 構造付き空間推定器を用いた一般化線形モデル

Generalized Linear Models with Structured Sparsity Estimators ( http://arxiv.org/abs/2104.14371v1 )

ライセンス: Link先を確認
Mehmet Caner(参考訳) 本稿では,一般化線形モデルにおける構造的疎度推定器を提案する。 最小二乗損失における構造的スパーシティ推定器は、固定設計と正規誤差のために、最近、 stucky と van de geer (2018) によって導入された。 一般化線形モデルに基づく損失を用いた縮退型構造空間推定器にその結果を拡張する。 構成スパーシティ推定手段は、選択されたノルムで使用されるスパーシティ構造を備えたペナルティ損失関数である。 これには、重み付けされたグループラッソ、ラッソ、凸錐体から生成されるノルムが含まれる。 重大な困難は、2つのオラクルの不等式を証明する方法が明確でないことである。 1つ目は、初期ペナル化一般化線形モデル推定器である。 一般化線形モデルに対して、特定の実現可能重み付きノードワイド回帰がオラクル不等式にどのように適合するかは明らかではないので、一般化線形モデルの2階偏微分の標本推定のために、近似逆のオラクル境界を得るための2次オラクル不等式が必要である。 コントリビューションは5倍です。 我々は、既存のオラクルの不等式結果をペナルティ化された一般化線形モデルに一般化し、それらの前提条件を仮定するのではなく証明する。 重要な問題の1つは、サンプルの1点マージン条件とそのオラクルの不等式での使用の証明である。 2. 結果は,非ガウジアン誤りやレグレッシャもカバーする。 3. 簡単なl_1ノルム使用から凸錐から生成されるノルムへの文献結果の一般化が可能な重み付きノードワイズ回帰証明を提供する。 4. 実効性ノードワイド回帰証明で用いられるノルムは、ペナル化一般化線形モデル損失のノルムとより弱いか等しいと認識する。 5. 一般化線形モデル損失の特異サンプル2次偏微分の近似逆数を得ることにより、第1ステップ推定器をデバイアスすることができる。

In this paper, we introduce structured sparsity estimators in Generalized Linear Models. Structured sparsity estimators in the least squares loss are introduced by Stucky and van de Geer (2018) recently for fixed design and normal errors. We extend their results to debiased structured sparsity estimators with Generalized Linear Model based loss. Structured sparsity estimation means penalized loss functions with a possible sparsity structure used in the chosen norm. These include weighted group lasso, lasso and norms generated from convex cones. The significant difficulty is that it is not clear how to prove two oracle inequalities. The first one is for the initial penalized Generalized Linear Model estimator. Since it is not clear how a particular feasible-weighted nodewise regression may fit in an oracle inequality for penalized Generalized Linear Model, we need a second oracle inequality to get oracle bounds for the approximate inverse for the sample estimate of second-order partial derivative of Generalized Linear Model. Our contributions are fivefold: 1. We generalize the existing oracle inequality results in penalized Generalized Linear Models by proving the underlying conditions rather than assuming them. One of the key issues is the proof of a sample one-point margin condition and its use in an oracle inequality. 2. Our results cover even non sub-Gaussian errors and regressors. 3. We provide a feasible weighted nodewise regression proof which generalizes the results in the literature from a simple l_1 norm usage to norms generated from convex cones. 4. We realize that norms used in feasible nodewise regression proofs should be weaker or equal to the norms in penalized Generalized Linear Model loss. 5. We can debias the first step estimator via getting an approximate inverse of the singular-sample second order partial derivative of Generalized Linear Model loss.
翻訳日:2021-04-30 13:06:48 公開日:2021-04-29
# ヒューマノイドロボットPush-Recovery Learningによる全身戦略の創発について

On the Emergence of Whole-body Strategies from Humanoid Robot Push-recovery Learning ( http://arxiv.org/abs/2104.14534v1 )

ライセンス: Link先を確認
Diego Ferigo, Raffaello Camoriano, Paolo Maria Viceconte, Daniele Calandriello, Silvio Traversaro, Lorenzo Rosasco and Daniele Pucci(参考訳) バランスとプッシュリカバリは、ヒューマノイドロボットが複雑な移動タスクを解決できる重要な機能である。 この文脈では、古典的な制御システムは単純化された物理モデルとハードコード戦略に基づく傾向がある。 特定のシナリオで成功したとしても、このアプローチはパラメータのチューニングと、より一般的な摂動を扱うために特別に設計されたコントローラ間のロジックの切り替えを必要とする。 シミュレーション環境における汎用的で堅牢なヒューマノイドプッシュリカバリポリシーのトレーニングに,モデルフリーな深層強化学習を適用する。 本手法は高次元全体ヒューマノイド制御を目標とし,iCubヒューマノイド上で検証を行った。 ヒューマノイド制御に専門家の知識を組み込んだ報酬コンポーネントは、同じポリシーで複数の堅牢な行動を素早く学習し、全身にまたがる。 本手法は,実世界のロボット展開における重要な要件である,方針の堅牢性と一般化を示す複数のタスクを含む,シミュレーションの広範囲な定量的解析によって検証する。

Balancing and push-recovery are essential capabilities enabling humanoid robots to solve complex locomotion tasks. In this context, classical control systems tend to be based on simplified physical models and hard-coded strategies. Although successful in specific scenarios, this approach requires demanding tuning of parameters and switching logic between specifically-designe d controllers for handling more general perturbations. We apply model-free Deep Reinforcement Learning for training a general and robust humanoid push-recovery policy in a simulation environment. Our method targets high-dimensional whole-body humanoid control and is validated on the iCub humanoid. Reward components incorporating expert knowledge on humanoid control enable fast learning of several robust behaviors by the same policy, spanning the entire body. We validate our method with extensive quantitative analyses in simulation, including out-of-sample tasks which demonstrate policy robustness and generalization, both key requirements towards real-world robot deployment.
翻訳日:2021-04-30 13:06:20 公開日:2021-04-29
# バレンプラトーを持たない変分量子アルゴリズムの最適トレーニング

Optimal training of variational quantum algorithms without barren plateaus ( http://arxiv.org/abs/2104.14543v1 )

ライセンス: Link先を確認
Tobias Haug, M.S. Kim(参考訳) 変分量子アルゴリズム(VQA)は、短期量子コンピュータの効率的な利用を約束する。 しかし、これらのアルゴリズムの訓練には膨大な時間が必要であり、量子ビット数の増加とともに勾配の大きさが失われる不毛高原問題に苦しむ。 本稿では,量子状態学習のためのVQAの最適トレーニング方法を示す。 パラメータ化量子回路はガウス核を形成することができ、勾配上昇に対する最適適応学習率を導出する。 パラメータ空間における安定性と最適運動を特徴とする一般化量子自然勾配を導入する。 どちらの手法も他の最適化ルーチンよりも優れており、量子制御技術と同様にVQAを強化することができる。 VQAの勾配は、初期状態と学習すべき状態の間の忠実さが下から有界であるときに消えることはない。 量子シミュレーションのためのvqaを、不毛高原から解放されたトレーニングが可能な制約で特定する。 最後に,量子機械学習へのガウスカーネルの適用を提案する。

Variational quantum algorithms (VQAs) promise efficient use of near-term quantum computers. However, training these algorithms often requires an extensive amount of time and suffers from the barren plateau problem where the magnitude of the gradients vanishes with increasing number of qubits. Here, we show how to optimally train a VQA for learning quantum states. Parameterized quantum circuits can form Gaussian kernels, which we use to derive optimal adaptive learning rates for gradient ascent. We introduce the generalized quantum natural gradient that features stability and optimized movement in parameter space. Both methods together outperform other optimization routines and can enhance VQAs as well as quantum control techniques. The gradients of the VQA do not vanish when the fidelity between the initial state and the state to be learned is bounded from below. We identify a VQA for quantum simulation with such a constraint that can be trained free of barren plateaus. Finally, we propose the application of Gaussian kernels for quantum machine learning.
翻訳日:2021-04-30 13:06:02 公開日:2021-04-29
# いかにして(ノン)最適なレキシコンか?

How (Non-)Optimal is the Lexicon? ( http://arxiv.org/abs/2104.14279v1 )

ライセンス: Link先を確認
Tiago Pimentel, Irene Nikkarinen, Kyle Mahowald, Ryan Cotterell, Dami\'an Blasi(参考訳) 単語形式への語彙的意味のマッピングは自然言語の主要な特徴である。 使用圧は短い単語を頻繁な意味(Zipfの省略法則)に割り当てるが、生産的でオープンな語彙の必要性、記号列の局所的な制約、その他の様々な要因は、すべて世界の言語の語彙を形成する。 語彙構造の形成におけるそれらの重要性にもかかわらず、これらの要因の相対的貢献は完全に定量化されていない。 本稿では,レキシコンの符号化理論的視点と新しい生成統計モデルを用いて,様々な制約の下でレキシコンの圧縮性に関する上限を定義する。 7つの類型的多様言語からコーパスを抽出し、これらの上限を用いてレキシコンの最適性を定量化し、自然符号に対する大きな制約の相対コストを探索する。 コードの長さによって測られるように、(構成的な)形態学とグラフ戦術は、自然なコードの複雑さの大部分を十分に説明できる。

The mapping of lexical meanings to wordforms is a major feature of natural languages. While usage pressures might assign short words to frequent meanings (Zipf's law of abbreviation), the need for a productive and open-ended vocabulary, local constraints on sequences of symbols, and various other factors all shape the lexicons of the world's languages. Despite their importance in shaping lexical structure, the relative contributions of these factors have not been fully quantified. Taking a coding-theoretic view of the lexicon and making use of a novel generative statistical model, we define upper bounds for the compressibility of the lexicon under various constraints. Examining corpora from 7 typologically diverse languages, we use those upper bounds to quantify the lexicon's optimality and to explore the relative costs of major constraints on natural codes. We find that (compositional) morphology and graphotactics can sufficiently account for most of the complexity of natural codes -- as measured by code length.
翻訳日:2021-04-30 13:04:59 公開日:2021-04-29
# EPP-Net:極点予測に基づくオブジェクト検出

EPP-Net: Extreme-Point-Predic tion-Based Object Detection ( http://arxiv.org/abs/2104.14066v1 )

ライセンス: Link先を確認
Yang Yang, Min Li, Bo Meng, Zihao Huang, Junxing Ren, Degang Sun(参考訳) オブジェクト検出はピクセルクラスタリングタスクと見なすことができ、その境界は4つの極端なポイント(最左端、最右端、最下端)で決定される。 しかし、ほとんどの研究は、極端点の条件付き結果である対象の中心または隅点に焦点を当てている。 本稿では,各画素と4つの極点間の相対変位ベクトルを直接回帰する,アンカーフリーの高密度物体検出器を提案する。 また、極端点の2つの群、すなわち、連合上の極端区間(EIoU)の類似度を測定するための新しい尺度を提案し、このEIoUを新たな回帰損失として組み込む。 さらに, 地盤と予測結果との固有値を予測する新しい分岐法を提案し, 非最大抑制において, ランキングキーワードとしての分類信頼度と組み合わせた。 MS-COCOデータセットでは,ResNet-50では平均精度39.3%,ResNeXt-101-DC Nでは48.3%である。 提案されたepp-netは、オブジェクトを検出し、最先端のアンカーフリー検出器を上回る新しい方法を提供する。

Object detection can be regarded as a pixel clustering task, and its boundary is determined by four extreme points (leftmost, top, rightmost, and bottom). However, most studies focus on the center or corner points of the object, which are actually conditional results of the extreme points. In this paper, we present a new anchor-free dense object detector, which directly regresses the relative displacement vector between each pixel and the four extreme points. We also propose a new metric to measure the similarity between two groups of extreme points, namely, Extreme Intersection over Union (EIoU), and incorporate this EIoU as a new regression loss. Moreover, we propose a novel branch to predict the EIoU between the ground-truth and the prediction results, and combine it with the classification confidence as the ranking keyword in non-maximum suppression. On the MS-COCO dataset, our method achieves an average precision (AP) of 39.3% with ResNet-50 and an AP of 48.3% with ResNeXt-101-DCN. The proposed EPP-Net provides a new method to detect objects and outperforms state-of-the-art anchor-free detectors.
翻訳日:2021-04-30 13:03:13 公開日:2021-04-29
# Pseudo-IoU:アンカーフリー物体検出におけるラベル割り当ての改善

Pseudo-IoU: Improving Label Assignment in Anchor-Free Object Detection ( http://arxiv.org/abs/2104.14082v1 )

ライセンス: Link先を確認
Jiachen Li, Bowen Cheng, Rogerio Feris, Jinjun Xiong, Thomas S.Huang, Wen-Mei Hwu and Humphrey Shi(参考訳) 現在のアンカーフリー物体検出器は非常に単純で有効であるが、正確なラベル割り当て方法が欠如しており、インターセクション・オーバー・ユニオン(IoU)メートル法に基づくよく設計された代入手法によって支持される古典的なアンカーベースモデルと競合する可能性を制限する。 本稿では,アンカーフリーなオブジェクト検出フレームワークに,より標準化された正確な代入ルールを付加的な計算コストやトレーニングやテストのための余分なパラメータを伴わずに導入し,これまでアンカーベースで適用されてきた効果的な代入ルールの下で,優れた品質のトレーニングサンプルを活用することで,アンカーフリーなオブジェクト検出をさらに改善する簡単な指標を提案する。 エンドツーエンドのシングルステージアンカーフリーオブジェクト検出フレームワークに擬似iouメトリックを組み込むことで、pascal vocやmscocoといった一般的なオブジェクト検出ベンチマークにおけるパフォーマンスの一貫した改善を観測する。 我々の手法(シングルモデルとシングルスケール)は、ベルやホイッスルのない最新のアンカーフリー手法と同等の性能を発揮する。 私たちのコードはmmdetectionツールボックスに基づいており、https://github.com/S HI-Labs/Pseudo-IoU-f or-Anchor-Free-Objec t-Detectionで公開されます。

Current anchor-free object detectors are quite simple and effective yet lack accurate label assignment methods, which limits their potential in competing with classic anchor-based models that are supported by well-designed assignment methods based on the Intersection-over-Un ion~(IoU) metric. In this paper, we present \textbf{Pseudo-Intersection- over-Union~(Pseudo-I oU)}: a simple metric that brings more standardized and accurate assignment rule into anchor-free object detection frameworks without any additional computational cost or extra parameters for training and testing, making it possible to further improve anchor-free object detection by utilizing training samples of good quality under effective assignment rules that have been previously applied in anchor-based methods. By incorporating Pseudo-IoU metric into an end-to-end single-stage anchor-free object detection framework, we observe consistent improvements in their performance on general object detection benchmarks such as PASCAL VOC and MSCOCO. Our method (single-model and single-scale) also achieves comparable performance to other recent state-of-the-art anchor-free methods without bells and whistles. Our code is based on mmdetection toolbox and will be made publicly available at https://github.com/S HI-Labs/Pseudo-IoU-f or-Anchor-Free-Objec t-Detection.
翻訳日:2021-04-30 13:02:51 公開日:2021-04-29
# 分離型動的フィルタネットワーク

Decoupled Dynamic Filter Networks ( http://arxiv.org/abs/2104.14107v1 )

ライセンス: Link先を確認
Jingkai Zhou, Varun Jampani, Zhixiong Pi, Qiong Liu, Ming-Hsuan Yang(参考訳) 畳み込みはCNNアーキテクチャの基本構成要素の1つである。 一般的な使用にもかかわらず、標準畳み込みには2つの主な欠点がある。 動的フィルタはコンテント適応であり、計算オーバーヘッドはさらに増加する。 奥行きの畳み込みは軽量なバリエーションであるが、通常はCNNの性能低下につながるか、より多くのチャンネルを必要とする。 本研究では,これら2つの欠点を同時に解決できる非結合動的フィルタ(ddf)を提案する。 最近の注目の高まりに触発されて、DDFは深度ワイドなダイナミックフィルタを空間的およびチャネル的ダイナミックフィルタに分離する。 この分解はパラメータの数を大幅に減らし、計算コストを深みの畳み込みと同じレベルに制限する。 一方,分類ネットワークにおける標準畳み込みをddfに置き換える際の性能の大幅な向上が観察された。 resnet50 / 101はトップ1の精度で1.9%と1.3%改善され、計算コストは半分近く削減された。 また,DDFアップサンプリング変異体(DDF-Up)は,標準畳み込み層や特殊コンテンツ適応層と比較して優れた性能を示した。

Convolution is one of the basic building blocks of CNN architectures. Despite its common use, standard convolution has two main shortcomings: Content-agnostic and Computation-heavy. Dynamic filters are content-adaptive, while further increasing the computational overhead. Depth-wise convolution is a lightweight variant, but it usually leads to a drop in CNN performance or requires a larger number of channels. In this work, we propose the Decoupled Dynamic Filter (DDF) that can simultaneously tackle both of these shortcomings. Inspired by recent advances in attention, DDF decouples a depth-wise dynamic filter into spatial and channel dynamic filters. This decomposition considerably reduces the number of parameters and limits computational costs to the same level as depth-wise convolution. Meanwhile, we observe a significant boost in performance when replacing standard convolution with DDF in classification networks. ResNet50 / 101 get improved by 1.9% and 1.3% on the top-1 accuracy, while their computational costs are reduced by nearly half. Experiments on the detection and joint upsampling networks also demonstrate the superior performance of the DDF upsampling variant (DDF-Up) in comparison with standard convolution and specialized content-adaptive layers.
翻訳日:2021-04-30 13:02:23 公開日:2021-04-29
# k-svdアルゴリズムによる局所性制約付き分析辞書学習

Locality Constrained Analysis Dictionary Learning via K-SVD Algorithm ( http://arxiv.org/abs/2104.14130v1 )

ライセンス: Link先を確認
Kun Jiang, Zhaoli Liu, Zheng Liu and Qindong Sun(参考訳) 近年,解析辞書学習(adl)とその分類への応用が,柔軟な射影能力と分類複雑性の低さから盛んに行われている。 学習分析辞書では、テストサンプルを分類のためにスパース部分空間に変換することができる。 しかし, 分析辞書では, 分類器の識別能力を高めるため, サンプルデータの局所性の探索がほとんど行われていない。 本稿では,合成K-SVDアルゴリズム(SK-LADL)を用いた局所性制約付き解析辞書学習モデルを提案する。 画像データの幾何学的構造を明らかにするためにグラフ正規化を付与することにより、本質的な幾何学的性質を考察する。 学習した解析辞書を通して、画像は多様体の仮定をさらに保証できる新しいコンパクトな空間に変換される。 したがって、画像の局所幾何学的構造はスパース表現係数で保存することができる。 さらに、SK-LADLモデルは、合成K-SVDと勾配法により反復的に解かれる。 SK-LADLモデルの性能優位性を画像分類実験により検証した。

Recent years, analysis dictionary learning (ADL) and its applications for classification have been well developed, due to its flexible projective ability and low classification complexity. With the learned analysis dictionary, test samples can be transformed into a sparse subspace for classification efficiently. However, the underling locality of sample data has rarely been explored in analysis dictionary to enhance the discriminative capability of the classifier. In this paper, we propose a novel locality constrained analysis dictionary learning model with a synthesis K-SVD algorithm (SK-LADL). It considers the intrinsic geometric properties by imposing graph regularization to uncover the geometric structure for the image data. Through the learned analysis dictionary, we transform the image to a new and compact space where the manifold assumption can be further guaranteed. thus, the local geometrical structure of images can be preserved in sparse representation coefficients. Moreover, the SK-LADL model is iteratively solved by the synthesis K-SVD and gradient technique. Experimental results on image classification validate the performance superiority of our SK-LADL model.
翻訳日:2021-04-30 13:02:07 公開日:2021-04-29
# 時間的行動ローカライゼーションのためのアクションユニット記憶ネットワーク

Action Unit Memory Network for Weakly Supervised Temporal Action Localization ( http://arxiv.org/abs/2104.14135v1 )

ライセンス: Link先を確認
Wang Luo, Tianzhu Zhang, Wenfei Yang, Jingen Liu, Tao Mei, Feng Wu, Yongdong Zhang(参考訳) 弱い教師付き時間的行動局在(weakly supervised temporal action localization)は、訓練中のビデオレベルラベルのみを持つ未トリミングビデオにおける行動の検出とローカライズを目的としている。 しかし,フレームレベルのアノテーションがなければ,局所化完全性を実現し,背景干渉を緩和することは困難である。 本稿では,動作単位メモリバンクを学習することで,上記の2つの課題を緩和できる,時間的動作ローカライゼーションを弱く管理するアクションユニットメモリネットワーク(AUMN)を提案する。 提案したAUMNでは、2つのアテンションモジュールがメモリバンクを適応的に更新し、アクションユニット固有の分類器を学習するように設計されている。 さらに、メモリネットワークの更新を導くために、3つの効果的なメカニズム(多様性、均一性、疎性)が設計されている。 私たちの知る限りでは、メモリネットワークでアクションユニットを明示的にモデル化するのはこれが初めてです。 2つの標準ベンチマーク(THUMOS14とActivityNet)の大規模な実験結果から、AUMNは最先端の手法に対して好適に動作することが示された。 具体的には、THUMOS14データセットにおけるIoU閾値の平均mAPは、47.0%から52.1%に大幅に改善されている。

Weakly supervised temporal action localization aims to detect and localize actions in untrimmed videos with only video-level labels during training. However, without frame-level annotations, it is challenging to achieve localization completeness and relieve background interference. In this paper, we present an Action Unit Memory Network (AUMN) for weakly supervised temporal action localization, which can mitigate the above two challenges by learning an action unit memory bank. In the proposed AUMN, two attention modules are designed to update the memory bank adaptively and learn action units specific classifiers. Furthermore, three effective mechanisms (diversity, homogeneity and sparsity) are designed to guide the updating of the memory network. To the best of our knowledge, this is the first work to explicitly model the action units with a memory network. Extensive experimental results on two standard benchmarks (THUMOS14 and ActivityNet) demonstrate that our AUMN performs favorably against state-of-the-art methods. Specifically, the average mAP of IoU thresholds from 0.1 to 0.5 on the THUMOS14 dataset is significantly improved from 47.0% to 52.1%.
翻訳日:2021-04-30 13:01:54 公開日:2021-04-29
# 単視点3次元再構成における適応勾配を用いたテクスチャ学習

Using Adaptive Gradient for Texture Learning in Single-View 3D Reconstruction ( http://arxiv.org/abs/2104.14169v1 )

ライセンス: Link先を確認
Luoyang Lin and Dihong Tian(参考訳) 近年,拡張現実感(xr)やロボット工学,自動運転車などの現代的応用により,3次元モデル再構成のための学習ベースのアプローチが注目されている。 トレーニングで3dモデルを用いずに,画像からのみ学習することで3次元形状を再構成する手法がいくつか提案されている。 しかし、2dモードと3dモードのギャップのため、テクスチャ生成の課題は残る。 これまで,空間変換器ネットワークのグリッドサンプリング機構を用いて,入力画像から色をサンプリングし,テクスチャを定式化した。 その成功にもかかわらず、既存のフレームワークはサンプリングのスコープの探索に制限があり、結果として生成したテクスチャに欠陥があり、レンダリングされた3dモデルに付随する。 本稿では,この問題を解決するために,サンプリング画像のばらつきに基づいて予測座標の勾配を最適化し,新しいサンプリングアルゴリズムを提案する。 画像の意味を考慮に入れ,Frechet Inception Distance (FID) を用いて学習における損失関数を構築し,画像と入力画像のギャップを埋めることを支援する。 その結果, 生成テクスチャが大幅に向上した。 さらに,3次元形状復元を最適化し,トレーニング時の収束を加速するために,モデルのパートセグメンテーションとテンプレート学習を採用する。 学習における3Dの監督がなく、単一のビュー2D画像の収集だけで、われわれのモデルが学習した形状とテクスチャは、過去の作品よりも優れている。 公開データセット上で実験結果を用いて性能を実証する。

Recently, learning-based approaches for 3D model reconstruction have attracted attention owing to its modern applications such as Extended Reality(XR), robotics and self-driving cars. Several approaches presented good performance on reconstructing 3D shapes by learning solely from images, i.e., without using 3D models in training. Challenges, however, remain in texture generation due to the gap between 2D and 3D modals. In previous work, the grid sampling mechanism from Spatial Transformer Networks was adopted to sample color from an input image to formulate texture. Despite its success, the existing framework has limitations on searching scope in sampling, resulting in flaws in generated texture and consequentially on rendered 3D models. In this paper, to solve that issue, we present a novel sampling algorithm by optimizing the gradient of predicted coordinates based on the variance on the sampling image. Taking into account the semantics of the image, we adopt Frechet Inception Distance (FID) to form a loss function in learning, which helps bridging the gap between rendered images and input images. As a result, we greatly improve generated texture. Furthermore, to optimize 3D shape reconstruction and to accelerate convergence at training, we adopt part segmentation and template learning in our model. Without any 3D supervision in learning, and with only a collection of single-view 2D images, the shape and texture learned by our model outperform those from previous work. We demonstrate the performance with experimental results on a publically available dataset.
翻訳日:2021-04-30 13:01:34 公開日:2021-04-29
# ELSD: 効率的なラインセグメント検出器とディスクリプタ

ELSD: Efficient Line Segment Detector and Descriptor ( http://arxiv.org/abs/2104.14205v1 )

ライセンス: Link先を確認
Haotian Zhang, Yicheng Luo, Fangbo Qin, Yijia He, Xiao Liu(参考訳) 本稿では,ラインセグメントを同時に検出し,画像中のデクリプタを抽出する,ELSD(Efficient Line Segment Detector and Descriptor)を提案する。 検出と記述を別々に行う従来のパイプラインとは異なり、ELSDは検出と記述の両方に共有機能抽出器を使用し、SLAMや画像マッチングといった高レベルなタスクに、リアルタイムで不可欠なライン機能を提供する。 まず, 1 段階コンパクトモデルの設計を行い, 中点, 角度, 長さを直線セグメントの最小表現として用いることを提案する。 非中心性抑制は、線路の交点によって生じる断片化された線分をフィルタリングするために提案される。 細かなオフセット予測は、中間点のローカライゼーションを洗練するために設計されている。 次に、ラインディスクリプタブランチを検出器ブランチに統合し、2つのブランチをエンドツーエンドで共同で訓練する。 実験では、提案したELSDは、Wireframeデータセットと YorkUrbanデータセットの最先端のパフォーマンスを精度と効率の両方で達成する。 ELSDの行記述能力は、行マッチングタスクの前の作業よりも優れています。

We present the novel Efficient Line Segment Detector and Descriptor (ELSD) to simultaneously detect line segments and extract their descriptors in an image. Unlike the traditional pipelines that conduct detection and description separately, ELSD utilizes a shared feature extractor for both detection and description, to provide the essential line features to the higher-level tasks like SLAM and image matching in real time. First, we design the one-stage compact model, and propose to use the mid-point, angle and length as the minimal representation of line segment, which also guarantees the center-symmetry. The non-centerness suppression is proposed to filter out the fragmented line segments caused by lines' intersections. The fine offset prediction is designed to refine the mid-point localization. Second, the line descriptor branch is integrated with the detector branch, and the two branches are jointly trained in an end-to-end manner. In the experiments, the proposed ELSD achieves the state-of-the-art performance on the Wireframe dataset and YorkUrban dataset, in both accuracy and efficiency. The line description ability of ELSD also outperforms the previous works on the line matching task.
翻訳日:2021-04-30 13:01:09 公開日:2021-04-29
# セグメンテーションによるシーングラフ生成

Segmentation-grounde d Scene Graph Generation ( http://arxiv.org/abs/2104.14207v1 )

ライセンス: Link先を確認
Siddhesh Khandelwal, Mohammed Suhail, Leonid Sigal(参考訳) シーングラフ生成はコンピュータビジョンにおいて重要な問題となっている。 シーングラフは、オブジェクト、その位置、イメージ内の関係の接地表現を提供するが、それらは提案されるバウンディングボックスの粒度だけに限られる。 本研究では,まず,画素レベルのセグメンテーションによるシーングラフ生成のためのフレームワークを提案する。 本フレームワークは,シーングラフ生成手法に非依存であり,シーングラフデータセット(例えば,Visual Genome)におけるセグメンテーションアノテーションの欠如に対処するための補助的データセット(例えば,MS COCO)の転送とマルチタスク学習を通じて対処する。 具体的には、検出対象の各オブジェクトにセグメンテーションマスクを付与し、補助データセットにアノテーションが存在するカテゴリに対して、言語相似重み付き線形結合として表現する。 これらの推定マスクは、画像内のピクセルレベルの関係を基底とする新しいガウスの注意機構とともに、関係予測の改善を可能にしている。 フレームワーク全体がエンドツーエンドのトレーニングが可能で、ターゲットと補助両方のデータセットでマルチタスクで学習される。

Scene graph generation has emerged as an important problem in computer vision. While scene graphs provide a grounded representation of objects, their locations and relations in an image, they do so only at the granularity of proposal bounding boxes. In this work, we propose the first, to our knowledge, framework for pixel-level segmentation-grounde d scene graph generation. Our framework is agnostic to the underlying scene graph generation method and address the lack of segmentation annotations in target scene graph datasets (e.g., Visual Genome) through transfer and multi-task learning from, and with, an auxiliary dataset (e.g., MS COCO). Specifically, each target object being detected is endowed with a segmentation mask, which is expressed as a lingual-similarity weighted linear combination over categories that have annotations present in an auxiliary dataset. These inferred masks, along with a novel Gaussian attention mechanism which grounds the relations at a pixel-level within the image, allow for improved relation prediction. The entire framework is end-to-end trainable and is learned in a multi-task manner with both target and auxiliary datasets.
翻訳日:2021-04-30 13:00:49 公開日:2021-04-29
# グループベース再同定のためのマルチアテンションコンテキストグラフの学習

Learning Multi-Attention Context Graph for Group-Based Re-Identification ( http://arxiv.org/abs/2104.14236v1 )

ライセンス: Link先を確認
Yichao Yan, Jie Qin, Bingbing Ni, Jiaxin Chen, Li Liu, Fan Zhu, Wei-Shi Zheng, Xiaokang Yang, Ling Shao(参考訳) オーバーラップされていないカメラシステムにまたがって、人々のグループを再識別または検索することを学ぶことは、ビデオ監視において重要な応用である。 しかしながら、既存のほとんどのメソッドは、実際のシナリオで人々がしばしばグループで歩くという事実を無視して、個人の再識別(re-id)に焦点を当てています。 本研究では、さらに一歩進んで、人々のグループ、すなわちグループre-idを識別するためのコンテキスト情報の利用を検討する。 本稿では,グラフニューラルネットワークに基づく新しい統一フレームワークを提案し,グループベースのre-idタスク,すなわちグループre-idとグループ認識者のre-idを同時に扱う。 具体的には、グループメンバーをノードとしてコンテキストグラフを構築し、異なる人々間の依存関係を活用する。 グループ内とグループ間の両方のコンテキストを定式化するマルチレベルアテンション機構を開発し、ノードレベルの特徴を注意深く集約することにより、堅牢なグラフレベル表現のための追加の自己アテンションモジュールを開発した。 提案手法は,ノードレベルの表現を用いてグループ認識者の再帰に取り組むために直接一般化することができる。 一方、これらのタスクにディープラーニングモデルのデプロイを容易にするために、1.5Kの注釈付きグループを持つ3.8K以上の画像を含む新しいグループre-idデータセットを構築します。 新たなデータセットと既存の3つのデータセットに関する広範な実験は、グループベースのre-idタスクの両方に対する提案フレームワークの有効性を明確に示している。 コードはhttps://github.com/d aodaofr/group_reidで入手できる。

Learning to re-identify or retrieve a group of people across non-overlapped camera systems has important applications in video surveillance. However, most existing methods focus on (single) person re-identification (re-id), ignoring the fact that people often walk in groups in real scenarios. In this work, we take a step further and consider employing context information for identifying groups of people, i.e., group re-id. We propose a novel unified framework based on graph neural networks to simultaneously address the group-based re-id tasks, i.e., group re-id and group-aware person re-id. Specifically, we construct a context graph with group members as its nodes to exploit dependencies among different people. A multi-level attention mechanism is developed to formulate both intra-group and inter-group context, with an additional self-attention module for robust graph-level representations by attentively aggregating node-level features. The proposed model can be directly generalized to tackle group-aware person re-id using node-level representations. Meanwhile, to facilitate the deployment of deep learning models on these tasks, we build a new group re-id dataset that contains more than 3.8K images with 1.5K annotated groups, an order of magnitude larger than existing group re-id datasets. Extensive experiments on the novel dataset as well as three existing datasets clearly demonstrate the effectiveness of the proposed framework for both group-based re-id tasks. The code is available at https://github.com/d aodaofr/group_reid.
翻訳日:2021-04-30 13:00:29 公開日:2021-04-29
# 時空間行動局在による白内障手術ビデオの関連性検出

Relevance Detection in Cataract Surgery Videos by Spatio-Temporal Action Localization ( http://arxiv.org/abs/2104.14280v1 )

ライセンス: Link先を確認
Negin Ghamsarian, Mario Taschwer, Doris Putzgruber-Adamitsch , Stephanie Sarny, Klaus Schoeffmann(参考訳) 白内障手術では、顕微鏡の助けを借りて手術を行う。 顕微鏡は最大2人程度でリアルタイム手術を観察できるため、記録されたビデオを用いて手術訓練の大部分を行う。 ビデオコンテンツによる訓練手順を最適化するために,外科医は自動的関連性検出アプローチが必要となる。 関連度に基づく検索に加えて, 白内障手術ビデオにおけるスキル評価や不規則性検出にも利用できる。 本稿では,白内障ビデオの位相セグメントの検出と分類を行う3つのモジュールフレームワークを提案する。 アイドルフレーム認識ネットワークを利用して、ビデオはアイドルとアクションセグメントに分割される。 関連検出の性能を高めるため、Mask R-CNNを用いて、関連する外科的動作を行う角膜を全フレームで検出する。 瞳孔テクスチャ及び行動に関する高分解能情報と同一位相からの相補的時間情報とを含む時空間的局所化セグメントを関連検出モジュールに入力する。 このモジュールは4つの並列リカレントCNNから構成され、医療専門家によって定義された4つの関連するフェーズを検出する。 結果が統合され、アクションフェーズは無関係または関連する4つのフェーズのうちの1つとして分類される。 実験の結果,提案手法は静的CNNと特徴ベースとエンドツーエンドのリカレントネットワークの異なる構成よりも優れていることがわかった。

In cataract surgery, the operation is performed with the help of a microscope. Since the microscope enables watching real-time surgery by up to two people only, a major part of surgical training is conducted using the recorded videos. To optimize the training procedure with the video content, the surgeons require an automatic relevance detection approach. In addition to relevance-based retrieval, these results can be further used for skill assessment and irregularity detection in cataract surgery videos. In this paper, a three-module framework is proposed to detect and classify the relevant phase segments in cataract videos. Taking advantage of an idle frame recognition network, the video is divided into idle and action segments. To boost the performance in relevance detection, the cornea where the relevant surgical actions are conducted is detected in all frames using Mask R-CNN. The spatiotemporally localized segments containing higher-resolution information about the pupil texture and actions, and complementary temporal information from the same phase are fed into the relevance detection module. This module consists of four parallel recurrent CNNs being responsible to detect four relevant phases that have been defined with medical experts. The results will then be integrated to classify the action phases as irrelevant or one of four relevant phases. Experimental results reveal that the proposed approach outperforms static CNNs and different configurations of feature-based and end-to-end recurrent networks.
翻訳日:2021-04-30 13:00:04 公開日:2021-04-29
# アダプティブローカル・グローバル・リファインメントによるビデオ・サイレント物体検出

Video Salient Object Detection via Adaptive Local-Global Refinement ( http://arxiv.org/abs/2104.14360v1 )

ライセンス: Link先を確認
Yi Tang and Yuanman Li and Guoliang Xing(参考訳) ビデオサルエントオブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。 信頼性のあるVSODは、空間領域と時間領域の両方からの情報を同時に活用する必要がある。 既存のアルゴリズムのほとんどは、追加や結合といった単純な融合戦略を利用して、異なるドメインからの情報をマージするだけである。 単純さにもかかわらず、このような融合戦略は機能的冗長性をもたらす可能性があり、また空間的領域と時間的領域の両方から抽出された多レベル特徴の関係を十分に活用できない。 本稿では,vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。 従来のアプローチとは違って,局所的な改良アーキテクチャと,多段階特徴の局所的依存とグローバル的依存を網羅する,単に融合した特徴を異なるスコープで洗練するグローバルなアーキテクチャを提案する。 さらに、有効な情報を強調し、無駄な情報を抑制するために、グラフ畳み込みニューラルネットワーク(GCN)に基づいて適応重み付け機構を設計する。 重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。 公開ビデオデータセットの大規模な実験結果から,提案手法が既存手法よりも優れていることを示す。

Video salient object detection (VSOD) is an important task in many vision applications. Reliable VSOD requires to simultaneously exploit the information from both the spatial domain and the temporal domain. Most of the existing algorithms merely utilize simple fusion strategies, such as addition and concatenation, to merge the information from different domains. Despite their simplicity, such fusion strategies may introduce feature redundancy, and also fail to fully exploit the relationship between multi-level features extracted from both spatial and temporal domains. In this paper, we suggest an adaptive local-global refinement framework for VSOD. Different from previous approaches, we propose a local refinement architecture and a global one to refine the simply fused features with different scopes, which can fully explore the local dependence and the global dependence of multi-level features. In addition, to emphasize the effective information and suppress the useless one, an adaptive weighting mechanism is designed based on graph convolutional neural network (GCN). We show that our weighting methodology can further exploit the feature correlations, thus driving the network to learn more discriminative feature representation. Extensive experimental results on public video datasets demonstrate the superiority of our method over the existing ones.
翻訳日:2021-04-30 12:59:42 公開日:2021-04-29
# トップダウン誘導による夜間運転シーンの熱赤外画像カラー化

Thermal Infrared Image Colorization for Nighttime Driving Scenes with Top-Down Guided Attention ( http://arxiv.org/abs/2104.14374v1 )

ライセンス: Link先を確認
Fuya Luo, Yunhan Li, Guang Zeng, Peng Peng, Gang Wang, and Yongjie Li(参考訳) 光に敏感で、霧の多い環境の浸透度が高いため、赤外線カメラは夜間の交通シーンの感知に広く利用されている。 しかし、熱赤外(TIR)画像の低コントラストと彩度の欠如は、高レベルのコンピュータビジョンアルゴリズムの人間の解釈と移植性を妨げている。 夜間TIR画像から昼間色(NTIR2DC)画像への色付けは、夜間シーンの認識を容易にするための有望な方法である。 最近の画像翻訳の進歩にもかかわらず、NTIR2DCタスクにおける意味的エンタングルメントと幾何学的歪みは未解決のままである。 そこで我々は、toP-down attEntion and gRadient aLignment based GAN(PearlGAN)を提案する。 トップダウンガイドアテンションモジュールと精巧なアテンションロスは、翻訳中の意味的エンコーディングの曖昧さを減らすために最初に設計されている。 そして、変換画像と入力画像とのエッジ一貫性を促進するために、構造化勾配アライメント損失を導入する。 さらに、FLIRおよびKAISTデータセットのサブセット上で画素レベルのアノテーションを行い、複数の翻訳手法のセマンティックな保存性能を評価する。 さらに, 翻訳過程における幾何学的一貫性を評価するために, 新たな計量が考案された。 NTIR2DCタスクの他の画像翻訳方法よりも、提案したPearlGANの方が優れていることを示す。 ソースコードとラベル付きセグメンテーションマスクは \url{https://github.com/F uyaLuo/PearlGAN/} で入手できる。

Benefitting from insensitivity to light and high penetration of foggy environments, infrared cameras are widely used for sensing in nighttime traffic scenes. However, the low contrast and lack of chromaticity of thermal infrared (TIR) images hinder the human interpretation and portability of high-level computer vision algorithms. Colorization to translate a nighttime TIR image into a daytime color (NTIR2DC) image may be a promising way to facilitate nighttime scene perception. Despite recent impressive advances in image translation, semantic encoding entanglement and geometric distortion in the NTIR2DC task remain under-addressed. Hence, we propose a toP-down attEntion And gRadient aLignment based GAN, referred to as PearlGAN. A top-down guided attention module and an elaborate attentional loss are first designed to reduce the semantic encoding ambiguity during translation. Then, a structured gradient alignment loss is introduced to encourage edge consistency between the translated and input images. In addition, pixel-level annotation is carried out on a subset of FLIR and KAIST datasets to evaluate the semantic preservation performance of multiple translation methods. Furthermore, a new metric is devised to evaluate the geometric consistency in the translation process. Extensive experiments demonstrate the superiority of the proposed PearlGAN over other image translation methods for the NTIR2DC task. The source code and labeled segmentation masks will be available at \url{https://github.com/F uyaLuo/PearlGAN/}.
翻訳日:2021-04-30 12:59:24 公開日:2021-04-29
# MinMaxCAM: CAMベースのWeakly Supervised Object Localizationのためのオブジェクトカバレッジの改善

MinMaxCAM: Improving object coverage for CAM-basedWeakly Supervised Object Localization ( http://arxiv.org/abs/2104.14375v1 )

ライセンス: Link先を確認
Kaili Wang, Jose Oramas, Tinne Tuytelaars(参考訳) 弱教師付きオブジェクトローカライゼーションの最も一般的な問題の1つは、不正確なオブジェクトカバレッジである。 クラスアクティベーションマッピングに基づく最先端のメソッドの文脈では、興味のある対象の最も識別的な領域にのみ焦点をあてたローカライズマップか、背景領域で発生するアクティベーションによって引き起こされる。 対象領域内のローカライゼーションマップのカバレッジを最大化しようとする全領域正規化と、背景領域で発生するアクティベーションを最小限にする共通領域正規化の2つの表現正規化機構を提案する。 我々は、ImageNet, CUB-200-2011 と OpenImages-segmentat ion データセットの2つの正則化を評価し、提案した正則化が両問題に対処し、最先端を著しく上回ることを示す。

One of the most common problems of weakly supervised object localization is that of inaccurate object coverage. In the context of state-of-the-art methods based on Class Activation Mapping, this is caused either by localization maps which focus, exclusively, on the most discriminative region of the objects of interest or by activations occurring in background regions. To address these two problems, we propose two representation regularization mechanisms: Full Region Regularizationwhich tries to maximize the coverage of the localization map inside the object region, and Common Region Regularization which minimizes the activations occurring in background regions. We evaluate the two regularizations on the ImageNet, CUB-200-2011 and OpenImages-segmentat ion datasets, and show that the proposed regularizations tackle both problems, outperforming the state-of-the-art by a significant margin.
翻訳日:2021-04-30 12:59:03 公開日:2021-04-29
# 識別生成デュアルメモリビデオ異常検出

Discriminative-Gener ative Dual Memory Video Anomaly Detection ( http://arxiv.org/abs/2104.14430v1 )

ライセンス: Link先を確認
Xin Guo, Zhongming Jin, Chong Chen, Helei Nie, Jianqiang Huang, Deng Cai, Xiaofei He, Xiansheng Hua(参考訳) 近年,ビデオ異常検出(VAD)には,トレーニングプロセス中に通常のデータに代えて,いくつかの異常を使おうと試みている。 データ不均衡の副作用は、少数の異常データが大量の正規データに直面したときに発生する。 最新のVADでは、トリプルト損失やデータ再サンプリング戦略を使用してこの問題を軽減する。 しかし、いくつかの異常のある識別的vadのための精巧に設計された構造はいまだに存在しない。 本稿では,いくつかの異常を生かしてデータの不均衡を解決するために,識別生成型デュアルメモリ(dream)異常検出モデルを提案する。 2つの浅い判別器を用いて、通常の特徴分布境界と次のフレーム予測のためのジェネレータを締め付ける。 さらに、正規性と異常空間の両方においてスパース特徴表現を得るためのデュアルメモリモジュールを提案する。 その結果、DREAMはデータ不均衡問題を解決するだけでなく、合理的な特徴空間も学習する。 さらに理論的には、DREAMは未知の異常にも有効である。 UCSD Ped1, UCSD Ped2, CUHK Avenue, ShanghaiTechの従来の手法と比較して, 我々のモデルは余分なパラメータなしで全てのベースラインを上回ります。 アブレーション研究は,デュアルメモリモジュールと識別生成ネットワークの有効性を示す。

Recently, people tried to use a few anomalies for video anomaly detection (VAD) instead of only normal data during the training process. A side effect of data imbalance occurs when a few abnormal data face a vast number of normal data. The latest VAD works use triplet loss or data re-sampling strategy to lessen this problem. However, there is still no elaborately designed structure for discriminative VAD with a few anomalies. In this paper, we propose a DiscRiminative-gEner ative duAl Memory (DREAM) anomaly detection model to take advantage of a few anomalies and solve data imbalance. We use two shallow discriminators to tighten the normal feature distribution boundary along with a generator for the next frame prediction. Further, we propose a dual memory module to obtain a sparse feature representation in both normality and abnormality space. As a result, DREAM not only solves the data imbalance problem but also learn a reasonable feature space. Further theoretical analysis shows that our DREAM also works for the unknown anomalies. Comparing with the previous methods on UCSD Ped1, UCSD Ped2, CUHK Avenue, and ShanghaiTech, our model outperforms all the baselines with no extra parameters. The ablation study demonstrates the effectiveness of our dual memory module and discriminative-gener ative network.
翻訳日:2021-04-30 12:58:44 公開日:2021-04-29
# クロスビュー一貫性に基づく3次元人行動表現学習

3D Human Action Representation Learning via Cross-View Consistency Pursuit ( http://arxiv.org/abs/2104.14466v1 )

ライセンス: Link先を確認
Linguo Li, Minsi Wang, Bingbing Ni, Hang Wang, Jiancheng Yang, Wenjun Zhang(参考訳) 本研究では,多視点補完型監視信号を利用した非教師なし3次元骨格型行動表現(CrosSCLR)のためのクロスビューコントラスト学習フレームワークを提案する。 CrosSCLRはシングルビューコントラスト学習(SkeletonCLR)とクロスビュー一貫した知識マイニング(CVC-KM)モジュールの両方で構成され、協調的な学習方法に統合されている。 CVC-KMは、高信頼の正負のサンプルとそれらの分布が、それらの埋め込み類似性に従ってビュー間で交換されるように機能し、対照的な文脈、すなわち類似の分布において、クロスビュー整合性を保証する。 大規模な実験により、NTU-60およびNTU-120データセットにおいて、高品質な動作表現が観察され、CrosSCLRが顕著な動作認識結果が得られることが示された。 私たちのコードはhttps://github.com/L inguoLi/CrosSCLRで利用可能です。

In this work, we propose a Cross-view Contrastive Learning framework for unsupervised 3D skeleton-based action Representation (CrosSCLR), by leveraging multi-view complementary supervision signal. CrosSCLR consists of both single-view contrastive learning (SkeletonCLR) and cross-view consistent knowledge mining (CVC-KM) modules, integrated in a collaborative learning manner. It is noted that CVC-KM works in such a way that high-confidence positive/negative samples and their distributions are exchanged among views according to their embedding similarity, ensuring cross-view consistency in terms of contrastive context, i.e., similar distributions. Extensive experiments show that CrosSCLR achieves remarkable action recognition results on NTU-60 and NTU-120 datasets under unsupervised settings, with observed higher-quality action representations. Our code is available at https://github.com/L inguoLi/CrosSCLR.
翻訳日:2021-04-30 12:58:25 公開日:2021-04-29
# ディープニューラルネットワークとモバイルアプリケーションフロントエンドを用いた実用的な口唇変換システムの構築

Towards a practical lip-to-speech conversion system using deep neural networks and mobile application frontend ( http://arxiv.org/abs/2104.14467v1 )

ライセンス: Link先を確認
Frigyes Viktor Arthur and Tam\'as G\'abor Csap\'o(参考訳) 調音-音響(前方)マッピングは、様々な調音獲得技法を入力として(例えば)音声を予測する技術である。 超音波舌画像、MRI、唇ビデオ)。 lip videoの利点は、簡単に手頃で手頃な価格であることにある。 音声合成のソリューションはすでにいくつかあるが、主にオフライントレーニングと推論に集中している。 本稿では,ディープニューラルネットワークのトレーニングと推論のためのバックエンドから構築したシステムを提案する。 トップ5の分類精度74%は、モバイルアプリケーションユーザからのフィードバックと組み合わせることで、発話障害がこのソリューションと通信できることを確実にします。

Articulatory-to-acou stic (forward) mapping is a technique to predict speech using various articulatory acquisition techniques as input (e.g. ultrasound tongue imaging, MRI, lip video). The advantage of lip video is that it is easily available and affordable: most modern smartphones have a front camera. There are already a few solutions for lip-to-speech synthesis, but they mostly concentrate on offline training and inference. In this paper, we propose a system built from a backend for deep neural network training and inference and a fronted as a form of a mobile application. Our initial evaluation shows that the scenario is feasible: a top-5 classification accuracy of 74% is combined with feedback from the mobile application user, making sure that the speaking impaired might be able to communicate with this solution.
翻訳日:2021-04-30 12:58:07 公開日:2021-04-29
# 時間的オポチュニスト:自己監督型マルチフレーム単眼深度

The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth ( http://arxiv.org/abs/2104.14540v1 )

ライセンス: Link先を確認
Jamie Watson, Oisin Mac Aodha, Victor Prisacariu, Gabriel Brostow, Michael Firman(参考訳) 自己教師付き単眼深度推定ネットワークを訓練し、訓練中の監視信号として近傍フレームを用いてシーン深度を予測する。 しかし、多くのアプリケーションでは、ビデオフレーム形式のシーケンス情報もテスト時に利用可能である。 モノキュラーネットワークの大多数は、この余分な信号を使用しないため、予測された深さを改善するために使用できる貴重な情報を無視している。 計算コストの高いテストタイムリファインメント技術を使うか、既製のリカレントネットワークを使うかのいずれかで、本質的に利用可能な幾何学的情報のみを間接的に利用する。 本研究では,テスト時にシーケンス情報を利用することのできる,密集度推定のための適応的手法である muchdepth を提案する。 マルチビューステレオからインスピレーションを得て,セルフスーパービジョンのみを用いてトレーニングした,エンドツーエンドのボリュームベースアプローチを提案する。 我々は,ネットワークが信頼できないと見なされる場合,コストボリュームを無視することを促す,新たな一貫性損失を提案する。 動くオブジェクトの場合は、スタティックカメラに対処するための拡張スキーム。 KITTIとCityscapesの両方で詳細な実験を行ったところ、テスト時に1フレームまたは複数フレームを使用するものを含む、すべてのセルフ教師付きベースラインを上回りました。

Self-supervised monocular depth estimation networks are trained to predict scene depth using nearby frames as a supervision signal during training. However, for many applications, sequence information in the form of video frames is also available at test time. The vast majority of monocular networks do not make use of this extra signal, thus ignoring valuable information that could be used to improve the predicted depth. Those that do, either use computationally expensive test-time refinement techniques or off-the-shelf recurrent networks, which only indirectly make use of the geometric information that is inherently available. We propose ManyDepth, an adaptive approach to dense depth estimation that can make use of sequence information at test time, when it is available. Taking inspiration from multi-view stereo, we propose a deep end-to-end cost volume based approach that is trained using self-supervision only. We present a novel consistency loss that encourages the network to ignore the cost volume when it is deemed unreliable, e.g. in the case of moving objects, and an augmentation scheme to cope with static cameras. Our detailed experiments on both KITTI and Cityscapes show that we outperform all published self-supervised baselines, including those that use single or multiple frames at test time.
翻訳日:2021-04-30 12:57:54 公開日:2021-04-29
# AutoFlow: 光フローのためのより良いトレーニングセットを学ぶ

AutoFlow: Learning a Better Training Set for Optical Flow ( http://arxiv.org/abs/2104.14544v1 )

ライセンス: Link先を確認
Deqing Sun, Daniel Vlasic, Charles Herrmann, Varun Jampani, Michael Krainin, Huiwen Chang, Ramin Zabih, William T. Freeman, Ce Liu(参考訳) 合成データセットは、光学フローのためのCNNモデルの事前トレーニングにおいて重要な役割を果たすが、新しいアプリケーションに適応するのに苦労している。 プロセスを自動化するために、ターゲットデータセット上でモデルの性能を最適化する光学フローのトレーニングデータを簡易かつ効果的にレンダリングするAutoFlowを提案する。 AutoFlowは、各レイヤの動き、形状、外観が学習可能なハイパーパラメータによって制御される合成データのレンダリングに階層化されたアプローチを採用している。 実験の結果,AutoFlowはPWC-NetとRAFTの両方の事前学習において,最先端の精度を実現することがわかった。 コードとデータはhttps://autoflow-goo gle.github.ioで入手できます。

Synthetic datasets play a critical role in pre-training CNN models for optical flow, but they are painstaking to generate and hard to adapt to new applications. To automate the process, we present AutoFlow, a simple and effective method to render training data for optical flow that optimizes the performance of a model on a target dataset. AutoFlow takes a layered approach to render synthetic data, where the motion, shape, and appearance of each layer are controlled by learnable hyperparameters. Experimental results show that AutoFlow achieves state-of-the-art accuracy in pre-training both PWC-Net and RAFT. Our code and data are available at https://autoflow-goo gle.github.io .
翻訳日:2021-04-30 12:57:34 公開日:2021-04-29
# LightTrack: ワンショットアーキテクチャ検索によるオブジェクト追跡のための軽量ニューラルネットワーク

LightTrack: Finding Lightweight Neural Networks for Object Tracking via One-Shot Architecture Search ( http://arxiv.org/abs/2104.14545v1 )

ライセンス: Link先を確認
Bin Yan, Houwen Peng, Kan Wu, Dong Wang, Jianlong Fu, Huchuan Lu(参考訳) オブジェクト追跡はここ数年で大きな進歩を遂げている。 しかし、最先端のトラッカーはますます重く高価になり、リソース制約のあるアプリケーションへのデプロイメントが制限される。 本研究では、ニューラルネットワークサーチ(NAS)を用いて、より軽量で効率的なオブジェクトトラッカーを設計するLightTrackを提案する。 総合的な実験は、LightTrackが効果的であることを示している。 siamrpn++やoceanといった手作りのsotaトラッカーよりも優れたパフォーマンスを実現するトラッカーを見つけることができ、モデルフラップやパラメータははるかに少ない。 さらに、リソース制約のあるモバイルチップセットにデプロイすると、検出されたトラッカーはより高速に実行される。 例えば、Snapdragon 845 Adreno GPUでは、LightTrackはOceanよりも12\times$速く動作し、13\times$少ないパラメータと38\times$低いFlopsを使用する。 このような改善は、オブジェクト追跡タスクにおける学術モデルと産業展開の間のギャップを狭める可能性がある。 LightTrackはhttps://github.com/r esearchmm/LightTrack .comでリリースされた。

Object tracking has achieved significant progress over the past few years. However, state-of-the-art trackers become increasingly heavy and expensive, which limits their deployments in resource-constrained applications. In this work, we present LightTrack, which uses neural architecture search (NAS) to design more lightweight and efficient object trackers. Comprehensive experiments show that our LightTrack is effective. It can find trackers that achieve superior performance compared to handcrafted SOTA trackers, such as SiamRPN++ and Ocean, while using much fewer model Flops and parameters. Moreover, when deployed on resource-constrained mobile chipsets, the discovered trackers run much faster. For example, on Snapdragon 845 Adreno GPU, LightTrack runs $12\times$ faster than Ocean, while using $13\times$ fewer parameters and $38\times$ fewer Flops. Such improvements might narrow the gap between academic models and industrial deployments in object tracking task. LightTrack is released at https://github.com/r esearchmm/LightTrack .
翻訳日:2021-04-30 12:57:22 公開日:2021-04-29
# 友人の助けを借りて - 視覚表現の近距離-neighborコントラスト学習

With a Little Help from My Friends: Nearest-Neighbor Contrastive Learning of Visual Representations ( http://arxiv.org/abs/2104.14548v1 )

ライセンス: Link先を確認
Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson, Pierre Sermanet, Andrew Zisserman(参考訳) インスタンス識別トレインエンコーダに基づく自己教師付き学習アルゴリズムは、同じインスタンスの事前定義された変換に不変である。 ほとんどのメソッドは、対照的な損失のために、同じイメージの異なるビューを扱うが、データセット内の他のインスタンスからのポジティブの使用に関心がある。 我々の手法であるNearest-Neighbor Contrastive Learning of visual Representations (NNCLR) は、潜在空間のデータセットから最も近い隣人をサンプリングし、正として扱う。 これは事前定義された変換よりも意味的なバリエーションを提供する。 コントラスト損失において最も近いneighborを正として用いると、画像ネットの分類において71.7%から75.6%と大幅に性能が向上し、従来の最先端手法を上回っていることが判明した。 半教師付き学習ベンチマークでは、imagenetラベルが 53.8% から 56.5% までしか利用できない場合、パフォーマンスが大幅に向上します。 転送学習ベンチマークでは、12のダウンストリームデータセットのうち8つで,最先端の手法(imagenetによる教師付き学習を含む)を上回っている。 さらに,本手法は複雑なデータ拡張に依存しないことを示す。 ランダムな作物のみを用いて訓練すると、画像ネットトップ1の精度は2.1%しか低下しない。

Self-supervised learning algorithms based on instance discrimination train encoders to be invariant to pre-defined transformations of the same instance. While most methods treat different views of the same image as positives for a contrastive loss, we are interested in using positives from other instances in the dataset. Our method, Nearest-Neighbor Contrastive Learning of visual Representations (NNCLR), samples the nearest neighbors from the dataset in the latent space, and treats them as positives. This provides more semantic variations than pre-defined transformations. We find that using the nearest-neighbor as positive in contrastive losses improves performance significantly on ImageNet classification, from 71.7% to 75.6%, outperforming previous state-of-the-art methods. On semi-supervised learning benchmarks we improve performance significantly when only 1% ImageNet labels are available, from 53.8% to 56.5%. On transfer learning benchmarks our method outperforms state-of-the-art methods (including supervised learning with ImageNet) on 8 out of 12 downstream datasets. Furthermore, we demonstrate empirically that our method is less reliant on complex data augmentations. We see a relative reduction of only 2.1% ImageNet Top-1 accuracy when we train using only random crops.
翻訳日:2021-04-30 12:57:02 公開日:2021-04-29
# 数発対話ヘッド合成のための学習空間表現

Learned Spatial Representations for Few-shot Talking-Head Synthesis ( http://arxiv.org/abs/2104.14557v1 )

ライセンス: Link先を確認
Moustafa Meshry, Saksham Suri, Larry S. Davis, Abhinav Shrivastava(参考訳) 本稿では,数発対話頭合成のための新しい手法を提案する。 ニューラルトーキングヘッドの最近の研究は有望な結果を生み出しているが、ソース画像中の被写体の同一性を保たない画像を生成することができる。 これは、3次元形状情報、アイデンティティーの手がかり、色、照明、さらには背景の詳細をモデル化した単一の潜在コードで各被験者の絡み合った表現の結果であると仮定する。 対照的に、対象の表現を空間的・スタイル的な構成要素に分解することを提案する。 本手法は2段階の目標フレームを生成する。 まず、ターゲット画像の密集した空間配置を予測する。 次に、画像生成装置は、予測レイアウトを利用して空間的非正規化を行い、ターゲットフレームを合成する。 本研究では,この不整合表現が,従来の手法に比べて定量的かつ定性的に有意な改善をもたらすことを示す。

We propose a novel approach for few-shot talking-head synthesis. While recent works in neural talking heads have produced promising results, they can still produce images that do not preserve the identity of the subject in source images. We posit this is a result of the entangled representation of each subject in a single latent code that models 3D shape information, identity cues, colors, lighting and even background details. In contrast, we propose to factorize the representation of a subject into its spatial and style components. Our method generates a target frame in two steps. First, it predicts a dense spatial layout for the target image. Second, an image generator utilizes the predicted layout for spatial denormalization and synthesizes the target frame. We experimentally show that this disentangled representation leads to a significant improvement over previous methods, both quantitatively and qualitatively.
翻訳日:2021-04-30 12:56:35 公開日:2021-04-29
# 文章からテキストへのマルチビュー学習

Text-to-Text Multi-view Learning for Passage Re-ranking ( http://arxiv.org/abs/2104.14133v1 )

ライセンス: Link先を確認
Jia-Huei Ju, Jheng-Hong Yang, Chuan-Ju Wang(参考訳) 近年, 自然言語処理の進歩は, 大規模コーパス上で事前訓練された深層文脈表現によって促進されている。 通常、特定の下流タスクに対するこれらの事前訓練されたモデルの微調整は、単一視点学習に基づいているが、文として不十分な文は異なる視点から解釈することができる。 そこで本研究では,テキスト生成ビューという付加的なビューを,従来の単視点通路ランキングモデルに組み込むことにより,テキスト対テキスト多視点学習フレームワークを提案する。 実証的に、提案されたアプローチは、シングルビューと比べ、ランキングのパフォーマンスに役立ちます。 アブレーションの研究も論文で報告されている。

Recently, much progress in natural language processing has been driven by deep contextualized representations pretrained on large corpora. Typically, the fine-tuning on these pretrained models for a specific downstream task is based on single-view learning, which is however inadequate as a sentence can be interpreted differently from different perspectives. Therefore, in this work, we propose a text-to-text multi-view learning framework by incorporating an additional view -- the text generation view -- into a typical single-view passage ranking model. Empirically, the proposed approach is of help to the ranking performance compared to its single-view counterpart. Ablation studies are also reported in the paper.
翻訳日:2021-04-30 12:56:20 公開日:2021-04-29
# 編集関係に関して独立または閉じた可変長符号

Variable-Length Codes Independent or Closed with respect to Edit Relations ( http://arxiv.org/abs/2104.14185v1 )

ライセンス: Link先を確認
Jean N\'eraud (LITIS, UNIROUEN)(参考訳) 本研究では,ノイズ情報伝送や情報検索ストレージなど,コンピュータ科学の他の領域における可変長符号の推測について検討する。 この研究は、独立集合と閉集合の2つの概念に依存している。 我々は,削除,挿入,置換という特異な組み合わせを適用し,画像が計算される単語関係に注目した。 特に、$\tau$非独立または$\tau$-closed符号の族において最大となる可変長符号のキャラクタリゼーションが提供される。

We investigate inference of variable-length codes in other domains of computer science, such as noisy information transmission or information retrieval-storage: in such topics, traditionally mostly constant-length codewords act. The study is relied upon the two concepts of independent and closed sets. We focus to those word relations whose images are computed by applying some peculiar combinations of deletion, insertion, or substitution. In particular, characterizations of variable-length codes that are maximal in the families of $\tau$-independent or $\tau$-closed codes are provided.
翻訳日:2021-04-30 12:56:08 公開日:2021-04-29
# フィージビリティに基づく固定点ネットワーク

Feasibility-based Fixed Point Networks ( http://arxiv.org/abs/2104.14090v1 )

ライセンス: Link先を確認
Howard Heaton, Samy Wu Fung, Aviv Gibali, Wotao Yin(参考訳) 逆問題とは、雑音測定の集合から信号を回復することである。 これらの問題は、しばしば実現可能性問題として当てはまるが、データ摂動に関する正確で安定した回復を保証するためには、通常、追加の正規化が必要である。 ハンドチョン分析正規化は望ましい理論的な保証をもたらすが、そのようなアプローチは、大量の利用可能なデータを活用できないため、信号の回復効果が限られている。 この目的のために、この研究は理論的に正しい方法でデータ駆動正規化と凸実現を融合させる。 これは、F-FPN(Fasibility-bas ed fixed point network)を用いて実現される。 各F-FPNは、射影演算子とデータ駆動正規化演算子の合成である非拡張演算子の集合を定義する。 固定点反復はこれらの演算子の固定点を計算するのに使われ、固定点が利用可能なデータを表現するように演算子の重みを調整する。 数値例は、ct再構成のための標準的なtvベースリカバリ法とアルゴリズムの展開に基づく同等のニューラルネットワークと比較して、f-fpnによる性能向上を示す。

Inverse problems consist of recovering a signal from a collection of noisy measurements. These problems can often be cast as feasibility problems; however, additional regularization is typically necessary to ensure accurate and stable recovery with respect to data perturbations. Hand-chosen analytic regularization can yield desirable theoretical guarantees, but such approaches have limited effectiveness recovering signals due to their inability to leverage large amounts of available data. To this end, this work fuses data-driven regularization and convex feasibility in a theoretically sound manner. This is accomplished using feasibility-based fixed point networks (F-FPNs). Each F-FPN defines a collection of nonexpansive operators, each of which is the composition of a projection-based operator and a data-driven regularization operator. Fixed point iteration is used to compute fixed points of these operators, and weights of the operators are tuned so that the fixed points closely represent available data. Numerical examples demonstrate performance increases by F-FPNs when compared to standard TV-based recovery methods for CT reconstruction and a comparable neural network based on algorithm unrolling.
翻訳日:2021-04-30 12:55:36 公開日:2021-04-29
# 適応型スケッチベースプレコンディショナーを用いた高速凸2次最適化法

Fast Convex Quadratic Optimization Solvers with Adaptive Sketching-based Preconditioners ( http://arxiv.org/abs/2104.14101v1 )

ライセンス: Link先を確認
Jonathan Lacotte and Mert Pilanci(参考訳) 二次正則化を伴う最小二乗問題を検討し,適応的なスケッチサイズを持つ新しいスケッチベース反復手法を提案する。 スケッチのサイズは、線形収束を保証するためにデータ行列の有効次元と同じくらい小さくすることができる。 しかしながら、実効次元の観点でスケッチサイズを選択することの難しさは、一般的にはスケッチサイズが未知であるという事実にある。 正規化された最小二乗数に対する現在のスケッチベースの解法はこの問題を解決するのに不足している。 本研究の主な貢献は,有効次元の事前推定を必要としない,標準的なスケッチに基づく反復解法,すなわち反復的ヘッセンスケッチと事前条件付き共役勾配法を適応的に提案することである。 本稿では,反復解法の各ステップの進捗に応じて,スケッチサイズを適応的に制御する機構を提案する。 十分な進捗が得られなければ、スケッチサイズが増加して収束率が向上する。 適応的スケッチサイズは,有効次元の点で最大にスケールし,適応的手法が線形に収束することが保証されていることを証明した。 その結果, 適応手法は, 密で不条件の最小二乗問題を解くために, 最先端の複雑さを改善する。 重要なことは、我々の手法は極めて効率的であり、直接分解に基づく解法、共役勾配法、および事前条件付き変種など、標準的な最小二乗解法よりもはるかに高速である。

We consider least-squares problems with quadratic regularization and propose novel sketching-based iterative methods with an adaptive sketch size. The sketch size can be as small as the effective dimension of the data matrix to guarantee linear convergence. However, a major difficulty in choosing the sketch size in terms of the effective dimension lies in the fact that the latter is usually unknown in practice. Current sketching-based solvers for regularized least-squares fall short on addressing this issue. Our main contribution is to propose adaptive versions of standard sketching-based iterative solvers, namely, the iterative Hessian sketch and the preconditioned conjugate gradient method, that do not require a priori estimation of the effective dimension. We propose an adaptive mechanism to control the sketch size according to the progress made in each step of the iterative solver. If enough progress is not made, the sketch size increases to improve the convergence rate. We prove that the adaptive sketch size scales at most in terms of the effective dimension, and that our adaptive methods are guaranteed to converge linearly. Consequently, our adaptive methods improve the state-of-the-art complexity for solving dense, ill-conditioned least-squares problems. Importantly, we illustrate numerically on several synthetic and real datasets that our method is extremely efficient and is often significantly faster than standard least-squares solvers such as a direct factorization based solver, the conjugate gradient method and its preconditioned variants.
翻訳日:2021-04-30 12:55:20 公開日:2021-04-29
# スペクトル強化学習による逆進行性適応

Adapting to Reward Progressivity via Spectral Reinforcement Learning ( http://arxiv.org/abs/2104.14138v1 )

ライセンス: Link先を確認
Michael Dann, John Thangarajah(参考訳) 本稿では、漸進的な報酬を伴う強化学習タスク、すなわち報酬が時間とともに大きくなる傾向にあるタスクについて考察する。 この性質は、価値に基づく深層強化学習エージェントにとって問題であり、特に、より報酬の高い領域に到達するために、エージェントがタスクの比較的未解決な領域を最初に成功させなければならない場合である。 そこで本研究では,大きな報酬が得られた場合にのみ高周波数が活性化するように,報酬を周波数に分解するスペクトルdqnを提案する。 これにより、トレーニング損失のバランスが取れ、小規模で大規模な報酬領域をまたいでさらに重み付けが可能になる。 標準値ベースの手法が著しく苦戦している2つの領域において、スペクトルDQNははるかに進歩することができる。 さらに、このアプローチを過度に好まない6つの標準的なatariゲームで評価した場合、spectrum dqnは競争力以上のものとなる。 これらの結果から,本手法は対象問題に対して過度に適合していないことが示され,スペクトルDQNは報酬進行性に対処する以上の利点がある可能性が示唆された。

In this paper we consider reinforcement learning tasks with progressive rewards; that is, tasks where the rewards tend to increase in magnitude over time. We hypothesise that this property may be problematic for value-based deep reinforcement learning agents, particularly if the agent must first succeed in relatively unrewarding regions of the task in order to reach more rewarding regions. To address this issue, we propose Spectral DQN, which decomposes the reward into frequencies such that the high frequencies only activate when large rewards are found. This allows the training loss to be balanced so that it gives more even weighting across small and large reward regions. In two domains with extreme reward progressivity, where standard value-based methods struggle significantly, Spectral DQN is able to make much farther progress. Moreover, when evaluated on a set of six standard Atari games that do not overtly favour the approach, Spectral DQN remains more than competitive: While it underperforms one of the benchmarks in a single game, it comfortably surpasses the benchmarks in three games. These results demonstrate that the approach is not overfit to its target problem, and suggest that Spectral DQN may have advantages beyond addressing reward progressivity.
翻訳日:2021-04-30 12:54:57 公開日:2021-04-29
# ReLearn: 生理学的信号からのマルチモーダルストレス検出のための欠落データの存在下でのロバスト機械学習フレームワーク

ReLearn: A Robust Machine Learning Framework in Presence of Missing Data for Multimodal Stress Detection from Physiological Signals ( http://arxiv.org/abs/2104.14278v1 )

ライセンス: Link先を確認
Arman Iranfar, Adriana Arza, and David Atienza(参考訳) 連続的およびマルチモーダルなストレス検出は、ウェアラブルデバイスと機械学習アルゴリズムを通じて最近行われている。 しかしながら、従来の監視装置が記録する生理的信号に対処する上で、よく知られた重要な課題は、センサーの接触不足や他の機器の干渉によるデータ不足である。 この課題は、患者や患者が精神的または身体的に活動している場合や、より意識的または意識的でない動きのためにストレスを受ける場合、より問題となる。 本稿では,マルチモーダルな生理的信号から抽出したバイオマーカーからのストレス検出のための堅牢な機械学習フレームワークReLearnを提案する。 ReLearnは、トレーニングと推論フェーズの両方において、欠落したデータと外れ値に効果的に対処する。 ReLearnは、特徴選択、外れ値検出、データインプット、分類のための機械学習モデルで構成されており、推論時に欠落した値を含むすべてのサンプルを分類することができる。 特に,本実験およびストレスデータベースでは,すべての欠落データを捨てることによって,単純かつ一般的な方法で,推論時のデータの34%を予測できない一方で,欠落したサンプルに対して最大78%の精度で正確な予測を行うことができる。 また,提案手法は,50%以上のサンプルが欠落している場合でも,86.8%のクロスバリデーション精度が得られることを示した。

Continuous and multimodal stress detection has been performed recently through wearable devices and machine learning algorithms. However, a well-known and important challenge of working on physiological signals recorded by conventional monitoring devices is missing data due to sensors insufficient contact and interference by other equipment. This challenge becomes more problematic when the user/patient is mentally or physically active or stressed because of more frequent conscious or subconscious movements. In this paper, we propose ReLearn, a robust machine learning framework for stress detection from biomarkers extracted from multimodal physiological signals. ReLearn effectively copes with missing data and outliers both at training and inference phases. ReLearn, composed of machine learning models for feature selection, outlier detection, data imputation, and classification, allows us to classify all samples, including those with missing values at inference. In particular, according to our experiments and stress database, while by discarding all missing data, as a simplistic yet common approach, no prediction can be made for 34% of the data at inference, our approach can achieve accurate predictions, as high as 78%, for missing samples. Also, our experiments show that the proposed framework obtains a cross-validation accuracy of 86.8% even if more than 50% of samples within the features are missing.
翻訳日:2021-04-30 12:54:35 公開日:2021-04-29
# グラフ埋め込み部分空間サポートベクトルデータ記述

Graph-Embedded Subspace Support Vector Data Description ( http://arxiv.org/abs/2104.14370v1 )

ライセンス: Link先を確認
Fahad Sohrab, Alexandros Iosifidis, Moncef Gabbouj, Jenni Raitoharju(参考訳) 本稿では,一クラス分類のための新しいサブスペース学習フレームワークを提案する。 提案フレームワークはグラフ埋め込みの形でこの問題を提示する。 前述したサブスペースのone-classテクニックを特別なケースとして含むとともに、これらのテクニックが実際に最適化されているかに関するさらなる洞察を提供する。 このフレームワークはグラフ保存基準を通じて他の有意義な最適化目標を取り入れることができ、以前はグラデーションベースの手法に代わるものとして、スペクトルおよびスペクトル回帰に基づくソリューションを明らかにする。 サブスペース学習フレームワークとサブスペースに適用されるサポートベクトルデータ記述を反復的に組み合わせ、グラフ埋め込みサブスペースサポートベクトルデータ記述を定式化する。 新たに提案した異なる変種の性能を実験的に解析した。 本稿では,ベースラインに対する性能向上と,最近提案されているサブスペース学習法について述べる。

In this paper, we propose a novel subspace learning framework for one-class classification. The proposed framework presents the problem in the form of graph embedding. It includes the previously proposed subspace one-class techniques as its special cases and provides further insight on what these techniques actually optimize. The framework allows to incorporate other meaningful optimization goals via the graph preserving criterion and reveals spectral and spectral regression-based solutions as alternatives to the previously used gradient-based technique. We combine the subspace learning framework iteratively with Support Vector Data Description applied in the subspace to formulate Graph-Embedded Subspace Support Vector Data Description. We experimentally analyzed the performance of newly proposed different variants. We demonstrate improved performance against the baselines and the recently proposed subspace learning methods for one-class classification.
翻訳日:2021-04-30 12:54:12 公開日:2021-04-29
# 福祉中心型機械学習の公理的理論

An Axiomatic Theory of Provably-Fair Welfare-Centric Machine Learning ( http://arxiv.org/abs/2104.14504v1 )

ライセンス: Link先を確認
Cyrus Cousins(参考訳) 我々は、福祉理論的公正機械学習における固有の困難に対処し、等価にアキシマティックに正当化された代替案を提案し、その結果の計算および統計的学習問題を研究する。 福祉指標は、1つ以上の集団の全体的幸福度を定量化し、福祉に基づく目的と制約は、最近、複数のグループの多様なニーズを考慮した満足なソリューションを生み出すために、公正な機械学習手法をインセンティブ化するために提案されている。 残念なことに、多くの機械学習問題は、ユーティリティ最大化タスクではなく、損失最小化として自然に採用されている。 本研究は, 医療福祉の標準公理を通した公理的正当化を用いて, 社会的な被害(幸福ではなく)を総合的に測定し, 相補的尺度を定める。 次に、フェア機械学習を、集団の不正がリスク(予測損失)である直接的な不正最小化問題として捉えた。 驚くべきことに、枢機卿福祉(malfare)の公理は、これは単にユーティリティを負の損失として定義することと等価ではないと定めている。 これらの概念に基づいて、フェアPAC学習を定義し、フェアPACラーナーは、任意のデータ分布に対して、および任意の不正な概念に対して、境界付きサンプル複雑性を持つ$\varepsilon$-$\delt a$ malfare-Optimalモデルを学ぶアルゴリズムである。 適切な修正を加えて、多くの標準的なPAC学習者がフェアPAC学習者に変換できる幅広い条件を示す。 これは、統計的、計算的、多くのよく研究された機械学習モデルに対して効率性が保証され、具体的なトレーニングアルゴリズムと厳密な一般化を提供することによって、公正なmlを民主化し、実際に関連するものである。

We address an inherent difficulty in welfare-theoretic fair machine learning, proposing an equivalently-axiomat ically justified alternative, and studying the resulting computational and statistical learning questions. Welfare metrics quantify overall wellbeing across a population of one or more groups, and welfare-based objectives and constraints have recently been proposed to incentivize fair machine learning methods to produce satisfactory solutions that consider the diverse needs of multiple groups. Unfortunately, many machine-learning problems are more naturally cast as loss minimization, rather than utility maximization tasks, which complicates direct application of welfare-centric methods to fair-ML tasks. In this work, we define a complementary measure, termed malfare, measuring overall societal harm (rather than wellbeing), with axiomatic justification via the standard axioms of cardinal welfare. We then cast fair machine learning as a direct malfare minimization problem, where a group's malfare is their risk (expected loss). Surprisingly, the axioms of cardinal welfare (malfare) dictate that this is not equivalent to simply defining utility as negative loss. Building upon these concepts, we define fair-PAC learning, where a fair PAC-learner is an algorithm that learns an $\varepsilon$-$\delt a$ malfare-optimal model with bounded sample complexity, for any data distribution, and for any malfare concept. We show broad conditions under which, with appropriate modifications, many standard PAC-learners may be converted to fair-PAC learners. This places fair-PAC learning on firm theoretical ground, as it yields statistical, and in some cases computational, efficiency guarantees for many well-studied machine-learning models, and is also practically relevant, as it democratizes fair ML by providing concrete training algorithms and rigorous generalization guarantees for these models.
翻訳日:2021-04-30 12:53:58 公開日:2021-04-29
# ソフトウェア品質保証のための機械学習技術:調査

Machine Learning Techniques for Software Quality Assurance: A Survey ( http://arxiv.org/abs/2104.14056v1 )

ライセンス: Link先を確認
Safa Omri and Carsten Sinz(参考訳) 過去数年間、ソフトウェアエンジニアリング、特にソフトウェア品質保証を含む、より多くのアプリケーションドメインに機械学習技術が適用されてきた。 重要なアプリケーションドメインは、例えばソフトウェア欠陥予測やテストケースの選択と優先順位付けなどである。 大規模なソフトウェアシステムのどのコンポーネントが次のリリースで最大の障害を含んでいるかを予測する能力は、リリース遅延の早期推定や、ソフトウェアの品質を改善するための修正アクションのガイドなど、プロジェクトの管理に役立ちます。 しかし,頑健な故障予測モデルの開発は困難な課題であり,多くの手法が文献に提案されている。 ソフトウェアシステムの欠陥が発生しやすい部分の見積もりと密接な関係は、テストケースの選択と優先順位付けの方法の問題であり、実際にテストケースの優先順位付けは、ソフトウェアの回帰を見つけるのに要する時間を減らす手段として広く研究されてきた。 本稿では,障害予測とテストケース優先順位付けの両面での様々なアプローチについて論じるとともに,近年の深層学習アルゴリズムが,プログラムのセマンティクスと障害予測機能のギャップを埋めるのにどのように役立つかを説明する。 また、最近提案したテストケース優先化(TCP)の機械学習手法と、障害検出機能に悪影響を及ぼすことなく回帰テストのコストを削減できる機能についても検討した。

Over the last years, machine learning techniques have been applied to more and more application domains, including software engineering and, especially, software quality assurance. Important application domains have been, e.g., software defect prediction or test case selection and prioritization. The ability to predict which components in a large software system are most likely to contain the largest numbers of faults in the next release helps to better manage projects, including early estimation of possible release delays, and affordably guide corrective actions to improve the quality of the software. However, developing robust fault prediction models is a challenging task and many techniques have been proposed in the literature. Closely related to estimating defect-prone parts of a software system is the question of how to select and prioritize test cases, and indeed test case prioritization has been extensively researched as a means for reducing the time taken to discover regressions in software. In this survey, we discuss various approaches in both fault prediction and test case prioritization, also explaining how in recent studies deep learning algorithms for fault prediction help to bridge the gap between programs' semantics and fault prediction features. We also review recently proposed machine learning methods for test case prioritization (TCP), and their ability to reduce the cost of regression testing without negatively affecting fault detection capabilities.
翻訳日:2021-04-30 12:53:21 公開日:2021-04-29
# タイムリ勧告のためのユーザ嗜好の不均一な時間パターンの学習

Learning Heterogeneous Temporal Patterns of User Preference for Timely Recommendation ( http://arxiv.org/abs/2104.14200v1 )

ライセンス: Link先を確認
Junsu Cho, Dongmin Hyun, SeongKu Kang, Hwanjo Yu(参考訳) リコメンダシステムは、ユーザのアイテムの好みをモデル化し、ユーザが消費する次のアイテムを予測することに成功している。 近年,アイテムとユーザのインタラクションの時間情報を活用して,ユーザの行動の固有時間パターンをキャプチャし,その時間にタイムリなレコメンデーションを提供する試みが数多く行われている。 既存の研究では、時刻情報を単一タイプの特徴とみなし、アイテムのユーザの好みとどのように関連付けるかに焦点を当てている。 しかし,ユーザの嗜好の時間パターンは通常異質であるため,時間情報を完全に学習するには不十分である。 特定の項目に対するユーザの嗜好は、1)重要な最近の出来事の影響下で、周期的に、または2)時間とともに増大し、これら2種類の時間パターンそれぞれに固有の特徴が現れる。 本稿では,まず,時間認識型レコメンダシステムにおいて考慮すべきユーザ嗜好の2種類の時間パターンの特徴を定義する。 そこで本研究では,すべての特徴を考慮したユーザの嗜好の異種時間パターンを共同で学習するtimelyrecという,タイムリーレコメンデーションのための新しいレコメンデータシステムを提案する。 TimelyRecでは、2つのエンコーダのカスケードが、各エンコーダに対して提案されたアテンションモジュールを使用して、ユーザの好みの時間パターンをキャプチャする。 さらに,興味のある項目の予測と,その項目をtop-kレコメンデーション(すなわち,項目決定レコメンデーション)で同時に推薦するタイミングを評価する評価シナリオを提案する。 我々は,実世界のデータセットにおける項目推薦シナリオと提案シナリオに関する広範囲な実験を行い,timelyrecと提案するアテンションモジュールの優位性を示した。

Recommender systems have achieved great success in modeling user's preferences on items and predicting the next item the user would consume. Recently, there have been many efforts to utilize time information of users' interactions with items to capture inherent temporal patterns of user behaviors and offer timely recommendations at a given time. Existing studies regard the time information as a single type of feature and focus on how to associate it with user preferences on items. However, we argue they are insufficient for fully learning the time information because the temporal patterns of user preference are usually heterogeneous. A user's preference for a particular item may 1) increase periodically or 2) evolve over time under the influence of significant recent events, and each of these two kinds of temporal pattern appears with some unique characteristics. In this paper, we first define the unique characteristics of the two kinds of temporal pattern of user preference that should be considered in time-aware recommender systems. Then we propose a novel recommender system for timely recommendations, called TimelyRec, which jointly learns the heterogeneous temporal patterns of user preference considering all of the defined characteristics. In TimelyRec, a cascade of two encoders captures the temporal patterns of user preference using a proposed attention module for each encoder. Moreover, we introduce an evaluation scenario that evaluates the performance on predicting an interesting item and when to recommend the item simultaneously in top-K recommendation (i.e., item-timing recommendation). Our extensive experiments on a scenario for item recommendation and the proposed scenario for item-timing recommendation on real-world datasets demonstrate the superiority of TimelyRec and the proposed attention modules.
翻訳日:2021-04-30 12:52:57 公開日:2021-04-29
# 任意単調論理に対するAGM基準修正の一般Kichino-Mendelzon-St yleによる評価

A General Katsuno-Mendelzon-St yle Characterization of AGM Belief Base Revision for Arbitrary Monotonic Logics ( http://arxiv.org/abs/2104.14512v1 )

ライセンス: Link先を確認
Faiq Miftakhul Falakh and Sebastian Rudolph and Kai Sauerwald(参考訳) AGM は Alchourr\'{o}n, G\"{a}rdenfors によって仮定し、Makinson は信念の変化に関する研究の基盤を保っている。 提案論理から任意の単調論理における(多重)ベースリビジョンの設定まで、agmベースリビジョンを特徴付けるカツノとメンデルゾン(km)のアプローチを一般化する。 我々の中心的な結果は、信念ベースに対する全-しかし推移的でない-「参照」関係の割り当てを用いた表現定理である。 また、この結果が(KMのオリジナル作品のように)事前順序付けに強化されるような全ての論理の特徴づけも提供する。

The AGM postulates by Alchourr\'{o}n, G\"{a}rdenfors, and Makinson continue to represent a cornerstone in research related to belief change. We generalize the approach of Katsuno and Mendelzon (KM) for characterizing AGM base revision from propositional logic to the setting of (multiple) base revision in arbitrary monotonic logics. Our core result is a representation theorem using the assignment of total - yet not transitive - "preference" relations to belief bases. We also provide a characterization of all logics for which our result can be strengthened to preorder assignments (as in KM's original work).
翻訳日:2021-04-30 12:52:26 公開日:2021-04-29
# エンコーディングとセグメンテーションがエンドツーエンド同時音声翻訳に及ぼす影響

Impact of Encoding and Segmentation Strategies on End-to-End Simultaneous Speech Translation ( http://arxiv.org/abs/2104.14470v1 )

ライセンス: Link先を確認
Ha Nguyen, Yannick Est\`eve, Laurent Besacier(参考訳) iwslt 2020の同時翻訳共有タスクにより、最近、エンドツーエンドのオンライン音声翻訳アプローチが提案された。 これらは、音声入力(ソース言語)をインクリメンタルに符号化し、対応するテキスト(ターゲット言語)を、レイテンシと翻訳品質の最良のトレードオフでデコードする。 本稿では, 連続音声フローを効率的に符号化する方法と, (b) 読み出し (r: 符号化入力) と書き出し (w: 復号出力) を交互に交互に行うために, 音声フローを分割する方法という, エンドツーエンド同時音声翻訳の2つの重要な側面について検討する。 提案したエンド・ツー・エンドのオンラインデコーディング戦略を拡張し,MLSTMエンコーディングによるBLSTMの置き換えはオフラインモードで性能を劣化させるが,オンラインモードでの効率と性能を実際に向上させることを示す。 また,音声信号の分割(固定区間境界,oracle wordバウンダリ,ランダム設定バウンダリ)に対するさまざまな方法の影響を計測し,英語とドイツ語の音声翻訳設定において,固定サイズブロック上でr/w操作を交互に行うという,私たちの最善のオンラインデコード戦略が驚くべきものであることを示す。

Boosted by the simultaneous translation shared task at IWSLT 2020, promising end-to-end online speech translation approaches were recently proposed. They consist in incrementally encoding a speech input (in a source language) and decoding the corresponding text (in a target language) with the best possible trade-off between latency and translation quality. This paper investigates two key aspects of end-to-end simultaneous speech translation: (a) how to encode efficiently the continuous speech flow, and (b) how to segment the speech flow in order to alternate optimally between reading (R: encoding input) and writing (W: decoding output) operations. We extend our previously proposed end-to-end online decoding strategy and show that while replacing BLSTM by ULSTM encoding degrades performance in offline mode, it actually improves both efficiency and performance in online mode. We also measure the impact of different methods to segment the speech signal (using fixed interval boundaries, oracle word boundaries or randomly set boundaries) and show that our best end-to-end online decoding strategy is surprisingly the one that alternates R/W operations on fixed size blocks on our English-German speech translation setup.
翻訳日:2021-04-30 12:51:25 公開日:2021-04-29
# 話者認識における公平性向上

Improving Fairness in Speaker Recognition ( http://arxiv.org/abs/2104.14067v1 )

ライセンス: Link先を確認
Gianni Fenu, Giacomo Medda, Mirko Marras, and Giacomo Meloni(参考訳) 人間の声は個人の独特な特徴を伝達し、音声バイオメトリックスは様々な産業におけるアイデンティティを検証する重要な技術となる。 話者認識システムの正確性という印象的な進歩にもかかわらず、多くの倫理的・法的懸念、特にその公平性に関する懸念が提起されている。 本稿では,現在最先端のディープスピーカー認識システムによって達成されている性能の相違について,共通感性属性(例えば,性別)を特徴とする個人集団について検討する。 探索研究によって得られた不公平さを緩和するために,学習セットにおける異なる集団の表現のバランスをとることが,これらの集団集団のより平等な扱いにつながるかどうかを検討する。 2つの最先端ニューラルアーキテクチャと大規模パブリックデータセットの実験により、人口統計学的にバランスのとれたトレーニングセットでトレーニングされたモデルが異なるグループに対して公正な行動を示すことが示されている。 本研究は,話者認識における超精度目標(例えば,公正性)の具体的基礎を提供するものと期待されている。

The human voice conveys unique characteristics of an individual, making voice biometrics a key technology for verifying identities in various industries. Despite the impressive progress of speaker recognition systems in terms of accuracy, a number of ethical and legal concerns has been raised, specifically relating to the fairness of such systems. In this paper, we aim to explore the disparity in performance achieved by state-of-the-art deep speaker recognition systems, when different groups of individuals characterized by a common sensitive attribute (e.g., gender) are considered. In order to mitigate the unfairness we uncovered by means of an exploratory study, we investigate whether balancing the representation of the different groups of individuals in the training set can lead to a more equal treatment of these demographic groups. Experiments on two state-of-the-art neural architectures and a large-scale public dataset show that models trained with demographically-bala nced training sets exhibit a fairer behavior on different groups, while still being accurate. Our study is expected to provide a solid basis for instilling beyond-accuracy objectives (e.g., fairness) in speaker recognition.
翻訳日:2021-04-30 12:50:57 公開日:2021-04-29
# レジリエンスのための協調型ヒューマンエージェント計画

Collaborative Human-Agent Planning for Resilience ( http://arxiv.org/abs/2104.14089v1 )

ライセンス: Link先を確認
Ronal Singh, Tim Miller, Darryn Reid(参考訳) AI計画によるインテリジェントエージェントは、半自律車両のチーム管理など、複雑なシナリオで人々を支援する。 しかし、AI計画モデルは不完全であり、特に予測不能な状況において、与えられた目的を適切に満たさない計画につながる可能性がある。 異常な状況の特定や適応に長けている人間は、その知識を実行時にプランナーにエンコードすることで、このような状況における計画エージェントを支援することができるかもしれない。 エージェントのドメインモデルを変更することなく、リアルタイムに線形時間論理(LTL)を用いてエージェントに知識を提供することで、エージェントと協調できるかどうかを検討する。 参加者24名に対して,プランナーに制限のある状況に対する基本計画を提示し,これらの制約に対する回避策を質問した。 我々はこれらの回避策をLTL制約としてエンコードした。 その結果、参加者の制約により、ベースライン計画と比較して、計画の成果が10%(p < 0.05$)向上し、人間の洞察がレジリエンスのための協調計画に利用できることが示された。 しかし、参加者はコントロールの制約よりも宣言的な制約を使ったが、宣言的な制約は参加者の期待とあまり似ていないプランを生み出した。

Intelligent agents powered by AI planning assist people in complex scenarios, such as managing teams of semi-autonomous vehicles. However, AI planning models may be incomplete, leading to plans that do not adequately meet the stated objectives, especially in unpredicted situations. Humans, who are apt at identifying and adapting to unusual situations, may be able to assist planning agents in these situations by encoding their knowledge into a planner at run-time. We investigate whether people can collaborate with agents by providing their knowledge to an agent using linear temporal logic (LTL) at run-time without changing the agent's domain model. We presented 24 participants with baseline plans for situations in which a planner had limitations, and asked the participants for workarounds for these limitations. We encoded these workarounds as LTL constraints. Results show that participants' constraints improved the expected return of the plans by 10% ($p < 0.05$) relative to baseline plans, demonstrating that human insight can be used in collaborative planning for resilience. However, participants used more declarative than control constraints over time, but declarative constraints produced plans less similar to the expectation of the participants, which could lead to potential trust issues.
翻訳日:2021-04-30 12:50:38 公開日:2021-04-29
# 車両軌道予測のための操舵アウェアプーリング

Maneuver-Aware Pooling for Vehicle Trajectory Prediction ( http://arxiv.org/abs/2104.14079v1 )

ライセンス: Link先を確認
Mohamed Hasan, Albert Solernou, Evangelos Paschalidis, He Wang, Gustav Markkula and Richard Romano(参考訳) 自動運転車は、環境の将来の状態を予測し、適切に対応できるべきである。 特に、周囲の人間ドライバーの行動を予測することは、そのようなプラットフォームが人間と同じ道を歩むためには不可欠である。 周囲の車両の挙動は、隣接する車両の動きによって制御される。 本稿では、高速道路における自動運転車の周辺車両の挙動の予測に焦点をあてる。 我々は、周囲の車両が車線変更や高速道路の合流操作を行う際の予測精度の向上をモチベーションとしている。 本稿では,隣接する車両間の相互依存を捉えるための新しいプーリング戦略を提案する。 ユークリッド軌道表現のみに依存するが、既存のプーリング戦略は周囲の車両が意図する操作の文脈情報をモデル化しない。 対照的に、プール機構は極軌道表現、車両の向き、放射速度を用いる。 この結果、暗黙的に操作対応のプール操作が実現した。 提案するプーリング機構を生成エンコーダ・デコーダモデルに組み込み,公開ngsimデータセット上で評価した。 操作に基づく軌道予測の結果から,提案手法の有効性を最先端手法と比較した。 Pooling Toolbox"コードはhttps://github.com/m -hasan-n/pooling.com から入手可能です。

Autonomous vehicles should be able to predict the future states of its environment and respond appropriately. Specifically, predicting the behavior of surrounding human drivers is vital for such platforms to share the same road with humans. Behavior of each of the surrounding vehicles is governed by the motion of its neighbor vehicles. This paper focuses on predicting the behavior of the surrounding vehicles of an autonomous vehicle on highways. We are motivated by improving the prediction accuracy when a surrounding vehicle performs lane change and highway merging maneuvers. We propose a novel pooling strategy to capture the inter-dependencies between the neighbor vehicles. Depending solely on Euclidean trajectory representation, the existing pooling strategies do not model the context information of the maneuvers intended by a surrounding vehicle. In contrast, our pooling mechanism employs polar trajectory representation, vehicles orientation and radial velocity. This results in an implicitly maneuver-aware pooling operation. We incorporated the proposed pooling mechanism into a generative encoder-decoder model, and evaluated our method on the public NGSIM dataset. The results of maneuver-based trajectory predictions demonstrate the effectiveness of the proposed method compared with the state-of-the-art approaches. Our "Pooling Toolbox" code is available at https://github.com/m -hasan-n/pooling.
翻訳日:2021-04-30 12:49:55 公開日:2021-04-29
# regrad:clutterにおける安全・物体特異的ロボット把持のための大規模関係把握データセット

REGRAD: A Large-Scale Relational Grasp Dataset for Safe and Object-Specific Robotic Grasping in Clutter ( http://arxiv.org/abs/2104.14118v1 )

ライセンス: Link先を確認
Hanbo Zhang, Deyu Yang, Han Wang, Binglei Zhao, Xuguang Lan, Nanning Zheng(参考訳) 堅牢な把握検出で達成された印象的な進歩にもかかわらず、ロボットは洗練された把握タスク(例えば、ロボット)に熟練していない。 乱雑に特定の物体を探索してつかむこと このようなタスクは、把握だけでなく、視覚世界に対する包括的認識(例えば、)も含む。 オブジェクト間の関係)。 近年,高度なディープラーニング技術は,高レベルの視覚概念を理解するための有望な手段となっている。 ロボット研究者たちは、そのような困難で複雑な分野のソリューションを探求することを奨励している。 しかし、ディープラーニングは通常データ不足を意味する。 データ不足はディープラーニングベースのアルゴリズムのパフォーマンスを著しく制限する。 本稿では,オブジェクト間の関係のモデル化を継続するために,<regrad>という新しいデータセットを提案する。 対象のポーズ,セグメンテーション,把握,関係のアノテーションを各画像に集め,把握の包括的認識を行う。 データセットは2D画像と3Dポイントクラウドの両方で収集されます。 さらに、すべてのデータは自動的に生成されるので、ユーザは好きなだけ多くのデータを生成するために、独自のオブジェクトモデルをインポートすることができる。 データセットとコードをリリースしました。 データ生成のプロセスを示すビデオも利用可能である。

Despite the impressive progress achieved in robust grasp detection, robots are not skilled in sophisticated grasping tasks (e.g. search and grasp a specific object in clutter). Such tasks involve not only grasping, but comprehensive perception of the visual world (e.g. the relationship between objects). Recently, the advanced deep learning techniques provide a promising way for understanding the high-level visual concepts. It encourages robotic researchers to explore solutions for such hard and complicated fields. However, deep learning usually means data-hungry. The lack of data severely limits the performance of deep-learning-based algorithms. In this paper, we present a new dataset named \regrad to sustain the modeling of relationships among objects and grasps. We collect the annotations of object poses, segmentations, grasps, and relationships in each image for comprehensive perception of grasping. Our dataset is collected in both forms of 2D images and 3D point clouds. Moreover, since all the data are generated automatically, users are free to import their own object models for the generation of as many data as they want. We have released our dataset and codes. A video that demonstrates the process of data generation is also available.
翻訳日:2021-04-30 12:49:37 公開日:2021-04-29
# Condensation-Net: クロスチャネルポーリング層と仮想特徴マップを備えたメモリ効率の良いネットワークアーキテクチャ

Condensation-Net: Memory-Efficient Network Architecture with Cross-Channel Pooling Layers and Virtual Feature Maps ( http://arxiv.org/abs/2104.14124v1 )

ライセンス: Link先を確認
Tse-Wei Chen, Motoki Yoshinaga, Hongxing Gao, Wei Tao, Dongchao Wen, Junjie Liu, Kinya Osa, Masami Kato(参考訳) 軽量畳み込みニューラルネットワーク」は、組み込み視覚分野における重要な研究課題である。 リソース限定のハードウェアプラットフォーム上で画像認識タスクを実装するためには,メモリサイズと計算コストを削減する必要がある。 本論文の貢献は以下の通りである。 まず,特徴マップのメモリ容量を最大にすることなく,特定のネットワークアーキテクチャ(凝縮ネット)を処理するアルゴリズムを提案する。 仮想特徴マップのアーキテクチャは、特徴マップをメモリに格納する前にチャネル間プーリングの結果を計算することによって、メモリ帯域幅の26.5%を節約する。 次に,フィルタ重みを増加させるため,クロスチャネルプーリングにより顔検出などの物体検出タスクの精度が向上することを示す。 tiny-yolov2と比較すると、量子化ネットワークでは2.0%、偽陽性率は0.1である場合には1.5%である。 最後に、解析結果から、提案したハードウェアアーキテクチャによるクロスチャネルプーリングをサポートするオーバーヘッドは無視できるほど小さいことが示されている。 Condensation-Netをサポートする余剰メモリコストは総サイズの0.2%であり、余剰ゲート数は総サイズの1.0%に過ぎない。

"Lightweight convolutional neural networks" is an important research topic in the field of embedded vision. To implement image recognition tasks on a resource-limited hardware platform, it is necessary to reduce the memory size and the computational cost. The contribution of this paper is stated as follows. First, we propose an algorithm to process a specific network architecture (Condensation-Net) without increasing the maximum memory storage for feature maps. The architecture for virtual feature maps saves 26.5% of memory bandwidth by calculating the results of cross-channel pooling before storing the feature map into the memory. Second, we show that cross-channel pooling can improve the accuracy of object detection tasks, such as face detection, because it increases the number of filter weights. Compared with Tiny-YOLOv2, the improvement of accuracy is 2.0% for quantized networks and 1.5% for full-precision networks when the false-positive rate is 0.1. Last but not the least, the analysis results show that the overhead to support the cross-channel pooling with the proposed hardware architecture is negligible small. The extra memory cost to support Condensation-Net is 0.2% of the total size, and the extra gate count is only 1.0% of the total size.
翻訳日:2021-04-30 12:49:24 公開日:2021-04-29
# CASSOD-Net:組み込みビジョンシステムのための拡張畳み込み構造と応用

CASSOD-Net: Cascaded and Separable Structures of Dilated Convolution for Embedded Vision Systems and Applications ( http://arxiv.org/abs/2104.14126v1 )

ライセンス: Link先を確認
Tse-Wei Chen, Deyu Wang, Wei Tao, Dongchao Wen, Lingxiao Yin, Tadayuki Ito, Kinya Osa, Masami Kato(参考訳) 畳み込みニューラルネットワークの視野(FOV)は、推論の精度に強く関係している。 拡張畳み込みは大規模なFOVを必要とする問題に対する効果的な解決法として知られている。 しかし、汎用ハードウェアや専用ハードウェアの場合、通常、標準的な畳み込みよりも拡張畳み込みを扱うのに余分な時間を要する。 本稿では,Cascaded and Separable Structure of Dilated (CASSOD) Convolutionというネットワークモジュールと,CASSODネットワークを効率的に処理するためのハードウェアシステムを提案する。 CASSOD-Netには、従来の$3 \times 3$拡張フィルタを、推論の精度を低下させることなく置き換えることができる2$2$拡張フィルタが複数含まれている。 顔検出と画像分割の2つの例を拡張畳み込みと提案するcassodモジュールを用いてテストした。 新しい顔検出ネットワークは、コンテキストモジュールの拡張畳み込み層におけるフィルタ重みのわずか47%で、以前の作業よりも高い精度を達成している。 さらに,提案したハードウェアシステムは拡張畳み込みの計算を高速化し,フィルタサイズが3ドル3セントである場合,従来のハードウェアシステムよりも2.78倍高速である。

The field of view (FOV) of convolutional neural networks is highly related to the accuracy of inference. Dilated convolutions are known as an effective solution to the problems which require large FOVs. However, for general-purpose hardware or dedicated hardware, it usually takes extra time to handle dilated convolutions compared with standard convolutions. In this paper, we propose a network module, Cascaded and Separable Structure of Dilated (CASSOD) Convolution, and a special hardware system to handle the CASSOD networks efficiently. A CASSOD-Net includes multiple cascaded $2 \times 2$ dilated filters, which can be used to replace the traditional $3 \times 3$ dilated filters without decreasing the accuracy of inference. Two example applications, face detection and image segmentation, are tested with dilated convolutions and the proposed CASSOD modules. The new network for face detection achieves higher accuracy than the previous work with only 47% of filter weights in the dilated convolution layers of the context module. Moreover, the proposed hardware system can accelerate the computations of dilated convolutions, and it is 2.78 times faster than traditional hardware systems when the filter size is $3 \times 3$.
翻訳日:2021-04-30 12:49:06 公開日:2021-04-29
# マルチモーダルセンサグラフによるランドマークを用いたレーダに基づく自動車位置推定

Radar-based Automotive Localization using Landmarks in a Multimodal Sensor Graph-based Approach ( http://arxiv.org/abs/2104.14156v1 )

ライセンス: Link先を確認
Stefan J\"urgens, Niklas Koch and Marc-Michael Meinecke(参考訳) 高度に自動化された運転機能は現在、都市のような複雑なシナリオにおける計画と予測のための地図からの知識に依存していることが多い。 これにより、マップリレーショナルなローカライズが必須のスキルとなる。 本稿では,リアルタイムグラフベースslam手法を用いて,自動車用レーダによる位置決め問題に対処する。 システムは抽象層としてランドマークとオドメトリ情報を使用する。 このように、レーダー以外にも、カメラやライダーなど、あらゆる種類のセンサーモダリティが貢献できる。 単一のセマンティックランドマークマップが、すべてのセンサーで使用され、維持される。 我々は、C++を使ってアプローチを実装し、テスト車両で得られたデータに基づいて、車やトラックを含む徹底的にテストした。 テストシナリオには、内部都市やコンテナターミナルのような産業領域が含まれる。 本稿では,レーダデータのみを用いて,構造化環境において高精度で安定した姿勢を提示する手法を提案する。 カメラやライダーから追加のセンサー情報を統合することで、パフォーマンスをさらに向上し、自動マッピングに必要な信頼性の高いセマンティック情報を提供する。

Highly automated driving functions currently often rely on a-priori knowledge from maps for planning and prediction in complex scenarios like cities. This makes map-relative localization an essential skill. In this paper, we address the problem of localization with automotive-grade radars, using a real-time graph-based SLAM approach. The system uses landmarks and odometry information as an abstraction layer. This way, besides radars, all kind of different sensor modalities including cameras and lidars can contribute. A single, semantic landmark map is used and maintained for all sensors. We implemented our approach using C++ and thoroughly tested it on data obtained with our test vehicles, comprising cars and trucks. Test scenarios include inner cities and industrial areas like container terminals. The experiments presented in this paper suggest that the approach is able to provide a precise and stable pose in structured environments, using radar data alone. The fusion of additional sensor information from cameras or lidars further boost performance, providing reliable semantic information needed for automated mapping.
翻訳日:2021-04-30 12:48:45 公開日:2021-04-29
# exemplarに基づく3次元ポートレートスタイライゼーション

Exemplar-Based 3D Portrait Stylization ( http://arxiv.org/abs/2104.14559v1 )

ライセンス: Link先を確認
Fangzhou Han, Shuquan Ye, Mingming He, Menglei Chai and Jing Liao(参考訳) 模範的なポートレートスタイリングは広く魅力的で、非常に望ましい。 近年の成功にもかかわらず、特にテクスチャと幾何学的スタイルの両方を考えると、挑戦的なままである。 本稿では,原文コンテンツから身元を保存しつつ,テクスチャを大げさに表現した3次元顔モデルを生成することができる,ワンショット3次元肖像画スタイル転送のための最初のフレームワークを提案する。 特定のスタイルに対するトレーニングの大規模な例ではなく、任意のスタイルのイメージをひとつだけ必要とし、完全にパラメータ化され、切り離された幾何学とテクスチャの出力を提供し、3D表現によるさらなるグラフィックアプリケーションを可能にする。 フレームワークは2つのステージで構成される。 第1段目では, 粗い形状を捉え, 濃密な3次元顔形状の変形を導くために, 顔のランドマーク変換を用いる。 第2のテクスチャスタイル転送段階では、多視点フレームワークにおけるテクスチャの最適化に微分可能なレンダラを採用することにより、標準テクスチャのスタイル転送を行う。 実験により, 異なる芸術的スタイルに対してロバストに優れた結果が得られ, 既存の手法を上回った。 また,本手法の利点を,様々な2次元および3次元グラフィックアプリケーションを用いて示す。 プロジェクトページはhttps://halfjoe.gith ub.io/projs/3DPS/ind ex.html。

Exemplar-based portrait stylization is widely attractive and highly desired. Despite recent successes, it remains challenging, especially when considering both texture and geometric styles. In this paper, we present the first framework for one-shot 3D portrait style transfer, which can generate 3D face models with both the geometry exaggerated and the texture stylized while preserving the identity from the original content. It requires only one arbitrary style image instead of a large set of training examples for a particular style, provides geometry and texture outputs that are fully parameterized and disentangled, and enables further graphics applications with the 3D representations. The framework consists of two stages. In the first geometric style transfer stage, we use facial landmark translation to capture the coarse geometry style and guide the deformation of the dense 3D face geometry. In the second texture style transfer stage, we focus on performing style transfer on the canonical texture by adopting a differentiable renderer to optimize the texture in a multi-view framework. Experiments show that our method achieves robustly good results on different artistic styles and outperforms existing methods. We also demonstrate the advantages of our method via various 2D and 3D graphics applications. Project page is https://halfjoe.gith ub.io/projs/3DPS/ind ex.html.
翻訳日:2021-04-30 12:48:32 公開日:2021-04-29
# リスクアウェア統計推定における不確実性原理

Uncertainty Principles in Risk-Aware Statistical Estimation ( http://arxiv.org/abs/2104.14283v1 )

ライセンス: Link先を確認
Nikolas P. Koumpis and Dionysios S. Kalogerias(参考訳) 本稿では,平均二乗誤差($\mse$)と平均二乗誤差($\sev$)との間の固有トレードオフを効果的に定量化する,リスク対応統計推定のための新しい不確実性原理を提案する。 我々の不確実性原理は慣れ親しんだ形式であり、統計力学や量子力学におけるハイゼンベルクの原理や調和解析におけるガボル極限(時間スケールトレードオフ)など、他のいくつかの領域で生じる基礎的および古典的結果に似ている。 特に、状態と可観測性の合同生成モデルにより、$\mse$ と $\sev$ の間の積は下から計算可能なモデル依存定数によって境界づけられることが証明され、これは最近研究された$\sev$-constrained minimum $\mse$ (mmse) 推定問題のparetoフロンティアと明確に関連している。 さらに, 上述の定数は, 直線上の変数に対するピアソンのスキューネスモーメント係数と一致し, 多次元の分布スキューネスの直観的かつ厳密な位相的接地統計尺度と本質的に関連していることを示す。 この結果は数値シミュレーションによっても示される。

We present a new uncertainty principle for risk-aware statistical estimation, effectively quantifying the inherent trade-off between mean squared error ($\mse$) and risk, the latter measured by the associated average predictive squared error variance ($\sev$), for every admissible estimator of choice. Our uncertainty principle has a familiar form and resembles fundamental and classical results arising in several other areas, such as the Heisenberg principle in statistical and quantum mechanics, and the Gabor limit (time-scale trade-offs) in harmonic analysis. In particular, we prove that, provided a joint generative model of states and observables, the product between $\mse$ and $\sev$ is bounded from below by a computable model-dependent constant, which is explicitly related to the Pareto frontier of a recently studied $\sev$-constrained minimum $\mse$ (MMSE) estimation problem. Further, we show that the aforementioned constant is inherently connected to an intuitive new and rigorously topologically grounded statistical measure of distribution skewness in multiple dimensions, consistent with Pearson's moment coefficient of skewness for variables on the line. Our results are also illustrated via numerical simulations.
翻訳日:2021-04-30 12:48:09 公開日:2021-04-29
# 類似性計算のための異種電子カルテ表現

Heterogeneous electronic medical record representation for similarity computing ( http://arxiv.org/abs/2104.14229v1 )

ライセンス: Link先を確認
Hoda Memarzadeh, Nasser Ghadiri, Maryam Lotfi Shahreza and Suresh Pokharel(参考訳) ツールの普及とテキスト処理技術の発達により,臨床データのサイズや範囲は構造化データに限定されない。 記録情報の急速な増加は、患者のプライマリケアを改善し、様々なセカンダリな目的に役立てるために使用できる医療におけるビッグデータプラットフォームに繋がった。 患者類似度評価は、患者と類似した患者を特定するための二次的なタスクの一つであり、類似した患者の記録から洞察を導き、より良い治療を提供するのに役立つ。 この種の評価は患者間の距離を計算することに基づいている。 電子カルテ(EMR)における患者間の類似性の表現と計算は,多くの電子カルテの二次的使用において重要な役割を担っているため,類似性計算のための臨床物語の情報を考慮しつつ,新たなデータ表現法について検討する。 以前の作品は構造化データ型に基づいているが、他の作品は非構造化データのみを使用している。 しかし、EMRに含まれる情報の包括的な表現には、構造化データと非構造化データの両方を効果的に集約する必要がある。 従来手法の限界に対処するため,非構造化データや構造化データから抽出した徴候,症状,疾患など,さまざまな医療イベントの同時発生を捉える手法を提案する。 短期的および長期的影響を持つ事象の違いを考慮して、データは時間木を構成する識別的特徴として統合される。 以上の結果から,各時間間隔で徴候,症状,疾患を考慮すれば,この情報を考慮しないベースライン表現や構造化データと別々に考慮するベースライン表現に比べ,MSEの精度は低下することが示された。

Due to the widespread use of tools and the development of text processing techniques, the size and range of clinical data are not limited to structured data. The rapid growth of recorded information has led to big data platforms in healthcare that could be used to improve patients' primary care and serve various secondary purposes. Patient similarity assessment is one of the secondary tasks in identifying patients who are similar to a given patient, and it helps derive insights from similar patients' records to provide better treatment. This type of assessment is based on calculating the distance between patients. Since representing and calculating the similarity of patients plays an essential role in many secondary uses of electronic records, this article examines a new data representation method for Electronic Medical Records (EMRs) while taking into account the information in clinical narratives for similarity computing. Some previous works are based on structured data types, while other works only use unstructured data. However, a comprehensive representation of the information contained in the EMR requires the effective aggregation of both structured and unstructured data. To address the limitations of previous methods, we propose a method that captures the co-occurrence of different medical events, including signs, symptoms, and diseases extracted via unstructured data and structured data. It integrates data as discriminative features to construct a temporal tree, considering the difference between events that have short-term and long-term impacts. Our results show that considering signs, symptoms, and diseases in every time interval leads to less MSE and more precision compared to baseline representations that do not consider this information or consider them separately from structured data.
翻訳日:2021-04-30 12:46:55 公開日:2021-04-29
# 2光子顕微鏡のための微分モデルに基づく適応光学

Differentiable model-based adaptive optics for two-photon microscopy ( http://arxiv.org/abs/2104.14308v1 )

ライセンス: Link先を確認
Ivan Vishniakou, Johannes D. Seelig(参考訳) 収差は生体組織などの散乱物質をイメージングする際に走査蛍光顕微鏡に制限される。 適応光学に対するモデルベースアプローチは、光学セットアップの計算モデルを利用する。 このようなモデルは、収差補正のための機械学習フレームワークの最適化手法と組み合わせて、収差によるレーザビームをカメラに焦点を合わせる(arXiv:2007.13400)。 ここでは、このアプローチを2光子走査顕微鏡に拡張する。 開発されたセンサレス技術は、散乱サンプルの収差を補正し、脳組織などの様々なイメージング応用に有用である。

Aberrations limit scanning fluorescence microscopy when imaging in scattering materials such as biological tissue. Model-based approaches for adaptive optics take advantage of a computational model of the optical setup. Such models can be combined with the optimization techniques of machine learning frameworks to find aberration corrections, as was demonstrated for focusing a laser beam through aberrations onto a camera [arXiv:2007.13400]. Here, we extend this approach to two-photon scanning microscopy. The developed sensorless technique finds corrections for aberrations in scattering samples and will be useful for a range of imaging application, for example in brain tissue.
翻訳日:2021-04-30 12:46:27 公開日:2021-04-29
# 対称性制御ニューラルネットワークによるシミュレーションの改善

Improving Simulations with Symmetry Control Neural Networks ( http://arxiv.org/abs/2104.14444v1 )

ライセンス: Link先を確認
Marc Syvaeri, Sven Krippendorf(参考訳) 物理系の力学はしばしば保存量の存在により低次元の部分空間に制限される。 本稿では,ハミルトニアンニューラルネットワークに基づく対称性制約を学習し,活用する手法を提案する。 サイクル座標を適切な損失関数で強制することにより、単純な古典力学のタスクで精度を向上できることが分かる。 ネットワーク内の潜伏変数に解析式を適合させることにより、ネットワークが(角運動量のような保存量を利用していることを回復する。

The dynamics of physical systems is often constrained to lower dimensional sub-spaces due to the presence of conserved quantities. Here we propose a method to learn and exploit such symmetry constraints building upon Hamiltonian Neural Networks. By enforcing cyclic coordinates with appropriate loss functions, we find that we can achieve improved accuracy on simple classical dynamics tasks. By fitting analytic formulae to the latent variables in our network we recover that our networks are utilizing conserved quantities such as (angular) momentum.
翻訳日:2021-04-30 12:46:17 公開日:2021-04-29
# MUSE: 署名されたネットワーク埋め込みのための多面的注意

MUSE: Multi-faceted Attention for Signed Network Embedding ( http://arxiv.org/abs/2104.14449v1 )

ライセンス: Link先を確認
Dengcheng Yan, Youwen Zhang, Wei Li, Yiwen Zhang(参考訳) 符号付きネットワーク埋め込みは、正および負のリンクを持つ符号付きネットワーク内のノードの低次元表現を学習するアプローチであり、一般的なデータマイニングフレームワークとのリンク予測のような下流タスクを容易にする。 負のリンクの異なる性質と重要な付加価値のため、既存の符号付きネットワーク埋め込み法は通常、バランス理論やステータス理論のような社会的理論に基づく専用手法を設計する。 しかし、既存の符号付きネットワーク埋め込み手法では、各ノードの複数のファセットの特徴を無視し、それらを単一の表現に混ぜ合わせることで、ノードペア間の微妙な注意を捉えることができる。 本稿では,MUlti-faceed attention-based Signed network Embedding フレームワーク MUSE を提案する。 具体的には,隣接ノードからのきめ細かな情報を集約するために,面内および面間注意機構を導入する。 また、バランス理論は、多階バランスと非バランスの隣人からの情報集約を導くためにも用いられる。 実世界のネットワークデータセット4つの実験結果から,提案手法の有効性が示された。

Signed network embedding is an approach to learn low-dimensional representations of nodes in signed networks with both positive and negative links, which facilitates downstream tasks such as link prediction with general data mining frameworks. Due to the distinct properties and significant added value of negative links, existing signed network embedding methods usually design dedicated methods based on social theories such as balance theory and status theory. However, existing signed network embedding methods ignore the characteristics of multiple facets of each node and mix them up in one single representation, which limits the ability to capture the fine-grained attentions between node pairs. In this paper, we propose MUSE, a MUlti-faceted attention-based Signed network Embedding framework to tackle this problem. Specifically, a joint intra- and inter-facet attention mechanism is introduced to aggregate fine-grained information from neighbor nodes. Moreover, balance theory is also utilized to guide information aggregation from multi-order balanced and unbalanced neighbors. Experimental results on four real-world signed network datasets demonstrate the effectiveness of our proposed framework.
翻訳日:2021-04-30 12:46:09 公開日:2021-04-29
# 感情的属性なしでフェアネスを達成できる:非感覚的特徴のバイアスを探る

You Can Still Achieve Fairness Without Sensitive Attributes: Exploring Biases in Non-Sensitive Features ( http://arxiv.org/abs/2104.14537v1 )

ライセンス: Link先を確認
Tianxiang Zhao, Enyan Dai, Kai Shu, Suhang Wang(参考訳) 機械学習モデルは大きな成功を収めていますが、過度な研究によって、トレーニングデータから潜在的差別と社会的偏見を継承する不利益が明らかになっています。 このように、公正な機械学習モデルの開発には多くの努力が払われている。 その多くは、公正なモデルを学ぶためにトレーニング中にセンシティブな属性が利用できることを要求します。 しかし、多くの現実世界のアプリケーションでは、プライバシや法的な問題によるセンシティブな属性が得られず、既存の公正な分類に挑戦する。 各データサンプルの感度特性は不明だが、トレーニングデータには通常、感度特性と高い相関性を持つ非感度の特徴がいくつか存在し、バイアスを軽減するために使用できる。 そこで本稿では, 感度属性を含まない公平かつ正確な分類法を学習するための, 感度属性と高い相関性を持つ特徴を探索する新たな課題について検討する。 これらの特徴とモデル予測の相関を最小化することで、公平な分類法を学習できることを理論的に示す。 そこで本研究では,これらの特徴を同時利用して正確な予測とモデルの正則化を行う新しい枠組みを提案する。 さらに,各特徴の重要度を動的に調整することで,特徴のモデル分類と公平性への寄与度をバランスさせることができる。 実世界のデータセットにおける実験結果は,高い分類精度を持つフェアモデル学習における提案モデルの有効性を示す。

Though machine learning models are achieving great success, ex-tensive studies have exposed their disadvantage of inheriting latent discrimination and societal bias from the training data, which hinders their adoption on high-state applications. Thus, many efforts have been taken for developing fair machine learning models. Most of them require that sensitive attributes are available during training to learn fair models. However, in many real-world applications, it is usually infeasible to obtain the sensitive attribute due to privacy or legal issues, which challenges existing fair classifiers. Though the sensitive attribute of each data sample is unknown, we observe that there are usually some non-sensitive features in the training data that are highly correlated with sensitive attributes, which can be used to alleviate the bias. Therefore, in this paper, we study a novel problem of exploring features that are highly correlated with sensitive attributes for learning fair and accurate classifier without sensitive attributes. We theoretically show that by minimizing the correlation between these related features and model prediction, we can learn a fair classifier. Based on this motivation, we propose a novel framework which simultaneously uses these related features for accurate prediction and regularizing the model to be fair. In addition, the model can dynamically adjust the importance weight of each related feature to balance the contribution of the feature on model classification and fairness. Experimental results on real-world datasets demonstrate the effectiveness of the proposed model for learning fair models with high classification accuracy.
翻訳日:2021-04-30 12:45:51 公開日:2021-04-29
# ソフトコミッショナーマシンにおける超実現可能なオンライン学習のダイナミクスにおけるソフトモード

Soft Mode in the Dynamics of Over-realizable On-line Learning for Soft Committee Machines ( http://arxiv.org/abs/2104.14546v1 )

ライセンス: Link先を確認
Frederieke Richert, Roman Worschech, Bernd Rosenow(参考訳) 確率的勾配降下によって訓練された過剰パラメータのディープニューラルネットワークは、実用的妥当性の多くのタスクを実行することに成功している。 過度なパラメータ化の1つの側面は、学生ネットワークがデータ生成プロセスよりも大きな表現性を持つ可能性である。 生徒と教師のシナリオの文脈では、これはいわゆる、教師よりも学生ネットワークが隠れたユニットの数が多い、超実現可能なケースに相当する。 2層ソフトコミッショナーマシンのオンライン学習には, 実現可能な場合のように指数関数的にではなく, パワーロー方式で完全学習を行う方法が存在することがわかった。 すべての学生ノードは、教師と生徒の出力が適切に再スケールされた場合、教師ノードの1つを学び、複製する。

Over-parametrized deep neural networks trained by stochastic gradient descent are successful in performing many tasks of practical relevance. One aspect of over-parametrization is the possibility that the student network has a larger expressivity than the data generating process. In the context of a student-teacher scenario, this corresponds to the so-called over-realizable case, where the student network has a larger number of hidden units than the teacher. For on-line learning of a two-layer soft committee machine in the over-realizable case, we find that the approach to perfect learning occurs in a power-law fashion rather than exponentially as in the realizable case. All student nodes learn and replicate one of the teacher nodes if teacher and student outputs are suitably rescaled.
翻訳日:2021-04-30 12:45:26 公開日:2021-04-29
# 組込み推論加速器のハードウェアアーキテクチャと深部および大規模カーネル畳み込みのためのアルゴリズムの解析

Hardware Architecture of Embedded Inference Accelerator and Analysis of Algorithms for Depthwise and Large-Kernel Convolutions ( http://arxiv.org/abs/2104.14125v1 )

ライセンス: Link先を確認
Tse-Wei Chen, Wei Tao, Deyu Wang, Dongchao Wen, Kinya Osa, Masami Kato(参考訳) 現代の畳み込みニューラルネットワーク(CNN)を効率的に処理するために、CNN推論アクセラレータのハードウェアアーキテクチャが提案され、奥行きの畳み込みと正規の畳み込みを扱う。 関連する研究と異なり、提案アーキテクチャはカーネル内並列処理に余分なコストを必要としないため、異なるサイズのフィルタカーネルを高い柔軟性でサポートでき、関連する作業のアーキテクチャよりも高速に畳み込み結果を生成することができる。 実験結果は,提案するハードウェアアーキテクチャとの奥行き方向畳み込みと拡張畳み込みをサポートすることの重要性を示した。 本論文では,大カーネルを用いた深度畳み込みに加えて,深度畳み込みと拡張畳み込みを組み合わせたDDC層と呼ばれる新しい構造も分析した。 顔検出では,ddc層をネットワークに適用した場合,計算コストは30%減少し,モデルサイズは20%減少する。 画像分類では、精度は3 \times 3$フィルタを5 \times 5$フィルタに置き換えるだけで1%向上する。

In order to handle modern convolutional neural networks (CNNs) efficiently, a hardware architecture of CNN inference accelerator is proposed to handle depthwise convolutions and regular convolutions, which are both essential building blocks for embedded-computer-vi sion algorithms. Different from related works, the proposed architecture can support filter kernels with different sizes with high flexibility since it does not require extra costs for intra-kernel parallelism, and it can generate convolution results faster than the architecture of the related works. The experimental results show the importance of supporting depthwise convolutions and dilated convolutions with the proposed hardware architecture. In addition to depthwise convolutions with large-kernels, a new structure called DDC layer, which includes the combination of depthwise convolutions and dilated convolutions, is also analyzed in this paper. For face detection, the computational costs decrease by 30%, and the model size decreases by 20% when the DDC layers are applied to the network. For image classification, the accuracy is increased by 1% by simply replacing $3 \times 3$ filters with $5 \times 5$ filters in depthwise convolutions.
翻訳日:2021-04-30 12:45:11 公開日:2021-04-29
# 手指の筋電制御のための前腕筋活動からの日常手の動きの連続復号

Continuous Decoding of Daily-Life Hand Movements from Forearm Muscle Activity for Enhanced Myoelectric Control of Hand Prostheses ( http://arxiv.org/abs/2104.14049v1 )

ライセンス: Link先を確認
Alessandro Salatiello and Martin A. Giese(参考訳) 最先端の電動手補綴器には6自由度(DOF)の独立かつ比例的な制御が可能なアクチュエータが備わっている。 制御シグナルは、関連する前腕筋から同時に記録された残留筋電図(EMG)活性から導かれる。 それにもかかわらず、前腕筋電図と手指運動学の間の機能的マッピングは、限られた精度でしか知られていない。 したがって、2つ以上のdofの独立および比例動作に対する制御信号の信頼性の高い計算にはロバストな方法は存在しない。 この制限に対処するための一般的なアプローチは、特定のEMG活性化パターンの検出によって活性化される制限された行動(例えば、ピンチ、握り、手首回転)の実行のための補綴を事前にプログラムすることである。 しかし,本手法は日常生活において,ユーザが義肢で行うことのできる活動範囲を著しく制限する。 本研究では, 長期記憶(LSTM)ネットワークをベースとして, 前腕筋電図の活動を手動に連続的にマッピングする手法を提案する。 批判的に, 単純かつ高度に制御された運動課題に焦点を当てた先行研究とは異なり, 日常生活行動データセットであるkin-mus宇治データセットを用いて本手法をテストした。 私たちの知る限りでは、この挑戦的なデータセットを使った手キネマティクスの予測に関する最初の報告です。 注目すべきは、我々のネットワークが未学習のADLに一般化できることである。 提案手法は, 人工手指の複数のDOFの独立的, 比例的アクティベーションのための制御信号の生成に適していることが示唆された。

State-of-the-art motorized hand prostheses are endowed with actuators able to provide independent and proportional control of as many as six degrees of freedom (DOFs). The control signals are derived from residual electromyographic (EMG) activity, recorded concurrently from relevant forearm muscles. Nevertheless, the functional mapping between forearm EMG activity and hand kinematics is only known with limited accuracy. Therefore, no robust method exists for the reliable computation of control signals for the independent and proportional actuation of more than two DOFs. A common approach to deal with this limitation is to pre-program the prostheses for the execution of a restricted number of behaviors (e.g., pinching, grasping, and wrist rotation) that are activated by the detection of specific EMG activation patterns. However, this approach severely limits the range of activities users can perform with the prostheses during their daily living. In this work, we introduce a novel method, based on a long short-term memory (LSTM) network, to continuously map forearm EMG activity onto hand kinematics. Critically, unlike previous work, which often focuses on simple and highly controlled motor tasks, we tested our method on a dataset of activities of daily living (ADLs): the KIN-MUS UJI dataset. To the best of our knowledge, ours is the first reported work on the prediction of hand kinematics that uses this challenging dataset. Remarkably, we show that our network is able to generalize to novel untrained ADLs. Our results suggest that the presented method is suitable for the generation of control signals for the independent and proportional actuation of the multiple DOFs of state-of-the-art hand prostheses.
翻訳日:2021-04-30 12:44:10 公開日:2021-04-29
# LTVシステムの安定オンライン制御 線形時変システムの安定オンライン制御

Stable Online Control of LTV Systems Stable Online Control of Linear Time-Varying Systems ( http://arxiv.org/abs/2104.14134v1 )

ライセンス: Link先を確認
Guannan Qu, Yuanyuan Shi, Sahin Lale, Anima Anandkumar, Adam Wierman(参考訳) 線形時間変化(LTV)システムは、その一般化と単純さのため、現実の力学系のモデリングに広く用いられている。 LTVシステムの安定性を保証することは制御理論における中心的な問題の一つである。 しかし、安定性を保証する既存のアプローチは、現在のシステム情報や短期的なシステム情報しか利用できないオンライン設定において、非常に低い最適累積制御コストをもたらす。 本研究では,大規模LTVシステムの入出力安定性を保証し,制御コストを最小化する,効率的なオンライン制御アルゴリズムであるCOCO-LQ(Covariance Constrained Online Linear Quadratic)を提案する。 提案手法は,LQ最適制御器の半定値プログラミング(SDP)に状態共分散制約を組み込む。 我々は,COCO-LQの性能を実験および電力系統周波数制御の例で実証した。

Linear time-varying (LTV) systems are widely used for modeling real-world dynamical systems due to their generality and simplicity. Providing stability guarantees for LTV systems is one of the central problems in control theory. However, existing approaches that guarantee stability typically lead to significantly sub-optimal cumulative control cost in online settings where only current or short-term system information is available. In this work, we propose an efficient online control algorithm, COvariance Constrained Online Linear Quadratic (COCO-LQ) control, that guarantees input-to-state stability for a large class of LTV systems while also minimizing the control cost. The proposed method incorporates a state covariance constraint into the semi-definite programming (SDP) formulation of the LQ optimal controller. We empirically demonstrate the performance of COCO-LQ in both synthetic experiments and a power system frequency control example.
翻訳日:2021-04-30 12:43:43 公開日:2021-04-29
# サンプル効率の高い高次元多項式回帰のためのブロックスパーステンソルトレイン形式

A block-sparse Tensor Train Format for sample-efficient high-dimensional Polynomial Regression ( http://arxiv.org/abs/2104.14255v1 )

ライセンス: Link先を確認
Michael G\"otte, Reinhold Schneider, Philipp Trunschke(参考訳) 低ランクテンソルは高次元の最小二乗問題の確立された枠組みである。 我々は、ブロック分離の概念を含めることで、このフレームワークを拡張することを提案する。 多項式回帰の文脈では、各空間パターンは等質多変量多項式の部分空間に対応する。 これにより、既知のサンプル複雑性の結果に合致するようにアンサッツ空間を適応させることができる。 その結果,数値実験により計算資源の利用率とサンプル効率が向上した。

Low-rank tensors are an established framework for high-dimensional least-squares problems. We propose to extend this framework by including the concept of block-sparsity. In the context of polynomial regression each sparsity pattern corresponds to some subspace of homogeneous multivariate polynomials. This allows us to adapt the ansatz space to align better with known sample complexity results. The resulting method is tested in numerical experiments and demonstrates improved computational resource utilization and sample efficiency.
翻訳日:2021-04-30 12:43:27 公開日:2021-04-29
# 生活スタイル選択のプロキシとしてのオンラインショッピング行動の活用 : 慢性疾患予防リテラシーの新しい視点

Leveraging Online Shopping Behaviors as a Proxy for Personal Lifestyle Choices: New Insights into Chronic Disease Prevention Literacy ( http://arxiv.org/abs/2104.14281v1 )

ライセンス: Link先を確認
Yongzhen Wang, Xiaozhong Liu, Katy B\"orner, Jun Lin, Yingnan Ju, Changlong Sun, Luo Si(参考訳) ユビキタスなインターネットアクセスは私たちの生活様式を変えつつあるが、不健康な生活習慣に長時間曝露された慢性疾患を防ぐという前例のない課題が伴っている。 本稿では,電子商取引ユーザ体験がほとんどの人の日常生活に同化されている時代を対象とした,慢性疾患予防リテラシーの鮮明化に,オンラインショッピング行動を活用することを提案する。 ここで、何百万ものオンライン買い物客からの振り返りクエリーログと購入記録にアクセスし、さまざまな製品カテゴリと購入者のペルソナをカバーする幅広いライフスタイル機能を構築した。 処方薬を初めて購入する前のライフスタイル関連情報を用いて、オンライン買い物客の過去のライフスタイル選択と、特定の慢性疾患に悩まされているかどうかを判断できる。 新たなライフスタイルのリスク因子がうつ病と糖尿病の2つの例で発見され、その多くは既存の医療知識と認知的一致を示した。 また, 慢性疾患のリスクが高いオンライン買い物客(例えば, 抑うつに対する[受信者動作特性曲線]auc=0.68, 糖尿病に対するauc=0.70) に対して, 医療診断を基準としたスクリーニング調査の結果と密接に一致した。 電子商取引サイトでの慢性疾患の監視は、既に住んでいるデジタル空間の個人にすぐに同意するかもしれない。

Ubiquitous internet access is reshaping the way we live, but it is accompanied by unprecedented challenges to prevent chronic diseases planted in long exposure to unhealthy lifestyles. This paper proposes leveraging online shopping behaviors as a proxy for personal lifestyle choices to freshen chronic disease prevention literacy targeted for times when e-commerce user experience has been assimilated into most people's daily life. Here, retrospective longitudinal query logs and purchase records from millions of online shoppers were accessed, constructing a broad spectrum of lifestyle features covering assorted product categories and buyer personas. Using the lifestyle-related information preceding their first purchases of prescription drugs, we could determine associations between online shoppers' past lifestyle choices and if they suffered from a particular chronic disease. Novel lifestyle risk factors were discovered in two exemplars -- depression and diabetes, most of which showed cognitive congruence with existing healthcare knowledge. Further, such empirical findings could be adopted to locate online shoppers at high risk of chronic diseases with fair accuracy (e.g., [area under the receiver operating characteristic curve] AUC=0.68 for depression and AUC=0.70 for diabetes), closely matching the performance of screening surveys benchmarked against medical diagnosis. Unobtrusive chronic disease surveillance via e-commerce sites may soon meet consenting individuals in the digital space they already inhabit.
翻訳日:2021-04-30 12:43:22 公開日:2021-04-29
# VIRDOC:デング死亡率予測のための仮想DOCによる統計的および機械学習

VIRDOC: Statistical and Machine Learning by a VIRtual DOCtor to Predict Dengue Fatality ( http://arxiv.org/abs/2104.14282v1 )

ライセンス: Link先を確認
Amit K Chattopadhyay and Subhagata Chattopadhyay(参考訳) 臨床医は、流行の治療において患者の徴候や症状を検査することで定期的な診断を行う。 このスキルは試行錯誤を通じて進化し、時間とともに改善される。 治療体制の成功は、臨床医が伝染病の強力な原因をランク付けし、持続的な封じ込め戦略を考案するための相互依存を分析することに基づく、このようなサインシンプトムの解釈の正確さに大きく依存している。 本研究は,伝染病の主要な病原菌を自己整合的にランク付けし,統計モデルと機械学習の言語を用いて感染症の病期を正しく同定する仮想医師(virdoc)を提案する。 VIRDOCは医療データを分析し、それらを複数の線形回帰(MLR)係数からなるベクトルに変換し、臨床経験に基づく評価と比較して確率的にスコアを予測する。 ANOVAによるリスク管理であるVIRDOCアルゴリズムはデング流行データ(11の重み付きサイン症状を持つN=100)でテストされている。 従来の診断では71.4%であったのに対し、正確な死亡率予測は75%であった。 このアルゴリズムは、他の流行形態を解析するために汎用的に拡張することができる。

Clinicians conduct routine diagnosis by scrutinizing signs and symptoms of patients in treating epidemics. This skill evolves through trial-and-error and improves with time. The success of the therapeutic regimen relies largely on the accuracy of interpretation of such sign-symptoms, based on which the clinician ranks the potent causes of the epidemic and analyzes their interdependence to devise sustainable containment strategies. This study proposed an alternative medical front, a VIRtual DOCtor (VIRDOC), that can self-consistently rank key contributors of an epidemic and also correctly identify the infection stage, using the language of statistical modelling and Machine Learning. VIRDOC analyzes medical data and then translates these into a vector comprising Multiple Linear Regression (MLR) coefficients to probabilistically predict scores that compare with clinical experience-based assessment. The VIRDOC algorithm, risk managed through ANOVA, has been tested on dengue epidemic data (N=100 with 11 weighted sign-symptoms). Results highly encouraging with ca 75% accurate fatality prediction, compared to 71.4% from traditional diagnosis. The algorithm can be generically extended to analyze other epidemic forms.
翻訳日:2021-04-30 12:42:56 公開日:2021-04-29
# フェデレーション音響モデルを用いたエンドツーエンド音声認識

End-to-End Speech Recognition from Federated Acoustic Models ( http://arxiv.org/abs/2104.14297v1 )

ライセンス: Link先を確認
Yan Gao, Titouan Parcollet, Javier Fernandez-Marques, Pedro P. B. de Gusmao, Daniel J. Beutel, Nicholas D. Lane(参考訳) 連合学習(fl)環境下での自動音声認識(asr)モデルのトレーニングが注目されている。 しかしながら、文献でしばしば提示されるflシナリオは人工的であり、実際のflシステムの複雑さを捉えることができない。 本稿では,フレンチ・コモン・ボイス・データセットを用いて,不均一なデータ分布を持つクライアントからなる,挑戦的で現実的なASRフェデレーション実験装置を構築した。 本稿では,3つの集約戦略 – 標準FedAvg,損失ベースアグリゲーション,新しい単語誤り率(WER)ベースのアグリゲーション – を持つ注意ベースシーケンス・ツー・シーケンスE2E ASRモデルに関する実証的研究を,2つの現実的FLシナリオで実施する。 特に, WERに基づく重み付け法は, 誤差レートの計量を集約プロセスに統合することにより, FLをASRの文脈に適応させる。 異種および現実的な連合音響モデルからのE2E ASRの解析は、現実的なFLベースのASRアプリケーションの開発と研究の基盤となる。

Training Automatic Speech Recognition (ASR) models under federated learning (FL) settings has recently attracted considerable attention. However, the FL scenarios often presented in the literature are artificial and fail to capture the complexity of real FL systems. In this paper, we construct a challenging and realistic ASR federated experimental setup consisting of clients with heterogeneous data distributions using the French Common Voice dataset, a large heterogeneous dataset containing over 10k speakers. We present the first empirical study on attention-based sequence-to-sequence E2E ASR model with three aggregation weighting strategies -- standard FedAvg, loss-based aggregation and a novel word error rate (WER)-based aggregation, are conducted in two realistic FL scenarios: cross-silo with 10-clients and cross-device with 2k-clients. In particular, the WER-based weighting method is proposed to better adapt FL to the context of ASR by integrating the error rate metric with the aggregation process. Our analysis on E2E ASR from heterogeneous and realistic federated acoustic models provides the foundations for future research and development of realistic FL-based ASR applications.
翻訳日:2021-04-30 12:42:12 公開日:2021-04-29
# 深層強化学習によるハイパーネットワーク解体

Hypernetwork Dismantling via Deep Reinforcement Learning ( http://arxiv.org/abs/2104.14332v1 )

ライセンス: Link先を確認
Dengcheng Yan, Wenxin Xie, Yiwen Zhang(参考訳) ネットワーク分割は、最適なノードの集合を取り除き、ネットワークの接続性を劣化させることを目的としており、疫病対策や噂の封じ込めなど多くの現実世界のアプリケーションで広く採用されている。 しかし、従来の手法はペアワイズのみの単純なネットワークモデリングに重点を置いているのに対し、ハイパーネットワークによってモデル化されたグループワイズ相互作用はユビキタスで重要なものである。 本研究では,ハイパーネットワーク解体問題をノードシーケンス決定問題として定式化し,深層強化学習(drl)ベースのハイパーネットワーク解体フレームワークを提案する。 さらに,様々な現実世界のハイパーネットワークへの転送性を確保するために,新しいインダクティブなハイパーネットワーク埋め込み手法を設計する。 一般的に、私たちのフレームワークはエージェントを構築します。 最初は小規模な合成ハイパーネットワークを生成し、ノードとハイパーネットワークを低次元ベクトル空間に埋め込み、DRLのアクションと状態空間を表現する。 次に、これらの合成ハイパーネットワーク上でエージェントによって試行錯誤処理を行い、分解戦略を継続的に最適化する。 最後に、最適化された戦略を現実世界のハイパーネットワークの分解タスクに適用する。 5つの実世界のハイパーネットワークの実験結果は,提案フレームワークの有効性を示している。

Network dismantling aims to degrade the connectivity of a network by removing an optimal set of nodes and has been widely adopted in many real-world applications such as epidemic control and rumor containment. However, conventional methods usually focus on simple network modeling with only pairwise interactions, while group-wise interactions modeled by hypernetwork are ubiquitous and critical. In this work, we formulate the hypernetwork dismantling problem as a node sequence decision problem and propose a deep reinforcement learning (DRL)-based hypernetwork dismantling framework. Besides, we design a novel inductive hypernetwork embedding method to ensure the transferability to various real-world hypernetworks. Generally, our framework builds an agent. It first generates small-scale synthetic hypernetworks and embeds the nodes and hypernetworks into a low dimensional vector space to represent the action and state space in DRL, respectively. Then trial-and-error dismantling tasks are conducted by the agent on these synthetic hypernetworks, and the dismantling strategy is continuously optimized. Finally, the well-optimized strategy is applied to real-world hypernetwork dismantling tasks. Experimental results on five real-world hypernetworks demonstrate the effectiveness of our proposed framework.
翻訳日:2021-04-30 12:41:50 公開日:2021-04-29
# PPFL:信頼された実行環境によるプライバシ保護フェデレーション学習

PPFL: Privacy-preserving Federated Learning with Trusted Execution Environments ( http://arxiv.org/abs/2104.14380v1 )

ライセンス: Link先を確認
Fan Mo, Hamed Haddadi, Kleomenis Katevas, Eduard Marin, Diego Perino, Nicolas Kourtellis(参考訳) 我々は,フェデレーション学習におけるプライバシー漏洩を制限するために,モバイルシステムのためのプライバシ保護フェデレーション学習(PPFL)フレームワークを提案し,実装する。 ハイエンドおよびモバイルデバイスにおけるTrusted Execution Environments(TEEs)の広範な存在を活用して、クライアント上のTEEをローカルトレーニング、サーバ上のセキュアアグリゲーションに利用することにより、モデル/段階的な更新を敵から隠蔽する。 現在のTEEのメモリサイズに制限があるため、信頼された領域内の各モデルの層をその収束までトレーニングするために、グリージーなレイヤワイズトレーニングを活用します。 実装の性能評価の結果,PPFLはクライアント側で小さなシステムオーバーヘッドを発生させながら,プライバシーを著しく向上させることができることがわかった。 特にPPFLは、トレーニングされたモデルをデータ再構成、プロパティ推論、メンバシップ推論攻撃に対してうまく防御することができる。 さらに、完全モデルの標準フェデレーション学習と比較して、通信ラウンド(0.54x)と同等量のネットワークトラフィック(1.002x)の少ないモデルユーティリティを実現することができる。 これはPPFLのクライアントサイドで最大15%のCPU時間と18%のメモリ使用量、および21%のエネルギー消費オーバーヘッドを導入しながら達成される。

We propose and implement a Privacy-preserving Federated Learning (PPFL) framework for mobile systems to limit privacy leakages in federated learning. Leveraging the widespread presence of Trusted Execution Environments (TEEs) in high-end and mobile devices, we utilize TEEs on clients for local training, and on servers for secure aggregation, so that model/gradient updates are hidden from adversaries. Challenged by the limited memory size of current TEEs, we leverage greedy layer-wise training to train each model's layer inside the trusted area until its convergence. The performance evaluation of our implementation shows that PPFL can significantly improve privacy while incurring small system overheads at the client-side. In particular, PPFL can successfully defend the trained model against data reconstruction, property inference, and membership inference attacks. Furthermore, it can achieve comparable model utility with fewer communication rounds (0.54x) and a similar amount of network traffic (1.002x) compared to the standard federated learning of a complete model. This is achieved while only introducing up to ~15% CPU time, ~18% memory usage, and ~21% energy consumption overhead in PPFL's client-side.
翻訳日:2021-04-30 12:41:31 公開日:2021-04-29
# スケーリングとスケーラビリティ:不完全測定による非凸低ランクテンソル推定

Scaling and Scalability: Provable Nonconvex Low-Rank Tensor Estimation from Incomplete Measurements ( http://arxiv.org/abs/2104.14526v1 )

ライセンス: Link先を確認
Tian Tong, Cong Ma, Ashley Prater-Bennette, Erin Tripp, Yuejie Chi(参考訳) マルチ属性データとマルチウェイインタラクションを表現するための強力で柔軟なモデルを提供するテンソルは、科学と工学のさまざまな分野にわたる現代のデータ科学において不可欠の役割を担っている。 基本的な課題は、テンソルを統計的かつ計算的に効率的に高度に不完全な測定から忠実に回収することである。 Harnessing the low-rank structure of tensors in the Tucker decomposition, this paper develops a scaled gradient descent (ScaledGD) algorithm to directly recover the tensor factors with tailored spectral initializations, and shows that it provably converges at a linear rate independent of the condition number of the ground truth tensor for two canonical problems -- tensor completion and tensor regression -- as soon as the sample size is above the order of $n^{3/2}$ ignoring other dependencies, where $n$ is the dimension of the tensor. これは、空調に対する過度な感度、メモリと計算における高精細化コスト、サンプルの複雑性保証の低さといった欠点の少なくとも1つに悩まされている先行技術と比較して、低ランクテンソル推定に対する非常にスケーラブルなアプローチにつながります。 我々の知る限り、ScaledGDはタッカー分解による低ランクテンソル完備化のために、ほぼ最適な統計および計算の複雑さを同時に達成する最初のアルゴリズムである。 本アルゴリズムは,非凸統計量推定を加速する上での適切な事前条件付けのパワーを強調し,低ランクテンソル因子分解の基底対称性に関して,反復変動前条件が軌道の望ましい不変性特性を促進する。

Tensors, which provide a powerful and flexible model for representing multi-attribute data and multi-way interactions, play an indispensable role in modern data science across various fields in science and engineering. A fundamental task is to faithfully recover the tensor from highly incomplete measurements in a statistically and computationally efficient manner. Harnessing the low-rank structure of tensors in the Tucker decomposition, this paper develops a scaled gradient descent (ScaledGD) algorithm to directly recover the tensor factors with tailored spectral initializations, and shows that it provably converges at a linear rate independent of the condition number of the ground truth tensor for two canonical problems -- tensor completion and tensor regression -- as soon as the sample size is above the order of $n^{3/2}$ ignoring other dependencies, where $n$ is the dimension of the tensor. This leads to an extremely scalable approach to low-rank tensor estimation compared with prior art, which suffers from at least one of the following drawbacks: extreme sensitivity to ill-conditioning, high per-iteration costs in terms of memory and computation, or poor sample complexity guarantees. To the best of our knowledge, ScaledGD is the first algorithm that achieves near-optimal statistical and computational complexities simultaneously for low-rank tensor completion with the Tucker decomposition. Our algorithm highlights the power of appropriate preconditioning in accelerating nonconvex statistical estimation, where the iteration-varying preconditioners promote desirable invariance properties of the trajectory with respect to the underlying symmetry in low-rank tensor factorization.
翻訳日:2021-04-30 12:40:32 公開日:2021-04-29
# 低複雑ワイヤレストランシーバを用いたIoTのための分散強化学習を用いた媒体アクセス

Medium Access using Distributed Reinforcement Learning for IoTs with Low-Complexity Wireless Transceivers ( http://arxiv.org/abs/2104.14549v1 )

ライセンス: Link先を確認
Hrishikesh Dutta and Subir Biswas(参考訳) 本稿では,低複雑性無線トランシーバを用いたIoTネットワークにおいて,MAC層無線プロトコルの合成に使用できる分散強化学習(RL)ベースのフレームワークを提案する。 提案するフレームワークは,低コストで低エネルギーのIoTデバイスの無線トランシーバではサポートされない,キャリアセンシングなどの複雑なハードウェア機能や,関連するアルゴリズムの複雑さに依存しない。 このフレームワークでは、アクセスプロトコルをまずMarkov Decision Processs (MDP) として定式化し、次にRLを用いて解決する。 プロトコル合成の基礎として分散マルチエージェントRLフレームワークが使用される。 分散動作は、ノードがネットワークレベルの情報と他のノードの振る舞いに関する直接的な知識に頼ることなく、最適な送信戦略を独立に学習させる。 ノードはパケット衝突を最小限に抑え、複雑なトランシーバを使わずにIoTデバイス用の既知のベンチマークプロトコル(ALOHAなど)よりも高いロード条件で最適なスループットを達成および維持できるように学習する。 さらに、ノードは、異種負荷とネットワークトポロジー条件の存在下で最適に動作することを学ぶことができることが観察される。 最後に、提案した学習手法により、無線帯域幅は、そのような不均一性に依存しない方法で、ネットワークノード間でかなり分散することができる。 シミュレーション実験を通じて,学習パラダイムの性能と,ノードが様々なネットワークダイナミクスに応答して,その最適な伝達戦略をオンザフライで適応させる能力を示す。

This paper proposes a distributed Reinforcement Learning (RL) based framework that can be used for synthesizing MAC layer wireless protocols in IoT networks with low-complexity wireless transceivers. The proposed framework does not rely on complex hardware capabilities such as carrier sensing and its associated algorithmic complexities that are often not supported in wireless transceivers of low-cost and low-energy IoT devices. In this framework, the access protocols are first formulated as Markov Decision Processes (MDP) and then solved using RL. A distributed and multi-Agent RL framework is used as the basis for protocol synthesis. Distributed behavior makes the nodes independently learn optimal transmission strategies without having to rely on full network level information and direct knowledge of behavior of other nodes. The nodes learn to minimize packet collisions such that optimal throughput can be attained and maintained for loading conditions that are higher than what the known benchmark protocols (such as ALOHA) for IoT devices without complex transceivers. In addition, the nodes are observed to be able to learn to act optimally in the presence of heterogeneous loading and network topological conditions. Finally, the proposed learning approach allows the wireless bandwidth to be fairly distributed among network nodes in a way that is not dependent on such heterogeneities. Via simulation experiments, the paper demonstrates the performance of the learning paradigm and its abilities to make nodes adapt their optimal transmission strategies on the fly in response to various network dynamics.
翻訳日:2021-04-30 12:40:04 公開日:2021-04-29
# (参考訳) 低遅延スパイクニューラルネットワークの時空間プルーニングと量子化 [全文訳有]

Spatio-Temporal Pruning and Quantization for Low-latency Spiking Neural Networks ( http://arxiv.org/abs/2104.12528v2 )

ライセンス: CC BY 4.0
Sayeed Shafayet Chowdhury, Isha Garg and Kaushik Roy(参考訳) イベント駆動情報処理を実行するため、スパイキングニューラルネットワーク(SNN)は従来のディープラーニング手法に代わる有望な手段である。 しかし、SNNの大きな欠点は、高い推論遅延である。 SNNの効率はプルーニングや量子化といった圧縮手法によって向上することができた。 特に、SNNは、スポーキング以外のものと異なり、時間次元から成り、圧縮によって遅延が減少する可能性がある。 本稿では,SNNの空間的および時間的プルーニングを提案する。 第1に、ニューロンの平均蓄積膜電位の主成分分析を用いて、層別有意次元を決定することにより、構造化空間プラニングを行う。 このステップは10-14Xモデル圧縮につながる。 さらに、低レイテンシで推論が可能で、推論当たりのスパイク数を削減できる。 さらにレイテンシを低減し、トレーニング中の時間ステップを徐々に削減して、時間的プルーニングを行う。 VGG アーキテクチャを用いて,CIFAR10 と CIFAR100 のバックプロパゲーションを用いてネットワークをトレーニングし,その結果を検証した。 CIFAR10 と CIFAR100 でそれぞれ89.04% と66.4% の精度を達成し、最先端の SNN と比較して3-30倍のレイテンシで推論を行う。 さらに、通常のディープラーニングに比べて8~14倍の計算エネルギーを必要とする。 エネルギー数は、演算毎のエネルギーで演算数を乗算することで得られる。 これらのSNNはまた、ガウスノイズ劣化入力に対して1-4%高いロバスト性を提供する。 さらに,重み量子化を行い,5ビット量子化まで性能が安定であることを確認した。

Spiking Neural Networks (SNNs) are a promising alternative to traditional deep learning methods since they perform event-driven information processing. However, a major drawback of SNNs is high inference latency. The efficiency of SNNs could be enhanced using compression methods such as pruning and quantization. Notably, SNNs, unlike their non-spiking counterparts, consist of a temporal dimension, the compression of which can lead to latency reduction. In this paper, we propose spatial and temporal pruning of SNNs. First, structured spatial pruning is performed by determining the layer-wise significant dimensions using principal component analysis of the average accumulated membrane potential of the neurons. This step leads to 10-14X model compression. Additionally, it enables inference with lower latency and decreases the spike count per inference. To further reduce latency, temporal pruning is performed by gradually reducing the timesteps while training. The networks are trained using surrogate gradient descent based backpropagation and we validate the results on CIFAR10 and CIFAR100, using VGG architectures. The spatiotemporally pruned SNNs achieve 89.04% and 66.4% accuracy on CIFAR10 and CIFAR100, respectively, while performing inference with 3-30X reduced latency compared to state-of-the-art SNNs. Moreover, they require 8-14X lesser compute energy compared to their unpruned standard deep learning counterparts. The energy numbers are obtained by multiplying the number of operations with energy per operation. These SNNs also provide 1-4% higher robustness against Gaussian noise corrupted inputs. Furthermore, we perform weight quantization and find that performance remains reasonably stable up to 5-bit quantization.
翻訳日:2021-04-30 11:04:57 公開日:2021-04-29
# (参考訳) GANインバージョンによる非教師なし3次元形状補完 [全文訳有]

Unsupervised 3D Shape Completion through GAN Inversion ( http://arxiv.org/abs/2104.13366v2 )

ライセンス: CC BY 4.0
Junzhe Zhang, Xinyi Chen, Zhongang Cai, Liang Pan, Haiyu Zhao, Shuai Yi, Chai Kiat Yeo, Bo Dai, Chen Change Loy(参考訳) 殆どの3次元形状完備化アプローチは部分完全形状対に大きく依存し、完全に教師された方法で学習する。 ドメイン内のデータに対する印象的なパフォーマンスにもかかわらず、他の形式の部分的な形状や実世界の部分的なスキャンに一般化すると、ドメインギャップによる不満足な結果がしばしば得られる。 本稿では, 従来の完全教師付きアプローチとは対照的に, 初めて形状完全化のための生成的逆ネットワーク (gan) を導入した shapeinversion を提案する。 ShapeInversionは、与えられた部分入力を最もよく再構成する完全な形状を与える潜在コードを探すことによって、完全な形状で事前訓練されたGANを使用する。 このように、shapeinversionはペアトレーニングデータを必要としないようになり、十分に訓練された生成モデルでキャプチャされたリッチな事前データを取り込むことができる。 shapenetベンチマークでは、shapeinversion は sota unsupervised メソッドよりも優れており、ペアデータを用いて学習される教師ありメソッドに匹敵する。 また、実世界のスキャンや様々な形の部分的な入力や不完全性レベルに対して頑健な結果を与える。 重要なことに、ShapeInversionは、不明瞭な部分入力のための複数の有効な完全形状を生成することや、形状操作や補間など、事前訓練されたGANの関与により、一連の追加機能を自然に実現している。

Most 3D shape completion approaches rely heavily on partial-complete shape pairs and learn in a fully supervised manner. Despite their impressive performances on in-domain data, when generalizing to partial shapes in other forms or real-world partial scans, they often obtain unsatisfactory results due to domain gaps. In contrast to previous fully supervised approaches, in this paper we present ShapeInversion, which introduces Generative Adversarial Network (GAN) inversion to shape completion for the first time. ShapeInversion uses a GAN pre-trained on complete shapes by searching for a latent code that gives a complete shape that best reconstructs the given partial input. In this way, ShapeInversion no longer needs paired training data, and is capable of incorporating the rich prior captured in a well-trained generative model. On the ShapeNet benchmark, the proposed ShapeInversion outperforms the SOTA unsupervised method, and is comparable with supervised methods that are learned using paired data. It also demonstrates remarkable generalization ability, giving robust results for real-world scans and partial inputs of various forms and incompleteness levels. Importantly, ShapeInversion naturally enables a series of additional abilities thanks to the involvement of a pre-trained GAN, such as producing multiple valid complete shapes for an ambiguous partial input, as well as shape manipulation and interpolation.
翻訳日:2021-04-30 10:46:16 公開日:2021-04-29
# MLDemon: 機械学習システムのデプロイ監視

MLDemon: Deployment Monitoring for Machine Learning Systems ( http://arxiv.org/abs/2104.13621v2 )

ライセンス: Link先を確認
Antonio Ginart, Martin Zhang, James Zou(参考訳) mlシステムの性能のデプロイ後の監視は、特に新しいユーザ入力がトレーニング分布と異なるため、信頼性を確保する上で重要である。 本稿ではML Deployment Monitoringのための新しいアプローチであるMLDemonを提案する。 MLDemonはラベル付けされていない機能と少数のオンデマンドラベル付きサンプルを統合し、与えられたデータストリーム上でのMLモデルの現在のパフォーマンスをリアルタイムで推定する。 予算制約により、MLDemonはモデルを検証するために追加でコストがかかるラベルを取得する時期を決定する。 多様な分布のドリフトとモデルを持つ時間データセットでは、MLDemonは既存のモニタリングアプローチを大幅に上回る。 さらに,mldemonは対数係数に最適なミニマックスレートであり,それ以前のアプローチがそうではないのに対して,広い分布ドリフトに対して確実に頑健であることを示すための理論的解析を行う。

Post-deployment monitoring of the performance of ML systems is critical for ensuring reliability, especially as new user inputs can differ from the training distribution. Here we propose a novel approach, MLDemon, for ML DEployment MONitoring. MLDemon integrates both unlabeled features and a small amount of on-demand labeled examples over time to produce a real-time estimate of the ML model's current performance on a given data stream. Subject to budget constraints, MLDemon decides when to acquire additional, potentially costly, supervised labels to verify the model. On temporal datasets with diverse distribution drifts and models, MLDemon substantially outperforms existing monitoring approaches. Moreover, we provide theoretical analysis to show that MLDemon is minimax rate optimal up to logarithmic factors and is provably robust against broad distribution drifts whereas prior approaches are not.
翻訳日:2021-04-30 10:28:52 公開日:2021-04-29
# deep 3d-to-2d watermarking: 3dメッシュへのメッセージ埋め込みと2dレンダリングからの抽出

Deep 3D-to-2D Watermarking: Embedding Messages in 3D Meshes and Extracting Them from 2D Renderings ( http://arxiv.org/abs/2104.13450v2 )

ライセンス: Link先を確認
Innfarn Yoo and Huiwen Chang and Xiyang Luo and Ondrej Stava and Ce Liu and Peyman Milanfar and Feng Yang(参考訳) デジタル透かしは著作権保護のために広く使われている。 従来の3d透かし手法や商用ソフトウェアは、通常、メッセージを3dメッシュに埋め込むように設計され、後に歪んだ、3dメッシュから直接メッセージを取得する。 しかし、そのようなメッシュの2dレンダリングからメッセージを取得することは、まだ困難で未検討である。 1) メッシュ形状とテクスチャの両方にメッセージを埋め込むエンコーダ, 2) 異なるカメラアングルから様々な照明条件下で透かし付き3dオブジェクトを描画する微分可能なレンダラ, 3) 2次元レンダリング画像からメッセージを復元するデコーダ,という,新しいエンドツーエンド学習フレームワークを導入する。 広範にわたる実験から,我々のモデルは視覚的に人間に知覚できない情報を埋め込むことを学び,組込み情報を頑健な2次元レンダリングから3次元歪みに再構成する。 さらに,本手法は,レイトレーサやリアルタイムレンダラーなど,異なるレンダラーで動作するように一般化可能であることを示す。

Digital watermarking is widely used for copyright protection. Traditional 3D watermarking approaches or commercial software are typically designed to embed messages into 3D meshes, and later retrieve the messages directly from distorted/undistorte d watermarked 3D meshes. Retrieving messages from 2D renderings of such meshes, however, is still challenging and underexplored. We introduce a novel end-to-end learning framework to solve this problem through: 1) an encoder to covertly embed messages in both mesh geometry and textures; 2) a differentiable renderer to render watermarked 3D objects from different camera angles and under varied lighting conditions; 3) a decoder to recover the messages from 2D rendered images. From extensive experiments, we show that our models learn to embed information visually imperceptible to humans, and to reconstruct the embedded information from 2D renderings robust to 3D distortions. In addition, we demonstrate that our method can be generalized to work with different renderers, such as ray tracers and real-time renderers.
翻訳日:2021-04-30 10:28:37 公開日:2021-04-29
# ACDC: セマンティックドライビングシーン理解のための対応付き逆条件データセット

ACDC: The Adverse Conditions Dataset with Correspondences for Semantic Driving Scene Understanding ( http://arxiv.org/abs/2104.13395v2 )

ライセンス: Link先を確認
Christos Sakaridis, Dengxin Dai, Luc Van Gool(参考訳) 自動運転車のレベル5の自律性には、どんな視覚条件でも入力画像を解析できる堅牢な視覚知覚システムが必要である。 しかし、既存のセマンティクスセグメンテーションデータセットは、通常の条件下でキャプチャされた画像によって支配されるか、あるいは規模が小さい。 そこで本研究では,ACDC(Adverse Conditions Dataset with Cor correspondingences)を導入し,視覚障害に対するセマンティックセグメンテーション手法の訓練と試験を行う。 ACDCは、霧、夜間、雨、雪の4つの一般的な悪条件の間に均等に分布する4006枚の画像からなる。 それぞれの悪条件画像は、高品質なピクセルレベルのセマンティックアノテーション、通常条件下で撮影される同じシーンの対応するイメージ、および透明かつ不確実なセマンティック内容のイメージ内領域を区別するバイナリマスクを備える。 したがって、adcは標準意味セグメンテーションと新しく導入された不確実性認識意味セグメンテーションの両方をサポートする。 詳細な実証研究により、ACDCの有害ドメインが最先端の教師なしアプローチや教師なしアプローチにもたらす課題が示され、この分野における今後の進歩を推し進める上で、我々のデータセットの価値が示される。 データセットとベンチマークは公開されています。

Level 5 autonomy for self-driving cars requires a robust visual perception system that can parse input images under any visual condition. However, existing semantic segmentation datasets are either dominated by images captured under normal conditions or are small in scale. To address this, we introduce ACDC, the Adverse Conditions Dataset with Correspondences for training and testing semantic segmentation methods on adverse visual conditions. ACDC consists of a large set of 4006 images which are equally distributed between four common adverse conditions: fog, nighttime, rain, and snow. Each adverse-condition image comes with a high-quality fine pixel-level semantic annotation, a corresponding image of the same scene taken under normal conditions, and a binary mask that distinguishes between intra-image regions of clear and uncertain semantic content. Thus, ACDC supports both standard semantic segmentation and the newly introduced uncertainty-aware semantic segmentation. A detailed empirical study demonstrates the challenges that the adverse domains of ACDC pose to state-of-the-art supervised and unsupervised approaches and indicates the value of our dataset in steering future progress in the field. Our dataset and benchmark are publicly available.
翻訳日:2021-04-30 10:28:17 公開日:2021-04-29
# 効率的なクラスタ初期化のためのディープラーニングオブジェクト検出法

A Deep Learning Object Detection Method for an Efficient Clusters Initialization ( http://arxiv.org/abs/2104.13634v2 )

ライセンス: Link先を確認
Hassan N. Noura, Ola Salman, Rapha\"el Couturier, Abderrahmane Sider(参考訳) クラスタリングは教師なしの機械学習手法で、データサンプルを類似オブジェクトのクラスタにグループ化する。 実際には、銀行顧客のプロファイリング、文書検索、画像セグメンテーション、Eコマースレコメンデーションエンジンなど、多数のアプリケーションでクラスタリングが使用されている。 しかし、既存のクラスタリング技術は、初期化パラメータ(例えば、初期化パラメータ)に対する安定性の信頼性に重大な制限がある。 クラスタ数、セントロイド数)。 この制限を克服するために、文献に異なる解決策が提示された(すなわち、)。 内部および外部の検証指標)。 しかし、これらの解は特に高次元データを扱う場合、高い計算複雑性とメモリ消費を必要とする。 本稿では,最近のオブジェクト検出ディープラーニング(DL)モデルであるYOLO-v5を適用し,そのサイズと可能なセンチロイドのクラスタ数などの初期クラスタリングパラメータを検出する。 提案手法は主に,dlベースの初期化フェーズを追加することで,クラスタリングアルゴリズムを初期化から解放する。 その結果,提案手法は計算量やリソースのオーバーヘッドが少なく,最適に近いクラスタ初期化パラメータを提供できることがわかった。

Clustering is an unsupervised machine learning method grouping data samples into clusters of similar objects. In practice, clustering has been used in numerous applications such as banking customers profiling, document retrieval, image segmentation, and e-commerce recommendation engines. However, the existing clustering techniques present significant limitations, from which is the dependability of their stability on the initialization parameters (e.g. number of clusters, centroids). Different solutions were presented in the literature to overcome this limitation (i.e. internal and external validation metrics). However, these solutions require high computational complexity and memory consumption, especially when dealing with high dimensional data. In this paper, we apply the recent object detection Deep Learning (DL) model, named YOLO-v5, to detect the initial clustering parameters such as the number of clusters with their sizes and possible centroids. Mainly, the proposed solution consists of adding a DL-based initialization phase making the clustering algorithms free of initialization. The results show that the proposed solution can provide near-optimal clusters initialization parameters with low computational and resources overhead compared to existing solutions.
翻訳日:2021-04-30 10:27:53 公開日:2021-04-29
# 多面的最適化のための強化学習環境

A Reinforcement Learning Environment for Polyhedral Optimizations ( http://arxiv.org/abs/2104.13732v2 )

ライセンス: Link先を確認
Alexander Brauckmann, Andr\'es Goens, Jeronimo Castrillon(参考訳) 多面体モデルは、セマンティクス保存変換を定義する構造化方法を可能にし、ループの大規模なクラスのパフォーマンスを向上させる。 この空間の利益点を見つけることは、通常、ドメインエキスパート知識から一般化するヒューリスティックスによってアプローチされる難しい問題である。 最先端のヒューリスティックにおける既存の問題の定式化は、特定のループの形状に依存するため、機械学習領域からの汎用的で強力な最適化技術を活用することは困難である。 本稿では,多面体モデルにおける正則変換空間をマルコフ決定過程(mdp)として定式化した多面体であるpolygymを提案する。 変換を使う代わりに、定式化は可能なスケジュールの抽象空間に基づいている。 この定式化では、状態は部分スケジュールをモデル化し、異なるループにわたって再利用可能なアクションによって構成される。 空間を横切るための単純なヒューリスティックでは、我々の定式化が最先端のヒューリスティックに適合し、性能を上回るほど強力であることを示す。 Polybenchベンチマークスイートでは、LLVM O3よりも3.39倍のスピードアップを実現した変換が見つかりました。 我々の汎用MDP定式化は、強化学習を用いて幅広いループで最適化ポリシーを学習することを可能にする。 これはまた、既存のメソッドの限界を押し上げることができる新しい問題定式化を公開するため、コンパイラにおける機械学習の新興分野にも寄与する。

The polyhedral model allows a structured way of defining semantics-preserving transformations to improve the performance of a large class of loops. Finding profitable points in this space is a hard problem which is usually approached by heuristics that generalize from domain-expert knowledge. Existing problem formulations in state-of-the-art heuristics depend on the shape of particular loops, making it hard to leverage generic and more powerful optimization techniques from the machine learning domain. In this paper, we propose PolyGym, a shape-agnostic formulation for the space of legal transformations in the polyhedral model as a Markov Decision Process (MDP). Instead of using transformations, the formulation is based on an abstract space of possible schedules. In this formulation, states model partial schedules, which are constructed by actions that are reusable across different loops. With a simple heuristic to traverse the space, we demonstrate that our formulation is powerful enough to match and outperform state-of-the-art heuristics. On the Polybench benchmark suite, we found transformations that led to a speedup of 3.39x over LLVM O3, which is 1.83x better than the speedup achieved by ISL. Our generic MDP formulation enables using reinforcement learning to learn optimization policies over a wide range of loops. This also contributes to the emerging field of machine learning in compilers, as it exposes a novel problem formulation that can push the limits of existing methods.
翻訳日:2021-04-30 10:27:36 公開日:2021-04-29