このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210726となっている論文です。

PDF登録状況(公開日: 20210726)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 協調的メトリクス学習のための階層的潜在関係モデリング [全文訳有]

Hierarchical Latent Relation Modeling for Collaborative Metric Learning ( http://arxiv.org/abs/2108.04655v1 )

ライセンス: CC BY 4.0
Viet-Anh Tran and Guillaume Salha-Galvan and Romain Hennequin and Manuel Moussallam(参考訳) CML(Collaborative Metric Learning)は、暗黙のフィードバックによる協調フィルタリングに基づく推奨のための強力なパラダイムとして最近登場した。 しかし、標準的なCMLメソッドは、固定されたユーザとアイテムの表現を学習するが、これはユーザの複雑な関心を捉えるのに失敗する。 既存のCMLの拡張も、ユーザ-イテム関係の不均一性を無視している。 ユーザは、非常に異なるアイテムや、潜在アイテム-イテム関係、すなわち、同時に同じことができる。 アイテムに対するユーザの好みは、その本質的な特性だけでなく、以前相互作用したアイテムにも依存する。 本稿では,潜在ユーザとアイテムの関係を暗黙のデータから捉える階層型cmlモデルを提案する。 このアプローチは知識グラフ埋め込みによる翻訳機構に触発され,メモリベースのアテンションネットワークを活用する。 実世界の複数のデータセットにおける推薦タスクにおいて、既存のCMLモデルよりも優れていることを示す。 我々の実験は、非常にスパースなデータセット上での現在のCMLリレーショナルモデルの限界も強調しています。

Collaborative Metric Learning (CML) recently emerged as a powerful paradigm for recommendation based on implicit feedback collaborative filtering. However, standard CML methods learn fixed user and item representations, which fails to capture the complex interests of users. Existing extensions of CML also either ignore the heterogeneity of user-item relations, i.e. that a user can simultaneously like very different items, or the latent item-item relations, i.e. that a user's preference for an item depends, not only on its intrinsic characteristics, but also on items they previously interacted with. In this paper, we present a hierarchical CML model that jointly captures latent user-item and item-item relations from implicit data. Our approach is inspired by translation mechanisms from knowledge graph embedding and leverages memory-based attention networks. We empirically show the relevance of this joint relational modeling, by outperforming existing CML models on recommendation tasks on several real-world datasets. Our experiments also emphasize the limits of current CML relational models on very sparse datasets.
翻訳日:2021-08-15 15:03:48 公開日:2021-07-26
# A*-algorithm for the Unordered Tree Edit Distance with Custom Costs

An A*-algorithm for the Unordered Tree Edit Distance with Custom Costs ( http://arxiv.org/abs/2108.00953v1 )

ライセンス: Link先を確認
Benjamin Paa{\ss}en(参考訳) 非順序木編集距離は、化学分子の表現のような固有の子秩序を持たない木間の距離を計算する自然な計量である。 非順序木編集距離は原則として MAX SNP-hard であるが、小さな場合、例えば、実現可能である。 A*アルゴリズムによる。 残念ながら、現在のA*アルゴリズムのヒューリスティックスは、削除、挿入、置換の単位コストを前提としており、ドメイン知識を注入する能力を制限する。 本稿では,A*アルゴリズムに対して,カスタムコスト関数を扱う3つの新しいヒューリスティックスを提案する。 2つの化学データセットの実験において、A*計算を高速化し、化学特性を予測して隣り合う5熱抵抗の誤差を改善するためのカスタムコストが示されている。 また,これらのデータから,多項式編集距離は木編集距離と同じ結果が得られることを示した。

The unordered tree edit distance is a natural metric to compute distances between trees without intrinsic child order, such as representations of chemical molecules. While the unordered tree edit distance is MAX SNP-hard in principle, it is feasible for small cases, e.g. via an A* algorithm. Unfortunately, current heuristics for the A* algorithm assume unit costs for deletions, insertions, and replacements, which limits our ability to inject domain knowledge. In this paper, we present three novel heuristics for the A* algorithm that work with custom cost functions. In experiments on two chemical data sets, we show that custom costs make the A* computation faster and improve the error of a 5-nearest neighbor regressor, predicting chemical properties. We also show that, on these data, polynomial edit distances can achieve similar results as the unordered tree edit distance.
翻訳日:2021-08-08 11:08:01 公開日:2021-07-26
# メタラーニングによるサブグラフ対応Few-Shotインダクティブリンク予測

Subgraph-aware Few-Shot Inductive Link Prediction via Meta-Learning ( http://arxiv.org/abs/2108.00954v1 )

ライセンス: Link先を確認
Shuangjia Zheng, Sijie Mai, Ya Sun, Haifeng Hu, Yuedong Yang(参考訳) 知識グラフのリンク予測は、エンティティ間の接続の欠如を予測することを目的としている。 一般的なメソッドは、トランスダクティブな設定に制限され、見えないエンティティを処理するのが難しい。 最近提案されたサブグラフベースのモデルは、候補三重項を取り巻くサブグラフ構造からリンクを予測する代替手段を提供する。 しかし、これらの方法はトリプレットを訓練するための豊富な既知の事実を必要とし、トリプレットを数個しか持たない関係では不十分である。 本稿では,メタ-iKGを提案する。メタ-iKGは,数ショットの帰納的関係推論のためのメタ-ラーナーである。 meta-ikgはローカルサブグラフを使用してサブグラフ固有の情報を転送し、メタ勾配を介して転送可能なパターンを高速に学習する。 このようにして、モデルは、インダクティブな設定を持つ少数の既知の事実のみを使用して、少数のショット関係に迅速に適応できる。 さらに,従来のメタ学習に大規模な関係更新手順を導入し,少数ショットと大ショットの両方でモデルを適切に一般化できるようにした。 nell および freebase からサンプリングされたインダクティブベンチマークの meta-ikg を評価した結果,meta-ikg は,限られたシナリオと標準インダクティブ設定の両方において,現在の最先端のメソッドよりも優れていることがわかった。

Link prediction for knowledge graphs aims to predict missing connections between entities. Prevailing methods are limited to a transductive setting and hard to process unseen entities. The recent proposed subgraph-based models provided alternatives to predict links from the subgraph structure surrounding a candidate triplet. However, these methods require abundant known facts of training triplets and perform poorly on relationships that only have a few triplets. In this paper, we propose Meta-iKG, a novel subgraph-based meta-learner for few-shot inductive relation reasoning. Meta-iKG utilizes local subgraphs to transfer subgraph-specific information and learn transferable patterns faster via meta gradients. In this way, we find the model can quickly adapt to few-shot relationships using only a handful of known facts with inductive settings. Moreover, we introduce a large-shot relation update procedure to traditional meta-learning to ensure that our model can generalize well both on few-shot and large-shot relations. We evaluate Meta-iKG on inductive benchmarks sampled from NELL and Freebase, and the results show that Meta-iKG outperforms the current state-of-the-art methods both in few-shot scenarios and standard inductive settings.
翻訳日:2021-08-08 11:06:24 公開日:2021-07-26
# (参考訳) ランダムフォレスト分類器を用いた母音ベースMeeteilon方言識別 [全文訳有]

Vowel-based Meeteilon dialect identification using a Random Forest classifier ( http://arxiv.org/abs/2107.13419v1 )

ライセンス: CC BY 4.0
Thangjam Clarinda Devi and Kabita Thaoroijam(参考訳) 本稿では,母音を用いたメセイロン方言識別システムを提案する。 本研究では,インド語用言語データコンソーシアム (ldc-il) で使用可能な meeteilon speech corpora を用いて母音データセットを作成する。 単声母音音からフォルマント周波数(F1,F1,F3)やピッチ(F0)、エネルギー、強度、セグメント長値などの韻律特徴を抽出する。 ランダムフォレスト分類器(random forest classifier)は、決定木に基づくアンサンブルアルゴリズムで、メセイロンの3つの主要な方言、すなわちインパール、カッチング、セクマイの分類に用いられる。 モデルは61.57%の精度で平均的な方言識別性能を示した。 スペクトルおよび韻律的特徴の役割は、メセイロン方言の分類において重要である。

This paper presents a vowel-based dialect identification system for Meeteilon. For this work, a vowel dataset is created by using Meeteilon Speech Corpora available at Linguistic Data Consortium for Indian Languages (LDC-IL). Spectral features such as formant frequencies (F1, F1 and F3) and prosodic features such as pitch (F0), energy, intensity and segment duration values are extracted from monophthong vowel sounds. Random forest classifier, a decision tree-based ensemble algorithm is used for classification of three major dialects of Meeteilon namely, Imphal, Kakching and Sekmai. Model has shown an average dialect identification performance in terms of accuracy of around 61.57%. The role of spectral and prosodic features are found to be significant in Meeteilon dialect classification.
翻訳日:2021-07-30 02:41:37 公開日:2021-07-26
# (参考訳) 連続型wav2vec2:自己教師付き自動音声認識への連続学習の適用 [全文訳有]

Continual-wav2vec2: an Application of Continual Learning for Self-Supervised Automatic Speech Recognition ( http://arxiv.org/abs/2107.13530v1 )

ライセンス: CC BY 4.0
Samuel Kessler, Bethan Thomas, Salah Karout(参考訳) 本稿では,自己教師付き学習(ssl)を用いた複数言語用音声表現の連続学習手法を提案し,これらを自動音声認識に適用する。 注釈なしの音声は豊富であり、生の音声から自己教師付き表現を作成し、小さな注釈付きデータセットで微調整することは、音声認識システムを構築するための有望な方向である。 wav2vecモデルは、プリトレーニングフェーズで生オーディオ上でsslを実行し、少量の注釈付きデータで微調整する。 SSLモデルは、ASRのアート結果の状態を生んでいる。 しかし、これらのモデルは自己スーパービジョンで事前訓練するために非常に高価である。 従来の言語表現を忘れずに音声から新しい言語表現を継続的に学習する問題に取り組む。 新しい言語タスクの事前学習を高速化するために、継続学習からのアイデアを用いて、以前のタスクから知識を伝達する。 連続型wav2vec2モデルは,新しい言語タスクを学習する場合,事前学習時間を32%削減し,この新たな音声言語表現を以前の言語表現を忘れずに学習できる。

We present a method for continual learning of speech representations for multiple languages using self-supervised learning (SSL) and applying these for automatic speech recognition. There is an abundance of unannotated speech, so creating self-supervised representations from raw audio and finetuning on a small annotated datasets is a promising direction to build speech recognition systems. Wav2vec models perform SSL on raw audio in a pretraining phase and then finetune on a small fraction of annotated data. SSL models have produced state of the art results for ASR. However, these models are very expensive to pretrain with self-supervision. We tackle the problem of learning new language representations continually from audio without forgetting a previous language representation. We use ideas from continual learning to transfer knowledge from a previous task to speed up pretraining a new language task. Our continual-wav2vec2 model can decrease pretraining times by 32% when learning a new language task, and learn this new audio-language representation without forgetting previous language representation.
翻訳日:2021-07-30 02:35:45 公開日:2021-07-26
# 完全同型暗号化型ディープラーニング・アズ・ア・サービス

Fully Homomorphically Encrypted Deep Learning as a Service ( http://arxiv.org/abs/2107.12997v1 )

ライセンス: Link先を確認
George Onoufriou, Paul Mayfield and Georgios Leontidis(参考訳) FHE(Fully Homomorphic Encryption)は、プライバシ保護技術分野における比較的最近の進歩である。 FHEは加法と乗法の両方の任意の深さ計算を可能にし、深層学習アルゴリズムに見られるようなアーベル/多項式方程式の適用を可能にする。 本研究は, ディープラーニングを用いたFHEの大規模利用, 比較的低時間の複雑性, システムが抱える問題, そのような問題に対する緩和・解決について検討し, 導出し, 実証する。 さらに、これがデータプライバシの将来に与える影響や、アグリフードサプライチェーン内のさまざまなアクター間でのデータ共有を可能にし、機械学習ベースのシステムの開発を可能にする方法について論じる。 最後に, 乳収率予測では, fheは高い空間的複雑度コストを伴っているが, 時間的複雑度は期待できる範囲内であり, 絶対的にプライベートな予測が可能となることがわかった。

Fully Homomorphic Encryption (FHE) is a relatively recent advancement in the field of privacy-preserving technologies. FHE allows for the arbitrary depth computation of both addition and multiplication, and thus the application of abelian/polynomial equations, like those found in deep learning algorithms. This project investigates, derives, and proves how FHE with deep learning can be used at scale, with relatively low time complexity, the problems that such a system incurs, and mitigations/solution s for such problems. In addition, we discuss how this could have an impact on the future of data privacy and how it can enable data sharing across various actors in the agri-food supply chain, hence allowing the development of machine learning-based systems. Finally, we find that although FHE incurs a high spatial complexity cost, the time complexity is within expected reasonable bounds, while allowing for absolutely private predictions to be made, in our case for milk yield prediction.
翻訳日:2021-07-29 13:50:45 公開日:2021-07-26
# (参考訳) 分子表現に関する幾何学的深層学習 [全文訳有]

Geometric Deep Learning on Molecular Representations ( http://arxiv.org/abs/2107.12375v1 )

ライセンス: CC BY 4.0
Kenneth Atz, Francesca Grisoni, Gisbert Schneider(参考訳) 対称性情報を取り込んで処理するニューラルネットワークアーキテクチャに基づく幾何学的ディープラーニング(GDL)が、人工知能の最近のパラダイムとして登場した。 GDLは分子モデリングの応用において特に有望であり、異なる対称性特性と抽象レベルを持つ様々な分子表現が存在する。 本総説では分子gdlの構造化と調和について概観し, 創薬, 化学合成予測, 量子化学への応用について述べる。 学習された分子の特徴と、確立された分子記述子との相補性に重点を置いている。 このレビューは、現在の課題と機会の概要を提供し、分子科学におけるgdlの将来を予測する。

Geometric deep learning (GDL), which is based on neural network architectures that incorporate and process symmetry information, has emerged as a recent paradigm in artificial intelligence. GDL bears particular promise in molecular modeling applications, in which various molecular representations with different symmetry properties and levels of abstraction exist. This review provides a structured and harmonized overview of molecular GDL, highlighting its applications in drug discovery, chemical synthesis prediction, and quantum chemistry. Emphasis is placed on the relevance of the learned molecular features and their complementarity to well-established molecular descriptors. This review provides an overview of current challenges and opportunities, and presents a forecast of the future of GDL for molecular sciences.
翻訳日:2021-07-29 06:02:53 公開日:2021-07-26
# (参考訳) YouTubeビデオにおけるクリックベイト検出 [全文訳有]

Clickbait Detection in YouTube Videos ( http://arxiv.org/abs/2107.12791v1 )

ライセンス: CC BY 4.0
Ruchira Gothankar, Fabio Di Troia, Mark Stamp(参考訳) youtubeのビデオには、動画の視聴数を増やすためにデザインされた説明のキャプティベーションや興味をそそるサムネイルが含まれており、動画を投稿した人の収益を増加させる。 これにより、クリックベイト動画を投稿するインセンティブが生まれ、コンテンツはタイトルや説明、サムネイルから大きく逸脱する可能性がある。 事実上、ユーザーはクリックベイトビデオをクリックしてしまう。 本研究では,YouTube動画のクリックベイト検出における問題点について考察する。 さまざまなテキスト特徴を用いて,最先端の機械学習手法を複数実験する。

YouTube videos often include captivating descriptions and intriguing thumbnails designed to increase the number of views, and thereby increase the revenue for the person who posted the video. This creates an incentive for people to post clickbait videos, in which the content might deviate significantly from the title, description, or thumbnail. In effect, users are tricked into clicking on clickbait videos. In this research, we consider the challenging problem of detecting clickbait YouTube videos. We experiment with multiple state-of-the-art machine learning techniques using a variety of textual features.
翻訳日:2021-07-29 05:38:40 公開日:2021-07-26
# (参考訳) wasserstein-splittin g gaussian process regression for hetero online bayesian inference [全文訳有]

Wasserstein-Splittin g Gaussian Process Regression for Heterogeneous Online Bayesian Inference ( http://arxiv.org/abs/2107.12797v1 )

ライセンス: CC BY 4.0
Michael E. Kepler, Alec Koppel, Amrit Singh Bedi, and Daniel J. Stilwell(参考訳) ガウス過程(GP)はよく知られた非パラメトリックベイズ推論手法であるが、大きなサンプルサイズに対するスケーラビリティの問題に悩まされ、その性能は非定常あるいは空間的に不均一なデータに対して低下する可能性がある。 本研究では, (i) オンライン期待伝播ステップと連動して動作するgpsの変動自由エネルギー近似と, (ii) 後方分布がワッサースタイン計量によって定量化されるほど大きく変化するたびに新しいgpをインスタンス化する局所分割ステップを導入することにより, これらの問題を克服する。 時間とともに、これはスパースGPの集合となり、漸進的に更新され、トレーニングデータの局所性、不均一性、非定常性に適応する。

Gaussian processes (GPs) are a well-known nonparametric Bayesian inference technique, but they suffer from scalability problems for large sample sizes, and their performance can degrade for non-stationary or spatially heterogeneous data. In this work, we seek to overcome these issues through (i) employing variational free energy approximations of GPs operating in tandem with online expectation propagation steps; and (ii) introducing a local splitting step which instantiates a new GP whenever the posterior distribution changes significantly as quantified by the Wasserstein metric over posterior distributions. Over time, then, this yields an ensemble of sparse GPs which may be updated incrementally, and adapts to locality, heterogeneity, and non-stationarity in training data.
翻訳日:2021-07-29 05:28:30 公開日:2021-07-26
# (参考訳) ニューラルネットワークを用いた宇宙線アンチプロトンによる暗黒物質消滅の抑制

Constraining dark matter annihilation with cosmic ray antiprotons using neural networks ( http://arxiv.org/abs/2107.12395v1 )

ライセンス: CC BY 4.0
Felix Kahlhoefer, Michael Korsmeier, Michael Kr\"amer, Silvia Manconi, Kathrin Nippel(参考訳) 暗黒物質の消滅を探索する間接検出実験のデータ解釈には、宇宙線伝播の計算に高価なシミュレーションが必要である。 本研究では,2次およびダークマターの宇宙線アンチプロトンシミュレーションを著しく高速化し,精度を向上するリカレントニューラルネットワークに基づく新しい手法を提案する。 このアプローチにより、宇宙線伝搬モデルのニュアンスパラメータに対する効率的なプロファイリングや境界化が可能になり、広い範囲のダークマターモデルに対するパラメータスキャンを行うことができる。 ネットワークが十分に訓練されたパラメータ領域でのみ評価されることを保証するために,特に重要サンプリングが適している。 我々は,最新のams-02反陽子データを用いて,弱相互作用する粒子のモデルを用いて,結果の制約を提示する。 完全にトレーニングされたネットワークはこの作業とともにDarkRayNetとしてリリースされ、従来のアプローチに比べて少なくとも2桁のスピードアップを実現している。

The interpretation of data from indirect detection experiments searching for dark matter annihilations requires computationally expensive simulations of cosmic-ray propagation. In this work we present a new method based on Recurrent Neural Networks that significantly accelerates simulations of secondary and dark matter Galactic cosmic ray antiprotons while achieving excellent accuracy. This approach allows for an efficient profiling or marginalisation over the nuisance parameters of a cosmic ray propagation model in order to perform parameter scans for a wide range of dark matter models. We identify importance sampling as particularly suitable for ensuring that the network is only evaluated in well-trained parameter regions. We present resulting constraints using the most recent AMS-02 antiproton data on several models of Weakly Interacting Massive Particles. The fully trained networks are released as DarkRayNet together with this work and achieve a speed-up of the runtime by at least two orders of magnitude compared to conventional approaches.
翻訳日:2021-07-29 05:10:24 公開日:2021-07-26
# (参考訳) メッシュ適応直接探索を用いた並列サロゲート支援最適化 [全文訳有]

Parallel Surrogate-assisted Optimization Using Mesh Adaptive Direct Search ( http://arxiv.org/abs/2107.12421v1 )

ライセンス: CC BY 4.0
Bastien Talgorn, St\'ephane Alarie, and Michael Kokkolaras(参考訳) 計算コストのかかるブラックボックス最適化問題を考察し,メッシュ適応直接探索(MADS)アルゴリズムの探索段階における代理モデルと並列計算を利用する手法を提案する。 具体的には,局所重み付きスパッタプロット平滑化(LOWESS)モデルを用いてサロゲート最適化問題を解くことで,ブラックボックスで評価できる候補点を求める。 多数の点から有望点を選択するいくつかの方法を検討する。 我々は,5つのエンジニアリング設計問題を用いて,利用可能なCPU資源に対して,修正MADSアルゴリズムの性能を評価するための数値実験を行った。

We consider computationally expensive blackbox optimization problems and present a method that employs surrogate models and concurrent computing at the search step of the mesh adaptive direct search (MADS) algorithm. Specifically, we solve a surrogate optimization problem using locally weighted scatterplot smoothing (LOWESS) models to find promising candidate points to be evaluated by the blackboxes. We consider several methods for selecting promising points from a large number of points. We conduct numerical experiments to assess the performance of the modified MADS algorithm with respect to available CPU resources by means of five engineering design problems.
翻訳日:2021-07-29 05:09:14 公開日:2021-07-26
# (参考訳) ResUNet++による大腸ポリープセグメンテーション, 条件付ランダムフィールド, テスト時間拡張に関する総合的研究 [全文訳有]

A Comprehensive Study on Colorectal Polyp Segmentation with ResUNet++, Conditional Random Field and Test-Time Augmentation ( http://arxiv.org/abs/2107.12435v1 )

ライセンス: CC BY 4.0
Debesh Jha, Pia H. Smedsrud, Dag Johansen, Thomas de Lange, H{\aa}vard D. Johansen, P{\aa}l Halvorsen, and Michael A. Riegler(参考訳) 大腸内視鏡は大腸癌とその前駆体を検出するための金の標準であると考えられている。 しかし、既存の検査方法では全体のミス率が高いため、多くの異常が検出されていない。 高度な機械学習アルゴリズムに基づくコンピュータ支援診断システムは、内視鏡検査中に医師が見落としている大腸の領域を識別し、病変を検出して特徴付けるゲームチェンジャーとして評価される。 これまでの研究で、ResUNet++アーキテクチャを提案し、U-NetやResUNetと比較して、より効率的な結果が得られることを示した。 本稿では,条件付き乱数フィールドとテスト時間拡張を用いることで,resunet++アーキテクチャ全体の予測性能をさらに向上できることを実証する。 我々は、Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、ETIS-Larib Polyp DB、ASU-Mayo Clinical Colonoscopy Video Database、CVC-VideoClinicDBの6つの公開データセットを用いて、広範な評価を行い、改善の検証を行った。 さらに,提案したアーキテクチャと結果モデルを,他の最先端手法と比較した。 ResUNet++のさまざまな公開ポリプデータセットへの一般化能力を探るため、実世界の環境で使用できるように、広範囲なクロスデータセット評価を行った。 実験結果から,CRFとTTAを適用することにより,同一データセットとクロスデータセットの両方において,さまざまなポリプセグメンテーションデータセットの性能が向上することが示された。

Colonoscopy is considered the gold standard for detection of colorectal cancer and its precursors. Existing examination methods are, however, hampered by high overall miss-rate, and many abnormalities are left undetected. Computer-Aided Diagnosis systems based on advanced machine learning algorithms are touted as a game-changer that can identify regions in the colon overlooked by the physicians during endoscopic examinations, and help detect and characterize lesions. In previous work, we have proposed the ResUNet++ architecture and demonstrated that it produces more efficient results compared with its counterparts U-Net and ResUNet. In this paper, we demonstrate that further improvements to the overall prediction performance of the ResUNet++ architecture can be achieved by using conditional random field and test-time augmentation. We have performed extensive evaluations and validated the improvements using six publicly available datasets: Kvasir-SEG, CVC-ClinicDB, CVC-ColonDB, ETIS-Larib Polyp DB, ASU-Mayo Clinic Colonoscopy Video Database, and CVC-VideoClinicDB. Moreover, we compare our proposed architecture and resulting model with other State-of-the-art methods. To explore the generalization capability of ResUNet++ on different publicly available polyp datasets, so that it could be used in a real-world setting, we performed an extensive cross-dataset evaluation. The experimental results show that applying CRF and TTA improves the performance on various polyp segmentation datasets both on the same dataset and cross-dataset.
翻訳日:2021-07-29 04:48:52 公開日:2021-07-26
# (参考訳) SHAPベクトル分解を用いたグローバルモデル記述における特徴相乗, 冗長性, 独立性 [全文訳有]

Feature Synergy, Redundancy, and Independence in Global Model Explanations using SHAP Vector Decomposition ( http://arxiv.org/abs/2107.12436v1 )

ライセンス: CC BY-SA 4.0
Jan Ittner, Lukasz Bolikowski, Konstantin Hemker and Ricardo Kennedy(参考訳) 教師付きモデルにおけるペアワイズな特徴依存と相互作用のグローバルな説明に新しい形式を提供する。 本手法は,SHAP値とSHAP相互作用値に基づいて,相乗的で冗長な独立成分(SHAPベクトルのS-R-I分解)に特徴的寄与を分解する。 成分の幾何学的解釈を提案し,その基本的な性質を正式に証明する。 最後に、構築されたデータセットとモデルに適用することにより、相乗効果、冗長性、独立性を実証する。

We offer a new formalism for global explanations of pairwise feature dependencies and interactions in supervised models. Building upon SHAP values and SHAP interaction values, our approach decomposes feature contributions into synergistic, redundant and independent components (S-R-I decomposition of SHAP vectors). We propose a geometric interpretation of the components and formally prove its basic properties. Finally, we demonstrate the utility of synergy, redundancy and independence by applying them to a constructed data set and model.
翻訳日:2021-07-29 04:25:30 公開日:2021-07-26
# (参考訳) ラグビー場での学習速度を損なうな:事前学習型変圧器のクロスモーダル移動について [全文訳有]

Don't Sweep your Learning Rate under the Rug: A Closer Look at Cross-modal Transfer of Pretrained Transformers ( http://arxiv.org/abs/2107.12460v1 )

ライセンス: CC BY 4.0
Danielle Rothermel, Margaret Li, Tim Rockt\"aschel, Jakob Foerster(参考訳) テキストコーパス上での大規模トランスフォーマーモデルの自己教師付き事前学習と微調整は,多くの自然言語処理タスクにおいて最先端を達成している。 最近、Lu et al。 (2021, arXiv:2103.05247) は、凍結事前訓練変圧器(FPT)は、スクラッチからのトレーニングと、他のモダリティへの一連の移行タスクにおける未凍結(微調整)事前訓練変圧器との整合性、あるいは性能に優れていると主張した。 私たちの研究では、この結果が実際に、学習率を調整しない成果物であることが分かりました。 経験的な設定を慎重に再設計した結果、学習率を適切に調整すると、トレーニング済みトランスフォーマーは、すべてのタスクにおいて、スクラッチからトレーニングを上回ったり、あるいは一致させるが、モデル全体が微調整されている限りは。 したがって、事前訓練された言語モデルから他のモダリティへの変換は、将来的な研究にエキサイティングな可能性をもたらす一方で、高パラメータを適切に調整することは、ロバストな結果に到達する上で重要である。

Self-supervised pre-training of large-scale transformer models on text corpora followed by finetuning has achieved state-of-the-art on a number of natural language processing tasks. Recently, Lu et al. (2021, arXiv:2103.05247) claimed that frozen pretrained transformers (FPTs) match or outperform training from scratch as well as unfrozen (fine-tuned) pretrained transformers in a set of transfer tasks to other modalities. In our work, we find that this result is, in fact, an artifact of not tuning the learning rates. After carefully redesigning the empirical setup, we find that when tuning learning rates properly, pretrained transformers do outperform or match training from scratch in all of our tasks, but only as long as the entire model is finetuned. Thus, while transfer from pretrained language models to other modalities does indeed provide gains and hints at exciting possibilities for future work, properly tuning hyperparameters is important for arriving at robust findings.
翻訳日:2021-07-29 04:16:09 公開日:2021-07-26
# (参考訳) SaRNet:衛星画像を用いた深層学習支援検索と救助のためのデータセット [全文訳有]

SaRNet: A Dataset for Deep Learning Assisted Search and Rescue with Satellite Imagery ( http://arxiv.org/abs/2107.12469v1 )

ライセンス: CC BY 4.0
Michael Thoreau, Frazer Wilson(参考訳) 近年、いくつかの新しい星座が出現し、高解像度衛星画像へのアクセスが劇的に増加した。 高い再訪周波数と改良された解像度は、衛星画像の使用事例を人道支援や捜索救助(sar)などにも広げた。 深層学習支援SaRのための新しいリモートセンシングオブジェクト検出データセットを提案する。 このデータセットは、ライブのSaR応答の一部として潜在的ターゲットとして特定された小さなオブジェクトのみを含む。 我々は,このデータセットに対する一般的なオブジェクト検出モデルの応用をベースラインとして評価し,さらなる研究を行う。 また,深層学習支援のSaR設定に用いるために特別に設計された新しい物体検出指標を提案する。

Access to high resolution satellite imagery has dramatically increased in recent years as several new constellations have entered service. High revisit frequencies as well as improved resolution has widened the use cases of satellite imagery to areas such as humanitarian relief and even Search and Rescue (SaR). We propose a novel remote sensing object detection dataset for deep learning assisted SaR. This dataset contains only small objects that have been identified as potential targets as part of a live SaR response. We evaluate the application of popular object detection models to this dataset as a baseline to inform further research. We also propose a novel object detection metric, specifically designed to be used in a deep learning assisted SaR setting.
翻訳日:2021-07-29 04:00:59 公開日:2021-07-26
# (参考訳) 時間的表現による敵攻撃 [全文訳有]

Adversarial Attacks with Time-Scale Representations ( http://arxiv.org/abs/2107.12473v1 )

ライセンス: CC BY 4.0
Alberto Santamaria-Pang, Jianwei Qiu, Aritra Chowdhury, James Kubricht, Peter Tu, Iyer Naresh, Nurali Virani(参考訳) 本稿では,ディープラーニングモデルにおける初期畳み込み層の活性化を阻害する,リアルタイムブラックボックスユニバーサルアタックのための新しいフレームワークを提案する。 我々の仮説では、ウェーブレット空間で発生する摂動は、時間領域で行われる摂動よりも初期の畳み込み層をディスラプトする。 逆境攻撃の主な課題は、低周波画像コンテンツを保存しつつ、最も有意義な高周波コンテンツを最小限に変更することである。 これに対処するために、時間スケール(ウェーブレット)表現を3ステップの双対空間として用いる最適化問題を定式化する。 まず、オリジナル画像をウェーブレット係数を介して低・高スケールの正規直交部分空間に投影する。 第2に、ジェネレータネットワークを用いた高速投影のためのウェーブレット係数を摂動する。 第3に,低スケールから元の係数,高スケール部分空間から摂動係数を投影することにより,新たな逆画像を生成する。 時間と時間スケールのドメイン表現から双対マッピングを保証する理論的フレームワークを提供する。 生成モデルと勾配モデルによる最先端のブラックボックス攻撃との比較を行った。 また,jpeg圧縮,ガイドデノイザー,comdefendなどの複数の防御手法に対する有効性を検証する。 以上の結果から,ウェーブレットによる摂動は時間に基づく攻撃よりも優れており,ディープラーニングモデルの脆弱性に対する新たな洞察を与え,時間スケールの表現を活用することで,堅牢なアーキテクチャや新たな防御・攻撃機構につながる可能性が示唆された。

We propose a novel framework for real-time black-box universal attacks which disrupts activations of early convolutional layers in deep learning models. Our hypothesis is that perturbations produced in the wavelet space disrupt early convolutional layers more effectively than perturbations performed in the time domain. The main challenge in adversarial attacks is to preserve low frequency image content while minimally changing the most meaningful high frequency content. To address this, we formulate an optimization problem using time-scale (wavelet) representations as a dual space in three steps. First, we project original images into orthonormal sub-spaces for low and high scales via wavelet coefficients. Second, we perturb wavelet coefficients for high scale projection using a generator network. Third, we generate new adversarial images by projecting back the original coefficients from the low scale and the perturbed coefficients from the high scale sub-space. We provide a theoretical framework that guarantees a dual mapping from time and time-scale domain representations. We compare our results with state-of-the-art black-box attacks from generative-based and gradient-based models. We also verify efficacy against multiple defense methods such as JPEG compression, Guided Denoiser and Comdefend. Our results show that wavelet-based perturbations consistently outperform time-based attacks thus providing new insights into vulnerabilities of deep learning models and could potentially lead to robust architectures or new defense and attack mechanisms by leveraging time-scale representations.
翻訳日:2021-07-29 03:56:01 公開日:2021-07-26
# (参考訳) CalCROP21: 衛星画像とクロップラベルの地球基準多重スペクトルデータセット [全文訳有]

CalCROP21: A Georeferenced multi-spectral dataset of Satellite Imagery and Crop Labels ( http://arxiv.org/abs/2107.12499v1 )

ライセンス: CC BY 4.0
Rahul Ghosh, Praveen Ravirathinam, Xiaowei Jia, Ankush Khandelwal, David Mulla, Vipin Kumar(参考訳) 作物のマッピングとモニタリングは、持続可能な農業の強化と世界の食料安全保障への対処に向けた重要なステップである。 imagenetのようなコンピュータビジョンアプリケーション革命的なデータセットは、新しい作物マッピング技術の開発を加速することができる。 現在、アメリカ合衆国農務省(usda)は毎年、米国全体で30mの解像度で作物のラベルを含むクロップランドデータ層(cdl)をリリースしている。 CDLは最先端技術であり、多くの農業用途に広く利用されているが、いくつかの制限がある(例えば、ピクセルエラー、以前のエラーから受け継がれたラベル、およびクラスラベルと共に入力画像が存在しない)。 本研究では,Google Earth Engineをベースとしたロバスト画像処理パイプラインと,新しい注目度に基づく時空間セマンティックセマンティックセマンティックセマンティックアルゴリズムSTATTを用いて,カリフォルニア中央バレー地域の多種多様な作物を空間分解能10mで検出する,新しいセマンティックセマンティックセマンティックセマンティクスベンチマークデータセットを作成する。 STATTは、トレーニングに再サンプリングされた(補間された)CDLラベルを使用するが、Sentinel2マルチスペクトル画像シリーズの空間的および時間的パターンを利用して、作物間の現象的差異を効果的に把握し、雲やその他の大気障害の影響を減らすために注意を払って、CDLよりも優れた予測を生成することができる。 また,再サンプリングしたCDLラベルと比較して,STATTが有意に良好な結果を示した。 ベンチマークデータセットを生成するためのデータセットと処理パイプラインコードをリリースしました。

Mapping and monitoring crops is a key step towards sustainable intensification of agriculture and addressing global food security. A dataset like ImageNet that revolutionized computer vision applications can accelerate development of novel crop mapping techniques. Currently, the United States Department of Agriculture (USDA) annually releases the Cropland Data Layer (CDL) which contains crop labels at 30m resolution for the entire United States of America. While CDL is state of the art and is widely used for a number of agricultural applications, it has a number of limitations (e.g., pixelated errors, labels carried over from previous errors and absence of input imagery along with class labels). In this work, we create a new semantic segmentation benchmark dataset, which we call CalCROP21, for the diverse crops in the Central Valley region of California at 10m spatial resolution using a Google Earth Engine based robust image processing pipeline and a novel attention based spatio-temporal semantic segmentation algorithm STATT. STATT uses re-sampled (interpolated) CDL labels for training, but is able to generate a better prediction than CDL by leveraging spatial and temporal patterns in Sentinel2 multi-spectral image series to effectively capture phenologic differences amongst crops and uses attention to reduce the impact of clouds and other atmospheric disturbances. We also present a comprehensive evaluation to show that STATT has significantly better results when compared to the resampled CDL labels. We have released the dataset and the processing pipeline code for generating the benchmark dataset.
翻訳日:2021-07-29 03:39:42 公開日:2021-07-26
# 3Dオブジェクトによる言語接地

Language Grounding with 3D Objects ( http://arxiv.org/abs/2107.12514v1 )

ライセンス: Link先を確認
Jesse Thomason, Mohit Shridhar, Yonatan Bisk, Chris Paxton, Luke Zettlemoyer(参考訳) 一見単純な自然言語によるロボットへの要求は一般に過小評価されています。 棚の上のマウスを見るとき、ボタンの数やワイヤーの存在は特定の角度や位置から見ることはできない。 候補マウスのフラット画像は「ワイヤーレス」に必要な識別情報を提供できない可能性がある。 世界とその中の物体は、平らなイメージではなく、複雑な3D形状である。 人間が色、形、テクスチャなどの基本的な特性に基づいてオブジェクトを要求する場合、ロボットはそのタスクを達成するために必要な探索を行う必要がある。 特に、色やカテゴリーなどの視覚的属性を明確に理解するために、かなりの努力と進歩がなされてきたが、形状や輪郭についての言語理解については、比較的進歩が進んでいない。 本研究では、3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新しい推論タスクを提案する。 新しいベンチマークであるShapeNet Annotated with Referring Expressions (SNARE)では、自然言語記述によって参照されている2つのオブジェクトのいずれかを選択するモデルが必要です。 物体を識別するためのクリップベースモデルをいくつか紹介し,近年のロボット言語理解における視覚と言語の共同モデリングの進歩は有用であるが,それでもなお,物体の3次元的性質の理解において弱く,操作において重要な役割を担っていることを実証する。 特に,言語基盤モデルにビュー推定を追加することで,SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。

Seemingly simple natural language requests to a robot are generally underspecified, for example "Can you bring me the wireless mouse?" When viewing mice on the shelf, the number of buttons or presence of a wire may not be visible from certain angles or positions. Flat images of candidate mice may not provide the discriminative information needed for "wireless". The world, and objects in it, are not flat images but complex 3D shapes. If a human requests an object based on any of its basic properties, such as color, shape, or texture, robots should perform the necessary exploration to accomplish the task. In particular, while substantial effort and progress has been made on understanding explicitly visual attributes like color and category, comparatively little progress has been made on understanding language about shapes and contours. In this work, we introduce a novel reasoning task that targets both visual and non-visual language about 3D objects. Our new benchmark, ShapeNet Annotated with Referring Expressions (SNARE), requires a model to choose which of two objects is being referenced by a natural language description. We introduce several CLIP-based models for distinguishing objects and demonstrate that while recent advances in jointly modeling vision and language are useful for robotic language understanding, it is still the case that these models are weaker at understanding the 3D nature of objects -- properties which play a key role in manipulation. In particular, we find that adding view estimation to language grounding models improves accuracy on both SNARE and when identifying objects referred to in language on a robot platform.
翻訳日:2021-07-28 14:58:47 公開日:2021-07-26
# 最適化フレームワークを用いた効率的なテンソル分解に基づくDNNモデル圧縮

Towards Efficient Tensor Decomposition-Based DNN Model Compression with Optimization Framework ( http://arxiv.org/abs/2107.12422v1 )

ライセンス: Link先を確認
Miao Yin, Yang Sui, Siyu Liao and Bo Yuan(参考訳) テンソルトレイン(TT)やテンソルリング(TR)のような高度なテンソル分解は、ディープニューラルネットワーク(DNN)モデル圧縮、特にリカレントニューラルネットワーク(RNN)のために広く研究されている。 しかし、TT/TRを用いた畳み込みニューラルネットワーク(CNN)の圧縮は、常にかなりの精度の損失を被る。 本稿では,乗算器の交互方向法(ADMM)を用いたテンソル分解に基づくモデル圧縮のための体系的フレームワークを提案する。 TT分解に基づくモデル圧縮をテンソルランクの制約付き最適化問題に定式化することにより、ADMM技術を利用して、この最適化問題を反復的に解く。 この方法では、DNNモデル全体がTTフォーマットの代わりに元の構造でトレーニングされるが、徐々に低テンソルランク特性を享受する。 そして、この非圧縮モデルをTT形式に分解して微調整し、最終的に高精度なTTフォーマットDNNモデルを得る。 我々のフレームワークは非常に一般的なもので、CNNとRNNの両方で動作し、他のテンソル分解アプローチに適合するように容易に修正できる。 画像分類と画像認識のための異なるDNNモデルのフレームワークについて検討した。 実験の結果,ADMMに基づくTTフォーマットモデルは非常に高い圧縮性能を示し,精度が高いことがわかった。 特に、CIFAR-100では2.3Xと2.4Xの圧縮比で、我々のモデルは元のResNet-20とResNet-32よりも1.96%と2.21%高いトップ1の精度を持つ。 ImageNet上でResNet-18を圧縮する場合、精度損失なく2.47倍のFLOPを削減できる。

Advanced tensor decomposition, such as Tensor train (TT) and Tensor ring (TR), has been widely studied for deep neural network (DNN) model compression, especially for recurrent neural networks (RNNs). However, compressing convolutional neural networks (CNNs) using TT/TR always suffers significant accuracy loss. In this paper, we propose a systematic framework for tensor decomposition-based model compression using Alternating Direction Method of Multipliers (ADMM). By formulating TT decomposition-based model compression to an optimization problem with constraints on tensor ranks, we leverage ADMM technique to systemically solve this optimization problem in an iterative way. During this procedure, the entire DNN model is trained in the original structure instead of TT format, but gradually enjoys the desired low tensor rank characteristics. We then decompose this uncompressed model to TT format and fine-tune it to finally obtain a high-accuracy TT-format DNN model. Our framework is very general, and it works for both CNNs and RNNs, and can be easily modified to fit other tensor decomposition approaches. We evaluate our proposed framework on different DNN models for image classification and video recognition tasks. Experimental results show that our ADMM-based TT-format models demonstrate very high compression performance with high accuracy. Notably, on CIFAR-100, with 2.3X and 2.4X compression ratios, our models have 1.96% and 2.21% higher top-1 accuracy than the original ResNet-20 and ResNet-32, respectively. For compressing ResNet-18 on ImageNet, our model achieves 2.47X FLOPs reduction without accuracy loss.
翻訳日:2021-07-28 14:57:03 公開日:2021-07-26
# H3D-Net:Few-Shot High-Fidelity 3D Head Restruction

H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction ( http://arxiv.org/abs/2107.12512v1 )

ライセンス: Link先を確認
Eduard Ramon, Gil Triginer, Janna Escur, Albert Pumarola, Jaime Garcia, Xavier Giro-i-Nieto, Francesc Moreno-Noguer(参考訳) 座標に基づくニューラル表現を用いた表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。 しかしながら、これらの手法の有効性は、シーンの多数の入力ビュー(複数回)が利用可能となり、計算的に最適化が要求される。 本稿では,少ない入力画像(最大3倍)を使用する場合に,より高速な収束と一般化を可能にする確率的形状の座標ベース表現を提供することにより,これらの制約に対処する。 まず、暗黙の表現を用いて、何千もの不完全な生スキャンから3Dヘッドの形状モデルを学ぶ。 テスト時には,2つの座標系ニューラルネットワークを併用し,その1つは幾何学をモデル化し,もう1つは表面放射率を暗黙の微分レンダリングを用いて推定する。 初期最適化段階で幾何学を初期化・制約するために学習前段階を用いる2段階最適化戦略を考案する。 その後、前者は冷蔵されず、シーンに合わせて微調整される。 これにより、毛髪や肩を含む高忠実度頭部再構成を実現し、高精細度で、最新の3Dモーフブルモデル法と、大規模なビューが利用できる場合の非パラメトリック手法の両方を一貫して上回ります。

Recent learning approaches that implicitly represent surface geometry using coordinate-based neural representations have shown impressive results in the problem of multi-view 3D reconstruction. The effectiveness of these techniques is, however, subject to the availability of a large number (several tens) of input views of the scene, and computationally demanding optimizations. In this paper, we tackle these limitations for the specific problem of few-shot full 3D head reconstruction, by endowing coordinate-based representations with a probabilistic shape prior that enables faster convergence and better generalization when using few input images (down to three). First, we learn a shape model of 3D heads from thousands of incomplete raw scans using implicit representations. At test time, we jointly overfit two coordinate-based neural networks to the scene, one modeling the geometry and another estimating the surface radiance, using implicit differentiable rendering. We devise a two-stage optimization strategy in which the learned prior is used to initialize and constrain the geometry during an initial optimization phase. Then, the prior is unfrozen and fine-tuned to the scene. By doing this, we achieve high-fidelity head reconstructions, including hair and shoulders, and with a high level of detail that consistently outperforms both state-of-the-art 3D Morphable Models methods in the few-shot scenario, and non-parametric methods when large sets of views are available.
翻訳日:2021-07-28 14:56:35 公開日:2021-07-26
# 自動ゲーム設計のための逆ランダムフォレスト分類器

Adversarial Random Forest Classifier for Automated Game Design ( http://arxiv.org/abs/2107.12501v1 )

ライセンス: Link先を確認
Thomas Maurer and Matthew Guzdial(参考訳) アルゴリズムによってゲームを生成する自律ゲーム設計は、技術ゲーム研究分野における長年の目標である。 しかし、既存の自律型ゲームデザインシステムは、検索手法におけるフィットネス機能など、ゲーム設計の知識を人間に委ねることに大きく依存している。 本稿では,自律型ゲーム設計のための人間型フィットネス機能を,敵対的な方法で学習する実験について述べる。 我々の実験は我々の期待に届かなかったが、今後の自律型ゲームデザイン研究に影響を及ぼすことを期待するシステムと結果について分析した。

Autonomous game design, generating games algorithmically, has been a longtime goal within the technical games research field. However, existing autonomous game design systems have relied in large part on human-authoring for game design knowledge, such as fitness functions in search-based methods. In this paper, we describe an experiment to attempt to learn a human-like fitness function for autonomous game design in an adversarial manner. While our experimental work did not meet our expectations, we present an analysis of our system and results that we hope will be informative to future autonomous game design research.
翻訳日:2021-07-28 14:55:36 公開日:2021-07-26
# FFTに基づく円対称相関層

Circular-Symmetric Correlation Layer based on FFT ( http://arxiv.org/abs/2107.12480v1 )

ライセンス: Link先を確認
Bahar Azari and Deniz Erdogmus(参考訳) 標準的な平面畳み込みニューラルネットワークは大きな成功を収めているが、シリンダーのような任意に湾曲した多様体上にある信号を解析する最も効率的な選択肢ではない。 この問題は、これらの信号の平面射影を行い、貴重な情報がある場合に、必然的に歪んだり壊れたりするときに発生する。 連続群 $S^1 \times \mathbb{R}$ 上のロト変換同変相関の形式性に基づく円対称相関層 (CCL) を提案し、よく知られたFast Fourier Transform (FFT) アルゴリズムを用いて効率よく実装する。 各種の認識・分類タスク・データセットに対して,CCLを組み込んだ汎用ネットワークの性能解析を行った。 CCLのPyTorchパッケージ実装はオンラインで提供されている。

Despite the vast success of standard planar convolutional neural networks, they are not the most efficient choice for analyzing signals that lie on an arbitrarily curved manifold, such as a cylinder. The problem arises when one performs a planar projection of these signals and inevitably causes them to be distorted or broken where there is valuable information. We propose a Circular-symmetric Correlation Layer (CCL) based on the formalism of roto-translation equivariant correlation on the continuous group $S^1 \times \mathbb{R}$, and implement it efficiently using the well-known Fast Fourier Transform (FFT) algorithm. We showcase the performance analysis of a general network equipped with CCL on various recognition and classification tasks and datasets. The PyTorch package implementation of CCL is provided online.
翻訳日:2021-07-28 14:53:59 公開日:2021-07-26
# the graph neural network challenge: a world competition for education in ai/ml for networks

The Graph Neural Networking Challenge: A Worldwide Competition for Education in AI/ML for Networks ( http://arxiv.org/abs/2107.12433v1 )

ライセンス: Link先を確認
Jos\'e Su\'arez-Varela, Miquel Ferriol-Galm\'es, Albert L\'opez, Paul Almasan, Guillermo Bern\'ardez, David Pujol-Perich, Krzysztof Rusek, Lo\"ick Bonniot, Christoph Neumann, Fran\c{c}ois Schnitzler, Fran\c{c}ois Ta\"iani, Martin Happ, Christian Maier, Jia Lei Du, Matthias Herlich, Peter Dorfinger, Nick Vincent Hainke, Stefan Venz, Johannes Wegener, Henrike Wissing, Bo Wu, Shihan Xiao, Pere Barlet-Ros, Albert Cabellos-Aparicio(参考訳) 過去10年間で、機械学習(ML)はコンピュータネットワークの分野でホットな話題となり、現実のデプロイメントにおける制御、監視、管理のタスクに徐々に採用されることが期待されている。 これは、ネットワークに適用されたMLにしっかりとした背景を持つ新しい世代の学生、研究者、実践者を数える必要があることを示している。 2020年、ITU(International Telecommunication Union)は「ITU AI/ML in 5G Challenge」を組織した。 この大規模なイニシアチブは、ネットワークオペレーター、機器メーカー、アカデミアによって提案された23の異なる課題を集め、60以上の国から合計1300以上の参加者を集めている。 本稿では、提案された課題の1つ「Graph Neural Networking Challenge 2020'」を整理した経験について述べる。 参加者に提示される問題、提供されたツールとリソース、いくつかの組織的側面と参加統計、上位3つのソリューションの概要、そしてこの旅で学んだ教訓の概要について説明する。 その結果、この課題は、このトピックに関心のある人なら誰でもオープンに利用できる教育リソースのキュレーションセットを残すことになる。

During the last decade, Machine Learning (ML) has increasingly become a hot topic in the field of Computer Networks and is expected to be gradually adopted for a plethora of control, monitoring and management tasks in real-world deployments. This poses the need to count on new generations of students, researchers and practitioners with a solid background in ML applied to networks. During 2020, the International Telecommunication Union (ITU) has organized the "ITU AI/ML in 5G challenge'', an open global competition that has introduced to a broad audience some of the current main challenges in ML for networks. This large-scale initiative has gathered 23 different challenges proposed by network operators, equipment manufacturers and academia, and has attracted a total of 1300+ participants from 60+ countries. This paper narrates our experience organizing one of the proposed challenges: the "Graph Neural Networking Challenge 2020''. We describe the problem presented to participants, the tools and resources provided, some organization aspects and participation statistics, an outline of the top-3 awarded solutions, and a summary with some lessons learned during all this journey. As a result, this challenge leaves a curated set of educational resources openly available to anyone interested in the topic.
翻訳日:2021-07-28 14:52:18 公開日:2021-07-26
# 小型大規模最適化のためのサンプル内ポリシ性能の劣化

Debiasing In-Sample Policy Performance for Small-Data, Large-Scale Optimization ( http://arxiv.org/abs/2107.12438v1 )

ライセンス: Link先を確認
Vishal Gupta, Michael Huang, Paat Rusmevichientong(参考訳) そこで本研究では,データ駆動最適化におけるポリシのアウト・オブ・サンプル性能の新たな推定手法を提案し,データ中のノイズ量に対する最適目標値の勾配を推定するために最適化問題の感度分析を活用し,推定勾配を用いて,ポリシのイン・サンプル性能を劣化させる手法を提案する。 クロスバリデーション技術とは異なり、このアプローチはテストセットのデータを犠牲にせず、トレーニング時にすべてのデータを活用するため、データが不足している設定に適しています。 我々は不確実な線形目的を持つ最適化問題に対する推定器のバイアスとばらつきの有界性を証明した。 実現可能な領域が「弱結合」であるようなより専門的な最適化問題に対して、より強い結果が証明される。 具体的には、政策クラスを均一に保持し、問題の次元と政策クラスの複雑さに依存する推定器の誤差に、明らかな高確率境界を提供する。 我々の限界は, 利用可能なデータの量が小さく一定であっても, 最適化問題の次元が大きくなるにつれて, 推定器の誤差が消えることを示している。 異なる言い方をすれば、我々の推定器は、小規模で大規模なシステムでよく機能する。 最後に,提案手法と最先端手法を,実データを用いた緊急医療サービス提供のケーススタディを通じて数値的に比較する。 提案手法は, サンプル外性能をより正確に推定し, より良い性能のポリシーを学習する。

Motivated by the poor performance of cross-validation in settings where data are scarce, we propose a novel estimator of the out-of-sample performance of a policy in data-driven optimization.Our approach exploits the optimization problem's sensitivity analysis to estimate the gradient of the optimal objective value with respect to the amount of noise in the data and uses the estimated gradient to debias the policy's in-sample performance. Unlike cross-validation techniques, our approach avoids sacrificing data for a test set, utilizes all data when training and, hence, is well-suited to settings where data are scarce. We prove bounds on the bias and variance of our estimator for optimization problems with uncertain linear objectives but known, potentially non-convex, feasible regions. For more specialized optimization problems where the feasible region is ``weakly-coupled" in a certain sense, we prove stronger results. Specifically, we provide explicit high-probability bounds on the error of our estimator that hold uniformly over a policy class and depends on the problem's dimension and policy class's complexity. Our bounds show that under mild conditions, the error of our estimator vanishes as the dimension of the optimization problem grows, even if the amount of available data remains small and constant. Said differently, we prove our estimator performs well in the small-data, large-scale regime. Finally, we numerically compare our proposed method to state-of-the-art approaches through a case-study on dispatching emergency medical response services using real data. Our method provides more accurate estimates of out-of-sample performance and learns better-performing policies.
翻訳日:2021-07-28 14:50:35 公開日:2021-07-26
# 制限付きボルツマンマシンとディープリーフネットワーク:チュートリアルとサーベイ

Restricted Boltzmann Machine and Deep Belief Network: Tutorial and Survey ( http://arxiv.org/abs/2107.12521v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) 本論文は,Boltzmann Machine (BM), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN)に関するチュートリアルおよび調査論文である。 まず,確率的グラフィカルモデル,マルコフ確率場,ギブスサンプリング,統計物理学,イジングモデル,ホップフィールドネットワークの背景から始める。 次に,BM と RBM の構造を紹介する。 可視変数と隠れ変数の条件分布,変数を生成するためのRBMにおけるギブズサンプリング,最大推定値によるBMとRBMのトレーニング,および対照的な分散について説明する。 次に,変数の異なる離散分布と連続分布について考察する。 条件付きRBMとその訓練方法を紹介する。 最後に、深い信念ネットワークをRBMモデルのスタックとして説明する。 ボルツマンマシンに関する本論文は、データサイエンス、統計学、神経計算、統計物理学など様々な分野において有用である。

This is a tutorial and survey paper on Boltzmann Machine (BM), Restricted Boltzmann Machine (RBM), and Deep Belief Network (DBN). We start with the required background on probabilistic graphical models, Markov random field, Gibbs sampling, statistical physics, Ising model, and the Hopfield network. Then, we introduce the structures of BM and RBM. The conditional distributions of visible and hidden variables, Gibbs sampling in RBM for generating variables, training BM and RBM by maximum likelihood estimation, and contrastive divergence are explained. Then, we discuss different possible discrete and continuous distributions for the variables. We introduce conditional RBM and how it is trained. Finally, we explain deep belief network as a stack of RBM models. This paper on Boltzmann machines can be useful in various fields including data science, statistics, neural computation, and statistical physics.
翻訳日:2021-07-28 14:50:09 公開日:2021-07-26
# ゼロ次ブロック座標DescentによるLQR制御のための非同期分散強化学習

Asynchronous Distributed Reinforcement Learning for LQR Control via Zeroth-Order Block Coordinate Descent ( http://arxiv.org/abs/2107.12416v1 )

ライセンス: Link先を確認
Gangshan Jing, He Bai, Jemin George, Aranya Chakrabortty, Piyush K. Sharma(参考訳) 最近導入された分散ゼロ階最適化(ZOO)アルゴリズムは、分散強化学習(RL)においてその有用性を示した。 残念なことに、勾配推定プロセスでは、大域変数と同じ次元のランダムなサンプルが必要であり、大域的コスト関数の評価が必要であり、大規模ネットワークにおいて高い推定分散を引き起こす可能性がある。 本稿では,最適化目的に固有のネットワーク構造を活用して,各エージェントがコンセンサスプロトコルを使わずに,局所的なコスト評価によって局所的な勾配を独立に推定できる分散ゼロ次アルゴリズムを提案する。 提案アルゴリズムは非同期更新スキームを示し,ブロック座標降下法に基づく非凸可能領域を用いた確率的非凸最適化のために設計されている。 このアルゴリズムは後に分散線形二次レギュレータ設計のための分散モデルフリーRLアルゴリズムとして使われ、学習グラフは分散学習におけるエージェント間の相互作用関係を記述するように設計されている。 本稿では,集中型ZOOアルゴリズムに対して,収束率と分散度をベンチマークするために提案アルゴリズムを実証検証する。

Recently introduced distributed zeroth-order optimization (ZOO) algorithms have shown their utility in distributed reinforcement learning (RL). Unfortunately, in the gradient estimation process, almost all of them require random samples with the same dimension as the global variable and/or require evaluation of the global cost function, which may induce high estimation variance for large-scale networks. In this paper, we propose a novel distributed zeroth-order algorithm by leveraging the network structure inherent in the optimization objective, which allows each agent to estimate its local gradient by local cost evaluation independently, without use of any consensus protocol. The proposed algorithm exhibits an asynchronous update scheme, and is designed for stochastic non-convex optimization with a possibly non-convex feasible domain based on the block coordinate descent method. The algorithm is later employed as a distributed model-free RL algorithm for distributed linear quadratic regulator design, where a learning graph is designed to describe the required interaction relationship among agents in distributed learning. We provide an empirical validation of the proposed algorithm to benchmark its performance on convergence rate and variance against a centralized ZOO algorithm.
翻訳日:2021-07-28 14:47:39 公開日:2021-07-26
# MonoIndoor: 屋内環境における自己監督型単眼深度推定の実践に向けて

MonoIndoor: Towards Good Practice of Self-Supervised Monocular Depth Estimation for Indoor Environments ( http://arxiv.org/abs/2107.12429v1 )

ライセンス: Link先を確認
Pan Ji, Runze Li, Bir Bhanu, Yi Xu(参考訳) Self-supervised depth estimation for indoor environments is more challenging than its outdoor counterpart in at least the following two aspects: (i) the depth range of indoor sequences varies a lot across different frames, making it difficult for the depth network to induce consistent depth cues, whereas the maximum distance in outdoor scenes mostly stays the same as the camera usually sees the sky; (ii) the indoor sequences contain much more rotational motions, which cause difficulties for the pose network, while the motions of outdoor sequences are pre-dominantly translational, especially for driving datasets such as KITTI. 本稿では,これらの課題に対して特別に考察し,室内環境における自己教師付き単眼深度推定の性能を向上させるための一連の実践をまとめる。 提案手法は主に, 2つの新しいモジュール, \ie, 深さ分解モジュール, 残留ポーズ推定モジュールで構成され, それぞれが上記の課題に対処するように設計されている。 各モジュールの有効性は, 2つの屋内データセット, \ie, euroc, nyuv2上で, 注意深く実施したアブレーション実験および最先端性能の実証により示される。

Self-supervised depth estimation for indoor environments is more challenging than its outdoor counterpart in at least the following two aspects: (i) the depth range of indoor sequences varies a lot across different frames, making it difficult for the depth network to induce consistent depth cues, whereas the maximum distance in outdoor scenes mostly stays the same as the camera usually sees the sky; (ii) the indoor sequences contain much more rotational motions, which cause difficulties for the pose network, while the motions of outdoor sequences are pre-dominantly translational, especially for driving datasets such as KITTI. In this paper, special considerations are given to those challenges and a set of good practices are consolidated for improving the performance of self-supervised monocular depth estimation in indoor environments. The proposed method mainly consists of two novel modules, \ie, a depth factorization module and a residual pose estimation module, each of which is designed to respectively tackle the aforementioned challenges. The effectiveness of each module is shown through a carefully conducted ablation study and the demonstration of the state-of-the-art performance on two indoor datasets, \ie, EuRoC and NYUv2.
翻訳日:2021-07-28 14:44:35 公開日:2021-07-26
# スタイルのセグメンテーション:StyleganとCLIPによる教師なしセマンティック画像セグメンテーション

Segmentation in Style: Unsupervised Semantic Image Segmentation with Stylegan and CLIP ( http://arxiv.org/abs/2107.12518v1 )

ライセンス: Link先を確認
Daniil Pakhomov, Sanchit Hira, Narayani Wagle, Kemar E. Green, Nassir Navab(参考訳) 人間の監督なしに画像を自動的に意味のある領域に分割する手法を提案する。 派生領域は異なる画像間で一貫性があり、いくつかのデータセット上の人間定義のセマンティッククラスと一致する。 意味領域が人間が定義し、一貫したラベル付けが難しい場合、このメソッドは意味のある一貫性のある意味クラスを見つけることができる。 私たちの研究では、プリトレーニングされたstylegan2~\cite{karras2020analyzing}生成モデルを使用します。 クラスが見つかると、生成されたイメージと対応するセグメンテーションマスクを備えた合成データセットが作成できる。 その後、セグメンテーションモデルは合成データセット上で訓練され、実際の画像に一般化することができる。 さらに、CLIP~\cite{radford2021learning}を使うことで、自然言語で定義されたプロンプトを使用して、望ましいセマンティッククラスを見つけることができます。 提案手法を公開データセット上でテストし,現状の成果を示す。

We introduce a method that allows to automatically segment images into semantically meaningful regions without human supervision. Derived regions are consistent across different images and coincide with human-defined semantic classes on some datasets. In cases where semantic regions might be hard for human to define and consistently label, our method is still able to find meaningful and consistent semantic classes. In our work, we use pretrained StyleGAN2~\cite{karras2020analyzing} generative model: clustering in the feature space of the generative model allows to discover semantic classes. Once classes are discovered, a synthetic dataset with generated images and corresponding segmentation masks can be created. After that a segmentation model is trained on the synthetic dataset and is able to generalize to real images. Additionally, by using CLIP~\cite{radford2021learning} we are able to use prompts defined in a natural language to discover some desired semantic classes. We test our method on publicly available datasets and show state-of-the-art results.
翻訳日:2021-07-28 14:44:17 公開日:2021-07-26
# Slate Recommendationのためのリワード信号とランク信号の組み合わせ

Combining Reward and Rank Signals for Slate Recommendation ( http://arxiv.org/abs/2107.12455v1 )

ライセンス: Link先を確認
Imad Aouali, Sergey Ivanov, Mike Gartrell, David Rohde, Flavian Vasile, Victor Zaytsev, Diego Legrand(参考訳) 提案手法では,k個の推奨項目からなるコレクションやスレートをユーザに同時に提示するスレートレコメンデーションの問題を考える。 ユーザが推奨項目を見つけた場合、ユーザーはクリックし、レコメンダシステムはいくつかのフィードバックを受け取る。 推薦システムには2つの情報がある:スレートはクリックされたか? そしてもしスレートがクリックされたら、どのアイテムがクリックされたのか? (位) 本稿では,非パーソナライズスレート推薦のための報酬信号(reward model),ランク信号(rank model),あるいはその両方(full model)を組み込んだベイズモデルをいくつか定式化する。 本実験では, フルモデルの性能向上を解析し, カタログ内の製品数の増加やスレートサイズの増加に伴い, 誤差を著しく低減することを示した。

We consider the problem of slate recommendation, where the recommender system presents a user with a collection or slate composed of K recommended items at once. If the user finds the recommended items appealing then the user may click and the recommender system receives some feedback. Two pieces of information are available to the recommender system: was the slate clicked? (the reward), and if the slate was clicked, which item was clicked? (rank). In this paper, we formulate several Bayesian models that incorporate the reward signal (Reward model), the rank signal (Rank model), or both (Full model), for non-personalized slate recommendation. In our experiments, we analyze performance gains of the Full model and show that it achieves significantly lower error as the number of products in the catalog grows or as the slate size increases.
翻訳日:2021-07-28 14:36:45 公開日:2021-07-26
# ディープニューラルネットワークによる高次元分布生成

High-Dimensional Distribution Generation Through Deep Neural Networks ( http://arxiv.org/abs/2107.12466v1 )

ライセンス: Link先を確認
Dmytro Perekrestenko, L\'eandre Eberhard, Helmut B\"olcskei(参考訳) 我々は,1ドルの均一な入力分布から,有界サポートのすべての$d$次元確率分布を深いReLUネットワークを通じて生成可能であることを示す。 さらに、これはコストを伴わずに可能であり、wasserstein- distancerelativeで測定された近似誤差から、$d$独立確率変数から$d$次元のターゲット分布を生成する。 これは (Bailey & Telgarsky, 2018) で発見された宇宙充填アプローチの広範な一般化によって実現される。 提案手法は、ターゲット分布とニューラルネットワーク近似とのワッサーシュタイン距離を0に駆動する際のネットワーク深さの重要性を導出する。 最後に、ヒストグラムのターゲット分布について、対応する生成ネットワークを符号化するのに必要なビット数は、量子化理論によって決定される確率分布を符号化する基本的な限界と等しいことが分かる。

We show that every $d$-dimensional probability distribution of bounded support can be generated through deep ReLU networks out of a $1$-dimensional uniform input distribution. What is more, this is possible without incurring a cost - in terms of approximation error measured in Wasserstein-distance - relative to generating the $d$-dimensional target distribution from $d$ independent random variables. This is enabled by a vast generalization of the space-filling approach discovered in (Bailey & Telgarsky, 2018). The construction we propose elicits the importance of network depth in driving the Wasserstein distance between the target distribution and its neural network approximation to zero. Finally, we find that, for histogram target distributions, the number of bits needed to encode the corresponding generative network equals the fundamental limit for encoding probability distributions as dictated by quantization theory.
翻訳日:2021-07-28 14:36:30 公開日:2021-07-26
# ロバスト逆心電図モデリングのための物理制約深層学習

Physics-constrained Deep Learning for Robust Inverse ECG Modeling ( http://arxiv.org/abs/2107.12780v1 )

ライセンス: Link先を確認
Jianxin Xie, Bing Yao(参考訳) 高度なセンシングとイメージングの急速な発展は、複雑なシステムの効果的なモデリング、監視、制御を容易にするデータ豊富な環境をもたらす。 例えば、体-センサーネットワークは、心臓の電気活動に関連する多チャンネル情報(心電図(ECG))をキャプチャし、医学者が異常な心臓状態を監視し、検出することができる。 しかし、高次元センシングデータは一般に複雑に構成され、完全なデータポテンシャルを実現するには、高度な分析と予測の方法に大きく依存する。 本稿では,高次元逆心電図モデリングのための物理制約付き深層学習(p-dl)フレームワークを提案する。 本手法は,複雑な系の物理法則と高度な深層学習基盤を統合し,システムのダイナミクスを効果的に予測する。 体表面センサネットワークで測定した心電図データから逆心電図モデルを解き、心電電位の経時的分布を予測するために提案するp-dl法を実装した。 実験の結果, p-dl法は, 現行の手法をはるかに上回っていることがわかった。

The rapid developments in advanced sensing and imaging bring about a data-rich environment, facilitating the effective modeling, monitoring, and control of complex systems. For example, the body-sensor network captures multi-channel information pertinent to the electrical activity of the heart (i.e., electrocardiograms (ECG)), which enables medical scientists to monitor and detect abnormal cardiac conditions. However, the high-dimensional sensing data are generally complexly structured and realizing the full data potential depends to a great extent on advanced analytical and predictive methods. This paper presents a physics-constrained deep learning (P-DL) framework for high-dimensional inverse ECG modeling. This method integrates the physical laws of the complex system with the advanced deep learning infrastructure for effective prediction of the system dynamics. The proposed P-DL approach is implemented to solve the inverse ECG model and predict the time-varying distribution of electric potentials in the heart from the ECG data measured by the body-surface sensor network. Experimental results show that the proposed P-DL method significantly outperforms existing methods that are commonly used in current practice.
翻訳日:2021-07-28 14:36:00 公開日:2021-07-26
# ステレオと双方向音声の融合による音声書き起こしにおける単語認識の改善

Improving Word Recognition in Speech Transcriptions by Decision-level Fusion of Stemming and Two-way Phoneme Pruning ( http://arxiv.org/abs/2107.12428v1 )

ライセンス: Link先を確認
Sunakshi Mehra, Seba Susan(参考訳) 本稿では,steming と two-way phoneme pruning の判定レベルでの融合に基づいて,高度に不完全な音声認識を補正する教師なし手法を提案する。 ビデオからFfmpegフレームワークを使用して音声を抽出し、さらにGoogle APIを使用して音声をテキストに変換することで、トランスクリプトを取得する。 ベンチマークlrwデータセットには、500ワードのカテゴリと、mp4形式のクラス毎に50ビデオがある。 全てのビデオは29フレーム(各1.16秒)からなり、その単語はビデオの中央に表示される。 提案手法では, ストーミング, 音素抽出, フィルタリング, プルーニングを用いて, ベースライン精度を9.34%に改善することを試みた。 テキストスクリプティングにステミングアルゴリズムを適用して結果を評価すると,単語認識の精度は23.34%に達した。 単語を音素に変換するために,カーネギーメロン大学 (CMU) の発音辞書を用いて,英単語の音素マッピングを行った。 1) 母音を含む音素をフィルタリング・プルーニングする,2) 母音を含む音素をフィルタリング・プルーニングする,2) 母音を含む音素をフィルタリング・プルーニングする,の2つの非逐次ステップからなる,双方向の音素のプルーニングを提案する。 発声と双方向の音素切断の結果を得た後, 判定レベル融合を適用し, 単語認識率を32.96%まで改善した。

We introduce an unsupervised approach for correcting highly imperfect speech transcriptions based on a decision-level fusion of stemming and two-way phoneme pruning. Transcripts are acquired from videos by extracting audio using Ffmpeg framework and further converting audio to text transcript using Google API. In the benchmark LRW dataset, there are 500 word categories, and 50 videos per class in mp4 format. All videos consist of 29 frames (each 1.16 s long) and the word appears in the middle of the video. In our approach we tried to improve the baseline accuracy from 9.34% by using stemming, phoneme extraction, filtering and pruning. After applying the stemming algorithm to the text transcript and evaluating the results, we achieved 23.34% accuracy in word recognition. To convert words to phonemes we used the Carnegie Mellon University (CMU) pronouncing dictionary that provides a phonetic mapping of English words to their pronunciations. A two-way phoneme pruning is proposed that comprises of the two non-sequential steps: 1) filtering and pruning the phonemes containing vowels and plosives 2) filtering and pruning the phonemes containing vowels and fricatives. After obtaining results of stemming and two-way phoneme pruning, we applied decision-level fusion and that led to an improvement of word recognition rate upto 32.96%.
翻訳日:2021-07-28 14:34:39 公開日:2021-07-26
# Sharp U-Net: バイオメディカルイメージセグメンテーションのためのDepthwise Convolutional Network

Sharp U-Net: Depthwise Convolutional Network for Biomedical Image Segmentation ( http://arxiv.org/abs/2107.12461v1 )

ライセンス: Link先を確認
Hasib Zunair and A. Ben Hamza(参考訳) 完全な畳み込みネットワーク上に構築されたU-Netアーキテクチャは、バイオメディカルイメージセグメンテーションに有効であることが証明されている。 しかし、U-Netは意味的に異なる低レベルと高レベルの畳み込み機能をマージするためにスキップ接続を適用し、その結果、ぼやけた特徴マップだけでなく、過度に区切られたターゲット領域も実現した。 これらの制限に対処するため,我々は,二進法および多クラス生物医学的画像分割のためのシャープu-netと呼ばれる完全畳み込み型ネットワークアーキテクチャを提案する。 シャープu-netの重要な根拠は、プレーンスキップ接続を適用する代わりに、エンコーダとデコーダの特徴をマージする前に、シャープニングカーネルフィルタによるエンコーダ特徴マップの深さ方向の畳み込みを用い、エンコーダマップと同じ大きさのシャープ化中間特徴マップを生成することである。 このシャープニングフィルタ層を使用することで、意味的に類似しない特徴を融合できるだけでなく、トレーニングの初期段階でネットワーク層全体のアーティファクトをスムーズに除去することができます。 6つのデータセットに対する広範な実験により、提案したSharp U-Netモデルは、バイナリとマルチクラスのセグメンテーションタスクにおいて、最新の最先端ベースラインを一貫して上回るか、あるいは一致し、さらに学習可能なパラメータを追加しないことが示された。 さらに、Sharp U-Netは学習可能なパラメータの3倍以上のベースラインを上回ります。

The U-Net architecture, built upon the fully convolutional network, has proven to be effective in biomedical image segmentation. However, U-Net applies skip connections to merge semantically different low- and high-level convolutional features, resulting in not only blurred feature maps, but also over- and under-segmented target regions. To address these limitations, we propose a simple, yet effective end-to-end depthwise encoder-decoder fully convolutional network architecture, called Sharp U-Net, for binary and multi-class biomedical image segmentation. The key rationale of Sharp U-Net is that instead of applying a plain skip connection, a depthwise convolution of the encoder feature map with a sharpening kernel filter is employed prior to merging the encoder and decoder features, thereby producing a sharpened intermediate feature map of the same size as the encoder map. Using this sharpening filter layer, we are able to not only fuse semantically less dissimilar features, but also to smooth out artifacts throughout the network layers during the early stages of training. Our extensive experiments on six datasets show that the proposed Sharp U-Net model consistently outperforms or matches the recent state-of-the-art baselines in both binary and multi-class segmentation tasks, while adding no extra learnable parameters. Furthermore, Sharp U-Net outperforms baselines that have more than three times the number of learnable parameters.
翻訳日:2021-07-28 14:34:14 公開日:2021-07-26
# データキューブ構造と予測衝突リスク推定モデルを組み合わせた車両歩行者インタラクションの解析

Analyzing vehicle pedestrian interactions combining data cube structure and predictive collision risk estimation model ( http://arxiv.org/abs/2107.12507v1 )

ライセンス: Link先を確認
Byeongjoon Noh, Hansaem Park, Hwasoo Yeo(参考訳) 交通事故は人命にとって脅威であり、特に歩行者は早死にする。 そのため, 安全対策として, 危険状況のリスクを考慮し, 事故を事前に防止し, 積極的に対応するためのシステムを考案する必要がある。 本研究では,現場と集中型プロセスを組み合わせた歩行者安全システムの新たな概念を提案する。 本システムは,現場における今後のリスクを直ちに警告し,実際の衝突のない道路の安全レベルを評価することにより,危険頻繁なエリアの安全性を向上させることができる。 特に, 車両・歩行者の行動と環境特性を考慮した横断歩道安全評価のための新しい分析枠組みを導入することで, 後者に着目した。 都市内の交通映像からこれらの行動特徴を完全自動処理により取得する。 提案フレームワークは,LSTMに基づく予測衝突リスク推定モデルとオンライン解析処理を併用したデータ立方体構造を構築し,多次元視点でこれらの挙動を主に分析する。 PCR推定モデルから,リスクの重症度を4つのレベルに分類し,行動特徴を用いた横断歩道安全性評価のための枠組みを適用した。 分析実験は,2つのシナリオに基づき,道路環境による車両と歩行者の移動パターンと,リスクレベルと車速の関係を推定した。 そこで,提案手法は,歩行者の安全向上に有用な情報を提供することで意思決定者を支援することができ,横断歩道付近の行動をより積極的に把握する上で有効である。 提案手法の有効性と適用性を確認するため,韓国大山市の実運用CCTVに実装・適用した。

Traffic accidents are a threat to human lives, particularly pedestrians causing premature deaths. Therefore, it is necessary to devise systems to prevent accidents in advance and respond proactively, using potential risky situations as one of the surrogate safety measurements. This study introduces a new concept of a pedestrian safety system that combines the field and the centralized processes. The system can warn of upcoming risks immediately in the field and improve the safety of risk frequent areas by assessing the safety levels of roads without actual collisions. In particular, this study focuses on the latter by introducing a new analytical framework for a crosswalk safety assessment with behaviors of vehicle/pedestrian and environmental features. We obtain these behavioral features from actual traffic video footage in the city with complete automatic processing. The proposed framework mainly analyzes these behaviors in multidimensional perspectives by constructing a data cube structure, which combines the LSTM based predictive collision risk estimation model and the on line analytical processing operations. From the PCR estimation model, we categorize the severity of risks as four levels and apply the proposed framework to assess the crosswalk safety with behavioral features. Our analytic experiments are based on two scenarios, and the various descriptive results are harvested the movement patterns of vehicles and pedestrians by road environment and the relationships between risk levels and car speeds. Thus, the proposed framework can support decision makers by providing valuable information to improve pedestrian safety for future accidents, and it can help us better understand their behaviors near crosswalks proactively. In order to confirm the feasibility and applicability of the proposed framework, we implement and apply it to actual operating CCTVs in Osan City, Korea.
翻訳日:2021-07-28 14:33:44 公開日:2021-07-26
# ランダム埋め込みを用いた大域的最適化

Global optimization using random embeddings ( http://arxiv.org/abs/2107.12102v1 )

ライセンス: Link先を確認
Coralia Cartis, Estelle Massart, Adilet Otemissov(参考訳) 本稿では,リプシッツ連続目的のグローバル最適化のためのランダム部分空間アルゴリズムフレームワークを提案し,その収束を円錐積分幾何学の新しいツールを用いて解析する。 X-REGOは、逐次的または同時的に、高次元の原問題を低次元のサブプロブレムにランダムに投影し、任意の大域的、あるいは局所的な最適化解法で解ける。 ランダムに埋め込みされたサブプロブレムシェアが元の問題と同じ大域的最適である確率を推定する。 この成功確率は、元の問題の近似大域解へのx-regoの収束を示すために、問題(厳密に実現可能な大域解である)と解法(十分高い確率で還元問題の近似大域解を見つけるために導かれる)の弱い仮定の下で用いられる。 低次元部分空間でしか変化しない非拘束対象の特定の場合、問題の有効次元が見つかるまで次元を増大させるランダムな部分空間を探索するX-REGO変種を提案し、その有効次元に比例して有限個の埋め込みの後、全世界的にX-REGOが収束する。 この変種は, 実効次元と近似大域的最小値の両方を効率的に求めることを数値的に示す。

We propose a random-subspace algorithmic framework for global optimization of Lipschitz-continuous objectives, and analyse its convergence using novel tools from conic integral geometry. X-REGO randomly projects, in a sequential or simultaneous manner, the high-dimensional original problem into low-dimensional subproblems that can then be solved with any global, or even local, optimization solver. We estimate the probability that the randomly-embedded subproblem shares (approximately) the same global optimum as the original problem. This success probability is then used to show convergence of X-REGO to an approximate global solution of the original problem, under weak assumptions on the problem (having a strictly feasible global solution) and on the solver (guaranteed to find an approximate global solution of the reduced problem with sufficiently high probability). In the particular case of unconstrained objectives with low effective dimension, that only vary over a low-dimensional subspace, we propose an X-REGO variant that explores random subspaces of increasing dimension until finding the effective dimension of the problem, leading to X-REGO globally converging after a finite number of embeddings, proportional to the effective dimension. We show numerically that this variant efficiently finds both the effective dimension and an approximate global minimizer of the original problem.
翻訳日:2021-07-28 14:31:52 公開日:2021-07-26
# 心的推定のためのデータとクエリの両方からの学習の統一モデル

A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation ( http://arxiv.org/abs/2107.12295v1 )

ライセンス: Link先を確認
Peizhi Wu and Gao Cong(参考訳) カーディナリティ推定はデータベースシステムにおける根本的な問題である。 リレーショナルテーブルのリッチなジョイントデータ分布をキャプチャするために、既存の作業のほとんどは教師なし情報としてデータを使用するか、教師なし情報としてクエリワークロードを使用する。 両タイプの情報を利用するための作業はほとんど行われておらず、共同データ配信を学ぶために両タイプの情報を完全に利用することはできない。 本研究では,データとクエリの両方のワークロードから共同データ分布を学習する統合深層自己回帰モデルUAEを提案することにより,データ駆動型とクエリ駆動型のメソッド間のギャップを埋めることを目的とする。 まず,教師付きクエリ情報を深部自己回帰モデルで有効にするために,Gumbel-Softmax のトリックを用いてプログレッシブサンプリングを行う。 第二に、UAEは2種類の情報を利用して、単一のモデルで共同データ分布を学習することができる。 総合的な実験結果から、UAEは1桁の乗算誤差を尾で達成し、最先端の手法よりも精度が良く、空間と時間の両方が効率的であることが示された。

Cardinality estimation is a fundamental problem in database systems. To capture the rich joint data distributions of a relational table, most of the existing work either uses data as unsupervised information or uses query workload as supervised information. Very little work has been done to use both types of information, and cannot fully make use of both types of information to learn the joint data distribution. In this work, we aim to close the gap between data-driven and query-driven methods by proposing a new unified deep autoregressive model, UAE, that learns the joint data distribution from both the data and query workload. First, to enable using the supervised query information in the deep autoregressive model, we develop differentiable progressive sampling using the Gumbel-Softmax trick. Second, UAE is able to utilize both types of information to learn the joint data distribution in a single model. Comprehensive experimental results demonstrate that UAE achieves single-digit multiplicative error at tail, better accuracies over state-of-the-art methods, and is both space and time efficient.
翻訳日:2021-07-28 14:31:27 公開日:2021-07-26
# 複数のアクセスフェーディングチャネル上での逐次学習

Accelerated Gradient Descent Learning over Multiple Access Fading Channels ( http://arxiv.org/abs/2107.12452v1 )

ライセンス: Link先を確認
Raz Paul, Yuval Friedman, Kobi Cohen(参考訳) N個の分散エッジデバイスとパラメータサーバ(PS)から構成される無線ネットワークにおける分散学習問題を考える。 目的関数はエッジデバイスのローカル損失関数の和であり、複数のアクセスチャネル(MAC)を介してPSと通信することで共有モデルを訓練することを目指している。 この問題は、分散センシングシステムへの関心が高まり、最近では、over-the-air computingとして知られる連合学習にも関心が集まっている。 本稿では,ノイズフェージングMAC上での運動量に基づく勾配信号を用いて,既存の手法と比較して収束率を向上させる新しいAGMAアルゴリズムを提案する。 さらに、AGMAはフェージング効果をキャンセルするためにパワーコントロールやビームフォーミングを必要としないため、実装の複雑さがより簡単になる。 我々はAGMAを理論的に解析し、リプシッツ勾配を持つ凸および強凸損失関数の誤差の有限サンプル境界を確立する。 強凸の場合、ネットワークが増加するにつれてAGMAが最もよく知られた線形収束速度に近づくことを示す。 凸の場合,AGMAは既存手法と比較して線形収束率を大幅に向上することを示した。 最後に,AGMAの性能向上を示す実データを用いてシミュレーション結果を示す。

We consider a distributed learning problem in a wireless network, consisting of N distributed edge devices and a parameter server (PS). The objective function is a sum of the edge devices' local loss functions, who aim to train a shared model by communicating with the PS over multiple access channels (MAC). This problem has attracted a growing interest in distributed sensing systems, and more recently in federated learning, known as over-the-air computation. In this paper, we develop a novel Accelerated Gradient-descent Multiple Access (AGMA) algorithm that uses momentum-based gradient signals over noisy fading MAC to improve the convergence rate as compared to existing methods. Furthermore, AGMA does not require power control or beamforming to cancel the fading effect, which simplifies the implementation complexity. We analyze AGMA theoretically, and establish a finite-sample bound of the error for both convex and strongly convex loss functions with Lipschitz gradient. For the strongly convex case, we show that AGMA approaches the best-known linear convergence rate as the network increases. For the convex case, we show that AGMA significantly improves the sub-linear convergence rate as compared to existing methods. Finally, we present simulation results using real datasets that demonstrate better performance by AGMA.
翻訳日:2021-07-28 14:31:07 公開日:2021-07-26
# legato:フェデレート学習におけるビザンチン攻撃緩和のための階層型勾配集約アルゴリズム

LEGATO: A LayerwisE Gradient AggregaTiOn Algorithm for Mitigating Byzantine Attacks in Federated Learning ( http://arxiv.org/abs/2107.12490v1 )

ライセンス: Link先を確認
Kamala Varma, Yi Zhou, Nathalie Baracaldo, Ali Anwar(参考訳) フェデレーション学習は、複数の参加者がデータを共有せずに協力的にモデルをトレーニングするためのメカニズムとして生まれた。 これらの設定では、参加者(労働者)はお互いを完全に信頼できない可能性がある。例えば、競合相手のセットは、不正を検出するために機械学習モデルを共同で訓練することができる。 ワーカは、中央サーバがグローバルモデル更新に使用するローカル勾配を提供する。 このグローバルモデルは、ビザンチンの労働者が悪質な勾配を送ると腐敗し、ビザンチンの入力の悪影響を軽減するような勾配を集約するための堅牢な方法が必要となる。 既存のロバスト集約アルゴリズムはしばしば計算コストが高く、厳密な仮定の下でのみ有効である。 本稿では,対照的にスケーラブルで一般化可能な集約アルゴリズムであるLayerwisE Gradient AggregatTiOn(LEGATO) を紹介する。 ビザンチン攻撃に対する勾配の層特異的応答の研究により、LEGATOは層特異的ロバスト性に基づく勾配の処理において新しい動的勾配緩和スキームを採用している。 LEGATOは、複数の最先端技術よりも計算効率が良く、より一般的に様々な攻撃設定において堅牢であることを示す。 また,LEGATOの攻撃がない場合の勾配降下収束に対する利点を実証した。

Federated learning has arisen as a mechanism to allow multiple participants to collaboratively train a model without sharing their data. In these settings, participants (workers) may not trust each other fully; for instance, a set of competitors may collaboratively train a machine learning model to detect fraud. The workers provide local gradients that a central server uses to update a global model. This global model can be corrupted when Byzantine workers send malicious gradients, which necessitates robust methods for aggregating gradients that mitigate the adverse effects of Byzantine inputs. Existing robust aggregation algorithms are often computationally expensive and only effective under strict assumptions. In this paper, we introduce LayerwisE Gradient AggregatTiOn (LEGATO), an aggregation algorithm that is, by contrast, scalable and generalizable. Informed by a study of layer-specific responses of gradients to Byzantine attacks, LEGATO employs a dynamic gradient reweighing scheme that is novel in its treatment of gradients based on layer-specific robustness. We show that LEGATO is more computationally efficient than multiple state-of-the-art techniques and more generally robust across a variety of attack settings in practice. We also demonstrate LEGATO's benefits for gradient descent convergence in the absence of an attack.
翻訳日:2021-07-28 14:28:25 公開日:2021-07-26
# TaikoNation: リズムアクションゲームのためのパターン中心のチャート生成

TaikoNation: Patterning-focused Chart Generation for Rhythm Action Games ( http://arxiv.org/abs/2107.12506v1 )

ライセンス: Link先を確認
Emily Halina and Matthew Guzdial(参考訳) 近年,機械学習による楽曲からのリズムゲームチャートの生成が注目されている。 しかし、既存の全てのシステムは人間のようなパターンの再現に苦慮している: 歌の出来事に基づいて一致したパターンを形成するために、ゲームオブジェクトが相互に配置される。 パターン化はハイクオリティなリズムゲームコンテンツの重要な識別子であり、人間のランキングに必要な要素と見なされる。 我々は,先行研究よりも,より簡潔で人間的なパターニングを伴うチャートを生成する新しいチャート生成手法を確立した。

Generating rhythm game charts from songs via machine learning has been a problem of increasing interest in recent years. However, all existing systems struggle to replicate human-like patterning: the placement of game objects in relation to each other to form congruent patterns based on events in the song. Patterning is a key identifier of high quality rhythm game content, seen as a necessary component in human rankings. We establish a new approach for chart generation that produces charts with more congruent, human-like patterning than seen in prior work.
翻訳日:2021-07-28 14:28:03 公開日:2021-07-26
# グラフ畳み込みネットワークと注意機構に基づく短期電力価格予測

Short-Term Electricity Price Forecasting based on Graph Convolution Network and Attention Mechanism ( http://arxiv.org/abs/2107.12794v1 )

ライセンス: Link先を確認
Yuyun Yang, Zhenfei Tan, Haitao Yang, Guangchun Ruan, Haiwang Zhong(参考訳) 電力市場においては、適切な入札戦略、潜在的なトレーディングリスクの管理、効率的なシステム計画と運用支援において、市場参加者にとって特にLMP予測が重要である。 LMPの時間的特徴のみを考慮する既存の方法とは異なり、本論文はスペクトルグラフ畳み込みネットワーク(GCN)を調整し、短期LMP予測の精度を大幅に向上させる。 3分岐ネットワーク構造はLMPの構成と一致するように設計されている。 この種のネットワークはLMPの時空間的特徴を抽出し、全てのノードに対して高速かつ高品質な予測を同時に提供する。 注意機構も実装されており、異なるノードと時間スロット間の重み付けが異なる。 PJMのIEEE-118テストシステムと実世界のデータに基づくケーススタディでは、提案モデルが既存の予測モデルよりも精度が高く、極端なエラーを回避して堅牢な性能を維持している。

In electricity markets, locational marginal price (LMP) forecasting is particularly important for market participants in making reasonable bidding strategies, managing potential trading risks, and supporting efficient system planning and operation. Unlike existing methods that only consider LMPs' temporal features, this paper tailors a spectral graph convolutional network (GCN) to greatly improve the accuracy of short-term LMP forecasting. A three-branch network structure is then designed to match the structure of LMPs' compositions. Such kind of network can extract the spatial-temporal features of LMPs, and provide fast and high-quality predictions for all nodes simultaneously. The attention mechanism is also implemented to assign varying importance weights between different nodes and time slots. Case studies based on the IEEE-118 test system and real-world data from the PJM validate that the proposed model outperforms existing forecasting models in accuracy, and maintains a robust performance by avoiding extreme errors.
翻訳日:2021-07-28 14:26:56 公開日:2021-07-26
# (参考訳) Playtesting: ペルソナを越えたもの [全文訳有]

Playtesting: What is Beyond Personas ( http://arxiv.org/abs/2107.11965v1 )

ライセンス: CC BY 4.0
Sinan Ariyurek, Elif Surer, Aysu Betin-Can(参考訳) プレイテストはゲーム設計プロセスにおいて不可欠なステップです。 ゲームデザイナーはplaytestsからのフィードバックを使ってデザインを洗練します。 ゲームデザイナーはプレイテストのプロセスを自動化するために手続き型ペルソナを用いることができる。 本稿では,自動プレイテストを改善するための2つのアプローチを提案する。 まず,私たちがペルソナ開発と呼ぶ目標ベースのペルソナモデルを提案する。ペルソナ開発はダイナミックなペルソナモデルを提案するが,現在のペルソナモデルは静的である。 ゲームデザイナーは、プレイヤーがゲーム中に行う変化をモデル化するために開発ペルソナを使用することができる。 さらに、人間のプレイテスタは、以前にテストしたパスを知っており、そのテストの間、異なるパスをテストできる。 しかし、RL剤は以前に生成された軌道を無視する。 本稿では,強化学習 (rl) エージェントが従来と異なる軌跡を生成するための新しい手法を提案する。 本手法を代替経路ファインダ(APF)と呼ぶ。 本稿では,全てのRLエージェントに適用可能な汎用APFフレームワークを提案する。 APFは以前の軌道で訓練され、APFは新しい状態と類似した状態とを区別する。 我々は、提案手法をテストするために、General Video Game Artificial Intelligence(GVG-AI) とVizDoomフレームワークを使用する。 実験ではPPO (Proximal Policy Optimization) RLエージェントを用いた。 まず,開発ペルソナによって生成されたプレイテストデータは,手続きペルソナを用いて生成できないことを示す。 第2に,APFを用いた代替経路を提案する。 我々は、APFが以前のパスを罰し、異なるパスに報いることを示す。

Playtesting is an essential step in the game design process. Game designers use the feedback from playtests to refine their design. Game designers may employ procedural personas to automate the playtesting process. In this paper, we present two approaches to improve automated playtesting. First, we propose a goal-based persona model, which we call developing persona -- developing persona proposes a dynamic persona model, whereas the current persona models are static. Game designers can use the developing persona to model the changes that a player undergoes while playing a game. Additionally, a human playtester knows which paths she has tested before, and during the consequent tests, she may test different paths. However, RL agents disregard the previously generated trajectories. We propose a novel methodology that helps Reinforcement Learning (RL) agents to generate distinct trajectories than the previous trajectories. We refer to this methodology as Alternative Path Finder (APF). We present a generic APF framework that can be applied to all RL agents. APF is trained with the previous trajectories, and APF distinguishes the novel states from similar states. We use the General Video Game Artificial Intelligence (GVG-AI) and VizDoom frameworks to test our proposed methodologies. We use Proximal Policy Optimization (PPO) RL agent during experiments. First, we show that the playtest data generated by the developing persona cannot be generated using the procedural personas. Second, we present the alternative paths found using APF. We show that the APF penalizes the previous paths and rewards the distinct paths.
翻訳日:2021-07-27 23:26:33 公開日:2021-07-26
# (参考訳) 言語間距離パス検索を伴う多言語に対する一質問応答モデル [全文訳有]

One Question Answering Model for Many Languages with Cross-lingual Dense Passage Retrieval ( http://arxiv.org/abs/2107.11976v1 )

ライセンス: CC BY 4.0
Akari Asai, Xinyan Yu, Jungo Kasai, Hannaneh Hajishirzi(参考訳) 言語固有のアノテートデータや知識ソースが利用できない場合でも,多数の言語にまたがる疑問に答えることのできる,言語横断型オープンレトリーバル回答生成モデルであるcoraを提案する。 そこで本研究では,質問に対して言語間で文書を検索するアルゴリズムを提案する。 多言語自己回帰生成モデルと組み合わせることで、coraは翻訳や言語内検索モジュールを必要とせず、対象言語で直接応答する。 本稿では,高リソース言語でのみ使用可能な注釈データを低リソース言語に自動拡張する反復学習手法を提案する。 以上の結果から,CORAは,26言語にまたがる多言語オープン質問応答ベンチマークにおいて,従来の技術よりも大幅に優れており,そのうち9言語はトレーニング中に見つからない。 本研究は,多くの言語,特に低リソース環境における言語間検索と生成の意義を示す。

We present CORA, a Cross-lingual Open-Retrieval Answer Generation model that can answer questions across many languages even when language-specific annotated data or knowledge sources are unavailable. We introduce a new dense passage retrieval algorithm that is trained to retrieve documents across languages for a question. Combined with a multilingual autoregressive generation model, CORA answers directly in the target language without any translation or in-language retrieval modules as used in prior work. We propose an iterative training method that automatically extends annotated data available only in high-resource languages to low-resource ones. Our results show that CORA substantially outperforms the previous state of the art on multilingual open question answering benchmarks across 26 languages, 9 of which are unseen during training. Our analyses show the significance of cross-lingual retrieval and generation in many languages, particularly under low-resource settings.
翻訳日:2021-07-27 23:07:41 公開日:2021-07-26
# (参考訳) ビジュアルセマンティックな埋め込みに残るもの [全文訳有]

What Remains of Visual Semantic Embeddings ( http://arxiv.org/abs/2107.11991v1 )

ライセンス: CC BY 4.0
Yue Jiao, Jonathon Hare, Adam Pr\"ugel-Bennett(参考訳) ゼロショットラーニング(ZSL)は、子どもたちに新しい物体を認識させるメカニズムと密接に結びついているため、この10年間で関心が高まっている。 視覚的セマンティック埋め込みモデルの異なるパラダイムは、視覚的特徴と分散語表現を整列するように設計されているが、現在のZSLモデルが分散語表現から意味情報をエンコードする範囲は不明確である。 本研究では,標準画像Netベンチマークにおける構造欠陥を回避するため,ZSLタスクにタイレッドイメージネットの分割を導入する。 我々は,zslを事前学習として統合したフレームワークを構築し,セマンティクス情報漏洩を保証せず,線形分離可能な視覚特徴を奨励する。 本研究は,意味推論が決定的なZSL上での視覚的セマンティック埋め込みモデルの評価に有効である。 このフレームワークでは、現在のzslモデルでは単語アナロジーと単語階層から意味関係をエンコードするのに苦労している。 本分析は,ZSLタスクにおける文脈言語表現の役割を探求する動機を提供する。

Zero shot learning (ZSL) has seen a surge in interest over the decade for its tight links with the mechanism making young children recognize novel objects. Although different paradigms of visual semantic embedding models are designed to align visual features and distributed word representations, it is unclear to what extent current ZSL models encode semantic information from distributed word representations. In this work, we introduce the split of tiered-ImageNet to the ZSL task, in order to avoid the structural flaws in the standard ImageNet benchmark. We build a unified framework for ZSL with contrastive learning as pre-training, which guarantees no semantic information leakage and encourages linearly separable visual features. Our work makes it fair for evaluating visual semantic embedding models on a ZSL setting in which semantic inference is decisive. With this framework, we show that current ZSL models struggle with encoding semantic relationships from word analogy and word hierarchy. Our analyses provide motivation for exploring the role of context language representations in ZSL tasks.
翻訳日:2021-07-27 22:36:40 公開日:2021-07-26
# (参考訳) HRegNet: 大規模屋外LiDARポイントクラウド登録のための階層的ネットワーク [全文訳有]

HRegNet: A Hierarchical Network for Large-scale Outdoor LiDAR Point Cloud Registration ( http://arxiv.org/abs/2107.11992v1 )

ライセンス: CC BY-SA 4.0
Fan Lu, Guang Chen, Yinlong Liu, Lijun Zhang, Sanqing Qu, Shu Liu, Rongqi Gu(参考訳) ポイントクラウドの登録は、3Dコンピュータビジョンの基本的な問題である。 屋外のLiDARポイントクラウドは通常大規模で複雑に分散しているため、登録は困難である。 本稿では,大規模屋外LiDAR点雲登録のための効率的な階層ネットワークHRegNetを提案する。 ポイントクラウド内のすべてのポイントを使用する代わりに、hregnetは階層的に抽出されたキーポイントとディスクリプタに登録を行う。 全体的なフレームワークは、より深い層の信頼性の高い機能と、より浅い層の正確な位置情報を組み合わせて、堅牢で正確な登録を実現する。 本稿では,正確かつ正確なキーポイント対応を生成するための対応ネットワークを提案する。 さらに、キーポイントマッチングに二元的コンセンサスと近傍コンセンサスを導入し、新たな類似性を対応ネットワークに組み込むことにより、登録性能を大幅に向上させる。 さらに、登録には少数のキーポイントしか使われないので、ネットワーク全体の効率も高い。 提案するhregnetの精度と効率を実証するために,2つの大規模屋外lidarポイントクラウドデータセットを用いた大規模実験を行った。 プロジェクトのwebサイトはhttps://ispc-group.g ithub.io/hregnet。

Point cloud registration is a fundamental problem in 3D computer vision. Outdoor LiDAR point clouds are typically large-scale and complexly distributed, which makes the registration challenging. In this paper, we propose an efficient hierarchical network named HRegNet for large-scale outdoor LiDAR point cloud registration. Instead of using all points in the point clouds, HRegNet performs registration on hierarchically extracted keypoints and descriptors. The overall framework combines the reliable features in deeper layer and the precise position information in shallower layers to achieve robust and precise registration. We present a correspondence network to generate correct and accurate keypoints correspondences. Moreover, bilateral consensus and neighborhood consensus are introduced for keypoints matching and novel similarity features are designed to incorporate them into the correspondence network, which significantly improves the registration performance. Besides, the whole network is also highly efficient since only a small number of keypoints are used for registration. Extensive experiments are conducted on two large-scale outdoor LiDAR point cloud datasets to demonstrate the high accuracy and efficiency of the proposed HRegNet. The project website is https://ispc-group.g ithub.io/hregnet.
翻訳日:2021-07-27 22:22:37 公開日:2021-07-26
# (参考訳) 騒音感圧塗料測定データに対する安定な動的モード分解アルゴリズム [全文訳有]

Stable Dynamic Mode Decomposition Algorithm for Noisy Pressure-Sensitive Paint Measurement Data ( http://arxiv.org/abs/2107.11999v1 )

ライセンス: CC BY 4.0
Yuya Ohmichi, Yosuke Sugioka, Kazuyuki Nakakita(参考訳) 本研究では,雑音データのDMD解析が可能なT-TLS DMDアルゴリズムを提案する。 T-TLS DMDは従来のTLS DMDアルゴリズムにトラルニケーション正規化を加えることで、TLS DMDの精度を維持しながら計算の安定性を向上させる。 提案手法の有効性は,シリンダー背後の後流の解析と,ビュッフェ細胞現象に対する圧力感受性塗料(psp)データを用いて評価した。 その結果, DMDアルゴリズムにおける正則化の重要性が示された。 固有値に関しては,T-TLS DMDはノイズの影響を受けにくく,正確な固有値が得られる一方で,TLSとサブスペースDMDの固有値はノイズによって大きく異なる。 また, 標準値と正確なDMDの固有値が減衰側へシフトする問題であったことも, 前報で報告された。 固有ベクトルに関して、T-TLSと正確なDMDはノイズの存在下でも特徴的な流れパターンをはっきりと捉えたが、TLSとサブスペースDMDはノイズのためにそれらをはっきりと捉えられなかった。

In this study, we proposed the truncated total least squares dynamic mode decomposition (T-TLS DMD) algorithm, which can perform DMD analysis of noisy data. By adding truncation regularization to the conventional TLS DMD algorithm, T-TLS DMD improves the stability of the computation while maintaining the accuracy of TLS DMD. The effectiveness of the proposed method was evaluated by the analysis of the wake behind a cylinder and pressure-sensitive paint (PSP) data for the buffet cell phenomenon. The results showed the importance of regularization in the DMD algorithm. With respect to the eigenvalues, T-TLS DMD was less affected by noise, and accurate eigenvalues could be obtained stably, whereas the eigenvalues of TLS and subspace DMD varied greatly due to noise. It was also observed that the eigenvalues of the standard and exact DMD had the problem of shifting to the damping side, as reported in previous studies. With respect to eigenvectors, T-TLS and exact DMD captured the characteristic flow patterns clearly even in the presence of noise, whereas TLS and subspace DMD were not able to capture them clearly due to noise.
翻訳日:2021-07-27 22:08:31 公開日:2021-07-26
# (参考訳) ボリュームCTPAスキャンからのRVひずみ分類のための弱教師付き注意モデル [全文訳有]

Weakly Supervised Attention Model for RV StrainClassification from volumetric CTPA Scans ( http://arxiv.org/abs/2107.12009v1 )

ライセンス: CC BY 4.0
Noa Cahan, Edith M. Marom, Shelly Soffer, Yiftach Barash, Eli Konen, Eyal Klang and Hayit Greenspan(参考訳) 肺塞栓 (PE) は、血栓による肺動脈の閉塞を指す。 PEは米国だけで年間約10万人が死亡している。 PEの臨床的表示はしばしば非特異的であり、診断は困難である。 したがって、迅速かつ正確なリスク階層化が最重要となる。 高リスクpeは、急性血圧過負荷による右室機能不全によって引き起こされ、その代わりにどの患者がより積極的な治療を必要とするかを特定するのに役立つ。 再建された胸部ctでは右室拡大を検出できる。 CT肺血管造影(CTPA)は,PEの診断作業における黄金の基準である。 したがって、診断とリスク階層化戦略を結びつけることができる。 我々は,CTPA上のRVひずみを自動的に分類する,新しい注意機構を重視した弱教師付き深層学習アルゴリズムを開発した。 本手法は,3次元残光ブロックを統合した3次元DenseNetモデルである。 救急部 (ED) PE 患者のCTPAのデータセットを用いて,本モデルについて検討した。 このモデルは、RVひずみを分類するための0.88の受信特性曲線(AUC)の領域を達成した。 感度は87%、特異性は83.7%であった。 我々のソリューションは最先端の3D CNNネットワークより優れている。 提案する設計では,計算集約的かつ時間を要するデータの前処理や頑健なラベル付けを必要とせず,エンドツーエンドで容易にトレーニングできる完全自動化ネットワークを実現する。 これは第2のリーダーとして使用でき、高リスクのPE患者に警告する。 我々の知る限りでは、この問題を解こうとしたこれまでのディープラーニングベースの研究は存在しない。

Pulmonary embolus (PE) refers to obstruction of pulmonary arteries by blood clots. PE accounts for approximately 100,000 deaths per year in the United States alone. The clinical presentation of PE is often nonspecific, making the diagnosis challenging. Thus, rapid and accurate risk stratification is of paramount importance. High-risk PE is caused by right ventricular (RV) dysfunction from acute pressure overload, which in return can help identify which patients require more aggressive therapy. Reconstructed four-chamber views of the heart on chest CT can detect right ventricular enlargement. CT pulmonary angiography (CTPA) is the golden standard in the diagnostic workup of suspected PE. Therefore, it can link between diagnosis and risk stratification strategies. We developed a weakly supervised deep learning algorithm, with an emphasis on a novel attention mechanism, to automatically classify RV strain on CTPA. Our method is a 3D DenseNet model with integrated 3D residual attention blocks. We evaluated our model on a dataset of CTPAs of emergency department (ED) PE patients. This model achieved an area under the receiver operating characteristic curve (AUC) of 0.88 for classifying RV strain. The model showed a sensitivity of 87% and specificity of 83.7%. Our solution outperforms state-of-the-art 3D CNN networks. The proposed design allows for a fully automated network that can be trained easily in an end-to-end manner without requiring computationally intensive and time-consuming preprocessing or strenuous labeling of the data.We infer that unmarked CTPAs can be used for effective RV strain classification. This could be used as a second reader, alerting for high-risk PE patients. To the best of our knowledge, there are no previous deep learning-based studies that attempted to solve this problem.
翻訳日:2021-07-27 21:58:26 公開日:2021-07-26
# (参考訳) ゼロショットビジュアルセマンティック学習者としての言語モデル [全文訳有]

Language Models as Zero-shot Visual Semantic Learners ( http://arxiv.org/abs/2107.12021v1 )

ライセンス: CC BY 4.0
Yue Jiao, Jonathon Hare, Adam Pr\"ugel-Bennett(参考訳) イメージをリッチなセマンティック埋め込み空間にマッピングするビジュアルセマンティック埋め込み(VSE)モデルは、オブジェクト認識とゼロショット学習においてマイルストーンとなっている。 VSEへの現在のアプローチは静的な単語埋め込み技術に大きく依存している。 本研究では,視覚的意味理解タスクにおける文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。 トランスフォーマー言語モデルにエンコードされた知識は,視覚的意味理解を必要とするタスクに活用可能であることを示す。文脈表現を持つvsepは,複雑な場面における単語レベルのオブジェクト表現を,構成的ゼロショット学習者として区別することができる。 さらに,vsepsを用いたゼロショット設定を導入し,新しい単語と新たな視覚カテゴリを関連付けるモデルの能力を評価する。 言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れていた。 現在のビジュアルセマンティクス埋め込みモデルには、パフォーマンスを制限する相互排他バイアスが欠けていることに気付きました。

Visual Semantic Embedding (VSE) models, which map images into a rich semantic embedding space, have been a milestone in object recognition and zero-shot learning. Current approaches to VSE heavily rely on static word em-bedding techniques. In this work, we propose a Visual Se-mantic Embedding Probe (VSEP) designed to probe the semantic information of contextualized word embeddings in visual semantic understanding tasks. We show that the knowledge encoded in transformer language models can be exploited for tasks requiring visual semantic understanding.The VSEP with contextual representations can distinguish word-level object representations in complicated scenes as a compositional zero-shot learner. We further introduce a zero-shot setting with VSEPs to evaluate a model's ability to associate a novel word with a novel visual category. We find that contextual representations in language mod-els outperform static word embeddings, when the compositional chain of object is short. We notice that current visual semantic embedding models lack a mutual exclusivity bias which limits their performance.
翻訳日:2021-07-27 21:44:35 公開日:2021-07-26
# (参考訳) SVEva Fair: 話者検証の公平性を評価するフレームワーク [全文訳有]

SVEva Fair: A Framework for Evaluating Fairness in Speaker Verification ( http://arxiv.org/abs/2107.12049v1 )

ライセンス: CC BY 4.0
Wiebke Toussaint and Aaron Yi Ding(参考訳) デバイス上での音声アシスタントを可能にするディープニューラルネットワーク(DNN)の成功にもかかわらず、機械学習におけるバイアスと差別の証拠の増加は、これらのシステムの公正性を調べる緊急性を高めている。 話者認証は、音声アシスタントへのアクセスを可能にする生体認証の一種である。 話者検証コンポーネントの公平性をテストするのに適した公平度指標や評価フレームワークが欠如しているため、サブグループ間でモデルパフォーマンスがどのように異なるか、どの要因がパフォーマンスに影響を及ぼすかについてはほとんど分かっていない。 この新たな課題に対処するために,話者検証コンポーネントの公平性を評価するための,アクセシブルで動作可能な,モデルに依存しないフレームワークであるSVEva Fairを設計・開発する。 このフレームワークは、話者サブグループ間のモデルパフォーマンスを尋問し、モデル間の公平性を比較するための評価尺度と視覚化を提供する。 SVEva Fairは、VoxCelebデータセットに基づいて訓練されたエンドツーエンドDNNを用いて、話者の人口統計特性に基づく既存の組込み音声認識システムにおける潜在的なバイアスを明らかにするケーススタディである。 我々の評価では、公開可能なベンチマークモデルは公平ではなく、いくつかの国籍、およびほとんどの国籍の女性話者にとって、常に悪い予測を導き出している。 公正で信頼性の高い組込み話者検証を実現するため、SVEva Fairはオープンソースのpythonライブラリとして実装され、組み込みML開発パイプラインに統合され、開発者は信頼性の低い話者検証性能のトラブルシュートや、公正性の課題を軽減するための高い影響アプローチを選択することができる。

Despite the success of deep neural networks (DNNs) in enabling on-device voice assistants, increasing evidence of bias and discrimination in machine learning is raising the urgency of investigating the fairness of these systems. Speaker verification is a form of biometric identification that gives access to voice assistants. Due to a lack of fairness metrics and evaluation frameworks that are appropriate for testing the fairness of speaker verification components, little is known about how model performance varies across subgroups, and what factors influence performance variation. To tackle this emerging challenge, we design and develop SVEva Fair, an accessible, actionable and model-agnostic framework for evaluating the fairness of speaker verification components. The framework provides evaluation measures and visualisations to interrogate model performance across speaker subgroups and compare fairness between models. We demonstrate SVEva Fair in a case study with end-to-end DNNs trained on the VoxCeleb datasets to reveal potential bias in existing embedded speech recognition systems based on the demographic attributes of speakers. Our evaluation shows that publicly accessible benchmark models are not fair and consistently produce worse predictions for some nationalities, and for female speakers of most nationalities. To pave the way for fair and reliable embedded speaker verification, SVEva Fair has been implemented as an open-source python library and can be integrated into the embedded ML development pipeline to facilitate developers and researchers in troubleshooting unreliable speaker verification performance, and selecting high impact approaches for mitigating fairness challenges
翻訳日:2021-07-27 21:29:27 公開日:2021-07-26
# (参考訳) Tacotron2-based Text-to-Speech の超音波トング画像を用いた調音・音響マッピングへの適応 [全文訳有]

Adaptation of Tacotron2-based Text-To-Speech for Articulatory-to-Acou stic Mapping using Ultrasound Tongue Imaging ( http://arxiv.org/abs/2107.12051v1 )

ライセンス: CC BY 4.0
Csaba Zaink\'o, L\'aszl\'o T\'oth, Amin Honarmandi Shandiz, G\'abor Gosztolya, Alexandra Mark\'o, G\'eza N\'emeth, Tam\'as G\'abor Csap\'o(参考訳) 調音-音響マッピングでは、通常は限られた並列トレーニングデータしか利用できないため、Tacotron2のような完全なエンドツーエンドのソリューションを適用することは不可能である。 本稿では,タコトロン2テキスト音声合成モデルの伝達学習と適応を行い,限られたデータベースを用いた音声合成の最終的な合成品質を向上させることを試みた。 我々は,多話者事前学習型Tacotron2 TTSモデルと,事前学習型WaveGlowニューラルボコーダを用いた。 調音対音響変換は、(1)超音波舌画像記録から、3D畳み込みニューラルネットワークが事前訓練されたTacotron2モデルの入力を予測し、(2)Tacotron2モデルは、この中間表現を80次元メルスペクトルに変換し、(3)WaveGlowモデルを最終推論に適用する。 この生成された音声は、超音波記録から元の調音データのタイミングを含むが、F0輪郭とスペクトル情報はタコトロン2モデルにより予測される。 f0値は元の超音波画像とは独立であるが、事前訓練されたtacotron2モデルから推測されるように、ターゲットの話者を表す。 実験では,提案手法では,従来のモデルよりも合成音声品質が自然であることを実証した。

For articulatory-to-acou stic mapping, typically only limited parallel training data is available, making it impossible to apply fully end-to-end solutions like Tacotron2. In this paper, we experimented with transfer learning and adaptation of a Tacotron2 text-to-speech model to improve the final synthesis quality of ultrasound-based articulatory-to-acou stic mapping with a limited database. We use a multi-speaker pre-trained Tacotron2 TTS model and a pre-trained WaveGlow neural vocoder. The articulatory-to-acou stic conversion contains three steps: 1) from a sequence of ultrasound tongue image recordings, a 3D convolutional neural network predicts the inputs of the pre-trained Tacotron2 model, 2) the Tacotron2 model converts this intermediate representation to an 80-dimensional mel-spectrogram, and 3) the WaveGlow model is applied for final inference. This generated speech contains the timing of the original articulatory data from the ultrasound recording, but the F0 contour and the spectral information is predicted by the Tacotron2 model. The F0 values are independent of the original ultrasound images, but represent the target speaker, as they are inferred from the pre-trained Tacotron2 model. In our experiments, we demonstrated that the synthesized speech quality is more natural with the proposed solutions than with our earlier model.
翻訳日:2021-07-27 21:10:53 公開日:2021-07-26
# (参考訳) 知識グラフと注意はどのように役立つか? バッグレベル関係抽出の定量的解析 [全文訳有]

How Knowledge Graph and Attention Help? A Quantitative Analysis into Bag-level Relation Extraction ( http://arxiv.org/abs/2107.12064v1 )

ライセンス: CC BY 4.0
Zikun Hu, Yixin Cao, Lifu Huang, Tat-Seng Chua(参考訳) 知識グラフ(KG)と注意機構は、弱教師付き手法のための有用な情報の導入と選択に有効である。 しかし、定性的分析とアブレーション研究のみが証拠として提供される。 本稿では,バッグレベルの関係抽出(RE)における注意とKGの効果を定量的に評価するパラダイムを提案する。 We find that (1) higher attention accuracy may lead to worse performance as it may harm the model's ability to extract entity mention features; (2) the performance of attention is largely influenced by various noise distribution patterns, which is closely related to real-world datasets; (3) KG-enhanced attention indeed improves RE performance, while not through enhanced attention but by incorporating entity prior; and (4) attention mechanism may exacerbate the issue of insufficient training data. これらの結果から,reモデルの簡易な変形により,実世界の2つのデータセットにおいて,3つの最先端のベースラインと比較して大幅な改善(平均6% auc)が達成できることを示した。 コードとデータセットはhttps://github.com/z ig-kwin-hu/how-KG-AT T-help.comで公開しています。

Knowledge Graph (KG) and attention mechanism have been demonstrated effective in introducing and selecting useful information for weakly supervised methods. However, only qualitative analysis and ablation study are provided as evidence. In this paper, we contribute a dataset and propose a paradigm to quantitatively evaluate the effect of attention and KG on bag-level relation extraction (RE). We find that (1) higher attention accuracy may lead to worse performance as it may harm the model's ability to extract entity mention features; (2) the performance of attention is largely influenced by various noise distribution patterns, which is closely related to real-world datasets; (3) KG-enhanced attention indeed improves RE performance, while not through enhanced attention but by incorporating entity prior; and (4) attention mechanism may exacerbate the issue of insufficient training data. Based on these findings, we show that a straightforward variant of RE model can achieve significant improvements (6% AUC on average) on two real-world datasets as compared with three state-of-the-art baselines. Our codes and datasets are available at https://github.com/z ig-kwin-hu/how-KG-AT T-help.
翻訳日:2021-07-27 20:55:24 公開日:2021-07-26
# (参考訳) 未発見のテキスト認識に向けて : エラー蒸留による反復的テキスト認識 [全文訳有]

Towards the Unseen: Iterative Text Recognition by Distilling from Errors ( http://arxiv.org/abs/2107.12081v1 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Aneeshan Sain, Yi-Zhe Song(参考訳) ビジュアルテキスト認識は、間違いなくコンピュータビジョンで最も広く研究されているトピックの1つである。 最新のモデルではより実用的な"In-the-wild"設定に焦点が当てられている。 しかし、健全な問題は、まだ実践的な展開を妨げる - 先行技術は、ほとんど目に見えない(あるいは稀に見られる)文字シーケンスを認識するのに苦労している。 本稿では,この「見当たらない」問題に具体的に取り組むための新しい枠組みを提案する。 我々のフレームワークは本質的に反復的であり、前回のイテレーションから予測された文字列の知識を活用し、次の予測を改善するためにメインネットワークを増強する。 我々の成功の鍵は、フィードバックモジュールとして機能するユニークなクロスモーダル変分オートエンコーダであり、テキストエラー分布データの存在でトレーニングされている。 このモジュールは、離散予測されたキャラクタ空間を次のイテレーションで視覚特徴マップを条件づけるために使用される連続アフィン変換パラメータ空間に重要な翻訳を行う。 一般的なデータセットの実験は、従来の設定下での最先端よりも競争力のある性能を示している。 最も重要なことは、列車テストのラベルが相互に排他的である、新しい非協力的な設定の下で、我々のシステムは最高のパフォーマンスを提供し、目に見えない言葉に一般化する能力を示す。

Visual text recognition is undoubtedly one of the most extensively researched topics in computer vision. Great progress have been made to date, with the latest models starting to focus on the more practical "in-the-wild" setting. However, a salient problem still hinders practical deployment -- prior arts mostly struggle with recognising unseen (or rarely seen) character sequences. In this paper, we put forward a novel framework to specifically tackle this "unseen" problem. Our framework is iterative in nature, in that it utilises predicted knowledge of character sequences from a previous iteration, to augment the main network in improving the next prediction. Key to our success is a unique cross-modal variational autoencoder to act as a feedback module, which is trained with the presence of textual error distribution data. This module importantly translate a discrete predicted character space, to a continuous affine transformation parameter space used to condition the visual feature map at next iteration. Experiments on common datasets have shown competitive performance over state-of-the-arts under the conventional setting. Most importantly, under the new disjoint setup where train-test labels are mutually exclusive, ours offers the best performance thus showcasing the capability of generalising onto unseen words.
翻訳日:2021-07-27 20:42:30 公開日:2021-07-26
# (参考訳) テキストは、何であれテキストである:知識蒸留によるテキスト認識の統合 [全文訳有]

Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation ( http://arxiv.org/abs/2107.12087v1 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Yi-Zhe Song(参考訳) テキスト認識はいまだにコンピュータビジョンにおける基礎的かつ広範囲に研究されているトピックであり、その商業用途が多岐にわたるためである。 しかし、この問題の難しさは、日常の場面でテキストを扱うScene Text Recognition(STR)と手書きテキストに対処するHTR(Handwriting Text Recognition)という、研究努力の断片化を規定した。 この論文では、私たちは初めてそれらの統一について論じます -- 私たちは2つの最先端のstrモデルとhtrモデルとうまく競合できる1つのモデルを目指しています。 まず,strモデルとhtrモデルの相互利用が,本質的課題の違いによる大幅なパフォーマンス低下を引き起こすことを示した。 次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。 これは主にテキストシーケンスの可変長とシーケンシャルな性質によるもので、ほとんどがグローバル固定長データで不適切な動作をする、既成のkd技法をレンダリングしている。 そこで本研究では, 上記のテキスト認識の特徴に対応するために, 蒸留損失を3つ提案する。 実証的証拠は,提案する統一モデルが個々のモデルと同等の性能を発揮することを示唆する。 Ablative studyは、2段階のフレームワークやドメイン適応/一般化の代替案がうまく機能せず、設計の適切性をさらに検証していることを示している。

Text recognition remains a fundamental and extensively researched topic in computer vision, largely owing to its wide array of commercial applications. The challenging nature of the very problem however dictated a fragmentation of research efforts: Scene Text Recognition (STR) that deals with text in everyday scenes, and Handwriting Text Recognition (HTR) that tackles hand-written text. In this paper, for the first time, we argue for their unification -- we aim for a single model that can compete favourably with two separate state-of-the-art STR and HTR models. We first show that cross-utilisation of STR and HTR models trigger significant performance drops due to differences in their inherent challenges. We then tackle their union by introducing a knowledge distillation (KD) based framework. This is however non-trivial, largely due to the variable-length and sequential nature of text sequences, which renders off-the-shelf KD techniques that mostly works with global fixed-length data inadequate. For that, we propose three distillation losses all of which are specifically designed to cope with the aforementioned unique characteristics of text recognition. Empirical evidence suggests that our proposed unified model performs on par with individual models, even surpassing them in certain cases. Ablative studies demonstrate that naive baselines such as a two-stage framework, and domain adaption/generalisat ion alternatives do not work as well, further verifying the appropriateness of our design.
翻訳日:2021-07-27 20:23:47 公開日:2021-07-26
# (参考訳) 共同ビジュアルセマンティック推論:テキスト認識のためのマルチステージデコーダ [全文訳有]

Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition ( http://arxiv.org/abs/2107.12090v1 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Aneeshan Sain, Amandeep Kumar, Shuvozit Ghose, Pinaki Nath Chowdhury, Yi-Zhe Song(参考訳) テキスト認識は長年にわたって大きく進歩してきたが、最先端のSOTA(State-of-the-ar t)モデルは、複雑な背景、さまざまなフォント、制御されていない照明、歪み、その他のアーチファクトなどにより、いまだに困難な状況にある。 これは、このようなモデルはテキスト認識のための視覚的情報のみに依存するため、意味的推論能力が欠如しているためである。 本稿では,視覚のみに加えて意味情報も補完的な役割を担っていると論じる。 より具体的には,多段階の多段階の注意デコーダを提案することで意味情報を活用する。 私たちの目新しさは、テキスト認識では、予測は段階的に洗練されるべきという直観にある。 したがって, 離散的に予測された文字ラベルによって引き起こされる非微分性は, エンドツーエンドのトレーニングのためにバイパスされる必要がある。 第1段階は視覚的特徴を用いて予測するが、第2段階は視覚的情報を用いてその上を洗練する。 さらに,異なる段階間の密接な接続と密接な関係を伴って多次元の注意を取り入れて,キャラクタサイズの異なるスケールに対処し,訓練時の性能向上と収束の高速化を図る。 実験結果から,既存のSOTA法よりもかなり優れた手法が得られた。

Although text recognition has significantly evolved over the years, state-of-the-art (SOTA) models still struggle in the wild scenarios due to complex backgrounds, varying fonts, uncontrolled illuminations, distortions and other artefacts. This is because such models solely depend on visual information for text recognition, thus lacking semantic reasoning capabilities. In this paper, we argue that semantic information offers a complementary role in addition to visual only. More specifically, we additionally utilize semantic information by proposing a multi-stage multi-scale attentional decoder that performs joint visual-semantic reasoning. Our novelty lies in the intuition that for text recognition, the prediction should be refined in a stage-wise manner. Therefore our key contribution is in designing a stage-wise unrolling attentional decoder where non-differentiabilit y, invoked by discretely predicted character labels, needs to be bypassed for end-to-end training. While the first stage predicts using visual features, subsequent stages refine on top of it using joint visual-semantic information. Additionally, we introduce multi-scale 2D attention along with dense and residual connections between different stages to deal with varying scales of character sizes, for better performance and faster convergence during training. Experimental results show our approach to outperform existing SOTA methods by a considerable margin.
翻訳日:2021-07-27 20:04:14 公開日:2021-07-26
# (参考訳) AA3DNet:アテンション強化リアルタイム3Dオブジェクト検出 [全文訳有]

AA3DNet: Attention Augmented Real Time 3D Object Detection ( http://arxiv.org/abs/2107.12137v1 )

ライセンス: CC BY 4.0
Abhinav Sagar(参考訳) 本研究では,ポイントクラウドデータからの3次元物体検出の問題点をリアルタイムに解決する。 自動運転車が機能するには、認識コンポーネントが高精度かつ高速な推論の両方で現実世界の物体を検出することが非常に重要である。 本稿では,ポイントクラウドデータを用いた3Dオブジェクト検出のためのトレーニングと最適化の詳細とともに,ニューラルネットワークアーキテクチャを提案する。 本研究で使用するカスタム損失関数とともにアンカー設計を提案する。 本研究では,空間的注意モジュールとチャネル的注意モジュールの組み合わせを用いる。 結果のベンチマークと検証にはKitti 3D Birds Eye Viewデータセットを使用します。 本手法は,30FPS以上で走行する平均精度と速度の両面で,この領域における過去の技術状況を上回る。 最後に,ネットワークの性能が一般化可能であることを示すためのアブレーション研究を示す。 これにより、自動運転車のようなリアルタイムアプリケーションにデプロイすることが可能になる。

In this work, we address the problem of 3D object detection from point cloud data in real time. For autonomous vehicles to work, it is very important for the perception component to detect the real world objects with both high accuracy and fast inference. We propose a novel neural network architecture along with the training and optimization details for detecting 3D objects using point cloud data. We present anchor design along with custom loss functions used in this work. A combination of spatial and channel wise attention module is used in this work. We use the Kitti 3D Birds Eye View dataset for benchmarking and validating our results. Our method surpasses previous state of the art in this domain both in terms of average precision and speed running at > 30 FPS. Finally, we present the ablation study to demonstrate that the performance of our network is generalizable. This makes it a feasible option to be deployed in real time applications like self driving cars.
翻訳日:2021-07-27 19:45:55 公開日:2021-07-26
# (参考訳) ニューラルマシン翻訳における否定の再検討 [全文訳有]

Revisiting Negation in Neural Machine Translation ( http://arxiv.org/abs/2107.12203v1 )

ライセンス: CC BY 4.0
Gongbo Tang, Philipp R\"onchen, Rico Sennrich, Joakim Nivre(参考訳) 本稿では,英語-ドイツ語 (en-de) と英語-中国語 (en-zh) における否定の翻訳を自動的および手作業で評価する。 ニューラル・マシン・トランスフォーメーション(NMT)モデルの翻訳性能は,言語対と翻訳方向によって異なるが,より深く,より高度なネットワークによって向上したことを示す。 en-de, de-en, en-zh, zh-enの手動評価の精度は95.7%, 94.8%, 93.4%, 91.7%であった。 さらに,従来の統計機械翻訳において,より多彩な誤りプロファイルとは対照的に,NMTにおけるアンダートランスレーションが最も重要なエラータイプであることを示す。 否定の下位翻訳のルーツをよりよく理解するために,モデルの情報フローとトレーニングデータについて検討する。 我々の情報フロー分析では、否定の非翻訳の検出や修正に使用できる欠陥は明かされていないが、否定はトレーニング中にしばしば再現されるため、モデルがソースとターゲットの否定の間の信頼できるリンクを学ぶことがより困難になる可能性がある。 最終的に,NMTモデルが否定トークンと非否定トークンを極めてよく区別し,隠蔽状態における否定に関する情報をエンコードするが,改善の余地はないことを示す。

In this paper, we evaluate the translation of negation both automatically and manually, in English--German (EN--DE) and English--Chinese (EN--ZH). We show that the ability of neural machine translation (NMT) models to translate negation has improved with deeper and more advanced networks, although the performance varies between language pairs and translation directions. The accuracy of manual evaluation in EN-DE, DE-EN, EN-ZH, and ZH-EN is 95.7%, 94.8%, 93.4%, and 91.7%, respectively. In addition, we show that under-translation is the most significant error type in NMT, which contrasts with the more diverse error profile previously observed for statistical machine translation. To better understand the root of the under-translation of negation, we study the model's information flow and training data. While our information flow analysis does not reveal any deficiencies that could be used to detect or fix the under-translation of negation, we find that negation is often rephrased during training, which could make it more difficult for the model to learn a reliable link between source and target negation. We finally conduct intrinsic analysis and extrinsic probing tasks on negation, showing that NMT models can distinguish negation and non-negation tokens very well and encode a lot of information about negation in hidden states but nevertheless leave room for improvement.
翻訳日:2021-07-27 19:36:16 公開日:2021-07-26
# (参考訳) スケルトンベース行動認識のためのチャネルワイズトポロジー精密グラフ畳み込み [全文訳有]

Channel-wise Topology Refinement Graph Convolution for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2107.12213v1 )

ライセンス: CC BY 4.0
Yuxin Chen, Ziqi Zhang, Chunfeng Yuan, Bing Li, Ying Deng, Weiming Hu(参考訳) グラフ畳み込みネットワーク(GCN)は広く使われ、骨格に基づく行動認識において顕著な成果を上げている。 GCNでは、グラフトポロジが特徴集合を支配するため、代表的特徴を抽出する鍵となる。 本研究では,異なるトポロジーを動的に学習し,スケルトンに基づく動作認識のために,異なるチャネルの関節特徴を効果的に集約する新しいチャネルワイズトポロジー改良グラフ畳み込み(ctr-gc)を提案する。 提案する ctr-gc は,すべてのチャネルに先立って共有トポロジを学習し,各チャネルに対するチャネル固有の相関関係を改良することで,チャネル毎のトポロジーをモデル化する。 本手法では,余剰パラメータが少なく,チャネルワイズトポロジのモデル化の難しさを著しく低減する。 さらに、グラフ畳み込みを統一形式に再構成することで、CTR-GCはグラフ畳み込みの厳密な制約を緩和し、より強い表現能力をもたらす。 CTR-GCと時間モデリングモジュールを組み合わせることで、NTU RGB+D、NTU RGB+D 120、NW-UCLAデータセットの最先端手法よりも優れたCTR-GCNという強力なグラフ畳み込みネットワークを開発する。

Graph convolutional networks (GCNs) have been widely used and achieved remarkable results in skeleton-based action recognition. In GCNs, graph topology dominates feature aggregation and therefore is the key to extracting representative features. In this work, we propose a novel Channel-wise Topology Refinement Graph Convolution (CTR-GC) to dynamically learn different topologies and effectively aggregate joint features in different channels for skeleton-based action recognition. The proposed CTR-GC models channel-wise topologies through learning a shared topology as a generic prior for all channels and refining it with channel-specific correlations for each channel. Our refinement method introduces few extra parameters and significantly reduces the difficulty of modeling channel-wise topologies. Furthermore, via reformulating graph convolutions into a unified form, we find that CTR-GC relaxes strict constraints of graph convolutions, leading to stronger representation capability. Combining CTR-GC with temporal modeling modules, we develop a powerful graph convolutional network named CTR-GCN which notably outperforms state-of-the-art methods on the NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets.
翻訳日:2021-07-27 19:19:30 公開日:2021-07-26
# (参考訳) Local2Global: ローカルトレーニングによるグラフ上のグローバル表現学習のスケールアップ [全文訳有]

Local2Global: Scaling global representation learning on graphs via local training ( http://arxiv.org/abs/2107.12224v1 )

ライセンス: CC BY 4.0
Lucas G. S. Jeub, Giovanni Colavizza, Xiaowen Dong, Marya Bazzi, Mihai Cucuringu(参考訳) グラフ表現学習において,a-priori を用いて任意の埋め込み手法をスケールできる分散型 "local2global" アプローチを提案する。 local2globalアプローチでは、まず入力グラフを重複するサブグラフ(あるいは"パッチ")に分割し、各パッチのローカル表現を独立してトレーニングします。 第2のステップでは、局所表現を大域的に一貫した表現に組み合わせ、グループ同期を通じてパッチからの情報を用いて局所表現を最良に整列する剛体運動の集合を推定する。 既存の作業に対するローカル2グロバルの重要な特徴は、パッチが分散トレーニング中にしばしばコストのかかるパラメータ同期を必要とせずに独立してトレーニングされることである。 これによりローカル2グロバルは、入力グラフがメモリに収まらず、分散的に保存されるような大規模産業アプリケーションにスケールすることができる。 中規模のデータセット(最大$\sim$7Kノードと$\sim$200Kエッジ)の予備的な結果が期待でき、グローバルにトレーニングされた埋め込みに匹敵するローカル2globalのグラフ再構成性能が期待できる。 local2globalの大規模データとノード分類やリンク予測といった下流タスクへの応用に関する徹底的な評価が進行中の作業を構成する。

We propose a decentralised "local2global" approach to graph representation learning, that one can a-priori use to scale any embedding technique. Our local2global approach proceeds by first dividing the input graph into overlapping subgraphs (or "patches") and training local representations for each patch independently. In a second step, we combine the local representations into a globally consistent representation by estimating the set of rigid motions that best align the local representations using information from the patch overlaps, via group synchronization. A key distinguishing feature of local2global relative to existing work is that patches are trained independently without the need for the often costly parameter synchronisation during distributed training. This allows local2global to scale to large-scale industrial applications, where the input graph may not even fit into memory and may be stored in a distributed manner. Preliminary results on medium-scale data sets (up to $\sim$7K nodes and $\sim$200K edges) are promising, with a graph reconstruction performance for local2global that is comparable to that of globally trained embeddings. A thorough evaluation of local2global on large scale data and applications to downstream tasks, such as node classification and link prediction, constitutes ongoing work.
翻訳日:2021-07-27 19:05:27 公開日:2021-07-26
# (参考訳) 拡散としての信念の伝播 [全文訳有]

Belief Propagation as Diffusion ( http://arxiv.org/abs/2107.12230v1 )

ライセンス: CC BY 4.0
Olivier Peltre(参考訳) 本稿では,高次元確率分布の限界を推定する新しい信念伝達アルゴリズムを提案する。 これらは統計的システムの局所的な記述に関連する自然(co)ホモロジー的構成を含む。

We introduce novel belief propagation algorithms to estimate the marginals of a high dimensional probability distribution. They involve natural (co)homological constructions relevant for a localised description of statistical systems.
翻訳日:2021-07-27 18:55:42 公開日:2021-07-26
# (参考訳) 高解像度衛星画像からの大陸規模の建物検出 [全文訳有]

Continental-Scale Building Detection from High Resolution Satellite Imagery ( http://arxiv.org/abs/2107.12283v1 )

ライセンス: CC BY 4.0
Wojciech Sirko, Sergii Kashubin, Marvin Ritter, Abigail Annkah, Yasser Salah Edine Bouchareb, Yann Dauphin, Daniel Keysers, Maxim Neumann, Moustapha Cisse, John Quinn(参考訳) 建物の場所と足跡を特定することは、多くの実践的および科学的目的に不可欠である。 このような情報は、代替データソースが乏しい発展途上国で特に有用である。 本稿では,50cmの衛星画像を用いて,アフリカ大陸全域の建物を検出するためのモデルトレーニングパイプラインについて述べる。 衛星画像解析で広く使用されているu-netモデルから始め,アーキテクチャ,損失関数,正規化,事前トレーニング,自己学習,インスタンスセグメンテーション性能向上のための後処理などについて検討した。 1.75mの手動ラベル付きビルインスタンスを含むアフリカ全土の100k衛星画像のデータセットと、事前トレーニングとセルフトレーニングのためのさらなるデータセットを用いて実験を行った。 本報告では,MAP+0.12とソフトKL損失による自己学習(mAP+0.06)を含む,この種のモデルによる建物検出性能の向上手法について述べる。 その結果得られたパイプラインは、農村や都市のさまざまな状況でも良い結果を得、アフリカ全域で検出された足跡516mのオープンビルディングデータセットの作成に使用された。

Identifying the locations and footprints of buildings is vital for many practical and scientific purposes. Such information can be particularly useful in developing regions where alternative data sources may be scarce. In this work, we describe a model training pipeline for detecting buildings across the entire continent of Africa, using 50 cm satellite imagery. Starting with the U-Net model, widely used in satellite image analysis, we study variations in architecture, loss functions, regularization, pre-training, self-training and post-processing that increase instance segmentation performance. Experiments were carried out using a dataset of 100k satellite images across Africa containing 1.75M manually labelled building instances, and further datasets for pre-training and self-training. We report novel methods for improving performance of building detection with this type of model, including the use of mixup (mAP +0.12) and self-training with soft KL loss (mAP +0.06). The resulting pipeline obtains good results even on a wide variety of challenging rural and urban contexts, and was used to create the Open Buildings dataset of 516M Africa-wide detected footprints.
翻訳日:2021-07-27 18:46:48 公開日:2021-07-26
# (参考訳) 肺超音波映像におけるb線検出:デカルトと極性表現 [全文訳有]

B-line Detection in Lung Ultrasound Videos: Cartesian vs Polar Representation ( http://arxiv.org/abs/2107.12291v1 )

ライセンス: CC BY 4.0
Hamideh Kerdegari, Phung Tran Huy Nhat, Angela McBride, Luigi Pisani, Reza Razavi, Louise Thwaites, Sophie Yacoub, and Alberto Gomez(参考訳) 重度デングの結果として,B線アーチファクトの出現などの肺異常を評価できる集中治療装置(ICU)では,肺超音波画像(LUS)が普及している。 これらの人工物はLUS画像に現れてすぐに消え、手動による検出は非常に困難である。 また、音波の伝播に伴って放射状に伸びる。 その結果,これらの画像の自動画像解析に極性表現の方が適切である可能性が示唆された。 本稿では,LUSビデオ中のB線を自動的に検出する,注目に基づく畳み込み+LSTMモデルを提案する。 提案した極性表現フレームワークは,B線分類におけるカルテシアン表現と比較して競争性能が向上し,アテンション機構がより優れたローカライゼーションを実現することを示す。

Lung ultrasound (LUS) imaging is becoming popular in the intensive care units (ICU) for assessing lung abnormalities such as the appearance of B-line artefacts as a result of severe dengue. These artefacts appear in the LUS images and disappear quickly, making their manual detection very challenging. They also extend radially following the propagation of the sound waves. As a result, we hypothesize that a polar representation may be more adequate for automatic image analysis of these images. This paper presents an attention-based Convolutional+LSTM model to automatically detect B-lines in LUS videos, comparing performance when image data is taken in Cartesian and polar representations. Results indicate that the proposed framework with polar representation achieves competitive performance compared to the Cartesian representation for B-line classification and that attention mechanism can provide better localization.
翻訳日:2021-07-27 18:33:35 公開日:2021-07-26
# (参考訳) タスクインクリメンタル学習を忘れることなく学習を擁護する [全文訳有]

In Defense of the Learning Without Forgetting for Task Incremental Learning ( http://arxiv.org/abs/2107.12304v1 )

ライセンス: CC BY 4.0
Guy Oren and Lior Wolf(参考訳) 破滅的な忘れは、オンラインのタスクストリームが提示される継続的学習システムにとって、大きな課題の1つである。 この分野はかなりの関心を集めており、この課題を克服するための様々な手法が提示されている。 LwF(Learning without Forgetting)は、最も早くよく引用される手法の一つである。 以前のタスクからのサンプルの保存を必要とせず、実装をシンプルにし、知識の蒸留に頼ることで十分な根拠を得られるという利点がある。 しかし、一般的な見解は、2つのタスクが導入されたとき、比較的少ない量の忘れるが、長いタスクのシーケンスにスケールできないというものである。 本稿では, タスクインクリメンタルシナリオにおいて, LwF が得られた結果が, タスクインクリメンタルシナリオにおける最新のアルゴリズムを上回っていることを示す。 この改良された性能は、cifar-100とtiny-imagenetの広範な実験によって実証され、他の方法も同様の改善から利益を得ることができないことが示されている。

Catastrophic forgetting is one of the major challenges on the road for continual learning systems, which are presented with an on-line stream of tasks. The field has attracted considerable interest and a diverse set of methods have been presented for overcoming this challenge. Learning without Forgetting (LwF) is one of the earliest and most frequently cited methods. It has the advantages of not requiring the storage of samples from the previous tasks, of implementation simplicity, and of being well-grounded by relying on knowledge distillation. However, the prevailing view is that while it shows a relatively small amount of forgetting when only two tasks are introduced, it fails to scale to long sequences of tasks. This paper challenges this view, by showing that using the right architecture along with a standard set of augmentations, the results obtained by LwF surpass the latest algorithms for task incremental scenario. This improved performance is demonstrated by an extensive set of experiments over CIFAR-100 and Tiny-ImageNet, where it is also shown that other methods cannot benefit as much from similar improvements.
翻訳日:2021-07-27 18:26:53 公開日:2021-07-26
# (参考訳) 周期摂動モデルによる長波長コヒーレント光ファイバー通信のエンドツーエンド深層学習 [全文訳有]

End-to-End Deep Learning of Long-Haul Coherent Optical Fiber Communications via Regular Perturbation Model ( http://arxiv.org/abs/2107.12320v1 )

ライセンス: CC BY 4.0
Vladislav Neskorniuk, Andrea Carnio, Vinod Bajaj, Domenico Marsella, Sergei K. Turitsyn, Jaroslaw E. Prilepsky, Vahid Aref(参考訳) 本稿では「並列化可能な」摂動チャネルモデルを用いたコヒーレント光通信のためのエンドツーエンドオートエンコーダベース学習を提案する。 我々は,0.18bit/sym./polの相互情報ゲインを実現するために,コンステレーションシェーピングと非線形プリエンファシスを共同で最適化した。 64GBのデュアルポーラライゼーション単一チャネル伝送を30x80 km G.652 SMFリンクでEDFAでシミュレーションする。

We present a novel end-to-end autoencoder-based learning for coherent optical communications using a "parallelizable" perturbative channel model. We jointly optimized constellation shaping and nonlinear pre-emphasis achieving mutual information gain of 0.18 bits/sym./pol. simulating 64 GBd dual-polarization single-channel transmission over 30x80 km G.652 SMF link with EDFAs.
翻訳日:2021-07-27 18:12:00 公開日:2021-07-26
# (参考訳) MAG-Net:Mutli-task attention guideed network for brain tumor segmentation and classification [全文訳有]

MAG-Net: Mutli-task attention guided network for brain tumor segmentation and classification ( http://arxiv.org/abs/2107.12321v1 )

ライセンス: CC BY 4.0
Sachin Gupta, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) 脳腫瘍は、すべての年齢層で見られる最も一般的で致命的な疾患である。 一般的に、MRIは放射線医による腫瘍の同定と診断に用いられている。 腫瘍領域とそのタイプを正しく同定することは、フォローアップ治療計画による腫瘍の診断に役立つ。 しかし、そのようなスキャンを分析する放射線科医にとっては、複雑で時間のかかる作業である。 深層学習に基づくコンピュータ支援診断システムにより,MRI画像を用いて脳腫瘍領域を分類・分類するためのマルチタスク注意誘導エンコーダネットワーク(MAG-Net)を提案する。 The MAG-Net is trained and evaluation on the Figshare dataset that includes coronal, axial, and sagittal view with three type of tumors meningioma, glioma, pituitary tumor。 徹底的な実験により、既存の最先端モデルと比較して有望な結果が得られ、他の最先端モデルではトレーニングパラメータが最小となった。

Brain tumor is the most common and deadliest disease that can be found in all age groups. Generally, MRI modality is adopted for identifying and diagnosing tumors by the radiologists. The correct identification of tumor regions and its type can aid to diagnose tumors with the followup treatment plans. However, for any radiologist analysing such scans is a complex and time-consuming task. Motivated by the deep learning based computer-aided-diagn osis systems, this paper proposes multi-task attention guided encoder-decoder network (MAG-Net) to classify and segment the brain tumor regions using MRI images. The MAG-Net is trained and evaluated on the Figshare dataset that includes coronal, axial, and sagittal views with 3 types of tumors meningioma, glioma, and pituitary tumor. With exhaustive experimental trials the model achieved promising results as compared to existing state-of-the-art models, while having least number of training parameters among other state-of-the-art models.
翻訳日:2021-07-27 18:04:39 公開日:2021-07-26
# (参考訳) ハードウェアセキュリティを自動化するグラフ学習ツールhw2vec [全文訳有]

HW2VEC: A Graph Learning Tool for Automating Hardware Security ( http://arxiv.org/abs/2107.12328v1 )

ライセンス: CC BY 4.0
Shih-Yuan Yu, Rozhin Yasaei, Qingrong Zhou, Tommy Nguyen, Mohammad Abdullah Al Faruque(参考訳) ハードウェア設計の時間-市場圧力と継続的な成長の複雑さは、集積回路(IC)サプライチェーンのグローバル化を促進している。 しかし、このようなグローバル化はICサプライチェーンの各フェーズに様々なセキュリティ脅威をもたらす。 機械学習(ML)の進歩はハードウェアセキュリティのフロンティアを推し進めてきたが、従来のMLベースの手法のほとんどは、ユークリッド以外のデータである回路の堅牢な特徴表現を手動で見つけるだけで、望ましい性能を達成することができる。 その結果,電子設計自動化(EDA)分野において,設計フローを改善するためのグラフ学習を用いた回路のモデル化が注目されている。 しかし、サポートツールの欠如のため、ハードウェアのセキュリティ問題を解決するためにグラフ学習を適用する作業はごくわずかである。 さらに注意を引き付けるため,我々は,新参者がグラフを用いたハードウェアセキュリティアプリケーションを研究する際の閾値を下げる,オープンソースのグラフ学習ツールであるhw2vecを提案する。 HW2VECは、さまざまな抽象化レベル(登録転送レベルまたはゲートレベルのネットリスト)のハードウェア設計からグラフ表現を抽出する自動パイプラインを提供する。 さらに、hw2vecのユーザは、非ユークリッドのハードウェアデザインをeuclidean graph embeddedsに自動的に変換して、問題を解決することもできる。 本稿では,HW2VECがハードウェアトロイの木馬検出と知的財産海賊検出という2つのハードウェアセキュリティ関連タスクにおいて,最先端の性能を実現することを実証する。 HW2VECにおけるグラフ抽出と学習パイプラインの時間プロファイル結果を提供する。

The time-to-market pressure and continuous growing complexity of hardware designs have promoted the globalization of the Integrated Circuit (IC) supply chain. However, such globalization also poses various security threats in each phase of the IC supply chain. Although the advancements of Machine Learning (ML) have pushed the frontier of hardware security, most conventional ML-based methods can only achieve the desired performance by manually finding a robust feature representation for circuits that are non-Euclidean data. As a result, modeling these circuits using graph learning to improve design flows has attracted research attention in the Electronic Design Automation (EDA) field. However, due to the lack of supporting tools, only a few existing works apply graph learning to resolve hardware security issues. To attract more attention, we propose HW2VEC, an open-source graph learning tool that lowers the threshold for newcomers to research hardware security applications with graphs. HW2VEC provides an automated pipeline for extracting a graph representation from a hardware design in various abstraction levels (register transfer level or gate-level netlist). Besides, HW2VEC users can automatically transform the non-Euclidean hardware designs into Euclidean graph embeddings for solving their problems. In this paper, we demonstrate that HW2VEC can achieve state-of-the-art performance on two hardware security-related tasks: Hardware Trojan Detection and Intellectual Property Piracy Detection. We provide the time profiling results for the graph extraction and the learning pipelines in HW2VEC.
翻訳日:2021-07-27 17:55:44 公開日:2021-07-26
# (参考訳) アンタングル表現を用いた構造保存型マルチドメインステインカラー拡張 [全文訳有]

Structure-Preserving Multi-Domain Stain Color Augmentation using Style-Transfer with Disentangled Representations ( http://arxiv.org/abs/2107.12357v1 )

ライセンス: CC BY 4.0
Sophia J. Wagner, Nadieh Khalili, Raghav Sharma, Melanie Boxberg, Carsten Marr, Walter de Back, Tingying Peng(参考訳) デジタル病理学において、異なる染色手順とスキャナーは、全体スライド画像(wsis)にかなりの色変化を引き起こす。 これらの色変化は、学習領域から外部病理データへの深層学習手法の一般化が不十分な結果をもたらす。 テスト性能を向上させるために、試験領域とトレーニング領域のばらつきを減らすために、染色正規化技術が使用される。 あるいは、テスト時に色正規化の余分なステップなしで、より堅牢なモデルに繋がるトレーニング中に色拡張を適用することもできる。 そこで本研究では,多彩な組織学的染色色をシミュレートし,トレーニング中にニューラルネットワークが変化しないような新しい色拡張法であるヒスタウガンを提案する。 画像から画像への変換のためのGAN(generative adversarial network)に基づいて,画像の内容,すなわち形態的組織構造を染色色属性から切り離す。 複数のドメインでトレーニングすることができるため、スライド作成および撮像プロセスで導入された他のドメイン固有のバリエーションと同様に、異なる染色色をカバーできることを学ぶことができる。 我々は、HistAuGANが、公開データセットCamelyon17の分類タスクにおいて、従来の色増色技術よりも優れており、バッチ効果を緩和できることを実証した。

In digital pathology, different staining procedures and scanners cause substantial color variations in whole-slide images (WSIs), especially across different laboratories. These color shifts result in a poor generalization of deep learning-based methods from the training domain to external pathology data. To increase test performance, stain normalization techniques are used to reduce the variance between training and test domain. Alternatively, color augmentation can be applied during training leading to a more robust model without the extra step of color normalization at test time. We propose a novel color augmentation technique, HistAuGAN, that can simulate a wide variety of realistic histology stain colors, thus making neural networks stain-invariant when applied during training. Based on a generative adversarial network (GAN) for image-to-image translation, our model disentangles the content of the image, i.e., the morphological tissue structure, from the stain color attributes. It can be trained on multiple domains and, therefore, learns to cover different stain colors as well as other domain-specific variations introduced in the slide preparation and imaging process. We demonstrate that HistAuGAN outperforms conventional color augmentation techniques on a classification task on the publicly available dataset Camelyon17 and show that it is able to mitigate present batch effects.
翻訳日:2021-07-27 17:37:45 公開日:2021-07-26
# (参考訳) ImplicitからExplicitへのフィードバック:オンラインユーザのシーケンシャルな行動と長期的嗜好をモデル化するためのディープニューラルネットワーク [全文訳有]

From Implicit to Explicit feedback: A deep neural network for modeling sequential behaviours and long-short term preferences of online users ( http://arxiv.org/abs/2107.12325v1 )

ライセンス: CC BY 4.0
Quyen Tran, Lam Tran, Linh Chu Hai, Linh Ngo Van, Khoat Than(参考訳) 本研究では,レコメンデーションシステムにおける複数種類の行動を利用する利点について検討する。 直感的には、ユーザーは明確な決定を下す前に暗黙のアクション(例えばクリック)をしなければならない(例えば購入)。 これまでの研究では、暗黙のフィードバックと明示的なフィードバックは、有用な推奨のために異なる役割を持つことが示された。 しかしながら、これらの研究は暗黙的および明示的な振る舞いを別々に活用するか、ユーザとアイテム間のシーケンシャルなインタラクションの意味を無視するかのどちらかである。 また,ユーザの嗜好が長期的興味と短期的関心の組み合わせであるとする仮説から考察する。 本稿では,Deep Learningアーキテクチャを提案する。 ひとつは、アクションのシーケンスを通じてユーザの興味を悪用するために、暗黙的に明示的な(項目)です。 また,BERT-ITE とBERT-ITE-Si という,変換器ベース (BERT をベースとした) アーキテクチャによる双方向エンコーダ表現を用いた ITE の2つのバージョンでは,ユーザの長期的および短期的嗜好を副次的に組み合わせてユーザ表現を強化する。 実験結果から,我々のモデルは従来の最先端モデルよりも優れており,暗黙的・明示的な順序を活用できること,および2つの大規模データセットにおける長期的・短期的嗜好を組み合わせることの有効性が示された。

In this work, we examine the advantages of using multiple types of behaviour in recommendation systems. Intuitively, each user has to do some implicit actions (e.g., click) before making an explicit decision (e.g., purchase). Previous studies showed that implicit and explicit feedback have different roles for a useful recommendation. However, these studies either exploit implicit and explicit behaviour separately or ignore the semantic of sequential interactions between users and items. In addition, we go from the hypothesis that a user's preference at a time is a combination of long-term and short-term interests. In this paper, we propose some Deep Learning architectures. The first one is Implicit to Explicit (ITE), to exploit users' interests through the sequence of their actions. And two versions of ITE with Bidirectional Encoder Representations from Transformers based (BERT-based) architecture called BERT-ITE and BERT-ITE-Si, which combine users' long- and short-term preferences without and with side information to enhance user representation. The experimental results show that our models outperform previous state-of-the-art ones and also demonstrate our views on the effectiveness of exploiting the implicit to explicit order as well as combining long- and short-term preferences in two large-scale datasets.
翻訳日:2021-07-27 17:21:09 公開日:2021-07-26
# 思考フローネット:単一予測からモデル思考のトレインへ

Thought Flow Nets: From Single Predictions to Trains of Model Thought ( http://arxiv.org/abs/2107.12220v1 )

ライセンス: Link先を確認
Hendrik Schuff, Heike Adel, Ngoc Thang Vu(参考訳) 人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。 その代わりに、直感的な決定から始まり、それを反映し、ミスを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。 したがって、彼らは一連の考えを作成し、最終的に決定的な決定に達する一連の考えに従う。 それとは対照的に、今日の神経分類モデルは、入力を1つの固定された出力にマッピングするように訓練されている。 本稿では,モデルに2つ目,3つ目,k$-thの思考の機会を与える方法について検討する。 ヘーゲルの弁証法から着想を得て、既存の分類器のクラス予測(イメージクラスフォレストなど)を一連の予測(forest $\rightarrow$ tree $\rightarrow$ mushroom など)に変換する手法を提案する。 具体的には,モデルの正確さを推定するために訓練された補正モジュールと,予測の勾配に基づく反復予測更新を提案する。 我々の手法は、クラス確率分布上の動的システムに$\unicode{x2014}$思考フローをもたらす。 我々は,コンピュータビジョンと自然言語処理から多様なデータセットとタスクを評価する。 我々は驚くほど複雑だが直感的な行動を観察し,提案手法(i)が誤分類を正すこと,(ii)モデル性能の強化,(iii)高レベルの敵攻撃に対して頑健であること,(iv)ラベル分散シフト設定において最大4%の精度向上が可能であること,(iv)単一分布予測では目に見えないモデル知識を明らかにするモデル解釈可能性のツールを提供することを実証した。

When humans solve complex problems, they rarely come up with a decision right-away. Instead, they start with an intuitive decision, reflect upon it, spot mistakes, resolve contradictions and jump between different hypotheses. Thus, they create a sequence of ideas and follow a train of thought that ultimately reaches a conclusive decision. Contrary to this, today's neural classification models are mostly trained to map an input to one single and fixed output. In this paper, we investigate how we can give models the opportunity of a second, third and $k$-th thought. We take inspiration from Hegel's dialectics and propose a method that turns an existing classifier's class prediction (such as the image class forest) into a sequence of predictions (such as forest $\rightarrow$ tree $\rightarrow$ mushroom). Concretely, we propose a correction module that is trained to estimate the model's correctness as well as an iterative prediction update based on the prediction's gradient. Our approach results in a dynamic system over class probability distributions $\unicode{x2014}$ the thought flow. We evaluate our method on diverse datasets and tasks from computer vision and natural language processing. We observe surprisingly complex but intuitive behavior and demonstrate that our method (i) can correct misclassifications, (ii) strengthens model performance, (iii) is robust to high levels of adversarial attacks, (iv) can increase accuracy up to 4% in a label-distribution-s hift setting and (iv) provides a tool for model interpretability that uncovers model knowledge which otherwise remains invisible in a single distribution prediction.
翻訳日:2021-07-27 16:28:45 公開日:2021-07-26
# 新型コロナウイルスワクチン情報のための議論対話システム

An Argumentative Dialogue System for COVID-19 Vaccine Information ( http://arxiv.org/abs/2107.12079v1 )

ライセンス: Link先を確認
Bettina Fazzinga, Andrea Galassi, Paolo Torroni(参考訳) 対話システムは、ユーザーとのタイムリーかつインタラクティブなコミュニケーションをサポートするためにaiで広く使われている。 本稿では,計算議論と最先端言語技術を活用した汎用対話システムアーキテクチャを提案する。 本研究は、新型コロナウイルスのワクチン情報を用いたシステムの構築と評価を行う。

Dialogue systems are widely used in AI to support timely and interactive communication with users. We propose a general-purpose dialogue system architecture that leverages computational argumentation and state-of-the-art language technologies. We illustrate and evaluate the system using a COVID-19 vaccine information case study.
翻訳日:2021-07-27 16:28:00 公開日:2021-07-26
# 3D AGSE-VNet: 自動脳腫瘍MRIデータセグメンテーションフレームワーク

3D AGSE-VNet: An Automatic Brain Tumor MRI Data Segmentation Framework ( http://arxiv.org/abs/2107.12046v1 )

ライセンス: Link先を確認
Xi Guan, Guang Yang, Jianming Ye, Weiji Yang, Xiaomei Xu, Weiwei Jiang, Xiaobo Lai(参考訳) 背景:グリオーマは最も一般的な脳悪性腫瘍であり、致死率が高く3%以上の死亡率があり、人間の健康を危険にさらす。 臨床で脳腫瘍を取得する主要な方法はMRIである。 多モードMRI画像からの脳腫瘍領域の分離は、治療検査、診断後のモニタリング、患者の効果評価に有用である。 しかし, 臨床脳腫瘍セグメンテーションにおける一般的な手術は手動セグメンテーションであり, 術者間での時間と性能の差が大きいため, 一貫した正確な自動セグメンテーション法が急務である。 方法: 以上の課題を満たすため,AGSE-VNetと呼ばれる自動脳腫瘍MRIデータセグメンテーションフレームワークを提案する。 本研究では,各エンコーダにswed and excite(se)モジュールを付加し,各デコーダにアテンションガイドフィルタ(ag)モジュールを付加し,チャネル関係を利用してチャネル内の有用な情報を自動的に強化し,無駄な情報を抑制するとともに,アテンション機構を用いてエッジ情報をガイドし,ノイズ等の無関係な情報の影響を除去した。 結果:brats2020チャレンジオンライン検証ツールを用いてアプローチを評価した。 検証の焦点は、腫瘍全体のDiceスコア(WT)、腫瘍コア(TC)、造影腫瘍(ET)はそれぞれ0.68、0.85、0.70である。 結語:MRI画像は強度が異なるが,AGSE-VNetは腫瘍の大きさの影響を受けず,より正確に3つの領域の特徴を抽出することができる。

Background: Glioma is the most common brain malignant tumor, with a high morbidity rate and a mortality rate of more than three percent, which seriously endangers human health. The main method of acquiring brain tumors in the clinic is MRI. Segmentation of brain tumor regions from multi-modal MRI scan images is helpful for treatment inspection, post-diagnosis monitoring, and effect evaluation of patients. However, the common operation in clinical brain tumor segmentation is still manual segmentation, lead to its time-consuming and large performance difference between different operators, a consistent and accurate automatic segmentation method is urgently needed. Methods: To meet the above challenges, we propose an automatic brain tumor MRI data segmentation framework which is called AGSE-VNet. In our study, the Squeeze and Excite (SE) module is added to each encoder, the Attention Guide Filter (AG) module is added to each decoder, using the channel relationship to automatically enhance the useful information in the channel to suppress the useless information, and use the attention mechanism to guide the edge information and remove the influence of irrelevant information such as noise. Results: We used the BraTS2020 challenge online verification tool to evaluate our approach. The focus of verification is that the Dice scores of the whole tumor (WT), tumor core (TC) and enhanced tumor (ET) are 0.68, 0.85 and 0.70, respectively. Conclusion: Although MRI images have different intensities, AGSE-VNet is not affected by the size of the tumor, and can more accurately extract the features of the three regions, it has achieved impressive results and made outstanding contributions to the clinical diagnosis and treatment of brain tumor patients.
翻訳日:2021-07-27 16:27:17 公開日:2021-07-26
# 視覚認識のためのコンテクストトランスフォーマーネットワーク

Contextual Transformer Networks for Visual Recognition ( http://arxiv.org/abs/2107.12292v1 )

ライセンス: Link先を確認
Yehao Li and Ting Yao and Yingwei Pan and Tao Mei(参考訳) 自己着脱によるトランスフォーマーは自然言語処理分野の革新につながり、最近では多くのコンピュータビジョンタスクにおいて競争的な結果をもたらすトランスフォーマスタイルのアーキテクチャ設計の出現を刺激している。 それにもかかわらず、既存の設計の多くは2次元特徴マップ上で直接自己注意を用いて、それぞれの空間的位置における孤立したクエリとキーのペアに基づいてアテンション行列を取得するが、近隣のキーの間でリッチなコンテキストは未公開のまま残している。 本研究では,視覚認識のための新しいTransformerスタイルのモジュールであるContextual Transformer(CoT)ブロックを設計する。 このような設計は、入力キー間のコンテキスト情報を完全に活用し、動的注意行列の学習を誘導し、視覚表現の能力を強化する。 技術的には、CoTブロックは入力キーを$3\times3$畳み込みによって最初にコンテキスト的にエンコードし、入力の静的なコンテキスト表現に繋がる。 さらに、エンコードされたキーと入力クエリを結合し、2つの連続する1\times1$畳み込みを通じて動的多頭注意行列を学習する。 学習した注目行列は入力値に乗じて、入力の動的文脈表現を実現する。 静的および動的文脈表現の融合は最終的に出力として扱われる。 私たちのCoTブロックは、ResNetアーキテクチャの3ドル3ドルの畳み込みを簡単に置き換えることができ、Contextual Transformer Networks (CoTNet)という名前のTransformerスタイルのバックボーンが得られる、という視点で魅力的です。 幅広いアプリケーション(画像認識、オブジェクト検出、インスタンスセグメンテーションなど)に対する広範な実験を通じて、より強力なバックボーンとしてのCoTNetの優位性を検証する。 ソースコードは \url{https://github.com/J DAI-CV/CoTNet} で入手できる。

Transformer with self-attention has led to the revolutionizing of natural language processing field, and recently inspires the emergence of Transformer-style architecture design with competitive results in numerous computer vision tasks. Nevertheless, most of existing designs directly employ self-attention over a 2D feature map to obtain the attention matrix based on pairs of isolated queries and keys at each spatial location, but leave the rich contexts among neighbor keys under-exploited. In this work, we design a novel Transformer-style module, i.e., Contextual Transformer (CoT) block, for visual recognition. Such design fully capitalizes on the contextual information among input keys to guide the learning of dynamic attention matrix and thus strengthens the capacity of visual representation. Technically, CoT block first contextually encodes input keys via a $3\times3$ convolution, leading to a static contextual representation of inputs. We further concatenate the encoded keys with input queries to learn the dynamic multi-head attention matrix through two consecutive $1\times1$ convolutions. The learnt attention matrix is multiplied by input values to achieve the dynamic contextual representation of inputs. The fusion of the static and dynamic contextual representations are finally taken as outputs. Our CoT block is appealing in the view that it can readily replace each $3\times3$ convolution in ResNet architectures, yielding a Transformer-style backbone named as Contextual Transformer Networks (CoTNet). Through extensive experiments over a wide range of applications (e.g., image recognition, object detection and instance segmentation), we validate the superiority of CoTNet as a stronger backbone. Source code is available at \url{https://github.com/J DAI-CV/CoTNet}.
翻訳日:2021-07-27 16:26:47 公開日:2021-07-26
# 感情定義のモデル化によるきめ細かい感情予測

Fine-Grained Emotion Prediction by Modeling Emotion Definitions ( http://arxiv.org/abs/2107.12135v1 )

ライセンス: Link先を確認
Gargi Singh and Dhanajit Brahma and Piyush Rai and Ashutosh Modi(参考訳) 本稿では,感情定義モデルを用いて,テキスト中のきめ細かな感情予測を行う新しいフレームワークを提案する。 提案手法は,感情予測の主要なタスクを訓練しながら,感情の定義を補助タスクとしてモデル化するマルチタスク学習フレームワークである。 マスキング言語モデリングとクラス定義予測タスクを用いて定義をモデル化する。 我々のモデルは、詳細な感情データセットGoEmotionsの既存の最先端よりも優れています。 さらに,このモデルを用いて,感情のラベルセットやドメイン,サイズが変化する感情予測において,他のベンチマークデータセットの転送学習を行うことができることを示した。 提案モデルは,モデルの一般化能力を実証する伝達学習実験のベースラインよりも優れている。

In this paper, we propose a new framework for fine-grained emotion prediction in the text through emotion definition modeling. Our approach involves a multi-task learning framework that models definitions of emotions as an auxiliary task while being trained on the primary task of emotion prediction. We model definitions using masked language modeling and class definition prediction tasks. Our models outperform existing state-of-the-art for fine-grained emotion dataset GoEmotions. We further show that this trained model can be used for transfer learning on other benchmark datasets in emotion prediction with varying emotion label sets, domains, and sizes. The proposed models outperform the baselines on transfer learning experiments demonstrating the generalization capability of the models.
翻訳日:2021-07-27 16:25:42 公開日:2021-07-26
# DYPLODOC: 文書分類のための動的プロット

DYPLODOC: Dynamic Plots for Document Classification ( http://arxiv.org/abs/2107.12226v1 )

ライセンス: Link先を確認
Anastasia Malysheva, Alexey Tikhonov, Ivan P. Yamshchikov(参考訳) ナラティブ生成と分析は現代自然言語処理の領域ではいまだに残っているが、様々な応用において不可欠である。 本稿ではプロットダイナミクスの特徴抽出手法を提案する。 本稿では,そのジャンルのメタ情報と,それらから抽出した動的プロットととともに,13万番組のプロット記述からなるデータセットを提案する。 提案するプロットダイナミクス抽出ツールの有効性を検証し,ナラティブ解析と生成のタスクへの適用可能性について考察した。

Narrative generation and analysis are still on the fringe of modern natural language processing yet are crucial in a variety of applications. This paper proposes a feature extraction method for plot dynamics. We present a dataset that consists of the plot descriptions for thirteen thousand TV shows alongside meta-information on their genres and dynamic plots extracted from them. We validate the proposed tool for plot dynamics extraction and discuss possible applications of this method to the tasks of narrative analysis and generation.
翻訳日:2021-07-27 16:25:34 公開日:2021-07-26
# Few-Shotテキスト分類のためのメタラーニング対応ドメイン適応ネットワーク

Meta-Learning Adversarial Domain Adaptation Network for Few-Shot Text Classification ( http://arxiv.org/abs/2107.12262v1 )

ライセンス: Link先を確認
ChengCheng Han, Zeqiu Fan, Dongxiang Zhang, Minghui Qiu, Ming Gao, Aoying Zhou(参考訳) メタラーニングは、数ショットのテキスト分類に取り組むためのトレンド技術として現れ、最先端のパフォーマンスを達成した。 しかし、既存のソリューションは、新しいタスクに適応するモデルの能力を無視しながら、語彙的特徴の活用とトレーニングデータへの分布的署名に大きく依存している。 本稿では,モデルの適応性を向上し,新しいクラスに対して高品質なテキスト埋め込みを生成することを目的とした,敵対的ドメイン適応ネットワークと統合した新しいメタ学習フレームワークを提案する。 4つのベンチマークデータセットで広範な実験を行い,全データセットの最先端モデルに対して明確な優位性を示す。 特に、20のニュースグループのデータセットの1ショット分類と5ショット分類の精度は52.1%から59.6%に、それぞれ68.3%から77.8%に向上している。

Meta-learning has emerged as a trending technique to tackle few-shot text classification and achieved state-of-the-art performance. However, existing solutions heavily rely on the exploitation of lexical features and their distributional signatures on training data, while neglecting to strengthen the model's ability to adapt to new tasks. In this paper, we propose a novel meta-learning framework integrated with an adversarial domain adaptation network, aiming to improve the adaptive ability of the model and generate high-quality text embedding for new classes. Extensive experiments are conducted on four benchmark datasets and our method demonstrates clear superiority over the state-of-the-art models in all the datasets. In particular, the accuracy of 1-shot and 5-shot classification on the dataset of 20 Newsgroups is boosted from 52.1% to 59.6%, and from 68.3% to 77.8%, respectively.
翻訳日:2021-07-27 16:25:28 公開日:2021-07-26
# 良質な敵攻撃:善意のためのトリッキングアルゴリズム

Benign Adversarial Attack: Tricking Algorithm for Goodness ( http://arxiv.org/abs/2107.11986v1 )

ライセンス: Link先を確認
Xian Zhao, Jiaming Zhang, Zhiyu Lin and Jitao Sang(参考訳) 多くの分野で応用が成功したにもかかわらず、今日の機械学習アルゴリズムは、悪意のある例に対する脆弱性のような悪名高い問題に苦しめられている。 本稿では、敵の攻撃と防御の間の猫とマウスのゲームに陥るだけでなく、敵の例を考察し、良質な用途で活用できるかどうかを探求する別の視点を提供する。 まず,タスク関係と意味的指向に基づく視覚情報の新しい分類法を提案する。 逆例の出現は、アルゴリズムがタスク関連非意味情報を活用することに起因する。 従来の機械学習メカニズムでは無視されることが多いが,タスク関連非意味情報には,(1)アルゴリズム専用,(2)共通弱点の反映,(3)特徴として活用可能な3つの興味深い特徴がある。 そこで本研究では,(1)敵対的チューリングテスト,(2)悪質なアルゴリズムの拒絶,(3)敵対的データ拡張という3方向の善行の例を活用すべく,良質な敵対的攻撃と呼ばれる勇敢な新しいアイデアを提案する。 それぞれの方向は動機解明、正当化分析、そしてその可能性を示すためのプロトタイプアプリケーションによって位置づけられる。

In spite of the successful application in many fields, machine learning algorithms today suffer from notorious problems like vulnerability to adversarial examples. Beyond falling into the cat-and-mouse game between adversarial attack and defense, this paper provides alternative perspective to consider adversarial example and explore whether we can exploit it in benign applications. We first propose a novel taxonomy of visual information along task-relevance and semantic-orientation . The emergence of adversarial example is attributed to algorithm's utilization of task-relevant non-semantic information. While largely ignored in classical machine learning mechanisms, task-relevant non-semantic information enjoys three interesting characteristics as (1) exclusive to algorithm, (2) reflecting common weakness, and (3) utilizable as features. Inspired by this, we present brave new idea called benign adversarial attack to exploit adversarial examples for goodness in three directions: (1) adversarial Turing test, (2) rejecting malicious algorithm, and (3) adversarial data augmentation. Each direction is positioned with motivation elaboration, justification analysis and prototype applications to showcase its potential.
翻訳日:2021-07-27 16:24:14 公開日:2021-07-26
# 視覚的物体追跡の可視化学習

Learning to Adversarially Blur Visual Object Tracking ( http://arxiv.org/abs/2107.12085v1 )

ライセンス: Link先を確認
Qing Guo and Ziyi Cheng and Felix Juefei-Xu and Lei Ma and Xiaofei Xie and Yang Liu and Jianjun Zhao(参考訳) 被曝時の被写体やカメラの移動による運動のぼかしは、視覚的物体追跡にとって重要な課題であり、追跡精度に大きな影響を及ぼす。 本研究では,新たなアングル,すなわち対向的ぼかし攻撃(ABA)による動きのぼかしに対する視覚的物体追跡器の堅牢性について検討する。 当社の主な目的は、トラッキングプロセス中に最先端のトラッカーを誤解させながら、入力フレームを自然なモーションブララーにオンライン転送することにあります。 そこで我々はまず,モーション情報と光蓄積過程を考慮した,モーションブラーの生成原理に基づく視覚追跡のためのモーションブラー合成法を設計する。 この合成手法により、追跡w.r.tに対する対向目的関数を反復的に最適化し、textit{optimization-based ABA(OP-ABA)を提案する。 動きと光の蓄積パラメータ OP-ABAは自然な敵の例を生成することができるが、このイテレーションは重い時間コストを引き起こす可能性があるため、リアルタイムトラッカーを攻撃するには適さない。 この問題を軽減するために, OP-ABAの誘導により, 対向運動・蓄積予測ネットワーク(JAMANet)を設計・訓練し, 対向運動・蓄積パラメータを1ステップで効率的に推定できる「textit{one-step ABA(OS-ABA)」を提案する。 一般的な4つのデータセット (\eg, OTB100, VOT2018, UAV123, LaSOT) に対する実験により、我々の手法は、高い転送性を持つ4つの最先端トラッカーに対して、大幅な精度低下を引き起こすことを示した。 ソースコードはhttps://github.com/t singqguo/abaにある。

Motion blur caused by the moving of the object or camera during the exposure can be a key challenge for visual object tracking, affecting tracking accuracy significantly. In this work, we explore the robustness of visual object trackers against motion blur from a new angle, i.e., adversarial blur attack (ABA). Our main objective is to online transfer input frames to their natural motion-blurred counterparts while misleading the state-of-the-art trackers during the tracking process. To this end, we first design the motion blur synthesizing method for visual tracking based on the generation principle of motion blur, considering the motion information and the light accumulation process. With this synthetic method, we propose \textit{optimization-based ABA (OP-ABA)} by iteratively optimizing an adversarial objective function against the tracking w.r.t. the motion and light accumulation parameters. The OP-ABA is able to produce natural adversarial examples but the iteration can cause heavy time cost, making it unsuitable for attacking real-time trackers. To alleviate this issue, we further propose \textit{one-step ABA (OS-ABA)} where we design and train a joint adversarial motion and accumulation predictive network (JAMANet) with the guidance of OP-ABA, which is able to efficiently estimate the adversarial motion and accumulation parameters in a one-step way. The experiments on four popular datasets (\eg, OTB100, VOT2018, UAV123, and LaSOT) demonstrate that our methods are able to cause significant accuracy drops on four state-of-the-art trackers with high transferability. Please find the source code at https://github.com/t singqguo/ABA
翻訳日:2021-07-27 16:23:56 公開日:2021-07-26
# 複数の畳み込みニューラルネットワークモデルを用いた昆虫害虫の効率的な分類

An Efficient Insect Pest Classification Using Multiple Convolutional Neural Network Based Models ( http://arxiv.org/abs/2107.12189v1 )

ライセンス: Link先を確認
Hieu T. Ung, Huy Q. Ung, Binh T. Nguyen(参考訳) 正確な害虫認識は、作物を保護したり、感染した収量に対する早期治療を行うために重要であり、農業経済の損失を減らすのに役立つ。 手動認識が遅く、時間がかかり、高価であるため、自動害虫認識システムの設計が必要である。 従来のコンピュータビジョン方式を用いたイメージベース害虫分類器は、複雑さのため効率的ではない。 昆虫害虫の分類は、様々な種類、スケール、形状、フィールドの複雑な背景、昆虫種間の外観の類似性から難しい課題である。 ディープラーニング技術の急速な発展により、cnnベースの手法は、速く正確な昆虫害虫分類器を開発する最善の方法である。 本研究では,注意点,特徴ピラミッド,細粒度モデルなど,様々な畳み込みニューラルネットワークモデルを提案する。 我々は,大規模な害虫データセット,IP102ベンチマークデータセット,およびより小さなデータセット,すなわちマクロ平均精度(MPre),マクロ平均リコール(MRec),マクロ平均F1スコア(MF1),精度(Acc),幾何学平均値(GM)の2つの公開データセットについて評価を行った。 実験の結果,畳み込みニューラルネットワークモデルの組み合わせは,これら2つのデータセットの最先端手法よりも優れた性能を示す。 例えば、ip102 と d0 で得られた最高精度はそれぞれ74.13\%$ と 99.78\%$ であり、対応する最先端の正確さをバイパスしている: 76.1\%$ (ip102) と 98.8\%$ (d0) である。 また,害虫分類問題に関する現在の研究に貢献するためのコードも公開している。

Accurate insect pest recognition is significant to protect the crop or take the early treatment on the infected yield, and it helps reduce the loss for the agriculture economy. Design an automatic pest recognition system is necessary because manual recognition is slow, time-consuming, and expensive. The Image-based pest classifier using the traditional computer vision method is not efficient due to the complexity. Insect pest classification is a difficult task because of various kinds, scales, shapes, complex backgrounds in the field, and high appearance similarity among insect species. With the rapid development of deep learning technology, the CNN-based method is the best way to develop a fast and accurate insect pest classifier. We present different convolutional neural network-based models in this work, including attention, feature pyramid, and fine-grained models. We evaluate our methods on two public datasets: the large-scale insect pest dataset, the IP102 benchmark dataset, and a smaller dataset, namely D0 in terms of the macro-average precision (MPre), the macro-average recall (MRec), the macro-average F1- score (MF1), the accuracy (Acc), and the geometric mean (GM). The experimental results show that combining these convolutional neural network-based models can better perform than the state-of-the-art methods on these two datasets. For instance, the highest accuracy we obtained on IP102 and D0 is $74.13\%$ and $99.78\%$, respectively, bypassing the corresponding state-of-the-art accuracy: $67.1\%$ (IP102) and $98.8\%$ (D0). We also publish our codes for contributing to the current research related to the insect pest classification problem.
翻訳日:2021-07-27 16:23:26 公開日:2021-07-26
# フェデレーションセンティブ分類に向けた予備ステップ

Preliminary Steps Towards Federated Sentiment Classification ( http://arxiv.org/abs/2107.11956v1 )

ライセンス: Link先を確認
Xin-Chun Li, De-Chuan Zhan, Yunfeng Shao, Bingshuai Li, Shaoming Song(参考訳) 自然言語に含まれる感情を自動的にマイニングすることは、いくつかの人工知能アプリケーションに基礎的な研究である。 転送学習とマルチタスク学習技術は、監督空間を緩和し、複数のヘテロジニアスドメインを協調するために活用されている。 近年、ユーザのプライベートデータの機密性は、感情分類、すなわちデータプライバシ保護において別の課題を引き起こしている。 本稿では,コーパスを分散デバイスに格納しなければならない制約の下で,複数のドメイン感情分類のためのフェデレーション学習を利用する。 複数の分野にわたる異種意味論と単語埋め込みの特異性を考えると、我々はそれに対応するソリューションを連続的に提供します。 まず,フェデレーション感情分類におけるモデル集約とパーソナライズを改善するために,知識伝達強化kteps(kteps)フレームワークを提案する。 第二に,KTEPS$^\star$を提案し,単語ベクトルのリッチな意味と巨大な埋め込みサイズ特性を考慮し,プロジェクションに基づく次元削減法(PDR)を用いてプライバシー保護と効率的な送信を同時に行う。 本稿では,公的なベンチマークに基づく2つの感情分類シーンを提案し,提案手法の優位性を検証し,豊富な実験研究を行った。

Automatically mining sentiment tendency contained in natural language is a fundamental research to some artificial intelligent applications, where solutions alternate with challenges. Transfer learning and multi-task learning techniques have been leveraged to mitigate the supervision sparsity and collaborate multiple heterogeneous domains correspondingly. Recent years, the sensitive nature of users' private data raises another challenge for sentiment classification, i.e., data privacy protection. In this paper, we resort to federated learning for multiple domain sentiment classification under the constraint that the corpora must be stored on decentralized devices. In view of the heterogeneous semantics across multiple parties and the peculiarities of word embedding, we pertinently provide corresponding solutions. First, we propose a Knowledge Transfer Enhanced Private-Shared (KTEPS) framework for better model aggregation and personalization in federated sentiment classification. Second, we propose KTEPS$^\star$ with the consideration of the rich semantic and huge embedding size properties of word vectors, utilizing Projection-based Dimension Reduction (PDR) methods for privacy protection and efficient transmission simultaneously. We propose two federated sentiment classification scenes based on public benchmarks, and verify the superiorities of our proposed methods with abundant experimental investigations.
翻訳日:2021-07-27 16:22:55 公開日:2021-07-26
# 確率動的環境における分散低減のための後見値関数

Hindsight Value Function for Variance Reduction in Stochastic Dynamic Environment ( http://arxiv.org/abs/2107.12216v1 )

ライセンス: Link先を確認
Jiaming Guo, Rui Zhang, Xishan Zhang, Shaohui Peng, Qi Yi, Zidong Du, Xing Hu, Qi Guo, Yunji Chen(参考訳) ポリシー勾配法は、深層強化学習において魅力的であるが、勾配推定の高ばらつきに苦しむ。 分散を減らすために、状態値関数が一般的に適用される。 しかし、状態値関数の効果は確率的動的環境において制限され、予期せぬ状態ダイナミクスと報酬が分散を増加させる。 本稿では,確率的動的環境における勾配推定値のばらつきを低減するために,未来からの情報を生かした新しい隠れ値関数を,状態値関数に置き換えることを提案する。 特に, 理想的に偏りのない勾配推定値を得るために, 将来の埋め込みを最適化する情報理論的手法を提案する。 実験では, 離散動作環境や連続動作環境を含む確率動的環境において, 提案する後続値関数を適用した。 標準状態値関数と比較して,提案手法は分散を一貫して低減し,トレーニングを安定化し,最終的な方針を改善する。

Policy gradient methods are appealing in deep reinforcement learning but suffer from high variance of gradient estimate. To reduce the variance, the state value function is applied commonly. However, the effect of the state value function becomes limited in stochastic dynamic environments, where the unexpected state dynamics and rewards will increase the variance. In this paper, we propose to replace the state value function with a novel hindsight value function, which leverages the information from the future to reduce the variance of the gradient estimate for stochastic dynamic environments. Particularly, to obtain an ideally unbiased gradient estimate, we propose an information-theoreti c approach, which optimizes the embeddings of the future to be independent of previous actions. In our experiments, we apply the proposed hindsight value function in stochastic dynamic environments, including discrete-action environments and continuous-action environments. Compared with the standard state value function, the proposed hindsight value function consistently reduces the variance, stabilizes the training, and improves the eventual policy.
翻訳日:2021-07-27 16:21:21 公開日:2021-07-26
# ベイズニューラルネットワークは本質的に分布外検出に優れているか?

Are Bayesian neural networks intrinsically good at out-of-distribution detection? ( http://arxiv.org/abs/2107.12248v1 )

ライセンス: Link先を確認
Christian Henning, Francesco D'Angelo, Benjamin F. Grewe(参考訳) 不慣れなデータに対する確実な予測を避ける必要性が、アウト・オブ・ディストリビューション(OOD)検出への関心を喚起した。 ベイズニューラルネットワーク(BNN)はこの課題によく適していると広く考えられている。 本稿では、この仮定に疑問を呈し、一般的なニューラルネットワークアーキテクチャによるベイズ推定が必ずしも優れたOOD検出に繋がらないという実証的な証拠を提供する。 近似推論の使用を回避するために、ベイズ推論が対応するガウス過程を正確に考慮し得る無限幅の場合を研究することから始める。 興味深いことに、共通のアーキテクチャ選択の下で誘導されるカーネルは、基盤となるデータ生成プロセスを反映せず、従ってOOD検出には適さない不確実性をもたらす。 最後に,HMCを用いた有限幅ネットワークについて検討し,無限幅の場合と一致するOODの挙動を観察する。 本研究は,OOD検出にBNNを用いた場合の基本的問題点を明らかにし,今後の研究に興味深い道を開く。

The need to avoid confident predictions on unfamiliar data has sparked interest in out-of-distribution (OOD) detection. It is widely assumed that Bayesian neural networks (BNN) are well suited for this task, as the endowed epistemic uncertainty should lead to disagreement in predictions on outliers. In this paper, we question this assumption and provide empirical evidence that proper Bayesian inference with common neural network architectures does not necessarily lead to good OOD detection. To circumvent the use of approximate inference, we start by studying the infinite-width case, where Bayesian inference can be exact considering the corresponding Gaussian process. Strikingly, the kernels induced under common architectural choices lead to uncertainties that do not reflect the underlying data generating process and are therefore unsuited for OOD detection. Finally, we study finite-width networks using HMC, and observe OOD behavior that is consistent with the infinite-width case. Overall, our study discloses fundamental problems when naively using BNNs for OOD detection and opens interesting avenues for future research.
翻訳日:2021-07-27 16:20:48 公開日:2021-07-26
# 深いカーネル加速故障時間モデルを用いた不確実性を考慮したイベント時間予測

Uncertainty-Aware Time-to-Event Prediction using Deep Kernel Accelerated Failure Time Models ( http://arxiv.org/abs/2107.12250v1 )

ライセンス: Link先を確認
Zhiliang Wu, Yinchong Yang, Peter A. Fasching, Volker Tresp(参考訳) リカレントニューラルネットワークベースのソリューションは、縦型Electronic Health Recordデータの解析にますます利用されている。 しかし、ほとんどの研究は予測精度と予測の不確実性を無視している。 本稿では,時系列予測タスクのための深いカーネル加速故障時間モデルを提案し,再帰ニューラルネットワークのパイプラインとスパースガウスプロセスによる予測の不確実性認識を可能にする。 さらに、深層メトリック学習に基づく事前学習ステップを適用して、提案モデルを強化する。 我々のモデルは、2つの実世界のデータセットの実験において、繰り返しニューラルネットワークに基づくベースラインよりも良い点推定性能を示す。 さらに重要なことに、我々のモデルからの予測的分散は、時間から時間への予測の不確実性の推定を定量化するために利用することができる。 モンテカルロ・ドロップアウトのような関連する手法と比較して,解析解を活用し,より計算効率の良い不確実性推定を行う。

Recurrent neural network based solutions are increasingly being used in the analysis of longitudinal Electronic Health Record data. However, most works focus on prediction accuracy and neglect prediction uncertainty. We propose Deep Kernel Accelerated Failure Time models for the time-to-event prediction task, enabling uncertainty-awarenes s of the prediction by a pipeline of a recurrent neural network and a sparse Gaussian Process. Furthermore, a deep metric learning based pre-training step is adapted to enhance the proposed model. Our model shows better point estimate performance than recurrent neural network based baselines in experiments on two real-world datasets. More importantly, the predictive variance from our model can be used to quantify the uncertainty estimates of the time-to-event prediction: Our model delivers better performance when it is more confident in its prediction. Compared to related methods, such as Monte Carlo Dropout, our model offers better uncertainty estimates by leveraging an analytical solution and is more computationally efficient.
翻訳日:2021-07-27 16:20:30 公開日:2021-07-26
# 少ないラベル転送のための教師なし事前訓練の改善

Improve Unsupervised Pretraining for Few-label Transfer ( http://arxiv.org/abs/2107.12369v1 )

ライセンス: Link先を確認
Suichan Li and Dongdong Chen and Yinpeng Chen and Lu Yuan and Lei Zhang and Qi Chu and Bin Liu and Nenghai Yu(参考訳) 教師なし事前学習は大きな成功を収めており、近年の多くの研究により、教師なし事前学習は下流ターゲットデータセットでの教師付き事前訓練よりも同等あるいはわずかに優れた転送性能が得られることが示されている。 しかし,本論文では,この結論は,対象データセットにファインタニング,シャイ,少数ラベル転送のためのラベル付きサンプルが極めて少ない場合に成立しない可能性がある。 1) 対象サンプルのクラスタリング品質は,少数ラベル転送において非常に重要である; 2) クラスタリングの学習には対照的な学習が不可欠であるが,そのクラスタリング品質は,ラベル管理の欠如により教師付き事前学習よりも劣っている。 分析結果から,教師なし事前トレーニングにラベルなしのターゲットドメインのみを組み込むことでクラスタリング品質が向上し,教師なし事前トレーニングによる転送性能ギャップが低減できることが興味深い。 また,本手法は,制約付きアノテーション予算下での転送性能の最大化を目的とした,プログレッシブな数ラベル転送アルゴリズムを提案する。 分析と提案手法を支援するため,9つの異なるターゲットデータセットについて広範な実験を行った。 実験の結果,提案手法は教師なしプリトレーナーの少ないラベル転送性能を著しく向上させることがわかった。

Unsupervised pretraining has achieved great success and many recent works have shown unsupervised pretraining can achieve comparable or even slightly better transfer performance than supervised pretraining on downstream target datasets. But in this paper, we find this conclusion may not hold when the target dataset has very few labeled samples for finetuning, \ie, few-label transfer. We analyze the possible reason from the clustering perspective: 1) The clustering quality of target samples is of great importance to few-label transfer; 2) Though contrastive learning is essential to learn how to cluster, its clustering quality is still inferior to supervised pretraining due to lack of label supervision. Based on the analysis, we interestingly discover that only involving some unlabeled target domain into the unsupervised pretraining can improve the clustering quality, subsequently reducing the transfer performance gap with supervised pretraining. This finding also motivates us to propose a new progressive few-label transfer algorithm for real applications, which aims to maximize the transfer performance under a limited annotation budget. To support our analysis and proposed method, we conduct extensive experiments on nine different target datasets. Experimental results show our proposed method can significantly boost the few-label transfer performance of unsupervised pretraining.
翻訳日:2021-07-27 16:18:55 公開日:2021-07-26
# StyleGANを用いた顔行動単位の精密局所編集の知覚的検証

Perceptually Validated Precise Local Editing for Facial Action Units with StyleGAN ( http://arxiv.org/abs/2107.12143v1 )

ライセンス: Link先を確認
Alara Zindanc{\i}o\u{g}lu and T. Metin Sezgin(参考訳) 表情を編集する機能には、コンピュータグラフィックスの幅広い応用がある。 理想的な表情編集アルゴリズムは2つの重要な基準を満たす必要がある。 まず、個々の顔の動きを正確にかつターゲットに編集できる。 次に、アーティファクトなしで高忠実度出力を生成する。 顔のセマンティックな操作に広く用いられているStyleGANに基づくソリューションを構築した。 このようにして、さまざまなセマンティックな属性がどのようにStyleGANにエンコードされているかを理解する。 特に,潜伏空間で編集を行うための素直な戦略が,概念的に異なるとしても,特定のアクションユニット間の不要な結合を生じさせることを示す。 例えば、brow lowererとlip tightenerは異なるアクションユニットであるが、トレーニングデータに相関しているように見える。 したがって、StyleGANはそれらを切り離すことが難しい。 各アクションユニットの分離した影響領域を計算し、これらの領域への編集を制限し、このようなアクションユニットの分割編集を可能にする。 23名の被験者による知覚実験により,局所編集の有効性を検証した。 その結果,本手法は局所的な編集の制御を向上し,最先端の手法に比べて忠実な画像を生成することがわかった。

The ability to edit facial expressions has a wide range of applications in computer graphics. The ideal facial expression editing algorithm needs to satisfy two important criteria. First, it should allow precise and targeted editing of individual facial actions. Second, it should generate high fidelity outputs without artifacts. We build a solution based on StyleGAN, which has been used extensively for semantic manipulation of faces. As we do so, we add to our understanding of how various semantic attributes are encoded in StyleGAN. In particular, we show that a naive strategy to perform editing in the latent space results in undesired coupling between certain action units, even if they are conceptually distinct. For example, although brow lowerer and lip tightener are distinct action units, they appear correlated in the training data. Hence, StyleGAN has difficulty in disentangling them. We allow disentangled editing of such action units by computing detached regions of influence for each action unit, and restrict editing to these regions. We validate the effectiveness of our local editing method through perception experiments conducted with 23 subjects. The results show that our method provides higher control over local editing and produces images with superior fidelity compared to the state-of-the-art methods.
翻訳日:2021-07-27 16:18:33 公開日:2021-07-26
# AIによるAIの倫理測定 - 方法論とデータセットの構築

Measuring Ethics in AI with AI: A Methodology and Dataset Construction ( http://arxiv.org/abs/2107.11913v1 )

ライセンス: Link先を確認
Pedro H.C. Avelar and Rafael B. Audibert and Anderson R. Tavares and Lu\'is C. Lamb(参考訳) 近年、人工知能における音響測定とメトリクスの使用は、学術、政府、産業の関心の対象となっている。 さまざまな現象を測定する取り組みは、いくつかの影響力のあるフィールドレポートと政策文書の公開によって示されるように、aiコミュニティで注目を集めている。 これらのメトリクスは、意思決定者に対して、人工知能の一般および機械学習における重要な進歩の影響の速さと影響について、自らを伝えるのに役立つように設計されている。 本稿では,AI技術の新たな機能を活用して,AI計測能力を向上することを提案する。 我々は倫理的問題や関心事に関連する出版物を分類するモデルを訓練する。 本手法では,手作業による学習データセットをトレーニングセットとして使用し,大量の研究論文を評価する。 最後に、AIメトリクス、特に信頼できる公正なAIベースのツールや技術開発への貢献の意味を強調します。 キーワード:AI倫理、AIフェアネス、AI測定。 コンピュータ科学における倫理。

Recently, the use of sound measures and metrics in Artificial Intelligence has become the subject of interest of academia, government, and industry. Efforts towards measuring different phenomena have gained traction in the AI community, as illustrated by the publication of several influential field reports and policy documents. These metrics are designed to help decision takers to inform themselves about the fast-moving and impacting influences of key advances in Artificial Intelligence in general and Machine Learning in particular. In this paper we propose to use such newfound capabilities of AI technologies to augment our AI measuring capabilities. We do so by training a model to classify publications related to ethical issues and concerns. In our methodology we use an expert, manually curated dataset as the training set and then evaluate a large set of research papers. Finally, we highlight the implications of AI metrics, in particular their contribution towards developing trustful and fair AI-based tools and technologies. Keywords: AI Ethics; AI Fairness; AI Measurement. Ethics in Computer Science.
翻訳日:2021-07-27 16:16:30 公開日:2021-07-26
# 機会が訪れるときの貿易:地域意識と適応的精製ラベルによる価格変動予測

Trade When Opportunity Comes: Price Movement Forecasting via Locality-Aware Attention and Adaptive Refined Labeling ( http://arxiv.org/abs/2107.11972v1 )

ライセンス: Link先を確認
Liang Zeng, Lei Wang, Hui Niu, Jian Li, Ruchen Zhang, Zhonghao Dai, Dewei Zhu, Ling Wang(参考訳) 価格変動予測は、現在の市場状況やその他の関連情報に基づいて、金融資産の将来の動向を予測することを目的としている。 近年,機械学習(ML)手法が普及し,学術・産業ともに価格変動予測に有望な成果を上げている。 既存のMLソリューションの多くは、予測問題をトレーニングデータ全体の分類(方向を予測する)または回帰(回帰を予測する)問題として定式化している。 しかし、極めて低い信号対雑音比と金融データの確率的性質のため、良好な取引機会は極めて少ない。 その結果、潜在的に有益なサンプルを慎重に選択しなければ、そのようなml法は実際の信号の代わりにノイズのパターンを捉えやすい。 以上の課題に対処するために,1) 局所性に注意を払ってラベル情報に従えば,潜在的に有益なサンプルを自動的に抽出し,より正確な分類器を構築する,新しいフレームワークLARA(Locality-Aware Attention and Adaptive Refined Labeling)を提案する。 2) 適応改質ラベルは, さらにラベルを改良し, サンプルのノイズを緩和する。 3)測度学習の手法を取り入れた局部性意識は,タスク固有の距離指標を享受し,より効果的な方法で有益なサンプルに注意を分散させる。 本手法を検証するため,我々は実世界の金融市場であるETF,中国のA株市場,暗号通貨市場について包括的な実験を行った。 LARAは、Qlibプラットフォーム上の時系列分析手法や機械学習ベースの競合製品と比較すると、優れたパフォーマンスを実現している。 広範囲のアブレーション研究と実験により、ララはより信頼できる取引機会を実際に獲得できることが示されている。

Price movement forecasting aims at predicting the future trends of financial assets based on the current market conditions and other relevant information. Recently, machine learning(ML) methods have become increasingly popular and achieved promising results for price movement forecasting in both academia and industry. Most existing ML solutions formulate the forecasting problem as a classification(to predict the direction) or a regression(to predict the return) problem in the entire set of training data. However, due to the extremely low signal-to-noise ratio and stochastic nature of financial data, good trading opportunities are extremely scarce. As a result, without careful selection of potentially profitable samples, such ML methods are prone to capture the patterns of noises instead of real signals. To address the above issues, we propose a novel framework-LARA(Local ity-Aware Attention and Adaptive Refined Labeling), which contains the following three components: 1)Locality-aware attention automatically extracts the potentially profitable samples by attending to their label information in order to construct a more accurate classifier on these selected samples. 2)Adaptive refined labeling further iteratively refines the labels, alleviating the noise of samples. 3)Equipped with metric learning techniques, Locality-aware attention enjoys task-specific distance metrics and distributes attention on potentially profitable samples in a more effective way. To validate our method, we conduct comprehensive experiments on three real-world financial markets: ETFs, the China's A-share stock market, and the cryptocurrency market. LARA achieves superior performance compared with the time-series analysis methods and a set of machine learning based competitors on the Qlib platform. Extensive ablation studies and experiments demonstrate that LARA indeed captures more reliable trading opportunities.
翻訳日:2021-07-27 16:16:17 公開日:2021-07-26
# クライアントサンプリングがFederated Learning Convergenceに及ぼす影響について

On The Impact of Client Sampling on Federated Learning Convergence ( http://arxiv.org/abs/2107.12211v1 )

ライセンス: Link先を確認
Yann Fraboni, Richard Vidal, Laetitia Kameni, Marco Lorenzi(参考訳) クライアントのサンプリングは、現在最先端のフェデレーション学習(fl)アプローチの中心的な操作であるが、この手順がflの収束と速度に与える影響は、まだ調査されていない。 本稿では,グローバルモデル更新におけるクライアントサンプリングの影響を明確に定量化するために,fl の収束に対する新しい分解定理を提案する。 従来の収束解析と対照的に、我々の定理は与えられた収束ステップの正確な分解を提供し、クライアントサンプリングと不均一性の役割について正確な考察を可能にする。 まず, fl収束と凝集重みの分散の関係について, 以前に報告した結果に対する理論的根拠を提案する。 第2に、FL収束の質が凝集重量間の共分散によっても影響されることを初めて証明する。 第3に,凝集重みの和はスローダウンのもう1つの源であり,fl収束速度を改善するために1に等しいものとする。 本理論は一般に,マルチノマル分布 (md) と一様サンプリング (uniform sampling) に適用され,非iidおよび非平衡シナリオにおける一連の実験によって実証された。 以上の結果から,mdサンプリングは学習過程におけるデータ比の変化に対するレジリエンスが高いため,mdサンプリングをデフォルトサンプリングスキームとして用いるべきであることが示唆された。

While clients' sampling is a central operation of current state-of-the-art federated learning (FL) approaches, the impact of this procedure on the convergence and speed of FL remains to date under-investigated. In this work we introduce a novel decomposition theorem for the convergence of FL, allowing to clearly quantify the impact of client sampling on the global model update. Contrarily to previous convergence analyses, our theorem provides the exact decomposition of a given convergence step, thus enabling accurate considerations about the role of client sampling and heterogeneity. First, we provide a theoretical ground for previously reported results on the relationship between FL convergence and the variance of the aggregation weights. Second, we prove for the first time that the quality of FL convergence is also impacted by the resulting covariance between aggregation weights. Third, we establish that the sum of the aggregation weights is another source of slow-down and should be equal to 1 to improve FL convergence speed. Our theory is general, and is here applied to Multinomial Distribution (MD) and Uniform sampling, the two default client sampling in FL, and demonstrated through a series of experiments in non-iid and unbalanced scenarios. Our results suggest that MD sampling should be used as default sampling scheme, due to the resilience to the changes in data ratio during the learning process, while Uniform sampling is superior only in the special case when clients have the same amount of data.
翻訳日:2021-07-27 16:15:49 公開日:2021-07-26
# 深部畳み込みニューラルネットワークを用いたブランキング過程のワークピース画像に基づくツールウェア分類

Workpiece Image-based Tool Wear Classification in Blanking Processes Using Deep Convolutional Neural Networks ( http://arxiv.org/abs/2107.12034v1 )

ライセンス: Link先を確認
Dirk Alexander Molitor and Christian Kubik and Ruben Helmut Hetfleisch and Peter Groche(参考訳) ブランキングプロセスはその経済効率のために最も広く使われている製造技術に属する。 彼らの経済性は、製品の品質と関連する顧客満足度、そして可能なダウンタイムに大きく依存します。 特に、工具摩耗の増加は製品品質を低下させ、ダウンタイムにつながるため、近年では摩耗検出に関する研究が盛んに行われている。 プロセスは力と加速度の信号に基づいて広く監視されているが,本論文では新たなアプローチを追求する。 16種類の異なる摩耗状態のパンチで製造されたブランクワークを撮影し、深層畳み込みニューラルネットワークの入力として使用して摩耗状態を分類する。 その結果, 摩耗状態を驚くほど高い精度で予測し, 工具摩耗監視のための新たな可能性と研究の機会が得られた。

Blanking processes belong to the most widely used manufacturing techniques due to their economic efficiency. Their economic viability depends to a large extent on the resulting product quality and the associated customer satisfaction as well as on possible downtimes. In particular, the occurrence of increased tool wear reduces the product quality and leads to downtimes, which is why considerable research has been carried out in recent years with regard to wear detection. While processes have widely been monitored based on force and acceleration signals, a new approach is pursued in this paper. Blanked workpieces manufactured by punches with 16 different wear states are photographed and then used as inputs for Deep Convolutional Neural Networks to classify wear states. The results show that wear states can be predicted with surprisingly high accuracy, opening up new possibilities and research opportunities for tool wear monitoring of blanking processes.
翻訳日:2021-07-27 16:14:26 公開日:2021-07-26
# Facetron:クロスモーダル潜在表現に基づく複数話者対音声モデル

Facetron: Multi-speaker Face-to-Speech Model based on Cross-modal Latent Representations ( http://arxiv.org/abs/2107.12003v1 )

ライセンス: Link先を確認
Se-Yun Um, Jihyun Kim, Jihyun Lee, Sangshin Oh, Kyungguen Byun, and Hong-Goo Kang(参考訳) 本稿では,個人の顔の映像を条件付けして,話者固有の音声波形を合成する効果的な手法を提案する。 言語特性と話者特性を付加したGAN(Generative Adversarial Network)を補助条件として,エンドツーエンドの学習枠組みの下で直接顔画像から音声波形に変換する。 唇読解モデルを用いて唇の動きから言語的特徴を抽出し,事前学習された音響モデルを用いたクロスモーダル学習を用いて顔画像から話者特性を予測する。 これら2つの特徴は無相関であり、独立して制御されるため、入力された顔画像によって話者特性が異なる音声波形を柔軟に合成することができる。 したがって,本手法は複数話者対音声波形モデルと見なすことができる。 提案手法は客観的評価と主観評価の両面で従来の手法よりも優れていることを示す。 具体的には,自動音声認識と自動話者/話者認識タスクの精度を測定し,言語特徴と話者特性生成モジュールの性能評価を行った。 また, 平均オピニオンスコア(mos)テストを用いて合成音声波形の自然性を評価する。

In this paper, we propose an effective method to synthesize speaker-specific speech waveforms by conditioning on videos of an individual's face. Using a generative adversarial network (GAN) with linguistic and speaker characteristic features as auxiliary conditions, our method directly converts face images into speech waveforms under an end-to-end training framework. The linguistic features are extracted from lip movements using a lip-reading model, and the speaker characteristic features are predicted from face images using cross-modal learning with a pre-trained acoustic model. Since these two features are uncorrelated and controlled independently, we can flexibly synthesize speech waveforms whose speaker characteristics vary depending on the input face images. Therefore, our method can be regarded as a multi-speaker face-to-speech waveform model. We show the superiority of our proposed model over conventional methods in terms of both objective and subjective evaluation results. Specifically, we evaluate the performances of the linguistic feature and the speaker characteristic generation modules by measuring the accuracy of automatic speech recognition and automatic speaker/gender recognition tasks, respectively. We also evaluate the naturalness of the synthesized speech waveforms using a mean opinion score (MOS) test.
翻訳日:2021-07-27 16:14:14 公開日:2021-07-26
# ディープラーニングを用いたマルチモーダル融合による車外物体のドライバの参照

Multimodal Fusion Using Deep Learning Applied to Driver's Referencing of Outside-Vehicle Objects ( http://arxiv.org/abs/2107.12167v1 )

ライセンス: Link先を確認
Abdul Rafey Aftab, Michael von der Beeck, Steven Rohrhirsch, Benoit Diotte, Michael Feld(参考訳) 車とのよりインテリジェントな自然なユーザーインタラクションへの関心が高まっている。 ハンドジェスチャーや音声はすでにドライバーと車との対話に使われている。 さらに、マルチモーダルアプローチは自動車業界にも有望である。 本稿では,車両外の物体を参照するためのマルチモーダル融合ネットワークの深層学習を利用する。 視線,頭部のポーズ,指の指先といった特徴を同時に利用し,自動車のさまざまなポーズにおける参照対象を正確に予測する。 特に車内における自然な参照形式に使用する場合,各モダリティの実用的限界を示す。 結果から明らかなように、我々はモダリティ特有の制限を、他のモダリティの追加によって、かなり克服した。 この研究は、特に自然なユーザインタラクションに向かう際に、マルチモーダルセンシングの重要性を強調している。 さらに,本分析では,車両の姿勢によるユーザの行動認識に有意な差がみられた。

There is a growing interest in more intelligent natural user interaction with the car. Hand gestures and speech are already being applied for driver-car interaction. Moreover, multimodal approaches are also showing promise in the automotive industry. In this paper, we utilize deep learning for a multimodal fusion network for referencing objects outside the vehicle. We use features from gaze, head pose and finger pointing simultaneously to precisely predict the referenced objects in different car poses. We demonstrate the practical limitations of each modality when used for a natural form of referencing, specifically inside the car. As evident from our results, we overcome the modality specific limitations, to a large extent, by the addition of other modalities. This work highlights the importance of multimodal sensing, especially when moving towards natural user interaction. Furthermore, our user based analysis shows noteworthy differences in recognition of user behavior depending upon the vehicle pose.
翻訳日:2021-07-27 16:13:56 公開日:2021-07-26
# 時間ネットワークデータにおけるインフルエンシャル高次パターンの予測

Predicting Influential Higher-Order Patterns in Temporal Network Data ( http://arxiv.org/abs/2107.12100v1 )

ライセンス: Link先を確認
Christoph Gote and Vincenzo Perri and Ingo Scholtes(参考訳) ネットワークは相互作用する要素からなる複雑なシステムをモデル化するのによく用いられる。 リンクは直接相互作用のトポロジーを捉えるが、多くのシステムの真の複雑さは、ノード同士が間接的に影響を及ぼす経路の高次パターンに由来する。 連続する直接相互作用の順序列を表すパスデータを使用して、これらのパターンをモデル化することができる。 しかし、過度な適合を避けるために、そのようなモデルはデータが十分な統計的証拠を提供する高次パターンのみを考慮すべきである。 一方で,直接インタラクションのみをキャプチャするネットワークモデルは,データに存在する高次パターンに不適合であると仮定する。 その結果、どちらの手法も複雑なネットワークにおける影響ノードを誤識別する可能性がある。 我々は,最大距離までの全経路を考慮に入れながら,高距離での経路を無視する多階生成モデルMOGenに基づく8つの集中度尺度を提案し,この問題に寄与する。 提案手法では,ネットワークモデルとパスデータに対する等価尺度と比較し,サンプル外データで影響力のあるノードを特定することを目的とした予測実験を行う。 我々の結果は我々の仮説を裏付ける強い証拠を示している。 MOGenは、ネットワークモデルとパスベースの予測の両方を一貫して上回る。 さらに,MOGenとパスベースアプローチのパフォーマンス差が十分な観測値があれば消失し,エラーが過度に適合していることを確認する。

Networks are frequently used to model complex systems comprised of interacting elements. While links capture the topology of direct interactions, the true complexity of many systems originates from higher-order patterns in paths by which nodes can indirectly influence each other. Path data, representing ordered sequences of consecutive direct interactions, can be used to model these patterns. However, to avoid overfitting, such models should only consider those higher-order patterns for which the data provide sufficient statistical evidence. On the other hand, we hypothesise that network models, which capture only direct interactions, underfit higher-order patterns present in data. Consequently, both approaches are likely to misidentify influential nodes in complex networks. We contribute to this issue by proposing eight centrality measures based on MOGen, a multi-order generative model that accounts for all paths up to a maximum distance but disregards paths at higher distances. We compare MOGen-based centralities to equivalent measures for network models and path data in a prediction experiment where we aim to identify influential nodes in out-of-sample data. Our results show strong evidence supporting our hypothesis. MOGen consistently outperforms both the network model and path-based prediction. We further show that the performance difference between MOGen and the path-based approach disappears if we have sufficient observations, confirming that the error is due to overfitting.
翻訳日:2021-07-27 16:13:37 公開日:2021-07-26
# 欠測データを用いたヘテロスケダスティックPCAの推論

Inference for Heteroskedastic PCA with Missing Data ( http://arxiv.org/abs/2107.12365v1 )

ライセンス: Link先を確認
Yuling Yan, Yuxin Chen, Jianqing Fan(参考訳) 本稿では,主成分分析(PCA)のための信頼性領域を高次元で構築する方法について述べる。 非線形・非凸推定器の不確かさの計算は一般に高次元では難しいが、この課題は欠落データやヘテロスケダスティックノイズの存在によってさらに複雑になる。 バニラSVDに基づくアプローチと、より洗練された反復スキームである $\textsf{HeteroPCA}$ (Zhang et al., 2018) を用いて、主部分空間上の妥当な推論を行うための一組のソリューションを提案する。 両推定器の非漸近分布保証を開発し、これらが主部分空間の信頼領域とスパイクされた共分散行列の入射信頼区間の両方を計算するためにどのように呼び出されるかを示す。 特に注目に値するのは、$\textsf{HeteroPCA}$の上に構築された推論手順である。 我々のソリューションは完全にデータ駆動であり、ノイズレベルやノイズ分布に関する事前知識を必要とせず、ヘテロスケダティックランダムノイズに適応する。

This paper studies how to construct confidence regions for principal component analysis (PCA) in high dimension, a problem that has been vastly under-explored. While computing measures of uncertainty for nonlinear/nonconvex estimators is in general difficult in high dimension, the challenge is further compounded by the prevalent presence of missing data and heteroskedastic noise. We propose a suite of solutions to perform valid inference on the principal subspace based on two estimators: a vanilla SVD-based approach, and a more refined iterative scheme called $\textsf{HeteroPCA}$ (Zhang et al., 2018). We develop non-asymptotic distributional guarantees for both estimators, and demonstrate how these can be invoked to compute both confidence regions for the principal subspace and entrywise confidence intervals for the spiked covariance matrix. Particularly worth highlighting is the inference procedure built on top of $\textsf{HeteroPCA}$, which is not only valid but also statistically efficient for broader scenarios (e.g., it covers a wider range of missing rates and signal-to-noise ratios). Our solutions are fully data-driven and adaptive to heteroskedastic random noise, without requiring prior knowledge about the noise levels and noise distributions.
翻訳日:2021-07-27 16:13:17 公開日:2021-07-26
# 調和アノテーションを用いた多言語照合

Multilingual Coreference Resolution with Harmonized Annotations ( http://arxiv.org/abs/2107.12088v1 )

ライセンス: Link先を確認
Ond\v{r}ej Pra\v{z}\'ak, Miloslav Konop\'ik, Jakub Sido(参考訳) 本稿では,新たに開発した多言語コーパスcorefudを用いたコリファレンスレゾリューション実験を提案する。 チェコ語、ロシア語、ポーランド語、ドイツ語、スペイン語、カタルーニャ語などである。 単言語実験に加えて,多言語実験におけるトレーニングデータを結合し,スラヴ語とすべての言語を対象とした2つの結合モデルの訓練を行った。 私たちは、CorefUDコーパスにわずかに適応したエンドツーエンドのディープラーニングモデルに依存しています。 その結果、調和したアノテーションから利益を得ることができ、結合モデルを使用することで、より少ないトレーニングデータを持つ言語に大いに役立ちます。

In this paper, we present coreference resolution experiments with a newly created multilingual corpus CorefUD. We focus on the following languages: Czech, Russian, Polish, German, Spanish, and Catalan. In addition to monolingual experiments, we combine the training data in multilingual experiments and train two joined models -- for Slavic languages and for all the languages together. We rely on an end-to-end deep learning model that we slightly adapted for the CorefUD corpus. Our results show that we can profit from harmonized annotations, and using joined models helps significantly for the languages with smaller training data.
翻訳日:2021-07-27 16:11:57 公開日:2021-07-26
# アスペクト感情三重項抽出のためのスパンレベルインタラクションの学習

Learning Span-Level Interactions for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2107.12214v1 )

ライセンス: Link先を確認
Lu Xu, Yew Ken Chia, Lidong Bing(参考訳) Aspect Sentiment Triplet extract (ASTE)は、ABSAの最新のサブタスクであり、アスペクトターゲット、関連する感情、および対応する意見項の三つ子を出力する。 最近のモデルはエンドツーエンドで三重項抽出を行うが、それぞれの単語と意見語間の相互作用に強く依存している。 したがって、複数の単語を含むターゲットや意見に対してうまく機能することができない。 提案するスパンレベルアプローチは,感情関係を予測する際に,対象の全体と意見の相互作用を明示的に検討する。 これにより、スパン全体のセマンティクスによる予測が可能になり、感情整合性が向上する。 本研究では、列挙による計算コストの増大を緩和するため、アスペクト項抽出(ATE)とオピニオン項抽出(OTE)のタスクの監督を取り入れた二重チャネル分割プルーニング戦略を提案する。 この戦略は計算効率を向上するだけでなく、意見や対象をより適切に区別する。 本フレームワークは,ASTEおよびATEおよびOTEタスクに対して高い性能を同時に達成する。 特に,マルチワードのターゲットや意見を持つトリプレットのベースラインよりも,スパンレベルのアプローチが大幅に改善されていることを示す。

Aspect Sentiment Triplet Extraction (ASTE) is the most recent subtask of ABSA which outputs triplets of an aspect target, its associated sentiment, and the corresponding opinion term. Recent models perform the triplet extraction in an end-to-end manner but heavily rely on the interactions between each target word and opinion word. Thereby, they cannot perform well on targets and opinions which contain multiple words. Our proposed span-level approach explicitly considers the interaction between the whole spans of targets and opinions when predicting their sentiment relation. Thus, it can make predictions with the semantics of whole spans, ensuring better sentiment consistency. To ease the high computational cost caused by span enumeration, we propose a dual-channel span pruning strategy by incorporating supervision from the Aspect Term Extraction (ATE) and Opinion Term Extraction (OTE) tasks. This strategy not only improves computational efficiency but also distinguishes the opinion and target spans more properly. Our framework simultaneously achieves strong performance for the ASTE as well as ATE and OTE tasks. In particular, our analysis shows that our span-level approach achieves more significant improvements over the baselines on triplets with multi-word targets or opinions.
翻訳日:2021-07-27 16:11:48 公開日:2021-07-26
# マルチエージェントシークエンシャル意思決定のためのブラム属性について

On Blame Attribution for Accountable Multi-Agent Sequential Decision Making ( http://arxiv.org/abs/2107.11927v1 )

ライセンス: Link先を確認
Stelios Triantafyllou, Adish Singla, Goran Radanovic(参考訳) ブローム帰属は、意思決定結果に対するエージェントの責任を定量化する手段を提供するため、説明責任決定の重要な側面の1つである。 本稿では,協調型マルチエージェントシーケンシャル意思決定の文脈における責任帰属について検討する。 特に,マルチエージェントマルコフ決定プロセス(mmdp)によって形式化された協調意思決定に焦点をあて,協調ゲーム理論における既存の概念から派生し,着想を得た異なる責任帰属法を分析した。 我々は,責任帰属の望ましい性質を利害設定において定式化し,これらの特性と研究対象の責任帰属方法との関係を分析する。 興味深いことに、shapley値のようなよく知られた責任帰属メソッドのいくつかはパフォーマンスにインセンティブを与えていないが、banzhaf indexのような他のメソッドはオーバーブレイエージェントである可能性がある。 これらの価値の誤認と公平性の問題を軽減するため、上記の性質について説明力(アンダーブレードエージェントによる)をトレードオフする特性セットに特有の、新たな責任帰属法を導入する。 さらに,エージェントの意思決定方針の不確実性を説明する方法を示し,a) 分析された責任帰属手法の質的特性を検証し,b) それらの不確実性に対する堅牢性を分析する。

Blame attribution is one of the key aspects of accountable decision making, as it provides means to quantify the responsibility of an agent for a decision making outcome. In this paper, we study blame attribution in the context of cooperative multi-agent sequential decision making. As a particular setting of interest, we focus on cooperative decision making formalized by Multi-Agent Markov Decision Processes (MMDP), and we analyze different blame attribution methods derived from or inspired by existing concepts in cooperative game theory. We formalize desirable properties of blame attribution in the setting of interest, and we analyze the relationship between these properties and the studied blame attribution methods. Interestingly, we show that some of the well known blame attribution methods, such as Shapley value, are not performance-incentiv izing, while others, such as Banzhaf index, may over-blame agents. To mitigate these value misalignment and fairness issues, we introduce a novel blame attribution method, unique in the set of properties it satisfies, which trade-offs explanatory power (by under-blaming agents) for the aforementioned properties. We further show how to account for uncertainty about agents' decision making policies, and we experimentally: a) validate the qualitative properties of the studied blame attribution methods, and b) analyze their robustness to uncertainty.
翻訳日:2021-07-27 16:11:05 公開日:2021-07-26
# 不確実性伝播に向けて:エッジエンハンスベイズグラフ畳み込みネットワークによるうわさ検出

Towards Propagation Uncertainty: Edge-enhanced Bayesian Graph Convolutional Networks for Rumor Detection ( http://arxiv.org/abs/2107.11934v1 )

ライセンス: Link先を確認
Lingwei Wei, Dou Hu, Wei Zhou, Zhaojuan Yue, Songlin Hu(参考訳) ソーシャルメディアで噂を検出することは、経済や公衆衛生などに大きな影響を与える非常に重要な課題である。 従来の研究は一般的にテキストや伝播構造から有効な特徴を捉えてきた。 しかし, 伝播構造における信頼できない関係による不確実性は, ゆるやかな噂生産者や限られた拡散データ収集によって一般的かつ不可避である。 ほとんどのアプローチはそれを無視し、機能の学習を厳しく制限する可能性がある。 本稿は,うわさ検出のための伝播の不確かさを探究する最初の試みである。 具体的には,堅牢な構造特徴をキャプチャする新しいエッジエンハンスベイズグラフ畳み込みネットワーク(ebgcn)を提案する。 このモデルはベイズ的アプローチを採用することによって潜在関係の信頼性を適応的に再考する。 さらに,関係性に整合性を持たせることによってモデルを最適化する,新たなエッジワイド整合性トレーニングフレームワークを設計する。 3つの公開ベンチマークデータセットを用いた実験により,提案モデルでは,噂検出と早期噂検出の双方において,ベースライン法よりも優れた性能が得られることが示された。

Detecting rumors on social media is a very critical task with significant implications to the economy, public health, etc. Previous works generally capture effective features from texts and the propagation structure. However, the uncertainty caused by unreliable relations in the propagation structure is common and inevitable due to wily rumor producers and the limited collection of spread data. Most approaches neglect it and may seriously limit the learning of features. Towards this issue, this paper makes the first attempt to explore propagation uncertainty for rumor detection. Specifically, we propose a novel Edge-enhanced Bayesian Graph Convolutional Network (EBGCN) to capture robust structural features. The model adaptively rethinks the reliability of latent relations by adopting a Bayesian approach. Besides, we design a new edge-wise consistency training framework to optimize the model by enforcing consistency on relations. Experiments on three public benchmark datasets demonstrate that the proposed model achieves better performance than baseline methods on both rumor detection and early rumor detection tasks.
翻訳日:2021-07-27 16:10:40 公開日:2021-07-26
# 部分閉世界推定に基づく確率的意味決定図の構造学習

Structural Learning of Probabilistic Sentential Decision Diagrams under Partial Closed-World Assumption ( http://arxiv.org/abs/2107.12130v1 )

ライセンス: Link先を確認
Alessandro Antonucci and Alessandro Facchini and Lilith Mattei(参考訳) 確率感性決定図は、特に論理的制約を埋め込むように設計された構造化分解可能な確率回路のクラスである。 これらのモデルの構造を学習するために、古典的な学習spnスキームを適応させるために、部分閉世界仮定に基づく新しいスキームを提案する:データは暗黙的に回路の論理ベースを提供する。 したがって、Sumノードは初期データベースで再帰的にバッチをクラスタリングすることで学習され、変数のパーティショニングは与えられた入力vtreeに従う。 予備実験では、提案手法がトレーニングデータに適切に適合し、トレーニングデータベースの緩和である基礎となる論理ベースと整合性を維持した上で、テストデータに適切に適合することを示した。

Probabilistic sentential decision diagrams are a class of structured-decomposa ble probabilistic circuits especially designed to embed logical constraints. To adapt the classical LearnSPN scheme to learn the structure of these models, we propose a new scheme based on a partial closed-world assumption: data implicitly provide the logical base of the circuit. Sum nodes are thus learned by recursively clustering batches in the initial data base, while the partitioning of the variables obeys a given input vtree. Preliminary experiments show that the proposed approach might properly fit training data, and generalize well to test data, provided that these remain consistent with the underlying logical base, that is a relaxation of the training data base.
翻訳日:2021-07-27 16:10:24 公開日:2021-07-26
# icdar 2021 シーンビデオテキストスポッティングのコンペティション

ICDAR 2021 Competition on Scene Video Text Spotting ( http://arxiv.org/abs/2107.11919v1 )

ライセンス: Link先を確認
Zhanzhan Cheng, Jing Lu, Baorui Zou, Shuigeng Zhou, and Fei Wu(参考訳) シーンビデオテキストスポッティング(SVTS)は,多くの実環境応用のために非常に重要な研究課題である。 しかし、静的画像中のシーンテキストのスポッティングに関する大規模な研究とは対照的に、シーンビデオテキストのスポッティングにはわずかな努力しかかからない。 動きのぼやけのような様々な環境干渉のため、シーンビデオのテキストの発見は非常に困難になる。 この研究領域を促進するために、このコンペティションでは21の自然シナリオから129の動画クリップを含む新しいチャレンジデータセットがフルアノテーションで導入されている。 このコンペには、ビデオテキスト検出(task 1)、ビデオテキスト追跡(task2)、エンドツーエンドビデオテキストスポッティング(task3)という3つのタスクが含まれている。 大会期間(2021年3月1日開会、2021年4月11日閉会)には、計24チームがそれぞれ46名の応募者からなる3つの課題に参加した。 本稿では,SVTS コンペティションにおける ICDAR 2021 のデータセット記述,タスク定義,評価プロトコル,結果要約について述べる。 健全なチーム数と応募数のおかげで、svtsコンペティションは成功しており、コミュニティから多くの注目を集め、フィールドリサーチとその開発を推進していると考えています。

Scene video text spotting (SVTS) is a very important research topic because of many real-life applications. However, only a little effort has put to spotting scene video text, in contrast to massive studies of scene text spotting in static images. Due to various environmental interferences like motion blur, spotting scene video text becomes very challenging. To promote this research area, this competition introduces a new challenge dataset containing 129 video clips from 21 natural scenarios in full annotations. The competition containts three tasks, that is, video text detection (Task 1), video text tracking (Task 2) and end-to-end video text spotting (Task3). During the competition period (opened on 1st March, 2021 and closed on 11th April, 2021), a total of 24 teams participated in the three proposed tasks with 46 valid submissions, respectively. This paper includes dataset descriptions, task definitions, evaluation protocols and results summaries of the ICDAR 2021 on SVTS competition. Thanks to the healthy number of teams as well as submissions, we consider that the SVTS competition has been successfully held, drawing much attention from the community and promoting the field research and its development.
翻訳日:2021-07-27 16:05:02 公開日:2021-07-26
# 畳み込みニューラルネットワークのための対極空間畳み込み

Log-Polar Space Convolution for Convolutional Neural Networks ( http://arxiv.org/abs/2107.11943v1 )

ライセンス: Link先を確認
Bing Su, Ji-Rong Wen(参考訳) 畳み込みニューラルネットワークは、通常の四角形畳み込みカーネルを用いて特徴を抽出する。 パラメータの数は畳み込みカーネルのサイズに比例して増加するため、多くの人気モデルは小さな畳み込みカーネルを使用し、下位層では小さな局所受容場をもたらす。 本稿では,畳み込み核が楕円的であり,その局所受容場を相対方向と対数距離に応じて異なる領域に適応的に分割する,新しい対数極空間畳み込み法を提案する。 局所受容場は距離レベルの数で指数関数的に成長する。 したがって,提案するLPSCは局所的な空間構造を自然に符号化するだけでなく,パラメータ数を維持しながら単層受容場を大幅に増大させる。 LPSCは対数極空間プーリングによる従来の畳み込みで実装でき、従来の畳み込みを代替するために任意のネットワークアーキテクチャに適用できることを示す。 異なるタスクとデータセットの実験は、提案したLPSCの有効性を示す。 コードはhttps://github.com/B ingSu12/Log-Polar-Sp ace-Convolutionで公開されている。

Convolutional neural networks use regular quadrilateral convolution kernels to extract features. Since the number of parameters increases quadratically with the size of the convolution kernel, many popular models use small convolution kernels, resulting in small local receptive fields in lower layers. This paper proposes a novel log-polar space convolution (LPSC) method, where the convolution kernel is elliptical and adaptively divides its local receptive field into different regions according to the relative directions and logarithmic distances. The local receptive field grows exponentially with the number of distance levels. Therefore, the proposed LPSC not only naturally encodes local spatial structures, but also greatly increases the single-layer receptive field while maintaining the number of parameters. We show that LPSC can be implemented with conventional convolution via log-polar space pooling and can be applied in any network architecture to replace conventional convolutions. Experiments on different tasks and datasets demonstrate the effectiveness of the proposed LPSC. Code is available at https://github.com/B ingSu12/Log-Polar-Sp ace-Convolution.
翻訳日:2021-07-27 16:04:39 公開日:2021-07-26
# Few-Shotビデオ分類のための時間アライメント予測

Temporal Alignment Prediction for Few-Shot Video Classification ( http://arxiv.org/abs/2107.11960v1 )

ライセンス: Link先を確認
Fei Pan, Chunlei Xu, Jie Guo, Yanwen Guo(参考訳) 数発のビデオ分類の目標は、ラベル付きビデオでのみ訓練した場合に、優れた一般化能力を持つ分類モデルを学習することである。 しかし,このような設定で動画の識別的特徴表現を学習することは困難である。 本稿では,映像分類のためのシーケンス類似度学習に基づく時間的アライメント予測(tap)を提案する。 一対の動画の類似性を得るために, 時間的アライメント予測関数を用いて, 時間的アライメント予測関数を用いて, 全時間的位置のアライメントスコアを予測する。 また、この関数への入力には、時間領域のコンテキスト情報も備えている。 我々は2つのビデオ分類ベンチマークにおけるtapの評価を行った。 実験結果は,TAPの有効性を検証し,最先端手法よりも優れていることを示す。

The goal of few-shot video classification is to learn a classification model with good generalization ability when trained with only a few labeled videos. However, it is difficult to learn discriminative feature representations for videos in such a setting. In this paper, we propose Temporal Alignment Prediction (TAP) based on sequence similarity learning for few-shot video classification. In order to obtain the similarity of a pair of videos, we predict the alignment scores between all pairs of temporal positions in the two videos with the temporal alignment prediction function. Besides, the inputs to this function are also equipped with the context information in the temporal domain. We evaluate TAP on two video classification benchmarks including Kinetics and Something-Something V2. The experimental results verify the effectiveness of TAP and show its superiority over state-of-the-art methods.
翻訳日:2021-07-27 16:04:23 公開日:2021-07-26
# マルチモーダル知識グラフによるエンティティ対応画像キャプションの強化

Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph ( http://arxiv.org/abs/2107.11970v1 )

ライセンス: Link先を確認
Wentian Zhao, Yao Hu, Heda Wang, Xinxiao Wu, Jiebo Luo(参考訳) エンティティ認識画像キャプションは、関連記事の背景知識を利用して、画像に関連する名前付きエンティティとイベントを記述することを目的としている。 この課題は、名前付きエンティティの長期分布のため、名前付きエンティティと視覚的キューの関係を学習することが難しいため、依然として困難である。 さらに、記事の複雑さは、エンティティ間のきめ細かい関係を抽出し、画像に関する情報的なイベント記述を生成するのに困難をもたらす。 これらの課題に対処するために,視覚オブジェクトを名前付きエンティティに関連付け,Webから収集した外部知識の助けを借りてエンティティ間の関係を同時に捉える,マルチモーダルな知識グラフを構築する手法を提案する。 具体的には、名前付きエンティティとその関連を記事から抽出してテキストサブグラフを構築し、画像中のオブジェクトを検出して画像サブグラフを構築する。 これら2つのサブグラフを接続するために,wikipediaエントリと対応する画像を含む知識ベースを用いてトレーニングしたクロスモーダルエンティティマッチングモジュールを提案する。 最後に、マルチモーダル知識グラフをグラフ注目機構を介してキャプションモデルに統合する。 GoodNewsとNYTimes800kのデータセットの大規模な実験は、我々の方法の有効性を実証している。

Entity-aware image captioning aims to describe named entities and events related to the image by utilizing the background knowledge in the associated article. This task remains challenging as it is difficult to learn the association between named entities and visual cues due to the long-tail distribution of named entities. Furthermore, the complexity of the article brings difficulty in extracting fine-grained relationships between entities to generate informative event descriptions about the image. To tackle these challenges, we propose a novel approach that constructs a multi-modal knowledge graph to associate the visual objects with named entities and capture the relationship between entities simultaneously with the help of external knowledge collected from the web. Specifically, we build a text sub-graph by extracting named entities and their relationships from the article, and build an image sub-graph by detecting the objects in the image. To connect these two sub-graphs, we propose a cross-modal entity matching module trained using a knowledge base that contains Wikipedia entries and the corresponding images. Finally, the multi-modal knowledge graph is integrated into the captioning model via a graph attention mechanism. Extensive experiments on both GoodNews and NYTimes800k datasets demonstrate the effectiveness of our method.
翻訳日:2021-07-27 16:04:10 公開日:2021-07-26
# Few-Shot Learningのためのトランスダクティブ最大マルジン分類器

Transductive Maximum Margin Classifier for Few-Shot Learning ( http://arxiv.org/abs/2107.11975v1 )

ライセンス: Link先を確認
Fei Pan, Chunlei Xu, Jie Guo, Yanwen Guo(参考訳) few-shot learningは、クラス毎に少数のラベル付きサンプルが与えられた場合に、うまく一般化できる分類器をトレーニングすることを目的としている。 数ショット学習のためのTMMC(Transductive Maximum Margin Classifier)を提案する。 古典的最大マージン分類器の基本的な考え方は、対応する分離超平面がトレーニングデータを正しく分割し、得られた分類器が最大の幾何学的マージンを持つという最適予測関数を解くことである。 少数の学習シナリオでは、トレーニングサンプルは不足しており、未発見のデータに十分な一般化能力を持つ分離ハイパープレーンを見つけるには不十分である。 TMMCは、ラベル付きサポートセットとラベルなしクエリセットを混合したタスクで構築される。 クエリセット内のラベルなしサンプルは、ラベル付きサンプルとラベルなしサンプルの両方で予測関数が最適になるように分離ハイパープレーンを調整することができる。 さらに,効率的な準ニュートンアルゴリズムであるL-BFGSを用いてTMMCの最適化を行う。 miniImagenet, tieredImagenet, CUB の3つの標準数ショット学習ベンチマークによる実験結果から, TMMC が最先端の精度を達成できることが示唆された。

Few-shot learning aims to train a classifier that can generalize well when just a small number of labeled samples per class are given. We introduce Transductive Maximum Margin Classifier (TMMC) for few-shot learning. The basic idea of the classical maximum margin classifier is to solve an optimal prediction function that the corresponding separating hyperplane can correctly divide the training data and the resulting classifier has the largest geometric margin. In few-shot learning scenarios, the training samples are scarce, not enough to find a separating hyperplane with good generalization ability on unseen data. TMMC is constructed using a mixture of the labeled support set and the unlabeled query set in a given task. The unlabeled samples in the query set can adjust the separating hyperplane so that the prediction function is optimal on both the labeled and unlabeled samples. Furthermore, we leverage an efficient and effective quasi-Newton algorithm, the L-BFGS method to optimize TMMC. Experimental results on three standard few-shot learning benchmarks including miniImagenet, tieredImagenet and CUB suggest that our TMMC achieves state-of-the-art accuracies.
翻訳日:2021-07-27 16:03:53 公開日:2021-07-26
# Meta-FDMixup: ラベル付きターゲットデータによるクロスドメインFew-Shot学習

Meta-FDMixup: Cross-Domain Few-Shot Learning Guided by Labeled Target Data ( http://arxiv.org/abs/2107.11978v1 )

ライセンス: Link先を確認
Yuqian Fu, Yanwei Fu, Yu-Gang Jiang(参考訳) 最近の研究では、ソースドメインでトレーニングされた既存の少数ショット学習方法は、ドメイン間隙が観察された場合、新しいターゲットドメインに一般化できないことが判明している。 これはクロスドメインFew-Shot Learning(CD-FSL)の課題である。 本稿では,cd-fslのラベル付き対象データは,学習プロセスを支援するために利用されていないことを認識した。 そこで我々は,ラベル付きターゲットデータを用いてモデル学習を指導することを提唱する。 技術的には,新しいメタFDMixupネットワークを提案する。 我々はこの問題に主に2つの側面から取り組んだ。 まず、2つの異なるクラスセットのソースと新たに導入されたターゲットデータを利用するため、ミックスアップモジュールを再利用し、メタラーニング機構に統合する。 次に, ドメイン分類器を併用した新規な異方性モジュールを提案し, 異方性ドメイン関連特徴とドメイン固有特徴を抽出した。 これら2つのモジュールを組み合わせることで、ドメインギャップを狭めることができ、ターゲットのデータセットによく当てはまる。 また,新しい環境下でのCD-FSLの直観的理解を反映し,詳細な実現可能性とパイロット実験を行った。 実験の結果,新しい設定と提案手法の有効性が示された。 コードとモデルはhttps://github.com/l ovelyqian/meta-fdmix upで入手できる。

A recent study finds that existing few-shot learning methods, trained on the source domain, fail to generalize to the novel target domain when a domain gap is observed. This motivates the task of Cross-Domain Few-Shot Learning (CD-FSL). In this paper, we realize that the labeled target data in CD-FSL has not been leveraged in any way to help the learning process. Thus, we advocate utilizing few labeled target data to guide the model learning. Technically, a novel meta-FDMixup network is proposed. We tackle this problem mainly from two aspects. Firstly, to utilize the source and the newly introduced target data of two different class sets, a mixup module is re-proposed and integrated into the meta-learning mechanism. Secondly, a novel disentangle module together with a domain classifier is proposed to extract the disentangled domain-irrelevant and domain-specific features. These two modules together enable our model to narrow the domain gap thus generalizing well to the target datasets. Additionally, a detailed feasibility and pilot study is conducted to reflect the intuitive understanding of CD-FSL under our new setting. Experimental results show the effectiveness of our new setting and the proposed method. Codes and models are available at https://github.com/l ovelyqian/Meta-FDMix up.
翻訳日:2021-07-27 16:03:34 公開日:2021-07-26
# 視覚認識のための増強経路ネットワーク

Augmentation Pathways Network for Visual Recognition ( http://arxiv.org/abs/2107.11990v1 )

ライセンス: Link先を確認
Yalong Bai, Mohan Zhou, Yuxiang Chen, Wei Zhang, Bowen Zhou, Tao Mei(参考訳) データ拡張は、特にデータ不足時の視覚的認識に実質的に有用である。 しかし、このような成功は、ごく少数の光増量(例えば、ランダムな作物、フリップ)に限られる。 重い増強(グレー、グリッドシャッフルなど)は、元の画像と強化画像の間に大きなギャップがあるため、トレーニング中に不安定または悪影響を及ぼす。 本稿では,より広い範囲の強化政策におけるトレーニングを体系的に安定化する新しいネットワーク設計法について紹介する。 注目すべきは、APは重いデータ拡張をテーパーし、拡張ポリシーの慎重に選択することなく、安定してパフォーマンスを向上させることである。 従来の単一経路とは異なり、強調画像は異なる神経経路で処理される。 主経路は光増強を扱うが、他の経路は重増強に焦点を合わせている。 複数の経路を依存的に相互作用させることにより、バックボーンネットワークは増補間の共有視覚パターンから頑健に学習し、同時にノイズパターンを抑制する。 さらに,apを均質なバージョンと,高次シナリオのための異質なバージョンに拡張し,その堅牢性と実用性を示す。 ImageNetベンチマークの実験結果は、より広範な拡張(例えば、Crop、Gray、Grid Shuffle、RandAugment)における互換性と有効性を示しながら、推論時に少ないパラメータを消費し、計算コストを低減している。 ソースコード:https://github.com/ ap-conv/ap-net

Data augmentation is practically helpful for visual recognition, especially at the time of data scarcity. However, such success is only limited to quite a few light augmentations (e.g., random crop, flip). Heavy augmentations (e.g., gray, grid shuffle) are either unstable or show adverse effects during training, owing to the big gap between the original and augmented images. This paper introduces a novel network design, noted as Augmentation Pathways (AP), to systematically stabilize training on a much wider range of augmentation policies. Notably, AP tames heavy data augmentations and stably boosts performance without a careful selection among augmentation policies. Unlike traditional single pathway, augmented images are processed in different neural paths. The main pathway handles light augmentations, while other pathways focus on heavy augmentations. By interacting with multiple paths in a dependent manner, the backbone network robustly learns from shared visual patterns among augmentations, and suppresses noisy patterns at the same time. Furthermore, we extend AP to a homogeneous version and a heterogeneous version for high-order scenarios, demonstrating its robustness and flexibility in practical usage. Experimental results on ImageNet benchmarks demonstrate the compatibility and effectiveness on a much wider range of augmentations (e.g., Crop, Gray, Grid Shuffle, RandAugment), while consuming fewer parameters and lower computational costs at inference time. Source code:https://github. com/ap-conv/ap-net.
翻訳日:2021-07-27 16:03:16 公開日:2021-07-26
# 近赤外画像の小さなセットから合成した骨盤iris pai

Synthetic Periocular Iris PAI from a Small Set of Near-Infrared-Images ( http://arxiv.org/abs/2107.12014v1 )

ライセンス: Link先を確認
Jose Maureira, Juan Tapia, Claudia Arellano, Christoph Busch(参考訳) バイオメトリックは、例えばアクセス制御のようないくつかのアプリケーションで使用できるため、近年、関連性が高まっている。 残念ながら、生体認証アプリケーションのデプロイの増加に伴い、攻撃の増加が観察される。 このため,このような攻撃を検出するアルゴリズム(Presentation Attack Detection (PAD))は,関連性が高まっている。 プレゼンテーションアタック検出(pad)アルゴリズムに焦点を当てたlivdet-2020コンペティションは、特に未知のアタックシナリオにおいて、まだ開いている問題を示している。 生体認証システムの堅牢性を向上させるためには,PAD法の改善が不可欠である。 これは、そのようなアルゴリズムを訓練するために使用されるプレゼンテーション攻撃装置(PAI)とボナフィド画像の数を増やすことで達成できる。 残念ながら、プレゼンテーション攻撃器の捕獲と作成、さらにはボナフィド画像のキャプチャさえも、実現には複雑である場合もある。 本稿では,4つの最先端GANアルゴリズム(cGAN,WGAN,WGAN-GP,S tyleGAN2)と眼周囲NIR画像を用いた新しいPAI合成(SPI-PAI)を提案する。 GANアルゴリズム間のベンチマークは、生成された画像とトレーニングに使用される元の画像との間のFrechet Inception Distance(FID)を用いて行われる。 LivDet-2020コンペティションで報告された最良のPADアルゴリズムは、StyleGAN2アルゴリズムを用いて得られた合成PAIを用いてテストした。 驚いたことに、padアルゴリズムは合成画像をプレゼンテーションアタックとして検出できず、これらすべてをbona fideとして分類した。 このような結果から, 合成画像が提示攻撃検出アルゴリズムを騙す可能性や, より多数の画像やPAIシナリオで継続的に更新・訓練する必要性が示された。

Biometric has been increasing in relevance these days since it can be used for several applications such as access control for instance. Unfortunately, with the increased deployment of biometric applications, we observe an increase of attacks. Therefore, algorithms to detect such attacks (Presentation Attack Detection (PAD)) have been increasing in relevance. The LivDet-2020 competition which focuses on Presentation Attacks Detection (PAD) algorithms have shown still open problems, specially for unknown attacks scenarios. In order to improve the robustness of biometric systems, it is crucial to improve PAD methods. This can be achieved by augmenting the number of presentation attack instruments (PAI) and bona fide images that are used to train such algorithms. Unfortunately, the capture and creation of presentation attack instruments and even the capture of bona fide images is sometimes complex to achieve. This paper proposes a novel PAI synthetically created (SPI-PAI) using four state-of-the-art GAN algorithms (cGAN, WGAN, WGAN-GP, and StyleGAN2) and a small set of periocular NIR images. A benchmark between GAN algorithms is performed using the Frechet Inception Distance (FID) between the generated images and the original images used for training. The best PAD algorithm reported by the LivDet-2020 competition was tested for us using the synthetic PAI which was obtained with the StyleGAN2 algorithm. Surprisingly, The PAD algorithm was not able to detect the synthetic images as a Presentation Attack, categorizing all of them as bona fide. Such results demonstrated the feasibility of synthetic images to fool presentation attacks detection algorithms and the need for such algorithms to be constantly updated and trained with a larger number of images and PAI scenarios.
翻訳日:2021-07-27 16:02:52 公開日:2021-07-26
# パラメトリックコントラスト学習

Parametric Contrastive Learning ( http://arxiv.org/abs/2107.12028v1 )

ライセンス: Link先を確認
Jiequan Cui, Zhisheng Zhong, Shu Liu, Bei Yu, Jiaya Jia(参考訳) 本稿では,ロングテール認識に取り組むためのパラメトリックコントラスト学習(paco)を提案する。 理論的解析に基づき,教師付きコントラスト損失は高周波クラスに偏り,不均衡学習の困難さを増大させる傾向が観察された。 最適化の観点から再バランスを図るために、パラメトリックなクラスワイド学習可能なセンターのセットを導入する。 さらに,バランスの取れた環境下でのPaCo損失を分析した。 分析の結果、pacoは、より多くのサンプルと対応するセンターを組み合わせることで、同じクラスのサンプルを近くで押すことの強度を適応的に向上させ、ハードサンプル学習の恩恵を受けることが示された。 ロングテールのcifar、imagenet、places、inaturalist 2018の実験では、ロングテール認識の新しい最先端が示されている。 完全なImageNetでは、PaCo損失でトレーニングされたモデルが、さまざまなResNetバックボーンの教師付きコントラスト学習を上回っている。 我々のコードは \url{https://github.com/j iequancui/Parametric -Contrastive-Learnin g} で利用可能です。

In this paper, we propose Parametric Contrastive Learning (PaCo) to tackle long-tailed recognition. Based on theoretical analysis, we observe supervised contrastive loss tends to bias on high-frequency classes and thus increases the difficulty of imbalance learning. We introduce a set of parametric class-wise learnable centers to rebalance from an optimization perspective. Further, we analyze our PaCo loss under a balanced setting. Our analysis demonstrates that PaCo can adaptively enhance the intensity of pushing samples of the same class close as more samples are pulled together with their corresponding centers and benefit hard example learning. Experiments on long-tailed CIFAR, ImageNet, Places, and iNaturalist 2018 manifest the new state-of-the-art for long-tailed recognition. On full ImageNet, models trained with PaCo loss surpass supervised contrastive learning across various ResNet backbones. Our code is available at \url{https://github.com/j iequancui/Parametric -Contrastive-Learnin g}.
翻訳日:2021-07-27 16:02:23 公開日:2021-07-26
# 自然分布シフトに対するロバストネスの測定に合成崩壊を用いる

Using Synthetic Corruptions to Measure Robustness to Natural Distribution Shifts ( http://arxiv.org/abs/2107.12052v1 )

ライセンス: Link先を確認
Alfred Laugros and Alice Caplier and Matthieu Ospici(参考訳) ベンチマークに収集された合成腐敗は、分散シフトに対するニューラルネットワークの堅牢性を測定するために頻繁に使用される。 しかしながら、合成腐敗ベンチマークに対するロバスト性は、現実世界のアプリケーションで発生する分散シフトに対するロバスト性を常に予測しているとは限らない。 本稿では,実世界の分布変化に対するロバスト性とロバスト性推定をより関連付ける合成汚損ベンチマークを構築する手法を提案する。 重なり合う基準を用いて、ニューラルネットワークのロバスト性をよりよく理解するのに役立つカテゴリに合成腐敗を分割した。 これらのカテゴリに基づいて,腐敗ベンチマークを構築する際に考慮すべきパラメータを3つ同定した。 提案手法を適用し,画像分類器の堅牢性を予測するために,ImageNet-Syn2Natと呼ばれる新しいベンチマークを構築した。

Synthetic corruptions gathered into a benchmark are frequently used to measure neural network robustness to distribution shifts. However, robustness to synthetic corruption benchmarks is not always predictive of robustness to distribution shifts encountered in real-world applications. In this paper, we propose a methodology to build synthetic corruption benchmarks that make robustness estimations more correlated with robustness to real-world distribution shifts. Using the overlapping criterion, we split synthetic corruptions into categories that help to better understand neural network robustness. Based on these categories, we identify three parameters that are relevant to take into account when constructing a corruption benchmark: number of represented categories, balance among categories and size of benchmarks. Applying the proposed methodology, we build a new benchmark called ImageNet-Syn2Nat to predict image classifier robustness.
翻訳日:2021-07-27 16:02:07 公開日:2021-07-26
# HANet:ビデオテキスト検索のための階層的アライメントネットワーク

HANet: Hierarchical Alignment Networks for Video-Text Retrieval ( http://arxiv.org/abs/2107.12059v1 )

ライセンス: Link先を確認
Peng Wu, Xiangteng He, Mingqian Tang, Yiliang Lv, Jing Liu(参考訳) ビデオテキスト検索は視覚言語理解において重要かつ挑戦的なタスクであり、関連するビデオとテキストインスタンスが互いに近接する埋め込み空間を学ぶことを目的としている。 現在のほとんどの研究は、ビデオレベルとテキストレベルの埋め込みに基づいて、ビデオテキストの類似性を測定する。 しかし、よりきめ細かい情報や局所的な情報の無視は、表現が不十分な問題を引き起こす。 一部の作品では、文章を否定することで局所的な詳細を利用するが、対応するビデオを見落とし、ビデオテキスト表現の非対称性を引き起こす。 上記の制約に対処するため,ビデオテキストマッチングのための階層アライメントネットワーク(HANet)を提案する。 具体的には、まず、ビデオとテキストを、イベント(ビデオとテキスト)、アクション(モーションと動詞)、実体(出現と名詞)の3つの意味レベルに分解する。 これらのことから,個々のレベルがフレームと単語のアライメントに,局所レベルがビデオクリップとテキストコンテキストのアライメントに,グローバルレベルがビデオ全体とテキスト間のアライメントに,といった局所的表現を自然に構築する。 異なるレベルのアライメントは、ビデオとテキスト間の微妙な相関を捉え、また3つのセマンティックレベルの相補的な情報を利用する。 さらに、私たちのHANetは、キーセマンティックな概念を明示的に学習することで、十分に解釈できます。 MSR-VTTとVATEXという2つの公開データセットに対する大規模な実験では、提案されたHANetは他の最先端手法よりも優れており、階層的表現とアライメントの有効性を示している。 私たちのコードは公開されています。

Video-text retrieval is an important yet challenging task in vision-language understanding, which aims to learn a joint embedding space where related video and text instances are close to each other. Most current works simply measure the video-text similarity based on video-level and text-level embeddings. However, the neglect of more fine-grained or local information causes the problem of insufficient representation. Some works exploit the local details by disentangling sentences, but overlook the corresponding videos, causing the asymmetry of video-text representation. To address the above limitations, we propose a Hierarchical Alignment Network (HANet) to align different level representations for video-text matching. Specifically, we first decompose video and text into three semantic levels, namely event (video and text), action (motion and verb), and entity (appearance and noun). Based on these, we naturally construct hierarchical representations in the individual-local-glo bal manner, where the individual level focuses on the alignment between frame and word, local level focuses on the alignment between video clip and textual context, and global level focuses on the alignment between the whole video and text. Different level alignments capture fine-to-coarse correlations between video and text, as well as take the advantage of the complementary information among three semantic levels. Besides, our HANet is also richly interpretable by explicitly learning key semantic concepts. Extensive experiments on two public datasets, namely MSR-VTT and VATEX, show the proposed HANet outperforms other state-of-the-art methods, which demonstrates the effectiveness of hierarchical representation and alignment. Our code is publicly available.
翻訳日:2021-07-27 16:01:54 公開日:2021-07-26
# 腹腔鏡像からの胆嚢血管度評価のためのマルチインスタンス学習法

A Multiple-Instance Learning Approach for the Assessment of Gallbladder Vascularity from Laparoscopic Images ( http://arxiv.org/abs/2107.12093v1 )

ライセンス: Link先を確認
C. Loukas, A. Gazis, D. Schizas(参考訳) 腹腔鏡下胆嚢摘出術(lc)開始時の重要な課題は,胆嚢の厚み,炎症の有無,脂肪の程度を評価するための胆嚢検査(gb)である。 gb壁血管の可視化の難しさは、慢性炎症やその他の疾患の結果として、以前の要因による可能性がある。 本稿では,lc操作画像のコンピュータビジョン解析によるgb壁血管性評価のためのマルチ・インスタンス・ラーニング(mil)手法を提案する。 バッグは53の操作から181gbの画像のラベル付き(低対高)血管性データセットに対応する。 これらの画像から抽出された未ラベルのパッチに対応する。 各パッチは、色、テクスチャ、統計的特徴を持つベクトルで表現される。 我々は、様々な最先端のMILとシングルインスタンス学習手法を比較し、変分ベイズ推定に基づくMIL手法を提案する。 これらの手法は画像ベースとビデオベース(すなわち)の2つの実験タスクで比較された。 患者ベース) 分類。 提案手法は,第1タスクで92.1%,第2タスクで90.3%の精度で最良性能を示す。 提案手法の重要な利点は、インスタンスを手動でラベリングする時間を消費する必要がないことである。

An important task at the onset of a laparoscopic cholecystectomy (LC) operation is the inspection of gallbladder (GB) to evaluate the thickness of its wall, presence of inflammation and extent of fat. Difficulty in visualization of the GB wall vessels may be due to the previous factors, potentially as a result of chronic inflammation or other diseases. In this paper we propose a multiple-instance learning (MIL) technique for assessment of the GB wall vascularity via computer-vision analysis of images from LC operations. The bags correspond to a labeled (low vs. high) vascularity dataset of 181 GB images, from 53 operations. The instances correspond to unlabeled patches extracted from these images. Each patch is represented by a vector with color, texture and statistical features. We compare various state-of-the-art MIL and single-instance learning approaches, as well as a proposed MIL technique based on variational Bayesian inference. The methods were compared for two experimental tasks: image-based and video-based (i.e. patient-based) classification. The proposed approach presents the best performance with accuracy 92.1% and 90.3% for the first and second task, respectively. A significant advantage of the proposed technique is that it does not require the time-consuming task of manual labelling the instances.
翻訳日:2021-07-27 16:01:25 公開日:2021-07-26
# 因果的介入による不偏視感情認識に向けて

Towards Unbiased Visual Emotion Recognition via Causal Intervention ( http://arxiv.org/abs/2107.12096v1 )

ライセンス: Link先を確認
Yuedong Chen, Xu Yang, Tat-Jen Cham and Jianfei Cai(参考訳) 視覚的感情認識において多くの進歩が見られたが、現代のディープネットワークは、データセットの特徴を利用して入力とターゲットの間の急激な統計的関連を学習する傾向がある。 このようなデータセット特性は通常データセットバイアスとして扱われ、これらの認識システムのロバスト性と一般化性能を損なう。 本研究では,この問題を因果推論の観点から検討し,このようなデータセットの特徴を共起体と呼び,システムがスプリアス相関を学習することを誤解する。 データセットバイアスによる悪影響を緩和するために,因果推論における基本的な解法の一つであるバックドア調整を実現するための新しい介入感情認識ネットワーク(iern)を提案する。 IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。

Although much progress has been made in visual emotion recognition, researchers have realized that modern deep networks tend to exploit dataset characteristics to learn spurious statistical associations between the input and the target. Such dataset characteristics are usually treated as dataset bias, which damages the robustness and generalization performance of these recognition systems. In this work, we scrutinize this problem from the perspective of causal inference, where such dataset characteristic is termed as a confounder which misleads the system to learn the spurious correlation. To alleviate the negative effects brought by the dataset bias, we propose a novel Interventional Emotion Recognition Network (IERN) to achieve the backdoor adjustment, which is one fundamental deconfounding technique in causal inference. A series of designed tests validate the effectiveness of IERN, and experiments on three emotion benchmarks demonstrate that IERN outperforms other state-of-the-art approaches.
翻訳日:2021-07-27 16:01:08 公開日:2021-07-26
# 圧縮ビデオを用いた効率的な映像オブジェクトセグメンテーション

Efficient Video Object Segmentation with Compressed Video ( http://arxiv.org/abs/2107.12192v1 )

ライセンス: Link先を確認
Kai Xu and Angela Yao(参考訳) ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的な推論フレームワークを提案する。 提案手法は,選択したキーフレームに対する推論を行い,圧縮したビデオビットストリームの動作ベクトルと残差に基づいて,他のフレームに対する予測を行う。 具体的には,キーフレームから他のフレームへのセグメンテーションマスクをマルチ参照で伝播する動きベクトルに基づくワープ手法を提案する。 さらに,ブロック方向伝搬型セグメンテーションマスクに細部を補正・付加可能な残差ベースリファインメントモジュールを提案する。 われわれのアプローチは柔軟であり、既存のビデオオブジェクトセグメンテーションアルゴリズムに加えることができる。 ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。

We propose an efficient inference framework for semi-supervised video object segmentation by exploiting the temporal redundancy of the video. Our method performs inference on selected keyframes and makes predictions for other frames via propagation based on motion vectors and residuals from the compressed video bitstream. Specifically, we propose a new motion vector-based warping method for propagating segmentation masks from keyframes to other frames in a multi-reference manner. Additionally, we propose a residual-based refinement module that can correct and add detail to the block-wise propagated segmentation masks. Our approach is flexible and can be added on top of existing video object segmentation algorithms. With STM with top-k filtering as our base model, we achieved highly competitive results on DAVIS16 and YouTube-VOS with substantial speedups of up to 4.9X with little loss in accuracy.
翻訳日:2021-07-27 16:00:52 公開日:2021-07-26
# イメージベースパーキングスペース占有分類:データセットとベースライン

Image-Based Parking Space Occupancy Classification: Dataset and Baseline ( http://arxiv.org/abs/2107.12207v1 )

ライセンス: Link先を確認
Martin Marek(参考訳) 画像に基づく駐車スペース占有分類のための新しいデータセット: ACPDSを提案する。 以前のデータセットとは異なり、各イメージはユニークなビューから取り出され、体系的に注釈付けされ、列車内の駐車場、検証、テストセットはユニークである。 このデータセットを用いて、駐車スペース占有率分類のための単純なベースラインモデルを提案し、未確認駐車場における98%の精度を達成し、既存のモデルよりも大幅に優れている。 私たちは、データセット、コード、トレーニングされたモデルをMITライセンス下で共有しています。

We introduce a new dataset for image-based parking space occupancy classification: ACPDS. Unlike in prior datasets, each image is taken from a unique view, systematically annotated, and the parking lots in the train, validation, and test sets are unique. We use this dataset to propose a simple baseline model for parking space occupancy classification, which achieves 98% accuracy on unseen parking lots, significantly outperforming existing models. We share our dataset, code, and trained models under the MIT license.
翻訳日:2021-07-27 16:00:40 公開日:2021-07-26
# 映像・言語推論のための意味コヒーレンスを用いた適応的階層グラフ推論

Adaptive Hierarchical Graph Reasoning with Semantic Coherence for Video-and-Language Inference ( http://arxiv.org/abs/2107.12270v1 )

ライセンス: Link先を確認
Juncheng Li, Siliang Tang, Linchao Zhu, Haochen Shi, Xuanwen Huang, Fei Wu, Yi Yang, Yueting Zhuang(参考訳) Video-and-Language Inferenceは、最近提案された共同ビデオ・言語理解のタスクである。 この新しいタスクでは、自然言語文が所定のビデオクリップを伴うか矛盾しているかを推論するモデルが必要となる。 本稿では,複数の意味的意味を含む言明のグローバルな正当性を判断し,ビデオや字幕に対する共同推論を行い,長距離関係や複雑な社会的相互作用をモデル化する,という3つの重要な課題に対処する方法を検討する。 まず,複雑な相互作用による映像の深い理解を実現する適応階層型グラフネットワークを提案する。 具体的には、3階層の動画と字幕に対して共同推論を行い、文の意味構造に応じてグラフ構造を適応的に調整する。 次に,3階層から適応型階層グラフネットワークの意味コヒーレンスを明示的に促進するために,意味コヒーレンス学習を導入する。 セマンティックコヒーレンス学習は、視覚と言語学のアライメントと、ビデオセグメントのシーケンス間のコヒーレンスをさらに改善することができる。 実験結果から,本手法はベースラインのマージンを大きく上回ることがわかった。

Video-and-Language Inference is a recently proposed task for joint video-and-language understanding. This new task requires a model to draw inference on whether a natural language statement entails or contradicts a given video clip. In this paper, we study how to address three critical challenges for this task: judging the global correctness of the statement involved multiple semantic meanings, joint reasoning over video and subtitles, and modeling long-range relationships and complex social interactions. First, we propose an adaptive hierarchical graph network that achieves in-depth understanding of the video over complex interactions. Specifically, it performs joint reasoning over video and subtitles in three hierarchies, where the graph structure is adaptively adjusted according to the semantic structures of the statement. Secondly, we introduce semantic coherence learning to explicitly encourage the semantic coherence of the adaptive hierarchical graph network from three hierarchies. The semantic coherence learning can further improve the alignment between vision and linguistics, and the coherence across a sequence of video segments. Experimental results show that our method significantly outperforms the baseline by a large margin.
翻訳日:2021-07-27 16:00:32 公開日:2021-07-26
# クラスインクリメンタル学習におけるコントラストクラス濃度による緩和表現の重複

Alleviate Representation Overlapping in Class Incremental Learning by Contrastive Class Concentration ( http://arxiv.org/abs/2107.12308v1 )

ライセンス: Link先を確認
Zixuan Ni and Haizhou shi and Siliang tang and Yueting Zhuang(参考訳) 授業インクリメンタルラーニング(cil)の課題は、学習者が古いクラスのデータと新しいクラスデータを区別することが困難であり、以前のデータは保存されないことである。 すなわち、異なる位相の表現分布は互いに重なり合う。 本稿では,メモリベースとメモリフリーの両方で重複する表現の現象を軽減するために,CILのための新しいCILフレームワークであるContrastive Class concentration for CIL (C4IL)を提案する。 本フレームワークは,コントラスト表現学習のクラス集中効果を活用し,クラス内コンパクト性とクラス間分離性を向上させる。 メモリベースのケースとメモリフリーケースの両方で有効なフレームワークを定量的に検証し,10フェーズと20フェーズのCILの平均とトップ1の精度で,両ケースのベースライン手法を5%上回った。 また,提案手法は重なり合う問題を緩和する,よりコンパクトな表現分布を生成することを示す。

The challenge of the Class Incremental Learning (CIL) lies in difficulty for a learner to discern the old classes' data from the new while no previous data is preserved. Namely, the representation distribution of different phases overlaps with each other. In this paper, to alleviate the phenomenon of representation overlapping for both memory-based and memory-free methods, we propose a new CIL framework, Contrastive Class Concentration for CIL (C4IL). Our framework leverages the class concentration effect of contrastive representation learning, therefore yielding a representation distribution with better intra-class compactibility and inter-class separability. Quantitative experiments showcase our framework that is effective in both memory-based and memory-free cases: it outperforms the baseline methods of both cases by 5% in terms of the average and top-1 accuracy in 10-phase and 20-phase CIL. Qualitative results also demonstrate that our method generates a more compact representation distribution that alleviates the overlapping problem.
翻訳日:2021-07-27 16:00:14 公開日:2021-07-26
# 動的シーングラフ生成のための空間時間変換器

Spatial-Temporal Transformer for Dynamic Scene Graph Generation ( http://arxiv.org/abs/2107.12309v1 )

ライセンス: Link先を確認
Yuren Cong, Wentong Liao, Hanno Ackermann, Michael Ying Yang, Bodo Rosenhahn(参考訳) 動的シーングラフ生成は、与えられたビデオのシーングラフを生成することを目的としている。 画像からシーングラフを生成するタスクと比較して、オブジェクト間の動的関係とフレーム間の時間的依存関係により、よりリッチな意味解釈が可能になるため、より難しい。 本稿では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダ,(2)フレーム間の時間的依存関係を捉えるために空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークである空間時間変換器(STTran)を提案する。 さらに、sttranはクリップなしで様々な長さの動画を入力できる柔軟性があり、これは長編ビデオにとって特に重要である。 本手法はベンチマークデータセットであるAction Genome (AG) で検証する。 実験の結果,動的シーングラフによる手法の優れた性能が示された。 さらに,一連のアブレーション研究を行い,提案するモジュールの効果を正当化する。

Dynamic scene graph generation aims at generating a scene graph of the given video. Compared to the task of scene graph generation from images, it is more challenging because of the dynamic relationships between objects and the temporal dependencies between frames allowing for a richer semantic interpretation. In this paper, we propose Spatial-temporal Transformer (STTran), a neural network that consists of two core modules: (1) a spatial encoder that takes an input frame to extract spatial context and reason about the visual relationships within a frame, and (2) a temporal decoder which takes the output of the spatial encoder as input in order to capture the temporal dependencies between frames and infer the dynamic relationships. Furthermore, STTran is flexible to take varying lengths of videos as input without clipping, which is especially important for long videos. Our method is validated on the benchmark dataset Action Genome (AG). The experimental results demonstrate the superior performance of our method in terms of dynamic scene graphs. Moreover, a set of ablative studies is conducted and the effect of each proposed module is justified.
翻訳日:2021-07-27 15:59:54 公開日:2021-07-26
# 言語ステグアナリシスにおける言語モデルの利用 : 実証的研究

Exploiting Language Model for Efficient Linguistic Steganalysis: An Empirical Study ( http://arxiv.org/abs/2107.12168v1 )

ライセンス: Link先を確認
Biao Yi, Hanzhou Wu, Guorui Feng and Xinpeng Zhang(参考訳) 近年,CNN,RNN,GNN,その他の深層学習モデルを用いて,生成テキストにおける秘密情報の検出を行っている。 これらの方法は、ステガナリシス効果を高めるために、より強力な特徴抽出器を求める傾向がある。 しかし,各単語の条件付き確率分布の観点から,自動生成したステガノグラフィーテキストと担い手テキストとの間に有意な差異があることを実験により見出した。 このような統計的な違いは、ステガノグラフィーのテキストを生成するのに使われる言語モデルによって自然に捉えられ、分類器にステグアナライザ能力を高めるために言語モデルの事前知識を与える。 そこで本研究では,効率的な言語格解析を行うための2つの方法を提案する。 1つはRNNに基づく言語モデルの事前トレーニングであり、もう1つはシーケンスオートエンコーダの事前トレーニングである。 実験結果から, ランダム初期化RNN分類器と比較すると, 2つの手法は性能改善の度合いが異なることが明らかとなり, 収束速度は著しく向上した。 さらに,本手法は最高の検出結果を得た。

Recent advances in linguistic steganalysis have successively applied CNNs, RNNs, GNNs and other deep learning models for detecting secret information in generative texts. These methods tend to seek stronger feature extractors to achieve higher steganalysis effects. However, we have found through experiments that there actually exists significant difference between automatically generated steganographic texts and carrier texts in terms of the conditional probability distribution of individual words. Such kind of statistical difference can be naturally captured by the language model used for generating steganographic texts, which drives us to give the classifier a priori knowledge of the language model to enhance the steganalysis ability. To this end, we present two methods to efficient linguistic steganalysis in this paper. One is to pre-train a language model based on RNN, and the other is to pre-train a sequence autoencoder. Experimental results show that the two methods have different degrees of performance improvement when compared to the randomly initialized RNN classifier, and the convergence speed is significantly accelerated. Moreover, our methods have achieved the best detection results.
翻訳日:2021-07-27 15:59:38 公開日:2021-07-26
# 補償学習

Compensation Learning ( http://arxiv.org/abs/2107.11921v1 )

ライセンス: Link先を確認
Rujing Yao and Mengyang Li and Ou Wu(参考訳) 重み付け戦略は機械学習で一般的である。 例えば、堅牢な機械学習における一般的なアプローチは、ノイズや難易度の高いサンプルに低い重みを課すことである。 この研究は、機械学習にも広く使われている別の未発見の戦略、すなわち補償方法を明らかにする。 本研究では,補償学習を補償学習と呼び,体系的な分類法を構築した。 我々の分類では、補償学習は、補償対象、推論方法、粒度レベルに基づいて分割される。 古典的学習を含む既存の学習アルゴリズムの多くは、補償学習や一部補償の特別な場合と見なすことができる。 さらに、既存の学習アルゴリズムに補償学習を組み込むことにより、新たな学習アルゴリズム群を得ることができる。 特に、堅牢な機械学習のために3つの具体的な新しい学習アルゴリズムが提案されている。 テキスト感情分析、画像分類、グラフ分類に関する広範な実験により、3つのアルゴリズムの有効性が検証された。 補償学習は、不均衡学習、クラスタリング、回帰など、さまざまな学習シナリオでも使用することができる。

Weighting strategy prevails in machine learning. For example, a common approach in robust machine learning is to exert lower weights on samples which are likely to be noisy or hard. This study reveals another undiscovered strategy, namely, compensating, that has also been widely used in machine learning. Learning with compensating is called compensation learning and a systematic taxonomy is constructed for it in this study. In our taxonomy, compensation learning is divided on the basis of the compensation targets, inference manners, and granularity levels. Many existing learning algorithms including some classical ones can be seen as a special case of compensation learning or partially leveraging compensating. Furthermore, a family of new learning algorithms can be obtained by plugging the compensation learning into existing learning algorithms. Specifically, three concrete new learning algorithms are proposed for robust machine learning. Extensive experiments on text sentiment analysis, image classification, and graph classification verify the effectiveness of the three new algorithms. Compensation learning can also be used in various learning scenarios, such as imbalance learning, clustering, regression, and so on.
翻訳日:2021-07-27 15:57:50 公開日:2021-07-26
# GreenAIコスト推定のための入力次元に沿ったFLOPの分離

Dissecting FLOPs along input dimensions for GreenAI cost estimations ( http://arxiv.org/abs/2107.11949v1 )

ライセンス: Link先を確認
Andrea Asperti, Davide Evangelista, Moreno Marzolla(参考訳) GreenAIという用語は、Deep Learningに対する新しいアプローチを指しており、その手法の生態的影響と計算効率をよりよく認識している。 GreenAIのプロモーターは、ニューラルネットワークの計算コストの尺度として浮動小数点演算(FLOP)を使うことを提案したが、GPUやTPUのような大規模並列処理ユニットを備えたハードウェアのエネルギー消費と相関しない。 本稿では, 畳み込み層に対する浮動小数点演算の計算法である {\alpha}-FLOPsについて, 従来の相違を説明・修正し, 現実に近づいた計算法を提案する。 α}-flops の概念は、多次元の入力の場合、平行性によって与えられるスピードアップが全ての異なる軸に沿って一様であると考える理由がないという重要な洞察に依存している。

The term GreenAI refers to a novel approach to Deep Learning, that is more aware of the ecological impact and the computational efficiency of its methods. The promoters of GreenAI suggested the use of Floating Point Operations (FLOPs) as a measure of the computational cost of Neural Networks; however, that measure does not correlate well with the energy consumption of hardware equipped with massively parallel processing units like GPUs or TPUs. In this article, we propose a simple refinement of the formula used to compute floating point operations for convolutional layers, called {\alpha}-FLOPs, explaining and correcting the traditional discrepancy with respect to different layers, and closer to reality. The notion of {\alpha}-FLOPs relies on the crucial insight that, in case of inputs with multiple dimensions, there is no reason to believe that the speedup offered by parallelism will be uniform along all different axes.
翻訳日:2021-07-27 15:57:35 公開日:2021-07-26
# Aggregate or not? 異なる非IIDシーン下でのDNNに基づくフェデレーション学習におけるプライバタイズ手法の探索

Aggregate or Not? Exploring Where to Privatize in DNN Based Federated Learning Under Different Non-IID Scenes ( http://arxiv.org/abs/2107.11954v1 )

ライセンス: Link先を確認
Xin-Chun Li, Le Gan, De-Chuan Zhan, Yunfeng Shao, Bingshuai Li, Shaoming Song(参考訳) 連合学習(FL)は、分散トレーニングとデータプライバシ保護のために最近提案されているが、それでも多くの障害に直面している。 これらのうちの1つは、クライアント間で自然に存在する統計的不均一性であり、局所的なデータ分布を独立に、同一に分散させる(つまり、非id)。 ディープニューラルネットワーク(DNN)を持つFLでは、一部のレイヤを民営化することは、非イド問題に対して単純だが効果的なソリューションである。 しかし、学習プロセスを促進するために、どの層を民営化するべきか? 非iidシーンの異なるカテゴリは民営化の方法を好むか? FL中で最も適切な民営化方法を自動的に学べるだろうか? 本稿では,複数のflベンチマークを用いた実験を通じて,これらの疑問に答える。 まず、これらのベンチマークの詳細な統計データを示し、それを共変量およびラベルシフト非イドシーンに分類する。 そこで我々は,粗粒度と細粒度の両方のネットワーク分割を調査し,優先的な民営化手法が,非イドシーンの特定のカテゴリと潜在的な関係があるかどうかを考察する。 私たちの発見はエキサイティングで、例えば、基盤層を民営化することで、ラベルシフトの非iidシーンでもパフォーマンスが向上する可能性がある。 また、これらの民営化方法がシェイクスピアのベンチマークの演奏を改善できないことも分かり、シェイクスピアは真面目なノンアイドシーンではないと推測する。 最後に, クロスストッチ, ソフトアテンション, ハードセレクションなどを通じて, 集約する場所を自動的に学習する手法を提案する。 提案手法は,新たな非イドシーンの民営化の方法を探究するための予備的試みとして有効である。

Although federated learning (FL) has recently been proposed for efficient distributed training and data privacy protection, it still encounters many obstacles. One of these is the naturally existing statistical heterogeneity among clients, making local data distributions non independently and identically distributed (i.e., non-iid), which poses challenges for model aggregation and personalization. For FL with a deep neural network (DNN), privatizing some layers is a simple yet effective solution for non-iid problems. However, which layers should we privatize to facilitate the learning process? Do different categories of non-iid scenes have preferred privatization ways? Can we automatically learn the most appropriate privatization way during FL? In this paper, we answer these questions via abundant experimental studies on several FL benchmarks. First, we present the detailed statistics of these benchmarks and categorize them into covariate and label shift non-iid scenes. Then, we investigate both coarse-grained and fine-grained network splits and explore whether the preferred privatization ways have any potential relations to the specific category of a non-iid scene. Our findings are exciting, e.g., privatizing the base layers could boost the performances even in label shift non-iid scenes, which are inconsistent with some natural conjectures. We also find that none of these privatization ways could improve the performances on the Shakespeare benchmark, and we guess that Shakespeare may not be a seriously non-iid scene. Finally, we propose several approaches to automatically learn where to aggregate via cross-stitch, soft attention, and hard selection. We advocate the proposed methods could serve as a preliminary try to explore where to privatize for a novel non-iid scene.
翻訳日:2021-07-27 15:57:18 公開日:2021-07-26
# AAVAE:Augmentation-A ugmented Variational Autoencoders

AAVAE: Augmentation-Augment ed Variational Autoencoders ( http://arxiv.org/abs/2107.12329v1 )

ライセンス: Link先を確認
William Falcon, Ananya Harsh Jha, Teddy Koker and Kyunghyun Cho(参考訳) 近年の自己教師型学習法は, コントラスト的アプローチと非コントラスト的アプローチの2つのパラダイムに分類できる。 彼らの成功は主に、基礎となるセマンティクスを保存する単一の入力の複数のビューを生成するデータ拡張パイプラインによるものである。 本稿では,自己教師付き学習に対する第3のアプローチである拡張型変分オートエンコーダ(aavae)について述べる。 我々は、従来の変分オートエンコーダ(vae)から始まったaavaeを、入力領域に依存しないkl分岐正規化と、ドメイン固有の不変性と等分散を明示的にエンコードするように内部表現を奨励するデータ拡張に置き換えることで導出する。 画像分類におけるaavaeの評価は,近年のコントラスト型および非コントラスト型学習アルゴリズムの評価と類似している。 KL分散正規化の代替としてデータ拡張の有効性を確認した。 AAVAEは、CIFAR-10でVAEを30%、STL-10で40%上回っている。 AAVAEの結果は、主に自己教師型学習の最先端技術に匹敵する。

Recent methods for self-supervised learning can be grouped into two paradigms: contrastive and non-contrastive approaches. Their success can largely be attributed to data augmentation pipelines which generate multiple views of a single input that preserve the underlying semantics. In this work, we introduce augmentation-augment ed variational autoencoders (AAVAE), a third approach to self-supervised learning based on autoencoding. We derive AAVAE starting from the conventional variational autoencoder (VAE), by replacing the KL divergence regularization, which is agnostic to the input domain, with data augmentations that explicitly encourage the internal representations to encode domain-specific invariances and equivariances. We empirically evaluate the proposed AAVAE on image classification, similar to how recent contrastive and non-contrastive learning algorithms have been evaluated. Our experiments confirm the effectiveness of data augmentation as a replacement for KL divergence regularization. The AAVAE outperforms the VAE by 30% on CIFAR-10 and 40% on STL-10. The results for AAVAE are largely comparable to the state-of-the-art for self-supervised learning.
翻訳日:2021-07-27 15:56:29 公開日:2021-07-26
# リーフFM:クリックスルーレート予測のための学習可能な特徴生成因子化装置

Leaf-FM: A Learnable Feature Generation Factorization Machine for Click-Through Rate Prediction ( http://arxiv.org/abs/2107.12024v1 )

ライセンス: Link先を確認
Qingyun She, Zhiqiang Wang, Junlin Zhang(参考訳) クリックスルー率(CTR)予測は、パーソナライズされた広告とレコメンデーションシステムにおいて重要な役割を果たす。 近年、FM、FFM、DeepFMなど多くのモデルが提案されているが、生の機能を使用することで最適な結果が得られないため、多くのアプリケーションにおいて、機能工学はモデル性能を改善するための非常に重要な方法である。 例えば、連続的な特徴は通常、特徴の非線形関数を簡単に形成できるように新しい機能を追加することで、パワーフォームに変換される。 しかし、この種の機能エンジニアリングは人々の経験に大きく依存しており、時間消費と労働消費の両方である。 一方、高速なオンラインサービス速度と優れたモデル性能を持つ簡潔なCTRモデルは、多くの実生活アプリケーションにとって不可欠である。 本稿では,fmに基づくリーフfmモデルを提案し,変換関数を自動的に学習することにより,特徴埋め込みから新機能を生成する。 また,元の特徴と生成された特徴を組み合わせた3つの具体的なリーフFMモデルを設計する。 実世界の3つのデータセットについて広範な実験を行い,リーフfmモデルが標準fmsよりも大きなマージンを示した。 FFMと比較すると、Leaf-FMはパラメータをはるかに少なくして大幅に性能が向上する。 AvazuとMalwareのデータセットでは、バージョンLeaf-FMはDNNやAutoIntといったディープラーニングベースのモデルで同等のパフォーマンスを達成する。 改良されたFMモデルとして、Leaf-FMは、オンラインサービスフェーズにおけるFMと同じ計算複雑性を持ち、Leaf-FMは多くの業界アプリケーションに適用できることを意味している。

Click-through rate (CTR) prediction plays important role in personalized advertising and recommender systems. Though many models have been proposed such as FM, FFM and DeepFM in recent years, feature engineering is still a very important way to improve the model performance in many applications because using raw features can rarely lead to optimal results. For example, the continuous features are usually transformed to the power forms by adding a new feature to allow it to easily form non-linear functions of the feature. However, this kind of feature engineering heavily relies on peoples experience and it is both time consuming and labor consuming. On the other side, concise CTR model with both fast online serving speed and good model performance is critical for many real life applications. In this paper, we propose LeafFM model based on FM to generate new features from the original feature embedding by learning the transformation functions automatically. We also design three concrete Leaf-FM models according to the different strategies of combing the original and the generated features. Extensive experiments are conducted on three real-world datasets and the results show Leaf-FM model outperforms standard FMs by a large margin. Compared with FFMs, Leaf-FM can achieve significantly better performance with much less parameters. In Avazu and Malware dataset, add version Leaf-FM achieves comparable performance with some deep learning based models such as DNN and AutoInt. As an improved FM model, Leaf-FM has the same computation complexity with FM in online serving phase and it means Leaf-FM is applicable in many industry applications because of its better performance and high computation efficiency.
翻訳日:2021-07-27 15:55:39 公開日:2021-07-26
# ContextNet: コンテキスト情報を用いたクリックスルーレート予測フレームワーク

ContextNet: A Click-Through Rate Prediction Framework Using Contextual information to Refine Feature Embedding ( http://arxiv.org/abs/2107.12025v1 )

ライセンス: Link先を確認
Zhiqiang Wang, Qingyun She, PengTao Zhang, Junlin Zhang(参考訳) Click-through rate (CTR) estimation is a fundamental task in personalized advertising and recommender systems and it's important for ranking models to effectively capture complex high-order features.Inspired by the success of ELMO and Bert in NLP field, which dynamically refine word embedding according to the context sentence information where the word appears, we think it's also important to dynamically refine each feature's embedding layer by layer according to the context information contained in input instance in CTR estimation tasks. この方法で、各機能で有用な機能インタラクションを効果的にキャプチャできます。 本稿では,入力コンテキストに応じて各特徴の埋め込みを動的に洗練することにより,高次特徴の相互作用を暗黙的にモデル化する新しいCTRフレームワークContextNetを提案する。 contextnet は、context embedded module と contextnet block の2つの主要なコンポーネントから構成されている。 コンテキスト埋め込みモジュールは入力インスタンスから各機能のコンテキスト情報を集約し、ContextNetブロックは各機能の埋め込み層をレイヤ単位で維持し、コンテキスト高次相互作用情報を機能埋め込みにマージすることでその表現を動的に洗練する。 また,このフレームワークを具体化するために,線形コンテキスト埋め込みネットワークと,コンテキストネットブロック内の2つの非線形マッピングサブネットワークを導入することにより,このフレームワークの下で2つのモデル(contextnet-pffnとcontextnet-sffn)を提案する。 実世界の4つのデータセットについて広範な実験を行い、提案したContextNet-PFFNとContextNet-SFFNモデルがDeepFMやxDeepFMといった最先端モデルよりも優れていることを示した。

Click-through rate (CTR) estimation is a fundamental task in personalized advertising and recommender systems and it's important for ranking models to effectively capture complex high-order features.Inspired by the success of ELMO and Bert in NLP field, which dynamically refine word embedding according to the context sentence information where the word appears, we think it's also important to dynamically refine each feature's embedding layer by layer according to the context information contained in input instance in CTR estimation tasks. We can effectively capture the useful feature interactions for each feature in this way. In this paper, We propose a novel CTR Framework named ContextNet that implicitly models high-order feature interactions by dynamically refining each feature's embedding according to the input context. Specifically, ContextNet consists of two key components: contextual embedding module and ContextNet block. Contextual embedding module aggregates contextual information for each feature from input instance and ContextNet block maintains each feature's embedding layer by layer and dynamically refines its representation by merging contextual high-order interaction information into feature embedding. To make the framework specific, we also propose two models(ContextNet-PF FN and ContextNet-SFFN) under this framework by introducing linear contextual embedding network and two non-linear mapping sub-network in ContextNet block. We conduct extensive experiments on four real-world datasets and the experiment results demonstrate that our proposed ContextNet-PFFN and ContextNet-SFFN model outperform state-of-the-art models such as DeepFM and xDeepFM significantly.
翻訳日:2021-07-27 15:55:16 公開日:2021-07-26
# AIプレイヤーを用いたゲームエンゲージメントと難易度予測

Predicting Game Engagement and Difficulty Using AI Players ( http://arxiv.org/abs/2107.12061v1 )

ライセンス: Link先を確認
Shaghayegh Roohi and Christian Guckelsberger and Asko Relas and Henri Heiskanen and Jari Takatalo and Perttu H\"am\"al\"ainen(参考訳) 本稿では,プレイヤーの行動と経験の予測のための自動プレイテスティング手法を提案する。 ゲームプレイングエージェントは、ゲーム難易度とプレイヤーエンゲージメントの両方を予測でき、平均パスとチャーンレートとして動作可能であることがこれまで実証されてきた。 我々は,モンテカルロ木探索(MCTS)によるDRLの向上により,このアプローチを改善した。 また,AIエージェントのベストケース性能が,エージェントの平均性能よりも強い相関関係が得られるという観察に基づいて,予測機能の選択戦略の強化も動機付けている。 どちらの追加も予測精度を常に改善し、DRL強化MCTSはDRLとバニラMCTSを最も高い水準で上回る。 自動プレイテストによるプレイヤーモデリングはDRLとMCTSを組み合わせることで有効である。 さらに、AIゲームプレイが平均的に良い予測を得られなければ、繰り返し行われる最高のAIエージェントの実行のサブセットを調べることにも価値がある。

This paper presents a novel approach to automated playtesting for the prediction of human player behavior and experience. It has previously been demonstrated that Deep Reinforcement Learning (DRL) game-playing agents can predict both game difficulty and player engagement, operationalized as average pass and churn rates. We improve this approach by enhancing DRL with Monte Carlo Tree Search (MCTS). We also motivate an enhanced selection strategy for predictor features, based on the observation that an AI agent's best-case performance can yield stronger correlations with human data than the agent's average performance. Both additions consistently improve the prediction accuracy, and the DRL-enhanced MCTS outperforms both DRL and vanilla MCTS in the hardest levels. We conclude that player modelling via automated playtesting can benefit from combining DRL and MCTS. Moreover, it can be worthwhile to investigate a subset of repeated best AI agent runs, if AI gameplay does not yield good predictions on average.
翻訳日:2021-07-27 15:54:51 公開日:2021-07-26
# CP-loss:航空画像を用いた自律走行における道路カーブ検出のための接続性保持損失

CP-loss: Connectivity-preserv ing Loss for Road Curb Detection in Autonomous Driving with Aerial Images ( http://arxiv.org/abs/2107.11920v1 )

ライセンス: Link先を確認
Zhenhua Xu, Yuxiang Sun, Lujia Wang, Ming Liu(参考訳) 自動走行には道路停止検知が重要である。 道路上の車両を拘束するために道路境界を決定するために使用することができ、潜在的な事故を避けることができる。 現在の方法の多くは、カメラや3dlidarなどの車載センサーを使って、道路の縁石をオンラインで検出する。 しかし、これらの方法は通常、深刻な閉塞の問題に苦しむ。 特に高ダイナミックなトラフィック環境では、視野のほとんどが動的オブジェクトによって占められている。 この問題を軽減するため,本稿では高分解能空中画像を用いて道路縁石をオフラインで検出する。 さらに、検出された道路縁石を用いて、自動運転車のための高精細(HD)マップを作成することができる。 具体的には,まず道路縁石の画素ワイドセグメンテーションマップを推定し,その後,道路縁石のグラフ構造を抽出するための一連の後処理を行う。 セグメンテーションマップにおける切断性問題に取り組むため、セグメンテーション性能を向上させるために、革新的な接続性保存損失(cp-loss)を提案する。 公開データセットにおける実験結果は,提案する損失関数の有効性を示す。 この論文にはデモビデオと補足ドキュメントが付属しており、これは \texttt{\url{https://sites.google .com/view/cp-loss}} で利用可能である。

Road curb detection is important for autonomous driving. It can be used to determine road boundaries to constrain vehicles on roads, so that potential accidents could be avoided. Most of the current methods detect road curbs online using vehicle-mounted sensors, such as cameras or 3-D Lidars. However, these methods usually suffer from severe occlusion issues. Especially in highly-dynamic traffic environments, most of the field of view is occupied by dynamic objects. To alleviate this issue, we detect road curbs offline using high-resolution aerial images in this paper. Moreover, the detected road curbs can be used to create high-definition (HD) maps for autonomous vehicles. Specifically, we first predict the pixel-wise segmentation map of road curbs, and then conduct a series of post-processing steps to extract the graph structure of road curbs. To tackle the disconnectivity issue in the segmentation maps, we propose an innovative connectivity-preserv ing loss (CP-loss) to improve the segmentation performance. The experimental results on a public dataset demonstrate the effectiveness of our proposed loss function. This paper is accompanied with a demonstration video and a supplementary document, which are available at \texttt{\url{https://sites.google .com/view/cp-loss}}.
翻訳日:2021-07-27 15:53:51 公開日:2021-07-26
# マルチコントラストMR画像変換のための統一ハイパーGANモデル

A Unified Hyper-GAN Model for Unpaired Multi-contrast MR Image Translation ( http://arxiv.org/abs/2107.11945v1 )

ライセンス: Link先を確認
Heran Yang, Jian Sun, Liwei Yang, and Zongben Xu(参考訳) クロスコントラスト画像翻訳は,臨床診断におけるコントラストの欠如を解消するための重要な課題である。 しかし、既存のほとんどの手法は、実際のシナリオで多くのコントラスト対が存在するため、非効率なコントラスト対ごとに別々のトランスレータを学習する。 本研究では,異なるコントラストペア間の効率よく効率的に翻訳できる統一型Hyper-GANモデルを提案する。 hyper-ganは1対のハイパーエンコーダとハイパーデコーダで構成され、ソースから共通の特徴空間へのコントラストを最初にマップし、さらにターゲットのコントラスト画像にマップする。 コントラストペア間の変換を容易にするために、コントラスト変調器は、異なるコントラストに適応するハイパーエンコーダとハイパーデコーダをチューニングするように設計されている。 また,被写体の複数コントラスト画像が共通の特徴空間を共有し,共有解剖学的構造を暗黙的にモデル化する共通空間損失も設計した。 IXIとBraTS 2019の2つのデータセットの実験によると、ハイパーGANは精度と効率の両方で、パラメータの半分未満の2つのデータセット上でPSNRの1.47と1.09dB以上を改善している。

Cross-contrast image translation is an important task for completing missing contrasts in clinical diagnosis. However, most existing methods learn separate translator for each pair of contrasts, which is inefficient due to many possible contrast pairs in real scenarios. In this work, we propose a unified Hyper-GAN model for effectively and efficiently translating between different contrast pairs. Hyper-GAN consists of a pair of hyper-encoder and hyper-decoder to first map from the source contrast to a common feature space, and then further map to the target contrast image. To facilitate the translation between different contrast pairs, contrast-modulators are designed to tune the hyper-encoder and hyper-decoder adaptive to different contrasts. We also design a common space loss to enforce that multi-contrast images of a subject share a common feature space, implicitly modeling the shared underlying anatomical structures. Experiments on two datasets of IXI and BraTS 2019 show that our Hyper-GAN achieves state-of-the-art results in both accuracy and efficiency, e.g., improving more than 1.47 and 1.09 dB in PSNR on two datasets with less than half the amount of parameters.
翻訳日:2021-07-27 15:53:30 公開日:2021-07-26
# 映像圧縮に向けて

Towards Generative Video Compression ( http://arxiv.org/abs/2107.12038v1 )

ライセンス: Link先を確認
Fabian Mentzer, Eirikur Agustsson, Johannes Ball\'e, David Minnen, Nick Johnston, George Toderici(参考訳) 本稿では,従来のニューラルビデオ圧縮法に匹敵するgans(generative adversarial networks)に基づくニューラルビデオ圧縮法を提案する。 スペクトル解析によるランダムなシフトと非シフトを用いた再帰的フレーム圧縮による時間誤差の蓄積を緩和する手法を提案する。 本稿では,ネットワーク設計の選択肢,相対的重要性,ユーザ研究におけるビデオ圧縮手法評価の課題について詳述する。

We present a neural video compression method based on generative adversarial networks (GANs) that outperforms previous neural video compression methods and is comparable to HEVC in a user study. We propose a technique to mitigate temporal error accumulation caused by recursive frame compression that uses randomized shifting and un-shifting, motivated by a spectral analysis. We present in detail the network design choices, their relative importance, and elaborate on the challenges of evaluating video compression methods in user studies.
翻訳日:2021-07-27 15:53:07 公開日:2021-07-26
# NeLF: ポートレートビュー合成とリライトのためのニューラル光輸送場

NeLF: Neural Light-transport Field for Portrait View Synthesis and Relighting ( http://arxiv.org/abs/2107.12351v1 )

ライセンス: Link先を確認
Tiancheng Sun, Kai-En Lin, Sai Bi, Zexiang Xu, Ravi Ramamoorthi(参考訳) 人間の肖像画は、異なる照明条件下で異なる視点から見ると様々な外観を示す。 顔が別の設定でどのように見えるかは簡単に想像できますが、コンピュータアルゴリズムは限られた観察によってこの問題に失敗したままです。 本研究では,複数のポートレートが与えられたとき,ニューラルネットワークを用いて3次元空間における光移動場を予測し,予測されたニューラル光移動場(nelf)から新たな環境照明下でのカメラビューからポートレートを生成するシステムを提案する。 本システムは多くの合成モデルに基づいて訓練され、様々な照明条件下で様々な合成および実像に一般化することができる。 本手法は,与えられた多視点ポートレートを入力として,同時ビュー合成とリライトを行い,最先端の結果を得る。

Human portraits exhibit various appearances when observed from different views under different lighting conditions. We can easily imagine how the face will look like in another setup, but computer algorithms still fail on this problem given limited observations. To this end, we present a system for portrait view synthesis and relighting: given multiple portraits, we use a neural network to predict the light-transport field in 3D space, and from the predicted Neural Light-transport Field (NeLF) produce a portrait from a new camera view under a new environmental lighting. Our system is trained on a large number of synthetic models, and can generalize to different synthetic and real portraits under various lighting conditions. Our method achieves simultaneous view synthesis and relighting given multi-view portraits as the input, and achieves state-of-the-art results.
翻訳日:2021-07-27 15:52:47 公開日:2021-07-26
# Smooth Optimal Transport Maps のプラグイン推定

Plugin Estimation of Smooth Optimal Transport Maps ( http://arxiv.org/abs/2107.12364v1 )

ライセンス: Link先を確認
Tudor Manole, Sivaraman Balakrishnan, Jonathan Niles-Weed, Larry Wasserman(参考訳) 2つの分布間の最適輸送マップに対する多くの自然推定器を解析し、それらが極小最適であることを示す。 プラグインアプローチを採用する:我々の推定子は、観測結果から導出された測度の間の最適結合であり、$\mathbb{R}^d$ 上の関数を定義するように適切に拡張される。 基礎となる写像がリプシッツであると仮定すると、経験的測度間の最適な結合を計算し、線形スムーサを用いてそれを拡張することで、既にミニマックス最適推定器が得られる。 基底写像がより高い正則性を楽しむとき、適切な非パラメトリック密度推定の最適結合がより高速な速度をもたらすことを示す。 我々の研究は、二次ワッサーシュタイン距離に対する対応するプラグイン推定器の危険性に関する新たな限界を提供し、この問題は、滑らかで凸なブレニエポテンシャルに対する安定性引数を用いた最適輸送写像の推定とどのように関係するかを示す。 この結果の応用として,二乗ワッサースタイン距離の密度プラグイン推定器に対する中央極限定理を導出する。 経験的推定子に対する既知の中心極限定理とは対照的に、この結果は容易にワッサーシュタイン距離の統計的推測に結びつく。

We analyze a number of natural estimators for the optimal transport map between two distributions and show that they are minimax optimal. We adopt the plugin approach: our estimators are simply optimal couplings between measures derived from our observations, appropriately extended so that they define functions on $\mathbb{R}^d$. When the underlying map is assumed to be Lipschitz, we show that computing the optimal coupling between the empirical measures, and extending it using linear smoothers, already gives a minimax optimal estimator. When the underlying map enjoys higher regularity, we show that the optimal coupling between appropriate nonparametric density estimates yields faster rates. Our work also provides new bounds on the risk of corresponding plugin estimators for the quadratic Wasserstein distance, and we show how this problem relates to that of estimating optimal transport maps using stability arguments for smooth and strongly convex Brenier potentials. As an application of our results, we derive a central limit theorem for a density plugin estimator of the squared Wasserstein distance, which is centered at its population counterpart when the underlying distributions have sufficiently smooth densities. In contrast to known central limit theorems for empirical estimators, this result easily lends itself to statistical inference for Wasserstein distances.
翻訳日:2021-07-27 15:51:29 公開日:2021-07-26
# 機械学習に基づく安全クリティカルシステムの認証方法 体系的な文献レビュー

How to Certify Machine Learning Based Safety-critical Systems? A Systematic Literature Review ( http://arxiv.org/abs/2107.12045v1 )

ライセンス: Link先を確認
Florian Tambon, Gabriel Laberge, Le An, Amin Nikanjam, Paulina Stevia Nouwou Mindom, Yann Pequignot, Foutse Khomh, Giulio Antoniol, Ettore Merlo and Fran\c{c}ois Laviolette(参考訳) コンテキスト: 機械学習(ML)はここ数年、多くのイノベーションの中心にありました。 しかし、自動車や航空などのいわゆる「安全クリティカル」システムに組み込むことは、MLが従来の認証アプローチを完全に変えるというパラダイムの変化から、非常に難しいことが証明されている。 目的:本稿は,MLベースの安全クリティカルシステムの認証に関する課題と,それらに取り組むための文献で提案されている解決策を解明することを目的として,「機械学習ベースの安全クリティカルシステムをどのように認定するか」という問いに答える。 方法:2015年から2020年の間に発行された研究論文の体系的文献レビュー(SLR)を行い,MLシステムの認証に関する話題を取り上げる。 総じて、ML認定の主な柱とされるトピックをカバーする229の論文、ロバストネス、不確実性、説明可能性、検証、安全な強化学習、直接認定を特定した。 各サブフィールドの主な傾向と問題を分析し,抽出した論文の要約を提供した。 結果: SLRの結果は,このテーマに対するコミュニティの熱意と,データセットやモデルの種類による多様性の欠如を浮き彫りにした。 また、学術と産業界との結びつきをさらに深めていくことの必要性を強調した。 最後に、現在では主に別々に研究されている、上記の主柱間の接続を構築する必要性も示した。 結論:mlベースのソフトウェアシステムの認証を可能にするためにデプロイされた現在の取り組みを強調し、今後の研究の方向性について論じる。

Context: Machine Learning (ML) has been at the heart of many innovations over the past years. However, including it in so-called 'safety-critical' ; systems such as automotive or aeronautic has proven to be very challenging, since the shift in paradigm that ML brings completely changes traditional certification approaches. Objective: This paper aims to elucidate challenges related to the certification of ML-based safety-critical systems, as well as the solutions that are proposed in the literature to tackle them, answering the question 'How to Certify Machine Learning Based Safety-critical Systems?'. Method: We conduct a Systematic Literature Review (SLR) of research papers published between 2015 to 2020, covering topics related to the certification of ML systems. In total, we identified 229 papers covering topics considered to be the main pillars of ML certification: Robustness, Uncertainty, Explainability, Verification, Safe Reinforcement Learning, and Direct Certification. We analyzed the main trends and problems of each sub-field and provided summaries of the papers extracted. Results: The SLR results highlighted the enthusiasm of the community for this subject, as well as the lack of diversity in terms of datasets and type of models. It also emphasized the need to further develop connections between academia and industries to deepen the domain study. Finally, it also illustrated the necessity to build connections between the above mention main pillars that are for now mainly studied separately. Conclusion: We highlighted current efforts deployed to enable the certification of ML based software systems, and discuss some future research directions.
翻訳日:2021-07-27 15:49:51 公開日:2021-07-26
# 分散連合学習:コミュニケーションとコンピューティングのコストのバランス

Decentralized Federated Learning: Balancing Communication and Computing Costs ( http://arxiv.org/abs/2107.12048v1 )

ライセンス: Link先を確認
Wei Liu, Li Chen, and Wenyi Zhang(参考訳) 分散統合学習(DFL)は分散機械学習の強力なフレームワークであり、分散確率勾配降下(SGD)はDFLの駆動エンジンである。 分散SGDの性能は通信効率と収束率に左右される。 本稿では,コミュニケーション効率と収束性能のバランスをとるための汎用的な分散化フェデレーション学習フレームワークを提案する。 提案フレームワークは、複数のローカル更新と複数のノード間通信の両方を定期的に実行し、従来の分散SGDメソッドを統一する。 我々は凸目的関数を仮定せずに提案したDFLアルゴリズムに対して強い収束保証を確立する。 通信と計算のバランスは、制約付きコミュニケーションと計算リソースの下で分散した連合学習を最適化するために不可欠である。 DFLの通信効率をさらに向上するため、圧縮通信(C-DFL)を備えたDFLと呼ばれるDFLに圧縮通信を適用する。 提案するc-dflは強凸目的に対して線形収束を示す。 MNISTおよびCIFAR-10データセットに基づく実験結果は、従来の分散SGD法よりもDFLの方が優れており、C-DFLが通信効率をさらに高めることを示す。

Decentralized federated learning (DFL) is a powerful framework of distributed machine learning and decentralized stochastic gradient descent (SGD) is a driving engine for DFL. The performance of decentralized SGD is jointly influenced by communication-effici ency and convergence rate. In this paper, we propose a general decentralized federated learning framework to strike a balance between communication-effici ency and convergence performance. The proposed framework performs both multiple local updates and multiple inter-node communications periodically, unifying traditional decentralized SGD methods. We establish strong convergence guarantees for the proposed DFL algorithm without the assumption of convex objective function. The balance of communication and computation rounds is essential to optimize decentralized federated learning under constrained communication and computation resources. For further improving communication-effici ency of DFL, compressed communication is applied to DFL, named DFL with compressed communication (C-DFL). The proposed C-DFL exhibits linear convergence for strongly convex objectives. Experiment results based on MNIST and CIFAR-10 datasets illustrate the superiority of DFL over traditional decentralized SGD methods and show that C-DFL further enhances communication-effici ency.
翻訳日:2021-07-27 15:49:26 公開日:2021-07-26
# Fiedlerベクトル推定のためのロバスト正規化局所性保存指標

Robust Regularized Locality Preserving Indexing for Fiedler Vector Estimation ( http://arxiv.org/abs/2107.12070v1 )

ライセンス: Link先を確認
Aylin Tastan, Michael Muma and Abdelhak M. Zoubir(参考訳) 連結グラフのフィッシャーベクトル(Fiedler vector)は、グラフラプラシアンの代数的接続に関連する固有ベクトルであり、グラフの潜在構造を学ぶためのかなりの情報を提供する。 しかし、実世界の応用では、データは重い尾のノイズと、フィドラーベクトル推定値の構造の劣化をもたらす外れ値に該当する可能性がある。 我々は、ラプラスベルトラミ作用素の非線形多様体構造を近似し、外周の負の影響を最小限に抑えることを目的とした、Fiedlerベクトル推定のためのロバスト正規化局所性保存指数(RRLPI)法を設計する。 まず, クラスター解析において必須となるブロック親和性行列の固有分解に及ぼす2つの基本外接型の影響を解析した。 そして、エラーモデルを定式化し、ロバストなFiedlerベクトル推定アルゴリズムを開発する。 プロジェクション空間の幾何構造を利用してロバストな正規化Fiedler推定を行う非教師付きペナルティパラメータ選択アルゴリズムを提案する。 RRLPIの性能は、検出確率、パーティショニング品質、画像セグメンテーション能力、ロバスト性および計算時間の観点から、様々な合成および実データ実験を用いて、既存の競合とベンチマークされる。

The Fiedler vector of a connected graph is the eigenvector associated with the algebraic connectivity of the graph Laplacian and it provides substantial information to learn the latent structure of a graph. In real-world applications, however, the data may be subject to heavy-tailed noise and outliers which results in deteriorations in the structure of the Fiedler vector estimate. We design a Robust Regularized Locality Preserving Indexing (RRLPI) method for Fiedler vector estimation that aims to approximate the nonlinear manifold structure of the Laplace Beltrami operator while minimizing the negative impact of outliers. First, an analysis of the effects of two fundamental outlier types on the eigen-decomposition for block affinity matrices which are essential in cluster analysis is conducted. Then, an error model is formulated and a robust Fiedler vector estimation algorithm is developed. An unsupervised penalty parameter selection algorithm is proposed that leverages the geometric structure of the projection space to perform robust regularized Fiedler estimation. The performance of RRLPI is benchmarked against existing competitors in terms of detection probability, partitioning quality, image segmentation capability, robustness and computation time using a large variety of synthetic and real data experiments.
翻訳日:2021-07-27 15:49:06 公開日:2021-07-26
# アイスキューブにおける最大形状と深層学習を組み合わせたイベント再構築

Combining Maximum-Likelihood with Deep Learning for Event Reconstruction in IceCube ( http://arxiv.org/abs/2107.12110v1 )

ライセンス: Link先を確認
Mirco H\"unnefeld (for the IceCube Collaboration)(参考訳) 深層学習の分野は、粒子物理学の実験においてますます重要になってきており、主に事象の分類と再構成のタスクにおいて多くの進歩をもたらしている。 これらのアプリケーションの多くは、他のドメインから採用されている。 しかし、物理学の分野のデータは機械学習の文脈でユニークであり、その生成過程や従属する法則や対称性は一般的によく理解されている。 最も一般的に使用されるディープラーニングアーキテクチャは、この利用可能な情報を活用することに失敗している。 対照的に、より伝統的な可能性に基づく手法はドメイン知識を活用できるが、計算複雑性によって制限されることが多い。 この貢献では、生成型ニューラルネットワークを用いて確率を近似するハイブリッドアプローチが提示され、それが従来の最大相似設定で使用される可能性がある。 不変性や検出器特性などのドメイン知識は、このアプローチに容易に組み込むことができる。 ハイブリッドアプローチは、アイスキューブにおけるイベントレコンストラクションの例によって示される。

The field of deep learning has become increasingly important for particle physics experiments, yielding a multitude of advances, predominantly in event classification and reconstruction tasks. Many of these applications have been adopted from other domains. However, data in the field of physics are unique in the context of machine learning, insofar as their generation process and the laws and symmetries they abide by are usually well understood. Most commonly used deep learning architectures fail at utilizing this available information. In contrast, more traditional likelihood-based methods are capable of exploiting domain knowledge, but they are often limited by computational complexity. In this contribution, a hybrid approach is presented that utilizes generative neural networks to approximate the likelihood, which may then be used in a traditional maximum-likelihood setting. Domain knowledge, such as invariances and detector characteristics, can easily be incorporated in this approach. The hybrid approach is illustrated by the example of event reconstruction in IceCube.
翻訳日:2021-07-27 15:48:44 公開日:2021-07-26
# Bregman Distanceによる二レベル最適化

Enhanced Bilevel Optimization via Bregman Distance ( http://arxiv.org/abs/2107.12301v1 )

ライセンス: Link先を確認
Feihu Huang and Heng Huang(参考訳) バイレベル最適化は、ハイパーパラメータ最適化、ポリシー最適化、メタ学習など、多くの機械学習問題に広く適用されている。 より最近の二段階最適化法は二段階最適化問題を解くために提案されているが、それらは依然として高い計算複雑性に悩まされており、非滑らかな正則化に関するより一般的な二段階の問題を考慮していない。 そこで本稿では,ブレグマン距離に基づく効率的な二段階最適化手法のクラスを提案する。 提案手法では, 強凸ブレグマン関数を用いて, 両レベル問題の外的部分確率を解くために, ミラーリーな反復法を用いる。 具体的には,最もよく知られた結果よりも計算複雑度の低い決定論的双レベル問題を解くために,ブレグマン距離(bio-bred)に基づく二値最適化手法を提案する。 また,確率的近似勾配とブレグマン距離に基づく確率的二段階問題の解法として,確率的二段階最適化法(SBiO-BreD)を提案する。 さらに, 分散還元法によるSBiO-BreD法(ASBiO-BreD)の高速化版を提案する。 さらに、asbio-bred は条件数 $\kappa$ と目標精度 $\epsilon$ に対して最もよく知られた計算複雑性を上回っており、非凸強凸双レベル問題の $\epsilon$-stationar y point を見つけることができる。 特に,非滑らかな正規化と計算複雑性の低い二段階最適化問題を解くことができる。

Bilevel optimization has been widely applied many machine learning problems such as hyperparameter optimization, policy optimization and meta learning. Although many bilevel optimization methods more recently have been proposed to solve the bilevel optimization problems, they still suffer from high computational complexities and do not consider the more general bilevel problems with nonsmooth regularization. In the paper, thus, we propose a class of efficient bilevel optimization methods based on Bregman distance. In our methods, we use the mirror decent iteration to solve the outer subproblem of the bilevel problem by using strongly-convex Bregman functions. Specifically, we propose a bilevel optimization method based on Bregman distance (BiO-BreD) for solving deterministic bilevel problems, which reaches the lower computational complexities than the best known results. We also propose a stochastic bilevel optimization method (SBiO-BreD) for solving stochastic bilevel problems based on the stochastic approximated gradients and Bregman distance. Further, we propose an accelerated version of SBiO-BreD method (ASBiO-BreD) by using the variance-reduced technique. Moreover, we prove that the ASBiO-BreD outperforms the best known computational complexities with respect to the condition number $\kappa$ and the target accuracy $\epsilon$ for finding an $\epsilon$-stationar y point of nonconvex-strongly-c onvex bilevel problems. In particular, our methods can solve the bilevel optimization problems with nonsmooth regularization with a lower computational complexity.
翻訳日:2021-07-27 15:48:31 公開日:2021-07-26
# 非平衡拡散地球移動者距離を持つ知識グラフ上の埋め込み信号

Embedding Signals on Knowledge Graphs with Unbalanced Diffusion Earth Mover's Distance ( http://arxiv.org/abs/2107.12334v1 )

ライセンス: Link先を確認
Alexander Tong and Guillaume Huguet and Dennis Shung and Amine Natik and Manik Kuchroo and Guillaume Lajoie and Guy Wolf and Smita Krishnaswamy(参考訳) 現代のリレーショナル機械学習では、多くの領域における観察間の相互作用や類似性によって生じる大きなグラフに遭遇するのが一般的である。 さらに、多くの場合、分析対象のエンティティは実際にはそのようなグラフ上の信号である。 本研究では,地球移動器距離(EMD)と測地コストを基礎となるグラフ上で比較し,グラフ信号のデータセットを整理する。 典型的には、emdは基礎となる計量空間上のある確率分布を別の確率分布へ輸送するコストを最適化することで計算される。 しかし、多くの信号間でemdを計算する場合、これは非効率である。 本稿では,不均衡な地球移動器距離(UDEMD)を,基礎となるグラフ上の不均衡なEMDを,不均衡な地球移動器距離(UDEMD)と呼ぶ距離に効率的に埋め込む方法を提案する。 これにより、大きなグラフ上で定義された多くの信号に対して、効率のよい近隣のカーネルがもたらされる。 次に,雑音に対して頑健なグラフ信号間の距離を与える方法を示す。 最後に、SNOMED-CT医療知識グラフ上のシグナルとしてモデル化された臨床記録に基づいて、遺伝子グラフ上のシグナルとしてモデル化されたリンパ芽細胞を埋め込み、PBMC細胞グラフ上のシグナルとしてモデル化された遺伝子を整理する。 いずれの場合も,UDEMDをベースとした埋め込みは,他の手法と比較して高精度な距離を求めることができる。

In modern relational machine learning it is common to encounter large graphs that arise via interactions or similarities between observations in many domains. Further, in many cases the target entities for analysis are actually signals on such graphs. We propose to compare and organize such datasets of graph signals by using an earth mover's distance (EMD) with a geodesic cost over the underlying graph. Typically, EMD is computed by optimizing over the cost of transporting one probability distribution to another over an underlying metric space. However, this is inefficient when computing the EMD between many signals. Here, we propose an unbalanced graph earth mover's distance that efficiently embeds the unbalanced EMD on an underlying graph into an $L^1$ space, whose metric we call unbalanced diffusion earth mover's distance (UDEMD). This leads us to an efficient nearest neighbors kernel over many signals defined on a large graph. Next, we show how this gives distances between graph signals that are robust to noise. Finally, we apply this to organizing patients based on clinical notes who are modelled as signals on the SNOMED-CT medical knowledge graph, embedding lymphoblast cells modeled as signals on a gene graph, and organizing genes modeled as signals over a large peripheral blood mononuclear (PBMC) cell graph. In each case, we show that UDEMD-based embeddings find accurate distances that are highly efficient compared to other methods.
翻訳日:2021-07-27 15:48:06 公開日:2021-07-26
# sisyphus: プライバシー保護深層学習における低次多項式アクティベーションを用いた注意物語

Sisyphus: A Cautionary Tale of Using Low-Degree Polynomial Activations in Privacy-Preserving Deep Learning ( http://arxiv.org/abs/2107.12342v1 )

ライセンス: Link先を確認
Karthik Garimella, Nandan Kumar Jha and Brandon Reagen(参考訳) クライアントサーバ機械学習におけるプライバシの懸念がプライベート推論(PI)を引き起こし、暗号化された入力に直接神経推論が発生する。 PIはクライアントの個人情報とサーバの知的財産を保護する。 PIの一般的な実践は、ガーブラード回路を用いて非線形関数、すなわちReLUをプライベートに計算することである。 しかし、garbled回路は高いストレージ、帯域幅、レイテンシのコストに苦しんでいる。 これらの問題を緩和するため、PIフレンドリーな多項式活性化関数がReLUを置き換えるために採用されている。 ディープでプライバシフレンドリーなニューラルネットワークを構築するために、すべてのReLUを低次多項式活性化関数に置き換えることは可能か? 本稿では,ReLUを多項式に置き換えることの課題を分析することにより,新しい,より複雑な代替・規制戦略への単純なドロップ・アンド・リプレース・ソリューションから始める。 本稿では,各手法の限界について検討し,PIに対する多項式活性化関数の利用について解説する。 フォワードアクティベーション値は必然的に多項式の安定な領域から遠ざかって指数関数的な速度で拡大し始め、爆発的な値(NaN)や近似不足につながる。

Privacy concerns in client-server machine learning have given rise to private inference (PI), where neural inference occurs directly on encrypted inputs. PI protects clients' personal data and the server's intellectual property. A common practice in PI is to use garbled circuits to compute nonlinear functions privately, namely ReLUs. However, garbled circuits suffer from high storage, bandwidth, and latency costs. To mitigate these issues, PI-friendly polynomial activation functions have been employed to replace ReLU. In this work, we ask: Is it feasible to substitute all ReLUs with low-degree polynomial activation functions for building deep, privacy-friendly neural networks? We explore this question by analyzing the challenges of substituting ReLUs with polynomials, starting with simple drop-and-replace solutions to novel, more involved replace-and-retrain strategies. We examine the limitations of each method and provide commentary on the use of polynomial activation functions for PI. We find all evaluated solutions suffer from the escaping activation problem: forward activation values inevitably begin to expand at an exponential rate away from stable regions of the polynomials, which leads to exploding values (NaNs) or poor approximations.
翻訳日:2021-07-27 15:47:39 公開日:2021-07-26
# 特異音源の楕円問題に対する浅度リッツ法

A Shallow Ritz Method for elliptic problems with Singular Sources ( http://arxiv.org/abs/2107.12013v1 )

ライセンス: Link先を確認
Ming-Chih Lai, Che-Chia Chang, Wei-Syuan Lin, Wei-Fan Hu, Te-Sheng Lin(参考訳) 本稿では,インタフェース上のデルタ関数特異点を用いた楕円問題を解くための浅層リッツ型ニューラルネットワークを開発した。 本研究には3つの新しい特徴がある: (i) デルタ関数特異点を自然に除去し、 (ii) レベルセット関数を羽根入力として導入し、 (iii) 隠れ層のみからなる完全に浅い。 まず、問題のエネルギー関数を導入し、次に特異源の寄与をインターフェースに沿った正規曲面積分に変換する。 このようにしてデルタ関数特異性は、よく知られた没入境界法のような伝統的な正規化法でよく用いられる離散デルタ関数を導入することなく自然に除去することができる。 元の問題は最小化問題として再編成される。 エネルギー汎関数の大域的最小化を近似するために,1つの隠れ層を持つ浅層リッツ型ニューラルネットワークを提案する。 結果として、エネルギーの離散バージョンである損失関数を最小化することでネットワークを訓練する。 さらに,インタフェースのレベルセット関数を特徴入力として含むことにより,トレーニング効率と精度が大幅に向上することを示す。 本研究では,現在のネットワークの精度と,不規則領域や高次元の問題に対する能力を示すため,一連の数値実験を行う。

In this paper, a shallow Ritz-type neural network for solving elliptic problems with delta function singular sources on an interface is developed. There are three novel features in the present work; namely, (i) the delta function singularity is naturally removed, (ii) level set function is introduced as a feather input, (iii) it is completely shallow consisting of only one hidden layer. We first introduce the energy functional of the problem and then transform the contribution of singular sources to a regular surface integral along the interface. In such a way the delta function singularity can be naturally removed without the introduction of discrete delta function that is commonly used in traditional regularization methods such as the well-known immersed boundary method. The original problem is then reformulated as a minimization problem. We propose a shallow Ritz-type neural network with one hidden layer to approximate the global minimizer of the energy functional. As a result, the network is trained by minimizing the loss function that is a discrete version of the energy. In addition, we include the level set function of the interface as a feature input and find that it significantly improves the training efficiency and accuracy. We perform a series of numerical tests to demonstrate the accuracy of the present network as well as its capability for problems in irregular domains and in higher dimensions.
翻訳日:2021-07-27 15:44:44 公開日:2021-07-26
# バイノーラルオーディオからの重畳音事象の連成方向と近接度分類

Joint Direction and Proximity Classification of Overlapping Sound Events from Binaural Audio ( http://arxiv.org/abs/2107.12033v1 )

ライセンス: Link先を確認
Daniel Aleksander Krause, Archontis Politis, Annamaria Mesaros(参考訳) 音源近接と距離推定は音響シーン解析に重要な情報を提供するため,多くの実用化に非常に関心がある。 両タスクが相補的な品質を共有するため、両タスク間の効率的なインタラクションを保証することは、聴覚環境の全体像にとって不可欠である。 本稿では,Deep Neural Networks (DNN) に基づく粗い分類問題として定義されたバイノーラル録音からの関節近接と方向推定のいくつかの方法を検討することを目的とする。 バイノーラルオーディオの限界を考慮すると,一組の指向性クラスを得るために球面を角領域に分割する2つの方法を提案する。 それぞれの手法で異なるモデルタイプを学習し,その方向(DoA)に関する情報を取得する。 最後に、出現源のオンセットとオフセットに関する時間的情報を提供する共同タスクに近接および方向推定問題を結合する様々な方法を提案する。 2つの重なり合う音イベントからなる合成残響バイノーラルデータセットについて実験を行った。

Sound source proximity and distance estimation are of great interest in many practical applications, since they provide significant information for acoustic scene analysis. As both tasks share complementary qualities, ensuring efficient interaction between these two is crucial for a complete picture of an aural environment. In this paper, we aim to investigate several ways of performing joint proximity and direction estimation from binaural recordings, both defined as coarse classification problems based on Deep Neural Networks (DNNs). Considering the limitations of binaural audio, we propose two methods of splitting the sphere into angular areas in order to obtain a set of directional classes. For each method we study different model types to acquire information about the direction-of-arrival (DoA). Finally, we propose various ways of combining the proximity and direction estimation problems into a joint task providing temporal information about the onsets and offsets of the appearing sources. Experiments are performed for a synthetic reverberant binaural dataset consisting of up to two overlapping sound events.
翻訳日:2021-07-27 15:44:25 公開日:2021-07-26
# 6DCNNによるボリュームデータ処理のためのロト変換畳み込みフィルタ

6DCNN with roto-translational convolution filters for volumetric data processing ( http://arxiv.org/abs/2107.12078v1 )

ライセンス: Link先を確認
Dmitrii Zhemchuzhnikov (DAO), Ilia Igashov (DAO), Sergei Grudinin (DAO)(参考訳) 本研究では,3次元ボリュームデータ処理における局所パターンの相対的位置と向きを検出することを目的とした6次元畳み込みニューラルネットワーク(6DCNN)を提案する。 6dcnnはまた、フーリエ空間に構築されたse(3)同変メッセージパッシングと非線形アクティベーション演算を含む。 フーリエ空間での作業は、演算の計算の複雑さを大幅に削減できる。 空間パターン認識における6次元畳み込みの特性とその効率性を実証する。 また、最近のCASPタンパク質構造予測課題から、いくつかのデータセットで6DCNNモデルを評価する。 ここでは、6DCNNはベースラインアーキテクチャを改善し、また、最先端技術よりも優れています。

In this work, we introduce 6D Convolutional Neural Network (6DCNN) designed to tackle the problem of detecting relative positions and orientations of local patterns when processing three-dimensional volumetric data. 6DCNN also includes SE(3)-equivariant message-passing and nonlinear activation operations constructed in the Fourier space. Working in the Fourier space allows significantly reducing the computational complexity of our operations. We demonstrate the properties of the 6D convolution and its efficiency in the recognition of spatial patterns. We also assess the 6DCNN model on several datasets from the recent CASP protein structure prediction challenges. Here, 6DCNN improves over the baseline architecture and also outperforms the state of the art.
翻訳日:2021-07-27 15:44:12 公開日:2021-07-26
# 深層学習によるタンパク質-RNA相互作用予測:構造的問題

Protein-RNA interaction prediction with deep learning: Structure matters ( http://arxiv.org/abs/2107.12243v1 )

ライセンス: Link先を確認
Junkang Wei, Siyuan Chen, Licheng Zong, Xin Gao, Yu Li(参考訳) タンパク質とRNAの相互作用は、様々な細胞活動において極めて重要である。 相互作用を研究するために実験技術と計算技術の両方が開発された。 以前のデータベースの制限、特にタンパク質構造データの欠如のため、既存の計算手法のほとんどは配列データに大きく依存しており、構造情報を利用する方法のごく一部しか使用していない。 近年、AlphaFoldはタンパク質と生物学全般に革命をもたらした。 将来、タンパク質とRNAの相互作用の予測も大幅に促進されるだろう。 本稿では,バインディングサイトとバインディング嗜好予測問題の両方を調査し,一般的なデータセットや特徴,モデルをカバーすることにより,この分野の徹底したレビューを行う。 また、この分野の潜在的な課題と機会についても指摘します。 本調査は,過去におけるRBP-RNA相互作用場の発展を概説し,アルファフォールド時代以降の今後の発展を予見するものである。

Protein-RNA interactions are of vital importance to a variety of cellular activities. Both experimental and computational techniques have been developed to study the interactions. Due to the limitation of the previous database, especially the lack of protein structure data, most of the existing computational methods rely heavily on the sequence data, with only a small portion of the methods utilizing the structural information. Recently, AlphaFold has revolutionized the entire protein and biology field. Foreseeably, the protein-RNA interaction prediction will also be promoted significantly in the upcoming years. In this work, we give a thorough review of this field, surveying both the binding site and binding preference prediction problems and covering the commonly used datasets, features, and models. We also point out the potential challenges and opportunities in this field. This survey summarizes the development of the RBP-RNA interaction field in the past and foresees its future development in the post-AlphaFold era.
翻訳日:2021-07-27 15:43:44 公開日:2021-07-26
# マルチロボット計画の聖杯:オフライン最適専門家によるオンラインスケーラブルソリューションの学習

The Holy Grail of Multi-Robot Planning: Learning to Generate Online-Scalable Solutions from Offline-Optimal Experts ( http://arxiv.org/abs/2107.12254v1 )

ライセンス: Link先を確認
Amanda Prorok, Jan Blumenkamp, Qingbiao Li, Ryan Kortvelesy, Zhe Liu, Ethan Stump(参考訳) 多くのマルチロボット計画問題は次元の呪いによって負担され、大規模な問題インスタンスにソリューションを適用するのが困難である。 マルチロボット計画における学習ベースの手法の利用は、コストがかかるが最適な解法のオンライン計算負荷をオフラインの学習手順にオフロードできるので、大きな期待を抱いている。 簡単に言えば、小さなシステムで生成された最適なパターンをコピーするポリシーをトレーニングし、学習した戦略がスケールし、ほぼ最適に近いパフォーマンスを維持することを期待して、そのポリシーをもっと大きなシステムに転送する、というアイデアだ。 しかし、多くの問題が、このアイデアを最大限に活用することを妨げる。 このブルースキーの論文は、残るいくつかの重要な課題を詳述している。

Many multi-robot planning problems are burdened by the curse of dimensionality, which compounds the difficulty of applying solutions to large-scale problem instances. The use of learning-based methods in multi-robot planning holds great promise as it enables us to offload the online computational burden of expensive, yet optimal solvers, to an offline learning procedure. Simply put, the idea is to train a policy to copy an optimal pattern generated by a small-scale system, and then transfer that policy to much larger systems, in the hope that the learned strategy scales, while maintaining near-optimal performance. Yet, a number of issues impede us from leveraging this idea to its full potential. This blue-sky paper elaborates some of the key challenges that remain.
翻訳日:2021-07-27 15:43:31 公開日:2021-07-26
# MLDev: データサイエンス実験自動化と再現性ソフトウェア

MLDev: Data Science Experiment Automation and Reproducibility Software ( http://arxiv.org/abs/2107.12322v1 )

ライセンス: Link先を確認
Anton Khritankov, Nikita Pershin, Nikita Ukhov and Artem Ukhov(参考訳) 本稿では,データサイエンスにおける実験の自動化の課題について考察する。 研究実験を行うためのさまざまなオープンソースツールを統合するための基盤として,拡張可能な実験モデルを提案する。 我々は,オープンソースMLDevソフトウェアパッケージのプロトタイプにアプローチを実装し,有望な結果をもたらす一連の実験で評価する。 他の最先端ツールとの比較は、我々のアプローチの新規性を示している。

In this paper we explore the challenges of automating experiments in data science. We propose an extensible experiment model as a foundation for integration of different open source tools for running research experiments. We implement our approach in a prototype open source MLDev software package and evaluate it in a series of experiments yielding promising results. Comparison with other state-of-the-art tools signifies novelty of our approach.
翻訳日:2021-07-27 15:43:18 公開日:2021-07-26
# 声質変換を超えて:構造的アンタングル表現の逆学習による音声属性の操作

Beyond Voice Identity Conversion: Manipulating Voice Attributes by Adversarial Learning of Structured Disentangled Representations ( http://arxiv.org/abs/2107.12346v1 )

ライセンス: Link先を確認
Laurent Benaroya, Nicolas Obin, Axel Roebel(参考訳) 音声変換(VC)は、個人の声をデジタル的に変更してコンテンツの一部、主にそのアイデンティティを操作し、残余は変化しない。 ニューラルVCの研究は、非常にリアルなレンダリングで少量のデータを使って音声アイデンティティを偽造する能力で、かなりのブレークスルーを達成した。 本稿では、音声のアイデンティティを超えて、音声属性(例えば、性別と年齢)の操作を可能にするニューラルネットワークアーキテクチャを提案する。 構造化された音声表現の対角学習の最新の進歩を生かして、複数の自己エンコーダを用いて音声を理想主義的に独立した言語的・言語的表現の集合としてエンコードする新しい構造化ニューラルネットワークが提案される。 さらに、提案アーキテクチャは、リップ同期アプリケーションを可能にする変換中に元の音声タイミングを保存できるように、タイム同期される。 実世界のVCTKデータセットにおける音声の性別変換に応用して,提案アーキテクチャは,性別に依存しない表現をうまく学習し,声の性別を極めて高い効率と自然性で変換することができる。

Voice conversion (VC) consists of digitally altering the voice of an individual to manipulate part of its content, primarily its identity, while maintaining the rest unchanged. Research in neural VC has accomplished considerable breakthroughs with the capacity to falsify a voice identity using a small amount of data with a highly realistic rendering. This paper goes beyond voice identity and presents a neural architecture that allows the manipulation of voice attributes (e.g., gender and age). Leveraging the latest advances on adversarial learning of structured speech representation, a novel structured neural network is proposed in which multiple auto-encoders are used to encode speech as a set of idealistically independent linguistic and extra-linguistic representations, which are learned adversariarly and can be manipulated during VC. Moreover, the proposed architecture is time-synchronized so that the original voice timing is preserved during conversion which allows lip-sync applications. Applied to voice gender conversion on the real-world VCTK dataset, our proposed architecture can learn successfully gender-independent representation and convert the voice gender with a very high efficiency and naturalness.
翻訳日:2021-07-27 15:43:13 公開日:2021-07-26
# 非平衡有向グラフ上での分散勾配法の実現可能性

Provably Accelerated Decentralized Gradient Method Over Unbalanced Directed Graphs ( http://arxiv.org/abs/2107.12065v1 )

ライセンス: Link先を確認
Zhuoqing Song, Lei Shi, Shi Pu, Ming Yan(参考訳) 本研究では,n$エージェントのネットワークが,それぞれが滑らかで凸な目的関数を持ち,有向グラフにおけるピアツーピア通信を通じて,すべての目的関数の平均を協調的に最小化しようとする分散最適化問題を考える。 そこで本研究では,非強凸目的関数と強凸関数をそれぞれ最小化するために,adp と apd-sc と呼ばれる2つの高速化プッシュダイジング法を提案する。 APD と APD-SC はそれぞれ$O\left(\frac{1}{k^2}\right)$ と $O\left(\left(1C\sqr t {\frac{\mu}{L}}\right)^k\right)$ で収束することを示した。 我々の知る限り、APDとAPD-SCは、不均衡な有向グラフ上で証明可能な加速を達成するための最初の分散化手法である。 数値実験は両手法の有効性を実証する。

In this work, we consider the decentralized optimization problem in which a network of $n$ agents, each possessing a smooth and convex objective function, wish to collaboratively minimize the average of all the objective functions through peer-to-peer communication in a directed graph. To solve the problem, we propose two accelerated Push-DIGing methods termed APD and APD-SC for minimizing non-strongly convex objective functions and strongly convex ones, respectively. We show that APD and APD-SC respectively converge at the rates $O\left(\frac{1}{k^2}\right)$ and $O\left(\left(1 - C\sqrt{\frac{\mu}{L}}\right)^k\right)$ up to constant factors depending only on the mixing matrix. To the best of our knowledge, APD and APD-SC are the first decentralized methods to achieve provable acceleration over unbalanced directed graphs. Numerical experiments demonstrate the effectiveness of both methods.
翻訳日:2021-07-27 15:41:50 公開日:2021-07-26
# (参考訳) robust adaptive submodular maximization [全文訳有]

Robust Adaptive Submodular Maximization ( http://arxiv.org/abs/2107.11333v2 )

ライセンス: CC BY 4.0
Shaojie Tang(参考訳) 適応的部分モジュラー最適化に関する既存の研究の多くは、平均ケース、すなわち、その目的は、既知の実現の分布よりも期待される効用を最大化するポリシーを見つけることである。 しかし、平均的なパフォーマンスが良いポリシーは、最悪のケースではパフォーマンスが非常に悪いかもしれない。 本研究では,適応部分モジュラー最適化問題の2つの変種,すなわち,最悪の場合適応部分モジュラー最大化とロバスト部分モジュラー最大化について検討する。 最初の問題は、最悪のケースのユーティリティを最大化するポリシーを見つけることであり、後者は、少なくとも、最適な平均ケースのユーティリティと最悪のケースのユーティリティの両方を同時に達成するポリシーを見つけることを目的としている。 確率関数の新しいクラスである \emph{worst-case submodular function} を導入する。 p$-system制約を受ける最悪のケース適応サブモジュラー最大化問題に対して、ユーティリティ関数が最悪のケースサブモジュラーである場合、最適なワーストケースユーティリティに対する$\frac{1}{p+1}$近似比を達成する適応的最悪のケースグリーディポリシーを開発する。 基数制約を受けるロバスト適応部分モジュラー最大化問題に対して、実用関数が最悪ケース部分モジュラーかつ適応部分モジュラーの両方である場合、最悪のケース設定と平均ケース設定の両方で1-e^{-\frac{1}{2}}$に近い近似を同時に達成するハイブリッド適応ポリシーを開発する。 また、プールベースアクティブラーニング、確率的サブモジュール集合被覆、適応的バイラルマーケティングなど、理論的結果のいくつかの応用について述べる。

Most of existing studies on adaptive submodular optimization focus on the average-case, i.e., their objective is to find a policy that maximizes the expected utility over a known distribution of realizations. However, a policy that has a good average-case performance may have very poor performance under the worst-case realization. In this study, we propose to study two variants of adaptive submodular optimization problems, namely, worst-case adaptive submodular maximization and robust submodular maximization. The first problem aims to find a policy that maximizes the worst-case utility and the latter one aims to find a policy, if any, that achieves both near optimal average-case utility and worst-case utility simultaneously. We introduce a new class of stochastic functions, called \emph{worst-case submodular function}. For the worst-case adaptive submodular maximization problem subject to a $p$-system constraint, we develop an adaptive worst-case greedy policy that achieves a $\frac{1}{p+1}$ approximation ratio against the optimal worst-case utility if the utility function is worst-case submodular. For the robust adaptive submodular maximization problem subject to a cardinality constraint, if the utility function is both worst-case submodular and adaptive submodular, we develop a hybrid adaptive policy that achieves an approximation close to $1-e^{-\frac{1}{2}}$ under both worst case setting and average case setting simultaneously. We also describe several applications of our theoretical results, including pool-base active learning, stochastic submodular set cover and adaptive viral marketing.
翻訳日:2021-07-27 10:48:11 公開日:2021-07-26
# モバイルニューラルネットワークにおけるバイアス損失

Bias Loss for Mobile Neural Networks ( http://arxiv.org/abs/2107.11170v2 )

ライセンス: Link先を確認
Lusine Abrahamyan, Valentin Ziatchin, Yiming Chen and Nikos Deligiannis(参考訳) コンパクト畳み込みニューラルネットワーク(CNN)は、近年、異常なパフォーマンス改善を目撃している。 しかし、多くのパラメータを持つcnnと同じ予測能力を提供していない。 層によって捕獲される多様で豊富な特徴は、これらの成功したcnnの重要な特徴である。 しかし、この特徴の大きいcnnとコンパクトなcnnとの差は、ほとんど調査されていない。 コンパクトCNNでは、パラメータ数が限られているため、豊富な特徴が得られず、特徴の多様性が重要な特徴となる。 モデル推論中にデータポイントから派生したアクティベーションマップに存在する様々な特徴は、異なるクラスのオブジェクトを区別するのに必要なユニークな記述子の存在を示す可能性がある。 対照的に、特徴の多様性の低いデータポイントは、有効な予測を行うのに十分な量のユニークな記述子を提供しないかもしれない。 ランダムな予測は最適化プロセスに悪影響を与え、最終的なパフォーマンスを損なう。 本稿では,ランダム予測によって生じる問題に対して,標準クロスエントロピーを再構成し,特徴量に制限のあるデータポイントに対してバイアスを与える手法を提案する。 新たなバイアス損失は,貴重なデータポイントのセットのトレーニングに焦点をあてることにより,学習機能に乏しい多数のサンプルが最適化プロセスを誤解することを防止する。 さらに、多様性の重要性を示すために、最後のレイヤにおけるユニークな記述子数を増やすためにアーキテクチャが導入されたSkipNetモデルのファミリーを示す。 我々のSkipnet-MはMobileNetV3 Largeよりも1%高い分類精度が得られる。

Compact convolutional neural networks (CNNs) have witnessed exceptional improvements in performance in recent years. However, they still fail to provide the same predictive power as CNNs with a large number of parameters. The diverse and even abundant features captured by the layers is an important characteristic of these successful CNNs. However, differences in this characteristic between large CNNs and their compact counterparts have rarely been investigated. In compact CNNs, due to the limited number of parameters, abundant features are unlikely to be obtained, and feature diversity becomes an essential characteristic. Diverse features present in the activation maps derived from a data point during model inference may indicate the presence of a set of unique descriptors necessary to distinguish between objects of different classes. In contrast, data points with low feature diversity may not provide a sufficient amount of unique descriptors to make a valid prediction; we refer to them as random predictions. Random predictions can negatively impact the optimization process and harm the final performance. This paper proposes addressing the problem raised by random predictions by reshaping the standard cross-entropy to make it biased toward data points with a limited number of unique descriptive features. Our novel Bias Loss focuses the training on a set of valuable data points and prevents the vast number of samples with poor learning features from misleading the optimization process. Furthermore, to show the importance of diversity, we present a family of SkipNet models whose architectures are brought to boost the number of unique descriptors in the last layers. Our Skipnet-M can achieve 1% higher classification accuracy than MobileNetV3 Large.
翻訳日:2021-07-27 10:23:11 公開日:2021-07-26
# 残差ログ類似度推定によるポーズ回帰

Human Pose Regression with Residual Log-likelihood Estimation ( http://arxiv.org/abs/2107.11291v2 )

ライセンス: Link先を確認
Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, Cewu Lu(参考訳) ヒートマップに基づく手法は、確率的ヒートマップによる出力分布のモデル化により、人間のポーズ推定の分野を支配している。 対照的に回帰に基づく手法はより効率的であるが、性能が劣る。 本研究では,最大推定値(MLE)を探索し,効率的な回帰に基づく手法を提案する。 MLEの観点からは、異なる回帰損失を採用することは出力密度関数について異なる仮定をしている。 真の分布に近い密度関数は、より良い回帰性能をもたらす。 そこで本稿では,その基礎となる出力分布を捉えるために,残差ログ類似度推定(rle)を用いた新しい回帰パラダイムを提案する。 具体的には、RLEはトレーニングプロセスを容易にするために、未参照の基盤となる分布ではなく、分布の変化を学習する。 提案する再パラメータ化設計では,本手法は既製の流れモデルと互換性がある。 提案手法は効率的,効率的,柔軟である。 包括的実験による様々な人間のポーズ推定タスクにおけるその可能性を示す。 従来の回帰パラダイムと比較して、RLEによる回帰はテスト時間オーバーヘッドを伴わずに、MSCOCOに12.4mAPの改善をもたらす。 また, マルチパーソンポーズ推定において, 初めて, 回帰法がヒートマップ法よりも優れていることがわかった。 私たちのコードはhttps://github.com/J eff-sjtu/res-loglike lihood-regressionで利用可能です。

Heatmap-based methods dominate in the field of human pose estimation by modelling the output distribution through likelihood heatmaps. In contrast, regression-based methods are more efficient but suffer from inferior performance. In this work, we explore maximum likelihood estimation (MLE) to develop an efficient and effective regression-based methods. From the perspective of MLE, adopting different regression losses is making different assumptions about the output density function. A density function closer to the true distribution leads to a better regression performance. In light of this, we propose a novel regression paradigm with Residual Log-likelihood Estimation (RLE) to capture the underlying output distribution. Concretely, RLE learns the change of the distribution instead of the unreferenced underlying distribution to facilitate the training process. With the proposed reparameterization design, our method is compatible with off-the-shelf flow models. The proposed method is effective, efficient and flexible. We show its potential in various human pose estimation tasks with comprehensive experiments. Compared to the conventional regression paradigm, regression with RLE bring 12.4 mAP improvement on MSCOCO without any test-time overhead. Moreover, for the first time, especially on multi-person pose estimation, our regression method is superior to the heatmap-based methods. Our code is available at https://github.com/J eff-sjtu/res-loglike lihood-regression
翻訳日:2021-07-27 10:22:51 公開日:2021-07-26
# 局所アンサンブルカルマンフィルタを用いた状態,グローバルおよび局所パラメータ推定:カオス力学のオンライン機械学習への応用

State, global and local parameter estimation using local ensemble Kalman filters: applications to online machine learning of chaotic dynamics ( http://arxiv.org/abs/2107.11253v2 )

ライセンス: Link先を確認
Quentin Malartic, Alban Farchi, Marc Bocquet(参考訳) 最近の方法論論文では,局所アンサンブルカルマンフィルタを用いて,逐次的に得られた観測から状態軌跡とともにカオス力学を学習する方法を示した。 そこで本研究では,局所アンサンブルカルマンフィルタと共分散ローカライゼーション,あるいは局所ドメインを併用して,状態と鍵となるグローバルパラメータと局所パラメータの混合を検索する可能性について,より系統的に検討する。 グローバルパラメータは、例えばニューラルネットワークを通じて、ダイナミックスのデータ駆動機械学習を連想させる代理ダイナミクスを表現することを目的としており、ローカルパラメータは通常、モデルの強制力を表す。 この結合状態とパラメータフィルタの文脈において,共分散と局所領域ローカライゼーションのアルゴリズム群を提案する。 特に、固有の局所メソッドであるletkfのようなローカルドメインenkfを使用して、グローバルパラメータを厳密に更新する方法を示す。 このアプローチは、ローカルなEnKFフレーバーをいくつか使用して、40変数のLorenzモデルで成功した。 最終的に多層ロレンツモデルに基づく二次元図形が提供される。 放射光のような非局所的な観測と、局所領域と共分散ローカライゼーションの両方を用いてカオス力学、局所的なフォース、層間の結合を学習する。 本稿ではより一般的に,グローバルモデルパラメータとローカルモデルパラメータの両方をオンラインで推定する上で重要な問題に対処する。

In a recent methodological paper, we have shown how to learn chaotic dynamics along with the state trajectory from sequentially acquired observations, using local ensemble Kalman filters. Here, we more systematically investigate the possibilty to use a local ensemble Kalman filter with either covariance localization or local domains, in order to retrieve the state and a mix of key global and local parameters. Global parameters are meant to represent the surrogate dynamics, for instance through a neural network, which is reminiscent of data-driven machine learning of dynamics, while the local parameters typically stand for the forcings of the model. A family of algorithms for covariance and local domain localization is proposed in this joint state and parameter filter context. In particular, we show how to rigorously update global parameters using a local domain EnKF such as the LETKF, an inherently local method. The approach is tested with success on the 40-variable Lorenz model using several of the local EnKF flavors. A two-dimensional illustration based on a multi-layer Lorenz model is finally provided. It uses radiance-like non-local observations, and both local domains and covariance localization in order to learn the chaotic dynamics, the local forcings, and the couplings between layers. This paper more generally addresses the key question of online estimation of both global and local model parameters.
翻訳日:2021-07-27 10:22:34 公開日:2021-07-26
# 半教師付き意味セグメンテーションのためのバイアス付き擬似ラベルの再分配:ベースライン調査

Re-distributing Biased Pseudo Labels for Semi-supervised Semantic Segmentation: A Baseline Investigation ( http://arxiv.org/abs/2107.11279v2 )

ライセンス: Link先を確認
Ruifei He, Jihan Yang, Xiaojuan Qi(参考訳) 自己学習は、半教師付きセマンティクスセグメンテーションが進んだが、実世界のセマンティクスセグメンテーションデータセットの長いクラス分布に苦しめられ、疑似ラベル付きデータの偏りが多数派クラスに向けられている。 本稿では,ラベル付きデータから推定される真のクラス分布と一致する偏りのない擬似ラベルを生成するための,単純かつ効果的な分布アライメントとランダムサンプリング(dars)手法を提案する。 さらに,擬似ラベルデータを用いたモデルトレーニングを容易にするために,プログレッシブデータ拡張とラベル付け戦略も提供する。 Cityscapes と PASCAL VOC 2012 のデータセットによる実験は、我々のアプローチの有効性を実証している。 単純ではあるが,本手法は最先端手法と比較して良好に機能する。 コードはhttps://github.com/C VMI-Lab/DARS.comから入手できる。

While self-training has advanced semi-supervised semantic segmentation, it severely suffers from the long-tailed class distribution on real-world semantic segmentation datasets that make the pseudo-labeled data bias toward majority classes. In this paper, we present a simple and yet effective Distribution Alignment and Random Sampling (DARS) method to produce unbiased pseudo labels that match the true class distribution estimated from the labeled data. Besides, we also contribute a progressive data augmentation and labeling strategy to facilitate model training with pseudo-labeled data. Experiments on both Cityscapes and PASCAL VOC 2012 datasets demonstrate the effectiveness of our approach. Albeit simple, our method performs favorably in comparison with state-of-the-art approaches. Code will be available at https://github.com/C VMI-Lab/DARS.
翻訳日:2021-07-27 10:22:12 公開日:2021-07-26
# Mixed SIGNals: モーションプリミティブの混合による手話生成

Mixed SIGNals: Sign Language Production via a Mixture of Motion Primitives ( http://arxiv.org/abs/2107.11317v2 )

ライセンス: Link先を確認
Ben Saunders, Necati Cihan Camgoz, Richard Bowden(参考訳) 音声言語を音声レベルで表現することが一般的である。 しかし、手話では、これは運動を構成運動プリミティブに分解することを意味する。 アバターをベースとした手話生成(SLP)は伝統的に、手の動き、形状、表情の連続からアニメーションを構築してきた。 しかし、より最近のSLPに対するディープラーニングベースのソリューションは、完全な骨格構造を推定する単一のネットワークを用いてこの問題に対処している。 我々はSLPタスクを2つの異なる訓練されたサブタスクに分割することを提案する。 最初の翻訳サブタスクは音声言語から潜在手話表現に翻訳され、光沢を監督する。 その後、アニメーションのサブタスクは、学習時空間表現によく似た表現的な手話シーケンスを作ることを目的としている。 翻訳サブタスクにプログレッシブトランスフォーマティブを用いることで,手話アニメーションのための運動プリミティブ(momp)アーキテクチャを新たに混合する手法を提案する。 異なる動きプリミティブのセットはトレーニング中に学習され、推論時に時間的に組み合わせて連続手話列をアニメーション化することができる。 本稿では,RWTH-PHOENIX-Weathe r-2014T(PHOENIX14T)データセットの評価を行った。 我々は、競合する結果よりも11%改善した最先端のバック翻訳性能を実現する。 重要なことに、私たちは初めて、音声言語からサインへの完全な翻訳パイプラインのパフォーマンスを、光沢からサインへというよりも強く示しています。

It is common practice to represent spoken languages at their phonetic level. However, for sign languages, this implies breaking motion into its constituent motion primitives. Avatar based Sign Language Production (SLP) has traditionally done just this, building up animation from sequences of hand motions, shapes and facial expressions. However, more recent deep learning based solutions to SLP have tackled the problem using a single network that estimates the full skeletal structure. We propose splitting the SLP task into two distinct jointly-trained sub-tasks. The first translation sub-task translates from spoken language to a latent sign language representation, with gloss supervision. Subsequently, the animation sub-task aims to produce expressive sign language sequences that closely resemble the learnt spatio-temporal representation. Using a progressive transformer for the translation sub-task, we propose a novel Mixture of Motion Primitives (MoMP) architecture for sign language animation. A set of distinct motion primitives are learnt during training, that can be temporally combined at inference to animate continuous sign language sequences. We evaluate on the challenging RWTH-PHOENIX-Weather -2014T(PHOENIX14T) dataset, presenting extensive ablation studies and showing that MoMP outperforms baselines in user evaluations. We achieve state-of-the-art back translation performance with an 11% improvement over competing results. Importantly, and for the first time, we showcase stronger performance for a full translation pipeline going from spoken language to sign, than from gloss to sign.
翻訳日:2021-07-27 10:21:58 公開日:2021-07-26