このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210407となっている論文です。

PDF登録状況(公開日: 20210407)

TitleAuthorsAbstract論文公表日・翻訳日
# 人間の行動の特徴的3次元ポーズの予測

Forecasting Characteristic 3D Poses of Human Actions ( http://arxiv.org/abs/2011.15079v2 )

ライセンス: Link先を確認
Christian Diller, Thomas Funkhouser, Angela Dai(参考訳) 例えば,バナナに手を伸ばす人物を観察し,バナナを食べている人のポーズを予測することで,その人物の将来の3Dポーズを予測する。 人間の運動予測推定に関する事前の作業は、一定の時間間隔で行われる。 このフレーム・バイ・フレームの定式化は簡単に定義できるが、人間の行動の時間的側面と意図的な側面に矛盾する。 代わりに、目標指向の行動からインスピレーションを得て、予測されたポーズを時間から切り離す意味的に意味のあるポーズ予測タスクを定義する。 特徴ポーズを予測するために,まず,特徴ポーズの分布の多相性をモデル化する確率論的手法を提案する。 その後、関節間の依存関係をモデル化するために、予測された分布から将来のポーズを自己回帰的に分析し、最終的に骨の長さと角度の制約で結果のポーズを最適化する。 本手法を評価するために,手作業による特徴的3dポーズのデータセットを構築した。 このデータセットを用いた実験は,提案手法が平均22%の精度で最先端手法を上回っていることを示唆する。

We propose the task of forecasting characteristic 3D poses: from a monocular video observation of a person, to predict a future 3D pose of that person in a likely action-defining, characteristic pose - for instance, from observing a person reaching for a banana, predict the pose of the person eating the banana. Prior work on human motion prediction estimates future poses at fixed time intervals. Although easy to define, this frame-by-frame formulation confounds temporal and intentional aspects of human action. Instead, we define a semantically meaningful pose prediction task that decouples the predicted pose from time, taking inspiration from goal-directed behavior. To predict characteristic poses, we propose a probabilistic approach that first models the possible multi-modality in the distribution of likely characteristic poses. It then samples future pose hypotheses from the predicted distribution in an autoregressive fashion to model dependencies between joints and finally optimizes the resulting pose with bone length and angle constraints. To evaluate our method, we construct a dataset of manually annotated characteristic 3D poses. Our experiments with this dataset suggest that our proposed probabilistic approach outperforms state-of-the-art methods by 22% on average.
翻訳日:2021-06-06 14:57:36 公開日:2021-04-07
# Point2Skeleton: 点雲から骨格表現を学ぶ

Point2Skeleton: Learning Skeletal Representations from Point Clouds ( http://arxiv.org/abs/2012.00230v2 )

ライセンス: Link先を確認
Cheng Lin, Changjian Li, Yuan Liu, Nenglun Chen, Yi-King Choi, Wenping Wang(参考訳) 我々は,ポイントクラウドから骨格表現を学ぶための教師なし手法であるpoint2skeletonを紹介する。 既存のスケルトン化手法は管状形状と水密入力の厳密な要求に限定されているが,本手法は複雑な構造や取扱点雲に対するより一般化された骨格表現の生成を目的としている。 我々のキーとなる考え方は、中軸変換(MAT)の洞察を用いて、原点の固有幾何学的および位相的性質を捉えることである。 まず,幾何学的変換を学習して骨格点の集合を予測し,次に骨格点の連結を解析して骨格メッシュ構造を形成する。 広範な評価と比較の結果,本手法は優れた性能とロバスト性を示した。 学習された骨格表現は、表面再構成やセグメンテーションのような点雲に対する教師なしのタスクの恩恵を受ける。

We introduce Point2Skeleton, an unsupervised method to learn skeletal representations from point clouds. Existing skeletonization methods are limited to tubular shapes and the stringent requirement of watertight input, while our method aims to produce more generalized skeletal representations for complex structures and handle point clouds. Our key idea is to use the insights of the medial axis transform (MAT) to capture the intrinsic geometric and topological natures of the original input points. We first predict a set of skeletal points by learning a geometric transformation, and then analyze the connectivity of the skeletal points to form skeletal mesh structures. Extensive evaluations and comparisons show our method has superior performance and robustness. The learned skeletal representation will benefit several unsupervised tasks for point clouds, such as surface reconstruction and segmentation.
翻訳日:2021-05-30 19:52:13 公開日:2021-04-07
# (参考訳) BasicVSR: ビデオのスーパーリゾリューションに欠かせないコンポーネントの検索

BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond ( http://arxiv.org/abs/2012.02181v2 )

ライセンス: CC BY 4.0
Kelvin C.K. Chan, Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy(参考訳) ビデオ超解像(VSR)アプローチは、追加の時間次元を利用する必要があるため、画像よりも多くのコンポーネントを持つ傾向がある。 複雑な設計は珍しくない。 本研究では,4つの基本機能,すなわち伝播,アライメント,アグリゲーション,アップサンプリングによって導かれるvsrの結び目を解き,最も重要な要素を再考したい。 最小限の再設計で追加された既存のコンポーネントを再利用することにより、多くの最先端アルゴリズムと比較して、スピードと復元品質の面で魅力的な改善を実現する簡潔なパイプラインであるBasicVSRを示す。 このような利得の獲得方法を説明し,落とし穴を考察するために,系統的分析を行う。 さらに,情報集約を容易にするための情報補充機構と結合伝搬方式を提示することにより,BasicVSRの拡張性を示す。 BasicVSRとその拡張であるIconVSRは、将来のVSRアプローチの強力なベースラインとして機能する。

Video super-resolution (VSR) approaches tend to have more components than the image counterparts as they need to exploit the additional temporal dimension. Complex designs are not uncommon. In this study, we wish to untangle the knots and reconsider some most essential components for VSR guided by four basic functionalities, i.e., Propagation, Alignment, Aggregation, and Upsampling. By reusing some existing components added with minimal redesigns, we show a succinct pipeline, BasicVSR, that achieves appealing improvements in terms of speed and restoration quality in comparison to many state-of-the-art algorithms. We conduct systematic analysis to explain how such gain can be obtained and discuss the pitfalls. We further show the extensibility of BasicVSR by presenting an information-refill mechanism and a coupled propagation scheme to facilitate information aggregation. The BasicVSR and its extension, IconVSR, can serve as strong baselines for future VSR approaches.
翻訳日:2021-05-23 18:11:28 公開日:2021-04-07
# seed the view: 抽象表現学習のための階層的意味的アライメント

Seed the Views: Hierarchical Semantic Alignment for Contrastive Representation Learning ( http://arxiv.org/abs/2012.02733v2 )

ライセンス: Link先を確認
Haohang Xu, Xiaopeng Zhang, Hao Li, Lingxi Xie, Hongkai Xiong, Qi Tian(参考訳) インスタンス識別に基づく自己教師付き学習は著しく進歩している。 特に、各画像とその増補を個別のクラスとして捉え、それらを他のすべての画像と区別しようとする対比学習は、表現学習に有効であることが証明されている。 しかし、事実上類似した2つの画像を押し出すことは、一般表現に最適である。 本稿では,1つの画像から生成されたビューを \textbf{cross-samples and multi-level} 表現に拡張して階層的意味的アライメント戦略を提案する。 これは、コントラスト損失を拡張してアンカー当たりの複数の正を許容し、ネットワークの異なる層で意味的に類似したイメージ/パッチを明示的にプルすることで達成される。 提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合することができる。 csmlは現在のコントラスト学習ベース手法に適用でき、一貫して性能が向上する。 特に、モコをインスタンス化として用いて、CsMlは、ResNet-50をバックボーンとして線形評価した \textbf{76.6\% }top-1 の精度、および \textbf{66.7\%} と \textbf{75.1\%} のトップ1の精度をそれぞれ1\%と10\%のラベルで達成する。 \textbf{allこれらの数字は、新しい最先端をセットする。

Self-supervised learning based on instance discrimination has shown remarkable progress. In particular, contrastive learning, which regards each image as well as its augmentations as an individual class and tries to distinguish them from all other images, has been verified effective for representation learning. However, pushing away two images that are de facto similar is suboptimal for general representation. In this paper, we propose a hierarchical semantic alignment strategy via expanding the views generated by a single image to \textbf{Cross-samples and Multi-level} representation, and models the invariance to semantically similar images in a hierarchical way. This is achieved by extending the contrastive loss to allow for multiple positives per anchor, and explicitly pulling semantically similar images/patches together at different layers of the network. Our method, termed as CsMl, has the ability to integrate multi-level visual representations across samples in a robust way. CsMl is applicable to current contrastive learning based methods and consistently improves the performance. Notably, using the moco as an instantiation, CsMl achieves a \textbf{76.6\% }top-1 accuracy with linear evaluation using ResNet-50 as backbone, and \textbf{66.7\%} and \textbf{75.1\%} top-1 accuracy with only 1\% and 10\% labels, respectively. \textbf{All these numbers set the new state-of-the-art.}
翻訳日:2021-05-22 20:39:22 公開日:2021-04-07
# (参考訳) 3DIoUMatch:セミスーパービジョンされた3Dオブジェクト検出のためのIoU予測の活用 [全文訳有]

3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection ( http://arxiv.org/abs/2012.04355v2 )

ライセンス: CC BY 4.0
He Wang, Yezhen Cong, Or Litany, Yue Gao, Leonidas J. Guibas(参考訳) 3Dオブジェクト検出は、3Dアノテーションの取得が困難である重要なタスクである。 そこで本研究では,室内と屋外の両方のシーンに適用可能な3Dオブジェクト検出手法である3DIoUMatchを提案する。 教師と教師の相互学習の枠組みを活用し,ラベル付けされていない列車の情報を擬似ラベルの形で伝達する。 しかし、タスクの複雑さが高いため、擬似ラベルが大きなノイズに悩まされ、直接使用できないことが観察された。 そこで我々はFixMatchにインスパイアされた信頼に基づくフィルタリング機構を導入する。 低品質の擬似ラベルをフィルタするために,予測対象性とクラス確率に基づいて信頼しきい値を設定する。 有効ではあるが,これら2つの指標は定位品質を十分に把握していない。 そこで我々は,推定3次元iouを局所化指標として使用し,カテゴリ対応の自己調整しきい値を設定し,低局所化提案をフィルタリングする方法を提案する。 我々は、VoteNetを屋内データセットのバックボーン検出器として採用し、PV-RCNNを自動運転データセットKITTIに使用しています。 本手法は,ScanNetとSUN-RGBDのベンチマークにおける最先端の手法を,すべてのラベル比(完全ラベル付き設定を含む)において有意差で継続的に改善する。 例えば、ScanNet上のラベル付きデータのみを使用したトレーニングでは、3DIoUMatchはmAP@0.25で7.7、mAP@0.5で8.5の絶対改善を達成した。 KITTIでは,まず半教師付き3次元物体検出実験を行い,その手法がラベルの比率やカテゴリによって1.8%から7.6%まで完全に教師付きベースラインを超えた。

3D object detection is an important yet demanding task that heavily relies on difficult to obtain 3D annotations. To reduce the required amount of supervision, we propose 3DIoUMatch, a novel semi-supervised method for 3D object detection applicable to both indoor and outdoor scenes. We leverage a teacher-student mutual learning framework to propagate information from the labeled to the unlabeled train set in the form of pseudo-labels. However, due to the high task complexity, we observe that the pseudo-labels suffer from significant noise and are thus not directly usable. To that end, we introduce a confidence-based filtering mechanism, inspired by FixMatch. We set confidence thresholds based upon the predicted objectness and class probability to filter low-quality pseudo-labels. While effective, we observe that these two measures do not sufficiently capture localization quality. We therefore propose to use the estimated 3D IoU as a localization metric and set category-aware self-adjusted thresholds to filter poorly localized proposals. We adopt VoteNet as our backbone detector on indoor datasets while we use PV-RCNN on the autonomous driving dataset, KITTI. Our method consistently improves state-of-the-art methods on both ScanNet and SUN-RGBD benchmarks by significant margins under all label ratios (including fully labeled setting). For example, when training using only 10\% labeled data on ScanNet, 3DIoUMatch achieves 7.7 absolute improvement on mAP@0.25 and 8.5 absolute improvement on mAP@0.5 upon the prior art. On KITTI, we are the first to demonstrate semi-supervised 3D object detection and our method surpasses a fully supervised baseline from 1.8% to 7.6% under different label ratios and categories.
翻訳日:2021-05-17 07:33:52 公開日:2021-04-07
# in-n-out: 分散ロバスト性のための補助情報を用いた事前学習と自己学習

In-N-Out: Pre-Training and Self-Training using Auxiliary Information for Out-of-Distribution Robustness ( http://arxiv.org/abs/2012.04550v3 )

ライセンス: Link先を確認
Sang Michael Xie, Ananya Kumar, Robbie Jones, Fereshte Khani, Tengyu Ma, Percy Liang(参考訳) in-distribution ラベル付き例と、in-out-distribution (ood) のラベル付き例が多数ある予測セットを考える。 目標は、流通とOODの両方でうまく機能するモデルを学ぶことである。 これらの設定では、補助情報は入力毎に安価に利用できることが多い。 予測タスクにこの補助情報をどのように活用するか。 3つの画像および時系列データセットを経験的に比較し、理論的には複数タスクの線形回帰設定において、(i)入力特徴として補助情報を使用すると、分配エラーが改善するが、(ii)補助情報を使用するとOODエラーが改善することを示した。 In-N-Outは、まず補助入力でモデルを訓練し、それを全ての分配入力に擬似ラベル付けし、OOD補助出力でモデルを事前訓練し、擬似ラベル(自己学習)でこのモデルを微調整する。 In-N-Outは、分布内およびOOD誤差の両方で補助的な入力や出力よりも優れていることを示す。

Consider a prediction setting with few in-distribution labeled examples and many unlabeled examples both in- and out-of-distribution (OOD). The goal is to learn a model which performs well both in-distribution and OOD. In these settings, auxiliary information is often cheaply available for every input. How should we best leverage this auxiliary information for the prediction task? Empirically across three image and time-series datasets, and theoretically in a multi-task linear regression setting, we show that (i) using auxiliary information as input features improves in-distribution error but can hurt OOD error; but (ii) using auxiliary information as outputs of auxiliary pre-training tasks improves OOD error. To get the best of both worlds, we introduce In-N-Out, which first trains a model with auxiliary inputs and uses it to pseudolabel all the in-distribution inputs, then pre-trains a model on OOD auxiliary outputs and fine-tunes this model with the pseudolabels (self-training). We show both theoretically and empirically that In-N-Out outperforms auxiliary inputs or outputs alone on both in-distribution and OOD error.
翻訳日:2021-05-16 21:44:40 公開日:2021-04-07
# (参考訳) NullaNet Tiny:固定関数結合論理による超低レイテンシDNN推論 [全文訳有]

NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function Combinational Logic ( http://arxiv.org/abs/2104.05421v1 )

ライセンス: CC BY 4.0
Mahdi Nazemi, Arash Fayyazi, Amirhossein Esmaili, Atharva Khare, Soheil Nazar Shahsavani, and Massoud Pedram(参考訳) ディープニューラルネットワーク(DNN)の効率的な処理に関する多くの研究があるが、厳密なサブマイクロ秒レイテンシ要件を持つアプリケーションに対するこれらのモデルの超低レイテンシの実現は、未解決で困難な問題であり続けている。 フィールドプログラマブルゲートアレイ(FPGA)ベースのDNNアクセラレータは、その性能、柔軟性、エネルギー効率を考慮して、グラフィクス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える重要な競合相手として、注目を集めている。 本稿では,資源と省エネ,超低遅延FPGAベースのニューラルネットワークアクセラレータを構築するためのマルチスタック設計および最適化フレームワークであるNullaNet Tinyを提案する。 鍵となる考え方は、DNNの様々なフィルタ/ニューロン関数をFPGAデバイスのネイティブルックアップテーブル(LUT)にマップされるブール論理式に置き換えることである(そのような操作の例は、乗算および累積およびバッチ正規化である)。 XilinxのLogicNetsとほぼ同じレベルの分類精度で、2.36$\times$低レイテンシ、24.42$\times$低LUT利用を実現しています。

While there is a large body of research on efficient processing of deep neural networks (DNNs), ultra-low-latency realization of these models for applications with stringent, sub-microsecond latency requirements continues to be an unresolved, challenging problem. Field-programmable gate array (FPGA)-based DNN accelerators are gaining traction as a serious contender to replace graphics processing unit/central processing unit-based platforms considering their performance, flexibility, and energy efficiency. This paper presents NullaNet Tiny, an across-the-stack design and optimization framework for constructing resource and energy-efficient, ultra-low-latency FPGA-based neural network accelerators. The key idea is to replace expensive operations required to compute various filter/neuron functions in a DNN with Boolean logic expressions that are mapped to the native look-up tables (LUTs) of the FPGA device (examples of such operations are multiply-and-accumul ate and batch normalization). At about the same level of classification accuracy, compared to Xilinx's LogicNets, our design achieves 2.36$\times$ lower latency and 24.42$\times$ lower LUT utilization.
翻訳日:2021-05-04 08:57:01 公開日:2021-04-07
# Dynabench: NLPのベンチマークを再考

Dynabench: Rethinking Benchmarking in NLP ( http://arxiv.org/abs/2104.14337v1 )

ライセンス: Link先を確認
Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, Zhiyi Ma, Tristan Thrush, Sebastian Riedel, Zeerak Waseem, Pontus Stenetorp, Robin Jia, Mohit Bansal, Christopher Potts, Adina Williams(参考訳) 動的データセットの作成とモデルベンチマークのためのオープンソースプラットフォームであるdynabenchを紹介する。 dynabenchはwebブラウザ上で動作し、human-and-model-in-t he-loopデータセットの作成をサポートする。 本稿では,Dynabenchが我々のコミュニティにおける重要なニーズに対処していると主張する。現代のモデルは,ベンチマークタスクにおいてすぐれたパフォーマンスを達成できるが,しかしながら,現実のシナリオでは単純な課題の例に失敗する。 dynabenchでは、データセットの作成、モデル開発、モデル評価が互いに直接情報を伝達し、より堅牢で有益なベンチマークとなる。 我々は4つの初期NLPタスクについて報告し、これらの概念を具現化し、プラットフォームの約束を強調し、動的ベンチマークに対する潜在的な反対に対処する。

We introduce Dynabench, an open-source platform for dynamic dataset creation and model benchmarking. Dynabench runs in a web browser and supports human-and-model-in-t he-loop dataset creation: annotators seek to create examples that a target model will misclassify, but that another person will not. In this paper, we argue that Dynabench addresses a critical need in our community: contemporary models quickly achieve outstanding performance on benchmark tasks but nonetheless fail on simple challenge examples and falter in real-world scenarios. With Dynabench, dataset creation, model development, and model assessment can directly inform each other, leading to more robust and informative benchmarks. We report on four initial NLP tasks, illustrating these concepts and highlighting the promise of the platform, and address potential objections to dynamic benchmarking as a new standard for the field.
翻訳日:2021-05-03 19:43:42 公開日:2021-04-07
# Speak or Chat with Me: フレキシブル入力を用いたエンドツーエンド音声言語理解システム

Speak or Chat with Me: End-to-End Spoken Language Understanding System with Flexible Inputs ( http://arxiv.org/abs/2104.05752v1 )

ライセンス: Link先を確認
Sujeong Cha, Wangrui Hou, Hyun Jung, My Phung, Michael Picheny, Hong-Kwang Kuo, Samuel Thomas, Edmilson Morais(参考訳) 音声言語理解(SLU)における最近の研究の大きな焦点は、単一のモデルが中間書き起こしのない音声入力から直接意図を予測できるエンドツーエンドアプローチである。 しかし、このアプローチにはいくつかの課題がある。 第一に、音声は個人識別可能な情報とみなすことができるため、場合によっては自動音声認識(ASR)文字のみにアクセス可能である。 第2に,インテントラベル音声データは少ない。 第1の課題に対処するために,音声,asr書き起こし,あるいはその両方といった柔軟な入力から意図を予測できる新しいシステムを提案する。 また,音声とasrの書き起こしが利用可能である場合,システムの組み合わせにより,単一の入力モダリティを使用するよりも優れた結果が得られることを示す。 第2の課題に対処すべく,semantically robust pre-trained bertモデルを利用し,テキスト埋め込みと音響埋め込みを共有潜在空間で共学習するクロスモーダルシステムを採用する。 我々は、LibriSpeechで事前訓練された音響モジュールと、ターゲットデータセット上のテキストモジュールをドメイン適応することで、このシステムをさらに強化する。 その結果,Snips SLUとFluent Speech Commandsのデータセット上での競合意図分類性能を実現するシステムを実現した。

A major focus of recent research in spoken language understanding (SLU) has been on the end-to-end approach where a single model can predict intents directly from speech inputs without intermediate transcripts. However, this approach presents some challenges. First, since speech can be considered as personally identifiable information, in some cases only automatic speech recognition (ASR) transcripts are accessible. Second, intent-labeled speech data is scarce. To address the first challenge, we propose a novel system that can predict intents from flexible types of inputs: speech, ASR transcripts, or both. We demonstrate strong performance for either modality separately, and when both speech and ASR transcripts are available, through system combination, we achieve better results than using a single input modality. To address the second challenge, we leverage a semantically robust pre-trained BERT model and adopt a cross-modal system that co-trains text embeddings and acoustic embeddings in a shared latent space. We further enhance this system by utilizing an acoustic module pre-trained on LibriSpeech and domain-adapting the text module on our target datasets. Our experiments show significant advantages for these pre-training and fine-tuning strategies, resulting in a system that achieves competitive intent-classificatio n performance on Snips SLU and Fluent Speech Commands datasets.
翻訳日:2021-05-03 19:43:26 公開日:2021-04-07
# グローバル・ローカル・オーディオ・ビジュアル表現のコントラスト学習

Contrastive Learning of Global and Local Audio-Visual Representations ( http://arxiv.org/abs/2104.05418v1 )

ライセンス: Link先を確認
Shuang Ma, Zhaoyang Zeng, Daniel McDuff, Yale Song(参考訳) コントラスト学習は多くのオーディオ視覚表現学習シナリオで印象的な結果をもたらした。 しかし、既存のアプローチでは、分類などのタスクに有用な \textit{global} 表現や、音声-視覚的ソースのローカライゼーションや分離のようなタスクに有用な \textit{local} 表現を学習するために最適化されている。 彼らは意図した下流シナリオで満足な結果を生み出すが、本来設計されていないタスクに一般化できないことが多い。 本研究では,グローバルな意味情報を必要とするタスク(例えば分類)と詳細な時空間情報を必要とするタスク(例えば,分類)の両方に一般化する音声視覚表現を学習するための多目的自己教師方式を提案する。 ローカライゼーション)。 そこで我々は,音声信号が与える識別的局所視覚情報の学習をモデルに促す2つのクロスモーダルコントラスト目標を最適化することで,これを実現する。 提案手法は, 動作/音の分類, 唇読取, ディープフェイク検出, 音源定位など, 様々な下流シナリオにおいて, 一般的な映像表現を学習していることを示す。

Contrastive learning has delivered impressive results in many audio-visual representation learning scenarios. However, existing approaches optimize for learning either \textit{global} representations useful for tasks such as classification, or \textit{local} representations useful for tasks such as audio-visual source localization and separation. While they produce satisfactory results in their intended downstream scenarios, they often fail to generalize to tasks that they were not originally designed for. In this work, we propose a versatile self-supervised approach to learn audio-visual representations that generalize to both the tasks which require global semantic information (e.g., classification) and the tasks that require fine-grained spatio-temporal information (e.g. localization). We achieve this by optimizing two cross-modal contrastive objectives that together encourage our model to learn discriminative global-local visual information given audio signals. To show that our approach learns generalizable video representations, we evaluate it on various downstream scenarios including action/sound classification, lip reading, deepfake detection, and sound source localization.
翻訳日:2021-05-03 19:42:56 公開日:2021-04-07
# トリックテイクにおける知識に基づくパラノイア探索

Knowledge-Based Paranoia Search in Trick-Taking ( http://arxiv.org/abs/2104.05423v1 )

ライセンス: Link先を確認
Stefan Edelkamp(参考訳) 本稿では,カードゲーム『Skat』のトリックテイクにおいて,最も興味深いカードゲームの一つとして,KBPS(emph{knowledge-based paraonoia search})を提案する。 効率的な部分情報ゲームツリー探索と知識表現と推論を組み合わせる。 この最悪のケース分析は、少数のトリックの後に始まり、優先順位付けされたカードの選択につながる。 我々は宣言者および反対者に対してKBPSの変種を提供し、信念空間のほとんどの世界に対して強制的な勝利を求める近似を与える。 何千もの専門的なゲームを再現することにより、新しいアルゴリズムを持つAIは、プレイにおいて人間よりも優れたパフォーマンスを示し、Skatトーナメント、拡張シーガーシステムにおいて、合意された基準で平均1000点以上のスコアを達成している。

This paper proposes \emph{knowledge-based paraonoia search} (KBPS) to find forced wins during trick-taking in the card game Skat; for some one of the most interesting card games for three players. It combines efficient partial information game-tree search with knowledge representation and reasoning. This worst-case analysis, initiated after a small number of tricks, leads to a prioritized choice of cards. We provide variants of KBPS for the declarer and the opponents, and an approximation to find a forced win against most worlds in the belief space. Replaying thousands of expert games, our evaluation indicates that the AIs with the new algorithms perform better than humans in their play, achieving an average score of over 1,000 points in the agreed standard for evaluating Skat tournaments, the extended Seeger system.
翻訳日:2021-05-03 19:42:22 公開日:2021-04-07
# 場所と場所は? 解釈可能な不整形表現の検討

Where and What? Examining Interpretable Disentangled Representations ( http://arxiv.org/abs/2104.05622v1 )

ライセンス: Link先を確認
Xinqi Zhu, Chang Xu, Dacheng Tao(参考訳) 解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。 しかし、独立の前提と異なり、教師なしの環境での混乱を促すために解釈可能性を利用することはめったにない。 本稿では, 解釈対象と解釈対象の2つの質問について検討し, 不連続表現の解釈可能性について検討する。 潜在コードは、生成された画像の特定の部分領域に一貫して影響を及ぼす場合、容易に解釈できる。 そこで我々は,個々の潜在次元の効果を局所化する空間マスクの学習を提案する。 一方、解釈可能性は通常、データの単純かつ基本的なバリエーションをキャプチャする潜在次元に由来する。 したがって、潜在コードのある次元に摂動を課し、生成された画像からこの次元に沿った摂動を識別し、単純なバリエーションの符号化を強制できることを期待している。 さらに,潜在空間における軸に沿った知覚距離スコアを蓄積する教師なしモデル選択法を開発した。 様々なデータセット上では,提案する解釈可能性のモデル化が教師なし不規則化を実現する効果的な指標であることを示すため,モデルが監視なしで高品質な不絡み合い表現を学習できる。

Capturing interpretable variations has long been one of the goals in disentanglement learning. However, unlike the independence assumption, interpretability has rarely been exploited to encourage disentanglement in the unsupervised setting. In this paper, we examine the interpretability of disentangled representations by investigating two questions: where to be interpreted and what to be interpreted? A latent code is easily to be interpreted if it would consistently impact a certain subarea of the resulting generated image. We thus propose to learn a spatial mask to localize the effect of each individual latent dimension. On the other hand, interpretability usually comes from latent dimensions that capture simple and basic variations in data. We thus impose a perturbation on a certain dimension of the latent code, and expect to identify the perturbation along this dimension from the generated images so that the encoding of simple variations can be enforced. Additionally, we develop an unsupervised model selection method, which accumulates perceptual distance scores along axes in the latent space. On various datasets, our models can learn high-quality disentangled representations without supervision, showing the proposed modeling of interpretability is an effective proxy for achieving unsupervised disentanglement.
翻訳日:2021-05-03 19:42:07 公開日:2021-04-07
# スケートやその他のチャンスゲームのためのELOシステム

ELO System for Skat and Other Games of Chance ( http://arxiv.org/abs/2104.05422v1 )

ライセンス: Link先を確認
Stefan Edelkamp(参考訳) 成績を予測し、より長いゲームでプレイヤーをランク付けする選手のスキルレベルを評価することは、トーナメントプレーにおいて非常に重要である。 観測された連続的なインフレーションのような弱点に加えて、その作者のArpad Eloに因んで命名されたELOランキングシステムは、ゼロサムゲームにおけるプレイヤーの相対的なスキルレベルを計算するための信頼性の高い方法であることが証明されている。 しかし、skatやbridgeのようなトリックテイクカードゲームにおけるプレイヤーの強さの評価は明らかではない。 第一に、これらは複数のプレイヤーを持つ部分的に観測可能な不完全な情報であり、既存のELOシステムと同様に、相手の強みがスコアに影響を与える。 第2に、彼らはスキルとチャンスの両方のゲームであるため、プレイの強さに加えて、ゲームの結果も取引に依存する。 最後に重要なのは、プレーヤーが評価されるのに慣れ、eloが調整すべきスコアリングシステムが国際的に確立されていることだ。 トーナメントスコアシステムに基づいて,これらの弱点を克服するための新しいELOシステムを提案する。

Assessing the skill level of players to predict the outcome and to rank the players in a longer series of games is of critical importance for tournament play. Besides weaknesses, like an observed continuous inflation, through a steadily increasing playing body, the ELO ranking system, named after its creator Arpad Elo, has proven to be a reliable method for calculating the relative skill levels of players in zero-sum games. The evaluation of player strength in trick-taking card games like Skat or Bridge, however, is not obvious. Firstly, these are incomplete information partially observable games with more than one player, where opponent strength should influence the scoring as it does in existing ELO systems. Secondly, they are game of both skill and chance, so that besides the playing strength the outcome of a game also depends on the deal. Last but not least, there are internationally established scoring systems, in which the players are used to be evaluated, and to which ELO should align. Based on a tournament scoring system, we propose a new ELO system for Skat to overcome these weaknesses.
翻訳日:2021-05-03 19:41:50 公開日:2021-04-07
# 高エネルギー物理用fpgaにおけるブースト決定木を用いたナノ秒機械学習イベント分類

Nanosecond machine learning event classification with boosted decision trees in FPGA for high energy physics ( http://arxiv.org/abs/2104.03408v1 )

ライセンス: Link先を確認
Tae Min Hong, Benjamin Carlson, Brandon Eubanks, Stephen Racz, Stephen Roche, Joerg Stelzer, Daniel Stumpp(参考訳) 本稿では,フィールドプログラマブルゲートアレイ (FPGA) 上の強化決定木 (BDT) と呼ばれる機械学習/人工知能手法を用いた新しい分類法を提案する。 4つの入力変数を用いた最大深度4のトレーニングツリーを100本必要としたバイナリ分類のファームウェア実装では,設定時の320MHzのクロック・タックに相当する,約10 nsのレイテンシ値が得られる。 低タイミング値は、BDTレイアウトを再構成し、パラメータを再構成することで達成される。 FPGAリソースの利用も、セットアップの0.01%から0.2%の範囲で低く保たれています。 fwXmachinaと呼ばれるソフトウェアパッケージがこの実装を実現する。 我々の目指すオーディエンスは、高エネルギー物理実験におけるカスタム電子ベースのトリガーシステム、あるいはリアルタイムイベント分類の最低遅延値で決定を必要とする人である。 高エネルギー物理学からの2つの問題は、電子対光子の分離と、ベクターボソンが生成するヒッグス粒子の選択と、マルチジェット過程の拒絶である。

We present a novel implementation of classification using the machine learning / artificial intelligence method called boosted decision trees (BDT) on field programmable gate arrays (FPGA). The firmware implementation of binary classification requiring 100 training trees with a maximum depth of 4 using four input variables gives a latency value of about 10 ns, which corresponds to 3 clock ticks at 320 MHz in our setup. The low timing values are achieved by restructuring the BDT layout and reconfiguring its parameters. The FPGA resource utilization is also kept low at a range from 0.01% to 0.2% in our setup. A software package called fwXmachina achieves this implementation. Our intended audience is a user of custom electronics-based trigger systems in high energy physics experiments or anyone that needs decisions at the lowest latency values for real-time event classification. Two problems from high energy physics are considered, in the separation of electrons vs. photons and in the selection of vector boson fusion-produced Higgs bosons vs. the rejection of the multijet processes.
翻訳日:2021-05-03 19:40:52 公開日:2021-04-07
# (参考訳) ポイントから多目的3次元再構成へ [全文訳有]

From Points to Multi-Object 3D Reconstruction ( http://arxiv.org/abs/2012.11575v2 )

ライセンス: CC BY 4.0
Francis Engelmann, Konstantinos Rematas, Bastian Leibe, Vittorio Ferrari(参考訳) 単一のRGB画像から複数の3Dオブジェクトを検出し,再構成する手法を提案する。 鍵となるアイデアは、リアルで物理的に可能な再構築に集中しながら、RGB画像のすべてのオブジェクトの検出、アライメント、形状を最適化することである。 そこで本研究では,物体を中心点として局所化し,9-DoF境界ボックスや3次元形状を含む全ての物体特性を直接予測するキーポイント検出器を提案する。 提案手法は形状選択問題として3次元形状再構成を定式化する。 与えられたデータベースから、模範的な形状を選択する。 これにより、CADモデルに基づく現実的で視覚的な形状の軽量な再構築が可能となり、トレーニング対象は点雲やボクセル表現を中心に定式化される。 衝突損失は非交差物体を促進し、再構成リアリズムをさらに高める。 rgbの画像を考えると、提案手法は単段で軽量な再構築を行い、リアルタイムで、完全に微分可能で、エンドツーエンドのトレーニング可能である。 実験では,9-DoF境界ボックス推定のための複数の手法を比較し,新しい形状選択機構を評価し,最近の3次元境界ボックス推定法と3次元形状復元品質の比較を行った。

We propose a method to detect and reconstruct multiple 3D objects from a single RGB image. The key idea is to optimize for detection, alignment and shape jointly over all objects in the RGB image, while focusing on realistic and physically plausible reconstructions. To this end, we propose a keypoint detector that localizes objects as center points and directly predicts all object properties, including 9-DoF bounding boxes and 3D shapes -- all in a single forward pass. The proposed method formulates 3D shape reconstruction as a shape selection problem, i.e. it selects among exemplar shapes from a given database. This makes it agnostic to shape representations, which enables a lightweight reconstruction of realistic and visually-pleasing shapes based on CAD-models, while the training objective is formulated around point clouds and voxel representations. A collision-loss promotes non-intersecting objects, further increasing the reconstruction realism. Given the RGB image, the presented approach performs lightweight reconstruction in a single-stage, it is real-time capable, fully differentiable and end-to-end trainable. Our experiments compare multiple approaches for 9-DoF bounding box estimation, evaluate the novel shape-selection mechanism and compare to recent methods in terms of 3D bounding box estimation and 3D shape reconstruction quality.
翻訳日:2021-04-27 09:31:02 公開日:2021-04-07
# セマンティックオーディオ・ビジュアルナビゲーション

Semantic Audio-Visual Navigation ( http://arxiv.org/abs/2012.11583v2 )

ライセンス: Link先を確認
Changan Chen, Ziad Al-Halah, Kristen Grauman(参考訳) 最近の音声視覚ナビゲーションの研究は、常に聞こえるターゲットを仮定し、ターゲットの位置を知らせるための音声の役割を制限する。 環境中の物体が意味的意味(例えば、トイレのフラッシング、ドアのクレーキング)と一致し、音響イベントが時間的に散発的または短くなるようなセマンティックオーディオ視覚ナビゲーションを導入する。 目標の空間的および意味的特性をキャプチャする推論された目標記述子を組み込んだ,この新しい意味的音声処理に取り組むトランスフォーマティブモデルを提案する。 我々のモデルの永続的マルチモーダルメモリは、音響イベントが停止した後でもゴールに達することができる。 新しいタスクをサポートするため、私たちはsoundspacesオーディオシミュレーションを拡張して、matterport3d内のオブジェクトの配列に意味的に接地したサウンドを提供します。 本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。

Recent work on audio-visual navigation assumes a constantly-sounding target and restricts the role of audio to signaling the target's position. We introduce semantic audio-visual navigation, where objects in the environment make sounds consistent with their semantic meaning (e.g., toilet flushing, door creaking) and acoustic events are sporadic or short in duration. We propose a transformer-based model to tackle this new semantic AudioGoal task, incorporating an inferred goal descriptor that captures both spatial and semantic properties of the target. Our model's persistent multimodal memory enables it to reach the goal even long after the acoustic event stops. In support of the new task, we also expand the SoundSpaces audio simulations to provide semantically grounded sounds for an array of objects in Matterport3D. Our method strongly outperforms existing audio-visual navigation methods by learning to associate semantic, acoustic, and visual cues.
翻訳日:2021-04-27 06:39:17 公開日:2021-04-07
# 単眼映像における3次元多人数ポーズ推定のためのグラフおよび時間畳み込みネットワーク

Graph and Temporal Convolutional Networks for 3D Multi-person Pose Estimation in Monocular Videos ( http://arxiv.org/abs/2012.11806v3 )

ライセンス: Link先を確認
Yu Cheng, Bo Wang, Bo Yang, Robby T. Tan(参考訳) 近年の進歩にもかかわらず、隠蔽、部分的には枠外標的人物、不正確な人物検出によって生じる情報不足の問題により、モノクロ映像からの3次元人物ポーズ推定は依然として困難である。 そこで本研究では,GCN(Graph Convolutional Network)とTCN(temporal Convolutional Network)を統合して,カメラパラメータを必要としないカメラ中心の多人数3Dポーズを頑健に推定する手法を提案する。 特に, 既存のgcnとは異なり, 姿勢推定結果を改善するために2次元ポーズ推定器の信頼度スコアを用いた有向グラフに基づく, ヒューマンジョイントgcnを導入する。 また骨結合をモデル化し,ヒト関節以外の情報を提供するヒト骨GCNも導入した。 2つのGCNは、空間的フレームの3Dポーズを推定するために協力し、ターゲットフレーム内の可視関節情報と骨情報の両方を利用して、隠蔽されたまたは行方不明な人体情報を推定する。 3次元ポーズ推定をさらに洗練するために,我々は時間的畳み込みネットワーク(tcns)を用いて,時間的および人間の動的制約を強制する。 連続フレームにおける3Dポーズ推定の整合性を確保するために,関節TCNを用いて人中心の3Dポーズをフレーム間で推定し,速度TCNを用いて3Dジョイントの速度を推定する。 最後に,複数人の3dポーズを推定するために,カメラパラメータを必要とせずにカメラ中心の3dポーズを推定するルートtcnを提案する。 定量的および定性的な評価は,提案手法の有効性を示す。

Despite the recent progress, 3D multi-person pose estimation from monocular videos is still challenging due to the commonly encountered problem of missing information caused by occlusion, partially out-of-frame target persons, and inaccurate person detection. To tackle this problem, we propose a novel framework integrating graph convolutional networks (GCNs) and temporal convolutional networks (TCNs) to robustly estimate camera-centric multi-person 3D poses that do not require camera parameters. In particular, we introduce a human-joint GCN, which, unlike the existing GCN, is based on a directed graph that employs the 2D pose estimator's confidence scores to improve the pose estimation results. We also introduce a human-bone GCN, which models the bone connections and provides more information beyond human joints. The two GCNs work together to estimate the spatial frame-wise 3D poses and can make use of both visible joint and bone information in the target frame to estimate the occluded or missing human-part information. To further refine the 3D pose estimation, we use our temporal convolutional networks (TCNs) to enforce the temporal and human-dynamics constraints. We use a joint-TCN to estimate person-centric 3D poses across frames, and propose a velocity-TCN to estimate the speed of 3D joints to ensure the consistency of the 3D pose estimation in consecutive frames. Finally, to estimate the 3D human poses for multiple persons, we propose a root-TCN that estimates camera-centric 3D poses without requiring camera parameters. Quantitative and qualitative evaluations demonstrate the effectiveness of the proposed method.
翻訳日:2021-04-26 07:32:08 公開日:2021-04-07
# (参考訳) 正規分布の統合と分類法 [全文訳有]

A method to integrate and classify normal distributions ( http://arxiv.org/abs/2012.14331v4 )

ライセンス: CC BY-SA 4.0
Abhranil Das and Wilson S Geisler(参考訳) 単変量および多変量正規確率分布は不確実性のある決定をモデル化する際に広く用いられる。 このようなモデルの性能を計算するには、特定のドメインにまたがってこれらの分布を統合する必要がある。 これらの積分を計算し易い特別な場合もいくつかあるが、一般的な解析式や標準的な数値法やソフトウェアは存在しない。 Here we present mathematical results and open-source software that provide (i) the probability in any domain of a normal in any dimensions with any parameters, (ii) the probability density, distribution, and percentage points of any function of a normal vector, (iii) the error matrix that measures classification performance amongst any number of normal distributions, and the optimal discriminability index, (iv) dimension reduction and visualizations for such problems, and (v) tests for how reliably these methods can be used on given data. 自然界における物体の隠蔽やカモフラージュの検出といった視覚研究の応用を実演する。

Univariate and multivariate normal probability distributions are widely used when modeling decisions under uncertainty. Computing the performance of such models requires integrating these distributions over specific domains, which can vary widely across models. Besides some special cases where these integrals are easy to calculate, there exists no general analytical expression, standard numerical method or software for these integrals. Here we present mathematical results and open-source software that provide (i) the probability in any domain of a normal in any dimensions with any parameters, (ii) the probability density, distribution, and percentage points of any function of a normal vector, (iii) the error matrix that measures classification performance amongst any number of normal distributions, and the optimal discriminability index, (iv) dimension reduction and visualizations for such problems, and (v) tests for how reliably these methods can be used on given data. We demonstrate these tools with vision research applications of detecting occluding objects in natural scenes, and detecting camouflage.
翻訳日:2021-04-26 05:16:29 公開日:2021-04-07
# (参考訳) 統計的学習を応用した経験的角測度の濃度境界

Concentration bounds for the empirical angular measure with statistical learning applications ( http://arxiv.org/abs/2104.03966v1 )

ライセンス: CC BY 4.0
St\'ephan Cl\'emen\c{c}on and Hamid Jalalzai and Anne Sabourin and Johan Segers(参考訳) 単位球面上の角測度は、極端領域におけるランダムベクトルの成分の1次依存構造を特徴づけ、標準化されたマージンで定義される。 その統計的回復は、中心から遠く離れた観察に関わる問題を学ぶための重要なステップである。 ベクトルの成分が異なる分布を持つ一般的な状況において、ランク変換は最も極端な観測に基づいて角測度の経験的なバージョンを構築するために、データを標準化する便利な堅牢な方法を提供する。 しかしながら、結果として得られる経験的角度の測定値のサンプリング分布の研究は困難である。 この論文の目的は、経験的測度と真の角測度の間の最大偏差に対する有限個のサンプル境界を、制御された組合せ複雑性のボレル集合のクラスに対して一様に確立することである。 境界は、有効サンプルサイズの平方根として、対数係数まで、高い確率とスケールで有効である。 最も極端な観測を破棄すると、濃度境界の対数因子が切断レベルに応じて係数に置き換えられるような経験的角測度の切断版が得られる。 この境界は、入力空間の極小領域に合わせた2つの統計学習手順のパフォーマンス保証に応用され、経験的角測度に基づく: 経験的リスク最小化による極小領域のバイナリ分類と、球の最小体積集合による教師なし異常検出である。

The angular measure on the unit sphere characterizes the first-order dependence structure of the components of a random vector in extreme regions and is defined in terms of standardized margins. Its statistical recovery is an important step in learning problems involving observations far away from the center. In the common situation when the components of the vector have different distributions, the rank transformation offers a convenient and robust way of standardizing data in order to build an empirical version of the angular measure based on the most extreme observations. However, the study of the sampling distribution of the resulting empirical angular measure is challenging. It is the purpose of the paper to establish finite-sample bounds for the maximal deviations between the empirical and true angular measures, uniformly over classes of Borel sets of controlled combinatorial complexity. The bounds are valid with high probability and scale essentially as the square root of the effective sample size, up to a logarithmic factor. Discarding the most extreme observations yields a truncated version of the empirical angular measure for which the logarithmic factor in the concentration bound is replaced by a factor depending on the truncation level. The bounds are applied to provide performance guarantees for two statistical learning procedures tailored to extreme regions of the input space and built upon the empirical angular measure: binary classification in extreme regions through empirical risk minimization and unsupervised anomaly detection through minimum-volume sets of the sphere.
翻訳日:2021-04-13 00:53:20 公開日:2021-04-07
# Aspect Based Sentiment Analysis のための統合訓練用デュアルMRCフレームワーク

A Joint Training Dual-MRC Framework for Aspect Based Sentiment Analysis ( http://arxiv.org/abs/2101.00816v2 )

ライセンス: Link先を確認
Yue Mao, Yi Shen, Chao Yu, Longjun Cai(参考訳) アスペクトベース感情分析(ABSA)は、アスペクト項抽出、意見項抽出、アスペクトレベルの感情分類という3つの基本的なサブタスクを含む。 初期の研究は、これらのサブタスクの1つを個別に解決することだけに焦点を当てていた。 最近の研究では、アスペクト項と感情極性の抽出、アスペクト項と意見項のペアごとに抽出といった、2つのサブタスクの組み合わせの解決に焦点を当てている。 最近では、三重抽出タスク(Aspect term, opinion term, sentiment polarity)が文から三重抽出タスクとして提案されている。 しかし、以前のアプローチでは、すべてのサブタスクを統一されたエンドツーエンドフレームワークで解決できなかった。 本稿では,ABSAの完全解法を提案する。 我々は,パラメータ共有を伴う2つのBERT-MRCモデルを共同訓練することにより,2つの機械読影理解(MRC)問題を構築し,すべてのサブタスクを解決する。 我々は,これらのサブタスクについて実験を行い,いくつかのベンチマークデータセットの結果から,提案手法の有効性を実証する。

Aspect based sentiment analysis (ABSA) involves three fundamental subtasks: aspect term extraction, opinion term extraction, and aspect-level sentiment classification. Early works only focused on solving one of these subtasks individually. Some recent work focused on solving a combination of two subtasks, e.g., extracting aspect terms along with sentiment polarities or extracting the aspect and opinion terms pair-wisely. More recently, the triple extraction task has been proposed, i.e., extracting the (aspect term, opinion term, sentiment polarity) triples from a sentence. However, previous approaches fail to solve all subtasks in a unified end-to-end framework. In this paper, we propose a complete solution for ABSA. We construct two machine reading comprehension (MRC) problems and solve all subtasks by joint training two BERT-MRC models with parameters sharing. We conduct experiments on these subtasks, and results on several benchmark datasets demonstrate the effectiveness of our proposed framework, which significantly outperforms existing state-of-the-art methods.
翻訳日:2021-04-11 23:04:30 公開日:2021-04-07
# (参考訳) 地図研究空間における最先端技術の評価--ブラジルの事例研究 [全文訳有]

Evaluating the state-of-the-art in mapping research spaces: a Brazilian case study ( http://arxiv.org/abs/2104.03338v1 )

ライセンス: CC BY 4.0
Francisco Galuppo Azevedo and Fabricio Murai(参考訳) 科学的知識は孤立した分野の集合として見ることはできないが、高度に結びついたネットワークとして見なされる。 研究領域がどのように結びついているかを理解することは、資金と人的資源を適切に割り当てる上で、最重要事項である。 分野間の関係は個々の科学者の軌跡のデータから導き出され、研究者はしばしば小さな相互関連領域に寄与する。 最近の2つの研究により、科学者の出版記録から研究地図を作成する方法が提案されている。 驚くべきことに、これらのモデルは異なるデータセットで評価され、文献で比較されることはなかった。 本研究では,ブラジルの研究者による大量の出版記録を用いて,両モデルを体系的に比較する。 我々は、与えられた実体(科学者、機関、地域)が新しい分野に入るかどうかを予測するこれらのモデルの能力を評価する。 ROC曲線の下の領域。 さらに、各メソッドが出版物数と1つのエンティティに関連するフィールド数に対してどれほど敏感であるかを分析する。 最後に、ブラジルの文脈において、これらのモデルがどのように科学力学を特徴づけられるかを示すケーススタディを行う。

Scientific knowledge cannot be seen as a set of isolated fields, but as a highly connected network. Understanding how research areas are connected is of paramount importance for adequately allocating funding and human resources (e.g., assembling teams to tackle multidisciplinary problems). The relationship between disciplines can be drawn from data on the trajectory of individual scientists, as researchers often make contributions in a small set of interrelated areas. Two recent works propose methods for creating research maps from scientists' publication records: by using a frequentist approach to create a transition probability matrix; and by learning embeddings (vector representations). Surprisingly, these models were evaluated on different datasets and have never been compared in the literature. In this work, we compare both models in a systematic way, using a large dataset of publication records from Brazilian researchers. We evaluate these models' ability to predict whether a given entity (scientist, institution or region) will enter a new field w.r.t. the area under the ROC curve. Moreover, we analyze how sensitive each method is to the number of publications and the number of fields associated to one entity. Last, we conduct a case study to showcase how these models can be used to characterize science dynamics in the context of Brazil.
翻訳日:2021-04-10 04:22:59 公開日:2021-04-07
# (参考訳) Spotify at TREC 2020: Genre-Aware Abstractive Podcast Summarization [全文訳有]

Spotify at TREC 2020: Genre-Aware Abstractive Podcast Summarization ( http://arxiv.org/abs/2104.03343v1 )

ライセンス: CC BY 4.0
Rezvaneh Rezapour and Sravana Reddy and Ann Clifton and Rosie Jones(参考訳) 本稿では,trec(the text retrieval conference)2020におけるポッドキャストトラックの要約タスクへの提案内容について述べる。 この課題の目標は、ポッドキャスト音声の書き起こしを自動生成することで、ポッドキャストエピソードに存在する重要な情報を含む短くて情報的な要約を生成することである。 ポッドキャストはジャンル,話題,情報の粒度によって異なるため,ポッドキャストのスタイルに適した要約を生成するために,ジャンルや名前のエンティティを明確に考慮した2つの要約モデルを提案する。 我々のモデルは抽象的であり、創造者が提供する記述を根拠となる真実の要約として利用している。 提案したサマリーの結果から,評価対象者の評価値が1.49点(9%改善)となるベースライン抽象システムと,クリエーター記述と比較すると,ベストモデルでは1.58点の総合的品質スコアが得られた。

This paper contains the description of our submissions to the summarization task of the Podcast Track in TREC (the Text REtrieval Conference) 2020. The goal of this challenge was to generate short, informative summaries that contain the key information present in a podcast episode using automatically generated transcripts of the podcast audio. Since podcasts vary with respect to their genre, topic, and granularity of information, we propose two summarization models that explicitly take genre and named entities into consideration in order to generate summaries appropriate to the style of the podcasts. Our models are abstractive, and supervised using creator-provided descriptions as ground truth summaries. The results of the submitted summaries show that our best model achieves an aggregate quality score of 1.58 in comparison to the creator descriptions and a baseline abstractive system which both score 1.49 (an improvement of 9%) as assessed by human evaluators.
翻訳日:2021-04-10 04:00:35 公開日:2021-04-07
# (参考訳) GoogleのイメージreCAPTCHA v2のためのオブジェクト検出に基づくソルバー [全文訳有]

An Object Detection based Solver for Google's Image reCAPTCHA v2 ( http://arxiv.org/abs/2104.03366v1 )

ライセンス: CC BY 4.0
Md Imran Hossen, Yazhou Tu, Md Fazle Rabby, Md Nazmul Islam, Hui Cao and Xiali Hei(参考訳) 以前の研究によると、reCAPTCHA v2のイメージ課題は、Deep Neural Network(DNN)イメージ分類器と、既製の画像認識サービスが提供するビジョンAPIを備えた自動プログラムによって解決可能である。 新たな脅威への対応として、googleはimage recaptcha v2の課題を大幅に更新した。 本稿では,reCAPTCHA v2の高次対象検出に基づく解法に対する最新版reCAPTCHA v2の堅牢性について検討する。 我々は,reCAPTCHA v2の最も先進的な課題をオンラインの成功率83.25%で破る完全自動物体検出ベースシステムを提案し,その課題を解くのに平均19.93秒(ネットワーク遅延を含む)しかかからない。 また,reCAPTCHA v2のセキュリティ機能,例えば認識防止機構,ボット検出技術の改良,セキュリティ設定の調整などについて検討した。 当社の広範な実験によると、これらのセキュリティ機能は自動攻撃に対してある程度の抵抗をもたらすが、敵はいまだにその大部分をバイパスできる。 実験の結果,近年の物体検出技術の進歩は,単純な物体検出を基盤とする画像captcha設計のセキュリティに深刻な脅威をもたらすことが示唆された。

Previous work showed that reCAPTCHA v2's image challenges could be solved by automated programs armed with Deep Neural Network (DNN) image classifiers and vision APIs provided by off-the-shelf image recognition services. In response to emerging threats, Google has made significant updates to its image reCAPTCHA v2 challenges that can render the prior approaches ineffective to a great extent. In this paper, we investigate the robustness of the latest version of reCAPTCHA v2 against advanced object detection based solvers. We propose a fully automated object detection based system that breaks the most advanced challenges of reCAPTCHA v2 with an online success rate of 83.25%, the highest success rate to date, and it takes only 19.93 seconds (including network delays) on average to crack a challenge. We also study the updated security features of reCAPTCHA v2, such as anti-recognition mechanisms, improved anti-bot detection techniques, and adjustable security preferences. Our extensive experiments show that while these security features can provide some resistance against automated attacks, adversaries can still bypass most of them. Our experimental findings indicate that the recent advances in object detection technologies pose a severe threat to the security of image captcha designs relying on simple object detection as their underlying AI problem.
翻訳日:2021-04-10 03:51:15 公開日:2021-04-07
# (参考訳) 分子間選抜圧力による遺伝子進化からのmemeticのブートストラップ [全文訳有]

Bootstrapping of memetic from genetic evolution via inter-agent selection pressures ( http://arxiv.org/abs/2104.03404v1 )

ライセンス: CC BY 4.0
Nicholas Guttenberg, Marek Rosa(参考訳) 我々は,メメティック進化の出現と,メメティック進化圧力がネットワーク重みの遺伝的進化とどのように相互作用するかを研究するために,メッセージを選択的に交換するエージェント(アテンションベースニューラルネットワーク)の人工システムを構築する。 我々は,各エージェントが互いに選択圧を行使する能力は,ミームの高忠実度複製と新たなミームの生成が継続する状態に自己をブートストラップするメメティック進化に不可欠であることを観察した。 しかし、このシステムでは、この「生態学」と個々のフィットネスを駆動するタスクとの相互作用がほとんどなく、創発的なミーム層はエージェントの問題解決能力に役に立たず、有害なものではないように見える。 これらの実験のソースコードはhttps://github.com/G oodAI/memesで入手できる。

We create an artificial system of agents (attention-based neural networks) which selectively exchange messages with each-other in order to study the emergence of memetic evolution and how memetic evolutionary pressures interact with genetic evolution of the network weights. We observe that the ability of agents to exert selection pressures on each-other is essential for memetic evolution to bootstrap itself into a state which has both high-fidelity replication of memes, as well as continuing production of new memes over time. However, in this system there is very little interaction between this memetic 'ecology' and underlying tasks driving individual fitness - the emergent meme layer appears to be neither helpful nor harmful to agents' ability to learn to solve tasks. Sourcecode for these experiments is available at https://github.com/G oodAI/memes
翻訳日:2021-04-10 03:31:46 公開日:2021-04-07
# (参考訳) 変動環境における情報ゲインと崩壊の進化速度 [全文訳有]

Evolutionary rates of information gain and decay in fluctuating environments ( http://arxiv.org/abs/2104.03406v1 )

ライセンス: CC BY 4.0
Nicholas Guttenberg(参考訳) 本稿では,進化的ダイナミクスにおける情報伝達のダイナミクスについて検討する。 我々は情報理論のツールを使用して、進化する人口がどれだけの情報を取得し、それが露出している様々な環境について保持しているかを追跡する。 静的環境における情報獲得と損失のダイナミクスを理解することにより、環境変動時に同じ進化系がどのように振る舞うかを予測する。 具体的には、変動が環境情報を取り込む進化システムの能力を向上させる体制と、変動がそれを阻害する体制とのクロスオーバーを、情報獲得と減衰の時間スケールのクロスオーバーによって予測する。

In this paper, we wish to investigate the dynamics of information transfer in evolutionary dynamics. We use information theoretic tools to track how much information an evolving population has obtained and managed to retain about different environments that it is exposed to. By understanding the dynamics of information gain and loss in a static environment, we predict how that same evolutionary system would behave when the environment is fluctuating. Specifically, we anticipate a cross-over between the regime in which fluctuations improve the ability of the evolutionary system to capture environmental information and the regime in which the fluctuations inhibit it, governed by a cross-over in the timescales of information gain and decay.
翻訳日:2021-04-10 03:17:22 公開日:2021-04-07
# (参考訳) privatesnn: 完全にプライバシーを守るニューラルネットワーク [全文訳有]

PrivateSNN: Fully Privacy-Preserving Spiking Neural Networks ( http://arxiv.org/abs/2104.03414v1 )

ライセンス: CC BY 4.0
Youngeun Kim, Yeshwanth Venkatesha and Priyadarshini Panda(参考訳) エッジデバイス上のニューラルネットワークに対して、プライバシとエネルギー効率の両立にはどうすればよいのか? 本稿では,データセットに含まれる機密情報を漏洩することなく,トレーニング済みのANNモデルから低消費電力スパイキングニューラルネットワーク(SNN)を構築することを目的としたPrivateSNNを提案する。 本稿では,1)ネットワークが実際のトレーニングデータにアクセスする際に生じるデータ漏洩について,an-snn変換プロセス中に検討する。 2) クラスリークとは,ネットワークパラメータからクラス関連機能を再構築する際のリークの概念である。 データ漏洩問題に対処するため、事前訓練されたANNから合成画像を生成し、生成された画像を用いてANNをSNNに変換する。 しかし、重みパラメータがANNパラメータと同じ(またはスケールした)値を持つため、変換されたSNNはクラスリークに関してまだ脆弱である。 そこで,SNNの重み付けを時間的スパイクに基づく学習規則でトレーニングすることで暗号化する。 時間的データによる重みパラメータの更新は、空間領域でのネットワークの解釈を困難にする。 暗号化されたPrivateSNNは、性能低下(〜5%未満)を伴わずに実装できるだけでなく、エネルギー効率が向上する(標準のANNと比較してx60程度)。 我々は、CIFAR10、CIFAR100、TinyImageNetなどの様々なデータセットで広範な実験を行い、プライバシー保護SNNトレーニングの重要性を強調した。

How can we bring both privacy and energy-efficiency to a neural system on edge devices? In this paper, we propose PrivateSNN, which aims to build low-power Spiking Neural Networks (SNNs) from a pre-trained ANN model without leaking sensitive information contained in a dataset. Here, we tackle two types of leakage problems: 1) Data leakage caused when the networks access real training data during an ANN-SNN conversion process. 2) Class leakage is the concept of leakage caused when class-related features can be reconstructed from network parameters. In order to address the data leakage issue, we generate synthetic images from the pre-trained ANNs and convert ANNs to SNNs using generated images. However, converted SNNs are still vulnerable with respect to the class leakage since the weight parameters have the same (or scaled) value with respect to ANN parameters. Therefore, we encrypt SNN weights by training SNNs with a temporal spike-based learning rule. Updating weight parameters with temporal data makes networks difficult to be interpreted in the spatial domain. We observe that the encrypted PrivateSNN can be implemented not only without the huge performance drop (less than ~5%) but also with significant energy-efficiency gain (about x60 compared to the standard ANN). We conduct extensive experiments on various datasets including CIFAR10, CIFAR100, and TinyImageNet, highlighting the importance of privacy-preserving SNN training.
翻訳日:2021-04-10 03:08:01 公開日:2021-04-07
# (参考訳) 量子拡張フィルタ:QFilter [全文訳有]

Quantum Enhanced Filter: QFilter ( http://arxiv.org/abs/2104.03418v1 )

ライセンス: CC BY 4.0
Parfait Atchade-Adelomou and Guillermo Alonso-Linaje(参考訳) 畳み込みニューラルネットワーク(CNN)は主にディープラーニングの特徴を持つ多くの画像を扱う問題を扱うために使用される。 本研究では,量子および古典計算を利用するハイブリッド画像分類モデルを提案する。 この方法は、古典的なフィルタを変分量子フィルタに置き換えることで、畳み込みネットワークが人工知能で示した可能性を利用する。 同様に、この作業は他の分類方法と異なるサーバ上でのシステムの実行を比較します。 このアルゴリズムの量子実現性は、Amazon Braket Notebookインスタンスでモデル化され、ペニーレーンの哲学とフレームワークで実験されている。

Convolutional Neural Networks (CNN) are used mainly to treat problems with many images characteristic of Deep Learning. In this work, we propose a hybrid image classification model to take advantage of quantum and classical computing. The method will use the potential that convolutional networks have shown in artificial intelligence by replacing classical filters with variational quantum filters. Similarly, this work will compare with other classification methods and the system's execution on different servers. The algorithm's quantum feasibility is modelled and tested on Amazon Braket Notebook instances and experimented on the Pennylane's philosophy and framework.
翻訳日:2021-04-10 02:53:02 公開日:2021-04-07
# (参考訳) ボディウーンカメラのオンデバイス顔認識に向けて [全文訳有]

Towards On-Device Face Recognition in Body-worn Cameras ( http://arxiv.org/abs/2104.03419v1 )

ライセンス: CC BY 4.0
Ali Almadan and Ajita Rattani(参考訳) アイデンティティの認識に関連する顔認識技術は、情報収集、法執行、監視、消費者アプリケーションに広く採用されている。 近年、この技術はスマートフォンやボディウーンカメラ(BWC)に移植されている。 ボディウーンカメラの顔認識技術は、監視、状況認識、警官の安全確保に利用されている。 ボディウーンカメラを用いた顔認識には、ほんのわずかの学術研究しか存在しない。 最近の研究では、BWCFace顔画像データセットをボディウーンカメラを用いて取得し、顔識別のためのResNet-50モデルの評価を行った。 しかし、リソース制約によるボディウォーンカメラのリアルタイム推論や顔画像に関するプライバシーの懸念に対して、オンデバイス顔認識が必要である。 そこで本研究では,軽量のmobilenet-v2, efficientnet-b0, lightcnn-9, lightcnn-29をボディウォーンカメラを用いて評価した。 実験はbwcfaceデータセットで公開されている。 リアルタイム推論は3つのモバイルデバイスで評価される。 比較分析は、重量級のVGG-16とResNet-50モデルと6つの手作り特徴を用いて行われ、性能とモデルサイズの間のトレードオフを評価する。 resnet-50よりも軽量のlightcnn-29の最大ランク1精度の差は \textbf{1.85\%} であり、モデルパラメータの低減は \textbf{23.49m} である。 深層モデルの多くは、 rank-5 と rank-10 で同様の性能を得た。 LightCNNの推測時間は、モバイルデバイスの他のモデルよりも2.1倍速い。 The least performance difference of \textbf{14\%} is noted between LightCNN-29 and Local Phase Quantization (LPQ) descriptor at rank-1。 実験的な設定のほとんどにおいて、軽量のLightCNNモデルは、ほとんどのモデルと比較して精度とモデルサイズの間の最良のトレードオフを提供した。

Face recognition technology related to recognizing identities is widely adopted in intelligence gathering, law enforcement, surveillance, and consumer applications. Recently, this technology has been ported to smartphones and body-worn cameras (BWC). Face recognition technology in body-worn cameras is used for surveillance, situational awareness, and keeping the officer safe. Only a handful of academic studies exist in face recognition using the body-worn camera. A recent study has assembled BWCFace facial image dataset acquired using a body-worn camera and evaluated the ResNet-50 model for face identification. However, for real-time inference in resource constraint body-worn cameras and privacy concerns involving facial images, on-device face recognition is required. To this end, this study evaluates lightweight MobileNet-V2, EfficientNet-B0, LightCNN-9 and LightCNN-29 models for face identification using body-worn camera. Experiments are performed on a publicly available BWCface dataset. The real-time inference is evaluated on three mobile devices. The comparative analysis is done with heavy-weight VGG-16 and ResNet-50 models along with six hand-crafted features to evaluate the trade-off between the performance and model size. Experimental results suggest the difference in maximum rank-1 accuracy of lightweight LightCNN-29 over best-performing ResNet-50 is \textbf{1.85\%} and the reduction in model parameters is \textbf{23.49M}. Most of the deep models obtained similar performances at rank-5 and rank-10. The inference time of LightCNNs is 2.1x faster than other models on mobile devices. The least performance difference of \textbf{14\%} is noted between LightCNN-29 and Local Phase Quantization (LPQ) descriptor at rank-1. In most of the experimental settings, lightweight LightCNN models offered the best trade-off between accuracy and the model size in comparison to most of the models.
翻訳日:2021-04-10 02:44:27 公開日:2021-04-07
# (参考訳) ゲーム広告における不正検出を改善するための時間イベントの多型シーケンス生成 [全文訳有]

Generating multi-type sequences of temporal events to improve fraud detection in game advertising ( http://arxiv.org/abs/2104.03428v1 )

ライセンス: CC BY 4.0
Lun Jiang, Nima Salehi Sadghiani, Zhuo Tao(参考訳) オンライン広告に関連する不正行為は、広告主が広告ネットワークに入れた信頼を損なう可能性があり、ユーザーにとってゲーム体験を損なう可能性がある。 Pay-Per-Click/Instal l (PPC/I)広告はゲーム収益化の主要な収益モデルの一つである。 ppc/iモデルの広範な利用は、ゲームにおけるクリック/インストール詐欺イベントの増加につながった。 広告ネットワークのトラフィックの大多数は不正であり、高度に歪んだラベルを扱うために機械学習ベースの不正検出システムに困難を課している。 広告ネットワークの観点からは、ユーザアクティビティはイベントタイプと対応する時間間隔からなる時間イベントのマルチタイプシーケンスである。 時間長短期記憶(time-lstm)ネットワークセルは、不均一な時間間隔を持つ内在的隠れパターンのモデル化に有効であることが証明されている。 本研究では,広告トラフィックにおける不正なユーザパターンを模倣する人工シーケンスを生成するために,時間LSTMセルの変種とSeqGAN(Sequence Generative Adversarial Generative)の修正版を組み合わせることを提案する。 また,モンテカルロ(MC)のロールアウトの代わりにCriticネットワークを用いてSeqGANをトレーニングし,計算コストを削減することを提案する。 GAN生成シーケンスは、イベントベースの不正検出分類器の分類能力を高めるために使用できる。 合成データに基づく広範な実験により,訓練されたジェネレータは,複数の基準で所望の特性を持つシーケンスを生成することができることが示された。

Fraudulent activities related to online advertising can potentially harm the trust advertisers put in advertising networks and sour the gaming experience for users. Pay-Per-Click/Instal l (PPC/I) advertising is one of the main revenue models in game monetization. Widespread use of the PPC/I model has led to a rise in click/install fraud events in games. The majority of traffic in ad networks is non-fraudulent, which imposes difficulties on machine learning based fraud detection systems to deal with highly skewed labels. From the ad network standpoint, user activities are multi-type sequences of temporal events consisting of event types and corresponding time intervals. Time Long Short-Term Memory (Time-LSTM) network cells have been proved effective in modeling intrinsic hidden patterns with non-uniform time intervals. In this study, we propose using a variant of Time-LSTM cells in combination with a modified version of Sequence Generative Adversarial Generative (SeqGAN)to generate artificial sequences to mimic the fraudulent user patterns in ad traffic. We also propose using a Critic network instead of Monte-Carlo (MC) roll-out in training SeqGAN to reduce computational costs. The GAN-generated sequences can be used to enhance the classification ability of event-based fraud detection classifiers. Our extensive experiments based on synthetic data have shown the trained generator has the capability to generate sequences with desired properties measured by multiple criteria.
翻訳日:2021-04-10 02:34:47 公開日:2021-04-07
# ディープラーニングを用いたビデオクリップ用記述タイトルの自動生成

Automatic Generation of Descriptive Titles for Video Clips Using Deep Learning ( http://arxiv.org/abs/2104.03337v1 )

ライセンス: Link先を確認
Soheyla Amirian, Khaled Rasheed, Thiab R. Taha, Hamid R. Arabnia(参考訳) 過去10年間で、多くのアプリケーションでDeep Learningを使用することで、人間の専門家のパフォーマンスに匹敵する結果が得られました。 アプリケーションドメインには、病気の診断、金融、農業、検索エンジン、ロボットビジョンなどが含まれる。 本稿では,ビデオのタイトルと簡潔な要約を生成するために,画像・映像キャプション手法と自然言語処理システムを利用したアーキテクチャを提案する。 このようなシステムは、映画産業、ビデオ検索エンジン、セキュリティ監視、ビデオデータベース/ウェアハウス、データセンターなど、多くのアプリケーション領域で利用することができる。 提案システムでは,ビデオの読み出し,代表画像フレームの識別と選択,画像フレームのキャプション,テキスト要約と合わせて生成されたすべてのキャプションにNLPを適用し,最後にビデオのタイトルと要約を生成する。 全ての機能は自動的に実行される。 本稿では,公開データセットを用いた予備結果について述べる。 本論文は,実行時のシステムの効率を考慮しない。 今後の出版物で実行効率の問題に対処できることを願っています。

Over the last decade, the use of Deep Learning in many applications produced results that are comparable to and in some cases surpassing human expert performance. The application domains include diagnosing diseases, finance, agriculture, search engines, robot vision, and many others. In this paper, we are proposing an architecture that utilizes image/video captioning methods and Natural Language Processing systems to generate a title and a concise abstract for a video. Such a system can potentially be utilized in many application domains, including, the cinema industry, video search engines, security surveillance, video databases/warehouses , data centers, and others. The proposed system functions and operates as followed: it reads a video; representative image frames are identified and selected; the image frames are captioned; NLP is applied to all generated captions together with text summarization; and finally, a title and an abstract are generated for the video. All functions are performed automatically. Preliminary results are provided in this paper using publicly available datasets. This paper is not concerned about the efficiency of the system at the execution time. We hope to be able to address execution efficiency issues in our subsequent publications.
翻訳日:2021-04-09 13:20:54 公開日:2021-04-07
# 非自己回帰音声認識の限界を押し上げる

Pushing the Limits of Non-Autoregressive Speech Recognition ( http://arxiv.org/abs/2104.03416v1 )

ライセンス: Link先を確認
Edwin G. Ng, Chung-Cheng Chiu, Yu Zhang, William Chan(参考訳) エンドツーエンド音声認識の最近の進歩と非自己回帰型自動音声認識の併用について述べる。 複数のデータセット – librispeech, fisher+switchboard, wall street journal – に対して,非自己回帰的な最先端結果の限界を押し上げています。 レシピの鍵となるのは、SpecAugmentとwav2vec2事前トレーニングによる巨大なConformerニューラルネットワークアーキテクチャのCTCを活用することです。 We achieve 1.8%/3.6% WER on LibriSpeech test/test-other set, 5.1%/9.8% WER on Switchboard, 3.4% at the Wall Street Journal, without a language model。

We combine recent advancements in end-to-end speech recognition to non-autoregressive automatic speech recognition. We push the limits of non-autoregressive state-of-the-art results for multiple datasets: LibriSpeech, Fisher+Switchboard and Wall Street Journal. Key to our recipe, we leverage CTC on giant Conformer neural network architectures with SpecAugment and wav2vec2 pre-training. We achieve 1.8%/3.6% WER on LibriSpeech test/test-other sets, 5.1%/9.8% WER on Switchboard, and 3.4% on the Wall Street Journal, all without a language model.
翻訳日:2021-04-09 13:16:27 公開日:2021-04-07
# パンデミック時の広域における社会的距離のモニタリング:密度マップとセグメンテーションアプローチ

Monitoring Social-distance in Wide Areas during Pandemics: a Density Map and Segmentation Approach ( http://arxiv.org/abs/2104.03361v1 )

ライセンス: Link先を確認
Javier A. Gonz\'alez-Trejo, Diego A. Mercado-Ravell(参考訳) 世界全体での封じ込め測定の緩和に伴い、新型コロナウイルスの感染拡大を防ぐため、混雑した公共の場所での社会的距離の監視が重要である。 近年の研究では、小群衆までの回廊における社会的距離を検知し、画像中の全身を個別に考慮して個人を検知することで、自らを制限している。 そこで本研究では,エンド・ツー・エンドのディープラーニングを用いた社会距離モニタリングのための新しい枠組みを提案する。 本研究の枠組みは, 基礎的真理密度マップに基づく新たな基礎的真理の創出と, 密度マップとセグメンテーションに基づく2つの異なる解を提案し, 社会的距離制約に違反する群衆を検出する。 PET2009とCityStreetのデータセットから生成された基底真理を用いて,両手法の結果を評価する。 我々は,カメラ1台から遠ざかっても,社会的距離に従わないゾーンの提供に,我々のフレームワークが優れていることを示す。

With the relaxation of the containment measurements around the globe, monitoring the social distancing in crowded public places is of grate importance to prevent a new massive wave of COVID-19 infections. Recent works in that matter have limited themselves by detecting social distancing in corridors up to small crowds by detecting each person individually considering the full body in the image. In this work, we propose a new framework for monitoring the social-distance using end-to-end Deep Learning, to detect crowds violating the social-distance in wide areas where important occlusions may be present. Our framework consists in the creation of a new ground truth based on the ground truth density maps and the proposal of two different solutions, a density-map-based and a segmentation-based, to detect the crowds violating the social-distance constrain. We assess the results of both approaches by using the generated ground truth from the PET2009 and CityStreet datasets. We show that our framework performs well at providing the zones where people are not following the social-distance even when heavily occluded or far away from one camera.
翻訳日:2021-04-09 13:14:35 公開日:2021-04-07
# EXPATS: 説明可能な自動テキストスコーリングのためのツールキット

EXPATS: A Toolkit for Explainable Automated Text Scoring ( http://arxiv.org/abs/2104.03364v1 )

ライセンス: Link先を確認
Hitoshi Manabe, Masato Hagiwara(参考訳) 自動エッセイ評価や可読性評価などの自動テキストスコアリング(ATS)タスクは、自然言語処理の重要な教育的応用である。 モデルと予測の解釈可能性のため、手作り機能に基づく従来の機械学習(ML)アルゴリズムはまだATSタスクに広く使われている。 PyTorchのような現代的なディープラーニングフレームワークは、MLの専門知識を十分に活用するためには、さまざまなモデル(ディープラーニングや従来のMLのものを含む)、機能、トレーニング目標(回帰と分類)を試す必要があることが多い。 本稿では、フレキシブルなコンポーネント、使い易い構成システム、コマンドラインインターフェースを提供することで、ユーザが様々なATSモデルを開発し、迅速に実験できるオープンソースフレームワークEXPATSを提案する。 また、ツールキットはLanguage Interpretability Tool(LIT)とシームレスに統合することで、モデルとその予測を解釈し視覚化することができる。 また,atsモデルを最小限のエンジニアリング努力で迅速に構築する2つのケーススタディについて述べる。 ツールキットは \url{https://github.com/o ctanove/expats} で入手できる。

Automated text scoring (ATS) tasks, such as automated essay scoring and readability assessment, are important educational applications of natural language processing. Due to their interpretability of models and predictions, traditional machine learning (ML) algorithms based on handcrafted features are still in wide use for ATS tasks. Practitioners often need to experiment with a variety of models (including deep and traditional ML ones), features, and training objectives (regression and classification), although modern deep learning frameworks such as PyTorch require deep ML expertise to fully utilize. In this paper, we present EXPATS, an open-source framework to allow its users to develop and experiment with different ATS models quickly by offering flexible components, an easy-to-use configuration system, and the command-line interface. The toolkit also provides seamless integration with the Language Interpretability Tool (LIT) so that one can interpret and visualize models and their predictions. We also describe two case studies where we build ATS models quickly with minimal engineering efforts. The toolkit is available at \url{https://github.com/o ctanove/expats}.
翻訳日:2021-04-09 13:12:56 公開日:2021-04-07
# パラフレーズによる言語メタファーの解釈

Interpreting Verbal Metaphors by Paraphrasing ( http://arxiv.org/abs/2104.03391v1 )

ライセンス: Link先を確認
Rui Mao, Chenghua Lin, Frank Guerin(参考訳) メタファー表現は難しい言語現象であり、多様な自然言語処理タスクに挑戦する。 以前の研究は、メタファを文字通りのメタファとして解釈することで、マシンが下流タスクのメタファをより良く処理できることを示した。 本稿では,BERT や WordNet といったメタファを教師なしの方法で解釈し,その手法が最先端のベースラインを著しく上回ることを示す。 また,本手法は,英語のメタファーを8言語に翻訳することで,機械翻訳システムの精度向上に役立つことを示す。

Metaphorical expressions are difficult linguistic phenomena, challenging diverse Natural Language Processing tasks. Previous works showed that paraphrasing a metaphor as its literal counterpart can help machines better process metaphors on downstream tasks. In this paper, we interpret metaphors with BERT and WordNet hypernyms and synonyms in an unsupervised manner, showing that our method significantly outperforms the state-of-the-art baseline. We also demonstrate that our method can help a machine translation system improve its accuracy in translating English metaphors to 8 target languages.
翻訳日:2021-04-09 13:12:36 公開日:2021-04-07
# OVANet:Universal Domain Adaptationのためのワンvsオールネットワーク

OVANet: One-vs-All Network for Universal Domain Adaptation ( http://arxiv.org/abs/2104.03344v1 )

ライセンス: Link先を確認
Kuniaki Saito and Kate Saenko(参考訳) Universal Domain Adaptation (UNDA)は、2つのデータセット間のドメインシフトとカテゴリシフトの両方を扱うことを目的としている。 既存の手法は、検証や未知サンプルの事前定義された比率に基づいて、未知サンプルを拒否する閾値を手動で設定するが、この戦略は実用的ではない。 本稿では,ソースサンプルを用いて閾値を学習し,対象領域に適応させる手法を提案する。 私たちの考えでは、ソースドメイン内の最小クラス間距離は、ターゲット内の未知または未知を判断するための適切なしきい値であるべきです。 クラス間距離とクラス内距離を学習するために,ラベル付きソースデータを用いてクラス毎に1-vs-all分類器をトレーニングする。 そして、クラスエントロピーを最小化することにより、オープンセット分類器をターゲット領域に適応させる。 結果として得られるフレームワークはUNDAのすべてのベースラインの中で最も単純であり、ハイパーパラメータの値に敏感だが、大きなマージンでベースラインを上回っている。

Universal Domain Adaptation (UNDA) aims to handle both domain-shift and category-shift between two datasets, where the main challenge is to transfer knowledge while rejecting unknown classes which are absent in the labeled source data but present in the unlabeled target data. Existing methods manually set a threshold to reject unknown samples based on validation or a pre-defined ratio of unknown samples, but this strategy is not practical. In this paper, we propose a method to learn the threshold using source samples and to adapt it to the target domain. Our idea is that a minimum inter-class distance in the source domain should be a good threshold to decide between known or unknown in the target. To learn the inter-and intra-class distance, we propose to train a one-vs-all classifier for each class using labeled source data. Then, we adapt the open-set classifier to the target domain by minimizing class entropy. The resulting framework is the simplest of all baselines of UNDA and is insensitive to the value of a hyper-parameter yet outperforms baselines with a large margin.
翻訳日:2021-04-09 13:10:13 公開日:2021-04-07
# SOLD2: 自己管理オクルージョン対応ライン記述と検出

SOLD2: Self-supervised Occlusion-aware Line Description and Detection ( http://arxiv.org/abs/2104.03362v1 )

ライセンス: Link先を確認
R\'emi Pautrat, Juan-Ting Lin, Viktor Larsson, Martin R. Oswald, Marc Pollefeys(参考訳) 特徴点の検出と記述と比較すると、ラインセグメントの検出とマッチングにはさらなる課題がある。 しかし、行機能はマルチビュータスクのポイントを補完する有望な機能である。 線は画像勾配によって明確に定義されており、テクスチャの悪い地域でもしばしば現れ、頑丈な構造的手がかりを提供する。 そこで本研究では,1つのディープネットワークにおいて,ラインセグメントの最初の共同検出と記述を導入する。 自己教師型トレーニングのおかげで、アノテーション付き行ラベルを必要としないため、任意のデータセットに一般化できる。 この検出器は、ワイヤフレーム解析アプローチから外れた画像中の線分を再現可能かつ正確な位置決めを提供する。 近年のディスクリプタ学習の進歩を生かして,提案した行記述子は非常に差別的であり,視点の変化や閉塞に頑健なままである。 我々は,ホモグラフィックワープと実世界の視点変化を用いた複数のマルチビューデータセットに対して,従来の線検出と記述手法に対するアプローチを評価する。 私たちの全パイプラインは、高い再現性、ローカライゼーションの正確さ、メトリクスのマッチングを実現し、学習した機能ポイントメソッドでギャップを埋めるための第一歩を示しています。 コードはhttps://github.com/c vg/SOLD2.comで入手できる。

Compared to feature point detection and description, detecting and matching line segments offer additional challenges. Yet, line features represent a promising complement to points for multi-view tasks. Lines are indeed well-defined by the image gradient, frequently appear even in poorly textured areas and offer robust structural cues. We thus hereby introduce the first joint detection and description of line segments in a single deep network. Thanks to a self-supervised training, our method does not require any annotated line labels and can therefore generalize to any dataset. Our detector offers repeatable and accurate localization of line segments in images, departing from the wireframe parsing approach. Leveraging the recent progresses in descriptor learning, our proposed line descriptor is highly discriminative, while remaining robust to viewpoint changes and occlusions. We evaluate our approach against previous line detection and description methods on several multi-view datasets created with homographic warps as well as real-world viewpoint changes. Our full pipeline yields higher repeatability, localization accuracy and matching metrics, and thus represents a first step to bridge the gap with learned feature points methods. Code and trained weights are available at https://github.com/c vg/SOLD2.
翻訳日:2021-04-09 13:09:53 公開日:2021-04-07
# バイオメディカルインスタンスセグメンテーションのための輪郭提案ネットワーク

Contour Proposal Networks for Biomedical Instance Segmentation ( http://arxiv.org/abs/2104.03393v1 )

ライセンス: Link先を確認
Eric Upschulte, Stefan Harmeling, Katrin Amunts and Timo Dickscheid(参考訳) 本稿では,Fourier Descriptorsをベースとした解釈可能な固定サイズの表現を用いて,画像内のオブジェクトの重なり得るオブジェクトを検出するContour Proposal Network (CPN) という,オブジェクトインスタンスセグメンテーションのための概念的にシンプルなフレームワークを提案する。 CPNは、アートオブジェクト検出アーキテクチャの状態をバックボーンネットワークとして、エンドツーエンドでトレーニング可能な単一ステージのインスタンスセグメンテーションモデルに組み込むことができる。 我々は,異なるバックボーンネットワークを持つCPNモデルを構築し,異なるモダリティのデータセット内のセルのインスタンスセグメンテーションに適用する。 実験では,U-NetとMask R-CNNをインスタンス分割精度で上回り,リアルタイムアプリケーションに適した実行時間を持つ変種を提示する。 訓練されたモデルは、異なるドメインの細胞タイプをうまく一般化する。 フレームワークの主な仮定はクローズドオブジェクトの輪郭であるため、バイオメディカルドメインの外側でも幅広い検出問題に適用できる。 PyTorchのモデルアーキテクチャの実装は無料で利用可能である。

We present a conceptually simple framework for object instance segmentation called Contour Proposal Network (CPN), which detects possibly overlapping objects in an image while simultaneously fitting closed object contours using an interpretable, fixed-sized representation based on Fourier Descriptors. The CPN can incorporate state of the art object detection architectures as backbone networks into a single-stage instance segmentation model that can be trained end-to-end. We construct CPN models with different backbone networks, and apply them to instance segmentation of cells in datasets from different modalities. In our experiments, we show CPNs that outperform U-Nets and Mask R-CNNs in instance segmentation accuracy, and present variants with execution times suitable for real-time applications. The trained models generalize well across different domains of cell types. Since the main assumption of the framework are closed object contours, it is applicable to a wide range of detection problems also outside the biomedical domain. An implementation of the model architecture in PyTorch is freely available.
翻訳日:2021-04-09 13:09:34 公開日:2021-04-07
# track, check, repeat: 教師なし追跡のためのemアプローチ

Track, Check, Repeat: An EM Approach to Unsupervised Tracking ( http://arxiv.org/abs/2104.03424v1 )

ライセンス: Link先を確認
Adam W. Harley, Yiming Zuo, Jing Wen, Ayush Mangal, Shubhankar Potdar, Ritwick Chaudhry, Katerina Fragkiadaki(参考訳) 本稿では,RGB-Dビデオにおける3次元移動物体の検出と追跡のための教師なし手法を提案する。 この手法は、光学的流れとカメラの動きを推定し、背景から独立して動くように見える領域を保存的に分割する、モーションキューを用いた物体のセグメンテーションのための古典的な手作り技術から始まります。 これらの初期セグメントを擬似ラベルとして扱うことで、重データ拡張の下で外観に基づく2Dおよび3D検出器のアンサンブルを学習する。 このアンサンブルを使用して、移動していない場合でも“移動”型の新しいインスタンスを検出し、新しい擬似ラベルとして追加します。 提案手法は期待最大化アルゴリズムであり,期待ステップでは全てのモジュールを発射し,各モジュール間の合意を求める。 アンサンブル合意の制約は、生成された擬似ラベル(eステップ中)の汚染と戦うのに役立ち、データ拡張は、モジュールが未ラベルデータ(mステップ中)に一般化するのに役立つ。 既存の教師なしのオブジェクト発見と追跡手法と比較し,caterとkittiによる挑戦的なビデオを用いて,最先端よりも強力な改善を示す。

We propose an unsupervised method for detecting and tracking moving objects in 3D, in unlabelled RGB-D videos. The method begins with classic handcrafted techniques for segmenting objects using motion cues: we estimate optical flow and camera motion, and conservatively segment regions that appear to be moving independently of the background. Treating these initial segments as pseudo-labels, we learn an ensemble of appearance-based 2D and 3D detectors, under heavy data augmentation. We use this ensemble to detect new instances of the "moving" type, even if they are not moving, and add these as new pseudo-labels. Our method is an expectation-maximiza tion algorithm, where in the expectation step we fire all modules and look for agreement among them, and in the maximization step we re-train the modules to improve this agreement. The constraint of ensemble agreement helps combat contamination of the generated pseudo-labels (during the E step), and data augmentation helps the modules generalize to yet-unlabelled data (during the M step). We compare against existing unsupervised object discovery and tracking methods, using challenging videos from CATER and KITTI, and show strong improvements over the state-of-the-art.
翻訳日:2021-04-09 13:09:18 公開日:2021-04-07
# fatnet:3dポイントクラウド処理のための機能対応ネットワーク

FatNet: A Feature-attentive Network for 3D Point Cloud Processing ( http://arxiv.org/abs/2104.03427v1 )

ライセンス: Link先を確認
Chaitanya Kaul, Nick Pears, Suresh Manandhar(参考訳) ディープラーニングを3Dポイントクラウドに適用することは、注文の欠如によって難しい。 ポイントネットのポイント埋め込みとDGCNNのエッジ埋め込みに着想を得て,ポイントクラウド解析の課題に対して3つの改善を提案する。 まず、グローバルなポイントベース機能とローカルエッジベースの機能を組み合わせることで、より優れた埋め込みを生成する、新しい機能指向ニューラルネットワーク層、fat layerを導入する。 第二に、2つの異なる機能マップアグリゲーション、最大プールと平均プールに同じ注意機構を適用すると、どちらよりも優れた性能が得られる。 第三に、この設定における残像の再利用は、レイヤ間でより効果的に情報を伝達し、ネットワークのトレーニングを容易にする。 当社のアーキテクチャは,ModelNet40データセットで示すように,ポイントクラウド分類タスクにおける最先端の成果と,ShapeNet部分分割課題における極めて競争力のある性能を実現している。

The application of deep learning to 3D point clouds is challenging due to its lack of order. Inspired by the point embeddings of PointNet and the edge embeddings of DGCNNs, we propose three improvements to the task of point cloud analysis. First, we introduce a novel feature-attentive neural network layer, a FAT layer, that combines both global point-based features and local edge-based features in order to generate better embeddings. Second, we find that applying the same attention mechanism across two different forms of feature map aggregation, max pooling and average pooling, gives better performance than either alone. Third, we observe that residual feature reuse in this setting propagates information more effectively between the layers, and makes the network easier to train. Our architecture achieves state-of-the-art results on the task of point cloud classification, as demonstrated on the ModelNet40 dataset, and an extremely competitive performance on the ShapeNet part segmentation challenge.
翻訳日:2021-04-09 13:08:55 公開日:2021-04-07
# 変形可能な形状に対するユニバーサルスペクトル対向攻撃

Universal Spectral Adversarial Attacks for Deformable Shapes ( http://arxiv.org/abs/2104.03356v1 )

ライセンス: Link先を確認
Arianna Rampini, Franco Pestarini, Luca Cosmo, Simone Melzi, Emanuele Rodol\`a(参考訳) マシンラーニングモデルは、知覚不能であるにも関わらず誤った予測につながるデータの摂動(perturbation of the data)という、敵対的な攻撃に対して脆弱であることが知られている。 しかし、"ユニバーサル"攻撃(すなわち、異なるデータポイントをまたぐユニークな摂動)の存在は、これまで画像に対してのみ実証されてきた。 理由は、グラフ、メッシュ、点雲などの幾何学的データに対して、普遍的な摂動を定義することのできる共通の領域がないことにある。 本稿では,幾何学的データ(shapes)に対する普遍的な攻撃が存在することを示す。 我々はスペクトル領域で完全に動作する計算手順を導入し、攻撃は小さな摂動の形で固有値列を短くし、その結果の幾何はスペクトルからの形状回復によって合成される。 我々の攻撃は普遍的であり、異なる形状、異なる表現(メッシュとポイントの雲)を移動し、これまで見つからなかったデータに一般化する。

Machine learning models are known to be vulnerable to adversarial attacks, namely perturbations of the data that lead to wrong predictions despite being imperceptible. However, the existence of "universal" attacks (i.e., unique perturbations that transfer across different data points) has only been demonstrated for images to date. Part of the reason lies in the lack of a common domain, for geometric data such as graphs, meshes, and point clouds, where a universal perturbation can be defined. In this paper, we offer a change in perspective and demonstrate the existence of universal attacks for geometric data (shapes). We introduce a computational procedure that operates entirely in the spectral domain, where the attacks take the form of small perturbations to short eigenvalue sequences; the resulting geometry is then synthesized via shape-from-spectrum recovery. Our attacks are universal, in that they transfer across different shapes, different representations (meshes and point clouds), and generalize to previously unseen data.
翻訳日:2021-04-09 13:00:05 公開日:2021-04-07
# Triplot:モデル非依存測度と階層的相関構造を考慮した予測モデルにおける変数重要性の可視化

Triplot: model agnostic measures and visualisations for variable importance in predictive models that take into account the hierarchical correlation structure ( http://arxiv.org/abs/2104.03403v1 )

ライセンス: Link先を確認
Katarzyna Pekala, Katarzyna Woznica, Przemyslaw Biecek(参考訳) 予測モデルの説明分析の重要な要素の1つは、個々の変数の重要性を評価することである。 予測モデル探索の分野(説明可能な人工知能または解釈可能な機械学習とも呼ばれる)の急速な発展は、局所的(インスタンスレベル)およびグローバルな(データセットレベル)手法(Permutational Variable Importance, Shapley Values (SHAP), Local Interpretable Model Explanations (LIME), Break Downなど)の普及につながっている。 しかし、これらの手法は、モデル行動の説明可能性を大幅に低下させる特徴間の相関に関する情報を使用しない。 本研究では,変数間の相関関係情報を利用してモデル解析を支援する新しい手法を提案する。 データセットレベルのアスペクト重要度尺度はブロック置換手順にインスパイアされ、インスタンスレベルのアスペクト重要度尺度はLIMEメソッドにインスパイアされます。 本稿では,変数群(アスペクト)をユーザが提案する時と,変数間の相関関係の階層構造に基づいて自動的に決定すべき時の両方を解析する方法を示す。 さらに、可変グループ化の階層構造を利用して高情報密度モデル可視化を生成する新しいタイプのモデル可視化である三脚を提案する。 この視覚化は、ローカルモデルとグローバルモデルとデータ探索の両方に対して一貫したイラストを提供する。 また,変数間の有意な相関が変数重要度の影響の解釈に影響を与える5kインスタンスと37の特徴を持つ実世界のデータの例を示す。 提案手法は, 探索モデル解析において, 変数間の相関を直接利用することを可能にする最初の方法である。

One of the key elements of explanatory analysis of a predictive model is to assess the importance of individual variables. Rapid development of the area of predictive model exploration (also called explainable artificial intelligence or interpretable machine learning) has led to the popularization of methods for local (instance level) and global (dataset level) methods, such as Permutational Variable Importance, Shapley Values (SHAP), Local Interpretable Model Explanations (LIME), Break Down and so on. However, these methods do not use information about the correlation between features which significantly reduce the explainability of the model behaviour. In this work, we propose new methods to support model analysis by exploiting the information about the correlation between variables. The dataset level aspect importance measure is inspired by the block permutations procedure, while the instance level aspect importance measure is inspired by the LIME method. We show how to analyze groups of variables (aspects) both when they are proposed by the user and when they should be determined automatically based on the hierarchical structure of correlations between variables. Additionally, we present the new type of model visualisation, triplot, which exploits a hierarchical structure of variable grouping to produce a high information density model visualisation. This visualisation provides a consistent illustration for either local or global model and data exploration. We also show an example of real-world data with 5k instances and 37 features in which a significant correlation between variables affects the interpretation of the effect of variable importance. The proposed method is, to our knowledge, the first to allow direct use of the correlation between variables in exploratory model analysis.
翻訳日:2021-04-09 12:59:50 公開日:2021-04-07
# 航空破壊管理における分散人工知能の統合とインタラクションの実現

Enabling Integration and Interaction for Decentralized Artificial Intelligence in Airline Disruption Management ( http://arxiv.org/abs/2104.03349v1 )

ライセンス: Link先を確認
Kolawole Ogunsina and Daniel DeLaurentis(参考訳) 航空事故管理は伝統的に、航空機のスケジューリング、乗組員のスケジューリング、乗客のスケジューリングという3つの課題に対処しようとする。 しかし、現在の取り組みは、少なくとも最初の2つの問題次元を同時に取り組んだだけであり、ある次元における不確定なスケジューリング結果が別の次元に有する伝播的効果を考慮していない。 また、航空破壊管理の既存のアプローチには、航空破壊の当日に必要な修正措置を決定する人間専門家が含まれる。 しかしながら、人間スペシャリストは、破壊管理中にすべての問題次元を同時に対処する堅牢な決定を行うための大量の情報を処理する能力に制限がある。 そのため、航空業務管理におけるあらゆる次元間の複雑な相互作用を合理化し、航空業務管理センターの専門医に客観的な洞察を与える量的・質的ツールにより、人間専門家の意思決定能力を増強する必要がある。 そこで我々は,AIと分散台帳技術を用いたインテリジェントマルチエージェントシステムを通じて,航空会社のディスラプション管理における全問題次元の迅速かつ同時的回復を可能にする,無知かつ体系的なパラダイムの議論と実演を行う。

Airline disruption management traditionally seeks to address three problem dimensions: aircraft scheduling, crew scheduling, and passenger scheduling, in that order. However, current efforts have, at most, only addressed the first two problem dimensions concurrently and do not account for the propagative effects that uncertain scheduling outcomes in one dimension can have on another dimension. In addition, existing approaches for airline disruption management include human specialists who decide on necessary corrective actions for airline schedule disruptions on the day of operation. However, human specialists are limited in their ability to process copious amounts of information imperative for making robust decisions that simultaneously address all problem dimensions during disruption management. Therefore, there is a need to augment the decision-making capabilities of a human specialist with quantitative and qualitative tools that can rationalize complex interactions amongst all dimensions in airline disruption management, and provide objective insights to the specialists in the airline operations control center. To that effect, we provide a discussion and demonstration of an agnostic and systematic paradigm for enabling expeditious simultaneously-integ rated recovery of all problem dimensions during airline disruption management, through an intelligent multi-agent system that employs principles from artificial intelligence and distributed ledger technology.
翻訳日:2021-04-09 12:57:42 公開日:2021-04-07
# フィットネスレベルから下限は簡単になった

Lower Bounds from Fitness Levels Made Easy ( http://arxiv.org/abs/2104.03372v1 )

ライセンス: Link先を確認
Benjamin Doerr and Timo K\"otzing(参考訳) 進化的アルゴリズムのランタイムバウンドを証明するために最初に、そして簡単に使える技術の一つが、Wegenerによるいわゆるフィットネスレベルの方法である。 探索空間の分割を、アルゴリズムによって順に横断される一連のレベルに分割し、おそらくはレベルをスキップする。 実行時間に対する容易だが強固な上界は、確率の逆数を追加してレベル(あるいはそれらの上界)を離れることによって導かれる。 残念ながら、下界を証明する同様の効果的な方法はまだ確立されていない。 sudholt (2013) が提唱した最も強い方法では、粘度パラメータ $\gamma_{i,j}$, $0 \le i < j \le n$ の慎重に選択する必要がある。 本稿では,上界法と下界法という2つの新しい変種について述べる。 レベル離脱確率の他に、彼らはレベルが訪問される確率にのみ依存している。 より困難を伴わない計算や推定が可能であることを示し、本手法を適用して、以下の既知結果を簡単かつ自然な方法で再現する。 i) \leadingones 上の \oea の正確な実行時間。 (ii) \onemax 上の \oea の実行時間に対する低いバウンダリで、$O(n)$ 項とは分離する。 (iii)長い$k$-paths での \oea の実行時間に対する下限。

One of the first and easy to use techniques for proving run time bounds for evolutionary algorithms is the so-called method of fitness levels by Wegener. It uses a partition of the search space into a sequence of levels which are traversed by the algorithm in increasing order, possibly skipping levels. An easy, but often strong upper bound for the run time can then be derived by adding the reciprocals of the probabilities to leave the levels (or upper bounds for these). Unfortunately, a similarly effective method for proving lower bounds has not yet been established. The strongest such method, proposed by Sudholt (2013), requires a careful choice of the viscosity parameters $\gamma_{i,j}$, $0 \le i < j \le n$. In this paper we present two new variants of the method, one for upper and one for lower bounds. Besides the level leaving probabilities, they only rely on the probabilities that levels are visited at all. We show that these can be computed or estimated without greater difficulties and apply our method to reprove the following known results in an easy and natural way. (i) The precise run time of the \oea on \leadingones. (ii) A lower bound for the run time of the \oea on \onemax, tight apart from an $O(n)$ term. (iii) A lower bound for the run time of the \oea on long $k$-paths.
翻訳日:2021-04-09 12:57:21 公開日:2021-04-07
# 雑音および費用のかかるモデルに対するアンサンブル推定法

Ensemble Inference Methods for Models With Noisy and Expensive Likelihoods ( http://arxiv.org/abs/2104.03384v1 )

ライセンス: Link先を確認
Andrew B. Duncan, Andrew M. Stuart, Marie-Therese Wolfram(参考訳) データの可用性の増大は、生物医学、物理、社会科学の複雑な現象のモデルに現れる未知のパラメータを校正する機会を与える。 しかし、モデル複雑性はしばしばパラメータからデータへのマップにつながり、評価は高価でノイズの多い近似によってのみ利用できる。 本稿では, パラメータの逆問題に対する解法として相互作用する粒子系の利用について述べる。 特に興味深いのは、手軽に変化する大規模パラメトリック構造に重畳されるパラメータ空間において、利用可能なフォワードモデル評価が急激なゆらぎを受ける場合である。 このような急激なゆらぎをノイズと呼び、パラメータ・データ・マップの大規模パラメトリック依存性を汚染する場合の相互作用粒子系アルゴリズムの挙動をマルチスケール解析により解析する。 この光の下で、アンサンブルカルマン法(微分なし)とランジュバン法(パラメータ対データ写像の導関数を用いる)を比較した。 アンサンブルカルマン法はパラメーターデータマップにおけるノイズの存在下で好適に振る舞うことが示されているが、ランジュバン法は悪影響を受ける。 一方、ランゲヴィン法はノイズフリーフォワードモデルの設定において正しい平衡分布を持ち、一方アンサンブルカルマン法は線形の場合を除いて制御されていない近似しか提供しない。 したがって、アンサンブルカルマン法とランゲヴィン法の両方の利点を組み合わせた新しいアルゴリズムであるアンサンブルガウシアンプロセスサンプリング器が導入され、良好な性能を示すことが示されている。

The increasing availability of data presents an opportunity to calibrate unknown parameters which appear in complex models of phenomena in the biomedical, physical and social sciences. However, model complexity often leads to parameter-to-data maps which are expensive to evaluate and are only available through noisy approximations. This paper is concerned with the use of interacting particle systems for the solution of the resulting inverse problems for parameters. Of particular interest is the case where the available forward model evaluations are subject to rapid fluctuations, in parameter space, superimposed on the smoothly varying large scale parametric structure of interest. Multiscale analysis is used to study the behaviour of interacting particle system algorithms when such rapid fluctuations, which we refer to as noise, pollute the large scale parametric dependence of the parameter-to-data map. Ensemble Kalman methods (which are derivative-free) and Langevin-based methods (which use the derivative of the parameter-to-data map) are compared in this light. The ensemble Kalman methods are shown to behave favourably in the presence of noise in the parameter-to-data map, whereas Langevin methods are adversely affected. On the other hand, Langevin methods have the correct equilibrium distribution in the setting of noise-free forward models, whilst ensemble Kalman methods only provide an uncontrolled approximation, except in the linear case. Therefore a new class of algorithms, ensemble Gaussian process samplers, which combine the benefits of both ensemble Kalman and Langevin methods, are introduced and shown to perform favourably.
翻訳日:2021-04-09 12:52:47 公開日:2021-04-07
# バックドアアタックのトリガーを再考する: 周波数の観点から

Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective ( http://arxiv.org/abs/2104.03413v1 )

ライセンス: Link先を確認
Yi Zeng, Won Park, Z. Morley Mao and Ruoxi Jia(参考訳) バックドア攻撃は、ディープラーニングに対する深刻なセキュリティ脅威とみなされている。 このような攻撃により、モデルが事前に定義されたトリガを持つ入力に対して異常に動作し、クリーンなデータに対する最先端のパフォーマンスを維持することができる。 バックドア攻撃は、攻撃者側と守備側の両方の画像領域で徹底的に調査されているが、これまで周波数領域における分析が欠落している。 本稿ではまず,既存のバックドアトリガを周波数の観点から再検討し,包括的解析を行う。 その結果、現在のバックドア攻撃の多くは、異なるデータセットと解像度にまたがる深刻な高周波アーティファクトを示すことがわかった。 さらに,これらの高周波アーチファクトにより,攻撃の詳細や対象モデルを知ることなく,98.50%の精度で既存のバックドアトリガを簡易に検出できることを示す。 過去の攻撃の弱点を認識し, 高周波アーティファクトを使わずにスムーズなバックドアトリガーを作成, 検出性について検討する実践的手法を提案する。 これらのスムーズなトリガーを設計に組み込むことで,既存の防衛作業が有用であることを示す。 さらに, より強いスムーストリガーをチューニングした検出器は, 弱いスムーストリガーに対して十分に一般化できることを示した。 要約すると,我々の研究は,深層学習におけるバックドア攻撃と防御の両方を設計する際に,周波数分析を考えることの重要性を強調している。

Backdoor attacks have been considered a severe security threat to deep learning. Such attacks can make models perform abnormally on inputs with predefined triggers and still retain state-of-the-art performance on clean data. While backdoor attacks have been thoroughly investigated in the image domain from both attackers' and defenders' sides, an analysis in the frequency domain has been missing thus far. This paper first revisits existing backdoor triggers from a frequency perspective and performs a comprehensive analysis. Our results show that many current backdoor attacks exhibit severe high-frequency artifacts, which persist across different datasets and resolutions. We further demonstrate these high-frequency artifacts enable a simple way to detect existing backdoor triggers at a detection rate of 98.50% without prior knowledge of the attack details and the target model. Acknowledging previous attacks' weaknesses, we propose a practical way to create smooth backdoor triggers without high-frequency artifacts and study their detectability. We show that existing defense works can benefit by incorporating these smooth triggers into their design consideration. Moreover, we show that the detector tuned over stronger smooth triggers can generalize well to unseen weak smooth triggers. In short, our work emphasizes the importance of considering frequency analysis when designing both backdoor attacks and defenses in deep learning.
翻訳日:2021-04-09 12:51:59 公開日:2021-04-07
# 量子アニーリングハードウェアの単一ビット忠実度評価

Single-Qubit Fidelity Assessment of Quantum Annealing Hardware ( http://arxiv.org/abs/2104.03335v1 )

ライセンス: Link先を確認
Jon Nelson, Marc Vuffray, Andrey Y. Lokhov, Carleton Coffrin(参考訳) さまざまな量子コンピューティングプラットフォームが利用可能になるにつれて、これらのデバイスの性能を評価し比較する手法は、関心と重要性を増している。 ゲート型量子コンピュータの進歩を追跡する単一量子ビット誤り率計算の成功に触発されて、量子アニーリングコンピュータにおける個々の量子ビットの性能を定量化する量子アニーリングシングル量子ビット評価(qasa)プロトコルを提案する。 提案プロトコルは、数千の量子ビットを持つ大規模量子アニーラにスケールし、特定のハードウェアデバイス内の量子ビット特性の分布に関するユニークな洞察を提供する。 QASAプロトコルの有効性は、D-Wave 2000Qシステムの特性を分析し、その装置のキュービット性能における予期せぬ相関を明らかにすることで実証される。 異なるアニーリング時間でQASAプロトコルを繰り返す研究は、アニーリングパラメータがキュービット性能に与える影響を理解するためにこの手法をどのように利用できるかを明らかにする。 全体として、提案したQASAプロトコルは、現在および新興量子アニールデバイスの性能を評価するための有用なツールを提供する。

As a wide variety of quantum computing platforms become available, methods for assessing and comparing the performance of these devices are of increasing interest and importance. Inspired by the success of single-qubit error rate computations for tracking the progress of gate-based quantum computers, this work proposes a Quantum Annealing Single-qubit Assessment (QASA) protocol for quantifying the performance of individual qubits in quantum annealing computers. The proposed protocol scales to large quantum annealers with thousands of qubits and provides unique insights into the distribution of qubit properties within a particular hardware device. The efficacy of the QASA protocol is demonstrated by analyzing the properties of a D-Wave 2000Q system, revealing unanticipated correlations in the qubit performance of that device. A study repeating the QASA protocol at different annealing times highlights how the method can be utilized to understand the impact of annealing parameters on qubit performance. Overall, the proposed QASA protocol provides a useful tool for assessing the performance of current and emerging quantum annealing devices.
翻訳日:2021-04-09 12:50:13 公開日:2021-04-07
# Prism: 複数Ownerアウトソースデータベース上のプライベート検証可能な集合計算

Prism: Private Verifiable Set Computation over Multi-Owner Outsourced Databases ( http://arxiv.org/abs/2104.03354v1 )

ライセンス: Link先を確認
Yin Li, Dhrubajyoti Ghosh, Peeyush Gupta, Sharad Mehrotra, Nisha Panwar, Shantanu Sharma(参考訳) 本稿では,プライベートな集合演算(intersection と union)を計算し,複数の所有者に属するアウトソースデータベースを集約するための秘密共有方式であるprismを提案する。 Prismは、データ所有者がデータを非収集サーバにプリロードし、シークレットシェアの付加的および乗算的特性を利用して、サーバ(シークレットシェアを保存)とキューリエ間の2ラウンドの通信で上記のリスト化された操作を計算し、非常に効率的な実装をもたらす。 また、prismはサーバ間の通信を必要とせず、悪意のある敵を検出するために各操作に対する結果検証技術をサポートする。 実験の結果、prismはデータ所有者数とデータベースサイズの両方でスケールし、それ以前のアプローチではスケールしないことがわかった。

This paper proposes Prism, a secret sharing based approach to compute private set operations (i.e., intersection and union), as well as aggregates over outsourced databases belonging to multiple owners. Prism enables data owners to pre-load the data onto non-colluding servers and exploits the additive and multiplicative properties of secret-shares to compute the above-listed operations in (at most) two rounds of communication between the servers (storing the secret-shares) and the querier, resulting in a very efficient implementation. Also, Prism does not require communication among the servers and supports result verification techniques for each operation to detect malicious adversaries. Experimental results show that Prism scales both in terms of the number of data owners and database sizes, to which prior approaches do not scale.
翻訳日:2021-04-09 12:47:28 公開日:2021-04-07
# センターからの投票:ラジアルキーポイント投票によるrgb-d画像のdofポーズ推定

Vote from the Center: 6 DoF Pose Estimation in RGB-D Images by Radial Keypoint Voting ( http://arxiv.org/abs/2104.02527v2 )

ライセンス: Link先を確認
Yangzheng Wu, Mohsen Zand, Ali Etemad, Michael Greenspan(参考訳) 本稿では,既存のスキームよりも精度が高く,分散キーポイントのより小さな集合を可能にする,交差球面に基づく新しいキーポイント投票方式を提案する。 rgb-dデータ中の3dオブジェクトの6自由度位置推定のためのrcvpose法の基礎となり,特に咬合の取り扱いに有効である。 cnnは、各rgb画素の深さモードに対応する3d点と、オブジェクトフレームで定義された3つの分散キーポイントとの距離を推定するように訓練される。 推測では、この推定距離に等しい半径の球が、各3D点を中心に生成される。 これらの球面の表面は、キーポイント位置を示す3Dアキュムレータ空間の増分に投票する。 提案したラジアル投票方式は,従来のベクトルやオフセット方式よりも精度が高く,キーポイントの分散が困難である。 実験では、RCVPoseは非常に正確で競争力があり、LINEMOD 99.7%、YCB-Video 97.2%のデータセットで最先端の結果が得られた。

We propose a novel keypoint voting scheme based on intersecting spheres, that is more accurate than existing schemes and allows for a smaller set of more disperse keypoints. The scheme forms the basis of the proposed RCVPose method for 6 DoF pose estimation of 3D objects in RGB-D data, which is particularly effective at handling occlusions. A CNN is trained to estimate the distance between the 3D point corresponding to the depth mode of each RGB pixel, and a set of 3 disperse keypoints defined in the object frame. At inference, a sphere of radius equal to this estimated distance is generated, centered at each 3D point. The surface of these spheres votes to increment a 3D accumulator space, the peaks of which indicate keypoint locations. The proposed radial voting scheme is more accurate than previous vector or offset schemes, and robust to disperse keypoints. Experiments demonstrate RCVPose to be highly accurate and competitive, achieving state-of-the-art results on LINEMOD 99.7%, YCB-Video 97.2% datasets, and notably scoring +7.9% higher than previous methods on the challenging Occlusion LINEMOD 71.1% dataset.
翻訳日:2021-04-09 10:37:25 公開日:2021-04-07
# (参考訳) 咬合境界における双面外挿による深さ補完 [全文訳有]

Depth Completion with Twin Surface Extrapolation at Occlusion Boundaries ( http://arxiv.org/abs/2104.02253v2 )

ライセンス: CC BY 4.0
Saif Imran, Xiaoming Liu and Daniel Morris(参考訳) 深さ完了は、既知の深さ値のスパースセットから始まり、残りの画像画素の未知の深さを推定する。 ほとんどの方法はこれを深度補間としてモデル化し、空間的に異なる物体の間の空の空間に深度画素を誤って補間し、閉塞境界を越えて深度スミアリングする。 本稿では,咬合境界領域において前景と背景深度の両方を明示的にモデル化するマルチハイポテーゼ深度表現を提案する。 本手法は,これらの地域では補間ではなく,2面外挿を行うと考えられる。 次に,これらの外挿した表面を画像データを利用した1つの深度画像に融合する。 この手法の鍵となるのは、新しい双曲面表現で機能する非対称損失関数の利用である。 これにより、表面補間と表面融合を同時に行うネットワークを訓練できる。 我々は損失関数を特徴付け、他の一般的な損失と比較する。 最後に,本手法を,屋外実世界のデータセットであるKITTI,屋内実世界の深度データセットであるNYU2,高密度基底構造を持つ写真リアルな合成データセットであるVirtual KITTIの3つの異なるデータセットで検証し,技術状況の改善を示す。

Depth completion starts from a sparse set of known depth values and estimates the unknown depths for the remaining image pixels. Most methods model this as depth interpolation and erroneously interpolate depth pixels into the empty space between spatially distinct objects, resulting in depth-smearing across occlusion boundaries. Here we propose a multi-hypothesis depth representation that explicitly models both foreground and background depths in the difficult occlusion-boundary regions. Our method can be thought of as performing twin-surface extrapolation, rather than interpolation, in these regions. Next our method fuses these extrapolated surfaces into a single depth image leveraging the image data. Key to our method is the use of an asymmetric loss function that operates on a novel twin-surface representation. This enables us to train a network to simultaneously do surface extrapolation and surface fusion. We characterize our loss function and compare with other common losses. Finally, we validate our method on three different datasets; KITTI, an outdoor real-world dataset, NYU2, indoor real-world depth dataset and Virtual KITTI, a photo-realistic synthetic dataset with dense groundtruth, and demonstrate improvement over the state of the art.
翻訳日:2021-04-09 03:40:17 公開日:2021-04-07
# (参考訳) 異常胸部X線写真検出のためのAIシステムVinDr-CXRの臨床的検討 [全文訳有]

A clinical validation of VinDr-CXR, an AI system for detecting abnormal chest radiographs ( http://arxiv.org/abs/2104.02256v2 )

ライセンス: CC BY 4.0
Ngoc Huy Nguyen, Ha Quy Nguyen, Nghia Trung Nguyen, Thang Viet Nguyen, Hieu Huy Pham, Tuan Ngoc-Minh Nguyen(参考訳) 人工知能(AI)を用いた胸部X線写真診断システム(CAD)は,最近,放射線学者にとって第2の意見として大きな可能性を示している。 しかしながら,これらのシステムの性能は,概ねふりかえりの方法で固定データセット上で評価され,臨床における実際のパフォーマンスとは程遠いものであった。 本研究は,ベトナム北部の州立病院であるPhu Tho General Hospitalにおいて,X線スキャンVinDr-CXRの異常を検出するためのAIベースのシステムを検証するメカニズムを実証した。 AIシステムは、他のソースからの固定アノテーション付きデータセットでトレーニングされた後、病院のPicture Archiving and Communication System(PACS)に直接統合された。 病院情報システム(HIS)から抽出した6,285個の胸部X線検査を2020年の最後の2カ月間,AIの結果と照合し比較することにより,システムの性能を前向きに測定した。 放射線学報告の正常/異常状態は一連の規則によって決定され、根拠となる真実として機能した。 胸部X線異常検出のためのF1スコア(リコールと精度の調和平均値)は0.653(95% CI 0.635, 0.671)である。 インラボのパフォーマンスが大幅に低下したにもかかわらず、この結果、実生活でのシステムの適用に対する高いレベルの信頼性が確立される。

Computer-Aided Diagnosis (CAD) systems for chest radiographs using artificial intelligence (AI) have recently shown a great potential as a second opinion for radiologists. The performances of such systems, however, were mostly evaluated on a fixed dataset in a retrospective manner and, thus, far from the real performances in clinical practice. In this work, we demonstrate a mechanism for validating an AI-based system for detecting abnormalities on X-ray scans, VinDr-CXR, at the Phu Tho General Hospital - a provincial hospital in the North of Vietnam. The AI system was directly integrated into the Picture Archiving and Communication System (PACS) of the hospital after being trained on a fixed annotated dataset from other sources. The performance of the system was prospectively measured by matching and comparing the AI results with the radiology reports of 6,285 chest X-ray examinations extracted from the Hospital Information System (HIS) over the last two months of 2020. The normal/abnormal status of a radiology report was determined by a set of rules and served as the ground truth. Our system achieves an F1 score - the harmonic average of the recall and the precision - of 0.653 (95% CI 0.635, 0.671) for detecting any abnormalities on chest X-rays. Despite a significant drop from the in-lab performance, this result establishes a high level of confidence in applying such a system in real-life situations.
翻訳日:2021-04-09 03:38:54 公開日:2021-04-07
# (参考訳) SERRANT:英語文法エラー型のための構文分類器 [全文訳有]

SERRANT: a syntactic classifier for English Grammatical Error Types ( http://arxiv.org/abs/2104.02310v2 )

ライセンス: CC BY 4.0
Leshem Choshen, Matanel Oren, Dmitry Nikolaev, Omri Abend(参考訳) SERRANTは、SErClとERRANTを組み合わせた英語文法エラーの自動分類のためのシステムとコードである。 SERRANT は ERRANT のアノテーションを使って情報を提供しており、それ以外は SErCl が提供するアノテーションを使用する。

SERRANT is a system and code for automatic classification of English grammatical errors that combines SErCl and ERRANT. SERRANT uses ERRANT's annotations when they are informative and those provided by SErCl otherwise.
翻訳日:2021-04-09 03:24:28 公開日:2021-04-07
# (参考訳) the duo of artificial intelligence and big data for industry 4.0: review of applications, techniques, challenges, and future research directions

The Duo of Artificial Intelligence and Big Data for Industry 4.0: Review of Applications, Techniques, Challenges, and Future Research Directions ( http://arxiv.org/abs/2104.02425v2 )

ライセンス: CC BY 4.0
Senthil Kumar Jagatheesaperumal, Mohamed Rahouti, Kashif Ahmad, Ala Al-Fuqaha, Mohsen Guizani(参考訳) 経済、安全、持続可能なスマート製造の必要性の高まりと、新しいテクノロジーの実現者が組み合わさって、人工知能(ai)とビッグデータがスマート製造をサポートする道を切り開いた。 これは、AI、Industrial Internet of Things(IIoT)、ロボティクス、ビッグデータ、ブロックチェーン、5G通信の相当な統合が、スマート製造と現代産業の動的プロセスをサポートすることを意味する。 本稿では,AI とビッグデータの産業 4.0 のさまざまな側面を包括的に概観し,重要なアプリケーション,技術,関連する概念,重要な実現技術,課題,産業 5.0 の展開に向けた研究の視点に焦点をあてる。 詳細は、AIとビッグデータのデュオが、Industrial 4.0の異なるアプリケーションでどのように役立つかを強調し、分析する。 また、スマート産業におけるaiとビッグデータメソッドの展開の成功における重要な課題として、アベイラビリティ、バイアス、監査、管理、解釈可能性、コミュニケーション、さまざまな敵の攻撃やセキュリティ問題といったデータ関連の問題に特に重点を置いています。 簡単に言うと、私たちはパノラマレビューと議論を通じて、産業4.0アプリケーションに対するAIとビッグデータの重要性を調査しました。 我々は、この研究が将来の研究のベースラインとなると信じている。

The increasing need for economic, safe, and sustainable smart manufacturing combined with novel technological enablers, has paved the way for Artificial Intelligence (AI) and Big Data in support of smart manufacturing. This implies a substantial integration of AI, Industrial Internet of Things (IIoT), Robotics, Big data, Blockchain, 5G communications, in support of smart manufacturing and the dynamical processes in modern industries. In this paper, we provide a comprehensive overview of different aspects of AI and Big Data in Industry 4.0 with a particular focus on key applications, techniques, the concepts involved, key enabling technologies, challenges, and research perspective towards deployment of Industry 5.0. In detail, we highlight and analyze how the duo of AI and Big Data is helping in different applications of Industry 4.0. We also highlight key challenges in a successful deployment of AI and Big Data methods in smart industries with a particular emphasis on data-related issues, such as availability, bias, auditing, management, interpretability, communication, and different adversarial attacks and security issues. In a nutshell, we have explored the significance of AI and Big data towards Industry 4.0 applications through panoramic reviews and discussions. We believe, this work will provide a baseline for future research in the domain.
翻訳日:2021-04-09 03:20:00 公開日:2021-04-07
# (参考訳) BERTからの言語情報抽出によるより優れたニューラルネットワーク翻訳 [全文訳有]

Better Neural Machine Translation by Extracting Linguistic Information from BERT ( http://arxiv.org/abs/2104.02831v1 )

ライセンス: CC BY 4.0
Hassan S. Shavarani and Anoop Sarkar(参考訳) ニューラルマシン翻訳(NMT)に言語情報(構文や意味論)を加えることは、主に事前訓練されたモデルからの点推定の使用に焦点を当てている。 BERT(Devlin et al., 2019)のような大量の事前学習された文脈単語埋め込みモデルの能力を直接利用することは、トレーニングの脆さと信頼性を損なうことなく、NMTに効果的な微調整を得ることが困難であるため、NMTにおいて極めて有用である。 我々は点推定の代わりにBERTから細調整ベクターベース言語情報を抽出することによりNMTを増強する。 実験の結果, 言語情報を取り込む手法は, nmtの一般化に寄与し, 従来のトランスフォーマー型nmtよりも訓練が困難であることがわかった。

Adding linguistic information (syntax or semantics) to neural machine translation (NMT) has mostly focused on using point estimates from pre-trained models. Directly using the capacity of massive pre-trained contextual word embedding models such as BERT (Devlin et al., 2019) has been marginally useful in NMT because effective fine-tuning is difficult to obtain for NMT without making training brittle and unreliable. We augment NMT by extracting dense fine-tuned vector-based linguistic information from BERT instead of using point estimates. Experimental results show that our method of incorporating linguistic information helps NMT to generalize better in a variety of training contexts and is no more difficult to train than conventional Transformer-based NMT.
翻訳日:2021-04-09 01:56:48 公開日:2021-04-07
# (参考訳) ARC: 視覚に基づく自動小売チェックアウトシステム [全文訳有]

ARC: A Vision-based Automatic Retail Checkout System ( http://arxiv.org/abs/2104.02832v1 )

ライセンス: CC BY 4.0
Syed Talha Bukhari, Abdul Wahab Amin, Muhammad Abdullah Naveed, Muhammad Rzi Abbas(参考訳) スーパーマーケットで採用されている小売チェックアウトシステムは主にバーコードスキャナーに依存しており、QRコードを利用して購入した商品を識別するものもある。 これらの方法は実際に時間がかかり、ある程度の人間の監督が必要であり、長い待ち行列で待機する。 そこで本研究では,小売店でのチェックアウトを高速化し,自律的で,より便利なものにすることを目的として,ARCと呼ぶシステムを提案する。 このアプローチでは、webカメラの下に置かれているオブジェクトをスキャンして識別する畳み込みニューラルネットワークを備えたコンピュータビジョンベースのシステムを使用する。 提案システムを評価するために,各カテゴリの1つの店舗のイメージデータセットを収集した。 与えられた仮定と考慮の中で、システムは適切なテスト時間精度を達成し、提案されたセットアップの野心的な未来を指している。 プロジェクトコードとデータセットは公開されています。

Retail checkout systems employed at supermarkets primarily rely on barcode scanners, with some utilizing QR codes, to identify the items being purchased. These methods are time-consuming in practice, require a certain level of human supervision, and involve waiting in long queues. In this regard, we propose a system, that we call ARC, which aims at making the process of check-out at retail store counters faster, autonomous, and more convenient, while reducing dependency on a human operator. The approach makes use of a computer vision-based system, with a Convolutional Neural Network at its core, which scans objects placed beneath a webcam for identification. To evaluate the proposed system, we curated an image dataset of one-hundred local retail items of various categories. Within the given assumptions and considerations, the system achieves a reasonable test-time accuracy, pointing towards an ambitious future for the proposed setup. The project code and the dataset are made publicly available.
翻訳日:2021-04-09 01:40:39 公開日:2021-04-07
# (参考訳) GEM:動的制御系学習のためのグループ強化モデル [全文訳有]

GEM: Group Enhanced Model for Learning Dynamical Control Systems ( http://arxiv.org/abs/2104.02844v1 )

ライセンス: CC BY 4.0
Philippe Hansen-Estruch, Wenling Shang, Lerrel Pinto, Pieter Abbeel, Stas Tiomkin(参考訳) 自律エージェントが動作する物理システムのダイナミクスを学ぶことは重要なタスクである。 しばしばこれらの系は明らかな幾何学的構造を示す。 例えば、ロボットマニピュレータの軌道は、その遷移運動と回転運動の集合に分解され、対応するリー群とリー代数によって完全に特徴づけられる。 本研究では,これらの構造を利用して,サンプルベース学習に適した効果的な動的モデルを構築する。 リー代数ベクトル空間上でのダイナミクスの学習は、直接状態遷移モデルを学ぶよりも有効であると仮定する。 この仮説を検証するために,グループ拡張モデル(GEM)を提案する。 GEMは、Walker、Hopper、Reacher、Half-Cheetah、Inverted Pendulums、Ant、Humanoidなど、さまざまな標準の継続的制御環境における長期予測、計画、モデルに基づく強化学習のタスクにおいて、従来の移行モデルよりも大幅に優れている。 さらに,GEMを既存の技術システムに接続することで,その性能が向上し,PETSシステムで実演する。 この研究は、ダイナミクスの学習とリー群の性質との関係に光を当て、この方向に沿って新しい研究の方向性と実践的な応用の扉を開く。 私たちのコードは、https://tinyurl.com/ GEMMBRL.comで公開されています。

Learning the dynamics of a physical system wherein an autonomous agent operates is an important task. Often these systems present apparent geometric structures. For instance, the trajectories of a robotic manipulator can be broken down into a collection of its transitional and rotational motions, fully characterized by the corresponding Lie groups and Lie algebras. In this work, we take advantage of these structures to build effective dynamical models that are amenable to sample-based learning. We hypothesize that learning the dynamics on a Lie algebra vector space is more effective than learning a direct state transition model. To verify this hypothesis, we introduce the Group Enhanced Model (GEM). GEMs significantly outperform conventional transition models on tasks of long-term prediction, planning, and model-based reinforcement learning across a diverse suite of standard continuous-control environments, including Walker, Hopper, Reacher, Half-Cheetah, Inverted Pendulums, Ant, and Humanoid. Furthermore, plugging GEM into existing state of the art systems enhances their performance, which we demonstrate on the PETS system. This work sheds light on a connection between learning of dynamics and Lie group properties, which opens doors for new research directions and practical applications along this direction. Our code is publicly available at: https://tinyurl.com/ GEMMBRL.
翻訳日:2021-04-09 01:29:57 公開日:2021-04-07
# (参考訳) 3次元医用画像記述のための深部統計的形状モデル [全文訳有]

Deep Implicit Statistical Shape Models for 3D Medical Image Delineation ( http://arxiv.org/abs/2104.02847v1 )

ライセンス: CC BY 4.0
Ashwin Raju, Shun Miao, Chi-Tung Cheng, Le Lu, Mei Han, Jing Xiao, Chien-Hung Liao, Junzhou Huang and Adam P. Harrison(参考訳) 解剖学的構造の3次元デライン化は、医用画像解析の基本的な目標である。 ディープラーニング以前は、解剖学的制約を課し高品質の表面を作り出す統計的形状モデルはコア技術だった。 ディープラーニング以前は、解剖学的制約を課し高品質の表面を作り出す統計的形状モデルはコア技術だった。 現在、FCN(完全畳み込みネットワーク)は支配的であるが、これらの機能を提供していない。 我々は,畳み込みニューラルネットワーク(CNN)の表現力をSSMの頑健性にマージする,新しいデライン化手法であるディープ暗黙的統計的形状モデル(DISSMs)を提案する。 DISSMは深い暗黙の表面表現を用いて、解剖学的分散の統計モデルを可能にするコンパクトで記述的なラテント空間を生成する。 画像に解剖学的に妥当な形状を確実に適合させるため,マルコフ決定過程(mdp)としてモデル化された新しい剛体および非剛体姿勢推定パイプラインを導入する。 本稿では,逆エピソード学習と,限界空間学習(MSL)の深い実現を含む訓練体制の概要を述べる。 nnu-netを含む3つの主要なfcnモデル(平均ハウスドルフ距離(hd)を7.7-14.3mm減らし、最悪の症例であるdice-sorensen係数(dsc)を1.2-2.3%改善する。 より重要なことは、臨床展開シナリオを直接反映したデータセット上のクロスデータセット実験により、DISMは平均DSCとHDをそれぞれ3.5-5.9%改善し、12.3-24.5mm改善し、最悪のDSCは5.4-7.3%改善した。 これらの改善は、高品質な表面でデリネーションを表現することのメリットを何よりも増やしている。

3D delineation of anatomical structures is a cardinal goal in medical imaging analysis. Prior to deep learning, statistical shape models that imposed anatomical constraints and produced high quality surfaces were a core technology. Prior to deep learning, statistical shape models that imposed anatomical constraints and produced high quality surfaces were a core technology. Today fully-convolutional networks (FCNs), while dominant, do not offer these capabilities. We present deep implicit statistical shape models (DISSMs), a new approach to delineation that marries the representation power of convolutional neural networks (CNNs) with the robustness of SSMs. DISSMs use a deep implicit surface representation to produce a compact and descriptive shape latent space that permits statistical models of anatomical variance. To reliably fit anatomically plausible shapes to an image, we introduce a novel rigid and non-rigid pose estimation pipeline that is modelled as a Markov decision process(MDP). We outline a training regime that includes inverted episodic training and a deep realization of marginal space learning (MSL). Intra-dataset experiments on the task of pathological liver segmentation demonstrate that DISSMs can perform more robustly than three leading FCN models, including nnU-Net: reducing the mean Hausdorff distance (HD) by 7.7-14.3mm and improving the worst case Dice-Sorensen coefficient (DSC) by 1.2-2.3%. More critically, cross-dataset experiments on a dataset directly reflecting clinical deployment scenarios demonstrate that DISSMs improve the mean DSC and HD by 3.5-5.9% and 12.3-24.5mm, respectively, and the worst-case DSC by 5.4-7.3%. These improvements are over and above any benefits from representing delineations with high-quality surface.
翻訳日:2021-04-09 01:10:50 公開日:2021-04-07
# (参考訳) モデルアーキテクチャ最適化のための事前学習モデルの解釈 - Wav2Vec 2.0のケーススタディ [全文訳有]

Interpreting A Pre-trained Model Is A Key For Model Architecture Optimization: A Case Study On Wav2Vec 2.0 ( http://arxiv.org/abs/2104.02851v1 )

ライセンス: CC BY 4.0
Liu Chen, Meysam Asgari(参考訳) 評価スコアが良いディープトランスフォーマーモデルは、各サブネットワーク(つまりトランスフォーマーブロック)が合理的な表現を学ぶという意味ではない。 異常な表現の診断と回避は、よりよい評価スコアの達成に寄与する。 ブロックレベルのパターンを要約し、異常パターンが負の影響をもたらすと仮定する。 We leverage Wav2Vec 2.0 as a research target and analysis a pre-trained model's pattern。 すべての実験はトレーニングデータとしてlibrispeech-100-clea nを活用する。 診断された異常なものを避けることで、我々のカスタムのwav2vec 2.0は、viterbi復号によるtest-cleanの約4.8%の絶対単語誤り率(wer)を上回っています。 4グラムの言語モデルでデコードする場合、バージョンは依然として0.9%改善しています。 さらに,異常パターンの回避がパフォーマンス向上の主な要因であることも確認した。

A deep Transformer model with good evaluation score does not mean each subnetwork (a.k.a transformer block) learns reasonable representation. Diagnosing abnormal representation and avoiding it can contribute to achieving a better evaluation score. We propose an innovative perspective for analyzing attention patterns: summarize block-level patterns and assume abnormal patterns contribute negative influence. We leverage Wav2Vec 2.0 as a research target and analyze a pre-trained model's pattern. All experiments leverage Librispeech-100-clea n as training data. Through avoiding diagnosed abnormal ones, our custom Wav2Vec 2.0 outperforms the original version about 4.8% absolute word error rate (WER) on test-clean with viterbi decoding. Our version is still 0.9% better when decoding with a 4-gram language model. Moreover, we identify that avoiding abnormal patterns is the main contributor for performance boosting.
翻訳日:2021-04-09 00:45:45 公開日:2021-04-07
# (参考訳) 無限水平モデル予測制御における計画の価値 [全文訳有]

The Value of Planning for Infinite-Horizon Model Predictive Control ( http://arxiv.org/abs/2104.02863v1 )

ライセンス: CC BY 4.0
Nathan Hatch (1) and Byron Boots (1) ((1) University of Washington)(参考訳) Model Predictive Control (MPC) は、複雑な実世界のシステムの最適制御のための古典的なツールである。 ロボット工学における幅広い課題にうまく適用されているが、予測の地平線によって基本的に制限されており、短すぎると近視的な決定に繋がる。 近年,mpcの終端コストとして学習値関数を用いることが提案されている。 値関数が正しければ、mpcは無限の地平線上で推論することができる。 残念ながら、価値関数近似に対する強化学習(RL)ソリューションは、ロボット工学のタスクでは実現が難しい。 本稿では,到達やナビゲーションなどの目標指向問題に適用可能な,より効率的な値関数近似手法を提案する。 これらの問題において、MPCはしばしばプランナーによって返される経路や軌跡を追跡するために定式化される。 しかし、この戦略は、ロボットに対する予期せぬ摂動が、実行時にコストがかかるような再計画を必要とするため、脆弱である。 代わりに、現代のプランナーが使用する中間データ構造を近似値関数として解釈する方法を示す。 この値関数は直接MPCで使用することができ、実行時により効率的で弾力性のある振る舞いをもたらすことを示す。

Model Predictive Control (MPC) is a classic tool for optimal control of complex, real-world systems. Although it has been successfully applied to a wide range of challenging tasks in robotics, it is fundamentally limited by the prediction horizon, which, if too short, will result in myopic decisions. Recently, several papers have suggested using a learned value function as the terminal cost for MPC. If the value function is accurate, it effectively allows MPC to reason over an infinite horizon. Unfortunately, Reinforcement Learning (RL) solutions to value function approximation can be difficult to realize for robotics tasks. In this paper, we suggest a more efficient method for value function approximation that applies to goal-directed problems, like reaching and navigation. In these problems, MPC is often formulated to track a path or trajectory returned by a planner. However, this strategy is brittle in that unexpected perturbations to the robot will require replanning, which can be costly at runtime. Instead, we show how the intermediate data structures used by modern planners can be interpreted as an approximate value function. We show that that this value function can be used by MPC directly, resulting in more efficient and resilient behavior at runtime.
翻訳日:2021-04-09 00:33:38 公開日:2021-04-07
# (参考訳) 変分ベイのための準ニュートン準モンテカルロ [全文訳有]

Quasi-Newton Quasi-Monte Carlo for variational Bayes ( http://arxiv.org/abs/2104.02865v1 )

ライセンス: CC BY 4.0
Sifan Liu and Art B. Owen(参考訳) 多くの機械学習問題は、ノイズで測定しなければならない目的を最適化する。 一次方法は、各ステップで1つ以上のモンテカルロ(mc)サンプルを用いた1次確率勾配降下である。 L-BFGSのような二階法がより効果的になるような設定もある。 このような問題に対するランダム化準モンテカルロサンプリング(RQMC)の利用について検討する。 mcサンプリングが$o(n^{-1/2})$のルート平均二乗誤差(rmse)を持つとき、rqmcは好適な設定で$o(n^{-3/2})$に近い$o(n^{-1/2})$のrmseを持つ。 サンプリング精度の向上は直接的に最適化に寄与することを示す。 RQMCと確率的L-BFGSを用いることで最適化が大幅に高速化され、MCよりも優れたパラメータ値が見つかることがある。

Many machine learning problems optimize an objective that must be measured with noise. The primary method is a first order stochastic gradient descent using one or more Monte Carlo (MC) samples at each step. There are settings where ill-conditioning makes second order methods such as L-BFGS more effective. We study the use of randomized quasi-Monte Carlo (RQMC) sampling for such problems. When MC sampling has a root mean squared error (RMSE) of $O(n^{-1/2})$ then RQMC has an RMSE of $o(n^{-1/2})$ that can be close to $O(n^{-3/2})$ in favorable settings. We prove that improved sampling accuracy translates directly to improved optimization. In our empirical investigations for variational Bayes, using RQMC with stochastic L-BFGS greatly speeds up the optimization, and sometimes finds a better parameter value than MC does.
翻訳日:2021-04-09 00:18:34 公開日:2021-04-07
# (参考訳) 教師付き分類におけるハームレスラベルノイズと情報ソフトラベル [全文訳有]

Harmless label noise and informative soft-labels in supervised classification ( http://arxiv.org/abs/2104.02872v1 )

ライセンス: CC BY 4.0
Daniel Ahfock and Geoffrey J. McLachlan(参考訳) トレーニング例のマニュアルラベリングは教師あり学習において一般的な実践である。 ラベル付けタスクが非自明な難易度である場合、供給されたラベルは、グランドトラストラベルと等しくなく、トレーニングデータセットにラベルノイズを導入する。 手動のアノテーションが複数の専門家によって実行される場合、同じトレーニング例は異なる専門家によって異なるクラス割り当てを与えられる。 モデルに基づく分類の枠組みでは、単純だが鍵となる観察は、手動ラベルがクラスメンバーシップの後方確率を用いてサンプリングされた場合、ノイズラベルは統計的情報の観点からは接地ラベルと同じくらい価値があるということである。 この過程の緩和は、クラスメンバーシップの近似的な後続確率を用いた群による不完全ラベリングに対するランダム効果モデルである。 雑音ラベルを用いたロジスティック回帰の相対効率は、基底トラスラベルを用いたロジスティック回帰と比較して導出できる。 主な発見は、ラベルノイズと分類難易度が正の相関関係にある場合、ロジスティック回帰はラベルノイズに頑健であるということである。 特に、分類困難がラベルエラーの唯一の発生源である場合、ノイズラベルの複数セットは、単独の接地ラベルよりも分類規則の推定のためにより多くの情報を提供することができる。

Manual labelling of training examples is common practice in supervised learning. When the labelling task is of non-trivial difficulty, the supplied labels may not be equal to the ground-truth labels, and label noise is introduced into the training dataset. If the manual annotation is carried out by multiple experts, the same training example can be given different class assignments by different experts, which is indicative of label noise. In the framework of model-based classification, a simple, but key observation is that when the manual labels are sampled using the posterior probabilities of class membership, the noisy labels are as valuable as the ground-truth labels in terms of statistical information. A relaxation of this process is a random effects model for imperfect labelling by a group that uses approximate posterior probabilities of class membership. The relative efficiency of logistic regression using the noisy labels compared to logistic regression using the ground-truth labels can then be derived. The main finding is that logistic regression can be robust to label noise when label noise and classification difficulty are positively correlated. In particular, when classification difficulty is the only source of label errors, multiple sets of noisy labels can supply more information for the estimation of a classification rule compared to the single set of ground-truth labels.
翻訳日:2021-04-08 23:57:52 公開日:2021-04-07
# (参考訳) speckles-training-ba sed denoising convolutional neural network ghost imaging [全文訳有]

Speckles-Training-Ba sed Denoising Convolutional Neural Network Ghost Imaging ( http://arxiv.org/abs/2104.02873v1 )

ライセンス: CC BY 4.0
Yuchen He, Sihong Duan, Jianxing Li, Hui Chen, Huaibin Zheng, Jianbin Liu, Shitao Zhu, Zhuo Xu(参考訳) ゴーストイメージング(GI)は、レンズレスイメージング能力、乱流なしイメージング、高感度検出のために徐々に注目されている。 しかし,低画質,低撮影速度ではGIの適用プロセスが制限される。 本稿では,DnCNN(Denoising Convolutional Neural Networks)に基づく改良GI手法を提案する。 DnCNNにおける入力(雑音画像)と出力(残留画像)の対応にインスパイアされ、トレーニングを通してスペックルシーケンスと対応するGIの雑音分布のマッピングを構築する。 そして、未知のターゲットを照らすために同じスペックルシーケンスを使用し、ノイズ除去対象画像を得る。 提案手法はGIの一般的な方法とみなすことができる。 2つのサンプリングレートの下で、従来のgi法(基本相関法と圧縮センシング法)とdncnn法を3つのデータセットで比較するための広範囲な実験を行った。 さらに,提案手法を検証するための物理gi実験システムを構築した。 その結果,提案手法は有望な性能を実現することがわかった。

Ghost imaging (GI) has been paid attention gradually because of its lens-less imaging capability, turbulence-free imaging and high detection sensitivity. However, low image quality and slow imaging speed restrict the application process of GI. In this paper, we propose a improved GI method based on Denoising Convolutional Neural Networks (DnCNN). Inspired by the corresponding between input (noisy image) and output (residual image) in DnCNN, we construct the mapping between speckles sequence and the corresponding noise distribution in GI through training. Then, the same speckles sequence is employed to illuminate unknown targets, and a de-noising target image will be obtained. The proposed method can be regarded as a general method for GI. Under two sampling rates, extensive experiments are carried out to compare with traditional GI method (basic correlation and compressed sensing) and DnCNN method on three data sets. Moreover, we set up a physical GI experiment system to verify the proposed method. The results show that the proposed method achieves promising performance.
翻訳日:2021-04-08 23:42:51 公開日:2021-04-07
# (参考訳) 動的特徴融合による文書レイアウト解析 [全文訳有]

Document Layout Analysis via Dynamic Residual Feature Fusion ( http://arxiv.org/abs/2104.02874v1 )

ライセンス: CC BY 4.0
Xingjiao Wu, Ziling Hu, Xiangcheng Du, Jing Yang, Liang He(参考訳) 文書レイアウト解析(DLA)は、文書イメージを異なる関心領域に分割し、光学文字認識(OCR)システムや文書検索など幅広い用途を持つ各領域の役割を理解することを目的としている。 しかし、トレーニングデータが非常に限られており、効率的なモデルがないため、DLAシステムを構築するのは困難である。 本稿では,DLAタスクに対して,DRFN(Dynamic Residual Fusion Network)と呼ばれるエンドツーエンドの統合ネットワークを提案する。 具体的には,低次元情報を十分に活用し,高次元のカテゴリ情報を保持する動的特徴融合モジュールを設計した。 また,十分なデータ不足によるモデルオーバーフィッティング問題に対処するため,限られた列車データに対して効率的な微調整を行う動的選択機構を提案する。 2つの難解なデータセットを実験し,提案モジュールの有効性を示す。

The document layout analysis (DLA) aims to split the document image into different interest regions and understand the role of each region, which has wide application such as optical character recognition (OCR) systems and document retrieval. However, it is a challenge to build a DLA system because the training data is very limited and lacks an efficient model. In this paper, we propose an end-to-end united network named Dynamic Residual Fusion Network (DRFN) for the DLA task. Specifically, we design a dynamic residual feature fusion module which can fully utilize low-dimensional information and maintain high-dimensional category information. Besides, to deal with the model overfitting problem that is caused by lacking enough data, we propose the dynamic select mechanism for efficient fine-tuning in limited train data. We experiment with two challenging datasets and demonstrate the effectiveness of the proposed module.
翻訳日:2021-04-08 23:30:36 公開日:2021-04-07
# (参考訳) コンセプトドリフトによるデータストリームのオンライン機能スクリーニング [全文訳有]

Online Feature Screening for Data Streams with Concept Drift ( http://arxiv.org/abs/2104.02883v1 )

ライセンス: CC BY 4.0
Mingyuan Wang, Adrian Barbu(参考訳) スクリーニング特徴選択法は、トレーニングステップの前に変数の数を減らす前処理ステップとしてよく使用される。 従来のスクリーニング手法は、完全な高次元データセットを扱うことのみに焦点を当てている。 現代のデータセットは、より高い次元とより大きなサンプルサイズを持つだけでなく、ストリーミング入力、スパーシティ、コンセプトドリフトといった特性を持つ。 そのため,近年,このような問題に対処するオンライン機能選択手法が数多く導入されている。 オンラインスクリーニング手法は、オンラインの特徴選択方法のカテゴリの1つである。 本研究で提案する手法は,上記の3つの状況すべてを扱うことができる。 本研究は分類データセットに焦点をあてる。 実験の結果,提案手法はオフライン版と同じ特徴を高速かつ少ないストレージで生成できることがわかった。 さらに, 統合モデル適応型オンラインスクリーニング手法は, ドリフト特性を持つデータストリーム上でのモデル適応の有無よりも, 真の特徴検出率が高いことを示した。 概念のドリフト特性を持つ可能性のある2つの大きな実データセットのうち、モデル適応によるオンラインスクリーニング手法は、計算時間と空間の節約、モデルの複雑さの低減、予測精度の向上といった利点を示す。

Screening feature selection methods are often used as a preprocessing step for reducing the number of variables before training step. Traditional screening methods only focus on dealing with complete high dimensional datasets. Modern datasets not only have higher dimension and larger sample size, but also have properties such as streaming input, sparsity and concept drift. Therefore a considerable number of online feature selection methods were introduced to handle these kind of problems in recent years. Online screening methods are one of the categories of online feature selection methods. The methods that we proposed in this research are capable of handling all three situations mentioned above. Our research study focuses on classification datasets. Our experiments show proposed methods can generate the same feature importance as their offline version with faster speed and less storage consumption. Furthermore, the results show that online screening methods with integrated model adaptation have a higher true feature detection rate than without model adaptation on data streams with the concept drift property. Among the two large real datasets that potentially have the concept drift property, online screening methods with model adaptation show advantages in either saving computing time and space, reducing model complexity, or improving prediction accuracy.
翻訳日:2021-04-08 23:09:24 公開日:2021-04-07
# (参考訳) 精密かつロバストなメイクアップトランスフォーメーションのための顔属性トランスフォーマー [全文訳有]

Facial Attribute Transformers for Precise and Robust Makeup Transfer ( http://arxiv.org/abs/2104.02894v1 )

ライセンス: CC BY 4.0
Zhaoyi Wan, Haoran Chen, Jielei Zhang, Wentao Jiang, Cong Yao, Jiebo Luo(参考訳) 本稿では,ソースの同一性を保ちながら,基準面からソース面へのメイクを移植することを目的としたメークアップ転送の問題に対処する。 既存のメイク転写法は, 現実的なメイク顔の生成において顕著な進歩を遂げているが, 色忠実度や空間変換の面では, 良好な性能は得られていない。 そこで本稿では,新しい顔属性トランスフォーマー(fat)と,その異種空間脂肪を用いた高品質メイクアップトランスフォーメーションを提案する。 NLPのTransformerからインスピレーションを得たFATは、元の顔と参照顔の間の意味的対応と相互作用をモデル化し、顔の特徴を正確に推定し、転送することができる。 さらに, 顔の形状変形や変形を容易にするため, 薄板スプライン(TPS)をFATに統合し, 色やテクスチャに加え, 幾何学的特性を伝達する最初の手法である空間的FATを作成する。 広汎な質的および定量的な実験は,(1)高忠実度色移動の確保,(2)顔の幾何学的変換,(3)顔のバリエーション(ポーズや影など)の取り扱い,(4)高分解能顔生成支援の両面において,提案するFATの有効性と優位性を示す。

In this paper, we address the problem of makeup transfer, which aims at transplanting the makeup from the reference face to the source face while preserving the identity of the source. Existing makeup transfer methods have made notable progress in generating realistic makeup faces, but do not perform well in terms of color fidelity and spatial transformation. To tackle these issues, we propose a novel Facial Attribute Transformer (FAT) and its variant Spatial FAT for high-quality makeup transfer. Drawing inspirations from the Transformer in NLP, FAT is able to model the semantic correspondences and interactions between the source face and reference face, and then precisely estimate and transfer the facial attributes. To further facilitate shape deformation and transformation of facial parts, we also integrate thin plate splines (TPS) into FAT, thus creating Spatial FAT, which is the first method that can transfer geometric attributes in addition to color and texture. Extensive qualitative and quantitative experiments demonstrate the effectiveness and superiority of our proposed FATs in the following aspects: (1) ensuring high-fidelity color transfer; (2) allowing for geometric transformation of facial parts; (3) handling facial variations (such as poses and shadows) and (4) supporting high-resolution face generation.
翻訳日:2021-04-08 22:51:29 公開日:2021-04-07
# (参考訳) 事前訓練された同変機能は教師なしのランドマーク発見を改善する [全文訳有]

Pretrained equivariant features improve unsupervised landmark discovery ( http://arxiv.org/abs/2104.02925v1 )

ライセンス: CC BY 4.0
Rahul Rahaman, Atin Ghosh and Alexandre H. Thiery(参考訳) 意味的に意味のあるランドマークポイントの配置は多くのコンピュータビジョンパイプラインの重要な構成要素である。 地上の真実のランドマークアノテーションを持つデータセットは少ないため、ランドマーク検出のための堅牢で半教師なしな手法を設計することが重要である。 最近の教師なし学習の多くは、ランドマークの等分散特性と合成画像の変形に依存する。 本研究は,このような広範に使用される手法に焦点をあて,その核となる問題,同変中間畳み込み的特徴を発生できないことに光を当てる。 この発見により、2段階の教師なしアプローチでこの課題を克服し、まず強力なピクセルベースの特徴を学習し、次に事前訓練された特徴を用いて従来の等分散法でランドマーク検出器を学習する。 本手法は,bbcのポーズデータセットやcat-headデータセットなど,いくつかの難易度の高いランドマーク検出データセットを生成する。 他のベンチマークで比較可能。

Locating semantically meaningful landmark points is a crucial component of a large number of computer vision pipelines. Because of the small number of available datasets with ground truth landmark annotations, it is important to design robust unsupervised and semi-supervised methods for landmark detection. Many of the recent unsupervised learning methods rely on the equivariance properties of landmarks to synthetic image deformations. Our work focuses on such widely used methods and sheds light on its core problem, its inability to produce equivariant intermediate convolutional features. This finding leads us to formulate a two-step unsupervised approach that overcomes this challenge by first learning powerful pixel-based features and then use the pre-trained features to learn a landmark detector by the traditional equivariance method. Our method produces state-of-the-art results in several challenging landmark detection datasets such as the BBC Pose dataset and the Cat-Head dataset. It performs comparably on a range of other benchmarks.
翻訳日:2021-04-08 22:25:29 公開日:2021-04-07
# (参考訳) 二重ロバスト関数のクラスのためのminimaxカーネル機械学習

Minimax Kernel Machine Learning for a Class of Doubly Robust Functionals ( http://arxiv.org/abs/2104.02929v1 )

ライセンス: CC BY 4.0
AmirEmad Ghassami, Andrew Ying, Ilya Shpitser, Eric Tchetgen Tchetgen(参考訳) モーメント関数は、2つのニュアンス関数からなるとき、二重ロバストと呼ばれ、それに基づく推定器は、ニュアンス関数の1つが不特定であっても、ターゲットパラメータの一貫した推定器である。 本稿では(robins et al., 2008) で導入された2重ロバストなモーメント関数のクラスについて考察する。 このモーメント関数は、ニュアサンス関数の推定式を構築するのに使うことができる。 主なアイデアは、モーメント関数の期待値の他のニュアサンス関数への依存性を最小限に抑えるように、各ニュアザンス関数を選択することである。 我々はこのアイデアをミニマックス最適化問題として実装する。 次に,条件付き期待演算子の局所的不適合性に加えて,ニュアサンス関数の誤差の積の収束率に基づいて,利子パラメータの推定器の漸近線形性に必要な条件を与える。 ニュアサンス関数の収束率は、関数空間のラデマシェ複雑性に基づく統計学習理論の現代的な手法を用いて解析される。 具体的には、函数空間が核ヒルベルト空間を再現している場合に焦点を当て、スペクトル特性を用いて収束率を解析することができる。 提案手法の適用例として,潜在共同創設者の存在と不在における平均因果効果のパラメータを検討する。 我々は最近提案された近位因果推定フレームワーク(Miao et al., 2018; Tchetgen Tchetgen et al., 2020)を用い,本フレームワークにおける平均因果効果を推定するための頑健な非パラメトリック推定器を開発した。

A moment function is called doubly robust if it is comprised of two nuisance functions and the estimator based on it is a consistent estimator of the target parameter even if one of the nuisance functions is misspecified. In this paper, we consider a class of doubly robust moment functions originally introduced in (Robins et al., 2008). We demonstrate that this moment function can be used to construct estimating equations for the nuisance functions. The main idea is to choose each nuisance function such that it minimizes the dependency of the expected value of the moment function to the other nuisance function. We implement this idea as a minimax optimization problem. We then provide conditions required for asymptotic linearity of the estimator of the parameter of interest, which are based on the convergence rate of the product of the errors of the nuisance functions, as well as the local ill-posedness of a conditional expectation operator. The convergence rates of the nuisance functions are analyzed using the modern techniques in statistical learning theory based on the Rademacher complexity of the function spaces. We specifically focus on the case that the function spaces are reproducing kernel Hilbert spaces, which enables us to use its spectral properties to analyze the convergence rates. As an application of the proposed methodology, we consider the parameter of average causal effect both in presence and absence of latent confounders. For the case of presence of latent confounders, we use the recently proposed proximal causal inference framework of (Miao et al., 2018; Tchetgen Tchetgen et al., 2020), and hence our results lead to a robust non-parametric estimator for average causal effect in this framework.
翻訳日:2021-04-08 22:08:35 公開日:2021-04-07
# (参考訳) 人間-エージェントチームにおける心の理論の深い解釈可能なモデル [全文訳有]

Deep Interpretable Models of Theory of Mind For Human-Agent Teaming ( http://arxiv.org/abs/2104.02938v1 )

ライセンス: CC BY 4.0
Ini Oguntola, Dana Hughes, Katia Sycara(参考訳) 人間と対話するAIシステムを開発する際には、人間を理解することのできるシステムと、人間が理解できるシステムの両方を設計することが不可欠である。 最も深いネットワークベースのエージェントモデリングアプローチは、1)解釈可能ではなく、2)外部の行動のみをモデル化し、内部の精神状態を無視し、援助、介入、誤った信念の発見などの能力を制限する。 この目的のために、他の観測対象の意図をモデル化するための解釈可能なモジュラーニューラルネットワークフレームワークを開発する。 本研究では,マインクラフトにおける探索救助作業における人的参加者のデータを用いた実験により,本手法の有効性を実証し,適切な条件下での予測性能を著しく向上させることを示す。

When developing AI systems that interact with humans, it is essential to design both a system that can understand humans, and a system that humans can understand. Most deep network based agent-modeling approaches are 1) not interpretable and 2) only model external behavior, ignoring internal mental states, which potentially limits their capability for assistance, interventions, discovering false beliefs, etc. To this end, we develop an interpretable modular neural framework for modeling the intentions of other observed entities. We demonstrate the efficacy of our approach with experiments on data from human participants on a search and rescue task in Minecraft, and show that incorporating interpretability can significantly increase predictive performance under the right conditions.
翻訳日:2021-04-08 22:07:21 公開日:2021-04-07
# (参考訳) level-set curvature neural networks: ハイブリッドアプローチ [全文訳有]

Level-Set Curvature Neural Networks: A Hybrid Approach ( http://arxiv.org/abs/2104.02951v1 )

ライセンス: CC BY 4.0
Luis \'Angel Larios-C\'ardenas and Frederic Gibou(参考訳) レベルセット法における平均曲率を計算するために,ディープラーニングに基づくハイブリッド戦略を提案する。 提案手法は,改良回帰モデルの辞書と標準数値スキームを組み合わせて,曲率をより正確に推定する。 我々のフレームワークの中核は、曲率を測るために確立された数値技術に依存する切替機構である。 曲率のマグニチュードが解像度依存性のしきい値よりも大きい場合、ニューラルネットワークを使ってより良い近似を生成する。 我々のネットワークは、様々な構成で円形および正弦波界面サンプルからなる合成データセットに適合する多層パーセプトロンである。 データセットのサイズとトレーニングの複雑さを減らすために、問題の特性対称性を活用し、曲率スペクトルのわずか半分でモデルを構築する。 これらの節約により、コンパクトネットワークは、システムの数値的または神経的コンポーネントを単独で上回ることができる。 静的インターフェースを用いた実験により,我々のハイブリッドアプローチは,未解決かつ急勾配の凹凸領域における従来の数値手法よりも適していることが示された。 先行研究と比較して,入力前処理の1つ以上の入力前処理からのデータペアをトレーニングした結果,精度が著しく向上した。 特に,機械学習は,レベルセット手法の数値的欠点に対する実現可能な解決策を考案する上で有望な場所であることを確認した。

We present a hybrid strategy based on deep learning to compute mean curvature in the level-set method. The proposed inference system combines a dictionary of improved regression models with standard numerical schemes to estimate curvature more accurately. The core of our framework is a switching mechanism that relies on well-established numerical techniques to gauge curvature. If the curvature magnitude is larger than a resolution-dependent threshold, it uses a neural network to yield a better approximation. Our networks are multi-layer perceptrons fitted to synthetic data sets composed of circular- and sinusoidal-interface samples at various configurations. To reduce data set size and training complexity, we leverage the problem's characteristic symmetry and build our models on just half of the curvature spectrum. These savings result in compact networks able to outperform any of the system's numerical or neural component alone. Experiments with static interfaces show that our hybrid approach is suitable and notoriously superior to conventional numerical methods in under-resolved and steep, concave regions. Compared to prior research, we have observed outstanding gains in precision after including training data pairs from more than a single interface type and other means of input preprocessing. In particular, our findings confirm that machine learning is a promising venue for devising viable solutions to the level-set method's numerical shortcomings.
翻訳日:2021-04-08 21:51:02 公開日:2021-04-07
# (参考訳) エピソードメタRLにおける抽象ニューロンとエピソードニューロンの出現 [全文訳有]

The Emergence of Abstract and Episodic Neurons in Episodic Meta-RL ( http://arxiv.org/abs/2104.02959v1 )

ライセンス: CC BY-SA 4.0
Badr AlKhamissi, Muhammad ElNokrashy, Michael Spranger(参考訳) 本稿では,リッターらが導入したリテンション機構を解析する。 (2018)は、ハーロウ視覚固定タスクのエピソード変種において、エピソードメタRLを用いて訓練すると、エージェントのワーキングメモリ(epLSTM細胞)に現れる2種類のニューロンを明らかにする。 具体的には、抽象ニューロンはタスク間で共有される知識を符号化し、エピソードニューロンは特定のエピソードのタスクに関連する情報を運ぶ。

In this work, we analyze the reinstatement mechanism introduced by Ritter et al. (2018) to reveal two classes of neurons that emerge in the agent's working memory (an epLSTM cell) when trained using episodic meta-RL on an episodic variant of the Harlow visual fixation task. Specifically, Abstract neurons encode knowledge shared across tasks, while Episodic neurons carry information relevant for a specific episode's task.
翻訳日:2021-04-08 21:21:54 公開日:2021-04-07
# (参考訳) the art of defense: ネットワークを攻撃者を騙す [全文訳有]

The art of defense: letting networks fool the attacker ( http://arxiv.org/abs/2104.02963v1 )

ライセンス: CC BY 4.0
Jinlai Zhang, Binbin Liu, Lyvjie Chen, Bo Ouyang, Jihong Zhu, Minchi Kuang, Houqing Wang, Yanmei Meng(参考訳) いくつかのディープニューラルネットワークは入力変換に不変であり、例えば、入力点クラウドに不変なpointnetis permutationなどである。 本稿では,この特性が勾配に基づく攻撃の防御に有効であることを実証した。 具体的には、防御したいネットワークに不変なランダムな入力変換を適用する。 広範な実験により、提案手法がsoma防御法を上回り、攻撃精度をほぼゼロにすることを示した。

Some deep neural networks are invariant to some input transformations, such as Pointnetis permutation invariant to the input point cloud. In this paper, we demonstrated this property can be powerful in the defense of gradient based attacks. Specifically, we apply random input transformation which is invariant to networks we want to defend. Extensive experiments demonstrate that the proposed scheme outperforms the SOTA defense methods, and breaking the attack accuracy into nearly zero.
翻訳日:2021-04-08 21:14:01 公開日:2021-04-07
# (参考訳) ACM-Net:時間的行動局所化のための行動コンテキストモデリングネットワーク [全文訳有]

ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal Action Localization ( http://arxiv.org/abs/2104.02967v1 )

ライセンス: CC BY 4.0
Sanqing Qu, Guang Chen, Zhijun Li, Lijun Zhang, Fan Lu, Alois Knoll(参考訳) 弱教師付き時間的アクションローカライズの目的は、アクションインスタンスの時間的境界を局所化し、対応するアクションカテゴリをビデオレベルラベルのみで識別することである。 伝統的な手法は主に前景と背景フレームの分離に重点を置いており、単一の注意ブランチとクラスアクティベーションシーケンスしか持たない。 しかし,前景や背景フレームは別として,意味的にあいまいなアクション・コンテキスト・フレームが多数存在する。 特定のアクションカテゴリにセマンティックに関連があるため、それらのコンテキストフレームを同じバックグラウンドクラスにグループ化することは意味がない。 したがって、単一のクラスのアクティベーションシーケンスだけでアクションコンテキストフレームを抑えることは困難である。 本稿では,ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。このネットワークは3分岐アテンションモジュールを統合し,アクションインスタンス,コンテキスト,非アクションバックグラウンドの各時間点の確率を同時に測定する。 そして得られた3ブランチの注目値に基づいて,アクションインスタンス,コンテキスト,非アクション背景を個別に表現する3ブランチクラスのアクティベーションシーケンスを構築する。 ACM-Netの有効性を評価するため、2つのベンチマークデータセットTHUMOS-14とActivityNet-1.3について広範な実験を行った。 実験の結果,本手法は最先端の手法よりも優れており,完全教師付き手法で同等の性能を達成できることがわかった。 コードはhttps://github.com/i spc-lab/acm-netにある。

Weakly-supervised temporal action localization aims to localize action instances temporal boundary and identify the corresponding action category with only video-level labels. Traditional methods mainly focus on foreground and background frames separation with only a single attention branch and class activation sequence. However, we argue that apart from the distinctive foreground and background frames there are plenty of semantically ambiguous action context frames. It does not make sense to group those context frames to the same background class since they are semantically related to a specific action category. Consequently, it is challenging to suppress action context frames with only a single class activation sequence. To address this issue, in this paper, we propose an action-context modeling network termed ACM-Net, which integrates a three-branch attention module to measure the likelihood of each temporal point being action instance, context, or non-action background, simultaneously. Then based on the obtained three-branch attention values, we construct three-branch class activation sequences to represent the action instances, contexts, and non-action backgrounds, individually. To evaluate the effectiveness of our ACM-Net, we conduct extensive experiments on two benchmark datasets, THUMOS-14 and ActivityNet-1.3. The experiments show that our method can outperform current state-of-the-art methods, and even achieve comparable performance with fully-supervised methods. Code can be found at https://github.com/i spc-lab/ACM-Net
翻訳日:2021-04-08 21:01:39 公開日:2021-04-07
# (参考訳) mpn:オーディオ・ビジュアルイベントローカライズのためのマルチモーダル並列ネットワーク [全文訳有]

MPN: Multimodal Parallel Network for Audio-Visual Event Localization ( http://arxiv.org/abs/2104.02971v1 )

ライセンス: CC BY 4.0
Jiashuo Yu, Ying Cheng, Rui Feng(参考訳) オーディオ・ビジュアル・イベント・ローカライゼーション(Audio-visual event localization)は、制約のないビデオの音声・視覚シーン分析タスクである、野生で可聴かつ可視なイベントをローカライズすることを目的としている。 この課題に対処するために,グローバルセマンティクスと未混合ローカル情報を並列に知覚できるマルチモーダル並列ネットワーク(MPN)を提案する。 具体的には、イベントカテゴリを予測する分類サブネットワークと、イベント境界を予測するローカライゼーションサブネットワークで構成される。 分類サブネットワークはMCM(Multimodal Co-attention Module)によって構築され、グローバルなコンテキストを得る。 ローカライゼーションサブネットワークは、細かなセグメントレベルのコンテンツを抽出するために設計されたMultimodal Bottleneck Attention Module (MBAM)で構成されている。 大規模な実験により,AVE(Audio-Visual Event)データセットの完全な教師付きおよび弱い教師付き設定において,我々のフレームワークが最先端のパフォーマンスを達成することが示された。

Audio-visual event localization aims to localize an event that is both audible and visible in the wild, which is a widespread audio-visual scene analysis task for unconstrained videos. To address this task, we propose a Multimodal Parallel Network (MPN), which can perceive global semantics and unmixed local information parallelly. Specifically, our MPN framework consists of a classification subnetwork to predict event categories and a localization subnetwork to predict event boundaries. The classification subnetwork is constructed by the Multimodal Co-attention Module (MCM) and obtains global contexts. The localization subnetwork consists of Multimodal Bottleneck Attention Module (MBAM), which is designed to extract fine-grained segment-level contents. Extensive experiments demonstrate that our framework achieves the state-of-the-art performance both in fully supervised and weakly supervised settings on the Audio-Visual Event (AVE) dataset.
翻訳日:2021-04-08 20:34:16 公開日:2021-04-07
# (参考訳) CNNが生成した画像は驚くほど簡単に見つけられる...今のところ [全文訳有]

[RE] CNN-generated images are surprisingly easy to spot...for now ( http://arxiv.org/abs/2104.02984v1 )

ライセンス: CC BY 4.0
Joel Frank, Thorsten Holz(参考訳) この研究は、Wangらによる論文「CNN生成画像は驚くほど簡単に発見できる」の再現性を評価する。 CVPR 2020で発表。 論文は、人間を騙す可能性さえあるCNN生成画像を検出するという課題に対処する。 筆者らは,画像分類器が1つの特定のcnn上でのトレーニングから,未知のアーキテクチャやトレーニング方法,データセットによって生成された画像の検出まで一般化するのに役立つ2つの手法を提案する。 本稿では,分類器を一般化するための2つの手法を提案する。 (i) 異なるデータ拡張の活用と (ii) 多様なデータセットの利用である。 本報告は,これらの技術が一般化プロセスに役立つかどうかを評価することに焦点を当てる。 さらに,提案手法の限界を検討するための追加実験を行った。

This work evaluates the reproducibility of the paper "CNN-generated images are surprisingly easy to spot... for now" by Wang et al. published at CVPR 2020. The paper addresses the challenge of detecting CNN-generated imagery, which has reached the potential to even fool humans. The authors propose two methods which help an image classifier to generalize from being trained on one specific CNN to detecting imagery produced by unseen architectures, training methods, or data sets. The paper proposes two methods to help a classifier generalize: (i) utilizing different kinds of data augmentations and (ii) using a diverse data set. This report focuses on assessing if these techniques indeed help the generalization process. Furthermore, we perform additional experiments to study the limitations of the proposed techniques.
翻訳日:2021-04-08 20:24:13 公開日:2021-04-07
# (参考訳) Plinius: セキュアで永続的な機械学習モデルトレーニング [全文訳有]

Plinius: Secure and Persistent Machine Learning Model Training ( http://arxiv.org/abs/2104.02987v1 )

ライセンス: CC BY 4.0
Peterson Yuhala, Pascal Felber, Valerio Schiavoni, Alain Tchana(参考訳) クラウドベースの機械学習(ML)技術の普及に伴い、MLデータに対するプライバシと整合性の保証が求められている。 さらに、DRAMが直面している大きなスケーラビリティ上の課題とセカンダリストレージのアクセス時間の高さは、MLシステムにとって大きなパフォーマンスボトルネックとなっている。 セキュリティ面に取り組むためのソリューションは存在するが、パフォーマンスは依然として問題である。 永続メモリ(PM)は電力損失(DRAMとは違い)に耐性があり、高速かつきめ細かなメモリアクセス(ディスクストレージとは違い)を提供し、遅延と帯域幅はDRAMに近い(それぞれ ns と GB/s の順)。 本稿では,Intel SGXエンクレーブを用いたMLフレームワークであるPLINIUSと,フォールトトレランス保証のためのPMを提案する。 p liniusは、(i)pm上のmlモデルの暗号化ミラーコピーを作成し、維持するために、新しいミラーリングメカニズムを使用し、(ii) システム障害後のほぼ瞬時データ回復のために、バイトアドレス可能なpmで暗号化されたトレーニングデータを生成する。 ディスクベースのチェックポイントシステムと比較して、PLINIUSは実PMハードウェア上でモデルを保存および復元するためにそれぞれ3.2倍と3.7倍高速であり、SGXエンクレーブで堅牢かつセキュアなMLモデルのトレーニングを実現する。

With the increasing popularity of cloud based machine learning (ML) techniques there comes a need for privacy and integrity guarantees for ML data. In addition, the significant scalability challenges faced by DRAM coupled with the high access-times of secondary storage represent a huge performance bottleneck for ML systems. While solutions exist to tackle the security aspect, performance remains an issue. Persistent memory (PM) is resilient to power loss (unlike DRAM), provides fast and fine-granular access to memory (unlike disk storage) and has latency and bandwidth close to DRAM (in the order of ns and GB/s, respectively). We present PLINIUS, a ML framework using Intel SGX enclaves for secure training of ML models and PM for fault tolerance guarantees. P LINIUS uses a novel mirroring mechanism to create and maintain (i) encrypted mirror copies of ML models on PM, and (ii) encrypted training data in byte-addressable PM, for near-instantaneous data recovery after a system failure. Compared to disk-based checkpointing systems,PLINIUS is 3.2x and 3.7x faster respectively for saving and restoring models on real PM hardware, achieving robust and secure ML model training in SGX enclaves.
翻訳日:2021-04-08 20:11:01 公開日:2021-04-07
# (参考訳) 微分的確率的単調変分不等式と鞍点問題に対する最適アルゴリズム

Optimal Algorithms for Differentially Private Stochastic Monotone Variational Inequalities and Saddle-Point Problems ( http://arxiv.org/abs/2104.02988v1 )

ライセンス: CC BY 4.0
Digvijay Boob and Crist\'obal Guzm\'an(参考訳) 本研究では,確率的変動不等式(SVI)と確率的サドル点(SSP)の問題を,差分プライバシー(DP)の制約下で初めて体系的に研究する。 本稿では,NISPP(Nuisy Inexact Stochastic Proximal Point)とNSEG(Nuisy Stochastic Exgradient)の2つのアルゴリズムを提案する。 dp-sviとdp-sspの最適リスクは,これらのアルゴリズムの置換型によるサンプリングが達成できることを示す。 解析の鍵となるのはアルゴリズムの安定性境界の研究であり、どちらも非プライベートの場合においても新しいものであり、SVI問題とSSP問題のギャップ関数に対する新しい「安定性は一般化を示唆する」結果である。 これらのアルゴリズムの実行時間の依存は、データセットサイズ$n$に対して、NSEGでは$n^2$、NISPPでは$\widetilde{O}(n^{3/2})$である。

In this work, we conduct the first systematic study of stochastic variational inequality (SVI) and stochastic saddle point (SSP) problems under the constraint of differential privacy-(DP). We propose two algorithms: Noisy Stochastic Extragradient (NSEG) and Noisy Inexact Stochastic Proximal Point (NISPP). We show that sampling with replacement variants of these algorithms attain the optimal risk for DP-SVI and DP-SSP. Key to our analysis is the investigation of algorithmic stability bounds, both of which are new even in the nonprivate case, together with a novel "stability implies generalization" result for the gap functions for SVI and SSP problems. The dependence of the running time of these algorithms, with respect to the dataset size $n$, is $n^2$ for NSEG and $\widetilde{O}(n^{3/2})$ for NISPP.
翻訳日:2021-04-08 19:47:02 公開日:2021-04-07
# (参考訳) 脳卒中急性期におけるct灌流画像による梗塞領域のcnnによる分節化 [全文訳有]

CNN Based Segmentation of Infarcted Regions in Acute Cerebral Stroke Patients From Computed Tomography Perfusion Imaging ( http://arxiv.org/abs/2104.03002v1 )

ライセンス: CC BY 4.0
Luca Tomasetti, Kjersti Engan, Mahdieh Khanmohammadi, and Kathinka D{\ae}hli Kurz(参考訳) 毎年1300万人以上が虚血性脳卒中を患っている。 血栓溶解療法は脳損傷を軽減できるが、治療窓は狭い。 ct perfusion imagingは脳卒中患者にとって一般的に用いられる一次評価ツールであり、一般的に放射線科医は、被害地域、死組織(コア)、および危険組織(ペンブラ)を推定し、さらなる治療を決定するためのパラメトリックマップを評価する。 異なる研究が報告され、しきい値と半自動の手法が提案され、後年、パラメトリックマップに基づいて梗塞領域をセグメンテーションするディープニューラルネットワークが提案された。 しかしながら、どのしきい値を使用するか、パラメトリックマップからの情報をどのように組み合わせるかという点でのコンセンサスはなく、提示された方法は全て正確性と再現性の両方の点で制限がある。 本稿では,4次元ctパーフュージョンデータセットを入力とした完全自動化畳み込みニューラルネットワークに基づくセグメント化手法を提案する。 提案するネットワークは概念実証として利用可能なデータセット上でテストされます。 クロスバリデーションの結果,平均Diceスコアは0.78,0.53,受信機動作特性曲線は0.97,0.94であった。

More than 13 million people suffer from ischemic cerebral stroke worldwide each year. Thrombolytic treatment can reduce brain damage but has a narrow treatment window. Computed Tomography Perfusion imaging is a commonly used primary assessment tool for stroke patients, and typically the radiologists will evaluate resulting parametric maps to estimate the affected areas, dead tissue (core), and the surrounding tissue at risk (penumbra), to decide further treatments. Different work has been reported, suggesting thresholds, and semi-automated methods, and in later years deep neural networks, for segmenting infarction areas based on the parametric maps. However, there is no consensus in terms of which thresholds to use, or how to combine the information from the parametric maps, and the presented methods all have limitations in terms of both accuracy and reproducibility. We propose a fully automated convolutional neural network based segmentation method that uses the full four-dimensional computed tomography perfusion dataset as input, rather than the pre-filtered parametric maps. The suggested network is tested on an available dataset as a proof-of-concept, with very encouraging results. Cross-validated results show averaged Dice score of 0.78 and 0.53, and an area under the receiver operating characteristic curve of 0.97 and 0.94 for penumbra and core respectively
翻訳日:2021-04-08 19:45:57 公開日:2021-04-07
# (参考訳) RTIC:グラフ畳み込みネットワークを用いたテキスト・画像合成のための残差学習 [全文訳有]

RTIC: Residual Learning for Text and Image Composition using Graph Convolutional Network ( http://arxiv.org/abs/2104.03015v1 )

ライセンス: CC BY 4.0
Minchul Shin, Yoonjae Cho, Byungsoo Ko, Geonmo Gu(参考訳) 本稿では,画像検索のための画像とテキストの合成学習について検討する。 クエリは、画像に対する所望の修正を記述した画像とテキストの形式で与えられる。目標は、与えられた修正を満たすターゲットイメージを検索し、テキストと画像のモダリティの両方で情報を構成することでクエリに類似させることである。 この課題を達成するために,スキップ接続を用いた簡易な新しいアーキテクチャを提案し,遅延空間におけるソースとターゲット画像間のエラーを効果的に符号化する。 さらに,グラフ畳み込みネットワーク(GCN)と既存の合成手法を組み合わせた新しい手法を提案する。 この組み合わせは、プラグアンドプレイ方式でパフォーマンスを一貫して改善する。 広く使われているデータセットで徹底的で徹底的な実験を行い、このモデルでタスクの最先端のスコアを得る。 トレーニング条件の差が最終成績に大きく影響するため, 比較の公平性を確保するため, 評価の厳格な基準を提案する。 再現性のために、比較したすべてのメソッドを含む実装をリリースします。

In this paper, we study the compositional learning of images and texts for image retrieval. The query is given in the form of an image and text that describes the desired modifications to the image; the goal is to retrieve the target image that satisfies the given modifications and resembles the query by composing information in both the text and image modalities. To accomplish this task, we propose a simple new architecture using skip connections that can effectively encode the errors between the source and target images in the latent space. Furthermore, we introduce a novel method that combines the graph convolutional network (GCN) with existing composition methods. We find that the combination consistently improves the performance in a plug-and-play manner. We perform thorough and exhaustive experiments on several widely used datasets, and achieve state-of-the-art scores on the task with our model. To ensure fairness in comparison, we suggest a strict standard for the evaluation because a small difference in the training conditions can significantly affect the final performance. We release our implementation, including that of all the compared methods, for reproducibility.
翻訳日:2021-04-08 19:31:26 公開日:2021-04-07
# (参考訳) 花を用いたオンデバイスフェデレーション学習 [全文訳有]

On-device Federated Learning with Flower ( http://arxiv.org/abs/2104.03042v1 )

ライセンス: CC BY 4.0
Akhil Mathur, Daniel J. Beutel, Pedro Porto Buarque de Gusm\~ao, Javier Fernandez-Marques, Taner Topal, Xinchi Qiu, Titouan Parcollet, Yan Gao, Nicholas D. Lane(参考訳) フェデレーション学習(federated learning, fl)は,エッジデバイスがデバイス上にトレーニングデータを保持しながら,共有予測モデルを協調的に学習することを可能にする。 flのアルゴリズムの進歩にもかかわらず、エッジデバイス上でのflアルゴリズムのオンデバイストレーニングのサポートは乏しいままである。 本稿では,Flowerフレームワークを用いて,様々なスマートフォンや組み込みデバイス上でのデバイスFLの探索を行う。 また、オンデバイスflのシステムコストを評価し、この定量化がより効率的なflアルゴリズムの設計にどのように役立つかについて議論する。

Federated Learning (FL) allows edge devices to collaboratively learn a shared prediction model while keeping their training data on the device, thereby decoupling the ability to do machine learning from the need to store data in the cloud. Despite the algorithmic advancements in FL, the support for on-device training of FL algorithms on edge devices remains poor. In this paper, we present an exploration of on-device FL on various smartphones and embedded devices using the Flower framework. We also evaluate the system costs of on-device FL and discuss how this quantification could be used to design more efficient FL algorithms.
翻訳日:2021-04-08 19:10:09 公開日:2021-04-07
# (参考訳) 予測モデルにおけるgoogle trendsの適切な利用 [全文訳有]

The Properly Use of Google Trends in Forecasting Models ( http://arxiv.org/abs/2104.03065v1 )

ライセンス: CC BY 4.0
Marcelo C. Medeiros, Henrique F. Pires(参考訳) \texttt{Google Trends}は、学者と民間、公共の両方で、予測者が使用する最も人気のある無料ツールの1つであることが広く知られている。 いくつかの異なる分野から,‘texttt{Google Trends} が予測の精度を改善するという結論が得られた。 しかし、広く知られていないと思われるのは、google検索データの各サンプルが、同じ検索語、データ、場所を設定する場合でも、互いに異なることだ。 これは、偶然に任意の結論を見つけることができることを意味する。 本稿は,問題になり得る理由と,その克服方法を明らかにすることを目的とする。

It is widely known that \texttt{Google Trends} has become one of the most popular free tools used by forecasters both in academics and in the private and public sectors. There are many papers, from several different fields, concluding that \texttt{Google Trends} improve forecasts' accuracy. However, what seems to be widely unknown, is that each sample of Google search data is different from the other, even if you set the same search term, data and location. This means that it is possible to find arbitrary conclusions merely by chance. This paper aims to show why and when it can become a problem and how to overcome this obstacle.
翻訳日:2021-04-08 18:59:47 公開日:2021-04-07
# (参考訳) 長期学習における分布ロバスト性損失 [全文訳有]

Distributional Robustness Loss for Long-tail Learning ( http://arxiv.org/abs/2104.03066v1 )

ライセンス: CC BY 4.0
Dvir Samuel and Gal Chechik(参考訳) 現実世界のデータはしばしばバランスがとれず、尾も長いが、深層モデルは頻繁なクラスの存在下でレアクラスを認識するのに苦労している。 不均衡なデータに対処するために、ほとんどの研究は、データ、損失、分類器のバランスをとり、ヘッドクラスに対する分類バイアスを減らす。 不均衡なデータで学習された潜在表現にはあまり注意が払われていない。 ディープネットワークの特徴抽出器部分は,このバイアスに大きく悩まされていることを示す。 本稿では,モデルが頭部・尾部の両クラスで高品質な表現を学習することを奨励するロバストネス理論に基づく新たな損失を提案する。 強靭性損失の一般形は計算が難しいかもしれないが、より効率的に最小化できる計算容易な上限を導出する。 この手法は特徴空間のヘッドクラスに対する表現バイアスを低減し、CIFAR100-LT、ImageNet-LT、iNaturalist long-tailベンチマークで新しいSOTA結果を得る。 頑健なトレーニングは,ヘッドクラスの精度を保ちつつ,テールクラスの認識精度を高めることが判明した。 新たなロバスト性損失は、様々な分類器バランス技術と組み合わせて、ディープモデルの複数の層での表現に適用することができる。

Real-world data is often unbalanced and long-tailed, but deep models struggle to recognize rare classes in the presence of frequent classes. To address unbalanced data, most studies try balancing the data, the loss, or the classifier to reduce classification bias towards head classes. Far less attention has been given to the latent representations learned with unbalanced data. We show that the feature extractor part of deep networks suffers greatly from this bias. We propose a new loss based on robustness theory, which encourages the model to learn high-quality representations for both head and tail classes. While the general form of the robustness loss may be hard to compute, we further derive an easy-to-compute upper bound that can be minimized efficiently. This procedure reduces representation bias towards head classes in the feature space and achieves new SOTA results on CIFAR100-LT, ImageNet-LT, and iNaturalist long-tail benchmarks. We find that training with robustness increases recognition accuracy of tail classes while largely maintaining the accuracy of head classes. The new robustness loss can be combined with various classifier balancing techniques and can be applied to representations at several layers of the deep model.
翻訳日:2021-04-08 18:50:59 公開日:2021-04-07
# (参考訳) 深層優先型デコンボリューションを用いた普遍的・柔軟光収差補正 [全文訳有]

Universal and Flexible Optical Aberration Correction Using Deep-Prior Based Deconvolution ( http://arxiv.org/abs/2104.03078v1 )

ライセンス: CC BY 4.0
Xiu Li, Jinli Suo, Weihang Zhang, Xin Yuan, Qionghai Dai(参考訳) 高品質な撮像は通常、幾何学的および彩度の収差を補うためにかさばる高価なレンズを必要とする。 これは光学ハッシュや低コストのアプリケーションに高い制約をもたらす。 アルゴリズムによる再構成によってローエンドレンズのアーティファクトを除去することはできるが、光学収差による劣化は空間的に変化し、計算は性能のために効率をトレードオフしなければならない。 例えば、画像全体にわたって高い再構成性能を達成するためには、パッチワイズ最適化や、大規模なローカルディープニューラルネットワークのトレーニングが必要です。 本稿では,レンズ固有の奥行きを組み込んで,アベラント画像とPSFマップを入力とし,潜時高画質版を生成するPSF対応のプラグアンドプレイディープネットワークを提案し,広義かつフレキシブルな光収差補正手法を提案する。 具体的には,多種多様なレンズの集合からベースモデルを事前訓練し,パラメータを迅速に精製することにより,モデル学習の時間とメモリ消費の軽減を図る。 このアプローチは、トレーニング段階とテスト段階の両方において高い効率性を持つ。 その結果,小型ローエンドカメラへの提案手法の適用性が確認された。

High quality imaging usually requires bulky and expensive lenses to compensate geometric and chromatic aberrations. This poses high constraints on the optical hash or low cost applications. Although one can utilize algorithmic reconstruction to remove the artifacts of low-end lenses, the degeneration from optical aberrations is spatially varying and the computation has to trade off efficiency for performance. For example, we need to conduct patch-wise optimization or train a large set of local deep neural networks to achieve high reconstruction performance across the whole image. In this paper, we propose a PSF aware plug-and-play deep network, which takes the aberrant image and PSF map as input and produces the latent high quality version via incorporating lens-specific deep priors, thus leading to a universal and flexible optical aberration correction method. Specifically, we pre-train a base model from a set of diverse lenses and then adapt it to a given lens by quickly refining the parameters, which largely alleviates the time and memory consumption of model learning. The approach is of high efficiency in both training and testing stages. Extensive results verify the promising applications of our proposed approach for compact low-end cameras.
翻訳日:2021-04-08 18:36:43 公開日:2021-04-07
# (参考訳) ディープ残留ネットワークのためのニューラルタンジェントカーネルのスペクトル解析 [全文訳有]

Spectral Analysis of the Neural Tangent Kernel for Deep Residual Networks ( http://arxiv.org/abs/2104.03093v1 )

ライセンス: CC BY 4.0
Yuval Belfer, Amnon Geifman, Meirav Galun, Ronen Basri(参考訳) ディープ残差ネットワークアーキテクチャは、従来のフィードフォワードネットワークよりも優れた精度を達成することが示されているが、その成功はまだ完全には分かっていない。 ニューラルタンジェントカーネル(ResNTK)を経由したReLU活性化による超過パラメータ・完全連結残基ネットワークに着目し,これらのカーネルのスペクトル解析を行った。 具体的には、完全連結ネットワーク (FC-NTK) に対する NTK と同様に、超球面 $\mathbb{S}^{d-1}$ に均一に分布する入力に対して、ResNTK の固有函数は球面調和関数であり、固有値は周波数 $k$ as $k^{-d}$ として多項式的に減衰することを示した。 これらのことは、その再現ケルネルヒルベルト空間の関数の集合が FC-NTK の関数と同一であり、したがってラプラス核の関数も同値であることを意味する。 さらに,ラプラスカーネルを例示することにより,スキップと残差接続のバランスをとるハイパーパラメータの選択によって,fc-ntkのように深さが急上昇するか,安定した形状を維持することができることを示した。

Deep residual network architectures have been shown to achieve superior accuracy over classical feed-forward networks, yet their success is still not fully understood. Focusing on massively over-parameterized, fully connected residual networks with ReLU activation through their respective neural tangent kernels (ResNTK), we provide here a spectral analysis of these kernels. Specifically, we show that, much like NTK for fully connected networks (FC-NTK), for input distributed uniformly on the hypersphere $\mathbb{S}^{d-1}$, the eigenfunctions of ResNTK are the spherical harmonics and the eigenvalues decay polynomially with frequency $k$ as $k^{-d}$. These in turn imply that the set of functions in their Reproducing Kernel Hilbert Space are identical to those of FC-NTK, and consequently also to those of the Laplace kernel. We further show, by drawing on the analogy to the Laplace kernel, that depending on the choice of a hyper-parameter that balances between the skip and residual connections ResNTK can either become spiky with depth, as with FC-NTK, or maintain a stable shape.
翻訳日:2021-04-08 18:26:53 公開日:2021-04-07
# (参考訳) ニューラルArticulated Radiance Field

Neural Articulated Radiance Field ( http://arxiv.org/abs/2104.03110v1 )

ライセンス: CC BY 4.0
Atsuhiro Noguchi, Xiao Sun, Stephen Lin, Tatsuya Harada(参考訳) 本稿では,画像から学習した明瞭な物体に対する新しい変形可能な3次元表現であるニューラルArticulated Radiance Field(NARF)を提案する。 近年の3次元暗黙表現の進歩により、複雑な物体のモデルを学ぶことが可能になったが、現在の方法では3次元形状の監督が必要であり、外観を表現できないため、明瞭な物体のポーズ制御可能な表現を学習することは依然として困難である。 3次元関節オブジェクトの暗黙的表現を定式化する際には、各3次元位置における放射場を解く際に最も関連する対象部分の剛性変換のみを考える。 このようにして,提案手法は,計算量を大幅に増加させることなく,ポーズに依存した変化を表現する。 NARFは完全に微分可能で、ポーズアノテーションで画像からトレーニングすることができる。 さらに、オートエンコーダを使用することで、オブジェクトクラスの複数のインスタンスの外観変化を学習することができる。 実験の結果,提案手法は効率的であり,新しいポーズにうまく一般化できることがわかった。 コード、モデル、デモはhttps://github.com/n ogu-atsu/NARFで公開しています。

We present Neural Articulated Radiance Field (NARF), a novel deformable 3D representation for articulated objects learned from images. While recent advances in 3D implicit representation have made it possible to learn models of complex objects, learning pose-controllable representations of articulated objects remains a challenge, as current methods require 3D shape supervision and are unable to render appearance. In formulating an implicit representation of 3D articulated objects, our method considers only the rigid transformation of the most relevant object part in solving for the radiance field at each 3D location. In this way, the proposed method represents pose-dependent changes without significantly increasing the computational complexity. NARF is fully differentiable and can be trained from images with pose annotations. Moreover, through the use of an autoencoder, it can learn appearance variations over multiple instances of an object class. Experiments show that the proposed method is efficient and can generalize well to novel poses. We make the code, model and demo available for research purposes at https://github.com/n ogu-atsu/NARF
翻訳日:2021-04-08 17:50:33 公開日:2021-04-07
# (参考訳) ボードゲームによるスケーリングルールのスケーリング [全文訳有]

Scaling Scaling Laws with Board Games ( http://arxiv.org/abs/2104.03113v1 )

ライセンス: CC BY 4.0
Andrew L. Jones(参考訳) 機械学習における最大の実験は、いくつかの機関を除くすべての予算を超えるリソースを必要としている。 幸いにも、これらの巨大な実験の結果は、はるかに小さく安価な実験の連続の結果から外挿されることが多いことが最近示されている。 本研究では,モデルのサイズに基づいて外挿を行うことができるだけでなく,問題の大きさにも基づく外挿を行うことができることを示す。 AlphaZero と Hex を用いた一連の実験により,ゲームが大きくなるにつれて,一定量の計算量で達成可能な性能が予測的に低下することを示す。 また,本研究の主な成果と合わせて,エージェントに利用可能なテスト時間計算の増加が,列車時間計算の削減に代えて,その逆も可能であることを示す。

The largest experiments in machine learning now require resources far beyond the budget of all but a few institutions. Fortunately, it has recently been shown that the results of these huge experiments can often be extrapolated from the results of a sequence of far smaller, cheaper experiments. In this work, we show that not only can the extrapolation be done based on the size of the model, but on the size of the problem as well. By conducting a sequence of experiments using AlphaZero and Hex, we show that the performance achievable with a fixed amount of compute degrades predictably as the game gets larger and harder. Along with our main result, we further show that increasing the test-time compute available to an agent can substitute for reduced train-time compute, and vice versa.
翻訳日:2021-04-08 17:42:10 公開日:2021-04-07
# (参考訳) リアルタイムUAV追従のための残響相関フィルタの学習とGrabCutを用いた精製スケール推定 [全文訳有]

Learning Residue-Aware Correlation Filters and Refining Scale Estimates with the GrabCut for Real-Time UAV Tracking ( http://arxiv.org/abs/2104.03114v1 )

ライセンス: CC BY 4.0
Shuiwang Li, Yuting Liu, Qijun Zhao, Ziliang Feng(参考訳) 無人航空機(UAV)による追跡は、農業、航空、航法、交通、治安などの分野で急速に発展し、注目を集めている。 最近、dcf(discriminative correlation filter)ベースのトラッカーは、uav追跡コミュニティにおいて、高い効率と単一のcpuでの堅牢性のために際立っている。 しかし、計算リソースの制限やその他の課題により、既存のDCFベースのアプローチの効率と正確性はまだ満足していない。 本稿では,GrabCut によるセグメンテーションを用いて DCF ベースのトラッカーにおける大々的に採用されている判別スケール推定を改善することを検討する。 一方,残差表現に触発されて,映像に固有の残差の性質を活用し,フィルタ学習においてより収束性を示す残差認識相関フィルタを提案する。 大規模な実験は、UAV123@10fps、DTB70、UAVDT、VisDrone2018-test-de vの4つのUAVベンチマークで実施された。 その結果,本手法は最先端の性能を実現する。

Unmanned aerial vehicle (UAV)-based tracking is attracting increasing attention and developing rapidly in applications such as agriculture, aviation, navigation, transportation and public security. Recently, discriminative correlation filters (DCF)-based trackers have stood out in UAV tracking community for their high efficiency and appealing robustness on a single CPU. However, due to limited onboard computation resources and other challenges the efficiency and accuracy of existing DCF-based approaches is still not satisfying. In this paper, we explore using segmentation by the GrabCut to improve the wildly adopted discriminative scale estimation in DCF-based trackers, which, as a mater of fact, greatly impacts the precision and accuracy of the trackers since accumulated scale error degrades the appearance model as online updating goes on. Meanwhile, inspired by residue representation, we exploit the residue nature inherent to videos and propose residue-aware correlation filters that show better convergence properties in filter learning. Extensive experiments are conducted on four UAV benchmarks, namely, UAV123@10fps, DTB70, UAVDT and Vistrone2018 (VisDrone2018-test-d ev). The results show that our method achieves state-of-the-art performance.
翻訳日:2021-04-08 17:25:29 公開日:2021-04-07
# (参考訳) 電力系統における位置推定, 動的状態推定, 最適測定位置選択のためのニューラルネットワーク [全文訳有]

Which Neural Network to Choose for Post-Fault Localization, Dynamic State Estimation and Optimal Measurement Placement in Power Systems? ( http://arxiv.org/abs/2104.03115v1 )

ライセンス: CC BY 4.0
Andrei Afonin and Michael Chertkov(参考訳) 本稿では,PMU(Phasor Measurement Units)によって監視される電力伝送システムについて検討する。 pmusによって十分な数の独立したシングルライン障害、特にプレフォールト状態と(クリアされていない)ポストフォールト状態が記録され、トレーニングに利用できると仮定すると、まず、障害ラインを見つけるための総合的なニューラルネットワーク(nns)を設計する。 リニア回帰、フィードフォワードNN、アレックスネット、グラフィカル畳み込みNN、ニューラル線形ODE、ニューラルグラフベースODEなどのシーケンスにおける異なるNNの性能は、関連するパワーフロー物理の種類と量に応じて、異なるレベルの可観測性について比較する。 第2に,事前デフォルト状態からトレーニングした先進的なPower-System-Dynamic s-InformedおよびNeural-ODEベースの機械学習スキームを構築し,時間後状態を予測し,並列にシステムパラメータを推定する。 最後に、第3に、第1の(デフォルトのローカライゼーション)設定で作業を続け、最適なPMU配置を発見する(NNベースの)アルゴリズムを設計する。

We consider a power transmission system monitored with Phasor Measurement Units (PMUs) placed at significant, but not all, nodes of the system. Assuming that a sufficient number of distinct single-line faults, specifically pre-fault state and (not cleared) post-fault state, are recorded by the PMUs and are available for training, we, first, design a comprehensive sequence of Neural Networks (NNs) locating the faulty line. Performance of different NNs in the sequence, including Linear Regression, Feed-Forward NN, AlexNet, Graphical Convolutional NN, Neural Linear ODE and Neural Graph-based ODE, ordered according to the type and amount of the power flow physics involved, are compared for different levels of observability. Second, we build a sequence of advanced Power-System-Dynamic s-Informed and Neural-ODE based Machine Learning schemes trained, given pre-fault state, to predict the post-fault state and also, in parallel, to estimate system parameters. Finally, third, and continuing to work with the first (fault localization) setting we design a (NN-based) algorithm which discovers optimal PMU placement.
翻訳日:2021-04-08 17:09:09 公開日:2021-04-07
# (参考訳) 部分連結微分可能アーキテクチャ探索によるディープフェイクとスプーフィング検出 [全文訳有]

Partially-Connected Differentiable Architecture Search for Deepfake and Spoofing Detection ( http://arxiv.org/abs/2104.03123v1 )

ライセンス: CC BY 4.0
Wanying Ge, Michele Panariello, Jose Patino, Massimiliano Todisco and Nicholas Evans(参考訳) 本稿では,darts( differentiable architecture search)アプローチをdeepfakeおよびspoofing検出問題に適用した最初の事例について報告する。 ニューラルネットワーク探索の例として、DARTSは連続的な微分可能な探索空間で動作し、アーキテクチャとパラメータの両方を勾配降下によって最適化することができる。 部分接続DARTSに基づく解は、検索空間におけるランダムチャネルマスキングを使用してGPU時間を短縮し、畳み込み操作と残余ブロックからなる複雑なニューラルネットワークアーキテクチャを自動的に学習し最適化する。 人間の努力は少ないが、結果として得られるネットワークは、文献で報告されている最高のパフォーマンスシステムと競合する。 また、Res2Netの競合相手よりも85%少ないパラメータを含む、はるかに少ないものもある。

This paper reports the first successful application of a differentiable architecture search (DARTS) approach to the deepfake and spoofing detection problems. An example of neural architecture search, DARTS operates upon a continuous, differentiable search space which enables both the architecture and parameters to be optimised via gradient descent. Solutions based on partially-connected DARTS use random channel masking in the search space to reduce GPU time and automatically learn and optimise complex neural architectures composed of convolutional operations and residual blocks. Despite being learned quickly with little human effort, the resulting networks are competitive with the best performing systems reported in the literature. Some are also far less complex, containing 85% fewer parameters than a Res2Net competitor.
翻訳日:2021-04-08 16:51:25 公開日:2021-04-07
# (参考訳) 質問ベースのバイアスを超えて:視覚的質問応答におけるマルチモーダルショートカット学習の評価 [全文訳有]

Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in Visual Question Answering ( http://arxiv.org/abs/2104.03149v1 )

ライセンス: CC BY 4.0
Corentin Dancette, Remi Cadene, Damien Teney, Matthieu Cord(参考訳) 近道学習症例の診断を改善するため,視覚質問応答(vqa)の評価手法を提案する。 これらのケースは、モデルが散発的な統計正規性を利用して正しい答えを生み出すが、実際には望ましい振る舞いをデプロイしない場合に発生する。 データセット内のショートカットを識別し、実世界でモデルをデプロイする前にその使用を評価する必要がある。 VQAの研究コミュニティは、質問ベースのショートカットにのみ焦点を合わせており、例えば、モデルが「空の色は何か」と「青」に答える場合、主に質問条件のトレーニングに依存し、視覚的証拠にほとんど重みを与えない。 我々はさらに一歩進んで、質問と画像の両方を含むマルチモーダルショートカットを検討します。 まず,単語の共起や視覚要素などの自明な予測規則をマイニングすることで,VQA v2トレーニングの潜在的なショートカットを特定する。 次に、CounterExamplesの新たな評価セットであるVQA-CEを作成します。 どこで採掘されたルールが 間違った答えをもたらすのか 我々は,この新しい評価手法を既存モデルの大規模研究に活用する。 我々は、最先端モデルでさえも性能が悪く、バイアスを減らす既存の技術はこの文脈ではほとんど効果がないことを実証する。 以上の結果から,VQAにおける質問ベースのバイアスに関する過去の研究は,複雑な問題の1つにしか対応していないことが示唆された。 このメソッドのコードはhttps://github.com/c dancette/detect-shor tcutsで入手できる。

We introduce an evaluation methodology for visual question answering (VQA) to better diagnose cases of shortcut learning. These cases happen when a model exploits spurious statistical regularities to produce correct answers but does not actually deploy the desired behavior. There is a need to identify possible shortcuts in a dataset and assess their use before deploying a model in the real world. The research community in VQA has focused exclusively on question-based shortcuts, where a model might, for example, answer "What is the color of the sky" with "blue" by relying mostly on the question-conditional training prior and give little weight to visual evidence. We go a step further and consider multimodal shortcuts that involve both questions and images. We first identify potential shortcuts in the popular VQA v2 training set by mining trivial predictive rules such as co-occurrences of words and visual elements. We then create VQA-CE, a new evaluation set made of CounterExamples i.e. questions where the mined rules lead to incorrect answers. We use this new evaluation in a large-scale study of existing models. We demonstrate that even state-of-the-art models perform poorly and that existing techniques to reduce biases are largely ineffective in this context. Our findings suggest that past work on question-based biases in VQA has only addressed one facet of a complex issue. The code for our method is available at https://github.com/c dancette/detect-shor tcuts
翻訳日:2021-04-08 16:39:57 公開日:2021-04-07
# (参考訳) TenSEAL: 同型暗号化を用いたテンソル操作の暗号化ライブラリ [全文訳有]

TenSEAL: A Library for Encrypted Tensor Operations Using Homomorphic Encryption ( http://arxiv.org/abs/2104.03152v1 )

ライセンス: CC BY 4.0
Ayoub Benaissa, Bilal Retiat, Bogdan Cebere, Alaa Eddine Belfedhal(参考訳) 機械学習アルゴリズムは目覚ましい成果を上げ、様々な分野に広く応用されている。 これらのアルゴリズムは、医療記録や財務記録などの機密データやプライベートデータに依存することが多い。 したがって、プライバシの脅威や、マシンラーニングモデルに適用される防御技術について、さらに注意を払うことが不可欠である。 本稿では,一般的な機械学習フレームワークに容易に統合可能な準同型暗号を用いた,プライバシ保存型機械学習のためのオープンソースライブラリであるtensealを提案する。 我々は、MNISTを用いて実装をベンチマークし、半メガバイト以下の通信を用いて、暗号化畳み込みニューラルネットワークを1秒未満で評価可能であることを示す。

Machine learning algorithms have achieved remarkable results and are widely applied in a variety of domains. These algorithms often rely on sensitive and private data such as medical and financial records. Therefore, it is vital to draw further attention regarding privacy threats and corresponding defensive techniques applied to machine learning models. In this paper, we present TenSEAL, an open-source library for Privacy-Preserving Machine Learning using Homomorphic Encryption that can be easily integrated within popular machine learning frameworks. We benchmark our implementation using MNIST and show that an encrypted convolutional neural network can be evaluated in less than a second, using less than half a megabyte of communication.
翻訳日:2021-04-08 16:26:10 公開日:2021-04-07
# (参考訳) 画像分類と回帰のためのcGAN生成サンプルによる知識の蒸留と伝達 [全文訳有]

Distilling and Transferring Knowledge via cGAN-generated Samples for Image Classification and Regression ( http://arxiv.org/abs/2104.03164v1 )

ライセンス: CC0 1.0
Xin Ding and Z. Jane Wang and Zuheng Xu and Yongwei Wang and William J. Welch(参考訳) 知識蒸留(KD)は,教師モデルからの知識に基づく学生モデルの性能向上を目的として,深層学習における画像分類タスクとして積極的に研究されている。 しかしながら、スカラー応答を伴う画像回帰にkdを適用する努力はほとんどなく、両方のタスクに適用できるkdメソッドは存在しない。 さらに、既存のKD手法では、実践者が教師や学生のアーキテクチャを慎重に選択または調整する必要があることが多く、実際はスケーラビリティが低下する。 さらに、KDは通常、ラベル付きデータに制限のあるシナリオで実行されるが、そのようなデータ不足を緩和する技術はほとんど開発されていない。 そこで本稿では,条件付き生成逆ネットワーク(cGAN)をベースとした統一KDフレームワーク,cGAN-KDを提案する。 既存のKD法とは大きく異なり、cGAN-KDは教師モデルからcGAN生成サンプルを介して生徒モデルに知識を蒸留し、伝達する。 このユニークなメカニズムにより、cGAN-KDは分類と回帰の両方に適しており、他のKDメソッドと互換性があり、教師や学生のアーキテクチャに無関心である。 また、近年のcGAN方法論の進歩や、特別に設計されたサブサンプリングとフィルタリングの手法により、ラベル付きデータが不足している場合には、cGAN-KDも良好に機能する。 cGAN-KDフレームワークで訓練された学生モデルの誤差境界は、cGAN-KDが実際にcGAN-KDの実装を導く理由を理論的に説明するために導かれる。 CIFAR-10とTiny-ImageNetの大規模な実験により、最先端のKDメソッドをcGAN-KDフレームワークに組み込むことで、新たな最先端技術に到達できることが示されている。 また、RC-49とUTKFaceの実験では、既存のKD手法が適用できない画像回帰タスクにおいて、cGAN-KDの有効性が示されている。

Knowledge distillation (KD) has been actively studied for image classification tasks in deep learning, aiming to improve the performance of a student model based on the knowledge from a teacher model. However, there have been very few efforts for applying KD in image regression with a scalar response, and there is no KD method applicable to both tasks. Moreover, existing KD methods often require a practitioner to carefully choose or adjust the teacher and student architectures, making these methods less scalable in practice. Furthermore, although KD is usually conducted in scenarios with limited labeled data, very few techniques are developed to alleviate such data insufficiency. To solve the above problems in an all-in-one manner, we propose in this paper a unified KD framework based on conditional generative adversarial networks (cGANs), termed cGAN-KD. Fundamentally different from existing KD methods, cGAN-KD distills and transfers knowledge from a teacher model to a student model via cGAN-generated samples. This unique mechanism makes cGAN-KD suitable for both classification and regression tasks, compatible with other KD methods, and insensitive to the teacher and student architectures. Also, benefiting from the recent advances in cGAN methodology and our specially designed subsampling and filtering procedures, cGAN-KD also performs well when labeled data are scarce. An error bound of a student model trained in the cGAN-KD framework is derived in this work, which theoretically explains why cGAN-KD takes effect and guides the implementation of cGAN-KD in practice. Extensive experiments on CIFAR-10 and Tiny-ImageNet show that we can incorporate state-of-the-art KD methods into the cGAN-KD framework to reach a new state of the art. Also, experiments on RC-49 and UTKFace demonstrate the effectiveness of cGAN-KD in image regression tasks, where existing KD methods are inapplicable.
翻訳日:2021-04-08 16:19:12 公開日:2021-04-07
# (参考訳) 無線通信とフェデレーションエッジ学習によるスマートグリッドにおける消費者コミュニティの活用 [全文訳有]

Empowering Prosumer Communities in Smart Grid with Wireless Communications and Federated Edge Learning ( http://arxiv.org/abs/2104.03169v1 )

ライセンス: CC BY 4.0
Afaf Taik and Boubakr Nour and Soumaya Cherkaoui(参考訳) 分散型エネルギー資源の指数関数的な成長は、スマートグリッドにおける従来の消費者のプロシューマーへの転換を可能にする。 このような移行は持続可能エネルギー取引に有望な機会をもたらす。 しかし、エネルギー市場におけるプロシューマーの統合は、電力と通信インフラの効率的な利用のための統一的で持続可能なフレームワークを設計する上で、新たな考慮を課している。 さらに、通信オーバーヘッド、データのプライバシ、スケーラビリティ、持続可能性など、分散再生可能指向システムの導入を適切に推進するために、いくつかの問題に取り組む必要がある。 本稿では,効率的なエネルギー取引市場を構築する上で,コミュニケーションとスマートな意思決定に関連するさまざまな側面と課題について述べる。 そこで本稿では,集合目標達成のためのマルチレベル・プロ意思決定フレームワークを提案する。 この枠組みは, 個々の自給自足の目標を主体とし, 個人の意思決定を優先し, コミュニティメンバー間の迅速な連携のために, 5G無線ネットワークに依存している。 実際、各プロシューマーはエネルギー生産と消費を予測し、集団レベルの要求に応えて積極的な取引決定を行う。 さらに,フェデレートラーニング(Federated Learning)を用いた予測モデルの協調トレーニングや,エッジサーバやホームエリア機器の活用などにより,コミュニティのコラボレーションをさらに強化する。 プロシューマーのプライバシの保護に加えて,フェデレーション学習を用いた学習予測モデルが,通信のオーバーヘッドを低減しつつ,異なるエネルギー資源に対して高い精度をもたらすことを示す。

The exponential growth of distributed energy resources is enabling the transformation of traditional consumers in the smart grid into prosumers. Such transition presents a promising opportunity for sustainable energy trading. Yet, the integration of prosumers in the energy market imposes new considerations in designing unified and sustainable frameworks for efficient use of the power and communication infrastructure. Furthermore, several issues need to be tackled to adequately promote the adoption of decentralized renewable-oriented systems, such as communication overhead, data privacy, scalability, and sustainability. In this article, we present the different aspects and challenges to be addressed for building efficient energy trading markets in relation to communication and smart decision-making. Accordingly, we propose a multi-level pro-decision framework for prosumer communities to achieve collective goals. Since the individual decisions of prosumers are mainly driven by individual self-sufficiency goals, the framework prioritizes the individual prosumers' decisions and relies on 5G wireless network for fast coordination among community members. In fact, each prosumer predicts energy production and consumption to make proactive trading decisions as a response to collective-level requests. Moreover, the collaboration of the community is further extended by including the collaborative training of prediction models using Federated Learning, assisted by edge servers and prosumer home-area equipment. In addition to preserving prosumers' privacy, we show through evaluations that training prediction models using Federated Learning yields high accuracy for different energy resources while reducing the communication overhead.
翻訳日:2021-04-08 15:26:54 公開日:2021-04-07
# (参考訳) ガウス過程の逆ロバスト性保証

Adversarial Robustness Guarantees for Gaussian Processes ( http://arxiv.org/abs/2104.03180v1 )

ライセンス: CC BY 4.0
Andrea Patane, Arno Blaas, Luca Laurenti, Luca Cardelli, Stephen Roberts, Marta Kwiatkowska(参考訳) ガウス過程(gps)はモデルの不確かさの原理計算を可能にし、安全クリティカルな用途に魅力的である。 このようなシナリオでは、GP決定は正確であるだけでなく、摂動に対しても堅牢である。 本稿では,GPの対向的堅牢性を解析するための枠組みについて述べる。 入力空間 $t\subseteq \mathbb{r}^d$, 点 $x^*$, gp のコンパクトな部分集合を与えられたとき、その予測範囲の下限と上限を$t$で計算することにより、gp の敵対的強固さの証明可能な保証を与える。 我々は境界を洗練し、任意の$\epsilon > 0$に対して、我々のアルゴリズムは有限個の反復で実際の値に$\epsilon$-closeの値に収束することを保証していることを示す分岐とバウンドのスキームを開発する。 アルゴリズムはいつでも存在し、回帰処理と分類処理の両方を処理でき、実際に使用されるほとんどのカーネルに対して解析的な定式化が可能である。 本研究では,SPAM,MNIST,FashionM NISTを含む,合成および標準ベンチマークデータセットの集合について評価を行った。 近似推論手法がロバスト性に与える影響について検討し,本手法が解釈可能性にどのように役立つかを示す。 実験結果から,GPsの対向ロバスト性は正確な後方推定で増大することが示唆された。

Gaussian processes (GPs) enable principled computation of model uncertainty, making them attractive for safety-critical applications. Such scenarios demand that GP decisions are not only accurate, but also robust to perturbations. In this paper we present a framework to analyse adversarial robustness of GPs, defined as invariance of the model's decision to bounded perturbations. Given a compact subset of the input space $T\subseteq \mathbb{R}^d$, a point $x^*$ and a GP, we provide provable guarantees of adversarial robustness of the GP by computing lower and upper bounds on its prediction range in $T$. We develop a branch-and-bound scheme to refine the bounds and show, for any $\epsilon > 0$, that our algorithm is guaranteed to converge to values $\epsilon$-close to the actual values in finitely many iterations. The algorithm is anytime and can handle both regression and classification tasks, with analytical formulation for most kernels used in practice. We evaluate our methods on a collection of synthetic and standard benchmark datasets, including SPAM, MNIST and FashionMNIST. We study the effect of approximate inference techniques on robustness and demonstrate how our method can be used for interpretability. Our empirical results suggest that the adversarial robustness of GPs increases with accurate posterior estimation.
翻訳日:2021-04-08 15:16:20 公開日:2021-04-07
# (参考訳) 調音規則化変分オートエンコーダによるロバスト表現の学習 [全文訳有]

Learning robust speech representation with an articulatory-regular ized variational autoencoder ( http://arxiv.org/abs/2104.03204v1 )

ライセンス: CC BY 4.0
Marc-Antoine Georges, Laurent Girin, Jean-Luc Schwartz, Thomas Hueber(参考訳) 人間の言語知覚と生産はどちらも調音表現に依存していると考えられている。 本稿では,音声特徴を符号化・復号化するために訓練された深部生成モデル(変分オートエンコーダ)の性能を向上させることができるかを検討する。 まず, 顎, 舌, 唇, 胸部構成を記述する調音パラメータと声道形状とスペクトル特徴を関連付けることができる調音モデルを構築した。 次に、これらの調音パラメータをスペクトル特徴に適用した変分オートエンコーダに取り入れ、潜在空間の一部に調音軌跡に従うように制約する正規化手法を用いた。 この調音制約は,収束までの時間を短縮し,コンバージェンスにおける再構成損失を低減し,モデルトレーニングを改善できることを示す。

It is increasingly considered that human speech perception and production both rely on articulatory representations. In this paper, we investigate whether this type of representation could improve the performances of a deep generative model (here a variational autoencoder) trained to encode and decode acoustic speech features. First we develop an articulatory model able to associate articulatory parameters describing the jaw, tongue, lips and velum configurations with vocal tract shapes and spectral features. Then we incorporate these articulatory parameters into a variational autoencoder applied on spectral features by using a regularization technique that constraints part of the latent space to follow articulatory trajectories. We show that this articulatory constraint improves model training by decreasing time to convergence and reconstruction loss at convergence, and yields better performance in a speech denoising task.
翻訳日:2021-04-08 15:15:09 公開日:2021-04-07
# (参考訳) 半監督時間行動提案のための自己指導型学習 [全文訳有]

Self-Supervised Learning for Semi-Supervised Temporal Action Proposal ( http://arxiv.org/abs/2104.03214v1 )

ライセンス: CC BY 4.0
Xiang Wang, Shiwei Zhang, Zhiwu Qing, Yuanjie Shao, Changxin Gao and Nong Sang(参考訳) 自己教師付き学習は、様々なビデオタスクにラベルのないデータを利用する際、顕著なパフォーマンスを示す。 本稿では,半教師付き行動提案生成の改善に自己監督手法の力を適用することに焦点をあてる。 特に,SSTAP(Self-supervis ed Semi-supervised Temporal Action Proposal)フレームワークを設計する。 SSTAPは2つの重要な分岐、すなわち時間対応半監督枝と関係対応自監督枝を含んでいる。 半教師分枝は,2つの時間的摂動,すなわち時間的特徴シフトと時間的特徴フリップを導入することで提案モデルを改善する。 自己教師付きブランチは、時間的手がかりの関係を学ぶために、マスク特徴の再構築とクリップ次予測を含む2つの前文タスクを定義する。 これにより、SSTAPはラベルのない動画をよりよく探索し、学習されたアクション機能の識別能力を向上させることができる。 THUMOS14およびActivityNet v1.3データセット上で提案したSSTAPを広範囲に評価する。 実験の結果、SSTAPは最先端の半教師付き手法よりも優れており、完全に教師付き手法とさえ一致していることがわかった。 コードはhttps://github.com/w angxiang1230/SSTAPで入手できる。

Self-supervised learning presents a remarkable performance to utilize unlabeled data for various video tasks. In this paper, we focus on applying the power of self-supervised methods to improve semi-supervised action proposal generation. Particularly, we design an effective Self-supervised Semi-supervised Temporal Action Proposal (SSTAP) framework. The SSTAP contains two crucial branches, i.e., temporal-aware semi-supervised branch and relation-aware self-supervised branch. The semi-supervised branch improves the proposal model by introducing two temporal perturbations, i.e., temporal feature shift and temporal feature flip, in the mean teacher framework. The self-supervised branch defines two pretext tasks, including masked feature reconstruction and clip-order prediction, to learn the relation of temporal clues. By this means, SSTAP can better explore unlabeled videos, and improve the discriminative abilities of learned action features. We extensively evaluate the proposed SSTAP on THUMOS14 and ActivityNet v1.3 datasets. The experimental results demonstrate that SSTAP significantly outperforms state-of-the-art semi-supervised methods and even matches fully-supervised methods. Code is available at https://github.com/w angxiang1230/SSTAP.
翻訳日:2021-04-08 15:03:51 公開日:2021-04-07
# (参考訳) ゴールをピッチに残す:サッカーにおける意思決定の評価 [全文訳有]

Leaving Goals on the Pitch: Evaluating Decision Making in Soccer ( http://arxiv.org/abs/2104.03252v1 )

ライセンス: CC BY 4.0
Maaike Van Roy, Pieter Robberechts, Wen-Chi Yang, Luc De Raedt, Jesse Davis(参考訳) サッカーにおける期待目標(xG)測定値の分析により、(わずかに)高品質な試みの数が低品質な試みよりも少ないことが判明した。 この観察は射撃行動に変化をもたらした。 チームはペナルティボックスの外からのショットをパスし、後でゴールに近づくより良いショットを生成することを望んでいます。 本稿では、長距離撮影におけるこの減少が保証されているかどうかを評価する。 そこで我々は,機械学習と人工知能(AI)の技術を組み合わせることで,サッカーにおける意思決定を推論する新しい枠組みを提案する。 第1に,イベントストリームデータからマルコフ決定プロセス(mdp)を学習することにより,チームが2シーズンにわたって不快に振る舞う様子をモデル化する。 第2に、各チームのMDPに対する検証において、AI文献から生じる推論技術を使用する。 これにより、MDPに反実的な質問をすることで、ある潜在的な決定の有効性を判断することができる。 私たちの重要な結論は、少数のチーム固有の場所でペナルティボックスの外からより頻繁にシュートすれば、チームはより多くのゴールを獲得する、ということです。 提案されたフレームワークは簡単に拡張でき、ゲームの他の側面を分析することができる。

Analysis of the popular expected goals (xG) metric in soccer has determined that a (slightly) smaller number of high-quality attempts will likely yield more goals than a slew of low-quality ones. This observation has driven a change in shooting behavior. Teams are passing up on shots from outside the penalty box, in the hopes of generating a better shot closer to goal later on. This paper evaluates whether this decrease in long-distance shots is warranted. Therefore, we propose a novel generic framework to reason about decision-making in soccer by combining techniques from machine learning and artificial intelligence (AI). First, we model how a team has behaved offensively over the course of two seasons by learning a Markov Decision Process (MDP) from event stream data. Second, we use reasoning techniques arising from the AI literature on verification to each team's MDP. This allows us to reason about the efficacy of certain potential decisions by posing counterfactual questions to the MDP. Our key conclusion is that teams would score more goals if they shot more often from outside the penalty box in a small number of team-specific locations. The proposed framework can easily be extended and applied to analyze other aspects of the game.
翻訳日:2021-04-08 14:48:26 公開日:2021-04-07
# (参考訳) 小型固有ギャップ面における固有ベクトルの線形関数のミニマックス推定

Minimax Estimation of Linear Functions of Eigenvectors in the Face of Small Eigen-Gaps ( http://arxiv.org/abs/2104.03298v1 )

ライセンス: CC BY 4.0
Gen Li, Changxiao Cai, Yuantao Gu, H. Vincent Poor, Yuxin Chen(参考訳) 固有ベクトル摂動解析は様々な統計データ科学の応用において重要な役割を果たす。 しかし、多くの先行研究は$\ell_{2}$ 固有ベクトル摂動境界の確立に焦点を合わせており、固有ベクトルのきめ細かい振る舞いに依存するタスクに対処するのにしばしば不十分である。 本稿では、未知固有ベクトルの線形関数の摂動を研究することにより、これを進行させる。 ガウスノイズの存在下では、行列分解と主成分分析という2つの基本的な問題に焦点を当て、未知固有ベクトルの任意の線型関数の摂動を特徴づける統計理論の組を開発する。 自然の「プラグイン」推定器に固有の非無視バイアス問題を緩和するため、(1)シナリオの族(いくつかの対数係数を変調)の最小値の最小値を達成する非バイアス推定器を開発し、(2)サンプル分割なしでデータ駆動型で計算できる。 注意すべきことに、提案された推定器は、関連する固有ギャップが以前の理論で必要とされるものよりもかなり小さい場合でも、ほぼ極小である。

Eigenvector perturbation analysis plays a vital role in various statistical data science applications. A large body of prior works, however, focused on establishing $\ell_{2}$ eigenvector perturbation bounds, which are often highly inadequate in addressing tasks that rely on fine-grained behavior of an eigenvector. This paper makes progress on this by studying the perturbation of linear functions of an unknown eigenvector. Focusing on two fundamental problems -- matrix denoising and principal component analysis -- in the presence of Gaussian noise, we develop a suite of statistical theory that characterizes the perturbation of arbitrary linear functions of an unknown eigenvector. In order to mitigate a non-negligible bias issue inherent to the natural "plug-in" estimator, we develop de-biased estimators that (1) achieve minimax lower bounds for a family of scenarios (modulo some logarithmic factor), and (2) can be computed in a data-driven manner without sample splitting. Noteworthily, the proposed estimators are nearly minimax optimal even when the associated eigen-gap is substantially smaller than what is required in prior theory.
翻訳日:2021-04-08 14:32:29 公開日:2021-04-07
# (参考訳) ヒトグラスプ生成のためのハンドオブジェクト接触一貫性推論 [全文訳有]

Hand-Object Contact Consistency Reasoning for Human Grasps Generation ( http://arxiv.org/abs/2104.03304v1 )

ライセンス: CC BY 4.0
Hanwen Jiang, Shaowei Liu, Jiashun Wang and Xiaolong Wang(参考訳) パラレル顎グリッパーを用いたロボット把持予測は, ロボット操作タスクにおいてよく研究され, 広く応用されているが, 多指ハンドによる自然な人間把持生成に関する研究は, いまだに難しい課題である。 本稿では,世界に3次元物体が与えられた人間の手をつかむことを提案する。 我々の重要な観察は、手接触点と物体接触領域の一貫性をモデル化することが重要であることである。 すなわち、先行する手の接触点が物体面に近く、対象の共通接触領域が同時に接触されることを推奨する。 対象と対象との接触の一貫性に基づいて,人間把持生成モデルの学習における新たな目標と,テスト時においても把持生成ネットワークを調整可能な新たな自己教師ありタスクをデザインする。 実験では,最先端のアプローチによる人手獲得率の有意な向上が示された。 さらに興味深いのは、自己監督タスクでテスト時間中にモデルを最適化することで、ドメイン外のオブジェクトに対するより大きな利益を得るのに役立ちます。 プロジェクトページ: https://hwjiang1510. github.io/grasptta/

While predicting robot grasps with parallel jaw grippers have been well studied and widely applied in robot manipulation tasks, the study on natural human grasp generation with a multi-finger hand remains a very challenging problem. In this paper, we propose to generate human grasps given a 3D object in the world. Our key observation is that it is crucial to model the consistency between the hand contact points and object contact regions. That is, we encourage the prior hand contact points to be close to the object surface and the object common contact regions to be touched by the hand at the same time. Based on the hand-object contact consistency, we design novel objectives in training the human grasp generation model and also a new self-supervised task which allows the grasp generation network to be adjusted even during test time. Our experiments show significant improvement in human grasp generation over state-of-the-art approaches by a large margin. More interestingly, by optimizing the model during test time with the self-supervised task, it helps achieve larger gain on unseen and out-of-domain objects. Project page: https://hwjiang1510. github.io/GraspTTA/
翻訳日:2021-04-08 14:30:54 公開日:2021-04-07
# (参考訳) エントロピー符号化最適化による学習変換圧縮 [全文訳有]

Learned transform compression with optimized entropy encoding ( http://arxiv.org/abs/2104.03305v1 )

ライセンス: CC BY 4.0
Magda Gregorov\'a, Marc Desaules, Alexandros Kalousis(参考訳) 我々は, 離散符号上の確率分布だけでなく, 変換も学習する学習変換圧縮の問題を考える。 量子化演算のソフトリラクゼーションを利用して勾配のバックプロパゲーションを可能にし,潜在符号のベクトル量子化を(スカラーではなく)採用する。 さらに、コードエントロピーの直接最適化を可能にするコード確率割当にも同様の緩和を適用する。 私たちの知る限りでは、このアプローチは全く新しいものです。 我々は,概念実証実験を行い,提案手法の有効性を確認した。

We consider the problem of learned transform compression where we learn both, the transform as well as the probability distribution over the discrete codes. We utilize a soft relaxation of the quantization operation to allow for back-propagation of gradients and employ vector (rather than scalar) quantization of the latent codes. Furthermore, we apply similar relaxation in the code probability assignments enabling direct optimization of the code entropy. To the best of our knowledge, this approach is completely novel. We conduct a set of proof-of concept experiments confirming the potency of our approaches.
翻訳日:2021-04-08 14:13:05 公開日:2021-04-07
# (参考訳) ドメインに依存しないラベルなし画像によるストリーミング自己学習 [全文訳有]

Streaming Self-Training via Domain-Agnostic Unlabeled Images ( http://arxiv.org/abs/2104.03309v1 )

ライセンス: CC BY 4.0
Zhiqiu Lin and Deva Ramanan and Aayush Bansal(参考訳) 本稿では,非熟練ユーザがラベル付き例と最小限のドメイン知識を通じて,ニーズに応じて新たなタスクを定義できるように,視覚認識モデルの学習プロセスを民主化することを目的としたストリーミング自己学習(sst)を提案する。 SSTの鍵となるのは、(1)ドメインに依存しない未ラベル画像により、追加の知識や監督なしにいくつかのラベル付き例でより良いモデルを学ぶことができ、(2)学習は連続的なプロセスであり、未ラベルデータストリームの新規セグメントで事前学習する学習更新のスケジュールを構築し、小さなラベル付きデータセットで微調整を行うことで実現できる。 これにより、sstは多数のドメイン固有のラベル付きおよびラベルなしの例、エクササイズな計算リソース、ドメイン/タスク固有の知識の必要性を克服できる。 この設定では、古典的な半教師付きアプローチは、大量のドメイン固有のラベル付きおよびラベルなしの例、データを処理するための膨大なリソース、特定のタスクの専門知識を必要とする。 これらの理由から、半教師付き学習は必要な計算資源と人的資源を収容できるいくつかの場所に限定されている。 本研究では,これらの課題を克服し,細粒度画像分類,表面正規推定,セマンティックセグメンテーションなど,幅広い視覚認識タスクの成果を実証する。 また, 医療, 衛星, 農業画像など多種多様な領域に対して, ラベル付きデータやラベルなしデータの存在を実証した。

We present streaming self-training (SST) that aims to democratize the process of learning visual recognition models such that a non-expert user can define a new task depending on their needs via a few labeled examples and minimal domain knowledge. Key to SST are two crucial observations: (1) domain-agnostic unlabeled images enable us to learn better models with a few labeled examples without any additional knowledge or supervision; and (2) learning is a continuous process and can be done by constructing a schedule of learning updates that iterates between pre-training on novel segments of the streams of unlabeled data, and fine-tuning on the small and fixed labeled dataset. This allows SST to overcome the need for a large number of domain-specific labeled and unlabeled examples, exorbitant computational resources, and domain/task-specific knowledge. In this setting, classical semi-supervised approaches require a large amount of domain-specific labeled and unlabeled examples, immense resources to process data, and expert knowledge of a particular task. Due to these reasons, semi-supervised learning has been restricted to a few places that can house required computational and human resources. In this work, we overcome these challenges and demonstrate our findings for a wide range of visual recognition tasks including fine-grained image classification, surface normal estimation, and semantic segmentation. We also demonstrate our findings for diverse domains including medical, satellite, and agricultural imagery, where there does not exist a large amount of labeled or unlabeled data.
翻訳日:2021-04-08 14:05:45 公開日:2021-04-07
# (参考訳) PlasticineLab: 微分物理学を用いたソフトボディ操作ベンチマーク [全文訳有]

PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable Physics ( http://arxiv.org/abs/2104.03311v1 )

ライセンス: CC BY 4.0
Zhiao Huang, Yuanming Hu, Tao Du, Siyuan Zhou, Hao Su, Joshua B. Tenenbaum, Chuang Gan(参考訳) シミュレーションされた仮想環境は、スキル学習アルゴリズムの開発と評価の主要な推進力の1つである。 しかし、既存の環境は通常、剛体物理学のみをシミュレートする。 加えて、シミュレーションプロセスは通常、計画や制御の最適化に有用な勾配を提供しない。 我々はPasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入し、ソフトボディ操作タスクの多様なコレクションを含む。 各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。 基礎となる物理エンジンはDiffTaichiシステムを用いて弾性変形と塑性変形をサポートする。 本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。 実験の結果,1)rlベースのアプローチは,ほとんどのタスクを効率的に解くのに苦労していることが示唆された。2) 勾配に基づくアプローチは,組み込みの微分可能な物理エンジンでオープンループ制御シーケンスを最適化することで,数十回以内の反復で迅速に解を見つけることができるが,長期計画を必要とする多段階のタスクでは不足する。 plasticinelabは、より複雑な物理ベースのスキル学習タスクのために、微分可能な物理とrlを組み合わせた新しいアルゴリズムの開発を促進することを期待している。

Simulated virtual environments serve as one of the main driving forces behind developing and evaluating skill learning algorithms. However, existing environments typically only simulate rigid body physics. Additionally, the simulation process usually does not provide gradients that might be useful for planning and control optimizations. We introduce a new differentiable physics benchmark called PasticineLab, which includes a diverse collection of soft body manipulation tasks. In each task, the agent uses manipulators to deform the plasticine into the desired configuration. The underlying physics engine supports differentiable elastic and plastic deformation using the DiffTaichi system, posing many under-explored challenges to robotic agents. We evaluate several existing reinforcement learning (RL) methods and gradient-based methods on this benchmark. Experimental results suggest that 1) RL-based approaches struggle to solve most of the tasks efficiently; 2) gradient-based approaches, by optimizing open-loop control sequences with the built-in differentiable physics engine, can rapidly find a solution within tens of iterations, but still fall short on multi-stage tasks that require long-term planning. We expect that PlasticineLab will encourage the development of novel algorithms that combine differentiable physics and RL for more complex physics-based skill learning tasks.
翻訳日:2021-04-08 13:27:57 公開日:2021-04-07
# 逆画像浄化のためのロバスト意味表現の適応クラスタリング

Adaptive Clustering of Robust Semantic Representations for Adversarial Image Purification ( http://arxiv.org/abs/2104.02155v2 )

ライセンス: Link先を確認
Samuel Henrique Silva, Arun Das, Ian Scarff, Peyman Najafirad(参考訳) ディープラーニングモデルは、破滅的な結果をもたらす可能性のある敵の操作に非常に影響を受けやすい。 このような障害から防御する最も効果的な方法の1つは、敵対的なトレーニングであるが、モデル間の無防備な攻撃と伝達可能性の一般化のコストがかかる。 本稿では,敵の攻撃に対する堅牢な防御法を提案する。 まず、ベースラインモデルを用いて、各クラスの潜在表現を抽出し、意味的類似性を共有する潜在表現を適応的にクラスタ化する。 クラスタ化された潜在表現の分布を求め,それらの画像から意味的再構成辞書(srd)を学習する。 我々は,逆向きの潜在空間表現と真のクラスタ分布との距離を最小化するために,潜在空間表現を制約する新しいモデルを逆向きに訓練する。 画像を精製するために、入力を低周波成分と高周波成分に分解する。 クリーンデータセットから最も適切なSRDに基づいて高周波成分を再構成する。 最も適切なSRDを評価するために、ロバストな潜在表現とセマンティッククラスタの分布との距離に依存する。 出力は摂動のない清浄画像である。 提案手法を用いてCIFAR-10とImageNet-10の画像浄化を行ったところ, 精度が10%以上向上した。

Deep Learning models are highly susceptible to adversarial manipulations that can lead to catastrophic consequences. One of the most effective methods to defend against such disturbances is adversarial training but at the cost of generalization of unseen attacks and transferability across models. In this paper, we propose a robust defense against adversarial attacks, which is model agnostic and generalizable to unseen adversaries. Initially, with a baseline model, we extract the latent representations for each class and adaptively cluster the latent representations that share a semantic similarity. We obtain the distributions for the clustered latent representations and from their originating images, we learn semantic reconstruction dictionaries (SRD). We adversarially train a new model constraining the latent space representation to minimize the distance between the adversarial latent representation and the true cluster distribution. To purify the image, we decompose the input into low and high-frequency components. The high-frequency component is reconstructed based on the most adequate SRD from the clean dataset. In order to evaluate the most adequate SRD, we rely on the distance between robust latent representations and semantic cluster distributions. The output is a purified image with no perturbation. Image purification on CIFAR-10 and ImageNet-10 using our proposed method improved the accuracy by more than 10% compared to state-of-the-art results.
翻訳日:2021-04-08 13:10:28 公開日:2021-04-07
# 拡張メモリを用いた仮説駆動型ストリーム学習

Hypothesis-driven Stream Learning with Augmented Memory ( http://arxiv.org/abs/2104.02206v2 )

ライセンス: Link先を確認
Mengmi Zhang, Rohil Badkundri, Morgan B. Talbot, Gabriel Kreiman(参考訳) ストリーム学習とは、データを何度も渡さずに、データの連続的なストリームを通じて知識を取得し、転送する能力を指す。 破滅的な忘れ方を避ける一般的な方法は、画像ピクセルとして保存された古い例のリプレイや生成モデルによって再生された新しい例を散在させることである。 本稿では,画像分類タスクにおけるストリーム学習について考察し,従来の知識を拡張メモリに限られた数の仮説で効率的に統合し,関連する仮説を再現し,破滅的忘れを避けるための新しい仮説駆動記憶ネットワークを提案する。 イメージピクセルリプレイと生成リプレイによる仮説駆動リプレイの利点は2つある。 まず、仮説に基づく知識統合は画像画素空間の冗長な情報を避け、メモリ使用効率を向上させる。 第二に、拡張メモリの仮説を新しいタスクを学習し、一般化と転送学習能力を改善するために再使用することができる。 提案手法を3つのストリーム学習オブジェクト認識データセットで評価した。 本手法は,より効率的なメモリ使用量を提供しながら,SOTA法よりも優れた性能を発揮する。 すべてのソースコードとデータはhttps://github.com/k reimanlab/AugMem.com で公開されている。

Stream learning refers to the ability to acquire and transfer knowledge across a continuous stream of data without forgetting and without repeated passes over the data. A common way to avoid catastrophic forgetting is to intersperse new examples with replays of old examples stored as image pixels or reproduced by generative models. Here, we considered stream learning in image classification tasks and proposed a novel hypotheses-driven Augmented Memory Network, which efficiently consolidates previous knowledge with a limited number of hypotheses in the augmented memory and replays relevant hypotheses to avoid catastrophic forgetting. The advantages of hypothesis-driven replay over image pixel replay and generative replay are two-fold. First, hypothesis-based knowledge consolidation avoids redundant information in the image pixel space and makes memory usage more efficient. Second, hypotheses in the augmented memory can be re-used for learning new tasks, improving generalization and transfer learning ability. We evaluated our method on three stream learning object recognition datasets. Our method performs comparably well or better than SOTA methods, while offering more efficient memory usage. All source code and data are publicly available https://github.com/k reimanlab/AugMem.
翻訳日:2021-04-08 13:10:10 公開日:2021-04-07
# モデル適応を説明するための対比的説明

Contrastive Explanations for Explaining Model Adaptations ( http://arxiv.org/abs/2104.02459v2 )

ライセンス: Link先を確認
Andr\'e Artelt, Fabian Hinder, Valerie Vaquet, Robert Feldhans, Barbara Hammer(参考訳) 現実世界にデプロイされた意思決定システムは静的ではなく、モデル適応と呼ばれる現象が時間の経過とともに起こる。 aiベースの意思決定モデルの透明性と解釈性の必要性は広く受け入れられ、広く研究されている。 通常、説明手法は、説明しなければならない静的なシステムを仮定する。 非静的システムを説明することはまだオープンリサーチの問題であり、モデル適応を説明する方法が課題となっている。 本稿では,モデル適応を説明するためのフレームワークを,対照的な説明によって提案し,実際に評価する。 また,与えられたモデル適応によって影響を受けるデータ空間内の領域を自動的に発見する手法を提案する。

Many decision making systems deployed in the real world are not static - a phenomenon known as model adaptation takes place over time. The need for transparency and interpretability of AI-based decision models is widely accepted and thus have been worked on extensively. Usually, explanation methods assume a static system that has to be explained. Explaining non-static systems is still an open research question, which poses the challenge how to explain model adaptations. In this contribution, we propose and (empirically) evaluate a framework for explaining model adaptations by contrastive explanations. We also propose a method for automatically finding regions in data space that are affected by a given model adaptation and thus should be explained.
翻訳日:2021-04-08 13:09:54 公開日:2021-04-07
# マルチエージェント行動データセット:マウスdyadic social interaction

The Multi-Agent Behavior Dataset: Mouse Dyadic Social Interactions ( http://arxiv.org/abs/2104.02710v2 )

ライセンス: Link先を確認
Jennifer J. Sun, Tomomi Karigo, Dipam Chakraborty, Sharada P. Mohanty, David J. Anderson, Pietro Perona, Yisong Yue, Ann Kennedy(参考訳) マルチエージェント行動モデリングはエージェント間の相互作用を理解することを目的としている。 行動神経科学のマルチエージェントデータセットであるCaltech Mouse Social Interactions (CalMS21) データセットについて述べる。 我々のデータセットは、標準的な居住イントルーダアッセイで自由に行動するマウスのビデオから記録された、社会的相互作用の軌跡データからなる。 calms21データセットは、マルチエージェントビヘイビアチャレンジ2021の一部であり、私たちの次のステップは、マルチエージェントビヘイビアを研究する他のドメインからのデータセットを組み込むことです。 行動研究を加速するために、calms21データセットは、3つの設定で自動行動分類手法の性能を評価するベンチマークを提供する。(1) 大規模行動データセットのトレーニングは、すべて1つの注釈によってアノテートされる、(2) スタイル転送は、行動定義におけるアノテーション間差異を学習する、(3) 限られた訓練データによって、関心のある新しい行動の学習である。 データセットは600万フレームのラベルなしのマウスの追跡されたポーズと、100万フレームの追跡されたポーズと対応するフレームレベルの振る舞いアノテーションで構成されている。 データセットの課題は、ラベル付きとラベルなしの追跡データの両方を使用して、行動を正確に分類できることと、新しい注釈や行動に一般化できることです。

Multi-agent behavior modeling aims to understand the interactions that occur between agents. We present a multi-agent dataset from behavioral neuroscience, the Caltech Mouse Social Interactions (CalMS21) Dataset. Our dataset consists of trajectory data of social interactions, recorded from videos of freely behaving mice in a standard resident-intruder assay. The CalMS21 dataset is part of the Multi-Agent Behavior Challenge 2021 and for our next step, our goal is to incorporate datasets from other domains studying multi-agent behavior. To help accelerate behavioral studies, the CalMS21 dataset provides a benchmark to evaluate the performance of automated behavior classification methods in three settings: (1) for training on large behavioral datasets all annotated by a single annotator, (2) for style transfer to learn inter-annotator differences in behavior definitions, and (3) for learning of new behaviors of interest given limited training data. The dataset consists of 6 million frames of unlabelled tracked poses of interacting mice, as well as over 1 million frames with tracked poses and corresponding frame-level behavior annotations. The challenge of our dataset is to be able to classify behaviors accurately using both labelled and unlabelled tracking data, as well as being able to generalize to new annotators and behaviors.
翻訳日:2021-04-08 13:09:45 公開日:2021-04-07
# 知覚的不識別性ネットワーク(PI-Net):マニピュラブルセマンティックスによる顔画像の難読化

Perceptual Indistinguishability -Net (PI-Net): Facial Image Obfuscation with Manipulable Semantics ( http://arxiv.org/abs/2104.01753v2 )

ライセンス: Link先を確認
Jia-Wei Chen, Li-Ju Chen, Chia-Mu Yu, Chun-Shien Lu(参考訳) カメラデバイスの普及に伴い、業界には多くの画像データセットがあり、機械学習コミュニティと業界との間のコラボレーションの機会を提供する。 しかし、データセットのセンシティブな情報は、データ所有者がこれらのデータセットをリリースすることを妨げます。 画像から機密情報を取り除こうとする最近の研究にもかかわらず、それらは有意義なプライバシー利用のトレードオフや証明可能なプライバシー保証を提供していない。 本研究では,知覚的類似性を考慮して,画像の形式的プライバシー概念として知覚的識別可能性(pi)を提案する。 また,PI保証による画像難読化を実現するプライバシー保護機構であるPI-Netを提案する。 本研究は,PI-Netが公開画像データによるプライバシー保護のトレードオフを著しく改善することを示す。

With the growing use of camera devices, the industry has many image datasets that provide more opportunities for collaboration between the machine learning community and industry. However, the sensitive information in the datasets discourages data owners from releasing these datasets. Despite recent research devoted to removing sensitive information from images, they provide neither meaningful privacy-utility trade-off nor provable privacy guarantees. In this study, with the consideration of the perceptual similarity, we propose perceptual indistinguishability (PI) as a formal privacy notion particularly for images. We also propose PI-Net, a privacy-preserving mechanism that achieves image obfuscation with PI guarantee. Our study shows that PI-Net achieves significantly better privacy utility trade-off through public image data.
翻訳日:2021-04-08 13:09:24 公開日:2021-04-07
# トップダウンネットワークとボトムアップネットワークの統合による単眼3次元マルチパーソンポーズ推定

Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and Bottom-Up Networks ( http://arxiv.org/abs/2104.01797v2 )

ライセンス: Link先を確認
Yu Cheng, Bo Wang, Bo Yang, Robby T. Tan(参考訳) モノクロビデオ3Dマルチパーソンのポーズ推定では、人物間の閉塞と密接な相互作用により、人間の検出は誤認され、人間の結合は信頼できない。 既存のトップダウン手法は人間の検出に依存しているため、これらの問題に悩まされる。 既存のボトムアップ手法では人間の検出は行われていないが、すべての人を同じ規模で同時に処理し、複数の人のスケールに敏感になる。 これらの課題に対処するため,我々は,トップダウンとボトムアップの統合による強みの活用を提案する。 私たちのトップダウンネットワークは、画像パッチの1つではなく、すべての人から人間の関節を推定します。 我々のボトムアップネットワークは、人検出に基づく正規化ヒートマップを組み込んでおり、スケールの変動に対処する上でネットワークをより堅牢にします。 最後に、トップダウンネットワークとボトムアップネットワークから推定される3Dポーズが、最終3Dポーズのために統合ネットワークに送られます。 トップダウンとボトムアップのネットワークの統合に加えて、単独でデザインされ、結果として自然な対人インタラクションを評価できない既存のポーズ判別器とは異なり、自然な対人インタラクションを強制する2人のポーズ判別器を提案する。 最後に, 半教師あり法を適用し, 3次元地中データ不足を克服した。 定量的・質的評価は,最先端のベースラインと比較し,本手法の有効性を示す。

In monocular video 3D multi-person pose estimation, inter-person occlusion and close interactions can cause human detection to be erroneous and human-joints grouping to be unreliable. Existing top-down methods rely on human detection and thus suffer from these problems. Existing bottom-up methods do not use human detection, but they process all persons at once at the same scale, causing them to be sensitive to multiple-persons scale variations. To address these challenges, we propose the integration of top-down and bottom-up approaches to exploit their strengths. Our top-down network estimates human joints from all persons instead of one in an image patch, making it robust to possible erroneous bounding boxes. Our bottom-up network incorporates human-detection based normalized heatmaps, allowing the network to be more robust in handling scale variations. Finally, the estimated 3D poses from the top-down and bottom-up networks are fed into our integration network for final 3D poses. Besides the integration of top-down and bottom-up networks, unlike existing pose discriminators that are designed solely for single person, and consequently cannot assess natural inter-person interactions, we propose a two-person pose discriminator that enforces natural two-person interactions. Lastly, we also apply a semi-supervised method to overcome the 3D ground-truth data scarcity. Our quantitative and qualitative evaluations show the effectiveness of our method compared to the state-of-the-art baselines.
翻訳日:2021-04-08 13:09:11 公開日:2021-04-07
# 室内シーン解析のための3d-to-2d蒸留

3D-to-2D Distillation for Indoor Scene Parsing ( http://arxiv.org/abs/2104.02243v2 )

ライセンス: Link先を確認
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu(参考訳) rgb画像からの屋内シーンの意味解析は、閉塞、物体の歪み、視点の変化などにより非常に困難である。 RGB画像から抽出した2D特徴を,大規模3Dデータリポジトリ(ScanNet-v2)から抽出した3D特徴を活用できる新しい3D-to-2D蒸留フレームワークを提案する。 私たちの作品は3つの新しい貢献がある。 まず,事前訓練された3dネットワークから3d知識を抽出し,トレーニング中に2d特徴からシミュレーションされた3d特徴を学習するために2dネットワークを監督する。 次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。 第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。 様々なデータセット、ScanNet-V2、S3DIS、NYU-v2に関する大規模な実験は、我々のアプローチの優位性を実証している。 また, 実験結果から, 3D-to-2D蒸留によりモデルの一般化が向上することが示された。

Indoor scene semantic parsing from RGB images is very challenging due to occlusions, object distortion, and viewpoint variations. Going beyond prior works that leverage geometry information, typically paired depth maps, we present a new approach, a 3D-to-2D distillation framework, that enables us to leverage 3D features extracted from large-scale 3D data repository (e.g., ScanNet-v2) to enhance 2D features extracted from RGB images. Our work has three novel contributions. First, we distill 3D knowledge from a pretrained 3D network to supervise a 2D network to learn simulated 3D features from 2D features during the training, so the 2D network can infer without requiring 3D data. Second, we design a two-stage dimension normalization scheme to calibrate the 2D and 3D features for better integration. Third, we design a semantic-aware adversarial training model to extend our framework for training with unpaired 3D data. Extensive experiments on various datasets, ScanNet-V2, S3DIS, and NYU-v2, demonstrate the superiority of our approach. Also, experimental results show that our 3D-to-2D distillation improves the model generalization.
翻訳日:2021-04-08 13:08:48 公開日:2021-04-07
# ワンクリック:弱い教師付き3dセマンティクスセグメンテーションのための自己学習アプローチ

One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation ( http://arxiv.org/abs/2104.02246v2 )

ライセンス: Link先を確認
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu(参考訳) ポイントクラウドのセマンティクスセグメンテーションは、しばしば大規模な注釈付きトレーニングデータを必要とするが、明らかにポイント単位でのラベルは準備が難しい。 最近の手法では、小さなポイントラベルで3Dネットワークをトレーニングする手法が提案されているが、極端にアプローチして"One Thing One Click"を提案する。 ネットワークトレーニングにおいて,これらの極端にスパースなラベルを活用するために,グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う,新たな自己学習アプローチを設計する。 また,カテゴリ毎のプロトタイプを生成し,グラフノード間の類似性を明示的にモデル化して擬似ラベルを生成し,反復学習を指導する関係ネットワークを採用する。 scannet-v2 と s3dis の両方における実験の結果は、非常に疎結合なアノテーションを持つ我々の自己学習アプローチが、3d意味セグメンテーションのための既存の弱い教師付きメソッドを大きなマージンで上回っていることを示している。

Point cloud semantic segmentation often requires largescale annotated training data, but clearly, point-wise labels are too tedious to prepare. While some recent methods propose to train a 3D network with small percentages of point labels, we take the approach to an extreme and propose "One Thing One Click," meaning that the annotator only needs to label one point per object. To leverage these extremely sparse labels in network training, we design a novel self-training approach, in which we iteratively conduct the training and label propagation, facilitated by a graph propagation module. Also, we adopt a relation network to generate per-category prototype and explicitly model the similarity among graph nodes to generate pseudo labels to guide the iterative training. Experimental results on both ScanNet-v2 and S3DIS show that our self-training approach, with extremely-sparse annotations, outperforms all existing weakly supervised methods for 3D semantic segmentation by a large margin, and our results are also comparable to those of the fully supervised counterparts.
翻訳日:2021-04-08 13:08:28 公開日:2021-04-07
# ボトムアップ型人物ポーズ推定のための単純:模倣とポイント学習を用いた単一ネットワーク

SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation ( http://arxiv.org/abs/2104.02486v2 )

ライセンス: Link先を確認
Jiabin Zhang, Zheng Zhu, Jiwen Lu, Junjie Huang, Guan Huang, Jie Zhou(参考訳) 実用アプリケーションは、多人数ポーズ推定アルゴリズムの精度と効率の両方を要求する。 しかし、高い精度と高速な推論速度は、それぞれトップダウンメソッドとボトムアップメソッドによって支配されている。 精度と効率のトレードオフをよりよくするために,新しい多人数ポーズ推定フレームワークSIngle-network with Mimicking と Point Learning for Bottom-up Human Pose Estimation (SIMPLE)を提案する。 具体的には、トレーニングプロセスにおいて、ハイパフォーマンスなトップダウンパイプラインからのポーズ知識をシンプルに模倣することを可能にし、推論中に高い効率を維持しながら、simpleの精度を著しく向上させる。 さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。 これは、2つのタスクが互いに干渉する可能性がある以前の作業とは全く異なる。 我々の知識を最大限に活用するために,まずポーズ推定において,異なる手法間における戦略の模倣と統一点学習の両方が提案されている。 実験では,COCO,MPII,PoseTrack データセットにおけるボトムアップ手法の最先端性能を実現する。 トップダウンアプローチと比較して、SIMPLEは同等の精度と高速な推論速度を持つ。

The practical application requests both accuracy and efficiency on multi-person pose estimation algorithms. But the high accuracy and fast inference speed are dominated by top-down methods and bottom-up methods respectively. To make a better trade-off between accuracy and efficiency, we propose a novel multi-person pose estimation framework, SIngle-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE). Specifically, in the training process, we enable SIMPLE to mimic the pose knowledge from the high-performance top-down pipeline, which significantly promotes SIMPLE's accuracy while maintaining its high efficiency during inference. Besides, SIMPLE formulates human detection and pose estimation as a unified point learning framework to complement each other in single-network. This is quite different from previous works where the two tasks may interfere with each other. To the best of our knowledge, both mimicking strategy between different method types and unified point learning are firstly proposed in pose estimation. In experiments, our approach achieves the new state-of-the-art performance among bottom-up methods on the COCO, MPII and PoseTrack datasets. Compared with the top-down approaches, SIMPLE has comparable accuracy and faster inference speed.
翻訳日:2021-04-08 13:08:03 公開日:2021-04-07
# dnn埋め込みの2パスレフトワンアウトガウス型pldaクラスタリングによる話者ダイアリゼーション

Speaker Diarization using Two-pass Leave-One-Out Gaussian PLDA Clustering of DNN Embeddings ( http://arxiv.org/abs/2104.02469v2 )

ライセンス: Link先を確認
Kiran Karra, Alan McCree(参考訳) 最近開発されたvbxアプローチのような、話者ダイアリゼーションのための多くの現代的なシステムは、dnnスピーカー埋め込みのクラスタリングと再セグメンテーションに依存している。 このアプローチの2つの問題は、dnnがこのタスクに直接最適化されていないことと、パラメータが異なるアプリケーションに対して大幅に調整する必要があることである。 我々は最近,lgpクラスタリングアルゴリズムと,このスコアリング法の性能を直接最適化するdnnのトレーニング手法を用いて,この方向の進展を示した。 本稿では,この方式の2パスバージョンを新たに提案し,第2パスはより微細な時間分解能を用いて全体の性能を大幅に向上させる。 コールホームコーパスでは,タスク依存パラメータチューニングを使わずに,最初のエラー率を4\%以下で達成する。 また,複数のダイアリゼーションタスクに対するロバストな単一ソリューションへの大きな進歩を示す。

Many modern systems for speaker diarization, such as the recently-developed VBx approach, rely on clustering of DNN speaker embeddings followed by resegmentation. Two problems with this approach are that the DNN is not directly optimized for this task, and the parameters need significant retuning for different applications. We have recently presented progress in this direction with a Leave-One-Out Gaussian PLDA (LGP) clustering algorithm and an approach to training the DNN such that embeddings directly optimize performance of this scoring method. This paper presents a new two-pass version of this system, where the second pass uses finer time resolution to significantly improve overall performance. For the Callhome corpus, we achieve the first published error rate below 4\% without any task-dependent parameter tuning. We also show significant progress towards a robust single solution for multiple diarization tasks.
翻訳日:2021-04-08 13:07:44 公開日:2021-04-07
# 画像認識のための微分可能なパッチ選択

Differentiable Patch Selection for Image Recognition ( http://arxiv.org/abs/2104.03059v1 )

ライセンス: Link先を確認
Jean-Baptiste Cordonnier, Aravindh Mahendran, Alexey Dosovitskiy, Dirk Weissenborn, Jakob Uszkoreit, Thomas Unterthiner(参考訳) ニューラルネットワークは大量のメモリを必要とし、高精細な画像を処理するために計算する。 本稿では,高解像度画像を効率よく処理するための入力の最も関連性の高い部分を選択するための,微分可能なTop-K演算子に基づく手法を提案する。 本手法は,任意の下流ニューラルネットワークとインターフェースし,フレキシブルな方法で異なるパッチから情報を集約し,モデル全体をバックプロパゲーションを用いてエンドツーエンドでトレーニングすることができる。 トレーニング中にオブジェクト/部分境界ボックスアノテーションを使わずに,交通信号認識,パッチ間関係推論,微粒化認識の結果を示す。

Neural Networks require large amounts of memory and compute to process high resolution images, even when only a small part of the image is actually informative for the task at hand. We propose a method based on a differentiable Top-K operator to select the most relevant parts of the input to efficiently process high resolution images. Our method may be interfaced with any downstream neural network, is able to aggregate information from different patches in a flexible way, and allows the whole model to be trained end-to-end using backpropagation. We show results for traffic sign recognition, inter-patch relationship reasoning, and fine-grained recognition without using object/part bounding box annotations during training.
翻訳日:2021-04-08 13:07:09 公開日:2021-04-07
# 内部言語モデル先行補正を用いたlibrispeechトランスデューサモデル

Librispeech Transducer Model with Internal Language Model Prior Correction ( http://arxiv.org/abs/2104.03006v1 )

ライセンス: Link先を確認
Albert Zeyer, Andr\'e Merboldt, Wilfried Michel, Ralf Schl\"uter, Hermann Ney(参考訳) 我々はlibrispeechのトランスデューサモデルを提案する。 浅い融合を伴う外部言語モデル(LM)を含む変種について検討し、推定内部LMを減算する。 これはベイズ解釈によって正当化され、トランスデューサモデルが推定内部LMによって与えられる。 内部lmの減算は通常の浅核融合よりも14%以上向上する。 我々のトランスデューサは、外部のLMとの結合を容易にし、内部のLMを容易に推定できる非ブランクラベルの確率分布を持つ。 また,最後の空白確率に外部LMの終末確率(EOS)を含ませることで,性能をさらに向上する。 コードとセットアップはすべて公開されています。

We present our transducer model on Librispeech. We study variants to include an external language model (LM) with shallow fusion and subtract an estimated internal LM. This is justified by a Bayesian interpretation where the transducer model prior is given by the estimated internal LM. The subtraction of the internal LM gives us over 14% relative improvement over normal shallow fusion. Our transducer has a separate probability distribution for the non-blank labels which allows for easier combination with the external LM, and easier estimation of the internal LM. We additionally take care of including the end-of-sentence (EOS) probability of the external LM in the last blank probability which further improves the performance. All our code and setups are published.
翻訳日:2021-04-08 13:06:57 公開日:2021-04-07
# 関係抽出検証のための質問応答型フレームワーク

A Question-answering Based Framework for Relation Extraction Validation ( http://arxiv.org/abs/2104.02934v1 )

ライセンス: Link先を確認
Jiayang Cheng, Haiyun Jiang, Deqing Yang, Yanghua Xiao(参考訳) 関係抽出は知識獲得とテキスト理解において重要な課題である。 既存の研究は主に、効果的な特徴抽出や合理的なモデル構造の設計による関係抽出の改善に重点を置いている。 しかし、既存の関係抽出モデルによって生成された結果の検証と修正に焦点をあてた研究は少ない。 我々は、関係抽出の性能をさらに向上させる上で、検証は重要かつ有望な方向であると論じる。 本稿では,質問応答をバリデーションとして活用する可能性を検討する。 具体的には,関係抽出モデルから得られた結果を検証する新しい質問応答型フレームワークを提案する。 提案フレームワークは既存の関係分類器に対して,追加情報なしで容易に適用できる。 提案フレームワークを評価するために,nytデータセットを広範囲に実験し,5つの強力なベースラインに対して一貫した改善を観測した。

Relation extraction is an important task in knowledge acquisition and text understanding. Existing works mainly focus on improving relation extraction by extracting effective features or designing reasonable model structures. However, few works have focused on how to validate and correct the results generated by the existing relation extraction models. We argue that validation is an important and promising direction to further improve the performance of relation extraction. In this paper, we explore the possibility of using question answering as validation. Specifically, we propose a novel question-answering based framework to validate the results from relation extraction models. Our proposed framework can be easily applied to existing relation classifiers without any additional information. We conduct extensive experiments on the popular NYT dataset to evaluate the proposed framework, and observe consistent improvements over five strong baselines.
翻訳日:2021-04-08 13:06:48 公開日:2021-04-07
# 弱教師付き信号を用いた能動学習による品質検査

Active learning using weakly supervised signals for quality inspection ( http://arxiv.org/abs/2104.02973v1 )

ライセンス: Link先を確認
Antoine Cordier, Deepan Das, and Pierre Gutierrez(参考訳) 製造プロセスは急速に進化し、生産の視覚的な側面は日々大きく変化するため、マシンビジョンベースの検査システムを迅速に更新する能力は最重要である。 残念ながら、畳み込みニューラルネットワークの教師あり学習には、新しいデータから効果的に学習できる大量の注釈付き画像が必要である。 生産ラインから連続的に生成される画像の豊富さとアノテーションのコストを認識し、アノテーションプロセスの優先順位付けと高速化が可能であることを実証する。 本研究では,急速に採掘され,弱く(すなわち)活発に学習する手法を開発した。 一部) 注釈付きデータで、運用ライン上のオペレータからの高速で直接的なフィードバックを可能にし、大きなマシンビジョンの弱点に対処する。 また,データ取得時の条件の変化によって必然的に発生する共変量シフトの問題についても考察する。 その点に関しては、ドメイン-敵のトレーニングがこの問題に対処する効率的な方法であることを示します。

Because manufacturing processes evolve fast, and since production visual aspect can vary significantly on a daily basis, the ability to rapidly update machine vision based inspection systems is paramount. Unfortunately, supervised learning of convolutional neural networks requires a significant amount of annotated images for being able to learn effectively from new data. Acknowledging the abundance of continuously generated images coming from the production line and the cost of their annotation, we demonstrate it is possible to prioritize and accelerate the annotation process. In this work, we develop a methodology for learning actively, from rapidly mined, weakly (i.e. partially) annotated data, enabling a fast, direct feedback from the operators on the production line and tackling a big machine vision weakness: false positives. We also consider the problem of covariate shift, which arises inevitably due to changing conditions during data acquisition. In that regard, we show domain-adversarial training to be an efficient way to address this issue.
翻訳日:2021-04-08 13:06:36 公開日:2021-04-07
# ゼロショット反応予測のための最近のホップフィールドネットワーク

Modern Hopfield Networks for Few- and Zero-Shot Reaction Prediction ( http://arxiv.org/abs/2104.03279v1 )

ライセンス: Link先を確認
Philipp Seidl, Philipp Renz, Natalia Dyubankova, Paulo Neves, Jonas Verhoeven, J\"org K. Wegner, Sepp Hochreiter, G\"unter Klambauer(参考訳) 新しい薬物や物質の発見における重要なステップは、その生物学的および物理的性質をテストするアイデアとしてだけ存在する分子の合成である。 仮想分子のコンピュータ支援設計は大きな進歩を遂げているが、物理分子を実現するためのコンピュータ支援合成計画(CASP)はまだ初期段階であり、大規模な分子発見を可能にする性能レベルが欠如している。 CASPは多段階合成経路の探索をサポートしており、各合成工程における高い分岐因子と反応を支配する隠された規則のために非常に困難である。 CASPにおける中心的かつ繰り返し適用されるステップは反応予測であり、機械学習手法が最高のパフォーマンスをもたらす。 コントラスト学習により最適化された最新のホップフィールドネットワーク(MHN)を用いたディープラーニングアーキテクチャを用いた新しい反応予測手法を提案する。 MHNは、深層学習アーキテクチャの各層に化学反応を格納し、取り出すことのできる連想メモリである。 その結果,mhnのコントラスト学習アプローチは,従来の手法と対照的に,レア,シングル,さらにはトレーニング例のない反応予測に対して,少数およびゼロショットの学習を可能にすることがわかった。 確立されたベンチマークでは、MHNアプローチが最先端のパフォーマンスを大きく向上させ、予測トップ100の精度を0.858\pm0.004$から0.959\pm0.004$に向上させる。 この進歩は、大規模な分子発見への道を開くかもしれない。

An essential step in the discovery of new drugs and materials is the synthesis of a molecule that exists so far only as an idea to test its biological and physical properties. While computer-aided design of virtual molecules has made large progress, computer-assisted synthesis planning (CASP) to realize physical molecules is still in its infancy and lacks a performance level that would enable large-scale molecule discovery. CASP supports the search for multi-step synthesis routes, which is very challenging due to high branching factors in each synthesis step and the hidden rules that govern the reactions. The central and repeatedly applied step in CASP is reaction prediction, for which machine learning methods yield the best performance. We propose a novel reaction prediction approach that uses a deep learning architecture with modern Hopfield networks (MHNs) that is optimized by contrastive learning. An MHN is an associative memory that can store and retrieve chemical reactions in each layer of a deep learning architecture. We show that our MHN contrastive learning approach enables few- and zero-shot learning for reaction prediction which, in contrast to previous methods, can deal with rare, single, or even no training example(s) for a reaction. On a well established benchmark, our MHN approach pushes the state-of-the-art performance up by a large margin as it improves the predictive top-100 accuracy from $0.858\pm0.004$ to $0.959\pm0.004$. This advance might pave the way to large-scale molecule discovery.
翻訳日:2021-04-08 13:06:21 公開日:2021-04-07
# ディープラーニングに基づく品質検査のための合成学習データ生成

Synthetic training data generation for deep learning based quality inspection ( http://arxiv.org/abs/2104.02980v1 )

ライセンス: Link先を確認
Pierre Gutierrez, Maria Luschkova, Antoine Cordier, Mustafa Shukor, Mona Schappert, and Tim Dahmen(参考訳) ディープラーニングは現在、コンピュータビジョンに基づく品質検査システムの黄金の標準である。 欠陥を検出するには、教師付き学習をしばしば利用するが、大量の注釈付き画像が必要であり、データの収集、クリーニング、注釈付けは退屈であり、システムが最初に検出する必要があるものすべてに注意する必要があるため、システムがデプロイされる速度を制限できる。 これは、製造者がごくわずかなサンプルを収集できるため、希少な欠陥の検査を妨げる可能性がある。 本研究では,この問題を解決するためのシミュレーションに着目する。 まず,欠陥のある部分や健全な部分(欠陥のない部分)の画像をレンダリングする汎用シミュレーションパイプラインを提案する。 金属部品は穴等の小さな欠陥により高テクスチャ化できるため,テクスチャスキャニングと生成方法を設計する。 深層学習ネットワークを訓練し、製造元からの実データでテストすることで、生成した画像の品質を評価する。 純粋にシミュレーションされたデータを用いて実欠陥検出の結果を奨励できることを実証する。 さらに,シミュレーションと実データを結合することで,実画像を補完することにより,実画像のパフォーマンスを向上できることを示した。 最後に、ドメイン適応技術を使うことは、最終結果のわずかに改善に役立つ。

Deep learning is now the gold standard in computer vision-based quality inspection systems. In order to detect defects, supervised learning is often utilized, but necessitates a large amount of annotated images, which can be costly: collecting, cleaning, and annotating the data is tedious and limits the speed at which a system can be deployed as everything the system must detect needs to be observed first. This can impede the inspection of rare defects, since very few samples can be collected by the manufacturer. In this work, we focus on simulations to solve this issue. We first present a generic simulation pipeline to render images of defective or healthy (non defective) parts. As metallic parts can be highly textured with small defects like holes, we design a texture scanning and generation method. We assess the quality of the generated images by training deep learning networks and by testing them on real data from a manufacturer. We demonstrate that we can achieve encouraging results on real defect detection using purely simulated data. Additionally, we are able to improve global performances by concatenating simulated and real data, showing that simulations can complement real images to boost performances. Lastly, using domain adaptation techniques helps improving slightly our final results.
翻訳日:2021-04-08 13:05:36 公開日:2021-04-07
# 進化を続ける分類器を用いたマイナショットインクリメンタル学習

Few-Shot Incremental Learning with Continually Evolved Classifiers ( http://arxiv.org/abs/2104.03047v1 )

ライセンス: Link先を確認
Chi Zhang, Nan Song, Guosheng Lin, Yun Zheng, Pan Pan, Yinghui Xu(参考訳) FSCIL(Few-shot class-incremental Learning)は、古いクラスの知識を忘れずに、いくつかのデータポイントから新しい概念を継続的に学習できる機械学習アルゴリズムを設計することを目的としている。 難点は、新しいクラスからの限られたデータが、重大な過度な問題を引き起こすだけでなく、破滅的な忘れの問題も悪化させることにある。 さらに、学習した分類器は個別のセッションで識別情報しか提供できないのに対し、FSCILは評価にすべてのクラスを巻き込む必要がある。 本稿では,2つの側面からFSCILの問題に対処する。 まず,各インクリメンタルセッションで分類器のみが更新されるような表現と分類器の,単純かつ効果的に分離された学習戦略を採用する。 これにより,事前学習されたバックボーンと非パラメトリッククラス平均分類器が最先端のメソッドを打ち負かすことができることを実証する。 第2に,個々のセッションで学習する分類器をすべてのクラスに適用するために,適応のための分類器間のコンテキスト情報を伝達するグラフモデルを用いた連続進化型分類器(cec)を提案する。 cecの学習を可能にするために,疑似インクリメンタル学習タスクをエピソドミックに構築する擬似インクリメンタル学習パラダイムを設計し,ベースデータセットからデータをサンプリングすることでグラフパラメータを最適化する。 CIFAR100, miniImageNet, Caltech-USCD Birds-200-2011 (CUB200) を含む3つの人気のあるベンチマークデータセットの実験により, 本手法がベースラインを著しく上回り, 新たな最先端の結果に顕著な優位性をもたらすことを示した。

Few-shot class-incremental learning (FSCIL) aims to design machine learning algorithms that can continually learn new concepts from a few data points, without forgetting knowledge of old classes. The difficulty lies in that limited data from new classes not only lead to significant overfitting issues but also exacerbate the notorious catastrophic forgetting problems. Moreover, as training data come in sequence in FSCIL, the learned classifier can only provide discriminative information in individual sessions, while FSCIL requires all classes to be involved for evaluation. In this paper, we address the FSCIL problem from two aspects. First, we adopt a simple but effective decoupled learning strategy of representations and classifiers that only the classifiers are updated in each incremental session, which avoids knowledge forgetting in the representations. By doing so, we demonstrate that a pre-trained backbone plus a non-parametric class mean classifier can beat state-of-the-art methods. Second, to make the classifiers learned on individual sessions applicable to all classes, we propose a Continually Evolved Classifier (CEC) that employs a graph model to propagate context information between classifiers for adaptation. To enable the learning of CEC, we design a pseudo incremental learning paradigm that episodically constructs a pseudo incremental learning task to optimize the graph parameters by sampling data from the base dataset. Experiments on three popular benchmark datasets, including CIFAR100, miniImageNet, and Caltech-USCD Birds-200-2011 (CUB200), show that our method significantly outperforms the baselines and sets new state-of-the-art results with remarkable advantages.
翻訳日:2021-04-08 13:05:18 公開日:2021-04-07
# 映像キャプションを用いた身体活動の促進

The Use of Video Captioning for Fostering Physical Activity ( http://arxiv.org/abs/2104.03207v1 )

ライセンス: Link先を確認
Soheyla Amirian, Abolfazl Farahani, Hamid R. Arabnia, Khaled Rasheed, Thiab R. Taha(参考訳) ビデオキャプションはコンピュータビジョンの分野で最も難しい問題の一つであると考えられている。 ビデオキャプションは、さまざまなディープラーニングモデルを組み合わせて、画像フレームのシーケンスを処理することによって、オブジェクトの検出、アクション検出、ローカライズを行う。 全体的なアクションイベントの有意義な記述を生成するためには、ビデオ内のアクションのシーケンスを検討することが不可欠である。 多くのアプリケーションで、信頼性、正確、リアルタイムのビデオキャプション方式が利用できる。 しかし,本稿では,身体活動の促進と促進を目的としたビデオキャプションについて述べる。 広い意味では、この仕事は補助技術と見なすことができる。 多くの要因により、多くの国で身体活動の欠如が広がり、最も重要なのは、職場でテクノロジーが提供してきた利便性である。 sedentary lifestyleの採択は、公衆衛生の重要な問題となっている。 そのため、日常生活にもっと身体的な動きを組み込むことが不可欠である。 毎日の身体活動を追跡することは、その後の日々の活動と比較するための基盤となる。 以上のことを念頭に,映像中の活動について記述し,日常生活の身体活動レベルを推定することを目的とした映像キャプションフレームワークを提案する。 この枠組みは、日常生活の健康リスクを減らすために日々の動きを追跡するのに役立つ可能性がある。 この論文で示された作品は、まだ初期段階です。 本論文では,アプリケーションの初期手順について概説する。 私たちの予備調査に基づいて、このプロジェクトには大きなメリットがあります。

Video Captioning is considered to be one of the most challenging problems in the field of computer vision. Video Captioning involves the combination of different deep learning models to perform object detection, action detection, and localization by processing a sequence of image frames. It is crucial to consider the sequence of actions in a video in order to generate a meaningful description of the overall action event. A reliable, accurate, and real-time video captioning method can be used in many applications. However, this paper focuses on one application: video captioning for fostering and facilitating physical activities. In broad terms, the work can be considered to be assistive technology. Lack of physical activity appears to be increasingly widespread in many nations due to many factors, the most important being the convenience that technology has provided in workplaces. The adopted sedentary lifestyle is becoming a significant public health issue. Therefore, it is essential to incorporate more physical movements into our daily lives. Tracking one's daily physical activities would offer a base for comparison with activities performed in subsequent days. With the above in mind, this paper proposes a video captioning framework that aims to describe the activities in a video and estimate a person's daily physical activity level. This framework could potentially help people trace their daily movements to reduce an inactive lifestyle's health risks. The work presented in this paper is still in its infancy. The initial steps of the application are outlined in this paper. Based on our preliminary research, this project has great merit.
翻訳日:2021-04-08 13:04:50 公開日:2021-04-07
# HumAID:Twitterの人手による災害情報

HumAID: Human-Annotated Disaster Incidents Data from Twitter ( http://arxiv.org/abs/2104.03090v1 )

ライセンス: Link先を確認
Firoj Alam, Umair Qazi, Muhammad Imran, Ferda Ofli(参考訳) ソーシャルネットワークは情報消費や普及に広く使われており、特に自然災害などの時間的危機的な出来事で使われている。 その膨大な量にもかかわらず、ソーシャルメディアのコンテンツはどんなアプリケーションでも直接使うにはうるさすぎることが多い。 したがって、効率的な消費と意思決定を容易にするために、利用可能なコンテンツをフィルタリング、分類、簡潔に要約することが重要である。 このような問題に対処するために、ラベル付きデータセットの作成に先立って、教師付きモデリングアプローチを用いて自動分類システムが開発された。 しかし、既存のデータセットは異なる側面(例えば、サイズ、重複を含む)に限定されており、より高度でデータに精通したディープラーニングモデルをサポートするには適していない。 本稿では,2016年から2019年にかけて発生した19の災害イベントを対象に,約2400万ツイートのプールから抽出した,約77万ツイートの大規模データセットを提案する。 また,人間のアノテーションに対するソーシャルメディアデータサンプリングにおいて重要なデータ収集・サンプリングパイプラインを提案する。 本稿では,古典的および深層学習(fastTextおよびtransformer)モデルを用いた多クラス分類結果について報告する。 url{https://crisisnlp.qc ri.org/humaid_datase t.html}

Social networks are widely used for information consumption and dissemination, especially during time-critical events such as natural disasters. Despite its significantly large volume, social media content is often too noisy for direct use in any application. Therefore, it is important to filter, categorize, and concisely summarize the available content to facilitate effective consumption and decision-making. To address such issues automatic classification systems have been developed using supervised modeling approaches, thanks to the earlier efforts on creating labeled datasets. However, existing datasets are limited in different aspects (e.g., size, contains duplicates) and less suitable to support more advanced and data-hungry deep learning models. In this paper, we present a new large-scale dataset with ~77K human-labeled tweets, sampled from a pool of ~24 million tweets across 19 disaster events that happened between 2016 and 2019. Moreover, we propose a data collection and sampling pipeline, which is important for social media data sampling for human annotation. We report multiclass classification results using classic and deep learning (fastText and transformer) based models to set the ground for future studies. The dataset and associated resources are publicly available.\url{https://crisisnlp.qc ri.org/humaid_datase t.html}
翻訳日:2021-04-08 13:04:31 公開日:2021-04-07
# ジョイント埋め込みモデルを用いたtwitterユーザのライフスタイル選択の分析

Analysis of Twitter Users' Lifestyle Choices using Joint Embedding Model ( http://arxiv.org/abs/2104.03189v1 )

ライセンス: Link先を確認
Tunazzina Islam, Dan Goldwasser(参考訳) データのマルチビュー表現学習は、ソーシャルメディア上でコヒーレントでコンテキスト化されたユーザの表現を構築するのに役立つ。 本稿では,生活習慣の理解に使用するコンテキスト化されたユーザ表現を学習するために,ユーザのソーシャル情報とテキスト情報を組み合わせた組込みモデルを提案する。 本研究では,「ヨガ」と「ケトダイエット」という2つのライフスタイル活動に関連するつぶやきにモデルを適用し,ユーザの行動タイプとモチベーションを分析する。 本稿では,データ収集とアノテーションのプロセスの詳細を説明し,twitterのコンテンツに基づいて,異なるクラスのユーザの詳細な分析を行う。 実験の結果,両領域における性能改善効果が示された。

Multiview representation learning of data can help construct coherent and contextualized users' representations on social media. This paper suggests a joint embedding model, incorporating users' social and textual information to learn contextualized user representations used for understanding their lifestyle choices. We apply our model to tweets related to two lifestyle activities, `Yoga' and `Keto diet' and use it to analyze users' activity type and motivation. We explain the data collection and annotation process in detail and provide an in-depth analysis of users from different classes based on their Twitter content. Our experiments show that our model results in performance improvements in both domains.
翻訳日:2021-04-08 13:04:12 公開日:2021-04-07
# ビデオからの非言語コミュニケーションにおける三進信念のダイナミクスの学習

Learning Triadic Belief Dynamics in Nonverbal Communication from Videos ( http://arxiv.org/abs/2104.02841v1 )

ライセンス: Link先を確認
Lifeng Fan, Shuwen Qiu, Zilong Zheng, Tao Gao, Song-Chun Zhu, Yixin Zhu(参考訳) 人間にはユニークな社会的認知能力があり、非言語コミュニケーションはエージェント間で豊富な社会的情報を伝達することができる。 対照的に、こうした重要な社会的特徴は、既存の状況理解文学にはほとんど欠落している。 本稿では,視覚入力からエージェントの心理状態を表現し,モデル化し,学習し,推測するために,非言語的コミュニケーションの手がかり(視線,人間のポーズ,ジェスチャーなど)を取り入れる。 重要なのは、そのような心的表現がエージェントの信念を考慮に入れ、それが真の世界状態が何であるかを表わし、それぞれのエージェントの精神状態における信念を推測する。 異なる信念と真の世界状態の集約によって、我々のモデルは本質的に2つのエージェント間の相互作用の間に「5つの心」を形成する。 この「5つの心」モデルは、無限の再帰の信念を推測する以前の作品と異なり、エージェントの信念は「共通の心」に収束する。 この表現に基づいて,5つの心を共同で追跡し,予測する階層的エネルギーベースモデルをさらに考案する。 この新たな視点から、社会イベントは、古典的なキーフレームのビデオ要約を超越した一連の非言語コミュニケーションと信念ダイナミクスによって解釈される。 実験では,このようなソーシャルアカウントを用いて,最先端のキーフレームビデオサマリー手法と比較して,リッチなソーシャルインタラクションを有するビデオに対するより良いビデオサマリを提供することを示す。

Humans possess a unique social cognition capability; nonverbal communication can convey rich social information among agents. In contrast, such crucial social characteristics are mostly missing in the existing scene understanding literature. In this paper, we incorporate different nonverbal communication cues (e.g., gaze, human poses, and gestures) to represent, model, learn, and infer agents' mental states from pure visual inputs. Crucially, such a mental representation takes the agent's belief into account so that it represents what the true world state is and infers the beliefs in each agent's mental state, which may differ from the true world states. By aggregating different beliefs and true world states, our model essentially forms "five minds" during the interactions between two agents. This "five minds" model differs from prior works that infer beliefs in an infinite recursion; instead, agents' beliefs are converged into a "common mind". Based on this representation, we further devise a hierarchical energy-based model that jointly tracks and predicts all five minds. From this new perspective, a social event is interpreted by a series of nonverbal communication and belief dynamics, which transcends the classic keyframe video summary. In the experiments, we demonstrate that using such a social account provides a better video summary on videos with rich social interactions compared with state-of-the-art keyframe video summary methods.
翻訳日:2021-04-08 13:03:37 公開日:2021-04-07
# 匿名ウォークグラフカーネルによるグラフニューラルネットワークの理論的改善

Theoretically Improving Graph Neural Networks via Anonymous Walk Graph Kernels ( http://arxiv.org/abs/2104.02995v1 )

ライセンス: Link先を確認
Qingqing Long, Yilun Jin, Yi Wu, Guojie Song(参考訳) グラフニューラルネットワーク(GNN)はグラフマイニングにおいて大きな成功を収めている。 しかしGNNがグラフのサブ構造をモデル化できないことは大きな欠点である。 特に、メッセージパスGNN(MPGNN)は、理論上、多くのグラフサブ構造を識別、検出、カウントできないことが示されている。 不可能性を補完する努力が払われているが、既存の作業は事前に定義されたサブストラクチャセットに依存しているため、柔軟性が低いか、理論的な洞察に欠けている。 本稿では,グラフ構造を識別する理論上より強力なGNNモデルであるGSKNを提案する。 具体的には、匿名ウォーク(AW)と柔軟なサブ構造ユニットに基づいてGSKNを設計し、グラフカーネル(GK)の機能マッピングに基づいて導出する。 理論的には、gskn は 1-wl テストを拡張し、グラフレベルとノードレベルの両方の観点から最大に強力な mpgnn を示す。 それに対応して、GSKNの評価には様々な実験が利用され、GSKNは幅広いベースラインを上回り、分析を裏付ける。

Graph neural networks (GNNs) have achieved tremendous success in graph mining. However, the inability of GNNs to model substructures in graphs remains a significant drawback. Specifically, message-passing GNNs (MPGNNs), as the prevailing type of GNNs, have been theoretically shown unable to distinguish, detect or count many graph substructures. While efforts have been paid to complement the inability, existing works either rely on pre-defined substructure sets, thus being less flexible, or are lacking in theoretical insights. In this paper, we propose GSKN, a GNN model with a theoretically stronger ability to distinguish graph structures. Specifically, we design GSKN based on anonymous walks (AWs), flexible substructure units, and derive it upon feature mappings of graph kernels (GKs). We theoretically show that GSKN provably extends the 1-WL test, and hence the maximally powerful MPGNNs from both graph-level and node-level viewpoints. Correspondingly, various experiments are leveraged to evaluate GSKN, where GSKN outperforms a wide range of baselines, endorsing the analysis.
翻訳日:2021-04-08 13:03:16 公開日:2021-04-07
# 深層強化学習エージェントのロバスト性向上:批判的ネットワークに基づく環境攻撃

Improving Robustness of Deep Reinforcement Learning Agents: Environment Attacks based on Critic Networks ( http://arxiv.org/abs/2104.03154v1 )

ライセンス: Link先を確認
Lucas Schott, Manon C\'esaire, Hatem Hajri, Sylvain Lamprier(参考訳) 深層強化学習エージェントの政策ロバスト性を改善するため,近年の一連の研究は環境の乱れの発生に焦点を当てている。 環境に有意義な乱れをもたらす文献の既存のアプローチは、敵の強化学習法である。 これらの方法は、環境下でタスクを実行することを学習する主人公エージェントと、考慮された環境の修正を通じて主人公を乱すことを学習する敵エージェントの2人プレイヤゲームとして問題を設定する。 主人公も敵も深層強化学習アルゴリズムで訓練されている。 また,本論文では,例えば分類タスクに使用される勾配に基づく逆攻撃を基盤として,主人公の批判ネットワークに適用し,環境の効率的な乱れを識別する手法を提案する。 通常は非常に複雑で不安定な攻撃方針を学ぶのではなく、主人公の批判ネットワークの知識を活用して、学習プロセスの各ステップにおけるタスクを動的に複雑化する。 提案手法は,より高速で軽量でありながら,既存の文献の手法よりも方針の堅牢性が大幅に向上することを示す。

To improve policy robustness of deep reinforcement learning agents, a line of recent works focus on producing disturbances of the environment. Existing approaches of the literature to generate meaningful disturbances of the environment are adversarial reinforcement learning methods. These methods set the problem as a two-player game between the protagonist agent, which learns to perform a task in an environment, and the adversary agent, which learns to disturb the protagonist via modifications of the considered environment. Both protagonist and adversary are trained with deep reinforcement learning algorithms. Alternatively, we propose in this paper to build on gradient-based adversarial attacks, usually used for classification tasks for instance, that we apply on the critic network of the protagonist to identify efficient disturbances of the environment. Rather than learning an attacker policy, which usually reveals as very complex and unstable, we leverage the knowledge of the critic network of the protagonist, to dynamically complexify the task at each step of the learning process. We show that our method, while being faster and lighter, leads to significantly better improvements in policy robustness than existing methods of the literature.
翻訳日:2021-04-08 13:02:58 公開日:2021-04-07
# 空気中PM2.5レベル推定のための時系列予測モデルの評価

Evaluation of Time Series Forecasting Models for Estimation of PM2.5 Levels in Air ( http://arxiv.org/abs/2104.03226v1 )

ライセンス: Link先を確認
Satvik Garg and Himanshu Jindal(参考訳) 都市部の大気汚染はここ数年一貫して増加している。 工業化の拡大と大気中の有毒ガスの濃度の増加により、空気はより危険な速度で段階的に毒性が増している。 新型コロナウイルスのパンデミックの到来以降、大気汚染を軽減し、影響を減らすことがますます重要になっている。 専門家と環境学者は、大気汚染レベルを測るために慎重な努力をしています。 しかし、空気中の原子下コミュニケーションを模倣することは本当に予測できないため、基礎的な結果をもたらす。 時系列データで結果を予測するために、機械学習とディープラーニングモデルの使用が増加しています。 本研究では,環境中のPM2.5濃度を推定するために,ARIMA,FBProphet,LST M,1D CNNなどのディープラーニングモデルを採用する。 予測した結果から, 適用した手法は平均根平均二乗誤差で比較結果が得られることがわかった。 しかし、LSTMは他の全てのモデルよりも平均絶対パーセンテージ誤差の方が優れている。

Air contamination in urban areas has risen consistently over the past few years. Due to expanding industrialization and increasing concentration of toxic gases in the climate, the air is getting more poisonous step by step at an alarming rate. Since the arrival of the Coronavirus pandemic, it is getting more critical to lessen air contamination to reduce its impact. The specialists and environmentalists are making a valiant effort to gauge air contamination levels. However, its genuinely unpredictable to mimic subatomic communication in the air, which brings about off base outcomes. There has been an ascent in using machine learning and deep learning models to foresee the results on time series data. This study adopts ARIMA, FBProphet, and deep learning models such as LSTM, 1D CNN, to estimate the concentration of PM2.5 in the environment. Our predicted results convey that all adopted methods give comparative outcomes in terms of average root mean squared error. However, the LSTM outperforms all other models with reference to mean absolute percentage error.
翻訳日:2021-04-08 13:02:41 公開日:2021-04-07
# 代表的・公正な合成データ

Representative & Fair Synthetic Data ( http://arxiv.org/abs/2104.03007v1 )

ライセンス: Link先を確認
Paul Tiwald, Alexandra Ebert, Daniel T. Soukup(参考訳) アルゴリズムは、公開するトレーニングデータに基づいて、ルールとアソシエーションを学習する。 しかし、機械に世界を理解し、予測するように教えるのと全く同じデータには、社会的偏見と歴史的偏見が含まれており、結果としてバイアスのあるアルゴリズムが、決定支援に一度使用すればさらに増幅するリスクがある。 一方、合成データは、個々の被験者のプライバシを開示することなく、さらに共有可能な、無限の代表的な現実的なトレーニングサンプルを提供することを約束して現れる。 本稿では,公平性制約を自己教師あり学習プロセスに組み込む枠組みを提案する。 このフレームワークは、プライバシの管理とコントロールと、そのソースであるトレーニングデータにおけるAI内のバイアスのハンドラを提供する。 提案手法は,既存の生成モデルアーキテクチャを修正し,uci成人センサスデータセットの公正版と代表版を生成することにより,提案手法を実証する。 属性間の関係は忠実に保持されるが、元のデータに固有の性別や人種バイアスは制御される。 これは、元のデータでトレーニングされた下流予測モデルの傾向スコアと公正な合成データを比較することでさらに検証される。 我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。

Algorithms learn rules and associations based on the training data that they are exposed to. Yet, the very same data that teaches machines to understand and predict the world, contains societal and historic biases, resulting in biased algorithms with the risk of further amplifying these once put into use for decision support. Synthetic data, on the other hand, emerges with the promise to provide an unlimited amount of representative, realistic training samples, that can be shared further without disclosing the privacy of individual subjects. We present a framework to incorporate fairness constraints into the self-supervised learning process, that allows to then simulate an unlimited amount of representative as well as fair synthetic data. This framework provides a handle to govern and control for privacy as well as for bias within AI at its very source: the training data. We demonstrate the proposed approach by amending an existing generative model architecture and generating a representative as well as fair version of the UCI Adult census data set. While the relationships between attributes are faithfully retained, the gender and racial biases inherent in the original data are controlled for. This is further validated by comparing propensity scores of downstream predictive models that are trained on the original data versus the fair synthetic data. We consider representative & fair synthetic data a promising future building block to teach algorithms not on historic worlds, but rather on the worlds that we strive to live in.
翻訳日:2021-04-08 13:02:25 公開日:2021-04-07
# 欠測データによる予測

Prediction with Missing Data ( http://arxiv.org/abs/2104.03158v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Arthur Delarue, Jean Pauphilet(参考訳) 現実のデータセットでは、欠落情報は避けられない。 インプテーションは統計的推論によく適合しており、理論的には正しいが、その妥当性と実効的な予測の実装は未確定である。 広く用いられているデータインプテーション法の理論的解析を行い、正確な予測を行う上での重要な欠陥を強調する。 あるいは、適応線形回帰(Adaptive linear regression)を提案する。これは、利用可能な一連の特徴に適応して、部分的に観測されたデータに基づいて直接訓練し、評価できる新しいモデルのクラスである。 特に,ある適応回帰モデルは,逐次的ではなくインプットモデルと回帰モデルを同時に学習するインプット・テン・レグレッション法と同値であることを示す。 実世界のデータセットを用いた数値計算結果を用いて理論的結果と適応回帰手法を検証する。

Missing information is inevitable in real-world data sets. While imputation is well-suited and theoretically sound for statistical inference, its relevance and practical implementation for out-of-sample prediction remains unsettled. We provide a theoretical analysis of widely used data imputation methods and highlight their key deficiencies in making accurate predictions. Alternatively, we propose adaptive linear regression, a new class of models that can be directly trained and evaluated on partially observed data, adapting to the set of available features. In particular, we show that certain adaptive regression models are equivalent to impute-then-regress methods where the imputation and the regression models are learned simultaneously instead of sequentially. We validate our theoretical findings and adaptive regression approach with numerical results with real-world data sets.
翻訳日:2021-04-08 13:02:05 公開日:2021-04-07
# Sparse Oblique Decision Trees: ニューラルネットワークの特徴を理解し,操作するためのツール

Sparse Oblique Decision Trees: A Tool to Understand and Manipulate Neural Net Features ( http://arxiv.org/abs/2104.02922v1 )

ライセンス: Link先を確認
Suryabhan Singh Hada and Miguel \'A. Carreira-Perpi\~n\&# x27;an and Arman Zharmagambetov(参考訳) 実用的なアプリケーションへのディープネットの広範囲な展開は、このようなブラックボックスメソッドが予測を実行する方法と理由を理解するというニーズが高まっている。 多くの作業は、入力パターン(イメージなど)のどの部分が予測される特定のクラスに責任があるのか、入力をどのように操作して異なるクラスを予測するかを理解することに重点を置いています。 代わりに、ニューラルネットワークが計算する内部特徴のどれが特定のクラスに責任があるのかを理解することに焦点を合わせます。 我々は、ニューラルネットワークの一部を、決定ノードにスパース重みベクトルを持つ斜め決定木で模倣することで、これを実現する。 最近提案されたtree alternating optimization (tao)アルゴリズムを使うことで,高精度かつ解釈可能な木を学習することができる。 このような木は、置換したニューラルネットの一部を忠実に模倣することができるため、深いネットブラックボックスに関する洞察を与えることができる。 さらに,ニューラルネットの特徴を容易に操作して,ネットが与えられたクラスを予測したり予測したりしないようにし,特徴レベルにおいて敵攻撃を行うことが可能であることを示す。 これらの洞察と操作は、ローカル(単一インスタンス)レベルだけでなく、トレーニングとテストセット全体に適用されます。 我々は、MNISTとImageNetのデータセットで、LeNet5とVGGネットワークでこれを実証する。

The widespread deployment of deep nets in practical applications has lead to a growing desire to understand how and why such black-box methods perform prediction. Much work has focused on understanding what part of the input pattern (an image, say) is responsible for a particular class being predicted, and how the input may be manipulated to predict a different class. We focus instead on understanding which of the internal features computed by the neural net are responsible for a particular class. We achieve this by mimicking part of the neural net with an oblique decision tree having sparse weight vectors at the decision nodes. Using the recently proposed Tree Alternating Optimization (TAO) algorithm, we are able to learn trees that are both highly accurate and interpretable. Such trees can faithfully mimic the part of the neural net they replaced, and hence they can provide insights into the deep net black box. Further, we show we can easily manipulate the neural net features in order to make the net predict, or not predict, a given class, thus showing that it is possible to carry out adversarial attacks at the level of the features. These insights and manipulations apply globally to the entire training and test set, not just at a local (single-instance) level. We demonstrate this robustly in the MNIST and ImageNet datasets with LeNet5 and VGG networks.
翻訳日:2021-04-08 13:01:39 公開日:2021-04-07
# クラスワイズ摂動を用いた普遍的対人訓練

Universal Adversarial Training with Class-Wise Perturbations ( http://arxiv.org/abs/2104.03000v1 )

ライセンス: Link先を確認
Philipp Benz, Chaoning Zhang, Adil Karjauv, In So Kweon(参考訳) 幅広いアプリケーションで圧倒的に成功したにもかかわらず、畳み込みニューラルネットワーク(CNN)は敵の例に弱いと広く認識されている。 この興味深い現象は敵の攻撃と防御技術との競争に繋がった。 これまでのところ、敵の訓練は敵の攻撃に対して最も広く用いられる方法である。 また、UAP(Universal Adversarial Inturbation)に対する防御も拡張されている。 sota universal adversarial training (uat) 法は、ミニバッチ内のすべてのトレーニングサンプルに対して単一の摂動を最適化する。 この研究で、UAPが全てのクラスを等しく攻撃しないことがわかった。 この観測に触発されて、不均衡なロバスト性を持つモデルの源として同定する。 この目的のために, 対人訓練におけるクラスワイドUAPの利用を提案することで, SOTA UATの改善を図る。 複数のベンチマークデータセットにおいて、我々のクラスワイドUATは、クリーンな精度とユニバーサルアタックに対する敵対的ロバスト性の両方において優れたパフォーマンスを導く。

Despite their overwhelming success on a wide range of applications, convolutional neural networks (CNNs) are widely recognized to be vulnerable to adversarial examples. This intriguing phenomenon led to a competition between adversarial attacks and defense techniques. So far, adversarial training is the most widely used method for defending against adversarial attacks. It has also been extended to defend against universal adversarial perturbations (UAPs). The SOTA universal adversarial training (UAT) method optimizes a single perturbation for all training samples in the mini-batch. In this work, we find that a UAP does not attack all classes equally. Inspired by this observation, we identify it as the source of the model having unbalanced robustness. To this end, we improve the SOTA UAT by proposing to utilize class-wise UAPs during adversarial training. On multiple benchmark datasets, our class-wise UAT leads superior performance for both clean accuracy and adversarial robustness against universal attack.
翻訳日:2021-04-08 13:01:18 公開日:2021-04-07
# 人体運動生成・再構成のためのグラフベース正規化フロー

Graph-based Normalizing Flow for Human Motion Generation and Reconstruction ( http://arxiv.org/abs/2104.03020v1 )

ライセンス: Link先を確認
Wenjie Yin, Hang Yin, Danica Kragic, M{\aa}rten Bj\"orkman(参考訳) 人間の骨格運動をモデル化するためのデータ駆動アプローチは、インタラクティブメディアとソーシャルロボティクスに様々な応用を見出した。 これらの分野では、高忠実度サンプルを生成し、不完全な入力データから頑健に動きを再構築するための課題が残っている。 マーカー検出に失敗した 本稿では,過去の情報や個人が移動している経路などの制御信号に規定された長い水平移動列を合成・再構成する確率的生成モデルを提案する。 提案手法は,新しいグラフベースモデルを導入することで,既存のMoGlowに適応する。 本モデルでは,空間-時間グラフ畳み込みネットワーク(st-gcn)を利用して,骨格運動データの空間構造と時間相関を複数スケールで効果的に把握する。 足踏み解析と骨長解析を併用したモーションキャプチャデータセットを用いたモデル評価を行った。 その結果,マーカーの欠落を再現し,現実的な将来のポーズを生成する上で同等の結果が得られるという,モデルの有効性が示された。 入力が不完全な場合、我々のモデルは生成の堅牢性の改善を示す。

Data-driven approaches for modeling human skeletal motion have found various applications in interactive media and social robotics. Challenges remain in these fields for generating high-fidelity samples and robustly reconstructing motion from imperfect input data, due to e.g. missed marker detection. In this paper, we propose a probabilistic generative model to synthesize and reconstruct long horizon motion sequences conditioned on past information and control signals, such as the path along which an individual is moving. Our method adapts the existing work MoGlow by introducing a new graph-based model. The model leverages the spatial-temporal graph convolutional network (ST-GCN) to effectively capture the spatial structure and temporal correlation of skeletal motion data at multiple scales. We evaluate the models on a mixture of motion capture datasets of human locomotion with foot-step and bone-length analysis. The results demonstrate the advantages of our model in reconstructing missing markers and achieving comparable results on generating realistic future poses. When the inputs are imperfect, our model shows improvements on robustness of generation.
翻訳日:2021-04-08 13:01:05 公開日:2021-04-07
# マルチモーダル型連続視覚注意機構

Multimodal Continuous Visual Attention Mechanisms ( http://arxiv.org/abs/2104.03046v1 )

ライセンス: Link先を確認
Ant\'onio Farinhas, Andr\'e F. T. Martins, Pedro M. Q. Aguiar(参考訳) 視覚注意機構は、コンピュータビジョンのためのニューラルネットワークモデルの重要なコンポーネントである。 個々のオブジェクトや画像領域に焦点を合わせることで、これらのメカニズムは最も関連性の高い特徴を特定し、より強力な表現を構築するためにそれらを使用する。 近年,画像の連続性を利用した離散的注意モデルに対する連続領域代替法が提案されている。 これらのアプローチは、注意を単純なユニモーダル密度(例えば)としてモデル化する。 ガウス語では、興味のある領域が複雑な形状または複数の非連続的なパッチからなる画像を扱うのに適さないようにしている。 本稿では,ガウスの混合物の形で多様密度を生成する新しい連続的注意機構を提案する。 EMアルゴリズムを用いて画像中の関連領域のクラスタリングと記述長ペナルティを取得し,混合成分数を選択する。 我々の密度は一様注意機構の線形結合として分解し、バックプロパゲーションステップに対して閉形式ジャコビアンを可能にする。 VQA-v2データセットにおける視覚的質問応答の実験は、競争力のある精度を示し、VQA-HATにおいてより人間の注意を模倣する領域の選択を示す。 マルチモーダル・アテンション・マップは, 複雑な場面において, 対象物を自動的に分離する能力を示すとともに, 対象物が自然に解釈可能であることを示すいくつかの例を示す。

Visual attention mechanisms are a key component of neural network models for computer vision. By focusing on a discrete set of objects or image regions, these mechanisms identify the most relevant features and use them to build more powerful representations. Recently, continuous-domain alternatives to discrete attention models have been proposed, which exploit the continuity of images. These approaches model attention as simple unimodal densities (e.g. a Gaussian), making them less suitable to deal with images whose region of interest has a complex shape or is composed of multiple non-contiguous patches. In this paper, we introduce a new continuous attention mechanism that produces multimodal densities, in the form of mixtures of Gaussians. We use the EM algorithm to obtain a clustering of relevant regions in the image, and a description length penalty to select the number of components in the mixture. Our densities decompose as a linear combination of unimodal attention mechanisms, enabling closed-form Jacobians for the backpropagation step. Experiments on visual question answering in the VQA-v2 dataset show competitive accuracies and a selection of regions that mimics human attention more closely in VQA-HAT. We present several examples that suggest how multimodal attention maps are naturally more interpretable than their unimodal counterparts, showing the ability of our model to automatically segregate objects from ground in complex scenes.
翻訳日:2021-04-08 13:00:50 公開日:2021-04-07
# 限定データに基づく生成逆数ネットワークの正規化

Regularizing Generative Adversarial Networks under Limited Data ( http://arxiv.org/abs/2104.03310v1 )

ライセンス: Link先を確認
Hung-Yu Tseng, Lu Jiang, Ce Liu, Ming-Hsuan Yang, Weilong Yang(参考訳) 近年,gans(generative adversarial networks)が急速に進展している。 しかし、GANモデルの成功は、大量のトレーニングデータに基づいている。 本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。 理論的には、正規化損失と LeCam-divergence と呼ばれる f-分枝の関係を示すが、これは限られた訓練データの下ではより堅牢である。 いくつかのベンチマークデータセットにおける広範囲な実験により、1)一般化性能の向上、および限定されたトレーニングデータ下でのganモデルの学習ダイナミクスの安定化、2)最近のデータ拡張法を補完することを示す。 これらの特性は、imagenetベンチマークの限られたトレーニングデータしか利用できない場合、ganモデルのトレーニングを容易にする。

Recent years have witnessed the rapid progress of generative adversarial networks (GANs). However, the success of the GAN models hinges on a large amount of training data. This work proposes a regularization approach for training robust GAN models on limited data. We theoretically show a connection between the regularized loss and an f-divergence called LeCam-divergence, which we find is more robust under limited training data. Extensive experiments on several benchmark datasets demonstrate that the proposed regularization scheme 1) improves the generalization performance and stabilizes the learning dynamics of GAN models under limited training data, and 2) complements the recent data augmentation methods. These properties facilitate training GAN models to achieve state-of-the-art performance when only limited training data of the ImageNet benchmark is available.
翻訳日:2021-04-08 13:00:28 公開日:2021-04-07
# li-net:大規模アイデンティティ保存顔再現ネットワーク

LI-Net: Large-Pose Identity-Preserving Face Reenactment Network ( http://arxiv.org/abs/2104.02850v1 )

ライセンス: Link先を確認
Jin Liu, Peng Chen, Tao Liang, Zhaoxing Li, Cai Yu, Shuqiao Zou, Jiao Dai, Jizhong Han(参考訳) 顔の再現は、正確な表情、ポーズ、アイデンティティを同時に維持することが難しいため、難しい作業である。 既存の方法の多くは、顔のランドマークを駆動して、元の顔を再現し、2つのアイデンティティ間の内在的なギャップを無視する。 さらに、彼らは表情の絡み合いを無視し、運転顔の符号化時の特徴を装い、大規模な再現顔に不正確な表現や視覚的アーティファクトをもたらす。 これらの問題に対処するため,大規模顔認証システムLI-Netを提案する。 具体的には、ランドマーク変換器は、ドライブランドマーク画像とソースランドマーク画像との同一性ギャップを狭めることを目的とした、駆動ランドマーク画像の調整に採用されている。 次に、Face Rotation ModuleとExpression Enhancing Generatorは、変換されたランドマーク画像をポーズと式特徴に分離し、それらの属性を分離して、正確な表現とポーズでIDを保存する顔を生成する。 定性的および定量的実験により,本手法の優位性を示した。

Face reenactment is a challenging task, as it is difficult to maintain accurate expression, pose and identity simultaneously. Most existing methods directly apply driving facial landmarks to reenact source faces and ignore the intrinsic gap between two identities, resulting in the identity mismatch issue. Besides, they neglect the entanglement of expression and pose features when encoding driving faces, leading to inaccurate expressions and visual artifacts on large-pose reenacted faces. To address these problems, we propose a Large-pose Identity-preserving face reenactment network, LI-Net. Specifically, the Landmark Transformer is adopted to adjust driving landmark images, which aims to narrow the identity gap between driving and source landmark images. Then the Face Rotation Module and the Expression Enhancing Generator decouple the transformed landmark image into pose and expression features, and reenact those attributes separately to generate identity-preserving faces with accurate expressions and poses. Both qualitative and quantitative experimental results demonstrate the superiority of our method.
翻訳日:2021-04-08 13:00:16 公開日:2021-04-07
# 自己のポジティブなサンプルをブートストラップする:電子健康記録データとの対比学習

Bootstrapping Your Own Positive Sample: Contrastive Learning With Electronic Health Record Data ( http://arxiv.org/abs/2104.02932v1 )

ライセンス: Link先を確認
Tingyi Wanyan, Jing Zhang, Ying Ding, Ariful Azad, Zhangyang Wang, Benjamin S Glicksberg(参考訳) EHR(Electronic Health Record)データは、将来の臨床イベントの予測など、医療のための人工知能(AI)において、非常に有用である。 しかしながら、これらのタスクは、クラス不均衡やデータ不均一性(複雑なクラス内分散)を含む無数の要因のために、古典的な機械学習モデルを使用する際に、多くの問題が発生する。 これらの研究のギャップに対処するため,本論文では,エキサイティングなコントラスト学習フレームワークを活用し,新しいコントラスト正規化臨床分類モデルを提案する。 対照的な損失は、EHRに基づく予測を大幅に増大させ、類似/異種パターン(push-and-pull形式)を効果的に特徴づける一方で、よりバランスの取れた特徴空間を学習することで、高度に歪んだクラス分布を緩和する(最近の研究でも同様に)。 特に、コントラスト学習をEHRデータにネーティブにエクスポートする場合、画像データとしてデータ拡張に適合しないため、肯定的なサンプルを生成することがハードルとなる。 この目的のために,ehrデータに特化された2つのユニークな正のサンプリング戦略を導入した。特徴空間近傍構造を活用した特徴に基づく正のサンプリングと,予め生成された患者類似度指標を組み込んだ属性に基づく正のサンプリングである。 どちらのサンプリング手法も、EHRデータに特有の高いクラス内分散を意識して設計されている。 大規模都市保健システムに入院した患者5,712人を対象に,現実のCOVID-19 EHRデータの死亡リスクを予測し,高い競争力を持つ実験結果を得た。 具体的には, クロスエントロピー(0.873) と焦点損失(0.931) といった他の基準や代替手段を上回り, 高auroc 予測スコア 0.959 に達した。

Electronic Health Record (EHR) data has been of tremendous utility in Artificial Intelligence (AI) for healthcare such as predicting future clinical events. These tasks, however, often come with many challenges when using classical machine learning models due to a myriad of factors including class imbalance and data heterogeneity (i.e., the complex intra-class variances). To address some of these research gaps, this paper leverages the exciting contrastive learning framework and proposes a novel contrastive regularized clinical classification model. The contrastive loss is found to substantially augment EHR-based prediction: it effectively characterizes the similar/dissimilar patterns (by its "push-and-pull" form), meanwhile mitigating the highly skewed class distribution by learning more balanced feature spaces (as also echoed by recent findings). In particular, when naively exporting the contrastive learning to the EHR data, one hurdle is in generating positive samples, since EHR data is not as amendable to data augmentation as image data. To this end, we have introduced two unique positive sampling strategies specifically tailored for EHR data: a feature-based positive sampling that exploits the feature space neighborhood structure to reinforce the feature learning; and an attribute-based positive sampling that incorporates pre-generated patient similarity metrics to define the sample proximity. Both sampling approaches are designed with an awareness of unique high intra-class variance in EHR data. Our overall framework yields highly competitive experimental results in predicting the mortality risk on real-world COVID-19 EHR data with a total of 5,712 patients admitted to a large, urban health system. Specifically, our method reaches a high AUROC prediction score of 0.959, which outperforms other baselines and alternatives: cross-entropy(0.873) and focal loss(0.931).
翻訳日:2021-04-08 12:59:40 公開日:2021-04-07
# risk-conditioned distributional soft actor-critic for risk-sensitive navigation

Risk-Conditioned Distributional Soft Actor-Critic for Risk-Sensitive Navigation ( http://arxiv.org/abs/2104.03111v1 )

ライセンス: Link先を確認
Jinyoung Choi, Christopher R. Dance, Jung-eun Kim, Seulbin Hwang, Kyung-sik Park(参考訳) 深部強化学習(RL)に基づく現代のナビゲーションアルゴリズムは、有望な効率性と堅牢性を示す。 しかし、ほとんどの深いrlアルゴリズムはリスク中立な方法で動作し、たとえそのような遮蔽が性能の低下をほとんど起こさないとしても、ユーザーを比較的稀だが深刻な結果から守る特別な試みはしない。 さらに、そのようなアルゴリズムは訓練中のモデルの不正確さを確実にするために、訓練中にコスト・オブ・コリジョン(英語版)といくつかのドメイン・ランダム化を加える以外に、訓練対象の環境がひどく複雑であるにもかかわらず、規定を作らない。 本稿では,不確実性を認識したポリシを学習するだけでなく,コストのかかる微調整や再訓練を伴わずにリスク尺度を変更できる新しい分散RLアルゴリズムを提案する。 本手法は,部分的に観測されたナビゲーションタスクにおいて,ベースラインよりも優れた性能と安全性を示す。 また,本手法を用いて訓練したエージェントが,実行時に幅広いリスク対策に適応できることを実証した。

Modern navigation algorithms based on deep reinforcement learning (RL) show promising efficiency and robustness. However, most deep RL algorithms operate in a risk-neutral manner, making no special attempt to shield users from relatively rare but serious outcomes, even if such shielding might cause little loss of performance. Furthermore, such algorithms typically make no provisions to ensure safety in the presence of inaccuracies in the models on which they were trained, beyond adding a cost-of-collision and some domain randomization while training, in spite of the formidable complexity of the environments in which they operate. In this paper, we present a novel distributional RL algorithm that not only learns an uncertainty-aware policy, but can also change its risk measure without expensive fine-tuning or retraining. Our method shows superior performance and safety over baselines in partially-observed navigation tasks. We also demonstrate that agents trained using our method can adapt their policies to a wide range of risk measures at run-time.
翻訳日:2021-04-08 12:59:10 公開日:2021-04-07
# Hollow-tree Super: 拡張木モデルにおける特徴的重要性のための指向性とスケーラブルなアプローチ

Hollow-tree Super: a directional and scalable approach for feature importance in boosted tree models ( http://arxiv.org/abs/2104.03088v1 )

ライセンス: Link先を確認
Stephane Doyen, Hugh Taylor, Peter Nicholas, Lewis Crawford, Isabella Young, Michael Sughrue(参考訳) 強化木モデリングの現在の制限は、特に分類上の様々な特徴の大きさと方向性を調べる際に、大きな特徴数を持つデータセットへの効果的なスケーリングを妨げている。 本稿では,多数の特徴を含む強化木モデルにおいて,特徴の重要性を解消し可視化するための新しい手法であるHollow-tree Super(HOTS)を提案する。 さらに、HOTSは、分類に関する様々な特徴と方向性を調査することができる。 Irisデータセットを使用して、まずHOTSをGini Importance、Partial Dependence Plots、Permutation Importanceと比較し、HOTSがこれらのメソッドに存在する弱点をどのように解決するかを示す。 次に,高次元神経科学データにHOTSをどのように活用できるかを,60名の統合失調症患者を対象とし,PANSSによって決定された統合失調症の分類においてどの脳領域が重要かを決定する手法を適用した。 HOTSは、Irisデータセット内のGiniの重要性、Partial Dependence Plots、Permutationの重要性の発見を効果的に再現し、サポートした。 統合失調症の脳データセットに適用すると、HOTSは他の特徴と比較して分類と大きさの方向性と同様に、分類において最も重要な特徴のトップ10を解決することができた。 クロスバリデーションは、同じ10の特徴が複数の木をまたいだ意思決定過程において一貫して使われており、これらの特徴は主として統合失調症患者の脳領域が混乱している後頭葉と頭頂葉の皮質に局在していた。 多数の機能を含む大規模なデータセットを扱うことの要求を処理するための方法論が開発されることが不可欠である。 HOTSは、拡張ツリーモデリングを用いて大規模に作業する際の方向性と特徴重要度の両方を調査するユニークな方法である。

Current limitations in boosted tree modelling prevent the effective scaling to datasets with a large feature number, particularly when investigating the magnitude and directionality of various features on classification. We present a novel methodology, Hollow-tree Super (HOTS), to resolve and visualize feature importance in boosted tree models involving a large number of features. Further, HOTS allows for investigation of the directionality and magnitude various features have on classification. Using the Iris dataset, we first compare HOTS to Gini Importance, Partial Dependence Plots, and Permutation Importance, and demonstrate how HOTS resolves the weaknesses present in these methods. We then show how HOTS can be utilized in high dimensional neuroscientific data, by taking 60 Schizophrenic subjects and applying the method to determine which brain regions were most important for classification of schizophrenia as determined by the PANSS. HOTS effectively replicated and supported the findings of Gini importance, Partial Dependence Plots and Permutation importance within the Iris dataset. When applied to the schizophrenic brain dataset, HOTS was able to resolve the top 10 most important features for classification, as well as their directionality for classification and magnitude compared to other features. Cross-validation supported that these same 10 features were consistently used in the decision-making process across multiple trees, and these features were localised primarily to the occipital and parietal cortices, commonly disturbed brain regions in those with Schizophrenia. It is imperative that a methodology is developed that is able to handle the demands of working with large datasets that contain a large number of features. HOTS represents a unique way to investigate both the directionality and magnitude of feature importance when working at scale with boosted-tree modelling.
翻訳日:2021-04-08 12:58:54 公開日:2021-04-07
# DoubleML - Pythonにおけるダブル機械学習のオブジェクト指向実装

DoubleML -- An Object-Oriented Implementation of Double Machine Learning in Python ( http://arxiv.org/abs/2104.03220v1 )

ライセンス: Link先を確認
Philipp Bach, Victor Chernozhukov, Malte S. Kurz, Martin Spindler(参考訳) DoubleMLはオープンソースのPythonライブラリで、Chernozhukovらのダブル機械学習フレームワークを実装している。 (2018) 様々な因果モデルについて検討した。 ニューサンスパラメータの推定が機械学習手法に基づく場合、因果パラメータの統計的推測に有効な機能を含む。 doublemlのオブジェクト指向実装は、モデル仕様の点で高い柔軟性を提供し、拡張も容易である。 このパッケージはMITライセンス下で配布されており、科学的なPythonエコシステムのコアライブラリであるScikit-learn、numpy、pandas、scipy、statsmodels、Joblibに依存している。 ソースコード、ドキュメント、広範なユーザーガイドはhttps://github.com/D oubleML/doubleml-for -pyとhttps://docs.doublem l.orgにある。

DoubleML is an open-source Python library implementing the double machine learning framework of Chernozhukov et al. (2018) for a variety of causal models. It contains functionalities for valid statistical inference on causal parameters when the estimation of nuisance parameters is based on machine learning methods. The object-oriented implementation of DoubleML provides a high flexibility in terms of model specifications and makes it easily extendable. The package is distributed under the MIT license and relies on core libraries from the scientific Python ecosystem: scikit-learn, numpy, pandas, scipy, statsmodels and joblib. Source code, documentation and an extensive user guide can be found at https://github.com/D oubleML/doubleml-for -py and https://docs.doublem l.org.
翻訳日:2021-04-08 12:58:24 公開日:2021-04-07
# 診断と予後の視覚的説明のための情報ボトルネックの帰属

Information Bottleneck Attribution for Visual Explanations of Diagnosis and Prognosis ( http://arxiv.org/abs/2104.02869v1 )

ライセンス: Link先を確認
Ugur Demir, Ismail Irmakci, Elif Keles, Ahmet Topcu, Ziyue Xu, Concetto Spampinato, Sachin Jambawalikar, Evrim Turkbey, Baris Turkbey, Ulas Bagci(参考訳) 視覚的説明法は、注釈付きデータが制限されているか使用できない患者の予後に重要な役割を果たす。 セグメンテーションラベルを使わずに、勾配に基づく帰属法を用いて、医療スキャンから病理をローカライズする試みがいくつかある。 この研究の方向性は、堅牢性と信頼性の欠如によって妨げられている。 これらの手法はネットワークパラメータに非常に敏感である。 本研究では,医療応用のための堅牢な視覚的説明手法を提案する。 我々は,高密度セグメンテーションラベルを用いることなく,Covid-19による肺病変を高精度かつ堅牢に定量化する,高度に革新的なアルゴリズムを提案する。 情報ボトルネックの概念に触発されて、ニューラルネットワークの表現をノイズで覆い、重要な領域を見つける。 このアプローチは、一般的なgrad-camとその派生アルゴリズムの欠点を克服する。 提案手法の背景にある前提は,情報フローの最小化と分類器の予測の類似性確保である。 以上の結果から,ボトルネック条件は類似の帰属法よりも安定かつ頑健な重大度推定が可能であることが示唆された。

Visual explanation methods have an important role in the prognosis of the patients where the annotated data is limited or not available. There have been several attempts to use gradient-based attribution methods to localize pathology from medical scans without using segmentation labels. This research direction has been impeded by the lack of robustness and reliability. These methods are highly sensitive to the network parameters. In this study, we introduce a robust visual explanation method to address this problem for medical applications. We provide a highly innovative algorithm to quantifying lesions in the lungs caused by the Covid-19 with high accuracy and robustness without using dense segmentation labels. Inspired by the information bottleneck concept, we mask the neural network representation with noise to find out important regions. This approach overcomes the drawbacks of commonly used Grad-Cam and its derived algorithms. The premise behind our proposed strategy is that the information flow is minimized while ensuring the classifier prediction stays similar. Our findings indicate that the bottleneck condition provides a more stable and robust severity estimation than the similar attribution methods.
翻訳日:2021-04-08 12:57:42 公開日:2021-04-07
# PyNET-CA: エンドツーエンドのモバイル画像処理のためのチャネルアテンションを備えた拡張PyNET

PyNET-CA: Enhanced PyNET with Channel Attention for End-to-End Mobile Image Signal Processing ( http://arxiv.org/abs/2104.02895v1 )

ライセンス: Link先を確認
Byung-Hoon Kim, Joonyoung Song, Jong Chul Ye, JaeHyun Baek(参考訳) モバイルデバイスで取得したRAWデータからRGBイメージを再構成することは、デモサイティング、デノナイジングなど、多数の画像信号処理(ISP)タスクに関係している。 ディープニューラルネットワークは、これらのタスクを別々に解決したり、再構築プロセス全体をひとつのモデルに置き換えたり、手作りのISPアルゴリズムよりも有望な結果を示している。 本稿では、RAWからRGB再構成のためのエンドツーエンドのモバイルISPディープラーニングアルゴリズムであるPyNET-CAを提案する。 このモデルは、最近提案されたモバイルispの最先端モデルであるpynetを強化し、チャンネルアテンションとサブピクセルリコンストラクションモジュールによってパフォーマンスを向上させる。 本稿では,AIM 2020学習スマートフォンISPチャレンジの結果と比較実験により,提案手法の性能を実証する。 実装のソースコードはhttps://github.com/e gyptdj/skyb-aim2020- publicで入手できます。

Reconstructing RGB image from RAW data obtained with a mobile device is related to a number of image signal processing (ISP) tasks, such as demosaicing, denoising, etc. Deep neural networks have shown promising results over hand-crafted ISP algorithms on solving these tasks separately, or even replacing the whole reconstruction process with one model. Here, we propose PyNET-CA, an end-to-end mobile ISP deep learning algorithm for RAW to RGB reconstruction. The model enhances PyNET, a recently proposed state-of-the-art model for mobile ISP, and improve its performance with channel attention and subpixel reconstruction module. We demonstrate the performance of the proposed method with comparative experiments and results from the AIM 2020 learned smartphone ISP challenge. The source code of our implementation is available at https://github.com/e gyptdj/skyb-aim2020- public
翻訳日:2021-04-08 12:57:24 公開日:2021-04-07
# Dense Dilated UNet:3D光音響トモグラフィ画像再構成のためのディープラーニング

Dense Dilated UNet: Deep Learning for 3D Photoacoustic Tomography Image Reconstruction ( http://arxiv.org/abs/2104.03130v1 )

ライセンス: Link先を確認
Steven Guan, Ko-Tsung Hsu, Matthias Eyassu, and Parag V. Chitnis(参考訳) 光音響トモグラフィ(PAT)では、光励起によって発生する音波は検出器の配列によって測定され、画像の再構成に用いられる。 スパース空間サンプリングとリミテッドビュー検出は、PATで直面する2つの一般的な課題である。 標準手法による不完全なデータからの再構築は、厳しいストレッチアーティファクトとぼやけをもたらす。 本稿では,Dense Dilation UNet (DD-UNet) と呼ばれるCNNアーキテクチャを改良し,3D PATのアーティファクトを補正する手法を提案する。 DD-Netは、CNNの性能を改善するために、高密度接続と拡張畳み込みの利点を利用する。 マルチスケール構造類似度指標によって測定された画像品質から,提案したCNNとFD-UNetを比較した。 その結果、DD-NetはFD-UNetを一貫して上回り、より小さな画像の特徴をより確実に再構築できることを示した。

In photoacoustic tomography (PAT), the acoustic pressure waves produced by optical excitation are measured by an array of detectors and used to reconstruct an image. Sparse spatial sampling and limited-view detection are two common challenges faced in PAT. Reconstructing from incomplete data using standard methods results in severe streaking artifacts and blurring. We propose a modified convolutional neural network (CNN) architecture termed Dense Dilation UNet (DD-UNet) for correcting artifacts in 3D PAT. The DD-Net leverages the benefits of dense connectivity and dilated convolutions to improve CNN performance. We compare the proposed CNN in terms of image quality as measured by the multiscale structural similarity index metric to the Fully Dense UNet (FD-UNet). Results demonstrate that the DD-Net consistently outperforms the FD-UNet and is able to more reliably reconstruct smaller image features.
翻訳日:2021-04-08 12:57:09 公開日:2021-04-07
# バイアスステートメントの書き方:nlpにおけるジェンダーバイアスに関するワークショップへの投稿の推奨

How to Write a Bias Statement: Recommendations for Submissions to the Workshop on Gender Bias in NLP ( http://arxiv.org/abs/2104.03026v1 )

ライセンス: Link先を確認
Christian Hardmeier, Marta R. Costa-juss\`a, Kellie Webster, Will Radford and Su Lin Blodgett(参考訳) NLPにおけるジェンダーバイアスワークショップ(GeBNLP)では、偏見のより広い側面とその社会的含意について、著者に明確な考察をするよう促したい。 ワークショップの2020年版では,すべての著者に対して,NLPシステムを使用する社会的状況との関連性を明らかにするために,作品に明示的な偏見文を含めるよう求めた。 ワークショップのプログラム委員会には、人文科学と社会科学のバックグラウンドを持つ多くのレビュアーと、レビューの大部分を行うnlpの専門家が含まれていた。 それぞれの論文はレビュアーの一人に割り当てられ、彼らのレビューで提供されるバイアスステートメントに特定の注意を払うように求められた。 このイニシアチブは、ワークショップに論文を提出した著者たちから好意的な提案と、バイアスレビュアーからヒントを得たと述べた者もいた。 ですから私たちは,このレビュープロセスの特徴を,ワークショップの今後のエディションに留保する予定です。

At the Workshop on Gender Bias in NLP (GeBNLP), we'd like to encourage authors to give explicit consideration to the wider aspects of bias and its social implications. For the 2020 edition of the workshop, we therefore requested that all authors include an explicit bias statement in their work to clarify how their work relates to the social context in which NLP systems are used. The programme committee of the workshops included a number of reviewers with a background in the humanities and social sciences, in addition to NLP experts doing the bulk of the reviewing. Each paper was assigned one of those reviewers, and they were asked to pay specific attention to the provided bias statements in their reviews. This initiative was well received by the authors who submitted papers to the workshop, several of whom said they received useful suggestions and literature hints from the bias reviewers. We are therefore planning to keep this feature of the review process in future editions of the workshop.
翻訳日:2021-04-08 12:56:23 公開日:2021-04-07
# サイテーショングラフによる科学論文要約の強化

Enhancing Scientific Papers Summarization with Citation Graph ( http://arxiv.org/abs/2104.03057v1 )

ライセンス: Link先を確認
Chenxin An, Ming Zhong, Yiran Chen, Danqing Wang, Xipeng Qiu, Xuanjing Huang(参考訳) 科学領域におけるテキスト要約のこれまでの研究は、主に入力文書の内容に焦点を当てていたが、その引用ネットワークを考慮することはめったにない。 しかし、科学論文はドメイン固有の用語に満ちており、関連する研究コミュニティの助けなしにモデルがその真の意味を理解することはほとんど不可能である。 本稿では,論文要約の課題を引用グラフを利用して再定義し,引用グラフに基づく要約モデルCGSumを提案する。 さらに,異なる領域の141Kの研究論文と661Kの引用関係を含む新たな科学論文要約データセットSemantic Scholar Network (SSN)を構築した。 データセット全体は、大きな連結された引用グラフを構成する。 大規模な実験により, 単純なアーキテクチャであっても, 事前学習モデルと比較すると, 競争性能が向上することが示された。 また,論文の内容をよりよく理解し,高品質な要約を生成するためには,引用グラフが重要であることも示唆した。

Previous work for text summarization in scientific domain mainly focused on the content of the input document, but seldom considering its citation network. However, scientific papers are full of uncommon domain-specific terms, making it almost impossible for the model to understand its true meaning without the help of the relevant research community. In this paper, we redefine the task of scientific papers summarization by utilizing their citation graph and propose a citation graph-based summarization model CGSum which can incorporate the information of both the source paper and its references. In addition, we construct a novel scientific papers summarization dataset Semantic Scholar Network (SSN) which contains 141K research papers in different domains and 661K citation relationships. The entire dataset constitutes a large connected citation graph. Extensive experiments show that our model can achieve competitive performance when compared with the pretrained models even with a simple architecture. The results also indicates the citation graph is crucial to better understand the content of papers and generate high-quality summaries.
翻訳日:2021-04-08 12:56:06 公開日:2021-04-07
# SemEval-2021 Task 9におけるBreakingBERT@IITK : 表を用いた文書検証と証拠発見

BreakingBERT@IITK at SemEval-2021 Task 9 : Statement Verification and Evidence Finding with Tables ( http://arxiv.org/abs/2104.03071v1 )

ライセンス: Link先を確認
Aditya Jindal, Ankur Gupta, Jaya Srivastava, Preeti Menghwani, Vijit Malik, Vishesh Kaushik, Ashutosh Modi(参考訳) 近年,テーブルやグラフなどの構造化データに対する事実検証や予測への関心が高まっている。 偽ニュースの発生を回避するためには,構造化データを効率的にモデル化し,予測するだけでなく,その予測を説明する必要がある。 本稿では,SemEval-2021タスク9の一部として,表データ上の事実検証と証拠発見の問題に取り組む。 2つのサブタスクがあります。 テーブルとステートメント/ファクトが与えられた場合、サブタスクAは、そのステートメントが表データから推測されているかどうかを判断し、サブタスクBは、テーブル内のどのセルが以前のサブタスクの証拠を提供するかを決定する。 与えられたSemTabFactデータセットに対して,ベースラインと最先端アプローチを比較した。 また,自然言語推論タスクの一形態としてエビデンスを解くための新しいアプローチCellBERTを提案する。 サブタスクAでは3ウェイF1スコアが0.69、サブタスクBではF1スコアが0.65となる。

Recently, there has been an interest in factual verification and prediction over structured data like tables and graphs. To circumvent any false news incident, it is necessary to not only model and predict over structured data efficiently but also to explain those predictions. In this paper, as part of the SemEval-2021 Task 9, we tackle the problem of fact verification and evidence finding over tabular data. There are two subtasks. Given a table and a statement/fact, subtask A determines whether the statement is inferred from the tabular data, and subtask B determines which cells in the table provide evidence for the former subtask. We make a comparison of the baselines and state-of-the-art approaches over the given SemTabFact dataset. We also propose a novel approach CellBERT to solve evidence finding as a form of the Natural Language Inference task. We obtain a 3-way F1 score of 0.69 on subtask A and an F1 score of 0.65 on subtask B.
翻訳日:2021-04-08 12:55:50 公開日:2021-04-07
# grammartagger: 言語教育のための多言語・最小教師付き文法プロファイラ

GrammarTagger: A Multilingual, Minimally-Supervised Grammar Profiler for Language Education ( http://arxiv.org/abs/2104.03190v1 )

ライセンス: Link先を確認
Masato Hagiwara, Joshua Tanner, Keisuke Sakaguchi(参考訳) 言語教育に有用な文法的特徴を,入力テキストから識別する,オープンソースの文法プロファイラであるgrammartaggerを提案する。 モデルアーキテクチャは、スパンとそのラベルで注釈付けされた少量のテキストから学習することが可能であり、1) より簡単で直感的なアノテーション、2) 重複するスパンをサポートし、3) 選挙区/依存性のパースで定義された複雑な手作りの規則に比べてエラーの伝播がより少ない。 英語と中国語の両方の数百文のみから$f_1 \approx 0.6$で文法プロファイラモデルをブートストラップできることを示した。 またGrammarTaggerでは,読み難易度と文法的特徴を指標とした,言語学習教材の検索エンジンであるOctanove Learnを構築した。 コードと事前トレーニングされたモデルは \url{https://github.com/o ctanove/grammartagge r} で公開されている。

We present GrammarTagger, an open-source grammar profiler which, given an input text, identifies grammatical features useful for language education. The model architecture enables it to learn from a small amount of texts annotated with spans and their labels, which 1) enables easier and more intuitive annotation, 2) supports overlapping spans, and 3) is less prone to error propagation, compared to complex hand-crafted rules defined on constituency/depende ncy parses. We show that we can bootstrap a grammar profiler model with $F_1 \approx 0.6$ from only a couple hundred sentences both in English and Chinese, which can be further boosted via learning a multilingual model. With GrammarTagger, we also build Octanove Learn, a search engine of language learning materials indexed by their reading difficulty and grammatical features. The code and pretrained models are publicly available at \url{https://github.com/o ctanove/grammartagge r}.
翻訳日:2021-04-08 12:55:32 公開日:2021-04-07
# 逐次メタファー同定のための事前学習された単語埋め込みと言語特徴の組み合わせ

Combining Pre-trained Word Embeddings and Linguistic Features for Sequential Metaphor Identification ( http://arxiv.org/abs/2104.03285v1 )

ライセンス: Link先を確認
Rui Mao, Chenghua Lin, Frank Guerin(参考訳) テキスト中のメタファを識別し,シーケンスタグ付けタスクとして扱う問題に取り組む。 事前学習した単語埋め込みであるGloVe, ELMo, BERTは, 逐次メタファー識別に優れた性能を示した。 これらの埋め込みは、異なるモデル、トレーニングターゲット、コーパスによって生成され、異なるセマンティックおよび構文情報を符号化する。 複数チャネルCNNと双方向LSTMモデルに基づくGloVe, ELMo, 機能ベースBERTを利用することで, 一つの単語の埋め込み法と2つの埋め込みの組み合わせを大きく上回ることを示す。 我々のモデルに言語的特徴を組み込むことで、モデルの性能をさらに向上させることができる。 また、メタファやリテラルの異なる埋め込み方法の空間分布の分析や、音声の異なるジャンルや部分における組込みの相互補完性を示すことを含む、複数の単語組込みの有効性について、詳細な分析を行う。

We tackle the problem of identifying metaphors in text, treated as a sequence tagging task. The pre-trained word embeddings GloVe, ELMo and BERT have individually shown good performance on sequential metaphor identification. These embeddings are generated by different models, training targets and corpora, thus encoding different semantic and syntactic information. We show that leveraging GloVe, ELMo and feature-based BERT based on a multi-channel CNN and a Bidirectional LSTM model can significantly outperform any single word embedding method and the combination of the two embeddings. Incorporating linguistic features into our model can further improve model performance, yielding state-of-the-art performance on three public metaphor datasets. We also provide in-depth analysis on the effectiveness of leveraging multiple word embeddings, including analysing the spatial distribution of different embedding methods for metaphors and literals, and showing how well the embeddings complement each other in different genres and parts of speech.
翻訳日:2021-04-08 12:55:15 公開日:2021-04-07
# 洗練されたスカット選択の力について

On the Power of Refined Skat Selection ( http://arxiv.org/abs/2104.02997v1 )

ライセンス: Link先を確認
Stefan Edelkamp(参考訳) skatは魅力的なコンビネータカードゲームであり、協力的および敵対的な行動(プレイヤー)、ランダム性(取引における)、部分的知識(隠しカードによる)など、現代のaiシステムにとって本質的な課題の多くを浮き彫りにしている。 多くのトリックと高い不確実性を考えると、強化学習はチェスや囲碁のような古典的なボードゲームに比べて効果が低い。 Bridgeのゲームと同じように、Skatでは入札とトリックのステージがあります。 トリックテイクに先立ち、入札プロセスの一部として、ゲーム内の1つのフェーズは2枚のスキャットカードを選択することであり、その品質はその後の演奏パフォーマンスに大きな影響を与える可能性がある。 本稿では, 異なるスコート選択戦略を考察する。 勝利確率と他の手力関数の予測に加えて、洗練されたskat評価特徴に基づくハードエキスパートルールとスコアリング関数を提案する。 実験では、洗練されたskatのアルゴリズムがボットのパフォーマンス、特にAI入札とAIゲーム選択に与える影響を強調している。

Skat is a fascinating combinatorial card game, show-casing many of the intrinsic challenges for modern AI systems such as cooperative and adversarial behaviors (among the players), randomness (in the deal), and partial knowledge (due to hidden cards). Given the larger number of tricks and higher degree of uncertainty, reinforcement learning is less effective compared to classical board games like Chess and Go. As within the game of Bridge, in Skat we have a bidding and trick-taking stage. Prior to the trick-taking and as part of the bidding process, one phase in the game is to select two skat cards, whose quality may influence subsequent playing performance drastically. This paper looks into different skat selection strategies. Besides predicting the probability of winning and other hand strength functions we propose hard expert-rules and a scoring functions based on refined skat evaluation features. Experiments emphasize the impact of the refined skat putting algorithm on the playing performance of the bots, especially for AI bidding and AI game selection.
翻訳日:2021-04-08 12:54:58 公開日:2021-04-07
# MultiScene: 単一空中画像における大規模データセットとマルチシーン認識のためのベンチマーク

MultiScene: A Large-scale Dataset and Benchmark for Multi-scene Recognition in Single Aerial Images ( http://arxiv.org/abs/2104.02846v1 )

ライセンス: Link先を確認
Yuansheng Hua, Lichao Mou, Pu Jin, Xiao Xiang Zhu(参考訳) 航空シーン認識は高解像度空中画像の解釈における基本的な研究課題である。 過去数年間、ほとんどの研究は画像を1つのシーンカテゴリに分類することに焦点を当てているが、現実のシナリオでは、1つの画像が複数のシーンを含むことが多い。 そこで本研究では,より実用的で未熟な課題である単一画像におけるマルチシーン認識について検討する。 この目的のために、我々は10万の制約のない高精細空中画像からなる、multisceneと呼ばれる大規模データセットを作成します。 このようなイメージを手動でラベル付けするのは極めて困難なことを考えると、クラウドソーシングプラットフォーム(例えばOpenStreetMap (OSM))からの低コストのアノテーションを利用する。 しかし、osmデータは、画像ラベルにノイズをもたらす不完全さと不正確さに苦しむ可能性がある。 この問題に対処するため、14,000枚の画像を視覚的に検査し、それらのシーンラベルを補正し、MultiScene-Cleanというクリーンな注釈付き画像のサブセットを生成する。 これにより、クリーンデータを用いたマルチシーン認識のためのディープネットワークの開発と評価が可能となる。 さらに,ノイズラベルを用いたネットワーク学習研究のために,全画像のクラウドソースアノテーションを提供する。 我々は,MultiScene-CleanとMultiSceneの2つのベースラインモデルを用いて実験を行い,単一画像におけるマルチシーン認識のためのベンチマークと,このタスクのための雑音ラベルからの学習を行う。 進歩を促進するために、データセットと事前トレーニングされたモデルを利用可能にします。

Aerial scene recognition is a fundamental research problem in interpreting high-resolution aerial imagery. Over the past few years, most studies focus on classifying an image into one scene category, while in real-world scenarios, it is more often that a single image contains multiple scenes. Therefore, in this paper, we investigate a more practical yet underexplored task -- multi-scene recognition in single images. To this end, we create a large-scale dataset, called MultiScene, composed of 100,000 unconstrained high-resolution aerial images. Considering that manually labeling such images is extremely arduous, we resort to low-cost annotations from crowdsourcing platforms, e.g., OpenStreetMap (OSM). However, OSM data might suffer from incompleteness and incorrectness, which introduce noise into image labels. To address this issue, we visually inspect 14,000 images and correct their scene labels, yielding a subset of cleanly-annotated images, named MultiScene-Clean. With it, we can develop and evaluate deep networks for multi-scene recognition using clean data. Moreover, we provide crowdsourced annotations of all images for the purpose of studying network learning with noisy labels. We conduct experiments with extensive baseline models on both MultiScene-Clean and MultiScene to offer benchmarks for multi-scene recognition in single images and learning from noisy labels for this task, respectively. To facilitate progress, we will make our dataset and pre-trained models available.
翻訳日:2021-04-08 12:53:37 公開日:2021-04-07
# 相互情報へのさよなら:異種人物再同定のための変分蒸留

Farewell to Mutual Information: Variational Distillation for Cross-Modal Person Re-Identification ( http://arxiv.org/abs/2104.02862v1 )

ライセンス: Link先を確認
Xudong Tian, Zhizhong Zhang, Shaohui Lin, Yanyun Qu, Yuan Xie, Lizhuang Ma(参考訳) Information Bottleneck (IB) は、ラベルの予測に関連する情報をすべて保持し、冗長性を最小化することで、表現学習のための情報理論の原則を提供する。 IBの原理は幅広い応用に適用されているが、その最適化は相互情報の正確な推定に大きく依存する難しい問題である。 本稿では,相互情報に本質的に適合するが,明確に見積もることなく,スケーラブルでフレキシブルで解析的なソリューションを提供する,変分自己蒸留(VSD)という新しい戦略を提案する。 厳密な理論的保証の下で、VSDはIBが教師付きトレーニングのための表現とラベルの本質的な相関を把握できるようにする。 さらに、VSDを多視点学習に拡張することにより、ビュー固有情報やタスク非関連情報を排除し、ビュー変更に対する表現の堅牢性を大幅に向上させる、変分相互学習(VCD)と変分相互学習(VML)の2つの戦略を導入する。 理論的に根ざした戦略を検証するため, クロスモーダルな人物Re-IDにアプローチを適用し, 広範な実験を行い, 最先端手法に対する優れた性能を示す。 興味深い発見は、相互見積の方法を再考する必要性を浮き彫りにする

The Information Bottleneck (IB) provides an information theoretic principle for representation learning, by retaining all information relevant for predicting label while minimizing the redundancy. Though IB principle has been applied to a wide range of applications, its optimization remains a challenging problem which heavily relies on the accurate estimation of mutual information. In this paper, we present a new strategy, Variational Self-Distillation (VSD), which provides a scalable, flexible and analytic solution to essentially fitting the mutual information but without explicitly estimating it. Under rigorously theoretical guarantee, VSD enables the IB to grasp the intrinsic correlation between representation and label for supervised training. Furthermore, by extending VSD to multi-view learning, we introduce two other strategies, Variational Cross-Distillation (VCD) and Variational Mutual-Learning (VML), which significantly improve the robustness of representation to view-changes by eliminating view-specific and task-irrelevant information. To verify our theoretically grounded strategies, we apply our approaches to cross-modal person Re-ID, and conduct extensive experiments, where the superior performance against state-of-the-art methods are demonstrated. Our intriguing findings highlight the need to rethink the way to estimate mutual
翻訳日:2021-04-08 12:53:14 公開日:2021-04-07
# 胃X線画像を用いた胃炎検出のための自己教師付き学習

Self-Supervised Learning for Gastritis Detection with Gastric X-Ray Images ( http://arxiv.org/abs/2104.02864v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 医用画像解析のための新しい自己教師型学習法を提案する。 深層畳み込みニューラルネットワークに基づく教師あり学習の開発により,医用画像解析は大きな進歩を遂げている。 しかし、複雑な医用画像の注釈付けは通常専門家の知識を必要とするため、様々な現実世界のアプリケーション(例えばコンピュータ支援診断システム)では困難である。 自己教師あり学習法では,医療画像解析において利用可能なアノテーションの不足を解決するために,クロスビューロスとクロスモデルロスを導入する。 実験結果から,本手法は少量のアノテーションで胃炎検出のための高い検出性能を達成できることが示唆された。

We propose a novel self-supervised learning method for medical image analysis. Great progress has been made in medical image analysis because of the development of supervised learning based on deep convolutional neural networks. However, annotating complex medical images usually requires expert knowledge, making it difficult for a wide range of real-world applications ($e.g.$, computer-aided diagnosis systems). Our self-supervised learning method introduces a cross-view loss and a cross-model loss to solve the insufficient available annotations in medical image analysis. Experimental results show that our method can achieve high detection performance for gastritis detection with only a small number of annotations.
翻訳日:2021-04-08 12:52:52 公開日:2021-04-07
# カプセル内視鏡ビデオにおける高速小腸接地用深部トランスフォーマー

Deep Transformers for Fast Small Intestine Grounding in Capsule Endoscope Video ( http://arxiv.org/abs/2104.02866v1 )

ライセンス: Link先を確認
Xinkai Zhao, Chaowei Fang, Feng Gao, De-Jun Fan, Xutao Lin, Guanbin Li(参考訳) カプセル内視鏡は、難治性消化管疾患を検査し診断するための進化的手法である。 大量のデータがあるため、カプセル内視鏡ビデオの解析は非常に時間がかかり、消化器医にとって労力がかかる。 カプセル内視鏡画像の局所的位置決めと解析のためのインテリジェントな長ビデオ解析アルゴリズムの開発は,臨床医の作業量削減と疾患診断の精度向上に不可欠である。 本稿では, カプセル内視鏡ビデオから, 数千時間経過した小腸の射撃範囲の深部モデルを提案する。 これは深層ニューラルネットワーク法を用いて小腸接地タスクを攻撃する最初の試みである。 課題を3段階の分類問題としてモデル化し,全ビデオフレームを食道・胃・小腸・大腸癌に分類した。 長距離の時間依存を調べるために、複数の隣接するフレームの特徴を融合するトランスフォーマーモジュールが構築されている。 分類モデルに基づいて,小腸の開始と終了の境界を効率的に探索する効率的な探索アルゴリズムを考案した。 本手法は,全ビデオで全小腸を網羅的に検索することなく,ビデオセグメントを中央の目標境界方向に沿って反復的に分離して実施する。 地元の病院から113本のビデオを収集し,その方法を検証する。 5倍のクロスバリデーションでは,当法で位置する小腸部分と広範な胃腸内科医が注釈を付した基底部との間の平均iouが0.945に到達した。

Capsule endoscopy is an evolutional technique for examining and diagnosing intractable gastrointestinal diseases. Because of the huge amount of data, analyzing capsule endoscope videos is very time-consuming and labor-intensive for gastrointestinal medicalists. The development of intelligent long video analysis algorithms for regional positioning and analysis of capsule endoscopic video is therefore essential to reduce the workload of clinicians and assist in improving the accuracy of disease diagnosis. In this paper, we propose a deep model to ground shooting range of small intestine from a capsule endoscope video which has duration of tens of hours. This is the first attempt to attack the small intestine grounding task using deep neural network method. We model the task as a 3-way classification problem, in which every video frame is categorized into esophagus/stomach, small intestine or colorectum. To explore long-range temporal dependency, a transformer module is built to fuse features of multiple neighboring frames. Based on the classification model, we devise an efficient search algorithm to efficiently locate the starting and ending shooting boundaries of the small intestine. Without searching the small intestine exhaustively in the full video, our method is implemented via iteratively separating the video segment along the direction to the target boundary in the middle. We collect 113 videos from a local hospital to validate our method. In the 5-fold cross validation, the average IoU between the small intestine segments located by our method and the ground-truths annotated by broad-certificated gastroenterologists reaches 0.945.
翻訳日:2021-04-08 12:52:42 公開日:2021-04-07
# 人間-物体間インタラクション検出のための余裕伝達学習

Affordance Transfer Learning for Human-Object Interaction Detection ( http://arxiv.org/abs/2104.02867v1 )

ライセンス: Link先を確認
Zhi Hou, Baosheng Yu, Yu Qiao, Xiaojiang Peng, Dacheng Tao(参考訳) 人間と物体の相互作用(HOI)を推論することは、より深いシーン理解に不可欠であり、一方、対象の空き(または機能)は、新しい物体を持つ未知のHOIを発見する上で非常に重要である。 そこで本研究では,新しい物体とhoisを共同で検出し,アフォーマンスを認識するためのアフォーマンス伝達学習手法を提案する。 具体的には、hoi表現をアフォーマンス表現とオブジェクト表現の組み合わせに分解することができ、アフォーマンス表現と追加画像からの新たなオブジェクト表現を組み合わせることで、新たなインタラクションを構成できる。 新たな物体に 余裕を移すことです 提案するアフォーマンス伝達学習により、モデルはまた既知のアフォーマンス表現から新しいオブジェクトのアフォーマンスを推測することができる。 提案手法は,1)hoi検出性能,特に未発見物体を用いたhoisの性能向上,2)新規物体の許容値の推算に利用可能である。 HICO-DETとHOI-COCO(V-COCO)の2つのデータセットによる実験結果から,最近のHOI検出および物価検出の最先端手法に対する大幅な改善が示された。 コードはhttps://github.com/z hihou7/HOI-CLで入手できる。

Reasoning the human-object interactions (HOI) is essential for deeper scene understanding, while object affordances (or functionalities) are of great importance for human to discover unseen HOIs with novel objects. Inspired by this, we introduce an affordance transfer learning approach to jointly detect HOIs with novel objects and recognize affordances. Specifically, HOI representations can be decoupled into a combination of affordance and object representations, making it possible to compose novel interactions by combining affordance representations and novel object representations from additional images, i.e. transferring the affordance to novel objects. With the proposed affordance transfer learning, the model is also capable of inferring the affordances of novel objects from known affordance representations. The proposed method can thus be used to 1) improve the performance of HOI detection, especially for the HOIs with unseen objects; and 2) infer the affordances of novel objects. Experimental results on two datasets, HICO-DET and HOI-COCO (from V-COCO), demonstrate significant improvements over recent state-of-the-art methods for HOI detection and object affordance detection. Code is available at https://github.com/z hihou7/HOI-CL
翻訳日:2021-04-08 12:52:07 公開日:2021-04-07
# ベイズ核融合によるマルチモーダル物体検出

Multimodal Object Detection via Bayesian Fusion ( http://arxiv.org/abs/2104.02904v1 )

ライセンス: Link先を確認
Yi-Ting Chen, Jinghao Shi, Christoph Mertz, Shu Kong, Deva Ramanan(参考訳) マルチモーダル入力による物体検出は、自動運転車(AV)のような多くの安全クリティカルな認識システムを改善することができる。 RGBとサーマルカメラを用いたマルチモーダル物体検出は, 日と夜の両方で動作するAVによって動機付けられ, 後者は照明不良下でより強力な物体シグネチャを提供することができるため, マルチモーダル物体検出について検討した。 異なるモダリティから情報を融合するための戦略を探る。 我々の重要な貢献は、第一原理から導かれる単純な確率モデルを通じて、異なるモードからの境界ボックス検出を融合する非学習遅延融合法である。 我々の単純なアプローチはベイズ核融合と呼ばれ、異なるモダリティの条件付き独立性仮定から容易に導かれる。 本手法は, 整列型(KAIST)と非整列型(FLIR)の両センサデータを含むベンチマークに適用する。 ベイジアン・フュージョンは、これまでの業績を13%以上上回っている。

Object detection with multimodal inputs can improve many safety-critical perception systems such as autonomous vehicles (AVs). Motivated by AVs that operate in both day and night, we study multimodal object detection with RGB and thermal cameras, since the latter can provide much stronger object signatures under poor illumination. We explore strategies for fusing information from different modalities. Our key contribution is a non-learned late-fusion method that fuses together bounding box detections from different modalities via a simple probabilistic model derived from first principles. Our simple approach, which we call Bayesian Fusion, is readily derived from conditional independence assumptions across different modalities. We apply our approach to benchmarks containing both aligned (KAIST) and unaligned (FLIR) multimodal sensor data. Our Bayesian Fusion outperforms prior work by more than 13% in relative performance.
翻訳日:2021-04-08 12:51:43 公開日:2021-04-07
# OpenGAN: オープンデータ生成によるオープンセット認識

OpenGAN: Open-Set Recognition via Open Data Generation ( http://arxiv.org/abs/2104.02939v1 )

ライセンス: Link先を確認
Shu Kong, Deva Ramanan(参考訳) 実世界の機械学習システムは、トレーニングデータとは異なる新しいテストデータを分析する必要がある。 K-ウェイ分類において、これは開集合認識(英語版)(open-set recognition)として鮮明に定式化され、その中核はK閉集合クラス以外の開集合データを識別する能力である。 オープンセット識別のための概念的にエレガントな2つのアイデアは、1) 外部データをオープンセットとして活用することにより、オープンvs閉鎖二分判別器を識別的に学習し、2) 閉セットデータ分布をGANを用いて教師なし学習し、その識別器をオープンセット確率関数として利用する。 しかしながら、前者はトレーニングのアウトレーヤに過度に適合するため、様々なオープンテストデータに対して不完全な一般化を行う。 後者は、おそらくGANの不安定な訓練のため、うまく機能しない。 そこで我々はopenganを提案する。openganは複数の技術的洞察を組み合わせることで,それぞれのアプローチの限界に対処している。 まず,ある実データに対して慎重に選択されたgan判別器が,既に最先端の成果を実現できることを示す。 第2に、逆合成された「フェイク」データを用いて、実際のオープントレーニングのサンプルセットを拡大する。 第三に、私たちはクローズドワールドのKウェイネットワークによって計算される機能に対して、識別器を構築します。 大規模な実験により、OpenGANは以前のオープンセット法よりも大幅に優れていた。

Real-world machine learning systems need to analyze novel testing data that differs from the training data. In K-way classification, this is crisply formulated as open-set recognition, core to which is the ability to discriminate open-set data outside the K closed-set classes. Two conceptually elegant ideas for open-set discrimination are: 1) discriminatively learning an open-vs-closed binary discriminator by exploiting some outlier data as the open-set, and 2) unsupervised learning the closed-set data distribution with a GAN and using its discriminator as the open-set likelihood function. However, the former generalizes poorly to diverse open test data due to overfitting to the training outliers, which unlikely exhaustively span the open-world. The latter does not work well, presumably due to the instable training of GANs. Motivated by the above, we propose OpenGAN, which addresses the limitation of each approach by combining them with several technical insights. First, we show that a carefully selected GAN-discriminator on some real outlier data already achieves the state-of-the-art. Second, we augment the available set of real open training examples with adversarially synthesized "fake" data. Third and most importantly, we build the discriminator over the features computed by the closed-world K-way networks. Extensive experiments show that OpenGAN significantly outperforms prior open-set methods.
翻訳日:2021-04-08 12:51:30 公開日:2021-04-07
# 多視点ステレオの奥行き推定の自己教師あり学習

Self-supervised Learning of Depth Inference for Multi-view Stereo ( http://arxiv.org/abs/2104.02972v1 )

ライセンス: Link先を確認
Jiayu Yang, Jose M. Alvarez, Miaomiao Liu(参考訳) 最近の教師付きマルチビュー深度推定ネットワークは有望な結果を得た。 すべての教師付きアプローチと同様に、これらのネットワークはトレーニング中に地上データを必要とする。 しかし,多視点深度データの大量収集は非常に困難である。 本稿では,入力データから擬似ラベルを利用するマルチビューステレオのための自己教師付き学習フレームワークを提案する。 まず,画像再構成損失を監督とする教師なし学習フレームワークにおいて,初期擬似ラベルとして深度マップを推定することから始める。 次に,高分解能画像と隣接ビューから推定された奥行き情報を活用した,注意深く設計されたパイプラインを用いて,初期擬似ラベルを洗練する。 これらの高品質擬似ラベルを監視信号としてネットワークを訓練し,自己学習による性能向上を反復的に行う。 dtuデータセットの広範な実験により,提案する自己教師付き学習フレームワークは,既存の教師なしマルチビューステレオネットワークを大きなマージンで上回り,教師なしステレオネットワークと同等の性能を発揮することが示された。 コードはhttps://github.com/J iayuYANG/Self-superv ised-CVP-MVSNetで公開されている。

Recent supervised multi-view depth estimation networks have achieved promising results. Similar to all supervised approaches, these networks require ground-truth data during training. However, collecting a large amount of multi-view depth data is very challenging. Here, we propose a self-supervised learning framework for multi-view stereo that exploit pseudo labels from the input data. We start by learning to estimate depth maps as initial pseudo labels under an unsupervised learning framework relying on image reconstruction loss as supervision. We then refine the initial pseudo labels using a carefully designed pipeline leveraging depth information inferred from higher resolution images and neighboring views. We use these high-quality pseudo labels as the supervision signal to train the network and improve, iteratively, its performance by self-training. Extensive experiments on the DTU dataset show that our proposed self-supervised learning framework outperforms existing unsupervised multi-view stereo networks by a large margin and performs on par compared to the supervised counterpart. Code is available at https://github.com/J iayuYANG/Self-superv ised-CVP-MVSNet.
翻訳日:2021-04-08 12:51:05 公開日:2021-04-07
# FedFace: 顔認識モデルの協調学習

FedFace: Collaborative Learning of Face Recognition Model ( http://arxiv.org/abs/2104.03008v1 )

ライセンス: Link先を確認
Divyansh Aggarwal, Jiayu Zhou and Anil K. Jain(参考訳) DNNベースの顔認識モデルは、トレーニングのために大規模な集中的な顔データセットを必要とする。 しかし、データプライバシーの懸念と法的制約の増大により、顔データセットへのアクセスと共有は極めて困難になっている。 本研究では,顔認識モデルの協調学習を目的とした,プライバシー保護方式のフェデレーション学習(fl)フレームワークであるfederated learningを提案する。 FedFaceは、複数のクライアントで利用可能な顔画像を利用して、クライアントに格納された顔画像が他のクライアントや中央ホストと共有されない、正確で一般化可能な顔認識モデルを学ぶ。 我々は、各クライアントがデバイス所有者(クライアント1人当たりのアイデンティティ)のみに関連する顔画像を含むモバイルデバイスである、挑戦的で現実的なシナリオに取り組む。 fedavgのような従来のflアルゴリズムは、すべての顔特徴が埋め込み空間の単一点に崩壊する自明な解をもたらすため、この設定には適していない。 IJB-Aで81.43%から83.79%のTARから、FedFaceは1000台のモバイルデバイスで利用可能な顔画像を利用して、事前訓練済みの顔認識モデルCosFaceの性能を向上させることができる。 LFWでは、LFWプロトコルの認識精度は99.15%から99.28%に向上する。 fedfaceは、顔画像がデバイス間やデバイスとサーバ間で共有されることを保証しながら、これを可能にする。 私たちのコードと事前訓練されたモデルは公開されます。

DNN-based face recognition models require large centrally aggregated face datasets for training. However, due to the growing data privacy concerns and legal restrictions, accessing and sharing face datasets has become exceedingly difficult. We propose FedFace, a federated learning (FL) framework for collaborative learning of face recognition models in a privacy preserving manner. FedFace utilizes the face images available on multiple clients to learn an accurate and generalizable face recognition model where the face images stored at each client are neither shared with other clients nor the central host. We tackle the a challenging and yet realistic scenario where each client is a mobile device containing face images pertaining to only the owner of the device (one identity per client). Conventional FL algorithms such as FedAvg are not suitable for this setting because they lead to a trivial solution where all the face features collapse into a single point in the embedding space. Our experiments show that FedFace can utilize face images available on 1,000 mobile devices to enhance the performance of a pre-trained face recognition model, CosFace, from a TAR of 81.43% to 83.79% on IJB-A (@ 0.1% FAR). For LFW, the recognition accuracy under the LFW protocol is increased from 99.15% to 99.28%. FedFace is able to do this while ensuring that the face images are never shared between devices or between the device and the server. Our code and pre-trained models will be publicly available.
翻訳日:2021-04-08 12:50:51 公開日:2021-04-07
# 航空車両検出における人工的・有益的画像の利用

Artificial and beneficial -- Exploiting artificial images for aerial vehicle detection ( http://arxiv.org/abs/2104.03054v1 )

ライセンス: Link先を確認
Immanuel Weber, Jens Bongartz, Ribana Roscher(参考訳) 空中画像における物体検出は, 環境, 経済, インフラ関連タスクにおいて重要な課題である。 最も顕著な応用の1つは、深層学習アプローチがますます使われる車両の検出である。 このようなアプローチの大きな課題は、例えば農業機械や建設車両のようなより専門的で稀な車両が検出される場合に発生する限られた量のデータである。 このデータの欠如は、ディープラーニング手法の膨大なデータ飢餓と、特に物体認識との対比である。 本稿では,航空画像における道路車両検出の文脈において,この問題に対処する。 アノテーション付きデータの欠如を克服するために,2次元cad描画から作成した車両を人工的あるいは実際の背景に重ね合わせてトップダウン画像を生成する生成手法を提案する。 修正されたRetinaNetオブジェクト検出ネットワークを用いた実験により、これらの画像を小さな実世界のデータセットに追加することで、検出性能が大幅に向上することが示された。 非常に制限された、あるいは実世界の画像が存在しない場合、平均精度が0.70ポイント向上するのを観察した。 背景とオブジェクトのイメージ構成の影響を分析し,背景の重要度に関する洞察を提供することにより,実世界のデータセットに対する残りのパフォーマンスギャップに対処する。

Object detection in aerial images is an important task in environmental, economic, and infrastructure-relat ed tasks. One of the most prominent applications is the detection of vehicles, for which deep learning approaches are increasingly used. A major challenge in such approaches is the limited amount of data that arises, for example, when more specialized and rarer vehicles such as agricultural machinery or construction vehicles are to be detected. This lack of data contrasts with the enormous data hunger of deep learning methods in general and object recognition in particular. In this article, we address this issue in the context of the detection of road vehicles in aerial images. To overcome the lack of annotated data, we propose a generative approach that generates top-down images by overlaying artificial vehicles created from 2D CAD drawings on artificial or real backgrounds. Our experiments with a modified RetinaNet object detection network show that adding these images to small real-world datasets significantly improves detection performance. In cases of very limited or even no real-world images, we observe an improvement in average precision of up to 0.70 points. We address the remaining performance gap to real-world datasets by analyzing the effect of the image composition of background and objects and give insights into the importance of background.
翻訳日:2021-04-08 12:50:29 公開日:2021-04-07
# すべて」:パレイドリアの顔の再現

Everything's Talkin': Pareidolia Face Reenactment ( http://arxiv.org/abs/2104.03061v1 )

ライセンス: Link先を確認
Linsen Song, Wayne Wu, Chaoyou Fu, Chen Qian, Chen Change Loy, Ran He(参考訳) そこで本研究では,映像中の人間の顔と連動して動く静的なイラスト的顔のアニメーションとして定義した,pareidolia face reenactmentという新たな応用方向を提案する。 顔の再現法と従来の顔の再現法との差異が大きいため、形状のばらつきとテクスチャのばらつきという2つの主な課題が紹介されている。 そこで本研究では,この2つの課題に対処する新しいパラメトリック・アントラクサライズ・リエンタクメント・アルゴリズムを提案する。 具体的には, 形状モデリング, 運動伝達, テクスチャ合成の3つのプロセスに分割することを提案する。 この分解により, パラメトリック形状モデリング, 拡張運動伝達, 教師なしテクスチャシンセサイザーの3つの重要な要素を導入することにより, パレイドリア面の著しい分散に起因する問題を克服する。 広範な実験により,本手法は質的および定量的に優れた性能を示す。 コード、モデル、データはプロジェクトのページで利用可能です。

We present a new application direction named Pareidolia Face Reenactment, which is defined as animating a static illusory face to move in tandem with a human face in the video. For the large differences between pareidolia face reenactment and traditional human face reenactment, two main challenges are introduced, i.e., shape variance and texture variance. In this work, we propose a novel Parametric Unsupervised Reenactment Algorithm to tackle these two challenges. Specifically, we propose to decompose the reenactment into three catenate processes: shape modeling, motion transfer and texture synthesis. With the decomposition, we introduce three crucial components, i.e., Parametric Shape Modeling, Expansionary Motion Transfer and Unsupervised Texture Synthesizer, to overcome the problems brought by the remarkably variances on pareidolia faces. Extensive experiments show the superior performance of our method both qualitatively and quantitatively. Code, model and data are available on our project page.
翻訳日:2021-04-08 12:50:10 公開日:2021-04-07
# DG-Font: 教師なしフォント生成のための変形可能な生成ネットワーク

DG-Font: Deformable Generative Networks for Unsupervised Font Generation ( http://arxiv.org/abs/2104.03064v1 )

ライセンス: Link先を確認
Yangchen Xie and Xinyuan Chen and Li Sun and Yue Lu(参考訳) フォント生成は、特に多くの文字で構成され、近年多くの注目を集めている一部の書記システムにとって、困難な問題である。 しかし、既存のフォント生成手法はしばしば教師付き学習である。 大量のペアデータが必要で、それは労働集約的で収集に費用がかかる。 また、一般的な画像から画像への翻訳モデルは、フォント生成に直接適用できないテクスチャや色の集合としてスタイルを定義することが多い。 そこで本研究では,非教師なしフォント生成(dgfont)のための新しい変形可能な生成ネットワークを提案する。 本稿では,一対の変位マップを予測し,予測地図を用いてコンテンツエンコーダからの低レベル特徴マップに変形可能な畳み込みを適用する特徴変形スキップ接続(fdsc)を提案する。 fdscの出力はミキサーに供給され、最終的な結果を生成する。 FDSCを利用して、ミキサーは完全な構造を持つ高品質なキャラクタを出力する。 生成画像の品質をさらに向上するために,コンテンツエンコーダ内の3つの変形可能な畳み込み層を用いて,スタイル不変特徴表現を学習する。 実験により,本モデルが最先端手法よりも高品質な文字を生成することを実証した。 ソースコードはhttps://github.com/e cnuycxie/DG-Font.com で入手できる。

Font generation is a challenging problem especially for some writing systems that consist of a large number of characters and has attracted a lot of attention in recent years. However, existing methods for font generation are often in supervised learning. They require a large number of paired data, which is labor-intensive and expensive to collect. Besides, common image-to-image translation models often define style as the set of textures and colors, which cannot be directly applied to font generation. To address these problems, we propose novel deformable generative networks for unsupervised font generation (DGFont). We introduce a feature deformation skip connection (FDSC) which predicts pairs of displacement maps and employs the predicted maps to apply deformable convolution to the low-level feature maps from the content encoder. The outputs of FDSC are fed into a mixer to generate the final results. Taking advantage of FDSC, the mixer outputs a high-quality character with a complete structure. To further improve the quality of generated images, we use three deformable convolution layers in the content encoder to learn style-invariant feature representations. Experiments demonstrate that our model generates characters in higher quality than state-of-art methods. The source code is available at https://github.com/e cnuycxie/DG-Font.
翻訳日:2021-04-08 12:49:53 公開日:2021-04-07
# 糖尿病性足部潰瘍の感染症・虚血の分類と解析

Analysis Towards Classification of Infection and Ischaemia of Diabetic Foot Ulcers ( http://arxiv.org/abs/2104.03068v1 )

ライセンス: Link先を確認
Moi Hoon Yap and Bill Cassidy and Joseph M. Pappachan and Claire O'Shea and David Gillespie and Neil Reeves(参考訳) 本稿では,糖尿病性足部潰瘍データ(dfuc2021)について,感染と虚血を主眼とした病態解析について紹介する。 本稿では,事実アノテーション,データキュレーション,データ分析のためのdfuc2021のデータ作成について述べる。 DFUC2021の最終リリースは15,683のDFUパッチと5,955のトレーニング、5,734のテスト、そして3,994のDFUパッチで構成されている。 グランド・真実のラベルは 4つのクラス、つまり コントロール、感染、虚血、および両方の状態。 画像ハッシュ技術を用いてデータセットをキュレートし、UMAPプロジェクションを用いて分離性を分析する。 ディープラーニングの5つの重要なバックボーンのパフォーマンスをベンチマークする。 VGG16, ResNet101, InceptionV3, DenseNet121, EfficientNet on DFUC2021。 異なる戦略でこれらのキーバックボーンの最適化結果を報告する。 その結果,データ拡張学習と転送学習を併用したEfficientNetB0は,マクロ平均精度0.57,0.62,F1スコア0.55のマルチクラス(4クラス)分類に最適であることがわかった。 EfficientNetB0は, 虚血や感染症の認識において, 術式と同等の結果を得た。 最後に,統計解析とgrad-camの可視化により結果の解釈を行う。

This paper introduces the Diabetic Foot Ulcers dataset (DFUC2021) for analysis of pathology, focusing on infection and ischaemia. We describe the data preparation of DFUC2021 for ground truth annotation, data curation and data analysis. The final release of DFUC2021 consists of 15,683 DFU patches, with 5,955 training, 5,734 for testing and 3,994 unlabeled DFU patches. The ground truth labels are four classes, i.e. control, infection, ischaemia and both conditions. We curate the dataset using image hashing techniques and analyse the separability using UMAP projection. We benchmark the performance of five key backbones of deep learning, i.e. VGG16, ResNet101, InceptionV3, DenseNet121 and EfficientNet on DFUC2021. We report the optimised results of these key backbones with different strategies. Based on our observations, we conclude that EfficientNetB0 with data augmentation and transfer learning provided the best results for multi-class (4-class) classification with macro-average Precision, Recall and F1-score of 0.57, 0.62 and 0.55, respectively. In ischaemia and infection recognition, when trained on one-versus-all, EfficientNetB0 achieved comparable results with the state of the art. Finally, we interpret the results with statistical analysis and Grad-CAM visualisation.
翻訳日:2021-04-08 12:49:34 公開日:2021-04-07
# ライフ:照明の不変流量推定

LIFE: Lighting Invariant Flow Estimation ( http://arxiv.org/abs/2104.03097v1 )

ライセンス: Link先を確認
Zhaoyang Huang, Xiaokun Pan, Runsen Xu, Yan Xu, Kachun Cheung, Guofeng Zhang, Hongsheng Li(参考訳) 照明変動が大きい2つの画像間の流れを推定する問題に取り組む。 近年の学習に基づくフロー推定フレームワークは,小さな変位と一定の照度を持つ画像ペアでは顕著な性能を示したが,画素単位のフローアノテーションの欠如により,大きな視点変化や照明変動ではうまく機能しない。 本研究では、SfM(Structure-from-M otion)技術を用いて、視点変化が大きい画像対と照明変動の相対的なカメラポーズを簡単に推定できることを観察する。 画像対間の正確な照明不変フローを推定するために,ニューラルネットワークを訓練するために,新しい弱教師付きフレームワークライフを提案する。 従来のスパース対応は、ローカル画像内容を符号化する記述子と特徴マッチングによって確立されている。 しかし、ローカル画像の内容は必然的に曖昧であり、下流タスクを妨げるクロスイメージ特徴マッチングプロセスにおいてエラーを起こしやすい。 本稿では,画像ペアの豊富なコンテキスト情報を利用することで,不明瞭なマッチングに対処し,ライフによって予測される流れに適合する特徴を導出する。 これまでのフロー学習フレームワークを、課題シナリオにおいて大きなマージンで上回り、機能マッチングを一貫して改善し、下流タスクのメリットを享受する。

We tackle the problem of estimating flow between two images with large lighting variations. Recent learning-based flow estimation frameworks have shown remarkable performance on image pairs with small displacement and constant illuminations, but cannot work well on cases with large viewpoint change and lighting variations because of the lack of pixel-wise flow annotations for such cases. We observe that via the Structure-from-Motio n (SfM) techniques, one can easily estimate relative camera poses between image pairs with large viewpoint change and lighting variations. We propose a novel weakly supervised framework LIFE to train a neural network for estimating accurate lighting-invariant flows between image pairs. Sparse correspondences are conventionally established via feature matching with descriptors encoding local image contents. However, local image contents are inevitably ambiguous and error-prone during the cross-image feature matching process, which hinders downstream tasks. We propose to guide feature matching with the flows predicted by LIFE, which addresses the ambiguous matching by utilizing abundant context information in the image pairs. We show that LIFE outperforms previous flow learning frameworks by large margins in challenging scenarios, consistently improves feature matching, and benefits downstream tasks.
翻訳日:2021-04-08 12:49:12 公開日:2021-04-07
# HIH:ヒートマップでより正確な顔アライメントを目指す

HIH: Towards More Accurate Face Alignment via Heatmap in Heatmap ( http://arxiv.org/abs/2104.03100v1 )

ライセンス: Link先を確認
Xing Lan, Qinghao Hu, Jian Cheng(参考訳) 近年、ヒートマップ回帰モデルは、顔のランドマークを見つける主流となっている。 計算を安価に保ち、メモリ使用量を減らすため、プロセス全体は生画像から出力ヒートマップへのダウンサンプリングを伴う。 しかし、ダウンサンプリングによって導入された量子化エラーは、どの程度の影響をもたらすのか? その問題は以前の作品の中でほとんど体系的に調べられていない。 この作業は空白を埋め、私たちは初めて負の利得を定量的に分析します。 その結果, 量子化誤差によるNMEはSOTA項目の1/3以上であり, 顔アライメントにおける新たなブレークスルーの障害となることがわかった。 量子化効果の影響を補うために,2種類の熱マップをラベル表現として利用して座標を符号化するHeatmap In Heatmap(HIH)を提案する。 HIHでは、1つの熱マップの範囲は他の熱マップのカテゴリのピクセルを表す。 また、フェイスアライメントを他のフィールドのソリューションと組み合わせて比較することもできます。 様々なベンチマークでの大規模な実験は、HIHが他のソリューションよりも優れていることを示す。 さらに、平均誤差はWFLWの4.18に到達し、SOTAを超える。 ソースコードは補足資料で公開されています。

Recently, heatmap regression models have become the mainstream in locating facial landmarks. To keep computation affordable and reduce memory usage, the whole procedure involves downsampling from the raw image to the output heatmap. However, how much impact will the quantization error introduced by downsampling bring? The problem is hardly systematically investigated among previous works. This work fills the blank and we are the first to quantitatively analyze the negative gain. The statistical results show the NME generated by quantization error is even larger than 1/3 of the SOTA item, which is a serious obstacle for making a new breakthrough in face alignment. To compensate the impact of quantization effect, we propose a novel method, called Heatmap In Heatmap(HIH), which leverages two categories of heatmaps as label representation to encode coordinate. And in HIH, the range of one heatmap represents a pixel of the other category of heatmap. Also, we even combine the face alignment with solutions of other fields to make a comparison. Extensive experiments on various benchmarks show the feasibility of HIH and the superior performance than other solutions. Moreover, the mean error reaches to 4.18 on WFLW, which exceeds SOTA a lot. Our source code are made publicly available at supplementary material.
翻訳日:2021-04-08 12:48:53 公開日:2021-04-07
# V2F-Net:Occluded Pedestrian Detectionの明示的な分解

V2F-Net: Explicit Decomposition of Occluded Pedestrian Detection ( http://arxiv.org/abs/2104.03106v1 )

ライセンス: Link先を確認
Mingyang Shang and Dawei Xiang and Zhicheng Wang and Erjin Zhou(参考訳) 閉塞は歩行者検出において非常に困難である。 本稿では,閉鎖歩行者検出を視覚領域検出と全体推定に明示的に分解する,V2F-Netというシンプルな手法を提案する。 V2F-Netは、VDN(Visible Region Detection Network)とFEN(Full Body Estimation Network)の2つのサブネットワークで構成されている。 VDNは可視領域をローカライズしようと試み、FENは可視ボックスに基づいてフルボディボックスを推定する。 さらに,全体推定の精度向上を図るため,新しいエンベディング方式のPart-Aware Module (EPM)を提案する。 各部分の可視性を監視することにより、ネットワークは必須部分情報で特徴を抽出することを奨励する。 本稿では,V2F-Netの有効性を2つの挑戦的データセットを用いて実験的に検証した。 V2F-Netは、FPNベースラインと比較して、CrowdHumanで5.85%、CityPersonsで2.24%改善した。 さらに, 1段階と2段階の両方の検出器の一貫したゲインは, この手法の一般化性を検証する。

Occlusion is very challenging in pedestrian detection. In this paper, we propose a simple yet effective method named V2F-Net, which explicitly decomposes occluded pedestrian detection into visible region detection and full body estimation. V2F-Net consists of two sub-networks: Visible region Detection Network (VDN) and Full body Estimation Network (FEN). VDN tries to localize visible regions and FEN estimates full-body box on the basis of the visible box. Moreover, to further improve the estimation of full body, we propose a novel Embedding-based Part-aware Module (EPM). By supervising the visibility for each part, the network is encouraged to extract features with essential part information. We experimentally show the effectiveness of V2F-Net by conducting several experiments on two challenging datasets. V2F-Net achieves 5.85% AP gains on CrowdHuman and 2.24% MR-2 improvements on CityPersons compared to FPN baseline. Besides, the consistent gain on both one-stage and two-stage detector validates the generalizability of our method.
翻訳日:2021-04-08 12:48:34 公開日:2021-04-07
# VGF-Net:同時ドローンナビゲーションと高度マッピングのための視覚幾何学的融合学習

VGF-Net: Visual-Geometric Fusion Learning for Simultaneous Drone Navigation and Height Mapping ( http://arxiv.org/abs/2104.03109v1 )

ライセンス: Link先を確認
Yilin Liu, Ke Xie, and Hui Huang(参考訳) ドローンナビゲーションは、3Dの世界における視覚情報と幾何学情報の両方を包括的に理解する必要がある。 本稿では,視覚・幾何学データの融合解析のための深層ネットワークであるビジュアル・ジオメトリ・フュージョン・ネットワーク(VGF-Net)について述べる。 最初の粗い高さマップとRGB画像のシーケンスを与えられたVGF-Netは、シーンの視覚情報を抽出し、シーン内のオブジェクト間の幾何学的関係を捉える3Dキーポイントのスパースセットを抽出する。 データによって駆動されるVGF-Netは、視覚情報と幾何学情報を適応的に融合し、統一された視覚幾何学表現を形成する。 この表現は新たな方向注意モデル(DAM)に供給され、視覚的・幾何学的オブジェクト関係を強化し、情報的データを伝播して高さマップと対応するキーポイントを動的に洗練する。 複雑な屋内および大規模屋外のシーンを横断する自律ドローンナビゲーションにおいて、顕著な堅牢性と高い精度を示す、エンドツーエンドの情報融合マッピングシステム全体を形成する。 データセットはhttp://vcc.szu.edu.c n/research/2021/VGFN etにある。

The drone navigation requires the comprehensive understanding of both visual and geometric information in the 3D world. In this paper, we present a Visual-Geometric Fusion Network(VGF-Net), a deep network for the fusion analysis of visual/geometric data and the construction of 2.5D height maps for simultaneous drone navigation in novel environments. Given an initial rough height map and a sequence of RGB images, our VGF-Net extracts the visual information of the scene, along with a sparse set of 3D keypoints that capture the geometric relationship between objects in the scene. Driven by the data, VGF-Net adaptively fuses visual and geometric information, forming a unified Visual-Geometric Representation. This representation is fed to a new Directional Attention Model(DAM), which helps enhance the visual-geometric object relationship and propagates the informative data to dynamically refine the height map and the corresponding keypoints. An entire end-to-end information fusion and mapping system is formed, demonstrating remarkable robustness and high accuracy on the autonomous drone navigation across complex indoor and large-scale outdoor scenes. The dataset can be found in http://vcc.szu.edu.c n/research/2021/VGFN et.
翻訳日:2021-04-08 12:48:18 公開日:2021-04-07
# 重み付き運動を用いた対特徴点からの単一音源1ショット再現

Single Source One Shot Reenactment using Weighted motion From Paired Feature Points ( http://arxiv.org/abs/2104.03117v1 )

ライセンス: Link先を確認
Soumya Tripathy, Juho Kannala, Esa Rahtu(参考訳) 画像再現は、原画像中の対象オブジェクトが、駆動画像に表される動きを模倣するタスクである。 最も一般的な再現作業の1つは、顔画像アニメーションである。 現在の顔再現アプローチにおける大きな課題は、顔の動きとアイデンティティを区別することだ。 このため、運転と音源の同一性が異なる場合(対人再現)、以前のモデルは高品質なアニメーションを作成するのに苦労している。 自己教師付きセットアップで形状非依存な動作特徴を学習する新しい(顔)再現モデルを提案する。 動きは、ソースから抽出された一組の特徴点と、同時に駆動画像を用いて表現される。 モデルは、単一のソースイメージのみを使用して顔や非顔オブジェクトを含む複数の再現タスクに一般化される。 実験により、モデルがソースの同一性を保ちながら、駆動動作を確実にソースに転送することを示す。

Image reenactment is a task where the target object in the source image imitates the motion represented in the driving image. One of the most common reenactment tasks is face image animation. The major challenge in the current face reenactment approaches is to distinguish between facial motion and identity. For this reason, the previous models struggle to produce high-quality animations if the driving and source identities are different (cross-person reenactment). We propose a new (face) reenactment model that learns shape-independent motion features in a self-supervised setup. The motion is represented using a set of paired feature points extracted from the source and driving images simultaneously. The model is generalised to multiple reenactment tasks including faces and non-face objects using only a single source image. The extensive experiments show that the model faithfully transfers the driving motion to the source while retaining the source identity intact.
翻訳日:2021-04-08 12:47:58 公開日:2021-04-07
# 塩分増分多パターンプールによる画像合成評価

Image Composition Assessment with Saliency-augmented Multi-pattern Pooling ( http://arxiv.org/abs/2104.03133v1 )

ライセンス: Link先を確認
Bo Zhang and Li Niu and Liqing Zhang(参考訳) 画像構成評価は、画像全体の構成品質を評価することを目的とした美的評価において重要である。 しかしながら、私たちの知る限りでは、このタスクに特別に提案されたデータセットやメソッドはありません。 本稿では,複数のプロのレギュラーが提供した各画像のコンポジションスコアについて,最初のコンポジション評価データセットCADBに貢献する。 さらに,合成パターンの視点から視覚的レイアウトを解析する新しいSaliency-Augmented Multi-pattern Pooling (SAMP)モジュールを用いた合成評価ネットワークSAMP-Netを提案する。 また、合成関連属性を活用して性能をさらに向上させ、Earth Mover's Distance(EMD)損失を重み付きEMD損失に拡張し、コンテンツバイアスをなくす。 実験の結果,SAMP-Netは従来の審美的評価手法よりも好適に機能し,構成的構成を提案することができた。

Image composition assessment is crucial in aesthetic assessment, which aims to assess the overall composition quality of a given image. However, to the best of our knowledge, there is neither dataset nor method specifically proposed for this task. In this paper, we contribute the first composition assessment dataset CADB with composition scores for each image provided by multiple professional raters. Besides, we propose a composition assessment network SAMP-Net with a novel Saliency-Augmented Multi-pattern Pooling (SAMP) module, which analyses visual layout from the perspectives of multiple composition patterns. We also leverage composition-relevant attributes to further boost the performance, and extend Earth Mover's Distance (EMD) loss to weighted EMD loss to eliminate the content bias. The experimental results show that our SAMP-Net can perform more favorably than previous aesthetic assessment approaches and offer constructive composition suggestions.
翻訳日:2021-04-08 12:47:42 公開日:2021-04-07
# 視覚言語表現学習のためのエンド・ツー・エンド事前学習

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning ( http://arxiv.org/abs/2104.03135v1 )

ライセンス: Link先を確認
Zhicheng Huang, Zhaoyang Zeng, Yupan Huang, Bei Liu, Dongmei Fu, Jianlong Fu(参考訳) 我々は、数百万の画像テキストペアから相互にアライメントを学習することを目的とした、視覚言語事前学習(VLPT)のための畳み込みニューラルネットワーク(CNN)とトランスフォーマーの共同学習について研究する。 State-of-the-art approach extract salient image region andaligned region with words-by-step。 領域ベースの視覚的特徴は通常画像の一部を表現するため、既存の視覚言語モデルがペアの自然言語から意味を完全に理解することは困難である。 本稿では,全体像を入力として取り出す「tHe bOx から tHe bOx を抽出する」ための SOHO を提案し,エンドツーエンドで視覚言語表現を学習する。 SOHOは、領域ベースのアプローチよりも10倍高速な推論を可能にするバウンディングボックスアノテーションを必要としない。 特に、SOHOは、横断的な理解を容易にする視覚辞書(VD)を通して、包括的でコンパクトな画像の特徴を抽出することを学ぶ。 VDは、類似のセマンティクスの一貫した視覚的抽象化を表現するように設計されている。 これはオンザフライで更新され、提案するプレトレーニングタスクマスクビジュアルモデリング(mvm)で利用されます。 我々は、標準VLPT設定に従うことで、確立された4つの視覚言語タスクの実験を行う。 特に、MSCOCOテキスト検索5kテストスプリットの2.0% R@1スコア、NLVR$^2$テストPスプリットの1.5%精度、SNLI-VEテストスプリットの6.7%精度の絶対ゲインを達成する。

We study joint learning of Convolutional Neural Network (CNN) and Transformer for vision-language pre-training (VLPT) which aims to learn cross-modal alignments from millions of image-text pairs. State-of-the-art approaches extract salient image regions and align regions with words step-by-step. As region-based visual features usually represent parts of an image, it is challenging for existing vision-language models to fully understand the semantics from paired natural languages. In this paper, we propose SOHO to "See Out of tHe bOx" that takes a whole image as input, and learns vision-language representation in an end-to-end manner. SOHO does not require bounding box annotations which enables inference 10 times faster than region-based approaches. In particular, SOHO learns to extract comprehensive yet compact image features through a visual dictionary (VD) that facilitates cross-modal understanding. VD is designed to represent consistent visual abstractions of similar semantics. It is updated on-the-fly and utilized in our proposed pre-training task Masked Visual Modeling (MVM). We conduct experiments on four well-established vision-language tasks by following standard VLPT settings. In particular, SOHO achieves absolute gains of 2.0% R@1 score on MSCOCO text retrieval 5k test split, 1.5% accuracy on NLVR$^2$ test-P split, 6.7% accuracy on SNLI-VE test split, respectively.
翻訳日:2021-04-08 12:47:26 公開日:2021-04-07
# 自己接触と人間行動について

On Self-Contact and Human Pose ( http://arxiv.org/abs/2104.03176v1 )

ライセンス: Link先を確認
Lea M\"uller and Ahmed A. A. Osman and Siyu Tang and Chun-Hao P. Huang and Michael J. Black(参考訳) 人々は1時間に23回顔に触れ、腕と脚を渡り、腰に手を置くなどします。 多くの人の画像には何らかの形の自己接触が含まれているが、現在の3D人間のポーズと形状(HPS)回帰法はこの接触を推定できないのが普通である。 そこで我々は,自己接触によるポーズ推定を大幅に改善する新しいデータセットと手法を開発した。 まず、3dスキャンに適合するsmpl-xボディを含む3dコンタクトポーズ(3dcp)と、amassのポーズのデータセットを作成します。 第2に、これを活用して、amazon mechanical turkによって収集された画像のmtpデータセットを作成し、自己接触で3dcpのポーズを模倣する人々を含む。 第3に,接触制約を含む新しいHPS最適化手法SMPLify-XMCを開発した。 第4に、より多様な画像に対して、離散自己接触(DSC)情報を用いた画像のデータセットをラベル付けし、ポーズ最適化中に離散接触を利用する新たな最適化手法SMPLify-DCを使用する。 最後に、SPINトレーニング中にデータセットを使用して、TUCH(Towards Understanding Contact in Humans)と呼ばれる新しい3Dヒューマンポーズ回帰器を学習します。 新たな自己接触トレーニングデータにより,保持されていないテストデータと既存の3DPWのようなデータセットの3次元ポーズ推定が大幅に向上することを示す。 本手法は, 自己接触ポーズの結果を改善するだけでなく, 非接触ポーズの精度を向上させる。 コードとデータは、https://tuch.is.tue. mpg.deで研究目的に利用できる。

People touch their face 23 times an hour, they cross their arms and legs, put their hands on their hips, etc. While many images of people contain some form of self-contact, current 3D human pose and shape (HPS) regression methods typically fail to estimate this contact. To address this, we develop new datasets and methods that significantly improve human pose estimation with self-contact. First, we create a dataset of 3D Contact Poses (3DCP) containing SMPL-X bodies fit to 3D scans as well as poses from AMASS, which we refine to ensure good contact. Second, we leverage this to create the Mimic-The-Pose (MTP) dataset of images, collected via Amazon Mechanical Turk, containing people mimicking the 3DCP poses with selfcontact. Third, we develop a novel HPS optimization method, SMPLify-XMC, that includes contact constraints and uses the known 3DCP body pose during fitting to create near ground-truth poses for MTP images. Fourth, for more image variety, we label a dataset of in-the-wild images with Discrete Self-Contact (DSC) information and use another new optimization method, SMPLify-DC, that exploits discrete contacts during pose optimization. Finally, we use our datasets during SPIN training to learn a new 3D human pose regressor, called TUCH (Towards Understanding Contact in Humans). We show that the new self-contact training data significantly improves 3D human pose estimates on withheld test data and existing datasets like 3DPW. Not only does our method improve results for self-contact poses, but it also improves accuracy for non-contact poses. The code and data are available for research purposes at https://tuch.is.tue. mpg.de.
翻訳日:2021-04-08 12:47:01 公開日:2021-04-07
# SARAS内視鏡サージオンアクション検出(ESAD)データセットの課題と方法

The SARAS Endoscopic Surgeon Action Detection (ESAD) dataset: Challenges and methods ( http://arxiv.org/abs/2104.03178v1 )

ライセンス: Link先を確認
Vivek Singh Bawa, Gurkirt Singh, Francis KapingA, Inna Skarga-Bandurova, Elettra Oleari, Alice Leporini, Carmela Landolfo, Pengfei Zhao, Xi Xiang, Gongning Luo, Kuanquan Wang, Liangzhi Li, Bowen Wang, Shang Zhao, Li Li, Armando Stabile, Francesco Setti, Riccardo Muradore, Fabio Cuzzolin(参考訳) 自律型ロボットシステムでは、手術の動作を監視し、手術中の主手術を支援することが非常に難しい。 課題は、手術シーンの特異な構造、例えば制約のない環境における人間の行動や内視鏡カメラの動作よりも、空洞内の道具を通して行われる行動の外観の類似性が大きいことにある。 本稿では,内視鏡下低侵襲手術における外科医の行動検出問題に取り組むための,最初の大規模データセットであるesadについて述べる。 ESADは、外科医が行う行動に対する認識を現実的にテストすることで、手術補助ロボットの有効性と信頼性を高めることを目的としている。 このデータセットは、前立腺切除術中にキャプチャされた実際の内視鏡的ビデオフレーム上の21のアクションクラスに対するバウンディングボックスアノテーションを提供し、最近のMIDL 2020チャレンジの基礎として使用された。 また、課題の一部としてリリースされたベースラインモデルを用いて実施したデータセットの分析と、得られた結果とともに課題に提出された上位実行モデルについて述べる。 本研究は,どのようなアプローチが効果的で,さらに拡張可能なのか,重要な知見を提供する。 ESADは将来的に、外科医のアクション検出および支援ロボティクス全般において、すべての研究者にとって有用なベンチマークとなると信じている。

For an autonomous robotic system, monitoring surgeon actions and assisting the main surgeon during a procedure can be very challenging. The challenges come from the peculiar structure of the surgical scene, the greater similarity in appearance of actions performed via tools in a cavity compared to, say, human actions in unconstrained environments, as well as from the motion of the endoscopic camera. This paper presents ESAD, the first large-scale dataset designed to tackle the problem of surgeon action detection in endoscopic minimally invasive surgery. ESAD aims at contributing to increase the effectiveness and reliability of surgical assistant robots by realistically testing their awareness of the actions performed by a surgeon. The dataset provides bounding box annotation for 21 action classes on real endoscopic video frames captured during prostatectomy, and was used as the basis of a recent MIDL 2020 challenge. We also present an analysis of the dataset conducted using the baseline model which was released as part of the challenge, and a description of the top performing models submitted to the challenge together with the results they obtained. This study provides significant insight into what approaches can be effective and can be extended further. We believe that ESAD will serve in the future as a useful benchmark for all researchers active in surgeon action detection and assistive robotics at large.
翻訳日:2021-04-08 12:46:29 公開日:2021-04-07
# oxnet:胸部x線による全監督胸部疾患検出

OXnet: Omni-supervised Thoracic Disease Detection from Chest X-rays ( http://arxiv.org/abs/2104.03218v1 )

ライセンス: Link先を確認
Luyang Luo, Hao Chen, Yanning Zhou, Huangjing Lin, Pheng-Ann Pheng(参考訳) 胸部x線(cxr)は、様々な胸部疾患を診察する最も一般的な医用画像である。 cxrからの病変の自動ローカライズは、放射線科医の日々の読書負担を軽減する有望な方法である。 しかし、CXRデータセットには多数の画像レベルのアノテーションや病変レベルのアノテーションが不足している場合が多い。 これまでのところ、胸部疾患検出アルゴリズムを開発するために異なる監督粒度を統一することは、包括的に解決されていない。 本稿では,cxr 診断に可能な限り利用可能な監督を用いる最善の知識に対して,初の深部全監督胸部疾患検出ネットワークoxnet を提案する。 完全な教師付き学習の他に,弱い注釈データから学習を可能にするため,グローバル分類枝から2重注意アライメントモジュールによる病変局在枝への情報を導出する。 グローバルな情報学習を強化するため,グローバルなプロトタイプアライメントモジュールを用いてクラス内コンパクト性とクラス間セパビリティを付与する。 教師なしの学習では,教師モデルから知識を蒸留するために,焦点損失をソフトな形に拡張する。 広範な実験により、提案されたOXnetは、大きなマージンを持つ競合手法よりも優れていた。 さらに,様々なアノテーションの粒度下でのOmni-supervisionについて検討し,クロボレートOXnetは医用画像診断におけるアノテーション不足の緩和に有望な選択である。

Chest X-ray (CXR) is the most typical medical image worldwide to examine various thoracic diseases. Automatically localizing lesions from CXR is a promising way to alleviate radiologists' daily reading burden. However, CXR datasets often have numerous image-level annotations and scarce lesion-level annotations, and more often, without annotations. Thus far, unifying different supervision granularities to develop thoracic disease detection algorithms has not been comprehensively addressed. In this paper, we present OXnet, the first deep omni-supervised thoracic disease detection network to our best knowledge that uses as much available supervision as possible for CXR diagnosis. Besides fully supervised learning, to enable learning from weakly-annotated data, we guide the information from a global classification branch to the lesion localization branch by a dual attention alignment module. To further enhance global information learning, we impose intra-class compactness and inter-class separability with a global prototype alignment module. For unsupervised data learning, we extend the focal loss to be its soft form to distill knowledge from a teacher model. Extensive experiments show the proposed OXnet outperforms competitive methods with significant margins. Further, we investigate omni-supervision under various annotation granularities and corroborate OXnet is a promising choice to mitigate the plight of annotation shortage for medical image diagnosis.
翻訳日:2021-04-08 12:46:09 公開日:2021-04-07
# 指紋認証と提示検出のための統一モデル

A Unified Model for Fingerprint Authentication and Presentation Attack Detection ( http://arxiv.org/abs/2104.03255v1 )

ライセンス: Link先を確認
Additya Popli, Saraansh Tandon, Joshua J. Engelsma, Naoyuki Onoe, Atsushi Okubo, Anoop Namboodiri(参考訳) 典型的な指紋認識システムは、スプーフ検出モジュールとその後の認識モジュールで構成され、次々と実行される。 本稿では,一般的な指紋認識システムの動作を再構築する。 特に,spoof検出と指紋認識の両方が相関したタスクであることを示す。 そこで本研究では,2つのタスクを個別に行うのではなく,各タスクの精度を損なうことなく,2つのタスクを同時に実行するための協調モデルを提案する。 我々は,FVC 2006 DB2Aデータセット上で,TAR = 100% @ FAR = 0.1% の認証精度 (1:1マッチング) を得るとともに,LiveDet 2015データセット上でのスプーフ検出ACEを1.44%達成し,スタンドアローン手法の性能を維持した。 実際には、これは指紋認証システムの時間とメモリ要件をそれぞれ50%と40%削減し、リソース制約のあるデバイスと通信チャネルで動作する認識システムにとって大きなアドバンテージとなる。

Typical fingerprint recognition systems are comprised of a spoof detection module and a subsequent recognition module, running one after the other. In this paper, we reformulate the workings of a typical fingerprint recognition system. In particular, we posit that both spoof detection and fingerprint recognition are correlated tasks. Therefore, rather than performing the two tasks separately, we propose a joint model for spoof detection and matching to simultaneously perform both tasks without compromising the accuracy of either task. We demonstrate the capability of our joint model to obtain an authentication accuracy (1:1 matching) of TAR = 100% @ FAR = 0.1% on the FVC 2006 DB2A dataset while achieving a spoof detection ACE of 1.44% on the LiveDet 2015 dataset, both maintaining the performance of stand-alone methods. In practice, this reduces the time and memory requirements of the fingerprint recognition system by 50% and 40%, respectively; a significant advantage for recognition systems running on resource-constrained devices and communication channels.
翻訳日:2021-04-08 12:45:44 公開日:2021-04-07
# 子宮頸癌細胞検出のためのデュアルアライメントを用いた深部半教師付きメトリックラーニング

Deep Semi-supervised Metric Learning with Dual Alignment for Cervical Cancer Cell Detection ( http://arxiv.org/abs/2104.03265v1 )

ライセンス: Link先を確認
Zhizhong Chai, Luyang Luo, Huangjing Lin, Hao Chen, Pheng-Ann Heng(参考訳) 大量のラベル付きデータが利用可能になったことで、ディープラーニングはさまざまなオブジェクト検出タスクで前例のない成功を収めている。 しかし, 医療画像に対する大規模アノテーションは, 労働力や専門知識の需要が高いため, 取得が極めて困難である。 そこで本研究では,ラベル付きデータとラベル付きデータの両方を効果的に活用し,子宮頸癌細胞検出に適用する,半教師付き深層メトリック学習法を提案する。 従来の手法と異なり,本モデルは埋め込み距離空間を学習し,提案とプロトタイプの両方で意味的特徴の2重アライメントを行う。 まず,提案方式ではラベルなしデータに対して擬似ラベルを生成し,ラベル付きデータから学習可能なクラスプロキシに適合させる。 さらに,ラベル付きおよびラベル付きデータの各ミニバッチから生成されたプロトタイプを調整し,ノイズの少ない疑似ラベルの影響を緩和する。 さらに,ラベル付きプロトタイプを格納するためにメモリバンクを採用し,大規模バッチからのメトリック学習情報を著しく強化した。 本手法を総合的に検証するために,240,860個の頸部細胞画像からなる半教師付き頸部がん細胞検出用大規模データセットを初めて構築した。 大規模な実験により,提案手法は他の最先端の半教師付きアプローチよりも優れた性能を示し,深層半教師付きメートル法学習の有効性を示した。

With availability of huge amounts of labeled data, deep learning has achieved unprecedented success in various object detection tasks. However, large-scale annotations for medical images are extremely challenging to be acquired due to the high demand of labour and expertise. To address this difficult issue, in this paper we propose a novel semi-supervised deep metric learning method to effectively leverage both labeled and unlabeled data with application to cervical cancer cell detection. Different from previous methods, our model learns an embedding metric space and conducts dual alignment of semantic features on both the proposal and prototype levels. First, on the proposal level, we generate pseudo labels for the unlabeled data to align the proposal features with learnable class proxies derived from the labeled data. Furthermore, we align the prototypes generated from each mini-batch of labeled and unlabeled data to alleviate the influence of possibly noisy pseudo labels. Moreover, we adopt a memory bank to store the labeled prototypes and hence significantly enrich the metric learning information from larger batches. To comprehensively validate the method, we construct a large-scale dataset for semi-supervised cervical cancer cell detection for the first time, consisting of 240,860 cervical cell images in total. Extensive experiments show our proposed method outperforms other state-of-the-art semi-supervised approaches consistently, demonstrating efficacy of deep semi-supervised metric learning with dual alignment on improving cervical cancer cell detection performance.
翻訳日:2021-04-08 12:45:28 公開日:2021-04-07
# ディエンス対応の教師なし学習のためのワープ整合性

Warp Consistency for Unsupervised Learning of Dense Correspondences ( http://arxiv.org/abs/2104.03308v1 )

ライセンス: Link先を確認
Prune Truong and Martin Danelljan and Fisher Yu and Luc Van Gool(参考訳) 密接な対応を学習する上での鍵となる課題は、実画像対に対する地道一致の欠如にある。 光度整合性損失は教師なしの代替手段を提供するが、幾何学的および意味的マッチングタスクにおいてユビキタスな大きな外観変化に苦しむ。 さらに、合成トレーニングペアに依存する手法は、実際のデータに対する一般化の貧弱さに悩まされることが多い。 密接な対応回帰のための教師なし学習目標であるwarp一貫性を提案する。 当社の目標は,外観や視点の変化が大きい設定でも有効です。 一対の実際の画像が与えられたとき、まず、ランダムにサンプリングされたワープを元の画像の1つに適用することにより、三重項画像を構築する。 三重項間のフロー一貫性の制約をすべて導出し解析する。 観測結果と実験結果から,導出した2つの制約を応用した一般教師なしの目的を設計する。 我々は、幾何学的および意味的マッチングタスクのための最近の3つの密接な対応ネットワークをトレーニングすることにより、ワープ整合性損失を検証する。 当社のアプローチでは,MegaDepth,RobotCar, TSSなど,いくつかの挑戦的なベンチマークに対して,新たな最先端性を実現しています。 コードとモデルはhttps://github.com/P runeTruong/DenseMatc hing.comでリリースされる。

The key challenge in learning dense correspondences lies in the lack of ground-truth matches for real image pairs. While photometric consistency losses provide unsupervised alternatives, they struggle with large appearance changes, which are ubiquitous in geometric and semantic matching tasks. Moreover, methods relying on synthetic training pairs often suffer from poor generalisation to real data. We propose Warp Consistency, an unsupervised learning objective for dense correspondence regression. Our objective is effective even in settings with large appearance and view-point changes. Given a pair of real images, we first construct an image triplet by applying a randomly sampled warp to one of the original images. We derive and analyze all flow-consistency constraints arising between the triplet. From our observations and empirical results, we design a general unsupervised objective employing two of the derived constraints. We validate our warp consistency loss by training three recent dense correspondence networks for the geometric and semantic matching tasks. Our approach sets a new state-of-the-art on several challenging benchmarks, including MegaDepth, RobotCar and TSS. Code and models will be released at https://github.com/P runeTruong/DenseMatc hing.
翻訳日:2021-04-08 12:45:04 公開日:2021-04-07
# SCANimate: スキン付きアバターネットワークの微妙な監視による学習

SCANimate: Weakly Supervised Learning of Skinned Clothed Avatar Networks ( http://arxiv.org/abs/2104.03313v1 )

ライセンス: Link先を確認
Shunsuke Saito, Jinlong Yang, Qianli Ma, Michael J. Black(参考訳) SCANimateは、服を着た人間の生の3Dスキャンを行い、それらをアニマタブルなアバターに変える、エンドツーエンドのトレーニング可能なフレームワークである。 これらのアバターはポーズパラメータによって駆動され、自然に動き変形するリアルな服装を持つ。 SCANimateは、カスタマイズされたメッシュテンプレートやサーフェスメッシュ登録に依存しない。 人体スキャンにsmplのようなパラメトリック3dボディーモデルを適用することは容易であるが,ボディートポロジーの表面登録はボディー形状から著しくずれる可能性があるため,しばしばそうではない。 また, 調音変換は可逆であり, 擬似および非擬似形状における幾何的周期の整合性をもたらす。 これらの観察により,テンプレートベース表面登録を伴わずに関節変形を解消することで,スキャンを正準的なポーズに整列させる弱い教師付き学習法が得られた。 さらに, 位置依存変形をモデル化しながらアライメントスキャンの欠落領域を完備化するために, 局所的なポーズ認識型暗黙関数を導入し, 学習したポーズ補正を用いて形状をモデル化する。 一般的なグローバルポーズ埋め込みとは対照的に、我々の局所ポーズ条件付けは長距離スプリアス相関を著しく低減し、特に訓練データに制限がある場合、目に見えないポーズへの一般化を改善する。 本手法はポーズ認識型外観モデルに適用でき,完全にテクスチャ化されたアバターを生成できる。 トレーニングデータの量が異なる各種衣料品について,各設定における忠実度と汎用性の観点から,既存ソリューションや他の変種よりも優れていることを示す。 コードはhttps://scanimate.is .tue.mpg.deで入手できる。

We present SCANimate, an end-to-end trainable framework that takes raw 3D scans of a clothed human and turns them into an animatable avatar. These avatars are driven by pose parameters and have realistic clothing that moves and deforms naturally. SCANimate does not rely on a customized mesh template or surface mesh registration. We observe that fitting a parametric 3D body model, like SMPL, to a clothed human scan is tractable while surface registration of the body topology to the scan is often not, because clothing can deviate significantly from the body shape. We also observe that articulated transformations are invertible, resulting in geometric cycle consistency in the posed and unposed shapes. These observations lead us to a weakly supervised learning method that aligns scans into a canonical pose by disentangling articulated deformations without template-based surface registration. Furthermore, to complete missing regions in the aligned scans while modeling pose-dependent deformations, we introduce a locally pose-aware implicit function that learns to complete and model geometry with learned pose correctives. In contrast to commonly used global pose embeddings, our local pose conditioning significantly reduces long-range spurious correlations and improves generalization to unseen poses, especially when training data is limited. Our method can be applied to pose-aware appearance modeling to generate a fully textured avatar. We demonstrate our approach on various clothing types with different amounts of training data, outperforming existing solutions and other variants in terms of fidelity and generality in every setting. The code is available at https://scanimate.is .tue.mpg.de.
翻訳日:2021-04-08 12:44:46 公開日:2021-04-07
# 一般平滑関数近似を用いた2次元時間スケール非線形TDCの有限サンプル解析

Finite-Sample Analysis for Two Time-scale Non-linear TDC with General Smooth Function Approximation ( http://arxiv.org/abs/2104.02836v1 )

ライセンス: Link先を確認
Yue Wang, Shaofeng Zou, Yi Zhou(参考訳) 勾配補正付き時間差学習(TDC)は、強化学習における政策評価のための2つの時間スケールアルゴリズムである。 このアルゴリズムは当初線形関数近似を用いて提案され、後に一般の滑らか関数近似に拡張された。 bhatnagar2009converg ent] では, 一般的な滑らかな関数近似を伴うオンポリシー設定の漸近収束が確立されたが, 非線形および2時間スケールの更新構造, 非凸目的関数, および接平面への時変射影の問題により, 有限サンプル解析は未解決のままである。 本稿では,<i>d.\ あるいは Markovian のサンプルを用いて,一般のオフポリティ設定に対して有界な有限サンプル誤差を明示的に特徴付ける新しい手法を開発し,$\mathcal O(1/\sqrt T)$ ($\mathcal O(\log T)$) に収束することを示す。 本手法は, 一般的なスムーズな関数近似を用いた広範囲な値に基づく強化学習アルゴリズムに適用できる。

Temporal-difference learning with gradient correction (TDC) is a two time-scale algorithm for policy evaluation in reinforcement learning. This algorithm was initially proposed with linear function approximation, and was later extended to the one with general smooth function approximation. The asymptotic convergence for the on-policy setting with general smooth function approximation was established in [bhatnagar2009converg ent], however, the finite-sample analysis remains unsolved due to challenges in the non-linear and two-time-scale update structure, non-convex objective function and the time-varying projection onto a tangent plane. In this paper, we develop novel techniques to explicitly characterize the finite-sample error bound for the general off-policy setting with i.i.d.\ or Markovian samples, and show that it converges as fast as $\mathcal O(1/\sqrt T)$ (up to a factor of $\mathcal O(\log T)$). Our approach can be applied to a wide range of value-based reinforcement learning algorithms with general smooth function approximation.
翻訳日:2021-04-08 12:43:03 公開日:2021-04-07
# 乗法微分ニューラルネットワークを用いた数理方程式の認識と検証

Recognizing and Verifying Mathematical Equations using Multiplicative Differential Neural Units ( http://arxiv.org/abs/2104.02899v1 )

ライセンス: Link先を確認
Ankur Mali, Alexander Ororbia, Daniel Kifer, C. Lee Giles(参考訳) 自動数学的推論は、エージェントが長距離依存を含む代数的パターンを学ぶ必要がある難しい問題である。 この種の推論をテストしている2つの特別なタスクは、(1)三角法と線形代数的文が正当な同一性であるかどうかを決定する必要がある数学的方程式の検証、(2)式内の空白を埋めて真となるような方程式補完である。 これらのタスクをディープラーニングで解くためには、ニューラルネットワークが様々な代数的シンボルの操作と構成の仕方を学ばなければならない。 リカレントネットワークやトランスフォーマーを含む人工ニューラルネットワークは、このような難しい構成問題の一般化に苦労し、しばしば外挿性能の低下を示す。 対照的に、再帰的ニューラルネットワーク(recursive-NN)は理論的には、木のような設計のためにより良い外挿を実現することができるが、根底にある木構造の深さが増加するにつれて最適化が困難である。 この問題を解決するために、我々は再帰的NNを拡張し、乗法的高次シナプス接続を利用し、さらに外部メモリを動的に制御し操作することを学ぶ。 このキー変更により、ニューラルネットワークは、可能な入力毎に強力な遷移関数をキャプチャできるようになる。 提案した高次メモリ拡張再帰的-NNモデルの有効性を2つの難解な数式問題に適用し, 補間性能の向上, 安定性能, より高速な収束性を示す。 本モデルでは,現在の手法と比較して1.53%の精度向上を達成し,2.22%のtop-1平均精度と2.96%のtop-5平均精度を達成している。

Automated mathematical reasoning is a challenging problem that requires an agent to learn algebraic patterns that contain long-range dependencies. Two particular tasks that test this type of reasoning are (1) mathematical equation verification, which requires determining whether trigonometric and linear algebraic statements are valid identities or not, and (2) equation completion, which entails filling in a blank within an expression to make it true. Solving these tasks with deep learning requires that the neural model learn how to manipulate and compose various algebraic symbols, carrying this ability over to previously unseen expressions. Artificial neural networks, including recurrent networks and transformers, struggle to generalize on these kinds of difficult compositional problems, often exhibiting poor extrapolation performance. In contrast, recursive neural networks (recursive-NNs) are, theoretically, capable of achieving better extrapolation due to their tree-like design but are difficult to optimize as the depth of their underlying tree structure increases. To overcome this issue, we extend recursive-NNs to utilize multiplicative, higher-order synaptic connections and, furthermore, to learn to dynamically control and manipulate an external memory. We argue that this key modification gives the neural system the ability to capture powerful transition functions for each possible input. We demonstrate the effectiveness of our proposed higher-order, memory-augmented recursive-NN models on two challenging mathematical equation tasks, showing improved extrapolation, stable performance, and faster convergence. Our models achieve a 1.53% average improvement over current state-of-the-art methods in equation verification and achieve a 2.22% Top-1 average accuracy and 2.96% Top-5 average accuracy for equation completion.
翻訳日:2021-04-08 12:42:41 公開日:2021-04-07
# TSception:感情認識のための脳波からの時間的ダイナミクスと空間的非対称性の獲得

TSception: Capturing Temporal Dynamics and Spatial Asymmetry from EEG for Emotion Recognition ( http://arxiv.org/abs/2104.02935v1 )

ライセンス: Link先を確認
Yi Ding, Neethu Robinson, Qiuhao Zeng, Cuntai Guan(参考訳) 本稿では,感情脳波(EEG)から時間的ダイナミクスと空間的非対称性を学習するためのマルチスケール畳み込みニューラルネットワークTSceptionを提案する。 TSceptionは動的時間、非対称空間、高レベル融合層で構成され、時間とチャネル次元の識別表現を同時に学習する。 動的時間層は、その動的時間的および周波数的表現を学習するEEG信号のサンプリングレートと長さが関連しているマルチスケールの1D畳み込みカーネルで構成されている。 非対称空間層は、感情応答に基づく非対称的神経活性化を利用して、識別的大域的および半球的表現を学習する。 学習された空間表現は高レベル融合層によって融合される。 堅牢なネスト型クロスバリデーション設定により、提案手法は2つの公開データセットDEAPとAMIGOSで評価される。 また,FBFgMDM,FBTSC,Unsup ervised Learning,DeepConvNet ,ShallowConvNet,EEGN etなどの先行報告手法と比較した。 その結果, 提案手法は, 分類精度において, 他よりも有意に優れていた(p<0.05)。 提案手法は将来,感情認識のための感情制御療法に活用できる。 ソースコードは以下の通り。 https://github.com/d eepBrains/TSception- New

In this paper, we propose TSception, a multi-scale convolutional neural network, to learn temporal dynamics and spatial asymmetry from affective electroencephalogram (EEG). TSception consists of dynamic temporal, asymmetric spatial, and high-level fusion Layers, which learn discriminative representations in the time and channel dimensions simultaneously. The dynamic temporal layer consists of multi-scale 1D convolutional kernels whose lengths are related to the sampling rate of the EEG signal, which learns its dynamic temporal and frequency representations. The asymmetric spatial layer takes advantage of the asymmetric neural activations underlying emotional responses, learning the discriminative global and hemisphere representations. The learned spatial representations will be fused by a high-level fusion layer. With robust nested cross-validation settings, the proposed method is evaluated on two publicly available datasets DEAP and AMIGOS. And the performance is compared with prior reported methods such as FBFgMDM, FBTSC, Unsupervised learning, DeepConvNet, ShallowConvNet, and EEGNet. The results indicate that the proposed method significantly (p<0.05) outperforms others in terms of classification accuracy. The proposed methods can be utilized in emotion regulation therapy for emotion recognition in the future. The source code can be found at: https://github.com/d eepBrains/TSception- New
翻訳日:2021-04-08 12:42:11 公開日:2021-04-07
# 電子商取引製品QAの変圧器を監視中

Distantly Supervised Transformers For E-Commerce Product QA ( http://arxiv.org/abs/2104.02947v1 )

ライセンス: Link先を確認
Happy Mittal, Aniket Chakrabarti, Belhassen Bayar, Animesh Anant Sharma, Nikhil Rasiwasia(参考訳) 本稿では,eコマースサービスの製品ページ上で,関連するコミュニティ質問応答(CQA)ペアを検索する,実用的なインスタント質問応答(QA)システムを提案する。 ユーザクエリとCQAペアは言語特性に大きく異なり、関連学習が困難である。 提案するトランスフォーマーモデルでは,人間のラベル付きデータを必要としない統合構文と意味表現を共同学習することにより,ロバストな関連性関数を学習する。 これは、ユーザクエリ上で構文マッチングシステムの予測から抽出し、CQAペアで同時にトレーニングすることで、我々のモデルを遠くから監視することで達成される。 CQAペアを使用したトレーニングは、モデル学習のセマンティックQA関連性を支援し、遠隔監視により、構文的特徴とユーザクエリ言語のニュアンスを学ぶことができる。 さらに,クエリと候補応答を独立してエンコードし,オフライン候補埋め込み生成を実現することにより,リアルタイムトランスフォーマーモデルの実行を最小化する。 その結果、当社のフレームワークは大規模なeコマースQAトラフィックにスケールすることができる。 ユーザクエリの広範な評価から,当社のフレームワークは,オフラインでの構文ベースラインと意味ベースライン,さらにはポピュラーなeコマースサービスの大規模オンラインa/bセットアップを上回っていることが分かりました。

We propose a practical instant question answering (QA) system on product pages of ecommerce services, where for each user query, relevant community question answer (CQA) pairs are retrieved. User queries and CQA pairs differ significantly in language characteristics making relevance learning difficult. Our proposed transformer-based model learns a robust relevance function by jointly learning unified syntactic and semantic representations without the need for human labeled data. This is achieved by distantly supervising our model by distilling from predictions of a syntactic matching system on user queries and simultaneously training with CQA pairs. Training with CQA pairs helps our model learning semantic QA relevance and distant supervision enables learning of syntactic features as well as the nuances of user querying language. Additionally, our model encodes queries and candidate responses independently allowing offline candidate embedding generation thereby minimizing the need for real-time transformer model execution. Consequently, our framework is able to scale to large e-commerce QA traffic. Extensive evaluation on user queries shows that our framework significantly outperforms both syntactic and semantic baselines in offline as well as large scale online A/B setups of a popular e-commerce service.
翻訳日:2021-04-08 12:41:49 公開日:2021-04-07
# アイテムレコメンデーションのための異方性ユニバーサル値関数を用いた強化学習

Reinforcement Learning with a Disentangled Universal Value Function for Item Recommendation ( http://arxiv.org/abs/2104.02981v1 )

ライセンス: Link先を確認
Kai Wang, Zhene Zou, Qilin Deng, Runze Wu, Jianrong Tao, Changjie Fan, Liang Chen, Peng Cui(参考訳) 近年,レコメンデーションシステム(RS)に強化学習(RL)を適用する上で,大きな関心を集めている。 本稿では,大規模RLベースのリコメンデータシステムにおいて,大規模状態と行動空間,高分散環境,不特定報酬設定の3つの重要な課題を要約する。 これらの問題は既存の文献では未解明のままであり、RLの適用は困難である。 我々は、goalrecと呼ばれる不連続な普遍値関数を持つモデルベース強化学習フレームワークを開発した。 世界モデル(モデルベース)、値関数推定(モデルフリー)、ゴールベースRLのアイデアを組み合わせて、新しいモデルベース値関数の定式化を提案する。 推薦者が持つ様々な目標を一般化し、それに応じて確率的環境力学と高分散報酬信号を解き放つことができる。 スパース信号と高分散報酬信号から解放された値関数の一部として、高容量の報酬非関連世界モデルを用いて、特定の目標の下で複雑な環境力学をシミュレートする。 予測された環境力学に基づいて、不連続な普遍値関数は、モノリシックな状態とスカラー報酬ではなく、ユーザの将来の軌道に関係している。 本稿では,一連のシミュレーションと実応用の3つの実践的課題の観点から,従来のアプローチよりもGoalRecの方が優れていることを示す。

In recent years, there are great interests as well as challenges in applying reinforcement learning (RL) to recommendation systems (RS). In this paper, we summarize three key practical challenges of large-scale RL-based recommender systems: massive state and action spaces, high-variance environment, and the unspecific reward setting in recommendation. All these problems remain largely unexplored in the existing literature and make the application of RL challenging. We develop a model-based reinforcement learning framework with a disentangled universal value function, called GoalRec. Combining the ideas of world model (model-based), value function estimation (model-free), and goal-based RL, a novel model-based value function formalization is proposed. It can generalize to various goals that the recommender may have, and disentangle the stochastic environmental dynamics and high-variance reward signals accordingly. As a part of the value function, free from the sparse and high-variance reward signals, a high-capacity reward-irrelevant world model is trained to simulate complex environmental dynamics under a certain goal. Based on the predicted environmental dynamics, the disentangled universal value function is related to the user's future trajectory instead of a monolithic state and a scalar reward. We demonstrate the superiority of GoalRec over previous approaches in terms of the above three practical challenges in a series of simulations and a real application.
翻訳日:2021-04-08 12:41:33 公開日:2021-04-07
# エッジコンピューティングプラットフォーム上でのグラフニューラルネットワークのメモリ効率の最適化

Optimizing Memory Efficiency of Graph NeuralNetworks on Edge Computing Platforms ( http://arxiv.org/abs/2104.03058v1 )

ライセンス: Link先を確認
Ao Zhou, Jianlei Yang, Yeqi Gao, Tong Qiao, Yingjie Qi, Xiaoyi Wang, Yunli Chen, Pengcheng Dai, Weisheng Zhao, Chunming Hu(参考訳) グラフニューラルネットワーク(GNN)は、様々な産業タスクにおいて最先端のパフォーマンスを達成した。 しかし、GNN推論と頻繁なout-Of-Memory(OOM)問題は、エッジコンピューティングプラットフォームにおけるGNNの正常な適用を制限する。 これらの問題に対処するために,GNN推論のメモリ効率最適化のための特徴分解手法を提案する。 提案手法は、さまざまなGNNモデルに対して優れた最適化を実現し、幅広いデータセットをカバーし、推論を最大3倍高速化する。 さらに,提案する特徴分解により,ピークメモリ使用量(最大5倍のメモリ効率向上)が大幅に削減され,gnn推論中にoom問題を軽減できる。

Graph neural networks (GNN) have achieved state-of-the-art performance on various industrial tasks. However, the poor efficiency of GNN inference and frequent Out-Of-Memory (OOM) problem limit the successful application of GNN on edge computing platforms. To tackle these problems, a feature decomposition approach is proposed for memory efficiency optimization of GNN inference. The proposed approach could achieve outstanding optimization on various GNN models, covering a wide range of datasets, which speeds up the inference by up to 3x. Furthermore, the proposed feature decomposition could significantly reduce the peak memory usage (up to 5x in memory efficiency improvement) and mitigate OOM problems during GNN inference.
翻訳日:2021-04-08 12:41:14 公開日:2021-04-07
# 潜在信念エネルギーモデルによる軌道予測

Trajectory Prediction with Latent Belief Energy-Based Model ( http://arxiv.org/abs/2104.03086v1 )

ライセンス: Link先を確認
Bo Pang, Tianyang Zhao, Xu Xie, and Ying Nian Wu(参考訳) 人間の軌道予測は、自動運転車やソーシャルロボットのような自律プラットフォームにとって重要である。 本稿では,人間軌道予測のための潜在信念エネルギーモデル(LB-EBM)を提案する。 LB-EBMは、移動の歴史と社会的文脈を考慮に入れたコスト関数を持つ確率モデルである。 潜在空間の低次元性とebmの高表現性は、モデルが歩行者の軌道分布の多様性を容易に捉えることができる。 LB-EBMは、潜伏空間に投影された専門家のデモンストレーション(すなわち人間の軌道)から学習される。 学習したLB-EBMからサンプリングまたは最適化すると、経路計画を作るのに使用される信念ベクトルが得られ、長い範囲の軌道を予測するのに役立つ。 LB-EBMの有効性と2段階のアプローチは、強い経験的結果によって支持される。 我々のモデルは正確でマルチモーダルで社会的に適合した軌道予測を作成でき、スタンフォード・ドローンの軌道予測ベンチマークでは10.9%、ETH-UCYベンチマークでは27.6%向上する。

Human trajectory prediction is critical for autonomous platforms like self-driving cars or social robots. We present a latent belief energy-based model (LB-EBM) for diverse human trajectory forecast. LB-EBM is a probabilistic model with cost function defined in the latent space to account for the movement history and social context. The low-dimensionality of the latent space and the high expressivity of the EBM make it easy for the model to capture the multimodality of pedestrian trajectory distributions. LB-EBM is learned from expert demonstrations (i.e., human trajectories) projected into the latent space. Sampling from or optimizing the learned LB-EBM yields a belief vector which is used to make a path plan, which then in turn helps to predict a long-range trajectory. The effectiveness of LB-EBM and the two-step approach are supported by strong empirical results. Our model is able to make accurate, multi-modal, and social compliant trajectory predictions and improves over prior state-of-the-arts performance on the Stanford Drone trajectory prediction benchmark by 10.9% and on the ETH-UCY benchmark by 27.6%.
翻訳日:2021-04-08 12:41:03 公開日:2021-04-07
# セマンティックセグメンテーションのためのポイントクラウドでのメタラーニング

Few-Shot Meta-Learning on Point Cloud for Semantic Segmentation ( http://arxiv.org/abs/2104.02979v1 )

ライセンス: Link先を確認
Xudong Li, Li Feng, Lei Li, Chen Wang(参考訳) 建設ロボットの推進は、人的資源不足の問題を解決し、装飾の質を向上させることができる。 一方、3Dポイントクラウドは環境情報を取得する上で重要なデータであり、ロボット工学や自動運転などの分野で広く利用されている。 より良く働くためには、建設ロボットは周囲の状況を理解できる必要がある。 しかし、ロボットが家を改装するにつれて、点雲情報は動的に変化する。 本稿では,ロボットを環境の変化に動的に適応させるために,メタラーニングに基づくポイントクラウドのための意味セグメンテーション手法を提案する。 本発明の方法は、基礎学習モジュールとメタ学習モジュールとを含む。 学習モジュールはデータ特徴の学習とモデルの評価に責任を持ち、メタ学習モジュールはモデルのパラメータの更新とモデルの一般化能力の向上に責任を持つ。 本研究では,3次元シーンにおけるメタラーニングのためのデータセット作成手法を開拓し,モデル非依存型メタラーニング(MAML)アルゴリズムを3次元ポイントクラウドデータ処理に適用できることを実証した。 同時に, 実験により, 少数のサンプルを用いて, モデルが新しい環境に迅速に適用できることを示した。 提案手法は適用価値が高い。

The promotion of construction robots can solve the problem of human resource shortage and improve the quality of decoration. Meanwhile, 3D point cloud is an important form of data for obtaining environmental information, which is widely used in robotics, autonomous driving and other fields. In order to work better, construction robots need to be able to understand their surroundings. However, as the robot renovates a house, the point cloud information changes dynamically. For the purpose of making the robot dynamically adapt to the changes of the environment, this paper proposes a semantic segmentation method for point cloud based on meta-learning. The method includes a basic learning module and a meta-learning module. The learning module is responsible for learning data features and evaluating the model, while the meta-learning module is responsible for updating the parameters of the model and improving the model generalization capability. In our work, we pioneered the method of producing datasets for meta-learning in 3D scenes, as well as demonstrated that the Model-Agnostic Meta-Learning (MAML) algorithm can be applied to process 3D point cloud data. At the same time, experiments show that our method can allow the model to be quickly applied to new environments with a small number of samples. Our proposed method has great application value.
翻訳日:2021-04-08 12:40:47 公開日:2021-04-07
# スマートシティにおけるAI: 自動車の自動化とスマート交通制御を実現するための課題とアプローチ

AI in Smart Cities: Challenges and approaches to enable road vehicle automation and smart traffic control ( http://arxiv.org/abs/2104.03150v1 )

ライセンス: Link先を確認
Cristofer Englund and Eren Erdal Aksoy and Fernando Alonso-Fernandez and Martin Daniel Cooney and Sepideh Pashami and Bjorn Astrand(参考訳) スマートシティとコミュニティ(SCC)は、都市開発における新しいパラダイムである。 SCCは、活動とユーティリティの自動化と最適化による効率向上を目的とした、データ中心の社会を構想している。 モノのインターネットとともに、情報通信技術はデータ収集を可能にし、人工知能(AI)の状況認識により、SCCアクターに豊富な知識を供給することができる。 本稿では、SCCにおけるAIの視点を説明し、道路車両の自動化とスマート交通制御を可能にするために交通に使用されるAI技術の概要を示す。 パーセプション、スマートトラヒックコントロール、ドライバモデリングは、交通に高度なドライバアシストシステムを導入するためのオープンな研究課題と標準化と共に説明されている。 AI技術は正確な予測と分類を提供するが、そのモデルが出力に関する証拠を提供していないため、人間のオペレーターを信頼するのは難しい。 加えて、正確なモデルをトレーニングするために、データのアノテート方法の要件を記述するために使用できるメソッドは今のところ存在しない。

Smart Cities and Communities (SCC) constitute a new paradigm in urban development. SCC ideates on a data-centered society aiming at improving efficiency by automating and optimizing activities and utilities. Information and communication technology along with the internet of things enables data collection and with the help of artificial intelligence (AI) situation awareness can be obtained to feed the SCC actors with enriched knowledge. This paper describes AI perspectives in SCC and gives an overview of AI-based technologies used in traffic to enable road vehicle automation and smart traffic control. Perception, Smart Traffic Control and Driver Modelling are described along with open research challenges and standardization to help introduce advanced driver assistance systems in traffic. AI technologies provide accurate prediction and classifcation; however, the models do not provide any evidence on their output making them hard to trust for a human operator. In addition, there are currently no methods that can be used to describe requirements of how the data should be annotated in order to train an accurate model.
翻訳日:2021-04-08 12:40:29 公開日:2021-04-07
# fsr:高速スキップ正則化によるトランスデューサモデルの推定過程の高速化

FSR: Accelerating the Inference Process of Transducer-Based Models by Applying Fast-Skip Regularization ( http://arxiv.org/abs/2104.02882v1 )

ライセンス: Link先を確認
Zhengkun Tian, Jiangyan Yi, Ye Bai, Jianhua Tao, Shuai Zhang, Zhengqi Wen(参考訳) RNN-TransducerやTransducer-Transduce rのようなトランスデューサベースのモデルは音声認識において大きな成功を収めている。 典型的なトランスデューサモデルは、現在の音響状態と予測済みトークンの出力シーケンスを段階的に復号する。 統計的には、予測結果の空白トークンの数は、全てのトークンの90%近くを占める。 空白トークンを予測するのに多くの計算と時間がかかるが、最終的な出力シーケンスには非ブランクトークンのみが現れる。 そこで本研究では,トランスデューサが予測する空白位置とctcモデルが予測する空白位置を整合させるfast-skip正規化法を提案する。 推論中、トランスデューサモデルは、トランスデューサデコーダの複雑なフォワード計算の多くを必要とせずに、単純なCTCプロジェクト層によって事前に空白トークンを予測し、それらをスキップすることで、計算を削減し、推論速度を大幅に改善することができる。 すべての実験は、中国のマンダリンデータセットAISHELL-1で行われている。 その結果、高速スキップ正規化はトランスデューサモデルが空白位置アライメントを学習するのに役立つことがわかった。 さらに、fast-skipによる推論は、パフォーマンスが少し低下するだけで、ほぼ4倍のスピードアップが可能だ。

Transducer-based models, such as RNN-Transducer and transformer-transduc er, have achieved great success in speech recognition. A typical transducer model decodes the output sequence conditioned on the current acoustic state and previously predicted tokens step by step. Statistically, The number of blank tokens in the prediction results accounts for nearly 90\% of all tokens. It takes a lot of computation and time to predict the blank tokens, but only the non-blank tokens will appear in the final output sequence. Therefore, we propose a method named fast-skip regularization, which tries to align the blank position predicted by a transducer with that predicted by a CTC model. During the inference, the transducer model can predict the blank tokens in advance by a simple CTC project layer without many complicated forward calculations of the transducer decoder and then skip them, which will reduce the computation and improve the inference speed greatly. All experiments are conducted on a public Chinese mandarin dataset AISHELL-1. The results show that the fast-skip regularization can indeed help the transducer model learn the blank position alignments. Besides, the inference with fast-skip can be speeded up nearly 4 times with only a little performance degradation.
翻訳日:2021-04-08 12:39:55 公開日:2021-04-07
# つぶやきに対するマルチモーダルエンティティリンク

Multimodal Entity Linking for Tweets ( http://arxiv.org/abs/2104.03236v1 )

ライセンス: Link先を確認
Omar Adjali and Romaric Besan\c{c}on and Olivier Ferret and Herve Le Borgne and Brigitte Grau(参考訳) 多くの情報抽出アプリケーションにおいて、名前付きエンティティに関する情報を知識ベースから活用するための重要なタスクとしてエンティティリンク(EL)が登場している。 本稿では,知識ベース(KB)におけるエンティティへの曖昧な言及をテキストと視覚情報を用いてマッピングする,MEL(Multimodal entity Linking)の課題に対処する。 まず、MELのための完全に注釈付けされたTwitterデータセットを構築する方法を提案し、そこではエンティティをTwitter KBで定義する。 次に,テキストと視覚の文脈から言及と実体の両方の表現を共同学習するモデルを提案する。 提案モデルの有効性を,提案したデータセット上で評価し,利用可能なときに視覚情報を活用することの重要性を強調する。

In many information extraction applications, entity linking (EL) has emerged as a crucial task that allows leveraging information about named entities from a knowledge base. In this paper, we address the task of multimodal entity linking (MEL), an emerging research field in which textual and visual information is used to map an ambiguous mention to an entity in a knowledge base (KB). First, we propose a method for building a fully annotated Twitter dataset for MEL, where entities are defined in a Twitter KB. Then, we propose a model for jointly learning a representation of both mentions and entities from their textual and visual contexts. We demonstrate the effectiveness of the proposed model by evaluating it on the proposed dataset and highlight the importance of leveraging visual information when it is available.
翻訳日:2021-04-08 12:39:35 公開日:2021-04-07
# ソフトラベル無名胃X線画像蒸留

Soft-Label Anonymous Gastric X-ray Image Distillation ( http://arxiv.org/abs/2104.02857v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 本稿では,勾配降下法に基づく軟式ラベル匿名胃X線画像蒸留法を提案する。 医療データの共有は、コンピュータ支援診断(CAD)システムを構築するために要求される。 しかし、医療データセットの大規模化とプライバシ保護は、CADシステムの研究を妨げる医療データ共有に問題を残している。 この蒸留方法の考え方は,医療用データセットの有効な情報を抽出し,異なるデータ分布を持つ小さな蒸留用データセットを生成することである。 本手法は, モデル蒸留と異なり, 最適な蒸留画像, 蒸留ラベル, 最適化学習率を求める。 実験の結果,提案手法は医療用データセットを効果的に圧縮するだけでなく,医療用画像の匿名化によって患者の個人情報を保護できることがわかった。 提案手法は医療データ共有の効率性と安全性を向上させる。

This paper presents a soft-label anonymous gastric X-ray image distillation method based on a gradient descent approach. The sharing of medical data is demanded to construct high-accuracy computer-aided diagnosis (CAD) systems. However, the large size of the medical dataset and privacy protection are remaining problems in medical data sharing, which hindered the research of CAD systems. The idea of our distillation method is to extract the valid information of the medical dataset and generate a tiny distilled dataset that has a different data distribution. Different from model distillation, our method aims to find the optimal distilled images, distilled labels and the optimized learning rate. Experimental results show that the proposed method can not only effectively compress the medical dataset but also anonymize medical images to protect the patient's private information. The proposed approach can improve the efficiency and security of medical data sharing.
翻訳日:2021-04-08 12:37:36 公開日:2021-04-07
# 強化学習のための教師なし視覚注意と不変性

Unsupervised Visual Attention and Invariance for Reinforcement Learning ( http://arxiv.org/abs/2104.02921v1 )

ライセンス: Link先を確認
Xudong Wang, Long Lian, Stella X. Yu(参考訳) 視覚に基づく強化学習(RL)は大きな成功を収めた。 しかし、未知のテスト環境へのビジョンベースのrlポリシーの一般化は依然として困難な問題である。 テスト環境とトレーニング環境の相違に不変な普遍的なrlポリシーのトレーニングに焦点を当てた以前の作業とは異なり、タスクに無関係な干渉要因を分散する独立したモジュールの開発に重点を置いており、rlポリシーに「クリーン」な観察を提供する。 The proposed unsupervised visual attention and invariance method (VAI) contains three key components: 1) an unsupervised keypoint detection model which captures semantically meaningful keypoints in observations; 2) an unsupervised visual attention module which automatically generates the distraction-invarian t attention mask for each observation; 3) a self-supervised adapter for visual distraction invariance which reconstructs distraction-invarian t attention mask from observations with artificial disturbances generated by a series of foreground and background augmentations. すべてのコンポーネントは、手動のアノテーションや環境内部へのアクセスなしに、教師なしの方法で最適化されている。 VAIは実演で強力な一般化能力を示し、DeepMind Controlスイートベンチマークでは15%から49%、提案したロボット操作ベンチマークでは61%から229%と、各エピソード当たりの累積報酬において、現在の最先端(SOTA)手法を著しく上回っている。

The vision-based reinforcement learning (RL) has achieved tremendous success. However, generalizing vision-based RL policy to unknown test environments still remains as a challenging problem. Unlike previous works that focus on training a universal RL policy that is invariant to discrepancies between test and training environment, we focus on developing an independent module to disperse interference factors irrelevant to the task, thereby providing "clean" observations for the RL policy. The proposed unsupervised visual attention and invariance method (VAI) contains three key components: 1) an unsupervised keypoint detection model which captures semantically meaningful keypoints in observations; 2) an unsupervised visual attention module which automatically generates the distraction-invarian t attention mask for each observation; 3) a self-supervised adapter for visual distraction invariance which reconstructs distraction-invarian t attention mask from observations with artificial disturbances generated by a series of foreground and background augmentations. All components are optimized in an unsupervised way, without manual annotation or access to environment internals, and only the adapter is used during inference time to provide distraction-free observations to RL policy. VAI empirically shows powerful generalization capabilities and significantly outperforms current state-of-the-art (SOTA) method by 15% to 49% in DeepMind Control suite benchmark and 61% to 229% in our proposed robot manipulation benchmark, in term of cumulative rewards per episode.
翻訳日:2021-04-08 12:37:23 公開日:2021-04-07
# CT画像からのCOVID-19病変分離のための不確実性定量化による二重一貫性半教師付き学習

Dual-Consistency Semi-Supervised Learning with Uncertainty Quantification for COVID-19 Lesion Segmentation from CT Images ( http://arxiv.org/abs/2104.03225v1 )

ライセンス: Link先を確認
Yanwen Li, Luyang Luo, Huangjing Lin, Hao Chen, Pheng-Ann Heng(参考訳) 非定型肺炎を特徴とする新型コロナウイルス(COVID-19)は世界中で何百万人もの死者を出した。 CT(Computed Tomography)は、新型コロナウイルスのスクリーニング、治療計画、追跡監視で医師を支援するための有望な方法である。 しかしながら、voxel-wiseアノテーションは非常に専門的な要求があり、特に新しい病気に関しては不足している。 そこで本研究では,CT画像からの半教師付きCOVID-19病変検出のための不確実性誘導型デュアル一貫性学習ネットワーク(UDC-Net)を提案する。 具体的には,非ラベルデータからの知識を効果的に活用するために,画像変換等価性と特徴摂動不変性を同時に課す双矛盾学習方式を提案する。 次に,認識的不確かさとアレエータ的不確実性の両方を定量化し,より信頼性の高い教師なし学習のための一貫性の規則化を導くためにそれらを併用した。 広範な実験により,本研究のudc-netはdiceで6.3%改善し,他の競合的半教師付きアプローチを有意なマージンで上回り,実世界臨床実践において高い可能性を示した。

The novel coronavirus disease 2019 (COVID-19) characterized by atypical pneumonia has caused millions of deaths worldwide. Automatically segmenting lesions from chest Computed Tomography (CT) is a promising way to assist doctors in COVID-19 screening, treatment planning, and follow-up monitoring. However, voxel-wise annotations are extremely expert-demanding and scarce, especially when it comes to novel diseases, while an abundance of unlabeled data could be available. To tackle the challenge of limited annotations, in this paper, we propose an uncertainty-guided dual-consistency learning network (UDC-Net) for semi-supervised COVID-19 lesion segmentation from CT images. Specifically, we present a dual-consistency learning scheme that simultaneously imposes image transformation equivalence and feature perturbation invariance to effectively harness the knowledge from unlabeled data. We then quantify both the epistemic uncertainty and the aleatoric uncertainty and employ them together to guide the consistency regularization for more reliable unsupervised learning. Extensive experiments showed that our proposed UDC-Net improves the fully supervised method by 6.3% in Dice and outperforms other competitive semi-supervised approaches by significant margins, demonstrating high potential in real-world clinical practice.
翻訳日:2021-04-08 12:36:58 公開日:2021-04-07
# 二段ランク法における濃度不等式と二段ランク法への応用

Concentration Inequalities for Two-Sample Rank Processes with Application to Bipartite Ranking ( http://arxiv.org/abs/2104.02943v1 )

ライセンス: Link先を確認
St\'ephan Cl\'emen\c{c}on (LTCI), Myrto Limnios (CB), Nicolas Vayatis (CB)(参考訳) ROC曲線(英: ROC curve)は、信号処理における異常検出から情報検索まで幅広い用途において、2つの統計集団を識別する能力に関するテスト/スコア統計の性能を測定するための金の標準である。 AUC、ローカルAUC、p-ノルムプッシュ、DCGなどのスコアリング/ランク付けアプリケーションで使用される最も実用的なパフォーマンス対策は、ROC曲線の要約と見なすことができる。 本稿では,これらの経験的基準のほとんどを2-sample linear rank statisticsとして表現できることを強調し,ここでは2-sample rank processと呼ばれる確率変数の集合に対する濃度不等式を,スコアリング関数のvcクラスによって索引付けされた場合に証明する。 これらの漸近的境界に基づいて、幅広いランク付け性能基準の経験的最大値の一般化能力について理論的観点から検討する。 また、実証的な数値実験によっても支持されている。

The ROC curve is the gold standard for measuring the performance of a test/scoring statistic regarding its capacity to discriminate between two statistical populations in a wide variety of applications, ranging from anomaly detection in signal processing to information retrieval, through medical diagnosis. Most practical performance measures used in scoring/ranking applications such as the AUC, the local AUC, the p-norm push, the DCG and others, can be viewed as summaries of the ROC curve. In this paper, the fact that most of these empirical criteria can be expressed as two-sample linear rank statistics is highlighted and concentration inequalities for collections of such random variables, referred to as two-sample rank processes here, are proved, when indexed by VC classes of scoring functions. Based on these nonasymptotic bounds, the generalization capacity of empirical maximizers of a wide class of ranking performance criteria is next investigated from a theoretical perspective. It is also supported by empirical evidence through convincing numerical experiments.
翻訳日:2021-04-08 12:36:33 公開日:2021-04-07
# 適応型人間-AIコラボレーションにおける条約の役割について

On the Critical Role of Conventions in Adaptive Human-AI Collaboration ( http://arxiv.org/abs/2104.02871v1 )

ライセンス: Link先を確認
Andy Shih and Arjun Sawhney and Jovana Kondic and Stefano Ermon and Dorsa Sadigh(参考訳) 人間は共同作業(例えば、新しいパートナーに迅速に適応できる。 バスケットボールをする) タスクの根本的スキル(例えば)を理解しているからです how to dribble, how to shoot) 新しいパートナーを乗り越える。 人間は、彼らが開発してきた慣習(例えば)を乗り越えることで、同じパートナーと同様のタスクに迅速に適応することができる。 手信号はボールを通り抜ける) ゼロから調整することを学ぶことなく 人間とシームレスに協力するためには、AIエージェントは新しいパートナーや新しいタスクにも迅速に対応する必要がある。 しかし、現在のアプローチでは、タスクに固有の複雑さとパートナーが使用する規約を区別しようとはしていません。 本研究では,ルール依存表現と規則依存表現を原則的に分離する学習フレームワークを提案する。 いくつかの仮定では、我々のルールに依存した表現は、パートナー間のベストレスポンス戦略に対する分布の十分な統計量である。 このような表現を分離することで、エージェントは新しいパートナーに迅速に適応し、ゼロショットで新しいタスクで古いパートナーと協調することが可能になります。 複雑度が異なる3つの協調作業(コンテキスト的マルチアームバンディット、ブロック配置タスク、カードゲーム「はなび」)に対するアプローチを実験的に検証した。

Humans can quickly adapt to new partners in collaborative tasks (e.g. playing basketball), because they understand which fundamental skills of the task (e.g. how to dribble, how to shoot) carry over across new partners. Humans can also quickly adapt to similar tasks with the same partners by carrying over conventions that they have developed (e.g. raising hand signals pass the ball), without learning to coordinate from scratch. To collaborate seamlessly with humans, AI agents should adapt quickly to new partners and new tasks as well. However, current approaches have not attempted to distinguish between the complexities intrinsic to a task and the conventions used by a partner, and more generally there has been little focus on leveraging conventions for adapting to new settings. In this work, we propose a learning framework that teases apart rule-dependent representation from convention-dependent representation in a principled way. We show that, under some assumptions, our rule-dependent representation is a sufficient statistic of the distribution over best-response strategies across partners. Using this separation of representations, our agents are able to adapt quickly to new partners, and to coordinate with old partners on new tasks in a zero-shot manner. We experimentally validate our approach on three collaborative tasks varying in complexity: a contextual multi-armed bandit, a block placing task, and the card game Hanabi.
翻訳日:2021-04-08 12:35:54 公開日:2021-04-07
# 非凸$\ell_{p}$ボールにおけるスパース最適化の反復加重法

An Iteratively Reweighted Method for Sparse Optimization on Nonconvex $\ell_{p}$ Ball ( http://arxiv.org/abs/2104.02912v1 )

ライセンス: Link先を確認
Hao Wang, Xiangyu Yang, and Wei Jiang(参考訳) 本稿では,非凸$\ell_{p}$-ball制約非線形最適化問題を解くことを目的とする。 重み付き$\ell_{1}$-ballプロジェクションサブプロブレムの列を解く反復的再重み付け法を提案する。 各イテレーションにおいて、次のイテレーションは、ステップサイズで負の勾配に沿って移動し、その結果のポイントを重み付き$\ell_{1}$ ballに投影して、$\ell_{p}$ ballを近似することで得られる。 具体的には、現在のイテレートが実行可能集合の内部にある場合、重み付き$\ell_{1}$ 球は、現在のイテレートで$\ell_{p}$ノルムを線形化することによって形成される。 もし現在のイテレートが実現可能な集合の境界にあるなら、重み付けされた$\ell_{1}$ ballは現在のイテレートの零成分をまだゼロに保つことによって異なる形で形成される。 本解析では,生成したイテレートが1次定常点に収束することを示す。 提案手法の有効性を示す数値実験を行った。

This paper is intended to solve the nonconvex $\ell_{p}$-ball constrained nonlinear optimization problems. An iteratively reweighted method is proposed, which solves a sequence of weighted $\ell_{1}$-ball projection subproblems. At each iteration, the next iterate is obtained by moving along the negative gradient with a stepsize and then projecting the resulted point onto the weighted $\ell_{1}$ ball to approximate the $\ell_{p}$ ball. Specifically, if the current iterate is in the interior of the feasible set, then the weighted $\ell_{1}$ ball is formed by linearizing the $\ell_{p}$ norm at the current iterate. If the current iterate is on the boundary of the feasible set, then the weighted $\ell_{1}$ ball is formed differently by keeping those zero components in the current iterate still zero. In our analysis, we prove that the generated iterates converge to a first-order stationary point. Numerical experiments demonstrate the effectiveness of the proposed method.
翻訳日:2021-04-08 12:35:36 公開日:2021-04-07
# DyGCN: グラフ畳み込みネットワークによる動的グラフ埋め込み

DyGCN: Dynamic Graph Embedding with Graph Convolutional Network ( http://arxiv.org/abs/2104.02962v1 )

ライセンス: Link先を確認
Zeyu Cui, Zekun Li, Shu Wu, Xiaoyu Zhang, Qiang Liu, Liang Wang, Mengmeng Ai(参考訳) 低次元表現を学習することを目的としたグラフ埋め込み。 ノードの埋め込み)が最近注目されている。 近年、グラフ畳み込みネットワーク(GCN)が有効なモデルのクラスとして登場した静的グラフの取り組みが急増しているのを目撃している。 しかし、これらの手法は主に静的グラフ埋め込みに焦点を当てている。 本研究では,効率的な動的グラフ埋め込み手法である動的グラフ畳み込みネットワーク(dygcn)を提案する。 我々はGCNの埋め込み伝搬スキームを効率的に動的設定に自然に一般化し、グラフに沿った変化を伝播してノード埋め込みを更新する。 最も影響を受けるノードは最初に更新され、その後、その変更はさらなるノードに伝播され、更新に繋がる。 様々な動的グラフ上で行った広範囲な実験により、モデルがノード埋め込みを時間節約と性能維持の方法で更新できることが証明された。

Graph embedding, aiming to learn low-dimensional representations (aka. embeddings) of nodes, has received significant attention recently. Recent years have witnessed a surge of efforts made on static graphs, among which Graph Convolutional Network (GCN) has emerged as an effective class of models. However, these methods mainly focus on the static graph embedding. In this work, we propose an efficient dynamic graph embedding approach, Dynamic Graph Convolutional Network (DyGCN), which is an extension of GCN-based methods. We naturally generalizes the embedding propagation scheme of GCN to dynamic setting in an efficient manner, which is to propagate the change along the graph to update node embeddings. The most affected nodes are first updated, and then their changes are propagated to the further nodes and leads to their update. Extensive experiments conducted on various dynamic graphs demonstrate that our model can update the node embeddings in a time-saving and performance-preservi ng way.
翻訳日:2021-04-08 12:35:17 公開日:2021-04-07
# ディープラーニングとトラフィック分類: 数百の暗号化およびゼロデイアプリケーションによる商用グレードデータセットから学んだ教訓

Deep Learning and Traffic Classification: Lessons learned from a commercial-grade dataset with hundreds of encrypted and zero-day applications ( http://arxiv.org/abs/2104.03182v1 )

ライセンス: Link先を確認
Lixuan Yang, Alessandro Finamore, Feng Jun, Dario Rossi(参考訳) 機械学習(ML)とディープラーニング(DL)の成功は、最近、トラフィックの分類に再び関心を寄せている。 既知のトラフィックの分類は、監視された分類ツール(mlモデルやdlモデルなど)によって十分に研究されているが、未知(あるいはゼロデイ)トラフィックの検出はより困難であり、教師なしの手法(クラスタリングアルゴリズムなど)によって処理される。 本稿では,暗号化されたトラフィックから既知のアプリケーションを識別し,かつ (ii) 未知のゼロデイアプリケーションを処理可能な,商用のDLトラフィック分類エンジンでの経験を共有する。 特に, (i) の貢献は, 学術的評価を対象とする数十のクラスとは対照的に, 数千の非常に微細なアプリケーションラベルからなる商業用グレード設定において, 美術トラフィック分類器の状態を徹底的に評価することである。 さらに, dlモデル用に最適化された新しい手法を提案することで, ゼロデイアプリケーションの検出に寄与する。 主な知見を要約すると、(i)MLモデルとDLモデルの両方が、既知のトラフィックの分類に等しく満足なソリューションを提供するが、(ii)DLバックボーンの非線形特徴抽出プロセスは、未知のクラスを検出する上で大きな利点をもたらす。

The increasing success of Machine Learning (ML) and Deep Learning (DL) has recently re-sparked interest towards traffic classification. While classification of known traffic is a well investigated subject with supervised classification tools (such as ML and DL models) are known to provide satisfactory performance, detection of unknown (or zero-day) traffic is more challenging and typically handled by unsupervised techniques (such as clustering algorithms). In this paper, we share our experience on a commercial-grade DL traffic classification engine that is able to (i) identify known applications from encrypted traffic, as well as (ii) handle unknown zero-day applications. In particular, our contribution for (i) is to perform a thorough assessment of state of the art traffic classifiers in commercial-grade settings comprising few thousands of very fine grained application labels, as opposite to the few tens of classes generally targeted in academic evaluations. Additionally, we contribute to the problem of (ii) detection of zero-day applications by proposing a novel technique, tailored for DL models, that is significantly more accurate and light-weight than the state of the art. Summarizing our main findings, we gather that (i) while ML and DL models are both equally able to provide satisfactory solution for classification of known traffic, however (ii) the non-linear feature extraction process of the DL backbone provides sizeable advantages for the detection of unknown classes.
翻訳日:2021-04-08 12:35:03 公開日:2021-04-07
# pythonによるsqlコード生成による効率的かつ正確なデータベース内機械学習

Efficient and Accurate In-Database Machine Learning with SQL Code Generation in Python ( http://arxiv.org/abs/2104.03224v1 )

ライセンス: Link先を確認
Michael Kaufmann, Gabriel Stechschulte, Anna Huber(参考訳) SQLベースの機械学習(ML)の利点の分析と、その分野の短い文献調査に続いて、本研究では、データベース内機械学習(IDBML)の新しい手法について述べる。 我々は、Jinja2のテンプレートマクロとプロセスのプロトタイプ実装を使用して、PythonのSQLコード生成プロセスにコントリビュートする。 SQLにおける多次元ヒストグラム(MDH)の確率推定を行うプロセスの実装について述べる。 そこで我々は,等量化ランク(EQR)可変幅ビンニングという新しい離散化手法を提案し,実装する。 そこで我々は,Covertypeデータセットを用いた手法とシステムの定量的評価のためのベンチマーク実験で収集したデータを提供する。 精度と計算時間を測定した。 我々の多次元確率推定は、独立な一次元確率と密度を仮定するネイブベイズよりもかなり精度が高かった。 また,本手法はロジスティック回帰よりも精度が高く,高速であった。 しかし,本手法は,現在の最先端手法 (決定木とランダム林) よりも2~3%精度が低く,1つのインメモリデータセットでは2~3倍遅かった。 しかし、この事実は、正確性の向上と、ビッグデータとより大きなメモリデータセットのためのSQLコード生成を伴うIDBMLにおけるさらなる研究の動機となっている。

Following an analysis of the advantages of SQL-based Machine Learning (ML) and a short literature survey of the field, we describe a novel method for In-Database Machine Learning (IDBML). We contribute a process for SQL-code generation in Python using template macros in Jinja2 as well as the prototype implementation of the process. We describe our implementation of the process to compute multidimensional histogram (MDH) probability estimation in SQL. For this, we contribute and implement a novel discretization method called equal quantized rank (EQR) variable-width binning. Based on this, we provide data gathered in a benchmarking experiment for the quantitative empirical evaluation of our method and system using the Covertype dataset. We measured accuracy and computation time. Our multidimensional probability estimation was significantly more accurate than Naive Bayes, which assumes independent one-dimensional probabilities and/or densities. Also, our method was significantly more accurate and faster than logistic regression. However, our method was 2-3% less accurate than the best current state-of-the-art methods we found (decision trees and random forests) and 2-3 times slower for one in-memory dataset. Yet, this fact motivates for further research in accuracy improvement and in IDBML with SQL code generation for big data and larger-than-memory datasets.
翻訳日:2021-04-08 12:34:38 公開日:2021-04-07
# 拡張自己認識によるマルチリゾリューションコンテキストのキャプチャ

Capturing Multi-Resolution Context by Dilated Self-Attention ( http://arxiv.org/abs/2104.02858v1 )

ライセンス: Link先を確認
Niko Moritz, Takaaki Hori, Jonathan Le Roux(参考訳) 自己認識は、機械翻訳や自動音声認識(ASR)など、さまざまなアプリケーションのための新しい最先端の結果を確立するのに役立った、重要かつ広く使用されているニューラルネットワークコンポーネントとなった。 しかし、自己アテンションの計算複雑性は入力シーケンス長と二次的に増大する。 これはasrのようなアプリケーションでは特に問題となり、発話から生成された入力シーケンスは比較的長い可能性がある。 本研究では,制限付き自己意図と拡張型自己意図(Dilated self-attention)という拡張メカニズムの組み合わせを提案する。 制限された自己アテンションにより、クエリの隣接するフレームに高い解像度で注意を向けることができ、拡張機構は遠方の情報を要約し、より低い解像度でそれに参加することができる。 サブサンプリング,平均プール,アテンションベースプールなど,遠隔フレームを要約するさまざまな手法が研究されている。 ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。

Self-attention has become an important and widely used neural network component that helped to establish new state-of-the-art results for various applications, such as machine translation and automatic speech recognition (ASR). However, the computational complexity of self-attention grows quadratically with the input sequence length. This can be particularly problematic for applications such as ASR, where an input sequence generated from an utterance can be relatively long. In this work, we propose a combination of restricted self-attention and a dilation mechanism, which we refer to as dilated self-attention. The restricted self-attention allows attention to neighboring frames of the query at a high resolution, and the dilation mechanism summarizes distant information to allow attending to it with a lower resolution. Different methods for summarizing distant frames are studied, such as subsampling, mean-pooling, and attention-based pooling. ASR results demonstrate substantial improvements compared to restricted self-attention alone, achieving similar results compared to full-sequence based self-attention with a fraction of the computational costs.
翻訳日:2021-04-08 12:32:56 公開日:2021-04-07
# 畳み込みリカレントニューラルネットワークを用いた3クラス重畳音声検出

Three-class Overlapped Speech Detection using a Convolutional Recurrent Neural Network ( http://arxiv.org/abs/2104.02878v1 )

ライセンス: Link先を確認
Jee-weon Jung, Hee-Soo Heo, Youngki Kwon, Joon Son Chung, Bong-Jin Lee(参考訳) 本研究では,3クラス分類器として訓練された重畳音声検出システムを提案する。 フレームが重複した音声を含むか否かを二分分類する従来のシステムとは異なり、提案手法は非音声、単一話者音声、重複した音声の3つのクラスに分類する。 より詳細なラベル定義でネットワークをトレーニングすることで、モデルは所定のフレームに含まれる話者数を決定するためのより良い概念を学ぶことができる。 畳み込み型リカレントニューラルネットワークアーキテクチャは、畳み込み層がローカルパターンをモデル化する能力と、シーケンシャルな情報をモデル化するリカレント層の能力の両方の恩恵を受けるために研究されている。 提案する重複音声検出モデルでは,精度0.6648の最先端性能とディハードii評価セットの0.3222のリコールが確立され,高い精度でリコール率が20%向上した。 さらに,dihard iiiチャレンジのトラック1で第3位となった話者ダイアリゼーションに対して,提案する重複音声検出モデルを簡易に活用する手法を提案する。

In this work, we propose an overlapped speech detection system trained as a three-class classifier. Unlike conventional systems that perform binary classification as to whether or not a frame contains overlapped speech, the proposed approach classifies into three classes: non-speech, single speaker speech, and overlapped speech. By training a network with the more detailed label definition, the model can learn a better notion on deciding the number of speakers included in a given frame. A convolutional recurrent neural network architecture is explored to benefit from both convolutional layer's capability to model local patterns and recurrent layer's ability to model sequential information. The proposed overlapped speech detection model establishes a state-of-the-art performance with a precision of 0.6648 and a recall of 0.3222 on the DIHARD II evaluation set, showing a 20% increase in recall along with higher precision. In addition, we also introduce a simple approach to utilize the proposed overlapped speech detection model for speaker diarization which ranked third place in the Track 1 of the DIHARD III challenge.
翻訳日:2021-04-08 12:32:38 公開日:2021-04-07
# 話者ダイアリゼーションのための話者埋め込み適応

Adapting Speaker Embeddings for Speaker Diarisation ( http://arxiv.org/abs/2104.02879v1 )

ライセンス: Link先を確認
Youngki Kwon, Jee-weon Jung, Hee-Soo Heo, You Jin Kim, Bong-Jin Lee, Joon Son Chung(参考訳) 本稿では,話者ダイアリゼーション問題を解決するために話者埋め込みを適用することを目的とする。 話者埋め込みの品質は、話者ダイアリゼーションシステムの性能に最重要である。 それにもかかわらず、この分野の先行研究は、話者検証タスクにのみ有効に設計された埋め込みを直接使用してきた。 本稿では,ダイアリゼーションのための話者埋め込みの適応性を高めるために,次元の縮小,注意に基づく埋め込み集約,非音声クラスタリングという3つの手法を提案する。 さまざまな挑戦的なデータセットで、幅広い実験が行われます。 その結果,3つの手法はすべて,ベースライン上のダイアリゼーション誤差率で平均25.07%の相対的改善を達成するダイアリゼーションシステムの性能に正の貢献をすることがわかった。

The goal of this paper is to adapt speaker embeddings for solving the problem of speaker diarisation. The quality of speaker embeddings is paramount to the performance of speaker diarisation systems. Despite this, prior works in the field have directly used embeddings designed only to be effective on the speaker verification task. In this paper, we propose three techniques that can be used to better adapt the speaker embeddings for diarisation: dimensionality reduction, attention-based embedding aggregation, and non-speech clustering. A wide range of experiments is performed on various challenging datasets. The results demonstrate that all three techniques contribute positively to the performance of the diarisation system achieving an average relative improvement of 25.07% in terms of diarisation error rate over the baseline.
翻訳日:2021-04-08 12:32:21 公開日:2021-04-07
# 話者検証のための結合ベイズモデル構造をもつシームズニューラルネットワーク

Siamese Neural Network with Joint Bayesian Model Structure for Speaker Verification ( http://arxiv.org/abs/2104.03004v1 )

ライセンス: Link先を確認
Xugang Lu, Peng Shen, Yu Tsao, Hisashi Kawai(参考訳) 生成確率モデルは話者検証(SV)に広く用いられている。 しかし、生成モデルは識別的特徴選択能力の欠如である。 仮説テストとして、SVは二分分類タスクと見なすことができ、識別訓練付きシームズニューラルネットワーク(SiamNN)として設計することができる。 しかし、samnnの判別訓練のほとんどにおいて、対方向のサンプル距離の分布のみを考慮し、サンプルの合同分布における追加の判別情報を無視する。 本稿では,サンプルの結合分布を考慮したSiamNNを提案する。 サンプルの結合分布は、結合ベイズ(JB)に基づく生成モデルに基づいて最初に定式化され、次に、SiamNNは、JBモデルで用いられる因子化アフィン変換を近似するために、密度層で設計される。 JBモデルの学習モデルパラメータを用いてSiamNNを初期化することにより、SVのバイナリ識別タスクとしてペアワイズ標本を用いてモデルパラメータをトレーニングする。 野生の話者のデータコーパス(SITW)とVoxCeleb(VoxCeleb)についてSV実験を行った。 実験の結果,提案したモデルでは,SVのアートモデルと比較すると,大きなマージンで性能が向上した。

Generative probability models are widely used for speaker verification (SV). However, the generative models are lack of discriminative feature selection ability. As a hypothesis test, the SV can be regarded as a binary classification task which can be designed as a Siamese neural network (SiamNN) with discriminative training. However, in most of the discriminative training for SiamNN, only the distribution of pair-wised sample distances is considered, and the additional discriminative information in joint distribution of samples is ignored. In this paper, we propose a novel SiamNN with consideration of the joint distribution of samples. The joint distribution of samples is first formulated based on a joint Bayesian (JB) based generative model, then a SiamNN is designed with dense layers to approximate the factorized affine transforms as used in the JB model. By initializing the SiamNN with the learned model parameters of the JB model, we further train the model parameters with the pair-wised samples as a binary discrimination task for SV. We carried out SV experiments on data corpus of speakers in the wild (SITW) and VoxCeleb. Experimental results showed that our proposed model improved the performance with a large margin compared with state of the art models for SV.
翻訳日:2021-04-08 12:32:11 公開日:2021-04-07
# M2VoCチャレンジのためのAS-NUシステム

The AS-NU System for the M2VoC Challenge ( http://arxiv.org/abs/2104.03009v1 )

ライセンス: Link先を確認
Cheng-Hung Hu, Yi-Chiao Wu, Wen-Chin Huang, Yu-Huai Peng, Yu-Wen Chen, Pin-Jui Ku, Tomoki Toda, Yu Tsao, Hsin-Min Wang(参考訳) 本稿では,M2VoC(MultiSpeaker Multi-Style Voice Cloning Challenge)における2トラックのAS-NUシステムについて述べる。 第1トラックは、音声クローニングに少数のターゲット発話を使用することに焦点を当て、第2トラックは、音声クローニングにわずか5つのターゲット発話を使用することに焦点を当てている。 第2トラックにおけるデータ不足のため,ttsシステムの訓練データから,目標話者に最も近い話者を選択し,話者の発話と与えられた5つの目標発話を用いてモデルを微調整した。 評価結果から,2トラック間の類似点と1トラック間の類似点との間には,依然として明らかなギャップがあることがわかった。

This paper describes the AS-NU systems for two tracks in MultiSpeaker Multi-Style Voice Cloning Challenge (M2VoC). The first track focuses on using a small number of 100 target utterances for voice cloning, while the second track focuses on using only 5 target utterances for voice cloning. Due to the serious lack of data in the second track, we selected the speaker most similar to the target speaker from the training data of the TTS system, and used the speaker's utterances and the given 5 target utterances to fine-tune our model. The evaluation results show that our systems on the two tracks perform similarly in terms of quality, but there is still a clear gap between the similarity score of the second track and the similarity score of the first track.
翻訳日:2021-04-08 12:31:49 公開日:2021-04-07
# MOS予測のための自己教師付き表現の利用

Utilizing Self-supervised Representations for MOS Prediction ( http://arxiv.org/abs/2104.03017v1 )

ライセンス: Link先を確認
Wei-Cheng Tseng, Chien-yu Huang, Wei-Tsung Kao, Yist Y. Lin, Hung-yi Lee(参考訳) 音声品質評価は数十年間,音声処理において重要な課題となっている。 既存の自動評価は、典型的にはクリーン参照または平行接地真実データを必要とする。 一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。 しかし、クラウドワークが必要なため、こうしたテストは高価で時間がかかります。 したがって, 根拠となる真理データを必要とせず, 人間の知覚とよく相関する自動評価手法を開発することが望まれる。 本稿では,MOS予測に自己教師付き事前学習モデルを用いる。 クリーンな音声とノイズの多い音声を区別できることを示す。 そして、これらの事前訓練されたモデルと単純な線形層をエンドツーエンドで微調整する。 実験の結果,我々のフレームワークは,2018年の音声変換チャレンジにおいて大幅に改善され,2016年の音声変換チャレンジで同等あるいは優れた性能を達成している。 また,各モジュールがタスクにどのような恩恵をもたらすか検討するために,アブレーション研究を行った。 実験結果は公開ツールキットで実装され再現可能である。

Speech quality assessment has been a critical issue in speech processing for decades. Existing automatic evaluations usually require clean references or parallel ground truth data, which is infeasible when the amount of data soars. Subjective tests, on the other hand, do not need any additional clean or parallel data and correlates better to human perception. However, such a test is expensive and time-consuming because crowd work is necessary. It thus becomes highly desired to develop an automatic evaluation approach that correlates well with human perception while not requiring ground truth data. In this paper, we use self-supervised pre-trained models for MOS prediction. We show their representations can distinguish between clean and noisy audios. Then, we fine-tune these pre-trained models followed by simple linear layers in an end-to-end manner. The experiment results showed that our framework outperforms the two previous state-of-the-art models by a significant improvement on Voice Conversion Challenge 2018 and achieves comparable or superior performance on Voice Conversion Challenge 2016. We also conducted an ablation study to further investigate how each module benefits the task. The experiment results are implemented and reproducible with publicly available toolkits.
翻訳日:2021-04-08 12:31:36 公開日:2021-04-07
# power isa(tm)プロセッサのための行列計算設備

A matrix math facility for Power ISA(TM) processors ( http://arxiv.org/abs/2104.03142v1 )

ライセンス: Link先を確認
Jos\'e E. Moreira, Kit Barton, Steven Battle, Peter Bergner, Ramon Bertran, Puneeth Bhat, Pedro Caldeira, David Edelsohn, Gordon Fossum, Brad Frey, Nemanja Ivanovic, Chip Kerchner, Vincent Lim, Shakti Kapoor, Tulio Machado Filho, Silvia Melitta Mueller, Brett Olsson, Satish Sadasivam, Baptiste Saleil, Bill Schmidt, Rajalakshmi Srinivasaraghavan, Shricharan Srivatsan, Brian Thompto, Andreas Wagner, Nelson Wu(参考訳) Power ISA(TM)バージョン3.1は、マトリックス・マルチ・アシスト(MMA)と呼ばれる新しい行列数学命令群を導入した。 この装置の命令は、小さな行列上の数値線形代数演算を実装し、行列の乗算、畳み込み、離散フーリエ変換のような計算集約的なカーネルを加速することを目的としている。 これらの命令は、将来のPOWER10プロセッサで高スループットの計算エンジンをパワー効率で実装するきっかけとなった。 コア毎のパフォーマンスは、前世代のPOWER9プロセッサの4倍、一定の周波数で向上している。 また,これらの命令を活用する方法としてコンパイラ組込みの利用を推奨し,行列の乗算と畳み込みを対象とするケーススタディを通じて述べる。

Power ISA(TM) Version 3.1 has introduced a new family of matrix math instructions, collectively known as the Matrix-Multiply Assist (MMA) facility. The instructions in this facility implement numerical linear algebra operations on small matrices and are meant to accelerate computation-intensiv e kernels, such as matrix multiplication, convolution and discrete Fourier transform. These instructions have led to a power- and area-efficient implementation of a high throughput math engine in the future POWER10 processor. Performance per core is 4 times better, at constant frequency, than the previous generation POWER9 processor. We also advocate the use of compiler built-ins as the preferred way of leveraging these instructions, which we illustrate through case studies covering matrix multiplication and convolution.
翻訳日:2021-04-08 12:31:20 公開日:2021-04-07
# ソーシャルメディア投稿の半監督的分類:性行為を経験する人を支援するために性的な投稿を識別する

Semi-Supervised Classification of Social Media Posts: Identifying Sex-Industry Posts to Enable Better Support for Those Experiencing Sex-Trafficking ( http://arxiv.org/abs/2104.03233v1 )

ライセンス: Link先を確認
Ellie Simonson(参考訳) ソーシャルメディアは、セックスの密売に対する仕事にとって有益かつ有害である。 一方、ソーシャルワーカーは、ソーシャルメディアを使って性行為を経験する人々を支援する。 一方、人身売買業者はソーシャルメディアを使って、人身売買の状況に人々を育て、リクルートする。 ソーシャルメディアデータを使って、トラフィックを経験する人たちのサポートをより良くする機会がある。 AIと機械学習(ML)は性売買に対する取り組みに使われてきたが、主に児童性虐待物質の検出に焦点を当てている。 ソーシャルメディアデータの利用は、あらゆる年齢層で交通被害に遭った人々へのコミュニティレベルの支援を意図して行われていない。 この文脈の中で、この論文は、性産業の一部であるソーシャルメディアポストを特定するための半教師付き分類の使用を探求する。 MLのためのいくつかの手法が検討された。 しかし,主な手法は半教師付き学習であり,ラベル付きデータに限定して自動分類を行うという利点がある。 ソーシャルメディア投稿は、FastTextとDoc2Vecモデルを使用して低次元ベクトルに埋め込まれた。 データはk-meansクラスタリングを使用してクラスタ化され、ラベルの伝搬精度を決定するためにクロスバリデーションが使用された。 半教師付きアルゴリズムの結果は励まされた。 FastText CBOWモデルは98.6%の精度で12,000以上のポストにラベルの伝搬を適用した。 この論文の結果は、さらに半教師付き学習と手動のラベリングを組み合わせることで、5万以上の投稿を含むデータセット全体を正確にラベリングできることを示唆している。 完全なラベル付きデータセットは、性産業でソーシャルメディアがいつどこで使われているかの概要を特定するツールの開発に使用できる。 これは、人身売買を経験する人々により良いサポートを提供する方法を決定するのに役立つだろう。

Social media is both helpful and harmful to the work against sex trafficking. On one hand, social workers carefully use social media to support people experiencing sex trafficking. On the other hand, traffickers use social media to groom and recruit people into trafficking situations. There is the opportunity to use social media data to better provide support for people experiencing trafficking. While AI and Machine Learning (ML) have been used in work against sex trafficking, they predominantly focus on detecting Child Sexual Abuse Material. Work using social media data has not been done with the intention to provide community level support to people of all ages experiencing trafficking. Within this context, this thesis explores the use of semi-supervised classification to identify social media posts that are a part of the sex industry. Several methods were explored for ML. However, the primary method used was semi-supervised learning, which has the benefit of providing automated classification with a limited set of labelled data. Social media posts were embedded into low-dimensional vectors using FastText and Doc2Vec models. The data were then clustered using k-means clustering, and cross-validation was used to determine label propagation accuracy. The results of the semi-supervised algorithm were encouraging. The FastText CBOW model provided 98.6% accuracy to over 12,000 posts in clusters where label propagation was applied. The results of this thesis suggest that further semi-supervised learning, in conjunction with manual labeling, may allow for the entire dataset containing over 50,000 posts to be accurately labeled. A fully labeled dataset could be used to develop a tool to identify an overview of where and when social media is used within the sex industry. This could be used to help determine better ways to provide support to people experiencing trafficking.
翻訳日:2021-04-08 12:31:07 公開日:2021-04-07