このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200803となっている論文です。

PDF登録状況(公開日: 20200803)

TitleAuthorsAbstract論文公表日・翻訳日
# モデル解釈のための逆不整合学習

Adversarial Infidelity Learning for Model Interpretation ( http://arxiv.org/abs/2006.05379v3 )

ライセンス: Link先を確認
Jian Liang, Bing Bai, Yuren Cao, Kun Bai, Fei Wang(参考訳) モデル解釈はデータマイニングと知識発見に不可欠である。 これは本質的なモデルの動作メカニズムを理解し、モデルに望ましくない特性があるかどうかを確認するのに役立つ。 モデル解釈を実行する一般的な方法は、インスタンスワイドな特徴選択(IFS)であり、モデルが特定の出力を生成する方法を説明するために、データサンプルを表す各機能の重要性スコアを提供する。 本稿では,モデルの解釈,正当性,組合せ的ショートカット,モデル識別可能性,情報伝達に関する懸念を緩和するモデル非依存の有効効率直接(MEED)FSフレームワークを提案する。 また、選択した特徴を用いて与えられたモデルの出力を直接予測し、モデル解釈手法の一次評価指標として機能する。 特徴とは別に、より正確な情報に基づいて説明者を学ぶための追加入力として、与えられたモデルの出力を含む。 説明者を学習するために, 忠実性に加えて, 比較的重要でない特徴をスクリーニングすることにより, 説明学習を促進するための逆不忠実性学習(ail)機構を提案する。 理論的および実験的解析により、AIL機構は、選択した特徴と対象間の条件分布を学習するのに役立つことを示す。 さらに,本フレームワークは,効率的な解釈手法を適切な事前として統合することにより,温かいスタートを提供する。 提案手法の有効性と優位性を示すため, 定量的評価と人的評価により, 総合的な実証評価結果が得られた。 私たちのコードはhttps://github.com/langlrsw/meed.comで公開されている。

Model interpretation is essential in data mining and knowledge discovery. It can help understand the intrinsic model working mechanism and check if the model has undesired characteristics. A popular way of performing model interpretation is Instance-wise Feature Selection (IFS), which provides an importance score of each feature representing the data samples to explain how the model generates the specific output. In this paper, we propose a Model-agnostic Effective Efficient Direct (MEED) IFS framework for model interpretation, mitigating concerns about sanity, combinatorial shortcuts, model identifiability, and information transmission. Also, we focus on the following setting: using selected features to directly predict the output of the given model, which serves as a primary evaluation metric for model-interpretation methods. Apart from the features, we involve the output of the given model as an additional input to learn an explainer based on more accurate information. To learn the explainer, besides fidelity, we propose an Adversarial Infidelity Learning (AIL) mechanism to boost the explanation learning by screening relatively unimportant features. Through theoretical and experimental analysis, we show that our AIL mechanism can help learn the desired conditional distribution between selected features and targets. Moreover, we extend our framework by integrating efficient interpretation methods as proper priors to provide a warm start. Comprehensive empirical evaluation results are provided by quantitative metrics and human evaluation to demonstrate the effectiveness and superiority of our proposed method. Our code is publicly available online at https://github.com/langlrsw/MEED.
翻訳日:2022-11-23 14:00:11 公開日:2020-08-03
# OpenDVC:DVCビデオ圧縮法のオープンソース実装

OpenDVC: An Open Source Implementation of the DVC Video Compression Method ( http://arxiv.org/abs/2006.15862v2 )

ライセンス: Link先を確認
Ren Yang, Luc Van Gool, Radu Timofte(参考訳) 本稿では,Deep Video Compression(DVC)方式のオープンソースTensorflowの実装について紹介する。 DVCは、x265(LDP)の非常に高速な設定と、x265(LDP)と同等のPSNR性能(LDP)の非常に高速な設定よりも優れたMS-SSIM性能を実現する、エンドツーエンドで最適化された最初のビデオ圧縮手法である。 このレポートを書く時点では、いくつかの学習ビデオ圧縮手法がDVCよりも優れているが、現時点ではオープンソースコードを提供していない。 弊社のOpenDVCコードは、さらなる開発に有用なモデルを提供し、学習ビデオ圧縮に関する今後の研究を促進することを願っている。 また,PSNRに最適化されたオリジナルのDVCと異なり,PSNRに最適化された再実装だけでなく,MS-SSIMに最適化されたモデルOpenDVC(MS-SSIM)もリリースしている。 我々のOpenDVC(MS-SSIM)モデルは、過去にPSNR最適化DVCとしか比較できないMS-SSIM最適化手法に対して、より説得力のあるベースラインを提供する。 OpenDVCのソースコードと事前訓練されたモデルはhttps://github.com/RenYang-home/OpenDVCで公開されている。

We introduce an open source Tensorflow implementation of the Deep Video Compression (DVC) method in this technical report. DVC is the first end-to-end optimized learned video compression method, achieving better MS-SSIM performance than the Low-Delay P (LDP) very fast setting of x265 and comparable PSNR performance with x265 (LDP very fast). At the time of writing this report, several learned video compression methods are superior to DVC, but currently none of them provides open source codes. We hope that our OpenDVC codes are able to provide a useful model for further development, and facilitate future researches on learned video compression. Different from the original DVC, which is only optimized for PSNR, we release not only the PSNR-optimized re-implementation, denoted by OpenDVC (PSNR), but also the MS-SSIM-optimized model OpenDVC (MS-SSIM). Our OpenDVC (MS-SSIM) model provides a more convincing baseline for MS-SSIM optimized methods, which can only compare with the PSNR optimized DVC in the past. The OpenDVC source codes and pre-trained models are publicly released at https://github.com/RenYang-home/OpenDVC.
翻訳日:2022-11-15 15:06:29 公開日:2020-08-03
# SemEval-2020 Task 4: Commonsense Validation and Explanation

SemEval-2020 Task 4: Commonsense Validation and Explanation ( http://arxiv.org/abs/2007.00236v2 )

ライセンス: Link先を確認
Cunxiang Wang, Shuailong Liang, Yili Jin, Yilong Wang, Xiaodan Zhu and Yue Zhang(参考訳) 本稿では,3つのサブタスクを含むSemEval-2020 Task 4, Commonsense Validation and Explanation(ComVE)を提案する。 特に、私たちの最初のサブタスクでは、参加するシステムは、類似の単語の2つの自然言語ステートメントから選択する必要があります。 2番目のサブタスクは、与えられた文が意味をなさない3つのオプションから重要な理由を選択するようシステムに要求する。 第3のサブタスクでは、参加するシステムが理由を生成する必要があります。 最終的に39チームが3つのサブタスクのうちの少なくとも1つに参加した。 Subtask A と Subtask B では、上位のシステムのパフォーマンスは人間に近い。 しかしSubtask Cでは,システムと人的パフォーマンスの間には,いまだに大きなギャップがある。 タスクで使用されるデータセットはhttps://github.com/wangcunxiang/SemEval2020Task4-Commonsense-Validation-and-Explanation; リーダーボードはhttps://competitions.codalab.org/competitions/21080#results.comで見ることができる。

In this paper, we present SemEval-2020 Task 4, Commonsense Validation and Explanation (ComVE), which includes three subtasks, aiming to evaluate whether a system can distinguish a natural language statement that makes sense to humans from one that does not, and provide the reasons. Specifically, in our first subtask, the participating systems are required to choose from two natural language statements of similar wording the one that makes sense and the one does not. The second subtask additionally asks a system to select the key reason from three options why a given statement does not make sense. In the third subtask, a participating system needs to generate the reason. We finally attracted 39 teams participating at least one of the three subtasks. For Subtask A and Subtask B, the performances of top-ranked systems are close to that of humans. However, for Subtask C, there is still a relatively large gap between systems and human performance. The dataset used in our task can be found at https://github.com/wangcunxiang/SemEval2020- Task4-Commonsense-Validation-and-Explanation; The leaderboard can be found at https://competitions.codalab.org/competitions/21080#results.
翻訳日:2022-11-14 21:50:53 公開日:2020-08-03
# 自己一致による対数損失下でのミニマックスレグレトのタイトバウンド

Tight Bounds on Minimax Regret under Logarithmic Loss via Self-Concordance ( http://arxiv.org/abs/2007.01160v2 )

ライセンス: Link先を確認
Blair Bilodeau, Dylan J. Foster, Daniel M. Roy(参考訳) 対数損失の下での逐次確率割当の古典的な問題を考える一方で、任意の非パラメトリックな専門家のクラスと競合する。 我々は,対数損失の自己一致性を利用する新たなアプローチにより,ミニマックス後悔の厳密な境界を得る。 我々は、(逐次)計量エントロピー $\mathcal{O}(\gamma^{-p})$ at scale $\gamma$ を持つ任意の専門家クラスに対して、ミニマックス後悔は $\mathcal{O}(n^{p/(p+1)})$ であり、検討中のエキスパートクラスについて追加の仮定なしでは改善できないことを示す。 この手法の応用として,非パラメトリックリプシッツクラスの専門家に対するミニマックスの後悔を解消する。

We consider the classical problem of sequential probability assignment under logarithmic loss while competing against an arbitrary, potentially nonparametric class of experts. We obtain tight bounds on the minimax regret via a new approach that exploits the self-concordance property of the logarithmic loss. We show that for any expert class with (sequential) metric entropy $\mathcal{O}(\gamma^{-p})$ at scale $\gamma$, the minimax regret is $\mathcal{O}(n^{p/(p+1)})$, and that this rate cannot be improved without additional assumptions on the expert class under consideration. As an application of our techniques, we resolve the minimax regret for nonparametric Lipschitz classes of experts.
翻訳日:2022-11-14 13:26:03 公開日:2020-08-03
# オブジェクト検出、インスタンス分割、ポーズ推定のためのポイントセットアンカー

Point-Set Anchors for Object Detection, Instance Segmentation and Pose Estimation ( http://arxiv.org/abs/2007.02846v4 )

ライセンス: Link先を確認
Fangyun Wei, Xiao Sun, Hongyang Li, Jingdong Wang, Stephen Lin(参考訳) オブジェクト検出と人間のポーズ推定に対する最近のアプローチは、境界ボックスや人間のキーポイントをオブジェクトや人の中心から引き戻すことである。 この中心点回帰は単純かつ効率的であるが、中心点から抽出された画像の特徴は、物体の変形とスケール/オリエンテーションの変動により、遠方のキーポイントやボックス境界を予測するための限られた情報を含んでいる。 推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。 この点集合は、ポーズ推定のための訓練データにおけるモードのような、与えられたタスクの適切な初期化を反映して配置され、中心点よりも基底真理に近い位置にあり、回帰のためのより有益な特徴を提供する。 点集合の有用性は、そのスケール、アスペクト比、回転が目標とどの程度合っているかに依存するため、これらの変換をサンプリングして追加の点集合候補を生成するアンカーボックス技術を採用する。 我々は、この提案フレームワークであるpoint-set anchorsを、オブジェクト検出、インスタンスセグメンテーション、人間のポーズ推定に適用する。 以上の結果から,この汎用手法は各タスクの最先端手法と競合する性能を達成できることが示唆された。 コードは \url{https://github.com/FangyunWei/PointSetAnchor} で入手できる。

A recent approach for object detection and human pose estimation is to regress bounding boxes or human keypoints from a central point on the object or person. While this center-point regression is simple and efficient, we argue that the image features extracted at a central point contain limited information for predicting distant keypoints or bounding box boundaries, due to object deformation and scale/orientation variation. To facilitate inference, we propose to instead perform regression from a set of points placed at more advantageous positions. This point set is arranged to reflect a good initialization for the given task, such as modes in the training data for pose estimation, which lie closer to the ground truth than the central point and provide more informative features for regression. As the utility of a point set depends on how well its scale, aspect ratio and rotation matches the target, we adopt the anchor box technique of sampling these transformations to generate additional point-set candidates. We apply this proposed framework, called Point-Set Anchors, to object detection, instance segmentation, and human pose estimation. Our results show that this general-purpose approach can achieve performance competitive with state-of-the-art methods for each of these tasks. Code is available at \url{https://github.com/FangyunWei/PointSetAnchor}
翻訳日:2022-11-13 02:44:19 公開日:2020-08-03
# 有限サム凸関数の高速化DFOアルゴリズム

An Accelerated DFO Algorithm for Finite-sum Convex Functions ( http://arxiv.org/abs/2007.03311v2 )

ライセンス: Link先を確認
Yuwen Chen (1), Antonio Orvieto (1), Aurelien Lucchi (1) ((1) ETH Zurich)(参考訳) デリバティブフリー最適化(DFO)は、最近機械学習において多くの勢いを増し、勾配がアクセスできない問題に対してより高速な手法を設計するコミュニティへの関心が高まっている。 DFO文学における加速の概念にいくつかの注意が向けられているが、有限サム構造を持つ対象関数に対する既存の確率的アルゴリズムは、収束の加速率を達成するために理論的に示されていない。 このような設定で加速度を利用するアルゴリズムは不安定になりがちであり、収束が困難である。 本研究では,この目的の有限サム構造を利用して,有意な高速化を実現する分散還元DFOアルゴリズムを設計する。 滑らかな凸と強凸な有限サム目的関数の収束率を証明する。 最後に、いくつかのタスクやデータセットで理論結果を実証的に検証する。

Derivative-free optimization (DFO) has recently gained a lot of momentum in machine learning, spawning interest in the community to design faster methods for problems where gradients are not accessible. While some attention has been given to the concept of acceleration in the DFO literature, existing stochastic algorithms for objective functions with a finite-sum structure have not been shown theoretically to achieve an accelerated rate of convergence. Algorithms that use acceleration in such a setting are prone to instabilities, making it difficult to reach convergence. In this work, we exploit the finite-sum structure of the objective in order to design a variance-reduced DFO algorithm that provably yields acceleration. We prove rates of convergence for both smooth convex and strongly-convex finite-sum objective functions. Finally, we validate our theoretical results empirically on several tasks and datasets.
翻訳日:2022-11-12 20:36:45 公開日:2020-08-03
# デジタル差別を検証するための規範的アプローチ

A Normative approach to Attest Digital Discrimination ( http://arxiv.org/abs/2007.07092v2 )

ライセンス: Link先を確認
Natalia Criado, Xavier Ferrer, Jose M. Such(参考訳) デジタル差別は、ユーザーが機械学習(ml)システムによって、個人データに基づいて不公平、非倫理的、あるいは単に異なる方法で自動的に扱われる差別の一形態である。 デジタル差別の例としては、高利息ローンや低信用スコアを対象とする低所得地区や、オンラインマーケティングにおいて21%の過小評価を受けている女性などが挙げられる。 近年,デジタル差別につながる可能性のあるバイアスを検出する手法やツールが提案されている。 これらのツールは、多くの場合、技術的専門知識の実行と結果の解釈を必要とする。 技術的でないユーザがMLの恩恵を受けるためには、デジタル差別を表現するためのシンプルな概念と概念が必要である。 本稿では,デジタル差別につながる可能性のある異なる状況を表現するために,規範を抽象化として用いる。 特に、MLシステムの文脈における非差別規範を定式化し、MLシステムがこれらの規範に違反しているかどうかを確認するアルゴリズムを提案する。

Digital discrimination is a form of discrimination whereby users are automatically treated unfairly, unethically or just differently based on their personal data by a machine learning (ML) system. Examples of digital discrimination include low-income neighbourhood's targeted with high-interest loans or low credit scores, and women being undervalued by 21% in online marketing. Recently, different techniques and tools have been proposed to detect biases that may lead to digital discrimination. These tools often require technical expertise to be executed and for their results to be interpreted. To allow non-technical users to benefit from ML, simpler notions and concepts to represent and reason about digital discrimination are needed. In this paper, we use norms as an abstraction to represent different situations that may lead to digital discrimination. In particular, we formalise non-discrimination norms in the context of ML systems and propose an algorithm to check whether ML systems violate these norms.
翻訳日:2022-11-10 15:20:33 公開日:2020-08-03
# PP-YOLO:オブジェクト検出器の効率的かつ効率的な実装

PP-YOLO: An Effective and Efficient Implementation of Object Detector ( http://arxiv.org/abs/2007.12099v3 )

ライセンス: Link先を確認
Xiang Long, Kaipeng Deng, Guanzhong Wang, Yang Zhang, Qingqing Dang, Yuan Gao, Hui Shen, Jianguo Ren, Shumin Han, Errui Ding, Shilei Wen(参考訳) 物体検出はコンピュータビジョンにおいて最も重要な領域の1つであり、様々な実用的なシナリオにおいて重要な役割を果たす。 ハードウェアの限界のため、実際に検出器の慣性速度を保証するために精度を犠牲にすることがしばしば必要となる。 したがって、対象検出器の有効性と効率のバランスを考慮する必要がある。 本論文の目的は,新しい検出モデルを提案するのではなく,実際のアプリケーションシナリオに直接適用可能な,比較的バランスの取れた物体検出器の実装である。 YOLOv3が実際に広く利用されていることを踏まえ, YOLOv3に基づく新しい物体検出器を開発した。 我々は,モデルパラメータとフロップ数をほとんど増やさない様々な既存手法を組み合わせることで,速度がほぼ変わらないことを保証しつつ,検出器の精度を可能な限り向上させることを目標としている。 本論文のすべての実験はPaddlePaddleに基づいて行われるので、PP-YOLOと呼ぶ。 複数のトリックを組み合わせることで、PP-YOLOは有効性(45.2% mAP)と効率性(72.9 FPS)のバランスが良くなり、EfficientDetやYOLOv4といった既存の最先端検出器を上回る。

Object detection is one of the most important areas in computer vision, which plays a key role in various practical scenarios. Due to limitation of hardware, it is often necessary to sacrifice accuracy to ensure the infer speed of the detector in practice. Therefore, the balance between effectiveness and efficiency of object detector must be considered. The goal of this paper is to implement an object detector with relatively balanced effectiveness and efficiency that can be directly applied in actual application scenarios, rather than propose a novel detection model. Considering that YOLOv3 has been widely used in practice, we develop a new object detector based on YOLOv3. We mainly try to combine various existing tricks that almost not increase the number of model parameters and FLOPs, to achieve the goal of improving the accuracy of detector as much as possible while ensuring that the speed is almost unchanged. Since all experiments in this paper are conducted based on PaddlePaddle, we call it PP-YOLO. By combining multiple tricks, PP-YOLO can achieve a better balance between effectiveness (45.2% mAP) and efficiency (72.9 FPS), surpassing the existing state-of-the-art detectors such as EfficientDet and YOLOv4.Source code is at https://github.com/PaddlePaddle/PaddleDetection.
翻訳日:2022-11-07 12:49:30 公開日:2020-08-03
# Orpheus: エッジ推論のデプロイと評価を簡単にするための新しいディープラーニングフレームワーク

Orpheus: A New Deep Learning Framework for Easy Deployment and Evaluation of Edge Inference ( http://arxiv.org/abs/2007.13648v2 )

ライセンス: Link先を確認
Perry Gibson, Jos\'e Cano(参考訳) エッジデバイス間でのディープラーニング推論の最適化と、推論時間、メモリフットプリント、消費電力といった最適化ターゲットは、ニューラルネットワークの普及による重要な課題である。 現在、プロダクションディープラーニングフレームワークは、機械学習エンジニアやシステム研究者を支援するために有用な抽象化を提供する。 しかし、それと引き換えに、互換性の問題(特に制約のあるプラットフォームでは)、アクセス不能なコードの複雑さ、あるいはシステムの観点からの研究を制限する設計選択に苦しむ可能性がある。 提案するOrpheusは,推論最適化の容易なプロトタイピング,展開,評価を行うための新しいディープラーニングフレームワークである。 Orpheusは小さなコードベース、最小限の依存関係、他のサードパーティシステムを統合するためのシンプルなプロセスを備えている。 予備評価結果を示す。

Optimising deep learning inference across edge devices and optimisation targets such as inference time, memory footprint and power consumption is a key challenge due to the ubiquity of neural networks. Today, production deep learning frameworks provide useful abstractions to aid machine learning engineers and systems researchers. However, in exchange they can suffer from compatibility challenges (especially on constrained platforms), inaccessible code complexity, or design choices that otherwise limit research from a systems perspective. This paper presents Orpheus, a new deep learning framework for easy prototyping, deployment and evaluation of inference optimisations. Orpheus features a small codebase, minimal dependencies, and a simple process for integrating other third party systems. We present some preliminary evaluation results.
翻訳日:2022-11-07 05:54:32 公開日:2020-08-03
# 回帰型音声強調のための深層ハイブリッドテンソル-ベクトルネットワークアーキテクチャの検討

Exploring Deep Hybrid Tensor-to-Vector Network Architectures for Regression Based Speech Enhancement ( http://arxiv.org/abs/2007.13024v2 )

ライセンス: Link先を確認
Jun Qi, Hu Hu, Yannan Wang, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Chin-Hui Lee(参考訳) 本稿では,複数の深部テンソル-ベクトル回帰モデルを用いて,モデルパラメータ数と拡張音声品質のトレードオフについて検討する。 ハイブリッドアーキテクチャ、すなわちcnn-ttは、モデルパラメータサイズを小さくして優れた品質を維持することができる。 cnn-ttは、音声品質を改善するための特徴抽出のための下部の複数の畳み込み層と、モデルパラメータを減らすために上部のテンソルトレイン(tt)出力層から構成されている。 まず,畳み込みニューラルネットワーク(cnn)に基づくベクトル対ベクトル回帰モデルの一般化力に新たな上限を導出する。 そこで, 単チャンネル音声強調において, CNNはモデルサイズの増大を犠牲にしてDNNより優れていることを示すために, エジンバラ雑音音声コーパスの実験的証拠を提供する。 さらに、CNN-TTは、CNNモデルのパラメータの32倍しか利用せず、CNNよりも若干優れています。 また、cnn-ttパラメータの数をcnnモデルサイズの44\%に増やせば、さらなる性能向上を図ることができる。 最後に,WSJ0コーパスを模擬したマルチチャネル音声強調実験により,提案したハイブリッドCNN-TTアーキテクチャは,DNNモデルとCNNモデルより優れた結果が得られることを示した。

This paper investigates different trade-offs between the number of model parameters and enhanced speech qualities by employing several deep tensor-to-vector regression models for speech enhancement. We find that a hybrid architecture, namely CNN-TT, is capable of maintaining a good quality performance with a reduced model parameter size. CNN-TT is composed of several convolutional layers at the bottom for feature extraction to improve speech quality and a tensor-train (TT) output layer on the top to reduce model parameters. We first derive a new upper bound on the generalization power of the convolutional neural network (CNN) based vector-to-vector regression models. Then, we provide experimental evidence on the Edinburgh noisy speech corpus to demonstrate that, in single-channel speech enhancement, CNN outperforms DNN at the expense of a small increment of model sizes. Besides, CNN-TT slightly outperforms the CNN counterpart by utilizing only 32\% of the CNN model parameters. Besides, further performance improvement can be attained if the number of CNN-TT parameters is increased to 44\% of the CNN model size. Finally, our experiments of multi-channel speech enhancement on a simulated noisy WSJ0 corpus demonstrate that our proposed hybrid CNN-TT architecture achieves better results than both DNN and CNN models in terms of better-enhanced speech qualities and smaller parameter sizes.
翻訳日:2022-11-07 00:35:15 公開日:2020-08-03
# 3次元骨格に基づく行動認識のためのポアンカー{e}形状の混合次元

Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action Recognition ( http://arxiv.org/abs/2007.15678v2 )

ライセンス: Link先を確認
Wei Peng and Jingang Shi and Zhaoqiang Xia and Guoying Zhao(参考訳) グラフ畳み込みネットワーク(GCN)は、人間の行動認識における骨格データなどの不規則データをモデル化する強力な能力をすでに示しており、グラフの異なる部分に存在するノードに対して、豊富な構造情報を融合するエキサイティングな新しい方法を提供する。 人間の行動認識において、現在の研究は、基礎となるセマンティックスケルトン接続をよりよく捕捉し、パフォーマンスを向上させるために、動的グラフ生成機構を導入している。 本稿では,基礎となる接続を直交的に探究する方法を提案する。 高価な動的グラフ生成パラダイムを導入する代わりに、私たちはリーマン多様体上のより効率的なgcnを構築します。 具体的には,Poincar\'e幾何を用いて定義された新しい時空間GCN(Spatial-temporal GCN)アーキテクチャを提案する。 リーマン空間における最適射影次元をさらに探求するために、多様体上の異なる次元を混合し、各ST-GCN層の次元を探索する効率的な方法を提供する。 最終結果から,NTU RGB+DとNTU RGB+D 120の2つの大規模3Dデータセットに対して,本手法の評価を行った。 その結果, モデルの有効性を実証したGCN法と比較すると, モデルサイズを40倍に抑えれば, 任意の評価指標よりも優れた性能が得られることがわかった。

Graph Convolutional Networks (GCNs) have already demonstrated their powerful ability to model the irregular data, e.g., skeletal data in human action recognition, providing an exciting new way to fuse rich structural information for nodes residing in different parts of a graph. In human action recognition, current works introduce a dynamic graph generation mechanism to better capture the underlying semantic skeleton connections and thus improves the performance. In this paper, we provide an orthogonal way to explore the underlying connections. Instead of introducing an expensive dynamic graph generation paradigm, we build a more efficient GCN on a Riemann manifold, which we think is a more suitable space to model the graph data, to make the extracted representations fit the embedding matrix. Specifically, we present a novel spatial-temporal GCN (ST-GCN) architecture which is defined via the Poincar\'e geometry such that it is able to better model the latent anatomy of the structure data. To further explore the optimal projection dimension in the Riemann space, we mix different dimensions on the manifold and provide an efficient way to explore the dimension for each ST-GCN layer. With the final resulted architecture, we evaluate our method on two current largest scale 3D datasets, i.e., NTU RGB+D and NTU RGB+D 120. The comparison results show that the model could achieve a superior performance under any given evaluation metrics with only 40\% model size when compared with the previous best GCN method, which proves the effectiveness of our model.
翻訳日:2022-11-05 14:36:02 公開日:2020-08-03
# 合成データによるピクセル単位の群衆理解

Pixel-wise Crowd Understanding via Synthetic Data ( http://arxiv.org/abs/2007.16032v2 )

ライセンス: Link先を確認
Qi Wang, Junyu Gao, Wei Lin, Yuan Yuan(参考訳) コンピュータビジョン技術による群衆分析はビデオ監視の分野で重要なトピックであり、群衆の監視、公共の安全、宇宙設計など幅広い応用がある。 画像や静止画の細かな結果が、他の分析タスクよりも優れているため、群衆分析の最も基本的なタスクである。 残念ながら、ピクセルレベルの理解には大量のラベル付きトレーニングデータが必要です。 注釈付けは高価な作業であり、現在の群衆データセットが小さくなっている。 その結果、ほとんどのアルゴリズムは過度に適合し、様々な程度に変化する。 本稿では, 群集数とセグメンテーションを画素単位の群集理解の例として捉え, データと方法論という2つの側面からこれらの問題を治療しようと試みる。 まず,コンピュータゲーム『グランド・セフト・オートV』で合成・ラベル付けされた群衆シーンを生成する無料のデータ収集装置とラベル作成装置を開発し,その上で,大規模かつ多種多様な群衆データセットの構築を行う。 次に, 合成データを利用して, 群集理解性能を向上させるための2つの簡単な手法を提案する。 具体的に言うと 1) 観衆の理解: 合成データに基づいて群集分析モデルを事前訓練し, 実データとラベルを用いて微調整することにより, 実世界において, モデルの性能が向上する。 2) ドメイン適応によるクラウド理解: 合成データをフォトリアリスティックなイメージに変換し、翻訳データとラベルに基づいてモデルをトレーニングする。 その結果、訓練されたモデルは実際の群衆シーンでうまく機能する。

Crowd analysis via computer vision techniques is an important topic in the field of video surveillance, which has wide-spread applications including crowd monitoring, public safety, space design and so on. Pixel-wise crowd understanding is the most fundamental task in crowd analysis because of its finer results for video sequences or still images than other analysis tasks. Unfortunately, pixel-level understanding needs a large amount of labeled training data. Annotating them is an expensive work, which causes that current crowd datasets are small. As a result, most algorithms suffer from over-fitting to varying degrees. In this paper, take crowd counting and segmentation as examples from the pixel-wise crowd understanding, we attempt to remedy these problems from two aspects, namely data and methodology. Firstly, we develop a free data collector and labeler to generate synthetic and labeled crowd scenes in a computer game, Grand Theft Auto V. Then we use it to construct a large-scale, diverse synthetic crowd dataset, which is named as "GCC Dataset". Secondly, we propose two simple methods to improve the performance of crowd understanding via exploiting the synthetic data. To be specific, 1) supervised crowd understanding: pre-train a crowd analysis model on the synthetic data, then fine-tune it using the real data and labels, which makes the model perform better on the real world; 2) crowd understanding via domain adaptation: translate the synthetic data to photo-realistic images, then train the model on translated data and labels. As a result, the trained model works well in real crowd scenes.
翻訳日:2022-11-05 14:35:36 公開日:2020-08-03
# Photon:ロバストなクロスドメインテキスト-SQLシステム

Photon: A Robust Cross-Domain Text-to-SQL System ( http://arxiv.org/abs/2007.15280v2 )

ライセンス: Link先を確認
Jichuan Zeng, Xi Victoria Lin, Caiming Xiong, Richard Socher, Michael R. Lyu, Irwin King, Steven C.H. Hoi(参考訳) データベースへの自然言語インタフェース(NLIDB)は、リレーショナルデータへのエンドユーザーアクセスを民主化する。 自然言語通信とプログラミングの根本的な違いのため、エンドユーザはシステムに不明瞭な質問をしたり、基礎となるクエリ言語のセマンティックスコープから外れたりすることが一般的である。 我々は、sqlマッピングがすぐに決定できない自然言語入力にフラグを付けることができるロバストでモジュラーなクロスドメインnlidbである photon を提案する。 Photonは強力なニューラルネットワークセマンティックパーサ(Spider devベンチマークにおける63.2\%の構造精度)、ヒューマン・イン・ザ・ループの質問訂正器、SQLエグゼキュータ、レスポンスジェネレータで構成される。 質問訂正装置は、入力された質問の混乱範囲を検出し、翻訳可能な入力がユーザによって与えられるか、最大イテレーション数が実行されるまでリフレージングを推奨する識別的ニューラルシーケンスエディタである。 シミュレーションデータを用いた実験により,提案手法は,翻訳不能なユーザ入力に対するテキスト-SQLシステムのロバスト性を効果的に向上することを示した。 私たちのシステムのライブデモはhttp://naturalsql.com.comで公開されている。

Natural language interfaces to databases (NLIDB) democratize end user access to relational data. Due to fundamental differences between natural language communication and programming, it is common for end users to issue questions that are ambiguous to the system or fall outside the semantic scope of its underlying query language. We present Photon, a robust, modular, cross-domain NLIDB that can flag natural language input to which a SQL mapping cannot be immediately determined. Photon consists of a strong neural semantic parser (63.2\% structure accuracy on the Spider dev benchmark), a human-in-the-loop question corrector, a SQL executor and a response generator. The question corrector is a discriminative neural sequence editor which detects confusion span(s) in the input question and suggests rephrasing until a translatable input is given by the user or a maximum number of iterations are conducted. Experiments on simulated data show that the proposed method effectively improves the robustness of text-to-SQL system against untranslatable user input. The live demo of our system is available at http://naturalsql.com.
翻訳日:2022-11-05 13:13:00 公開日:2020-08-03
# Stackelberg学習を用いた移動ロボットの協調制御

Cooperative Control of Mobile Robots with Stackelberg Learning ( http://arxiv.org/abs/2008.00679v1 )

ライセンス: Link先を確認
Joewie J. Koh, Guohui Ding, Christoffer Heckman, Lijun Chen, Alessandro Roncone(参考訳) マルチロボット協調では、エージェントは、能力と個々の目的の非対称性から生じる行動固有の選好を無視しずに、共通の目標に一致した意思決定を行う必要がある。 この目的を達成するために,SLiCC: Stackelberg Learning in Cooperative Controlを提案する。 SLiCCは、この問題をStackelberg bimatrixゲームからなる部分的に観測可能な確率ゲームとしてモデル化し、深い強化学習を用いてこれらのゲームに関連するペイオフ行列を得る。 適切な協調行動は、導出されたスタックルベルク平衡で選択される。 ロボット協調型物体輸送問題を用いて、集中型マルチエージェントQ-ラーニングに対するSLiCCの性能評価を行い、SLiCCがより優れたコンビネーションユーティリティを実現することを示す。

Multi-robot cooperation requires agents to make decisions that are consistent with the shared goal without disregarding action-specific preferences that might arise from asymmetry in capabilities and individual objectives. To accomplish this goal, we propose a method named SLiCC: Stackelberg Learning in Cooperative Control. SLiCC models the problem as a partially observable stochastic game composed of Stackelberg bimatrix games, and uses deep reinforcement learning to obtain the payoff matrices associated with these games. Appropriate cooperative actions are then selected with the derived Stackelberg equilibria. Using a bi-robot cooperative object transportation problem, we validate the performance of SLiCC against centralized multi-agent Q-learning and demonstrate that SLiCC achieves better combined utility.
翻訳日:2022-11-03 07:24:20 公開日:2020-08-03
# Dhrupad Vocal Bandish Audioの構造と自動セグメンテーション

Structure and Automatic Segmentation of Dhrupad Vocal Bandish Audio ( http://arxiv.org/abs/2008.00756v1 )

ライセンス: Link先を確認
Rohit M. A., Preeti Rao(参考訳) Dhrupadボーカルコンサートは、ボーカルとパーカッションとの相互作用を含むリズミカルな活動が増大する即興エピソードに介在する構成部を含む。 曲の土台となる韻律テンポに関連して、リズム密度の変化を追跡することで、コンサート構造における即興セクションの検出とラベリングが容易になる。 この研究は、バンディッシュ(作曲)演奏の時間とともに変化する音楽的に関係するリズム密度を自動的に検出することに関するものである。 Dhrupadバンドのコンサートセクションの注釈付きデータセットが提示される。 局所的なテンポ関係を検知し,時間的スムースに追従するCNNシステムについて検討する。 また,発声者の個人表面密度とパーカッションを検出するための前処理として,音源分離を用いる。 これにより、2人の演奏者のリズミカル相互作用の変化を捉えることで、演奏セクションの完全な音楽的記述が得られる。

A Dhrupad vocal concert comprises a composition section that is interspersed with improvised episodes of increased rhythmic activity involving the interaction between the vocals and the percussion. Tracking the changing rhythmic density, in relation to the underlying metric tempo of the piece, thus facilitates the detection and labeling of the improvised sections in the concert structure. This work concerns the automatic detection of the musically relevant rhythmic densities as they change in time across the bandish (composition) performance. An annotated dataset of Dhrupad bandish concert sections is presented. We investigate a CNN-based system, trained to detect local tempo relationships, and follow it with temporal smoothing. We also employ audio source separation as a pre-processing step to the detection of the individual surface densities of the vocals and the percussion. This helps us obtain the complete musical description of the concert sections in terms of capturing the changing rhythmic interaction of the two performers.
翻訳日:2022-11-03 07:24:06 公開日:2020-08-03
# モノーラル歌声分離のためのマルチレゾリューションプールcnnの進化

Evolving Multi-Resolution Pooling CNN for Monaural Singing Voice Separation ( http://arxiv.org/abs/2008.00816v1 )

ライセンス: Link先を確認
Weitao Yuan, Bofei Dong, Shengbei Wang, Masashi Unoki, and Wenwu Wang(参考訳) モナウラル歌声分離(MSVS)は難しい課題であり、何十年も研究されてきた。 ディープニューラルネットワーク(DNN)はMSVSの最先端の手法である。 しかし、既存のDNNは手動で設計されることが多い。 加えて、ネットワークアーキテクチャは通常事前定義され、トレーニングデータに適合しない。 これらの問題に対処するため,MSVS用DNNの構造設計にニューラルアーキテクチャサーチ(NAS)手法を導入する。 具体的には,マルチレゾリューションプーリングcnn(mrp-cnn)という,マルチレゾリューションプーリング演算子を用いてマルチレゾリューション機能を抽出したmsvsのための,新しいマルチレゾリューション畳み込みニューラルネットワーク(cnn)フレームワークを提案する。 NASに基づいて、遺伝的アルゴリズムを用いて有効なMPP-CNN構造を自動探索し、分離性能のみを考慮した単目的、分離性能とモデル複雑さの両方を考慮した多目的という観点から最適化し、進化するMRP-CNN(Evolving MRP-CNN)を開発する。 多目的E-MRP-CNNはパレート最適化ソリューションのセットを提供し、それぞれが分離性能とモデル複雑性のトレードオフを提供する。 MIR-1KとDSD100データセットの定量的および定性的な評価は、提案フレームワークのいくつかの最近のベースラインに対する利点を示すために用いられる。

Monaural Singing Voice Separation (MSVS) is a challenging task and has been studied for decades. Deep neural networks (DNNs) are the current state-of-the-art methods for MSVS. However, the existing DNNs are often designed manually, which is time-consuming and error-prone. In addition, the network architectures are usually pre-defined, and not adapted to the training data. To address these issues, we introduce a Neural Architecture Search (NAS) method to the structure design of DNNs for MSVS. Specifically, we propose a new multi-resolution Convolutional Neural Network (CNN) framework for MSVS namely Multi-Resolution Pooling CNN (MRP-CNN), which uses various-size pooling operators to extract multi-resolution features. Based on the NAS, we then develop an evolving framework namely Evolving MRP-CNN (E-MRP-CNN), by automatically searching the effective MRP-CNN structures using genetic algorithms, optimized in terms of a single-objective considering only separation performance, or multi-objective considering both the separation performance and the model complexity. The multi-objective E-MRP-CNN gives a set of Pareto-optimal solutions, each providing a trade-off between separation performance and model complexity. Quantitative and qualitative evaluations on the MIR-1K and DSD100 datasets are used to demonstrate the advantages of the proposed framework over several recent baselines.
翻訳日:2022-11-03 07:23:51 公開日:2020-08-03
# 無線フェデレーションエッジ学習のためのクラスタベース協調型空対空デジタルアグリゲーション

Cluster-Based Cooperative Digital Over-the-Air Aggregation for Wireless Federated Edge Learning ( http://arxiv.org/abs/2008.00994v1 )

ライセンス: Link先を確認
Ruichen Jiang, Sheng Zhou(参考訳) 本稿では,エアコン(AirComp)を用いた無線エッジにおけるフェデレーション学習システムについて検討する。 このようなシステムでは、ユーザはメッセージをマルチアクセスチャネル上で同時に送信し、高速なモデル集約を実現する。 近年,デジタル変調に基づくAirComp方式が提案され,ユーザにおける1ビット勾配量子化と切り離されたチャネルインバージョンと,融合センター(FC)における多数投票に基づくデコーダが提案されている。 本稿では,ユーザが位相補正を行い,全電力で送信する送信機の要求を緩和する改良されたディジタルAirComp方式を提案する。 FCにおける復号故障確率を特徴付けるために,ユーザの有効参加率と解釈できる正規化検出信号-雑音比(SNR)を導入する。 無線フェーディングを緩和するため,さらにクラスタベースのシステムを提案し,正規化検出SNRに基づくリレー選択方式を設計する。 各クラスタ内のローカルデータ融合とリレー選択により,提案手法は空間的多様性を完全に活用し,有効投票数を増やし,モデル収束を加速することができる。

In this paper, we study a federated learning system at the wireless edge that uses over-the-air computation (AirComp). In such a system, users transmit their messages over a multi-access channel concurrently to achieve fast model aggregation. Recently, an AirComp scheme based on digital modulation has been proposed featuring one-bit gradient quantization and truncated channel inversion at users and a majority-voting based decoder at the fusion center (FC). We propose an improved digital AirComp scheme to relax its requirements on the transmitters, where users perform phase correction and transmit with full power. To characterize the decoding failure probability at the FC, we introduce the normalized detection signal-to-noise ratio (SNR), which can be interpreted as the effective participation rate of users. To mitigate wireless fading, we further propose a cluster-based system and design the relay selection scheme based on the normalized detection SNR. By local data fusion within each cluster and relay selection, our scheme can fully exploit spatial diversity to increase the effective number of voting users and accelerate model convergence.
翻訳日:2022-11-03 07:23:26 公開日:2020-08-03
# 話者認識のための自己注意符号化とプーリング

Self-attention encoding and pooling for speaker recognition ( http://arxiv.org/abs/2008.01077v1 )

ライセンス: Link先を確認
Pooyan Safari, Miquel India and Javier Hernando(参考訳) モバイルデバイスの計算能力は、ストレージサイズ、処理量、メモリおよびエネルギー消費の点でエンドユーザーアプリケーションを制限する。 これらの限界は、より効率的な深層モデルの設計を研究者に動機付ける。 一方,Transformerアーキテクチャに基づく自己注意ネットワークは,高い並列化能力と,さまざまな自然言語処理(NLP)アプリケーションの性能向上により,目覚ましい関心を集めている。 トランスフォーマーにインスパイアされ,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己注意符号化(SAEP)機構を提案する。 SAEPは、話者のベクトル表現を作成するために、自己意図と位置指向のフィードフォワードネットワークにのみ依存する同一ブロックのスタックである。 このアプローチは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴をエンコードする。 このアプローチをVoxCeleb1と2のデータセットで評価した。 提案したアーキテクチャは、ベースラインのxベクターよりも優れており、モデルサイズの大幅な削減とともに、畳み込みに基づく他のベンチマークと競合する性能を示す。 ResNet-34、ResNet-50、x-vectorと比較すると、94%、95%、および73%のパラメータが採用されている。 提案手法は話者発話から時間不変な特徴を抽出するのに有効であることを示す。

The computing power of mobile devices limits the end-user applications in terms of storage size, processing, memory and energy consumption. These limitations motivate researchers for the design of more efficient deep models. On the other hand, self-attention networks based on Transformer architecture have attracted remarkable interests due to their high parallelization capabilities and strong performance on a variety of Natural Language Processing (NLP) applications. Inspired by the Transformer, we propose a tandem Self-Attention Encoding and Pooling (SAEP) mechanism to obtain a discriminative speaker embedding given non-fixed length speech utterances. SAEP is a stack of identical blocks solely relied on self-attention and position-wise feed-forward networks to create vector representation of speakers. This approach encodes short-term speaker spectral features into speaker embeddings to be used in text-independent speaker verification. We have evaluated this approach on both VoxCeleb1 & 2 datasets. The proposed architecture is able to outperform the baseline x-vector, and shows competitive performance to some other benchmarks based on convolutions, with a significant reduction in model size. It employs 94%, 95%, and 73% less parameters compared to ResNet-34, ResNet-50, and x-vector, respectively. This indicates that the proposed fully attention based architecture is more efficient in extracting time-invariant features from speaker utterances.
翻訳日:2022-11-03 07:23:04 公開日:2020-08-03
# InSARパッチの合成のためのジェネレーティブ・アドバイサル・ネットワーク

Generative Adversarial Networks for Synthesizing InSAR Patches ( http://arxiv.org/abs/2008.01184v1 )

ライセンス: Link先を確認
Philipp Sibler, Yuanyuan Wang, Stefan Auer, Mohsin Ali, Xiao Xiang Zhu(参考訳) GAN(Generative Adversarial Networks)は、光学的および実数値的なSAR強度画像間の画像翻訳タスクで一定の成功を収めている。 応用例としては、人工パッチ生成と自動SAR-光シーンマッチングによるSARシーンの解釈性の支援がある。 人工的複素数値InSAR画像スタックの合成は、知覚的品質に加えて、位相ノイズや位相コヒーレンスといったより厳密な品質指標を求める。 本稿では、生成CNN構造の信号処理モデルを提供し、それらの品質指標に影響を与える影響を記述し、一般的なディープラーニングフレームワークに基づく複素数値データのマッピングスキームを提案する。

Generative Adversarial Networks (GANs) have been employed with certain success for image translation tasks between optical and real-valued SAR intensity imagery. Applications include aiding interpretability of SAR scenes with their optical counterparts by artificial patch generation and automatic SAR-optical scene matching. The synthesis of artificial complex-valued InSAR image stacks asks for, besides good perceptual quality, more stringent quality metrics like phase noise and phase coherence. This paper provides a signal processing model of generative CNN structures, describes effects influencing those quality metrics and presents a mapping scheme of complex-valued data to given CNN structures based on popular Deep Learning frameworks.
翻訳日:2022-11-03 07:22:46 公開日:2020-08-03
# ディープラーニングニューラルネットワークの逆アタックのためのハードウェアアクセラレータ

Hardware Accelerator for Adversarial Attacks on Deep Learning Neural Networks ( http://arxiv.org/abs/2008.01219v1 )

ライセンス: Link先を確認
Haoqiang Guo, Lu Peng, Jian Zhang, Fang Qi, Lide Duan(参考訳) 近年の研究では、深層学習ニューラルネットワーク(dnn)は、人間の視覚システムでは知覚できないが、dnnモデルを騙し、間違ったアウトプットにつながる微妙な摂動に弱いことが示されている。 異なる状況下で堅牢な物理的摂動を生成するために,逆攻撃ネットワークアルゴリズムのクラスが提案されている。 これらのアルゴリズムは、将来の防衛ネットワークを訓練するための道を提供することによって、セキュアな深層学習を前進させる最初の試みである。 本稿では,memristor クロスバーアレイを用いた対向攻撃のためのハードウェアアクセラレータを提案する。 この設計により,視覚障害者摂動システムのスループットが大幅に向上し,将来の深層学習システムのロバスト性と安全性がさらに向上する。 アルゴリズムの一意性に基づき, スループット, エネルギー効率, 計算効率を向上させるために, 逆攻撃加速器 (a^3$) の4つの実装を提案する。

Recent studies identify that Deep learning Neural Networks (DNNs) are vulnerable to subtle perturbations, which are not perceptible to human visual system but can fool the DNN models and lead to wrong outputs. A class of adversarial attack network algorithms has been proposed to generate robust physical perturbations under different circumstances. These algorithms are the first efforts to move forward secure deep learning by providing an avenue to train future defense networks, however, the intrinsic complexity of them prevents their broader usage. In this paper, we propose the first hardware accelerator for adversarial attacks based on memristor crossbar arrays. Our design significantly improves the throughput of a visual adversarial perturbation system, which can further improve the robustness and security of future deep learning systems. Based on the algorithm uniqueness, we propose four implementations for the adversarial attack accelerator ($A^3$) to improve the throughput, energy efficiency, and computational efficiency.
翻訳日:2022-11-03 07:22:34 公開日:2020-08-03
# お互いを知る:人間とロボットのコラボレーションのためのインテント、能力、信頼の校正

Getting to Know One Another: Calibrating Intent, Capabilities and Trust for Human-Robot Collaboration ( http://arxiv.org/abs/2008.00699v1 )

ライセンス: Link先を確認
Joshua Lee, Jeffrey Fong, Bing Cai Kok, Harold Soh(参考訳) 共通の経験から、お互いをよく知っているエージェントが一緒に働くことができることが示される。 本研究では,ロボット協調作業における意図と能力の校正の問題に対処する。 特に、ロボットが直接意思を伝えることができない人間を助けようとしているシナリオに焦点を当てる。 さらに、どちらのエージェントも互いに未知の異なる能力を持っている可能性がある。 我々は,決定論的アプローチを採用し,関連するオンラインソルバを用いて,この設定をモデル化するためのticc-pomdpを提案する。 実験により、シミュレーションと実世界の被験者による研究の両方において、我々のアプローチがより良いチームパフォーマンスをもたらすことが示された。

Common experience suggests that agents who know each other well are better able to work together. In this work, we address the problem of calibrating intention and capabilities in human-robot collaboration. In particular, we focus on scenarios where the robot is attempting to assist a human who is unable to directly communicate her intent. Moreover, both agents may have differing capabilities that are unknown to one another. We adopt a decision-theoretic approach and propose the TICC-POMDP for modeling this setting, with an associated online solver. Experiments show our approach leads to better team performance both in simulation and in a real-world study with human subjects.
翻訳日:2022-11-03 07:18:33 公開日:2020-08-03
# リンク計測による交通行列推定のための学習手法

Learning Based Methods for Traffic Matrix Estimation from Link Measurements ( http://arxiv.org/abs/2008.00905v1 )

ライセンス: Link先を確認
Shenghe Xu, Murali Kodialam, T.V. Lakshman and Shivendra Panwar(参考訳) ネットワークトラフィック需要行列は、キャパシティ計画、異常検出、その他多くのネットワーク管理関連タスクにとって重要な入力である。 需要行列はしばしばリンク負荷測定から計算される。 トラヒックマトリックス(tm)推定問題は、リンク負荷測定値からトラヒック需要行列を決定することである。 リンク負荷とリンク負荷を生成するトラヒック行列の関係は、未決定の線形システムとしてモデル化でき、複数の実現可能な解を持つ。 したがって,交通需要パターンの事前知識は,潜在的に実現可能な需要行列を見つけるために利用する必要がある。 本稿では,需要規模分布に関する情報が得られたTM推定問題について考察する。 この情報は、過去に測定されたいくつかの交通行列の分析やオペレーターの経験から得られる。 我々は,この問題に対する反復射影に基づくアルゴリズムを開発した。 過去の交通行列が多数アクセス可能であれば,GAN(Generative Adversarial Network)に基づく問題解決手法を提案する。 この2つの手法の強みを比較し,過去の様々なデータを用いた複数のネットワークの性能評価を行った。

Network traffic demand matrix is a critical input for capacity planning, anomaly detection and many other network management related tasks. The demand matrix is often computed from link load measurements. The traffic matrix (TM) estimation problem is the determination of the traffic demand matrix from link load measurements. The relationship between the link loads and the traffic matrix that generated the link load can be modeled as an under-determined linear system and has multiple feasible solutions. Therefore, prior knowledge of the traffic demand pattern has to be used in order to find a potentially feasible demand matrix. In this paper, we consider the TM estimation problem where we have information about the distribution of the demand sizes. This information can be obtained from the analysis of a few traffic matrices measured in the past or from operator experience. We develop an iterative projection based algorithm for the solution of this problem. If large number of past traffic matrices are accessible, we propose a Generative Adversarial Network (GAN) based approach for solving the problem. We compare the strengths of the two approaches and evaluate their performance for several networks using varying amounts of past data.
翻訳日:2022-11-03 07:18:21 公開日:2020-08-03
# 楽器アクティベーションを考慮した音源分離のためのマルチタスク学習

Multitask learning for instrument activation aware music source separation ( http://arxiv.org/abs/2008.00616v1 )

ライセンス: Link先を確認
Yun-Ning Hung and Alexander Lerch(参考訳) 音楽ソースの分離は音楽情報検索のコアタスクであり、ここ数年で劇的に改善されてきた。 しかし、既存のシステムのほとんどは、ソース分離自体の問題にのみ焦点を合わせ、他の--------MIRタスクを無視することで、さらなる品質向上につながる可能性がある。 本研究では,機器アクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。 さらに,MedleyDBデータセットとMixing Secretsデータセットを組み合わせることで,広く使用されているMUSDBデータセットに含まれる3つの機器よりも現実的な6つの独立した機器について検討した。 その結果,提案したマルチタスクモデルは,MUSDBデータセットで同等の性能を維持しつつ,MedleyDBデータセットとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていた。

Music source separation is a core task in music information retrieval which has seen a dramatic improvement in the past years. Nevertheless, most of the existing systems focus exclusively on the problem of source separation itself and ignore the utilization of other~---possibly related---~MIR tasks which could lead to additional quality gains. In this work, we propose a novel multitask structure to investigate using instrument activation information to improve source separation performance. Furthermore, we investigate our system on six independent instruments, a more realistic scenario than the three instruments included in the widely-used MUSDB dataset, by leveraging a combination of the MedleyDB and Mixing Secrets datasets. The results show that our proposed multitask model outperforms the baseline Open-Unmix model on the mixture of Mixing Secrets and MedleyDB dataset while maintaining comparable performance on the MUSDB dataset.
翻訳日:2022-11-03 07:18:06 公開日:2020-08-03
# ファイナンスにおける量子と古典生成モデル

Quantum versus Classical Generative Modelling in Finance ( http://arxiv.org/abs/2008.00691v1 )

ライセンス: Link先を確認
Brian Coyle, Maxwell Henderson, Justin Chan Jin Le, Niraj Kumar, Marco Paini, Elham Kashefi(参考訳) 近い将来、量子コンピュータの具体的なユースケースを見つけることは、まだ未解決の問題であり、機械学習は一般に量子技術に影響されるであろう最初の分野の1つとして評価される。 本研究では,量子モデルと古典モデルの能力を比較し,機械学習における生成的モデリングの課題について検討する。 相関通貨ペアからなる実世界の金融データセットを用いて、結果の分布(制限されたボルツマンマシンと量子回路ボルンマシン)を学習する2つのモデルを比較する。 本研究では,本課題におけるボルツマンマシンの性能に常に適合するシミュレーションボルツマンマシンの数値計算結果を示し,モデル規模が拡大するにつれて性能が向上することを示す。 我々は、Rigetti forestプラットフォームを用いてシミュレーションおよび物理量子チップの実験を行い、量子ハードウェア上での量子回路Bornマシンの現在の最大のインスタンスを部分的にトレーニングすることができる。 最後に、訓練用ボルツマンマシンの絡み合い能力を調べることで、絡み合いは一般にボルツマンマシンよりも有利な問題事例において役割を果たすことが分かる。

Finding a concrete use case for quantum computers in the near term is still an open question, with machine learning typically touted as one of the first fields which will be impacted by quantum technologies. In this work, we investigate and compare the capabilities of quantum versus classical models for the task of generative modelling in machine learning. We use a real world financial dataset consisting of correlated currency pairs and compare two models in their ability to learn the resulting distribution - a restricted Boltzmann machine, and a quantum circuit Born machine. We provide extensive numerical results indicating that the simulated Born machine always at least matches the performance of the Boltzmann machine in this task, and demonstrates superior performance as the model scales. We perform experiments on both simulated and physical quantum chips using the Rigetti forest platform, and also are able to partially train the largest instance to date of a quantum circuit Born machine on quantum hardware. Finally, by studying the entanglement capacity of the training Born machines, we find that entanglement typically plays a role in the problem instances which demonstrate an advantage over the Boltzmann machine.
翻訳日:2022-11-03 07:17:51 公開日:2020-08-03
# レート歪理論とディープラーニングにおける相転移

Phase Transitions in Rate Distortion Theory and Deep Learning ( http://arxiv.org/abs/2008.01011v1 )

ライセンス: Link先を確認
Philipp Grohs, Andreas Klotz, Felix Voigtlaender(参考訳) 速度歪み理論は、与えられた信号クラス $\mathcal{S}$ を$R$ビットの予算で最適に$R\to\infty$ と符号化することに関心がある。 我々は$\mathcal{S}$を$s$で圧縮することができ、$\mathcal{O}(R^{-s})$を符号化するために$\mathcal{O}(R^{-s})$の誤差を達成できるならば、その上限圧縮レートは$s^\ast(\mathcal{S})$と表される。 固定符号スキームが与えられた場合、通常、与えられた符号スキームによって$s^\ast(\mathcal{S})$よりも高い速度で圧縮される$\mathcal{S}$の要素が存在する。 確率測度 $\mathbb{P}$ on $\mathcal{S}$ は、すべての符号化スキーム $\mathcal{C}$ と任意の $s >s^\ast(\mathcal{S})$ に対して、エラー $\mathcal{O}(R^{-s})$ でエンコードされた信号の集合は、$\mathcal{C}$ となる。 特に、この結果は、コンパクトに$L^2(\Omega)$に埋め込まれたベソフ空間とソボレフ空間の球体に適用される。 本研究では,ディープニューラルネットワークを用いた関数近似に関する既存のシャープネスの結果が汎用的にシャープであることを示す。 また、ランダムな$f\in\mathcal{S}$が$R$ビットを用いて精度$\varepsilon$にエンコードできる確率に関する量的および非漸近的境界も提供する。 この結果は、最大$w$非ゼロの重みを持つように制約され、任意の「学習」手順によって生成される(量子化された)ニューラルネットワークによって、精度で$f\in\mathcal{s}$を約$\varepsilon$として表現する問題に適用される。 任意の $s >s^\ast(\mathcal{S})$ に対して、$c,C$ が存在して、「学習」手順をどう選択しても、成功確率は$\min\big\{1,2^{C\cdot W\lceil\log_2(1+W)\rceil^2 -c\cdot\varepsilon^{-1/s}}\big\}$ で上限づけられる。

Rate distortion theory is concerned with optimally encoding a given signal class $\mathcal{S}$ using a budget of $R$ bits, as $R\to\infty$. We say that $\mathcal{S}$ can be compressed at rate $s$ if we can achieve an error of $\mathcal{O}(R^{-s})$ for encoding $\mathcal{S}$; the supremal compression rate is denoted $s^\ast(\mathcal{S})$. Given a fixed coding scheme, there usually are elements of $\mathcal{S}$ that are compressed at a higher rate than $s^\ast(\mathcal{S})$ by the given coding scheme; we study the size of this set of signals. We show that for certain "nice" signal classes $\mathcal{S}$, a phase transition occurs: We construct a probability measure $\mathbb{P}$ on $\mathcal{S}$ such that for every coding scheme $\mathcal{C}$ and any $s >s^\ast(\mathcal{S})$, the set of signals encoded with error $\mathcal{O}(R^{-s})$ by $\mathcal{C}$ forms a $\mathbb{P}$-null-set. In particular our results apply to balls in Besov and Sobolev spaces that embed compactly into $L^2(\Omega)$ for a bounded Lipschitz domain $\Omega$. As an application, we show that several existing sharpness results concerning function approximation using deep neural networks are generically sharp. We also provide quantitative and non-asymptotic bounds on the probability that a random $f\in\mathcal{S}$ can be encoded to within accuracy $\varepsilon$ using $R$ bits. This result is applied to the problem of approximately representing $f\in\mathcal{S}$ to within accuracy $\varepsilon$ by a (quantized) neural network that is constrained to have at most $W$ nonzero weights and is generated by an arbitrary "learning" procedure. We show that for any $s >s^\ast(\mathcal{S})$ there are constants $c,C$ such that, no matter how we choose the "learning" procedure, the probability of success is bounded from above by $\min\big\{1,2^{C\cdot W\lceil\log_2(1+W)\rceil^2 -c\cdot\varepsilon^{-1/s}}\big\}$.
翻訳日:2022-11-03 07:17:32 公開日:2020-08-03
# 水中光リンクにおける構成学習

Configuration Learning in Underwater Optical Links ( http://arxiv.org/abs/2008.01221v1 )

ライセンス: Link先を確認
Xueyuan Zhao, Zhuoran Qi, Dario Pompili(参考訳) 本稿では,構成学習という新たな研究課題について述べる。 構成学習問題に対処するために,新しいアルゴリズムを提案する。 構成学習問題は、信号処理/通信システムにおける送信機構成を最適化するMLパフォーマンスメトリックを最大化するために、機械学習(ML)分類器の最適化として定義される。 具体的には, 物理層通信スループットの信号処理性能指標を用いた水中光通信システムにおいて, この構成学習問題を検討した。 鍵設計パラメータの最適化を交互に行い、学習目的に依存する複数のrecurrent neural network (rnn)分類器を切り替えることで構成学習を行う新しいアルゴリズムを提案する。 提案アルゴリズムは水中光通信システムのデータセットを用いて検証し,競合するMLアルゴリズムと比較する。 性能評価の結果,水中光通信データセットにおけるバイナリおよびマルチクラス構成学習の競合アルゴリズムよりも優れていた。 提案する構成学習フレームワークは、信号処理および通信の幅広いトピックに対して、さらに調査および適用することができる。

A new research problem named configuration learning is described in this work. A novel algorithm is proposed to address the configuration learning problem. The configuration learning problem is defined to be the optimization of the Machine Learning (ML) classifier to maximize the ML performance metric optimizing the transmitter configuration in the signal processing/communication systems. Specifically, this configuration learning problem is investigated in an underwater optical communication system with signal processing performance metric of the physical-layer communication throughput. A novel algorithm is proposed to perform the configuration learning by alternating optimization of key design parameters and switching between several Recurrent Neural Network (RNN) classifiers dependant on the learning objective. The proposed ML algorithm is validated with the datasets of an underwater optical communication system and is compared with competing ML algorithms. Performance results indicate that the proposal outperforms the competing algorithms for binary and multi-class configuration learning in underwater optical communication datasets. The proposed configuration learning framework can be further investigated and applied to a broad range of topics in signal processing and communications.
翻訳日:2022-11-03 07:15:53 公開日:2020-08-03
# 雨天と蒸気によるイメージデライニングの再考

Rethinking Image Deraining via Rain Streaks and Vapors ( http://arxiv.org/abs/2008.00823v1 )

ライセンス: Link先を確認
Yinglong Wang, Yibing Song, Chao Ma, and Bing Zeng(参考訳) 単一画像のデライン化は、入力画像を背景画像、送信マップ、雨天、大気光の融合とみなす。 画像復元(すなわち背景画像生成)には高度なモデルが提案されているが、同じ特性を持つ雨のストリークを送信媒体ではなく背景として捉えている。 蒸気(レインストリークの蓄積や霧のような雨)を透過マップに搬送して換気効果をモデル化するので、雨ストリークと蒸気の融合は自然にレインイメージの形成を反映しない。 本研究では,雨滴を気相とともに透過媒体として再構成し,降雨イメージングをモデル化する。 本稿では,SNet という名前のエンコーダデコーダ CNN を提案する。 雨のストリークは様々な形状や方向で現れるため、SNet内のShuffleNetユニットを用いて異方性表現をキャプチャする。 雨害によって蒸気がもたらされるにつれて, 空間ピラミッドプール (SSP) を含むVNetを提案し, 雨害による蒸気の透過マップを複数スケールで予測する。 一方、ANetというエンコーダCNNを用いて大気光を推定する。 SNet、VNet、ANetは、雨像復元のための送信マップと大気光を予測するために共同で訓練されている。 ベンチマークデータセットの大規模な実験は、雨害や蒸気を予測するために提案された視覚モデルの有効性を示した。 提案手法は最先端のデラライニング手法に対して好適に機能する。

Single image deraining regards an input image as a fusion of a background image, a transmission map, rain streaks, and atmosphere light. While advanced models are proposed for image restoration (i.e., background image generation), they regard rain streaks with the same properties as background rather than transmission medium. As vapors (i.e., rain streaks accumulation or fog-like rain) are conveyed in the transmission map to model the veiling effect, the fusion of rain streaks and vapors do not naturally reflect the rain image formation. In this work, we reformulate rain streaks as transmission medium together with vapors to model rain imaging. We propose an encoder-decoder CNN named as SNet to learn the transmission map of rain streaks. As rain streaks appear with various shapes and directions, we use ShuffleNet units within SNet to capture their anisotropic representations. As vapors are brought by rain streaks, we propose a VNet containing spatial pyramid pooling (SSP) to predict the transmission map of vapors in multi-scales based on that of rain streaks. Meanwhile, we use an encoder CNN named ANet to estimate atmosphere light. The SNet, VNet, and ANet are jointly trained to predict transmission maps and atmosphere light for rain image restoration. Extensive experiments on the benchmark datasets demonstrate the effectiveness of the proposed visual model to predict rain streaks and vapors. The proposed deraining method performs favorably against state-of-the-art deraining approaches.
翻訳日:2022-11-03 07:15:37 公開日:2020-08-03
# マルチスケール深部圧縮イメージング

Multi-Scale Deep Compressive Imaging ( http://arxiv.org/abs/2008.00802v1 )

ライセンス: Link先を確認
Thuong Nguyen Canh, Byeungwoo Jeon(参考訳) 近年,Deep Learning-based compressive Imaging (DCI) は,従来の圧縮画像よりも再現性が高く,実行時間も速い。 マルチスケールはシングルスケールよりも優れた性能を示しているが、DCIの研究はシングルスケールサンプリングに限られている。 シングルスケール画像の訓練にもかかわらず、DCIは従来のマルチスケールサンプリングと同様の低周波成分を好んでいる。 この観点から、ネットワークはマルチスケールサンプリングアーキテクチャを用いて、マルチスケールの機能を学習しやすくする。 本研究では,マルチスケール画像の分解,試料化,再構成を共同学習するマルチスケール深部圧縮イメージング(ms-dci)フレームワークを提案する。 マルチスケールサンプリングの効率を実証し, 再現性の向上を図るため, 初期および2つの拡張再構成フェーズを備えた3段階のエンドツーエンドトレーニングスキームを導入した。 本研究では, ピラミッド, ウェーブレット, スケールスペースを含む分解法, サンプリング行列, 測定値を分析し,ms-dciの従来型および深層学習型アプローチを一貫して上回っている経験的利点を示した。

Recently, deep learning-based compressive imaging (DCI) has surpassed the conventional compressive imaging in reconstruction quality and faster running time. While multi-scale has shown superior performance over single-scale, research in DCI has been limited to single-scale sampling. Despite training with single-scale images, DCI tends to favor low-frequency components similar to the conventional multi-scale sampling, especially at low subrate. From this perspective, it would be easier for the network to learn multi-scale features with a multi-scale sampling architecture. In this work, we proposed a multi-scale deep compressive imaging (MS-DCI) framework which jointly learns to decompose, sample, and reconstruct images at multi-scale. A three-phase end-to-end training scheme was introduced with an initial and two enhance reconstruction phases to demonstrate the efficiency of multi-scale sampling and further improve the reconstruction performance. We analyzed the decomposition methods (including Pyramid, Wavelet, and Scale-space), sampling matrices, and measurements and showed the empirical benefit of MS-DCI which consistently outperforms both conventional and deep learning-based approaches.
翻訳日:2022-11-03 07:09:55 公開日:2020-08-03
# LSOTB-TIR:大規模熱赤外物体追跡ベンチマーク

LSOTB-TIR:A Large-Scale High-Diversity Thermal Infrared Object Tracking Benchmark ( http://arxiv.org/abs/2008.00836v1 )

ライセンス: Link先を確認
Qiao Liu, Xin Li, Zhenyu He, Chenglong Li, Jun Li, Zikun Zhou, Di Yuan, Jing Li, Kai Yang, Nana Fan, Feng Zheng(参考訳) 本稿では,評価データセットと,合計1,400のTIRシーケンスと600Kフレーム以上のトレーニングデータセットから構成されるLSOTBTIRという,大規模かつ多種多種多様なオブジェクト追跡ベンチマークを提案する。 全列の各フレームにオブジェクトのバウンディングボックスをアノテートし、合計で730k以上のバウンディングボックスを生成します。 我々の知る限り、LSOTB-TIRは、これまでで最大かつ最も多様なTIRオブジェクト追跡ベンチマークである。 異なる属性のトラッカーを評価するために,評価データセットで4つのシナリオ属性と12のチャレンジ属性を定義した。 LSOTB-TIRをリリースすることにより、コミュニティはディープラーニングベースのTIRトラッカーを開発し、それらを公平かつ包括的に評価することを奨励する。 我々は,LSOTB-TIR上で30以上のトラッカーを評価し解析し,一連のベースラインを提供することにより,ディープトラッカーが有望な性能を達成することを示す。 さらに, LSOTB-TIRにおける複数の代表的ディープトラッカーの再訓練を行い, 提案したトレーニングデータセットが深部TIRトラッカーの性能を著しく向上することを示す。 コードとデータセットはhttps://github.com/QiaoLiuHit/LSOTB-TIRで公開されている。

In this paper, we present a Large-Scale and high-diversity general Thermal InfraRed (TIR) Object Tracking Benchmark, called LSOTBTIR, which consists of an evaluation dataset and a training dataset with a total of 1,400 TIR sequences and more than 600K frames. We annotate the bounding box of objects in every frame of all sequences and generate over 730K bounding boxes in total. To the best of our knowledge, LSOTB-TIR is the largest and most diverse TIR object tracking benchmark to date. To evaluate a tracker on different attributes, we define 4 scenario attributes and 12 challenge attributes in the evaluation dataset. By releasing LSOTB-TIR, we encourage the community to develop deep learning based TIR trackers and evaluate them fairly and comprehensively. We evaluate and analyze more than 30 trackers on LSOTB-TIR to provide a series of baselines, and the results show that deep trackers achieve promising performance. Furthermore, we re-train several representative deep trackers on LSOTB-TIR, and their results demonstrate that the proposed training dataset significantly improves the performance of deep TIR trackers. Codes and dataset are available at https://github.com/QiaoLiuHit/LSOTB-TIR.
翻訳日:2022-11-03 07:09:35 公開日:2020-08-03
# 深層畳み込みニューラルネットワークを用いた定量的感受性マッピングによる脳白質核の自動セグメンテーション

Automated Segmentation of Brain Gray Matter Nuclei on Quantitative Susceptibility Mapping Using Deep Convolutional Neural Network ( http://arxiv.org/abs/2008.00901v1 )

ライセンス: Link先を確認
Chao Chai, Pengchong Qiao, Bin Zhao, Huiying Wang, Guohua Liu, Hong Wu, E Mark Haacke, Wen Shen, Chen Cao, Xinchen Ye, Zhiyang Liu, Shuang Xia(参考訳) 脳皮質下核の鉄蓄積異常は様々な神経変性疾患と相関することが報告されており、定量的感受性マッピング(QSM)から磁気感受性を測定できる。 磁気感受性を定量的に測定するには、核を正確に区分けする必要がある。 本稿では3次元畳み込みニューラルネットワーク(CNN)をベースとした2分岐残基構造U-Net(DB-ResUNet)を提案する。 セグメント化精度とメモリ効率のトレードオフを改善するため、提案したDB-ResUNetは高解像度のイメージパッチと低解像度のパッチをそれぞれローカルおよびグローバルブランチへの視野を大きくした。 実験結果から,QSMとT$_\text{1}$重み付き画像(T$_\text{1}$WI)を入力として併用することにより,従来のアトラス法および古典的な3D-UNet構造と同様に,単分岐法よりも高いセグメンテーション精度を実現することができた。 また,DB-ResUNetによる測定結果から,手動で注釈付けした領域の値と高い相関性を示すことができた。

Abnormal iron accumulation in the brain subcortical nuclei has been reported to be correlated to various neurodegenerative diseases, which can be measured through the magnetic susceptibility from the quantitative susceptibility mapping (QSM). To quantitively measure the magnetic susceptibility, the nuclei should be accurately segmented, which is a tedious task for clinicians. In this paper, we proposed a double-branch residual-structured U-Net (DB-ResUNet) based on 3D convolutional neural network (CNN) to automatically segment such brain gray matter nuclei. To better tradeoff between segmentation accuracy and the memory efficiency, the proposed DB-ResUNet fed image patches with high resolution and the patches with low resolution but larger field of view into the local and global branches, respectively. Experimental results revealed that by jointly using QSM and T$_\text{1}$ weighted imaging (T$_\text{1}$WI) as inputs, the proposed method was able to achieve better segmentation accuracy over its single-branch counterpart, as well as the conventional atlas-based method and the classical 3D-UNet structure. The susceptibility values and the volumes were also measured, which indicated that the measurements from the proposed DB-ResUNet are able to present high correlation with values from the manually annotated regions of interest.
翻訳日:2022-11-03 07:09:14 公開日:2020-08-03
# シャーレット領域におけるコプラ多変量モデリングに基づく色彩テクスチャ画像検索

Color Texture Image Retrieval Based on Copula Multivariate Modeling in the Shearlet Domain ( http://arxiv.org/abs/2008.00910v1 )

ライセンス: Link先を確認
Sadegh Etemad, Maryam Amirmazlaghani(参考訳) 本稿では,コプラ多変量モデルを用いたシアーレット領域モデリングに基づくカラーテクスチャ画像検索フレームワークを提案する。 提案フレームワークでは,非サブサンプルシーレット変換(NSST)の異なるサブバンド間の依存性をモデル化するためにガウスコピュラを用い,非ガウスモデルを用いて係数の限界モデリングを行う。 さらに,提案手法の類似性を検討するために,KLD(Kullback Leibler Divergence)閉形式を2つのガウスコピュラ関数と非ガウス関数の異なる状況で計算する。 KLDの対称バージョンであるJeffery divergence (JD) criterionは、提案フレームワークの類似性を調べるために使用される。 本研究では4つのテクスチャ画像検索ベンチマークデータセットについて実験を行い,提案手法が既存の最先端手法よりも優れていることを示す。 また,提案フレームワークの検索時間を特徴抽出と類似度マッチングの2段階に分けて分析し,提案フレームワークが適切な検索時間を享受していることを示す。

In this paper, a color texture image retrieval framework is proposed based on Shearlet domain modeling using Copula multivariate model. In the proposed framework, Gaussian Copula is used to model the dependencies between different sub-bands of the Non Subsample Shearlet Transform (NSST) and non-Gaussian models are used for marginal modeling of the coefficients. Six different schemes are proposed for modeling NSST coefficients based on the four types of neighboring defined; moreover, Kullback Leibler Divergence(KLD) close form is calculated in different situations for the two Gaussian Copula and non Gaussian functions in order to investigate the similarities in the proposed retrieval framework. The Jeffery divergence (JD) criterion, which is a symmetrical version of KLD, is used for investigating similarities in the proposed framework. We have implemented our experiments on four texture image retrieval benchmark datasets, the results of which show the superiority of the proposed framework over the existing state-of-the-art methods. In addition, the retrieval time of the proposed framework is also analyzed in the two steps of feature extraction and similarity matching, which also shows that the proposed framework enjoys an appropriate retrieval time.
翻訳日:2022-11-03 07:08:47 公開日:2020-08-03
# 軽量単一画像超解像のためのサブピクセルバックプロジェクションネットワーク

Sub-Pixel Back-Projection Network For Lightweight Single Image Super-Resolution ( http://arxiv.org/abs/2008.01116v1 )

ライセンス: Link先を確認
Supratik Banerjee, Cagri Ozcinar, Aakanksha Rana, Aljosa Smolic and Michael Manzke(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく手法は、単一画像の超解像(SISR)において大きな成功を収めた。 しかし、ほとんどのモデルはモデルパラメータの数を増やしながら復元精度を向上しようと試みている。 本稿では,超解像再構成性能の精度を維持しつつ,CNNに基づくSISR手法のパラメータ数と計算コストの削減について検討する。 この目的のために, SISR のネットワークアーキテクチャを導入し, 再構成品質と計算複雑性の低減を両立させる。 具体的には,デコンボリューション層の代わりにサブピクセル畳み込みを用いた反復的バックプロジェクションアーキテクチャを提案する。 提案モデルの計算精度と再構成精度を定量的・質的評価により評価した。 実験結果から,提案手法は,srベンチマークデータセットの4つよりもパラメータを少なくし,復元精度を維持しつつ計算コストを低減できることが判明した。 コードはhttps://github.com/supratikbanerjee/subpixel-backprojection_super resolution"で入手できる。

Convolutional neural network (CNN)-based methods have achieved great success for single-image superresolution (SISR). However, most models attempt to improve reconstruction accuracy while increasing the requirement of number of model parameters. To tackle this problem, in this paper, we study reducing the number of parameters and computational cost of CNN-based SISR methods while maintaining the accuracy of super-resolution reconstruction performance. To this end, we introduce a novel network architecture for SISR, which strikes a good trade-off between reconstruction quality and low computational complexity. Specifically, we propose an iterative back-projection architecture using sub-pixel convolution instead of deconvolution layers. We evaluate the performance of computational and reconstruction accuracy for our proposed model with extensive quantitative and qualitative evaluations. Experimental results reveal that our proposed method uses fewer parameters and reduces the computational cost while maintaining reconstruction accuracy against state-of-the-art SISR methods over well-known four SR benchmark datasets. Code is available at "https://github.com/supratikbanerjee/SubPixel-BackProjection_SuperResolution".
翻訳日:2022-11-03 07:07:16 公開日:2020-08-03
# ディープラーニングを用いた3次元bモード超音波スペックル低減法

3D B-mode ultrasound speckle reduction using deep learning for 3D registration applications ( http://arxiv.org/abs/2008.01147v1 )

ライセンス: Link先を確認
Hongliang Li, Tal Mezheritsky, Liset Vazquez Romaguera, Samuel Kadoury(参考訳) 超音波スペックル(us speckle)は、画像のセグメンテーションや登録などの後処理タスクを阻害する粒状パターンである。 従来のフィルタリング手法はアメリカのスペックルを除去するのによく使われ、主な欠点は3Dシナリオでの長時間実行である。 深層学習を用いた2次元usスペックルの除去に関する研究はいくつか行われたが,深層学習を用いた3次元bモードusのスペックル低減に関する研究は行われていない。 本研究では,us臨床システムから3次元bモードデータを処理するための3次元高密度u-netモデルを提案する。 モデルの結果は3D登録に適用された。 本研究では,従来のフィルタリング手法 (0.978) と比較した場合, スペックル削減の程度を2桁に抑えつつ, 平均保存指数 (1.066) と同等に抑制できることを示す。 さらに, 深層学習モデルを用いたスペックル削減は, 3次元登録性能の向上に寄与することが判明した。 3d u-netスペックル低減を用いた3dデータに対する3d登録の平均二乗誤差は、スペックルと比較して半減する。

Ultrasound (US) speckles are granular patterns which can impede image post-processing tasks, such as image segmentation and registration. Conventional filtering approaches are commonly used to remove US speckles, while their main drawback is long run-time in a 3D scenario. Although a few studies were conducted to remove 2D US speckles using deep learning, to our knowledge, there is no study to perform speckle reduction of 3D B-mode US using deep learning. In this study, we propose a 3D dense U-Net model to process 3D US B-mode data from a clinical US system. The model's results were applied to 3D registration. We show that our deep learning framework can obtain similar suppression and mean preservation index (1.066) on speckle reduction when compared to conventional filtering approaches (0.978), while reducing the runtime by two orders of magnitude. Moreover, it is found that the speckle reduction using our deep learning model contributes to improving the 3D registration performance. The mean square error of 3D registration on 3D data using 3D U-Net speckle reduction is reduced by half compared to that with speckles.
翻訳日:2022-11-03 07:07:02 公開日:2020-08-03
# hamlet:階層型マルチモーダルアテンションに基づくヒューマンアクティビティ認識アルゴリズム

HAMLET: A Hierarchical Multimodal Attention-based Human Activity Recognition Algorithm ( http://arxiv.org/abs/2008.01148v1 )

ライセンス: Link先を確認
Md Mofijul Islam and Tariq Iqbal(参考訳) ロボットは人間の活動を正確に認識する能力を必要としている。 現代のロボットには様々なセンサーが備わっているが、マルチモーダルデータ融合の難しさから、堅牢な人間活動認識(HAR)は依然としてロボットにとって困難な課題である。 これらの課題に対処するため、我々はディープニューラルネットワークに基づくマルチモーダルHARアルゴリズムHAMLETを導入する。 HAMLETには階層型アーキテクチャが組み込まれており、低層はマルチヘッドの自己認識機構を採用することで、非モーダルデータからの時空間的特徴を符号化する。 上層層における多モーダル特徴を計算するために,有意な単モーダル特徴を分離・融合する新しい多モーダルアテンション機構を開発した。 最後に、マルチモーダル機能は、人間の活動を認識するために完全に接続されたニューラルネットワークで使用される。 このアルゴリズムを,3つのヒューマンアクティビティデータセットを用いた最先端アクティビティ認識アルゴリズムと比較して評価した。 その結果、HAMLETは全てのデータセットとメトリクスで評価されたベースラインを上回り、最高トップ-1の精度は、UTD-MHAD [1]とUT-Kinect [2]データセットで95.12%、F1スコアはUCSD-MIT [3]データセットで81.52%であった。 我々はさらに,HARに関する注意機構の影響を解釈するツールを提供する,一様および多様の注意マップを可視化する。

To fluently collaborate with people, robots need the ability to recognize human activities accurately. Although modern robots are equipped with various sensors, robust human activity recognition (HAR) still remains a challenging task for robots due to difficulties related to multimodal data fusion. To address these challenges, in this work, we introduce a deep neural network-based multimodal HAR algorithm, HAMLET. HAMLET incorporates a hierarchical architecture, where the lower layer encodes spatio-temporal features from unimodal data by adopting a multi-head self-attention mechanism. We develop a novel multimodal attention mechanism for disentangling and fusing the salient unimodal features to compute the multimodal features in the upper layer. Finally, multimodal features are used in a fully connect neural-network to recognize human activities. We evaluated our algorithm by comparing its performance to several state-of-the-art activity recognition algorithms on three human activity datasets. The results suggest that HAMLET outperformed all other evaluated baselines across all datasets and metrics tested, with the highest top-1 accuracy of 95.12% and 97.45% on the UTD-MHAD [1] and the UT-Kinect [2] datasets respectively, and F1-score of 81.52% on the UCSD-MIT [3] dataset. We further visualize the unimodal and multimodal attention maps, which provide us with a tool to interpret the impact of attention mechanisms concerning HAR.
翻訳日:2022-11-03 07:06:40 公開日:2020-08-03
# Lanfrica: アフリカの言語に関する機械翻訳研究のドキュメント化への参加的アプローチ

Lanfrica: A Participatory Approach to Documenting Machine Translation Research on African Languages ( http://arxiv.org/abs/2008.07302v1 )

ライセンス: Link先を確認
Chris C. Emezue and Bonaventure F.P. Dossou(参考訳) 長年にわたり、機械翻訳(MT)や自然言語処理(NLP)全般の研究にアフリカ語を含める運動が続けられてきた。 アフリカは1500-2000の文書言語と多くの未文書または絶滅した言語(Lewis, 2009; Bendor-Samuel, 2017)がある。 これにより、いくつかの目的のために開発されたmt研究、モデル、データセットの追跡が困難になる。 インターネットとソーシャルメディアが世界の半数以上(lin, 2020)とアフリカ人の40%以上(campbell, 2019)の日常生活を構成しているため、オンラインプラットフォームは、これらのアフリカの言語における研究、ベンチマーク、データセットへのアクセシビリティの作成に役立ち、既存の研究とその成果の再現性と共有を改善している。 本稿では,アフリカ言語における研究,プロジェクト,ベンチマーク,データセットの文書化に参加型アプローチを用いた,新たなオンゴーイングフレームワークであるlanfricaを紹介する。

Over the years, there have been campaigns to include the African languages in the growing research on machine translation (MT) in particular, and natural language processing (NLP) in general. Africa has the highest language diversity, with 1500-2000 documented languages and many more undocumented or extinct languages(Lewis, 2009; Bendor-Samuel, 2017). This makes it hard to keep track of the MT research, models and dataset that have been developed for some of them. As the internet and social media make up the daily lives of more than half of the world(Lin, 2020), as well as over 40% of Africans(Campbell, 2019), online platforms can be useful in creating accessibility to researches, benchmarks and datasets in these African languages, thereby improving reproducibility and sharing of existing research and their results. In this paper, we introduce Lanfrica, a novel, on-going framework that employs a participatory approach to documenting researches, projects, benchmarks and dataset on African languages.
翻訳日:2022-11-03 06:59:56 公開日:2020-08-03
# 逆行訓練によるアジャイルロコモーションの学習

Learning Agile Locomotion via Adversarial Training ( http://arxiv.org/abs/2008.00603v1 )

ライセンス: Link先を確認
Yujin Tang, Jie Tan and Tatsuya Harada(参考訳) アジャイルロコモーションのためのコントローラの開発は、脚のあるロボットにとって長年の課題である。 強化学習(RL)と進化戦略(ES)は、そのようなコントローラの設計プロセスを自動化することを約束している。 しかしながら、アジリティを促進するトレーニング環境を設計するには、献身的で慎重な人的努力が必要です。 本稿では,四足歩行ロボット(主人公)が他のロボット(敵)を追いかけるのを学習し,後者が逃げることを学習するマルチエージェント学習システムを提案する。 この敵対的なトレーニングプロセスは、アジャイルの振る舞いを奨励するだけでなく、環境デザインの労力を効果的に軽減する。 1つの敵のみを使った先行作品とは対照的に、異なる脱出戦略を専門とする敵のアンサンブルを訓練することは、主人公が機敏さをマスターするには不可欠である。 広い実験により, 対向訓練により学習した移動制御器は, 慎重に設計したベースラインよりも有意に優れていた。

Developing controllers for agile locomotion is a long-standing challenge for legged robots. Reinforcement learning (RL) and Evolution Strategy (ES) hold the promise of automating the design process of such controllers. However, dedicated and careful human effort is required to design training environments to promote agility. In this paper, we present a multi-agent learning system, in which a quadruped robot (protagonist) learns to chase another robot (adversary) while the latter learns to escape. We find that this adversarial training process not only encourages agile behaviors but also effectively alleviates the laborious environment design effort. In contrast to prior works that used only one adversary, we find that training an ensemble of adversaries, each of which specializes in a different escaping strategy, is essential for the protagonist to master agility. Through extensive experiments, we show that the locomotion controller learned with adversarial training significantly outperforms carefully designed baselines.
翻訳日:2022-11-03 06:59:36 公開日:2020-08-03
# マルチエージェントナビゲーションのためのTheta*,ORCA,Push,Rotateの組み合わせ

A Combination of Theta*, ORCA and Push and Rotate for Multi-agent Navigation ( http://arxiv.org/abs/2008.01227v1 )

ライセンス: Link先を確認
Stepan Dergachev and Konstantin Yakovlev and Ryhor Prakapovich(参考訳) 集中制御器が存在しない静的環境におけるマルチエージェントナビゲーションの問題について検討する。 各エージェントは個別に制御され、目標を達成するために3つのアルゴリズム的コンポーネントに依存し、他のエージェントや障害物との衝突を避けます。 i) Theta* アルゴリズムによりなされる個別の経路計画 二 ORCA*アルゴリズムによる経路の追従時の衝突回避 三 プッシュ・ローテーションアルゴリズムによる局所密閉マルチエージェント経路計画 後者の部品は狭い通路やドアのような狭い場所でのデッドロックを避けるために不可欠である。 提案するコンポーネントがどのように相互作用し、コヒーレントなナビゲーションパイプラインを形成するかを説明する。 シミュレーションにおいて,このパイプラインを広範囲に実験的に評価する。 その結果, 衝突回避のみに依存し, マルチエージェント経路計画成分を含まない手法と比較して, 発生したデッドロックの数が有意に減少することが明らかとなった。

We study the problem of multi-agent navigation in static environments when no centralized controller is present. Each agent is controlled individually and relies on three algorithmic components to achieve its goal while avoiding collisions with the other agents and the obstacles: i) individual path planning which is done by Theta* algorithm; ii) collision avoidance while path following which is performed by ORCA* algorithm; iii) locally-confined multi-agent path planning done by Push and Rotate algorithm. The latter component is crucial to avoid deadlocks in confined areas, such as narrow passages or doors. We describe how the suggested components interact and form a coherent navigation pipeline. We carry out an extensive empirical evaluation of this pipeline in simulation. The obtained results clearly demonstrate that the number of occurring deadlocks significantly decreases enabling more agents to reach their goals compared to techniques that rely on collision-avoidance only and do not include multi-agent path planning component
翻訳日:2022-11-03 06:59:21 公開日:2020-08-03
# 勾配拡大ガウス過程回帰による多元的データ融合

Multifidelity Data Fusion via Gradient-Enhanced Gaussian Process Regression ( http://arxiv.org/abs/2008.01066v1 )

ライセンス: Link先を確認
Yixiang Deng, Guang Lin and Xiu Yang(参考訳) 本稿では,多元性ガウス過程回帰(GPR)フレームワークに基づくデータ融合手法を提案する。 この方法は、利子量(QoI)の利用可能なデータと、その勾配を異なる忠実度レベル、すなわち、グラディエント強化コックリグ法(GE-Cokriging)と組み合わせる。 これはqoiとその勾配の近似と不確実性推定を同時に提供する。 本手法は, 勾配情報を使用しない従来の多元的コクリゲティング法と比較し, ge-コクリゲティング法がqoiとその勾配の予測に有効であることを示唆する。 さらに、GE-Cokriging は共分散行列の特異性のため、Cokriging が貧弱な場合にもより良い一般化結果を示す。 本稿では, GE-Cokrigingの適用事例として, 同時に過負荷発振器の軌道と速度を再現すること, 大規模電力系統における発電機バスの電力入力の変化に対する負荷バスの電力係数の感度について検討する。 また,GE-Cokriging法はCokriging法よりも若干高い計算コストを必要とするが,精度比較の結果,このコストは通常,その価値が高いことが示された。

We propose a data fusion method based on multi-fidelity Gaussian process regression (GPR) framework. This method combines available data of the quantity of interest (QoI) and its gradients with different fidelity levels, namely, it is a Gradient-enhanced Cokriging method (GE-Cokriging). It provides the approximations of both the QoI and its gradients simultaneously with uncertainty estimates. We compare this method with the conventional multi-fidelity Cokriging method that does not use gradients information, and the result suggests that GE-Cokriging has a better performance in predicting both QoI and its gradients. Moreover, GE-Cokriging even shows better generalization result in some cases where Cokriging performs poorly due to the singularity of the covariance matrix. We demonstrate the application of GE-Cokriging in several practical cases including reconstructing the trajectories and velocity of an underdamped oscillator with respect to time simultaneously, and investigating the sensitivity of power factor of a load bus with respect to varying power inputs of a generator bus in a large scale power system. We also show that though GE-Cokriging method requires a little bit higher computational cost than Cokriging method, the result of accuracy comparison shows that this cost is usually worth it.
翻訳日:2022-11-03 06:59:07 公開日:2020-08-03
# 大規模クラウドアプリケーションのためのシンプルで効果的な予測リソーススケーリングヒューリスティック

A simple and effective predictive resource scaling heuristic for large-scale cloud applications ( http://arxiv.org/abs/2008.01215v1 )

ライセンス: Link先を確認
Valentin Flunkert, Quentin Rebjock, Joel Castellon, Laurent Callot, Tim Januschowski(参考訳) 本稿では,クラウド環境で稼働する水平スケーラブルなアプリケーションの予測オートスケーリングに対して,計算リソースを遅延時間で追加し,デプロイメントスループットを制限した上で,シンプルかつ効果的なポリシを提案する。 当社のポリシでは、ワークロードの確率的予測を使用して、アプリケーションのオーナのリスク回避に依存するスケーリング決定を行います。 実世界および合成データを用いた実験において、このポリシーは数学的に洗練されたアプローチと単純なベンチマークポリシーとを好適に比較した。

We propose a simple yet effective policy for the predictive auto-scaling of horizontally scalable applications running in cloud environments, where compute resources can only be added with a delay, and where the deployment throughput is limited. Our policy uses a probabilistic forecast of the workload to make scaling decisions dependent on the risk aversion of the application owner. We show in our experiments using real-world and synthetic data that this policy compares favorably to mathematically more sophisticated approaches as well as to simple benchmark policies.
翻訳日:2022-11-03 06:58:45 公開日:2020-08-03
# ストリーム処理システムの進化に関する調査研究

A Survey on the Evolution of Stream Processing Systems ( http://arxiv.org/abs/2008.00842v1 )

ライセンス: Link先を確認
Marios Fragkoulis, Paris Carbone, Vasiliki Kalavri, Asterios Katsifodimos(参考訳) ストリーム処理は20年以上にわたって活発な研究分野となっているが、近年の研究コミュニティや世界中の多くのオープンソースコミュニティが成功し、その最盛期を目の当たりにしている。 本調査は, ストリーム処理システムの基本的側面と, 外部データ管理, 状態管理, 耐障害性, 高可用性, 負荷管理, 弾力性, 再設定の機能領域におけるその進化を概観する。 注目すべき過去の研究成果を概観し,初期(00~10)と現代(11~18)のストリーミングシステムとの類似点と相違点を概説するとともに,最近のトレンドとオープン問題について考察する。

Stream processing has been an active research field for more than 20 years, but it is now witnessing its prime time due to recent successful efforts by the research community and numerous worldwide open-source communities. This survey provides a comprehensive overview of fundamental aspects of stream processing systems and their evolution in the functional areas of out-of-order data management, state management, fault tolerance, high availability, load management, elasticity, and reconfiguration. We review noteworthy past research findings, outline the similarities and differences between early ('00-'10) and modern ('11-'18) streaming systems, and discuss recent trends and open problems.
翻訳日:2022-11-03 06:58:06 公開日:2020-08-03
# 金利歪曲精度トレードオフ:JPEGケーススタディ

The Rate-Distortion-Accuracy Tradeoff: JPEG Case Study ( http://arxiv.org/abs/2008.00605v1 )

ライセンス: Link先を確認
Xiyang Luo, Hossein Talebi, Feng Yang, Michael Elad, Peyman Milanfar(参考訳) デジタル画像の処理には、効率のよい伝送とストレージを容易にするために、ほとんど常に損失のある圧縮が伴う。 これにより、割り当てられたビット予算(レート)と結果の画像の忠実さとの間の避けられない緊張(歪み)がもたらされる。 さらに複雑な考慮事項は、圧縮が与えられた分類器による認識性能に与える影響である(精度)。 この研究は、このレート歪曲精度のトレードオフを探求することを目的としている。 ケーススタディでは、JPEG圧縮標準における量子化テーブルの設計に焦点をあてる。 本稿では,JPEGエンコーダデコーダとエントロピー推定器の両方の差分実装を利用して,連続最適化によるテーブルの最適チューニングを行う。 これにより、レート、歪み、分類精度の相互作用を考慮した統一的なフレームワークを提供することができる。 これらすべての面で、これらのテーブルの簡易かつ容易に実装された変更により、性能が大幅に向上したことを報告します。

Handling digital images is almost always accompanied by a lossy compression in order to facilitate efficient transmission and storage. This introduces an unavoidable tension between the allocated bit-budget (rate) and the faithfulness of the resulting image to the original one (distortion). An additional complicating consideration is the effect of the compression on recognition performance by given classifiers (accuracy). This work aims to explore this rate-distortion-accuracy tradeoff. As a case study, we focus on the design of the quantization tables in the JPEG compression standard. We offer a novel optimal tuning of these tables via continuous optimization, leveraging a differential implementation of both the JPEG encoder-decoder and an entropy estimator. This enables us to offer a unified framework that considers the interplay between rate, distortion and classification accuracy. In all these fronts, we report a substantial boost in performance by a simple and easily implemented modification of these tables.
翻訳日:2022-11-03 06:57:52 公開日:2020-08-03
# 深層写真クロッパーとエンハンサー

Deep Photo Cropper and Enhancer ( http://arxiv.org/abs/2008.00634v1 )

ライセンス: Link先を確認
Aaron Ott, Amir Mazaheri, Niels D. Lobo, Mubarak Shah(参考訳) 本稿では,新しいタイプの画像強調問題を提案する。 画像の画素ワイドな修正を主眼とする従来の画像強調手法と比較して,画像に埋め込まれた画像を収穫し,画像の品質を高めることが提案課題である。 提案手法をdeep photo cropperとdeep image enhancerの2つの深層ネットワークに分割した。 写真クロッパーネットワークでは,空間変換器を用いて埋め込み画像を抽出する。 画像エンハンサーでは、埋め込み画像の画素数を増加させ、画素の伸縮や歪みの影響を低減させるスーパーレゾリューションを用いる。 画像特徴量と地盤真理とのコサイン距離損失を収穫者に適用し,エンハンサーの平均2乗損失を用いた。 さらに,提案手法を訓練し,テストするためのデータセットを提案する。 最後に,定性評価と定量的評価に関して提案手法を解析する。

This paper introduces a new type of image enhancement problem. Compared to traditional image enhancement methods, which mostly deal with pixel-wise modifications of a given photo, our proposed task is to crop an image which is embedded within a photo and enhance the quality of the cropped image. We split our proposed approach into two deep networks: deep photo cropper and deep image enhancer. In the photo cropper network, we employ a spatial transformer to extract the embedded image. In the photo enhancer, we employ super-resolution to increase the number of pixels in the embedded image and reduce the effect of stretching and distortion of pixels. We use cosine distance loss between image features and ground truth for the cropper and the mean square loss for the enhancer. Furthermore, we propose a new dataset to train and test the proposed method. Finally, we analyze the proposed method with respect to qualitative and quantitative evaluations.
翻訳日:2022-11-03 06:57:39 公開日:2020-08-03
# 映像表現学習のためのメモリ拡張Dense Predictive Coding

Memory-augmented Dense Predictive Coding for Video Representation Learning ( http://arxiv.org/abs/2008.01065v1 )

ライセンス: Link先を確認
Tengda Han, Weidi Xie, Andrew Zisserman(参考訳) 本研究の目的は,映像からの自己教師型学習,特に行動認識のための表現である。 私たちは次のような貢献をします i) タスクのための新しいアーキテクチャと学習フレームワーク Memory-augmented Dense Predictive Coding (MemDPC) を提案する。 圧縮された記憶の集合に対する予測的注意機構によって訓練され、任意の将来の状態は常に凝縮表現の凸結合によって構築され、複数の仮説を効率的に作成することができる。 (II)RGBフレームからの視覚のみの自己教師型ビデオ表現学習,あるいは教師なし光流からの学習,あるいはその両方について検討する。 (3)動作認識,ビデオ検索,アノテーションの少ない学習,意図しない行動分類という4つの下流課題における学習表現の質を徹底的に評価した。 いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。

The objective of this paper is self-supervised learning from video, in particular for representations for action recognition. We make the following contributions: (i) We propose a new architecture and learning framework Memory-augmented Dense Predictive Coding (MemDPC) for the task. It is trained with a predictive attention mechanism over the set of compressed memories, such that any future states can always be constructed by a convex combination of the condense representations, allowing to make multiple hypotheses efficiently. (ii) We investigate visual-only self-supervised video representation learning from RGB frames, or from unsupervised optical flow, or both. (iii) We thoroughly evaluate the quality of learnt representation on four different downstream tasks: action recognition, video retrieval, learning with scarce annotations, and unintentional action classification. In all cases, we demonstrate state-of-the-art or comparable performance over other approaches with orders of magnitude fewer training data.
翻訳日:2022-11-03 06:51:44 公開日:2020-08-03
# 単眼映像からの歩行者行動の認識と3次元局在

Recognition and 3D Localization of Pedestrian Actions from Monocular Video ( http://arxiv.org/abs/2008.01162v1 )

ライセンス: Link先を確認
Jun Hayakawa, Behzad Dariush(参考訳) 歩行者行動の理解と予測は、都市部における安全かつ効果的なナビゲーション戦略を実現するための重要かつ困難な研究分野である。 本稿では,自発的視点からの歩行者行動認識と3次元位置推定に着目し,意図の予測と今後の軌道予測を目的としている。 都市交通現場におけるこの問題に対処する上での課題は、歩行者の予測不能な行動に起因しており、行動や意図が常に変動し、歩行者のポーズや3d空間的関係、他のエージェントや環境との相互作用に依存する。 これらの課題を部分的に解決するために,歩行者行動の認識と3次元位置決めにおけるポーズの重要性を考察する。 特に,トラックされた歩行者の生RGB画像シーケンスに対応する入力と歩行者のポーズを含む2ストリームの時間関係ネットワークを用いた行動認識フレームワークを提案する。 提案手法は,jaad公開データセットを用いた評価に基づいて,単ストリーム時間関係ネットワークを用いた手法よりも優れる。 推定ポーズと関連するボディキーポイントは、ユニークな損失関数を用いて歩行者の3次元位置を推定するネットワークへの入力としても使用される。 KITTIデータセットにおける3次元局所化手法の評価は,既存の最先端手法と比較して平均局所化誤差の改善を示す。 最後に,HRIのH3D駆動データセット上で,動作認識と3D局所化の質的テストを行う。

Understanding and predicting pedestrian behavior is an important and challenging area of research for realizing safe and effective navigation strategies in automated and advanced driver assistance technologies in urban scenes. This paper focuses on monocular pedestrian action recognition and 3D localization from an egocentric view for the purpose of predicting intention and forecasting future trajectory. A challenge in addressing this problem in urban traffic scenes is attributed to the unpredictable behavior of pedestrians, whereby actions and intentions are constantly in flux and depend on the pedestrians pose, their 3D spatial relations, and their interaction with other agents as well as with the environment. To partially address these challenges, we consider the importance of pose toward recognition and 3D localization of pedestrian actions. In particular, we propose an action recognition framework using a two-stream temporal relation network with inputs corresponding to the raw RGB image sequence of the tracked pedestrian as well as the pedestrian pose. The proposed method outperforms methods using a single-stream temporal relation network based on evaluations using the JAAD public dataset. The estimated pose and associated body key-points are also used as input to a network that estimates the 3D location of the pedestrian using a unique loss function. The evaluation of our 3D localization method on the KITTI dataset indicates the improvement of the average localization error as compared to existing state-of-the-art methods. Finally, we conduct qualitative tests of action recognition and 3D localization on HRI's H3D driving dataset.
翻訳日:2022-11-03 06:51:16 公開日:2020-08-03
# 自然言語を用いたテクスチャ記述

Describing Textures using Natural Language ( http://arxiv.org/abs/2008.01180v1 )

ライセンス: Link先を確認
Chenyun Wu, Mikayla Timm, Subhransu Maji(参考訳) 自然画像のテクスチャは、色、形状、内部の要素の周期性、および自然言語を用いて記述できるその他の属性によって特徴づけられる。 本稿では,テクスチャのリッチな記述を含む新しいデータセット上で,テクスチャの視覚的特性を記述する問題について検討し,このデータセット上の画像に対して言語を接地する現在の生成モデルおよび判別モデルについて体系的に検討する。 これらのモデルはテクスチャのいくつかの特性を捉えるが、ドットの色などいくつかの組成特性を捉えることができない。 異なる記述を持つ合成的だが現実的なテクスチャを生成することにより,既存モデルの批判的分析を行う。 我々のデータセットはまた、解釈可能なモデルをトレーニングし、テクスチャが重要な役割を果たすきめ細かな分類のためのディープネットワークによって学習される差別的特徴について言語ベースの説明を生成することができる。 我々は、いくつかのきめ細かいドメインを視覚化し、データセットで学んだテクスチャ属性が、Caltech-UCSD Birdsデータセットのエキスパート設計属性よりも改善できることを示します。

Textures in natural images can be characterized by color, shape, periodicity of elements within them, and other attributes that can be described using natural language. In this paper, we study the problem of describing visual attributes of texture on a novel dataset containing rich descriptions of textures, and conduct a systematic study of current generative and discriminative models for grounding language to images on this dataset. We find that while these models capture some properties of texture, they fail to capture several compositional properties, such as the colors of dots. We provide critical analysis of existing models by generating synthetic but realistic textures with different descriptions. Our dataset also allows us to train interpretable models and generate language-based explanations of what discriminative features are learned by deep networks for fine-grained categorization where texture plays a key role. We present visualizations of several fine-grained domains and show that texture attributes learned on our dataset offer improvements over expert-designed attributes on the Caltech-UCSD Birds dataset.
翻訳日:2022-11-03 06:50:09 公開日:2020-08-03
# フレーズカット:野生の言語に基づくイメージセグメンテーション

PhraseCut: Language-based Image Segmentation in the Wild ( http://arxiv.org/abs/2008.01187v1 )

ライセンス: Link先を確認
Chenyun Wu, Zhe Lin, Scott Cohen, Trung Bui, Subhransu Maji(参考訳) 自然言語のフレーズを与えられた画像領域を分割する問題を考察し,77,262の画像と345,486のフレーズ領域ペアからなる新しいデータセットを用いて検討する。 我々のデータセットはVisual Genomeデータセット上に収集され、既存のアノテーションを使用して、対応する領域が手動で注釈付けされた参照フレーズの挑戦的なセットを生成する。 データセット内のフレーズは、複数の領域に対応し、多数のオブジェクトや物のカテゴリ、色、形、部品、画像内の他のエンティティとの関係などの属性を記述します。 我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端に重大な課題をもたらすことを示している。 これらの概念のロングテールな性質を体系的に処理し、既存のアプローチを上回るカテゴリ、属性、関係を組み合わせるためのモジュラーアプローチを提示します。

We consider the problem of segmenting image regions given a natural language phrase, and study it on a novel dataset of 77,262 images and 345,486 phrase-region pairs. Our dataset is collected on top of the Visual Genome dataset and uses the existing annotations to generate a challenging set of referring phrases for which the corresponding regions are manually annotated. Phrases in our dataset correspond to multiple regions and describe a large number of object and stuff categories as well as their attributes such as color, shape, parts, and relationships with other entities in the image. Our experiments show that the scale and diversity of concepts in our dataset poses significant challenges to the existing state-of-the-art. We systematically handle the long-tail nature of these concepts and present a modular approach to combine category, attribute, and relationship cues that outperforms existing approaches.
翻訳日:2022-11-03 06:49:54 公開日:2020-08-03
# 会話音声における句読点予測のためのマルチモーダル半教師付き学習フレームワーク

Multimodal Semi-supervised Learning Framework for Punctuation Prediction in Conversational Speech ( http://arxiv.org/abs/2008.00702v1 )

ライセンス: Link先を確認
Monica Sunkara, Srikanth Ronanki, Dhanush Bekal, Sravan Bodapati, Katrin Kirchhoff(参考訳) 本研究では,大量の音声およびテキストデータから表現を学習し,句読点予測のためのマルチモーダル半教師付き学習手法を提案する。 従来の音声処理では、フレーム音響特徴を単語レベル特徴にエンコーダにエンコーダを強制的にアライメントし、その結果の音響および語彙表現のマルチモーダル融合を行う。 代替案として,注意に基づくマルチモーダル融合を探求し,その性能を強制アライメントに基づく融合と比較する。 Fisher corpus で行った実験により,提案手法は基準文字とASR出力のベースライン BLSTM モデルに対して ~6-9% と ~3-4% の絶対改善(F1スコア)を達成できた。 我々は、N-bestリストでデータ拡張を行い、ASRの出力を最大2-6%改善することで、ASRエラーに対するモデルロバスト性をさらに改善する。 また,コーパスの様々なサイズについてアブレーション研究を行い,半教師付き学習手法の有効性を示す。 1時間の音声とテキストデータでトレーニングすると、提案モデルはベースラインモデルよりも9~18%の絶対的改善を達成した。

In this work, we explore a multimodal semi-supervised learning approach for punctuation prediction by learning representations from large amounts of unlabelled audio and text data. Conventional approaches in speech processing typically use forced alignment to encoder per frame acoustic features to word level features and perform multimodal fusion of the resulting acoustic and lexical representations. As an alternative, we explore attention based multimodal fusion and compare its performance with forced alignment based fusion. Experiments conducted on the Fisher corpus show that our proposed approach achieves ~6-9% and ~3-4% absolute improvement (F1 score) over the baseline BLSTM model on reference transcripts and ASR outputs respectively. We further improve the model robustness to ASR errors by performing data augmentation with N-best lists which achieves up to an additional ~2-6% improvement on ASR outputs. We also demonstrate the effectiveness of semi-supervised learning approach by performing ablation study on various sizes of the corpus. When trained on 1 hour of speech and text data, the proposed model achieved ~9-18% absolute improvement over baseline model.
翻訳日:2022-11-03 06:49:27 公開日:2020-08-03
# 確率的適応指標を用いた繰り返し音声パターンの教師なし発見

Unsupervised Discovery of Recurring Speech Patterns Using Probabilistic Adaptive Metrics ( http://arxiv.org/abs/2008.00731v1 )

ライセンス: Link先を確認
Okko R\"as\"anen and Mar\'ia Andrea Cruz Bland\'on(参考訳) unsupervised spoken term discovery (utd) は、音響音声データのコーパスから繰り返し発生する音声のセグメントを見つけることを目的としている。 この問題に対する潜在的なアプローチの1つは、ダイナミック・タイム・ワープ(DTW)を使用して、音声データから順応パターンを見つけることである。 しかし、DTWアライメントのための初期候補セグメントの自動選択と、信号表現間のペアワイド距離メトリクスのしきい値として運用される、ある種の事前定義された基準を必要とする「十分良い」アライメントの検出は、しばしば必要である。 既存のUTDシステムでは、最適なハイパーパラメータはデータセットによって異なり、新しいコーパスと真に低リソースのシナリオに適用可能である。 本稿では, PDTW をベースとした UTD に対する新しい確率論的アプローチを提案する。 pdtwでは、処理されたコーパスの分布特性をアライメント品質の適応評価に利用し、偶然に期待される類似性を持つパターンペアを体系的に発見する。 我々は、2020年の実装の一環として、zero resource speech challenge 2017データセット上でpdtwをテストする。 その結果,本システムは固定ハイパーパラメータを用いた5つのテスト言語で一貫して動作し,検出されたパターンのカバレッジに関して,DTWベースのシステムよりも明らかに優れていた。

Unsupervised spoken term discovery (UTD) aims at finding recurring segments of speech from a corpus of acoustic speech data. One potential approach to this problem is to use dynamic time warping (DTW) to find well-aligning patterns from the speech data. However, automatic selection of initial candidate segments for the DTW-alignment and detection of "sufficiently good" alignments among those require some type of pre-defined criteria, often operationalized as threshold parameters for pair-wise distance metrics between signal representations. In the existing UTD systems, the optimal hyperparameters may differ across datasets, limiting their applicability to new corpora and truly low-resource scenarios. In this paper, we propose a novel probabilistic approach to DTW-based UTD named as PDTW. In PDTW, distributional characteristics of the processed corpus are utilized for adaptive evaluation of alignment quality, thereby enabling systematic discovery of pattern pairs that have similarity what would be expected by coincidence. We test PDTW on Zero Resource Speech Challenge 2017 datasets as a part of 2020 implementation of the challenge. The results show that the system performs consistently on all five tested languages using fixed hyperparameters, clearly outperforming the earlier DTW-based system in terms of coverage of the detected patterns.
翻訳日:2022-11-03 06:49:04 公開日:2020-08-03
# 説明可能な顔認識

Explainable Face Recognition ( http://arxiv.org/abs/2008.00916v1 )

ライセンス: Link先を確認
Jonathan R. Williford, Brandon B. May, Jeffrey Byrne(参考訳) 説明可能な顔認識は、なぜ顔にマッチするかを説明する問題である。 本稿では,説明可能な顔認識のための最初の総合ベンチマークとベースライン評価を提供する。 95人の被験者の3648個のトリプル(プローブ,メイト,非メイト)の硬化したセットである'inpainting game'と呼ばれる新しい評価プロトコルを定義し,鼻,額,口などの顔の特徴を合成的に塗布することにより,非メイトを塗布する。 説明可能な顔マッチング装置は、プローブ画像内のどの領域が交配画像と合致するかを、トリプレット毎に塗装された非メイトに最もよく説明するネットワークアテンションマップを生成する。 これにより、顔マッチングにどのような画像領域が寄与するかを定量化できる。 さらに,このデータセットの総合的なベンチマークを行い,3つの顔マッチングにおける顔認識におけるネットワーク注意方法の5つの状態を比較した。 このベンチマークには、ネットワーク注意のための2つの新しいアルゴリズム、subtree ebpとdenity-based input sampling for explanation (dise)が含まれている。 最後に,これらのネットワークアテンション手法の質的可視化を新しい画像に示すとともに,これらの説明可能な顔認識モデルが顔マッチング者の透明性と信頼をいかに向上するかを検討する。

Explainable face recognition is the problem of explaining why a facial matcher matches faces. In this paper, we provide the first comprehensive benchmark and baseline evaluation for explainable face recognition. We define a new evaluation protocol called the ``inpainting game'', which is a curated set of 3648 triplets (probe, mate, nonmate) of 95 subjects, which differ by synthetically inpainting a chosen facial characteristic like the nose, eyebrows or mouth creating an inpainted nonmate. An explainable face matcher is tasked with generating a network attention map which best explains which regions in a probe image match with a mated image, and not with an inpainted nonmate for each triplet. This provides ground truth for quantifying what image regions contribute to face matching. Furthermore, we provide a comprehensive benchmark on this dataset comparing five state of the art methods for network attention in face recognition on three facial matchers. This benchmark includes two new algorithms for network attention called subtree EBP and Density-based Input Sampling for Explanation (DISE) which outperform the state of the art by a wide margin. Finally, we show qualitative visualization of these network attention techniques on novel images, and explore how these explainable face recognition models can improve transparency and trust for facial matchers.
翻訳日:2022-11-03 06:43:13 公開日:2020-08-03
# RareAct: 異常なインタラクションのビデオデータセット

RareAct: A video dataset of unusual interactions ( http://arxiv.org/abs/2008.01018v1 )

ライセンス: Link先を確認
Antoine Miech, Jean-Baptiste Alayrac, Ivan Laptev, Josef Sivic, Andrew Zisserman(参考訳) 本稿では,手動でアノテートされたビデオデータセット,すなわちRareActについて紹介し,その中に「ブロンドフォン」「カットキーボード」「マイクロ波シューズ」などのアクションが含まれる。 rareactは、アクション認識モデルのゼロショットおよびマイショット合成性を評価することを目的としている。 howto100mの大規模テキストコーパスでは、動詞と名詞を組み合わせることで得られる122の異なるアクションが含まれているが、しばしば別々に現れる。 我々は、最先端のHowTo100M事前訓練ビデオとテキストモデルを用いてベンチマークを行い、ゼロショットと少数ショットのアクションの合成性が困難な課題であり、未解決の課題であることを示す。

This paper introduces a manually annotated video dataset of unusual actions, namely RareAct, including actions such as "blend phone", "cut keyboard" and "microwave shoes". RareAct aims at evaluating the zero-shot and few-shot compositionality of action recognition models for unlikely compositions of common action verbs and object nouns. It contains 122 different actions which were obtained by combining verbs and nouns rarely co-occurring together in the large-scale textual corpus from HowTo100M, but that frequently appear separately. We provide benchmarks using a state-of-the-art HowTo100M pretrained video and text model and show that zero-shot and few-shot compositionality of actions remains a challenging and unsolved task.
翻訳日:2022-11-03 06:40:47 公開日:2020-08-03
# 擬似3次元CNNを用いた人間の行動認識のための残留フレーム

Residual Frames with Efficient Pseudo-3D CNN for Human Action Recognition ( http://arxiv.org/abs/2008.01057v1 )

ライセンス: Link先を確認
Jiawei Chen, Jenson Hsiao, Chiu Man Ho(参考訳) 人間の行動認識は、監視やビデオ理解といった領域における重要な基盤と見なされている。 映像に基づく動作認識のためのエンドツーエンドソリューションの開発は近年進展しているが、最先端のパフォーマンスを達成するには補助的な手作りのモーション表現(例えば光学フロー)が必要である。 本研究では,残余フレーム(すなわち隣接するRGBフレームの違い)を,有能な動作情報を持ち,計算効率のよい「軽量」な動作表現として用いることを提案する。 さらに, 3次元畳み込みを2次元および1次元畳み込みに分解する疑似3次元畳み込みモジュールを開発した。 提案するモジュールは,特徴空間の残余情報を活用して動作を構造化し,外観と動作の特徴の調整を支援するセルフアテンション機構を備える。 実験により,提案する疑似3次元畳み込みモジュールと同様に,残余フレームの効率と有効性を確認した。

Human action recognition is regarded as a key cornerstone in domains such as surveillance or video understanding. Despite recent progress in the development of end-to-end solutions for video-based action recognition, achieving state-of-the-art performance still requires using auxiliary hand-crafted motion representations, e.g., optical flow, which are usually computationally demanding. In this work, we propose to use residual frames (i.e., differences between adjacent RGB frames) as an alternative "lightweight" motion representation, which carries salient motion information and is computationally efficient. In addition, we develop a new pseudo-3D convolution module which decouples 3D convolution into 2D and 1D convolution. The proposed module exploits residual information in the feature space to better structure motions, and is equipped with a self-attention mechanism that assists to recalibrate the appearance and motion features. Empirical results confirm the efficiency and effectiveness of residual frames as well as the proposed pseudo-3D convolution module.
翻訳日:2022-11-03 06:40:12 公開日:2020-08-03
# 再帰的サブクエリ構築によるワンステージ視覚接地の改善

Improving One-stage Visual Grounding by Recursive Sub-query Construction ( http://arxiv.org/abs/2008.01059v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Tianlang Chen, Liwei Wang, Jiebo Luo(参考訳) 長く複雑なクエリの接地に関する現在の制限に対処し,1段階の視覚接地を改善する。 既存の一段階のメソッドでは、言語クエリ全体を単一の文埋め込みベクトルとしてエンコードしている。 この単一のベクトル表現は、クエリの詳細な記述を見渡す傾向がある。 そこで本研究では,複数のラウンドに対して画像と問合せを理由とし,参照曖昧度を段階的に低減する再帰的サブクエリ構築フレームワークを提案する。 本稿では,ReferItGame,RefCOCO,RefCOCO+,RefCOCOgにおける最先端の1ステージベースラインに対して,それぞれ5.0%,4.5%,7.5%,12.8%の絶対的な改善が得られたことを示す。 特に、より長く複雑なクエリにおける優れたパフォーマンスは、クエリモデリングの有効性を検証する。

We improve one-stage visual grounding by addressing current limitations on grounding long and complex queries. Existing one-stage methods encode the entire language query as a single sentence embedding vector, e.g., taking the embedding from BERT or the hidden state from LSTM. This single vector representation is prone to overlooking the detailed descriptions in the query. To address this query modeling deficiency, we propose a recursive sub-query construction framework, which reasons between image and query for multiple rounds and reduces the referring ambiguity step by step. We show our new one-stage method obtains 5.0%, 4.5%, 7.5%, 12.8% absolute improvements over the state-of-the-art one-stage baseline on ReferItGame, RefCOCO, RefCOCO+, and RefCOCOg, respectively. In particular, superior performances on longer and more complex queries validates the effectiveness of our query modeling.
翻訳日:2022-11-03 06:39:57 公開日:2020-08-03
# サイクリング一貫性をもつシームズネットワークを用いた自己教師対象追跡

Self-supervised Object Tracking with Cycle-consistent Siamese Networks ( http://arxiv.org/abs/2008.00637v1 )

ライセンス: Link先を確認
Weihao Yuan, Michael Yu Wang, Qifeng Chen(参考訳) 視覚的物体追跡のための自己教師型学習は、人間の注記やオンライントレーニングなど、教師型学習に比べて有益である。 本研究では,エンドツーエンドのsiameseネットワークを,オブジェクト追跡のためのサイクル一貫性のある自己教師付きフレームワークとして活用する。 自己スーパービジョンは、前方および後方追跡におけるサイクル一貫性を利用して行うことができる。 ディープ・ネットワークのエンド・ツー・エンド・エンド・ラーニングをよりよく活用するために,トラッキング・フレームワークにSiameseリージョンの提案とマスク回帰ネットワークを統合し,各フレームのアノテーションを使わずに,より高速で正確なトラッカーを学習できるようにすることを提案する。 映像オブジェクト追跡のためのVOTデータセットとビデオオブジェクト分割伝搬のためのDAVISデータセットを用いた実験により,本手法が両タスクの先行手法より優れていることが示された。

Self-supervised learning for visual object tracking possesses valuable advantages compared to supervised learning, such as the non-necessity of laborious human annotations and online training. In this work, we exploit an end-to-end Siamese network in a cycle-consistent self-supervised framework for object tracking. Self-supervision can be performed by taking advantage of the cycle consistency in the forward and backward tracking. To better leverage the end-to-end learning of deep networks, we propose to integrate a Siamese region proposal and mask regression network in our tracking framework so that a fast and more accurate tracker can be learned without the annotation of each frame. The experiments on the VOT dataset for visual object tracking and on the DAVIS dataset for video object segmentation propagation show that our method outperforms prior approaches on both tasks.
翻訳日:2022-11-03 06:34:16 公開日:2020-08-03
# PIC-Net:大規模位置認識のためのポイントクラウドと画像協調ネットワーク

PIC-Net: Point Cloud and Image Collaboration Network for Large-Scale Place Recognition ( http://arxiv.org/abs/2008.00658v1 )

ライセンス: Link先を確認
Yuheng Lu, Fan Yang, Fangping Chen, Don Xie(参考訳) Place recognition is one of the hot research fields in automation technology and is still an open issue, Camera and Lidar are two mainstream sensors used in this task, Camera-based methods are easily affected by illumination and season changes, LIDAR cannot get the rich data as the image could , In this paper, we propose the PIC-Net (Point cloud and Image Collaboration Network), which use attention mechanism to fuse the features of image and point cloud, and mine the complementary information between the two. さらに,夜間の認識性能を向上させるため,夜間のイメージを昼間のスタイルに変換する。 比較の結果,イメージとポイントクラウドの協調は,イメージベースとポイントクラウドベースの手法,注意戦略と昼夜変換によってパフォーマンスがさらに向上する可能性が示唆された。

Place recognition is one of the hot research fields in automation technology and is still an open issue, Camera and Lidar are two mainstream sensors used in this task, Camera-based methods are easily affected by illumination and season changes, LIDAR cannot get the rich data as the image could , In this paper, we propose the PIC-Net (Point cloud and Image Collaboration Network), which use attention mechanism to fuse the features of image and point cloud, and mine the complementary information between the two. Furthermore, in order to improve the recognition performance at night, we transform the night image into the daytime style. Comparison results show that the collaboration of image and point cloud outperform both image-based and point cloud-based method, the attention strategy and day-night-transform could further improve the performance.
翻訳日:2022-11-03 06:34:01 公開日:2020-08-03
# 人文推定のための対人意味データ拡張

Adversarial Semantic Data Augmentation for Human Pose Estimation ( http://arxiv.org/abs/2008.00697v1 )

ライセンス: Link先を確認
Yanrui Bin, Xuan Cao, Xinya Chen, Yanhao Ge, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, Changxin Gao, Nong Sang(参考訳) 人間のポーズ推定は、静止画像から身体のキーポイントをローカライズするタスクである。 最先端の方法は、対称的な外観、重度の咬合、近親者などの困難な症例の不十分な例に苦しむ。 難易度を増大させるため、従来の手法では画像パッチを弱い意味論で切り刻み、ペーストすることで画像を拡大し、非現実的な外観と限定的な多様性をもたらす。 そこで我々は,セマンティックデータ拡張法 (SDA) を提案する。 さらに,生成ネットワークを利用して自動ペースト設定を動的に予測するadversarial semantic data augmentation (asda)を提案する。 判別器としてオフザシェルフポーズ推定ネットワークが与えられた場合、ジェネレータは識別器の損失を増やすために最も混乱した変換を求め、識別器は生成されたサンプルを入力として取り、そこから学習する。 パイプライン全体が逆向きに最適化されている。 最先端の結果は、挑戦的なベンチマークで達成される。

Human pose estimation is the task of localizing body keypoints from still images. The state-of-the-art methods suffer from insufficient examples of challenging cases such as symmetric appearance, heavy occlusion and nearby person. To enlarge the amounts of challenging cases, previous methods augmented images by cropping and pasting image patches with weak semantics, which leads to unrealistic appearance and limited diversity. We instead propose Semantic Data Augmentation (SDA), a method that augments images by pasting segmented body parts with various semantic granularity. Furthermore, we propose Adversarial Semantic Data Augmentation (ASDA), which exploits a generative network to dynamiclly predict tailored pasting configuration. Given off-the-shelf pose estimation network as discriminator, the generator seeks the most confusing transformation to increase the loss of the discriminator while the discriminator takes the generated sample as input and learns from it. The whole pipeline is optimized in an adversarial manner. State-of-the-art results are achieved on challenging benchmarks.
翻訳日:2022-11-03 06:33:50 公開日:2020-08-03
# 医用画像における複雑なシーン登録とマイナショットセグメンテーションのための深部補足関節モデル

Deep Complementary Joint Model for Complex Scene Registration and Few-shot Segmentation on Medical Images ( http://arxiv.org/abs/2008.00710v1 )

ライセンス: Link先を確認
Yuting He, Tiantian Li, Guanyu Yang, Youyong Kong, Yang Chen, Huazhong Shu, Jean-Louis Coatrieux, Jean-Louis Dillenseger, Shuo Li(参考訳) 深層学習に基づく医用画像登録とセグメンテーションジョイントモデルは、相補性(登録からの強化データまたは弱教師付きデータ、セグメンテーションからの領域制約)を利用して、複雑なシーンと少数の状況において相互改善をもたらす。 しかし、ジョイントモデルのさらなる採用は妨げられている。 1)増補データの多様性が低下し、さらなる分節化が抑制される。 2 弱監督データにおける不整合領域が訓練過程を妨害する。 3) ラベルベースの領域制約の欠如により登録性能が制限される。 本稿では,複雑なシーン登録とシーン分割のための新しいDeep Complementary Joint Model (DeepRS)を提案する。 登録に摂動係数を埋め込んで変形の活性を増大させ、増大データの多様性を維持する。 弱教師データ中のアライメント領域を強調するアライメント信頼度マップを抽出するために,画素単位の判別器を用いて,重み付けによりアライメント領域の乱れを抑制する。 セグメンテーションモデルからの出力は、深い領域制約を実装するために利用され、ラベル要求を緩和し、詳細な登録をもたらす。 MM-WHS 2017 ChallengeのCTデータセットに関する大規模な実験は、既存の最先端モデルよりも優れたDeepRSの大きな利点を示している。

Deep learning-based medical image registration and segmentation joint models utilize the complementarity (augmentation data or weakly supervised data from registration, region constraints from segmentation) to bring mutual improvement in complex scene and few-shot situation. However, further adoption of the joint models are hindered: 1) the diversity of augmentation data is reduced limiting the further enhancement of segmentation, 2) misaligned regions in weakly supervised data disturb the training process, 3) lack of label-based region constraints in few-shot situation limits the registration performance. We propose a novel Deep Complementary Joint Model (DeepRS) for complex scene registration and few-shot segmentation. We embed a perturbation factor in the registration to increase the activity of deformation thus maintaining the augmentation data diversity. We take a pixel-wise discriminator to extract alignment confidence maps which highlight aligned regions in weakly supervised data so the misaligned regions' disturbance will be suppressed via weighting. The outputs from segmentation model are utilized to implement deep-based region constraints thus relieving the label requirements and bringing fine registration. Extensive experiments on the CT dataset of MM-WHS 2017 Challenge show great advantages of our DeepRS that outperforms the existing state-of-the-art models.
翻訳日:2022-11-03 06:33:33 公開日:2020-08-03
# The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020)

The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020) ( http://arxiv.org/abs/2008.00744v1 )

ライセンス: Link先を確認
Samuel Albanie, Yang Liu, Arsha Nagrani, Antoine Miech, Ernesto Coto, Ivan Laptev, Rahul Sukthankar, Bernard Ghanem, Andrew Zisserman, Valentin Gabeur, Chen Sun, Karteek Alahari, Cordelia Schmid, Shizhe Chen, Yida Zhao, Qin Jin, Kaixu Cui, Hui Liu, Chen Wang, Yudong Jiang, Xiaoshuai Hao(参考訳) 我々は、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020と共同で開かれたオープンコンペティションである、新しいビデオ理解ペンタトロンチャレンジを紹介する。 本課題は,自然言語クエリを用いたビデオコーパス内のコンテンツ検索タスクであるテキスト・ビデオ検索の新しい手法を探索し,評価することであった。 本報告では,課題の第1版の結果と参加者の調査結果を要約した。

We present a new video understanding pentathlon challenge, an open competition held in conjunction with the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020. The objective of the challenge was to explore and evaluate new methods for text-to-video retrieval-the task of searching for content within a corpus of videos using natural language queries. This report summarizes the results of the first edition of the challenge together with the findings of the participants.
翻訳日:2022-11-03 06:32:43 公開日:2020-08-03
# DCSFN: 単一画像降雨除去のための深層クロススケール核融合ネットワーク

DCSFN: Deep Cross-scale Fusion Network for Single Image Rain Removal ( http://arxiv.org/abs/2008.00767v1 )

ライセンス: Link先を確認
Cong Wang, Xiaoying Xing, Zhixun Su, Junyang Chen(参考訳) 他のビジョンやマルチメディアタスクが動作しない可能性のある画像の可視性が著しく低下する可能性があるため、降雨除去は重要ではあるが、コンピュータビジョンの課題である。 従来は特徴抽出や処理,ニューラルネットワーク構造に重点を置いてきたが,現在の降雨除去手法では,クロススケールな関係を考慮せずに単一ネットワーク構造に基づくトレーニングを行えば,情報ドロップアウトが発生する可能性がある。 本稿では,ネットワークとインナースケール・フュージョン・オペレーション間のクロススケール手法を検討し,画像雨除去課題を解決する。 具体的には、異なるスケールで特徴を学習するために、複数のサブネットワーク構造を提案し、これらのサブネットワークをゲートリカレントユニットからインナーリーンへクロススケール方式で融合し、異なるスケールで情報をフル活用する。 さらに,多スケール情報を利用するインナースケール接続ブロックを設計し,雨量表現能力を向上させるために,異なるスケール間での融合方式を特徴とし,インナーコネクションをスキップ接続した密集ブロックを導入する。 合成および実世界の両方のデータセットに対する実験結果から,提案手法が最先端の手法よりも優れていることを示す。 ソースコードはhttps://supercong94.wixsite.com/supercong94で入手できる。

Rain removal is an important but challenging computer vision task as rain streaks can severely degrade the visibility of images that may make other visions or multimedia tasks fail to work. Previous works mainly focused on feature extraction and processing or neural network structure, while the current rain removal methods can already achieve remarkable results, training based on single network structure without considering the cross-scale relationship may cause information drop-out. In this paper, we explore the cross-scale manner between networks and inner-scale fusion operation to solve the image rain removal task. Specifically, to learn features with different scales, we propose a multi-sub-networks structure, where these sub-networks are fused via a crossscale manner by Gate Recurrent Unit to inner-learn and make full use of information at different scales in these sub-networks. Further, we design an inner-scale connection block to utilize the multi-scale information and features fusion way between different scales to improve rain representation ability and we introduce the dense block with skip connection to inner-connect these blocks. Experimental results on both synthetic and real-world datasets have demonstrated the superiority of our proposed method, which outperforms over the state-of-the-art methods. The source code will be available at https://supercong94.wixsite.com/supercong94.
翻訳日:2022-11-03 06:32:33 公開日:2020-08-03
# 多エージェント動作予測のための動的・静的文脈認識LSTM

Dynamic and Static Context-aware LSTM for Multi-agent Motion Prediction ( http://arxiv.org/abs/2008.00777v1 )

ライセンス: Link先を確認
Chaofan Tao, Qinhong Jiang, Lixin Duan, Ping Luo(参考訳) 複雑なシーンで複数のエージェント(例えば歩行者)の将来の軌道を同時に予測することを目的としているため、マルチエージェント動作予測は困難である。 既存の作業は、歩行者のグループの位置で表される社会的空間的相互作用を学習し、時間的コヒーレンスを無視した(\textit{i.e.} )か、複雑なシーンレイアウト(\textit{e.} シーンセグメンテーション)を理解して安全なナビゲーションを確保することによって、この問題に対処した。 しかし、空間的相互作用、時間的コヒーレンス、シーンレイアウトを分離した以前の研究とは異なり、この論文では、これらのリッチな情報を長期記憶(LSTM)に統合するための新しいメカニズムである「textit{i.e.}, Dynamic and Static Context-aware Motion Predictor (DSCMP)」を設計した。 3つの利点がある。 1) DSCMPは, 空間的位置と時間的コヒーレンスの両方を学ぶことによってエージェント間の動的相互作用をモデル化し, 文脈的シーンレイアウトを理解する。 2) フレーム単位で隠れた特徴を伝達して動きを予測する従来のLSTMモデルと異なり,長い軌跡間の相関関係を学習する能力を制限するため,長い軌跡間の相関関係を明示的に記憶し学習できるDSCMPの異なるキュー機構を慎重に設計する。 (3)DSCMPは、意味のあるシーンレイアウトを持つマルチモーダル予測を可能にする潜在変数を推論することで、シーンのコンテキストをキャプチャする。 大規模な実験により、DSCMPはETH-UCYデータセットとSDDデータセットにおける9.05\%と7.62\%の相対的な改善など、最先端の手法よりも大きなマージンで優れていることが示された。

Multi-agent motion prediction is challenging because it aims to foresee the future trajectories of multiple agents (\textit{e.g.} pedestrians) simultaneously in a complicated scene. Existing work addressed this challenge by either learning social spatial interactions represented by the positions of a group of pedestrians, while ignoring their temporal coherence (\textit{i.e.} dependencies between different long trajectories), or by understanding the complicated scene layout (\textit{e.g.} scene segmentation) to ensure safe navigation. However, unlike previous work that isolated the spatial interaction, temporal coherence, and scene layout, this paper designs a new mechanism, \textit{i.e.}, Dynamic and Static Context-aware Motion Predictor (DSCMP), to integrates these rich information into the long-short-term-memory (LSTM). It has three appealing benefits. (1) DSCMP models the dynamic interactions between agents by learning both their spatial positions and temporal coherence, as well as understanding the contextual scene layout.(2) Different from previous LSTM models that predict motions by propagating hidden features frame by frame, limiting the capacity to learn correlations between long trajectories, we carefully design a differentiable queue mechanism in DSCMP, which is able to explicitly memorize and learn the correlations between long trajectories. (3) DSCMP captures the context of scene by inferring latent variable, which enables multimodal predictions with meaningful semantic scene layout. Extensive experiments show that DSCMP outperforms state-of-the-art methods by large margins, such as 9.05\% and 7.62\% relative improvements on the ETH-UCY and SDD datasets respectively.
翻訳日:2022-11-03 06:32:10 公開日:2020-08-03
# 衛星画像の高速超解像のための深部・非深部法の融合

Fusion of Deep and Non-Deep Methods for Fast Super-Resolution of Satellite Images ( http://arxiv.org/abs/2008.00878v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Saksham Jain, R Venkatesh Babu, Anirban Chakraborty(参考訳) 新興の商用宇宙産業では、低コストの衛星画像へのアクセスが大幅に増加している。 衛星画像の価格は、センサーの品質と再訪率に依存する。 本研究は,高解像度(SR)による画質向上により,画質と価格のギャップを埋めることを提案する。 近年,衛星画像を強化するための深層sr技術が提案されている。 しかし、これらの方法はいずれも領域レベルのコンテキスト情報を使用しず、画像の各領域に等しく重要となる。 このことは、ほとんどの最先端のSR手法が複雑で面倒な深層モデルであるため、非常に大きな衛星画像を処理するのに要する時間は不可分に高い。 本稿では,低解像度画像の各パッチ上の地域情報内容を分析し,より複雑な深層モデルを用いて画像上のより構造豊かな領域を超解き,非塩領域における資源集約的非深層メソッドを少なくするsrフレームワークを設計することで,この問題に対処することを提案する。 大規模な衛星画像に対する広範囲な実験により,PSNR,MSE,SSIMなどのいくつかの評価尺度において,既存の深部SR法と同等の性能を示しながら,推測時間の大幅な減少を示す。

In the emerging commercial space industry there is a drastic increase in access to low cost satellite imagery. The price for satellite images depends on the sensor quality and revisit rate. This work proposes to bridge the gap between image quality and the price by improving the image quality via super-resolution (SR). Recently, a number of deep SR techniques have been proposed to enhance satellite images. However, none of these methods utilize the region-level context information, giving equal importance to each region in the image. This, along with the fact that most state-of-the-art SR methods are complex and cumbersome deep models, the time taken to process very large satellite images can be impractically high. We, propose to handle this challenge by designing an SR framework that analyzes the regional information content on each patch of the low-resolution image and judiciously chooses to use more computationally complex deep models to super-resolve more structure-rich regions on the image, while using less resource-intensive non-deep methods on non-salient regions. Through extensive experiments on a large satellite image, we show substantial decrease in inference time while achieving similar performance to that of existing deep SR methods over several evaluation measures like PSNR, MSE and SSIM.
翻訳日:2022-11-03 06:31:08 公開日:2020-08-03
# マルコフ連鎖モンテカルロの適応物理インフォームドニューラルネットワーク

Adaptive Physics-Informed Neural Networks for Markov-Chain Monte Carlo ( http://arxiv.org/abs/2008.01604v1 )

ライセンス: Link先を確認
Mohammad Amin Nabian, Hadi Meidani(参考訳) 本稿では,markov-chain monte carlo (mcmc) を用いたシミュレーションフリーベイズパラメータ推定のための適応物理学インフォームドニューラルネットワーク (apinns) を提案する。 具体的には, PDE の解法を必要とする確率関数の計算を行うパラメータ推定問題に着目する。 提案手法は,(1)フォワードモデルへの近似としてオフラインPINN-UQモデルを構築し,(2)MCMCサンプルから生成されたサンプルを用いて,この近似モデルをフライで精製する。 提案したAPINN法は,この近似モデルを常に改良し,近似誤差がユーザ定義残差誤差閾値以下であることを保証する。 本稿では,ポアソン方程式が支配するシステムのパラメータ推定問題を解くために提案するapinn法の性能を数値的に示す。

In this paper, we propose the Adaptive Physics-Informed Neural Networks (APINNs) for accurate and efficient simulation-free Bayesian parameter estimation via Markov-Chain Monte Carlo (MCMC). We specifically focus on a class of parameter estimation problems for which computing the likelihood function requires solving a PDE. The proposed method consists of: (1) constructing an offline PINN-UQ model as an approximation to the forward model; and (2) refining this approximate model on the fly using samples generated from the MCMC sampler. The proposed APINN method constantly refines this approximate model on the fly and guarantees that the approximation error is always less than a user-defined residual error threshold. We numerically demonstrate the performance of the proposed APINN method in solving a parameter estimation problem for a system governed by the Poisson equation.
翻訳日:2022-11-03 06:24:51 公開日:2020-08-03
# ディープラーニングを用いた金融新興イベントツイートのトピック分析

Deep Learning based Topic Analysis on Financial Emerging Event Tweets ( http://arxiv.org/abs/2008.00670v1 )

ライセンス: Link先を確認
Shaan Aryaman and Nguwi Yok Yen(参考訳) 株式市場の財務分析は、過去の価格やその他の測定可能な指標に基づいて、後続または市場の動きを予測するために、量的アプローチに大きく依存している。 これらの定量的分析は、市場に影響を与える感情や憶測のような、定量化できない側面を見逃したかもしれない。 大量の質的テキストデータを分析してソーシャルメディアプラットフォーム上の世論を理解することは、このギャップに対処するアプローチのひとつだ。 本研究では,28264件の金融ツイートのトピック分析を行った。 この期間に3つの主要な話題が頻繁に議論された。 まず、EPSは投資家の間で頻繁に議論されている指標である。 第二に、株式の短い売却が議論され、しばしばモルガン・スタンレーと共に言及された。 第3に、石油とエネルギー部門は政策とともにしばしば議論された。 これらのツイートは、単語をベクトルにマップする単語埋め込みを得るためにword2vecアルゴリズムからなる方法で意味的にクラスタ化されていた。 その後、セマンティックな単語集合が形成された。 各ツイートは、その単語がどのクラスタにあるかに基づいて、その単語のTF-IDF(Term Frequency-Inverse Document Frequency)値を用いてベクトル化された。 ツイートベクトルは、ディープオートエンコーダをトレーニングすることで圧縮表現に変換される。 その後、K平均クラスターが形成された。 この方法は次元を減少させ、通常のベクトル空間モデルとは対照的に密度の高いベクトルを生成する。 Latent Dirichlet Allocation (LDA)と上位頻繁な単語を用いたトピックモデリングは、クラスタを分析し、出現するイベントを明らかにするために使用された。

Financial analyses of stock markets rely heavily on quantitative approaches in an attempt to predict subsequent or market movements based on historical prices and other measurable metrics. These quantitative analyses might have missed out on un-quantifiable aspects like sentiment and speculation that also impact the market. Analyzing vast amounts of qualitative text data to understand public opinion on social media platform is one approach to address this gap. This work carried out topic analysis on 28264 financial tweets [1] via clustering to discover emerging events in the stock market. Three main topics were discovered to be discussed frequently within the period. First, the financial ratio EPS is a measure that has been discussed frequently by investors. Secondly, short selling of shares were discussed heavily, it was often mentioned together with Morgan Stanley. Thirdly, oil and energy sectors were often discussed together with policy. These tweets were semantically clustered by a method consisting of word2vec algorithm to obtain word embeddings that map words to vectors. Semantic word clusters were then formed. Each tweet was then vectorized using the Term Frequency-Inverse Document Frequency (TF-IDF) values of the words it consisted of and based on which clusters its words were in. Tweet vectors were then converted to compressed representations by training a deep-autoencoder. K-means clusters were then formed. This method reduces dimensionality and produces dense vectors, in contrast to the usual Vector Space Model. Topic modelling with Latent Dirichlet Allocation (LDA) and top frequent words were used to analyze clusters and reveal emerging events.
翻訳日:2022-11-03 06:24:37 公開日:2020-08-03
# LT@Helsinki at SemEval-2020 Task 12: Multilingual or language-specific BERT?

LT@Helsinki at SemEval-2020 Task 12: Multilingual or language-specific BERT? ( http://arxiv.org/abs/2008.00805v1 )

ライセンス: Link先を確認
Marc P\`amies, Emily \"Ohman, Kaisla Kajava, J\"org Tiedemann(参考訳) 本稿では,SemEval 2020 Shared Task 12でLT@Helsinkiチームが提出したさまざまなモデルについて述べる。 研究チームは,攻撃的言語識別と攻撃的ターゲット識別という題名のサブタスクAとCに参加した。 どちらのケースでも、Googleが事前トレーニングし、OLIDデータセットとSOLIDデータセットを微調整した、いわゆるBERT(Bidirectional Encoder Representation from Transformer)を使用しました。 その結果、攻撃的なツイート分類は、BERTが最先端の結果を達成できる言語ベースのタスクの1つであることがわかった。

This paper presents the different models submitted by the LT@Helsinki team for the SemEval 2020 Shared Task 12. Our team participated in sub-tasks A and C; titled offensive language identification and offense target identification, respectively. In both cases we used the so-called Bidirectional Encoder Representation from Transformer (BERT), a model pre-trained by Google and fine-tuned by us on the OLID and SOLID datasets. The results show that offensive tweet classification is one of several language-based tasks where BERT can achieve state-of-the-art results.
翻訳日:2022-11-03 06:24:14 公開日:2020-08-03
# 多次元神経・行動関係解析のためのパラメトリックコプラGPモデル

Parametric Copula-GP model for analyzing multidimensional neuronal and behavioral relationships ( http://arxiv.org/abs/2008.01007v1 )

ライセンス: Link先を確認
Nina Kudryashova, Theoklitos Amvrosiadis, Nathalie Dupuy, Nathalie Rochefort, Arno Onken(参考訳) 現在のシステム神経科学の主な課題の1つは、記録された変数の異なる統計と時間スケールによって特徴づけられる高次元の神経および行動データの分析である。 本研究では,個々の変数の統計をその依存構造から分離し,vine copula 構成を用いて次元の呪いから逃れるパラメトリックコプラモデルを提案する。 連続タスク関連変数に条件付きコプラパラメータにガウス過程(GP)を優先したベイズフレームワークを用いる。 合成データ上でのモデルの有効性を検証し、その性能を比較して、よく使われる非パラメトリックアルゴリズムと相互情報を推定する。 私たちのモデルは、データ内の依存関係がフレームワークで使用されるパラメトリックコプラと一致する場合の正確な情報見積もりを提供します。 パラメトリックモデルによる正確な密度推定が不可能な場合、我々のCopula-GPモデルは、基礎的な真実に近く、ニューラルネットワーク推定器で得られたものと同等の合理的な情報推定を提供することができる。 最後に、覚醒マウスで得られた実際の神経および行動記録に我々の枠組みを適用した。 筆者らは,1)脳間雑音相関や行動変調の分析のための正確かつ解釈可能な二変量モデルを作成する能力を示し,2)100以上の次元に拡張し,全人口統計における情報内容を測定する。 これらの結果から,Copula-GPフレームワークは神経,感覚,行動データ間の複雑な多次元関係の解析に特に有用であることが示唆された。

One of the main challenges in current systems neuroscience is the analysis of high-dimensional neuronal and behavioral data that are characterized by different statistics and timescales of the recorded variables. We propose a parametric copula model which separates the statistics of the individual variables from their dependence structure, and escapes the curse of dimensionality by using vine copula constructions. We use a Bayesian framework with Gaussian Process (GP) priors over copula parameters, conditioned on a continuous task-related variable. We validate the model on synthetic data and compare its performance in estimating mutual information against the commonly used non-parametric algorithms. Our model provides accurate information estimates when the dependencies in the data match the parametric copulas used in our framework. When the exact density estimation with a parametric model is not possible, our Copula-GP model is still able to provide reasonable information estimates, close to the ground truth and comparable to those obtained with a neural network estimator. Finally, we apply our framework to real neuronal and behavioral recordings obtained in awake mice. We demonstrate the ability of our framework to 1) produce accurate and interpretable bivariate models for the analysis of inter-neuronal noise correlations or behavioral modulations; 2) expand to more than 100 dimensions and measure information content in the whole-population statistics. These results demonstrate that the Copula-GP framework is particularly useful for the analysis of complex multidimensional relationships between neuronal, sensory and behavioral data.
翻訳日:2022-11-03 06:23:42 公開日:2020-08-03
# meta soft label correctorによるノイズラベルの純化の学習

Learning to Purify Noisy Labels via Meta Soft Label Corrector ( http://arxiv.org/abs/2008.00627v1 )

ライセンス: Link先を確認
Yichen Wu, Jun Shu, Qi Xie, Qian Zhao and Deyu Meng(参考訳) 最近のディープニューラルネットワーク(DNN)は、ノイズラベルによるバイアス付きトレーニングデータに容易に適合する。 ラベル修正戦略は、疑わしいノイズラベルを識別し、修正する手法を設計することでこの問題を軽減するために一般的に用いられる。 腐敗したラベルを修正する現在のアプローチでは、事前に定義されたラベル修正ルールや手動でハイパーパラメータをプリセットする必要がある。 これらの固定された設定は、具体的な問題、訓練データ、訓練プロセスの動的反復に隠された時間的情報に関連する正確なラベルの修正を行うのが困難である。 この問題に対処するために,ノイズのないメタデータの指導の下で,メタ勾配降下ステップを通じてソフトラベルを推定できるメタラーニングモデルを提案する。 ラベル補正手順をメタプロセスとして,メタリーナーを用いてラベルを自動修正することにより,手動でハイパーパラメータをプリセットすることなく,現在のトレーニング問題に従って反復的に修正されたソフトラベルを適応的に得ることができた。 さらに,本手法はモデルに依存しないため,既存のモデルと簡単に組み合わせることができる。 包括的実験は,現在のsotaラベル補正手法と比較して,ノイズラベルを用いた合成問題と実世界問題の両方において,本手法が優れていることを示す。

Recent deep neural networks (DNNs) can easily overfit to biased training data with noisy labels. Label correction strategy is commonly used to alleviate this issue by designing a method to identity suspected noisy labels and then correct them. Current approaches to correcting corrupted labels usually need certain pre-defined label correction rules or manually preset hyper-parameters. These fixed settings make it hard to apply in practice since the accurate label correction usually related with the concrete problem, training data and the temporal information hidden in dynamic iterations of training process. To address this issue, we propose a meta-learning model which could estimate soft labels through meta-gradient descent step under the guidance of noise-free meta data. By viewing the label correction procedure as a meta-process and using a meta-learner to automatically correct labels, we could adaptively obtain rectified soft labels iteratively according to current training problems without manually preset hyper-parameters. Besides, our method is model-agnostic and we can combine it with any other existing model with ease. Comprehensive experiments substantiate the superiority of our method in both synthetic and real-world problems with noisy labels compared with current SOTA label correction strategies.
翻訳日:2022-11-03 06:22:18 公開日:2020-08-03
# 構成による誤り:有限個の例集合における性能保証のための微調整ニューラルネットワーク

Incorrect by Construction: Fine Tuning Neural Networks for Guaranteed Performance on Finite Sets of Examples ( http://arxiv.org/abs/2008.01204v1 )

ライセンス: Link先を確認
Ivan Papusha, Rosa Wu, Joshua Brul\'e, Yanni Kouskoulas, Daniel Genin, Aurora Schmidt(参考訳) ディープニューラルネットワークの信頼性を保証するための形式的手法の利用には大きな関心がある。 しかし、これらの技術は慎重に選択された入出力ペアを移植するためにも用いられる。 本稿では、SMTソルバを用いてReLUニューラルネットワークの重みを微調整し、特定の例の有限集合に対する結果を保証する新しい手法に関する最初の結果を示す。 この手順は、主要な例のパフォーマンスを保証するために使用できるが、予期せぬパフォーマンスを引き起こす難しい不正確な例を挿入するためにも使用できる。 我々は、MNISTネットワークを微調整して、特定の画像を誤って分類し、自由共有機械学習モデルの信頼性を損なうアプローチの可能性について議論する。

There is great interest in using formal methods to guarantee the reliability of deep neural networks. However, these techniques may also be used to implant carefully selected input-output pairs. We present initial results on a novel technique for using SMT solvers to fine tune the weights of a ReLU neural network to guarantee outcomes on a finite set of particular examples. This procedure can be used to ensure performance on key examples, but it could also be used to insert difficult-to-find incorrect examples that trigger unexpected performance. We demonstrate this approach by fine tuning an MNIST network to incorrectly classify a particular image and discuss the potential for the approach to compromise reliability of freely-shared machine learning models.
翻訳日:2022-11-03 06:16:03 公開日:2020-08-03
# 同時学習による観察による行動クローンの性能向上

Concurrent Training Improves the Performance of Behavioral Cloning from Observation ( http://arxiv.org/abs/2008.01205v1 )

ライセンス: Link先を確認
Zachary W. Robertson, Matthew R. Walter(参考訳) デモから学ぶことは、ロボットが新しいスキルを獲得するための効率的な方法として広く使われている。 しかし、通常、デモは状態とアクションシーケンスへの完全なアクセスを提供する必要がある。 対照的に、観察からの学習は、未ラベルのデモ(例えばビデオ)を利用して模倣学習を行う手段を提供する。 これに対する1つのアプローチは、観察からの行動クローニング(BCO)である。 もともとのBCOの実装は、まず逆ダイナミクスモデルを学び、次にそのモデルを使用してアクションラベルを推定することにより、振る舞いのクローンの問題を減らす。 しかしながら、既存のBCOへのアプローチは、最初のステップで多数の初期相互作用を必要とする。 本稿では,BCO の新たな理論的解析を行い,修正 BCO* を導入し,半教師付き設定において,BCO* が逆ダイナミクスモデルとエキスパートポリシーの両方の見積もりを同時に改善可能であることを示す。 この結果、初期相互作用への依存を取り除き、bcoのサンプル複雑さを劇的に改善することができる。 我々は,様々なベンチマーク領域の実験を通じて,アルゴリズムの有効性を評価する。 その結果,同時学習はBCOの性能を向上するだけでなく,GAILやValue-Diceといった最先端の模倣学習手法と競合する性能も向上することが示された。

Learning from demonstration is widely used as an efficient way for robots to acquire new skills. However, it typically requires that demonstrations provide full access to the state and action sequences. In contrast, learning from observation offers a way to utilize unlabeled demonstrations (e.g., video) to perform imitation learning. One approach to this is behavioral cloning from observation (BCO). The original implementation of BCO proceeds by first learning an inverse dynamics model and then using that model to estimate action labels, thereby reducing the problem to behavioral cloning. However, existing approaches to BCO require a large number of initial interactions in the first step. Here, we provide a novel theoretical analysis of BCO, introduce a modification BCO*, and show that in the semi-supervised setting, BCO* can concurrently improve both its estimate for the inverse dynamics model and the expert policy. This result allows us to eliminate the dependence on initial interactions and dramatically improve the sample complexity of BCO. We evaluate the effectiveness of our algorithm through experiments on various benchmark domains. The results demonstrate that concurrent training not only improves over the performance of BCO but also results in performance that is competitive with state-of-the-art imitation learning methods such as GAIL and Value-Dice.
翻訳日:2022-11-03 06:15:50 公開日:2020-08-03
# サブカテゴリ探索による弱改良セマンティックセマンティックセグメンテーション

Weakly-Supervised Semantic Segmentation via Sub-category Exploration ( http://arxiv.org/abs/2008.01183v1 )

ライセンス: Link先を確認
Yu-Ting Chang, Qiaosong Wang, Wei-Chih Hung, Robinson Piramuthu, Yi-Hsuan Tsai, Ming-Hsuan Yang(参考訳) 画像レベルのアノテーションを使用する既存の弱い教師付きセマンティックセグメンテーションメソッドは、通常、オブジェクト領域を見つけるために初期応答に依存する。 しかし、分類ネットワークが生成するそのような応答マップは、ネットワークが目的関数を最適化するために対象全体を必要としないという事実から、通常判別対象部分に焦点を当てている。 オブジェクトの他の部分に注意を向けるようにネットワークを強制するために,サブカテゴリ情報を利用して自己監督タスクを導入する,シンプルで効果的なアプローチを提案する。 具体的には,画像特徴のクラスタリングを行い,アノテートされた親クラス内の擬似サブカテゴリラベルを生成し,ネットワークをより困難なタスクに割り当てるサブカテゴリの目的を構築する。 画像特徴を反復的にクラスタリングすることで、トレーニングプロセスは最も識別可能な対象部分に制限されないため、応答マップの品質が向上する。 提案手法の有効性を検証し,提案手法が最先端手法に対して良好に機能することを示す。

Existing weakly-supervised semantic segmentation methods using image-level annotations typically rely on initial responses to locate object regions. However, such response maps generated by the classification network usually focus on discriminative object parts, due to the fact that the network does not need the entire object for optimizing the objective function. To enforce the network to pay attention to other parts of an object, we propose a simple yet effective approach that introduces a self-supervised task by exploiting the sub-category information. Specifically, we perform clustering on image features to generate pseudo sub-categories labels within each annotated parent class, and construct a sub-category objective to assign the network to a more challenging task. By iteratively clustering image features, the training process does not limit itself to the most discriminative object parts, hence improving the quality of the response maps. We conduct extensive analysis to validate the proposed method and show that our approach performs favorably against the state-of-the-art approaches.
翻訳日:2022-11-03 06:14:26 公開日:2020-08-03
# Mixup-CAM:不確かさ規則化による弱制御セマンティックセマンティックセグメンテーション

Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty Regularization ( http://arxiv.org/abs/2008.01201v1 )

ライセンス: Link先を確認
Yu-Ting Chang, Qiaosong Wang, Wei-Chih Hung, Robinson Piramuthu, Yi-Hsuan Tsai, Ming-Hsuan Yang(参考訳) 画像レベルのラベルを用いた弱教師付きセマンティックセグメンテーションを実現するためには,オブジェクト応答マップの取得が重要なステップである。 しかし、既存の手法は分類タスクに依存しており、ネットワークが分類損失を最適化するためにオブジェクト全体を見る必要がないため、識別対象領域のみに応答マップを付けることができる。 この問題に対処するため,我々は,ネットワークが対象の他の部分に注意を払いながら,より完全かつ均一な応答マップを作成するための,原則とエンドツーエンドのトレイン可能フレームワークを提案する。 具体的には、分類ネットワークにミックスアップデータ拡張スキームを導入し、ミックスアップ戦略との対話性を高めるために、2つの不確実性正規化項を設計する。 実験では,提案手法を広範囲に分析し,最先端手法に対して良好な性能を示す。

Obtaining object response maps is one important step to achieve weakly-supervised semantic segmentation using image-level labels. However, existing methods rely on the classification task, which could result in a response map only attending on discriminative object regions as the network does not need to see the entire object for optimizing the classification loss. To tackle this issue, we propose a principled and end-to-end train-able framework to allow the network to pay attention to other parts of the object, while producing a more complete and uniform response map. Specifically, we introduce the mixup data augmentation scheme into the classification network and design two uncertainty regularization terms to better interact with the mixup strategy. In experiments, we conduct extensive analysis to demonstrate the proposed method and show favorable performance against state-of-the-art approaches.
翻訳日:2022-11-03 06:14:09 公開日:2020-08-03
# 容積3次元ct手荷物検診画像におけるマルチクラス3次元物体検出

Multi-Class 3D Object Detection Within Volumetric 3D Computed Tomography Baggage Security Screening Imagery ( http://arxiv.org/abs/2008.01218v1 )

ライセンス: Link先を確認
Qian Wang, Neelanjan Bhowmik, Toby P. Breckon(参考訳) 旅客荷物内の禁止対象の自動検出は航空安全にとって重要である。 x線ct(x-ray ct)ベースの3dイメージングは空港の航空防犯スクリーニングに広く使われているが、自動禁止アイテム検出は2dx線画像が中心である。 これらの研究により、深層畳み込みニューラルネットワーク(cnn)による2次元x線画像から体積3次元ct手荷物検診画像への自動禁止項目検出の可能性が証明された。 しかし、以前のバッグセキュリティスクリーニング画像における3Dオブジェクト検出の研究は、特定の種類の物体(例えば、ボトルや拳銃など)の検出に焦点を当てていた。 その結果,複数種類の禁止項目を実際に検出する必要がある場合,複数のモデルが必要となる。 本稿では,一つの統一フレームワークを用いて,関心対象の複数のカテゴリの検出について検討する。 この目的のために,3次元CT画像内により困難な3次元物体検出問題を定式化し,この問題に対処するための実現可能なソリューション(3D RetinaNet)を提案する。 検出性能を向上させるため,データ拡張やバックボーンネットワークの変更など,様々な戦略を検討する。 提案手法を定量的・定性的に評価するために, 3次元ct手荷物検診画像におけるマルチクラス3次元物体検出実験を行った。 実験の結果、3d retinanetと一連の好ましい戦略の組み合わせは、5つのオブジェクトクラス(つまり、ボトル、拳銃、双眼鏡、グロックフレーム、ipod)の平均平均精度(map)を65.3\%達成できることが示されている。 全体的なパフォーマンスは、データ不足とバッグクラッタとの類似性により、 {\it glock frame} と {\it iPods} の低パフォーマンスの影響を受けている。

Automatic detection of prohibited objects within passenger baggage is important for aviation security. X-ray Computed Tomography (CT) based 3D imaging is widely used in airports for aviation security screening whilst prior work on automatic prohibited item detection focus primarily on 2D X-ray imagery. These works have proven the possibility of extending deep convolutional neural networks (CNN) based automatic prohibited item detection from 2D X-ray imagery to volumetric 3D CT baggage security screening imagery. However, previous work on 3D object detection in baggage security screening imagery focused on the detection of one specific type of objects (e.g., either {\it bottles} or {\it handguns}). As a result, multiple models are needed if more than one type of prohibited item is required to be detected in practice. In this paper, we consider the detection of multiple object categories of interest using one unified framework. To this end, we formulate a more challenging multi-class 3D object detection problem within 3D CT imagery and propose a viable solution (3D RetinaNet) to tackle this problem. To enhance the performance of detection we investigate a variety of strategies including data augmentation and varying backbone networks. Experimentation carried out to provide both quantitative and qualitative evaluations of the proposed approach to multi-class 3D object detection within 3D CT baggage security screening imagery. Experimental results demonstrate the combination of the 3D RetinaNet and a series of favorable strategies can achieve a mean Average Precision (mAP) of 65.3\% over five object classes (i.e. {\it bottles, handguns, binoculars, glock frames, iPods}). The overall performance is affected by the poor performance on {\it glock frames} and {\it iPods} due to the lack of data and their resemblance with the baggage clutter.
翻訳日:2022-11-03 06:13:52 公開日:2020-08-03
# 胸部X線画像を用いたマルチタスク駆動型COVID-19説明診断

Multi-Task Driven Explainable Diagnosis of COVID-19 using Chest X-ray Images ( http://arxiv.org/abs/2008.03205v1 )

ライセンス: Link先を確認
Aakarsh Malhotra, Surbhi Mittal, Puspita Majumdar, Saheb Chhabra, Kartik Thakral, Mayank Vatsa, Richa Singh, Santanu Chaudhury, Ashwin Pudrod, Anjali Agrawal(参考訳) 全世界で新型コロナウイルスの感染者が増えている中、各国は検査数を増やしている。 RT-PCRキットはいくつかの国で十分利用できるが、遠隔地ではテストキットや処理センターが限られているという問題に直面している。 このことから研究者は、信頼性が高く、簡単にアクセスでき、より速くテストする方法を見つけるようになった。 胸部X線はスクリーニングモダリティとして受け入れられているモダリティの1つである。 この方向に向けて、論文には2つの主要な貢献がある。 まず,新型コロナウイルススクリーニングのためのエンドツーエンド自動ネットワークであるcovid-19 multi-task networkを提案する。 提案ネットワークは、CXRに新型コロナウイルスの特徴が存在するか否かを予測するだけでなく、興味のある領域のセマンティックセマンティックセグメンテーションを行い、モデルを説明できるようにする。 第2に、医療専門家の助けを借りて、ChestXray-14、CheXpertおよび統合COVID-19データセットから採取した9000個の前頭胸部X線写真から肺領域を手動で注釈する。 さらに、covid-19患者に関する200の胸部x線写真もセマンティックセグメンテーションにアノテートされている。 このデータベースは研究コミュニティにリリースされる予定だ。

With increasing number of COVID-19 cases globally, all the countries are ramping up the testing numbers. While the RT-PCR kits are available in sufficient quantity in several countries, others are facing challenges with limited availability of testing kits and processing centers in remote areas. This has motivated researchers to find alternate methods of testing which are reliable, easily accessible and faster. Chest X-Ray is one of the modalities that is gaining acceptance as a screening modality. Towards this direction, the paper has two primary contributions. Firstly, we present the COVID-19 Multi-Task Network which is an automated end-to-end network for COVID-19 screening. The proposed network not only predicts whether the CXR has COVID-19 features present or not, it also performs semantic segmentation of the regions of interest to make the model explainable. Secondly, with the help of medical professionals, we manually annotate the lung regions of 9000 frontal chest radiographs taken from ChestXray-14, CheXpert and a consolidated COVID-19 dataset. Further, 200 chest radiographs pertaining to COVID-19 patients are also annotated for semantic segmentation. This database will be released to the research community.
翻訳日:2022-11-03 06:13:21 公開日:2020-08-03
# AiRoundとCV-BrCT:シーン分類のための新しいマルチビューデータセット

AiRound and CV-BrCT: Novel Multi-View Datasets for Scene Classification ( http://arxiv.org/abs/2008.01133v1 )

ライセンス: Link先を確認
Gabriel Machado, Edemir Ferreira, Keiller Nogueira, Hugo Oliveira, Pedro Gama and Jefersson A. dos Santos(参考訳) 航空衛星画像が様々なタスクに有用な情報を提供できることは否定できない。 しかし、これらの画像は常に上から見ているので、地上画像などの他の視点から得られる補完的な情報から恩恵を受けるアプリケーションもある。 地理参照写真と空中画像の両方の公開リポジトリは多いが、空中画像と地上画像の利点と相補性を利用するアプローチの開発を可能にするベンチマークデータセットが不足している。 本稿では,<thedataset</the>とCV-BrCTという2つの新しいデータセットを提案する。 1つ目は、世界中の様々な場所から抽出された視点の異なる同じ地理的座標からの3つの画像を含む。 各トリプルトは、空中RGB画像、地上レベルの視点画像、およびセンチネル2サンプルで構成されている。 第2のデータセットは、ブラジル南東部から抽出された空中およびストリートレベルの画像のペアを含んでいる。 本研究では,早期および後期融合を用いた多視点シーン分類に関する実験セットを設計する。 このような実験により,マルチビューデータを用いて画像分類を拡張できることを示した。

It is undeniable that aerial/satellite images can provide useful information for a large variety of tasks. But, since these images are always looking from above, some applications can benefit from complementary information provided by other perspective views of the scene, such as ground-level images. Despite a large number of public repositories for both georeferenced photographs and aerial images, there is a lack of benchmark datasets that allow the development of approaches that exploit the benefits and complementarity of aerial/ground imagery. In this paper, we present two new publicly available datasets named \thedataset~and CV-BrCT. The first one contains triplets of images from the same geographic coordinate with different perspectives of view extracted from various places around the world. Each triplet is composed of an aerial RGB image, a ground-level perspective image, and a Sentinel-2 sample. The second dataset contains pairs of aerial and street-level images extracted from southeast Brazil. We design an extensive set of experiments concerning multi-view scene classification, using early and late fusion. Such experiments were conducted to show that image classification can be enhanced using multi-view data.
翻訳日:2022-11-03 06:07:06 公開日:2020-08-03
# 言語モデルと多言語:多言語テキスト音声のためのメタラーニング

One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech ( http://arxiv.org/abs/2008.00768v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Nekvinda and Ond\v{r}ej Du\v{s}ek(参考訳) 本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案し,従来の手法よりも多くの言語と少ない訓練データを用いて自然発声多言語音声を生成する。 本モデルでは,完全畳み込み入力テキストエンコーダを持つtacotron 2をベースとし,パラメータ生成ネットワークによって重みが予測される。 音声のクローニングを促進するために、エンコーダから話者固有の情報を除去する勾配反転層を備えた対向話者分類器を使用する。 我々は,(1)低量のデータを用いたトレーニングにおける安定性と性能,(2)コードスイッチング合成における発音精度と音声品質の2つの実験を,言語間パラメータ共有の様々なレベルを用いてベースラインと比較して評価した。 トレーニングには、css10データセットと、5つの言語で共通の音声記録に基づいた新しい小さなデータセットを使用しました。 本モデルは,言語間情報を効果的に共有することを示し,主観的評価テストにより,ベースラインよりも自然で正確なコード交換音声を生成する。

We introduce an approach to multilingual speech synthesis which uses the meta-learning concept of contextual parameter generation and produces natural-sounding multilingual speech using more languages and less training data than previous approaches. Our model is based on Tacotron 2 with a fully convolutional input text encoder whose weights are predicted by a separate parameter generator network. To boost voice cloning, the model uses an adversarial speaker classifier with a gradient reversal layer that removes speaker-specific information from the encoder. We arranged two experiments to compare our model with baselines using various levels of cross-lingual parameter sharing, in order to evaluate: (1) stability and performance when training on low amounts of data, (2) pronunciation accuracy and voice quality of code-switching synthesis. For training, we used the CSS10 dataset and our new small dataset based on Common Voice recordings in five languages. Our model is shown to effectively share information across languages and according to a subjective evaluation test, it produces more natural and accurate code-switching speech than the baselines.
翻訳日:2022-11-03 06:06:29 公開日:2020-08-03
# NFV管理とオーケストレーションにおける高度なインテリジェンスの必要性

The Need for Advanced Intelligence in NFV Management and Orchestration ( http://arxiv.org/abs/2008.00937v1 )

ライセンス: Link先を確認
Dimitrios Michael Manias and Abdallah Shami(参考訳) ネットワークサービスプロバイダ(NSP)は、常時接続の需要があるため、そのネットワークを最適化して、接続需要の増加に対応するために必要な資本と運用費の増大に対応する必要がある。 この課題に対する解決策は network function virtualization (nfv) を通じて提示された。 ネットワークの複雑さが増加し、未来的なネットワークが形になるにつれて、NFV対応ネットワークに運用効率の増大を組み込む必要がある。 そのような技術の一つが機械学習(ML)であり、特にNFVオーケストレータにおいて、NFV対応ネットワークの様々なエンティティに適用されている。 従来のMLは、リアルタイムデータ処理や高ボリュームデータ処理、プライバシ、セキュリティ、スケーラビリティ、転送可能性、コンセプトドリフトといった課題など、膨大な運用効率を提供する。 強化学習や連合学習のような高度な知性技術の導入によって、nspは従来のmlの利点を活用でき、同時に伝統的にそれに関連する主要な課題にも対処できる。 本研究は、これらの高度な技術を採用する利点を示し、潜在的なユースケースと研究トピックのリストを提供し、これらの高度なインテリジェンスの手法をnfvの管理とオーケストレーションに適用するためのボトムアップマイクロファンクショナルアプローチを提案する。

With the constant demand for connectivity at an all-time high, Network Service Providers (NSPs) are required to optimize their networks to cope with rising capital and operational expenditures required to meet the growing connectivity demand. A solution to this challenge was presented through Network Function Virtualization (NFV). As network complexity increases and futuristic networks take shape, NSPs are required to incorporate an increasing amount of operational efficiency into their NFV-enabled networks. One such technique is Machine Learning (ML), which has been applied to various entities in NFV-enabled networks, most notably in the NFV Orchestrator. While traditional ML provides tremendous operational efficiencies, including real-time and high-volume data processing, challenges such as privacy, security, scalability, transferability, and concept drift hinder its widespread implementation. Through the adoption of Advanced Intelligence techniques such as Reinforcement Learning and Federated Learning, NSPs can leverage the benefits of traditional ML while simultaneously addressing the major challenges traditionally associated with it. This work presents the benefits of adopting these advanced techniques, provides a list of potential use cases and research topics, and proposes a bottom-up micro-functionality approach to applying these methods of Advanced Intelligence to NFV Management and Orchestration.
翻訳日:2022-11-03 06:05:41 公開日:2020-08-03
# 新型コロナウイルスパンデミック対策におけるAIとMLの利用実態調査

A Survey on the Use of AI and ML for Fighting the COVID-19 Pandemic ( http://arxiv.org/abs/2008.07449v1 )

ライセンス: Link先を確認
Muhammad Nazrul Islam, Toki Tahmid Inan, Suzzana Rafi, Syeda Sabrina Akter, Iqbal H. Sarker, A. K. M. Najmul Islam(参考訳) 人工知能(ai)と機械学習(ml)は、医療においてパラダイムシフトを行い、最終的には医療データの探索による意思決定支援や予測に使用することができる。 最近の研究によると、AIとMLは新型コロナウイルス(COVID-19)のパンデミックと戦うのに使える。 このレビュー研究の目的は、新型コロナウイルスのパンデミックと戦うことに焦点を当てた最近のAIとMLに基づく研究を要約することである。 634項目の初期セットから、最終的に35項目が広範囲の包括的除外プロセスによって選択された。 本総説では,既存の研究(新型コロナウイルスのパンデミックと戦うAI/MLの役割)の目的と目的,研究の状況(特定の国語や世界的視点に焦点をあてた研究),データセットのタイプとボリューム,予測や診断プロセスで採用される方法論,アルゴリズムやテクニック,予測/分類の正確さを強調するデータ型とアルゴリズムやテクニックのマッピングについて検討した。 我々は特に、新型コロナウイルスと戦うためのAIの最新の進歩を説明するために、パンデミックデータの分析におけるAI/MLの使用に焦点を当て、さらなる研究の範囲を指摘した。

Artificial intelligence (AI) and machine learning (ML) have made a paradigm shift in health care which, eventually can be used for decision support and forecasting by exploring the medical data. Recent studies showed that AI and ML can be used to fight against the COVID-19 pandemic. Therefore, the objective of this review study is to summarize the recent AI and ML based studies that have focused to fight against COVID-19 pandemic. From an initial set of 634 articles, a total of 35 articles were finally selected through an extensive inclusion-exclusion process. In our review, we have explored the objectives/aims of the existing studies (i.e., the role of AI/ML in fighting COVID-19 pandemic); context of the study (i.e., study focused to a specific country-context or with a global perspective); type and volume of dataset; methodology, algorithms or techniques adopted in the prediction or diagnosis processes; and mapping the algorithms/techniques with the data type highlighting their prediction/classification accuracy. We particularly focused on the uses of AI/ML in analyzing the pandemic data in order to depict the most recent progress of AI for fighting against COVID-19 and pointed out the potential scope of further research.
翻訳日:2022-11-03 06:05:18 公開日:2020-08-03
# アルツハイマー病評価のための高次プール付きテンソル化GAN

Tensorizing GAN with High-Order Pooling for Alzheimer's Disease Assessment ( http://arxiv.org/abs/2008.00748v1 )

ライセンス: Link先を確認
Wen Yu, Baiying Lei, Michael K.Ng, Albert C.Cheung, Yanyan Shen, Shuqiang Wang(参考訳) アルツハイマー病(ad)の早期診断に深層学習を適用することは極めて重要である。 本研究では,MCIとADを評価するために,高次プールを用いた新しいテンソル化GANを提案する。 3人のプレイヤーによる協調ゲームベースのフレームワークをテンソル化することにより、提案モデルは脳の構造情報から恩恵を受けることができる。 高次プーリングスキームを分類器に組み込むことにより、提案モデルでは、全体磁気共鳴イメージング(mri)画像の2次統計を十分に活用することができる。 我々の知る限り,提案するテンソルトレイン,ハイプール,セミ教師付き学習ベースGAN(THS-GAN)は,AD診断のためのMRI画像の分類を扱う最初の試みである。 アルツハイマー病神経イメージングイニシアチブ(ADNI)データセットの大規模な実験結果が報告され、提案したTHS-GANが既存の方法と比較して優れた性能を発揮し、テンソルトレインと高次プーリングの両方が分類性能を向上させることを示した。 また,生成したサンプルを可視化することで,半教師あり学習目的のサンプルを生成できることを示した。

It is of great significance to apply deep learning for the early diagnosis of Alzheimer's Disease (AD). In this work, a novel tensorizing GAN with high-order pooling is proposed to assess Mild Cognitive Impairment (MCI) and AD. By tensorizing a three-player cooperative game based framework, the proposed model can benefit from the structural information of the brain. By incorporating the high-order pooling scheme into the classifier, the proposed model can make full use of the second-order statistics of the holistic Magnetic Resonance Imaging (MRI) images. To the best of our knowledge, the proposed Tensor-train, High-pooling and Semi-supervised learning based GAN (THS-GAN) is the first work to deal with classification on MRI images for AD diagnosis. Extensive experimental results on Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset are reported to demonstrate that the proposed THS-GAN achieves superior performance compared with existing methods, and to show that both tensor-train and high-order pooling can enhance classification performance. The visualization of generated samples also shows that the proposed model can generate plausible samples for semi-supervised learning purpose.
翻訳日:2022-11-03 06:04:33 公開日:2020-08-03
# 無からコヒーレンスを作り出す:勾配アライメントの進化を測定する

Making Coherence Out of Nothing At All: Measuring the Evolution of Gradient Alignment ( http://arxiv.org/abs/2008.01217v1 )

ライセンス: Link先を確認
Satrajit Chatterjee, Piotr Zielinski(参考訳) トレーニング中のサンプル毎の勾配のアライメントを実験的に研究するための新しいメトリック(m$-coherence)を提案する。 直観的には、$m$、$m$-コヒーレンス(英: $m$-coherence)は、平均的な1つの例の勾配に沿った小さなステップから得られるサンプルの数である。 他の一般的なメトリクスと比較すると、$m$-coherenceはより解釈可能であり、$O(m^2)$ではなく$O(m)$)と数学的にクリーンである。 (m$-コヒーレンスと勾配の多様性は、以前いくつかの理論的境界で使われた量と密接に関連している。) m$-コヒーレンスを用いて、イメージネット上のResNetおよびインセプションモデルにおけるサンプルごとの勾配のアライメントの進化とラベルノイズを持ついくつかの変種について、特に記憶と一般化のシンプルで統一的な説明を提供するコヒーレント勾配(CG)理論(Chatterjee, ICLR 20)の観点から検討する。 興味深い点がいくつかありますが、最も驚くべき結果は記憶に関するものです。 つまり、完全にランダムなラベルでトレーニングを行う場合、各サンプルは独立して適合するので、$m$-coherence は 1 に近いはずである。 しかし、これはそうではない:$m$-coherenceは、トレーニング中に非常に高い値に達する(100s)。 この現象の詳細な分析は、CGのより深い確認を提供するが、同時に、ニューラルネットワークの一般化の完全な説明を提供するために、理論から欠落しているものを鋭く緩和する。

We propose a new metric ($m$-coherence) to experimentally study the alignment of per-example gradients during training. Intuitively, given a sample of size $m$, $m$-coherence is the number of examples in the sample that benefit from a small step along the gradient of any one example on average. We show that compared to other commonly used metrics, $m$-coherence is more interpretable, cheaper to compute ($O(m)$ instead of $O(m^2)$) and mathematically cleaner. (We note that $m$-coherence is closely connected to gradient diversity, a quantity previously used in some theoretical bounds.) Using $m$-coherence, we study the evolution of alignment of per-example gradients in ResNet and Inception models on ImageNet and several variants with label noise, particularly from the perspective of the recently proposed Coherent Gradients (CG) theory that provides a simple, unified explanation for memorization and generalization [Chatterjee, ICLR 20]. Although we have several interesting takeaways, our most surprising result concerns memorization. Naively, one might expect that when training with completely random labels, each example is fitted independently, and so $m$-coherence should be close to 1. However, this is not the case: $m$-coherence reaches much higher values during training (100s), indicating that over-parameterized neural networks find common patterns even in scenarios where generalization is not possible. A detailed analysis of this phenomenon provides both a deeper confirmation of CG, but at the same point puts into sharp relief what is missing from the theory in order to provide a complete explanation of generalization in neural networks.
翻訳日:2022-11-03 05:57:57 公開日:2020-08-03
# 美の追求:画像ラベルを意味のあるベクトルに変換する

The pursuit of beauty: Converting image labels to meaningful vectors ( http://arxiv.org/abs/2008.00665v1 )

ライセンス: Link先を確認
Savvas Karatsiolis and Andreas Kamilaris(参考訳) コンピュータビジョンコミュニティの課題は、画像のセマンティクスを理解し、既存のハイレベルな特徴に基づいた画像再構成を可能にするか(セミ)ラベル付きデータセットをよりよく分析することである。 本稿では,この課題に対処するために,画像ラベルを意味のある表現に変換し,大量のデータ意味論をキャプチャするオクルージョンベース潜在表現(olr)という手法を提案する。 情報豊かさに加えて、これらの表現は、各画像ラベルが別個のベクトルに符号化される非交叉低次元潜在空間を構成する。 我々は,これらの表現の質を一連の実験で評価し,提案モデルがデータ概念を捕捉し,データ相互関係を発見することを示唆した。

A challenge of the computer vision community is to understand the semantics of an image, in order to allow image reconstruction based on existing high-level features or to better analyze (semi-)labelled datasets. Towards addressing this challenge, this paper introduces a method, called Occlusion-based Latent Representations (OLR), for converting image labels to meaningful representations that capture a significant amount of data semantics. Besides being informational rich, these representations compose a disentangled low-dimensional latent space where each image label is encoded into a separate vector. We evaluate the quality of these representations in a series of experiments whose results suggest that the proposed model can capture data concepts and discover data interrelations.
翻訳日:2022-11-03 05:56:59 公開日:2020-08-03
# GmFace:マルチガウスによる顔画像表現の数学的モデル

GmFace: A Mathematical Model for Face Image Representation Using Multi-Gaussian ( http://arxiv.org/abs/2008.00752v1 )

ライセンス: Link先を確認
Liping Zhang, Weijun Li, Lina Yu, Xiaoli Dong, Linjun Sun, Xin Ning, Jian Xu, and Hong Qin(参考訳) 数学的モデルを確立することは、客観的世界を理解するためのユビキタスで効果的な方法である。 複雑な生理学的構造と動的行動のため、人間の顔の数学的表現は特に難しい課題である。 本稿では,GmFaceと呼ばれる顔画像表現の数学的モデルについて,多ガウス関数の形で提案する。 このモデルは、2次元ガウス関数の利点を利用し、パラメータによって制御できる形状の対称ベル曲面を提供する。 GmNetは、GmFaceパラメータの問題をGmNetのネットワーク最適化問題に変換するために、GmFaceの各パラメータに対応するパラメータを持つニューロンとしてガウス関数を用いて設計される。 顔モデリングプロセスは,(1)GmNetの初期化,(2)顔画像によるGmNetの摂食,(3)収束までのGmNetのトレーニング,(4)GmNetのパラメータ(GmFaceと同じ)の描画,(5)顔モデルGmFaceを記録する。 さらにgmfaceを用いて、簡単なパラメータ計算により複数の顔画像変換演算を数学的に実現することができる。

Establishing mathematical models is a ubiquitous and effective method to understand the objective world. Due to complex physiological structures and dynamic behaviors, mathematical representation of the human face is an especially challenging task. A mathematical model for face image representation called GmFace is proposed in the form of a multi-Gaussian function in this paper. The model utilizes the advantages of two-dimensional Gaussian function which provides a symmetric bell surface with a shape that can be controlled by parameters. The GmNet is then designed using Gaussian functions as neurons, with parameters that correspond to each of the parameters of GmFace in order to transform the problem of GmFace parameter solving into a network optimization problem of GmNet. The face modeling process can be described by the following steps: (1) GmNet initialization; (2) feeding GmNet with face image(s); (3) training GmNet until convergence; (4) drawing out the parameters of GmNet (as the same as GmFace); (5) recording the face model GmFace. Furthermore, using GmFace, several face image transformation operations can be realized mathematically through simple parameter computation.
翻訳日:2022-11-03 05:56:30 公開日:2020-08-03
# Ubicomp Digital 2020 -- 畳み込みリカレントネットワークを用いた手書き分類

Ubicomp Digital 2020 -- Handwriting classification using a convolutional recurrent network ( http://arxiv.org/abs/2008.01078v1 )

ライセンス: Link先を確認
Wei-Cheng Lai, Hendrik Schr\"oter(参考訳) Ubicomp Digital 2020 - STABILOによる時系列分類チャレンジは、多変量時系列分類の課題である。 100人のボランティアライターから収集されたデータには、ペンに複数のセンサーで測定された15の特徴が含まれている。 本稿では,ニューラルネットワークを用いて,アラビア文字の下位と上位の52クラスに分類する。 提案するニューラルネットワーク a のアーキテクチャは CNN-LSTM ネットワークである。 畳み込みニューラルネットワーク(cnn)を短期的コンテキストに、短期的メモリ層(lstm)を長期的依存関係として組み合わせる。 筆者排他テストセットでは68%,ブラインドチャレンジテストセットでは64.6%の精度に達し,第2位となった。

The Ubicomp Digital 2020 -- Time Series Classification Challenge from STABILO is a challenge about multi-variate time series classification. The data collected from 100 volunteer writers, and contains 15 features measured with multiple sensors on a pen. In this paper,we use a neural network to classify the data into 52 classes, that is lower and upper cases of Arabic letters. The proposed architecture of the neural network a is CNN-LSTM network. It combines convolutional neural network (CNN) for short term context with along short term memory layer (LSTM) for also long term dependencies. We reached an accuracy of 68% on our writer exclusive test set and64.6% on the blind challenge test set resulting in the second place.
翻訳日:2022-11-03 05:55:18 公開日:2020-08-03
# 深層強化学習と模倣学習の競合を追跡する -- 拡張バージョン

Tracking the Race Between Deep Reinforcement Learning and Imitation Learning -- Extended Version ( http://arxiv.org/abs/2008.00766v1 )

ライセンス: Link先を確認
Timo P. Gros and Daniel H\"oller and J\"org Hoffmann and Verena Wolf(参考訳) 近年,大規模意思決定問題に対する学習ベースのアプローチが普及している。 得られたエージェントは異なる動作を行い、その特性は基礎となる学習手法に依存する。 本稿では,強化学習領域であるレーストラックのベンチマーク計画問題を検討し,異なる深層学習アプローチから導出されるエージェントの特性について検討する。 本研究では,深い教師付き学習,特に模倣学習のパフォーマンスを,レーストラックモデルの強化学習と比較する。 模倣学習はよりリスクの高い道をたどるエージェントを生み出す。 対照的に、深層強化学習の決定はより先見性があり、致命的な決定がより起こりやすい状態を避ける。 この逐次的意思決定問題では, 模倣学習の最適判断が検討されているにもかかわらず, 深層強化学習が多くの面で最善であることを示す。

Learning-based approaches for solving large sequential decision making problems have become popular in recent years. The resulting agents perform differently and their characteristics depend on those of the underlying learning approach. Here, we consider a benchmark planning problem from the reinforcement learning domain, the Racetrack, to investigate the properties of agents derived from different deep (reinforcement) learning approaches. We compare the performance of deep supervised learning, in particular imitation learning, to reinforcement learning for the Racetrack model. We find that imitation learning yields agents that follow more risky paths. In contrast, the decisions of deep reinforcement learning are more foresighted, i.e., avoid states in which fatal decisions are more likely. Our evaluations show that for this sequential decision making problem, deep reinforcement learning performs best in many aspects even though for imitation learning optimal decisions are considered.
翻訳日:2022-11-03 05:48:05 公開日:2020-08-03
# 誤解、神話、人工知能の望ましい状態の明確化

A clarification of misconceptions, myths and desired status of artificial intelligence ( http://arxiv.org/abs/2008.05607v1 )

ライセンス: Link先を確認
Frank Emmert-Streib, Olli Yli-Harja, Matthias Dehmer(参考訳) 人工知能(AI)は65年以上前に設立された。 大きな希望と野心的な目標から始まったこの分野は、様々な人気の段階を経て、最近ディープニューラルネットワークの形で復活した。 AIのいくつかの問題は、これまでのところ「知性」もAIの目標も、AIを他の分野と比較する際に混乱を引き起こすように正式に定義されていないことである。 本稿では,機械学習と統計に関して,AIの望ましい現状と現状を考察し,一般的な誤解や神話を明らかにする。 私たちの議論は、AIを取り巻く曖昧さのベールを解明して、その真の数量を見ることを目的としています。

The field artificial intelligence (AI) has been founded over 65 years ago. Starting with great hopes and ambitious goals the field progressed though various stages of popularity and received recently a revival in the form of deep neural networks. Some problems of AI are that so far neither 'intelligence' nor the goals of AI are formally defined causing confusion when comparing AI to other fields. In this paper, we present a perspective on the desired and current status of AI in relation to machine learning and statistics and clarify common misconceptions and myths. Our discussion is intended to uncurtain the veil of vagueness surrounding AI to see its true countenance.
翻訳日:2022-11-03 05:47:52 公開日:2020-08-03
# 最近決定論的政策グラディエント

Proximal Deterministic Policy Gradient ( http://arxiv.org/abs/2008.00759v1 )

ライセンス: Link先を確認
Marco Maggipinto and Gian Antonio Susto and Pratik Chaudhari(参考訳) 本稿では,オフポリシー強化学習(rl)アルゴリズムを改善するための2つの簡易手法を提案する。 まず,オフポリシーrlを確率的近位点反復として定式化する。 対象ネットワークは最適化の変数の役割を担い、値ネットワークは近位演算子を演算する。 第二に、最先端のオフポリシーアルゴリズムでよく用いられる2つの値関数を利用して、ブートストラップによる行動価値の推定を改善し、計算資源の増大を抑える。 さらに,標準連続制御RLベンチマークにおいて,最先端アルゴリズムよりも高い性能向上を示す。

This paper introduces two simple techniques to improve off-policy Reinforcement Learning (RL) algorithms. First, we formulate off-policy RL as a stochastic proximal point iteration. The target network plays the role of the variable of optimization and the value network computes the proximal operator. Second, we exploits the two value functions commonly employed in state-of-the-art off-policy algorithms to provide an improved action value estimate through bootstrapping with limited increase of computational resources. Further, we demonstrate significant performance improvement over state-of-the-art algorithms on standard continuous-control RL benchmarks.
翻訳日:2022-11-03 05:46:49 公開日:2020-08-03
# 条件付き潜在ブロックモデル:自律運転検証のための多変量時系列クラスタリングアプローチ

Conditional Latent Block Model: a Multivariate Time Series Clustering Approach for Autonomous Driving Validation ( http://arxiv.org/abs/2008.00946v1 )

ライセンス: Link先を確認
Etienne Goffinet, Anthony Coutant, Mustapha Lebbah, Hanane Azzag and Lo\"ic Giraldi(参考訳) 自動運転システムの検証は、自動車メーカーが安全な自動運転車を提供するために取り組むべき最大の課題の1つだ。 高複雑性は、車両の多重性、組込みシステム、ユースケース、運転システムが人間ドライバーと同じくらい安全であるために必要な信頼性の非常に高いレベルなど、いくつかの要因に起因している。 これらの問題を回避するために、この膨大な物理条件を再現する大規模なシミュレーションが、ドライバーレス車をテストするために集中的に使用されている。 したがって、検証ステップは、処理すべき多くの時間インデクシングデータを含む膨大なデータを生成する。 この文脈では、機能空間の構造を構築するには、様々なシナリオを解釈する必要がある。 本研究では,高次元時系列解析に適応した新しいコクラスタリング手法を提案する。 FunCLBMモデルは最近提案された機能的遅延ブロックモデルを拡張し、行と列クラスタ間の依存関係構造を作成することができる。 この構造化パーティションは、無関係な特徴を識別しながら、データセットの複数のクラスタリングビューを提供する機能選択方法として機能する。 このワークフローでは、時系列は共通の補間された低次元周波数空間に投影され、射影基底を最適化することができる。 さらに、FunCLBMはブロック次元の縮小と特徴選択を行うことで、各潜在ブロックの定義を洗練する。 本稿では,このモデルを推定するsem-gibbsアルゴリズムと,最適ネスト分割を選択するための専用基準を提案する。 シミュレーションおよび実ケースのRenaultデータセットの実験は、提案ツールの有効性とユースケースの妥当性を示している。

Autonomous driving systems validation remains one of the biggest challenges car manufacturers must tackle in order to provide safe driverless cars. The high complexity stems from several factors: the multiplicity of vehicles, embedded systems, use cases, and the very high required level of reliability for the driving system to be at least as safe as a human driver. In order to circumvent these issues, large scale simulations reproducing this huge variety of physical conditions are intensively used to test driverless cars. Therefore, the validation step produces a massive amount of data, including many time-indexed ones, to be processed. In this context, building a structure in the feature space is mandatory to interpret the various scenarios. In this work, we propose a new co-clustering approach adapted to high-dimensional time series analysis, that extends the standard model-based co-clustering. The FunCLBM model extends the recently proposed Functional Latent Block Model and allows to create a dependency structure between row and column clusters. This structured partition acts as a feature selection method, that provides several clustering views of a dataset, while discriminating irrelevant features. In this workflow, times series are projected onto a common interpolated low-dimensional frequency space, which allows to optimize the projection basis. In addition, FunCLBM refines the definition of each latent block by performing block-wise dimension reduction and feature selection. We propose a SEM-Gibbs algorithm to infer this model, as well as a dedicated criterion to select the optimal nested partition. Experiments on both simulated and real-case Renault datasets shows the effectiveness of the proposed tools and the adequacy to our use case.
翻訳日:2022-11-03 05:46:29 公開日:2020-08-03
# Deep Bayesian Bandits: オンラインパーソナライズされたレコメンデーションを探る

Deep Bayesian Bandits: Exploring in Online Personalized Recommendations ( http://arxiv.org/abs/2008.00727v1 )

ライセンス: Link先を確認
Dalin Guo, Sofia Ira Ktena, Ferenc Huszar, Pranay Kumar Myana, Wenzhe Shi, Alykhan Tejani(参考訳) 継続的学習で訓練されたレコメンダシステムは、アルゴリズムバイアスとしても知られるフィードバックループ問題に悩まされている。 これにより、新たに訓練されたモデルが欲張りに行動し、すでにユーザが関与しているアイテムを好むようになる。 この行動は、パーソナライズされた広告レコメンデーションにおいて特に有害である。 explorationは、ユーザの好みを包含する環境に関する新たな情報を提供することで、この制限に対処することを目的としている。 本研究では,コンテクスト・バンディットとしてディスプレイ広告レコメンデータを定式化し,クリックスルーレートの後方分布から計算可能な方法でサンプリングする必要がある探索手法を実装した。 従来の大規模ディープラーニングモデルは、不確実性の推定をデフォルトでは提供しない。 複数のヘッドとドロップアウトユニットを備えたブートストラップモデルを用いて、予測の不確実性の測定を近似する。 我々は,ユーザ-広告のエンゲージメントに関する公開データセットを用いて,オフラインシミュレーション環境で様々なモデルをベンチマークする。 オフラインシミュレーションと大規模生産トラフィックを伴うオンラインAB設定において,提案したディープベイズ帯域幅アルゴリズムを検証し,探索モデルの有効性を実証した。

Recommender systems trained in a continuous learning fashion are plagued by the feedback loop problem, also known as algorithmic bias. This causes a newly trained model to act greedily and favor items that have already been engaged by users. This behavior is particularly harmful in personalised ads recommendations, as it can also cause new campaigns to remain unexplored. Exploration aims to address this limitation by providing new information about the environment, which encompasses user preference, and can lead to higher long-term reward. In this work, we formulate a display advertising recommender as a contextual bandit and implement exploration techniques that require sampling from the posterior distribution of click-through-rates in a computationally tractable manner. Traditional large-scale deep learning models do not provide uncertainty estimates by default. We approximate these uncertainty measurements of the predictions by employing a bootstrapped model with multiple heads and dropout units. We benchmark a number of different models in an offline simulation environment using a publicly available dataset of user-ads engagements. We test our proposed deep Bayesian bandits algorithm in the offline simulation and online AB setting with large-scale production traffic, where we demonstrate a positive gain of our exploration model.
翻訳日:2022-11-03 05:40:33 公開日:2020-08-03
# 重みベクトルの低損失接続:分布に基づくアプローチ

Low-loss connection of weight vectors: distribution-based approaches ( http://arxiv.org/abs/2008.00741v1 )

ライセンス: Link先を確認
Ivan Anokhin, Dmitry Yarotsky(参考訳) 近年の研究では、過パラメータネットワークの損失面の部分レベル集合が、正確には、あるいはほぼ接続されていることが示されている。 この表面の低損失曲線によって2つの低損失点を接続する手法のパネルを実験的に記述し比較する。 我々の方法は正確さと複雑さが異なる。 ほとんどの手法は「マクロ的」分布の仮定に基づいており、接続される点の詳細な性質に敏感なものもある。 いくつかの方法は「グローバル接続モデル」の事前の訓練を必要とし、任意の一対の点に適用できる。 この手法の精度は一般にエンドポイントの細部に対する複雑さと感度に相関する。

Recent research shows that sublevel sets of the loss surfaces of overparameterized networks are connected, exactly or approximately. We describe and compare experimentally a panel of methods used to connect two low-loss points by a low-loss curve on this surface. Our methods vary in accuracy and complexity. Most of our methods are based on "macroscopic" distributional assumptions, and some are insensitive to the detailed properties of the points to be connected. Some methods require a prior training of a "global connection model" which can then be applied to any pair of points. The accuracy of the method generally correlates with its complexity and sensitivity to the endpoint detail.
翻訳日:2022-11-03 05:40:07 公開日:2020-08-03
# 深層強化学習における情報基盤によるダイナミクスの一般化

Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning ( http://arxiv.org/abs/2008.00614v1 )

ライセンス: Link先を確認
Xingyu Lu, Kimin Lee, Pieter Abbeel, Stas Tiomkin(参考訳) 逐次的な意思決定問題の解決における深層強化学習(RL)の著しい進歩にもかかわらず、RLエージェントはトレーニング環境に過度に適合し、新しい目に見えない環境への適応に苦慮することが多い。 これにより、システムダイナミクスがトレーニング設定から大きく逸脱する現実の状況において、rlの堅牢な適用が防止される。 本研究では,情報論的正規化目標とアニーリングに基づく最適化手法を提案し,rlエージェントの一般化能力の向上に寄与する。 我々は,迷路ナビゲーションからロボットタスクまで,さまざまな領域におけるアプローチの極端な一般化の利点を実証し,エージェントがトレーニングパラメータ分布から10以上の標準偏差をテストできることを示す。 本研究は,タスク解決に欠かせない情報を徐々に取り除き,RLの一般化を改善するための原則的手法を提供し,情報理論と機械学習の確立した関係に着目し,学習から極めて異なるテスト環境への一般化の体系的な研究の扉を開く。

Despite the significant progress of deep reinforcement learning (RL) in solving sequential decision making problems, RL agents often overfit to training environments and struggle to adapt to new, unseen environments. This prevents robust applications of RL in real world situations, where system dynamics may deviate wildly from the training settings. In this work, our primary contribution is to propose an information theoretic regularization objective and an annealing-based optimization method to achieve better generalization ability in RL agents. We demonstrate the extreme generalization benefits of our approach in different domains ranging from maze navigation to robotic tasks; for the first time, we show that agents can generalize to test parameters more than 10 standard deviations away from the training parameter distribution. This work provides a principled way to improve generalization in RL by gradually removing information that is redundant for task-solving; it opens doors for the systematic study of generalization from training to extremely different testing settings, focusing on the established connections between information theory and machine learning.
翻訳日:2022-11-03 05:39:48 公開日:2020-08-03
# 結合条件変分オートエンコーダによる一般化ゼロショット領域適応

Generalized Zero-Shot Domain Adaptation via Coupled Conditional Variational Autoencoders ( http://arxiv.org/abs/2008.01214v1 )

ライセンス: Link先を確認
Qian Wang, Toby P. Breckon(参考訳) ドメイン適応アプローチは、教師付き学習例が入手し易いソースドメインから有用な情報を活用することを目的としており、そのような例が利用可能あるいは限定されていないターゲットドメインの学習問題に対処する。 分類問題において、ドメイン適応は様々な教師付き、教師なし、および半教師付き条件下で研究されている。 しかしながら、ラベル付きサンプルがターゲットドメインクラスのサブセットで利用可能になった場合の一般的な状況は見過ごされている。 本稿では、ゼロショット学習のための意味表現としてラベル付きソースドメインサンプルを扱い、この特定の領域適応問題を一般化ゼロショット学習フレームワーク内で定式化する。 この問題に対して、従来のドメイン適応アプローチやゼロショット学習アルゴリズムは直接適用されない。 この一般化されたゼロショット領域適応問題に対処するために、未確認クラスのための合成対象ドメイン特徴をソースドメインから生成できる、結合条件変分自動エンコーダ(CCVAE)を提案する。 航空セキュリティにおける実世界の応用をシミュレートするx線セキュリティチェックポイントデータセットを含む、3つのドメイン適応データセットに関する広範な実験が行われた。 その結果,既存のベンチマークと実世界の適用性の両方の観点から提案手法の有効性が示された。

Domain adaptation approaches aim to exploit useful information from the source domain where supervised learning examples are easier to obtain to address a learning problem in the target domain where there is no or limited availability of such examples. In classification problems, domain adaptation has been studied under varying supervised, unsupervised and semi-supervised conditions. However, a common situation when the labelled samples are available for a subset of target domain classes has been overlooked. In this paper, we formulate this particular domain adaptation problem within a generalized zero-shot learning framework by treating the labelled source domain samples as semantic representations for zero-shot learning. For this particular problem, neither conventional domain adaptation approaches nor zero-shot learning algorithms directly apply. To address this generalized zero-shot domain adaptation problem, we present a novel Coupled Conditional Variational Autoencoder (CCVAE) which can generate synthetic target domain features for unseen classes from their source domain counterparts. Extensive experiments have been conducted on three domain adaptation datasets including a bespoke X-ray security checkpoint dataset to simulate a real-world application in aviation security. The results demonstrate the effectiveness of our proposed approach both against established benchmarks and in terms of real-world applicability.
翻訳日:2022-11-03 05:38:31 公開日:2020-08-03
# 非対称ビット幅オペランド間の高スループット行列-行列乗算

High Throughput Matrix-Matrix Multiplication between Asymmetric Bit-Width Operands ( http://arxiv.org/abs/2008.00638v1 )

ライセンス: Link先を確認
Dibakar Gope, Jesse Beu, Matthew Mattina(参考訳) 非対称ビット幅オペランド、特に8ビットと4ビットのオペランド間の行列乗算は、ニューラルネットワークや機械学習を含む多くの重要なワークロードの基本的なカーネルになる可能性が高い。 対称ビット幅オペランドに対する既存のsimd行列乗算命令は、他のオペランドのサイズにマッチする狭小オペランドをゼロまたは符号で拡張することで、混合精度のオペランドをサポートすることができるが、いずれかのオペランドの狭小ビット幅の利点を活用できない。 入力(8ビットと4ビットのオペランド)に混合精度を使い、製品値をより狭く16ビットの出力アキュムレータに蓄積し、128ビットのベクトル幅でsimd演算を1命令あたりにより多くのデータ要素を処理し、cpuのレジスタ読み取りと書き込みポート帯域幅を増加させることなく処理スループットとメモリ帯域幅使用率を向上させる新しいsimd行列乗算命令を提案する。 提案した非対称オペランドサイズSIMD命令は,既存の対称オペランドサイズ命令を用いて得られたスループットと比較して,行列乗算のスループットを2倍改善すると同時に,16ビットアキュムレータからの負のオーバーフロー(0.05%)を機械学習ワークロードにもたらす。 非対称オペランドサイズ命令は、CPUの行列乗算スループットを改善するだけでなく、最先端のDNNハードウェアアクセラレータ(例えば、Google TPUのシストリックアレイマイクロアーキテクチャなど)の8ビットから4ビットのオペランド間の乗算および累積(MAC)操作をサポートするのにも有効であり、様々な実装制約に違反することなく、同様のマトリックス乗算性能の向上を提供する。 本稿では,非対称型命令をサポートするために,対称型命令用に設計されたシストリック配列アーキテクチャを変更する方法を示す。

Matrix multiplications between asymmetric bit-width operands, especially between 8- and 4-bit operands are likely to become a fundamental kernel of many important workloads including neural networks and machine learning. While existing SIMD matrix multiplication instructions for symmetric bit-width operands can support operands of mixed precision by zero- or sign-extending the narrow operand to match the size of the other operands, they cannot exploit the benefit of narrow bit-width of one of the operands. We propose a new SIMD matrix multiplication instruction that uses mixed precision on its inputs (8- and 4-bit operands) and accumulates product values into narrower 16-bit output accumulators, in turn allowing the SIMD operation at 128-bit vector width to process a greater number of data elements per instruction to improve processing throughput and memory bandwidth utilization without increasing the register read- and write-port bandwidth in CPUs. The proposed asymmetric-operand-size SIMD instruction offers 2x improvement in throughput of matrix multiplication in comparison to throughput obtained using existing symmetric-operand-size instructions while causing negligible (0.05%) overflow from 16-bit accumulators for representative machine learning workloads. The asymmetric-operand-size instruction not only can improve matrix multiplication throughput in CPUs, but also can be effective to support multiply-and-accumulate (MAC) operation between 8- and 4-bit operands in state-of-the-art DNN hardware accelerators (e.g., systolic array microarchitecture in Google TPU, etc.) and offer similar improvement in matrix multiply performance seamlessly without violating the various implementation constraints. We demonstrate how a systolic array architecture designed for symmetric-operand-size instructions could be modified to support an asymmetric-operand-sized instruction.
翻訳日:2022-11-03 05:38:10 公開日:2020-08-03
# 複数のグラフについて

On The Plurality of Graphs ( http://arxiv.org/abs/2008.00920v1 )

ライセンス: Link先を確認
Nicole Fitzgerald and Jacopo Tagliabue(参考訳) 我々は,マルチエージェント創発的コミュニケーションゲームフレームワークの構造的特徴を変化させる効果を実証的に示すために設計された一連の実験を行う。 具体的には、一連のランダムグラフ生成アルゴリズムに基づいて生成されたグラフの構造として、個々のエージェント(ノード)間の相互作用(エッジ)をモデル化する。 10]で提案された仮説を確認すると,本研究で誘発される変動の2つの要因,すなわち, 1)グラフ生成プロセスと 2)どのエッジがサンプリングされるかによる中心性尺度は,実際に,手前の言語出現のダイナミクスを決定する上で重要な役割を担っている。

We conduct a series of experiments designed to empirically demonstrate the effects of varying the structural features of a multi-agent emergent communication game framework. Specifically, we model the interactions (edges) between individual agents (nodes)as the structure of a graph generated according to a series of known random graph generating algorithms. Confirming the hypothesis proposed in [10], we show that the two factors of variation induced in this work, namely 1) the graph-generating process and 2) the centrality measure according to which edges are sampled, in fact play a significant role in determining the dynamics of language emergence within the population at hand.
翻訳日:2022-11-03 05:37:30 公開日:2020-08-03
# 分散共進化型ganトレーニングの構成要素分析

Analyzing the Components of Distributed Coevolutionary GAN Training ( http://arxiv.org/abs/2008.01124v1 )

ライセンス: Link先を確認
Jamal Toutouh, Erik Hemberg, and Una-May O'Reilly(参考訳) 分散共進化型GAN(Generative Adversarial Network)トレーニングは,GANトレーニングパスの克服に成功している。 これは主に、訓練過程における発電機と判別器の集団の多様性の維持のためである。 ここでは, 重なり合うムーア近傍に組織された空間格子の各セルのサブポピュレーションを共進化させる。 共進化中の多様性に影響を与える2つのアルゴリズムコンポーネントの性能への影響について検討し,各サブ人口内の性能ベース選択/置換と,重複する地域間のソリューション(ネットワーク)の移動によるコミュニケーションについて検討する。 MNISTデータセットの実験では、これらの2つのコンポーネントの組み合わせが最良の生成モデルを提供することがわかった。 さらに, サブポピュレーションに選択を適用せずに移行する手法は, セル間の通信を使わずに選択することで性能を低下させる。

Distributed coevolutionary Generative Adversarial Network (GAN) training has empirically shown success in overcoming GAN training pathologies. This is mainly due to diversity maintenance in the populations of generators and discriminators during the training process. The method studied here coevolves sub-populations on each cell of a spatial grid organized into overlapping Moore neighborhoods. We investigate the impact on the performance of two algorithm components that influence the diversity during coevolution: the performance-based selection/replacement inside each sub-population and the communication through migration of solutions (networks) among overlapping neighborhoods. In experiments on MNIST dataset, we find that the combination of these two components provides the best generative models. In addition, migrating solutions without applying selection in the sub-populations achieves competitive results, while selection without communication between cells reduces performance.
翻訳日:2022-11-03 05:37:21 公開日:2020-08-03