このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200810となっている論文です。

PDF登録状況(公開日: 20200810)

TitleAuthorsAbstract論文公表日・翻訳日
# FDFtNet:フェイク検出ファインチューニングネットワークを用いたフェイク画像のオフオフ

FDFtNet: Facing Off Fake Images using Fake Detection Fine-tuning Network ( http://arxiv.org/abs/2001.01265v2 )

ライセンス: Link先を確認
Hyeonseong Jeon, Youngoh Bang, Simon S. Woo(参考訳) 近年はgans(generative adversarial networks)の進歩により「deepfake」などの偽画像や動画の作成が容易になっている。 さらに、最近の研究では、ごくわずかな画像で非常にリアルなパーソナライズされた偽画像を作ることができる。 したがって、偽画像やビデオの伝播など、悪意ある意図の多種多様な目的に使用するためのDeepfakeの脅威が広まる。 マシンが生成する偽画像の検出は、これまで以上に困難だった。 本研究では,新しいフェイク顔画像生成モデルの多くを検出することができ,既存の画像分類ネットワークと容易に結合でき,いくつかのデータセット上で微調整できる,軽量でロバストなニューラルネットワークベースの分類器アーキテクチャであるフェイク検出微調整ネットワーク(fdftnet)を提案する。 多くの既存手法とは対照的に,本手法は偽画像を効果的に検出するための微調整のために,数枚の画像のみを用いた一般的な事前学習モデルを再利用することを目的としている。 このアプローチの核心は,アテンションモジュールとダウンサンプリング層のみを使用する,ファイントチューントランスフォーマーと呼ばれるイメージベースのセルフアテンションモジュールの導入である。 このモジュールは事前訓練されたモデルに追加され、いくつかのデータに微調整され、フェイク画像を検出するための新しい特徴空間のセットを検索する。 我々は、GANベースのデータセット(Progressive Growing GAN)とDeepfakeベースのデータセット(DeepfakeとFace2Face)でFDFtNetを64x64の小さな入力画像解像度で実験した。 我々のFDFtNetは、GANsベースのデータセットから生成された偽画像の検出において、90.29%の全体的な精度を達成し、最先端技術を上回っている。

Creating fake images and videos such as "Deepfake" has become much easier these days due to the advancement in Generative Adversarial Networks (GANs). Moreover, recent research such as the few-shot learning can create highly realistic personalized fake images with only a few images. Therefore, the threat of Deepfake to be used for a variety of malicious intents such as propagating fake images and videos becomes prevalent. And detecting these machine-generated fake images has been quite challenging than ever. In this work, we propose a light-weight robust fine-tuning neural network-based classifier architecture called Fake Detection Fine-tuning Network (FDFtNet), which is capable of detecting many of the new fake face image generation models, and can be easily combined with existing image classification networks and finetuned on a few datasets. In contrast to many existing methods, our approach aims to reuse popular pre-trained models with only a few images for fine-tuning to effectively detect fake images. The core of our approach is to introduce an image-based self-attention module called Fine-Tune Transformer that uses only the attention module and the down-sampling layer. This module is added to the pre-trained model and fine-tuned on a few data to search for new sets of feature space to detect fake images. We experiment with our FDFtNet on the GANsbased dataset (Progressive Growing GAN) and Deepfake-based dataset (Deepfake and Face2Face) with a small input image resolution of 64x64 that complicates detection. Our FDFtNet achieves an overall accuracy of 90.29% in detecting fake images generated from the GANs-based dataset, outperforming the state-of-the-art.
翻訳日:2023-01-14 08:02:02 公開日:2020-08-10
# SketchDesc: 多視点対応のためのローカルスケッチ記述子学習

SketchDesc: Learning Local Sketch Descriptors for Multi-view Correspondence ( http://arxiv.org/abs/2001.05744v3 )

ライセンス: Link先を確認
Deng Yu, Lei Li, Youyi Zheng, Manfred Lau, Yi-Zhe Song, Chiew-Lan Tai, Hongbo Fu(参考訳) 本稿では,マルチビュースケッチ対応の問題について検討し,同一対象の異なる視点の複数のフリーハンドスケッチを入力として,スケッチ間の意味的対応を出力として予測する。 異なる視点で対応する点の視覚的特徴が非常に異なるため、この問題は難しい。 この目的のために,我々は深層学習アプローチを取り入れ,新しい局所スケッチ記述子をデータから学習する。 3次元形状から合成した多視点線描画に対して画素レベル対応を生成し,学習データセットを提供する。 スケッチのスパース性とあいまいさに対処するために,パッチベース表現とマルチスケール戦略を統合し,マルチビュースケッチ間のピクセルレベル対応を学習する,新しいマルチブランチニューラルネットワークを設計した。 提案手法の有効性を,複数の3次元形状データセットから描画した手描きスケッチや多視点線描画の広範な実験により実証した。

In this paper, we study the problem of multi-view sketch correspondence, where we take as input multiple freehand sketches with different views of the same object and predict as output the semantic correspondence among the sketches. This problem is challenging since the visual features of corresponding points at different views can be very different. To this end, we take a deep learning approach and learn a novel local sketch descriptor from data. We contribute a training dataset by generating the pixel-level correspondence for the multi-view line drawings synthesized from 3D shapes. To handle the sparsity and ambiguity of sketches, we design a novel multi-branch neural network that integrates a patch-based representation and a multi-scale strategy to learn the pixel-level correspondence among multi-view sketches. We demonstrate the effectiveness of our proposed approach with extensive experiments on hand-drawn sketches and multi-view line drawings rendered from multiple 3D shape datasets.
翻訳日:2023-01-11 00:21:55 公開日:2020-08-10
# Pop Music Transformer: ビートに基づくPopピアノ構成のモデリングと生成

Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions ( http://arxiv.org/abs/2002.00212v3 )

ライセンス: Link先を確認
Yu-Siang Huang, Yi-Hsuan Yang(参考訳) 近年,多くの深層学習モデルが自動作曲のために提案されている。 これらのモデルの中でトランスフォーマーは、最大1分間のコヒーレントな構造で表現力のあるクラシックピアノ演奏を生成するための顕著なアプローチとして際立っている。 このモデルは、人間によるドメイン知識や制約を多く必要とせずに、自分自身でデータの抽象化を学ぶという点で強力です。 この一般的なアプローチとは対照的に,楽譜をトランスフォーマーモデルに入力したデータに変換する方法を改善することで,トランスフォーマーがより優れた音楽モデリングを行うことができることを示す。 特に,音楽におけるビートバー・フレーズ階層構造をより容易に認識できるように,入力データに計量構造を課すことを目指している。 新しいデータ表現は、局所的なテンポ変化の柔軟性を維持し、音楽のリズム構造と調和構造を制御するハードルを提供する。 このアプローチにより,既存のトランスフォーマーモデルよりも高いリズム構造でポップピアノを作曲するポップミュージックトランスフォーマーを構築する。

A great number of deep learning based models have been recently proposed for automatic music composition. Among these models, the Transformer stands out as a prominent approach for generating expressive classical piano performance with a coherent structure of up to one minute. The model is powerful in that it learns abstractions of data on its own, without much human-imposed domain knowledge or constraints. In contrast with this general approach, this paper shows that Transformers can do even better for music modeling, when we improve the way a musical score is converted into the data fed to a Transformer model. In particular, we seek to impose a metrical structure in the input data, so that Transformers can be more easily aware of the beat-bar-phrase hierarchical structure in music. The new data representation maintains the flexibility of local tempo changes, and provides hurdles to control the rhythmic and harmonic structure of music. With this approach, we build a Pop Music Transformer that composes Pop piano music with better rhythmic structure than existing Transformer models.
翻訳日:2023-01-05 00:48:06 公開日:2020-08-10
# 感情認識のための自己教師付きECG表現学習

Self-supervised ECG Representation Learning for Emotion Recognition ( http://arxiv.org/abs/2002.03898v2 )

ライセンス: Link先を確認
Pritam Sarkar and Ali Etemad(参考訳) 我々は心電図に基づく感情認識のための自己教師型深層マルチタスク学習フレームワークを利用する。 提案する解法は2段階の学習から成り立っている a)ecg表現の学習と b) 感情を分類する学習。 ECG表現は信号変換認識ネットワークによって学習される。 ネットワークはラベルのないECGデータから高レベルの抽象表現を学習する。 ECG信号に6つの異なる信号変換を適用し、プリテキストタスクとして変換認識を行う。 プレテキストタスクでモデルをトレーニングすることは、異なるデータセットと異なる感情カテゴリで適切に一般化された時空間表現をネットワークが学習するのに役立つ。 自己教師付きネットワークの重みを感情認識ネットワークに伝達し,畳み込み層を凍結させ,ecgデータを用いて密集層を訓練する。 提案手法は,完全教師付き学習を用いて学習したネットワークと比較して,性能が大幅に向上することを示す。 新しい最先端の成果は、4つの活用されたデータセットの覚醒、原子価、情緒状態、ストレスの分類に設定される。 広範な実験が行われ、シングルタスクモデルではなくマルチタスクの自己教師付き構造が与える影響や、プリテキストの自己教師付きタスクに必要な難易度に関する興味深い洞察が提供される。

We exploit a self-supervised deep multi-task learning framework for electrocardiogram (ECG) -based emotion recognition. The proposed solution consists of two stages of learning a) learning ECG representations and b) learning to classify emotions. ECG representations are learned by a signal transformation recognition network. The network learns high-level abstract representations from unlabeled ECG data. Six different signal transformations are applied to the ECG signals, and transformation recognition is performed as pretext tasks. Training the model on pretext tasks helps the network learn spatiotemporal representations that generalize well across different datasets and different emotion categories. We transfer the weights of the self-supervised network to an emotion recognition network, where the convolutional layers are kept frozen and the dense layers are trained with labelled ECG data. We show that the proposed solution considerably improves the performance compared to a network trained using fully-supervised learning. New state-of-the-art results are set in classification of arousal, valence, affective states, and stress for the four utilized datasets. Extensive experiments are performed, providing interesting insights into the impact of using a multi-task self-supervised structure instead of a single-task model, as well as the optimum level of difficulty required for the pretext self-supervised tasks.
翻訳日:2023-01-04 03:02:06 公開日:2020-08-10
# ディープ・ガウス・マルコフ確率場

Deep Gaussian Markov Random Fields ( http://arxiv.org/abs/2002.07467v2 )

ライセンス: Link先を確認
Per Sid\'en and Fredrik Lindsten(参考訳) ガウス・マルコフ確率場(gaussian markov random fields、gmrfs)は、空間統計学や関連する分野において広く用いられている確率的グラフィカルモデルである。 GMRFと畳み込みニューラルネットワーク(CNN)の正式な接続を確立する。 共通GMRFは、データから潜伏変数への逆写像が1層線形CNNによって与えられる生成モデルの特別な場合である。 この接続により、GMRFを多層CNNアーキテクチャに一般化し、計算スケーリングに適した方法で対応するGMRFの順序を効果的に増大させることができる。 本稿では,gmrfの簡易かつ効率的な推論と学習のために,autodiff や variational inference などの確立されたツールがいかに有用かを説明する。 本稿では,提案モデルの柔軟性を実証し,予測と予測の不確実性の観点から,衛星温度のデータセット上での最先端性を示す。

Gaussian Markov random fields (GMRFs) are probabilistic graphical models widely used in spatial statistics and related fields to model dependencies over spatial structures. We establish a formal connection between GMRFs and convolutional neural networks (CNNs). Common GMRFs are special cases of a generative model where the inverse mapping from data to latent variables is given by a 1-layer linear CNN. This connection allows us to generalize GMRFs to multi-layer CNN architectures, effectively increasing the order of the corresponding GMRF in a way which has favorable computational scaling. We describe how well-established tools, such as autodiff and variational inference, can be used for simple and efficient inference and learning of the deep GMRF. We demonstrate the flexibility of the proposed model and show that it outperforms the state-of-the-art on a dataset of satellite temperatures, in terms of prediction and predictive uncertainty.
翻訳日:2022-12-30 19:41:29 公開日:2020-08-10
# 低ビット幅データ生成自由量子化

Generative Low-bitwidth Data Free Quantization ( http://arxiv.org/abs/2003.03603v3 )

ライセンス: Link先を確認
Shoukai Xu, Haokun Li, Bohan Zhuang, Jing Liu, Jiezhang Cao, Chuangrun Liang, Mingkui Tan(参考訳) ニューラルネットワーク量子化は、ディープモデルを圧縮し、実行遅延とエネルギー効率を改善する効果的な方法であり、モバイルまたは組み込みデバイスにデプロイできる。 既存の量子化法は、キャリブレーションや微調整のために元のデータを必要とする。 しかし、多くの現実世界のシナリオでは、データは秘密やプライベートな問題のために利用できないため、既存の量子化手法は適用できない。 さらに、原データがないため、最近開発されたGAN(generative adversarial network)はデータ生成には適用できない。 完全精度モデルは豊富なデータ情報を含むこともあるが、元のデータを復元したり、新しい意味のあるデータを生成したりするには、そのような情報だけでは利用できない。 本稿では,GDFQ (Generative Low-bitdth Data Free Quantization) と呼ばれる,データ依存の重荷を除去する簡易な手法について検討する。 具体的には,事前学習モデルにおける分類境界知識と分布情報を活用し,有意義な偽データを生成する知識マッチング生成器を提案する。 生成されたデータを利用することで,事前学習したモデルから知識を学習することで,モデルを定量化することができる。 3つのデータセットに対する大規模な実験により,本手法の有効性が示された。 さらに,従来のデータ自由量子化法よりも4ビット量子化の精度が向上した。 コードはhttps://github.com/xushoukai/gdfqで入手できる。

Neural network quantization is an effective way to compress deep models and improve their execution latency and energy efficiency, so that they can be deployed on mobile or embedded devices. Existing quantization methods require original data for calibration or fine-tuning to get better performance. However, in many real-world scenarios, the data may not be available due to confidential or private issues, thereby making existing quantization methods not applicable. Moreover, due to the absence of original data, the recently developed generative adversarial networks (GANs) cannot be applied to generate data. Although the full-precision model may contain rich data information, such information alone is hard to exploit for recovering the original data or generating new meaningful data. In this paper, we investigate a simple-yet-effective method called Generative Low-bitwidth Data Free Quantization (GDFQ) to remove the data dependence burden. Specifically, we propose a knowledge matching generator to produce meaningful fake data by exploiting classification boundary knowledge and distribution information in the pre-trained model. With the help of generated data, we can quantize a model by learning knowledge from the pre-trained model. Extensive experiments on three data sets demonstrate the effectiveness of our method. More critically, our method achieves much higher accuracy on 4-bit quantization than the existing data free quantization method. Code is available at https://github.com/xushoukai/GDFQ.
翻訳日:2022-12-25 19:59:12 公開日:2020-08-10
# 不変推論を用いた繰り返しニューラルネットワークの検証

Verifying Recurrent Neural Networks using Invariant Inference ( http://arxiv.org/abs/2004.02462v2 )

ライセンス: Link先を確認
Yuval Jacoby, Clark Barrett, Guy Katz(参考訳) ディープニューラルネットワークは、複雑なシステムの開発方法に革命をもたらしている。 しかし、これらの自動生成ネットワークは人間には不透明であり、それらを推論し、その正確性を保証することは困難である。 本稿では,リカレントニューラルネットワークと呼ばれる広範に分布するニューラルネットワークの特性を検証する新しい手法を提案する。 リカレントニューラルネットワークは自然言語処理などにおいて重要な役割を担い、その検証は多くの重要なシステムの信頼性を保証するために不可欠である。 この手法は不変量の推論に基づいており、再帰的ネットワークを単純で非再帰的な問題に検証する複雑な問題を軽減できる。 本手法の概念実証による実験により,本手法は最先端技術よりも桁違いに優れた性能を示す。

Deep neural networks are revolutionizing the way complex systems are developed. However, these automatically-generated networks are opaque to humans, making it difficult to reason about them and guarantee their correctness. Here, we propose a novel approach for verifying properties of a widespread variant of neural networks, called recurrent neural networks. Recurrent neural networks play a key role in, e.g., natural language processing, and their verification is crucial for guaranteeing the reliability of many critical systems. Our approach is based on the inference of invariants, which allow us to reduce the complex problem of verifying recurrent networks into simpler, non-recurrent problems. Experiments with a proof-of-concept implementation of our approach demonstrate that it performs orders-of-magnitude better than the state of the art.
翻訳日:2022-12-16 07:22:58 公開日:2020-08-10
# 深宇宙時間映像アップサンプリングネットワーク

Deep Space-Time Video Upsampling Networks ( http://arxiv.org/abs/2004.02432v2 )

ライセンス: Link先を確認
Jaeyeon Kang, Younghyun Jo, Seoung Wug Oh, Peter Vajda, and Seon Joo Kim(参考訳) ビデオ超解像(VSR)とフレーム補間(FI)は従来のコンピュータビジョンの問題であり,近年,深層学習を取り入れた性能の向上が進んでいる。 本稿では,表示システムの進歩に伴い,映像を空間的に,時間的に,共同でアップサンプリングすることの課題について検討する。 これに対する解決策の1つは、独立してVSRとFIを実行することである。 これは、ディープニューラルネットワーク(DNN)がそれぞれのソリューションに関与しているため、非常に非効率である。 そこで本稿では,VSRとFIを効率よく融合して,時空ビデオアップサンプリングを行うためのエンドツーエンドDNNフレームワークを提案する。 提案手法では,映像の効率的な処理のために,明示的な動作補償を伴わずに入力フレームを効果的に融合する新しい重み付け方式を提案する。 その結果, 計算時間(x7倍)とパラメータ数(30%)をベースラインと比較し, 定量的, 質的にも良好な結果を示した。

Video super-resolution (VSR) and frame interpolation (FI) are traditional computer vision problems, and the performance have been improving by incorporating deep learning recently. In this paper, we investigate the problem of jointly upsampling videos both in space and time, which is becoming more important with advances in display systems. One solution for this is to run VSR and FI, one by one, independently. This is highly inefficient as heavy deep neural networks (DNN) are involved in each solution. To this end, we propose an end-to-end DNN framework for the space-time video upsampling by efficiently merging VSR and FI into a joint framework. In our framework, a novel weighting scheme is proposed to fuse input frames effectively without explicit motion compensation for efficient processing of videos. The results show better results both quantitatively and qualitatively, while reducing the computation time (x7 faster) and the number of parameters (30%) compared to baselines.
翻訳日:2022-12-16 06:54:31 公開日:2020-08-10
# 生物学的・心理学的動機付けニューラルネットワークモジュールを用いたttの探索(zerospeech 2020)

Exploring TTS without T Using Biologically/Psychologically Motivated Neural Network Modules (ZeroSpeech 2020) ( http://arxiv.org/abs/2005.05487v3 )

ライセンス: Link先を確認
Takashi Morita and Hiroki Koda(参考訳) 本研究では、Zero Resource Speech Challenge 2020において、テキストなし音声(TTS)の探索を報告し、参加者が音声認識とTSを一緒に学習するエンドツーエンドの教師なしシステムを提案した。 ニューラルネットワーク(ANN)の生物学的・心理学的モチベーションを持つモジュールを用いて,人間の言語を生物学的・心理学的問題として教師なし学習することに関心を持つ。 このシステムはまず、Mel Frequency Cepstral Coefficient (MFCC)フレームをEcho-State Network (ESN)で処理し、皮質マイクロ回路内の計算をシミュレートする。 この結果は、ディリクレに基づくベイズクラスタリングを実装し、計算言語学や認知科学で広く受け入れられている変分オートエンコーダ(VAE)によって識別される。 離散化信号は、音声生成のためのソースフィルタモデルのニューラルネットワーク実装によって音声波形に変換される。

In this study, we reported our exploration of Text-To-Speech without Text (TTS without T) in the Zero Resource Speech Challenge 2020, in which participants proposed an end-to-end, unsupervised system that learned speech recognition and TTS together. We addressed the challenge using biologically/psychologically motivated modules of Artificial Neural Networks (ANN), with a particular interest in unsupervised learning of human language as a biological/psychological problem. The system first processes Mel Frequency Cepstral Coefficient (MFCC) frames with an Echo-State Network (ESN), and simulates computations in cortical microcircuits. The outcome is discretized by our original Variational Autoencoder (VAE) that implements the Dirichlet-based Bayesian clustering widely accepted in computational linguistics and cognitive science. The discretized signal is then reverted into sound waveform via a neural-network implementation of the source-filter model for speech production.
翻訳日:2022-12-04 19:45:14 公開日:2020-08-10
# 多層ネットワークのためのパーソナライズされたページランクアルゴリズムを用いた信用リスクの進化

Evolution of Credit Risk Using a Personalized Pagerank Algorithm for Multilayer Networks ( http://arxiv.org/abs/2005.12418v2 )

ライセンス: Link先を確認
Cristi\'an Bravo and Mar\'ia \'Oskarsd\'ottir(参考訳) 本稿では,複雑な多層ネットワーク間の信用リスクの進化を研究するための新しいアルゴリズムを提案する。 Pagerankライクなアルゴリズムは、単一のネットワークにまたがる影響変数の伝搬を可能にし、ネットワーク内の他のノードに持つ接続を前提として、単一のエンティティ(ノード)が持つリスクを定量化する。 一方、多層ネットワークは、ノードのサブセットがユニークな集合(層)に関連付けられるネットワークであり、エッジは、ネットワーク内またはネットワーク間の要素を接続する。 多層ネットワークのためのパーソナライズされたPageRankアルゴリズムは、時間とともに信用リスクがどのように進化し、これらのネットワークを介して伝播するかを定量化する。 各レイヤでバイパーティイトネットワークを使用することで、ローンだけでなく、さまざまなコンポーネントのリスクを定量化できます。 提案手法を農業用貸付データセットで検証し,デフォルトリスクがネットワークを介して伝播し進化する困難な現象であることを示す。

In this paper we present a novel algorithm to study the evolution of credit risk across complex multilayer networks. Pagerank-like algorithms allow for the propagation of an influence variable across single networks, and allow quantifying the risk single entities (nodes) are subject to given the connection they have to other nodes in the network. Multilayer networks, on the other hand, are networks where subset of nodes can be associated to a unique set (layer), and where edges connect elements either intra or inter networks. Our personalized PageRank algorithm for multilayer networks allows for quantifying how credit risk evolves across time and propagates through these networks. By using bipartite networks in each layer, we can quantify the risk of various components, not only the loans. We test our method in an agricultural lending dataset, and our results show how default risk is a challenging phenomenon that propagates and evolves through the network across time.
翻訳日:2022-11-29 05:47:55 公開日:2020-08-10
# 自己教師付きオーディオトランスフォーマの自己着脱理解

Understanding Self-Attention of Self-Supervised Audio Transformers ( http://arxiv.org/abs/2006.03265v2 )

ライセンス: Link先を確認
Shu-wen Yang, Andy T. Liu, Hung-yi Lee(参考訳) 自己教師型音声変換器(SAT)は、ASRのような多くの下流音声アプリケーションで大きな成功を収めるが、その動作方法はまだ広く検討されていない。 本稿では,satにおける注意メカニズム分析のための複数の戦略を提案する。 注意を説明可能なカテゴリに分類し、それぞれのカテゴリが独自の機能を持っていることを発見する。 マルチヘッド・セルフアテンションを理解するための可視化ツール、重要な注意を識別するための重要ランキング戦略、モデル性能を改善するための注意改善技術を提供する。

Self-supervised Audio Transformers (SAT) enable great success in many downstream speech applications like ASR, but how they work has not been widely explored yet. In this work, we present multiple strategies for the analysis of attention mechanisms in SAT. We categorize attentions into explainable categories, where we discover each category possesses its own unique functionality. We provide a visualization tool for understanding multi-head self-attention, importance ranking strategies for identifying critical attention, and attention refinement techniques to improve model performance.
翻訳日:2022-11-25 03:53:46 公開日:2020-08-10
# 確率的非凸最適化:適応アルゴリズムと高次一般化境界

Private Stochastic Non-Convex Optimization: Adaptive Algorithms and Tighter Generalization Bounds ( http://arxiv.org/abs/2006.13501v2 )

ライセンス: Link先を確認
Yingxue Zhou, Xiangyi Chen, Mingyi Hong, Zhiwei Steven Wu, Arindam Banerjee(参考訳) 確率的非凸最適化のための差分プライベート(DP)アルゴリズムについて検討する。 この問題では、分布から引き出されたサンプルが与えられたp$-次元空間上の人口減少を最小限に抑えることが目的である。 我々は、以前の作業から${\sqrt{p}}/{\sqrt{n}}$の集団勾配を改良し、よりシャープな$\sqrt[4]{p}/\sqrt{n}$を得る。 適応アルゴリズム DP RMSProp と DP Adam を含む,プライベート勾配に基づく手法のコレクションを初めて分析することにより,この率を得る。 我々の証明手法は、差分プライバシーと適応データ解析の接続を利用して、各イテレーションにおける境界勾配推定誤差を計算し、標準の均一収束引数から有界な一般化を回避する。 最後に,一般的な2つの深層学習タスクにおける提案アルゴリズムを評価し,標準dp sgdに対するdp適応勾配法の実証的利点を示す。

We study differentially private (DP) algorithms for stochastic non-convex optimization. In this problem, the goal is to minimize the population loss over a $p$-dimensional space given $n$ i.i.d. samples drawn from a distribution. We improve upon the population gradient bound of ${\sqrt{p}}/{\sqrt{n}}$ from prior work and obtain a sharper rate of $\sqrt[4]{p}/\sqrt{n}$. We obtain this rate by providing the first analyses on a collection of private gradient-based methods, including adaptive algorithms DP RMSProp and DP Adam. Our proof technique leverages the connection between differential privacy and adaptive data analysis to bound gradient estimation error at every iterate, which circumvents the worse generalization bound from the standard uniform convergence argument. Finally, we evaluate the proposed algorithms on two popular deep learning tasks and demonstrate the empirical advantages of DP adaptive gradient methods over standard DP SGD.
翻訳日:2022-11-17 10:01:09 公開日:2020-08-10
# 強化学習に基づく2状態q-learningによる手書き文字認識

Reinforcement Learning Based Handwritten Digit Recognition with Two-State Q-Learning ( http://arxiv.org/abs/2007.01193v2 )

ライセンス: Link先を確認
Abdul Mueed Hafiz, Ghulam Mohiuddin Bhat(参考訳) 深層学習と強化学習に基づく簡易かつ効率的なハイブリッド分類器を提案する。 Q-Learningは2つのQ状態と4つのアクションで使用される。 従来の手法では畳み込みニューラルネットワーク(cnns)から抽出された特徴マップを使用し、過去の履歴とともにqstateに含める。 このことは、特徴写像の高次元のため状態の数が非常に多いため、これらのアプローチの難しさにつながる。 本手法は2つのq状態のみを使用するため,最適化するパラメータがはるかに少なく,簡単な報酬機能を備えている。 また、このアプローチは未探索のアクションを画像処理のvis-a-visに使用する。 このアプローチのベンチマークには3つのデータセットが使用されている。 これらはMNIST Digit Image Dataset、USPS Digit Image Dataset、MATLAB Digit Image Datasetである。 このハイブリッド分類器の性能は、よく確立された強化学習技術、AlexNet、CNN-Nearest Neighbor Classifier、CNNSupport Vector Machine Classifierなどの現代技術と比較されている。 提案手法は, 使用した3つのデータセットすべてにおいて, 現代のハイブリッド分類器よりも優れている。

We present a simple yet efficient Hybrid Classifier based on Deep Learning and Reinforcement Learning. Q-Learning is used with two Q-states and four actions. Conventional techniques use feature maps extracted from Convolutional Neural Networks (CNNs) and include them in the Qstates along with past history. This leads to difficulties with these approaches as the number of states is very large number due to high dimensions of the feature maps. Since our method uses only two Q-states it is simple and has much lesser number of parameters to optimize and also thus has a straightforward reward function. Also, the approach uses unexplored actions for image processing vis-a-vis other contemporary techniques. Three datasets have been used for benchmarking of the approach. These are the MNIST Digit Image Dataset, the USPS Digit Image Dataset and the MATLAB Digit Image Dataset. The performance of the proposed hybrid classifier has been compared with other contemporary techniques like a well-established Reinforcement Learning Technique, AlexNet, CNN-Nearest Neighbor Classifier and CNNSupport Vector Machine Classifier. Our approach outperforms these contemporary hybrid classifiers on all the three datasets used.
翻訳日:2022-11-16 02:32:54 公開日:2020-08-10
# Spotifyのデータによるアフロビート予測

Predicting Afrobeats Hit Songs Using Spotify Data ( http://arxiv.org/abs/2007.03137v2 )

ライセンス: Link先を確認
Adewale Adeagbo(参考訳) この研究はヒット曲科学の問題にアプローチし、afrobeatsジャンルのどの曲がspotifyリスナーに人気になるかを予測することを目的としている。 2063曲のデータセットがSpotify Web APIを通じて生成され、オーディオ機能が提供される。 ランダムフォレストとグラディエントブースティングのアルゴリズムは、約86%のF1スコアで成功した。

This study approached the Hit Song Science problem with the aim of predicting which songs in the Afrobeats genre will become popular among Spotify listeners. A dataset of 2063 songs was generated through the Spotify Web API, with the provided audio features. Random Forest and Gradient Boosting algorithms proved to be successful with approximately F1 scores of 86%.
翻訳日:2022-11-12 20:45:13 公開日:2020-08-10
# End-to-End ASRにおける文脈バイアスのためのクラスLMと単語マッピング

Class LM and word mapping for contextual biasing in End-to-End ASR ( http://arxiv.org/abs/2007.05609v3 )

ライセンス: Link先を確認
Rongqing Huang, Ossama Abdel-hamid, Xinwei Li, Gunnar Evermann(参考訳) 近年、オールニューラル・エンド・ツー・エンド(E2E)ASRシステムは音声認識コミュニティに急速に関心を寄せている。 音声入力を単一のトレーニング可能なニューラルネットワークモデルでテキスト単位に変換する。 ASRでは、多くの発話はリッチな名前のエンティティを含む。 このような名前付きエンティティは、ユーザまたはロケーション固有のもので、トレーニング中に見ることはできない。 単一のモデルでは、推論中に動的文脈情報を利用できなくなる。 本稿では,コンテキスト認識型E2Eモデルをトレーニングし,推論中にビーム探索がコンテキストFSTに遷移できるようにすることを提案する。 また、コンテキストFSTとベースモデルとのコスト差を調整するための簡易な手法を提案する。 このアルゴリズムは、通常の発話の精度を小さくして、名前付きエンティティ発話WERを57%削減することができる。 E2Eモデルは発音辞書を必要としないが、既存の発音知識を利用して精度を向上させることは興味深い。 本稿では,レアエンティティの単語を発音を通じて共通語にマップし,そのマッピングされた単語を認識中の元の単語の代替形として扱うアルゴリズムを提案する。 このアルゴリズムは、名前付きエンティティ発話のWERをさらに31%削減する。

In recent years, all-neural, end-to-end (E2E) ASR systems gained rapid interest in the speech recognition community. They convert speech input to text units in a single trainable Neural Network model. In ASR, many utterances contain rich named entities. Such named entities may be user or location specific and they are not seen during training. A single model makes it inflexible to utilize dynamic contextual information during inference. In this paper, we propose to train a context aware E2E model and allow the beam search to traverse into the context FST during inference. We also propose a simple method to adjust the cost discrepancy between the context FST and the base model. This algorithm is able to reduce the named entity utterance WER by 57% with little accuracy degradation on regular utterances. Although an E2E model does not need pronunciation dictionary, it's interesting to make use of existing pronunciation knowledge to improve accuracy. In this paper, we propose an algorithm to map the rare entity words to common words via pronunciation and treat the mapped words as an alternative form to the original word during recognition. This algorithm further reduces the WER on the named entity utterances by another 31%.
翻訳日:2022-11-11 22:25:24 公開日:2020-08-10
# 目標認識予測: 重要事項をモデル化する学習

Goal-Aware Prediction: Learning to Model What Matters ( http://arxiv.org/abs/2007.07170v2 )

ライセンス: Link先を確認
Suraj Nair, Silvio Savarese, Chelsea Finn(参考訳) 学習されたダイナミクスモデルと計画と政策学習アルゴリズムを組み合わせることで、人工エージェントが限られた監督で多くの多様なタスクを実行できることが期待できる。 しかし、学習したフォワードダイナミクスモデルを使用する際の根本的な課題の1つは、学習したモデルの目的(将来の状態の再構築)と下流のプランナーやポリシー(特定のタスクを補完する)とのミスマッチである。 この問題は、現実世界の複雑さがモデル容量を弱める様々な現実世界環境におけるビジョンベースの制御タスクによって悪化する。 本稿では,タスク関連情報への直接的予測を提案し,モデルが現在のタスクを認識できるようにし,状態空間の関連量のみをモデル化するように促すことにより,下流タスクとより密に一致する学習目標を導出する。 さらに、報酬関数や画像ラベルを必要とせずに、完全に自己管理的な方法で実施する。 提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。

Learned dynamics models combined with both planning and policy learning algorithms have shown promise in enabling artificial agents to learn to perform many diverse tasks with limited supervision. However, one of the fundamental challenges in using a learned forward dynamics model is the mismatch between the objective of the learned model (future state reconstruction), and that of the downstream planner or policy (completing a specified task). This issue is exacerbated by vision-based control tasks in diverse real-world environments, where the complexity of the real world dwarfs model capacity. In this paper, we propose to direct prediction towards task relevant information, enabling the model to be aware of the current task and encouraging it to only model relevant quantities of the state space, resulting in a learning objective that more closely matches the downstream task. Further, we do so in an entirely self-supervised manner, without the need for a reward function or image labels. We find that our method more effectively models the relevant parts of the scene conditioned on the goal, and as a result outperforms standard task-agnostic dynamics models and model-free reinforcement learning.
翻訳日:2022-11-10 13:22:27 公開日:2020-08-10
# ドメインバランスハードプロトタイプマイニングと言語依存スコア正規化を用いた言語間話者照合

Cross-Lingual Speaker Verification with Domain-Balanced Hard Prototype Mining and Language-Dependent Score Normalization ( http://arxiv.org/abs/2007.07689v2 )

ライセンス: Link先を確認
Jenthe Thienpondt, Brecht Desplanques, Kris Demuynck(参考訳) 本稿では,SdSV (Short-duration Speaker Verification) Challenge 2020のテキスト非依存タスクに対するトップスコアIDLabの提出について述べる。 この課題の主な難しさは、潜在的に言語横断的な試験とドメイン内のDeepMine Farsiトレーニングデータの限られた可用性の相違にある。 我々は,最先端のECAPA-TDNNx-vectorベースの話者埋め込み抽出器を微調整するために,ドメインバランスのよいハードプロトタイプマイニングを導入する。 サンプルマイニング技術は、一般的なAAM-softmax損失関数の話者プロトタイプ間の話者距離を効率よく利用し、ドメインレベルでバランスの取れた挑戦的なトレーニングバッチを構築する。 言語間トライアルのスコアを高めるために,言語依存のs-ノルムスコア正規化を提案する。 インポスターコホートには、常にfarsiである登録データをシミュレートするfarsiターゲットドメインのデータのみが含まれている。 gaussian-backend言語モデルが英語を含むテスト話者埋め込みを検出した場合、aam-softmax話者プロトタイプで決定される言語間補償オフセットを最大期待平均スコアから減算する。 トポロジカルな微調整を施した5つのシステムの融合により、SdSVC評価セットでそれぞれ0.065と1.45%の最終的なMinDCFとEERが得られた。

In this paper we describe the top-scoring IDLab submission for the text-independent task of the Short-duration Speaker Verification (SdSV) Challenge 2020. The main difficulty of the challenge exists in the large degree of varying phonetic overlap between the potentially cross-lingual trials, along with the limited availability of in-domain DeepMine Farsi training data. We introduce domain-balanced hard prototype mining to fine-tune the state-of-the-art ECAPA-TDNN x-vector based speaker embedding extractor. The sample mining technique efficiently exploits speaker distances between the speaker prototypes of the popular AAM-softmax loss function to construct challenging training batches that are balanced on the domain-level. To enhance the scoring of cross-lingual trials, we propose a language-dependent s-norm score normalization. The imposter cohort only contains data from the Farsi target-domain which simulates the enrollment data always being Farsi. In case a Gaussian-Backend language model detects the test speaker embedding to contain English, a cross-language compensation offset determined on the AAM-softmax speaker prototypes is subtracted from the maximum expected imposter mean score. A fusion of five systems with minor topological tweaks resulted in a final MinDCF and EER of 0.065 and 1.45% respectively on the SdSVC evaluation set.
翻訳日:2022-11-10 06:19:58 公開日:2020-08-10
# 確率勾配フリーおよび射影フリーの高速化

Accelerated Stochastic Gradient-free and Projection-free Methods ( http://arxiv.org/abs/2007.12625v2 )

ライセンス: Link先を確認
Feihu Huang, Lue Tao, Songcan Chen(参考訳) 本稿では,制約付き確率的・有限和非凸最適化を解くために,確率的勾配なし・投影不要(すなわちゼロ次フランクウルフ)法のクラスを提案する。 具体的には、SPIDER/SpiderBoostの分散低減技術と新しい運動量加速技術に基づいて、確率ゼロ階Frank-Wolfe(Acc-SZOFW)法を提案する。 さらに,いくつかの穏やかな条件下では, acc-szofw の関数クエリの複雑性が $o(d\sqrt{n}\epsilon^{-2})$ であることが証明され, 有限サム問題において $\epsilon$-stationary point を見つけるために,$o(\sqrt{n}\epsilon^{-2})$ の係数で最良値が向上し, 確率問題において $o(d\epsilon^{-3})$ の関数クエリの複雑さが証明され,$o(\epsilon^{-1})$ の係数によって最良値が向上する。 acc-szofwで必要とされる大きなバッチを緩和するために、我々はさらに、大きなバッチに頼らずに確率問題において、関数クエリの複雑性が$o(d\epsilon^{-3})$に達する、stormの新しい分散削減技術に基づいて、新しい加速確率確率確率的ゼロ次frank-wolfe (acc-szofw*)を提案する。 特に,提案手法に基づくFrank-Wolfe手法の高速化フレームワークを提案する。 ブラックボックス攻撃とロバストブラックボックス分類の広範な実験結果から,アルゴリズムの有効性が示された。

In the paper, we propose a class of accelerated stochastic gradient-free and projection-free (a.k.a., zeroth-order Frank-Wolfe) methods to solve the constrained stochastic and finite-sum nonconvex optimization. Specifically, we propose an accelerated stochastic zeroth-order Frank-Wolfe (Acc-SZOFW) method based on the variance reduced technique of SPIDER/SpiderBoost and a novel momentum accelerated technique. Moreover, under some mild conditions, we prove that the Acc-SZOFW has the function query complexity of $O(d\sqrt{n}\epsilon^{-2})$ for finding an $\epsilon$-stationary point in the finite-sum problem, which improves the exiting best result by a factor of $O(\sqrt{n}\epsilon^{-2})$, and has the function query complexity of $O(d\epsilon^{-3})$ in the stochastic problem, which improves the exiting best result by a factor of $O(\epsilon^{-1})$. To relax the large batches required in the Acc-SZOFW, we further propose a novel accelerated stochastic zeroth-order Frank-Wolfe (Acc-SZOFW*) based on a new variance reduced technique of STORM, which still reaches the function query complexity of $O(d\epsilon^{-3})$ in the stochastic problem without relying on any large batches. In particular, we present an accelerated framework of the Frank-Wolfe methods based on the proposed momentum accelerated technique. The extensive experimental results on black-box adversarial attack and robust black-box classification demonstrate the efficiency of our algorithms.
翻訳日:2022-11-09 23:09:45 公開日:2020-08-10
# コントラスト学習によるハイブリッド識別生成訓練

Hybrid Discriminative-Generative Training via Contrastive Learning ( http://arxiv.org/abs/2007.09070v2 )

ライセンス: Link先を確認
Hao Liu, Pieter Abbeel(参考訳) 対照的な学習と教師付き学習はともに大きな進歩と成功を見出している。 しかし、これまでのところ、それらは主に2つの異なる目的として扱われており、共有ニューラルネットワークのみによってまとめられている。 本稿では,エネルギーベースモデルのハイブリッドな判別・生成訓練の観点から,コントラスト学習と教師付き学習の直接的関連を示す。 CIFAR-10 および CIFAR-100 上の WideResNet の分類精度において,エネルギーベース損失の近似の具体的選択が既存手法より優れていることを示す。 また、ロバスト性、アウト・オブ・ディストリビューション検出、キャリブレーションの性能も向上する。

Contrastive learning and supervised learning have both seen significant progress and success. However, thus far they have largely been treated as two separate objectives, brought together only by having a shared neural network. In this paper we show that through the perspective of hybrid discriminative-generative training of energy-based models we can make a direct connection between contrastive learning and supervised learning. Beyond presenting this unified view, we show our specific choice of approximation of the energy-based loss outperforms the existing practice in terms of classification accuracy of WideResNet on CIFAR-10 and CIFAR-100. It also leads to improved performance on robustness, out-of-distribution detection, and calibration.
翻訳日:2022-11-09 12:55:02 公開日:2020-08-10
# 深部生成型ハイブリッドネットワークと対向ペア判別器を用いた非並列感情変換

Non-parallel Emotion Conversion using a Deep-Generative Hybrid Network and an Adversarial Pair Discriminator ( http://arxiv.org/abs/2007.12932v2 )

ライセンス: Link先を確認
Ravi Shankar and Jacob Sager and Archana Venkataraman(参考訳) 本稿では,並列学習データを必要としない音声における感情変換手法を提案する。 提案手法は,感情ペア間の相互変換から再構成エラーを最小限に抑えるために,サイクルGANスキーマを緩やかに頼っている。 しかし、従来のサイクルガンとは異なり、この判別器は1対の入力実数と生成したサンプルが所望の感情変換(例えばaからb)またはその逆(bからa)に対応するかどうかを分類する。 本稿では,この構成を変分サイクルGAN (VC-GAN) と呼び,音源の特徴と周期的特徴との間のKLの相違を最小化するものであることを示す。 さらに,学習可能な深層ネットワークと固定された生成ブロックを組み合わせることで,入力特性のスムーズで可逆な変換を実現する。 このハイブリッドアーキテクチャは、我々の敵のトレーニング手順を規則化する。 クラウドソーシングを用いて,音声合成の感情的評価と品質評価を行った。 最後に,Wavenet が生成した音声を改良することにより,モデルが新しい話者に一般化されることを示す。

We introduce a novel method for emotion conversion in speech that does not require parallel training data. Our approach loosely relies on a cycle-GAN schema to minimize the reconstruction error from converting back and forth between emotion pairs. However, unlike the conventional cycle-GAN, our discriminator classifies whether a pair of input real and generated samples corresponds to the desired emotion conversion (e.g., A to B) or to its inverse (B to A). We will show that this setup, which we refer to as a variational cycle-GAN (VC-GAN), is equivalent to minimizing the empirical KL divergence between the source features and their cyclic counterpart. In addition, our generator combines a trainable deep network with a fixed generative block to implement a smooth and invertible transformation on the input features, in our case, the fundamental frequency (F0) contour. This hybrid architecture regularizes our adversarial training procedure. We use crowd sourcing to evaluate both the emotional saliency and the quality of synthesized speech. Finally, we show that our model generalizes to new speakers by modifying speech produced by Wavenet.
翻訳日:2022-11-07 01:26:52 公開日:2020-08-10
# 潜在変数正規化と連鎖エンコーダ-デコーダ-予測ネットワークによるマルチ話者感情変換

Multi-speaker Emotion Conversion via Latent Variable Regularization and a Chained Encoder-Decoder-Predictor Network ( http://arxiv.org/abs/2007.12937v2 )

ライセンス: Link先を確認
Ravi Shankar and Hsi-Wei Hsieh and Nicolas Charon and Archana Venkataraman(参考訳) 本稿では,連鎖エンコーダ-デコーダ-予測ニューラルネットワークアーキテクチャに基づく音声の感情変換手法を提案する。 エンコーダは、基本周波数(f0)の輪郭とスペクトルの潜在埋め込みを構成し、これをlddmm(big diffeomorphic metric mapping)登録フレームワークを用いて正規化する。 デコーダは、この埋め込みを使用して、対象の感情クラスにおける修正されたf0パターンを予測する。 最後に、予測器は元のスペクトルと修正されたF0輪郭を用いて対応する目標スペクトルを生成する。 共同目的関数は3つのモデルブロックのパラメータを同時に最適化する。 提案手法は,感情変換と合成音声の質の両方において,既存の最先端のアプローチよりも優れていることを示す。 さらに, LDDMM正規化により, トレーニング中に存在しないフレーズを変換し, サンプル外一般化の証拠を提供する。

We propose a novel method for emotion conversion in speech based on a chained encoder-decoder-predictor neural network architecture. The encoder constructs a latent embedding of the fundamental frequency (F0) contour and the spectrum, which we regularize using the Large Diffeomorphic Metric Mapping (LDDMM) registration framework. The decoder uses this embedding to predict the modified F0 contour in a target emotional class. Finally, the predictor uses the original spectrum and the modified F0 contour to generate a corresponding target spectrum. Our joint objective function simultaneously optimizes the parameters of three model blocks. We show that our method outperforms the existing state-of-the-art approaches on both, the saliency of emotion conversion and the quality of resynthesized speech. In addition, the LDDMM regularization allows our model to convert phrases that were not present in training, thus providing evidence for out-of-sample generalization.
翻訳日:2022-11-07 01:26:12 公開日:2020-08-10
# TEAM:DNNにもっと強力な敵の例が必要です

TEAM: We Need More Powerful Adversarial Examples for DNNs ( http://arxiv.org/abs/2007.15836v2 )

ライセンス: Link先を確認
Yaguan Qian and Ximin Zhang and Bin Wang and Wei Li and Zhaoquan Gu and Haijiang Wang and Wassim Swaileh(参考訳) ディープニューラルネットワーク(DNN)は多くのアプリケーション分野で成功しているが、DNNの誤分類に繋がる非知覚的な敵の例には依然として弱い。 この課題を克服するために、多くの防御手法が提案されている。 実際、強力な敵対的な例は、これらの防御メカニズムを測定するための重要なベンチマークである。 本稿では,従来の手法よりも強力な逆例を生成する新しい手法(TEAM, Taylor Expansion-based Adversarial Methods)を提案する。 主な目的は、攻撃対象の攻撃対象クラスに対する信頼度を最小にしたり、攻撃対象クラスに対する信頼度を最大化することである。 具体的には、入力の小さな近傍の2階テイラー展開を用いてDNNを近似する新たな目的関数を定義する。 次に、これらの目的関数の最適化摂動を得るためにラグランジュ乗算法を用いる。 計算量を削減するため,Gauss-Newton (GN)法を導入して高速化する。 最後に, 実験結果から, 100%攻撃成功率 (ASR) の逆例を, より小さい摂動のみで確実に生成できることが示唆された。 また,本手法により生成した逆例は,勾配マスキングに基づく防御蒸留を破ることができる。

Although deep neural networks (DNNs) have achieved success in many application fields, it is still vulnerable to imperceptible adversarial examples that can lead to misclassification of DNNs easily. To overcome this challenge, many defensive methods are proposed. Indeed, a powerful adversarial example is a key benchmark to measure these defensive mechanisms. In this paper, we propose a novel method (TEAM, Taylor Expansion-Based Adversarial Methods) to generate more powerful adversarial examples than previous methods. The main idea is to craft adversarial examples by minimizing the confidence of the ground-truth class under untargeted attacks or maximizing the confidence of the target class under targeted attacks. Specifically, we define the new objective functions that approximate DNNs by using the second-order Taylor expansion within a tiny neighborhood of the input. Then the Lagrangian multiplier method is used to obtain the optimize perturbations for these objective functions. To decrease the amount of computation, we further introduce the Gauss-Newton (GN) method to speed it up. Finally, the experimental result shows that our method can reliably produce adversarial examples with 100% attack success rate (ASR) while only by smaller perturbations. In addition, the adversarial example generated with our method can defeat defensive distillation based on gradient masking.
翻訳日:2022-11-04 05:53:17 公開日:2020-08-10
# HMOR:階層型多人数順序関係による単眼多人数3次元姿勢推定

HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular Multi-Person 3D Pose Estimation ( http://arxiv.org/abs/2008.00206v2 )

ライセンス: Link先を確認
Jiefeng Li, Can Wang, Wentao Liu, Chen Qian, Cewu Lu(参考訳) モノクラーRGBカメラによる3次元人間のポーズ推定では顕著な進歩が見られた。 しかし、3Dマルチパーソンの症例を調べた研究はわずかであった。 本稿では,階層的多人数順序関係(hmor)の新たな形態を導入することにより,トップダウンアプローチのグローバル視点の欠如に対処しようとする。 HMORは、相互作用情報を階層的に深さと角度の順序関係として符号化し、身体部分と関節レベルの意味を捉え、同時にグローバルな一貫性を維持する。 このアプローチでは,これらの順序関係を学習プロセスで活用するために,統合トップダウンモデルが設計されている。 統合モデルでは,人間の境界ボックス,人間の奥行き,ルート関連3dポーズを同時に推定し,粒度から細かなアーキテクチャを用いて深さ推定の精度を向上させる。 提案手法は,公開されている多人数3Dポーズデータセットにおいて,最先端の手法を大幅に上回る。 優れた性能に加えて,計算複雑性を低減し,モデルパラメータを低減した。

Remarkable progress has been made in 3D human pose estimation from a monocular RGB camera. However, only a few studies explored 3D multi-person cases. In this paper, we attempt to address the lack of a global perspective of the top-down approaches by introducing a novel form of supervision - Hierarchical Multi-person Ordinal Relations (HMOR). The HMOR encodes interaction information as the ordinal relations of depths and angles hierarchically, which captures the body-part and joint level semantic and maintains global consistency at the same time. In our approach, an integrated top-down model is designed to leverage these ordinal relations in the learning process. The integrated model estimates human bounding boxes, human depths, and root-relative 3D poses simultaneously, with a coarse-to-fine architecture to improve the accuracy of depth estimation. The proposed method significantly outperforms state-of-the-art methods on publicly available multi-person 3D pose datasets. In addition to superior performance, our method costs lower computation complexity and fewer model parameters.
翻訳日:2022-11-04 00:45:57 公開日:2020-08-10
# Shape Adaptor: 学習可能なリサイズモジュール

Shape Adaptor: A Learnable Resizing Module ( http://arxiv.org/abs/2008.00892v2 )

ライセンス: Link先を確認
Shikun Liu, Zhe Lin, Yilin Wang, Jianming Zhang, Federico Perazzi, Edward Johns(参考訳) 本稿では,ニューラルネットワークのための新しいリサイズモジュールについて述べる。形状適応モジュール,プール,バイリニアサンプリング,ストレート畳み込みなど,従来のリサイズ層の上に構築されたドロップイン拡張モジュールである。 従来のリサイズ層は固定的かつ決定論的リシェーピング因子を持っているが、モジュールは学習可能なリシェーピング因子を可能にする。 我々の実装では、ネットワークアーキテクチャを各タスクに対して完全に自動化された方法で最適化できるため、追加の監督なしに形状適応器をエンドツーエンドで訓練することが可能です。 7つの画像分類データセットで実験を行い、その結果、元のリサイズ層ではなく形状適応器のセットを単に使用することで、すべてのデータセットにわたって、人間の設計したネットワーク上で一貫して性能が向上することを示しました。 さらに,ネットワーク圧縮と伝達学習の2つの応用における形状適応器の有効性を示す。 ソースコードはhttps://github.com/lorenmt/shape-adaptor.com/で入手できる。

We present a novel resizing module for neural networks: shape adaptor, a drop-in enhancement built on top of traditional resizing layers, such as pooling, bilinear sampling, and strided convolution. Whilst traditional resizing layers have fixed and deterministic reshaping factors, our module allows for a learnable reshaping factor. Our implementation enables shape adaptors to be trained end-to-end without any additional supervision, through which network architectures can be optimised for each individual task, in a fully automated way. We performed experiments across seven image classification datasets, and results show that by simply using a set of our shape adaptors instead of the original resizing layers, performance increases consistently over human-designed networks, across all datasets. Additionally, we show the effectiveness of shape adaptors on two other applications: network compression and transfer learning. The source code is available at: https://github.com/lorenmt/shape-adaptor.
翻訳日:2022-11-03 05:38:47 公開日:2020-08-10
# 非凸最適化のための乗算器の高速確率交互方向法

Faster Stochastic Alternating Direction Method of Multipliers for Nonconvex Optimization ( http://arxiv.org/abs/2008.01296v3 )

ライセンス: Link先を確認
Feihu Huang, Songcan Chen, Heng Huang(参考訳) 本稿では,SPIDER-ADMMと呼ばれる新しい確率パス積分微分推定器(SPIDER)を用いて,非凸最適化のための高速な確率交互方向法を提案する。 さらに、SPIDER-ADMMは、$\mathcal{O}(n+n^{1/2}\epsilon^{-1})$を$\epsilon$-approximate固定点を求めるために、記録破りのインクリメンタルな1次オラクル(IFO)複雑性を達成し、$n$はサンプルサイズを表す$\mathcal{O}(n^{1/2})$によって決定論的ADMMを改善することを証明している。 本稿では,非凸確率ADMM法に対する新たな理論的解析フレームワークを提案する。 この新しい解析枠組みに基づき,既存の非凸svrg-admm法とsaga-admm法の未解決の最適ifo複雑性を調べ,$\mathcal{o}(n+n^{2/3}\epsilon^{-1}) の最適ifo複雑性を証明した。 したがって、SPIDER-ADMMは既存の確率ADMM法を$\mathcal{O}(n^{1/6})$で改善する。 さらに,SPIDER-ADMMをオンライン環境に拡張し,より高速なオンラインSPIDER-ADMMを提案する。 我々の理論分析によると、オンラインSPIDER-ADMMは、$\mathcal{O}(\epsilon^{-\frac{3}{2}})$のIFO複雑性を持ち、$\mathcal{O}(\epsilon^{-\frac{1}{2}})$の係数で既存の最良の結果を改善する。 最後に,提案アルゴリズムは非凸最適化のための既存のADMMアルゴリズムよりも収束速度が速いことを示す。

In this paper, we propose a faster stochastic alternating direction method of multipliers (ADMM) for nonconvex optimization by using a new stochastic path-integrated differential estimator (SPIDER), called as SPIDER-ADMM. Moreover, we prove that the SPIDER-ADMM achieves a record-breaking incremental first-order oracle (IFO) complexity of $\mathcal{O}(n+n^{1/2}\epsilon^{-1})$ for finding an $\epsilon$-approximate stationary point, which improves the deterministic ADMM by a factor $\mathcal{O}(n^{1/2})$, where $n$ denotes the sample size. As one of major contribution of this paper, we provide a new theoretical analysis framework for nonconvex stochastic ADMM methods with providing the optimal IFO complexity. Based on this new analysis framework, we study the unsolved optimal IFO complexity of the existing non-convex SVRG-ADMM and SAGA-ADMM methods, and prove they have the optimal IFO complexity of $\mathcal{O}(n+n^{2/3}\epsilon^{-1})$. Thus, the SPIDER-ADMM improves the existing stochastic ADMM methods by a factor of $\mathcal{O}(n^{1/6})$. Moreover, we extend SPIDER-ADMM to the online setting, and propose a faster online SPIDER-ADMM. Our theoretical analysis shows that the online SPIDER-ADMM has the IFO complexity of $\mathcal{O}(\epsilon^{-\frac{3}{2}})$, which improves the existing best results by a factor of $\mathcal{O}(\epsilon^{-\frac{1}{2}})$. Finally, the experimental results on benchmark datasets validate that the proposed algorithms have faster convergence rate than the existing ADMM algorithms for nonconvex optimization.
翻訳日:2022-11-02 23:22:44 公開日:2020-08-10
# アソシエーションルールマイニングを用いたquranインテリジェントオントロジー構築手法

Quran Intelligent Ontology Construction Approach Using Association Rules Mining ( http://arxiv.org/abs/2008.03232v2 )

ライセンス: Link先を確認
Fouzi Harrag, Abdullah Al-Nasser, Abdullah Al-Musnad, Rayan Al-Shaya(参考訳) オントロジーは知識の形式的な表現と見なすことができる。 セマンティックウェブ、ソフトウェア工学、情報検索を含む多くの人工知能研究で研究されている。 オントロジーの目的は、共有し再利用できる知識表現を開発することである。 本研究プロジェクトは、クアランオントロジーを抽出するためのアソシエーションルールの使用に関するものである。 クアン節からのオントロジーのマニュアル取得は非常にコストがかかるので、パターンベースのスキームとアソシエーションルールを用いてクアン節からクランの概念と意味論の関係を発見するインテリジェントなシステムが必要である。 本システムは,Quranから概念と概念関係を抽出する統計学と言語学の組合せに基づく。 特に、言語パターンに基づくアプローチを用いてクアン語から特定の概念を抽出し、その概念的関係は関連ルール技術に基づいて見出される。 クルアーノオントロジーはクルアーノ知識の新しい強力な表現を提供し、アソシエーションルールはクルアーノオントロジーにおける接続された概念のすべてのクラス間の関係を表現するのに役立つ。

Ontology can be seen as a formal representation of knowledge. They have been investigated in many artificial intelligence studies including semantic web, software engineering, and information retrieval. The aim of ontology is to develop knowledge representations that can be shared and reused. This research project is concerned with the use of association rules to extract the Quran ontology. The manual acquisition of ontologies from Quran verses can be very costly; therefore, we need an intelligent system for Quran ontology construction using patternbased schemes and associations rules to discover Quran concepts and semantics relations from Quran verses. Our system is based on the combination of statistics and linguistics methods to extract concepts and conceptual relations from Quran. In particular, a linguistic pattern-based approach is exploited to extract specific concepts from the Quran, while the conceptual relations are found based on association rules technique. The Quran ontology will offer a new and powerful representation of Quran knowledge, and the association rules will help to represent the relations between all classes of connected concepts in the Quran ontology.
翻訳日:2022-11-02 01:21:09 公開日:2020-08-10
# マニフォールド適応次元推定の再検討

Manifold-adaptive dimension estimation revisited ( http://arxiv.org/abs/2008.03221v2 )

ライセンス: Link先を確認
Zsigmond Benk\H{o}, Marcell Stippinger, Roberta Rehus, Attila Bencze, D\'aniel Fab\'o, Bogl\'arka Hajnal, Lor\'and Er\H{o}ss, Andr\'as Telcs, Zolt\'an Somogyv\'ari(参考訳) データ次元は、データ複雑さと、成功した信号処理パイプラインの構造に制限を課す。 本研究では,多様体適応型ファラマンド・セペスv\'ari-audibert(fsa)次元推定器の再検討と改良を行い,最も近い近傍次元推定器の1つである。 局所多様体密度が一様であれば、局所FSA推定の確率密度関数を計算する。 確率密度関数に基づいて,局所推定の中央値を本質的次元の基本的な大域的尺度として用いることを提案し,この漸近的に偏りのない推定器の利点を示す。 さらに、確率密度関数から、i.d. が成り立つとき、大域的内在次元の最大極大式を導出する。 超キューブデータセット上で校正された指数補正式を用いてエッジおよび有限サンプル効果に取り組む。 修正中規模FSA推定器の性能をkNN推定器と比較する: 最大可能性 (ML, Levina-Bickel) と DANCo (R, matlab) の2つの実装。 補正中間値推定器がML推定器を上回り、平均誤差と誤差率の測定値に応じて標準合成ベンチマークのDANCoと等速であることを示す。 中央値FSAアルゴリズムでは、静止状態およびてんかん発作中における神経動態の変化を明らかにした。 原因となる可能性のある低次元のダイナミックスを持つ脳領域と発作発症部位の候補を同定する。

Data dimensionality informs us about data complexity and sets limit on the structure of successful signal processing pipelines. In this work we revisit and improve the manifold-adaptive Farahmand-Szepesv\'ari-Audibert (FSA) dimension estimator, making it one of the best nearest neighbor-based dimension estimators available. We compute the probability density function of local FSA estimates, if the local manifold density is uniform. Based on the probability density function, we propose to use the median of local estimates as a basic global measure of intrinsic dimensionality, and we demonstrate the advantages of this asymptotically unbiased estimator over the previously proposed statistics: the mode and the mean. Additionally, from the probability density function, we derive the maximum likelihood formula for global intrinsic dimensionality, if i.i.d. holds. We tackle edge and finite-sample effects with an exponential correction formula, calibrated on hypercube datasets. We compare the performance of the corrected-median-FSA estimator with kNN estimators: maximum likelihood (ML, Levina-Bickel) and two implementations of DANCo (R and matlab). We show that corrected-median-FSA estimator beats the ML estimator and it is on equal footing with DANCo for standard synthetic benchmarks according to mean percentage error and error rate metrics. With the median-FSA algorithm, we reveal diverse changes in the neural dynamics while resting state and during epileptic seizures. We identify brain areas with lower-dimensional dynamics that are possible causal sources and candidates for being seizure onset zones.
翻訳日:2022-11-02 01:01:51 公開日:2020-08-10
# グラフのラプラシアン行列のスペクトルに基づく昇降率検出法

A boosted outlier detection method based on the spectrum of the Laplacian matrix of a graph ( http://arxiv.org/abs/2008.03039v2 )

ライセンス: Link先を確認
Nicolas Cofre(参考訳) 本稿では,グラフのラプラシアン行列のスペクトルに基づく新しい外れ値検出アルゴリズムについて検討する。 スパースデータベースの学習者とを併用するメリットがある。 ラプラシアン行列のスパーシティは計算負荷を大幅に削減し、スペクトルクラスタリングに比べて大きなデータセットにスペクトルベースの異常検出法を適用することができる。 この方法は、分離森林や局所外層因子のような一般的に使用される外層検出アルゴリズムで合成データセットと競合する。

This paper explores a new outlier detection algorithm based on the spectrum of the Laplacian matrix of a graph. Taking advantage of boosting together with sparse-data based learners. The sparcity of the Laplacian matrix significantly decreases the computational burden, enabling a spectrum based outlier detection method to be applied to larger datasets compared to spectral clustering. The method is competitive on synthetic datasets with commonly used outlier detection algorithms like Isolation Forest and Local Outlier Factor.
翻訳日:2022-11-02 00:34:21 公開日:2020-08-10
# 高速クラスタリングのための半定値プログラムのスケッチ

Sketching semidefinite programs for faster clustering ( http://arxiv.org/abs/2008.04270v1 )

ライセンス: Link先を確認
Dustin G. Mixon, Kaiying Xie(参考訳) 多くのクラスタリング問題は半定プログラミングによる解を楽しむ。 この静脈内における理論的結果は、信号強度が十分に大きいときに、半定値プログラムが正確にプラントクラスタリングを回復するという信号強度の概念と、しばしば考慮される。 実際には半確定プログラムは遅く、スピードアップも歓迎されています。 本稿では,最小二分法と呼ばれるグラフクラスタリング問題の半無限緩和法をスケッチする方法を述べるとともに,より多くの信号が存在する場合,クラスタリングタスクは計算的に負担が少ないというメタ宣言を支持する。

Many clustering problems enjoy solutions by semidefinite programming. Theoretical results in this vein frequently consider data with a planted clustering and a notion of signal strength such that the semidefinite program exactly recovers the planted clustering when the signal strength is sufficiently large. In practice, semidefinite programs are notoriously slow, and so speedups are welcome. In this paper, we show how to sketch a popular semidefinite relaxation of a graph clustering problem known as minimum bisection, and our analysis supports a meta-claim that the clustering task is less computationally burdensome when there is more signal.
翻訳日:2022-10-31 23:43:59 公開日:2020-08-10
# 地下流れ問題に対する最適ベイズ実験設計

Optimal Bayesian experimental design for subsurface flow problems ( http://arxiv.org/abs/2008.03989v1 )

ライセンス: Link先を確認
Alexander Tarakanov, Ahmed H. Elsheikh(参考訳) 最適なベイズ設計手法は、実際のデータ収集に先立って測定値の最大化のために、実験の最良のパラメータの見積もりを提供する。 言い換えれば、これらの技術は可能な観測の空間を探索し、平均でシステムパラメータに関する最大情報を生成する実験的な設定を決定する。 一般に、最適なベイズ設計の定式化は、各積分点が偏微分方程式の結合系の解に対応するため、重要な計算コストを伴わずに評価が難しい複数の高次元積分をもたらす。 本研究は,設計ユーティリティ関数に対する多項式カオス展開(PCE)代理モデルの開発のための新しいアプローチを提案する。 特に,予測情報ゲインに対するPCE近似を直接構築することにより,観測可能な空間上の高価な積分を置き換えるために,PCE基底多項式の直交性をいかに活用できるかを示す。 この手法により,対象関数に対する適切な品質応答面の導出が可能となり,計算予算は複数の単点評価に匹敵する。 したがって,提案手法はベイズ最適実験設計のコストを劇的に削減する。 提案手法の計算上の利点を説明するため,PCE を利用したこの代替形式を,様々なレベルの複雑性を持つ数個の数値テストケースで評価した。

Optimal Bayesian design techniques provide an estimate for the best parameters of an experiment in order to maximize the value of measurements prior to the actual collection of data. In other words, these techniques explore the space of possible observations and determine an experimental setup that produces maximum information about the system parameters on average. Generally, optimal Bayesian design formulations result in multiple high-dimensional integrals that are difficult to evaluate without incurring significant computational costs as each integration point corresponds to solving a coupled system of partial differential equations. In the present work, we propose a novel approach for development of polynomial chaos expansion (PCE) surrogate model for the design utility function. In particular, we demonstrate how the orthogonality of PCE basis polynomials can be utilized in order to replace the expensive integration over the space of possible observations by direct construction of PCE approximation for the expected information gain. This novel technique enables the derivation of a reasonable quality response surface for the targeted objective function with a computational budget comparable to several single-point evaluations. Therefore, the proposed technique reduces dramatically the overall cost of optimal Bayesian experimental design. We evaluate this alternative formulation utilizing PCE on few numerical test cases with various levels of complexity to illustrate the computational advantages of the proposed approach.
翻訳日:2022-10-31 23:42:30 公開日:2020-08-10
# 脆弱性記述からの攻撃モデリングのためのエンドツーエンド自動フレームワーク

An Automated, End-to-End Framework for Modeling Attacks From Vulnerability Descriptions ( http://arxiv.org/abs/2008.04377v1 )

ライセンス: Link先を確認
Hodaya Binyamini, Ron Bitton, Masaki Inokuchi, Tomohiko Yagyu, Yuval Elovici, Asaf Shabtai(参考訳) アタックグラフはリスク評価プロセスの自動化に使用される主要なテクニックの1つである。 関連する攻撃グラフを導出するために、既知の攻撃技術に関する最新の情報をインタラクションルールとして表現する必要がある。 新しいインタラクションルールの設計と作成は簡単な作業ではなく、現在セキュリティ専門家が手作業で行っている。 しかし,新たなセキュリティ脆弱性やアタックテクニックが継続的に増え続けているため,新たなアタック手法でアタックグラフツールのルールセットを頻繁に更新することで,インタラクションルールのセットが常に最新であることを保証する必要がある。 本稿では,セキュリティ脆弱性のテキスト記述から新たな攻撃テクニックをモデル化するための,エンドツーエンドの自動フレームワークを提案する。 セキュリティ脆弱性の説明が与えられると、提案されたフレームワークは、最初に攻撃のモデル化に必要な関連する攻撃エンティティを抽出し、脆弱性に関する情報の欠如を完了し、攻撃をモデル化する新しいインタラクションルールを導出する。 提案フレームワークは,NVDリポジトリ上でトレーニングされた専用サイバーセキュリティ言語モデル,攻撃エンティティ抽出に使用されるリカレントニューラルネットワークモデル,不足情報を補完するロジスティック回帰モデル,MulVALのインタラクションルールとして自動モデル化するマシンラーニングベースのアプローチを含む,新たなパイプラインを実装している。 本研究は,各アルゴリズムの性能とフレームワークの完成度を評価し,その有効性を実証した。

Attack graphs are one of the main techniques used to automate the risk assessment process. In order to derive a relevant attack graph, up-to-date information on known attack techniques should be represented as interaction rules. Designing and creating new interaction rules is not a trivial task and currently performed manually by security experts. However, since the number of new security vulnerabilities and attack techniques continuously and rapidly grows, there is a need to frequently update the rule set of attack graph tools with new attack techniques to ensure that the set of interaction rules is always up-to-date. We present a novel, end-to-end, automated framework for modeling new attack techniques from textual description of a security vulnerability. Given a description of a security vulnerability, the proposed framework first extracts the relevant attack entities required to model the attack, completes missing information on the vulnerability, and derives a new interaction rule that models the attack; this new rule is integrated within MulVAL attack graph tool. The proposed framework implements a novel pipeline that includes a dedicated cybersecurity linguistic model trained on the the NVD repository, a recurrent neural network model used for attack entity extraction, a logistic regression model used for completing the missing information, and a novel machine learning-based approach for automatically modeling the attacks as MulVAL's interaction rule. We evaluated the performance of each of the individual algorithms, as well as the complete framework and demonstrated its effectiveness.
翻訳日:2022-10-31 23:41:56 公開日:2020-08-10
# 米国におけるコネクテッド・アンド・自動運転車の展開に関する調査と考察

A Survey and Insights on Deployments of the Connected and Autonomous Vehicles in US ( http://arxiv.org/abs/2008.04379v1 )

ライセンス: Link先を確認
Sanchu Han(参考訳) CV/ITS (Connected Vehicle, Intelligent Transportation System) とAV/ADS (Autonomous Vehicle, Automated Driving System) は、人命を救うため、交通効率を向上し、何十年にもわたって環境を救おうとしている。 USDOTはCVのための国家DOTと、AVの新興企業やテクノロジー企業による市場主導のアプローチによる民間部門とをそれぞれリードしている。 CV/ITSの取り組みにより、5.9GHz帯を使ったV2X通信が97台、アフターマーケットのV2X通信機器を搭載した18,877台の車両が8,098台のインフラV2X機器が道路に設置されている。 しかし、cv/itsは規制の欠如、専用無線スペクトルバンド、成熟したサプライチェーンを持つ持続可能な金融・ビジネスモデルなどにより、米国市場には大規模に展開できない。 一方、テクノロジ駆動型AV市場は、さまざまな複雑な運転シナリオをコスト効率よく処理するAI技術の未成熟さが主な理由として、予想よりもはるかに遅い。 本稿では,まず,運用モデル,シナリオとアプリケーション,評価,レッスン学習を含むデプロイメントに焦点を当てた2つの並列旅について述べる。 そして、より実現可能で、安全で、安価で、費用対効果の高い輸送を駆動する、協調的なcavアプローチの推奨を思いつきます。 ICTとクラウド。

CV/ITS (Connected Vehicle, Intelligent Transportation System) and AV/ADS (Autonomous Vehicle, Automated Driving System) have been emerging for the sake of saving people lives, improving traffic efficiency and helping the environment for decades. There are separate efforts led respectively by USDOT with state DOTs for CV, and private sectors through market driven approach from start-ups and technology companies for AV. By CV/ITS effort there are 97 deployments of V2X communications utilizing the 5.9 GHz band, 18,877 vehicles with aftermarket V2X communications devices, and 8,098 infrastructure V2X devices installed at the roadsides. However, CV/ITS still cannot be massively deployed in US markets due to lack of regulations, dedicated wireless spectrum bands, sustainable financial & business models with mature supply chain, etc. In the other side, technology-driven AV market has been much slower than expected mainly because of immaturity of AI technology to handle different complex driving scenarios in a cost effective way. In this paper, we first present these two parallel journeys focusing on the deployments including operating models, scenarios and applications, evaluations and lessons learning. Then, come up with recommendations to a cooperative CAV approach driving a more feasible, safer, affordable and cost effective transportation, but require a great industry collaboration from Automotive, Transportation. ICT and Cloud.
翻訳日:2022-10-31 23:41:31 公開日:2020-08-10
# より高速な収束と画質評価性能を有するノルム内損失

Norm-in-Norm Loss with Faster Convergence and Better Performance for Image Quality Assessment ( http://arxiv.org/abs/2008.03889v1 )

ライセンス: Link先を確認
Dingquan Li, Tingting Jiang and Ming Jiang(参考訳) 現在、ほとんどの画像品質評価(IQA)モデルは、経験的に遅い収束を伴うMAEまたはMSE損失によって制御されている。 正規化が高速収束を促進することはよく知られている。 そこで本研究では,IQAの損失関数設計における正規化について検討する。 具体的には,まず予測品質スコアと対応する主観的品質スコアを正規化する。 そして、これらの正規化値間の差のノルムに基づいて損失を定義する。 結果として生じるNorm-in-Normの損失は、主観的品質スコアに対する線形予測をIQAモデルに促す。 トレーニング後、予測品質から主観的品質への線形写像を決定するために最小二乗回帰を適用した。 新たな損失は2つの一般的なIQA性能基準(PLCCとRMSE)と密接に関連している。 理論的解析により、埋め込み正規化により損失関数の勾配がより安定かつ予測可能となり、iqaモデルのより高速な収束をもたらすことが証明された。 さらに,提案した損失の有効性を実験的に検証するために,Wild画像の品質評価という課題を解決した。 関連する2つのデータセット(koniq-10kとclive)の実験では、maeやmseの損失と比較して、新しい損失により、iqaモデルの収束速度が約10倍向上し、最終的なモデルのパフォーマンスが向上している。 提案モデルはまた,この課題に対して最先端の予測性能を実現する。 再現可能な科学的研究のために、コードはhttps://github.com/lidq92/linearityiqaで公開されています。

Currently, most image quality assessment (IQA) models are supervised by the MAE or MSE loss with empirically slow convergence. It is well-known that normalization can facilitate fast convergence. Therefore, we explore normalization in the design of loss functions for IQA. Specifically, we first normalize the predicted quality scores and the corresponding subjective quality scores. Then, the loss is defined based on the norm of the differences between these normalized values. The resulting "Norm-in-Norm'' loss encourages the IQA model to make linear predictions with respect to subjective quality scores. After training, the least squares regression is applied to determine the linear mapping from the predicted quality to the subjective quality. It is shown that the new loss is closely connected with two common IQA performance criteria (PLCC and RMSE). Through theoretical analysis, it is proved that the embedded normalization makes the gradients of the loss function more stable and more predictable, which is conducive to the faster convergence of the IQA model. Furthermore, to experimentally verify the effectiveness of the proposed loss, it is applied to solve a challenging problem: quality assessment of in-the-wild images. Experiments on two relevant datasets (KonIQ-10k and CLIVE) show that, compared to MAE or MSE loss, the new loss enables the IQA model to converge about 10 times faster and the final model achieves better performance. The proposed model also achieves state-of-the-art prediction performance on this challenging problem. For reproducible scientific research, our code is publicly available at https://github.com/lidq92/LinearityIQA.
翻訳日:2022-10-31 23:41:04 公開日:2020-08-10
# 映像からの映像オブジェクトの自己教師付き学習

Self-Supervised Learning of Audio-Visual Objects from Video ( http://arxiv.org/abs/2008.04237v1 )

ライセンス: Link先を確認
Triantafyllos Afouras, Andrew Owens, Joon Son Chung, Andrew Zisserman(参考訳) 我々の目的は、自己教師付き学習を用いて、映像を離散的なオーディオ視覚オブジェクトに変換することである。 そこで本研究では,音源の局所化とグループ化に注意を向けるモデルと,情報集約のためのオプティカルフローを提案する。 我々は,4つのダウンストリーム音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。 (a)マルチスピーカ音源分離 (b)話者の局所化及び追跡 (c)不整合音声視覚データを補正し、 (d)アクティブな話者検出。 我々の表現を用いて、これらのタスクは対象検出器を使わずに、ラベルなしのビデオのトレーニングによって完全に解決できる。 また,この手法をマンガや人形など非人間話者に適用することにより,その汎用性を実証し,他の自己教師付きアプローチを著しく上回り,教師付き顔検出法と競合する性能を得る。

Our objective is to transform a video into a set of discrete audio-visual objects using self-supervised learning. To this end, we introduce a model that uses attention to localize and group sound sources, and optical flow to aggregate information over time. We demonstrate the effectiveness of the audio-visual object embeddings that our model learns by using them for four downstream speech-oriented tasks: (a) multi-speaker sound source separation, (b) localizing and tracking speakers, (c) correcting misaligned audio-visual data, and (d) active speaker detection. Using our representation, these tasks can be solved entirely by training on unlabeled video, without the aid of object detectors. We also demonstrate the generality of our method by applying it to non-human speakers, including cartoons and puppets.Our model significantly outperforms other self-supervised approaches, and obtains performance competitive with methods that use supervised face detection.
翻訳日:2022-10-31 23:40:38 公開日:2020-08-10
# 緊急部における胸痛評価における冠状動脈硬化の排除を支援する人工知能 : 実世界の応用に向けて

Artificial Intelligence to Assist in Exclusion of Coronary Atherosclerosis during CCTA Evaluation of Chest-Pain in the Emergency Department: Preparing an Application for Real-World Use ( http://arxiv.org/abs/2008.04802v1 )

ライセンス: Link先を確認
Richard D. White, Barbaros S. Erdal, Mutlu Demirer, Vikash Gupta, Matthew T. Bigelow, Engin Dikici, Sema Candemir, Mauricio S. Galizia, Jessica L. Carpenter, Thomas P. O Donnell, Abdul H. Halabi, Luciano M. Prevedello(参考訳) 緊急部(ED)における胸部痛患者の冠動脈造影(CCTA)評価は適切と考えられる。 負のCCTA解釈は、EDからの直接の患者の退院をサポートするが、労働集約的な分析が必要である。 冠状動脈硬化の欠如に対するCCTAスクリーニングにおける医師の解釈を支援する人工知能(AI)アルゴリズムとワークフローの開発について述べる。 2段階のアプローチは、1段階目 - 回顧的ランダムケース選択から導出したバランス付き研究集団(n = 500 50% の疾患有病率)における血管中心抽出分類アルゴリズムの開発と予備テストに焦点をあて、2段階目 - より実世界の研究集団(n = 100 で 28% の疾患有病率)において、より実世界でのケースベースで開発されたアルゴリズムをシミュレート・臨床的に試行することに関する2段階目であった。 これにより、臨床能力のあるビューアーに統合されたアルゴリズム推論結果の容器ごとのグラフィック表示を提供する、AIベースのCCTAスクリーニングアプリケーションの事前デプロイ評価が可能になる。 アルゴリズムの性能評価では、受信者-操作特性曲線(auc-roc)の下の領域を用いた。 容器ベースのアルゴリズムは AUC-ROC = 0.96 で強い性能を示した。 第1相と第2相は疾患有病率差とは無関係に, 症例レベルでの負の予測値は95%であった。 フェーズ2におけるアルゴリズムワークフロープロセスの完了率(96%の推論結果で55-80秒)は、適切な画像品質に依存した。 このAIアプリケーションはCCTAの解釈を補助し、胸部ペーストによる動脈硬化を促進できる可能性がある。

Coronary Computed Tomography Angiography (CCTA) evaluation of chest-pain patients in an Emergency Department (ED) is considered appropriate. While a negative CCTA interpretation supports direct patient discharge from an ED, labor-intensive analyses are required, with accuracy in jeopardy from distractions. We describe the development of an Artificial Intelligence (AI) algorithm and workflow for assisting interpreting physicians in CCTA screening for the absence of coronary atherosclerosis. The two-phase approach consisted of (1) Phase 1 - focused on the development and preliminary testing of an algorithm for vessel-centerline extraction classification in a balanced study population (n = 500 with 50% disease prevalence) derived by retrospective random case selection; and (2) Phase 2 - concerned with simulated-clinical Trialing of the developed algorithm on a per-case basis in a more real-world study population (n = 100 with 28% disease prevalence) from an ED chest-pain series. This allowed pre-deployment evaluation of the AI-based CCTA screening application which provides a vessel-by-vessel graphic display of algorithm inference results integrated into a clinically capable viewer. Algorithm performance evaluation used Area Under the Receiver-Operating-Characteristic Curve (AUC-ROC); confusion matrices reflected ground-truth vs AI determinations. The vessel-based algorithm demonstrated strong performance with AUC-ROC = 0.96. In both Phase 1 and Phase 2, independent of disease prevalence differences, negative predictive values at the case level were very high at 95%. The rate of completion of the algorithm workflow process (96% with inference results in 55-80 seconds) in Phase 2 depended on adequate image quality. There is potential for this AI application to assist in CCTA interpretation to help extricate atherosclerosis from chest-pain presentations.
翻訳日:2022-10-31 23:40:25 公開日:2020-08-10
# Adiabatic Quantum Computer上での平衡k平均クラスタリング

Balanced k-Means Clustering on an Adiabatic Quantum Computer ( http://arxiv.org/abs/2008.04419v1 )

ライセンス: Link先を確認
Davis Arthur, Prasanna Date(参考訳) 断熱量子コンピュータは、最適化の課題をほぼ解決するための有望なプラットフォームである。 本稿では,d-wave 2000q adiabatic quantum computerにおける,k$-meansクラスタリング学習問題の解法を提案する。 既存の古典的アプローチは大規模なデータセットではスケールが悪く、ローカルに最適なソリューションを保証するだけである。 量子アプローチがトレーニング問題のグローバルな解決を目標としつつ,大規模データセット上での理論的スケーラビリティの向上を実現していることを示す。 我々は、多くの小さな問題に対して量子アプローチをテストし、最高の古典的アルゴリズムと同様のクラスタリング性能を観察します。

Adiabatic quantum computers are a promising platform for approximately solving challenging optimization problems. We present a quantum approach to solving the balanced $k$-means clustering training problem on the D-Wave 2000Q adiabatic quantum computer. Existing classical approaches scale poorly for large datasets and only guarantee a locally optimal solution. We show that our quantum approach better targets the global solution of the training problem, while achieving better theoretic scalability on large datasets. We test our quantum approach on a number of small problems, and observe clustering performance similar to the best classical algorithms.
翻訳日:2022-10-31 23:38:57 公開日:2020-08-10
# 光・赤外線カメラを用いたUAVの深層学習に基づく人体検出:システムと実験

Deep Learning-based Human Detection for UAVs with Optical and Infrared Cameras: System and Experiments ( http://arxiv.org/abs/2008.04197v1 )

ライセンス: Link先を確認
Timo Hinzmann, Tobias Stegemann, Cesar Cadena, Roland Siegwart(参考訳) 本稿では,光(rgb)と長波赤外線(lwir)カメラを用いて高高度で飛行するuavから人間を検知し,追跡し,局所化し,再同定する,深層学習に基づく人間検出システムを提案する。 それぞれのスペクトルにおいて、ResNetバックボーンを備えたカスタマイズされたRetinaNetネットワークは、人間の検出を提供する。 境界ボックスアンカーを最適化し,画像解像度を向上することにより,高高度からの欠落検出数を20%以上削減できることを示す。 提案するネットワークは,異なるretinanetとyolo,および手作りの特徴を用いた従来の光学赤外検出フレームワークと比較した。 さらに,本論文の公開とともに,検索・救助フィールドテスト中に異なるUAVで記録された注釈付き赤外線データセットと,実装されたアノテーションツールのソースコードを公開する。

In this paper, we present our deep learning-based human detection system that uses optical (RGB) and long-wave infrared (LWIR) cameras to detect, track, localize, and re-identify humans from UAVs flying at high altitude. In each spectrum, a customized RetinaNet network with ResNet backbone provides human detections which are subsequently fused to minimize the overall false detection rate. We show that by optimizing the bounding box anchors and augmenting the image resolution the number of missed detections from high altitudes can be decreased by over 20 percent. Our proposed network is compared to different RetinaNet and YOLO variants, and to a classical optical-infrared human detection framework that uses hand-crafted features. Furthermore, along with the publication of this paper, we release a collection of annotated optical-infrared datasets recorded with different UAVs during search-and-rescue field tests and the source code of the implemented annotation tool.
翻訳日:2022-10-31 23:34:29 公開日:2020-08-10
# 深層学習を用いた糖尿病網膜症の発症リスク予測

Predicting Risk of Developing Diabetic Retinopathy using Deep Learning ( http://arxiv.org/abs/2008.04370v1 )

ライセンス: Link先を確認
Ashish Bora, Siva Balasubramanian, Boris Babenko, Sunny Virmani, Subhashini Venugopalan, Akinori Mitani, Guilherme de Oliveira Marinho, Jorge Cuadros, Paisan Ruamviboonsuk, Greg S Corrado, Lily Peng, Dale R Webster, Avinash V Varadarajan, Naama Hammel, Yun Liu, Pinal Bavishi(参考訳) 糖尿病網膜症(DR)スクリーニングは視覚障害の予防に有効であるが、糖尿病患者の増加に伴い、スケーリングの課題に直面している。 DR開発のためのリスク階層化は、スクリーニング間隔を最適化し、コストを削減し、視覚関連の結果を改善するのに役立つ。 糖尿病患者のDR検査における軽度または軽度(中+)DRの発達を予測するために,DLS(Deep Learning System)の2つのバージョンを作成し,検証した。 2つのバージョンは3つのフィールドまたは1つのカラー・ファンドス写真(CFP)を入力として使用した。 トレーニングセットは575,431個の目から派生し、そのうち28,899個の目が2年間の成果を把握しており、残りはマルチタスク学習によるトレーニングプロセス強化に使用された。 検証は、内部検証セット(set a; 7,976 eyes; 3,678 with known outcome)と外部検証セット(set b; 4,762 eyes; 2,345 with known outcome)の両方で実施された。 2年間のdrの開発予測のために、3フィールドdlsは検証集合 a 上で受信者特性曲線 (auc) の下の領域を 0.79 (95%ci, 0.78-0.81) としており、検証集合 b では 1フィールドdls の auc は 0.70 (95%ci, 0.67-0.74) であった。 dlsは危険因子(p<0.001)を調整しても予後不良であった。 3フィールドDLSはAUCを0.72(95%CI, 0.68-0.76)から0.81(95%CI, 0.77-0.84)に改善し、1フィールドDLSはAUCを0.62(95%CI, 0.58-0.66)から0.71(95%CI, 0.68-0.75)に改善した。 この情報は、利用可能なリスク要因とは独立しており、より情報的です。

Diabetic retinopathy (DR) screening is instrumental in preventing blindness, but faces a scaling challenge as the number of diabetic patients rises. Risk stratification for the development of DR may help optimize screening intervals to reduce costs while improving vision-related outcomes. We created and validated two versions of a deep learning system (DLS) to predict the development of mild-or-worse ("Mild+") DR in diabetic patients undergoing DR screening. The two versions used either three-fields or a single field of color fundus photographs (CFPs) as input. The training set was derived from 575,431 eyes, of which 28,899 had known 2-year outcome, and the remaining were used to augment the training process via multi-task learning. Validation was performed on both an internal validation set (set A; 7,976 eyes; 3,678 with known outcome) and an external validation set (set B; 4,762 eyes; 2,345 with known outcome). For predicting 2-year development of DR, the 3-field DLS had an area under the receiver operating characteristic curve (AUC) of 0.79 (95%CI, 0.78-0.81) on validation set A. On validation set B (which contained only a single field), the 1-field DLS's AUC was 0.70 (95%CI, 0.67-0.74). The DLS was prognostic even after adjusting for available risk factors (p<0.001). When added to the risk factors, the 3-field DLS improved the AUC from 0.72 (95%CI, 0.68-0.76) to 0.81 (95%CI, 0.77-0.84) in validation set A, and the 1-field DLS improved the AUC from 0.62 (95%CI, 0.58-0.66) to 0.71 (95%CI, 0.68-0.75) in validation set B. The DLSs in this study identified prognostic information for DR development from CFPs. This information is independent of and more informative than the available risk factors.
翻訳日:2022-10-31 23:33:53 公開日:2020-08-10
# 触覚認識のための時空間アテンションモデル

Spatio-temporal Attention Model for Tactile Texture Recognition ( http://arxiv.org/abs/2008.04442v1 )

ライセンス: Link先を確認
Guanqun Cao, Yi Zhou, Danushka Bollegala and Shan Luo(参考訳) 近年、触覚センシングは、特に非構造環境の探索と効果的な操作を促進するため、ロボット工学に大きな関心を集めている。 これらの課題の多くは触覚センシングによる表面テクスチャの詳細な理解が不可欠である。 これまで、カメラベースの触覚センサーを用いたテクスチャ認識の研究は、1つの触覚画像のすべての領域または1つの触覚シーケンスのすべてのサンプルを等しく扱うことに限られてきた。 本稿では,触覚テクスチャ認識のための新しい時空間注意モデル(STAM)を提案する。 提案するスタムは,各触覚テクスチャの空間的焦点と触覚シーケンスの時間的相関の両方に注意を払っている。 100種類の異なる織物テクスチャを識別する実験において、空間的および時間的に選択的に注意を向けることで、認識精度が最大18.8%向上した。 具体的には,接点発生前に収集したノイズデータの導入により,提案手法では有意な特徴を効率的に学習でき,cnn ベースラインアプローチと比較して平均で15.23%の精度向上が期待できる。 触覚感の改善は、把握や操作といったロボット作業を容易にするために応用できる。

Recently, tactile sensing has attracted great interest in robotics, especially for facilitating exploration of unstructured environments and effective manipulation. A detailed understanding of the surface textures via tactile sensing is essential for many of these tasks. Previous works on texture recognition using camera based tactile sensors have been limited to treating all regions in one tactile image or all samples in one tactile sequence equally, which includes much irrelevant or redundant information. In this paper, we propose a novel Spatio-Temporal Attention Model (STAM) for tactile texture recognition, which is the very first of its kind to our best knowledge. The proposed STAM pays attention to both spatial focus of each single tactile texture and the temporal correlation of a tactile sequence. In the experiments to discriminate 100 different fabric textures, the spatially and temporally selective attention has resulted in a significant improvement of the recognition accuracy, by up to 18.8%, compared to the non-attention based models. Specifically, after introducing noisy data that is collected before the contact happens, our proposed STAM can learn the salient features efficiently and the accuracy can increase by 15.23% on average compared with the CNN based baseline approach. The improved tactile texture perception can be applied to facilitate robot tasks like grasping and manipulation.
翻訳日:2022-10-31 23:33:14 公開日:2020-08-10
# MOOC学生をクラスタリングする社会的相互作用 : 探索的研究

Social Interactions Clustering MOOC Students: An Exploratory Study ( http://arxiv.org/abs/2008.03982v1 )

ライセンス: Link先を確認
Lei Shi, Alexandra Cristea, Ahmad Alamri, Armando M. Toda, Wilk Oliveira(参考訳) FutureLearnにおけるMOOC学生の社会的相互作用に関する探索的研究 : 「どのようにして学生を社会的相互作用に基づいてクラスタリングできるか?」 コメントは、学生がどう対話するか、例えば、学生のコメントがどのように仲間から返信を受けたかによって分類された。 統計的モデリングと機械学習はコメント分類の分析に用いられ、3つの強く安定したクラスタが生成される。

An exploratory study on social interactions of MOOC students in FutureLearn was conducted, to answer "how can we cluster students based on their social interactions?" Comments were categorized based on how students interacted with them, e.g., how a student's comment received replies from peers. Statistical modelling and machine learning were used to analyze comment categorization, resulting in 3 strong and stable clusters.
翻訳日:2022-10-31 23:30:54 公開日:2020-08-10
# Dual-Energy InformationによるDual-EnergyおよびSingle-Energy Non-Contrast-Enhanced Cardiac CTにおける全心的セグメンテーションの深層学習

Deep Learning from Dual-Energy Information for Whole-Heart Segmentation in Dual-Energy and Single-Energy Non-Contrast-Enhanced Cardiac CT ( http://arxiv.org/abs/2008.03985v1 )

ライセンス: Link先を確認
Steffen Bruns, Jelmer M. Wolterink, Richard A.P. Takx, Robbert W. van Hamersvelt, Dominika Such\'a, Max A. Viergever, Tim Leiner, Ivana I\v{s}gum(参考訳) 冠状動脈造影(CCTA)における深層学習に基づく全肝分画は,心臓血管のリスク予測のための定量的イメージングの指標を抽出することができる。 非contrast-enhanced ct (ncct) スキャンのみを行った症例におけるこれらの指標の自動抽出は有用である。 本研究では,2層検出器CTスキャナによって提供される情報を活用し,NCCT画像とNCCT画像のセグメンテーションのための3次元畳み込みニューラルネットワーク(CNN)をトレーニングし,仮想非コントラストCT画像の参照標準を得る。 二重層検出器CTスキャナのコントラスト強調取得をCCTAと完全に整列したVNC画像に再構成した。 各CCTA画像では,左心室(LV)心筋,LV空洞,右心室,左心房,右心房,上行大動脈,肺動脈幹の経時的基準セグメンテーションが得られた。 これらのVNC画像と参照セグメンテーションは、VNC画像またはNCCT画像の自動セグメンテーションのための3D CNNのトレーニングに使用された。 VNC画像における自動セグメンテーションは参照セグメンテーションとよく一致し、平均Dice類似係数は0.897 \pm 0.034、平均対称表面距離は1.42 \pm 0.45 mmであった。 自動ncctと基準cctaの体積差は, lv心筋では-19 [-67; 30] ml, lvキャビティでは-25 [-78; 29] ml, 右心室では-29 [-73; 14] ml, 左心房では-20 [-62; 21] ml, 右心房では-19 [-73; 34] mlであった。 214 (74%) のNCCT画像では、2人の観察者が自動セグメンテーションがほぼ正確かより優れていることに同意した。 この方法は、NCCT画像から追加の心測定値の定量化を可能にし、心血管のリスク予測を改善する。

Deep learning-based whole-heart segmentation in coronary CT angiography (CCTA) allows the extraction of quantitative imaging measures for cardiovascular risk prediction. Automatic extraction of these measures in patients undergoing only non-contrast-enhanced CT (NCCT) scanning would be valuable. In this work, we leverage information provided by a dual-layer detector CT scanner to obtain a reference standard in virtual non-contrast (VNC) CT images mimicking NCCT images, and train a 3D convolutional neural network (CNN) for the segmentation of VNC as well as NCCT images. Contrast-enhanced acquisitions on a dual-layer detector CT scanner were reconstructed into a CCTA and a perfectly aligned VNC image. In each CCTA image, manual reference segmentations of the left ventricular (LV) myocardium, LV cavity, right ventricle, left atrium, right atrium, ascending aorta, and pulmonary artery trunk were obtained and propagated to the corresponding VNC image. These VNC images and reference segmentations were used to train 3D CNNs for automatic segmentation in either VNC images or NCCT images. Automatic segmentations in VNC images showed good agreement with reference segmentations, with an average Dice similarity coefficient of 0.897 \pm 0.034 and an average symmetric surface distance of 1.42 \pm 0.45 mm. Volume differences [95% confidence interval] between automatic NCCT and reference CCTA segmentations were -19 [-67; 30] mL for LV myocardium, -25 [-78; 29] mL for LV cavity, -29 [-73; 14] mL for right ventricle, -20 [-62; 21] mL for left atrium, and -19 [-73; 34] mL for right atrium, respectively. In 214 (74%) NCCT images from an independent multi-vendor multi-center set, two observers agreed that the automatic segmentation was mostly accurate or better. This method might enable quantification of additional cardiac measures from NCCT images for improved cardiovascular risk prediction.
翻訳日:2022-10-31 23:30:46 公開日:2020-08-10
# DR^2Track:Distractor Repressed Dynamic RegressionによるUAVのリアルタイムビジュアルトラッキングを目指して

DR^2Track: Towards Real-Time Visual Tracking for UAV via Distractor Repressed Dynamic Regression ( http://arxiv.org/abs/2008.03912v1 )

ライセンス: Link先を確認
Changhong Fu, Fangqiang Ding, Yiming Li, Jin Jin and Chen Feng(参考訳) 視覚追跡は無人航空機(UAV)に有望な応用をもたらした。 文献において、advanced discriminative correlation filter (dcf) 型トラッカーは、一般的に前景と背景を、暗黙の循環したサンプルを固定されたターゲットラベルに回帰させる学習レグレッサと区別する。 しかし、事前定義され、変化しない回帰ターゲットは、不確実な空中追跡シナリオに対するロバスト性や適応性が低い。 本研究では,検出フェーズで生成された応答マップの局所的最大点を活用し,電流乱れを自動的に検出する。 回帰学習における邪魔者の反応を抑えることで、回帰目標を動的かつ適応的に変更し、追跡ロバスト性と適応性を活用できる。 3つの挑戦的なUAVベンチマークで実施された実質的な実験は、トラッカーの性能と異常な速度(安価なCPUで50fps)の両方を実証している。

Visual tracking has yielded promising applications with unmanned aerial vehicle (UAV). In literature, the advanced discriminative correlation filter (DCF) type trackers generally distinguish the foreground from the background with a learned regressor which regresses the implicit circulated samples into a fixed target label. However, the predefined and unchanged regression target results in low robustness and adaptivity to uncertain aerial tracking scenarios. In this work, we exploit the local maximum points of the response map generated in the detection phase to automatically locate current distractors. By repressing the response of distractors in the regressor learning, we can dynamically and adaptively alter our regression target to leverage the tracking robustness as well as adaptivity. Substantial experiments conducted on three challenging UAV benchmarks demonstrate both excellent performance and extraordinary speed (~50fps on a cheap CPU) of our tracker.
翻訳日:2022-10-31 23:22:59 公開日:2020-08-10
# 共同スケールとアスペクト比最適化によるオンラインUAV追跡の自動故障復旧と再初期化

Automatic Failure Recovery and Re-Initialization for Online UAV Tracking with Joint Scale and Aspect Ratio Optimization ( http://arxiv.org/abs/2008.03915v1 )

ライセンス: Link先を確認
Fangqiang Ding, Changhong Fu, Yiming Li, Jin Jin and Chen Feng(参考訳) 現在の無人航空機(UAV)の視覚追跡アルゴリズムは主に以下の通りである。 (i)対処できる大きさの変化の種類 (ii)リアルタイム要件をほとんど満たさない実装速度。 本研究では,最大サイズ推定能力を持つリアルタイムUAV追跡アルゴリズムを提案する。 具体的には、全体的なトラッキングタスクを2つの2Dフィルタに割り当てる。 (i)空間領域における位置予測のための翻訳フィルタ (ii)サイズ領域におけるスケール及びアスペクト比最適化のためのサイズフィルタ。 さらに、長期UAV追跡タスクのために、2段階の効率的な再検出戦略が導入された。 4つのUAVベンチマークによる大規模実験は、低コストCPU上で計算可能となる提案手法の優位性を実証している。

Current unmanned aerial vehicle (UAV) visual tracking algorithms are primarily limited with respect to: (i) the kind of size variation they can deal with, (ii) the implementation speed which hardly meets the real-time requirement. In this work, a real-time UAV tracking algorithm with powerful size estimation ability is proposed. Specifically, the overall tracking task is allocated to two 2D filters: (i) translation filter for location prediction in the space domain, (ii) size filter for scale and aspect ratio optimization in the size domain. Besides, an efficient two-stage re-detection strategy is introduced for long-term UAV tracking tasks. Large-scale experiments on four UAV benchmarks demonstrate the superiority of the presented method which has computation feasibility on a low-cost CPU.
翻訳日:2022-10-31 23:22:41 公開日:2020-08-10
# r-パラレル集合を用いた形状関係の測定

Measuring shape relations using r-parallel sets ( http://arxiv.org/abs/2008.03927v1 )

ライセンス: Link先を確認
Hans JT Stephensen, Anne Marie Svane, Carlos Benitez, Steven A. Goldman, Jon Sporring(参考訳) 生体の幾何学的測定は多くの定量分析の基礎を形成する。 体積や物体の面積などのハウスドルフ測度は、個々の物体の単純かつ一般的な記述子であるが、ほとんどの生物学的過程において、物体間の相互作用は無視できず、隣り合う物体の形状や機能は相互に影響を及ぼす。 本稿では,空間的点過程の理論に基づく物体間の幾何学的相互作用の理論について述べる。 我々の理論は2つの対象(参照と観測対象)の関係に基づいている。 参照オブジェクトの$r$-parallel集合を生成し、$r$-parallel集合と観測対象との交点を計算し、これらの交点の測度を定義する。 我々の測度は、物体の体積や面積のように単純であるが、個々の物体の形状とそれらの対の幾何学的関係についてさらに詳細に記述する。 最後に,形状の集合とその相互作用に関する要約統計を提案する。 我々は,これらの指標を成虫のfib-sem 3dデータセット上で評価する。

Geometrical measurements of biological objects form the basis of many quantitative analyses. Hausdorff measures such as the volume and the area of objects are simple and popular descriptors of individual objects, however, for most biological processes, the interaction between objects cannot be ignored, and the shape and function of neighboring objects are mutually influential. In this paper, we present a theory on the geometrical interaction between objects based on the theory of spatial point processes. Our theory is based on the relation between two objects: a reference and an observed object. We generate the $r$-parallel sets of the reference object, we calculate the intersection between the $r$-parallel sets and the observed object, and we define measures on these intersections. Our measures are simple like the volume and area of an object, but describe further details about the shape of individual objects and their pairwise geometrical relation. Finally, we propose a summary statistics for collections of shapes and their interaction. We evaluate these measures on a publicly available FIB-SEM 3D data set of an adult rodent.
翻訳日:2022-10-31 23:22:33 公開日:2020-08-10
# 有限角ctのためのモデル誘導深部ネットワーク

A model-guided deep network for limited-angle computed tomography ( http://arxiv.org/abs/2008.03988v1 )

ライセンス: Link先を確認
Wei Wang, Xiang-Gen Xia, Chuanjiang He, Zemin Ren, Jian Lu, Tianfu Wang and Baiying Lei(参考訳) In this paper, we first propose a variational model for the limited-angle computed tomography (CT) image reconstruction and then convert the model into an end-to-end deep network.We use the penalty method to solve the model and divide it into three iterative subproblems, where the first subproblem completes the sinograms by utilizing the prior information of sinograms in the frequency domain and the second refines the CT images by using the prior information of CT images in the spatial domain, and the last merges the outputs of the first two subproblems. 各イテレーションにおいて、畳み込みニューラルネットワーク(CNN)を用いて、最初の2つのサブプロブレムの解を近似し、制限角度CT画像再構成のためのエンドツーエンドのディープネットワークを得る。 本ネットワークは, シングラムとCT画像の両方に対処し, 不完全データによるアーティファクトを同時に抑制し, CT画像の微細構造情報を復元する。 実験の結果,本手法はCT画像再構成において既存のアルゴリズムよりも優れていることがわかった。

In this paper, we first propose a variational model for the limited-angle computed tomography (CT) image reconstruction and then convert the model into an end-to-end deep network.We use the penalty method to solve the model and divide it into three iterative subproblems, where the first subproblem completes the sinograms by utilizing the prior information of sinograms in the frequency domain and the second refines the CT images by using the prior information of CT images in the spatial domain, and the last merges the outputs of the first two subproblems. In each iteration, we use the convolutional neural networks (CNNs) to approxiamte the solutions of the first two subproblems and, thus, obtain an end-to-end deep network for the limited-angle CT image reconstruction. Our network tackles both the sinograms and the CT images, and can simultaneously suppress the artifacts caused by the incomplete data and recover fine structural information in the CT images. Experimental results show that our method outperforms the existing algorithms for the limited-angle CT image reconstruction.
翻訳日:2022-10-31 23:22:17 公開日:2020-08-10
# ピラミッド設置によるケパロメトリX線ランドマークの配置

Locating Cephalometric X-Ray Landmarks with Foveated Pyramid Attention ( http://arxiv.org/abs/2008.04428v1 )

ライセンス: Link先を確認
Logan Gilmour, Nilanjan Ray(参考訳) 人間の視覚に触発されたcnnは、焦点の最も高い密度ではなく、一様にサンプルを採取する。 非常に大きな画像では、アクティベーションマップに必要なメモリと計算が画像の側面の長さと2乗的にスケールするため、トレーニングは維持できない。 本研究では,入力画像の狭さを抽出し,反復的に改良して回帰作業を行うイメージピラミッドベースアプローチを提案する。 高度回帰を支援するために,我々は'spatialized features'と呼ぶ新しい中間表現を導入する。 我々の手法は横長と対数的にスケールするため、非常に大きな画像を扱う。 本手法をケパロメトリーX線ランドマーク検出に適用し,最先端の成果を得る。

CNNs, initially inspired by human vision, differ in a key way: they sample uniformly, rather than with highest density in a focal point. For very large images, this makes training untenable, as the memory and computation required for activation maps scales quadratically with the side length of an image. We propose an image pyramid based approach that extracts narrow glimpses of the of the input image and iteratively refines them to accomplish regression tasks. To assist with high-accuracy regression, we introduce a novel intermediate representation we call 'spatialized features'. Our approach scales logarithmically with the side length, so it works with very large images. We apply our method to Cephalometric X-ray Landmark Detection and get state-of-the-art results.
翻訳日:2022-10-31 23:15:01 公開日:2020-08-10
# 大規模画像データセットの複雑度尺度

Measures of Complexity for Large Scale Image Datasets ( http://arxiv.org/abs/2008.04431v1 )

ライセンス: Link先を確認
Ameet Annasaheb Rahane and Anbumani Subramanian(参考訳) 大規模な画像データセットは、機械学習分野における成長傾向である。 しかし、深層学習ベースのネットワークに関して、1つのデータセットが'learn'よりも複雑または困難である場合、さまざまなデータセットが相互にどのように比較するかを定量的に理解または特定することは困難である。 本研究では,データセットの複雑さを測る比較的単純な手法のシリーズを構築する。 さらに,データセットの視覚的比較を支援するために,高次元データの可視化を実証する手法を提案する。 我々は,自動運転研究コミュニティであるCityscapes,IDD,BDD,Vistaの4つのデータセットを用いて分析を行った。 エントロピーに基づくメトリクスを用いて、これらのデータセットのランク順の複雑さを示し、ディープラーニングに関して確立されたランク順と比較する。

Large scale image datasets are a growing trend in the field of machine learning. However, it is hard to quantitatively understand or specify how various datasets compare to each other - i.e., if one dataset is more complex or harder to ``learn'' with respect to a deep-learning based network. In this work, we build a series of relatively computationally simple methods to measure the complexity of a dataset. Furthermore, we present an approach to demonstrate visualizations of high dimensional data, in order to assist with visual comparison of datasets. We present our analysis using four datasets from the autonomous driving research community - Cityscapes, IDD, BDD and Vistas. Using entropy based metrics, we present a rank-order complexity of these datasets, which we compare with an established rank-order with respect to deep learning.
翻訳日:2022-10-31 23:14:48 公開日:2020-08-10
# 分散マルチエージェントビデオ高速転送

Distributed Multi-agent Video Fast-forwarding ( http://arxiv.org/abs/2008.04437v1 )

ライセンス: Link先を確認
Shuyue Lan, Zhilu Wang, Amit K. Roy-Chowdhury, Ermin Wei, Qi Zhu(参考訳) 多くの知的システムにおいて、エージェントのネットワークは、より良くより効率的な状況認識のために環境を協調的に知覚する。 これらのエージェントはリソースが限られていることが多いため、異なるエージェントからのカメラビュー間で重なり合うコンテンツを識別し、冗長で重要でないビデオフレームの処理、送信、保存の削減に活用することは非常に有益である。 本稿では,マルチビュービデオストリームを協調的かつ適応的に処理する,dmvfと呼ばれるコンセンサスベースの分散マルチエージェントビデオファストフォワーディングフレームワークを提案する。 提案手法では,映像フレームを選択的に処理し,選択したフレームを調整可能なペースで送信する複数の戦略から周期的に選択する強化学習ベースの高速フォワードエージェントによって,各カメラビューに対処している。 適応期間毎に、各エージェントは隣接エージェントと通信し、選択されたフレーム自体とその隣のフレームの重要性を評価し、システム全体のコンセンサスアルゴリズムを介して他のエージェントとともに評価を洗練し、その評価を用いて次の期間の戦略を決定する。 実世界の監視ビデオデータセットVideoWebの文献的アプローチと比較して、本手法は重要なフレームのカバレッジを大幅に改善し、システム内で処理されるフレーム数を削減します。

In many intelligent systems, a network of agents collaboratively perceives the environment for better and more efficient situation awareness. As these agents often have limited resources, it could be greatly beneficial to identify the content overlapping among camera views from different agents and leverage it for reducing the processing, transmission and storage of redundant/unimportant video frames. This paper presents a consensus-based distributed multi-agent video fast-forwarding framework, named DMVF, that fast-forwards multi-view video streams collaboratively and adaptively. In our framework, each camera view is addressed by a reinforcement learning based fast-forwarding agent, which periodically chooses from multiple strategies to selectively process video frames and transmits the selected frames at adjustable paces. During every adaptation period, each agent communicates with a number of neighboring agents, evaluates the importance of the selected frames from itself and those from its neighbors, refines such evaluation together with other agents via a system-wide consensus algorithm, and uses such evaluation to decide their strategy for the next period. Compared with approaches in the literature on a real-world surveillance video dataset VideoWeb, our method significantly improves the coverage of important frames and also reduces the number of frames processed in the system.
翻訳日:2022-10-31 23:14:36 公開日:2020-08-10
# CTC音響モデルにおける半教師付き学習のための知識蒸留とデータ選択

Knowledge Distillation and Data Selection for Semi-Supervised Learning in CTC Acoustic Models ( http://arxiv.org/abs/2008.03923v1 )

ライセンス: Link先を確認
Prakhar Swarup, Debmalya Chakrabarty, Ashtosh Sapru, Hitesh Tulsiani, Harish Arsikere, Sri Garimella(参考訳) 半教師付き学習 (SSL) は, 音声認識システムの精度を向上させるために, ラベルのないデータを活用する研究の活発な領域である。 本研究は,2つの主要なアイデアを統合するための方法論を提案する。 1)コネクショニスト時間分類(CTC)目標と教師-学生学習を用いたSSL 2) 学生モデルの性能向上のために, 不正データを活用する効果的なデータ選択機構を設計する。 本研究の目的は,信頼度尺度,話者,コンテンツの変動性といった属性に基づいて,ラベルなしデータの大きなプールからサンプルを選択する際の適切な基準を確立することである。 単語誤り率(wer)を損なうことなく、ランダムに選択された多数の非ラベルサンプルのセットへの依存を減らすデータ選択機構を設計することは可能か? そこで本研究では,様々なデータ選択手法について経験的調査を行い,異なるサンプリング戦略の効果を定量化する。 CTC-SSLアプローチでは, ラベル付きデータでトレーニングしたベースラインCTCシステムに対して, 17%の相対的なWER改善が得られた。 また,CTC-SSLシステムを用いて,ランダムサンプリングに基づく大規模未ラベルデータの順にトレーニングした。

Semi-supervised learning (SSL) is an active area of research which aims to utilize unlabelled data in order to improve the accuracy of speech recognition systems. The current study proposes a methodology for integration of two key ideas: 1) SSL using connectionist temporal classification (CTC) objective and teacher-student based learning 2) Designing effective data-selection mechanisms for leveraging unlabelled data to boost performance of student models. Our aim is to establish the importance of good criteria in selecting samples from a large pool of unlabelled data based on attributes like confidence measure, speaker and content variability. The question we try to answer is: Is it possible to design a data selection mechanism which reduces dependence on a large set of randomly selected unlabelled samples without compromising on Word Error Rate (WER)? We perform empirical investigations of different data selection methods to answer this question and quantify the effect of different sampling strategies. On a semi-supervised ASR setting with 40000 hours of carefully selected unlabelled data, our CTC-SSL approach gives 17% relative WER improvement over a baseline CTC system trained with labelled data. It also achieves on-par performance with CTC-SSL system trained on order of magnitude larger unlabeled data based on random sampling.
翻訳日:2022-10-31 23:13:46 公開日:2020-08-10
# 疫学の監視と準備のギャップについて

On the Gap between Epidemiological Surveillance and Preparedness ( http://arxiv.org/abs/2008.03845v1 )

ライセンス: Link先を確認
Svetlana Yanushkevich, Vlad Shmerko(参考訳) 現代の疫学調査(ES)はデータ分析に大きく依存している。 これらの分析はパンデミックの準備ネットワークにとって重要な入力であるが、この入力は意思決定者や準備の専門家に適した形式に統合されていない。 コンピュータインテリジェンス(CI)ツールを用いた意思決定支援システム(DSS)は,証拠の疫学モデルと専門家グループ決定のギャップを埋めるために必要である。 このようなdssは、ciと人間の専門家が協調して作業できる認知動的システムであるべきである。 このようなdssの中核は確率的推論のような機械推論技術に基づくものでなければならず、意思決定におけるリスク、信頼性、バイアスを推定することができる。

Contemporary Epidemiological Surveillance (ES) relies heavily on data analytics. These analytics are critical input for pandemics preparedness networks; however, this input is not integrated into a form suitable for decision makers or experts in preparedness. A decision support system (DSS) with Computational Intelligence (CI) tools is required to bridge the gap between epidemiological model of evidence and expert group decision. We argue that such DSS shall be a cognitive dynamic system enabling the CI and human expert to work together. The core of such DSS must be based on machine reasoning techniques such as probabilistic inference, and shall be capable of estimating risks, reliability and biases in decision making.
翻訳日:2022-10-31 23:13:29 公開日:2020-08-10
# asp(ac):代数的制約による解集合プログラミング

ASP(AC): Answer Set Programming with Algebraic Constraints ( http://arxiv.org/abs/2008.04008v1 )

ライセンス: Link先を確認
Thomas Eiter and Rafael Kiesel(参考訳) 重み付き論理は質的情報に依存する半環上の計算の仕様の強力なツールである。 重み付き論理とHere-and-There(HT)論理の新たな組み合わせを用いて、この依存は直観論的根拠に基づくものであり、半値と重み付き公式評価を比較する制約を含むような、代数的制約を伴う解集合プログラミング(ASP(AC))を導入する。 このような制約は、集約、選択制約、演算子など、ASPで利用可能なコンストラクトの多様体への合理化されたアクセスを提供する。 それらのいくつかを拡張し、代数計算でプログラムを定義するための一般的なフレームワークを提供する。 一般的には決定不可能だが、ASP(AC)の表現的な断片はリッチフレームワークにおける効果的な問題解決に利用することができる。 この研究は論理プログラミングの理論と実践の受け入れを検討中である。

Weighted Logic is a powerful tool for the specification of calculations over semirings that depend on qualitative information. Using a novel combination of Weighted Logic and Here-and-There (HT) Logic, in which this dependence is based on intuitionistic grounds, we introduce Answer Set Programming with Algebraic Constraints (ASP(AC)), where rules may contain constraints that compare semiring values to weighted formula evaluations. Such constraints provide streamlined access to a manifold of constructs available in ASP, like aggregates, choice constraints, and arithmetic operators. They extend some of them and provide a generic framework for defining programs with algebraic computation, which can be fruitfully used e.g. for provenance semantics of datalog programs. While undecidable in general, expressive fragments of ASP(AC) can be exploited for effective problem-solving in a rich framework. This work is under consideration for acceptance in Theory and Practice of Logic Programming.
翻訳日:2022-10-31 23:13:18 公開日:2020-08-10
# 鉱山用スウィーパーの相転移

A Phase Transition in Minesweeper ( http://arxiv.org/abs/2008.04116v1 )

ライセンス: Link先を確認
Ross Dempsey and Charles Guinn(参考訳) プレイヤーが2次元格子上で鉱山の位置を推定する古典的マインズウィーパーゲームの平均ケース複雑性について検討する。 minesweeperの演奏は共np完全であることが知られている。 実験の結果,minesweeperはsat相転移に類似した相転移を示すことがわかった。 臨界地雷密度を超えると、論理的推論でマインズウィーパーをプレイすることはほとんど不可能になる。 我々は,minesweeperインスタンスの硬さを特徴付けるためにbooleanの不満足さを低減し,位相遷移時に硬さがピークとなることを示す。 さらに,Minesweeper推論に対する多項式時間アプローチの位相遷移におけるアルゴリズム的障壁を示す。 最後に,相転移の漸近的挙動に対する期待について述べる。

We study the average-case complexity of the classic Minesweeper game in which players deduce the locations of mines on a two-dimensional lattice. Playing Minesweeper is known to be co-NP-complete. We show empirically that Minesweeper exhibits a phase transition analogous to the well-studied SAT phase transition. Above the critical mine density it becomes almost impossible to play Minesweeper by logical inference. We use a reduction to Boolean unsatisfiability to characterize the hardness of Minesweeper instances, and show that the hardness peaks at the phase transition. Furthermore, we demonstrate algorithmic barriers at the phase transition for polynomial-time approaches to Minesweeper inference. Finally, we comment on expectations for the asymptotic behavior of the phase transition.
翻訳日:2022-10-31 23:12:59 公開日:2020-08-10
# 回答集合プログラミングを用いた三次元拡張物体間の心的方向の推論

Reasoning about Cardinal Directions between 3-Dimensional Extended Objects using Answer Set Programming ( http://arxiv.org/abs/2008.04126v1 )

ライセンス: Link先を確認
Yusuf Izmirlioglu, Esra Erdem(参考訳) 本稿では,3次元空間における拡張対象間の基数方向の表現と推論を行うための新しい形式的フレームワーク(3D-nCDC-ASP)を提案する。 3D-nCDC-ASPは、新しいタイプのデフォルト制約とnCDC-ASPを3Dに拡張する。 3d-ncdc-aspは、様々な種類の推論を提供する柔軟なプラットフォームを提供する: デフォルトを持つ非単調な推論、オブジェクト間の3d基数方向の一連の制約の一貫性の確認、不整合の説明、cdc関係の欠如の推測。 我々は,3D-nCDC-ASPの音質を実証し,その有用性を示す。 本論文はTPLPの受容について検討中である。

We propose a novel formal framework (called 3D-nCDC-ASP) to represent and reason about cardinal directions between extended objects in 3-dimensional (3D) space, using Answer Set Programming (ASP). 3D-nCDC-ASP extends Cardinal Directional Calculus (CDC) with a new type of default constraints, and nCDC-ASP to 3D. 3D-nCDC-ASP provides a flexible platform offering different types of reasoning: Nonmonotonic reasoning with defaults, checking consistency of a set of constraints on 3D cardinal directions between objects, explaining inconsistencies, and inferring missing CDC relations. We prove the soundness of 3D-nCDC-ASP, and illustrate its usefulness with applications. This paper is under consideration for acceptance in TPLP.
翻訳日:2022-10-31 23:12:47 公開日:2020-08-10
# 純粋ベイズ的反事実とニューコームのパラドックス

Purely Bayesian counterfactuals versus Newcomb's paradox ( http://arxiv.org/abs/2008.04256v1 )

ライセンス: Link先を確認
L\^e Nguy\^en Hoang(参考訳) 本稿では,エンティティの認識システムと決定システムとの注意深い分離を提案する。 重要なことに、ベイズ反事実は、決定体系ではなくて、てんかんシステムによって推定される。 この発言に基づき、認識システムが実体が反事実的に悪い決定を下すことを必ずしも期待するニューコンプのような問題が存在することを証明します。 それから、newcombのパラドックスを(少し一般化して)取り上げます。 私は、プレイヤーが予測者がプレイヤーが利用可能なすべてのデータにベイズルールを適用すると信じている特定のケースを解決します。 1-Box戦略の対実的最適性は、予測器の追加データに対するプレイヤーの先行性に依存することを実証する。 これらの追加データがプレイヤーの決定に対する予測者の不確かさを十分に減らすと期待されない場合、プレイヤーの認識システムは事実上2-boxよりも好まれる。 しかし、もし予測器のデータが準正当であると信じられれば、1-Boxは偽造的に好まれる。 分析の意味が議論される。 より一般に、私は、エンティティをよりよく理解または設計するには、エンティティが人間であるか、アルゴリズムであるか、あるいは機関であるかに関わらず、エンティティの認識、決定、データ収集、報酬、メンテナンスシステムを明確に分離するのに役立つと論じています。

This paper proposes a careful separation between an entity's epistemic system and their decision system. Crucially, Bayesian counterfactuals are estimated by the epistemic system; not by the decision system. Based on this remark, I prove the existence of Newcomb-like problems for which an epistemic system necessarily expects the entity to make a counterfactually bad decision. I then address (a slight generalization of) Newcomb's paradox. I solve the specific case where the player believes that the predictor applies Bayes rule with a supset of all the data available to the player. I prove that the counterfactual optimality of the 1-Box strategy depends on the player's prior on the predictor's additional data. If these additional data are not expected to reduce sufficiently the predictor's uncertainty on the player's decision, then the player's epistemic system will counterfactually prefer to 2-Box. But if the predictor's data is believed to make them quasi-omniscient, then 1-Box will be counterfactually preferred. Implications of the analysis are then discussed. More generally, I argue that, to better understand or design an entity, it is useful to clearly separate the entity's epistemic, decision, but also data collection, reward and maintenance systems, whether the entity is human, algorithmic or institutional.
翻訳日:2022-10-31 23:12:33 公開日:2020-08-10
# 逆空間ピラミッドネットワークを用いたリモートセンシング画像の道路セグメンテーション

Road Segmentation for Remote Sensing Images using Adversarial Spatial Pyramid Networks ( http://arxiv.org/abs/2008.04021v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Huiyu Zhou, Ruili Wang, and Jie Yang(参考訳) リモートセンシング画像における道路抽出は、幅広い用途において非常に重要である。 複雑な背景と高密度のため、既存の手法のほとんどは正確かつ完全な道路網を正確に抽出することができない。 さらに、トレーニングデータ不足や手動アノテーションの高コストに悩まされている。 これらの問題に対処するために,合成画像生成と道路セグメンテーションに構造化ドメイン適応を適用する新しいモデルを提案する。 我々は,特徴ピラミッドネットワークを生成敵ネットワークに組み込んで,ソースとターゲットドメインの違いを最小限に抑える。 ジェネレータは高品質な合成画像を生成するために学習され、判別器はそれらを区別しようとする。 また,異なるスケールのオブジェクトを記述するために,ネットワークの全レイヤから有効な特徴を抽出することにより,提案モデルの性能を向上させる機能ピラミッドネットワークを提案する。 実際、マルチレベルの特徴マップから学び、特徴のセマンティクスを改善するために、新しいスケールワイズアーキテクチャが導入されている。 最適化のために、モデルは、偽画像と実画像との差を最小限に抑える共同再構成損失関数によって訓練される。 3つのデータセットに対する幅広い実験は、精度と効率の点で提案手法の優れた性能を証明している。 特に,14.89mのパラメータと86.78bのフラップを持つマサチューセッツのデータセットにおいて,最先端の78.86 iouを4倍のフロップと高い精度(+3.47%iou)で達成した。

Road extraction in remote sensing images is of great importance for a wide range of applications. Because of the complex background, and high density, most of the existing methods fail to accurately extract a road network that appears correct and complete. Moreover, they suffer from either insufficient training data or high costs of manual annotation. To address these problems, we introduce a new model to apply structured domain adaption for synthetic image generation and road segmentation. We incorporate a feature pyramid network into generative adversarial networks to minimize the difference between the source and target domains. A generator is learned to produce quality synthetic images, and the discriminator attempts to distinguish them. We also propose a feature pyramid network that improves the performance of the proposed model by extracting effective features from all the layers of the network for describing different scales objects. Indeed, a novel scale-wise architecture is introduced to learn from the multi-level feature maps and improve the semantics of the features. For optimization, the model is trained by a joint reconstruction loss function, which minimizes the difference between the fake images and the real ones. A wide range of experiments on three datasets prove the superior performance of the proposed approach in terms of accuracy and efficiency. In particular, our model achieves state-of-the-art 78.86 IOU on the Massachusetts dataset with 14.89M parameters and 86.78B FLOPs, with 4x fewer FLOPs but higher accuracy (+3.47% IOU) than the top performer among state-of-the-art approaches used in the evaluation.
翻訳日:2022-10-31 23:05:54 公開日:2020-08-10
# 単発学習のための協調バイパスメトリック

Cooperative Bi-path Metric for Few-shot Learning ( http://arxiv.org/abs/2008.04031v1 )

ライセンス: Link先を確認
Zeyuan Wang, Yifan Zhao, Jia Li, Yonghong Tian(参考訳) 十分なラベル付きサンプルを持つ基本クラスが与えられると、少数のラベル付きサンプルしか持たない新しいクラスのラベル付きサンプルを認識することが目標となる。 既存のメソッドのほとんどは、ラベル付きとラベルなしの新規クラスのサンプル間の関係にのみ注意を払っている。 本稿では,この分類問題に対する2つの貢献について述べる。 まず,従来の教師あり学習の手法を用いて,ベースクラスで訓練されたシンプルで効果的なベースラインについて報告する。 第2に,ベースラインに基づいて,ベースクラスと新規クラス間の相関を利用して,より精度を向上する,分類のための協調的バイパス計量を提案する。 広範に使用されている2つのベンチマーク実験から,本手法はシンプルで効果的なフレームワークであり,数発の分類分野において新たな技術が確立された。

Given base classes with sufficient labeled samples, the target of few-shot classification is to recognize unlabeled samples of novel classes with only a few labeled samples. Most existing methods only pay attention to the relationship between labeled and unlabeled samples of novel classes, which do not make full use of information within base classes. In this paper, we make two contributions to investigate the few-shot classification problem. First, we report a simple and effective baseline trained on base classes in the way of traditional supervised learning, which can achieve comparable results to the state of the art. Second, based on the baseline, we propose a cooperative bi-path metric for classification, which leverages the correlations between base classes and novel classes to further improve the accuracy. Experiments on two widely used benchmarks show that our method is a simple and effective framework, and a new state of the art is established in the few-shot classification field.
翻訳日:2022-10-31 23:05:05 公開日:2020-08-10
# 塩と唐辛子ノイズをフィルタリングする2つのファジィメンバーシップ機能のみを有する適応型2型ファジィフィルタの改良

Improved Adaptive Type-2 Fuzzy Filter with Exclusively Two Fuzzy Membership Function for Filtering Salt and Pepper Noise ( http://arxiv.org/abs/2008.04114v1 )

ライセンス: Link先を確認
Vikas Singh, Pooja Agrawal, Teena Sharma, and Nishchal K. Verma(参考訳) 画像復調は、ノイズの存在が画質を劣化させる画像処理手法における予備的なステップの1つである。 この制限を克服するため,改良された2段ファジィフィルタを画像から塩とペッパーノイズをフィルタリングするために提案する。 第1段階では、フィルタウィンドウに2つの異なるメンバシップ関数を持つタイプ2ファジィ論理を用いた適応しきい値設定に基づいて、画像中の画素を良し悪しと分類する。 第2段では、各フィルタウィンドウに修正された通常のファジィ論理を用いて雑音画素を復調する。 提案フィルタは,ノイズレベルの異なる標準画像で検証される。 提案フィルタは,ノイズを除去し,エッジやコーナーなどの有用な画像特性を高い雑音レベルに保持する。 提案フィルタの性能は,ピーク信号対雑音比と計算時間の観点から,様々な最先端手法と比較する。 フィルタの統計的テストの有効性を示すために,fedman test と bonferroni-dunn (bd) test も行った。

Image denoising is one of the preliminary steps in image processing methods in which the presence of noise can deteriorate the image quality. To overcome this limitation, in this paper a improved two-stage fuzzy filter is proposed for filtering salt and pepper noise from the images. In the first-stage, the pixels in the image are categorized as good or noisy based on adaptive thresholding using type-2 fuzzy logic with exclusively two different membership functions in the filter window. In the second-stage, the noisy pixels are denoised using modified ordinary fuzzy logic in the respective filter window. The proposed filter is validated on standard images with various noise levels. The proposed filter removes the noise and preserves useful image characteristics, i.e., edges and corners at higher noise level. The performance of the proposed filter is compared with the various state-of-the-art methods in terms of peak signal-to-noise ratio and computation time. To show the effectiveness of filter statistical tests, i.e., Friedman test and Bonferroni-Dunn (BD) test are also carried out which clearly ascertain that the proposed filter outperforms in comparison of various filtering approaches.
翻訳日:2022-10-31 23:04:50 公開日:2020-08-10
# T-GD:転送可能なGAN生成画像検出フレームワーク

T-GD: Transferable GAN-generated Images Detection Framework ( http://arxiv.org/abs/2008.04115v1 )

ライセンス: Link先を確認
Hyeonseong Jeon, Youngoh Bang, Junyaup Kim, and Simon S. Woo(参考訳) GAN(Generative Adversarial Networks)の最近の進歩は、非常に現実的な画像の生成を可能にし、悪意のある目的のために彼らの誤用を懸念している。 GAN生成画像(GAN-images)の検出は、基礎となるアーティファクトや特定のパターンの大幅な削減により、ますます困難になっている。 このようなトレースがないことは、検出アルゴリズムがGANイメージを識別したり、他の種類のGANイメージを識別するための知識を転送することを妨げる可能性がある。 本稿では,GAN-imagesを効果的に検出するための堅牢な転送可能なフレームワークであるTransferable GAN-images Detection framework T-GDを提案する。 t-gdは教師と生徒モデルで構成されており、相互に学び、評価し、検出性能を向上させることができる。 まず、ソースデータセット上で教師モデルをトレーニングし、ターゲットデータセットを学習するための出発点として使用する。 学習モデルのトレーニングには、ソースとターゲットデータセットを混合してノイズを注入すると同時に、重みの変動を制約して開始点を保存する。 提案手法は自己学習手法であるが,GAN画像検出の伝達性の向上に着目し,従来の手法と区別する。 T-GDは、破滅的な忘れ込みを克服し、メタデータ情報のない少量のデータだけで、最先端のGAN画像を効果的に検出することで、ソースデータセット上で高いパフォーマンスを達成する。

Recent advancements in Generative Adversarial Networks (GANs) enable the generation of highly realistic images, raising concerns about their misuse for malicious purposes. Detecting these GAN-generated images (GAN-images) becomes increasingly challenging due to the significant reduction of underlying artifacts and specific patterns. The absence of such traces can hinder detection algorithms from identifying GAN-images and transferring knowledge to identify other types of GAN-images as well. In this work, we present the Transferable GAN-images Detection framework T-GD, a robust transferable framework for an effective detection of GAN-images. T-GD is composed of a teacher and a student model that can iteratively teach and evaluate each other to improve the detection performance. First, we train the teacher model on the source dataset and use it as a starting point for learning the target dataset. To train the student model, we inject noise by mixing up the source and target datasets, while constraining the weight variation to preserve the starting point. Our approach is a self-training method, but distinguishes itself from prior approaches by focusing on improving the transferability of GAN-image detection. T-GD achieves high performance on the source dataset by overcoming catastrophic forgetting and effectively detecting state-of-the-art GAN-images with only a small volume of data without any metadata information.
翻訳日:2022-10-31 23:04:31 公開日:2020-08-10
# 注意一貫性と対照クラスタリング損失を変換した教師なしディープメトリック学習

Unsupervised Deep Metric Learning with Transformed Attention Consistency and Contrastive Clustering Loss ( http://arxiv.org/abs/2008.04378v1 )

ライセンス: Link先を確認
Yang Li, Shichao Kan, and Zhihai He(参考訳) 教師なしメトリック学習のための既存のアプローチは、入力画像自体の自己超越情報を探究することに焦点を当てている。 画像分析において,人間の目は,画像を個々に調べるのではなく,互いに比較することが多い。 さらに、イメージクラス間で識別されるが、クラス内では非常に一貫性のある特定のキーポイント、イメージ領域、オブジェクトに注意を払うことが多い。 画像が変換されたとしても、注意パターンは一貫性がある。 本研究は,1つの画像内ではなく,画像間の自己スーパービジョン情報に基づいてネットワークを学習する,教師なし深度学習のための新しいアプローチを開発する。 画像比較における人間の注意の一貫性パターンを特徴付けるために,変化した注意の一貫性の概念を導入する。 視覚的に類似したイメージは、異なる画像変換を実行しても、同じ一貫した視覚的注意マップを共有するべきであると仮定する。 この一貫性は、ペアワイズな自己スーパービジョンの損失につながり、siamのディープニューラルネットワークを学習して、変換されたペアや一致したペアとイメージをエンコードし比較することが可能になります。 このネットワークが生成する特徴のクラス間判別能力をさらに高めるために,教師付きメトリック学習による三重項損失の概念を教師なしの場合に適用し,対照クラスタリング損失を導入する。 ベンチマークデータセットを用いた実験結果から,提案手法は,教師なしメトリック学習の最先端手法よりも大きなマージンで優れていることが示された。

Existing approaches for unsupervised metric learning focus on exploring self-supervision information within the input image itself. We observe that, when analyzing images, human eyes often compare images against each other instead of examining images individually. In addition, they often pay attention to certain keypoints, image regions, or objects which are discriminative between image classes but highly consistent within classes. Even if the image is being transformed, the attention pattern will be consistent. Motivated by this observation, we develop a new approach to unsupervised deep metric learning where the network is learned based on self-supervision information across images instead of within one single image. To characterize the consistent pattern of human attention during image comparisons, we introduce the idea of transformed attention consistency. It assumes that visually similar images, even undergoing different image transforms, should share the same consistent visual attention map. This consistency leads to a pairwise self-supervision loss, allowing us to learn a Siamese deep neural network to encode and compare images against their transformed or matched pairs. To further enhance the inter-class discriminative power of the feature generated by this network, we adapt the concept of triplet loss from supervised metric learning to our unsupervised case and introduce the contrastive clustering loss. Our extensive experimental results on benchmark datasets demonstrate that our proposed method outperforms current state-of-the-art methods for unsupervised metric learning by a large margin.
翻訳日:2022-10-31 23:03:31 公開日:2020-08-10
# 白人至上主義コーパスにおける虐待と意図を検出するブートストラップモデル

A Bootstrapped Model to Detect Abuse and Intent in White Supremacist Corpora ( http://arxiv.org/abs/2008.04276v1 )

ライセンス: Link先を確認
B. Simons, D.B. Skillicorn(参考訳) インテリジェンスアナリストは、過激派レトリックと過激派暴力を区別する、難しい問題に直面している。 多くは一部の標的グループに対する虐待を表現できるが、暴力に参加する意思を示すものはごくわずかである。 インテントの予測モデルの構築、インテントのシードセットからのブートストラップ、インテントを表現する言語テンプレートによってこの問題に対処する。 我々は,n-gramと注意に基づく深層学習者の両方を意図的に設計し,それらを用いて予測の基礎と予測自体を改善する。 彼らは数回のラウンドで安定した予測に収束する。 暴力行為の欲求を示すポストを検出するために、意図の予測と虐待言語の予測を融合する。 クラウドソースラベルと比較することにより,予測を検証する。 この方法論は、可算開始点が定義できる他の言語特性にも適用することができる。

Intelligence analysts face a difficult problem: distinguishing extremist rhetoric from potential extremist violence. Many are content to express abuse against some target group, but only a few indicate a willingness to engage in violence. We address this problem by building a predictive model for intent, bootstrapping from a seed set of intent words, and language templates expressing intent. We design both an n-gram and attention-based deep learner for intent and use them as colearners to improve both the basis for prediction and the predictions themselves. They converge to stable predictions in a few rounds. We merge predictions of intent with predictions of abusive language to detect posts that indicate a desire for violent action. We validate the predictions by comparing them to crowd-sourced labelling. The methodology can be applied to other linguistic properties for which a plausible starting point can be defined.
翻訳日:2022-10-31 22:57:22 公開日:2020-08-10
# SemEval-2020 Task 9: Code-Mixed Tweets の知覚分析の概要

SemEval-2020 Task 9: Overview of Sentiment Analysis of Code-Mixed Tweets ( http://arxiv.org/abs/2008.04277v1 )

ライセンス: Link先を確認
Parth Patwa and Gustavo Aguilar and Sudipta Kar and Suraj Pandey and Srinivas PYKL and Bj\"orn Gamb\"ack and Tanmoy Chakraborty and Thamar Solorio and Amitava Das(参考訳) 本稿では,SemEval-2020 Task 9 on Sentiment Analysis of Code-Mixed Tweets (SentiMix 2020)について述べる。 我々はまた、単語レベルの言語識別と文レベルの感情ラベルを付加したHinglish(ヒンディー語)とSpanglish(スペイン語)のコーパスをリリースし、記述する。 これらのコーパスはそれぞれ20Kと19Kの例からなる。 感情ラベルは、ポジティブ、ネガティブ、中立である。 sentimixは合計89の応募を受け、61のチームがヒングリッシュ・コンテストに参加し、28のシステムがスパングリッシュ・コンペティションに参加した。 最高成績はヒングリッシュのf1スコア75.0%、スパングリッシュのf180.6%であった。 BERTライクなモデルとアンサンブル手法が参加者の間で最も一般的で成功したアプローチである。

In this paper, we present the results of the SemEval-2020 Task 9 on Sentiment Analysis of Code-Mixed Tweets (SentiMix 2020). We also release and describe our Hinglish (Hindi-English) and Spanglish (Spanish-English) corpora annotated with word-level language identification and sentence-level sentiment labels. These corpora are comprised of 20K and 19K examples, respectively. The sentiment labels are - Positive, Negative, and Neutral. SentiMix attracted 89 submissions in total including 61 teams that participated in the Hinglish contest and 28 submitted systems to the Spanglish competition. The best performance achieved was 75.0% F1 score for Hinglish and 80.6% F1 for Spanglish. We observe that BERT-like models and ensemble methods are the most common and successful approaches among the participants.
翻訳日:2022-10-31 22:57:09 公開日:2020-08-10
# モダリティ適応型顔認識のためのドメインプライベート・アグノスティックな特徴

Domain Private and Agnostic Feature for Modality Adaptive Face Recognition ( http://arxiv.org/abs/2008.03848v1 )

ライセンス: Link先を確認
Yingguo Xu, Lei Zhang, Qingyan Duan(参考訳) 不均質な顔認識は、大きなモダリティの相違と不十分なクロスモーダルなサンプルのために難しい課題である。 既存の作品の多くは、識別的特徴変換、メトリック学習、クロスモーダル顔合成に焦点を当てている。 しかし, クロスモーダルな面が常にドメイン(モダリティ)によって結合されているという事実や, アイデンティティ情報はほとんど注目されていない。 したがって、この研究の焦点は、ドメインに依存しない特徴とドメインに依存しない特徴の学習と利用方法である。 具体的には,不整合表現モジュール(DRM),特徴融合モジュール(FFM),適応的ペナルティメトリック(APM)学習セッションを含む特徴集約ネットワーク(FAN)を提案する。 まず、drmでは、ドメインプライベートネットワークとドメイン非依存ネットワークという2つのサブネットワークが、それぞれモダリティ機能とアイデンティティ機能を学ぶために特別に設計されている。 第二に、FFMでは、アイデンティティ特徴をドメイン特徴と融合させて、双方向の双方向なアイデンティティ特徴変換を実現する。 第3に, 容易対とハード対の分布の不均衡が, モデルバイアスのリスクを増大させるクロスモーダルデータセットに存在することを考慮し, 適応ハード対ペナリゼーションを用いた誘導型メトリック学習のアイデンティティーを提案する。 提案するapmはクラス内コンパクト性とクラス間分離を保証している。 ベンチマーク・クロスモーダル・フェイス・データセットの大規模な実験により、我々のFANはSOTA法より優れていることが示された。

Heterogeneous face recognition is a challenging task due to the large modality discrepancy and insufficient cross-modal samples. Most existing works focus on discriminative feature transformation, metric learning and cross-modal face synthesis. However, the fact that cross-modal faces are always coupled by domain (modality) and identity information has received little attention. Therefore, how to learn and utilize the domain-private feature and domain-agnostic feature for modality adaptive face recognition is the focus of this work. Specifically, this paper proposes a Feature Aggregation Network (FAN), which includes disentangled representation module (DRM), feature fusion module (FFM) and adaptive penalty metric (APM) learning session. First, in DRM, two subnetworks, i.e. domain-private network and domain-agnostic network are specially designed for learning modality features and identity features, respectively. Second, in FFM, the identity features are fused with domain features to achieve cross-modal bi-directional identity feature transformation, which, to a large extent, further disentangles the modality information and identity information. Third, considering that the distribution imbalance between easy and hard pairs exists in cross-modal datasets, which increases the risk of model bias, the identity preserving guided metric learning with adaptive hard pairs penalization is proposed in our FAN. The proposed APM also guarantees the cross-modality intra-class compactness and inter-class separation. Extensive experiments on benchmark cross-modal face datasets show that our FAN outperforms SOTA methods.
翻訳日:2022-10-31 22:56:40 公開日:2020-08-10
# 教師なしディープラーニングに基づく変形可能な画像登録:ベイズフレームワーク

Unsupervised Deep-Learning Based Deformable Image Registration: A Bayesian Framework ( http://arxiv.org/abs/2008.03949v1 )

ライセンス: Link先を確認
Samah Khawaled and Moti Freiman(参考訳) 変形可能な画像登録タスクに対して,教師なしディープラーニング(DL)モデルが最近提案されている。 このようなモデルでは、移動と対象画像との相似性を最小化し、最良の変形場を予測するためにニューラルネットワークを訓練する。 参照変形場のないデータセット上でトレーニングした後、このモデルを使用して、新しく見られた移動画像と対象画像の間の変形場を迅速に予測することができる。 現在、トレーニングプロセスは、背後分布全体を特徴付けるのではなく、ネットワーク重みのポイント評価を効果的に提供する。 これは、特に医療画像領域に頻繁に存在する小さなデータセットに対して、推論フェーズにおける最適以下の結果をもたらす可能性のある過剰適合をもたらす可能性がある。 非教師付きDLに基づく変形可能な画像登録のための完全にベイズ的なフレームワークを提案する。 本手法は, 真の後方分布を特徴付けるための原理的手法であり, 潜在能力の過剰化を回避できる。 我々は確率勾配ランゲヴィンダイナミクス(SGLD)を用いて後方サンプリングを行った。 我々は,MNIST と脳MRI (MGH10) データセットにバシエアン非教師付きDLベース画像登録フレームワークの付加価値を,VoxelMorph 非教師付きDLベース画像登録フレームワークと比較した。 実験の結果,mnist と mgh10 データセットに対する平均二乗誤差 (0.0063$ vs. $0.0065$) と dice 係数 (0.73$ vs. $0.71$) の改善による変形場の推定精度の向上が得られた。 さらに, 本手法では, 変形場における不確かさを, 真の後方分布を特徴付けることにより推定する。

Unsupervised deep-learning (DL) models were recently proposed for deformable image registration tasks. In such models, a neural-network is trained to predict the best deformation field by minimizing some dissimilarity function between the moving and the target images. After training on a dataset without reference deformation fields available, such a model can be used to rapidly predict the deformation field between newly seen moving and target images. Currently, the training process effectively provides a point-estimate of the network weights rather than characterizing their entire posterior distribution. This may result in a potential over-fitting which may yield sub-optimal results at inference phase, especially for small-size datasets, frequently present in the medical imaging domain. We introduce a fully Bayesian framework for unsupervised DL-based deformable image registration. Our method provides a principled way to characterize the true posterior distribution, thus, avoiding potential over-fitting. We used stochastic gradient Langevin dynamics (SGLD) to conduct the posterior sampling, which is both theoretically well-founded and computationally efficient. We demonstrated the added-value of our Basyesian unsupervised DL-based registration framework on the MNIST and brain MRI (MGH10) datasets in comparison to the VoxelMorph unsupervised DL-based image registration framework. Our experiments show that our approach provided better estimates of the deformation field by means of improved mean-squared-error ($0.0063$ vs. $0.0065$) and Dice coefficient ($0.73$ vs. $0.71$) for the MNIST and the MGH10 datasets respectively. Further, our approach provides an estimate of the uncertainty in the deformation-field by characterizing the true posterior distribution.
翻訳日:2022-10-31 22:55:17 公開日:2020-08-10
# 画像ハッシュのためのラベル埋め込みリワードを用いた深層強化学習

Deep Reinforcement Learning with Label Embedding Reward for Supervised Image Hashing ( http://arxiv.org/abs/2008.03973v1 )

ライセンス: Link先を確認
Zhenzhen Wang, Weixiang Hong and Junsong Yuan(参考訳) ディープハッシュは画像検索と認識において有望な結果を示している。 画像の特徴を抽出するために多層パーセプトロンまたはcnnが用いられ、続いてsgmoid、tanh、autoencoderといった異なるバイナリ化アクティベーション関数を使用してバイナリコードを生成する。 本研究では, 深層型ハッシュのための新しい意思決定手法を提案する。 ハッシュ問題をバイナリコード空間の頂点を横断するものとして定式化し、Bose-Chaudhuri-Hocquenghem(BCH)符号で定義された新しいラベル埋め込み報酬を用いて、Q-networkを深く学習し、最適な経路を探索する。 CIFAR-10 と NUS-WIDE データセットの大規模な実験と解析により,我々の手法は様々なコード長で最先端の教師付きハッシュ法より優れていることが示された。

Deep hashing has shown promising results in image retrieval and recognition. Despite its success, most existing deep hashing approaches are rather similar: either multi-layer perceptron or CNN is applied to extract image feature, followed by different binarization activation functions such as sigmoid, tanh or autoencoder to generate binary code. In this work, we introduce a novel decision-making approach for deep supervised hashing. We formulate the hashing problem as travelling across the vertices in the binary code space, and learn a deep Q-network with a novel label embedding reward defined by Bose-Chaudhuri-Hocquenghem (BCH) codes to explore the best path. Extensive experiments and analysis on the CIFAR-10 and NUS-WIDE dataset show that our approach outperforms state-of-the-art supervised hashing methods under various code lengths.
翻訳日:2022-10-31 22:54:49 公開日:2020-08-10
# 第2回ECCV 2020 VIPriors Challengesの動作認識トラックに関するスキーム:効率的な光フローストリームガイドフレームワーク

2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors Challenges: An Efficient Optical Flow Stream Guided Framework ( http://arxiv.org/abs/2008.03996v1 )

ライセンス: Link先を確認
Haoyu Chen, Zitong Yu, Xin Liu, Wei Peng, Yoon Lee, and Guoying Zhao(参考訳) アクション認識タスクのための小さなデータセットのトレーニングの問題に対処するために、ほとんどの先行作業は大量のトレーニングサンプルに基づいているか、他の大規模データセットから転送される事前トレーニングモデルを必要とするかのどちらかである。 しかし、強力な計算能力を持つ組織内での研究を制限する。 本研究では,小さなデータセット上でモデルをスクラッチからトレーニングし,有望な結果を得ることのできる,データ効率のよいフレームワークを提案する。 具体的には,3次元中心差分畳み込み操作を導入することで,C3Dニューラルネットを用いた新しい2ストリーム(Rank Pooling RGBとOCR)フレームワークを提案する。 この方法はECCV 2020 VIPriorsチャレンジの動作認識トラックで検証され、第2位(88.31%)を獲得した。 提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを示す。 コードはまもなくリリースされる。

To address the problem of training on small datasets for action recognition tasks, most prior works are either based on a large number of training samples or require pre-trained models transferred from other large datasets to tackle overfitting problems. However, it limits the research within organizations that have strong computational abilities. In this work, we try to propose a data-efficient framework that can train the model from scratch on small datasets while achieving promising results. Specifically, by introducing a 3D central difference convolution operation, we proposed a novel C3D neural network-based two-stream (Rank Pooling RGB and Optical Flow) framework for the task. The method is validated on the action recognition track of the ECCV 2020 VIPriors challenges and got the 2nd place (88.31%). It is proved that our method can achieve a promising result even without a pre-trained model on large scale datasets. The code will be released soon.
翻訳日:2022-10-31 22:54:32 公開日:2020-08-10
# IF-Net:イルミネーション不変の特徴ネットワーク

IF-Net: An Illumination-invariant Feature Network ( http://arxiv.org/abs/2008.03897v1 )

ライセンス: Link先を確認
Po-Heng Chen, Zhao-Xu Luo, Zu-Kuan Huang, Chun Yang, Kuan-Wen Chen(参考訳) 特徴ディスクリプタマッチングは、画像ステッチ、画像検索、ビジュアルローカライゼーションなど多くのコンピュータビジョンアプリケーションにとって重要なステップである。 しかし、しばしば性能を低下させる多くの実用的な要因に影響される。 これらの要因のうち、照明のバリエーションが最も影響力があり、特に以前の記述者学習はこの問題に焦点を絞ったものではない。 本稿では,重要な照明変化条件下でロバストで汎用的な記述子を生成するif-netを提案する。 重要なトレーニングデータの種類だけでなく、提示した順序も分かるのです。 そこで本研究では,複数のデータセットスケジューリング手法を調査し,マッチング精度を向上させるための分離学習手法を提案する。 また,大規模な照明条件に対処するデクリプタの生成能力を高めるためのトレーニングスキームとともに,ROI損失と強陽性のマイニング戦略を提案する。 提案手法を公開パッチマッチングベンチマークで評価し,いくつかの最先端手法と比較した。 実用性を示すために,大照明下での視像定位課題であるif-netをさらに評価し,最適な定位精度を実現する。

Feature descriptor matching is a critical step is many computer vision applications such as image stitching, image retrieval and visual localization. However, it is often affected by many practical factors which will degrade its performance. Among these factors, illumination variations are the most influential one, and especially no previous descriptor learning works focus on dealing with this problem. In this paper, we propose IF-Net, aimed to generate a robust and generic descriptor under crucial illumination changes conditions. We find out not only the kind of training data important but also the order it is presented. To this end, we investigate several dataset scheduling methods and propose a separation training scheme to improve the matching accuracy. Further, we propose a ROI loss and hard-positive mining strategy along with the training scheme, which can strengthen the ability of generated descriptor dealing with large illumination change conditions. We evaluate our approach on public patch matching benchmark and achieve the best results compared with several state-of-the-arts methods. To show the practicality, we further evaluate IF-Net on the task of visual localization under large illumination changes scenes, and achieves the best localization accuracy.
翻訳日:2022-10-31 22:48:26 公開日:2020-08-10
# GANBERT:MRI用トランスフォーマーからPET合成への双方向エンコーダ表現を用いた生成逆ネットワーク

GANBERT: Generative Adversarial Networks with Bidirectional Encoder Representations from Transformers for MRI to PET synthesis ( http://arxiv.org/abs/2008.04393v1 )

ライセンス: Link先を確認
Hoo-Chang Shin, Alvin Ihsani, Swetha Mandava, Sharath Turuvekere Sreenivas, Christopher Forster, Jiook Cha and Alzheimer's Disease Neuroimaging Initiative(参考訳) PETのような医用画像の合成は、写真やデジタルレンダリングよりも強度範囲がずっと広く、密度が高いため、多くの場合ゼロに偏っているため、難しい課題である。 PETの強度値には絶対的な重要性があり、人口間で再現可能なパラメータを計算するために用いられる。 しかし,pet画像合成では,浮動小数点値が-100から1000など,その強度範囲が大きく変化するため,手作業による手作業による調整が一般的である。 これらの課題を克服するために、自然言語処理(NLP)において大きな成功を収めた変換器の双方向エンコーダ表現(BERT)アルゴリズムを採用し、自然言語語彙の辞書に類似した0~10000の整数として、広帯域浮動小数点強度値を表現している。 BERTは、その"next sentence prediction (NSP)"がGAN識別器として機能するマスク付き値の比率を予測するために訓練される。 提案手法では,MRI画像から広い範囲でPET画像を生成することができるが,手動による前・後処理の調整は行わない。 スケールアップとデプロイの準備ができているメソッドです。

Synthesizing medical images, such as PET, is a challenging task due to the fact that the intensity range is much wider and denser than those in photographs and digital renderings and are often heavily biased toward zero. Above all, intensity values in PET have absolute significance, and are used to compute parameters that are reproducible across the population. Yet, usually much manual adjustment has to be made in pre-/post- processing when synthesizing PET images, because its intensity ranges can vary a lot, e.g., between -100 to 1000 in floating point values. To overcome these challenges, we adopt the Bidirectional Encoder Representations from Transformers (BERT) algorithm that has had great success in natural language processing (NLP), where wide-range floating point intensity values are represented as integers ranging between 0 to 10000 that resemble a dictionary of natural language vocabularies. BERT is then trained to predict a proportion of masked values images, where its "next sentence prediction (NSP)" acts as GAN discriminator. Our proposed approach, is able to generate PET images from MRI images in wide intensity range, with no manual adjustments in pre-/post- processing. It is a method that can scale and ready to deploy.
翻訳日:2022-10-31 22:47:54 公開日:2020-08-10
# GANDALF:MRIによるアルツハイマー病診断のための判別器適応型ロスファインタニング

GANDALF: Generative Adversarial Networks with Discriminator-Adaptive Loss Fine-tuning for Alzheimer's Disease Diagnosis from MRI ( http://arxiv.org/abs/2008.04396v1 )

ライセンス: Link先を確認
Hoo-Chang Shin, Alvin Ihsani, Ziyue Xu, Swetha Mandava, Sharath Turuvekere Sreenivas, Christopher Forster, Jiook Cha, and Alzheimer's Disease Neuroimaging Initiative(参考訳) ポジトロン・エミッション・トモグラフィ(PET)は、現在、アルツハイマー病(AD)の診断における金の基準とされている。 しかし、PETイメージングはコストと計画の観点から禁止され、また放射線量が最も多い画像技術でもある。 対照的にMRI(Magnetic Resonance Imaging)はより広く利用でき、所望の画像解像度を設定する際の柔軟性も向上している。 残念なことに、MRIを用いたADの診断は、MRIで見られる健常者とAD患者の非常に微妙な生理的差異のため困難である。 その結果,MR 画像から PET 画像を合成する試みが,MR 画像から AD の診断を可能にすることを目的としたGAN (generative adversarial network) を用いて行われてきた。MRI からの PET 合成に関するこれまでの研究は,MRI 画像が PET 画像の生成に使用される条件付き GAN に大きく焦点が当てられている。 エンドツーエンドのトレーニング目標はありません。 本稿では,AD 診断を GAN 訓練目標に組み込んで,最高のAD 分類性能を実現する方法を提案する。 異なるGAN損失は判別器の性能に基づいて微調整され、全体的な訓練は安定している。 提案するネットワークアーキテクチャとトレーニングシステムは,3クラスおよび4クラスAD分類タスクの最先端性能を示す。

Positron Emission Tomography (PET) is now regarded as the gold standard for the diagnosis of Alzheimer's Disease (AD). However, PET imaging can be prohibitive in terms of cost and planning, and is also among the imaging techniques with the highest dosage of radiation. Magnetic Resonance Imaging (MRI), in contrast, is more widely available and provides more flexibility when setting the desired image resolution. Unfortunately, the diagnosis of AD using MRI is difficult due to the very subtle physiological differences between healthy and AD subjects visible on MRI. As a result, many attempts have been made to synthesize PET images from MR images using generative adversarial networks (GANs) in the interest of enabling the diagnosis of AD from MR. Existing work on PET synthesis from MRI has largely focused on Conditional GANs, where MR images are used to generate PET images and subsequently used for AD diagnosis. There is no end-to-end training goal. This paper proposes an alternative approach to the aforementioned, where AD diagnosis is incorporated in the GAN training objective to achieve the best AD classification performance. Different GAN lossesare fine-tuned based on the discriminator performance, and the overall training is stabilized. The proposed network architecture and training regime show state-of-the-art performance for three- and four- class AD classification tasks.
翻訳日:2022-10-31 22:47:31 公開日:2020-08-10
# 信頼できるai推論システム:業界研究の視点

Trustworthy AI Inference Systems: An Industry Research View ( http://arxiv.org/abs/2008.04449v1 )

ライセンス: Link先を確認
Rosario Cammarota, Matthias Schunter, Anand Rajan, Fabian Boemer, \'Agnes Kiss, Amos Treiber, Christian Weinert, Thomas Schneider, Emmanuel Stapf, Ahmad-Reza Sadeghi, Daniel Demmler, Huili Chen, Siam Umar Hussain, Sadegh Riazi, Farinaz Koushanfar, Saransh Gupta, Tajan Simunic Rosing, Kamalika Chaudhuri, Hamid Nejatollahi, Nikil Dutt, Mohsen Imani, Kim Laine, Anuj Dubey, Aydin Aysu, Fateme Sadat Hosseini, Chengmo Yang, Eric Wallace, Pamela Norton(参考訳) 本研究では,信頼できる人工知能(AI)推論システムの設計,展開,運用にアプローチするための産業研究の視点を提供する。 このようなシステムは、aiモデルの適切なセキュリティ保護メカニズムを活用すると同時に、意思決定を支援するために、タイムリーでインフォームドでカスタマイズされた推論を顧客に提供します。 さらに、このようなシステムは、いつでも顧客のデータを保護するために、Privacy-Enhancing Technologies(PET)を使用する必要がある。 この問題にアプローチするために、AI推論システムにトレンドを導入することから始める。 このようなシステムにおける知的財産権(IP)とプライベートデータ保護の関係について検討を続ける。 保護機構に関しては、プライベートAI推論システムの設計、構築、デプロイ、運用に有用なセキュリティとプライバシ構築ブロックを調査します。 例えば、信頼できる実行環境を使用するaiシステムの機会と課題と、使用中のデータを保護する暗号技術のより最近の進歩を強調する。 最後に,信頼に値するai推論システムの運用を維持するために,産業,学界,政府研究者のグローバルな集合的注意を必要とする,さらなる発展の領域について概説する。

In this work, we provide an industry research view for approaching the design, deployment, and operation of trustworthy Artificial Intelligence (AI) inference systems. Such systems provide customers with timely, informed, and customized inferences to aid their decision, while at the same time utilizing appropriate security protection mechanisms for AI models. Additionally, such systems should also use Privacy-Enhancing Technologies (PETs) to protect customers' data at any time. To approach the subject, we start by introducing trends in AI inference systems. We continue by elaborating on the relationship between Intellectual Property (IP) and private data protection in such systems. Regarding the protection mechanisms, we survey the security and privacy building blocks instrumental in designing, building, deploying, and operating private AI inference systems. For example, we highlight opportunities and challenges in AI systems using trusted execution environments combined with more recent advances in cryptographic techniques to protect data in use. Finally, we outline areas of further development that require the global collective attention of industry, academia, and government researchers to sustain the operation of trustworthy AI inference systems.
翻訳日:2022-10-31 22:47:10 公開日:2020-08-10
# 対称情報発散を伴う確率リンクモデル

Probability Link Models with Symmetric Information Divergence ( http://arxiv.org/abs/2008.04387v1 )

ライセンス: Link先を確認
Majid Asadi, Karthik Devarajan, Nader Ebrahimi, Ehsan Soofi, Lauren Spirko-Burns(参考訳) 本稿では,ある確率分布を別の確率分布に変換するためのリンク関数を導入し,二つの分布間のクルバックライバとr\'enyiの発散が対称であることを示す。 リンクモデルの2つの一般的なクラスが提案されている。 第1モデルは2つの生存関数をリンクし、生存分析や信頼性モデリングに使用される比例確率や変化点などのモデルに適用できる。 比例オッズモデルを含むプロトタイプアプリケーションは、特徴の有効性および平均化目的を評価するための非対称測度に対する対称発散測度の利点を示す。 その利点は、モデルのユニークなランクと、非対称なダイバーシティの計算要件の半倍のモデル平均化のためのユニークな情報重み付けを提供することである。 2つ目のモデルは2つの累積確率分布関数をリンクする。 このモデルは、プロビットやロジットモデルのようなバイナリ確率モデルの連続的な対応である一般化された位置モデルを生成する。 例えば、生存分析文献に現れる一般化されたプロビットモデルとロジットモデル、および各二項確率モデルに対応する生存時間モデルである一般化されたラプラスモデルと一般化された学生対価モデルなどがある。 最後に,コプラ依存情報の生存機能と条件との対称的発散に対する拡張について述べる。

This paper introduces link functions for transforming one probability distribution to another such that the Kullback-Leibler and R\'enyi divergences between the two distributions are symmetric. Two general classes of link models are proposed. The first model links two survival functions and is applicable to models such as the proportional odds and change point, which are used in survival analysis and reliability modeling. A prototype application involving the proportional odds model demonstrates advantages of symmetric divergence measures over asymmetric measures for assessing the efficacy of features and for model averaging purposes. The advantages include providing unique ranks for models and unique information weights for model averaging with one-half as much computation requirement of asymmetric divergences. The second model links two cumulative probability distribution functions. This model produces a generalized location model which are continuous counterparts of the binary probability models such as probit and logit models. Examples include the generalized probit and logit models which have appeared in the survival analysis literature, and a generalized Laplace model and a generalized Student-$t$ model, which are survival time models corresponding to the respective binary probability models. Lastly, extensions to symmetric divergence between survival functions and conditions for copula dependence information are presented.
翻訳日:2022-10-31 22:46:27 公開日:2020-08-10
# 耐障害性制御のためのモデル予測法と強化学習法の比較

Comparison of Model Predictive and Reinforcement Learning Methods for Fault Tolerant Control ( http://arxiv.org/abs/2008.04403v1 )

ライセンス: Link先を確認
Ibrahim Ahmed, Hamed Khorasgani, Gautam Biswas(参考訳) フォールトトレラントコントローラの望ましい特性は、システム操作中に進化するシステム変更への適応性である。 アダプティブコントローラは、可能な障害を列挙する最適な制御ポリシーを必要としない。 代わりに、リアルタイムでそれを近似することができる。 階層的強化学習に基づく離散時間系に対する2つの適応型耐故障制御方式を提案する。 センサノイズと持続的障害の存在下でのモデル予測制御器の性能を比較する。 制御装置はC-130の燃料タンクモデルで試験される。 実験により,強化学習ベースコントローラは,故障時のモデル予測コントローラ,部分的に観測可能なシステムモデル,センサノイズレベルよりも頑健な性能を示す。

A desirable property in fault-tolerant controllers is adaptability to system changes as they evolve during systems operations. An adaptive controller does not require optimal control policies to be enumerated for possible faults. Instead it can approximate one in real-time. We present two adaptive fault-tolerant control schemes for a discrete time system based on hierarchical reinforcement learning. We compare their performance against a model predictive controller in presence of sensor noise and persistent faults. The controllers are tested on a fuel tank model of a C-130 plane. Our experiments demonstrate that reinforcement learning-based controllers perform more robustly than model predictive controllers under faults, partially observable system models, and varying sensor noise levels.
翻訳日:2022-10-31 22:38:52 公開日:2020-08-10
# オンポリシー強化学習による劣化システムの耐障害性制御

Fault-Tolerant Control of Degrading Systems with On-Policy Reinforcement Learning ( http://arxiv.org/abs/2008.04407v1 )

ライセンス: Link先を確認
Ibrahim Ahmed, Marcos Qui\~nones-Grueiro, Gautam Biswas(参考訳) 本稿では, 故障検出・診断工程に先行しない劣化系の耐故障性制御のための適応型強化学習制御手法を提案する。 したがって、システムで発生する可能性のある障害に関する \textit{a priori} の知識は不要である。 適応型スキームは、オンラインとオフラインのオンライン学習を組み合わせることで、安定した学習を保証しながら、探索とサンプル効率を改善する。 オフライン学習フェーズはシステムのデータ駆動モデルを使用して行われ、システムの動作状態を追跡するために頻繁に更新される。 本手法の有効性を実証するため,航空機用燃料輸送システムの実験を行った。

We propose a novel adaptive reinforcement learning control approach for fault tolerant control of degrading systems that is not preceded by a fault detection and diagnosis step. Therefore, \textit{a priori} knowledge of faults that may occur in the system is not required. The adaptive scheme combines online and offline learning of the on-policy control method to improve exploration and sample efficiency, while guaranteeing stable learning. The offline learning phase is performed using a data-driven model of the system, which is frequently updated to track the system's operating conditions. We conduct experiments on an aircraft fuel transfer system to demonstrate the effectiveness of our approach.
翻訳日:2022-10-31 22:38:43 公開日:2020-08-10
# ガウス過程を用いたマルチエージェント安全計画

Multi-Agent Safe Planning with Gaussian Processes ( http://arxiv.org/abs/2008.04452v1 )

ライセンス: Link先を確認
Zheqing Zhu, Erdem B{\i}y{\i}k, Dorsa Sadigh(参考訳) マルチエージェントセーフシステムは、複数のAIシステムが一緒に動作するようになり、ますます重要な研究領域となっている。 このような設定では、個々のエージェントだけでなく、システム全体の安全性も確保する必要があります。 本稿では,環境に複数のエージェントが存在する場合,分散した安全なナビゲーションを実現するマルチエージェント・セーフラーニングアルゴリズムを提案する。 このアルゴリズムは、他のエージェントに対する穏やかな仮定を作り、他のエージェントのポリシーに関する事前知識をほとんど持たずに、分散化された方法でトレーニングされる。 実験では,様々な目的を最適化する際に,他のアルゴリズムを実行するロボットと協調して,アルゴリズムの性能を示す。

Multi-agent safe systems have become an increasingly important area of study as we can now easily have multiple AI-powered systems operating together. In such settings, we need to ensure the safety of not only each individual agent, but also the overall system. In this paper, we introduce a novel multi-agent safe learning algorithm that enables decentralized safe navigation when there are multiple different agents in the environment. This algorithm makes mild assumptions about other agents and is trained in a decentralized fashion, i.e. with very little prior knowledge about other agents' policies. Experiments show our algorithm performs well with the robots running other algorithms when optimizing various objectives.
翻訳日:2022-10-31 22:38:33 公開日:2020-08-10
# EagerPy: PyTorch、TensorFlow、JAX、NumPyとネイティブに動作するコードを書く

EagerPy: Writing Code That Works Natively with PyTorch, TensorFlow, JAX, and NumPy ( http://arxiv.org/abs/2008.04175v1 )

ライセンス: Link先を確認
Jonas Rauber, Matthias Bethge, Wieland Brendel(参考訳) EagerPyはPythonフレームワークで、PyTorch、TensorFlow、JAX、NumPyで自動的にネイティブに動作するコードを書くことができる。 ライブラリ開発者はもはや、これらのフレームワークの1つをサポートするか、各フレームワークのためにライブラリを再実装するか、コードの重複を扱うかを選ぶ必要はない。 このようなライブラリのユーザは、特定のサードパーティライブラリにロックされることなく、フレームワークを簡単に切り替えることができる。 マルチフレームワークのサポート以外にも、EagerPyはあらゆるフレームワークに包括的な型アノテーションとメソッドチェインの一貫性をサポートする。 最新のドキュメントはhttps://eagerpy.jonasrauber.deで公開されている。コードはgithubのhttps://github.com/jonasrauber/eagerpyにある。

EagerPy is a Python framework that lets you write code that automatically works natively with PyTorch, TensorFlow, JAX, and NumPy. Library developers no longer need to choose between supporting just one of these frameworks or reimplementing the library for each framework and dealing with code duplication. Users of such libraries can more easily switch frameworks without being locked in by a specific 3rd party library. Beyond multi-framework support, EagerPy also brings comprehensive type annotations and consistent support for method chaining to any framework. The latest documentation is available online at https://eagerpy.jonasrauber.de and the code can be found on GitHub at https://github.com/jonasrauber/eagerpy.
翻訳日:2022-10-31 22:37:55 公開日:2020-08-10
# robust validation: 分布が変化しても自信のある予測

Robust Validation: Confident Predictions Even When Distributions Shift ( http://arxiv.org/abs/2008.04267v1 )

ライセンス: Link先を確認
Maxime Cauchois, Suyash Gupta, Alnur Ali and John C. Duchi(参考訳) 機械学習と統計学の伝統的な視点では、トレーニングとテストのサンプルは同じ集団から来ていると仮定しているが、実践はこのフィクションを裏付けている。 強固な統計と最適化からの1つの戦略は、分散摂動にロバストなモデルを構築することである。 本稿では,モデルが点予測ではなく不確実性推定を提供するような,ロバストな予測推論の手順を記述するために,異なる手法を採用する。 本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。 共形推論に基づくこの方法は、トレーニングデータが交換可能であるという条件だけで、有限サンプルにおいて(ほぼ)有効なカバレッジを達成する。 提案手法の重要な構成要素は,将来予想されるデータシフトの量を推定し,それに対する堅牢性を構築することである。 Recht et al. の CIFAR-v4 や ImageNet-V2 などの大規模ベンチマークデータセットを実験することにより、堅牢な予測妥当性の重要性を強調する補完的な実験結果を提供する。

While the traditional viewpoint in machine learning and statistics assumes training and testing samples come from the same population, practice belies this fiction. One strategy---coming from robust statistics and optimization---is thus to build a model robust to distributional perturbations. In this paper, we take a different approach to describe procedures for robust predictive inference, where a model provides uncertainty estimates on its predictions rather than point predictions. We present a method that produces prediction sets (almost exactly) giving the right coverage level for any test distribution in an $f$-divergence ball around the training population. The method, based on conformal inference, achieves (nearly) valid coverage in finite samples, under only the condition that the training data be exchangeable. An essential component of our methodology is to estimate the amount of expected future data shift and build robustness to it; we develop estimators and prove their consistency for protection and validity of uncertainty estimates under shifts. By experimenting on several large-scale benchmark datasets, including Recht et al.'s CIFAR-v4 and ImageNet-V2 datasets, we provide complementary empirical results that highlight the importance of robust predictive validity.
翻訳日:2022-10-31 22:37:18 公開日:2020-08-10
# RocNet: 効率的な3次元深部表現のための再帰的Ocreeネットワーク

RocNet: Recursive Octree Network for Efficient 3D Deep Representation ( http://arxiv.org/abs/2008.03875v1 )

ライセンス: Link先を確認
Juncheng Liu, Steven Mills, Brendan McCane(参考訳) 3dボクセルデータの圧縮のために, 深い再帰的octreeネットワークを導入する。 我々のネットワークは任意の大きさのボクセルグリッドをオートエンコーダのようなネットワーク内の非常に小さな潜在空間に圧縮する。 提案手法では,32,64,128個のグリッドを圧縮して80個のフロートに圧縮する。 3次元形状分類, 3次元形状再構成, 形状生成の3つの実験により, 提案手法の有効性と有効性を示す。 実験の結果,従来の3次元復元法に比べて少ないトレーニング時間で少ないメモリを消費しながら,精度を維持していることがわかった。

We introduce a deep recursive octree network for the compression of 3D voxel data. Our network compresses a voxel grid of any size down to a very small latent space in an autoencoder-like network. We show results for compressing 32, 64 and 128 grids down to just 80 floats in the latent space. We demonstrate the effectiveness and efficiency of our proposed method on several publicly available datasets with three experiments: 3D shape classification, 3D shape reconstruction, and shape generation. Experimental results show that our algorithm maintains accuracy while consuming less memory with shorter training times compared to existing methods, especially in 3D reconstruction tasks.
翻訳日:2022-10-31 22:36:29 公開日:2020-08-10
# HOLMES:集中治療室における深層学習モデルのための健康オンラインモデルアンサンブル

HOLMES: Health OnLine Model Ensemble Serving for Deep Learning Models in Intensive Care Units ( http://arxiv.org/abs/2008.04063v1 )

ライセンス: Link先を確認
Shenda Hong, Yanbo Xu, Alind Khare, Satria Priambada, Kevin Maher, Alaa Aljiffry, Jimeng Sun and Alexey Tumanov(参考訳) ディープラーニングモデルは、正確なモデルのトレーニングに特化して、医療におけるエキスパートレベルのパフォーマンスを達成した。 しかし、ICU (Intensive Care Unit) のような多くの臨床環境において、ICU の患者医療は同時に緊急かつ費用がかかるため、リアルタイムモデル提供は正確さよりも重要でない。 臨床的決定とそのスケジュールは、患者の結果と介護コストの両方に直接影響を及ぼす。 タイムリーな意思決定を行うには、基盤となるサービスシステムはレイテンシに注意する必要がある、と私たちは主張する。 この課題を複雑化するために、健康分析アプリケーションは単一のモデルではなくモデルの組み合わせを必要とし、異なるターゲットの個別モデル、マルチモーダルデータ、異なる予測ウィンドウ、そして潜在的にパーソナライズされた予測をより良く専門化する。 これらの課題に対処するために、医療アプリケーションのためのオンラインモデルアンサンブルサービスフレームワークHOLMESを提案する。 HOLMESは、最高精度でアンサンブルする最良のモデル群を動的に識別すると同時に、エンドツーエンド予測におけるサブ秒レイテンシ制約を満たす。 HOLMESは精度/レイテンシのトレードオフを効率的にナビゲートし、アンサンブルを構成し、モデルアンサンブルパイプラインを提供し、100人の患者から同時にデータをストリーミングし、それぞれ250〜Hzで波形データを生成する。 HOLMESは、(桁違いの)精度とレイテンシの観点から、通常のオフラインバッチ処理による同じ臨床タスクの推論よりも優れている。 HOLMESは, 小児心ICUデータにおけるリスク予測タスクにおいて, 64ベッドシミュレーションにおいて95%以上の予測精度とサブ秒レイテンシで検証した。

Deep learning models have achieved expert-level performance in healthcare with an exclusive focus on training accurate models. However, in many clinical environments such as intensive care unit (ICU), real-time model serving is equally if not more important than accuracy, because in ICU patient care is simultaneously more urgent and more expensive. Clinical decisions and their timeliness, therefore, directly affect both the patient outcome and the cost of care. To make timely decisions, we argue the underlying serving system must be latency-aware. To compound the challenge, health analytic applications often require a combination of models instead of a single model, to better specialize individual models for different targets, multi-modal data, different prediction windows, and potentially personalized predictions. To address these challenges, we propose HOLMES-an online model ensemble serving framework for healthcare applications. HOLMES dynamically identifies the best performing set of models to ensemble for highest accuracy, while also satisfying sub-second latency constraints on end-to-end prediction. We demonstrate that HOLMES is able to navigate the accuracy/latency tradeoff efficiently, compose the ensemble, and serve the model ensemble pipeline, scaling to simultaneously streaming data from 100 patients, each producing waveform data at 250~Hz. HOLMES outperforms the conventional offline batch-processed inference for the same clinical task in terms of accuracy and latency (by order of magnitude). HOLMES is tested on risk prediction task on pediatric cardio ICU data with above 95% prediction accuracy and sub-second latency on 64-bed simulation.
翻訳日:2022-10-31 22:30:34 公開日:2020-08-10
# HAPI: ハードウェア対応のプログレッシブ推論

HAPI: Hardware-Aware Progressive Inference ( http://arxiv.org/abs/2008.03997v1 )

ライセンス: Link先を確認
Stefanos Laskaridis, Stylianos I. Venieris, Hyeji Kim and Nicholas D. Lane(参考訳) 畳み込みニューラルネットワーク(CNN)は最近、AIタスクの多様性における最先端技術となっている。 その人気にもかかわらず、CNN推論は依然として計算コストが高い。 ネットワークの異なる段階で、サンプルの分類の難しさと早期終了の相違を生かして、この問題を緩和することを目的としている。 それでも、早期退避に関する既存の研究は、ユースケースやデプロイメントプラットフォームを考慮せずに、トレーニングスキームに重点を置いている。 本研究は,中間出口の配置を推論時の早期出口戦略とともに最適化することにより,高性能早期出口ネットワークを生成する新しい手法であるHAPIを提案する。 さらに,多数の代替アーキテクチャの高速トラバーサルを可能にし,ユースケース要件や対象ハードウェアに合わせて最もパフォーマンスの高い設計を生成する効率的な設計空間探索アルゴリズムを提案する。 定量的評価により,本システムは様々な遅延予算において,代替検索機構や最先端の早期実行方式を一貫して上回っていることが示された。 さらに、高度に最適化された手作りの初期のCNNの性能をさらに向上させ、組み込みデバイスに遅延駆動SLAを課す軽量モデルの最大5.11倍のスピードアップを提供する。

Convolutional neural networks (CNNs) have recently become the state-of-the-art in a diversity of AI tasks. Despite their popularity, CNN inference still comes at a high computational cost. A growing body of work aims to alleviate this by exploiting the difference in the classification difficulty among samples and early-exiting at different stages of the network. Nevertheless, existing studies on early exiting have primarily focused on the training scheme, without considering the use-case requirements or the deployment platform. This work presents HAPI, a novel methodology for generating high-performance early-exit networks by co-optimising the placement of intermediate exits together with the early-exit strategy at inference time. Furthermore, we propose an efficient design space exploration algorithm which enables the faster traversal of a large number of alternative architectures and generates the highest-performing design, tailored to the use-case requirements and target hardware. Quantitative evaluation shows that our system consistently outperforms alternative search mechanisms and state-of-the-art early-exit schemes across various latency budgets. Moreover, it pushes further the performance of highly optimised hand-crafted early-exit CNNs, delivering up to 5.11x speedup over lightweight models on imposed latency-driven SLAs for embedded devices.
翻訳日:2022-10-31 22:29:49 公開日:2020-08-10
# ラベルは完璧ではない:ラベル不確実性による確率的物体検出の改善

Labels Are Not Perfect: Improving Probabilistic Object Detection via Label Uncertainty ( http://arxiv.org/abs/2008.04168v1 )

ライセンス: Link先を確認
Di Feng and Lars Rosenbaum and Fabian Timm and Klaus Dietmayer(参考訳) 自律運転におけるロバストな物体検出には信頼性の高い不確実性推定が不可欠である。 しかし、従来の確率的物体検出の研究は、ボックス回帰の予測確率を教師なしの方法で学習するか、あるいは単純なヒューリスティックを用いて不確実な正則化を行うかのどちらかである。 これは不安定なトレーニングや準最適検出のパフォーマンスをもたらす。 本研究では,従来の提案手法を用いて,地中真理境界ボックスパラメータに固有の不確かさを推定し,確率的LiDARに基づく物体検出器の検出精度を向上させる。 KITTIデータセットを用いた実験結果から,本手法はベースラインモデルと単純なヒューリスティックスに基づくモデルの両方を平均精度で最大3.6%超えることがわかった。

Reliable uncertainty estimation is crucial for robust object detection in autonomous driving. However, previous works on probabilistic object detection either learn predictive probability for bounding box regression in an un-supervised manner, or use simple heuristics to do uncertainty regularization. This leads to unstable training or suboptimal detection performance. In this work, we leverage our previously proposed method for estimating uncertainty inherent in ground truth bounding box parameters (which we call label uncertainty) to improve the detection accuracy of a probabilistic LiDAR-based object detector. Experimental results on the KITTI dataset show that our method surpasses both the baseline model and the models based on simple heuristics by up to 3.6% in terms of Average Precision.
翻訳日:2022-10-31 22:29:29 公開日:2020-08-10
# 画像サルエント物体検出の再検討 : オブジェクトレベルの意味サルエンシー再ランキング

Rethinking of the Image Salient Object Detection: Object-level Semantic Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter ( http://arxiv.org/abs/2008.05397v1 )

ライセンス: Link先を確認
Zhenyu Wu, Shuai Li, Chenglizhao Chen, Aimin Hao, Hong Qin(参考訳) 人間の本当の注意は、低レベルの視覚刺激と高レベルの意味情報の両方を用いて、視覚システムと脳の間の対話的な活動である。 従来のイメージ・サリエント・オブジェクト検出(SOD)は、複数のタスクでサリエンシの予測を行う。つまり、ピクセルワイド・サリエンシ・レグレッションとセグメンテーションのようなサリエンシ・リファインメントを同時に実行し、セマンティック情報を明らかにすることで特徴的バックボーンを退化させる。 しかし,画像を考えると,これらの領域が一見すると最も有意義な領域ではない場合でも,意味的に有意義な領域に注意を払う傾向がある。 本稿では,SOD問題を2つの逐次課題に分割する。 1) 意味的に有意義な領域をまず粗く特定するために, 軽量で教師の少ない深層ネットワークを提案する。 2) 処理後処理として, セマンティック・サリエント領域の複数のオフザシェルフ深部モデルを画素ワイド・サリエンシ改善法として選択的に融合させる。 知覚的手がかりを主とする「単一画像」におけるピクセル毎のサリエンシーの学習に焦点を当てたsota(state-of-the-art)手法とは対照的に,本手法は,実際の人間の注意機構とより一貫性のある「複数画像間の対象レベルの意味的ランク」について検討した。 提案手法は単純かつ効果的であり,主にオブジェクトレベルの意味的再ランキング問題としてサルエント物体検出を考える最初の試みである。

The real human attention is an interactive activity between our visual system and our brain, using both low-level visual stimulus and high-level semantic information. Previous image salient object detection (SOD) works conduct their saliency predictions in a multi-task manner, i.e., performing pixel-wise saliency regression and segmentation-like saliency refinement at the same time, which degenerates their feature backbones in revealing semantic information. However, given an image, we tend to pay more attention to those regions which are semantically salient even in the case that these regions are perceptually not the most salient ones at first glance. In this paper, we divide the SOD problem into two sequential tasks: 1) we propose a lightweight, weakly supervised deep network to coarsely locate those semantically salient regions first; 2) then, as a post-processing procedure, we selectively fuse multiple off-the-shelf deep models on these semantically salient regions as the pixel-wise saliency refinement. In sharp contrast to the state-of-the-art (SOTA) methods that focus on learning pixel-wise saliency in "single image" using perceptual clues mainly, our method has investigated the "object-level semantic ranks between multiple images", of which the methodology is more consistent with the real human attention mechanism. Our method is simple yet effective, which is the first attempt to consider the salient object detection mainly as an object-level semantic re-ranking problem.
翻訳日:2022-10-31 22:29:14 公開日:2020-08-10
# フラットモビル間走行:単眼カメラからの鳥眼視空間グリッドによる総合軌道計画

Driving among Flatmobiles: Bird-Eye-View occupancy grids from a monocular camera for holistic trajectory planning ( http://arxiv.org/abs/2008.04047v1 )

ライセンス: Link先を確認
Abdelhak Loukkal (UTC), Yves Grandvalet (Heudiasyc), Tom Drummond, You Li (NRCIEA)(参考訳) カメラベースのエンドツーエンド駆動ニューラルネットワークは、カメライメージを駆動制御コマンドにマップする低コストシステムを実現する。 これらのネットワークは、面倒な手作りのビルディングブロックを置き換えるため、魅力的だが、そのブラックボックスの性質は、故障時に探すことを困難にしている。 最近の研究は、解釈可能性とネットワーク決定の精度の両方を増大させる利点を持つ明示的な中間表現を使用することの重要性を示している。 それにもかかわらず、これらのカメラベースのネットワークは、カメラビューにおいて、スケールが均一ではなく、したがってモーション予測に直接適さない理由となっている。 本稿では,鳥眼視(bird-eye-view, bev)中間表現を二元占有グリッドマップ(binary occupancy grid map,ogms)として提供する,単眼カメラのみのエンドツーエンド軌道計画ネットワークを提案する。 カメラ画像から、BEVにおけるOGMの予測を容易にするため、カメラビューで最初にOGMをセマンティックマスクとして予測し、2つの平面間のホモグラフィーを用いてBEVに警告する新しいスキームを導入する。 この変換を車両などの3dオブジェクトに適用可能にする重要な要素は、カメラビューでの足跡のみを予測することであり、したがってホモグラフィによって暗示されるフラットワールド仮説を尊重する。

Camera-based end-to-end driving neural networks bring the promise of a low-cost system that maps camera images to driving control commands. These networks are appealing because they replace laborious hand engineered building blocks but their black-box nature makes them difficult to delve in case of failure. Recent works have shown the importance of using an explicit intermediate representation that has the benefits of increasing both the interpretability and the accuracy of networks' decisions. Nonetheless, these camera-based networks reason in camera view where scale is not homogeneous and hence not directly suitable for motion forecasting. In this paper, we introduce a novel monocular camera-only holistic end-to-end trajectory planning network with a Bird-Eye-View (BEV) intermediate representation that comes in the form of binary Occupancy Grid Maps (OGMs). To ease the prediction of OGMs in BEV from camera images, we introduce a novel scheme where the OGMs are first predicted as semantic masks in camera view and then warped in BEV using the homography between the two planes. The key element allowing this transformation to be applied to 3D objects such as vehicles, consists in predicting solely their footprint in camera-view, hence respecting the flat world hypothesis implied by the homography.
翻訳日:2022-10-31 22:28:39 公開日:2020-08-10
# フェイクニュース"が書かれる前に見つけられるだろうか?

Can We Spot the "Fake News" Before It Was Even Written? ( http://arxiv.org/abs/2008.04374v1 )

ライセンス: Link先を確認
Preslav Nakov(参考訳) オンラインの偽情報の普及に伴い、噂や虚偽の主張や「偽ニュース」を自動的に否定する研究の関心が高まっている。 これまでのところ、手動と自動の両方でファクトチェックの取り組みがいくつも開始されているが、企業全体が危機状態にある。 より有望な方向は、事前に実施可能なニュースアウトレット全体のファクトチェックに集中することだ。 そして、記事を書く前に事実を確認して、それを公表したメディアがどれほど信頼できるかを確認することができた。 私たちはTanbihのニュースアグリゲータで、読者が何を読んでいるかを知らせる方法を説明します。 特に,報告の一般的な事実性,プロパガンダ的内容の程度,過党主義,政治イデオロギーの指導,報告の一般的な枠組み,さまざまな主張や話題に対するスタンスを示すメディアプロファイルを開発する。

Given the recent proliferation of disinformation online, there has been also growing research interest in automatically debunking rumors, false claims, and "fake news." A number of fact-checking initiatives have been launched so far, both manual and automatic, but the whole enterprise remains in a state of crisis: by the time a claim is finally fact-checked, it could have reached millions of users, and the harm caused could hardly be undone. An arguably more promising direction is to focus on fact-checking entire news outlets, which can be done in advance. Then, we could fact-check the news before it was even written: by checking how trustworthy the outlets that published it is. We describe how we do this in the Tanbih news aggregator, which makes readers aware of what they are reading. In particular, we develop media profiles that show the general factuality of reporting, the degree of propagandistic content, hyper-partisanship, leading political ideology, general frame of reporting, and stance with respect to various claims and topics.
翻訳日:2022-10-31 22:28:15 公開日:2020-08-10
# 動的最適化のためのニューラルネットワークと微分進化の多様化

Using Neural Networks and Diversifying Differential Evolution for Dynamic Optimisation ( http://arxiv.org/abs/2008.04002v1 )

ライセンス: Link先を確認
Maryam Hasani Shoreh, Renato Hermoza Aragon\'es, Frank Neumann(参考訳) 動的最適化は様々な現実世界の問題で発生する。 これらの問題に対処するために、進化的アルゴリズムは、その有効性と最小限の設計努力のために広く利用されている。 しかし、動的な問題では、標準的な進化アルゴリズムの上に余分なメカニズムが必要である。 その中でも多様性のメカニズムはダイナミズムの扱いにおいて競争力があることが証明されており、近年ではニューラルネットワークの利用が普及している。 単純な多様性メカニズムと比較して、プロセスでニューラルネットワークを使用することの複雑さを考えると、それらが競合しているかどうか、その結果を改善するためにニューラルネットワークを統合する可能性について検討する。 しかし、公平な比較のためには、各アルゴリズムの同じ時間予算を考慮する必要がある。 したがって、変更間の利用可能な時間を測定する尺度として、通常のフィットネス評価ではなく、壁時計のタイミングを用いる。 その結果,ニューラルネットワークと多様性機構の統合における改善の意義は,変化の種類と頻度に依存することがわかった。 さらに, 差動進化において, ニューラルネットワークを用いた場合の個体数の多様性が, ニューラルネットワークの性能向上に重要な役割を担っていることを観察した。

Dynamic optimisation occurs in a variety of real-world problems. To tackle these problems, evolutionary algorithms have been extensively used due to their effectiveness and minimum design effort. However, for dynamic problems, extra mechanisms are required on top of standard evolutionary algorithms. Among them, diversity mechanisms have proven to be competitive in handling dynamism, and recently, the use of neural networks have become popular for this purpose. Considering the complexity of using neural networks in the process compared to simple diversity mechanisms, we investigate whether they are competitive and the possibility of integrating them to improve the results. However, for a fair comparison, we need to consider the same time budget for each algorithm. Thus, instead of the usual number of fitness evaluations as the measure for the available time between changes, we use wall clock timing. The results show the significance of the improvement when integrating the neural network and diversity mechanisms depends on the type and the frequency of changes. Moreover, we observe that for differential evolution, having a proper diversity in population when using neural networks plays a key role in the neural network's ability to improve the results.
翻訳日:2022-10-31 22:27:57 公開日:2020-08-10
# 宇宙におけるロボットアームの自律軌道学習のための模倣学習

Imitation Learning for Autonomous Trajectory Learning of Robot Arms in Space ( http://arxiv.org/abs/2008.04007v1 )

ライセンス: Link先を確認
RB Ashith Shyam, Zhou Hao, Umberto Montanaro, Gerhard Neumann(参考訳) この取り組みは、宇宙ロボットにさらなる自律性を提供するための、現在進行中の取り組みをさらに後押しする。 ここでは、実証または模倣学習によるプログラミングの概念が、小型宇宙船に搭載されたマニピュレータの軌道計画に使用される。 7自由度(DoF)を持つロボットアームは、将来の宇宙ミッションにおける自律性の向上と地上制御による人間の介入の最小化のために、デブリ除去、軌道上サービス、組み立てといった複数のタスクを実行するために構想されている。 微小重力環境のハードウェア実装は非常に高価であるため,物理シミュレーションのモデル予測コントローラ(MPC)を用いて軌道学習のための実演データを生成する。 データはProMP(Probabilistic Movement Primitives)によってコンパクトに符号化される。 このオフライン軌道学習は、より高速な再現を可能にし、スペース環境でのデプロイメント後に計算コストの高い最適化を回避する。 確率分布は, 分布を条件づけることにより, 以前に見つからなかった状況に対する軌道を生成することができる。 ロボット(またはマニピュレータ)アームの動作は、宇宙船ハブ上の反応力を誘導し、その姿勢が変化し、姿勢決定制御システム(ADCS)はシステムからエネルギーを排出する大規模な補正行動を起こす。 冗長なDoFを持つロボットアームを持つことで、同一のスタートから同一のターゲットまでのいくつかの軌道を見つけるのに役立つ。 これにより、ProMP軌道発生器は障害物のない軌道をサンプリングすることができ、また最小の方位障害を持つためADCSの負荷を低減できる。

This work adds on to the on-going efforts to provide more autonomy to space robots. Here the concept of programming by demonstration or imitation learning is used for trajectory planning of manipulators mounted on small spacecraft. For greater autonomy in future space missions and minimal human intervention through ground control, a robot arm having 7-Degrees of Freedom (DoF) is envisaged for carrying out multiple tasks like debris removal, on-orbit servicing and assembly. Since actual hardware implementation of microgravity environment is extremely expensive, the demonstration data for trajectory learning is generated using a model predictive controller (MPC) in a physics based simulator. The data is then encoded compactly by Probabilistic Movement Primitives (ProMPs). This offline trajectory learning allows faster reproductions and also avoids any computationally expensive optimizations after deployment in a space environment. It is shown that the probabilistic distribution can be used to generate trajectories to previously unseen situations by conditioning the distribution. The motion of the robot (or manipulator) arm induces reaction forces on the spacecraft hub and hence its attitude changes prompting the Attitude Determination and Control System (ADCS) to take large corrective action that drains energy out of the system. By having a robot arm with redundant DoF helps in finding several possible trajectories from the same start to the same target. This allows the ProMP trajectory generator to sample out the trajectory which is obstacle free as well as having minimal attitudinal disturbances thereby reducing the load on ADCS.
翻訳日:2022-10-31 22:27:41 公開日:2020-08-10
# lstmニューラルネットワークを用いた協調的交通信号変更時間予測

Predicting Coordinated Actuated Traffic Signal Change Times using LSTM Neural Networks ( http://arxiv.org/abs/2008.08035v1 )

ライセンス: Link先を確認
Seifeldeen Eteifa, Hesham A. Rakha, Hoda Eldardiry(参考訳) 交通信号における車両の加速と減速の操作は、かなりの燃料とエネルギー消費レベルをもたらす。 グリーンライト最適速度アドバイザリシステムは、車両の燃費を改善するために信号切替時間の信頼性の高い推定を必要とする。 これらの推定値を得ることは、各グリーン表示の長さが様々な交通条件に適合するように変化するような信号機では困難である。 本研究では、4段階の短期記憶深層学習に基づく手法について詳述する。この手法は緑から赤への合理的な切り替え時間を推定し、その逆もデータ欠落に対して堅牢である。 4つのステップは、データ収集、データ準備、機械学習モデルチューニング、モデルテストと評価である。 モデルへの入力には、制御ロジック、信号タイミングパラメータ、時刻、検出器からの交通状況、車両のアクチュエーションデータ、歩行者のアクチュエーションデータが含まれていた。 この手法は北バージニアの交差点のデータに基づいて適用され、評価される。 LSTMにおける平均二乗誤差,平均絶対誤差,平均相対誤差を含む各損失関数の比較解析を行い,新しい損失関数を提案する。 その結果,提案する損失関数は全体の絶対誤差値で従来の損失関数を上回っているが,損失関数の選択は予測地平線に依存することがわかった。 特に、提案した損失関数は、非常に短い予測地平線に対する平均相対誤差と、非常に長い予測地平線に対する平均2乗誤差によりより優れる。

Vehicle acceleration and deceleration maneuvers at traffic signals results in significant fuel and energy consumption levels. Green light optimal speed advisory systems require reliable estimates of signal switching times to improve vehicle fuel efficiency. Obtaining these estimates is difficult for actuated signals where the length of each green indication changes to accommodate varying traffic conditions. This study details a four-step Long Short-Term Memory deep learning-based methodology that can be used to provide reasonable switching time estimates from green to red and vice versa while being robust to missing data. The four steps are data gathering, data preparation, machine learning model tuning, and model testing and evaluation. The input to the models included controller logic, signal timing parameters, time of day, traffic state from detectors, vehicle actuation data, and pedestrian actuation data. The methodology is applied and evaluated on data from an intersection in Northern Virginia. A comparative analysis is conducted between different loss functions including the mean squared error, mean absolute error, and mean relative error used in LSTM and a new loss function is proposed. The results show that while the proposed loss function outperforms conventional loss functions in terms of overall absolute error values, the choice of the loss function is dependent on the prediction horizon. In particular, the proposed loss function is outperformed by the mean relative error for very short prediction horizons and mean squared error for very long prediction horizons.
翻訳日:2022-10-31 22:21:06 公開日:2020-08-10
# 感情に基づく特徴量を用いたアラビア語の質問識別

Question Identification in Arabic Language Using Emotional Based Features ( http://arxiv.org/abs/2008.03843v1 )

ライセンス: Link先を確認
Ahmed Ramzy and Ahmed Elazab(参考訳) ソーシャルメディアネットワーク上のコンテンツの増加に伴い、企業やサービスプロバイダは顧客からの質問を識別することに興味を持つようになった。 これらの質問を追跡することは、アラビア語利用者の増加に直接比例するテキストの成長によって非常に困難になるため、手動で追跡することが非常に困難になる。 ソーシャルメディア上で回答を求める質問を自動的に識別し、カテゴリを定義することで、既存の回答を見つけるか、カスタマーサービスの質問に回答する担当者にルーティングすることで、自動的に答えることができます。 これにより、時間と労力を節約し、顧客のフィードバックを高め、ビジネスを改善することができます。 本稿では、アラビア語のテキストを質問に答えるか否かを分類するバイナリ分類器を実装した。 アート機能の現状に感情に基づく機能を追加しました。 実験の結果,これらの感情的特徴により分類精度が向上したことがわかった。

With the growth of content on social media networks, enterprises and services providers have become interested in identifying the questions of their customers. Tracking these questions become very challenging with the growth of text that grows directly proportional to the increase of Arabic users thus making it very difficult to be tracked manually. By automatic identifying the questions seeking answers on the social media networks and defining their category, we can automatically answer them by finding an existing answer or even routing them to those responsible for answering those questions in the customer service. This will result in saving the time and the effort and enhancing the customer feedback and improving the business. In this paper, we have implemented a binary classifier to classify Arabic text to either question seeking answer or not. We have added emotional based features to the state of the art features. Experimental evaluation has done and showed that these emotional features have improved the accuracy of the classifier.
翻訳日:2022-10-31 22:20:40 公開日:2020-08-10
# FireBERT: BERTベースの分類器を強化

FireBERT: Hardening BERT-based classifiers against adversarial attack ( http://arxiv.org/abs/2008.04203v1 )

ライセンス: Link先を確認
Gunnar Mein, Kevin Hartman, Andrew Morris(参考訳) 提案するFireBERTは,TextFoolerスタイルの単語摂動に対して強化された3つの概念的NLP分類器である。 1つのアプローチでは、BERTをトレーニングデータと合成敵検体と照合する。 第2のアプローチでは、単語の置換と埋め込みベクトルの摂動を通じて評価時に合成サンプルを生成する。 多様な評価結果が投票によって合成される。 第3のアプローチは、評価時単語置換を埋め込みベクトルの摂動に置き換える。 MNLI および IMDB Movie Review データセットに対する FireBERT の評価を行った。 また、textfoolerがfirebertを操作する際に新しい敵のサンプルを作成するのに成功しないかどうかをテストした。 本研究では, BERT ベースのモデルに対して, 正規ベンチマークの精度を著しく低下させることなく, 敵攻撃時の精度を向上させることができることを示す。 本研究は, 従来のベンチマーク性能の98%を維持しつつ, 製造済みサンプルの95%を保護し, 合成データ生成装置を併用する手法を提案する。 また, 評価時間の摂動をさらなる研究の有望な方向として示すとともに, TextFooler によるアクティブアタックにおいて, プレメイド敵に対するベンチマーク性能の最大75%, 最大65% (75% orig. / 12% 攻撃基準から) の精度を回復させる。

We present FireBERT, a set of three proof-of-concept NLP classifiers hardened against TextFooler-style word-perturbation by producing diverse alternatives to original samples. In one approach, we co-tune BERT against the training data and synthetic adversarial samples. In a second approach, we generate the synthetic samples at evaluation time through substitution of words and perturbation of embedding vectors. The diversified evaluation results are then combined by voting. A third approach replaces evaluation-time word substitution with perturbation of embedding vectors. We evaluate FireBERT for MNLI and IMDB Movie Review datasets, in the original and on adversarial examples generated by TextFooler. We also test whether TextFooler is less successful in creating new adversarial samples when manipulating FireBERT, compared to working on unhardened classifiers. We show that it is possible to improve the accuracy of BERT-based models in the face of adversarial attacks without significantly reducing the accuracy for regular benchmark samples. We present co-tuning with a synthetic data generator as a highly effective method to protect against 95% of pre-manufactured adversarial samples while maintaining 98% of original benchmark performance. We also demonstrate evaluation-time perturbation as a promising direction for further research, restoring accuracy up to 75% of benchmark performance for pre-made adversarials, and up to 65% (from a baseline of 75% orig. / 12% attack) under active attack by TextFooler.
翻訳日:2022-10-31 22:20:26 公開日:2020-08-10
# 大規模機械学習に関する調査

A Survey on Large-scale Machine Learning ( http://arxiv.org/abs/2008.03911v1 )

ライセンス: Link先を確認
Meng Wang, Weijie Fu, Xiangnan He, Shijie Hao, Xindong Wu(参考訳) 機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行い、テキストマイニング、視覚分類、レコメンダシステムといった現実世界のアプリケーションで広く使われている。 しかしながら、ほとんどの高度な機械学習アプローチは、大規模データを操作する際の膨大な時間コストに苦しむ。 この問題では,ビッグデータからパターンを効率よく学習することを目的とした,大規模機械学習(LML)の必要性が求められている。 本稿では,この領域の今後の発展のための青写真を提供するため,既存のLML手法を体系的に調査する。 まず、スケーラビリティを改善する方法に従って、これらのLMLメソッドを分割します。 1)計算複雑性に関するモデル単純化 2)計算効率の最適化近似、及び 3)計算能力の並列性。 次に,対象とするシナリオに応じて各視点の手法を分類し,本質的な戦略に沿った代表的手法を導入する。 最後に、これらの制限を分析し、潜在的な方向性を議論するとともに、将来的に対処する見込みのあるオープンな課題について論じる。

Machine learning can provide deep insights into data, allowing machines to make high-quality predictions and having been widely used in real-world applications, such as text mining, visual classification, and recommender systems. However, most sophisticated machine learning approaches suffer from huge time costs when operating on large-scale data. This issue calls for the need of {Large-scale Machine Learning} (LML), which aims to learn patterns from big data with comparable performance efficiently. In this paper, we offer a systematic survey on existing LML methods to provide a blueprint for the future developments of this area. We first divide these LML methods according to the ways of improving the scalability: 1) model simplification on computational complexities, 2) optimization approximation on computational efficiency, and 3) computation parallelism on computational capabilities. Then we categorize the methods in each perspective according to their targeted scenarios and introduce representative methods in line with intrinsic strategies. Lastly, we analyze their limitations and discuss potential directions as well as open issues that are promising to address in the future.
翻訳日:2022-10-31 22:19:45 公開日:2020-08-10
# 半教師付き学習のための特徴ランキング

Feature Ranking for Semi-supervised Learning ( http://arxiv.org/abs/2008.03937v1 )

ライセンス: Link先を確認
Matej Petkovi\'c, Sa\v{s}o D\v{z}eroski, Dragi Kocev(参考訳) 分析用に作成されるデータは、高次元性、サンプルの数、サンプルあたりのラベルの量など、さまざまな方向にますます複雑になっています。 これは既存の機械学習手法に様々な課題をもたらしている。 データセットに高次元空間で記述され、すべての例にラベルが提供されているわけではない多数の例を扱う。 例えば、化学物質の毒性を調べる際には、情報豊富な高次元表現で説明できる多くの化合物が存在するが、全ての化合物がその毒性に関する情報を持っているわけではない。 これらの課題に対処するため,我々は,機能ランキングの半教師付き学習を提案する。 特徴ランキングは、分類と回帰の文脈だけでなく、構造化された出力予測(複数ラベル分類、階層的多ラベル分類、多ターゲット回帰)の文脈でも学習される。 我々の知る限りでは、半教師付き構造的出力予測コンテキストにおける特徴ランク付けのタスクを取り扱うのはこれが初めてである。 具体的には,木アンサンブルとReliefのアルゴリズム群に基づく2つのアプローチを提案する。 ランダムフォレストは分類のようなタスクでベスト、レグレッションのようなタスクではエクストラPCTがベスト、ランダムフォレストはすべてのタスクでインジェクションタイムを考慮した最も効率的な方法であり、半教師付きフィーチャーランキングは、異なるタスクからほとんどのデータセットで監督されたタスクよりも優れています。

The data made available for analysis are becoming more and more complex along several directions: high dimensionality, number of examples and the amount of labels per example. This poses a variety of challenges for the existing machine learning methods: coping with dataset with a large number of examples that are described in a high-dimensional space and not all examples have labels provided. For example, when investigating the toxicity of chemical compounds there are a lot of compounds available, that can be described with information rich high-dimensional representations, but not all of the compounds have information on their toxicity. To address these challenges, we propose semi-supervised learning of feature ranking. The feature rankings are learned in the context of classification and regression as well as in the context of structured output prediction (multi-label classification, hierarchical multi-label classification and multi-target regression). To the best of our knowledge, this is the first work that treats the task of feature ranking within the semi-supervised structured output prediction context. More specifically, we propose two approaches that are based on tree ensembles and the Relief family of algorithms. The extensive evaluation across 38 benchmark datasets reveals the following: Random Forests perform the best for the classification-like tasks, while for the regression-like tasks Extra-PCTs perform the best, Random Forests are the most efficient method considering induction times across all tasks, and semi-supervised feature rankings outperform their supervised counterpart across a majority of the datasets from the different tasks.
翻訳日:2022-10-31 22:19:31 公開日:2020-08-10
# 組込み畳み込みLSTMをバックボーンとした有効寿命自動推定フレームワーク

Automatic Remaining Useful Life Estimation Framework with Embedded Convolutional LSTM as the Backbone ( http://arxiv.org/abs/2008.03961v1 )

ライセンス: Link先を確認
Yexu Zhou, Yuting Gao, Yiran Huang, Michael Hefenbrock, Till Riedel, and Michael Beigl(参考訳) 予測維持における重要な課題は、多変量時系列の分析を通じて、残留有益生命(RUL)の予測である。 このスライディングウインドウ法を用いた畳み込みニューラルネットワーク(CNN)と従来のリカレントニューラルネットワーク(RNN)アプローチは、最適化された特徴を学習できることから、この問題に対して印象的な結果をもたらしている。 しかし、シーケンス情報はcnnのアプローチによって部分的にモデル化されるだけである。 従来のRNN(Long Short Term Memories (LSTM))のような平らなメカニズムのため、ウィンドウ内の時間情報は保存されていない。 マルチレベル時間情報を活用するために,CNNモデルとRNNモデルを組み合わせた多くの手法を提案する。 本研究では,組込み畳み込みLSTM (ECLSTM) と呼ばれる新しいLSTM変種を提案する。 ECLSTMでは、異なる1次元畳み込みの群がLSTM構造に埋め込まれる。 これにより、時間情報はウィンドウ内およびウィンドウ内に保存される。 モデルのハイパーパラメータは注意深いチューニングを必要とするため,ネットワークアーキテクチャの効率的な最適化を可能にするハイパーバンドオプティマイザを用いたベイズ最適化に基づく自動予測フレームワークを提案する。 最後に、RUL推定のために広く使われているベンチマークデータセットに対する最先端のアプローチよりも提案したECLSTMアプローチの方が優れていることを示す。

An essential task in predictive maintenance is the prediction of the Remaining Useful Life (RUL) through the analysis of multivariate time series. Using the sliding window method, Convolutional Neural Network (CNN) and conventional Recurrent Neural Network (RNN) approaches have produced impressive results on this matter, due to their ability to learn optimized features. However, sequence information is only partially modeled by CNN approaches. Due to the flatten mechanism in conventional RNNs, like Long Short Term Memories (LSTM), the temporal information within the window is not fully preserved. To exploit the multi-level temporal information, many approaches are proposed which combine CNN and RNN models. In this work, we propose a new LSTM variant called embedded convolutional LSTM (ECLSTM). In ECLSTM a group of different 1D convolutions is embedded into the LSTM structure. Through this, the temporal information is preserved between and within windows. Since the hyper-parameters of models require careful tuning, we also propose an automated prediction framework based on the Bayesian optimization with hyperband optimizer, which allows for efficient optimization of the network architecture. Finally, we show the superiority of our proposed ECLSTM approach over the state-of-the-art approaches on several widely used benchmark data sets for RUL Estimation.
翻訳日:2022-10-31 22:18:41 公開日:2020-08-10
# インテリジェントマトリックス指数

Intelligent Matrix Exponentiation ( http://arxiv.org/abs/2008.03936v1 )

ライセンス: Link先を確認
Thomas Fischbacher and Iulia M. Comsa and Krzysztof Potempa and Moritz Firsching and Luca Versari and Jyrki Alakuijala(参考訳) 単一入力依存行列の指数関数を唯一の非線形性として用いる新しい機械学習アーキテクチャを提案する。 このアーキテクチャの数学的単純さは、その振る舞いの詳細な解析を可能にし、リプシッツ境界による堅牢性を保証する。 その単純さにもかかわらず、単一の行列指数関数層は既に普遍近似特性を提供しており、周期関数や多変量多項式といった入力の基本関数を学ぶことができる。 このアーキテクチャは、CIFAR-10を含むベンチマーク問題における他の汎用アーキテクチャよりもはるかに少ないパラメータで優れている。

We present a novel machine learning architecture that uses the exponential of a single input-dependent matrix as its only nonlinearity. The mathematical simplicity of this architecture allows a detailed analysis of its behaviour, providing robustness guarantees via Lipschitz bounds. Despite its simplicity, a single matrix exponential layer already provides universal approximation properties and can learn fundamental functions of the input, such as periodic functions or multivariate polynomials. This architecture outperforms other general-purpose architectures on benchmark problems, including CIFAR-10, using substantially fewer parameters.
翻訳日:2022-10-31 22:13:07 公開日:2020-08-10
# 説明可能な人工知能による鋼板製造のための故障診断と洞察の収集

Explainable Artificial Intelligence Based Fault Diagnosis and Insight Harvesting for Steel Plates Manufacturing ( http://arxiv.org/abs/2008.04448v1 )

ライセンス: Link先を確認
Athar Kharal(参考訳) 産業4.0の出現により、データサイエンスと説明可能な人工知能(xai)は近年の文献にかなりの波及している。 しかし、XAIへのエントリーしきい値は、コンピュータコーディングと必要な数学的装置の観点からは、本当に高い。 鋼板の故障診断のために, 高精度分類器の開発におけるデータサイエンスプロセスにxaiに基づく洞察を組み込む手法について報告する。 Synthetic Minority Oversampling Technique (SMOTE) と Medoids の概念を用いて,XAI ツール viz の洞察を得る。 Ceteris Peribusプロファイル、Partial Dependence、Breakdownプロファイルが取得されている。 さらに、IF-THENルールの形式に関する洞察は、最適化されたランダムフォレストとアソシエーションルールマイニングから抽出された。 すべての洞察を単一のアンサンブル分類器に組み込むことで、10フォールドのクロス検証パフォーマンスを94%達成した。 本研究は,メドイドとSMOTEの利用に基づく方法論,洞察の収集とモデル開発プロセスへの導入という,3つの主要な貢献を総括する。 第2に、鉄鋼産業の人間的専門家の利益を享受し、第3に高精度な故障診断分類器が開発されている。

With the advent of Industry 4.0, Data Science and Explainable Artificial Intelligence (XAI) has received considerable intrest in recent literature. However, the entry threshold into XAI, in terms of computer coding and the requisite mathematical apparatus, is really high. For fault diagnosis of steel plates, this work reports on a methodology of incorporating XAI based insights into the Data Science process of development of high precision classifier. Using Synthetic Minority Oversampling Technique (SMOTE) and notion of medoids, insights from XAI tools viz. Ceteris Peribus profiles, Partial Dependence and Breakdown profiles have been harvested. Additionally, insights in the form of IF-THEN rules have also been extracted from an optimized Random Forest and Association Rule Mining. Incorporating all the insights into a single ensemble classifier, a 10 fold cross validated performance of 94% has been achieved. In sum total, this work makes three main contributions viz.: methodology based upon utilization of medoids and SMOTE, of gleaning insights and incorporating into model development process. Secondly the insights themselves are contribution, as they benefit the human experts of steel manufacturing industry, and thirdly a high precision fault diagnosis classifier has been developed.
翻訳日:2022-10-31 22:12:10 公開日:2020-08-10
# ロバスト表現学習のための情報ドロップアウト:形状バイアスの視点から

Informative Dropout for Robust Representation Learning: A Shape-bias Perspective ( http://arxiv.org/abs/2008.04254v1 )

ライセンス: Link先を確認
Baifeng Shi, Dinghuai Zhang, Qi Dai, Zhanxing Zhu, Yadong Mu, Jingdong Wang(参考訳) 畳み込みニューラルネットワーク(CNN)は、決定を行う際のグローバルな形状よりも、局所的なテクスチャに依存することが知られている。 最近の研究は、CNNのテクスチャバイアスと、分布シフト、敵の摂動、ランダムな腐敗などに対する頑健さの密接な関係も示している。 本研究では,CNNのテクスチャバイアスを緩和することにより,多種多様なロバスト性の向上を図る。 本研究では,人間の視覚システムからインスピレーションを得て,情報的ドロップアウト(infodrop)と呼ばれる軽量なモデル非依存手法を提案し,解釈性の向上とテクスチャバイアスの低減を図る。 具体的には,画像中の局所的な自己情報に基づいてテクスチャと形状を判別し,ドロップアウトライクなアルゴリズムを適用し,そのモデル出力を局所テクスチャから分離する。 様々なシナリオ(ドメインの一般化、少数ショットの分類、画像の破損、対向的摂動)で強靭性を観察する。 私たちの知る限りでは、この研究は統一されたモデルにおける様々な種類の堅牢性を改善するための最も初期の試みの1つであり、形状バイアスと堅牢性の関係に新たな光を当て、また信頼できる機械学習アルゴリズムに対する新しいアプローチにも焦点を当てている。 コードはhttps://github.com/bfshi/infodropで入手できる。

Convolutional Neural Networks (CNNs) are known to rely more on local texture rather than global shape when making decisions. Recent work also indicates a close relationship between CNN's texture-bias and its robustness against distribution shift, adversarial perturbation, random corruption, etc. In this work, we attempt at improving various kinds of robustness universally by alleviating CNN's texture bias. With inspiration from the human visual system, we propose a light-weight model-agnostic method, namely Informative Dropout (InfoDrop), to improve interpretability and reduce texture bias. Specifically, we discriminate texture from shape based on local self-information in an image, and adopt a Dropout-like algorithm to decorrelate the model output from the local texture. Through extensive experiments, we observe enhanced robustness under various scenarios (domain generalization, few-shot classification, image corruption, and adversarial perturbation). To the best of our knowledge, this work is one of the earliest attempts to improve different kinds of robustness in a unified model, shedding new light on the relationship between shape-bias and robustness, also on new approaches to trustworthy machine learning algorithms. Code is available at https://github.com/bfshi/InfoDrop.
翻訳日:2022-10-31 22:11:22 公開日:2020-08-10
# dqi: ベンチマーク評価のためのガイド

DQI: A Guide to Benchmark Evaluation ( http://arxiv.org/abs/2008.03964v1 )

ライセンス: Link先を確認
Swaroop Mishra, Anjana Arunkumar, Bhavdeep Sachdeva, Chris Bryan and Chitta Baral(参考訳) state of the art' model aはベンチマークbで人間を上回るが、類似のベンチマークc、d、eでは失敗する。 最近の研究で答えが出ています。 しかしながら、BからEまでのベンチマークを解決するAの開発は、将来のベンチマークを解決することを保証していない。 基礎となるタスクを「真に学習する」モデルに向けて進むためには、既存のバイナリとブラックボックスのアプローチとは対照的に、連続するベンチマークの違いを定量化する必要がある。 そこで本研究では,データ品質指標DQIの導入により,ベンチマーク品質の定量化を図っている。

A `state of the art' model A surpasses humans in a benchmark B, but fails on similar benchmarks C, D, and E. What does B have that the other benchmarks do not? Recent research provides the answer: spurious bias. However, developing A to solve benchmarks B through E does not guarantee that it will solve future benchmarks. To progress towards a model that `truly learns' an underlying task, we need to quantify the differences between successive benchmarks, as opposed to existing binary and black-box approaches. We propose a novel approach to solve this underexplored task of quantifying benchmark quality by debuting a data quality metric: DQI.
翻訳日:2022-10-31 22:10:46 公開日:2020-08-10
# 産業スケジューリングに向けた二段階学習モデル

Bilevel Learning Model Towards Industrial Scheduling ( http://arxiv.org/abs/2008.04130v1 )

ライセンス: Link先を確認
Longkang Li, Hui-Ling Zhen, Mingxuan Yuan, Jiawen Lu, XialiangTong, Jia Zeng, Jun Wang, Dirk Schnieders(参考訳) 生産産業では、限られた資源に対してジョブの順序を最適化することを目的とした自動産業スケジューリングが広く求められている。 しかし、既存のスケジューリングシステムは、非効率なソリューションを生成するか、ジョブスケールが増加すると非効率に計算するヒューリスティックなアルゴリズムに大きく依存している。 したがって、効率的で効率的なだけでなく、実際は複雑な制約を満たすことのできる新しい大規模アルゴリズムを開発することが非常に重要である。 本稿では,二段階深層強化学習スケジューラである \textit{bds} を提案し,高レベルが初期大域列の探索を担っているのに対し,下位レベルは部分配列の精密化の活用を目標とし,この2レベルはスライディングウィンドウサンプリング機構によって接続されている。 この実装では、Double Deep Q Network (DDQN) が上位層で使われ、Graph Pointer Network (GPN) は下位層にある。 BDSの収束を理論的に保証した後、各生産ラインで5000ドルまでの雇用数を持つ産業用自動倉庫のシナリオで評価した。 提案したBDSは, 2つの最もよく使われているヒューリスティック, 3つの強力なディープネットワーク, および2段階のベースラインアプローチよりも優れていた。 特に、1時間近くかかる現実界で最もよく使われる欲望に基づくヒューリスティックアルゴリズムと比較すると、我々のbdsは3つの大きなデータセットでそれぞれ27.5\%、28.6\%、22.1\%減少し、計算時間は200秒未満である。

Automatic industrial scheduling, aiming at optimizing the sequence of jobs over limited resources, is widely needed in manufacturing industries. However, existing scheduling systems heavily rely on heuristic algorithms, which either generate ineffective solutions or compute inefficiently when job scale increases. Thus, it is of great importance to develop new large-scale algorithms that are not only efficient and effective, but also capable of satisfying complex constraints in practice. In this paper, we propose a Bilevel Deep reinforcement learning Scheduler, \textit{BDS}, in which the higher level is responsible for exploring an initial global sequence, whereas the lower level is aiming at exploitation for partial sequence refinements, and the two levels are connected by a sliding-window sampling mechanism. In the implementation, a Double Deep Q Network (DDQN) is used in the upper level and Graph Pointer Network (GPN) lies within the lower level. After the theoretical guarantee for the convergence of BDS, we evaluate it in an industrial automatic warehouse scenario, with job number up to $5000$ in each production line. It is shown that our proposed BDS significantly outperforms two most used heuristics, three strong deep networks, and another bilevel baseline approach. In particular, compared with the most used greedy-based heuristic algorithm in real world which takes nearly an hour, our BDS can decrease the makespan by 27.5\%, 28.6\% and 22.1\% for 3 largest datasets respectively, with computational time less than 200 seconds.
翻訳日:2022-10-31 22:10:34 公開日:2020-08-10
# 経験共有と再生を用いた進化的アルゴリズムの知性向上

Improving Intelligence of Evolutionary Algorithms Using Experience Share and Replay ( http://arxiv.org/abs/2009.08936v1 )

ライセンス: Link先を確認
Majdi I. Radaideh, Koroush Shirvan(参考訳) 我々は、強化学習に触発されたハイブリッドアルゴリズムで、Particle Swarm Optimisation(PSO)、Evolution Strategy(ES)、Simulated Annealing(SA)を組み合わせた新しいアプローチPESAを提案する。 PESAは、ソリューションを共有リプレイメモリに格納することで、3つのアルゴリズムをハイブリダイズする。 次に、PESAは3つのアルゴリズム間のデータを、その適合度と優先度に基づいて頻繁な形で再分配するために優先順位付けされたリプレイを適用し、サンプルの多様性とアルゴリズム探索を大幅に向上させる。 さらに、greedy replayは進化の終わりに近いPESAのエクスプロイトを改善するためにSA内で暗黙的に使用される。 12個の高次元連続ベンチマーク関数に対する検証は、PESAによる独立ES、PSO、SAに対して、同様の初期開始点、ハイパーパラメータ、世代数での優れた性能を示す。 PESAは、より優れた探査行動、より高速な収束、グローバルな最適点を見つける能力を示す。 PESAは有望なパフォーマンスを前提に、特に複雑で高価なフィットネス機能を扱うためのマルチプロセスの改善を経て、効率的な最適化オプションを提供することができる。

We propose PESA, a novel approach combining Particle Swarm Optimisation (PSO), Evolution Strategy (ES), and Simulated Annealing (SA) in a hybrid Algorithm, inspired from reinforcement learning. PESA hybridizes the three algorithms by storing their solutions in a shared replay memory. Next, PESA applies prioritized replay to redistribute data between the three algorithms in frequent form based on their fitness and priority values, which significantly enhances sample diversity and algorithm exploration. Additionally, greedy replay is used implicitly within SA to improve PESA exploitation close to the end of evolution. The validation against 12 high-dimensional continuous benchmark functions shows superior performance by PESA against standalone ES, PSO, and SA, under similar initial starting points, hyperparameters, and number of generations. PESA shows much better exploration behaviour, faster convergence, and ability to find the global optima compared to its standalone counterparts. Given the promising performance, PESA can offer an efficient optimisation option, especially after it goes through additional multiprocessing improvements to handle complex and expensive fitness functions.
翻訳日:2022-10-31 22:10:04 公開日:2020-08-10
# 変化すべきことを説明する: テキスト誘導による教師なし画像間翻訳アプローチ

Describe What to Change: A Text-guided Unsupervised Image-to-Image Translation Approach ( http://arxiv.org/abs/2008.04200v1 )

ライセンス: Link先を確認
Yahui Liu, Marco De Nadai, Deng Cai, Huayang Li, Xavier Alameda-Pineda, Nicu Sebe and Bruno Lepri(参考訳) 人間によるテキストによる画像の視覚特性の操作は非常に難しい作業である。 一方、モデルは所望の出力の根本的真実なしに操作を学ばなければならない。 一方、モデルは自然言語の本質的なあいまいさに対処しなければならない。 従来の研究では、ユーザーは所望の画像の全ての特徴を記述するか、豊富な注釈付き画像キャプションデータセットを使用する必要がある。 本研究では「髪の色を黒に変更する」というコマンドのような文を通して、与えられた画像の属性を変更するイメージ・ツー・イメージ翻訳に基づく、新しい教師なしアプローチを提案する。 最先端のアプローチとは対照的に、我々のモデルは人間の注釈付きデータセットや、望まれる画像のすべての属性のテキスト記述を必要としない。 提案モデルでは,画像内容が視覚的属性から切り離され,テキスト記述を用いて画像の修正を学習し,その内容から新たな画像を生成し,属性表現を修正した。 テキストは本質的に曖昧である(ブロンドの髪は金色、氷色、砂色などの異なるブロンドの影を指すこともある)ため、我々の方法は同じ翻訳の複数の確率的なバージョンを生成する。 実験により,提案モデルがCelebAとCUBの2つの大規模公開データセット上で有望な性能を達成することが示された。 われわれのアプローチは、テキストと音声のコマンドと視覚的属性を組み合わせた新しい研究の道を開くものだと信じている。

Manipulating visual attributes of images through human-written text is a very challenging task. On the one hand, models have to learn the manipulation without the ground truth of the desired output. On the other hand, models have to deal with the inherent ambiguity of natural language. Previous research usually requires either the user to describe all the characteristics of the desired image or to use richly-annotated image captioning datasets. In this work, we propose a novel unsupervised approach, based on image-to-image translation, that alters the attributes of a given image through a command-like sentence such as "change the hair color to black". Contrarily to state-of-the-art approaches, our model does not require a human-annotated dataset nor a textual description of all the attributes of the desired image, but only those that have to be modified. Our proposed model disentangles the image content from the visual attributes, and it learns to modify the latter using the textual description, before generating a new image from the content and the modified attribute representation. Because text might be inherently ambiguous (blond hair may refer to different shadows of blond, e.g. golden, icy, sandy), our method generates multiple stochastic versions of the same translation. Experiments show that the proposed model achieves promising performances on two large-scale public datasets: CelebA and CUB. We believe our approach will pave the way to new avenues of research combining textual and speech commands with visual attributes.
翻訳日:2022-10-31 22:09:43 公開日:2020-08-10