このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200813となっている論文です。

PDF登録状況(公開日: 20200813)

TitleAuthorsAbstract論文公表日・翻訳日
# 骨年齢評価のための注意誘導型識別領域局在とラベル分布学習

Attention-Guided Discriminative Region Localization and Label Distribution Learning for Bone Age Assessment ( http://arxiv.org/abs/2006.00202v2 )

ライセンス: Link先を確認
Chao Chen, Zhihong Chen, Xinyu Jin, Lanjuan Li, William Speier, Corey W. Arnold(参考訳) 骨年齢評価(BAA)は、小児期における内分泌および代謝障害の診断に使用できるため、臨床的に重要である。 骨年齢を分類するための既存のディープラーニングベースの手法では、グローバルイメージを入力として使用したり、追加のバウンディングボックスやキーポイントをアノテートすることでローカル情報を利用する。 しかし,グローバルイメージを用いたトレーニングでは,識別的ローカル情報の利用が不十分であり,付加的なアノテーションの提供は高価で主観的だ。 本稿では,BAAの識別領域を付加アノテーションなしで自動的にローカライズするための注意誘導手法を提案する。 具体的には、まず、識別領域の注意図を学習するために分類モデルを訓練し、手指領域、最も識別された領域(手根骨)、次に最も識別された領域(中手骨)を見いだした。 これらの注意図に導かれ、原画像から情報的地域を抽出し、BAAのために異なる地域を集約する。 年齢ラベル空間におけるラベルあいまいさの問題により最適である一般回帰タスクとしてBAAを採用する代わりに,各年齢の異なる手画像間の順序関係を利用して,より堅牢な年齢推定を実現するジョイント年齢分布学習と予測回帰を提案する。 RSNA小児骨年齢データセットの総合的な実験を行った。 トレーニングアノテーションを使わずに既存の半自動深層学習手法と比較して,手作業によるアノテーションを必要とするような競合的な結果が得られる。 コードはhttps: //github.com/chenchao666/Bone-Age-Assessmentで入手できる。

Bone age assessment (BAA) is clinically important as it can be used to diagnose endocrine and metabolic disorders during child development. Existing deep learning based methods for classifying bone age use the global image as input, or exploit local information by annotating extra bounding boxes or key points. However, training with the global image underutilizes discriminative local information, while providing extra annotations is expensive and subjective. In this paper, we propose an attention-guided approach to automatically localize the discriminative regions for BAA without any extra annotations. Specifically, we first train a classification model to learn the attention maps of the discriminative regions, finding the hand region, the most discriminative region (the carpal bones), and the next most discriminative region (the metacarpal bones). Guided by those attention maps, we then crop the informative local regions from the original image and aggregate different regions for BAA. Instead of taking BAA as a general regression task, which is suboptimal due to the label ambiguity problem in the age label space, we propose using joint age distribution learning and expectation regression, which makes use of the ordinal relationship among hand images with different individual ages and leads to more robust age estimation. Extensive experiments are conducted on the RSNA pediatric bone age data set. Using no training annotations, our method achieves competitive results compared with existing state-of-the-art semi-automatic deep learning-based methods that require manual annotation. Code is available at https: //github.com/chenchao666/Bone-Age-Assessment.
翻訳日:2022-11-26 17:58:33 公開日:2020-08-13
# 完全観測結果をもつ多目的設定における治療政策学習

Treatment Policy Learning in Multiobjective Settings with Fully Observed Outcomes ( http://arxiv.org/abs/2006.00927v2 )

ライセンス: Link先を確認
Soorajnath Boominathan, Michael Oberst, Helen Zhou, Sanjat Kanjilal, David Sontag(参考訳) 抗生物質処方薬のようないくつかの医学的意思決定問題において、検査は患者が異なる治療オプションにどう反応するかを正確に示すことができる。 これにより、全ての治療成果を「十分に観察」することができるが、過去のデータでは、これらの結果は初期治療決定の時点でリアルタイムで生成できない。 さらに、これらの設定における治療方針は、治療の効果や有害な副作用など、複数の競合する目的の間でトレードオフする必要があることが多い。 本稿では, 個別化された治療方針を学習するための3つのアプローチを提示し, 比較し, 評価する: まず, 対象間のトレードオフに最適な政策を構築するために, 治療反応の予測モデルを用いる2つの間接的アプローチを検討する。 第二に、結果の中間モデルのないポリシーの集合を構成する直接的なアプローチを考える。 尿路感染症(UTI)患者の医学的データセットを用いて,すべてのアプローチが臨床医よりも厳格に優れた成績を得るための政策を学習し,異なる目的のトレードオフも示している。 我々は,単純症例に対する医師の退院などの他の目標を柔軟に取り入れることを含む,ダイレクトアプローチのさらなる利点を示す。

In several medical decision-making problems, such as antibiotic prescription, laboratory testing can provide precise indications for how a patient will respond to different treatment options. This enables us to "fully observe" all potential treatment outcomes, but while present in historical data, these results are infeasible to produce in real-time at the point of the initial treatment decision. Moreover, treatment policies in these settings often need to trade off between multiple competing objectives, such as effectiveness of treatment and harmful side effects. We present, compare, and evaluate three approaches for learning individualized treatment policies in this setting: First, we consider two indirect approaches, which use predictive models of treatment response to construct policies optimal for different trade-offs between objectives. Second, we consider a direct approach that constructs such a set of policies without intermediate models of outcomes. Using a medical dataset of Urinary Tract Infection (UTI) patients, we show that all approaches learn policies that achieve strictly better performance on all outcomes than clinicians, while also trading off between different objectives. We demonstrate additional benefits of the direct approach, including flexibly incorporating other goals such as deferral to physicians on simple cases.
翻訳日:2022-11-26 06:13:24 公開日:2020-08-13
# 物体鍵部分の自動発見による2段階検出

Condensing Two-stage Detection with Automatic Object Key Part Discovery ( http://arxiv.org/abs/2006.05597v3 )

ライセンス: Link先を確認
Zhe Chen, Jing Zhang, Dacheng Tao(参考訳) 現代の2段階の物体検出器は、高い精度を達成するために検出ヘッドに過大なモデルを必要とする。 この問題に対処するため,2段検出ヘッドのモデルパラメータを,対象キー部分に集中させることで縮合・縮小できることを示す。 この目的のために、まず、ニューラルネットワークが各前景オブジェクトの代表部分を検出するための自動オブジェクトキー部分発見タスクを導入する。 これらの重要な部分から、オブジェクトの外観モデリングを重要部分モデリングプロセスと、検出のためのグローバルなモデリングプロセスに分解する。 キー部分モデリングは発見済みのキー部分の細かな特徴をエンコードし、グローバルモデリングは粗野で総合的なオブジェクト特性をエンコードする。 実際、このような分解は、多くの検出精度を犠牲にすることなく、モデルパラメータを著しく橋渡しすることができる。 一般的なデータセットを用いた実験により,提案手法は,従来の2段階検出ヘッドのモデルパラメータの約50%を回避しつつも,元のモデルパラメータの約96%を放棄した場合に,性能が1.5%低下する程度に抑えられることを示した。 コードは、https://github.com/zhechen/Condensing2stageDetectionでリリースされている。

Modern two-stage object detectors generally require excessively large models for their detection heads to achieve high accuracy. To address this problem, we propose that the model parameters of two-stage detection heads can be condensed and reduced by concentrating on object key parts. To this end, we first introduce an automatic object key part discovery task to make neural networks discover representative sub-parts in each foreground object. With these discovered key parts, we then decompose the object appearance modeling into a key part modeling process and a global modeling process for detection. Key part modeling encodes fine and detailed features from the discovered key parts, and global modeling encodes rough and holistic object characteristics. In practice, such decomposition allows us to significantly abridge model parameters without sacrificing much detection accuracy. Experiments on popular datasets illustrate that our proposed technique consistently maintains original performance while waiving around 50% of the model parameters of common two-stage detection heads, with the performance only deteriorating by 1.5% when waiving around 96% of the original model parameters. Codes are released on: https://github.com/zhechen/Condensing2stageDetection.
翻訳日:2022-11-23 05:40:47 公開日:2020-08-13
# 変分ランダム特徴を用いたカーネルの学習

Learning to Learn Kernels with Variational Random Features ( http://arxiv.org/abs/2006.06707v2 )

ライセンス: Link先を確認
Xiantong Zhen, Haoliang Sun, Yingjun Du, Jun Xu, Yilong Yin, Ling Shao, Cees Snoek(参考訳) 本研究ではメタラーニングフレームワークにランダムなフーリエ機能を持つカーネルを導入し、その強力な数発学習能力を活用する。 本稿では,メタ変動ランダムな特徴量(MetaVRF)をベースラーナーの適応型カーネルの学習に適用し,乱特徴量ベースを潜時変数として扱い,潜時変数モデルで開発する。 メタVRFの最適化は,メタラーニングの枠組みの下にある証拠を導出することにより,変分推論問題として定式化する。 関連タスクからの共有知識を取り入れるために,LSTMアーキテクチャによって構築された後肢のコンテキスト推論を提案する。 LSTMベースの推論ネットワークは、以前のタスクのコンテキスト情報をタスク固有の情報と効果的に統合し、情報的かつ適応的な特徴を生成する。 学習したMetaVRFは、比較的低いスペクトルサンプリングレートで高表現力のカーネルを生成し、新しいタスクへの迅速な適応を可能にする。 さまざまな数ショットのレグレッションと分類タスクの実験結果は、MetaVRFが既存のメタ学習方法よりもはるかに優れた、少なくとも競争力のあるパフォーマンスを提供することを示した。

In this work, we introduce kernels with random Fourier features in the meta-learning framework to leverage their strong few-shot learning ability. We propose meta variational random features (MetaVRF) to learn adaptive kernels for the base-learner, which is developed in a latent variable model by treating the random feature basis as the latent variable. We formulate the optimization of MetaVRF as a variational inference problem by deriving an evidence lower bound under the meta-learning framework. To incorporate shared knowledge from related tasks, we propose a context inference of the posterior, which is established by an LSTM architecture. The LSTM-based inference network can effectively integrate the context information of previous tasks with task-specific information, generating informative and adaptive features. The learned MetaVRF can produce kernels of high representational power with a relatively low spectral sampling rate and also enables fast adaptation to new tasks. Experimental results on a variety of few-shot regression and classification tasks demonstrate that MetaVRF delivers much better, or at least competitive, performance compared to existing meta-learning alternatives.
翻訳日:2022-11-22 12:39:51 公開日:2020-08-13
# 木構造データに対する再帰ニューラルネットワークのテンソル分解

Tensor Decompositions in Recursive Neural Networks for Tree-Structured Data ( http://arxiv.org/abs/2006.10619v2 )

ライセンス: Link先を確認
Daniele Castellana and Davide Bacciu(参考訳) 本稿では,木構造データから構造知識をエンコードする2つの新しい集約関数を提案する。 それらはCanonicalとTensor-Trainの分解を利用して、モデルパラメータの数を制限しながら表現的なコンテキストアグリゲーションを生成する。 最後に、このような集約関数を利用する木に対する2つの新しいニューラル再帰モデルを定義し、木外度が増大する際のモデルの有効性を示す。

The paper introduces two new aggregation functions to encode structural knowledge from tree-structured data. They leverage the Canonical and Tensor-Train decompositions to yield expressive context aggregation while limiting the number of model parameters. Finally, we define two novel neural recursive models for trees leveraging such aggregation functions, and we test them on two tree classification tasks, showing the advantage of proposed models when tree outdegree increases.
翻訳日:2022-11-19 12:46:31 公開日:2020-08-13
# 航空交通通信のための音声認識ベンチマーク

Automatic Speech Recognition Benchmark for Air-Traffic Communications ( http://arxiv.org/abs/2006.10304v2 )

ライセンス: Link先を確認
Juan Zuluaga-Gomez and Petr Motlicek and Qingran Zhan and Karel Vesely and Rudolf Braun(参考訳) 過去10年間の音声認識(asr)の進歩は、航空管制(atc)環境など、音声ベースの自動化の新たな分野を開いた。 現在、音声通信とデータリンク通信は、パイロットとAir-Traffic Controllers (ATCo)の間の唯一の接触方法であり、後者が最も広く使われている。 ATCo環境上のASRシステムは、非英語話者のアクセント、コックピットノイズ、話者依存バイアス、および訓練用の小さなドメイン内ATCデータベースによる複雑さの増大を継承する。 そこで我々は,大気圏からATCo音声データを収集,整理,自動処理するASRベースのプラットフォームを開発するプロジェクトであるCleanSky EC-H2020 ATCO2を紹介する。 本稿では、170時間以上のATCo音声データに基づいて訓練された最先端のASRモデルの探索的ベンチマークを示す。 話者のアクセントによる過度な欠陥は、データ量によって最小化され、ATC環境においてシステムが実現可能であることを示す。 開発した ASR システムは,平均単語誤り率 (WER) を4つのデータベースで7.75% を達成する。 バイトペア符号化によるTDNNFシステムのトレーニングでは、WERの35%の相対的な改善が1つのテストセットで達成されている。

Advances in Automatic Speech Recognition (ASR) over the last decade opened new areas of speech-based automation such as in Air-Traffic Control (ATC) environment. Currently, voice communication and data links communications are the only way of contact between pilots and Air-Traffic Controllers (ATCo), where the former is the most widely used and the latter is a non-spoken method mandatory for oceanic messages and limited for some domestic issues. ASR systems on ATCo environments inherit increasing complexity due to accents from non-English speakers, cockpit noise, speaker-dependent biases, and small in-domain ATC databases for training. Hereby, we introduce CleanSky EC-H2020 ATCO2, a project that aims to develop an ASR-based platform to collect, organize and automatically pre-process ATCo speech-data from air space. This paper conveys an exploratory benchmark of several state-of-the-art ASR models trained on more than 170 hours of ATCo speech-data. We demonstrate that the cross-accent flaws due to speakers' accents are minimized due to the amount of data, making the system feasible for ATC environments. The developed ASR system achieves an averaged word error rate (WER) of 7.75% across four databases. An additional 35% relative improvement in WER is achieved on one test set when training a TDNNF system with byte-pair encoding.
翻訳日:2022-11-19 10:00:46 公開日:2020-08-13
# グラフ畳み込みネットワークにおける次数関連バイアスの調査と緩和

Investigating and Mitigating Degree-Related Biases in Graph Convolutional Networks ( http://arxiv.org/abs/2006.15643v2 )

ライセンス: Link先を確認
Xianfeng Tang, Huaxiu Yao, Yiwei Sun, Yiqi Wang, Jiliang Tang, Charu Aggarwal, Prasenjit Mitra and Suhang Wang(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフ上の半教師付き学習タスクに対して有望な結果を示すため、他のアプローチと比較して好ましいものとなる。 GCNの顕著な成功にもかかわらず、GCNを不十分な監督で訓練することは困難である。 ラベル付きデータに制限がある場合、GCNのパフォーマンスは低次ノードでは不満足になる。 モデルレベルでのgcnの成功と失敗を分析する先行研究もあるが、個々のノードレベルでのgcnのプロファイリングはまだ未検討である。 本稿では,ノード次数分布に関するGCNを解析する。 経験的観察から理論的証明まで、GCNは、高次ノードがほとんどのグラフで不足している場合でも、より高い精度でより大きな次数ノードに偏りがあることを確認する。 さらに、モデルとデータの観点からGCNの次数関連バイアスを緩和する、自己改善型Degree-Specific GCN(SL-DSGC)を開発した。 まず、異なる次数のノードの相違点と類似点の両方をキャプチャする次数固有のGCN層を提案し、同じパラメータを全てのノードと共有することでGCNの内部モデル・アスペクトバイアスを低減させる。 第二に、ベイズニューラルネットワークを用いた未ラベルノード上で不確実性スコアを持つ擬似ラベルを生成する自己教師付き学習アルゴリズムを設計する。 擬似ラベルは、低次ノードのラベル付き隣人に接続する確率を高め、データの観点からGCNのバイアスを低減する。 不確かさスコアは、sl-dsgcの確率勾配降下において動的に重み付き擬似ラベルにさらに活用される。 3つのベンチマークデータセットの実験では、SL-DSGCは最先端の自己学習/自己教師付きGCN法を上回るだけでなく、低次ノードのGCN精度を劇的に向上させる。

Graph Convolutional Networks (GCNs) show promising results for semi-supervised learning tasks on graphs, thus become favorable comparing with other approaches. Despite the remarkable success of GCNs, it is difficult to train GCNs with insufficient supervision. When labeled data are limited, the performance of GCNs becomes unsatisfying for low-degree nodes. While some prior work analyze successes and failures of GCNs on the entire model level, profiling GCNs on individual node level is still underexplored. In this paper, we analyze GCNs in regard to the node degree distribution. From empirical observation to theoretical proof, we confirm that GCNs are biased towards nodes with larger degrees with higher accuracy on them, even if high-degree nodes are underrepresented in most graphs. We further develop a novel Self-Supervised-Learning Degree-Specific GCN (SL-DSGC) that mitigate the degree-related biases of GCNs from model and data aspects. Firstly, we propose a degree-specific GCN layer that captures both discrepancies and similarities of nodes with different degrees, which reduces the inner model-aspect biases of GCNs caused by sharing the same parameters with all nodes. Secondly, we design a self-supervised-learning algorithm that creates pseudo labels with uncertainty scores on unlabeled nodes with a Bayesian neural network. Pseudo labels increase the chance of connecting to labeled neighbors for low-degree nodes, thus reducing the biases of GCNs from the data perspective. Uncertainty scores are further exploited to weight pseudo labels dynamically in the stochastic gradient descent for SL-DSGC. Experiments on three benchmark datasets show SL-DSGC not only outperforms state-of-the-art self-training/self-supervised-learning GCN methods, but also improves GCN accuracy dramatically for low-degree nodes.
翻訳日:2022-11-16 02:16:37 公開日:2020-08-13
# 強化学習アルゴリズムの性能評価

Evaluating the Performance of Reinforcement Learning Algorithms ( http://arxiv.org/abs/2006.16958v2 )

ライセンス: Link先を確認
Scott M. Jordan, Yash Chandak, Daniel Cohen, Mengxue Zhang, Philip S. Thomas(参考訳) 性能評価は強化学習におけるアルゴリズムの進歩の定量化に重要である。 最近の再現性分析では、報告された性能結果はしばしば矛盾し、複製が難しいことが示されている。 本研究では、性能の不整合は、欠陥のある評価指標の使用によるものであると論じる。 報告された結果が一貫したものであることを保証するためのステップとして,単一環境と環境にまたがる信頼性の高い性能測定を行う強化学習アルゴリズムの総合評価手法を提案する。 標準ベンチマークタスクにおいて,強化学習アルゴリズムの幅広いクラスを評価することにより,本手法を実証する。

Performance evaluations are critical for quantifying algorithmic advances in reinforcement learning. Recent reproducibility analyses have shown that reported performance results are often inconsistent and difficult to replicate. In this work, we argue that the inconsistency of performance stems from the use of flawed evaluation metrics. Taking a step towards ensuring that reported results are consistent, we propose a new comprehensive evaluation methodology for reinforcement learning algorithms that produces reliable measurements of performance both on a single environment and when aggregated across environments. We demonstrate this method by evaluating a broad class of reinforcement learning algorithms on standard benchmark tasks.
翻訳日:2022-11-15 04:53:22 公開日:2020-08-13
# ディープニューラルネットワークのための信頼度認識学習

Confidence-Aware Learning for Deep Neural Networks ( http://arxiv.org/abs/2007.01458v3 )

ライセンス: Link先を確認
Jooyoung Moon, Jihyo Kim, Younghak Shin, Sangheum Hwang(参考訳) 幅広いタスクに対するディープニューラルネットワークのパワーにもかかわらず、自信過剰な予測問題は、多くの安全クリティカルなアプリケーションで実用的利用を制限している。 この問題を軽減するために多くの最近の研究が提案されているが、そのほとんどは、トレーニングや推論フェーズにおける追加の計算コストや、信頼性見積を別々に出力するためにカスタマイズされたアーキテクチャを必要とする。 本稿では,信頼度に応じた信頼度推定の精度を高めるために,クラス確率を明示的に定式化する新しい損失関数「正確度ランキング損失」を用いた深層ニューラルネットワークの学習手法を提案する。 提案手法は実装が容易であり,既存アーキテクチャにも適用可能である。 また、従来の深層分類器とほとんど同じ計算コストを持ち、単一の推論によって信頼できる予測を出力する。 分類ベンチマークデータセットの広範な実験結果から,提案手法がネットワークの信頼度推定に有効であることが示された。 また,信頼度推定,分布外検出,アクティブラーニングと密接に関連したタスクに有効であることを示す。

Despite the power of deep neural networks for a wide range of tasks, an overconfident prediction issue has limited their practical use in many safety-critical applications. Many recent works have been proposed to mitigate this issue, but most of them require either additional computational costs in training and/or inference phases or customized architectures to output confidence estimates separately. In this paper, we propose a method of training deep neural networks with a novel loss function, named Correctness Ranking Loss, which regularizes class probabilities explicitly to be better confidence estimates in terms of ordinal ranking according to confidence. The proposed method is easy to implement and can be applied to the existing architectures without any modification. Also, it has almost the same computational costs for training as conventional deep classifiers and outputs reliable predictions by a single inference. Extensive experimental results on classification benchmark datasets indicate that the proposed method helps networks to produce well-ranked confidence estimates. We also demonstrate that it is effective for the tasks closely related to confidence estimation, out-of-distribution detection and active learning.
翻訳日:2022-11-14 04:25:10 公開日:2020-08-13
# 多様な構造と適応的推薦に基づく多目的ニューラルネットワーク探索

Multi-Objective Neural Architecture Search Based on Diverse Structures and Adaptive Recommendation ( http://arxiv.org/abs/2007.02749v2 )

ライセンス: Link先を確認
Chunnan Wang, Hongzhi Wang, Guosheng Feng, Fei Geng(参考訳) 畳み込みニューラルネットワーク(CNN)のためのニューラルネットワーク探索(NAS)の検索空間は巨大である。 探索コストを削減するため、ほとんどのNASアルゴリズムは固定外ネットワークレベル構造を使用し、繰り返し可能なセル構造のみを探索する。 このような固定アーキテクチャは、十分なセルやチャネルを使用するとうまく機能する。 しかし、アーキテクチャがより軽量になると、性能は大幅に低下する。 より軽量なアーキテクチャを得るためには、より柔軟で多様なニューラルアーキテクチャが求められており、より効率的な方法がより広い検索空間向けに設計されるべきである。 そこで本研究では,既存の研究結果と過去の情報を利用して,軽量かつ高精度なアーキテクチャを迅速に見つけるMoARRアルゴリズムを提案する。 検出した高性能セルを用いてネットワークアーキテクチャを構築する。 この方法ではネットワークアーキテクチャの多様性が向上すると同時に,セル構造設計の検索スペースも減少する。 さらに,従来の評価情報を効果的に分析し,高精度かつ少ないパラメータ数でパレート最適アーキテクチャを効率的に探索する,新しい多目的手法を考案した。 実験結果から,CIFAR-10では6時間で1.9%の誤差率と2.3Mパラメータを持つ,パワフルで軽量なモデルを実現することができた。 探索されたアーキテクチャはImageNetに転送可能で、4.9Mパラメータで76.0%のトップ-1精度を実現している。

The search space of neural architecture search (NAS) for convolutional neural network (CNN) is huge. To reduce searching cost, most NAS algorithms use fixed outer network level structure, and search the repeatable cell structure only. Such kind of fixed architecture performs well when enough cells and channels are used. However, when the architecture becomes more lightweight, the performance decreases significantly. To obtain better lightweight architectures, more flexible and diversified neural architectures are in demand, and more efficient methods should be designed for larger search space. Motivated by this, we propose MoARR algorithm, which utilizes the existing research results and historical information to quickly find architectures that are both lightweight and accurate. We use the discovered high-performance cells to construct network architectures. This method increases the network architecture diversity while also reduces the search space of cell structure design. In addition, we designs a novel multi-objective method to effectively analyze the historical evaluation information, so as to efficiently search for the Pareto optimal architectures with high accuracy and small parameter number. Experimental results show that our MoARR can achieve a powerful and lightweight model (with 1.9% error rate and 2.3M parameters) on CIFAR-10 in 6 GPU hours, which is better than the state-of-the-arts. The explored architecture is transferable to ImageNet and achieves 76.0% top-1 accuracy with 4.9M parameters.
翻訳日:2022-11-13 01:50:24 公開日:2020-08-13
# ヒューマンアノテーションによるスプリアス相関に対するロバスト性

Robustness to Spurious Correlations via Human Annotations ( http://arxiv.org/abs/2007.06661v2 )

ライセンス: Link先を確認
Megha Srivastava, Tatsunori Hashimoto, Percy Liang(参考訳) 機械学習システムの信頼性は、特徴とラベルの関連がトレーニングとテスト分布に類似していると批判的に仮定する。 しかし、共同設立者のような測定されていない変数は、この仮定を破る--トレーニング時に特徴とラベルの間の使用頻度の相関は、テスト時に役に立たない、あるいは有害になる可能性がある。 例えば、高肥満は一般的に心臓病の予測であるが、この関係は一般的に肥満率と心臓病の上昇率の低い喫煙者には当てはまらない。 本稿では,人間に共通する因果関係の知識を活用して,素因関係に頑健なモデルを構築する枠組みを提案する。 具体的には、人間のアノテーションを用いて、潜在的な未測定変数(心臓病の低体重患者は喫煙者かもしれない)でトレーニング例を拡大し、その問題を共変量シフト問題に還元する。 次に,未測定変数(UV-DRO)に対する分布性に頑健な新たな最適化手法を導入し,テスト時間シフトによる最悪の損失を制御する。 実測では, 回転によるデジット認識タスクでは5~10%, nypd警察の停止時間解析では1.5~5%の改善がみられた。

The reliability of machine learning systems critically assumes that the associations between features and labels remain similar between training and test distributions. However, unmeasured variables, such as confounders, break this assumption---useful correlations between features and labels at training time can become useless or even harmful at test time. For example, high obesity is generally predictive for heart disease, but this relation may not hold for smokers who generally have lower rates of obesity and higher rates of heart disease. We present a framework for making models robust to spurious correlations by leveraging humans' common sense knowledge of causality. Specifically, we use human annotation to augment each training example with a potential unmeasured variable (i.e. an underweight patient with heart disease may be a smoker), reducing the problem to a covariate shift problem. We then introduce a new distributionally robust optimization objective over unmeasured variables (UV-DRO) to control the worst-case loss over possible test-time shifts. Empirically, we show improvements of 5-10% on a digit recognition task confounded by rotation, and 1.5-5% on the task of analyzing NYPD Police Stops confounded by location.
翻訳日:2022-11-10 23:04:45 公開日:2020-08-13
# PC-PG:確率的政策グラディエント学習のための方向性探索

PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning ( http://arxiv.org/abs/2007.08459v2 )

ライセンス: Link先を確認
Alekh Agarwal, Mikael Henaff, Sham Kakade, Wen Sun(参考訳) 強化学習のための直接的なポリシー勾配法は、モデル自由であり、興味のあるパフォーマンス指標を直接最適化し、リッチなパラメータ化されたポリシーを可能にする、様々な理由で成功している。 彼らの主な欠点は、自然界において局所的であることによって、適切に環境を探索できないことである。 対照的に、モデルベースアプローチやQラーニングは楽観主義による探索を直接処理するが、モデルの誤特定や関数近似を扱う能力は明らかになっていない。 本研究は,学習された政策(政策被覆)のアンサンブルを用いて探索と搾取のトレードオフのバランスをとるための,政策カバー・ポリシー・グラデーション(pc-pg)アルゴリズムを導入する。 PC-PG は、無限次元 RKHS における表型 MDP とより一般的には線形 MDP の両方の多項式サンプル複雑性と実行時間を楽しむ。 さらに、PC-PGは、標準の最悪の場合$\ell_{\infty}$仮定を超えるようなモデルミススペクテーションの下での強い保証も備えており、これは、平均的なケースエラー仮定の下での状態アグリゲーションの近似保証と、分布シフトによる近似エラーが制御されるより一般的な仮定の下での保証を含む。 我々は、報酬のない設定と報酬駆動設定の両方において、様々なドメインにわたる経験的評価で理論を補完する。

Direct policy gradient methods for reinforcement learning are a successful approach for a variety of reasons: they are model free, they directly optimize the performance metric of interest, and they allow for richly parameterized policies. Their primary drawback is that, by being local in nature, they fail to adequately explore the environment. In contrast, while model-based approaches and Q-learning directly handle exploration through the use of optimism, their ability to handle model misspecification and function approximation is far less evident. This work introduces the the Policy Cover-Policy Gradient (PC-PG) algorithm, which provably balances the exploration vs. exploitation tradeoff using an ensemble of learned policies (the policy cover). PC-PG enjoys polynomial sample complexity and run time for both tabular MDPs and, more generally, linear MDPs in an infinite dimensional RKHS. Furthermore, PC-PG also has strong guarantees under model misspecification that go beyond the standard worst case $\ell_{\infty}$ assumptions; this includes approximation guarantees for state aggregation under an average case error assumption, along with guarantees under a more general assumption where the approximation error under distribution shift is controlled. We complement the theory with empirical evaluation across a variety of domains in both reward-free and reward-driven settings.
翻訳日:2022-11-09 21:46:11 公開日:2020-08-13
# MINI-Net:ビデオハイライト検出のための複数インスタンスランキングネットワーク

MINI-Net: Multiple Instance Ranking Network for Video Highlight Detection ( http://arxiv.org/abs/2007.09833v2 )

ライセンス: Link先を確認
Fa-Ting Hong, Xuanteng Huang, Wei-Hong Li, and Wei-Shi Zheng(参考訳) ビデオイベントラベルからトレーニングビデオにおいてより魅力的なセグメントを,手作業によるハイライトセグメントの注釈付けを伴わずに検出するための,弱い教師付きビデオハイライト検出問題に対処する。 ハイライトセグメントの局所化を手動で回避する一方で、日々のビデオではスキーやサーフィンなど、複数のイベントタイプを持つハイライトセグメントを含む可能性があるため、弱い教師付きモデリングは困難です。 本研究では,複数インスタンスランキングネットワーク(mini-net)学習として,特定のイベントに対する弱教師付きビデオハイライト検出モデルを提案する。 我々は,各映像をセグメントの袋として捉え,提案するミニネットは,特定のイベントのハイライトセグメントを含むポジティブバッグに対して,無関係な負の袋よりも高いハイライトスコアを強制することを学ぶ。 特に、最大ランキングの損失を形成し、最も可能性の高い正のセグメントインスタンスと最も難しい負のセグメントインスタンスとの信頼性の高い相対比較を得る。 この最大ランクの喪失により、MINI-Netは全セグメント情報を効果的に活用し、ビデオ内の特定のイベントのハイライトセグメントをローカライズする、より明確なビデオ特徴表現を取得する。 3つの難解な公開ベンチマークの広範な実験結果は、この問題に対する複数のインスタンスランキングアプローチの有効性を明確に示しています。

We address the weakly supervised video highlight detection problem for learning to detect segments that are more attractive in training videos given their video event label but without expensive supervision of manually annotating highlight segments. While manually averting localizing highlight segments, weakly supervised modeling is challenging, as a video in our daily life could contain highlight segments with multiple event types, e.g., skiing and surfing. In this work, we propose casting weakly supervised video highlight detection modeling for a given specific event as a multiple instance ranking network (MINI-Net) learning. We consider each video as a bag of segments, and therefore, the proposed MINI-Net learns to enforce a higher highlight score for a positive bag that contains highlight segments of a specific event than those for negative bags that are irrelevant. In particular, we form a max-max ranking loss to acquire a reliable relative comparison between the most likely positive segment instance and the hardest negative segment instance. With this max-max ranking loss, our MINI-Net effectively leverages all segment information to acquire a more distinct video feature representation for localizing the highlight segments of a specific event in a video. The extensive experimental results on three challenging public benchmarks clearly validate the efficacy of our multiple instance ranking approach for solving the problem.
翻訳日:2022-11-08 13:22:23 公開日:2020-08-13
# 精度Fairnessパラドックスに向けて--視覚障害者のための逆例に基づくデータ拡張

Towards Accuracy-Fairness Paradox: Adversarial Example-based Data Augmentation for Visual Debiasing ( http://arxiv.org/abs/2007.13632v2 )

ライセンス: Link先を確認
Yi Zhang, Jitao Sang(参考訳) 機械学習の公平性は、ターゲットタスクに対処する際に、特定の保護された、または機密性の高いグループに対するバイアスを懸念する。 本稿では,画像分類タスクの文脈におけるバイアス問題について検討する。 顔属性認識のデータ分析は,(1)不均衡なトレーニングデータ分布からのモデルバイアスの寄与,(2)データ分布のバランスをとる上での逆例の可能性を示す。 そこで我々は,視覚障害者のためのトレーニングデータを増やすために,敵対的な例を採用する動機がある。 具体的には、対向一般化とクロスタスク転送可能性を確保するために、目標タスク分類器訓練、偏差タスク分類器訓練、対向サンプル生成の2つの操作を提案する。 生成されたadversarial例では、オンライン形式でバイアス変数の分散をバランスさせることで、対象タスクトレーニングデータセットを補完する。 シミュレーションおよび実世界のデバイアス実験の結果は、モデル精度と公平性を同時に改善する上で、提案手法の有効性を示す。 少数ショット学習に関する予備実験は、トレーニングデータの不足を補う代替ソリューションとして、敵対的な攻撃に基づく疑似サンプル生成の可能性を示す。

Machine learning fairness concerns about the biases towards certain protected or sensitive group of people when addressing the target tasks. This paper studies the debiasing problem in the context of image classification tasks. Our data analysis on facial attribute recognition demonstrates (1) the attribution of model bias from imbalanced training data distribution and (2) the potential of adversarial examples in balancing data distribution. We are thus motivated to employ adversarial example to augment the training data for visual debiasing. Specifically, to ensure the adversarial generalization as well as cross-task transferability, we propose to couple the operations of target task classifier training, bias task classifier training, and adversarial example generation. The generated adversarial examples supplement the target task training dataset via balancing the distribution over bias variables in an online fashion. Results on simulated and real-world debiasing experiments demonstrate the effectiveness of the proposed solution in simultaneously improving model accuracy and fairness. Preliminary experiment on few-shot learning further shows the potential of adversarial attack-based pseudo sample generation as alternative solution to make up for the training data lackage.
翻訳日:2022-11-06 08:03:41 公開日:2020-08-13
# ビデオ圧縮のためのニューラルネットワークフィルタの適応性

Efficient Adaptation of Neural Network Filter for Video Compression ( http://arxiv.org/abs/2007.14267v2 )

ライセンス: Link先を確認
Yat-Hong Lam, Alireza Zare, Francesco Cricri, Jani Lainema, Miska Hannuksela(参考訳) 本稿では,映像符号化パイプラインの処理後アーティファクト除去ステップとして適用するニューラルネットワークフィルタの効率的な微調整手法を提案する。 エンコーダ側で微調整を行い、符号化されている特定のコンテンツにニューラルネットワークを適応させる。 PSNRのゲインを最大化し、ビットレートオーバーヘッドを最小限にするために、畳み込み層のバイアスのみを微調整することを提案する。 提案手法は従来の微調整手法よりもはるかに高速に収束し,実用化に適している。 既存のビデオコーデックによって生成されたビデオビットストリームに重み更新を組み込むことができる。 提案手法は、7つのテストシーケンス上のVVC標準コーデックと比較して,平均BDレートが最大9.7%向上することを示す。

We present an efficient finetuning methodology for neural-network filters which are applied as a postprocessing artifact-removal step in video coding pipelines. The fine-tuning is performed at encoder side to adapt the neural network to the specific content that is being encoded. In order to maximize the PSNR gain and minimize the bitrate overhead, we propose to finetune only the convolutional layers' biases. The proposed method achieves convergence much faster than conventional finetuning approaches, making it suitable for practical applications. The weight-update can be included into the video bitstream generated by the existing video codecs. We show that our method achieves up to 9.7% average BD-rate gain when compared to the state-of-art Versatile Video Coding (VVC) standard codec on 7 test sequences.
翻訳日:2022-11-06 02:00:20 公開日:2020-08-13
# スパースポイントボクセル畳み込みによる効率的な3次元アーキテクチャの探索

Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution ( http://arxiv.org/abs/2007.16100v2 )

ライセンス: Link先を確認
Haotian Tang, Zhijian Liu, Shengyu Zhao, Yujun Lin, Ji Lin, Hanrui Wang, Song Han(参考訳) 自動運転車は安全運転のために3dシーンを効率的に正確に理解する必要がある。 ハードウェアリソースが限られているため、既存の3D認識モデルは、低解像度のボキセル化とアグレッシブなダウンサンプリングのために、小さなインスタンス(例えば歩行者やサイクリスト)を認識できない。 この目的のために,バニラ・スパース・コンボリューションと高分解能な点ベース分岐を備えた軽量3次元モジュールであるスパース・ポイント・ボクセル・コンボリューション(SPVConv)を提案する。 オーバーヘッドが無視できるので、このポイントベースのブランチは、大きな屋外シーンからでも詳細を保存できる。 効率的な3dモデルのスペクトルを探るために、まずspvconvに基づく柔軟なアーキテクチャ設計空間を定義し、3dニューラルネットワーク探索(3d-nas)により、この多様な設計空間上で最適なネットワークアーキテクチャを効率的かつ効果的に探索する。 実験の結果、spvnasモデルは高速かつ正確であることが証明され、minkowskinetを3.3%上回り、semantickitti leaderboardで1位となった。 また、minkowskinetの8倍の計算削減と3倍の高速化を実現している。 最後に,本手法を3次元オブジェクト検出に転送し,KITTIの1段検出ベースラインに対して一貫した改善を実現する。

Self-driving cars need to understand 3D scenes efficiently and accurately in order to drive safely. Given the limited hardware resources, existing 3D perception models are not able to recognize small instances (e.g., pedestrians, cyclists) very well due to the low-resolution voxelization and aggressive downsampling. To this end, we propose Sparse Point-Voxel Convolution (SPVConv), a lightweight 3D module that equips the vanilla Sparse Convolution with the high-resolution point-based branch. With negligible overhead, this point-based branch is able to preserve the fine details even from large outdoor scenes. To explore the spectrum of efficient 3D models, we first define a flexible architecture design space based on SPVConv, and we then present 3D Neural Architecture Search (3D-NAS) to search the optimal network architecture over this diverse design space efficiently and effectively. Experimental results validate that the resulting SPVNAS model is fast and accurate: it outperforms the state-of-the-art MinkowskiNet by 3.3%, ranking 1st on the competitive SemanticKITTI leaderboard. It also achieves 8x computation reduction and 3x measured speedup over MinkowskiNet with higher accuracy. Finally, we transfer our method to 3D object detection, and it achieves consistent improvements over the one-stage detection baseline on KITTI.
翻訳日:2022-11-04 06:37:26 公開日:2020-08-13
# アンカーフリー物体検出におけるラベルノイズ低減

Reducing Label Noise in Anchor-Free Object Detection ( http://arxiv.org/abs/2008.01167v2 )

ライセンス: Link先を確認
Nermin Samet, Samet Hicsonmez, Emre Akbas(参考訳) 現行のアンカーフリー物体検出器は、既定の中心領域内に空間的に落下する全ての特徴を正と評価している。 このアプローチはトレーニング中にラベルノイズを引き起こす。なぜなら、これらのポジティブなラベル付き特徴のいくつかは背景やオクルダーオブジェクトにあるかもしれないし、単に識別的な特徴ではないからだ。 本稿では,アンカーフリー検出器のラベルノイズを低減するための新しいラベル戦略を提案する。 個々の特徴から生じる予測を1つの予測にまとめます。 これにより、モデルはトレーニング中に非差別的特徴の貢献を減らすことができる。 そこで我々は,学習中にこのラベリング戦略を,推論中に同様の予測プーリング法を適用すべく,新しい一段階アンカーフリー物体検出器,ppdetを開発した。 COCOデータセットでは、PSDetはアンカーフリーのトップダウン検出器の中で最高のパフォーマンスを達成し、他の最先端の手法と同等に動作する。 また、小さなオブジェクト検出({AP}_{S}$ $31.4$)において、主要な1段階および2段階のメソッド全てを上回ります。 コードはhttps://github.com/nerminsamet/ppdetで入手できる。

Current anchor-free object detectors label all the features that spatially fall inside a predefined central region of a ground-truth box as positive. This approach causes label noise during training, since some of these positively labeled features may be on the background or an occluder object, or they are simply not discriminative features. In this paper, we propose a new labeling strategy aimed to reduce the label noise in anchor-free detectors. We sum-pool predictions stemming from individual features into a single prediction. This allows the model to reduce the contributions of non-discriminatory features during training. We develop a new one-stage, anchor-free object detector, PPDet, to employ this labeling strategy during training and a similar prediction pooling method during inference. On the COCO dataset, PPDet achieves the best performance among anchor-free top-down detectors and performs on-par with the other state-of-the-art methods. It also outperforms all major one-stage and two-stage methods in small object detection (${AP}_{S}$ $31.4$). Code is available at https://github.com/nerminsamet/ppdet
翻訳日:2022-11-03 06:50:44 公開日:2020-08-13
# 視覚物体追跡のための目標条件セグメンテーション法の検討

An Exploration of Target-Conditioned Segmentation Methods for Visual Object Trackers ( http://arxiv.org/abs/2008.00992v2 )

ライセンス: Link先を確認
Matteo Dunnhofer, Niki Martinel, Christian Micheloni(参考訳) ビジュアルオブジェクトトラッキングは、ビデオ中のターゲットオブジェクトの状態を予測する問題である。 一般に、バウンディングボックスは状態を表すために使われており、そのような表現でターゲットを特定できる効率的な因果アルゴリズムを作成するために、コミュニティによって多大な労力が費やされている。 本稿では,対象物をより正確に定義するために,フィールドがバイナリセグメンテーションマスクに向かって移動しているため,コンピュータビジョンコミュニティで利用可能なターゲット条件セグメンテーション手法を広範囲に検討し,任意のバウンディングボックストラッカーをセグメンテーショントラッカーに変換することを提案する。 分析の結果,準リアルタイム動作をしながら,最近提案しているセグメンテーショントラッカと競合することができることがわかった。

Visual object tracking is the problem of predicting a target object's state in a video. Generally, bounding-boxes have been used to represent states, and a surge of effort has been spent by the community to produce efficient causal algorithms capable of locating targets with such representations. As the field is moving towards binary segmentation masks to define objects more precisely, in this paper we propose to extensively explore target-conditioned segmentation methods available in the computer vision community, in order to transform any bounding-box tracker into a segmentation tracker. Our analysis shows that such methods allow trackers to compete with recently proposed segmentation trackers, while performing quasi real-time.
翻訳日:2022-11-03 06:41:02 公開日:2020-08-13
# 問合せ型モーメントローカライゼーションのための共用クロスグラフとセルフモードグラフアテンションネットワーク

Jointly Cross- and Self-Modal Graph Attention Network for Query-Based Moment Localization ( http://arxiv.org/abs/2008.01403v2 )

ライセンス: Link先を確認
Daizong Liu, Xiaoye Qu, Xiao-Yang Liu, Jianfeng Dong, Pan Zhou, Zichuan Xu(参考訳) クエリベースのモーメントローカライゼーションは、与えられた文クエリに従って、未トリミングビデオ内の最適なマッチングセグメントをローカライズする新しいタスクである。 このローカライゼーションタスクでは、視覚情報や言語情報を徹底的に掘り下げるためにもっと注意を払うべきである。 この目的のために,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ・アテンション・ネットワーク(CSMGAN)を提案する。 具体的には、クロスモーダル相互作用グラフ(cmg)と自己モーダル関係グラフ(smg)とからなるジョイントグラフであって、フレームとワードをノードとして表現し、クロスモーダルノード対と自己モーダルノード対の関係を注意機構により記述する。 パラメトリックメッセージパッシングを通じて、CMGはビデオと文間で関連するインスタンスを強調し、SMGはフレーム(単語)に関連する各モダリティ内のペアワイズ関係をモデル化する。 このようなジョイントグラフの複数の層で、CSMGANは2つのモード間の高次相互作用を効果的に捉え、より正確な局所化を可能にします。 さらに,クエリの文脈的詳細をより深く理解するために,クエリ理解を強化する階層型文エンコーダを開発した。 4つの公開データセットに対する大規模な実験により提案したモデルの有効性が示され、GCSMANは最先端技術よりも優れていた。

Query-based moment localization is a new task that localizes the best matched segment in an untrimmed video according to a given sentence query. In this localization task, one should pay more attention to thoroughly mine visual and linguistic information. To this end, we propose a novel Cross- and Self-Modal Graph Attention Network (CSMGAN) that recasts this task as a process of iterative messages passing over a joint graph. Specifically, the joint graph consists of Cross-Modal interaction Graph (CMG) and Self-Modal relation Graph (SMG), where frames and words are represented as nodes, and the relations between cross- and self-modal node pairs are described by an attention mechanism. Through parametric message passing, CMG highlights relevant instances across video and sentence, and then SMG models the pairwise relation inside each modality for frame (word) correlating. With multiple layers of such a joint graph, our CSMGAN is able to effectively capture high-order interactions between two modalities, thus enabling a further precise localization. Besides, to better comprehend the contextual details in the query, we develop a hierarchical sentence encoder to enhance the query understanding. Extensive experiments on four public datasets demonstrate the effectiveness of our proposed model, and GCSMAN significantly outperforms the state-of-the-arts.
翻訳日:2022-11-03 00:59:53 公開日:2020-08-13
# Redditにおける言語バイアスの発見と分類

Discovering and Categorising Language Biases in Reddit ( http://arxiv.org/abs/2008.02754v2 )

ライセンス: Link先を確認
Xavier Ferrer, Tom van Nuenen, Jose M. Such, Natalia Criado(参考訳) 議論プラットフォームRedditにおける言語バイアスの発見と分類にワード埋め込みを用いたデータ駆動型アプローチを提案する。 孤立したユーザーコミュニティのためのスペースとして、Redditのようなプラットフォームは、人種差別や性差別などの差別の問題にますます結びついている。 したがって、これらのグループの言語を監視する必要がある。 大規模テキストデータセットにおける言語バイアスを追跡する最も有望なaiアプローチの1つは、テキストを高次元の高密度ベクトルに変換し、単語間の意味関係をキャプチャする単語埋め込みである。 しかし、これまでの研究では、性別が特定の仕事と多かれ少なかれ関連しているかどうかなど、研究するための潜在的なバイアスのセットを事前に定義する必要がある。 これにより、これらのアプローチは、小さな語彙やスラングを含むredditにあるような、より小さくコミュニティ中心のデータセットや、コミュニティに特有なバイアスを扱うのに不適しています。 本稿では,reddit上のオンライン談話コミュニティの語彙にエンコードされた言語バイアスを自動的に検出するデータ駆動アプローチを提案する。 私たちのアプローチでは、保護された属性はデータに含まれる評価的単語と関連付けられ、セマンティック分析システムによって分類されます。 Google Newsデータセットのバイアスと過去の文献のバイアスを比較することで,本手法の有効性を検証する。 そして、さまざまなRedditコミュニティでジェンダーバイアス、宗教バイアス、民族バイアスを発見しました。 我々は、このデータ駆動バイアス発見手法の潜在的なアプリケーションシナリオと制限について論じる。

We present a data-driven approach using word embeddings to discover and categorise language biases on the discussion platform Reddit. As spaces for isolated user communities, platforms such as Reddit are increasingly connected to issues of racism, sexism and other forms of discrimination. Hence, there is a need to monitor the language of these groups. One of the most promising AI approaches to trace linguistic biases in large textual datasets involves word embeddings, which transform text into high-dimensional dense vectors and capture semantic relations between words. Yet, previous studies require predefined sets of potential biases to study, e.g., whether gender is more or less associated with particular types of jobs. This makes these approaches unfit to deal with smaller and community-centric datasets such as those on Reddit, which contain smaller vocabularies and slang, as well as biases that may be particular to that community. This paper proposes a data-driven approach to automatically discover language biases encoded in the vocabulary of online discourse communities on Reddit. In our approach, protected attributes are connected to evaluative words found in the data, which are then categorised through a semantic analysis system. We verify the effectiveness of our method by comparing the biases we discover in the Google News dataset with those found in previous literature. We then successfully discover gender bias, religion bias, and ethnic bias in different Reddit communities. We conclude by discussing potential application scenarios and limitations of this data-driven bias discovery method.
翻訳日:2022-11-02 06:26:14 公開日:2020-08-13
# セルオートマトンによる画像分割

Image segmentation via Cellular Automata ( http://arxiv.org/abs/2008.04965v2 )

ライセンス: Link先を確認
Mark Sandler, Andrey Zhmoginov, Liangcheng Luo, Alexander Mordvintsev, Ettore Randazzo, Blaise Ag\'uera y Arcas(参考訳) 本稿では,実世界のセグメンテーション問題を解決するためのセルオートマトン構築手法を提案する。 我々は高解像度画像を分割できるセルオートマトンを設計・訓練する。 我々は、ピクセルグリッドに密集したコロニーを考え、すべてのセルは、現在の状態、色、および3ドル3ドルの近所の状態を使用するランダムな更新によって管理される。 可能なルールの空間は、小さなニューラルネットワークによって定義される。 更新規則は、セルの大きなランダムなサブセットと並行して繰り返し適用され、収束後、標準的な勾配降下法を用いて最適な更新規則を学ぶためにバックプロパゲーションされたセグメンテーションマスクを生成するために使用される。 これらのモデルは軌道長の制限だけで効率的に学習でき、局所的な情報交換のみを用いて、情報を整理してグローバルに一貫したセグメンテーション結果を生成する優れた能力を示す。 私たちの最小のオートマトンでは、複雑なセグメンテーションタスクを解決するために1万以下のパラメータを使用します。

In this paper, we propose a new approach for building cellular automata to solve real-world segmentation problems. We design and train a cellular automaton that can successfully segment high-resolution images. We consider a colony that densely inhabits the pixel grid, and all cells are governed by a randomized update that uses the current state, the color, and the state of the $3\times 3$ neighborhood. The space of possible rules is defined by a small neural network. The update rule is applied repeatedly in parallel to a large random subset of cells and after convergence is used to produce segmentation masks that are then back-propagated to learn the optimal update rules using standard gradient descent methods. We demonstrate that such models can be learned efficiently with only limited trajectory length and that they show remarkable ability to organize the information to produce a globally consistent segmentation result, using only local information exchange. From a practical perspective, our approach allows us to build very efficient models -- our smallest automaton uses less than 10,000 parameters to solve complex segmentation tasks.
翻訳日:2022-10-31 10:55:31 公開日:2020-08-13
# コントラスト造影全身CTにおける骨分画の検討

Bone Segmentation in Contrast Enhanced Whole-Body Computed Tomography ( http://arxiv.org/abs/2008.05223v2 )

ライセンス: Link先を確認
Patrick Leydon, Martin O'Connell, Derek Greene and Kathleen M Curran(参考訳) 骨領域のセグメンテーションにより、CT画像における診断、疾患の特徴化、治療モニタリングが強化される。 低用量全身プロトコルは画質を低下させ、ピクセル強度の違いに依存するとコントラスト強化領域を分離することが難しくなるため、コントラスト強化全身スキャンでは精度の高い自動セグメンテーションが特に難しい。 本稿では, トレーニングデータのウィンドウ化とシグモイド活性化閾値選択による低用量造影ctスキャンの骨骨髄領域の分割を成功させるために, 新たな前処理技術を用いたu-netアーキテクチャについて概説する。 提案手法は,2つの内部データセットと1つの外部テストデータセットに対して平均Dice係数0.979,0.965,0.934を達成した。 骨とコントラスト染料の識別には, 適切な前処理が重要であること, 限られたデータで優れた結果が得られることを実証した。

Segmentation of bone regions allows for enhanced diagnostics, disease characterisation and treatment monitoring in CT imaging. In contrast enhanced whole-body scans accurate automatic segmentation is particularly difficult as low dose whole body protocols reduce image quality and make contrast enhanced regions more difficult to separate when relying on differences in pixel intensities. This paper outlines a U-net architecture with novel preprocessing techniques, based on the windowing of training data and the modification of sigmoid activation threshold selection to successfully segment bone-bone marrow regions from low dose contrast enhanced whole-body CT scans. The proposed method achieved mean Dice coefficients of 0.979, 0.965, and 0.934 on two internal datasets and one external test dataset respectively. We have demonstrated that appropriate preprocessing is important for differentiating between bone and contrast dye, and that excellent results can be achieved with limited data.
翻訳日:2022-10-31 06:15:23 公開日:2020-08-13
# 拡大変換を用いた最大重み独立集合問題に対するデータ削減の促進

Boosting Data Reduction for the Maximum Weight Independent Set Problem Using Increasing Transformations ( http://arxiv.org/abs/2008.05180v2 )

ライセンス: Link先を確認
Alexander Gellner, Sebastian Lamm, Christian Schulz, Darren Strash, Bogd\'an Zav\'alnij(参考訳) 頂点重み付きグラフが与えられたとき、最大重み独立集合問題は、その重みの和が最大となるような頂点のペアワイズ非隣接集合を求める。 branch-and-reduceパラダイムは、事実上の最適性問題を解くためのデファクトスタンダードアプローチである。 このパラダイムでは、データ削減ルールを適用し、問題のサイズを小さくする。 これらのデータ還元規則は、新しい(より小さい)入力に対する最適解が与えられた場合、元の入力に対する最適解を迅速に構築できる。 この問題に対して,新たな一般化データ削減および変換ルールを導入する。 私たちの仕事の重要な特徴は、いくつかの変換ルールが入力のサイズを増加させることです。 驚くべきことに、これらのいわゆる増進変換は問題を単純化し、アルゴリズムを通してさらに小さな既約グラフが得られるように縮小空間を開放する。 実験では, 1つのインスタンスを除くすべての非既約グラフを計算し, 従来よりも多くのインスタンスを最適に解き, 最高の最先端解法よりも最大2桁高速に処理し, ヒューリスティック解法であるDynWVCやHILSよりも高品質な解を求める。 トランスフォーメーションの増加は、現時点では事前処理に十分な効率しかありませんが、これは新しいブランチ・アンド・トランスフォーメーションパラダイムへの重要な最初のステップであると考えています。

Given a vertex-weighted graph, the maximum weight independent set problem asks for a pair-wise non-adjacent set of vertices such that the sum of their weights is maximum. The branch-and-reduce paradigm is the de facto standard approach to solve the problem to optimality in practice. In this paradigm, data reduction rules are applied to decrease the problem size. These data reduction rules ensure that given an optimum solution on the new (smaller) input, one can quickly construct an optimum solution on the original input. We introduce new generalized data reduction and transformation rules for the problem. A key feature of our work is that some transformation rules can increase the size of the input. Surprisingly, these so-called increasing transformations can simplify the problem and also open up the reduction space to yield even smaller irreducible graphs later throughout the algorithm. In experiments, our algorithm computes significantly smaller irreducible graphs on all except one instance, solves more instances to optimality than previously possible, is up to two orders of magnitude faster than the best state-of-the-art solver, and finds higher-quality solutions than heuristic solvers DynWVC and HILS on many instances. While the increasing transformations are only efficient enough for preprocessing at this time, we see this as a critical initial step towards a new branch-and-transform paradigm.
翻訳日:2022-10-31 05:58:01 公開日:2020-08-13
# 意味的形状変換による似顔絵の学習

Learning to Caricature via Semantic Shape Transform ( http://arxiv.org/abs/2008.05090v2 )

ライセンス: Link先を確認
Wenqing Chu, Wei-Chih Hung, Yi-Hsuan Tsai, Yu-Ting Chang, Yijun Li, Deng Cai, Ming-Hsuan Yang(参考訳) 似顔絵は、人の顔の特徴を抽象化したり誇張したりするために作られた芸術的な絵である。 視覚的な似顔絵のレンダリングは、専門的なスキルを必要とする難しい作業であり、そのような図面を自動的に生成する手法を設計することが大きな関心事である。 大規模な形状変化に対処するために,多様かつ妥当な形状の誇張を生成する意味的形状変換に基づくアルゴリズムを提案する。 具体的には,画素間の意味対応を予測し,入力画像に対して画像ウォーピングを行い,密な形状変換を実現する。 提案手法は,顔の構造を維持しつつ,視覚的に心地よい形状の誇張を表現できることを示す。 さらに,このモデルでは,ユーザがセマンティックマップを通じて形状を操作できる。 提案手法の有効性を,最先端手法と比較した大規模写真キャリキュア・ベンチマーク・データセットに示す。

Caricature is an artistic drawing created to abstract or exaggerate facial features of a person. Rendering visually pleasing caricatures is a difficult task that requires professional skills, and thus it is of great interest to design a method to automatically generate such drawings. To deal with large shape changes, we propose an algorithm based on a semantic shape transform to produce diverse and plausible shape exaggerations. Specifically, we predict pixel-wise semantic correspondences and perform image warping on the input photo to achieve dense shape transformation. We show that the proposed framework is able to render visually pleasing shape exaggerations while maintaining their facial structures. In addition, our model allows users to manipulate the shape via the semantic map. We demonstrate the effectiveness of our approach on a large photograph-caricature benchmark dataset with comparisons to the state-of-the-art methods.
翻訳日:2022-10-31 05:23:23 公開日:2020-08-13
# 音声強調のための広義音声情報の統合

Incorporating Broad Phonetic Information for Speech Enhancement ( http://arxiv.org/abs/2008.07618v1 )

ライセンス: Link先を確認
Yen-Ju Lu, Chien-Feng Liao, Xugang Lu, Jeih-weih Hung and Yu Tsao(参考訳) 雑音下では、音声内容を知ることで、聞き手は背景雑音成分をより効果的に抑制し、純粋な音声信号を取得することができる。 先行研究により, 音声強調(SE)システムに音声情報を組み込むことにより, より優れた発音性能を実現することが確認された。 音声情報を得るために,音声波形と音素ラベルを用いて学習する音素に基づく音響モデルを作成する。 通常の雑音条件ではよく機能するが、非常にノイズの多い条件では、認識された音素は誤りであり、SE過程を誤る可能性がある。 本研究は,この制限を克服するために,広帯域音声学級(BPC)情報をSEプロセスに組み込むことを提案する。 我々は,bpc構築のための3つの基準について検討した。2つの知識に基づく基準,すなわち,調音の場所と方法,データ駆動型基準について検討した。 さらに、BPCの認識精度は音素よりもはるかに高く、非常にノイズの多い条件下でSE処理を導くためのより正確な音声情報を提供する。 実験結果から,提案したBPC情報フレームワークを用いたSEは,TIMITデータセットにおける音声品質の両面から,ベースラインシステムとモノラル情報を用いたSEシステムに対して顕著な性能向上を達成できることが示された。

In noisy conditions, knowing speech contents facilitates listeners to more effectively suppress background noise components and to retrieve pure speech signals. Previous studies have also confirmed the benefits of incorporating phonetic information in a speech enhancement (SE) system to achieve better denoising performance. To obtain the phonetic information, we usually prepare a phoneme-based acoustic model, which is trained using speech waveforms and phoneme labels. Despite performing well in normal noisy conditions, when operating in very noisy conditions, however, the recognized phonemes may be erroneous and thus misguide the SE process. To overcome the limitation, this study proposes to incorporate the broad phonetic class (BPC) information into the SE process. We have investigated three criteria to build the BPC, including two knowledge-based criteria: place and manner of articulatory and one data-driven criterion. Moreover, the recognition accuracies of BPCs are much higher than that of phonemes, thus providing more accurate phonetic information to guide the SE process under very noisy conditions. Experimental results demonstrate that the proposed SE with the BPC information framework can achieve notable performance improvements over the baseline system and an SE system using monophonic information in terms of both speech quality intelligibility on the TIMIT dataset.
翻訳日:2022-10-31 00:10:02 公開日:2020-08-13
# ドライ電極を用いた脳波信号を用いた音声認識

Speech Recognition using EEG signals recorded using dry electrodes ( http://arxiv.org/abs/2008.07621v1 )

ライセンス: Link先を確認
Gautam Krishna, Co Tran, Mason Carnahan, Morgan M Hagood, Ahmed H Tewfik(参考訳) 本稿では,3つの母音と1つの単語からなる限定英語語彙上で,ドライ電極を用いた脳波(EEG)信号を用いた音声認識を深層学習モデルを用いて実証する。 2つの英語母音からなるサブセット語彙で79.07パーセントの検査精度を示す。 本研究は,ドライ電極を用いた脳波を用いた音声認識の実現可能性を示すものである。

In this paper, we demonstrate speech recognition using electroencephalography (EEG) signals obtained using dry electrodes on a limited English vocabulary consisting of three vowels and one word using a deep learning model. We demonstrate a test accuracy of 79.07 percent on a subset vocabulary consisting of two English vowels. Our results demonstrate the feasibility of using EEG signals recorded using dry electrodes for performing the task of speech recognition.
翻訳日:2022-10-31 00:09:38 公開日:2020-08-13
# 物理的人間-ロボット相互作用におけるロボット行動の温暖化と予測能力

Warmth and Competence to Predict Human Preference of Robot Behavior in Physical Human-Robot Interaction ( http://arxiv.org/abs/2008.05799v1 )

ライセンス: Link先を確認
Marcus M. Scheunemann and Raymond H. Cuijpers and Christoph Salge(参考訳) ヒトとロボットの相互作用(HRI)における人間の知覚と嗜好を理解するための確固とした方法論は、現実世界のHRIの設計に不可欠である。 社会的認知は、次元の暖かさと能力は、他の人間を特徴づける中心的かつ普遍的な次元であると仮定する。 The Robotic Social Attribute Scale (RoSAS)は、HRIに適した寸法の項目を提案し、視覚的観察研究で検証した。 本稿では,完全自律型ロボットを用いた身体的HRI研究において,これらの次元のユーザビリティを示すことによって,検証を補完する。 本研究は, ゴッドスピード次元の異性, 擬人化, 相似性, 知覚的知性, 知覚的安全性を比較検討した。 我々は、すべてのRoSASおよびGodspeed次元の中で、ウォームスとコンピテンスが、異なるロボット行動間の人間の嗜好の最も重要な予測因子であることを発見した。 この予測力は、明確なコンセンサス選択や条件間の有意な因子差が存在しない場合でも維持される。

A solid methodology to understand human perception and preferences in human-robot interaction (HRI) is crucial in designing real-world HRI. Social cognition posits that the dimensions Warmth and Competence are central and universal dimensions characterizing other humans. The Robotic Social Attribute Scale (RoSAS) proposes items for those dimensions suitable for HRI and validated them in a visual observation study. In this paper we complement the validation by showing the usability of these dimensions in a behavior based, physical HRI study with a fully autonomous robot. We compare the findings with the popular Godspeed dimensions Animacy, Anthropomorphism, Likeability, Perceived Intelligence and Perceived Safety. We found that Warmth and Competence, among all RoSAS and Godspeed dimensions, are the most important predictors for human preferences between different robot behaviors. This predictive power holds even when there is no clear consensus preference or significant factor difference between conditions.
翻訳日:2022-10-31 00:08:58 公開日:2020-08-13
# lac : インサイダー脅威検出のためのコミュニティによるlstmオートエンコーダ

LAC : LSTM AUTOENCODER with Community for Insider Threat Detection ( http://arxiv.org/abs/2008.05646v1 )

ライセンス: Link先を確認
Sudipta Paul and Subhankar Mishra(参考訳) あらゆる組織、機関、産業の従業員は、コンピュータネットワークでかなりの時間を費やし、そこで彼らはネットワークトランザクションという形で独自の活動のルーチンを開発する。 インサイダー脅威検出は、データ漏洩や秘密共有という形で組織に危害を与える可能性のあるルーチンや異常の偏差を特定することを含む。 自動化されていない場合、このプロセスは、退屈で時間のかかるタスクである人間の振る舞いをモデリングするための機能工学を伴う。 人間の行動の異常は、最終脅威分類のために人間アナリストに転送される。 LSTM AUTOENCODERを用いた教師なし深層ニューラルネットワークモデルを開発した。 異常ルーチンからかなりの損失を出して脅威シナリオを予測する。 コミュニティの従業員は、コミュニティ外の従業員よりも、ルーチンを整合させる傾向にあり、コミュニティ内の活動のインターリーブシーケンス(LAC)に基づいて訓練された、AUTOENCoDER, LSTM AUTOENCoDERのバリエーションを探求する動機となる。 CERT v6.2データセットのモデルを評価し、4000名の従業員を対象に、正常および異常なルーチンの損失の分析を行う。 本研究の目的は、従業員の異常を検知し、周囲の従業員が時間とともに従業員のルーチンにどう影響しているかを探ることである。

The employees of any organization, institute, or industry, spend a significant amount of time on a computer network, where they develop their own routine of activities in the form of network transactions over a time period. Insider threat detection involves identifying deviations in the routines or anomalies which may cause harm to the organization in the form of data leaks and secrets sharing. If not automated, this process involves feature engineering for modeling human behavior which is a tedious and time-consuming task. Anomalies in human behavior are forwarded to a human analyst for final threat classification. We developed an unsupervised deep neural network model using LSTM AUTOENCODER which learns to mimic the behavior of individual employees from their day-wise time-stamped sequence of activities. It predicts the threat scenario via significant loss from anomalous routine. Employees in a community tend to align their routine with each other rather than the employees outside their communities, this motivates us to explore a variation of the AUTOENCODER, LSTM AUTOENCODER- trained on the interleaved sequences of activities in the Community (LAC). We evaluate the model on the CERT v6.2 dataset and perform analysis on the loss for normal and anomalous routine across 4000 employees. The aim of our paper is to detect the anomalous employees as well as to explore how the surrounding employees are affecting that employees' routine over time.
翻訳日:2022-10-31 00:08:36 公開日:2020-08-13
# MLNET:音声活動検出のための適応型多重受容野注意ニューラルネットワーク

MLNET: An Adaptive Multiple Receptive-field Attention Neural Network for Voice Activity Detection ( http://arxiv.org/abs/2008.05650v1 )

ライセンス: Link先を確認
Zhenpeng Zheng, Jianzong Wang, Ning Cheng, Jian Luo, Jing Xiao(参考訳) 音声活動検出(VAD)は音声と非音声を区別し,その性能は音声ベースのサービスにとって重要である。 近年、ディープニューラルネットワーク(DNN)ベースのVADは、従来の信号処理方法よりも優れたパフォーマンスを実現している。 既存のDNNベースのモデルは、常に固定ウィンドウを手作りして、VADの性能を改善するためにコンテキスト音声情報を利用する。 しかし、コンテキスト音声情報の固定窓は、様々な難解な雑音環境を処理できず、vadタスクに重要な音声情報を強調する。 この問題を解決するために,MLNETと呼ばれる適応型多重受容野アテンションニューラルネットワークを提案し,VADタスクを終了させた。 mlnetはマルチブランチを利用して複数の文脈音声情報を抽出し、最終的な分類のためにコンテキストの最も重要な部分を重み付ける効果的な注意ブロックを調査した。 実世界のシナリオでの実験では、提案されたMLNETベースのモデルが他のベースラインよりも優れていた。

Voice activity detection (VAD) makes a distinction between speech and non-speech and its performance is of crucial importance for speech based services. Recently, deep neural network (DNN)-based VADs have achieved better performance than conventional signal processing methods. The existed DNNbased models always handcrafted a fixed window to make use of the contextual speech information to improve the performance of VAD. However, the fixed window of contextual speech information can't handle various unpredicatable noise environments and highlight the critical speech information to VAD task. In order to solve this problem, this paper proposed an adaptive multiple receptive-field attention neural network, called MLNET, to finish VAD task. The MLNET leveraged multi-branches to extract multiple contextual speech information and investigated an effective attention block to weight the most crucial parts of the context for final classification. Experiments in real-world scenarios demonstrated that the proposed MLNET-based model outperformed other baselines.
翻訳日:2022-10-31 00:08:13 公開日:2020-08-13
# 反復サロゲートモデル最適化(ISMO):深層ニューラルネットワークを用いたPDE制約最適化のための能動的学習アルゴリズム

Iterative Surrogate Model Optimization (ISMO): An active learning algorithm for PDE constrained optimization with deep neural networks ( http://arxiv.org/abs/2008.05730v1 )

ライセンス: Link先を確認
Kjetil O. Lye, Siddhartha Mishra, Deep Ray and Praveen Chandrasekhar(参考訳) 本稿では,PDE制約最適化問題の堅牢かつ効率的な数値近似法として,ISMO(Iterative surrogate model Optimization)と呼ばれる新しい能動学習アルゴリズムを提案する。 このアルゴリズムはディープニューラルネットワークに基づいており、その重要な特徴は、ディープニューラルネットワークと基礎となる標準最適化アルゴリズムの間のフィードバックループを通じて、トレーニングデータの反復的な選択である。 適切な仮説の下では、結果の最適化者は、トレーニングサンプルの増加に関して指数関数的に高速(および指数関数的に減衰する分散を伴う)に収束することを示す。 PDEの最適制御、パラメータ同定、形状最適化の数値的な例は、提案した理論を検証し、ISMOが標準のディープニューラルネットワークに基づく代理最適化アルゴリズムを著しく上回っていることを示す。

We present a novel active learning algorithm, termed as iterative surrogate model optimization (ISMO), for robust and efficient numerical approximation of PDE constrained optimization problems. This algorithm is based on deep neural networks and its key feature is the iterative selection of training data through a feedback loop between deep neural networks and any underlying standard optimization algorithm. Under suitable hypotheses, we show that the resulting optimizers converge exponentially fast (and with exponentially decaying variance), with respect to increasing number of training samples. Numerical examples for optimal control, parameter identification and shape optimization problems for PDEs are provided to validate the proposed theory and to illustrate that ISMO significantly outperforms a standard deep neural network based surrogate optimization algorithm.
翻訳日:2022-10-31 00:07:58 公開日:2020-08-13
# 話し方変換を用いた音声合成における音声明瞭度向上

Enhancing Speech Intelligibility in Text-To-Speech Synthesis using Speaking Style Conversion ( http://arxiv.org/abs/2008.05809v1 )

ライセンス: Link先を確認
Dipjyoti Paul, Muhammed PV Shifas, Yannis Pantazis, Yannis Stylianou(参考訳) デジタルアシスタントの普及により、tts(text-to-speech)合成システムは現代のモバイルデバイスにとって必須の機能となっている。 したがって、雑音の存在下で高度に理解可能な音声を生成できるシステムを構築することが望ましい。 過去の研究では、tts合成のスタイル変換が研究されているが、分解された合成品質はしばしば理解度を低下させる。 そこで我々は,Tacotron と WaveRNN を用いた TTS 合成を用いたトランスファー学習手法を提案する。 提案する音声システムは2つの修正戦略を生かしている。 (a)ロンバルド語型データ及び b) スペクトル整形およびダイナミックレンジ圧縮(ssdrc)は、信号エネルギーを時間周波数領域に再分配することにより、高い知性の向上をもたらすことが示されている。 この拡張をLombard-SSDRC TTSシステムと呼ぶ。 siib-gauss (intelligibility in bits) によって定量化される知性向上は, 提案するランゴバルド・ssdrc ttsシステムは, 発声形雑音 (ssn) の110%から130%, 競合話者雑音 (csn) の47%から140%の相対的改善を示すことを示す。 主観評価の結果,Lombard-SSDRC TTSはSSNが455%,CSNが104%向上し,音声認識能力が向上した。

The increased adoption of digital assistants makes text-to-speech (TTS) synthesis systems an indispensable feature of modern mobile devices. It is hence desirable to build a system capable of generating highly intelligible speech in the presence of noise. Past studies have investigated style conversion in TTS synthesis, yet degraded synthesized quality often leads to worse intelligibility. To overcome such limitations, we proposed a novel transfer learning approach using Tacotron and WaveRNN based TTS synthesis. The proposed speech system exploits two modification strategies: (a) Lombard speaking style data and (b) Spectral Shaping and Dynamic Range Compression (SSDRC) which has been shown to provide high intelligibility gains by redistributing the signal energy on the time-frequency domain. We refer to this extension as Lombard-SSDRC TTS system. Intelligibility enhancement as quantified by the Intelligibility in Bits (SIIB-Gauss) measure shows that the proposed Lombard-SSDRC TTS system shows significant relative improvement between 110% and 130% in speech-shaped noise (SSN), and 47% to 140% in competing-speaker noise (CSN) against the state-of-the-art TTS approach. Additional subjective evaluation shows that Lombard-SSDRC TTS successfully increases the speech intelligibility with relative improvement of 455% for SSN and 104% for CSN in median keyword correction rate compared to the baseline TTS method.
翻訳日:2022-10-31 00:07:07 公開日:2020-08-13
# 有限次元ガウス過程近似を用いたメタ学習mpc

Meta Learning MPC using Finite-Dimensional Gaussian Process Approximations ( http://arxiv.org/abs/2008.05984v1 )

ライセンス: Link先を確認
Elena Arcari, Andrea Carron, Melanie N. Zeilinger(参考訳) 近年、データの可用性が劇的に向上し、モデルベースの制御手法が学習技術を利用してシステム記述を改善し、性能を制御するようになった。 制御における学習方法の実用的適用を妨げている2つの重要な要因は、高い計算複雑性と認識できない条件への一般化能力である。 メタラーニングは、関連するタスクの有限セットにわたる効率的な学習を可能にする強力なツールである。 本稿では,先行するタスクからのデータを活用するシステムモデルを学習し,クローズドループ動作時の現在のタスクへの高速微調整を可能にすることで,適応モデル予測制御のためのメタラーニング手法を提案する。 力学はガウス過程の回帰を通じてモデル化され、カルフネン-Lo{\`e}ve展開に基づいて、カーネル固有関数の有限線型結合として概ね再構成することができる。 一連のタスクで収集されたデータを用いて、固有関数ハイパーパラメータは、対数確率の変動境界を最大化することにより、メタトレーニングフェーズで最適化される。 メタテストの間、固有関数は固定され、線形パラメータのみがベイズ線形回帰を通じてオンライン適応的な新しい未確認タスクに適応し、単純で効率的な推論スキームを提供する。 道路条件に適応したミニチュアレースカーによる自律走行をシミュレーションした。

Data availability has dramatically increased in recent years, driving model-based control methods to exploit learning techniques for improving the system description, and thus control performance. Two key factors that hinder the practical applicability of learning methods in control are their high computational complexity and limited generalization capabilities to unseen conditions. Meta-learning is a powerful tool that enables efficient learning across a finite set of related tasks, easing adaptation to new unseen tasks. This paper makes use of a meta-learning approach for adaptive model predictive control, by learning a system model that leverages data from previous related tasks, while enabling fast fine-tuning to the current task during closed-loop operation. The dynamics is modeled via Gaussian process regression and, building on the Karhunen-Lo{\`e}ve expansion, can be approximately reformulated as a finite linear combination of kernel eigenfunctions. Using data collected over a set of tasks, the eigenfunction hyperparameters are optimized in a meta-training phase by maximizing a variational bound for the log-marginal likelihood. During meta-testing, the eigenfunctions are fixed, so that only the linear parameters are adapted to the new unseen task in an online adaptive fashion via Bayesian linear regression, providing a simple and efficient inference scheme. Simulation results are provided for autonomous racing with miniature race cars adapting to unseen road conditions.
翻訳日:2022-10-31 00:06:19 公開日:2020-08-13
# 新規CMAQ-CNNハイブリッドモデルによる14日間の表層・オゾン濃度予測

A Novel CMAQ-CNN Hybrid Model to Forecast Hourly Surface-Ozone Concentrations Fourteen Days in Advance ( http://arxiv.org/abs/2008.05987v1 )

ライセンス: Link先を確認
Alqamah Sayeed, Yunsoo Choi, Ebrahim Eslami, Jia Jung, Yannic Lops, Ahmed Khan Salman(参考訳) 大気の質と関連する健康上の懸念に関する問題は、表面オゾン濃度を予測するための数値モデリングと機械学習を組み合わせた、正確で高速で効率的なハイブリッドモデリングシステムを開発した。 現在利用可能な空気質予測のための数値モデリングシステム(例えば、cmaq、ncep emp)は、24時間から48時間前を予測できる。 本研究では,畳み込みニューラルネットワーク(cnn)モデルに基づくモデリングシステムを開発した。高速であるだけでなく,255駅で1時間程度の解像度で2週間の期間をカバーする。 CNNモデルは、気象調査・予報モデル(気象・化学インタフェースプロセッサによって処理される)から予測された気象モデル、CMAQ(Community Multi-scale Air Quality Model)から予測された大気質、および過去の24時間にわたる計測可能な大気質パラメータの入力として利用し、次の14日間の表面オゾン濃度を予測する。 このモデルは、第1日の合意指数と第14日の合意指数とで平均 0.91 の精度を達成し、一方、cmaq からの1日前の合意指数は 0.77 である。 本研究では,時間的オゾン濃度の時空間予測をより正確に行うため,数値モデリング(微視的空間分解能)と深部ニューラルネットワーク(計算速度と精度)の最良の特徴を融合させることを目的とする。 本研究の主な目的は, オゾン濃度の時間変動の予測であるが, その他の汚染物質にも適用可能である。

Issues regarding air quality and related health concerns have prompted this study, which develops an accurate and computationally fast, efficient hybrid modeling system that combines numerical modeling and machine learning for forecasting concentrations of surface ozone. Currently available numerical modeling systems for air quality predictions (e.g., CMAQ, NCEP EMP) can forecast 24 to 48 hours in advance. In this study, we develop a modeling system based on a convolutional neural network (CNN) model that is not only fast but covers a temporal period of two weeks with a resolution as small as a single hour for 255 stations. The CNN model uses forecasted meteorology from the Weather Research and Forecasting model (processed by the Meteorology-Chemistry Interface Processor), forecasted air quality from the Community Multi-scale Air Quality Model (CMAQ), and previous 24-hour concentrations of various measurable air quality parameters as inputs and predicts the following 14-day hourly surface ozone concentrations. The model achieves an average accuracy of 0.91 in terms of the index of agreement for the first day and 0.78 for the fourteenth day while the average index of agreement for one day ahead prediction from the CMAQ is 0.77. Through this study, we intend to amalgamate the best features of numerical modeling (i.e., fine spatial resolution) and a deep neural network (i.e., computation speed and accuracy) to achieve more accurate spatio-temporal predictions of hourly ozone concentrations. Although the primary purpose of this study is the prediction of hourly ozone concentrations, the system can be extended to various other pollutants.
翻訳日:2022-10-31 00:05:53 公開日:2020-08-13
# 時間平衡の自動解析:マルチプレイヤーゲームの検証と合成

Automated Temporal Equilibrium Analysis: Verification and Synthesis of Multi-Player Games ( http://arxiv.org/abs/2008.05638v1 )

ライセンス: Link先を確認
Julian Gutierrez and Muhammad Najib and Giuseppe Perelli and Michael Wooldridge(参考訳) マルチエージェントシステムの文脈において、合理的な検証問題は、その構成エージェントが個々の目的を追求する際に合理的かつ戦略的に振る舞うと仮定した場合、システム内でどの時間論理特性が保持されるかを確認することである。 通常、これらの目的は、関連するエージェントが満足したいと思う時間論理式として表現される。 残念ながら、合理的な検証は計算が複雑であり、実用的な実装を得るためには特別な技術が必要である。 本稿では,そのような手法を提案する。 この手法は、合理性検証問題をパリティゲームの集合の解に還元することに依存している。 本手法はEVE(Equilibrium Verification Environment)システムで実装されている。 eveシステムは、単純なreactive modules language(srml)を用いて表現される並行/マルチエージェントシステムのモデルとして入力され、エージェントの目標を線形時相論理(ltl)式として表現し、システムの平衡挙動に関する主張とともに、ltl式としても表現される。 EVEは、LTLクレームがナッシュ均衡戦略を選択するエージェントによって生じる可能性のあるシステムのいくつかの(またはすべての)計算を保持できるかどうかを確認することができ、また、システムがナッシュ均衡を持つかどうかをチェックでき、マルチプレイヤーゲームにおけるプレイヤーの個別戦略を合成することができる。 基本的枠組みを提示した後、新しい手法を説明し、その正確性を証明する。 次に、EVEシステムにおける実装について述べ、EVEが有理検証をサポートする他の既存のツールと比較して好適に動作することを示す実験結果を示す。

In the context of multi-agent systems, the rational verification problem is concerned with checking which temporal logic properties will hold in a system when its constituent agents are assumed to behave rationally and strategically in pursuit of individual objectives. Typically, those objectives are expressed as temporal logic formulae which the relevant agent desires to see satisfied. Unfortunately, rational verification is computationally complex, and requires specialised techniques in order to obtain practically useable implementations. In this paper, we present such a technique. This technique relies on a reduction of the rational verification problem to the solution of a collection of parity games. Our approach has been implemented in the Equilibrium Verification Environment (EVE) system. The EVE system takes as input a model of a concurrent/multi-agent system represented using the Simple Reactive Modules Language (SRML), where agent goals are represented as Linear Temporal Logic (LTL) formulae, together with a claim about the equilibrium behaviour of the system, also expressed as an LTL formula. EVE can then check whether the LTL claim holds on some (or every) computation of the system that could arise through agents choosing Nash equilibrium strategies; it can also check whether a system has a Nash equilibrium, and synthesise individual strategies for players in the multi-player game. After presenting our basic framework, we describe our new technique and prove its correctness. We then describe our implementation in the EVE system, and present experimental results which show that EVE performs favourably in comparison to other existing tools that support rational verification.
翻訳日:2022-10-30 23:59:13 公開日:2020-08-13
# 質的・量的対象を組み合わせたゲームのための平衡

Equilibria for Games with Combined Qualitative and Quantitative Objectives ( http://arxiv.org/abs/2008.05643v1 )

ライセンス: Link先を確認
Julian Gutierrez and Aniello Murano and Giuseppe Perelli and Sasha Rubin and Thomas Steeples and Michael Wooldridge(参考訳) 本研究の全体的な目的は,マルチエージェントシステムの平衡特性を推論する手法を開発することである。 我々はマルチエージェントシステムを同時ゲームとしてモデル化し、各プレイヤーが個人的好みを追求するために独立して戦略的に行動することが想定されるプロセスである。 本稿では、これらのゲームについて有限メモリ戦略の文脈で検討し、プレイヤーの嗜好が質的かつ定量的な目的によって定義されると仮定する:まずプレイヤーはその質的目的(線形時間論理の式として表される)を満たすことを好み、次にコストを最小化する(平均支払い関数で表される)。 我々の主な結果は、プレイヤーの偏差が無限メモリ戦略として実装されたとしても、そのようなゲームにおける厳密なエプシロン・ナッシュ均衡の存在を決定することは2ExpTime完全(したがって決定可能である)であるということである。

The overall aim of our research is to develop techniques to reason about the equilibrium properties of multi-agent systems. We model multi-agent systems as concurrent games, in which each player is a process that is assumed to act independently and strategically in pursuit of personal preferences. In this article, we study these games in the context of finite-memory strategies, and we assume players' preferences are defined by a qualitative and a quantitative objective, which are related by a lexicographic order: a player first prefers to satisfy its qualitative objective (given as a formula of Linear Temporal Logic) and then prefers to minimise costs (given by a mean-payoff function). Our main result is that deciding the existence of a strict epsilon Nash equilibrium in such games is 2ExpTime-complete (and hence decidable), even if players' deviations are implemented as infinite-memory strategies.
翻訳日:2022-10-30 23:58:47 公開日:2020-08-13
# 有限トレース上のLDLゴールを用いたマルチプレイヤーゲーム

Multi-Player Games with LDL Goals over Finite Traces ( http://arxiv.org/abs/2008.05647v1 )

ライセンス: Link先を確認
Julian Gutierrez and Giuseppe Perelli and Michael Wooldridge(参考訳) 有限トレース上の線形動的論理 LDLf は並列およびマルチエージェントシステムの挙動を推論するための強力な論理である。 本稿では, LDLfに基づく論理式を用いて, 目的・目的を表現したマルチプレイヤーゲームにおいて, 平衡性の特徴付けと検証を行う手法について検討する。 この研究は、プレイヤーが論理的に簡潔に表現されたゴールを持つマルチエージェントシステムの論理ベースのゲームモデルであるブールゲーム(Boolean game)の一般化に基づいている。 LDLfのゴールは考慮されているので、我々が研究する設定では -- リアクティブモジュールゲームと有限トレース上のゴールを持つ反復ブーリアンゲーム - プレイヤーのゴールは有限だが任意に大きいトレースで達成しながら正規プロパティとして定義することができる。 特に、交代オートマトンを用いて、(純粋な戦略ナッシュ)平衡のキャラクタリゼーションと検証に対するオートマトン理論的アプローチを調査し、LDLf目標を持つマルチプレイヤーゲームにおけるナッシュ平衡のセットが正規であることを示し、関連するオートマトン構成の複雑性結果を提供する。

Linear Dynamic Logic on finite traces LDLf is a powerful logic for reasoning about the behaviour of concurrent and multi-agent systems. In this paper, we investigate techniques for both the characterisation and verification of equilibria in multi-player games with goals/objectives expressed using logics based on LDLf. This study builds upon a generalisation of Boolean games, a logic-based game model of multi-agent systems where players have goals succinctly represented in a logical way. Because LDLf goals are considered, in the settings we study -- Reactive Modules games and iterated Boolean games with goals over finite traces -- players' goals can be defined to be regular properties while achieved in a finite, but arbitrarily large, trace. In particular, using alternating automata, the paper investigates automata-theoretic approaches to the characterisation and verification of (pure strategy Nash) equilibria, shows that the set of Nash equilibria in multi-player games with LDLf objectives is regular, and provides complexity results for the associated automata constructions.
翻訳日:2022-10-30 23:58:30 公開日:2020-08-13
# 傾斜木の自動ブースティングのための情報基準

An information criterion for automatic gradient tree boosting ( http://arxiv.org/abs/2008.05926v1 )

ライセンス: Link先を確認
Berent {\AA}nund Str{\o}mnes Lunde, Tore Selland Kleppe, Hans Julius Skaug(参考訳) 分類木と回帰木の複雑さと勾配木ブースティングの樹数を学習するための情報理論的アプローチを提案する。 グリードリーフ分割手順の最適化(テスト損失マイナストレーニング損失)は、一般化エラーに基づく情報基準が形成されるコックス・インガーソル・ロス過程の最大値であることが示される。 提案手法により,クロスバリデーションに基づくハイパーパラメータチューニングを使わずに高速な局所モデル選択が可能となる。 xgboostと比較すると、数値実験のスピードアップは10から1400程度で、同様の予測能力でテスト損失が測定される。

An information theoretic approach to learning the complexity of classification and regression trees and the number of trees in gradient tree boosting is proposed. The optimism (test loss minus training loss) of the greedy leaf splitting procedure is shown to be the maximum of a Cox-Ingersoll-Ross process, from which a generalization-error based information criterion is formed. The proposed procedure allows fast local model selection without cross validation based hyper parameter tuning, and hence efficient and automatic comparison among the large number of models performed during each boosting iteration. Relative to xgboost, speedups on numerical experiments ranges from around 10 to about 1400, at similar predictive-power measured in terms of test-loss.
翻訳日:2022-10-30 23:58:11 公開日:2020-08-13
# 心エコー法による僧帽弁弁切断術の神経協調フィルタリング

Neural collaborative filtering for unsupervised mitral valve segmentation in echocardiography ( http://arxiv.org/abs/2008.05867v1 )

ライセンス: Link先を確認
Luca Corinzia, Fabian Laumer, Alessandro Candreva, Maurizio Taramasso, Francesco Maisano, Joachim M. Buhmann(参考訳) 僧帽弁輪とリーフレットのセグメンテーションは、例えば僧帽弁疾患の診断、手術計画、術中処置など、複数のタスクを行う医師を支援する機械学習パイプラインを確立するための重要な第一歩を規定している。 2次元心エコービデオにおける僧帽弁分画の方法には, 注釈装置との広範囲なインタラクションが必要であり, 低品質, 騒音ビデオでは性能が低下している。 本稿では,ニューラルネットワークを用いた心エコービデオの低次元埋め込みに基づく僧帽弁断面積の自動制御手法を提案する。 本法は, 各種僧帽弁疾患患者の心エコービデオの収集と, 独立した検査コホートを用いて評価した。 低品質ビデオやスパースアノテーションの場合、最先端の \emph{unsupervised} や \emph{supervised} メソッドよりも優れています。

The segmentation of the mitral valve annulus and leaflets specifies a crucial first step to establish a machine learning pipeline that can support physicians in performing multiple tasks, e.g.\ diagnosis of mitral valve diseases, surgical planning, and intraoperative procedures. Current methods for mitral valve segmentation on 2D echocardiography videos require extensive interaction with annotators and perform poorly on low-quality and noisy videos. We propose an automated and unsupervised method for the mitral valve segmentation based on a low dimensional embedding of the echocardiography videos using neural network collaborative filtering. The method is evaluated in a collection of echocardiography videos of patients with a variety of mitral valve diseases, and additionally on an independent test cohort. It outperforms state-of-the-art \emph{unsupervised} and \emph{supervised} methods on low-quality videos or in the case of sparse annotation.
翻訳日:2022-10-30 23:57:46 公開日:2020-08-13
# nmr特性予測モデル探索のための機械学習戦略空間のコミュニティによる探索

A community-powered search of machine learning strategy space to find NMR property prediction models ( http://arxiv.org/abs/2008.05994v1 )

ライセンス: Link先を確認
Lars A. Bratholm, Will Gerrard, Brandon Anderson, Shaojie Bai, Sunghwan Choi, Lam Dang, Pavel Hanchar, Addison Howard, Guillaume Huard, Sanghoon Kim, Zico Kolter, Risi Kondor, Mordechai Kornbluth, Youhan Lee, Youngsoo Lee, Jonathan P. Mailoa, Thanh Tu Nguyen, Milos Popovic, Goran Rakocevic, Walter Reade, Wonho Song, Luka Stojanovic, Erik H. Thiede, Nebojsa Tijanic, Andres Torrubia, Devin Willmott, Craig P. Butts, David R. Glowacki, and Kaggle participants(参考訳) 機械学習(ml)の台頭は、データを使用して科学的予測を行う潜在的な戦略の爆発を生み出した。 特定の領域にML戦略を適用したい物理科学者にとって、広い範囲で採用すべき戦略を事前に評価することは困難である。 ここでは、ML戦略の空間を探索し、分子の原子対核磁気共鳴(NMR)特性を予測するアルゴリズムを開発するためのオンラインコミュニティ主導の取り組みの結果の概要を述べる。 オープンソースのデータセットを使用して、Kaggleと協力して、84カ国2700チームから47,800のMLモデル予測を受けた3ヶ月のコンペを設計、開催しました。 3週間以内に、Kaggleコミュニティは、以前発表された"社内"の取り組みに匹敵する精度のモデルを作成した。 上位予測の線形結合として構築されたメタアンサンブルモデルは,従来の最先端モデルよりも7~19倍高い予測精度を有する。 この結果は量子力学(QM)分子特性を予測するためのトランスフォーマーアーキテクチャの可能性を強調した。

The rise of machine learning (ML) has created an explosion in the potential strategies for using data to make scientific predictions. For physical scientists wishing to apply ML strategies to a particular domain, it can be difficult to assess in advance what strategy to adopt within a vast space of possibilities. Here we outline the results of an online community-powered effort to swarm search the space of ML strategies and develop algorithms for predicting atomic-pairwise nuclear magnetic resonance (NMR) properties in molecules. Using an open-source dataset, we worked with Kaggle to design and host a 3-month competition which received 47,800 ML model predictions from 2,700 teams in 84 countries. Within 3 weeks, the Kaggle community produced models with comparable accuracy to our best previously published "in-house" efforts. A meta-ensemble model constructed as a linear combination of the top predictions has a prediction accuracy which exceeds that of any individual model, 7-19x better than our previous state-of-the-art. The results highlight the potential of transformer architectures for predicting quantum mechanical (QM) molecular properties.
翻訳日:2022-10-30 23:57:29 公開日:2020-08-13
# Consistent $k$-Median: よりシンプルで、より良く、ロバスト

Consistent $k$-Median: Simpler, Better and Robust ( http://arxiv.org/abs/2008.06101v1 )

ライセンス: Link先を確認
Xiangyu Guo, Janardhan Kulkarni, Shi Li, Jiayi Xian(参考訳) 本稿では,オンライン一貫した$k$-clusteringを外れ値問題で導入し,[Lattanzi-Vassilvitskii, ICML17]で検討された問題の非外れ値バージョンを一般化する。 単純な局所探索に基づくオンラインアルゴリズムは、o(k^2 \log^2 (nd))$の中央値(経路)のスワップで問題に対してビクライトリア定数近似を与えることができ、そこでは$d$が計量の直径である。 外れ値のない問題に限定すると,アルゴリズムは単純で決定論的であり, [lattanzi-vassilvitskii, icml17] よりも近似比と帰納法が優れている。

In this paper we introduce and study the online consistent $k$-clustering with outliers problem, generalizing the non-outlier version of the problem studied in [Lattanzi-Vassilvitskii, ICML17]. We show that a simple local-search based online algorithm can give a bicriteria constant approximation for the problem with $O(k^2 \log^2 (nD))$ swaps of medians (recourse) in total, where $D$ is the diameter of the metric. When restricted to the problem without outliers, our algorithm is simpler, deterministic and gives better approximation ratio and recourse, compared to that of [Lattanzi-Vassilvitskii, ICML17].
翻訳日:2022-10-30 23:57:12 公開日:2020-08-13
# lstm音響モデルによるグラニュムのアライメントと発音の学習

LSTM Acoustic Models Learn to Align and Pronounce with Graphemes ( http://arxiv.org/abs/2008.06121v1 )

ライセンス: Link先を確認
Arindrima Datta, Guanlong Zhao, Bhuvana Ramabhadran, Eugene Weinstein(参考訳) 世界の言語の自動音声認識は拡大を続けている。 しかし、標準的な音素ベースのシステムは、入手が困難で高価である手作りのレキシコンを必要とする。 この問題に対処するために,純粋にデータ駆動型で学習可能なグラフ式音声認識器の訓練手法を提案する。 LSTMネットワークで構築し, クロスエントロピー損失を学習したグラファイム出力音響モデルは, 言語モデルやFSTデコーダなどの従来のASRスタックコンポーネントで復号化でき, 多くの音声アプリケーションで有用な高品質なオーディオ・ツー・グラファイムアライメントを生成できるため, 実世界のアプリケーションでは極めて実用的である。 大規模データセット上での学習において,graphemeモデルは,入力として明示的な言語知識を必要としないという利点を生かして,音素出力モデルと競合関係にあることを示す。 さらに、音素モデルと音素モデルによるアライメントを比較し、言語的に異なる4つのインドの言語を用いて学習した発音の質を示す。

Automated speech recognition coverage of the world's languages continues to expand. However, standard phoneme based systems require handcrafted lexicons that are difficult and expensive to obtain. To address this problem, we propose a training methodology for a grapheme-based speech recognizer that can be trained in a purely data-driven fashion. Built with LSTM networks and trained with the cross-entropy loss, the grapheme-output acoustic models we study are also extremely practical for real-world applications as they can be decoded with conventional ASR stack components such as language models and FST decoders, and produce good quality audio-to-grapheme alignments that are useful in many speech applications. We show that the grapheme models are competitive in WER with their phoneme-output counterparts when trained on large datasets, with the advantage that grapheme models do not require explicit linguistic knowledge as an input. We further compare the alignments generated by the phoneme and grapheme models to demonstrate the quality of the pronunciations learnt by them using four Indian languages that vary linguistically in spoken and written forms.
翻訳日:2022-10-30 23:56:48 公開日:2020-08-13
# 動きの類似性モデリング --最先端のアートレポート-

Motion Similarity Modeling -- A State of the Art Report ( http://arxiv.org/abs/2008.05872v1 )

ライセンス: Link先を確認
Anna Sebernegg, Peter K\'an, Hannes Kaufmann(参考訳) 人間の動きの分析は、リアルなトレーニングシミュレーションやロボット工学やアニメーションの本物の動きなど、幅広い可能性を開く。 運動分析の基礎となる問題の1つは、類似度尺度に基づく行動の有意義な比較である。 動作解析は応用に依存しているため,特定のユースケースに対して適切な動作類似性を求めることが重要である。 この技術報告は、人間の動作分析と異なる類似性モデリング手法の概観を提供するとともに、主に3次元動作データを扱うアプローチに焦点を当てている。 この調査は動きの様々な類似点と特徴を要約し、2つの動作間の類似性を測定するためのアプローチを記述している。

The analysis of human motion opens up a wide range of possibilities, such as realistic training simulations or authentic motions in robotics or animation. One of the problems underlying motion analysis is the meaningful comparison of actions based on similarity measures. Since the motion analysis is application-dependent, it is essential to find the appropriate motion similarity method for the particular use case. This state of the art report provides an overview of human motion analysis and different similarity modeling methods, while mainly focusing on approaches that work with 3D motion data. The survey summarizes various similarity aspects and features of motion and describes approaches to measuring the similarity between two actions.
翻訳日:2022-10-30 23:56:17 公開日:2020-08-13
# ISIA Food-500: スタック型グローバルローカルアテンションネットワークによる大規模食品認識のためのデータセット

ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked Global-Local Attention Network ( http://arxiv.org/abs/2008.05655v1 )

ライセンス: Link先を確認
Weiqing Min, Linhu Liu, Zhiling Wang, Zhengdong Luo, Xiaoming Wei, Xiaolin Wei, Shuqiang Jiang(参考訳) ダイエット管理やセルフサービスレストランなど、さまざまな現実のアプリケーションによって、マルチメディアコミュニティでは食品認識がますます注目を集めている。 食品画像の大規模オントロジーは、高度な大規模食品認識アルゴリズムの開発や、そのようなアルゴリズムのベンチマークデータセットの提供に緊急に必要である。 食品認識のさらなる進歩を促すために、wikipediaの500のカテゴリからなるデータセットisia food-500と、既存の一般的なベンチマークデータセットをカテゴリ範囲とデータボリュームで上回る、より包括的な食品データセット399,726のイメージを紹介する。 さらに、食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。 1つのサブネットワークは、まず、より識別的な特徴を抽出するために、ハイブリッドな空間チャネルアテンションを使用し、次に複数の層からこれらのマルチスケールの識別的特徴をグローバルレベルの表現(例えば、食品のテクスチャや形状情報)に集約する。 他の領域は、カスケード空間変換器を介して異なる領域から注意領域(例えば、成分関連領域)を生成し、さらに異なるレイヤからこれらの複数スケールの地域特徴を局所的な表現に集約する。 この2つの特徴は最終的に食品認識のための包括的な表現として融合される。 ISIA Food-500および他の2つの人気のあるベンチマークデータセットに対する大規模な実験により,提案手法の有効性が示された。 データセット、コード、モデルはhttp://123.57.42.89/FoodComputing-Dataset/ISIA-Food500.htmlで見ることができる。

Food recognition has received more and more attention in the multimedia community for its various real-world applications, such as diet management and self-service restaurants. A large-scale ontology of food images is urgently needed for developing advanced large-scale food recognition algorithms, as well as for providing the benchmark dataset for such algorithms. To encourage further progress in food recognition, we introduce the dataset ISIA Food- 500 with 500 categories from the list in the Wikipedia and 399,726 images, a more comprehensive food dataset that surpasses existing popular benchmark datasets by category coverage and data volume. Furthermore, we propose a stacked global-local attention network, which consists of two sub-networks for food recognition. One subnetwork first utilizes hybrid spatial-channel attention to extract more discriminative features, and then aggregates these multi-scale discriminative features from multiple layers into global-level representation (e.g., texture and shape information about food). The other one generates attentional regions (e.g., ingredient relevant regions) from different regions via cascaded spatial transformers, and further aggregates these multi-scale regional features from different layers into local-level representation. These two types of features are finally fused as comprehensive representation for food recognition. Extensive experiments on ISIA Food-500 and other two popular benchmark datasets demonstrate the effectiveness of our proposed method, and thus can be considered as one strong baseline. The dataset, code and models can be found at http://123.57.42.89/FoodComputing-Dataset/ISIA-Food500.html.
翻訳日:2022-10-30 23:50:34 公開日:2020-08-13
# 画像から画像への変換のためのレイヤのパワー

Powers of layers for image-to-image translation ( http://arxiv.org/abs/2008.05763v1 )

ライセンス: Link先を確認
Hugo Touvron, Matthijs Douze, Matthieu Cord, Herv\'e J\'egou(参考訳) 本稿では,画像から画像への変換が不要なタスク(スタイルやクラス転送,デノイング,デブロッキング,デブロッキングなど)に対処するシンプルなアーキテクチャを提案する。 固定重み付きイメージオートエンコーダアーキテクチャから始める。 各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。 イテレーションの指数効果を緩和するために、特定のトレーニングスケジュールが必要です。 重みパラメータの数は限られており、構成設計により、反復数で変換の強度を変調することができる。 これは例えば、抑制すべきノイズの種類や量が事前に分かっていない場合に便利である。 実験的に、多くの変換に対する我々の方法の関心を示す概念の証明を提供する。 私たちのモデルの性能は、非常に少ないパラメータのcycleganと同等かそれ以上です。

We propose a simple architecture to address unpaired image-to-image translation tasks: style or class transfer, denoising, deblurring, deblocking, etc. We start from an image autoencoder architecture with fixed weights. For each task we learn a residual block operating in the latent space, which is iteratively called until the target domain is reached. A specific training schedule is required to alleviate the exponentiation effect of the iterations. At test time, it offers several advantages: the number of weight parameters is limited and the compositional design allows one to modulate the strength of the transformation with the number of iterations. This is useful, for instance, when the type or amount of noise to suppress is not known in advance. Experimentally, we provide proofs of concepts showing the interest of our method for many transformations. The performance of our model is comparable or better than CycleGAN with significantly fewer parameters.
翻訳日:2022-10-30 23:50:07 公開日:2020-08-13
# 多モード病理分類フレームワーク:心臓磁気共鳴画像への応用

Multi-Modality Pathology Segmentation Framework: Application to Cardiac Magnetic Resonance Images ( http://arxiv.org/abs/2008.05780v1 )

ライセンス: Link先を確認
Zhen Zhang, Chenyu Liu, Wangbin Ding, Sihan Wang, Chenhao Pei, Mingjing Yang, Liqin Huang(参考訳) 多発性心磁気共鳴(CMR)画像は、心筋病理(scar, edema)の相補的な情報を提供することができる。 しかし, 病理学のセグメンテーションの基盤となる情報を効果的に融合させることは依然として困難である。 本稿では,マルチモダリティcmr画像に基づく自動カスケード病理セグメンテーションフレームワークを提案する。 主に、解剖学的構造セグメンテーションネットワーク(ASSN)と病理学的領域セグメンテーションネットワーク(PRSN)の2つのニューラルネットワークで構成されている。 具体的には、ASSNは、病理が存在する可能性のある解剖学的構造を分断することを目的としており、病理領域の分断に先立って空間を提供することができる。 さらに,ASSNにDAE(Denoising Auto-Encoder)を組み込んで,可塑性形状のセグメンテーション結果を生成する。 PRSNはASSNの結果に基づいて病理領域を分割するように設計されており,多モードCMR画像からの多モード情報をよりよく集約するために,チャネルアテンションに基づく融合ブロックを提案する。 myoPS2020 チャレンジデータセットを用いて実験したところ,心筋の傷や浮腫のセグメンテーションに有望な性能が得られた。

Multi-sequence of cardiac magnetic resonance (CMR) images can provide complementary information for myocardial pathology (scar and edema). However, it is still challenging to fuse these underlying information for pathology segmentation effectively. This work presents an automatic cascade pathology segmentation framework based on multi-modality CMR images. It mainly consists of two neural networks: an anatomical structure segmentation network (ASSN) and a pathological region segmentation network (PRSN). Specifically, the ASSN aims to segment the anatomical structure where the pathology may exist, and it can provide a spatial prior for the pathological region segmentation. In addition, we integrate a denoising auto-encoder (DAE) into the ASSN to generate segmentation results with plausible shapes. The PRSN is designed to segment pathological region based on the result of ASSN, in which a fusion block based on channel attention is proposed to better aggregate multi-modality information from multi-modality CMR images. Experiments from the MyoPS2020 challenge dataset show that our framework can achieve promising performance for myocardial scar and edema segmentation.
翻訳日:2022-10-30 23:49:37 公開日:2020-08-13
# DFEW:野生における動的表情認識のための大規模データベース

DFEW: A Large-Scale Database for Recognizing Dynamic Facial Expressions in the Wild ( http://arxiv.org/abs/2008.05924v1 )

ライセンス: Link先を確認
Xingxun Jiang, Yuan Zong, Wenming Zheng, Chuangao Tang, Wanchuang Xia, Cheng Lu, Jiateng Liu(参考訳) 近年,fer技術が実験室から実際の応用へ移行する上で重要な話題であるため,野生の表情認識(fer)が研究者の注目を集めている。 本稿では,この挑戦的かつ興味深いトピックに注目し,3つの側面から貢献する。 まず,数千本の映画から16,000本以上のビデオクリップを収録した大規模動的表情データベースDFEW(Dynamic Facial Expression in the Wild)を提案する。 これらのビデオクリップには、極端な照明、オクルージョン、気まぐれなポーズの変化など、現実的なシナリオにおける様々な困難な干渉が含まれている。 第2に, 動的ferを扱うための表現クラスタリング型時空間特徴学習(ec-stfl)フレームワークを提案する。 第3に,多くの時空間深部特徴学習法と提案したEC-STFLを用いたDFEWのベンチマーク実験を行った。 実験の結果,dfewは設計が容易で挑戦的なデータベースであり,提案するec-stflは野生の動的fer問題に対処することで,既存の時空間的深層ニューラルネットワークの性能を有望に向上させることができることがわかった。 我々のDFEWデータベースは公開されており、https://dfew-dataset.github.io/から無料でダウンロードできる。

Recently, facial expression recognition (FER) in the wild has gained a lot of researchers' attention because it is a valuable topic to enable the FER techniques to move from the laboratory to the real applications. In this paper, we focus on this challenging but interesting topic and make contributions from three aspects. First, we present a new large-scale 'in-the-wild' dynamic facial expression database, DFEW (Dynamic Facial Expression in the Wild), consisting of over 16,000 video clips from thousands of movies. These video clips contain various challenging interferences in practical scenarios such as extreme illumination, occlusions, and capricious pose changes. Second, we propose a novel method called Expression-Clustered Spatiotemporal Feature Learning (EC-STFL) framework to deal with dynamic FER in the wild. Third, we conduct extensive benchmark experiments on DFEW using a lot of spatiotemporal deep feature learning methods as well as our proposed EC-STFL. Experimental results show that DFEW is a well-designed and challenging database, and the proposed EC-STFL can promisingly improve the performance of existing spatiotemporal deep neural networks in coping with the problem of dynamic FER in the wild. Our DFEW database is publicly available and can be freely downloaded from https://dfew-dataset.github.io/.
翻訳日:2022-10-30 23:49:18 公開日:2020-08-13
# 対話変換器を用いたエンドツーエンドの文脈知覚と予測

End-to-end Contextual Perception and Prediction with Interaction Transformer ( http://arxiv.org/abs/2008.05927v1 )

ライセンス: Link先を確認
Lingyun Luke Li, Bin Yang, Ming Liang, Wenyuan Zeng, Mengye Ren, Sean Segal, Raquel Urtasun(参考訳) 本稿では,物体を3dで検出し,その将来の動きを自律運転の文脈で予測する問題に取り組む。 この目標に向けて、アクター間の相互作用を明示的に考慮した新しいアプローチをデザインする。 空間的・時間的依存関係を捉えるために,新しいTransformerアーキテクチャを備えたリカレントニューラルネットワークを提案し,これをInteraction Transformerと呼ぶ。 重要なことは、私たちのモデルはエンドツーエンドでトレーニングされ、リアルタイムで実行されます。 我々は、ATG4DとnuScenesという2つの挑戦的な実世界のデータセットに対するアプローチを検証する。 当社のアプローチが,両データセットの最先端を上回ることを示します。 特に,予測される将来の軌道間の社会的コンプライアンスを著しく改善し,予測されるアクター間の衝突をはるかに少なくする。

In this paper, we tackle the problem of detecting objects in 3D and forecasting their future motion in the context of self-driving. Towards this goal, we design a novel approach that explicitly takes into account the interactions between actors. To capture their spatial-temporal dependencies, we propose a recurrent neural network with a novel Transformer architecture, which we call the Interaction Transformer. Importantly, our model can be trained end-to-end, and runs in real-time. We validate our approach on two challenging real-world datasets: ATG4D and nuScenes. We show that our approach can outperform the state-of-the-art on both datasets. In particular, we significantly improve the social compliance between the estimated future trajectories, resulting in far fewer collisions between the predicted actors.
翻訳日:2022-10-30 23:48:56 公開日:2020-08-13
# 学習映像フレーム予測の性能に及ぼす建築と学習方法の影響

Effect of Architectures and Training Methods on the Performance of Learned Video Frame Prediction ( http://arxiv.org/abs/2008.06106v1 )

ライセンス: Link先を確認
M. Akin Yilmaz and A. Murat Tekalp(参考訳) 本研究では,学習フレーム予測のためのfeedforward対recurrent neural network(rnn)アーキテクチャの性能と関連するトレーニング手法を分析する。 この効果として, 残留完全畳み込みニューラルネットワーク (FCNN) , 畳み込みRNN (CRNN) および畳み込み長短期記憶ネットワーク (CLSTM) を訓練し, 平均2乗損失を用いた次のフレーム予測を行った。 リカレントネットワークのためにステートレスとステートフルの両方のトレーニングを行いました。 実験結果から,残差FCNNアーキテクチャは高いトレーニングとテスト(推論)計算の複雑さを犠牲にして,ピーク信号対雑音比(PSNR)の点で最善であることがわかった。 CRNNは、時間プロシージャによるステートフルなトランケートされたバックプロパゲーションを使用して安定かつ非常に効率的に訓練することができ、許容可能な性能でほぼリアルタイムフレーム予測を実現するためには、桁違いの推論ランタイムを必要とする。

We analyze the performance of feedforward vs. recurrent neural network (RNN) architectures and associated training methods for learned frame prediction. To this effect, we trained a residual fully convolutional neural network (FCNN), a convolutional RNN (CRNN), and a convolutional long short-term memory (CLSTM) network for next frame prediction using the mean square loss. We performed both stateless and stateful training for recurrent networks. Experimental results show that the residual FCNN architecture performs the best in terms of peak signal to noise ratio (PSNR) at the expense of higher training and test (inference) computational complexity. The CRNN can be trained stably and very efficiently using the stateful truncated backpropagation through time procedure, and it requires an order of magnitude less inference runtime to achieve near real-time frame prediction with an acceptable performance.
翻訳日:2022-10-30 23:47:55 公開日:2020-08-13
# Kinectバイオインフォマティクスを用いたスポーツマンの体重トレーニング解析

Weight Training Analysis of Sportsmen with Kinect Bioinformatics for Form Improvement ( http://arxiv.org/abs/2009.09776v1 )

ライセンス: Link先を確認
Muhammad Umair Khan, Khawar Saeed, Sidra Qadeer(参考訳) スポーツフランチャイズはアスリートのトレーニングに多くの投資をしています。 この目的のために最新の技術を使うのも非常に一般的です。 体重トレーニング中にアスリートの動きを捉え、そのデータを分析して欠点や不完全さを見出すシステムを提案する。 本システムはKinect深度画像を用いて,選手の選択した関節のパラメータを算出する。 これらのパラメータは、特定のアルゴリズムを通して処理し、その基礎に基づいて結果を定式化する。 動きの範囲、速度、バランスなどのパラメータはリアルタイムで分析できる。 しかし、動作間で比較を行うために、データはまず記録され、保存され、正確な結果のために処理される。 このシステムは,作業のダイナミクスに関する貴重な洞察を与え,選手の体型改善を支援するために,容易に展開および実装することが可能である。

Sports franchises invest a lot in training their athletes. use of latest technology for this purpose is also very common. We propose a system of capturing motion of athletes during weight training and analyzing that data to find out any shortcomings and imperfections. Our system uses Kinect depth image to compute different parameters of athlete's selected joints. These parameters are passed through certain algorithms to process them and formulate results on their basis. Some parameters like range of motion, speed and balance can be analyzed in real time. But for comparison to be performed between motions, data is first recorded and stored and then processed for accurate results. Our results depict that this system can be easily deployed and implemented to provide a very valuable insight to dynamics of a work out and help an athlete in improving his form.
翻訳日:2022-10-30 23:47:37 公開日:2020-08-13
# COVID-19情報デミック:集団は最近の誤報を客観的に判断できるのか?

The COVID-19 Infodemic: Can the Crowd Judge Recent Misinformation Objectively? ( http://arxiv.org/abs/2008.05701v1 )

ライセンス: Link先を確認
Kevin Roitero, Michael Soprano, Beatrice Portelli, Damiano Spina, Vincenzo Della Mea, Giuseppe Serra, Stefano Mizzaro and Gianluca Demartini(参考訳) 誤報は研究コミュニティにとって解決が難しい問題であり、社会全体に悪影響を及ぼす。 声明の真実性を評価するために、少数の専門家に頼る代わりに、(専門家でない)裁判官の群れが悪用される。 我々は、クラウドソーシングがパンデミック時の言明の真偽を評価するための効果的で信頼性の高い方法であるかどうかを調査するのと同じアプローチに従う。 本研究は、現在進行中の新型コロナウイルス感染症(COVID-19)の緊急事態に関する声明を対象とし、オンライン上で拡散している誤報の量の増加(「インフォデミック(infodemic)」という言葉が使われてきた現象)を確実に引き起こしている。 そうすることで、健康のような敏感で個人的な問題と関連している情報(ミス)に対処できるようになり、判断が下された時と比較して非常に最近のものとなり、関連する作業で分析されていない2つの問題に対処できます。 実験では,供述の真正性を評価するとともに,URLやテキストの正当性としての評価の証拠を提供するように依頼した。 参加者が発言の真偽を正確に判断できることを示すだけでなく、労働者間の合意、異なる集約関数の効果、スケール変換の効果、労働者のバックグラウンド/バイアスなど、さまざまな側面について結果を報告する。 また,クエリの提出,urlの検索/選択,テキストの正当化,クリックやマウスのアクションといった動作データをアドホックログによって収集する,ワーカの動作を分析する。

Misinformation is an ever increasing problem that is difficult to solve for the research community and has a negative impact on the society at large. Very recently, the problem has been addressed with a crowdsourcing-based approach to scale up labeling efforts: to assess the truthfulness of a statement, instead of relying on a few experts, a crowd of (non-expert) judges is exploited. We follow the same approach to study whether crowdsourcing is an effective and reliable method to assess statements truthfulness during a pandemic. We specifically target statements related to the COVID-19 health emergency, that is still ongoing at the time of the study and has arguably caused an increase of the amount of misinformation that is spreading online (a phenomenon for which the term "infodemic" has been used). By doing so, we are able to address (mis)information that is both related to a sensitive and personal issue like health and very recent as compared to when the judgment is done: two issues that have not been analyzed in related work. In our experiment, crowd workers are asked to assess the truthfulness of statements, as well as to provide evidence for the assessments as a URL and a text justification. Besides showing that the crowd is able to accurately judge the truthfulness of the statements, we also report results on many different aspects, including: agreement among workers, the effect of different aggregation functions, of scales transformations, and of workers background / bias. We also analyze workers behavior, in terms of queries submitted, URLs found / selected, text justifications, and other behavioral data like clicks and mouse actions collected by means of an ad hoc logger.
翻訳日:2022-10-30 23:41:32 公開日:2020-08-13
# Reddit上でのCOVID-19談話における性差の探索

Exploration of Gender Differences in COVID-19 Discourse on Reddit ( http://arxiv.org/abs/2008.05713v1 )

ライセンス: Link先を確認
Jai Aggarwal, Ella Rabinovich, Suzanne Stevenson(参考訳) 男女の言語の違いに関する何十年もの研究が、語彙的、局所的、感情的な2つの表現の好みとその社会学的基盤に関する仮定を確立してきた。 Redditのディスカッションプラットフォームから収集された男女の言語生産の新たなデータセットを用いて、ジェンダー関係の感情的区別に関する既存の仮定をさらに確認し、これらの区別が、COVID-19に関連する感情的な会話を含むソーシャルメディア投稿で増幅されていることを示す。 また,自然発症パンデミックに関連する議論において,男女の主観的嗜好に有意な差が認められた。

Decades of research on differences in the language of men and women have established postulates about preferences in lexical, topical, and emotional expression between the two genders, along with their sociological underpinnings. Using a novel dataset of male and female linguistic productions collected from the Reddit discussion platform, we further confirm existing assumptions about gender-linked affective distinctions, and demonstrate that these distinctions are amplified in social media postings involving emotionally-charged discourse related to COVID-19. Our analysis also confirms considerable differences in topical preferences between male and female authors in spontaneous pandemic-related discussions.
翻訳日:2022-10-30 23:41:04 公開日:2020-08-13
# 構築された感情と超情報:構成者理論的アプローチ

Constructed emotions and superinformation: a constructor-theoretic approach ( http://arxiv.org/abs/2008.06052v1 )

ライセンス: Link先を確認
Riccardo Franco(参考訳) 本稿では,構築された感情理論にコンストラクタ-理論的アプローチを適用し,コアが原子価に影響を及ぼし,知識が2つの異なる観測対象として認識され,情報や超情報に繋がることを示す。 論文の第2部では、情報構造に関する追加仮説が、位相タスクのコントラクタ-理論バージョンの観点から感情を研究することができることを示す。 量子アルゴリズムは感情とメモリタスクの関連性の例として提示される。

In this paper we apply the constructor-theoretic approach to the theory of constructed emotions, showing that core affect valence and knowledge can be considered as two different observables, leading to information or superinformation conditions: this depends on subject's strategy, coherently with the affect infusion model. In the second part of the article we show that additional hypotheses on the structure of information allows to study emotions in terms of the contructor-theoretic version of phase task. Quantum algorithms are presented as an example of the connection between emotions and memory tasks.
翻訳日:2022-10-30 23:40:09 公開日:2020-08-13
# 片道カーシェアリングにおける顧客満足度--モデリング,エクササイズ,ヒューリスティックな解決

Maximum Customers' Satisfaction in One-way Car-sharing: Modeling, Exact and Heuristic Solving ( http://arxiv.org/abs/2008.07372v1 )

ライセンス: Link先を確認
Welverton R. Silva and Rafael C. S. Schouery(参考訳) ワンウェイカーシェアリングシステム(one-way car-sharing system)は、市内に散らばる駅でレンタカーをレンタルし、短期間で利用し、どの駅でも返却できる交通システムである。 最大顧客満足度問題は、満足した顧客数を最大化するために、当初所定の駅にあった車両を割り当てる作業に関するものである。 両駅間に正反対の2つの要求があり、双方の要求が満たされた場合にのみ満足する2つの駅の問題点を考察する。 この問題を解決するために,局所探索に基づく混合整数プログラミングモデルと数理学モデルを提案する。 私たちは、正確でヒューリスティックなアプローチをテストするために使用されるインスタンスのベンチマークを作成しました。 さらに、インスタンスのサイズを減らすための前処理手順を提案しました。 私たちのMIPモデルは、10分で1000の顧客を持つ提案されたインスタンスの85%を最適に解決できます。 大規模なインスタンス (2500 と 5000 の顧客) では,特定のケースを除いて,平均的なギャップが 0.8% 未満であった。 また、我々の局所的数理学では、より大きな例では、MIPモデルよりも優れた小さな平均的なギャップが示される。

One-way car-sharing systems are transportation systems that allow customers to rent cars at stations scattered around the city, use them for a short journey, and return them at any station. The maximum customers' satisfaction problem concerns the task of assigning the cars, initially located at given stations, to maximize the number of satisfied customers. We consider the problem with two stations where each customer has exactly two demands in opposite directions between both stations, and a customer is satisfied only if both their demands are fulfilled. For solving this problem, we propose mixed-integer programming (MIP) models and matheuristics based on local search. We created a benchmark of instances used to test the exact and heuristic approaches. Additionally, we proposed a preprocessing procedure to reduce the size of the instance. Our MIP models can solve to optimality 85% of the proposed instances with 1000 customers in 10 minutes, with an average gap smaller than 0.1% for all these instances. For larger instances (2500 and 5000 customers), except for some particular cases, they presented an average gap smaller than 0.8%. Also, our local-based matheuristics presented small average gaps which are better than the MIP models in some larger instances.
翻訳日:2022-10-30 23:39:59 公開日:2020-08-13
# テキスト長制限のない音声合成システムのための韻律学習機構

Prosody Learning Mechanism for Speech Synthesis System Without Text Length Limit ( http://arxiv.org/abs/2008.05656v1 )

ライセンス: Link先を確認
Zhen Zeng, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) 最近のニューラル音声合成システムは、合成音声の品質を向上させるために徐々に韻律の制御に焦点を合わせてきたが、韻律の変動性や韻律と意味論の相関を考えることは稀である。 本稿では,音声の韻律情報を韻律学習者によってメルスペクトラムから抽出し,音素列と組み合わせてメルスペクトラムを再構築する,ttsシステムに基づく音声の韻律をモデル化する韻律学習機構を提案する。 一方,事前学習された言語モデルからのテキストのセマティックな特徴を導入し,韻律予測結果を改善する。 また、位置符号化が不要となるように、シーケンスの相対的な位置情報を相対位置行列でモデル化する入力テキスト長の制限を緩和するために、局所的注意と呼ばれる新しい自己対応構造が提案されている。 英語とマンダリンの実験では, より満足な韻律を持つ音声が得られた。 特にマンダリン合成において,提案手法はMOSギャップ0.08のベースラインモデルより優れており,合成音声の全体的な自然性は大幅に改善されている。

Recent neural speech synthesis systems have gradually focused on the control of prosody to improve the quality of synthesized speech, but they rarely consider the variability of prosody and the correlation between prosody and semantics together. In this paper, a prosody learning mechanism is proposed to model the prosody of speech based on TTS system, where the prosody information of speech is extracted from the melspectrum by a prosody learner and combined with the phoneme sequence to reconstruct the mel-spectrum. Meanwhile, the sematic features of text from the pre-trained language model is introduced to improve the prosody prediction results. In addition, a novel self-attention structure, named as local attention, is proposed to lift this restriction of input text length, where the relative position information of the sequence is modeled by the relative position matrices so that the position encodings is no longer needed. Experiments on English and Mandarin show that speech with more satisfactory prosody has obtained in our model. Especially in Mandarin synthesis, our proposed model outperforms baseline model with a MOS gap of 0.08, and the overall naturalness of the synthesized speech has been significantly improved.
翻訳日:2022-10-30 23:39:37 公開日:2020-08-13
# 低リソース音声理解のための大規模転送学習

Large-scale Transfer Learning for Low-resource Spoken Language Understanding ( http://arxiv.org/abs/2008.05671v1 )

ライセンス: Link先を確認
Xueli Jia, Jianzong Wang, Zhiyong Zhang, Ning Cheng, Jing Xiao(参考訳) SLU(End-to-end Spoken Language Understanding)モデルは、最先端の精度を達成するために、ますます大きく複雑化している。 しかし、モデルの複雑さが増大すると、過剰適合のリスクも高くなるため、利用可能なデータの制限により、SLUタスクにおいて大きな課題となる。 本稿では,3つのエンコーダ拡張戦略とともに,注意に基づくSLUモデルを提案する。 最初の戦略は、エンコーダの特徴抽出能力を改善するためのトランスファーラーニングアプローチに焦点を当てる。 エンコーダコンポーネントを標準トランスフォーマーアーキテクチャに依存した多数の自動音声認識アノテートデータで事前学習し、少量のターゲットラベル付きデータでSLUモデルを微調整することで実装する。 第2の戦略はマルチタスク学習戦略を採用し、SLUモデルは、ロバスト性や一般化能力の向上など、同じ基盤となるエンコーダを共有することによって音声認識モデルを統合する。 第3の戦略は、コンポーネントフュージョン(CF)の概念から学び、変換器(BERT)モデルからの双方向エンコーダ表現を伴い、補助的なネットワークでデコーダの能力を高めることを目的としている。 これにより、過度に適合するリスクを減らし、基盤となるエンコーダの能力を間接的に増強する。 FluentAIデータセットの実験によると、ベースラインと比較して、クロスランゲージトランスファー学習とマルチタスク戦略がそれぞれ4:52%と3:89%改善している。

End-to-end Spoken Language Understanding (SLU) models are made increasingly large and complex to achieve the state-ofthe-art accuracy. However, the increased complexity of a model can also introduce high risk of over-fitting, which is a major challenge in SLU tasks due to the limitation of available data. In this paper, we propose an attention-based SLU model together with three encoder enhancement strategies to overcome data sparsity challenge. The first strategy focuses on the transferlearning approach to improve feature extraction capability of the encoder. It is implemented by pre-training the encoder component with a quantity of Automatic Speech Recognition annotated data relying on the standard Transformer architecture and then fine-tuning the SLU model with a small amount of target labelled data. The second strategy adopts multitask learning strategy, the SLU model integrates the speech recognition model by sharing the same underlying encoder, such that improving robustness and generalization ability. The third strategy, learning from Component Fusion (CF) idea, involves a Bidirectional Encoder Representation from Transformer (BERT) model and aims to boost the capability of the decoder with an auxiliary network. It hence reduces the risk of over-fitting and augments the ability of the underlying encoder, indirectly. Experiments on the FluentAI dataset show that cross-language transfer learning and multi-task strategies have been improved by up to 4:52% and 3:89% respectively, compared to the baseline.
翻訳日:2022-10-30 23:39:17 公開日:2020-08-13
# Conv-Transformer Transducer:低レイテンシ、低フレームレート、ストリーミングエンドツーエンド音声認識

Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable End-to-End Speech Recognition ( http://arxiv.org/abs/2008.05750v1 )

ライセンス: Link先を確認
Wenyong Huang, Wenchao Hu, Yu Ting Yeung, Xiao Chen(参考訳) Transformerは、自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成しており、RNNベースのモデルよりもトレーニング時間が大幅に短い。 エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。 これはアライメントを学ぶための注意機構に依存し、入力オーディオを双方向にエンコードする。 Transformerデコーディングの高計算コストは、本番ストリーミングシステムでの使用を制限する。 ストリーミングASRに適したTransformerを実現するために,Transducerフレームワークをストリーム化してアライメントの学習を行う。 オーディオエンコーディングでは,相互畳み込み層を有する一方向変圧器を適用する。 インターリーブ畳み込み層は、パフォーマンスにとって重要な将来のコンテキストのモデリングに使用される。 計算コストを削減すべく,畳み込み畳み込み層とともに音響入力を徐々にサンプリングする。 さらに,各復号ステップの計算コストを一定に抑えるために,自己アテンションにおける履歴コンテキストの長さを制限する。 このアーキテクチャはconv-transformer transducerと呼ばれ、外部言語モデルなしでlibrispeechデータセット (3.6\% wer on test-clean)で競合性能を達成する。 この性能は、以前に公開されたストリーム可能なTransformer Transducerと強力なハイブリッドストリーミングASRシステムに匹敵するものであり、ルックアヘッドウィンドウ(140~ms)が小さく、パラメータが少なく、フレームレートも低い。

Transformer has achieved competitive performance against state-of-the-art end-to-end models in automatic speech recognition (ASR), and requires significantly less training time than RNN-based models. The original Transformer, with encoder-decoder architecture, is only suitable for offline ASR. It relies on an attention mechanism to learn alignments, and encodes input audio bidirectionally. The high computation cost of Transformer decoding also limits its use in production streaming systems. To make Transformer suitable for streaming ASR, we explore Transducer framework as a streamable way to learn alignments. For audio encoding, we apply unidirectional Transformer with interleaved convolution layers. The interleaved convolution layers are used for modeling future context which is important to performance. To reduce computation cost, we gradually downsample acoustic input, also with the interleaved convolution layers. Moreover, we limit the length of history context in self-attention to maintain constant computation cost for each decoding step. We show that this architecture, named Conv-Transformer Transducer, achieves competitive performance on LibriSpeech dataset (3.6\% WER on test-clean) without external language models. The performance is comparable to previously published streamable Transformer Transducer and strong hybrid streaming ASR systems, and is achieved with smaller look-ahead window (140~ms), fewer parameters and lower frame rate.
翻訳日:2022-10-30 23:38:52 公開日:2020-08-13
# 物体検出におけるシフト等価性

Shift Equivariance in Object Detection ( http://arxiv.org/abs/2008.05787v1 )

ライセンス: Link先を確認
Marco Manfredi and Yu Wang(参考訳) 小さな画像変換に対するロバスト性は、物体検出器にとって非常に望ましい特性である。 しかし、近年の研究では、cnnベースの分類器はシフト不変ではないことが示されている。 このことが物体検出にどの程度影響を与えるかは、主に2つの構造の違いと現代の検出器の予測空間の寸法の違いから明らかでない。 本稿では, 物体検出モデルのエンドツーエンドへのシフト同値性を評価するために, シフトした画像集合上での平均平均精度の下限と上限のグリーディ探索に基づく評価指標を提案する。 新しい測定基準は、1ステージまたは2ステージ、アンカーベースまたはアンカーフリーであっても、現在のオブジェクト検出アーキテクチャが入力画像への1ピクセルシフトにも敏感であることを示している。 さらに,本研究は文献から考察し,提案手法を用いて提案手法の有効性を定量化した。 以上の結果から, いずれの方法も完全シフト同値性は得られないことが示唆された。 異なるモデルのシフト分散度と可能な要因の寄与度の測定と分析は、そのような変動を緩和したり、活用したりする方法を考案するための第一歩である。

Robustness to small image translations is a highly desirable property for object detectors. However, recent works have shown that CNN-based classifiers are not shift invariant. It is unclear to what extent this could impact object detection, mainly because of the architectural differences between the two and the dimensionality of the prediction space of modern detectors. To assess shift equivariance of object detection models end-to-end, in this paper we propose an evaluation metric, built upon a greedy search of the lower and upper bounds of the mean average precision on a shifted image set. Our new metric shows that modern object detection architectures, no matter if one-stage or two-stage, anchor-based or anchor-free, are sensitive to even one pixel shift to the input images. Furthermore, we investigate several possible solutions to this problem, both taken from the literature and newly proposed, quantifying the effectiveness of each one with the suggested metric. Our results indicate that none of these methods can provide full shift equivariance. Measuring and analyzing the extent of shift variance of different models and the contributions of possible factors, is a first step towards being able to devise methods that mitigate or even leverage such variabilities.
翻訳日:2022-10-30 23:32:45 公開日:2020-08-13
# recurrent deconvolutional generative adversarial networksとテキスト誘導ビデオ生成への応用

Recurrent Deconvolutional Generative Adversarial Networks with Application to Text Guided Video Generation ( http://arxiv.org/abs/2008.05856v1 )

ライセンス: Link先を確認
Hongyuan Yu, Yan Huang, Lihong Pi, Liang Wang(参考訳) 本稿では,ビデオ生成の新しいモデルを提案し,特にテキスト記述からのビデオ生成の問題,すなわち与えられたテキストに条件付き現実的な映像を合成しようとする試みについて述べる。 フレームの不連続性問題とそのテキストフリー生成方式のため、既存のビデオ生成手法は、このタスクをうまく扱うために容易に適応できない。 そこで,本研究では,生成器として再帰的脱畳み込みネットワーク(rdn),識別器として3次元畳み込みニューラルネットワーク(3d-cnn)を含む再帰的脱畳み込み生成逆ネットワーク(rd-gan)を提案する。 RDNは従来のリカレントニューラルネットワークの非畳み込みバージョンであり、生成したビデオフレームの長距離時間依存性をうまくモデル化し、条件情報を利用することができる。 提案したモデルはRDNを押してリアルな映像を生成することで協調的に訓練できるので、3D-CNNは実際の映像と区別できない。 提案したRD-GANを,従来の映像生成,条件付き映像生成,映像予測,映像分類を含む一連のタスクに適用し,その有効性を示す。

This paper proposes a novel model for video generation and especially makes the attempt to deal with the problem of video generation from text descriptions, i.e., synthesizing realistic videos conditioned on given texts. Existing video generation methods cannot be easily adapted to handle this task well, due to the frame discontinuity issue and their text-free generation schemes. To address these problems, we propose a recurrent deconvolutional generative adversarial network (RD-GAN), which includes a recurrent deconvolutional network (RDN) as the generator and a 3D convolutional neural network (3D-CNN) as the discriminator. The RDN is a deconvolutional version of conventional recurrent neural network, which can well model the long-range temporal dependency of generated video frames and make good use of conditional information. The proposed model can be jointly trained by pushing the RDN to generate realistic videos so that the 3D-CNN cannot distinguish them from real ones. We apply the proposed RD-GAN to a series of tasks including conventional video generation, conditional video generation, video prediction and video classification, and demonstrate its effectiveness by achieving well performance.
翻訳日:2022-10-30 23:32:27 公開日:2020-08-13
# 長編ビデオにおける行動評価のためのハイブリッド動的静的コンテキスト認識注意ネットワーク

Hybrid Dynamic-static Context-aware Attention Network for Action Assessment in Long Videos ( http://arxiv.org/abs/2008.05977v1 )

ライセンス: Link先を確認
Ling-An Zeng, Fa-Ting Hong, Wei-Shi Zheng, Qi-Zhi Yu, Wei Zeng, Yao-Wei Wang, and Jian-Huang Lai(参考訳) アクション品質評価の目的は、スポーツビデオを評価することである。 しかし、既存の作品の多くは動画のダイナミック情報(運動情報)にのみ焦点を合わせているが、スポーツ選手がビデオで演じている特定の姿勢を無視することは、長いビデオにおけるアクションアセスメントにとって重要である。 本稿では,長時間ビデオにおけるアクションアセスメントのための新しいハイブリットdynAmic-static Context-aware attenTION NETwork(ACTION-NET)を提案する。 ビデオの識別表現をより詳しく知るために,提案するハイブリッド動的静的アーキテクチャの助けを借りて,映像動的情報を学習するだけでなく,特定のフレーム内の検出されたアスリートの静的姿勢にも注目する。 さらに、時間的なインスタンス単位のグラフ畳み込みネットワークユニットと、両方のストリームがより堅牢なストリーム特徴を抽出するためのアテンションユニットからなるコンテキスト対応アテンションモジュールを活用し、前者はインスタンスと後者の関係を探り、各インスタンスに適切な重みを割り当てる。 最後に、2つのストリームの特徴を組み合わせることで、専門家が与える地味なスコアによって監督された最終的なビデオスコアを抑える。 また、4種類の体操ルーチンのビデオを含む新新新体操データセットを収集・注釈し,長編ビデオにおけるアクション品質評価の評価を行った。 その結果,提案手法の有効性が検証され,関連する手法よりも優れていた。 コードとデータセットは \url{https://github.com/lingan1996/action-net} で利用可能である。

The objective of action quality assessment is to score sports videos. However, most existing works focus only on video dynamic information (i.e., motion information) but ignore the specific postures that an athlete is performing in a video, which is important for action assessment in long videos. In this work, we present a novel hybrid dynAmic-static Context-aware attenTION NETwork (ACTION-NET) for action assessment in long videos. To learn more discriminative representations for videos, we not only learn the video dynamic information but also focus on the static postures of the detected athletes in specific frames, which represent the action quality at certain moments, along with the help of the proposed hybrid dynamic-static architecture. Moreover, we leverage a context-aware attention module consisting of a temporal instance-wise graph convolutional network unit and an attention unit for both streams to extract more robust stream features, where the former is for exploring the relations between instances and the latter for assigning a proper weight to each instance. Finally, we combine the features of the two streams to regress the final video score, supervised by ground-truth scores given by experts. Additionally, we have collected and annotated the new Rhythmic Gymnastics dataset, which contains videos of four different types of gymnastics routines, for evaluation of action quality assessment in long videos. Extensive experimental results validate the efficacy of our proposed method, which outperforms related approaches. The codes and dataset are available at \url{https://github.com/lingan1996/ACTION-NET}.
翻訳日:2022-10-30 23:31:20 公開日:2020-08-13
# 深層学習におけるブラックマジック : 人間のスキルがネットワークトレーニングに与える影響

Black Magic in Deep Learning: How Human Skill Impacts Network Training ( http://arxiv.org/abs/2008.05981v1 )

ライセンス: Link先を確認
Kanav Anand, Ziqi Wang, Marco Loog, Jan van Gemert(参考訳) 深層学習におけるユーザの事前経験は,どのように影響するか? 経験の異なる31名の被験者を対象に最初の研究を行った。 彼らのタスクは、所定のディープラーニングアーキテクチャに対してハイパーパラメータ最適化を実行することである。 その結果,参加者の経験と最終評価との間に強い正の相関が認められた。 さらに、経験豊富な参加者が平均してリソースを少なくすることで、より良いソリューションを見つけることも示している。 さらに,事前経験のない参加者が最適なハイパーパラメータの追求においてランダムな戦略に従うことを示唆する。 本研究は,深層学習における技術結果と科学的再現性の比較において,主観的要因について検討する。

How does a user's prior experience with deep learning impact accuracy? We present an initial study based on 31 participants with different levels of experience. Their task is to perform hyperparameter optimization for a given deep learning architecture. The results show a strong positive correlation between the participant's experience and the final performance. They additionally indicate that an experienced participant finds better solutions using fewer resources on average. The data suggests furthermore that participants with no prior experience follow random strategies in their pursuit of optimal hyperparameters. Our study investigates the subjective human factor in comparisons of state of the art results and scientific reproducibility in deep learning.
翻訳日:2022-10-30 23:30:55 公開日:2020-08-13
# DSDNet: 深く構造化された自動運転ネットワーク

DSDNet: Deep Structured self-Driving Network ( http://arxiv.org/abs/2008.06041v1 )

ライセンス: Link先を確認
Wenyuan Zeng, Shenlong Wang, Renjie Liao, Yun Chen, Bin Yang, Raquel Urtasun(参考訳) 本稿では,1つのニューラルネットワークを用いて物体検出,動き予測,動き計画を行うDeep Structured Self-Driving Network (DSDNet)を提案する。 この目標に向けて,アクター間の相互作用を考慮し,社会的に一貫したマルチモーダル未来予測を生成する,深く構造化されたエネルギーベースモデルを開発する。 さらに、DSDNetは、将来予測されるアクターの分布を利用して、構造化計画コストを用いて安全な操作を計画する。 サンプルベースの定式化により,連続確率変数の確率的推論の難しさを克服できる。 大規模な自動運転データセットの実験は、我々のモデルが最先端のデータを著しく上回ることを示した。

In this paper, we propose the Deep Structured self-Driving Network (DSDNet), which performs object detection, motion prediction, and motion planning with a single neural network. Towards this goal, we develop a deep structured energy based model which considers the interactions between actors and produces socially consistent multimodal future predictions. Furthermore, DSDNet explicitly exploits the predicted future distributions of actors to plan a safe maneuver by using a structured planning cost. Our sample-based formulation allows us to overcome the difficulty in probabilistic inference of continuous random variables. Experiments on a number of large-scale self driving datasets demonstrate that our model significantly outperforms the state-of-the-art.
翻訳日:2022-10-30 23:30:46 公開日:2020-08-13
# 部分的観察からの全身意識

Full-Body Awareness from Partial Observations ( http://arxiv.org/abs/2008.06046v1 )

ライセンス: Link先を確認
Chris Rockwell, David F. Fouhey(参考訳) 人間の3dメッシュの回復には大きな進歩があり、消費者ビデオデータから世界を学ぶことにも大きな関心が寄せられている。 残念なことに、現在の3Dメッシュリカバリの方法は、コンシューマーのビデオデータにはあまり役に立たない。 私たちはこの問題を研究し、それに対処するために多くの貢献をします。 (i)人間の3dメッシュリカバリシステムをコンシューマービデオに適用する簡易かつ高効率な自己学習フレームワークを提案し,その最近の2つのシステムへの応用を実証する。 (ii)4つのコンシューマビデオデータセットにまたがる13kフレームの評価プロトコルとキーポイントアノテーションを導入し,そのタスクについて検討する。 3)本手法は,トレーニングしたデータセットの試験ビデオと,さらに適応しない3つのデータセットの両方において,ベースラインと比較してPCKと人体判断を大幅に改善することを示す。 プロジェクトウェブサイト: https://crockwell.github.io/partial_humans

There has been great progress in human 3D mesh recovery and great interest in learning about the world from consumer video data. Unfortunately current methods for 3D human mesh recovery work rather poorly on consumer video data, since on the Internet, unusual camera viewpoints and aggressive truncations are the norm rather than a rarity. We study this problem and make a number of contributions to address it: (i) we propose a simple but highly effective self-training framework that adapts human 3D mesh recovery systems to consumer videos and demonstrate its application to two recent systems; (ii) we introduce evaluation protocols and keypoint annotations for 13K frames across four consumer video datasets for studying this task, including evaluations on out-of-image keypoints; and (iii) we show that our method substantially improves PCK and human-subject judgments compared to baselines, both on test videos from the dataset it was trained on, as well as on three other datasets without further adaptation. Project website: https://crockwell.github.io/partial_humans
翻訳日:2022-10-30 23:30:34 公開日:2020-08-13
# ニューラルネットのモデルベースキャラクタリゼーションによる新規検出

Novelty Detection Through Model-Based Characterization of Neural Networks ( http://arxiv.org/abs/2008.06094v1 )

ライセンス: Link先を確認
Gukyeong Kwon, Mohit Prabhushankar, Dogancan Temel, Ghassan AlRegib(参考訳) 本稿では,新しい入力タイプや条件を検出するニューラルネットワークのモデルに基づく特徴付けを提案する。 機械学習アルゴリズムの性能を著しく低下させる異常入力を特定するには、新しい発見が不可欠である。 既存の研究の大部分は、異常な入力を検出するためにアクティベーションベースの表現に注目しており、データの観点から異常のキャラクタリゼーションを制限する。 しかし、モデル視点は、新しい点や異常点の観点からも情報を得ることができる。 ニューロティ検出におけるモデル視点の意義を明らかにするために,バックプロパゲーテッド勾配を用いた。 勾配の表現能力とアクティベーションの表現能力を比較するために包括的な分析を行い,新しいクラスと条件検出において,勾配がアクティベーションよりも優れていることを示す。 我々は,MNIST,Fashion-MNIST,CIFAR-10,CURE-TSRの4つの画像認識データセットを用いてアプローチを検証する。 平均AUROCは0.953、0.918、0.582、0.746である。

In this paper, we propose a model-based characterization of neural networks to detect novel input types and conditions. Novelty detection is crucial to identify abnormal inputs that can significantly degrade the performance of machine learning algorithms. Majority of existing studies have focused on activation-based representations to detect abnormal inputs, which limits the characterization of abnormality from a data perspective. However, a model perspective can also be informative in terms of the novelties and abnormalities. To articulate the significance of the model perspective in novelty detection, we utilize backpropagated gradients. We conduct a comprehensive analysis to compare the representation capability of gradients with that of activation and show that the gradients outperform the activation in novel class and condition detection. We validate our approach using four image recognition datasets including MNIST, Fashion-MNIST, CIFAR-10, and CURE-TSR. We achieve a significant improvement on all four datasets with an average AUROC of 0.953, 0.918, 0.582, and 0.746, respectively.
翻訳日:2022-10-30 23:30:17 公開日:2020-08-13
# 3d鳥の復元:単一視点からのデータセット、モデル、形状復元

3D Bird Reconstruction: a Dataset, Model, and Shape Recovery from a Single View ( http://arxiv.org/abs/2008.06133v1 )

ライセンス: Link先を確認
Marc Badger, Yufu Wang, Adarsh Modh, Ammon Perkes, Nikos Kolotouros, Bernd G. Pfrommer, Marc F. Schmidt, Kostas Daniilidis(参考訳) 動物のポーズの自動キャプチャは、神経科学と社会行動を研究する方法を変える。 運動には重要な社会的手がかりが伴うが、現在の手法では動物のポーズや形、特に鳥のような社会的な動物についてロバストに見積もることはできない。 この問題に対処するため,我々はまず,live birdsが表示するユニークな形状とポーズ空間を捉えるために,モデルおよびマルチビュー最適化手法を導入する。 次に、単一ビューから正確な鳥の姿勢を復元するキーポイント、マスク、ポーズ、形状回帰のためのパイプラインと実験を導入する。 最後に,屋外施設に収容された15羽の社会鳥群から収集した多視点キーポイントとマスクアノテーションを提供する。 ビデオ、結果、コード、メッシュモデル、およびPenn Aviary Datasetを備えたプロジェクトのWebサイトはhttps://marcbadger.github.io/avian-meshで見ることができる。

Automated capture of animal pose is transforming how we study neuroscience and social behavior. Movements carry important social cues, but current methods are not able to robustly estimate pose and shape of animals, particularly for social animals such as birds, which are often occluded by each other and objects in the environment. To address this problem, we first introduce a model and multi-view optimization approach, which we use to capture the unique shape and pose space displayed by live birds. We then introduce a pipeline and experiments for keypoint, mask, pose, and shape regression that recovers accurate avian postures from single views. Finally, we provide extensive multi-view keypoint and mask annotations collected from a group of 15 social birds housed together in an outdoor aviary. The project website with videos, results, code, mesh model, and the Penn Aviary Dataset can be found at https://marcbadger.github.io/avian-mesh.
翻訳日:2022-10-30 23:29:58 公開日:2020-08-13
# 人間レベルのシフトを緩和する : マルチパーソン・ポース推定のためのロバスト領域適応法

Alleviating Human-level Shift : A Robust Domain Adaptation Method for Multi-person Pose Estimation ( http://arxiv.org/abs/2008.05717v1 )

ライセンス: Link先を確認
Xixia Xu, Qi Zou, Xue Lin(参考訳) 人間のポーズ推定は、十分なアノテーションを必要とする教師付き学習に重点を置いて、広く研究されてきた。 しかし、実際のアプリケーションでは、事前訓練されたポーズ推定モデルは、ラベルやスパースラベルのない新しいドメインに適応する必要がある。 このような2次元ポーズ推定の領域適応は検討されていない。 主な理由は、ポーズが典型的な位相構造を持ち、局所的なキーポイントにきめ細かい特徴を必要とするためである。 既存の適応法は対象物の位相構造を考慮せず、画像全体を粗く整列させる。 そこで本研究では,多人数ポーズ推定のための新しい領域適応手法を提案し,人間レベルの位相構造アライメントときめ細かい特徴アライメントを実現する。 本手法は3つのモジュールから構成される:クロス・アテンティブ・フィーチャー・アライメント(CAFA)、ドメイン内構造適応(ISA)、ドメイン間ヒューマントポロジー・アライメント(IHTA)モジュール。 CAFAは、適応のための一貫した特徴を適応的に集約するために、2人の人間間のきめ細かい局所的特徴相関に焦点を当てた双方向空間的注意モジュール(BSAM)を採用している。 準教師付きドメイン適応(SSDA)においてのみISAを採用し、対応するキーポイント意味関係を利用してドメイン内バイアスを低減する。 最も重要なことは、ドメイン間の差異を減らすために、よりドメイン不変な人間トポロジ表現を学習するためのIHTAを提案することである。 グラフ畳み込みネットワーク(GCN)を用いて,高次関係を考慮したメッセージの送信により,人間のトポロジ構造をモデル化する。 GCNに基づくアライメントを保持する構造は、隠蔽または極端なポーズ推論に有用である。 2つの人気のあるベンチマークで広範な実験を行い,従来の教師付き手法と比較し,提案手法の能力を示す。

Human pose estimation has been widely studied with much focus on supervised learning requiring sufficient annotations. However, in real applications, a pretrained pose estimation model usually need be adapted to a novel domain with no labels or sparse labels. Such domain adaptation for 2D pose estimation hasn't been explored. The main reason is that a pose, by nature, has typical topological structure and needs fine-grained features in local keypoints. While existing adaptation methods do not consider topological structure of object-of-interest and they align the whole images coarsely. Therefore, we propose a novel domain adaptation method for multi-person pose estimation to conduct the human-level topological structure alignment and fine-grained feature alignment. Our method consists of three modules: Cross-Attentive Feature Alignment (CAFA), Intra-domain Structure Adaptation (ISA) and Inter-domain Human-Topology Alignment (IHTA) module. The CAFA adopts a bidirectional spatial attention module (BSAM)that focuses on fine-grained local feature correlation between two humans to adaptively aggregate consistent features for adaptation. We adopt ISA only in semi-supervised domain adaptation (SSDA) to exploit the corresponding keypoint semantic relationship for reducing the intra-domain bias. Most importantly, we propose an IHTA to learn more domain-invariant human topological representation for reducing the inter-domain discrepancy. We model the human topological structure via the graph convolution network (GCN), by passing messages on which, high-order relations can be considered. This structure preserving alignment based on GCN is beneficial to the occluded or extreme pose inference. Extensive experiments are conducted on two popular benchmarks and results demonstrate the competency of our method compared with existing supervised approaches.
翻訳日:2022-10-30 23:23:54 公開日:2020-08-13
# ビデオ認識のためのデータ拡張による時間不変・局所的特徴の学習

Learning Temporally Invariant and Localizable Features via Data Augmentation for Video Recognition ( http://arxiv.org/abs/2008.05721v1 )

ライセンス: Link先を確認
Taeoh Kim, Hyeongmin Lee, MyeongAh Cho, Ho Seong Lee, Dong Heon Cho, Sangyoun Lee(参考訳) ディープラーニングに基づくビデオ認識は、大規模データセットと時空間ネットワークアーキテクチャの開発とともに、有望な改善を示している。 画像認識において、空間的不変特徴の学習は、認識性能とロバスト性を改善する重要な要因である。 クロッピング、フリップ、回転、フォトメトリックジッタリングなどの視覚的インダクティブプリエントに基づくデータ拡張は、これらの機能を達成するための代表的なアプローチである。 最近の最先端の認識ソリューションは、拡張操作の混合を利用する現代的なデータ拡張戦略に依存している。 本研究では,ビデオの時間的不変あるいは時間的局所的特徴を学習し,時間的摂動や複雑な動作をカバーするための時間的次元にこれらの戦略を拡張する。 新たな時間的データ拡張アルゴリズムに基づき、空間のみのデータ拡張アルゴリズムと比較して、データ効率のよい行動認識のための第1視覚誘導優先アルゴリズム(VIPriors)を含む限られた訓練データを用いて、映像認識性能を向上する。 さらに、学習した特徴は時間的に局所化可能であり、空間拡張アルゴリズムでは達成できない。 ソースコードはhttps://github.com/taeoh-kim/temporal_data_augmentationで入手できます。

Deep-Learning-based video recognition has shown promising improvements along with the development of large-scale datasets and spatiotemporal network architectures. In image recognition, learning spatially invariant features is a key factor in improving recognition performance and robustness. Data augmentation based on visual inductive priors, such as cropping, flipping, rotating, or photometric jittering, is a representative approach to achieve these features. Recent state-of-the-art recognition solutions have relied on modern data augmentation strategies that exploit a mixture of augmentation operations. In this study, we extend these strategies to the temporal dimension for videos to learn temporally invariant or temporally localizable features to cover temporal perturbations or complex actions in videos. Based on our novel temporal data augmentation algorithms, video recognition performances are improved using only a limited amount of training data compared to the spatial-only data augmentation algorithms, including the 1st Visual Inductive Priors (VIPriors) for data-efficient action recognition challenge. Furthermore, learned features are temporally localizable that cannot be achieved using spatial augmentation algorithms. Our source code is available at https://github.com/taeoh-kim/temporal_data_augmentation.
翻訳日:2022-10-30 23:23:25 公開日:2020-08-13
# アクティブラーニングにおける文脈多様性

Contextual Diversity for Active Learning ( http://arxiv.org/abs/2008.05723v1 )

ライセンス: Link先を確認
Sharat Agarwal and Himanshu Arora and Saket Anand and Chetan Arora(参考訳) 大規模なアノテートデータセットの必要性は、多くの実用的な用途において深層畳み込みニューラルネットワーク(CNN)の使用を制限する。 この問題は、与えられたアノテーション予算の下で、微調整時に最大精度が得られるデータのサブセットを選択できるアクティブラーニング(al)技術を使用することで解決できる。 最先端のアル・アプローチは通常、空間的文脈の変化を効果的に捉えることができない視覚的多様性や予測の不確かさの尺度に依存する。 一方、現代のCNNアーキテクチャでは、高精度な予測を実現するために空間コンテキストを多用している。 接地ラベルがない場合の文脈評価は困難であるため,空間的共起クラスに関連する混乱を捉えた文脈多様性の概念を導入する。 文脈多様性(CD)は、CNNが関心のある領域に対して予測する確率ベクトルが一般により大きな受容場からの情報を含んでいるという決定的な観察に基づいている。 この知見を活かし,(1)コアセット戦略と(2)強化学習に基づく方針の2つのalフレームワークで提案するcd尺度を用いてフレーム選択を行った。 セマンティクスセグメンテーション,オブジェクト検出,画像分類といったベンチマークデータセット上でのアクティブラーニングのための技術結果の確立に関する広範な実証的評価を行った。 本研究は,アクティベーション・ラーニングにおける文脈多様性の利点を明らかにした。 ソースコードと追加結果はhttps://github.com/sharat29ag/cdalで入手できる。

Requirement of large annotated datasets restrict the use of deep convolutional neural networks (CNNs) for many practical applications. The problem can be mitigated by using active learning (AL) techniques which, under a given annotation budget, allow to select a subset of data that yields maximum accuracy upon fine tuning. State of the art AL approaches typically rely on measures of visual diversity or prediction uncertainty, which are unable to effectively capture the variations in spatial context. On the other hand, modern CNN architectures make heavy use of spatial context for achieving highly accurate predictions. Since the context is difficult to evaluate in the absence of ground-truth labels, we introduce the notion of contextual diversity that captures the confusion associated with spatially co-occurring classes. Contextual Diversity (CD) hinges on a crucial observation that the probability vector predicted by a CNN for a region of interest typically contains information from a larger receptive field. Exploiting this observation, we use the proposed CD measure within two AL frameworks: (1) a core-set based strategy and (2) a reinforcement learning based policy, for active frame selection. Our extensive empirical evaluation establish state of the art results for active learning on benchmark datasets of Semantic Segmentation, Object Detection and Image Classification. Our ablation studies show clear advantages of using contextual diversity for active learning. The source code and additional results are available at https://github.com/sharat29ag/CDAL.
翻訳日:2022-10-30 23:23:07 公開日:2020-08-13
# ダイナミックハンドジェスチャー認識のための知識共有モデルの集合

An Ensemble of Knowledge Sharing Models for Dynamic Hand Gesture Recognition ( http://arxiv.org/abs/2008.05732v1 )

ライセンス: Link先を確認
Kenneth Lai and Svetlana Yanushkevich(参考訳) 本稿では,人間と機械の相互作用の文脈における動的ジェスチャー認識に着目した。 本稿では,2つのサブネットワーク,トランスフォーマーと命令ニューロロン長期記憶(ON-LSTM)に基づくリカレントニューラルネットワーク(RNN)からなるモデルを提案する。 各サブネットワークは、骨格関節のみを用いてジェスチャー認識のタスクを実行するように訓練される。 各サブネットワークはアーキテクチャの違いによって異なるタイプの特徴を抽出するため、サブネットワーク間で知識を共有することができる。 知識蒸留により、各サブネットワークの特徴と予測を融合して新しい融合分類器となる。 さらに、循環学習率を使用して、より一般化可能な予測を得るために、アンサンブルに組み合わされた一連のモデルを生成することができる。 提案された知識共有モデルのアンサンブルは、Dynamic Hand Gesture-14/28データセットを用いて、骨格情報のみを使用して、全体の86.11%の精度を示す。

The focus of this paper is dynamic gesture recognition in the context of the interaction between humans and machines. We propose a model consisting of two sub-networks, a transformer and an ordered-neuron long-short-term-memory (ON-LSTM) based recurrent neural network (RNN). Each sub-network is trained to perform the task of gesture recognition using only skeleton joints. Since each sub-network extracts different types of features due to the difference in architecture, the knowledge can be shared between the sub-networks. Through knowledge distillation, the features and predictions from each sub-network are fused together into a new fusion classifier. In addition, a cyclical learning rate can be used to generate a series of models that are combined in an ensemble, in order to yield a more generalizable prediction. The proposed ensemble of knowledge-sharing models exhibits an overall accuracy of 86.11% using only skeleton information, as tested using the Dynamic Hand Gesture-14/28 dataset
翻訳日:2022-10-30 23:22:27 公開日:2020-08-13
# クロススペクトルバイオメトリック対応システムにおける決定支援の信頼性

Reliability of Decision Support in Cross-spectral Biometric-enabled Systems ( http://arxiv.org/abs/2008.05735v1 )

ライセンス: Link先を確認
Kenneth Lai, Svetlana N. Yanushkevich, and Vlad Shmerko(参考訳) 本稿では,顔と表情のバイオメトリックスを利用した意思決定支援システムの性能評価について述べる。 評価基準には、エラーのリスクと、関連する決定の信頼性、および、その決定に対するオペレーターの信頼の変化への貢献が含まれている。 関連する応用としては、個人やチーム、状況認識システムにおける人間の行動監視とストレス検出がある。 顔と表情のクロススペクトル映像のデータベースを用いて,人-機械システムの性能評価に影響を及ぼすバイオメトリックスのバイアス現象を実証する実験を行った。

This paper addresses the evaluation of the performance of the decision support system that utilizes face and facial expression biometrics. The evaluation criteria include risk of error and related reliability of decision, as well as their contribution to the changes in the perceived operator's trust in the decision. The relevant applications include human behavior monitoring and stress detection in individuals and teams, and in situational awareness system. Using an available database of cross-spectral videos of faces and facial expressions, we conducted a series of experiments that demonstrate the phenomenon of biases in biometrics that affect the evaluated measures of the performance in human-machine systems.
翻訳日:2022-10-30 23:22:11 公開日:2020-08-13
# 水平面および垂直面による車両搭載カメラのポーズ推定

Pose Estimation for Vehicle-mounted Cameras via Horizontal and Vertical Planes ( http://arxiv.org/abs/2008.05743v1 )

ライセンス: Link先を確認
Istan Gergo Gal, Daniel Barath, Levente Hajder(参考訳) 移動車に搭載されたキャリブレーションカメラの運動を,特別なホモグラフを復元することで,単一のアフィン対応から推定する2つの新しい解法を提案する。 最初のクラスでは、探索された平面はカメラ軸の1つに垂直であることが期待されている。 第二のクラスでは、平面は未知の正常な地面と直交しており、例えば建物ファサードである。 どちらの手法も小さな係数行列を持つ線形系によって解かれるため、非常に効率的である。 最小かつ過度に決定されたケースは、提案手法によって解決できる。 これらは合成データと一般公開された実世界のデータセットでテストされる。 斬新な手法は従来のアルゴリズムとより正確か同等であり、最先端の頑健な推定器に含まれると高速である。

We propose two novel solvers for estimating the egomotion of a calibrated camera mounted to a moving vehicle from a single affine correspondence via recovering special homographies. For the first class of solvers, the sought plane is expected to be perpendicular to one of the camera axes. For the second class, the plane is orthogonal to the ground with unknown normal, e.g., it is a building facade. Both methods are solved via a linear system with a small coefficient matrix, thus, being extremely efficient. Both the minimal and over-determined cases can be solved by the proposed methods. They are tested on synthetic data and on publicly available real-world datasets. The novel methods are more accurate or comparable to the traditional algorithms and are faster when included in state of the art robust estimators.
翻訳日:2022-10-30 23:21:30 公開日:2020-08-13
# ラベルなしデータからの敵対的知識伝達

Adversarial Knowledge Transfer from Unlabeled Data ( http://arxiv.org/abs/2008.05746v1 )

ライセンス: Link先を確認
Akash Gupta, Rameswar Panda, Sujoy Paul, Jianming Zhang, Amit K. Roy-Chowdhury(参考訳) 機械学習による視覚認識のアプローチは非常に有望であるが、既存の手法のほとんどは、大量のラベル付きトレーニングデータの可用性に大きく依存している。 しかし、現実世界のほとんどの設定において、そのような大きなラベル付きデータセットを手動で収集することは、データのラベル付けコストや特定のドメイン内のデータのあいまいさのために不可能である。 本稿では,インターネット規模非ラベルデータから知識を転送し,所定の視覚認識タスクにおける分類器の性能を向上させるための新しいadversarial knowledge transfer(akt)フレームワークを提案する。 提案するadversarial learningフレームワークは、ラベル付きソースデータの特徴空間とラベル付きターゲットデータとを整合させ、対象の分類器を用いてソースデータ上の擬似ラベルを予測する。 提案手法の重要な新しい側面は,ラベル付けされていないソースデータはラベル付けされたターゲットデータと異なるクラスであり,既存のアプローチとは異なり,個別のプリテキストタスクを定義する必要はない点である。 広範な実験により、このアプローチで学習したモデルは、複数の標準データセット上で様々な視覚認識タスクにまたがって多くの可能性を秘めていることをよく示しています。

While machine learning approaches to visual recognition offer great promise, most of the existing methods rely heavily on the availability of large quantities of labeled training data. However, in the vast majority of real-world settings, manually collecting such large labeled datasets is infeasible due to the cost of labeling data or the paucity of data in a given domain. In this paper, we present a novel Adversarial Knowledge Transfer (AKT) framework for transferring knowledge from internet-scale unlabeled data to improve the performance of a classifier on a given visual recognition task. The proposed adversarial learning framework aligns the feature space of the unlabeled source data with the labeled target data such that the target classifier can be used to predict pseudo labels on the source data. An important novel aspect of our method is that the unlabeled source data can be of different classes from those of the labeled target data, and there is no need to define a separate pretext task, unlike some existing approaches. Extensive experiments well demonstrate that models learned using our approach hold a lot of promise across a variety of visual recognition tasks on multiple standard datasets.
翻訳日:2022-10-30 23:21:19 公開日:2020-08-13
# 複数の3次元ポーズ仮説に対する弱教師付き生成ネットワーク

Weakly Supervised Generative Network for Multiple 3D Human Pose Hypotheses ( http://arxiv.org/abs/2008.05770v1 )

ライセンス: Link先を確認
Chen Li and Gim Hee Lee(参考訳) 単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。 いくつかの先行研究は、複数の仮説を生成して逆問題に対処した。 しかし、これらの研究は強く監督されており、入手が困難な2D-to-3D対応を必要とする。 本稿では,逆問題に対処し,基底真理2dから3d対応の必要性を回避するために,弱い教師付き深層生成ネットワークを提案する。 そこで本研究では,未知のマルチモーダルターゲット後方分布を近似する提案分布をモデル化するために,ネットワークを設計する。 提案手法と目標分布のKL分散を最小化することにより近似を達成し、2次元再投影誤差と、弱制御が可能な事前損失項を導出する。 さらに, 平均シフトアルゴリズムを用いて, 最も可能性の高い解を試料の条件モードとして決定する。 我々は,Human3.6M,MPII,MPI-INF-3DHPの3つのベンチマークデータセットを用いて評価を行った。 実験の結果,提案手法は複数の実現可能な仮説を生成でき,既存の弱い教師付きアプローチと比較して最先端の結果が得られることがわかった。 ソースコードはプロジェクトのWebサイトから入手可能です。

3D human pose estimation from a single image is an inverse problem due to the inherent ambiguity of the missing depth. Several previous works addressed the inverse problem by generating multiple hypotheses. However, these works are strongly supervised and require ground truth 2D-to-3D correspondences which can be difficult to obtain. In this paper, we propose a weakly supervised deep generative network to address the inverse problem and circumvent the need for ground truth 2D-to-3D correspondences. To this end, we design our network to model a proposal distribution which we use to approximate the unknown multi-modal target posterior distribution. We achieve the approximation by minimizing the KL divergence between the proposal and target distributions, and this leads to a 2D reprojection error and a prior loss term that can be weakly supervised. Furthermore, we determine the most probable solution as the conditional mode of the samples using the mean-shift algorithm. We evaluate our method on three benchmark datasets -- Human3.6M, MPII and MPI-INF-3DHP. Experimental results show that our approach is capable of generating multiple feasible hypotheses and achieves state-of-the-art results compared to existing weakly supervised approaches. Our source code is available at the project website.
翻訳日:2022-10-30 23:21:01 公開日:2020-08-13
# デジタル病理画像における核分割のためのスパース符号化駆動深度決定木アンサンブル

Sparse Coding Driven Deep Decision Tree Ensembles for Nuclear Segmentation in Digital Pathology Images ( http://arxiv.org/abs/2008.05657v1 )

ライセンス: Link先を確認
Jie Song, Liang Xiao, Mohsen Molaei, and Zhichao Lian(参考訳) 本稿では,デジタル病理画像セグメンテーションタスクにおいて,ディープニューラルネットワークに匹敵するパフォーマンスを持つ,訓練が容易かつ強力な表現学習手法を提案する。 ScD2TEと略すこの手法はスパースコーディング駆動の深層決定木アンサンブルと呼ばれ、表現学習の新しい視点を提供する。 非微分可能なペアワイズモジュールに基づいて複数のレイヤを積み重ねる可能性を検討し、機能マップの再利用とエンドツーエンドの高密度学習の特徴を持つ密結合アーキテクチャを生成する。 このアーキテクチャでは、各層の出力から複数レベルの特徴を抽出するために高速畳み込みスパース符号化を用いる。 このように、一連の決定木アンサンブルを学習することにより、リッチな画像出現モデルとよりコンテキスト情報とが統合される。 前のレイヤの外観と高レベルのコンテキスト特徴は、それらを入力としてフィードフォワードに結合することでシームレスに結合され、その後のレイヤの出力がより正確になり、モデル全体のトレーニングが効率的になる。 深層ニューラルネットワークと比較して,提案するscd2teはバックプロパゲーション計算を必要としない。 ScD2TEは、エンド・ツー・エンドのピクセル・ワイド・トレーニングを階層的に高速に行うことができる。 我々は, 畳み込みニューラルネットワーク(CNN)や完全畳み込みネットワーク(FCN)など, 最先端の深層学習手法との比較において, 連続的に高い性能が得られるマルチディスリーズ状態とマルチオーガナイズデータセットを用いて, セグメンテーション手法の優位性を実証した。

In this paper, we propose an easily trained yet powerful representation learning approach with performance highly competitive to deep neural networks in a digital pathology image segmentation task. The method, called sparse coding driven deep decision tree ensembles that we abbreviate as ScD2TE, provides a new perspective on representation learning. We explore the possibility of stacking several layers based on non-differentiable pairwise modules and generate a densely concatenated architecture holding the characteristics of feature map reuse and end-to-end dense learning. Under this architecture, fast convolutional sparse coding is used to extract multi-level features from the output of each layer. In this way, rich image appearance models together with more contextual information are integrated by learning a series of decision tree ensembles. The appearance and the high-level context features of all the previous layers are seamlessly combined by concatenating them to feed-forward as input, which in turn makes the outputs of subsequent layers more accurate and the whole model efficient to train. Compared with deep neural networks, our proposed ScD2TE does not require back-propagation computation and depends on less hyper-parameters. ScD2TE is able to achieve a fast end-to-end pixel-wise training in a layer-wise manner. We demonstrated the superiority of our segmentation technique by evaluating it on the multi-disease state and multi-organ dataset where consistently higher performances were obtained for comparison against several state-of-the-art deep learning methods such as convolutional neural networks (CNN), fully convolutional networks (FCN), etc.
翻訳日:2022-10-30 23:15:32 公開日:2020-08-13
# セマンティックセグメンテーションと対向ロバストネスのためのカテゴリー依存型MixUpによる特徴結合

Feature Binding with Category-Dependant MixUp for Semantic Segmentation and Adversarial Robustness ( http://arxiv.org/abs/2008.05667v1 )

ライセンス: Link先を確認
Md Amirul Islam, Matthew Kowal, Konstantinos G. Derpanis, Neil D. B. Bruce(参考訳) 本稿では,ネットワーク全体のカテゴリ間情報に関連する競合仮説から生じる干渉を効果的に解消する,畳み込みニューラルネットワークのトレーニング戦略を提案する。 この前提は機能バインディングの概念に基づいており、これは、ネットワーク内の層と空間にまたがるアクティベーションがうまく統合されて正しい推論決定に達するプロセスとして定義される。 本研究は,クラスラベルに基づいて画像のブレンドを行い,同時に画像のセグメンテーションと分離を行う特徴結合ネットワークを訓練することにより,高密度画像ラベリングを実現する。 その後、ノイズの活性化を抑制する特徴が追加の望ましい特性と高い確率の予測を示す。 そこで本研究では,従来の手法とは異なり,攻撃に対する堅牢性を高めると同時に,ベースセグメンテーションネットワークの性能を高める汎用的なメカニズムを明らかにする。

In this paper, we present a strategy for training convolutional neural networks to effectively resolve interference arising from competing hypotheses relating to inter-categorical information throughout the network. The premise is based on the notion of feature binding, which is defined as the process by which activation's spread across space and layers in the network are successfully integrated to arrive at a correct inference decision. In our work, this is accomplished for the task of dense image labelling by blending images based on their class labels, and then training a feature binding network, which simultaneously segments and separates the blended images. Subsequent feature denoising to suppress noisy activations reveals additional desirable properties and high degrees of successful predictions. Through this process, we reveal a general mechanism, distinct from any prior methods, for boosting the performance of the base segmentation network while simultaneously increasing robustness to adversarial attacks.
翻訳日:2022-10-30 23:14:41 公開日:2020-08-13
# オブジェクト提案の一般化につながるものは何か?

What leads to generalization of object proposals? ( http://arxiv.org/abs/2008.05700v1 )

ライセンス: Link先を確認
Rui Wang, Dhruv Mahajan, Vignesh Ramanathan(参考訳) オブジェクトの提案生成は、多くの検出モデルにおける最初のステップであることが多い。 未発見のクラスに一般化した優れた提案モデルを訓練することは利益がある。 これにより、検出モデルをより少ないアノテーションで多数のクラスにスケールできる。 そこで本研究では,少数のソースクラスに対して学習した検出モデルを用いて,未知のクラスに一般化する提案を提案する。 良好な一般化に必要なデータセットの多様性とラベル空間の粒度の性質を系統的に研究する。 細粒度ラベルと粗いラベルとのトレードオフを示す。 よりデータ効率の良い方法で一般化された提案を得るために、検出モデルを訓練するために必要な十分かつ必要なクラスの集合である。 Open Images V4データセットでは、クラスのうちそのようなプロトタイプセットを形成するために選択できるのは25%に過ぎなかった。 これらのクラスでトレーニングされたモデルから得られた提案は、平均リコール(AR)の観点から、すべてのクラスを使用するよりもわずか4.3%悪い。 また、高速なR-CNNモデルにより、RetinaNetのようなシングルステージネットワークと比較して提案がより一般化されることを示す。

Object proposal generation is often the first step in many detection models. It is lucrative to train a good proposal model, that generalizes to unseen classes. This could help scaling detection models to larger number of classes with fewer annotations. Motivated by this, we study how a detection model trained on a small set of source classes can provide proposals that generalize to unseen classes. We systematically study the properties of the dataset - visual diversity and label space granularity - required for good generalization. We show the trade-off between using fine-grained labels and coarse labels. We introduce the idea of prototypical classes: a set of sufficient and necessary classes required to train a detection model to obtain generalized proposals in a more data-efficient way. On the Open Images V4 dataset, we show that only 25% of the classes can be selected to form such a prototypical set. The resulting proposals from a model trained with these classes is only 4.3% worse than using all the classes, in terms of average recall (AR). We also demonstrate that Faster R-CNN model leads to better generalization of proposals compared to a single-stage network like RetinaNet.
翻訳日:2022-10-30 23:13:36 公開日:2020-08-13
# ドメイン適応のためのネットワークアーキテクチャ探索

Network Architecture Search for Domain Adaptation ( http://arxiv.org/abs/2008.05706v1 )

ライセンス: Link先を確認
Yichen Li, Xingchao Peng(参考訳) ディープネットワークは、ドメイン適応のための転送可能な表現を学ぶために使われてきた。 既存のディープドメイン適応手法は、画像分類タスク用に設計された一般的な手作りネットワークを体系的に採用しており、最適ドメイン適応性能に繋がる。 本稿では,ドメイン適応のための最適なネットワークアーキテクチャを導出するために,識別可能なニューラルネットワーク探索を利用する原理的フレームワークであるNeural Architecture Search for Domain Adaptation (NASDA)を提案する。 NASDAは、最適なアーキテクチャを導き出すために、マルチカーネルの最大値の離散性を用いたニューラルネットワーク探索と、特徴生成器と特徴生成器のバッチ間の敵対的トレーニングという、2つの新しいトレーニング戦略で設計されている。 我々はnasdaがいくつかのドメイン適応ベンチマークにおいて最先端のパフォーマンスをもたらすことを実験的に実証する。

Deep networks have been used to learn transferable representations for domain adaptation. Existing deep domain adaptation methods systematically employ popular hand-crafted networks designed specifically for image-classification tasks, leading to sub-optimal domain adaptation performance. In this paper, we present Neural Architecture Search for Domain Adaptation (NASDA), a principle framework that leverages differentiable neural architecture search to derive the optimal network architecture for domain adaptation task. NASDA is designed with two novel training strategies: neural architecture search with multi-kernel Maximum Mean Discrepancy to derive the optimal architecture, and adversarial training between a feature generator and a batch of classifiers to consolidate the feature generator. We demonstrate experimentally that NASDA leads to state-of-the-art performance on several domain adaptation benchmarks.
翻訳日:2022-10-30 23:13:21 公開日:2020-08-13
# 動的特徴選択によるロバスト画像マッチング

Robust Image Matching By Dynamic Feature Selection ( http://arxiv.org/abs/2008.05708v1 )

ライセンス: Link先を確認
Hao Huang, Jianchun Chen, Xiang Li, Lingjing Wang, Yi Fang(参考訳) 画像間の密接な対応を推定することは、長年の課題である。 近年,畳み込みニューラルネットワーク(cnns)が高レベル特徴マップを抽出し,特徴マッチングによって対応関係を見つける。 しかし、高レベル特徴写像は空間分解能が低く、したがって対応マッチングのためのクラス内変分を識別するために正確できめ細かい特徴を提供するには不十分である。 この問題に対処するために,異なるスケールの機能を動的に選択することで,ロバストな特徴を生成する。 特徴選択における2つの重要な課題、すなわち、選択すべき特徴の数とスケールを解消するために、特徴選択プロセスを逐次マルコフ意思決定プロセス(mdp)として構成し、強化学習(rl)を用いた最適選択戦略を導入する。 画像マッチングのためのRL環境を定義し、各アクションが新しい特徴を必要とするか、マッチングスコアを参照して選択エピソードを終了する。 ディープニューラルネットワークは我々の手法に組み込まれ、意思決定のために訓練される。 実験の結果,提案手法は3つのベンチマークにおいて,最先端手法と同等/上位性能を達成し,特徴選択戦略の有効性を実証した。

Estimating dense correspondences between images is a long-standing image under-standing task. Recent works introduce convolutional neural networks (CNNs) to extract high-level feature maps and find correspondences through feature matching. However,high-level feature maps are in low spatial resolution and therefore insufficient to provide accurate and fine-grained features to distinguish intra-class variations for correspondence matching. To address this problem, we generate robust features by dynamically selecting features at different scales. To resolve two critical issues in feature selection,i.e.,how many and which scales of features to be selected, we frame the feature selection process as a sequential Markov decision-making process (MDP) and introduce an optimal selection strategy using reinforcement learning (RL). We define an RL environment for image matching in which each individual action either requires new features or terminates the selection episode by referring a matching score. Deep neural networks are incorporated into our method and trained for decision making. Experimental results show that our method achieves comparable/superior performance with state-of-the-art methods on three benchmarks, demonstrating the effectiveness of our feature selection strategy.
翻訳日:2022-10-30 23:13:06 公開日:2020-08-13
# リフット、スプラッター、シュート:3Dに射影して任意カメラから画像をエンコードする

Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D ( http://arxiv.org/abs/2008.05711v1 )

ライセンス: Link先を確認
Jonah Philion, Sanja Fidler(参考訳) 自動運転車の目標は、複数のセンサーから意味表現を抽出し、これらの表現を単一の「鳥の目視」座標フレームに融合して、運動計画によって消費することである。 任意の数のカメラから与えられた画像データから鳥の目視表現を直接抽出する新しいエンドツーエンドアーキテクチャを提案する。 私たちのアプローチの中核となるアイデアは、それぞれの画像をそれぞれのカメラの機能に個別に“リフト”し、すべてのフラストラムをラスタライズした鳥の目線グリッドに“プレート”することです。 カメラリグ全体をトレーニングすることにより、我々のモデルは画像の表現方法だけでなく、全てのカメラからの予測を一括表現に融合させる方法を学ぶことができ、キャリブレーション誤差に頑健であることを示す。 オブジェクトのセグメンテーションやマップセグメンテーションといった標準的な鳥の目視タスクでは、我々のモデルはすべてのベースラインと先行作業より優れています。 動き計画のための高密度な表現を学習する目的を追求するために,我々のネットワークが出力する鳥の目視コストマップにテンプレートトラジェクトリを"撮影"することで,モデルが推論した表現を解釈できることを示す。 ライダーからオラクルの深さを利用するモデルに対して、我々のアプローチをベンチマークします。 コード付きプロジェクトページ: https://nv-tlabs.github.io/lift-splat- shoot

The goal of perception for autonomous vehicles is to extract semantic representations from multiple sensors and fuse these representations into a single "bird's-eye-view" coordinate frame for consumption by motion planning. We propose a new end-to-end architecture that directly extracts a bird's-eye-view representation of a scene given image data from an arbitrary number of cameras. The core idea behind our approach is to "lift" each image individually into a frustum of features for each camera, then "splat" all frustums into a rasterized bird's-eye-view grid. By training on the entire camera rig, we provide evidence that our model is able to learn not only how to represent images but how to fuse predictions from all cameras into a single cohesive representation of the scene while being robust to calibration error. On standard bird's-eye-view tasks such as object segmentation and map segmentation, our model outperforms all baselines and prior work. In pursuit of the goal of learning dense representations for motion planning, we show that the representations inferred by our model enable interpretable end-to-end motion planning by "shooting" template trajectories into a bird's-eye-view cost map output by our network. We benchmark our approach against models that use oracle depth from lidar. Project page with code: https://nv-tlabs.github.io/lift-splat-shoot .
翻訳日:2022-10-30 23:12:45 公開日:2020-08-13
# 3次元ブレンドシェープと動的テクスチャによる画像表現のモデル化

Modeling Caricature Expressions by 3D Blendshape and Dynamic Texture ( http://arxiv.org/abs/2008.05714v1 )

ライセンス: Link先を確認
Keyu Chen, Jianmin Zheng, Jianfei Cai, Juyong Zhang(参考訳) アーティストが描いた似顔絵を通常の表情で変形させる問題は、ソーシャルメディア、アニメーション、エンターテイメントなどの応用に関心がある。 本稿では,この課題に対する解決策として,所望の表現の創造能力の向上と,その一方で,似顔絵のアイデンティティ誇張スタイルを保ちながら,似顔絵の複雑な性質から課題を課す。 本ソリューションの鍵となるのは,従来の3DMM表現をキャラクチュア領域に拡張した,キャラクチュア表現をモデル化する新しい手法である。 本手法は, キャラクチュアの形状モデリングとテクスチャ生成から成り立っている。 幾何的最適化は, 高精度で安定な幾何形状を再構成するためのアイデンティティ保存ブレンドスファップを作成するために開発され, ターゲット表現下で動的テクスチャを生成するための条件生成逆ネットワーク(cGAN)が設計されている。 形状成分とテクスチャ成分の組み合わせにより、一般的な3DMM表現の拡張により、似顔絵の非自明な表現を効果的に定義でき、これにより、図形空間と色空間の両方において、良好な結果の任意の表現に柔軟に変形することができる。 提案手法の有効性を示す実験を行った。

The problem of deforming an artist-drawn caricature according to a given normal face expression is of interest in applications such as social media, animation and entertainment. This paper presents a solution to the problem, with an emphasis on enhancing the ability to create desired expressions and meanwhile preserve the identity exaggeration style of the caricature, which imposes challenges due to the complicated nature of caricatures. The key of our solution is a novel method to model caricature expression, which extends traditional 3DMM representation to caricature domain. The method consists of shape modelling and texture generation for caricatures. Geometric optimization is developed to create identity-preserving blendshapes for reconstructing accurate and stable geometric shape, and a conditional generative adversarial network (cGAN) is designed for generating dynamic textures under target expressions. The combination of both shape and texture components makes the non-trivial expressions of a caricature be effectively defined by the extension of the popular 3DMM representation and a caricature can thus be flexibly deformed into arbitrary expressions with good results visually in both shape and color spaces. The experiments demonstrate the effectiveness of the proposed method.
翻訳日:2022-10-30 23:12:20 公開日:2020-08-13
# 知覚と予測をシミュレートした自動運転車の安全性検証

Testing the Safety of Self-driving Vehicles by Simulating Perception and Prediction ( http://arxiv.org/abs/2008.06020v1 )

ライセンス: Link先を確認
Kelvin Wong, Qiang Zhang, Ming Liang, Bin Yang, Renjie Liao, Abbas Sadat, Raquel Urtasun(参考訳) シミュレーションにおいて,自動運転車の安全性をテストする新しい手法を提案する。 センサシミュレーションはコストが高く,領域ギャップが大きいため,センサシミュレーションの代替案を提案する。 代わりに、私たちは自動運転車の知覚と予測システムの出力を直接シミュレートし、現実的な動き計画テストを可能にします。 具体的には、真理ラベルと実際の知覚と予測アウトプットという形でペアデータを使用して、オンラインシステムが何を生み出すかを予測するモデルをトレーニングします。 重要なことに、システムへの入力は、高定義マップ、境界ボックス、軌道で構成されており、数分でテストエンジニアが簡単にスケッチできます。 これにより、アプローチはよりスケーラブルなソリューションになります。 2つの大規模データセットの定量的な結果から,シミュレーションを用いて実演的に動作計画を検証できることが証明された。

We present a novel method for testing the safety of self-driving vehicles in simulation. We propose an alternative to sensor simulation, as sensor simulation is expensive and has large domain gaps. Instead, we directly simulate the outputs of the self-driving vehicle's perception and prediction system, enabling realistic motion planning testing. Specifically, we use paired data in the form of ground truth labels and real perception and prediction outputs to train a model that predicts what the online system will produce. Importantly, the inputs to our system consists of high definition maps, bounding boxes, and trajectories, which can be easily sketched by a test engineer in a matter of minutes. This makes our approach a much more scalable solution. Quantitative results on two large-scale datasets demonstrate that we can realistically test motion planning using our simulations.
翻訳日:2022-10-30 23:06:34 公開日:2020-08-13
# MIXCAPS:肺結節悪性度予測のためのカプセルネットワークによるエキスパートの混合

MIXCAPS: A Capsule Network-based Mixture of Experts for Lung Nodule Malignancy Prediction ( http://arxiv.org/abs/2008.06072v1 )

ライセンス: Link先を確認
Parnian Afshar, Farnoosh Naderkhani, Anastasia Oikonomou, Moezedin Javad Rafiee, Arash Mohammadi, and Konstantinos N. Plataniotis(参考訳) 肺炎、結核、新しいコロナウイルス(COVID-19)などの肺疾患は、肺癌とともに非常に広く、一般的には生命の脅威と考えられている。 特に、肺癌は5年生存率の低い最も一般的で致命的ながんの1つである。 したがって、肺がんのタイムリーな診断は、無数の命を救えるため、最重要事項である。 この点において、ディープラーニングラジオミクスソリューションは、注釈付き境界にアクセスすることなく、エンドツーエンドで最も有用な特徴を単独で抽出する、という約束を持っている。 様々なディープラーニングモデルの中で、カプセルネットワークは、詳細な空間関係を認識できないなど、畳み込みニューラルネットワーク(CNN)の欠点を克服するために提案されている。 カプセルネットワークはこれまでのところ、医療画像問題における性能に満足している。 そこで本研究では,その成功を活かし,mixcapsと呼ばれる新しいカプセルネットワークに基づく専門家の混合物を提案する。 提案されたMIXCAPSアーキテクチャは、カプセルネットワークの小さなデータセットを処理する能力だけでなく、畳み込みゲーティングネットワークを通じてデータセットを自動的に分割する能力を利用する。 MIXCAPSにより、カプセルネットワークの専門家はデータのさまざまなサブセットを専門化できる。 その結果、mixcapsは1つのカプセルネットワークとcnnの混合物よりも精度92.88%、感度93.2%、特異度92.3%、曲線下の面積0.963であった。 また, 提案手法では, ゲート出力と手作りの2つの特徴との間に関係があることを示し, 提案するミックスキャップの説明可能な性質を示した。 提案したMIXCAPSアーキテクチャの一般化能力を更に評価するために、他の臓器に関連する腫瘍を検出するためのMIXCAPSの可能性を示す脳腫瘍データセットに関する追加実験を行った。

Lung diseases including infections such as Pneumonia, Tuberculosis, and novel Coronavirus (COVID-19), together with Lung Cancer are significantly widespread and are, typically, considered life threatening. In particular, lung cancer is among the most common and deadliest cancers with a low 5-year survival rate. Timely diagnosis of lung cancer is, therefore, of paramount importance as it can save countless lives. In this regard, deep learning radiomics solutions have the promise of extracting the most useful features on their own in an end-to-end fashion without having access to the annotated boundaries. Among different deep learning models, Capsule Networks are proposed to overcome shortcomings of the Convolutional Neural Networks (CNN) such as their inability to recognize detailed spatial relations. Capsule networks have so far shown satisfying performance in medical imaging problems. Capitalizing on their success, in this study, we propose a novel capsule network-based mixture of experts, referred to as the MIXCAPS. The proposed MIXCAPS architecture takes advantage of not only the capsule network's capabilities to handle small datasets, but also automatically splitting dataset through a convolutional gating network. MIXCAPS enables capsule network experts to specialize on different subsets of the data. Our results show that MIXCAPS outperforms a single capsule network and a mixture of CNNs, with an accuracy of 92.88%, sensitivity of 93.2%, specificity of 92.3% and area under the curve of 0.963. Our experiments also show that there is a relation between the gate outputs and a couple of hand-crafted features, illustrating explainable nature of the proposed MIXCAPS. To further evaluate generalization capabilities of the proposed MIXCAPS architecture, additional experiments on a brain tumor dataset are performed showing potentials of MIXCAPS for detection of tumors related to other organs.
翻訳日:2022-10-30 23:06:21 公開日:2020-08-13
# 胸部X線写真におけるCOVID-19空域病の自動検出と定量化:CTを用いたデジタル再構成X線写真(DRR)で訓練したCNNを用いた放射線科レベルのパフォーマンス向上のための新しいアプローチ

Automated detection and quantification of COVID-19 airspace disease on chest radiographs: A novel approach achieving radiologist-level performance using a CNN trained on digital reconstructed radiographs (DRRs) from CT-based ground-truth ( http://arxiv.org/abs/2008.06330v1 )

ライセンス: Link先を確認
Eduardo Mortani Barbosa Jr., Warren B. Gefter, Rochelle Yang, Florin C. Ghesu, Siqi Liu, Boris Mailhe, Awais Mansoor, Sasa Grbic, Sebastian Piat, Guillaume Chabin, Vishwanath R S., Abishek Balachandran, Sebastian Vogt, Valentin Ziebandt, Steffen Kappler, Dorin Comaniciu(参考訳) 目的: 地上の真理として機能する優れたモダリティ(CT)から導かれる空域疾患(AD)の体積定量化をデジタル再構成ラジオグラフィー(DRR)に投影する。 1)畳み込みニューラルネットワークを訓練して、ペアcxr上の空域疾患を定量化すること。 2) HIV感染者のCXR評価において, DRR訓練CNNと熟練したヒト読者との比較を行った。 対象と方法:2020年3月から5月にかけて,米国北東部の第3次病院で,68時間以内に胸部CTおよびCXRを施行した86例(RT-PCR陽性)のコホートを回顧的に選択した。 pov (ground truth volumetric ratio of covid-19 related ad) はctによる手話広告セグメンテーションによって確立された。 得られた3Dマスクは2次元前方デジタル再構成ラジオグラフィー (DRR) に投影され, 面積ベースADパーセンテージ (POa) を算出した。 畳み込みニューラルネットワーク(CNN)は、COVID-19および非COVID-19患者の大規模CTデータセットから生成されたDRR画像を用いて訓練され、自動的に肺、AD、CXR上のPOaを定量化する。 CNN POa の結果は,CXR 上で2人の専門家が定量化した POa と,計算相関と平均絶対誤差により POv の基底構造と比較した。 結果: ブートストラップ平均絶対誤差 (MAE) は11.98% [11.05%-12.47%) と0.77[0.70-0.82] であり, CNNでは9.56%-9.78% [8.83%-10.22%) と0.78-0.81 [0.73-0.85) であった。 結論:我々のCNNはCT由来の空域定量法を用いてDRRを訓練し,CXR上の空域疾患の定量化に熟練した放射線技師の精度を得た。

Purpose: To leverage volumetric quantification of airspace disease (AD) derived from a superior modality (CT) serving as ground truth, projected onto digitally reconstructed radiographs (DRRs) to: 1) train a convolutional neural network to quantify airspace disease on paired CXRs; and 2) compare the DRR-trained CNN to expert human readers in the CXR evaluation of patients with confirmed COVID-19. Materials and Methods: We retrospectively selected a cohort of 86 COVID-19 patients (with positive RT-PCR), from March-May 2020 at a tertiary hospital in the northeastern USA, who underwent chest CT and CXR within 48 hrs. The ground truth volumetric percentage of COVID-19 related AD (POv) was established by manual AD segmentation on CT. The resulting 3D masks were projected into 2D anterior-posterior digitally reconstructed radiographs (DRR) to compute area-based AD percentage (POa). A convolutional neural network (CNN) was trained with DRR images generated from a larger-scale CT dataset of COVID-19 and non-COVID-19 patients, automatically segmenting lungs, AD and quantifying POa on CXR. CNN POa results were compared to POa quantified on CXR by two expert readers and to the POv ground-truth, by computing correlations and mean absolute errors. Results: Bootstrap mean absolute error (MAE) and correlations between POa and POv were 11.98% [11.05%-12.47%] and 0.77 [0.70-0.82] for average of expert readers, and 9.56%-9.78% [8.83%-10.22%] and 0.78-0.81 [0.73-0.85] for the CNN, respectively. Conclusion: Our CNN trained with DRR using CT-derived airspace quantification achieved expert radiologist level of accuracy in the quantification of airspace disease on CXR, in patients with positive RT-PCR for COVID-19.
翻訳日:2022-10-30 23:05:53 公開日:2020-08-13
# 自己媒介オンライン記事品質の認知表現学習

Cognitive Representation Learning of Self-Media Online Article Quality ( http://arxiv.org/abs/2008.05658v1 )

ライセンス: Link先を確認
Yiru Wang, Shen Huang, Gongfu Li, Qiang Deng, Dongliang Liao, Pengda Si, Yujiu Yang, Jin Xu(参考訳) セルフメディアオンライン記事の自動品質評価は緊急かつ新しい問題であり、オンラインレコメンデーションと検索にとって非常に価値がある。 従来の記事と異なり、セルフメディアのオンライン記事は主にユーザによって作成され、様々なテキストレベルの外観特性とマルチモーダルなハイブリッド編集、多様なコンテンツの潜在的な特性、異なるスタイル、大きなセマンティックスパン、優れたインタラクティブな体験要求がある。 これらの課題を解決するために,レイアウト構成,特徴とテキストのセマンティクス,異なる表現学習サブネットワークの設計,特に特徴学習プロセスとモバイル端末での対話型読書習慣を組み合わせた共同モデルcoqanを構築した。 専門家による記事の評価を表現する認知的スタイルとより整合している。 大規模な実世界評価データセットも構築しました。 広範な実験結果から,提案手法は最先端手法を著しく上回り,オンライン記事品質評価の異なる要素を効果的に学習し,統合できることが判明した。

The automatic quality assessment of self-media online articles is an urgent and new issue, which is of great value to the online recommendation and search. Different from traditional and well-formed articles, self-media online articles are mainly created by users, which have the appearance characteristics of different text levels and multi-modal hybrid editing, along with the potential characteristics of diverse content, different styles, large semantic spans and good interactive experience requirements. To solve these challenges, we establish a joint model CoQAN in combination with the layout organization, writing characteristics and text semantics, designing different representation learning subnetworks, especially for the feature learning process and interactive reading habits on mobile terminals. It is more consistent with the cognitive style of expressing an expert's evaluation of articles. We have also constructed a large scale real-world assessment dataset. Extensive experimental results show that the proposed framework significantly outperforms state-of-the-art methods, and effectively learns and integrates different factors of the online article quality assessment.
翻訳日:2022-10-30 23:03:43 公開日:2020-08-13
# ニューラル潜在変数モデルを用いた対話状態誘導

Dialogue State Induction Using Neural Latent Variable Models ( http://arxiv.org/abs/2008.05666v1 )

ライセンス: Link先を確認
Qingkai Min, Libo Qin, Zhiyang Teng, Xiao Liu, Yue Zhang(参考訳) 対話状態モジュールはタスク指向対話システムにおいて有用なコンポーネントである。 従来の方法では、トレーニングコーパスを手作業でラベル付けすることで対話状態を見つける。 しかし、ラベル付けプロセスはコストがかかり、遅く、エラーが発生し、さらに重要なのは、カスタマーサービスのための現実世界の対話において、広範囲のドメインをカバーできないことだ。 本研究では,ラベルなしの顧客サービス対話記録から自動的に対話状態をマイニングする2つのニューラル潜在変数モデルを構築し,対話状態誘導のタスクを提案する。 結果は、モデルが効果的に有意義なスロットを見つけることができることを示している。 また、誘導対話状態を備えた最先端対話システムは、対話状態モジュールを使用しないよりも優れた性能を提供する。

Dialogue state modules are a useful component in a task-oriented dialogue system. Traditional methods find dialogue states by manually labeling training corpora, upon which neural models are trained. However, the labeling process can be costly, slow, error-prone, and more importantly, cannot cover the vast range of domains in real-world dialogues for customer service. We propose the task of dialogue state induction, building two neural latent variable models that mine dialogue states automatically from unlabeled customer service dialogue records. Results show that the models can effectively find meaningful slots. In addition, equipped with induced dialogue states, a state-of-the-art dialogue system gives better performance compared with not using a dialogue state module.
翻訳日:2022-10-30 23:03:25 公開日:2020-08-13
# SemEval-2020 Task 12: 攻撃言語検出のための共同学習型BERT多言語モデル

ANDES at SemEval-2020 Task 12: A jointly-trained BERT multilingual model for offensive language detection ( http://arxiv.org/abs/2008.06408v1 )

ライセンス: Link先を確認
Juan Manuel P\'erez, Aym\'e Arango, Franco Luque(参考訳) 本稿では,SemEval-2020 Task 12: Multilingual Offensive Language Detectionへの参加について述べる。 提案する言語(英語、デンマーク語、トルコ語、ギリシャ語、アラビア語)すべてにタスクに取り組むために、多言語bertを微調整することで、単一のモデルを共同でトレーニングしました。 私たちの単一モデルは、すべての言語で同じパラメータを共有するにもかかわらず、トップパフォーマンスシステムに近いパフォーマンスで、競争力のある結果を得ました。 これらの言語間のトランスファー性能を分析するためにゼロショットおよび少数ショットの実験も行われた。 さらなる研究のためにコードを公開する

This paper describes our participation in SemEval-2020 Task 12: Multilingual Offensive Language Detection. We jointly-trained a single model by fine-tuning Multilingual BERT to tackle the task across all the proposed languages: English, Danish, Turkish, Greek and Arabic. Our single model had competitive results, with a performance close to top-performing systems in spite of sharing the same parameters across all languages. Zero-shot and few-shot experiments were also conducted to analyze the transference performance among these languages. We make our code public for further research
翻訳日:2022-10-30 23:03:14 公開日:2020-08-13
# テキスト非依存話者照合のための進化的アルゴリズム強化ニューラルアーキテクチャ探索

Evolutionary Algorithm Enhanced Neural Architecture Search for Text-Independent Speaker Verification ( http://arxiv.org/abs/2008.05695v1 )

ライセンス: Link先を確認
Xiaoyang Qu, Jianzong Wang, Jing Xiao(参考訳) 最先端の話者検証モデルは、専門家やエンジニアによる手作りのニューラルネットワークアーキテクチャに大きく依存するディープラーニング技術に基づいている。 我々は、テキストに依存しない話者検証タスクに対して、ニューラルアーキテクチャサーチ(NAS)のアイデアを借用する。 NASはネットワーク構造を自動的に学習するので、よく知られたxベクトルネットワークにNASの概念を導入する。 さらに,話者照合タスクに有望なネットワークを自動的に発見するための進化的アルゴリズム拡張型ニューラルネットワーク探索法であるauto-vectorを提案する。 実験の結果,NASに基づくモデルは,最先端話者検証モデルよりも優れていた。

State-of-the-art speaker verification models are based on deep learning techniques, which heavily depend on the handdesigned neural architectures from experts or engineers. We borrow the idea of neural architecture search(NAS) for the textindependent speaker verification task. As NAS can learn deep network structures automatically, we introduce the NAS conception into the well-known x-vector network. Furthermore, this paper proposes an evolutionary algorithm enhanced neural architecture search method called Auto-Vector to automatically discover promising networks for the speaker verification task. The experimental results demonstrate our NAS-based model outperforms state-of-the-art speaker verification models.
翻訳日:2022-10-30 23:03:03 公開日:2020-08-13
# Deep-Lock: ディープニューラルネットワークのセキュアな認証

Deep-Lock: Secure Authorization for Deep Neural Networks ( http://arxiv.org/abs/2008.05966v1 )

ライセンス: Link先を確認
Manaar Alam and Sayandeep Saha and Debdeep Mukhopadhyay and Sandip Kundu(参考訳) 訓練されたディープニューラルネットワーク(DNN)モデルは、いくつかのビジネスモデルにおいて価値のある知的特性(IP)と見なされている。 このようなDNNモデルのIP盗難防止と不正使用は、業界によって大きな関心を集めている。 本稿では,鍵型モデルロック方式を提案することで,鍵型モデルが正しい秘密鍵を適用した場合にのみ正常に機能することを保証することで,DNNモデルの不正使用を防止する問題に対処する。 提案方式はDeep-Lockと呼ばれ、S-Boxesと優れたセキュリティ特性を利用して、訓練済みのDNNモデルのパラメータを鍵スケジューリングアルゴリズムを介してマスターキーから生成される秘密鍵で暗号化する。 結果として、暗号化された重みの密度の高いネットワークは、モデル微調整攻撃に対して堅牢である。 最後に、Deep-LockはDNNモデルの構造とトレーニングを一切必要とせず、DNNの既存のソフトウェアおよびハードウェア実装すべてに適用できる。

Trained Deep Neural Network (DNN) models are considered valuable Intellectual Properties (IP) in several business models. Prevention of IP theft and unauthorized usage of such DNN models has been raised as of significant concern by industry. In this paper, we address the problem of preventing unauthorized usage of DNN models by proposing a generic and lightweight key-based model-locking scheme, which ensures that a locked model functions correctly only upon applying the correct secret key. The proposed scheme, known as Deep-Lock, utilizes S-Boxes with good security properties to encrypt each parameter of a trained DNN model with secret keys generated from a master key via a key scheduling algorithm. The resulting dense network of encrypted weights is found robust against model fine-tuning attacks. Finally, Deep-Lock does not require any intervention in the structure and training of the DNN models, making it applicable for all existing software and hardware implementations of DNN.
翻訳日:2022-10-30 22:55:53 公開日:2020-08-13
# 確率最適化の高速化のための変数正規化

Variance Regularization for Accelerating Stochastic Optimization ( http://arxiv.org/abs/2008.05969v1 )

ライセンス: Link先を確認
Tong Yang, Long Sha, Pengyu Hong(参考訳) 近年、勾配に基づく最適化手法は高次元幾何学的特徴の探索に重点を置いているが、アルゴリズム実装の確率的なバージョンに蓄積されたランダム誤差はまだ強調されていない。 本研究では,ミニバッチ勾配に隠れた統計情報を活用し,ランダムエラーの蓄積を低減する普遍的原理を提案する。 これは、ミニバッチのばらつきに応じて学習率を正規化することで達成される。 我々の視点の相補性から、この正規化はジェネリック1次アプローチの確率的実装にさらなる改善をもたらす可能性がある。 実験の結果,分散正規化は収束を加速し,確率的最適化を安定化することを示した。

While nowadays most gradient-based optimization methods focus on exploring the high-dimensional geometric features, the random error accumulated in a stochastic version of any algorithm implementation has not been stressed yet. In this work, we propose a universal principle which reduces the random error accumulation by exploiting statistic information hidden in mini-batch gradients. This is achieved by regularizing the learning-rate according to mini-batch variances. Due to the complementarity of our perspective, this regularization could provide a further improvement for stochastic implementation of generic 1st order approaches. With empirical results, we demonstrated the variance regularization could speed up the convergence as well as stabilize the stochastic optimization.
翻訳日:2022-10-30 22:55:40 公開日:2020-08-13
# 最適モデル圧縮によるモダリティ伝達可能な視覚情報表現に向けて

Towards Modality Transferable Visual Information Representation with Optimal Model Compression ( http://arxiv.org/abs/2008.05642v1 )

ライセンス: Link先を確認
Rongqun Lin, Linwei Zhu, Shiqi Wang and Sam Kwong(参考訳) 視覚信号のコンパクトな表現は、様々な画像/ビデオ中心のアプリケーションにおいて重要である。 視覚信号の冗長性を除去し、画像や映像の符号化性能を向上させるために多くの手法が開発されたが、視覚信号の別の確立されたモダリティへの変換により、表現能力が向上した。 本稿では,転送可能なモダリティの哲学を活かした視覚信号表現のための新しいスキームを提案する。 特に、入力シーンの統計をオンライントレーニングで特徴付け吸収するディープラーニングモデルは、レートユーティリティ最適化という意味で効率的に表現でき、ビットストリームのエンハンスメント層として機能する。 これにより、組み込まれた新しいモダリティを最適化することで、全体的なパフォーマンスをさらに保証することができる。 提案手法は最先端ビデオ符号化標準(多用途ビデオ符号化)に実装されており,広範な評価に基づいて表現能力が大幅に向上している。

Compactly representing the visual signals is of fundamental importance in various image/video-centered applications. Although numerous approaches were developed for improving the image and video coding performance by removing the redundancies within visual signals, much less work has been dedicated to the transformation of the visual signals to another well-established modality for better representation capability. In this paper, we propose a new scheme for visual signal representation that leverages the philosophy of transferable modality. In particular, the deep learning model, which characterizes and absorbs the statistics of the input scene with online training, could be efficiently represented in the sense of rate-utility optimization to serve as the enhancement layer in the bitstream. As such, the overall performance can be further guaranteed by optimizing the new modality incorporated. The proposed framework is implemented on the state-of-the-art video coding standard (i.e., versatile video coding), and significantly better representation capability has been observed based on extensive evaluations.
翻訳日:2022-10-30 22:55:13 公開日:2020-08-13
# ジェネレーティブ・ディバイサル・ネットワークを用いた資産・カジュアルティ・レート作成データセットの合成

Synthesizing Property & Casualty Ratemaking Datasets using Generative Adversarial Networks ( http://arxiv.org/abs/2008.06110v1 )

ライセンス: Link先を確認
Marie-Pier Cote, Brian Hartman, Olivier Mercier, Joshua Meyers, Jared Cummings, Elijah Harmon(参考訳) 機密性の問題のため、日常科学や個人データが重要な分野における方法論開発のための興味深いデータセットにアクセスしたり共有したりすることは困難である。 機密のオリジナルデータセットから合成保険データセットを構築することができる3つの異なるタイプのジェネレーティブ・リバーサリー・ネットワーク(gans)を設計する方法を示す。 目標は、センシティブな情報をもはや含まないが、元のデータセットと同じ構造を持ち、多変量関係を保持する合成データを得ることである。 保険データの特徴を適切にモデル化するために,多カテゴリデータに適合するGANアーキテクチャ(MC-WGAN-GP),条件付き表型GAN(CTGAN),MNCDP-GAN(MNCDP-GAN)を用いる。 透明性のために、このアプローチは、公開データセットであるフランス自動車責任データを使って示される。 我々は、元のデータ構造を再現する能力、予測モデル、プライバシ、使いやすさの3つの異なるganを比較した。 MC-WGAN-GPは最良のデータを合成し、CTGANは最も使いやすく、NCDP-GANは差分プライバシーを保証する。

Due to confidentiality issues, it can be difficult to access or share interesting datasets for methodological development in actuarial science, or other fields where personal data are important. We show how to design three different types of generative adversarial networks (GANs) that can build a synthetic insurance dataset from a confidential original dataset. The goal is to obtain synthetic data that no longer contains sensitive information but still has the same structure as the original dataset and retains the multivariate relationships. In order to adequately model the specific characteristics of insurance data, we use GAN architectures adapted for multi-categorical data: a Wassertein GAN with gradient penalty (MC-WGAN-GP), a conditional tabular GAN (CTGAN) and a Mixed Numerical and Categorical Differentially Private GAN (MNCDP-GAN). For transparency, the approaches are illustrated using a public dataset, the French motor third party liability data. We compare the three different GANs on various aspects: ability to reproduce the original data structure and predictive models, privacy, and ease of use. We find that the MC-WGAN-GP synthesizes the best data, the CTGAN is the easiest to use, and the MNCDP-GAN guarantees differential privacy.
翻訳日:2022-10-30 22:48:42 公開日:2020-08-13
# バッテリフリーカメラによる極低画質画像を用いた室内占有検知のためのショットクラスタリング

Few shot clustering for indoor occupancy detection with extremely low-quality images from battery free cameras ( http://arxiv.org/abs/2008.05654v1 )

ライセンス: Link先を確認
Homagni Saha, Sin Yong Tan, Ali Saffari, Mohamad Katanbaf, Joshua R. Smith, Soumik Sarkar(参考訳) 屋内環境における人的占有者の信頼性の高い検出は、様々なエネルギー効率、セキュリティ、安全応用において重要である。 低消費電力画像センサによる極低品質・プライバシー保護画像による占有検知の課題について考察する。 そこで本研究では,この課題に対処するためのショット学習アルゴリズムとクラスタリングアルゴリズムを提案する。 少数のショットラーニングの概念は,いくつかのラベル付きサンプルをシステムに割り当てることを可能にするが,クラスタリングのステップは時間とともに画像環境の変化にオンライン適応する目的で役立っている。 ベンチマークデータセット上でのアルゴリズムの検証と比較を別にして,実家から収集したストリーミング画像に対する,バッテリフリーカメラハードウェアを用いたアルゴリズムの性能を実証する。

Reliable detection of human occupancy in indoor environments is critical for various energy efficiency, security, and safety applications. We consider this challenge of occupancy detection using extremely low-quality, privacy-preserving images from low power image sensors. We propose a combined few shot learning and clustering algorithm to address this challenge that has very low commissioning and maintenance cost. While the few shot learning concept enables us to commission our system with a few labeled examples, the clustering step serves the purpose of online adaptation to changing imaging environment over time. Apart from validating and comparing our algorithm on benchmark datasets, we also demonstrate performance of our algorithm on streaming images collected from real homes using our novel battery free camera hardware.
翻訳日:2022-10-30 22:48:07 公開日:2020-08-13
# 解釈可能な非メトリックボックス埋め込みによる画像の視覚的オーバーラップ予測

Predicting Visual Overlap of Images Through Interpretable Non-Metric Box Embeddings ( http://arxiv.org/abs/2008.05785v1 )

ライセンス: Link先を確認
Anita Rau, Guillermo Garcia-Hernando, Danail Stoyanov, Gabriel J. Brostow, Daniyar Turmukhambetov(参考訳) 2つの画像が同じ3D表面を撮影していますか? たとえこれが既知の場面であっても、答えは通常、大きな局所的な特徴のマッチングと幾何学的検証を伴う、スケール空間を横断する高価な探索を必要とする。 このコストは、例えば視覚的再ローカライゼーションにおいて、ギャラリーに対してクエリ画像を評価する際にさらに乗算される。 我々は幾何学的検証の必要性を省略しないが、基本的にルックアップにスケールスペース内の探索をカットする解釈可能な画像埋め込みを提案する。 提案手法は2つの画像間の非対称関係を計測する。 モデルは、既知の3d可視面重なりを持つトレーニング例から、シーン固有の類似度尺度を学習する。 その結果、例えば、どのテストイメージが別のクローズアップバージョンであるか、どのスケールファクタによって素早く識別できるようになりました。 その後、ローカル機能は、そのスケールでのみ検出される。 この埋め込みによって、よりシンプルで高速で、人間によって解釈可能な画像マッチング結果が得られることを示すことによって、シーン固有のモデルを検証する。

To what extent are two images picturing the same 3D surfaces? Even when this is a known scene, the answer typically requires an expensive search across scale space, with matching and geometric verification of large sets of local features. This expense is further multiplied when a query image is evaluated against a gallery, e.g. in visual relocalization. While we don't obviate the need for geometric verification, we propose an interpretable image-embedding that cuts the search in scale space to essentially a lookup. Our approach measures the asymmetric relation between two images. The model then learns a scene-specific measure of similarity, from training examples with known 3D visible-surface overlaps. The result is that we can quickly identify, for example, which test image is a close-up version of another, and by what scale factor. Subsequently, local features need only be detected at that scale. We validate our scene-specific model by showing how this embedding yields competitive image-matching results, while being simpler, faster, and also interpretable by humans.
翻訳日:2022-10-30 22:47:53 公開日:2020-08-13
# BioMetricNet: ガウス分布に正規化されたメトリクスの学習による深層非拘束顔認証

BioMetricNet: deep unconstrained face verification through learning of metrics regularized onto Gaussian distributions ( http://arxiv.org/abs/2008.06021v1 )

ライセンス: Link先を確認
Arslan Ali, Matteo Testa, Tiziano Bianchi, Enrico Magli(参考訳) 我々は,顔の特徴を比較するための正規化メトリクスを学習する,深層非拘束顔認証のための新しいフレームワークであるBioMetricNetを提案する。 FaceNetのような一般的な手法とは異なり、提案手法は顔の特徴に特定の指標を課さない。代わりに、マッチングと非マッチングのペアが明確に分離され、良好な目標分布にマッピングされる潜在表現を学習することで、決定空間を形成する。 特に、ネットワークは、顔画像の識別に使用される最適な特徴表現と、対象の分布に従う最良の指標を共同で学習する。 本稿では、まず、顔認証のための一般的な枠組みを示し、それをガウス分布に合わせる。 この選択は、偽アラームと真の受容率の間の所望のトレードオフを達成するために調整できる単純な線形決定境界を使用することを可能にし、クローズド形式で書ける損失関数をもたらす。 野生のラベル付き顔(LFW)、Youtube Face(YTF)、Frontal-Profile in the Wild(CFP)、クロスエイジLFW(CALFW)、クロスフェイズLFW(CPLFW)、In-the-wild Age Dataset(AgeDB)といった公開データセットの大規模な分析と実験により、既存の最先端メソッドよりもBioMetricNetの有効性と優位性が確認されている。

We present BioMetricNet: a novel framework for deep unconstrained face verification which learns a regularized metric to compare facial features. Differently from popular methods such as FaceNet, the proposed approach does not impose any specific metric on facial features; instead, it shapes the decision space by learning a latent representation in which matching and non-matching pairs are mapped onto clearly separated and well-behaved target distributions. In particular, the network jointly learns the best feature representation, and the best metric that follows the target distributions, to be used to discriminate face images. In this paper we present this general framework, first of its kind for facial verification, and tailor it to Gaussian distributions. This choice enables the use of a simple linear decision boundary that can be tuned to achieve the desired trade-off between false alarm and genuine acceptance rate, and leads to a loss function that can be written in closed form. Extensive analysis and experimentation on publicly available datasets such as Labeled Faces in the wild (LFW), Youtube faces (YTF), Celebrities in Frontal-Profile in the Wild (CFP), and challenging datasets like cross-age LFW (CALFW), cross-pose LFW (CPLFW), In-the-wild Age Dataset (AgeDB) show a significant performance improvement and confirms the effectiveness and superiority of BioMetricNet over existing state-of-the-art methods.
翻訳日:2022-10-30 22:47:36 公開日:2020-08-13
# 構造化プログラム合成のためのプロセス探索

Process Discovery for Structured Program Synthesis ( http://arxiv.org/abs/2008.05804v1 )

ライセンス: Link先を確認
Dell Zhang, Alexander Kuhnle, Julian Richardson, Murat Sensoy(参考訳) プロセスマイニングのコアタスクは、イベントログデータから正確なプロセスモデルを学ぶことを目的としたプロセス発見である。 本稿では,プログラム合成分野への接続を確立するために,対象プロセスモデルとして(ブロック-)構造化プログラムを直接使用し,抽象プロセスモデルから実行可能なプロセス,例えばロボットプロセス自動化への変換を容易にすることを提案する。 さらに,このような構造化プログラムプロセスモデルの発見に向けて,新しいボトムアップ凝集手法を開発した。 一般的なトップダウン型再帰的インダクティブ・マイナと比較して,提案する凝集型マイナは,サイレントアクティビティの回避や重複アクティビティの緩和といったメリットを提示しながら,(デッドロックや他の異常を伴わずに)サウンドプロセスモデルを作成するための同様の理論的保証を享受している。 提案アルゴリズムは、いくつかのグラフ書き換え規則を直接フォローするアクティビティグラフに反復的に適用することで機能する。 実世界の直接追従グラフでは、アルゴリズムは異なるアクティビティの数に関して二次計算複雑性を持つ。 我々の知る限りでは、これはプログラム合成のために作られた最初のプロセス発見アルゴリズムである。 BPI-Challenge 2020データセットとKarelプログラミングデータセットの実験により、提案アルゴリズムは、従来のプロセス発見指標だけでなく、少数の実行トレースから真の基盤となる構造化プログラムを見つけるための有効性の観点からも、インダクティブマイナよりも優れていることを示した。

A core task in process mining is process discovery which aims to learn an accurate process model from event log data. In this paper, we propose to use (block-) structured programs directly as target process models so as to establish connections to the field of program synthesis and facilitate the translation from abstract process models to executable processes, e.g., for robotic process automation. Furthermore, we develop a novel bottom-up agglomerative approach to the discovery of such structured program process models. In comparison with the popular top-down recursive inductive miner, our proposed agglomerative miner enjoys the similar theoretical guarantee to produce sound process models (without deadlocks and other anomalies) while exhibiting some advantages like avoiding silent activities and accommodating duplicate activities. The proposed algorithm works by iteratively applying a few graph rewriting rules to the directly-follows-graph of activities. For real-world (sparse) directly-follows-graphs, the algorithm has quadratic computational complexity with respect to the number of distinct activities. To our knowledge, this is the first process discovery algorithm that is made for the purpose of program synthesis. Experiments on the BPI-Challenge 2020 dataset and the Karel programming dataset have demonstrated that our proposed algorithm can outperform the inductive miner not only according to the traditional process discovery metrics but also in terms of the effectiveness in finding out the true underlying structured program from a small number of its execution traces.
翻訳日:2022-10-30 22:46:48 公開日:2020-08-13
# 人工知能時代の創造性

Creativity in the era of artificial intelligence ( http://arxiv.org/abs/2008.05959v1 )

ライセンス: Link先を確認
Philippe Esling, Ninon Devis(参考訳) 創造性は、人類にとって間違いなく重要な概念であるため、深く議論されたトピックである。 様々な時代を通じて、その時代に関連する様々な意味が吹き込まれてきた。 それに伴い、テクノロジーの進化は、創造的な目的のために複数の新しいツールを提供した。 近年,ディープラーニングアプローチによる人工知能(AI)の出現は,様々な応用において有能な成功を収めている。 クリエイティビティのための技術の使用は、この世紀の芸術的傾向に自然な連続性で現れている。 しかし、インテリジェントと銘打たれた技術工芸品のオーラは、創造的な努力の意味について、情熱を解き放ち、幾らか議論を巻き起こした。 本稿では,社会科学と計算科学のフロンティアを曖昧にすることで,AI時代の創造性に関する新たな視点を提供することを目的とする。 そのために私たちは、このレンズを通して現在のAIがどのように考慮されるかを見るために、創造性に関する社会科学研究からのリフレクションに依存しています。 創造性は高度に文脈に富む概念であるので、私たちは現在のaiの限界と欠陥を強調し、人工的な創造性に向かう必要がある。 自己完結型ニヒロ生成機械に対して、人間の創造性を純粋に模倣しようとする目的は、非常に反生産的であり、人工エージェントの膨大な計算能力によってもたらされるほぼ無限の可能性を利用しないリスクを負う。

Creativity is a deeply debated topic, as this concept is arguably quintessential to our humanity. Across different epochs, it has been infused with an extensive variety of meanings relevant to that era. Along these, the evolution of technology have provided a plurality of novel tools for creative purposes. Recently, the advent of Artificial Intelligence (AI), through deep learning approaches, have seen proficient successes across various applications. The use of such technologies for creativity appear in a natural continuity to the artistic trend of this century. However, the aura of a technological artefact labeled as intelligent has unleashed passionate and somewhat unhinged debates on its implication for creative endeavors. In this paper, we aim to provide a new perspective on the question of creativity at the era of AI, by blurring the frontier between social and computational sciences. To do so, we rely on reflections from social science studies of creativity to view how current AI would be considered through this lens. As creativity is a highly context-prone concept, we underline the limits and deficiencies of current AI, requiring to move towards artificial creativity. We argue that the objective of trying to purely mimic human creative traits towards a self-contained ex-nihilo generative machine would be highly counterproductive, putting us at risk of not harnessing the almost unlimited possibilities offered by the sheer computational power of artificial agents.
翻訳日:2022-10-30 22:46:20 公開日:2020-08-13
# Visuomotor Mechanical Search: クラッタ内のターゲットオブジェクトを検索する学習

Visuomotor Mechanical Search: Learning to Retrieve Target Objects in Clutter ( http://arxiv.org/abs/2008.06073v1 )

ライセンス: Link先を確認
Andrey Kurenkov, Joseph Taglic, Rohun Kulkarni, Marcus Dominguez-Kuhne, Animesh Garg, Roberto Mart\'in-Mart\'in, Silvio Savarese(参考訳) 乱雑な環境でオブジェクトを探索する場合、乱雑なオブジェクトを邪魔から外し、関心のあるオブジェクトを完全に明らかにし、それを把握可能にするために、複雑なインタラクションを行う必要があることが多い。 物理学の複雑さとクラッタの正確なモデルが欠如しているため、正確な結果との正確な事前定義された相互作用を計画し、制御するのは、不可能ではない場合は非常に難しい。 正確な(前方)モデルが欠如している問題において、深層強化学習(英語版)(RL)は、近ループビジュモータポリシーの形で良好な相互作用に観察(例えば画像)をマッピングするための実行可能なソリューションであることが示されている。 しかし、Deep RLはサンプル非効率であり、画像に基づいて対象を除外する問題に直接適用すると失敗する。 本稿では,Deep RLプロシージャと組み合わせた新しいDeep RLプロシージャを提案する。 一 教師の支援による探検 二 特権情報を有する評論家、及び 三 未知のオブジェクトのヒープに閉ざされた対象オブジェクトを明らかにする問題に対して、サンプルを効率的かつ効果的に学習すること。 実験により,提案手法は,ベースラインやアブレーションよりも高速に学習し,より効率的な探索ソリューションに収束することを示し,また,対象オブジェクトの把握性が平均的に向上し,下流検索が容易になることを示す。

When searching for objects in cluttered environments, it is often necessary to perform complex interactions in order to move occluding objects out of the way and fully reveal the object of interest and make it graspable. Due to the complexity of the physics involved and the lack of accurate models of the clutter, planning and controlling precise predefined interactions with accurate outcome is extremely hard, when not impossible. In problems where accurate (forward) models are lacking, Deep Reinforcement Learning (RL) has shown to be a viable solution to map observations (e.g. images) to good interactions in the form of close-loop visuomotor policies. However, Deep RL is sample inefficient and fails when applied directly to the problem of unoccluding objects based on images. In this work we present a novel Deep RL procedure that combines i) teacher-aided exploration, ii) a critic with privileged information, and iii) mid-level representations, resulting in sample efficient and effective learning for the problem of uncovering a target object occluded by a heap of unknown objects. Our experiments show that our approach trains faster and converges to more efficient uncovering solutions than baselines and ablations, and that our uncovering policies lead to an average improvement in the graspability of the target object, facilitating downstream retrieval applications.
翻訳日:2022-10-30 22:45:58 公開日:2020-08-13
# 新型コロナウイルス対策のためのAIソリューション開発における考察, 実践, リスク, 落とし穴

Considerations, Good Practices, Risks and Pitfalls in Developing AI Solutions Against COVID-19 ( http://arxiv.org/abs/2008.09043v1 )

ライセンス: Link先を確認
Alexandra Luccioni and Joseph Bullock and Katherine Hoffmann Pham and Cynthia Sin Nga Lam and Miguel Luengo-Oroz(参考訳) 新型コロナウイルス(covid-19)パンデミックは人類にとって大きな課題であり、2020年7月13日時点で170万人が確認された。 前回の研究では, 分子, 臨床, 社会的スケール [2] の応用で, 人工知能がパンデミックにどう対処できるかを説明した。 本稿では,これら3つの研究の方向性を概観し,使用したアプローチの成熟度と実現可能性,および運用の可能性について検討する。 また、一般的に遭遇するリスクや実践的な落とし穴、AIアプリケーションをさまざまなスケールで定式化およびデプロイするためのガイドラインやベストプラクティスもまとめています。

The COVID-19 pandemic has been a major challenge to humanity, with 12.7 million confirmed cases as of July 13th, 2020 [1]. In previous work, we described how Artificial Intelligence can be used to tackle the pandemic with applications at the molecular, clinical, and societal scales [2]. In the present follow-up article, we review these three research directions, and assess the level of maturity and feasibility of the approaches used, as well as their potential for operationalization. We also summarize some commonly encountered risks and practical pitfalls, as well as guidelines and best practices for formulating and deploying AI applications at different scales.
翻訳日:2022-10-30 22:45:31 公開日:2020-08-13
# ランダム特徴モデルの一般化誤差の緩やかな劣化

The Slow Deterioration of the Generalization Error of the Random Feature Model ( http://arxiv.org/abs/2008.05621v1 )

ライセンス: Link先を確認
Chao Ma, Lei Wu, Weinan E(参考訳) ランダム特徴モデルは、パラメータの数がトレーニングサンプルサイズに近くなると、ある種の共鳴挙動を示す。 この挙動は、大きな一般化ギャップの出現が特徴であり、関連するグラム行列に対する非常に小さな固有値の発生によるものである。 本稿では,本手法における勾配降下アルゴリズムの動的挙動について検討する。 理論上も実験的にも、作業中に動的自己補正機構があることが示される: 結果の一般化ギャップが大きいほど、その発展が遅くなる。 これにより、トレーニングプロセスを止めて、優れた一般化特性を持つソリューションを得るのに十分な時間が得られる。

The random feature model exhibits a kind of resonance behavior when the number of parameters is close to the training sample size. This behavior is characterized by the appearance of large generalization gap, and is due to the occurrence of very small eigenvalues for the associated Gram matrix. In this paper, we examine the dynamic behavior of the gradient descent algorithm in this regime. We show, both theoretically and experimentally, that there is a dynamic self-correction mechanism at work: The larger the eventual generalization gap, the slower it develops, both because of the small eigenvalues. This gives us ample time to stop the training process and obtain solutions with good generalization property.
翻訳日:2022-10-30 22:38:47 公開日:2020-08-13
# WAFFLe:フェデレートラーニングのための軽量匿名化

WAFFLe: Weight Anonymized Factorization for Federated Learning ( http://arxiv.org/abs/2008.05687v1 )

ライセンス: Link先を確認
Weituo Hao, Nikhil Mehta, Kevin J Liang, Pengyu Cheng, Mostafa El-Khamy, Lawrence Carin(参考訳) データが機密性またはプライベートなドメインでは、データがローカルデバイスを離れることなく分散的に学習できるメソッドには大きな価値があります。 このようなニーズを踏まえて、連合学習は一般的なトレーニングパラダイムとして現れています。 しかし、多くのフェデレート学習は、各ローカルデバイスに対して更新された重みパラメータを通信するための送信データを交換するアプローチである。 それゆえ、データに直接違反する可能性のある侵入が成功したことにより、ホワイトボックスはローカルモデルへのアクセスを許可され、保護しようとするデータフェデレーション学習の公開など、多くの攻撃の扉を開くことになる。 さらに、分散シナリオでは、個々のクライアントデバイスは一般に高い統計的不均一性を示す。 多くの一般的な連合的アプローチは単一のグローバルモデルを学ぶが、これは平均的にはうまく機能するが、i.d.仮定に違反すると性能は低下し、平均から個人を過小評価し、公平性の疑問を提起する。 これらの問題に対処するために,我々は,インドビュッフェ過程とニューラルネットワークの重み係数の共有辞書を組み合わせたアプローチであるフェデレーション学習(waffle)のための重み匿名化を提案する。 MNIST、FashionMNIST、CIFAR-10の実験では、WAFFLeが局所的なテスト性能と公平性を向上し、同時に追加のセキュリティ層を提供することを示した。

In domains where data are sensitive or private, there is great value in methods that can learn in a distributed manner without the data ever leaving the local devices. In light of this need, federated learning has emerged as a popular training paradigm. However, many federated learning approaches trade transmitting data for communicating updated weight parameters for each local device. Therefore, a successful breach that would have otherwise directly compromised the data instead grants whitebox access to the local model, which opens the door to a number of attacks, including exposing the very data federated learning seeks to protect. Additionally, in distributed scenarios, individual client devices commonly exhibit high statistical heterogeneity. Many common federated approaches learn a single global model; while this may do well on average, performance degrades when the i.i.d. assumption is violated, underfitting individuals further from the mean, and raising questions of fairness. To address these issues, we propose Weight Anonymized Factorization for Federated Learning (WAFFLe), an approach that combines the Indian Buffet Process with a shared dictionary of weight factors for neural networks. Experiments on MNIST, FashionMNIST, and CIFAR-10 demonstrate WAFFLe's significant improvement to local test performance and fairness while simultaneously providing an extra layer of security.
翻訳日:2022-10-30 22:38:36 公開日:2020-08-13
# マルチクラス分類のためのメトリクス:概要

Metrics for Multi-Class Classification: an Overview ( http://arxiv.org/abs/2008.05756v1 )

ライセンス: Link先を確認
Margherita Grandini, Enrico Bagli, Giorgio Visani(参考訳) 2つ以上のクラスを含む機械学習の分類タスクは、"multi-class classification"という名前で知られている。 パフォーマンス指標は、異なる分類モデルや機械学習技術を評価し比較する目的で非常に有用である。 多くのメトリクスは、マルチクラス分類器の能力をテストするのに役立ちます。 これらの指標は、例えば、2つの異なるモデルのパフォーマンスを比較したり、異なるパラメータをチューニングして同じモデルの振る舞いを分析するなど、開発プロセスの異なる段階で有用であることが判明した。 本稿では,最も有望なマルチクラスメトリクスのリストをレビューし,そのメリットとデメリットを強調するとともに,分類モデルの開発における利用可能性を示す。

Classification tasks in machine learning involving more than two classes are known by the name of "multi-class classification". Performance indicators are very useful when the aim is to evaluate and compare different classification models or machine learning techniques. Many metrics come in handy to test the ability of a multi-class classifier. Those metrics turn out to be useful at different stage of the development process, e.g. comparing the performance of two different models or analysing the behaviour of the same model by tuning different parameters. In this white paper we review a list of the most promising multi-class metrics, we highlight their advantages and disadvantages and show their possible usages during the development of a classification model.
翻訳日:2022-10-30 22:38:17 公開日:2020-08-13
# 配列異常検出器の統計的評価

Statistical Evaluation of Anomaly Detectors for Sequences ( http://arxiv.org/abs/2008.05788v1 )

ライセンス: Link先を確認
Erik Scharw\"achter and Emmanuel M\"uller(参考訳) 精度とリコールは異常検出の標準的な性能指標であるが, 逐次検出設定における統計的特性はよく理解されていない。 本研究では,逐次データにおける点に基づく異常検出に対する時間的許容度と精度の概念を定式化する。 これらの測度は、他の多くの標準測度の時間耐性変量を計算するために用いられる時間耐性混乱行列に基づいている。 しかし、解釈可能性を維持するには注意が必要である。 我々は,時間的寛容で計算した場合,精度とリコールが検出器の性能を過大評価することを示す統計的シミュレーションを行った。 この問題を緩和するために,報告結果の統計的意義を評価するために,二つの尺度のヌル分布を得る方法を示す。

Although precision and recall are standard performance measures for anomaly detection, their statistical properties in sequential detection settings are poorly understood. In this work, we formalize a notion of precision and recall with temporal tolerance for point-based anomaly detection in sequential data. These measures are based on time-tolerant confusion matrices that may be used to compute time-tolerant variants of many other standard measures. However, care has to be taken to preserve interpretability. We perform a statistical simulation study to demonstrate that precision and recall may overestimate the performance of a detector, when computed with temporal tolerance. To alleviate this problem, we show how to obtain null distributions for the two measures to assess the statistical significance of reported results.
翻訳日:2022-10-30 22:38:07 公開日:2020-08-13
# 小さな塔は大きな違いをもたらす

Small Towers Make Big Differences ( http://arxiv.org/abs/2008.05808v1 )

ライセンス: Link先を確認
Yuyan Wang, Zhe Zhao, Bo Dai, Christopher Fifty, Dong Lin, Lichan Hong, Ed H. Chi(参考訳) マルチタスク学習は、複数の機械学習タスクを同時に解決することを目指している。 マルチタスク学習問題に対する優れた解法は、Paretoの最適性に加えて一般化可能であるべきである。 本稿では,マルチタスク深層学習モデルにおけるパラメータ化の結果,パレート効率と一般化のトレードオフを理解するための洞察を提供する。 多目的最適化問題として、制約された解空間におけるタスク競合を扱うのに十分なパラメータ化が必要であるが、マルチタスクの一般化の観点からは、オーバーパラメータ化は、限られたトレーニング例で難しいタスクやタスクの学習を支援する共有表現の利点を損なう。 したがって、効率と一般化の間のより良いトレードオフを見つけるためには、マルチタスク一般化とマルチ目的最適化の微妙なバランスが必要である。 この目的を達成するために,マルチタスクモデルのためのパラメータの低い自己拡張手法を提案する。 タスクに依存しず、他のマルチタスク学習アルゴリズムと連携する。 実験結果から, パラメタライズド・セルフオリジリアの小さな塔は, 様々なマルチタスク・アプリケーションにおいてパレート効率の向上に大きな違いをもたらすことが示された。

Multi-task learning aims at solving multiple machine learning tasks at the same time. A good solution to a multi-task learning problem should be generalizable in addition to being Pareto optimal. In this paper, we provide some insights on understanding the trade-off between Pareto efficiency and generalization as a result of parameterization in multi-task deep learning models. As a multi-objective optimization problem, enough parameterization is needed for handling task conflicts in a constrained solution space; however, from a multi-task generalization perspective, over-parameterization undermines the benefit of learning a shared representation which helps harder tasks or tasks with limited training examples. A delicate balance between multi-task generalization and multi-objective optimization is therefore needed for finding a better trade-off between efficiency and generalization. To this end, we propose a method of under-parameterized self-auxiliaries for multi-task models to achieve the best of both worlds. It is task-agnostic and works with other multi-task learning algorithms. Empirical results show that small towers of under-parameterized self-auxiliaries can make big differences in improving Pareto efficiency in various multi-task applications.
翻訳日:2022-10-30 22:37:43 公開日:2020-08-13
# CycleMorph: Cycle Consistent Unsupervised Deformable Image Registration

CycleMorph: Cycle Consistent Unsupervised Deformable Image Registration ( http://arxiv.org/abs/2008.05772v1 )

ライセンス: Link先を確認
Boah Kim, Dong Hwan Kim, Seong Ho Park, Jieun Kim, June-Goo Lee, Jong Chul Ye(参考訳) 画像登録は医用画像解析における基本課題である。 近年,超高速な計算時間にもかかわらず,ディープラーニングに基づく画像登録手法は優れた性能で広く研究されている。 しかし, 既存の深層学習法では, 登録ベクトル場による変形における元のトポロジーの保存が制限されている。 この問題に対処するために、サイクル一貫性のある変形可能な画像登録を提案する。 サイクル整合性は、変形中にトポロジを保存する暗黙の規則化を提供することで、画像登録性能を向上させる。 提案手法は非常に柔軟であり, 各種アプリケーションの2次元および3次元の登録問題にも適用可能であり, 大量登録時のメモリ問題に対処するために, マルチスケール実装に容易に拡張できる。 医学的・非医学的な応用から得られた様々なデータセットに対する実験結果から,提案手法は数秒以内に多様な画像対を効果的かつ正確に登録できることを示した。 また, 変形場の定性的, 定量的評価を行い, 提案手法の有効性を検証した。

Image registration is a fundamental task in medical image analysis. Recently, deep learning based image registration methods have been extensively investigated due to their excellent performance despite the ultra-fast computational time. However, the existing deep learning methods still have limitation in the preservation of original topology during the deformation with registration vector fields. To address this issues, here we present a cycle-consistent deformable image registration. The cycle consistency enhances image registration performance by providing an implicit regularization to preserve topology during the deformation. The proposed method is so flexible that can be applied for both 2D and 3D registration problems for various applications, and can be easily extended to multi-scale implementation to deal with the memory issues in large volume registration. Experimental results on various datasets from medical and non-medical applications demonstrate that the proposed method provides effective and accurate registration on diverse image pairs within a few seconds. Qualitative and quantitative evaluations on deformation fields also verify the effectiveness of the cycle consistency of the proposed method.
翻訳日:2022-10-30 22:30:34 公開日:2020-08-13
# 重みの共有はランダムアーキテクチャの検索に勝るか? TuNASによる検討

Can weight sharing outperform random architecture search? An investigation with TuNAS ( http://arxiv.org/abs/2008.06120v1 )

ライセンス: Link先を確認
Gabriel Bender, Hanxiao Liu, Bo Chen, Grace Chu, Shuyang Cheng, Pieter-Jan Kindermans, Quoc Le(参考訳) 重み付けに基づく効率的なニューラルアーキテクチャ探索法は,コンピュータビジョンモデルのためのニューラルアーキテクチャ探索の民主化において有望である。 しかし、これらの効率的な方法がランダム検索よりはるかに優れているかどうかについては議論が続いている。 本稿では,imagenet と coco 上の画像分類と検出のための,より大きく,より挑戦的な探索空間の族における効率的な探索法とランダム探索法を徹底的に比較する。 両手法の効率は問題に依存しているが,本実験では,効率的な探索手法がランダム探索よりも大幅に向上する,大規模で現実的なタスクが存在することを示した。 さらに,探索されたアーキテクチャの品質を改善し,手動ハイパーパラメータチューニングの必要性を低減する手法を提案し,評価する。 ソースコードと実験データはhttps://github.com/google-research/google-research/tree/master/tunasで入手できる。

Efficient Neural Architecture Search methods based on weight sharing have shown good promise in democratizing Neural Architecture Search for computer vision models. There is, however, an ongoing debate whether these efficient methods are significantly better than random search. Here we perform a thorough comparison between efficient and random search methods on a family of progressively larger and more challenging search spaces for image classification and detection on ImageNet and COCO. While the efficacies of both methods are problem-dependent, our experiments demonstrate that there are large, realistic tasks where efficient search methods can provide substantial gains over random search. In addition, we propose and evaluate techniques which improve the quality of searched architectures and reduce the need for manual hyper-parameter tuning. Source code and experiment data are available at https://github.com/google-research/google-research/tree/master/tunas
翻訳日:2022-10-30 22:30:19 公開日:2020-08-13
# MRI脳卒中解析のためのディープニューラルネットワークにおける不確実性の統合

Integrating uncertainty in deep neural networks for MRI based stroke analysis ( http://arxiv.org/abs/2008.06332v1 )

ライセンス: Link先を確認
Lisa Herzog, Elvis Murina, Oliver D\"urr, Susanne Wegener, Beate Sick(参考訳) 現在,提案手法の大部分は,モデルの不確かさを定量化することなく,ポイント予測を提供する。 しかし, 画像解析の信頼性の定量化は, 特に医師が重要な治療判断の結果に依存する医学において不可欠である。 本研究は,ベイズ不確実性を考慮した虚血性脳卒中患者の診断の枠組み全体を提供する。 本稿では2次元磁気共鳴(MR)画像における脳卒中病変の確率を推定するベイズ畳み込みニューラルネットワーク(CNN)を提案する。 患者レベルでの診断には, 画像レベルの予測と組み合わせて, 異なる凝集法が提案され, 評価される。 これらの手法は画像予測の不確実性を生かし,患者レベルでのモデル不確実性を報告する。 511例のコホートにおいて,bayesian cnnは画像レベルで95.33%の精度を示し,非bayesian cnnと比較して2%の改善率を示した。 最も優れた患者集計法は95.89%の精度を得た。 集約モデルにおける画像予測の不確実性情報の統合により、偽患者分類に対する不確実性対策が高まり、医師が精査すべき重要な患者の診断をフィルタリングできるようになった。 そこで我々は,ベイズ法を用いて画像レベルの予測や不確実性推定だけでなく,患者レベルでの不確実性アグリゲーションの検出を推奨する。

At present, the majority of the proposed Deep Learning (DL) methods provide point predictions without quantifying the models uncertainty. However, a quantification of the reliability of automated image analysis is essential, in particular in medicine when physicians rely on the results for making critical treatment decisions. In this work, we provide an entire framework to diagnose ischemic stroke patients incorporating Bayesian uncertainty into the analysis procedure. We present a Bayesian Convolutional Neural Network (CNN) yielding a probability for a stroke lesion on 2D Magnetic Resonance (MR) images with corresponding uncertainty information about the reliability of the prediction. For patient-level diagnoses, different aggregation methods are proposed and evaluated, which combine the single image-level predictions. Those methods take advantage of the uncertainty in image predictions and report model uncertainty at the patient-level. In a cohort of 511 patients, our Bayesian CNN achieved an accuracy of 95.33% at the image-level representing a significant improvement of 2% over a non-Bayesian counterpart. The best patient aggregation method yielded 95.89% of accuracy. Integrating uncertainty information about image predictions in aggregation models resulted in higher uncertainty measures to false patient classifications, which enabled to filter critical patient diagnoses that are supposed to be closer examined by a medical doctor. We therefore recommend using Bayesian approaches not only for improved image-level prediction and uncertainty estimation but also for the detection of uncertain aggregations at the patient-level.
翻訳日:2022-10-30 22:30:06 公開日:2020-08-13
# 選択または生成による常識知識グラフ推論? なぜだ?

Commonsense Knowledge Graph Reasoning by Selection or Generation? Why? ( http://arxiv.org/abs/2008.05925v1 )

ライセンス: Link先を確認
Cunxiang Wang, Jinhang Wu, Luxin Liu and Yue Zhang(参考訳) commonsense knowledge graph reasoning (ckgr) は、commonsense knowledge graph (ckg) で与えられた1つのエンティティとその関係を予測するためのタスクである。 既存の方法は2つのカテゴリ生成方法と選択方法に分けられる。 それぞれの方法には独自の利点がある。 提案手法を理論的,実証的に比較し,CKGRにおける生成法よりも選択法の方が適していることを示す。 この結果から, ニューラルネットワークエンコーダと知識グラフ埋め込みモデルの構造を組み合わせることで, 選択手法の2つの課題を解決し, 競争結果を得る。 選択法により,CKGRタスクの基本的なフレームワークとベースラインモデルを提供する。

Commonsense knowledge graph reasoning(CKGR) is the task of predicting a missing entity given one existing and the relation in a commonsense knowledge graph (CKG). Existing methods can be classified into two categories generation method and selection method. Each method has its own advantage. We theoretically and empirically compare the two methods, finding the selection method is more suitable than the generation method in CKGR. Given the observation, we further combine the structure of neural Text Encoder and Knowledge Graph Embedding models to solve the selection method's two problems, achieving competitive results. We provide a basic framework and baseline model for subsequent CKGR tasks by selection methods.
翻訳日:2022-10-30 22:29:43 公開日:2020-08-13
# パフォーマンス駆動bpとエッジ意思決定のためのpsoを用いた浅層ニューラルネットワークの学習可能性とロバスト性

Learnability and Robustness of Shallow Neural Networks Learned With a Performance-Driven BP and a Variant PSO For Edge Decision-Making ( http://arxiv.org/abs/2008.06135v1 )

ライセンス: Link先を確認
Hongmei He, Mengyuan Chen, Gang Xu, Zhilong Zhu, Zhenhuan Zhu(参考訳) 多くの場合、コンピューティングリソースはgpuの恩恵を受けることなく、特にiot対応システムのエッジデバイスで制限される。 エッジデバイスに複雑なAIモデルを実装するのは容易ではないかもしれない。 Universal Approximation Theoremは、浅いニューラルネットワーク(SNN)はどんな非線形関数でも表現できると述べている。 しかし、エッジデバイスにおける非線形決定問題を解くのに十分なSNNの太さはどの程度あるのか? 本稿では,強靭な強力ヒューリスティックアルゴリズム(パフォーマンス駆動BP)と緩やかな力メタヒューリスティックアルゴリズム(PSOの変種)によって得られるSNNの学習性と堅牢性に着目した。 KPI-PDBPsとKPI-VPSOsで学習・最適化されたSNNの学習可能性と頑健性を調べるために,KPI (key performance indicators: error (ERR), accuracy (ACC), $F_1$ score) の2つの実験を行った。 KPI-PDBPとKPI-VPSOによって学習・最適化されたSNNの性能に及ぼす隠れたニューロン数の影響を検討するために,漸進的なアプローチを適用した。 エンジニアリングの見通しからすると、すべてのセンサーは特定のタスクに対して十分に正当化されています。 したがって、すべてのセンサ読み取りはターゲットと強く相関するべきである。 したがって、SNNの構造は問題空間の次元に依存するべきである。 KPI-PDBPが生成するSNNの学習性は、トレーニングデータセットの性能と学習時間に関してKPI-VPSOが最適化したSNNよりも優れており、KPI-PDBPとKPI-VPSOが学習したSNNの堅牢性はデータセットに依存しており、他の古典的機械学習モデルと比較すると、ACC-PDBPがほぼ全てのテストデータセットで勝利する。

In many cases, the computing resources are limited without the benefit from GPU, especially in the edge devices of IoT enabled systems. It may not be easy to implement complex AI models in edge devices. The Universal Approximation Theorem states that a shallow neural network (SNN) can represent any nonlinear function. However, how fat is an SNN enough to solve a nonlinear decision-making problem in edge devices? In this paper, we focus on the learnability and robustness of SNNs, obtained by a greedy tight force heuristic algorithm (performance driven BP) and a loose force meta-heuristic algorithm (a variant of PSO). Two groups of experiments are conducted to examine the learnability and the robustness of SNNs with Sigmoid activation, learned/optimised by KPI-PDBPs and KPI-VPSOs, where, KPIs (key performance indicators: error (ERR), accuracy (ACC) and $F_1$ score) are the objectives, driving the searching process. An incremental approach is applied to examine the impact of hidden neuron numbers on the performance of SNNs, learned/optimised by KPI-PDBPs and KPI-VPSOs. From the engineering prospective, all sensors are well justified for a specific task. Hence, all sensor readings should be strongly correlated to the target. Therefore, the structure of an SNN should depend on the dimensions of a problem space. The experimental results show that the number of hidden neurons up to the dimension number of a problem space is enough; the learnability of SNNs, produced by KPI-PDBP, is better than that of SNNs, optimized by KPI-VPSO, regarding the performance and learning time on the training data sets; the robustness of SNNs learned by KPI-PDBPs and KPI-VPSOs depends on the data sets; and comparing with other classic machine learning models, ACC-PDBPs win for almost all tested data sets.
翻訳日:2022-10-30 22:29:30 公開日:2020-08-13
# MASRI-HEADSET: 音声認識のためのマルタコーパス

MASRI-HEADSET: A Maltese Corpus for Speech Recognition ( http://arxiv.org/abs/2008.05760v1 )

ライセンス: Link先を確認
Carlos Mena, Albert Gatt, Andrea DeMarco, Claudia Borg, Lonneke van der Plas, Amanda Muscat, Ian Padovani(参考訳) マルタの国語であるマルタ語は、約50万人が話している。 マルタ語のための音声処理はまだ開発の初期段階にある。 本稿では,自動音声認識(ASR)のために設計された最初のマルタ語コーパスを提案する。 MASRI-HEADSETコーパスはマルタ大学のMASRIプロジェクトによって開発された。 実験室環境における短いテキストスニペットを用いて、テキストと組み合わせた8時間の音声で構成されている。 講演者はマルタ島全域の異なる地理的な場所から募集され、ほぼ均等に性別で配布された。 本稿では,マルタASRのベースライン実験において,Sphinx と Kaldi を用いた最初の結果を示す。 MASRI-HEADSET Corpusは研究・学術目的で公開されている。

Maltese, the national language of Malta, is spoken by approximately 500,000 people. Speech processing for Maltese is still in its early stages of development. In this paper, we present the first spoken Maltese corpus designed purposely for Automatic Speech Recognition (ASR). The MASRI-HEADSET corpus was developed by the MASRI project at the University of Malta. It consists of 8 hours of speech paired with text, recorded by using short text snippets in a laboratory environment. The speakers were recruited from different geographical locations all over the Maltese islands, and were roughly evenly distributed by gender. This paper also presents some initial results achieved in baseline experiments for Maltese ASR using Sphinx and Kaldi. The MASRI-HEADSET Corpus is publicly available for research/academic purposes.
翻訳日:2022-10-30 22:28:36 公開日:2020-08-13
# 変圧器モデルにおける局所情報の重要性について

On the Importance of Local Information in Transformer Based Models ( http://arxiv.org/abs/2008.05828v1 )

ライセンス: Link先を確認
Madhura Pande, Aakriti Budhraja, Preksha Nema, Pratyush Kumar, Mitesh M. Khapra(参考訳) 自己アテンションモジュールはTransformerベースのモデルのキーコンポーネントであり、各トークンは他のトークンすべてに注意を払う。 近年の研究では、これらの頭部が統語論、意味論、あるいは局所的な行動を示すことが示されている。 いくつかの研究は、この注意を局所的であると制限する約束、すなわち周辺の小さな地域のみに他のトークンに出席するトークンも特定している。 しかし、そのような局所的な注意だけで複数のNLPタスクにおいて高い精度を達成できるという決定的な証拠は存在しない。 本研究では,学習モデルにおける局所情報の役割を体系的に分析し,構文情報の役割と対比する。 より具体的には、まず感度分析を行い、すべての層において、トークンの表現は、その周りの小さな近所のトークンに対して、シンタクティックに関連するトークンよりもはるかに敏感であることを示す。 次に注意バイアスメトリクスを定義して、頭がローカルトークンにもっと注意を払うか、あるいは構文的に関連するトークンに注意を払うかを決定する。 その結果, 頭部の局所性バイアスは, 統語的バイアスに比べて大きいことが判明した。 ローカルアテンションヘッドの重要性を確立した私たちは、アテンションヘッドの異なる割合をローカルに制限したモデルをトレーニングし、評価します。 このようなモデルは注意層での計算が少なくなるため、より効率的である。 これらのモデルを,4つのGLUEデータセット(QQP,SST-2,MRPC,QNLI)と2つのMTデータセット(En-De,En-Ru)で評価し,制約のないモデルに匹敵する性能を示す。 この体系的評価により、トランスフォーマーモデルにおける注意は、性能に影響を与えずに局所的に制約できることを示す。

The self-attention module is a key component of Transformer-based models, wherein each token pays attention to every other token. Recent studies have shown that these heads exhibit syntactic, semantic, or local behaviour. Some studies have also identified promise in restricting this attention to be local, i.e., a token attending to other tokens only in a small neighbourhood around it. However, no conclusive evidence exists that such local attention alone is sufficient to achieve high accuracy on multiple NLP tasks. In this work, we systematically analyse the role of locality information in learnt models and contrast it with the role of syntactic information. More specifically, we first do a sensitivity analysis and show that, at every layer, the representation of a token is much more sensitive to tokens in a small neighborhood around it than to tokens which are syntactically related to it. We then define an attention bias metric to determine whether a head pays more attention to local tokens or to syntactically related tokens. We show that a larger fraction of heads have a locality bias as compared to a syntactic bias. Having established the importance of local attention heads, we train and evaluate models where varying fractions of the attention heads are constrained to be local. Such models would be more efficient as they would have fewer computations in the attention layer. We evaluate these models on 4 GLUE datasets (QQP, SST-2, MRPC, QNLI) and 2 MT datasets (En-De, En-Ru) and clearly demonstrate that such constrained models have comparable performance to the unconstrained models. Through this systematic evaluation we establish that attention in Transformer-based models can be constrained to be local without affecting performance.
翻訳日:2022-10-30 22:28:26 公開日:2020-08-13
# 理解・予測・計画:解釈可能な意味表現による安全な運動計画

Perceive, Predict, and Plan: Safe Motion Planning Through Interpretable Semantic Representations ( http://arxiv.org/abs/2008.05930v1 )

ライセンス: Link先を確認
Abbas Sadat, Sergio Casas, Mengye Ren, Xinyu Wu, Pranaab Dhawan, Raquel Urtasun(参考訳) 本稿では,自動運転車の協調認識,予測,動作計画を行い,解釈可能な中間表現を生成する新しいエンドツーエンド学習ネットワークを提案する。 既存のニューラルモーションプランナーとは異なり、私たちのモーションプランニングコストは、私たちの知覚と予測予測と一致しています。 これは、動作計画プロセスによってコストとして明示的に使用される、新しい識別可能なセマンティック占有表現によって達成される。 私たちのネットワークは、人間のデモからエンドツーエンドで学んでいます。 大規模な手動運転データセットとクローズドループシミュレーションの実験により、提案されたモデルは、より安全な軌道を生成しながら人間の行動を模倣する最先端のプランナーを著しく上回ります。

In this paper we propose a novel end-to-end learnable network that performs joint perception, prediction and motion planning for self-driving vehicles and produces interpretable intermediate representations. Unlike existing neural motion planners, our motion planning costs are consistent with our perception and prediction estimates. This is achieved by a novel differentiable semantic occupancy representation that is explicitly used as cost by the motion planning process. Our network is learned end-to-end from human demonstrations. The experiments in a large-scale manual-driving dataset and closed-loop simulation show that the proposed model significantly outperforms state-of-the-art planners in imitating the human behaviors while producing much safer trajectories.
翻訳日:2022-10-30 22:21:36 公開日:2020-08-13
# ランキング強化対話生成

Ranking Enhanced Dialogue Generation ( http://arxiv.org/abs/2008.05640v1 )

ライセンス: Link先を確認
Changying Hao, Liang Pang, Yanyan Lan, Fei Sun, Jiafeng Guo, Xueqi Cheng(参考訳) 対話履歴の有効利用は多方向対話生成において重要な課題である。 以前の研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャ(リカレントニューラルネットワーク、アテンション機構、階層構造など)を使用している。 しかし、Sankarらによる最近の実証研究は、これらのアーキテクチャは対話の歴史のダイナミクスを理解し、モデル化する能力が欠けていることを示している。 例えば、広く使われているアーキテクチャは、単語シャッフル、発話の欠如、発話の順序変更など、対話履歴の摂動に敏感である。 この問題に対処するため,本論文ではランキング拡張対話生成フレームワークを提案する。 従来の表現エンコーダと応答生成モジュールにもかかわらず、以前の発話と連続発話のランキング関係をモデル化するための追加のランキングモジュールが導入された。 具体的には、前者の発話と連続した発話をクエリおよび対応する文書として扱い、学習過程において局所的およびグローバル的ランキングロスをデザインする。 このように、対話履歴のダイナミクスを明示的にキャプチャすることができる。 提案モデルを評価するため,bAbI,PersonaChat,JDCの3つの公開データセットについて広範な実験を行った。 実験の結果, 対話生成モデルと比較して, 定量的尺度と人的判断の両方において, 反応が良好であることが判明した。 さらに、改善の出所と方法を示すための詳細な実験分析を行った。

How to effectively utilize the dialogue history is a crucial problem in multi-turn dialogue generation. Previous works usually employ various neural network architectures (e.g., recurrent neural networks, attention mechanisms, and hierarchical structures) to model the history. However, a recent empirical study by Sankar et al. has shown that these architectures lack the ability of understanding and modeling the dynamics of the dialogue history. For example, the widely used architectures are insensitive to perturbations of the dialogue history, such as words shuffling, utterances missing, and utterances reordering. To tackle this problem, we propose a Ranking Enhanced Dialogue generation framework in this paper. Despite the traditional representation encoder and response generation modules, an additional ranking module is introduced to model the ranking relation between the former utterance and consecutive utterances. Specifically, the former utterance and consecutive utterances are treated as query and corresponding documents, and both local and global ranking losses are designed in the learning process. In this way, the dynamics in the dialogue history can be explicitly captured. To evaluate our proposed models, we conduct extensive experiments on three public datasets, i.e., bAbI, PersonaChat, and JDC. Experimental results show that our models produce better responses in terms of both quantitative measures and human judgments, as compared with the state-of-the-art dialogue generation models. Furthermore, we give some detailed experimental analysis to show where and how the improvements come from.
翻訳日:2022-10-30 22:21:24 公開日:2020-08-13
# seq-2-seq/時系列モデルのためのニューラルネットワークを用いた知識統合技術に関する調査

A Survey on Knowledge integration techniques with Artificial Neural Networks for seq-2-seq/time series models ( http://arxiv.org/abs/2008.05972v1 )

ライセンス: Link先を確認
Pramod Vadiraja and Muhammad Ali Chattha(参考訳) 近年、膨大な計算能力の出現と大量のデータの提供により、ディープニューラルネットワークはいくつかの領域における未チャージ領域の探索を可能にしている。 しかし、データ不足、データ品質の低さ、ドメインを広くカバーしていないかもしれないデータなどにより、パフォーマンスが低い場合もあります。 知識に基づくシステムは、専門家の知識を利用して意思決定を行い、適切な行動を取る。 このようなシステムは意思決定プロセスにおいて解釈可能性を維持する。 本稿では,シークエンス・ツー・シークエンスと時系列モデルのためのDeep Neural Networksに専門家の知識を統合する手法を検討する。

In recent years, with the advent of massive computational power and the availability of huge amounts of data, Deep neural networks have enabled the exploration of uncharted areas in several domains. But at times, they under-perform due to insufficient data, poor data quality, data that might not be covering the domain broadly, etc. Knowledge-based systems leverage expert knowledge for making decisions and suitably take actions. Such systems retain interpretability in the decision-making process. This paper focuses on exploring techniques to integrate expert knowledge to the Deep Neural Networks for sequence-to-sequence and time series models to improve their performance and interpretability.
翻訳日:2022-10-30 22:21:00 公開日:2020-08-13
# 駅網構成の動的都市自転車利用予測に向けて

Towards Dynamic Urban Bike Usage Prediction for Station Network Reconfiguration ( http://arxiv.org/abs/2008.07318v1 )

ライセンス: Link先を確認
Xi Yang and Suining He(参考訳) 自転車シェアリングは、世界中の大都市住民にとって主要な交通手段の一つとなっている。 駅ベースの自転車シェアリングシステムは通常、ユーザーがある駅から自転車を拾い取り、別の駅に落とすように運用される。 しかし、自転車の駅は、時間とともに変化する需要や都市化に対応するために、しばしば再構成されるため、静的ではない。 重要な運用の1つは、候補地を評価し、自転車共有ステーションネットワークを拡張するために新しいステーションを設置することである。 既存の駅利用の予測は従来から行われてきたが,自転車使用履歴の欠如から新駅評価は非常に困難である。 このギャップを埋めるため,本研究では,既存の駅と新しい駅(再設定中の候補地)の両方で自転車の利用量を予測可能な,新しい効率的な自転車駅レベル予測アルゴリズムatcorを提案する。 歴史データの欠如に対処するため,AtCoRモデルの初期化において,周辺駅との相関関係に基づいて,新しい駅の仮想的履歴利用が生成される。 提案手法は, 利用者が駅周辺を走行する傾向を熱マップを中心に特徴付ける新しい駅中心ヒートマップを設計し, 自転車局網の学習可能な特徴を捉えることを可能にした。 得られた特徴は、新しい駅の自転車利用予測にさらに応用される。 米国内の3大自転車シェアリングシステム(ニューヨーク、シカゴ、ロサンゼルスを含む)からの2300万回以上の旅行に関する広範な実験で、atcorは既存の駅と将来の駅の両方を予測する上で、ベースラインと最先端のモデルよりも優れています。

Bike sharing has become one of the major choices of transportation for residents in metropolitan cities worldwide. A station-based bike sharing system is usually operated in the way that a user picks up a bike from one station, and drops it off at another. Bike stations are, however, not static, as the bike stations are often reconfigured to accommodate changing demands or city urbanization over time. One of the key operations is to evaluate candidate locations and install new stations to expand the bike sharing station network. Conventional practices have been studied to predict existing station usage, while evaluating new stations is highly challenging due to the lack of the historical bike usage. To fill this gap, in this work we propose a novel and efficient bike station-level prediction algorithm called AtCoR, which can predict the bike usage at both existing and new stations (candidate locations during reconfiguration). In order to address the lack of historical data issues, virtual historical usage of new stations is generated according to their correlations with the surrounding existing stations, for AtCoR model initialization. We have designed novel station-centered heatmaps which characterize for each target station centered at the heatmap the trend that riders travel between it and the station's neighboring regions, enabling the model to capture the learnable features of the bike station network. The captured features are further applied to the prediction of bike usage for new stations. Our extensive experiment study on more than 23 million trips from three major bike sharing systems in US, including New York City, Chicago and Los Angeles, shows that AtCoR outperforms baselines and state-of-art models in prediction of both existing and future stations.
翻訳日:2022-10-30 22:20:20 公開日:2020-08-13
# 未知の政策を探索する

Imitating Unknown Policies via Exploration ( http://arxiv.org/abs/2008.05660v1 )

ライセンス: Link先を確認
Nathan Gavenski and Juarez Monteiro and Roger Granada and Felipe Meneguzzi and Rodrigo C. Barros(参考訳) 行動クローン(behavior clone)は、エージェントに専門家のデモンストレーションを通じて行動の仕方を教える模倣学習技法である。 最近のアプローチでは、状態ペアをアクションにデコードするために、状態の完全な監視不能なスナップショットの自己スーパービジョンを使用する。 しかし、これらの手法による反復学習方式は、悪質なローカル・ミニマに陥る傾向にある。 研究を通じてラベルなしの観察から学習し,活用による従来の行動クローニングを実質的に改善する,二相モデルを原型フレームワークに組み込んだこれらの制限に対処する。 (i)悪質な局所性ミニマを防ぐためのサンプリング機構 (ii)探査を改善するためのサンプリング機構、及び (iii)グローバルな特徴を捉える自己注意モジュール。 その結果得られた技術は、4つの異なる環境における従来の最先端技術よりも大きなマージンで優れている。

Behavioral cloning is an imitation learning technique that teaches an agent how to behave through expert demonstrations. Recent approaches use self-supervision of fully-observable unlabeled snapshots of the states to decode state-pairs into actions. However, the iterative learning scheme from these techniques are prone to getting stuck into bad local minima. We address these limitations incorporating a two-phase model into the original framework, which learns from unlabeled observations via exploration, substantially improving traditional behavioral cloning by exploiting (i) a sampling mechanism to prevent bad local minima, (ii) a sampling mechanism to improve exploration, and (iii) self-attention modules to capture global features. The resulting technique outperforms the previous state-of-the-art in four different environments by a large margin.
翻訳日:2022-10-30 22:19:49 公開日:2020-08-13
# look, listen, and attend: 自己教師付き視聴覚表現学習のための協調ネットワーク

Look, Listen, and Attend: Co-Attention Network for Self-Supervised Audio-Visual Representation Learning ( http://arxiv.org/abs/2008.05789v1 )

ライセンス: Link先を確認
Ying Cheng, Ruize Wang, Zhihao Pan, Rui Feng, Yuejie Zhang(参考訳) ビデオを見るとき、視覚イベントの発生には、例えば、唇の動きの声、楽器の演奏の音楽など、オーディオイベントが伴うことが多い。 音声と視覚のイベントの間には基本的な相関関係があり、音声と視覚の同期のプリテキストタスクを解決し、ニューラルネットワークを訓練するための無料の教師付き情報として使用できる。 本稿では,非ラベリングビデオから汎用的なクロスモーダル表現を学習し,さらに下流の作業に役立てるための,コアテンション機構を備えた新しい自己教師型フレームワークを提案する。 具体的には,音に関連付けられた識別的視覚領域に焦点をあてる3つの異なるコアテンションモジュールを探索し,それらの相互作用を紹介する。 実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。 提案手法の一般化性と伝達性をさらに評価するため,2つの下流タスク,すなわち音源定位と動作認識に事前学習モデルを適用した。 実験により,本モデルが他の自己監督手法と競合する結果をもたらすことを示すとともに,複数の音源を含む難題に対処できることを示す。

When watching videos, the occurrence of a visual event is often accompanied by an audio event, e.g., the voice of lip motion, the music of playing instruments. There is an underlying correlation between audio and visual events, which can be utilized as free supervised information to train a neural network by solving the pretext task of audio-visual synchronization. In this paper, we propose a novel self-supervised framework with co-attention mechanism to learn generic cross-modal representations from unlabelled videos in the wild, and further benefit downstream tasks. Specifically, we explore three different co-attention modules to focus on discriminative visual regions correlated to the sounds and introduce the interactions between them. Experiments show that our model achieves state-of-the-art performance on the pretext task while having fewer parameters compared with existing methods. To further evaluate the generalizability and transferability of our approach, we apply the pre-trained model on two downstream tasks, i.e., sound source localization and action recognition. Extensive experiments demonstrate that our model provides competitive results with other self-supervised methods, and also indicate that our approach can tackle the challenging scenes which contain multiple sound sources.
翻訳日:2022-10-30 22:19:39 公開日:2020-08-13
# Adain-Switchable CycleGANによる低線量CTの高効率化

AdaIN-Switchable CycleGAN for Efficient Unsupervised Low-Dose CT Denoising ( http://arxiv.org/abs/2008.05753v1 )

ライセンス: Link先を確認
Jawook Gu, Jong Chul Ye(参考訳) 近年,高速な計算時間にも拘わらず,その優れた性能により低用量ctのための深層学習手法が広く研究されている。 特に、cycleganは、一致した高用量参照データを必要とすることなく、低用量ct画像品質を改善する強力な教師なし学習スキームとして実証されている。 残念ながら、cycleganアプローチの主な制限の1つは、トレーニングフェーズで2つのディープニューラルネットワークジェネレータが必要であることである。 二次補助発電機はサイクル一貫性を強制するために必要だが、追加のメモリ要件と学習可能なパラメータの増加がサイクルGANトレーニングの主な障害である。 本稿では,スイッチング可能な1つのジェネレータを用いた新しいサイクルGANアーキテクチャを提案する。 特に、1つのジェネレータをadaptive instance normalization(adain)層を用いて実装することにより、低線量ct画像をルーチン線量ct画像に変換するベースラインジェネレータを、adainコードを変更するだけで高線量から低線量に変換するジェネレータに切り替えることができる。 共有ベースラインネットワークにより、追加のメモリ要求と重量増加を最小限に抑えることができ、少ないトレーニングデータでもより安定的にトレーニングを行うことができる。 実験の結果,提案手法は,約半数のパラメータを用いて,従来のサイクルGAN手法よりも優れていた。

Recently, deep learning approaches have been extensively studied for low-dose CT denoising thanks to its superior performance despite the fast computational time. In particular, cycleGAN has been demonstrated as a powerful unsupervised learning scheme to improve the low-dose CT image quality without requiring matched high-dose reference data. Unfortunately, one of the main limitations of the cycleGAN approach is that it requires two deep neural network generators at the training phase, although only one of them is used at the inference phase. The secondary auxiliary generator is needed to enforce the cycle-consistency, but the additional memory requirement and increases of the learnable parameters are the main huddles for cycleGAN training. To address this issue, here we propose a novel cycleGAN architecture using a single switchable generator. In particular, a single generator is implemented using adaptive instance normalization (AdaIN) layers so that the baseline generator converting a low-dose CT image to a routine-dose CT image can be switched to a generator converting high-dose to low-dose by simply changing the AdaIN code. Thanks to the shared baseline network, the additional memory requirement and weight increases are minimized, and the training can be done more stably even with small training data. Experimental results show that the proposed method outperforms the previous cycleGAN approaches while using only about half the parameters.
翻訳日:2022-10-30 22:19:18 公開日:2020-08-13
# 重み等化シフトスケーラ結合後トレーニング量子化

Weight Equalizing Shift Scaler-Coupled Post-training Quantization ( http://arxiv.org/abs/2008.05767v1 )

ライセンス: Link先を確認
Jihun Oh, SangJeong Lee, Meejeong Park, Pooni Walagaurav and Kiseok Kwon(参考訳) トレーニング後の層別量子化は、再トレーニングが不要でハードウェアフレンドリであるため望ましい。 それでも、ニューラルネットワークモデルがチャネル毎の重み範囲に大きな差がある場合、精度が低下する。 特に、MobileNetファミリーは8ビットの重量量子化の後、ImageNetデータセット上で70.60%から71.87%から0.1%まで、トップ1の精度が悲劇的に低下している。 この顕著な精度低下を緩和するために、我々は新しい重み等化シフトスケーラ、すなわち4ビットのバイナリシフトでチャネルごとの重み範囲を4ビットの量子化に先立って再スケーリングすることを提案する。 元の出力範囲を回復するために、カスタムニューラルプロセッシングユニットの固定計算畳み込み演算子において、既存の層間スケールに逆バイナリシフトを効率よく融合させる。 バイナリシフトは,メモリフットプリントを損なうことなく精度を大幅に向上させるアルゴリズムの重要な特徴である。 その結果,提案手法はMobileNetsの69.78%~70.96%でトップ1の精度を達成し,チャネルワイド量子化結果と競合する様々なネットワークモデルやタスクにおいてロバストな性能を示した。

Post-training, layer-wise quantization is preferable because it is free from retraining and is hardware-friendly. Nevertheless, accuracy degradation has occurred when a neural network model has a big difference of per-out-channel weight ranges. In particular, the MobileNet family has a tragedy drop in top-1 accuracy from 70.60% ~ 71.87% to 0.1% on the ImageNet dataset after 8-bit weight quantization. To mitigate this significant accuracy reduction, we propose a new weight equalizing shift scaler, i.e. rescaling the weight range per channel by a 4-bit binary shift, prior to a layer-wise quantization. To recover the original output range, inverse binary shifting is efficiently fused to the existing per-layer scale compounding in the fixed-computing convolutional operator of the custom neural processing unit. The binary shift is a key feature of our algorithm, which significantly improved the accuracy performance without impeding the memory footprint. As a result, our proposed method achieved a top-1 accuracy of 69.78% ~ 70.96% in MobileNets and showed robust performance in varying network models and tasks, which is competitive to channel-wise quantization results.
翻訳日:2022-10-30 22:18:52 公開日:2020-08-13