このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210423となっている論文です。

PDF登録状況(公開日: 20210423)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 勾配標準逆数増大を伴うアンカー付きSTFTを用いた脳波復号法の性能向上

Improving the performance of EEG decoding using anchored-STFT in conjunction with gradient norm adversarial augmentation ( http://arxiv.org/abs/2011.14694v2 )

ライセンス: CC BY 4.0
Omair Ali, Muhammad Saif-ur-Rehman, Susanne Dyck, Tobias Glasmachers, Ioannis Iossifidis and Christian Klaes(参考訳) 脳コンピュータインタフェース(BCI)は、脳の活動を制御コマンドに変換することによって、人間と機械間の直接通信を可能にする。 eegはその安価で非侵襲的な性質から、最も一般的な神経信号源の1つである。 しかし、脳波信号の解釈は空間分解能が低く、しばしばノイズやアーティファクトで歪んでいるため、簡単ではない。 したがって、脳波信号を分類するための有意義なパターンが深く隠れている可能性がある。 現在最先端のディープラーニングアルゴリズムは、隠された意味のあるパターンを学ぶのに非常に効率的であることが証明されている。 しかし、ディープラーニングアルゴリズムの性能は、提供されたトレーニングデータの品質と量に依存する。 したがって、より良い入力生成(特徴抽出)技術と高品質なデータを生成する生成モデルにより、ディープラーニングアルゴリズムは高い一般化品質を適応させることができる。 本研究では,新しい学習例を活用すべく,新しいディープラーニングに基づく生成モデルとともに,新しい入力生成(特徴抽出)法を提案する。 特徴ベクトルは、アンカー付きSTFTと呼ばれる修正されたショートタイムフーリエ変換(STFT)を用いて抽出される。 ウェーブレット変換にインスパイアされたAnchored-STFTは、時間と周波数分解能のトレードオフを最小化しようとする。 その結果、標準STFTよりも時間と周波数の解像度が良い入力(機能ベクトル)を抽出する。 第2に、より訓練データを生成するために、GNAA(グラディショナル・ノルム・アジュメンテーション)と呼ばれる新しい生成的アジュメンテーション手法を導入した。 第3に,脳波データにおける逆入力の存在と意義について検討した。 BCIコンペティションIIデータセットは0.814、BCIコンペティションIVデータセットは0.755、テストデータではセッション・ツー・セッション転送は0.755である。

Brain-computer interfaces (BCIs) enable direct communication between humans and machines by translating brain activity into control commands. EEG is one of the most common sources of neural signals because of its inexpensive and non-invasive nature. However, interpretation of EEG signals is non-trivial because EEG signals have a low spatial resolution and are often distorted with noise and artifacts. Therefore, it is possible that meaningful patterns for classifying EEG signals are deeply hidden. Nowadays, state-of-the-art deep-learning algorithms have proven to be quite efficient in learning hidden, meaningful patterns. However, the performance of the deep learning algorithms depends upon the quality and the amount of the provided training data. Hence, a better input formation (feature extraction) technique and a generative model to produce high-quality data can enable the deep learning algorithms to adapt high generalization quality. In this study, we proposed a novel input formation (feature extraction) method in conjunction with a novel deep learning based generative model to harness new training examples. The feature vectors are extracted using a modified Short Time Fourier Transform (STFT) called anchored-STFT. Anchored-STFT, inspired by wavelet transform, tries to minimize the tradeoff between time and frequency resolution. As a result, it extracts the inputs (feature vectors) with better time and frequency resolution compared to the standard STFT. Secondly, we introduced a novel generative adversarial data augmentation technique called gradient norm adversarial augmentation (GNAA) for generating more training data. Thirdly, we investigated the existence and significance of adversarial inputs in EEG data. Our approach obtained the kappa value of 0.814 for BCI competition II dataset III and 0.755 for BCI competition IV dataset 2b for session-to-session transfer on test data.
翻訳日:2021-06-07 03:07:04 公開日:2021-04-23
# transmia: transfer shadow trainingを用いたメンバーシップ推論攻撃

TransMIA: Membership Inference Attacks Using Transfer Shadow Training ( http://arxiv.org/abs/2011.14661v3 )

ライセンス: Link先を確認
Seira Hidano, Takao Murakami, Yusuke Kawamoto(参考訳) トランスファーラーニングは広く研究され、異なるトレーニングで得られた知識を転送することで機械学習モデルの精度を向上させるために人気が高まっている。 しかし、トランスファーラーニングが機械学習モデルに対するプライバシー攻撃を強化することは、これまでの研究で指摘されていない。 本稿では,トランスファー学習に基づくメンバーシップ推論攻撃(Transfer Learning-based Membership Inference Attacks)を提案する。 特に, 伝達モデルのパラメータを用いてシャドウモデルを構築するトランスファーシャドドートレーニング手法を提案し, 限られた量のシャドウトレーニングデータが利用可能な場合に, メンバシップ推論の性能を大幅に向上させる。 我々は2つの実際のデータセットを用いて攻撃を評価し、転送シャドートレーニング技術を使用しない最先端技術よりも攻撃が優れていることを示す。 また,学習ベース/エントロピーベースアプローチと微調整/フリーズアプローチの4つの組み合わせを比較した。 次に,信頼度分布に基づくこれらの4つの手法の性能について検討し,攻撃対策の可能性を検討する。

Transfer learning has been widely studied and gained increasing popularity to improve the accuracy of machine learning models by transferring some knowledge acquired in different training. However, no prior work has pointed out that transfer learning can strengthen privacy attacks on machine learning models. In this paper, we propose TransMIA (Transfer learning-based Membership Inference Attacks), which use transfer learning to perform membership inference attacks on the source model when the adversary is able to access the parameters of the transferred model. In particular, we propose a transfer shadow training technique, where an adversary employs the parameters of the transferred model to construct shadow models, to significantly improve the performance of membership inference when a limited amount of shadow training data is available to the adversary. We evaluate our attacks using two real datasets, and show that our attacks outperform the state-of-the-art that does not use our transfer shadow training technique. We also compare four combinations of the learning-based/entro py-based approach and the fine-tuning/freezing approach, all of which employ our transfer shadow training technique. Then we examine the performance of these four approaches based on the distributions of confidence values, and discuss possible countermeasures against our attacks.
翻訳日:2021-06-06 14:55:10 公開日:2021-04-23
# オンラインマルチオブジェクトトラッキングにおけるトラックレット不活性化のためのcrfベースフレームワーク

A CRF-based Framework for Tracklet Inactivation in Online Multi-Object Tracking ( http://arxiv.org/abs/2011.14594v2 )

ライセンス: Link先を確認
Tianze Gao, Huihui Pan, Zidong Wang, Huijun Gao(参考訳) オンラインマルチオブジェクトトラッキング(MOT)はコンピュータビジョンの領域において活発な研究トピックである。 これまでに提案されたアルゴリズムの多くは良好な結果を示したが、トラックレットの不活性化の問題は十分に研究されていない。 分類スコアに対する固定しきい値の使用などの単純な戦略が採用され、望ましくない追跡ミスが発生し、全体的なパフォーマンスが制限される。 本稿では,オンラインMOT問題におけるトラックレット不活性化問題に取り組むために,条件付きランダムフィールド(CRF)ベースのフレームワークを提案する。 トラックレット不活性化の堅牢性を改善するために, 追跡仮説間のフレーム内関係を利用した離散CRFを開発した。 機能関数の分離セットは、実践シナリオにおける様々な追跡課題を考慮して、CRFの単一項とバイナリ項のために設計されている。 MOTコンテキストにおける様々なCRFノードの問題に対処するため、仮説フィルタリングとダミーノードと呼ばれる2つの戦略が採用されている。 提案手法では, ループ型信念伝搬アルゴリズムを用いて推定段階を行い, 最大推定法を用いてCRFパラメータを決定するとともに, わずかな手動調整を行う。 実験の結果,CRFベースのフレームワークと組み合わせることで,MOT16ベンチマークとMOT17ベンチマークのベースラインを上回った。 提案フレームワークの拡張性は、広範な実験によってさらに検証される。

Online multi-object tracking (MOT) is an active research topic in the domain of computer vision. Although many previously proposed algorithms have exhibited decent results, the issue of tracklet inactivation has not been sufficiently studied. Simple strategies such as using a fixed threshold on classification scores are adopted, yielding undesirable tracking mistakes and limiting the overall performance. In this paper, a conditional random field (CRF) based framework is put forward to tackle the tracklet inactivation issue in online MOT problems. A discrete CRF which exploits the intra-frame relationship between tracking hypotheses is developed to improve the robustness of tracklet inactivation. Separate sets of feature functions are designed for the unary and binary terms in the CRF, which take into account various tracking challenges in practical scenarios. To handle the problem of varying CRF nodes in the MOT context, two strategies named as hypothesis filtering and dummy nodes are employed. In the proposed framework, the inference stage is conducted by using the loopy belief propagation algorithm, and the CRF parameters are determined by utilizing the maximum likelihood estimation method followed by slight manual adjustment. Experimental results show that the tracker combined with the CRF-based framework outperforms the baseline on the MOT16 and MOT17 benchmarks. The extensibility of the proposed framework is further validated by an extensive experiment.
翻訳日:2021-06-06 14:48:56 公開日:2021-04-23
# KernelSHAPの改善: 線形回帰による共有値の実用的評価

Improving KernelSHAP: Practical Shapley Value Estimation via Linear Regression ( http://arxiv.org/abs/2012.01536v3 )

ライセンス: Link先を確認
Ian Covert, Su-In Lee(参考訳) 協調ゲーム理論からのShapley値の概念はMLモデルを解釈する一般的な手法となっているが、これらの値を効率的に推定することは、特にモデルに依存しない環境では困難である。 本稿では,このアプローチを理解し改善するために,線形回帰によるシャプリー値推定の考え方を再考する。 新たに提案する不偏バージョンと並行して元のカーネルshapを解析し,その収束を検知し,不確実性推定値を計算する手法を開発した。 また, 原版では, 有意に低い分散率と引き換えに, 偏りが必然的に増加することを見出し, 両推定器の収束をさらに加速する分散低減手法を提案する。 最後に,2つの大域的説明法に対して高速に新しい推定器を生成する確率的協調ゲーム用kernelshapの開発を行った。

The Shapley value concept from cooperative game theory has become a popular technique for interpreting ML models, but efficiently estimating these values remains challenging, particularly in the model-agnostic setting. Here, we revisit the idea of estimating Shapley values via linear regression to understand and improve upon this approach. By analyzing the original KernelSHAP alongside a newly proposed unbiased version, we develop techniques to detect its convergence and calculate uncertainty estimates. We also find that the original version incurs a negligible increase in bias in exchange for significantly lower variance, and we propose a variance reduction technique that further accelerates the convergence of both estimators. Finally, we develop a version of KernelSHAP for stochastic cooperative games that yields fast new estimators for two global explanation methods.
翻訳日:2021-05-25 04:11:26 公開日:2021-04-23
# エネルギーベースモデルのコントラスト発散訓練の改善

Improved Contrastive Divergence Training of Energy Based Models ( http://arxiv.org/abs/2012.01316v3 )

ライセンス: Link先を確認
Yilun Du, Shuang Li, Joshua Tenenbaum, Igor Mordatch(参考訳) コントラスト発散はエネルギーベースのモデルを訓練する一般的な方法であるが、トレーニング安定性に問題があることが知られている。 本稿では,計算が困難な勾配項を精査し,便宜のために取り残されがちな逆発散訓練を改善する適応法を提案する。 我々は,この勾配項が数値的に重要であり,実際には,推定可能でありながら,トレーニング不安定を避けることが重要であることを示す。 さらに,モデルのロバスト性と生成品質を改善するために,データ拡張とマルチスケール処理をどのように利用するかについても強調する。 最後に,モデルアーキテクチャの安定性を実証的に評価し,画像生成やOOD検出,合成生成など,ベンチマークやユースケースのホスト上での性能向上を示す。

Contrastive divergence is a popular method of training energy-based models, but is known to have difficulties with training stability. We propose an adaptation to improve contrastive divergence training by scrutinizing a gradient term that is difficult to calculate and is often left out for convenience. We show that this gradient term is numerically significant and in practice is important to avoid training instabilities, while being tractable to estimate. We further highlight how data augmentation and multi-scale processing can be used to improve model robustness and generation quality. Finally, we empirically evaluate stability of model architectures and show improved performance on a host of benchmarks and use cases,such as image generation, OOD detection, and compositional generation.
翻訳日:2021-05-25 03:51:03 公開日:2021-04-23
# ID-Reveal:ID対応のDeepFakeビデオ検出

ID-Reveal: Identity-aware DeepFake Video Detection ( http://arxiv.org/abs/2012.02512v2 )

ライセンス: Link先を確認
Davide Cozzolino and Andreas R\"ossler and Justus Thies and Matthias Nie{\ss}ner and Luisa Verdoliva(参考訳) deepfake forgery検出の大きな課題は、最先端アルゴリズムが特定のフェイクメソッドを検出するように訓練されていることだ。 結果として、これらのアプローチは、顔交換から顔の再現に至るまで、さまざまな種類の顔操作の一般化が不十分であることを示す。 この目的のために, 対人訓練戦略と組み合わせたメトリック学習により, 発話中の人物の動きを具体化した, 時間的顔の特徴を学習する新しいアプローチであるID-Revealを導入する。 利点は、偽物のトレーニングデータを一切必要とせず、実際のビデオのみをトレーニングすることです。 さらに,高レベルなセマンティックな特徴を活用し,ロバストな処理がポストプロセッシングの広範かつ破壊的な形態で行えるようにした。 公開されているベンチマークの徹底的な実験分析を行う。 最先端技術と比較すると,本手法は一般化が向上し,ソーシャルネットワークに拡散する低品質ビデオに対してより堅牢である。 特に,高圧縮ビデオにおける顔再現の精度は15%以上向上した。

A major challenge in DeepFake forgery detection is that state-of-the-art algorithms are mostly trained to detect a specific fake method. As a result, these approaches show poor generalization across different types of facial manipulations, e.g., from face swapping to facial reenactment. To this end, we introduce ID-Reveal, a new approach that learns temporal facial features, specific of how a person moves while talking, by means of metric learning coupled with an adversarial training strategy. The advantage is that we do not need any training data of fakes, but only train on real videos. Moreover, we utilize high-level semantic features, which enables robustess to widespread and disruptive forms of post-processing. We perform a thorough experimental analysis on several publicly available benchmarks. Compared to state of the art, our method improves generalization and is more robust to low-quality videos, that are usually spread over social networks. In particular, we obtain an average improvement of more than 15% in terms of accuracy for facial reenactment on high compressed videos.
翻訳日:2021-05-22 20:42:18 公開日:2021-04-23
# 属性駆動型プライバシー保護のための話者表現の反転

Adversarial Disentanglement of Speaker Representation for Attribute-Driven Privacy Preservation ( http://arxiv.org/abs/2012.04454v2 )

ライセンス: Link先を確認
Paul-Gauthier No\'e, Mohammad Mohammadamini, Driss Matrouf, Titouan Parcollet, Andreas Nautsch, Jean-Fran\c{c}ois Bonastre(参考訳) 音声技術では、話者の音声表現は音声認識、音声変換、音声合成、そして明らかにユーザー認証といった多くのアプリケーションで使われている。 現代の話者の音声表現は神経埋め込みに基づいている。 対象とする情報に加えて、これらの表現は通常、年齢、性別、身体状態、教育水準、民族性などの話者に関する機密情報を含む。 本稿では,ユーザが保護すべき情報を選択するために,話者音声表現における属性駆動型プライバシ保護の概念を紹介する。 これにより、悪意のあるインターセプターやアプリケーションプロバイダに1つ以上の個人的な側面を隠すことができる。 この概念に対する第1の解決策として, 話者属性の音声表現を不連続にすることでその隠蔽を可能にする, 逆オートエンコーディング法を提案する。 ここでは、自動話者検証(ASV)タスクの性属性に焦点を当てる。 VoxCelebデータセットを用いて行った実験により、提案手法はASV能力を保ちながら、この属性の隠蔽を可能にすることが示された。

In speech technologies, speaker's voice representation is used in many applications such as speech recognition, voice conversion, speech synthesis and, obviously, user authentication. Modern vocal representations of the speaker are based on neural embeddings. In addition to the targeted information, these representations usually contain sensitive information about the speaker, like the age, sex, physical state, education level or ethnicity. In order to allow the user to choose which information to protect, we introduce in this paper the concept of attribute-driven privacy preservation in speaker voice representation. It allows a person to hide one or more personal aspects to a potential malicious interceptor and to the application provider. As a first solution to this concept, we propose to use an adversarial autoencoding method that disentangles in the voice representation a given speaker attribute thus allowing its concealment. We focus here on the sex attribute for an Automatic Speaker Verification (ASV) task. Experiments carried out using the VoxCeleb datasets have shown that the proposed method enables the concealment of this attribute while preserving ASV ability.
翻訳日:2021-05-16 21:01:04 公開日:2021-04-23
# (参考訳) Favelas 4D:地上レーザースキャンデータを用いた非公式集落の形態解析のためのスケーラブルな方法 [全文訳有]

Favelas 4D: Scalable methods for morphology analysis of informal settlements using terrestrial laser scanning data ( http://arxiv.org/abs/2105.03235v1 )

ライセンス: CC BY 4.0
Arianna Salazar Miranda, Guangyu Du, Claire Gorman, Fabio Duarte, Washington Fajardo, Carlo Ratti(参考訳) 10億人が世界中の非公式の居住地に住んでいる。 この未計画の都市化を特徴付ける複雑な多層空間は、マッピングや形態解析への伝統的なアプローチに挑戦している。 本研究では,ブラジル・リオデジャネイロ最大のファベラであるロシンハで収集された陸域LiDAR(Light Detection and Ranging)データに基づいて,非公式集落の形態学的特性を研究する手法を提案する。 我々の分析は, ファヴェラの異なる街路を互いに比較することに焦点を当てた「emph{global}」分析と, 街路における形態的指標のばらつきを解き放つ「emph{local}」分析の2つの解像度で動作する。 本手法は,街路のグローバルな形態的特徴と地域分布の両面で有意義な差異と共通点を明らかにする。 最後に,lidarデータから空間分解能の高い地形図を作成し,群集,構造物の安全性,空気の質,ファヴェーラのアクセシビリティに関する都市計画の評価を行う。 本研究の方法は自動化されており,携帯電話などの携帯機器で安価なlidarスキャナが利用可能になったことを利用して,非公式な決済全体を分析するために容易にスケールできる。

One billion people live in informal settlements worldwide. The complex and multilayered spaces that characterize this unplanned form of urbanization pose a challenge to traditional approaches to mapping and morphological analysis. This study proposes a methodology to study the morphological properties of informal settlements based on terrestrial LiDAR (Light Detection and Ranging) data collected in Rocinha, the largest favela in Rio de Janeiro, Brazil. Our analysis operates at two resolutions, including a \emph{global} analysis focused on comparing different streets of the favela to one another, and a \emph{local} analysis unpacking the variation of morphological metrics within streets. We show that our methodology reveals meaningful differences and commonalities both in terms of the global morphological characteristics across streets and their local distributions. Finally, we create morphological maps at high spatial resolution from LiDAR data, which can inform urban planning assessments of concerns related to crowding, structural safety, air quality, and accessibility in the favela. The methods for this study are automated and can be easily scaled to analyze entire informal settlements, leveraging the increasing availability of inexpensive LiDAR scanners on portable devices such as cellphones.
翻訳日:2021-05-11 11:15:28 公開日:2021-04-23
# 変圧器モデルを用いたリトアニアニュース記事の抽象要約生成

Generating abstractive summaries of Lithuanian news articles using a transformer model ( http://arxiv.org/abs/2105.03279v1 )

ライセンス: Link先を確認
Lukas Stankevi\v{c}ius and Mantas Luko\v{s}evi\v{c}ius(参考訳) 本研究では,リトアニアのニュース記事の比較的大規模なコーパス上で,最初の単言語リトアニア語トランスフォーマーモデルを訓練し,抽象的ニュース要約のための各種出力復号アルゴリズムを比較した。 生成された要約は一貫性があり、一見すると印象的だ。 しかし、それらの中には見当たらない誤解を招く情報を含むものもある。 技術的な詳細をすべて説明し、トレーニングしたモデルと関連するコードをオンラインのオープンソースリポジトリと、生成されたサマリーの特徴的なサンプルで共有します。

In this work, we train the first monolingual Lithuanian transformer model on a relatively large corpus of Lithuanian news articles and compare various output decoding algorithms for abstractive news summarization. Generated summaries are coherent and look impressive at the first glance. However, some of them contain misleading information that is not so easy to spot. We describe all the technical details and share our trained model and accompanying code in an online open-source repository, as well as some characteristic samples of the generated summaries.
翻訳日:2021-05-11 08:34:49 公開日:2021-04-23
# コンテンツ多様性探索によるテキスト画像の精度向上に向けて

Towards Accurate Text-based Image Captioning with Content Diversity Exploration ( http://arxiv.org/abs/2105.03236v1 )

ライセンス: Link先を確認
Guanghui Xu, Shuaicheng Niu, Mingkui Tan, Yucheng Luo, Qing Du, Qi Wu(参考訳) テキストによる画像の読み書きを目的としたテキストキャプション(textcap)は,テキストが日常的に広く見られることを考慮すると,詳細な複雑なシーン環境を理解する上で重要である。 しかし、画像には複雑なテキストと視覚情報を包括的に記述することが難しいため、この作業は非常に困難である。 既存の手法では、従来の画像キャプション手法を拡張して、単一のグローバルキャプションで画像全体のシーンを記述することに注力している。 複雑なテキストと視覚情報は1つのキャプション内でうまく記述できないため、これは実現不可能である。 この難易度を解消するために,画像の異なる部分を詳細に記述する複数のキャプションを作成した。 この目的を達成するには、3つの重要な課題がある: 1) 画像のテキストのどの部分をコピーするか、あるいはパラフレーズするかを決定するのは難しい; 2) 画像中の様々なテキスト間の複雑な関係を捉えることは非自明である; 3) 多様なコンテンツを持つ複数のキャプションを生成する方法はまだ未解決の問題である。 これらを克服するために,新しいアンカーキャピタ法を提案する。 具体的には、まず注意を払うべき重要なトークンを見つけ、それらをアンカーと見なす。 次に、選択されたアンカーごとに関連するテキストをグループ化し、対応するアンカー中心グラフ(acg)を構築する。 最後に、異なるaggに基づいて多視点キャプション生成を行い、生成キャプションの内容の多様性を向上させる。 実験結果から,本手法はSOTAの性能を達成するだけでなく,画像記述のための多様なキャプションを生成することがわかった。

Text-based image captioning (TextCap) which aims to read and reason images with texts is crucial for a machine to understand a detailed and complex scene environment, considering that texts are omnipresent in daily life. This task, however, is very challenging because an image often contains complex texts and visual information that is hard to be described comprehensively. Existing methods attempt to extend the traditional image captioning methods to solve this task, which focus on describing the overall scene of images by one global caption. This is infeasible because the complex text and visual information cannot be described well within one caption. To resolve this difficulty, we seek to generate multiple captions that accurately describe different parts of an image in detail. To achieve this purpose, there are three key challenges: 1) it is hard to decide which parts of the texts of images to copy or paraphrase; 2) it is non-trivial to capture the complex relationship between diverse texts in an image; 3) how to generate multiple captions with diverse content is still an open problem. To conquer these, we propose a novel Anchor-Captioner method. Specifically, we first find the important tokens which are supposed to be paid more attention to and consider them as anchors. Then, for each chosen anchor, we group its relevant texts to construct the corresponding anchor-centred graph (ACG). Last, based on different ACGs, we conduct multi-view caption generation to improve the content diversity of generated captions. Experimental results show that our method not only achieves SOTA performance but also generates diverse captions to describe images.
翻訳日:2021-05-11 08:34:31 公開日:2021-04-23
# 新型コロナウイルス検出研究に基づく医用画像の深層学習モデル作成のためのチェックリスト

Checklist for responsible deep learning modeling of medical images based on COVID-19 detection studies ( http://arxiv.org/abs/2012.08333v3 )

ライセンス: Link先を確認
Weronika Hryniewska, Przemys{\l}aw Bombi\'nski, Patryk Szatkowski, Paulina Tomaszewska, Artur Przelaskowski, Przemys{\l}aw Biecek(参考訳) 新型コロナウイルス(COVID-19)の急激な流行と感染拡大は、現在最も重要な世界的な問題の一つだ。 短期間のうちに、covid-19検出のための多くのディープニューラルネットワークモデルの開発と、説明可能性のためのモジュールの開発につながった。 本研究では,提案モデルの様々な側面を体系的に分析する。 分析の結果,データ取得,モデル開発,説明構築の各段階における多くの誤りが明らかになった。 本稿では,調査対象の機械学習論文に提案されているアプローチを概説し,ラジオグラフィ領域の深い理解の欠如から生じる典型的な誤りを示す。 この分野の専門家である放射線技師と、モデル説明を扱うディープラーニングエンジニアの両方の視点を提示する。 最終結果は、信頼できるcovid-19診断モデルで満たすべき最小条件を備えた、提案されたチェックリストである。

The sudden outbreak and uncontrolled spread of COVID-19 disease is one of the most important global problems today. In a short period of time, it has led to the development of many deep neural network models for COVID-19 detection with modules for explainability. In this work, we carry out a systematic analysis of various aspects of proposed models. Our analysis revealed numerous mistakes made at different stages of data acquisition, model development, and explanation construction. In this work, we overview the approaches proposed in the surveyed Machine Learning articles and indicate typical errors emerging from the lack of deep understanding of the radiography domain. We present the perspective of both: experts in the field - radiologists and deep learning engineers dealing with model explanations. The final result is a proposed checklist with the minimum conditions to be met by a reliable COVID-19 diagnostic model.
翻訳日:2021-05-11 03:04:54 公開日:2021-04-23
# 非対称ゲームにおける大規模ソフトウェアエージェントのエロレーティング

Elo Ratings for Large Tournaments of Software Agents in Asymmetric Games ( http://arxiv.org/abs/2105.00839v1 )

ライセンス: Link先を確認
Ben Wise(参考訳) eloレーティングシステムは、欧州go連盟(egf)、国際チェス連盟(fide)、国際サッカー連盟(fifa)などによって例示されるように、個々のスポーツやチームスポーツに世界規模で使用されている。 人工知能エージェントの性能を評価するには、alphago zeroによる5185のレーティングのような、人間と同じeloスケールで評価するのが自然である。 人間とAIの間にはいくつかの根本的な違いがあり、システムの変更を提案する。 AIは通常、人間がプレイするよりも多くのゲームでトレーニングされています。 さらに、AIはプレイヤー間で非対称なゲームに拡張されており、商用の紙戦略ゲームなど、すべてのゲームで異なるセットアップの大規模な複雑なボードを持つこともできる。 本稿では,これらの違いを反映したリフレッシュレーティングシステムとトーナメントのガイドラインを提案する。

The Elo rating system has been used world wide for individual sports and team sports, as exemplified by the European Go Federation (EGF), International Chess Federation (FIDE), International Federation of Association Football (FIFA), and many others. To evaluate the performance of artificial intelligence agents, it is natural to evaluate them on the same Elo scale as humans, such as the rating of 5185 attributed to AlphaGo Zero. There are several fundamental differences between humans and AI that suggest modifications to the system, which in turn require revisiting Elo's fundamental rationale. AI is typically trained on many more games than humans play, and we have little a-priori information on newly created AI agents. Further, AI is being extended into games which are asymmetric between the players, and which could even have large complex boards with different setup in every game, such as commercial paper strategy games. We present a revised rating system, and guidelines for tournaments, to reflect these differences.
翻訳日:2021-05-04 20:44:52 公開日:2021-04-23
# 弱々しい教師付き学習から両品質学習へ : 序文

From Weakly Supervised Learning to Biquality Learning: an Introduction ( http://arxiv.org/abs/2012.09632v3 )

ライセンス: Link先を確認
Pierre Nodet, Vincent Lemaire, Alexis Bondu, Antoine Cornu\'ejols and Adam Ouorou(参考訳) Wakly Supervised Learning (WSL) の分野は最近、様々なタイプの「スーパービジョン欠陥」に対処する多くの論文で人気が高まっている。 WSLのユースケースでは、収集された"情報"が不完全であるさまざまな状況が存在します。 WSLのパラダイムは、これらの問題を関連するソリューションでリストし、カバーしようとするものです。 本稿では,WSL研究の進展を概観し,この分野の簡単な紹介として取り上げる。 本稿では、WSL立方体の3つの軸と、それらの面のすべての要素の概要を示す。 我々は,事前に定義されたキューブの座標として,品質,適応性,情報量という3つの測定可能な量を提案する。 そこで本稿では,WSL キューブの計画として Biquality Learning フレームワークが定義可能であることを示唆し,WSL 文学における以前に関係のないパッチを統一された Biquality Learning 文献として再発見することを提案する。

The field of Weakly Supervised Learning (WSL) has recently seen a surge of popularity, with numerous papers addressing different types of "supervision deficiencies". In WSL use cases, a variety of situations exists where the collected "information" is imperfect. The paradigm of WSL attempts to list and cover these problems with associated solutions. In this paper, we review the research progress on WSL with the aim to make it as a brief introduction to this field. We present the three axis of WSL cube and an overview of most of all the elements of their facets. We propose three measurable quantities that acts as coordinates in the previously defined cube namely: Quality, Adaptability and Quantity of information. Thus we suggest that Biquality Learning framework can be defined as a plan of the WSL cube and propose to re-discover previously unrelated patches in WSL literature as a unified Biquality Learning literature.
翻訳日:2021-05-03 02:52:47 公開日:2021-04-23
# 確率的スコアに対する線形調整によるランダム化試行推定の効率の向上

Increasing the efficiency of randomized trial estimates via linear adjustment for a prognostic score ( http://arxiv.org/abs/2012.09935v2 )

ライセンス: Link先を確認
Alejandro Schuler, David Walsh, Diana Hall, Jon Walsh, Charles Fisher(参考訳) ランダム化実験から因果効果を推定することは臨床研究の中心である。 これらの分析における統計的不確実性を減らすことは統計学者にとって重要な目的である。 登録、事前の治験、健康記録は、この目的のために活用可能な標準医療条件下での患者の歴史的データの増大のコンペディションである。 しかし, 歴史的借入手法の多くは, 厳密なI型誤差率制御を犠牲にして, ばらつきの低減を実現している。 本稿では,線形共変量調整を活用し,バイアスを伴わずに試行分析の効率を向上させる歴史データの利用を提案する。 具体的には, 過去のデータに基づいて予後モデルを訓練し, 実験対象の予測結果(予後スコア)を調整しながら, 線形回帰を用いて治療効果を推定する。 ある条件下では、この予測的共変量調整手順が、多数の推定者の間で可能な最小のばらつきを達成することが証明される。 これらの条件が満たされていない場合、予知共変量調整は原共変量調整よりも依然として効率的であり、効率の利得は予知モデルの予測精度の尺度に比例する。 本稿では,アルツハイマー病臨床試験のシミュレーションと再解析を用いて,平均二乗誤差と推定分散の有意な減少を観察する。 最後に, 臨床設計のための予後モデルから得られる利益を考慮し, パワーとサンプルサイズの計算を可能にする漸近分散の簡易式を提案する。 結果分散の臨床的に現実的なパーセンテージを説明する予後モデルを用いることで、10%から30%のサンプルサイズの縮小が達成できる。

Estimating causal effects from randomized experiments is central to clinical research. Reducing the statistical uncertainty in these analyses is an important objective for statisticians. Registries, prior trials, and health records constitute a growing compendium of historical data on patients under standard-of-care conditions that may be exploitable to this end. However, most methods for historical borrowing achieve reductions in variance by sacrificing strict type-I error rate control. Here, we propose a use of historical data that exploits linear covariate adjustment to improve the efficiency of trial analyses without incurring bias. Specifically, we train a prognostic model on the historical data, then estimate the treatment effect using a linear regression while adjusting for the trial subjects' predicted outcomes (their prognostic scores). We prove that, under certain conditions, this prognostic covariate adjustment procedure attains the minimum variance possible among a large class of estimators. When those conditions are not met, prognostic covariate adjustment is still more efficient than raw covariate adjustment and the gain in efficiency is proportional to a measure of the predictive accuracy of the prognostic model. We demonstrate the approach using simulations and a reanalysis of an Alzheimer's Disease clinical trial and observe meaningful reductions in mean-squared error and the estimated variance. Lastly, we provide a simplified formula for asymptotic variance that enables power and sample size calculations that account for the gains from the prognostic model for clinical trial design. Sample size reductions between 10% and 30% are attainable when using prognostic models that explain a clinically realistic percentage of the outcome variance.
翻訳日:2021-05-02 07:34:04 公開日:2021-04-23
# (参考訳) 変分メッセージパッシングにおけるアクティブ推論の実現:アウトカムブラインド確実シーカー

Realising Active Inference in Variational Message Passing: the Outcome-blind Certainty Seeker ( http://arxiv.org/abs/2104.11798v1 )

ライセンス: CC BY 4.0
Th\'eophile Champion, Marek Grze\'s, Howard Bowman(参考訳) 能動推論は脳機能の統一理論を提供する神経科学における最先端のフレームワークである。 AIの計画のためのフレームワークとしても提案されている。 残念ながら、新しいモデルを作成するために必要な複雑な数学は、神経科学とAI研究におけるアクティブな推論の応用を妨げる可能性がある。 本稿では,能動推論フレームワーク -- 離散時間と状態空間 -- の完全な数学的処理と,新たなモデルに対する更新方程式の導出を提供することで,この問題に対処する。 我々は2005年にジョン・ウィンとクリストファー・M・ビショップによって記述された、能動推論と変分メッセージパッシングの理論的関係を利用する。 変分メッセージパッシングはベイズ的信念更新方程式を導出するためのよく定義された方法論であるため、本論文はアクティブ推論のための高度な生成モデルへの扉を開く。 完全に因子化された変分分布を使うことは、政策よりも優先される期待された自由エネルギーを単純化し、エージェントがあいまいな状態を求めることを示しています。 最後に、逐次ポリシー最適化のためのディープツリー検索をサポートする将来の拡張を、構造学習と信念伝播に基づいて検討する。

Active inference is a state-of-the-art framework in neuroscience that offers a unified theory of brain function. It is also proposed as a framework for planning in AI. Unfortunately, the complex mathematics required to create new models -- can impede application of active inference in neuroscience and AI research. This paper addresses this problem by providing a complete mathematical treatment of the active inference framework -- in discrete time and state spaces -- and the derivation of the update equations for any new model. We leverage the theoretical connection between active inference and variational message passing as describe by John Winn and Christopher M. Bishop in 2005. Since, variational message passing is a well-defined methodology for deriving Bayesian belief update equations, this paper opens the door to advanced generative models for active inference. We show that using a fully factorized variational distribution simplifies the expected free energy -- that furnishes priors over policies -- so that agents seek unambiguous states. Finally, we consider future extensions that support deep tree searches for sequential policy optimisation -- based upon structure learning and belief propagation.
翻訳日:2021-05-01 04:15:50 公開日:2021-04-23
# (参考訳) 深層学習による側方運動パターンの予測 [全文訳有]

Predicting Adversary Lateral Movement Patterns with Deep Learning ( http://arxiv.org/abs/2104.13195v1 )

ライセンス: CC BY 4.0
Nathan Danneman, James Hyde(参考訳) 本稿では, 企業ネットワークにおいて, 敵が次のキャンペーンで妥協する可能性のあるホストについて, 予測モデルを構築した。 このようなモデルは動的監視や防御をサポートする。 我々は、ホスト、ユーザ、敵をファーストクラスのエンティティとして、シミュレーションネットワークを用いて、このモデルのためのデータを生成する。 我々は,サンプル外シミュレーションデータに対するモデルの予測精度を実証し,ライブエンタープライズネットワーク上のRed Teamイベントから取得したデータに対する結果を検証する。

This paper develops a predictive model for which host, in an enterprise network, an adversary is likely to compromise next in the course of a campaign. Such a model might support dynamic monitoring or defenses. We generate data for this model using simulated networks, with hosts, users, and adversaries as first-class entities. We demonstrate the predictive accuracy of the model on out-of-sample simulated data, and validate the findings against data captured from a Red Team event on a live enterprise network
翻訳日:2021-04-29 06:52:15 公開日:2021-04-23
# (参考訳) ドメインのサイド情報を用いたシーケンストランスデューサのアクティブラーニング [全文訳有]

Active Learning of Sequential Transducers with Side Information about the Domain ( http://arxiv.org/abs/2104.11758v1 )

ライセンス: CC BY 4.0
Rapha\"el Berthon, Adrien Boiret, Guillermo A. Perez, Jean-Fran\c{c}ois Raskin(参考訳) アクティブ・ラーニング(英: Active Learning)とは、学生が言語を学ぶために、会員制と等価なクエリを通じて教師に質問する設定である。 これらのアルゴリズムのパフォーマンスは、しばしばターゲットを学ぶのに必要なクエリ数で測定され、コストのかかる等価クエリに重点を置いている。 グレイボックス学習では、目標に関する情報を予知することで学習プロセスが加速される。 本稿では,学生がドメインの正規な近似化を知っていれば,後続文字列トランスデューサのgraybox能動学習を考える。 そこで本研究では,この知識を生かした弦方程式解法を用いて,古典的アクティブラーニングよりも要求される等価クエリ数をより保証した後続文字列トランスデューサを学習するアルゴリズムが存在することを示す。

Active learning is a setting in which a student queries a teacher, through membership and equivalence queries, in order to learn a language. Performance on these algorithms is often measured in the number of queries required to learn a target, with an emphasis on costly equivalence queries. In graybox learning, the learning process is accelerated by foreknowledge of some information on the target. Here, we consider graybox active learning of subsequential string transducers, where a regular overapproximation of the domain is known by the student. We show that there exists an algorithm using string equation solvers that uses this knowledge to learn subsequential string transducers with a better guarantee on the required number of equivalence queries than classical active learning.
翻訳日:2021-04-29 06:48:38 公開日:2021-04-23
# (参考訳) UnrealROX+:仮想3D環境から合成データを取得するツール [全文訳有]

UnrealROX+: An Improved Tool for Acquiring Synthetic Data from Virtual 3D Environments ( http://arxiv.org/abs/2104.11776v1 )

ライセンス: CC BY-SA 4.0
Pablo Martinez-Gonzalez, Sergiu Oprea, John Alejandro Castro-Vargas, Alberto Garcia-Garcia, Sergio Orts-Escolano, Jose Garcia-Rodriguez and Markus Vincze(参考訳) 合成データ生成は、ほぼすべてのコンピュータビジョン問題において従来の技術性能を上回るデータ駆動アルゴリズムの供給にここ数年で不可欠になっている。 実世界におけるこれらのデータハングリーモデルに必要なデータの収集とラベル付けは、不可能でエラーを起こしやすいが、合成データは、ピクセル完全アノテーションで大量のデータを生成する可能性を与える。 しかし、ほとんどの合成データセットはレンダリングされた画像に十分なリアリズムを欠いている。 そのコンテキストにおいて、UnrealROX生成ツールは2019年に発表され、最先端のビデオゲームエンジンであるUnreal Engineをベースとした効率的なパイプラインを使用して、高解像度とフレームレートで、非常に現実的なデータを生成することができる。 UnrealROXは、クラスやインスタンスのセマンティックセグメンテーション、オブジェクト検出、深さ推定、視覚的把握、ナビゲーションなど、さまざまな問題に対して、現実的で視覚的にもっとも有効なデータを生成することを可能にする。 それでもそのワークフローは、ロボット搭載カメラから画像シーケンスを生成するために非常に結び付けられており、他の目的のためにデータを生成するのは難しい。 本研究では,UnrealROXを改良したUnrealROX+を紹介し,その分離されたデータ取得システムにより,より柔軟でカスタマイズ可能な方法でデータの設計と生成を迅速に行えるようにした。 さらに、既存のUnrealプロジェクトでの使用がより快適になるUnrealプラグインとしてパッケージされており、Deep Learningフレームワークから仮想環境と対話するalbedoやPython APIなどの新機能も含まれている。

Synthetic data generation has become essential in last years for feeding data-driven algorithms, which surpassed traditional techniques performance in almost every computer vision problem. Gathering and labelling the amount of data needed for these data-hungry models in the real world may become unfeasible and error-prone, while synthetic data give us the possibility of generating huge amounts of data with pixel-perfect annotations. However, most synthetic datasets lack from enough realism in their rendered images. In that context UnrealROX generation tool was presented in 2019, allowing to generate highly realistic data, at high resolutions and framerates, with an efficient pipeline based on Unreal Engine, a cutting-edge videogame engine. UnrealROX enabled robotic vision researchers to generate realistic and visually plausible data with full ground truth for a wide variety of problems such as class and instance semantic segmentation, object detection, depth estimation, visual grasping, and navigation. Nevertheless, its workflow was very tied to generate image sequences from a robotic on-board camera, making hard to generate data for other purposes. In this work, we present UnrealROX+, an improved version of UnrealROX where its decoupled and easy-to-use data acquisition system allows to quickly design and generate data in a much more flexible and customizable way. Moreover, it is packaged as an Unreal plug-in, which makes it more comfortable to use with already existing Unreal projects, and it also includes new features such as generating albedo or a Python API for interacting with the virtual environment from Deep Learning frameworks.
翻訳日:2021-04-29 06:22:01 公開日:2021-04-23
# (参考訳) 可変オートエンコーダを用いたスケーラブルなマイクロサービス鑑識と安定性評価 [全文訳有]

Scalable Microservice Forensics and Stability Assessment Using Variational Autoencoders ( http://arxiv.org/abs/2104.13193v1 )

ライセンス: CC BY 4.0
Prakhar Sharma, Phillip Porras, Steven Cheung, James Carpenter, Vinod Yegneswaran(参考訳) 本稿では,コンテナ化されたアプリケーションランタイムの安定性解析に対するディープラーニングアプローチと,バックエンドインシデント解析リポジトリに公開するプロセスレベルのインシデント分析の深さを動的に調整可能なインテリジェントパブリッシングアルゴリズムを提案する。 このアプローチでは、可変オートエンコーダ(VAE)を使用してコンテナイメージの安定した実行パターンを学習し、コンテナ固有のVAEをインスタンス化し、安定性検出と適応的な法科学公開を実装する。 50インスタンスのコンテナワークロードを使用したパフォーマンス比較では、従来のEBPFベースの法定出版物に対して、VAE最適化されたサービスでは、2桁のCPU性能の改善、ネットワーク転送ボリュームの3OM削減、Elasticsearchストレージコストの4OM削減が示されている。 本稿では,2つの攻撃, CPUMiner と HTTP-flood に対して VAE に基づく安定性検出手法を評価し,両異常の分離に有効であることを確認した。 従来の技術では監視できない大規模コンテナエコシステムに、きめ細かいプロセス監視とデジタル法則サービスを統合するための新しいアプローチを提供すると考えている。

We present a deep learning based approach to containerized application runtime stability analysis, and an intelligent publishing algorithm that can dynamically adjust the depth of process-level forensics published to a backend incident analysis repository. The approach applies variational autoencoders (VAEs) to learn the stable runtime patterns of container images, and then instantiates these container-specific VAEs to implement stability detection and adaptive forensics publishing. In performance comparisons using a 50-instance container workload, a VAE-optimized service versus a conventional eBPF-based forensic publisher demonstrates 2 orders of magnitude (OM) CPU performance improvement, a 3 OM reduction in network transport volume, and a 4 OM reduction in Elasticsearch storage costs. We evaluate the VAE-based stability detection technique against two attacks, CPUMiner and HTTP-flood attack, finding that it is effective in isolating both anomalies. We believe this technique provides a novel approach to integrating fine-grained process monitoring and digital-forensic services into large container ecosystems that today simply cannot be monitored by conventional techniques
翻訳日:2021-04-29 06:06:24 公開日:2021-04-23
# (参考訳) 合成学習データ生成のためのGANのアンサンブル [全文訳有]

Ensembles of GANs for synthetic training data generation ( http://arxiv.org/abs/2104.11797v1 )

ライセンス: CC BY 4.0
Gabriel Eilertsen, Apostolia Tsirikoglou, Claes Lundstr\"om, Jonas Unger(参考訳) 不十分なトレーニングデータは、特にデータの収集が困難で公開データセットが倫理やプライバシのために不足している医療画像において、ほとんどのディープラーニングプラクティスの大きなボトルネックとなっている。 本研究は,gans(generative adversarial networks)が生成した合成画像のトレーニングデータとしての利用について検討する。 このアプリケーションでは、複数のGANを使用して生成されたデータの多様性を改善することが非常に重要であることを実証する。 データ分布を十分にカバーするのです 1つのGANは一見多様な画像コンテンツを生成することができるが、ほとんどの場合、このデータに対するトレーニングは厳しいオーバーフィットにつながる。 合成2Dデータと共通画像データセット(SVHNとCIFAR-10)に対するアンサンブルGANの影響を,DCGANと進行成長GANの両方を用いて検証した。 特定のユースケースとして、匿名化されたトレーニングデータを提供するために、デジタル病理パッチの合成に注力する。

Insufficient training data is a major bottleneck for most deep learning practices, not least in medical imaging where data is difficult to collect and publicly available datasets are scarce due to ethics and privacy. This work investigates the use of synthetic images, created by generative adversarial networks (GANs), as the only source of training data. We demonstrate that for this application, it is of great importance to make use of multiple GANs to improve the diversity of the generated data, i.e. to sufficiently cover the data distribution. While a single GAN can generate seemingly diverse image content, training on this data in most cases lead to severe over-fitting. We test the impact of ensembled GANs on synthetic 2D data as well as common image datasets (SVHN and CIFAR-10), and using both DCGANs and progressively growing GANs. As a specific use case, we focus on synthesizing digital pathology patches to provide anonymized training data.
翻訳日:2021-04-29 05:55:35 公開日:2021-04-23
# (参考訳) 視覚と言語で宝くじをプレイする [全文訳有]

Playing Lottery Tickets with Vision and Language ( http://arxiv.org/abs/2104.11832v1 )

ライセンス: CC0 1.0
Zhe Gan, Yen-Chun Chen, Linjie Li, Tianlong Chen, Yu Cheng, Shuohang Wang, Jingjing Liu(参考訳) 大規模トランスフォーマーによる事前学習は近年、視覚言語(V+L)研究に革命をもたらした。 LXMERT、ViLBERT、UNITERといったモデルは、幅広いV+Lタスクで芸術の状態を著しく引き上げている。 しかし、そのようなモデルの多くのパラメータは、実際に応用を妨げている。 並行して、宝くじの仮説の研究により、ディープニューラルネットワークには、個別にトレーニングされた場合の高密度ネットワークよりも同等またはそれ以上のパフォーマンスを達成できる小さなマッチングサブネットが含まれていることが示されている。 本研究では,訓練済みのV+Lモデルにもそのようなトレーニング可能なサブネットが存在するかどうかを評価するための最初の実証的研究を行う。 テストベッドとして最も優れたV+Lモデルの一つであるUNITERを使用し、視覚的質問応答、視覚的コモンセンス推論、視覚的包含、参照表現理解、画像テキスト検索、GQA、NLVR$^2$を含む7つの代表的なV+Lタスクを統合する。 総合的な分析を通して,本研究の主な成果は以下の通りである。 (i$) 完全なNITERモデルの性能と厳密に一致するサブネットワーク(チケット)を見つけることは困難である。 しかし、完全精度の99%を維持できる50%~70%のスパルシティーで「相対的な」当選チケットを見出すことは奨励されている。 タスク固有のプルーニング転送によって見つかったサブネットワーク($ii$)は、他のタスクにかなり適していますが、事前トレーニングされたタスクでは60%/70%のスパルシティ転送が普遍的に行われ、すべてのタスクで平均98%/96%の精度で一致しています。 反対のトレーニング(iii$)は、見つかった宝くじのパフォーマンスを高めるために利用することができる。

Large-scale transformer-based pre-training has recently revolutionized vision-and-language (V+L) research. Models such as LXMERT, ViLBERT and UNITER have significantly lifted the state of the art over a wide range of V+L tasks. However, the large number of parameters in such models hinders their application in practice. In parallel, work on the lottery ticket hypothesis has shown that deep neural networks contain small matching subnetworks that can achieve on par or even better performance than the dense networks when trained in isolation. In this work, we perform the first empirical study to assess whether such trainable subnetworks also exist in pre-trained V+L models. We use UNITER, one of the best-performing V+L models, as the testbed, and consolidate 7 representative V+L tasks for experiments, including visual question answering, visual commonsense reasoning, visual entailment, referring expression comprehension, image-text retrieval, GQA, and NLVR$^2$. Through comprehensive analysis, we summarize our main findings as follows. ($i$) It is difficult to find subnetworks (i.e., the tickets) that strictly match the performance of the full UNITER model. However, it is encouraging to confirm that we can find "relaxed" winning tickets at 50%-70% sparsity that maintain 99% of the full accuracy. ($ii$) Subnetworks found by task-specific pruning transfer reasonably well to the other tasks, while those found on the pre-training tasks at 60%/70% sparsity transfer universally, matching 98%/96% of the full accuracy on average over all the tasks. ($iii$) Adversarial training can be further used to enhance the performance of the found lottery tickets.
翻訳日:2021-04-29 05:41:07 公開日:2021-04-23
# (参考訳) 投票アンサンブルのために多数の有権者を選ぶ [全文訳有]

Selecting a number of voters for a voting ensemble ( http://arxiv.org/abs/2104.11833v1 )

ライセンス: CC BY 4.0
Eric Bax(参考訳) 各例でランダムにアンサンブル分類器の奇数サイズのサブセットを選択し、例に適用し、多数票を返却する投票アンサンブルについて、任意の数の有権者がサンプル分布よりも誤差率を最小にできることを示す。 最適な有権者数は、誤差のある分類器の数のサンプル外分布に依存する。 使用する有権者の数を選定するために、その分布を推定し、投票者の数に対する誤差率を推測すると、その誤差率を直接見積もるよりも低いばらつきの見積もりが得られる。

For a voting ensemble that selects an odd-sized subset of the ensemble classifiers at random for each example, applies them to the example, and returns the majority vote, we show that any number of voters may minimize the error rate over an out-of-sample distribution. The optimal number of voters depends on the out-of-sample distribution of the number of classifiers in error. To select a number of voters to use, estimating that distribution then inferring error rates for numbers of voters gives lower-variance estimates than directly estimating those error rates.
翻訳日:2021-04-29 05:22:54 公開日:2021-04-23
# (参考訳) ワンラウンドアクティブラーニング [全文訳有]

One-Round Active Learning ( http://arxiv.org/abs/2104.11843v1 )

ライセンス: CC0 1.0
Tianhao Wang, Si Chen, Ruoxi Jia(参考訳) アクティブラーニングは、データラベリングコストを削減するための主要なソリューションです。 しかし、既存のアクティブな学習戦略では、データ所有者がオンラインのタイムリーな方法でアノテータと対話できると仮定している。 このようなインタラクティブなアノテータであっても、既存のアクティブな学習戦略が効果的であるためには、多くの場合、データオーナとアノテータの間の多くの相互作用を必要とします。 本研究では,ラベル付きデータポイントから情報のみをラベル付けした上で,最も有効性の高いラベル付きデータポイントのサブセットを選択することを目的とした,1ラウンドアクティブラーニングの研究を開始する。 本研究では,データ・ユーティリティ・関数の概念に基づく1ラウンドアクティブ・ラーニングのための汎用フレームワークであるduloを提案する。 1ラウンドアクティブラーニング問題をデータユーティリティ関数最大化として定式化する。 さらに,大規模モデルや大規模未ラベルデータセットにスケーラブルなデータユーティリティ関数の推定と最適化を行う戦略を提案する。 以上の結果から,既存のアクティブな学習手法が複数ラウンドで成功する一方で,DULOは1ラウンドで常に優れた性能を発揮することが示された。

Active learning has been a main solution for reducing data labeling costs. However, existing active learning strategies assume that a data owner can interact with annotators in an online, timely manner, which is usually impractical. Even with such interactive annotators, for existing active learning strategies to be effective, they often require many rounds of interactions between the data owner and annotators, which is often time-consuming. In this work, we initiate the study of one-round active learning, which aims to select a subset of unlabeled data points that achieve the highest utility after being labeled with only the information from initially labeled data points. We propose DULO, a general framework for one-round active learning based on the notion of data utility functions, which map a set of data points to some performance measure of the model trained on the set. We formulate the one-round active learning problem as data utility function maximization. We further propose strategies to make the estimation and optimization of data utility functions scalable to large models and large unlabeled data sets. Our results demonstrate that while existing active learning approaches could succeed with multiple rounds, DULO consistently performs better in the one-round setting.
翻訳日:2021-04-29 05:06:56 公開日:2021-04-23
# 最良群サブセット選択のための多項アルゴリズム

Certifiably Polynomial Algorithm for Best Group Subset Selection ( http://arxiv.org/abs/2104.12576v1 )

ライセンス: Link先を確認
Yanhang Zhang, Junxian Zhu, Jin Zhu, Xueqin Wang(参考訳) ベストグループサブセットの選択は、応答変数の最良の解釈可能性を達成するために重複しないグループの小さな部分を選択することを目的としている。 群変数選択には事実上魅力的であるが、高次元設定における計算的難易度のため、十分な注意を引けない。 本稿では,最良群選択のための効率的なアルゴリズムの空白を埋めるために,有効群を反復的に検出し,無力群を除外するグループスプライシングアルゴリズムを提案する。 さらに,新しいベイズ群情報基準と組み合わせて,真のグループサブセットサイズを決定する適応アルゴリズムを開発した。 このアルゴリズムが多項式時間における最適群部分集合を軽度条件下で同定できることが証明された。 提案手法の効率と精度を,合成データセットと実世界のデータセットを比較して検証する。

Best group subset selection aims to choose a small part of non-overlapping groups to achieve the best interpretability on the response variable. It is practically attractive for group variable selection; however, due to the computational intractability in high dimensionality setting, it doesn't catch enough attention. To fill the blank of efficient algorithms for best group subset selection, in this paper, we propose a group-splicing algorithm that iteratively detects effective groups and excludes the helpless ones. Moreover, coupled with a novel Bayesian group information criterion, an adaptive algorithm is developed to determine the true group subset size. It is certifiable that our algorithms enable identifying the optimal group subset in polynomial time under mild conditions. We demonstrate the efficiency and accuracy of our proposal by comparing state-of-the-art algorithms on both synthetic and real-world datasets.
翻訳日:2021-04-27 14:56:53 公開日:2021-04-23
# DeepCAT:Eコマース検索におけるクエリ理解のためのディープカテゴリ表現

DeepCAT: Deep Category Representation for Query Understanding in E-commerce Search ( http://arxiv.org/abs/2104.11760v1 )

ライセンス: Link先を確認
Ali Ahmadvand, Surya Kallumadi, Faizan Javed, and Eugene Agichtein(参考訳) 製品分類における関連カテゴリの集合に検索クエリをマッピングすることは、eコマース検索において重要な課題である。1) トレーニングデータには、バイアスのあるクリック動作による深刻なクラス不均衡の問題があり、2) 顧客のフィードバックが少ないクエリ(例: textit{tail} クエリ)は、トレーニングセットではうまく表現されておらず、クエリ理解が困難である。 これらの問題に対処するために,問合せ理解プロセスを強化するために,共同語分類表現を学習する深層学習モデルDeepCATを提案する。 学習圏間相互作用は, \textit{minority} クラス, \textit{tail} および \textit{torso} クエリのカテゴリマッピングの性能向上に役立つと考えている。 DeepCATには、トレーニングセット内の単語カテゴリ共起に基づいてカテゴリ表現をトレーニングする、新しい単語カテゴリ表現モデルが含まれている。 次に、カテゴリ表現を利用して新しい損失関数を導入し、共同語カテゴリー埋め込みを精製するためのカテゴリカテゴリカテゴリ共起を推定する。 モデルの有効性を「マイノリティ」カテゴリと「テール」クエリで示すために、我々は2つの実験を行う。 その結果、deepcatは"em minor}クラスで10\%改善され、"em tail"クエリが最先端のラベル埋め込みモデル上で7.1\%改善された。 本研究は,分類階層のセマンティック・モデリングによるeコマース検索の改善に向けた有望な方向性を示唆する。

Mapping a search query to a set of relevant categories in the product taxonomy is a significant challenge in e-commerce search for two reasons: 1) Training data exhibits severe class imbalance problem due to biased click behavior, and 2) queries with little customer feedback (e.g., \textit{tail} queries) are not well-represented in the training set, and cause difficulties for query understanding. To address these problems, we propose a deep learning model, DeepCAT, which learns joint word-category representations to enhance the query understanding process. We believe learning category interactions helps to improve the performance of category mapping on \textit{minority} classes, \textit{tail} and \textit{torso} queries. DeepCAT contains a novel word-category representation model that trains the category representations based on word-category co-occurrences in the training set. The category representation is then leveraged to introduce a new loss function to estimate the category-category co-occurrences for refining joint word-category embeddings. To demonstrate our model's effectiveness on {\em minority} categories and {\em tail} queries, we conduct two sets of experiments. The results show that DeepCAT reaches a 10\% improvement on {\em minority} classes and a 7.1\% improvement on {\em tail} queries over a state-of-the-art label embedding model. Our findings suggest a promising direction for improving e-commerce search by semantic modeling of taxonomy hierarchies.
翻訳日:2021-04-27 14:54:54 公開日:2021-04-23
# スケーラブルなトレーニングと推論のためのスパースディープニューラルネットワークの分割

Partitioning sparse deep neural networks for scalable training and inference ( http://arxiv.org/abs/2104.11805v1 )

ライセンス: Link先を確認
Gunduz Vehbi Demirci, Hakan Ferhatosmanoglu(参考訳) 最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。 トレーニングデータとモデルのサイズは増え続けている。 スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。 その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。 スパースdnnを訓練するための確率的勾配降下(sgd)アルゴリズムにおけるfeedforward (inference) と backpropagation steps は、sparse matrix-vector multiplication (spmvs) を含む。 まず,SGDアルゴリズムのスケーラビリティ向上のために,分散メモリ並列SpMVベースのソリューションを提案する。 並列化アプローチは、連続層間のニューロン接続を表す重み行列の行分割に基づいている。 そこで,重み行列を分割して通信量を削減し,プロセッサ間の計算負荷バランスを確保するためのハイパーグラフモデルを提案する。 スパースDNNで行った実験では,提案手法が高効率でスケーラブルであることが示されている。 提案手法を用いることにより,提案手法の性能がさらに向上した。

The state-of-the-art deep neural networks (DNNs) have significant computational and data management requirements. The size of both training data and models continue to increase. Sparsification and pruning methods are shown to be effective in removing a large fraction of connections in DNNs. The resulting sparse networks present unique challenges to further improve the computational efficiency of training and inference in deep learning. Both the feedforward (inference) and backpropagation steps in stochastic gradient descent (SGD) algorithm for training sparse DNNs involve consecutive sparse matrix-vector multiplications (SpMVs). We first introduce a distributed-memory parallel SpMV-based solution for the SGD algorithm to improve its scalability. The parallelization approach is based on row-wise partitioning of weight matrices that represent neuron connections between consecutive layers. We then propose a novel hypergraph model for partitioning weight matrices to reduce the total communication volume and ensure computational load-balance among processors. Experiments performed on sparse DNNs demonstrate that the proposed solution is highly efficient and scalable. By utilizing the proposed matrix partitioning scheme, the performance of our solution is further improved significantly.
翻訳日:2021-04-27 14:53:23 公開日:2021-04-23
# Exp-Concaveオンライン学習における最適動的レグレット

Optimal Dynamic Regret in Exp-Concave Online Learning ( http://arxiv.org/abs/2104.11824v1 )

ライセンス: Link先を確認
Dheeraj Baby and Yu-Xiang Wang(参考訳) 我々は,exp-concave損失を伴うオンライン学習におけるzinkevich(2003)スタイルの動的後悔最小化の問題を考える。 不適切な学習が許されるたびに、Strongly Adaptiveオンライン学習者は、$\tilde O(d^{3.5}n^{1/3}C_n^{2/3} \vee d\log n)$の動的後悔(a.k.a.a.)を達成する。 経路の長さ) 学習者が事前に知ることができない任意のコンパレータのシーケンス。 1Dでは最もよく知られている上限が$O(\sqrt{nC_n} \vee \log n)$ (Yuan and Lamperski, 2019)であった。 我々の新しい証明手法はkkt条件によって課される原始変数と双対変数の複雑な構造をエレガントに利用し、独立した興味を持つことができる。 最後に,局所適応非パラメトリック回帰(mammen, 1991, donoho and johnstone, 1998)の古典的統計問題に適用し,統計的仮定やハイパーパラメータチューニングを必要としない,より強固で柔軟なアルゴリズムを得る。

We consider the problem of the Zinkevich (2003)-style dynamic regret minimization in online learning with exp-concave losses. We show that whenever improper learning is allowed, a Strongly Adaptive online learner achieves the dynamic regret of $\tilde O(d^{3.5}n^{1/3}C_n^{2/3} \vee d\log n)$ where $C_n$ is the total variation (a.k.a. path length) of the an arbitrary sequence of comparators that may not be known to the learner ahead of time. Achieving this rate was highly nontrivial even for squared losses in 1D where the best known upper bound was $O(\sqrt{nC_n} \vee \log n)$ (Yuan and Lamperski, 2019). Our new proof techniques make elegant use of the intricate structures of the primal and dual variables imposed by the KKT conditions and could be of independent interest. Finally, we apply our results to the classical statistical problem of locally adaptive non-parametric regression (Mammen, 1991; Donoho and Johnstone, 1998) and obtain a stronger and more flexible algorithm that do not require any statistical assumptions or any hyperparameter tuning.
翻訳日:2021-04-27 14:52:02 公開日:2021-04-23
# 信頼に値するデセプション検出に向けて: ドメイン、モダリティ、言語をまたいだベンチマークモデルロバスト性

Towards Trustworthy Deception Detection: Benchmarking Model Robustness across Domains, Modalities, and Languages ( http://arxiv.org/abs/2104.11761v1 )

ライセンス: Link先を確認
Maria Glenski, Ellyn Ayton, Robin Cosbey, Dustin Arendt, and Svitlana Volkova(参考訳) モデルロバスト性を評価することは、モデル行動、強み、弱点をより深く理解するためにだけでなく、モデルがデプロイメントで遭遇する可能性のある期待された環境にわたって一般化可能で堅牢な将来のモデルを開発するためにも重要である。 本稿では,重要ながら難解なテキスト分類課題である偽ニュース検出のためのモデルロバスト性測定フレームワークを提案する。 我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。 我々は,複数のデータセット(Cross-Domain)で訓練されたLSTMモデル,画像とテキストで訓練された複数の融合LSTMモデル,最先端の3つの埋め込み,BERT ELMo,GloVe(Cross-Mod ality),複数の言語で訓練された文字レベルCNNモデル(Cross-Language)の3種類のモデルに焦点を当てた。 我々の分析では、さまざまなトレーニングデータを用いて軽減される可能性のある、ドメイン外のデータと非英語言語でニューラルモデルをテストする際に、パフォーマンスが大幅に低下することを明らかにした。 入力として画像コンテンツを追加することで、ELMoの埋め込みはBERTやGLoVeに比べてはるかに少ない誤差が得られることがわかった。 最も重要なのは、この研究がデセプションモデルのロバスト性を慎重に分析するだけでなく、将来新しいモデルや拡張データセットに適用できるこれらの分析のフレームワークを提供することだ。

Evaluating model robustness is critical when developing trustworthy models not only to gain deeper understanding of model behavior, strengths, and weaknesses, but also to develop future models that are generalizable and robust across expected environments a model may encounter in deployment. In this paper we present a framework for measuring model robustness for an important but difficult text classification task - deceptive news detection. We evaluate model robustness to out-of-domain data, modality-specific features, and languages other than English. Our investigation focuses on three type of models: LSTM models trained on multiple datasets(Cross-Domai n), several fusion LSTM models trained with images and text and evaluated with three state-of-the-art embeddings, BERT ELMo, and GloVe (Cross-Modality), and character-level CNN models trained on multiple languages (Cross-Language). Our analyses reveal a significant drop in performance when testing neural models on out-of-domain data and non-English languages that may be mitigated using diverse training data. We find that with additional image content as input, ELMo embeddings yield significantly fewer errors compared to BERT orGLoVe. Most importantly, this work not only carefully analyzes deception model robustness but also provides a framework of these analyses that can be applied to new models or extended datasets in the future.
翻訳日:2021-04-27 14:46:58 公開日:2021-04-23
# テキスト生成におけるプライバシ保護への実用的アプローチについて

On a Utilitarian Approach to Privacy Preserving Text Generation ( http://arxiv.org/abs/2104.11838v1 )

ライセンス: Link先を確認
Zekun Xu, Abhinav Aggarwal, Oluwaseyi Feyisetan, Nathanael Teissier(参考訳) テキスト生成のための差分プライベート機構は、通常、入力語に注意深く調整されたノイズを付加し、最も近い隣接語を出力語として使用する。 音の大きさが小さい場合、これらのメカニズムは元の敏感なテキストの再構成に影響を受けやすい。 これはノイズ入力に最も近いのが元の入力である可能性が高いためである。 この経験的プライバシリスクを緩和するために,従来のメカニズムにおける最寄りの近傍選択基準をパラメータ化する,微分プライベート機構の新たなクラスを提案する。 Vickreyオークションでは,最大価格のみを公表し,最高価格を非公開にしておくことで,チューニングパラメータを用いたメカニズムのクラスにおいて,第1と第2の隣人の選択のバランスをとる。 このパラメータは、所望のプライバシー保証を維持しつつ、ユーティリティを最大化するための制約付き最適化問題を経験的に解くことで選択される。 この経験的測定フレームワークは、プライバシ利用のトレードオフに対する共通のベンチマークに沿って、特に追加されるノイズの量を調整するために異なる距離メトリクスを使用する場合に、異なるメカニズムを調整するために使用することができる。 実テキスト分類データセットに関する我々の実験は、実証的なプライバシー保証を持つ既存の最先端技術と比較して、実用性は最大50%向上している。

Differentially-priva te mechanisms for text generation typically add carefully calibrated noise to input words and use the nearest neighbor to the noised input as the output word. When the noise is small in magnitude, these mechanisms are susceptible to reconstruction of the original sensitive text. This is because the nearest neighbor to the noised input is likely to be the original input. To mitigate this empirical privacy risk, we propose a novel class of differentially private mechanisms that parameterizes the nearest neighbor selection criterion in traditional mechanisms. Motivated by Vickrey auction, where only the second highest price is revealed and the highest price is kept private, we balance the choice between the first and the second nearest neighbors in the proposed class of mechanisms using a tuning parameter. This parameter is selected by empirically solving a constrained optimization problem for maximizing utility, while maintaining the desired privacy guarantees. We argue that this empirical measurement framework can be used to align different mechanisms along a common benchmark for their privacy-utility tradeoff, particularly when different distance metrics are used to calibrate the amount of noise added. Our experiments on real text classification datasets show up to 50% improvement in utility compared to the existing state-of-the-art with the same empirical privacy guarantee.
翻訳日:2021-04-27 14:46:32 公開日:2021-04-23
# 多元経路探索のためのコンパイル型解法--調査,議論,将来の可能性

Compilation-based Solvers for Multi-Agent Path Finding: a Survey, Discussion, and Future Opportunities ( http://arxiv.org/abs/2104.11809v1 )

ライセンス: Link先を確認
Pavel Surynek(参考訳) マルチエージェントパス探索(MAPF)は、人工知能コミュニティやロボット工学、倉庫の物流などの分野において大きな注目を集めている。 標準的なmapfのタスクは、エージェントが開始位置から特定の個々のゴール位置へナビゲートできるパスを見つけることである。 i)エージェントは互いに衝突してはならないし、(ii)パスは目的に対して最適でなければならない。 最適なmapf解決のための2つの主要なアプローチは、(1)mapfを直接解く専用の検索ベースメソッドと(2)mapfインスタンスを異なる確立された形式でインスタンスに還元するコンパイルベースメソッドである。 コンパイルベースのMAPF解決は、ターゲットソルバの開発時に蓄積された進歩の恩恵を受けることができる。 我々は, ASP, MIP, SAT などの形式を用いて, MAPF のコンテンポラリー・コンピレーション・ベース・ソルバを要約・比較する。 我々は、過去の発展から学んだ教訓と、そのトピックの現在の傾向を示し、その広範な影響について論じる。

Multi-agent path finding (MAPF) attracts considerable attention in artificial intelligence community as well as in robotics, and other fields such as warehouse logistics. The task in the standard MAPF is to find paths through which agents can navigate from their starting positions to specified individual goal positions. The combination of two additional requirements makes the problem computationally challenging: (i) agents must not collide with each other and (ii) the paths must be optimal with respect to some objective. Two major approaches to optimal MAPF solving include (1) dedicated search-based methods, which solve MAPF directly, and (2) compilation-based methods that reduce a MAPF instance to an instance in a different well established formalism, for which an efficient solver exists. The compilation-based MAPF solving can benefit from advancements accumulated during the development of the target solver often decades long. We summarize and compare contemporary compilation-based solvers for MAPF using formalisms like ASP, MIP, and SAT. We show the lessons learned from past developments and current trends in the topic and discuss its wider impact.
翻訳日:2021-04-27 14:42:17 公開日:2021-04-23
# 関連するオブジェクトの検出とマッチングと1つの提案

Detecting and Matching Related Objects with One Proposal Multiple Predictions ( http://arxiv.org/abs/2104.12574v1 )

ライセンス: Link先を確認
Yang Liu, Luiz G. Hafemann, Michael Jamieson, Mehrsan Javan(参考訳) スポーツビデオのプレイヤー追跡は通常、トラッキング・バイ・ディテクト・フレームワークで行われ、まず各フレーム内のプレイヤーを検出し、その後、時間とともに関連付けを行う。 一部のスポーツ追跡プレイヤーはゲーム分析に十分であるが、ホッケー、テニス、ポロといったスポーツには、選手が保持している物体を含む追加の検知が必要である。 ラケット、スティック)。 この問題のベースラインソリューションは、これらのオブジェクトを別々のクラスとして検出し、それらをIoU(英語版)との交叉に基づくプレイヤー検出とマッチングすることである。 しかし、このアプローチはプレイヤーとオブジェクトの関係をモデル化しないため、混雑した状況下でのマッチング性能が低下する。 本稿では,同一提案ボックスを通じて複数のオブジェクトを予測するための暗黙の関連を考慮し,プレイヤーと関連オブジェクトを同時かつ追加コストで検出・マッチングする簡易かつ効率的な手法を提案する。 本手法は,放送されたアイスホッケービデオのデータセットと,COCO+Torsoと呼ばれる新しい公開データセットを用いて評価する。 アイスホッケーデータセットでは, マッチング性能を57.1%から81.4%に向上し, プレイヤースティック検出の平均APを68.4%から88.3%に改善した。 COCO+Torsoデータセットでは、マッチングの改善が47.9%から65.2%に向上している。 COCO +Torsoデータセット、コードおよび事前トレーニングされたモデルはhttps://github.com/f oreverYoungGitHub/de tect-and-match-relat ed-jectsでリリースされる。

Tracking players in sports videos is commonly done in a tracking-by-detectio n framework, first detecting players in each frame, and then performing association over time. While for some sports tracking players is sufficient for game analysis, sports like hockey, tennis and polo may require additional detections, that include the object the player is holding (e.g. racket, stick). The baseline solution for this problem involves detecting these objects as separate classes, and matching them to player detections based on the intersection over union (IoU). This approach, however, leads to poor matching performance in crowded situations, as it does not model the relationship between players and objects. In this paper, we propose a simple yet efficient way to detect and match players and related objects at once without extra cost, by considering an implicit association for prediction of multiple objects through the same proposal box. We evaluate the method on a dataset of broadcast ice hockey videos, and also a new public dataset we introduce called COCO +Torso. On the ice hockey dataset, the proposed method boosts matching performance from 57.1% to 81.4%, while also improving the meanAP of player+stick detections from 68.4% to 88.3%. On the COCO +Torso dataset, we see matching improving from 47.9% to 65.2%. The COCO +Torso dataset, code and pre-trained models will be released at https://github.com/f oreverYoungGitHub/de tect-and-match-relat ed-objects.
翻訳日:2021-04-27 14:33:20 公開日:2021-04-23
# 将来の車両ネットワークにおける物体検出におけるセンサフュージョンの役割

On the Role of Sensor Fusion for Object Detection in Future Vehicular Networks ( http://arxiv.org/abs/2104.11785v1 )

ライセンス: Link先を確認
Valentina Rossi, Paolo Testolina, Marco Giordani, Michele Zorzi(参考訳) 完全自律運転システムでは、環境に敏感な物体を素早く検出し認識する必要がある。 この文脈では、インテリジェントな車両はセンサーデータをコンピューティングプラットフォームや他の車両と共有し、センサーの視野を超えた物体を検出する必要がある。 しかし、交換すべき膨大なデータ量は、標準的な通信技術では処理が困難である。 本稿では,異なるセンサの組み合わせが,車両の走行・走行環境の検出にどのように影響するかを評価する。 最終的な目的は、オブジェクト検出精度の点で無視できる劣化で、チャネル上に分散するデータの量を最小化する最適な設定を特定することである。 この目的のために、既に利用可能なオブジェクト検出アルゴリズムを拡張し、入力、カメラ画像、LiDAR点雲、または2つの組み合わせとして考慮し、2つの現実的なデータセットを用いて異なるアプローチの精度性能を比較する。 以上の結果から,センサフュージョンは常により正確な検出を実現するが,LiDARのみの入力はチャネルの負荷を軽減しつつ,大きな物体に対して同様の結果を得ることができることがわかった。

Fully autonomous driving systems require fast detection and recognition of sensitive objects in the environment. In this context, intelligent vehicles should share their sensor data with computing platforms and/or other vehicles, to detect objects beyond their own sensors' fields of view. However, the resulting huge volumes of data to be exchanged can be challenging to handle for standard communication technologies. In this paper, we evaluate how using a combination of different sensors affects the detection of the environment in which the vehicles move and operate. The final objective is to identify the optimal setup that would minimize the amount of data to be distributed over the channel, with negligible degradation in terms of object detection accuracy. To this aim, we extend an already available object detection algorithm so that it can consider, as an input, camera images, LiDAR point clouds, or a combination of the two, and compare the accuracy performance of the different approaches using two realistic datasets. Our results show that, although sensor fusion always achieves more accurate detections, LiDAR only inputs can obtain similar results for large objects while mitigating the burden on the channel.
翻訳日:2021-04-27 14:26:10 公開日:2021-04-23
# ベイジアンスパースサンプリングによる薬物発見のための高次元近接最適実験設計

High-dimensional near-optimal experiment design for drug discovery via Bayesian sparse sampling ( http://arxiv.org/abs/2104.11834v1 )

ライセンス: Link先を確認
Hannes Eriksson, Christos Dimitrakakis, Lars Carlsson(参考訳) ベイジアン推論と最適化による薬物スクリーニングのための自動実験設計の課題について検討する。 特に,線形ガウスモデルとガウス過程の挙動を,高信頼度有界アルゴリズム,トンプソンサンプリング,あるいは有界地平木探索と組み合わせて比較・対比する。 スパースツリーサーチを用いた非神秘的高度な探索手法は,トンプソンサンプリングや高信頼境界といった手法に対して,明らかに有利であることを示す。 薬物毒性の既存および合成データセットに対するアプローチの顕著な優位性を示す。

We study the problem of performing automated experiment design for drug screening through Bayesian inference and optimisation. In particular, we compare and contrast the behaviour of linear-Gaussian models and Gaussian processes, when used in conjunction with upper confidence bound algorithms, Thompson sampling, or bounded horizon tree search. We show that non-myopic sophisticated exploration techniques using sparse tree search have a distinct advantage over methods such as Thompson sampling or upper confidence bounds in this setting. We demonstrate the significant superiority of the approach over existing and synthetic datasets of drug toxicity.
翻訳日:2021-04-27 14:23:06 公開日:2021-04-23
# (参考訳) 正規化多変量時系列因果解析と因果グラフ再構成 [全文訳有]

Normalized multivariate time series causality analysis and causal graph reconstruction ( http://arxiv.org/abs/2104.11360v1 )

ライセンス: CC BY 4.0
X. San Liang(参考訳) 因果分析は科学の中心にある重要な問題であり、データサイエンスと機械学習において特に重要である。 しかし、この16年の間、因果関係を現実の物理的概念と見なして第一原理から定式化する努力は目に見えなかったようである。 本研究では,多変量級数に対する情報フローに基づく2変量時系列因果推論の長期的一般化を,理論的発展の最近の進展に基づいて,コミュニティに紹介する。 結果として得られる公式は透明であり、計算的に非常に効率的なアルゴリズムとして実装することができる。 正常化され、統計的に有意な検査を受けることができる。 情報フローのみを推定するこのラインでの以前の作業とは違って、ここではユニット自体の影響を定量化するアルゴリズムも実装されている。 これはいくつかの因果推論において挑戦となるが、ここで自然に現れるので、因果グラフにおける自己ループの同定は、辺に沿った因果関係が推測されるにつれて自動的に達成される。 このアプローチのパワーを実証するために、極端な状況における2つの応用を紹介します。 1つは重騒音(ノイズと信号の比が100を超える)に埋もれた多変量プロセスのネットワーク、2つ目はほぼ同期したカオス発振器を持つネットワークである。 どちらのグラフにも結合プロセスが存在する。 これらの因果グラフを与えられた系列から再構成することは大きな課題であると思われるが、アルゴリズムの簡単な適用により直ちにデシデラタムが明らかになる。 特に、相反する過程は正確に区別されている。 コミュニティへの関心の高まりを考えると、この研究は非常にタイムリーです。

Causality analysis is an important problem lying at the heart of science, and is of particular importance in data science and machine learning. An endeavor during the past 16 years viewing causality as real physical notion so as to formulate it from first principles, however, seems to go unnoticed. This study introduces to the community this line of work, with a long-due generalization of the information flow-based bivariate time series causal inference to multivariate series, based on the recent advance in theoretical development. The resulting formula is transparent, and can be implemented as a computationally very efficient algorithm for application. It can be normalized, and tested for statistical significance. Different from the previous work along this line where only information flows are estimated, here an algorithm is also implemented to quantify the influence of a unit to itself. While this forms a challenge in some causal inferences, here it comes naturally, and hence the identification of self-loops in a causal graph is fulfilled automatically as the causalities along edges are inferred. To demonstrate the power of the approach, presented here are two applications in extreme situations. The first is a network of multivariate processes buried in heavy noises (with the noise-to-signal ratio exceeding 100), and the second a network with nearly synchronized chaotic oscillators. In both graphs, confounding processes exist. While it seems to be a huge challenge to reconstruct from given series these causal graphs, an easy application of the algorithm immediately reveals the desideratum. Particularly, the confounding processes have been accurately differentiated. Considering the surge of interest in the community, this study is very timely.
翻訳日:2021-04-26 20:39:33 公開日:2021-04-23
# (参考訳) 小型言語モデルからのトランスファートレーニング [全文訳有]

Transfer training from smaller language model ( http://arxiv.org/abs/2104.11390v1 )

ライセンス: CC BY 4.0
Han Zhang(参考訳) 大規模な言語モデルは様々なタスクに最先端の精度をもたらす。 しかし、大規模言語モデルのトレーニングには膨大なコンピューティングリソースが必要であり、より多くのオープンソース事前トレーニングモデルが利用可能になっているため、利用可能なモデルを最大限に活用する方法を研究することには価値がある。 そこで本研究では,学習時間と資源コストを削減すべく,小型の訓練モデルから大規模モデルへ変更する手法を提案する。 ソースモデルから重み値をコピーし、ゼロまたは小さな初期化値でパディングすることで、より小さなソースモデルから大きなターゲットモデルを初期化し、ソースモデルとターゲットモデルを近似出力にすることで、トランス構造におけるブロック行列の乗算と残留接続のために有効である。 ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。 ターゲットモデルをトレーニングし続けると、トレーニング損失はより小さな値から始まります。

Large language models have led to state-of-the-art accuracies across a range of tasks. However,training large language model needs massive computing resource, as more and more open source pre-training models are available, it is worthy to study how to take full advantage of available model. We find a method to save training time and resource cost by changing the small well-trained model to large model. We initialize a larger target model from a smaller source model by copy weight values from source model and padding with zeros or small initialization values on it to make the source and target model have approximate outputs, which is valid due to block matrix multiplication and residual connection in transformer structure. We test the target model on several data sets and find it is still comparable with the source model. When we continue training the target model, the training loss can start from a smaller value.
翻訳日:2021-04-26 20:20:46 公開日:2021-04-23
# (参考訳) NLP技術を用いた脆弱性検出に関する文献レビュー [全文訳有]

Literature review on vulnerability detection using NLP technology ( http://arxiv.org/abs/2104.11230v1 )

ライセンス: CC BY 4.0
Jiajie Wu(参考訳) 脆弱性検出は、ソフトウェアセキュリティの分野で常に最も重要なタスクである。 技術の発展に伴い、大規模なソースコードに直面して、脆弱性の自動解析と検出が現在の研究ホットスポットとなっている。 ソースコードなどの特殊なテキストファイルでは、最もホットなNLP技術を使ってモデルを構築し、ソースコードの自動解析と検出を実現することが、脆弱性検出の分野で最も期待されている研究の1つとなっている。 この記事では、CodeBERTのような最近の新しいドキュメントや技術について簡単な調査を行い、以前の技術について要約する。

Vulnerability detection has always been the most important task in the field of software security. With the development of technology, in the face of massive source code, automated analysis and detection of vulnerabilities has become a current research hotspot. For special text files such as source code, using some of the hottest NLP technologies to build models and realize the automatic analysis and detection of source code has become one of the most anticipated studies in the field of vulnerability detection. This article does a brief survey of some recent new documents and technologies, such as CodeBERT, and summarizes the previous technologies.
翻訳日:2021-04-26 20:11:25 公開日:2021-04-23
# (参考訳) チャネル平均離散による分布外および逆サンプルの軽量検出 [全文訳有]

Lightweight Detection of Out-of-Distribution and Adversarial Samples via Channel Mean Discrepancy ( http://arxiv.org/abs/2104.11408v1 )

ライセンス: CC BY 4.0
Xin Dong, Junfeng Guo, Wei-Te Ting, H.T. Kung(参考訳) out-of-distribution (ood)とadversarial sampleの検出は、現実世界のアプリケーションに分類モデルをデプロイする場合に不可欠である。 分類モデルによって抽出された特徴の統計量を評価するためのモデル非依存距離指標であるチャネル平均差(cmd)を積分確率メトリクスにインスパイアした。 CMDは、入ってくるサンプルの特徴統計と、以前見られたトレーニングサンプルから推定された特徴統計を最小限のオーバーヘッドで比較する。 実験により, 正規試料ではoodおよびadversarial試料に比べてcmdの大きさが有意に小さいことを実証した。 そこで本研究では,cmdを用いたoodから正統的なサンプルを識別する簡易な手法を提案し,事前学習した分類モデルに対して,単一のフォワードパスのみを要求できる。 さらに, チャネル感度チューニングのための軽量モデルを用いて, 他の統計検出法の改良により, 単一画像検出を実現する方法を示す。 予備的な結果から,本手法は様々なデータセットや攻撃手法におけるOOD, 対数サンプルの検出において, 高精度かつ汎用性の高い手法よりも優れていることが示された。

Detecting out-of-distribution (OOD) and adversarial samples is essential when deploying classification models in real-world applications. We introduce Channel Mean Discrepancy (CMD), a model-agnostic distance metric for evaluating the statistics of features extracted by classification models, inspired by integral probability metrics. CMD compares the feature statistics of incoming samples against feature statistics estimated from previously seen training samples with minimal overhead. We experimentally demonstrate that CMD magnitude is significantly smaller for legitimate samples than for OOD and adversarial samples. We propose a simple method to reliably differentiate between legitimate samples from OOD and adversarial samples using CMD, requiring only a single forward pass on a pre-trained classification model per sample. We further demonstrate how to achieve single image detection by using a lightweight model for channel sensitivity tuning, an improvement on other statistical detection methods. Preliminary results show that our simple yet effective method outperforms several state-of-the-art approaches to detecting OOD and adversarial samples across various datasets and attack methods with high efficiency and generalizability.
翻訳日:2021-04-26 19:55:29 公開日:2021-04-23
# (参考訳) ニューラルネットワークの分割推論のための教師なし情報難読化 [全文訳有]

Unsupervised Information Obfuscation for Split Inference of Neural Networks ( http://arxiv.org/abs/2104.11413v1 )

ライセンス: CC BY 4.0
Mohammad Samragh, Hossein Hosseini, Aleksei Triastcyn, Kambiz Azarian, Joseph Soriaga, Farinaz Koushanfar(参考訳) エッジデバイスとサーバ間のネットワーク計算を分割することで、ニューラルネットワークのエッジ計算の少ない推論が可能になるが、テストクエリに関する機密情報をサーバに公開することもできる。 この問題に対処するため、既存の手法では、与えられた機密属性セットの情報漏洩を最小限に抑えるためにモデルを訓練している。 しかし実際には、テストクエリにはトレーニング中に予測されない属性が含まれている可能性がある。 代わりに主タスクに無関係な情報を破棄するための教師なしの難読化手法を提案する。 我々は,情報理論の枠組みを用いて問題を定式化し,モデル出力に対する歪みの解析解を求める。 本手法では,エッジデバイスがその計算能力に基づいて決定された分割層までモデルを動作させる。 次に、ヌル空間のコンポーネントと残りの信号の低エネルギー成分を取り除くことにより、サーバモデルの第一層に基づいて得られた特徴ベクトルを省略する。 提案手法は,無関係属性の情報除去や目標ラベルの精度維持において,既存の手法よりも優れていることを示す。 また,提案手法は通信コストを低減し,計算オーバーヘッドが小さいことを示す。

Splitting network computations between the edge device and a server enables low edge-compute inference of neural networks but might expose sensitive information about the test query to the server. To address this problem, existing techniques train the model to minimize information leakage for a given set of sensitive attributes. In practice, however, the test queries might contain attributes that are not foreseen during training. We propose instead an unsupervised obfuscation method to discard the information irrelevant to the main task. We formulate the problem via an information theoretical framework and derive an analytical solution for a given distortion to the model output. In our method, the edge device runs the model up to a split layer determined based on its computational capacity. It then obfuscates the obtained feature vector based on the first layer of the server model by removing the components in the null space as well as the low-energy components of the remaining signal. Our experimental results show that our method outperforms existing techniques in removing the information of the irrelevant attributes and maintaining the accuracy on the target label. We also show that our method reduces the communication cost and incurs only a small computational overhead.
翻訳日:2021-04-26 19:38:47 公開日:2021-04-23
# (参考訳) 人間濃度レベルを認識・推定するための枠組み [全文訳有]

A Framework for Recognizing and Estimating Human Concentration Levels ( http://arxiv.org/abs/2104.11421v1 )

ライセンス: CC BY 4.0
Woodo Lee, Jakyung Koo, Nokyung Park, Pilgu Kang, Jeakwon Shim(参考訳) オンライン教育における主要な課題の1つは、各学生の濃度を推定することである。 従来の研究では、離散状態のみを使用してレベルを分類する制限があった。 本研究の目的は, 最小の身体運動データを用いて, 所定の状態として微妙なレベルを推定することである。 これはDeep Neural NetworkとKalman Filterで構成されるフレームワークによって行われる。 この枠組みを用いて,講師の援助や他分野への展開に使用できる濃度レベルを抽出した。

One of the major tasks in online education is to estimate the concentration levels of each student. Previous studies have a limitation of classifying the levels using discrete states only. The purpose of this paper is to estimate the subtle levels as specified states by using the minimum amount of body movement data. This is done by a framework composed of a Deep Neural Network and Kalman Filter. Using this framework, we successfully extracted the concentration levels, which can be used to aid lecturers and expand to other areas.
翻訳日:2021-04-26 19:23:21 公開日:2021-04-23
# (参考訳) H2O:ビジュアルヒューマンオブジェクトハンドオーバ分析のためのベンチマーク [全文訳有]

H2O: A Benchmark for Visual Human-human Object Handover Analysis ( http://arxiv.org/abs/2104.11466v1 )

ライセンス: CC BY 4.0
Ruolin Ye, Wenqiang Xu, Zhendong Xue, Tutian Tang, Yanfeng Wang, Cewu Lu(参考訳) オブジェクトハンドオーバ(Object Handover)は、ロボットと認知科学の研究者から注目を集める、一般的な人間のコラボレーション行動である。 視覚知覚はオブジェクトハンドオーバタスクにおいて重要な役割を果たすが、ハンドオーバプロセス全体は特に研究されている。 本研究では,ヒトとヒトのオブジェクトのハンドオーバを視覚的に解析するための,リッチアノテートデータセットH2Oを提案する。 H2Oには18Kのビデオクリップがあり、30以上のオブジェクトを互いに渡す15人が参加している。 視覚に基づくタスクを複数サポートできるが、そこからはReceer Grasp Prediction と呼ばれる未探索のタスクに対して、ベースラインメソッド RGPNet が具体的に提供される。 広範な実験により、rppnetは、プレハンドオーバフェーズにおけるグルーダのハンドオブジェクト状態に基づいて、妥当な把持を生成できることが示されている。 また,ハンドオーバタスクにおけるロボット模倣学習の映像デモとして,既存のベースラインで手とオブジェクトのポーズエラーを報告し,データセットが機能することを示す。 データセット、モデル、コードは公開されます。

Object handover is a common human collaboration behavior that attracts attention from researchers in Robotics and Cognitive Science. Though visual perception plays an important role in the object handover task, the whole handover process has been specifically explored. In this work, we propose a novel rich-annotated dataset, H2O, for visual analysis of human-human object handovers. The H2O, which contains 18K video clips involving 15 people who hand over 30 objects to each other, is a multi-purpose benchmark. It can support several vision-based tasks, from which, we specifically provide a baseline method, RGPNet, for a less-explored task named Receiver Grasp Prediction. Extensive experiments show that the RGPNet can produce plausible grasps based on the giver's hand-object states in the pre-handover phase. Besides, we also report the hand and object pose errors with existing baselines and show that the dataset can serve as the video demonstrations for robot imitation learning on the handover task. Dataset, model and code will be made public.
翻訳日:2021-04-26 19:18:36 公開日:2021-04-23
# (参考訳) クエリベースブラックボックス攻撃に対するランダムノイズ防御に関する理論的研究 [全文訳有]

Theoretical Study of Random Noise Defense against Query-Based Black-Box Attacks ( http://arxiv.org/abs/2104.11470v1 )

ライセンス: CC BY 4.0
Zeyu Qin, Yanbo Fan, Hongyuan Zha, Baoyuan Wu(参考訳) クエリベースのブラックボックス攻撃は、攻撃されたモデルやデータセットに関する知識を必要とせず、多くの実際のアプリケーションで機械学習モデルに深刻な脅威をもたらしている。 本研究では,クエリベースのブラックボックス攻撃に対して,Random Noise Defense (RND) と呼ばれるシンプルだが有望な防御手法について検討する。 軽量で、既製のモデルや他の防御戦略と直接組み合わせることができる。 しかし、無作為な防音の理論的な保証は失われており、この防御の実際の効果はまだ完全には分かっていない。 本研究では,問合せベースのブラックボックス攻撃に対するRNDの防御効果と,それに対応する適応攻撃が,ディフェンダー(RND)が付加するランダムノイズと,アタッカーがグラデーション推定のために付加するランダムノイズとの大きさ比に大きく依存していることを示す。 CIFAR-10とImageNetの大規模な実験は、我々の理論的研究を検証する。 また,RNDとガウシアン増強訓練(RND-GT)を組み合わせたより強力な防御手法を提案し,より優れた防御性能を実現する。

The query-based black-box attacks, which don't require any knowledge about the attacked models and datasets, have raised serious threats to machine learning models in many real applications. In this work, we study a simple but promising defense technique, dubbed Random Noise Defense (RND) against query-based black-box attacks, which adds proper Gaussian noise to each query. It is lightweight and can be directly combined with any off-the-shelf models and other defense strategies. However, the theoretical guarantee of random noise defense is missing, and the actual effectiveness of this defense is not yet fully understood. In this work, we present solid theoretical analyses to demonstrate that the defense effect of RND against the query-based black-box attack and the corresponding adaptive attack heavily depends on the magnitude ratio between the random noise added by the defender (i.e., RND) and the random noise added by the attacker for gradient estimation. Extensive experiments on CIFAR-10 and ImageNet verify our theoretical studies. Based on RND, we also propose a stronger defense method that combines RND with Gaussian augmentation training (RND-GT) and achieves better defense performance.
翻訳日:2021-04-26 19:05:48 公開日:2021-04-23
# (参考訳) 歩行認識における行動パターン抽出のための逐次畳み込みネットワーク [全文訳有]

Sequential convolutional network for behavioral pattern extraction in gait recognition ( http://arxiv.org/abs/2104.11473v1 )

ライセンス: CC0 1.0
Xinnan Ding, Kejun Wang, Chenhui Wang, Tianyi Lan, Liangliang Liu(参考訳) 独自で有望なバイオメトリックでビデオベースの歩行認識には幅広い応用がある。 この方法論の鍵となるステップは、個人の歩行パターンを学習することである。 既存のほとんどのメソッドは、外観と動きパターンにのみフォーカスする。 これらの制約を克服するため、新しい視点から逐次畳み込みネットワーク(SCN)を提案し、基本畳み込みバックボーンによって時空間の特徴を学習する。 scnでは、フレーム間の関係を解析可能な動作テンプレートを介して時系列の中間特徴マップを理解できるように行動情報抽出器(bie)を構築し、歩行パターンの情報を蒸留する。 さらに、SCN内の多フレームアグリゲータは、移動体3D畳み込み層を介して、長さが不確実なシーケンスに特徴統合を行う。 CASIA-B と OU-MVLP の2つの公開ベンチマークにおいて,本手法の有効性を実証するために実験を行った。

As a unique and promising biometric, video-based gait recognition has broad applications. The key step of this methodology is to learn the walking pattern of individuals, which, however, often suffers challenges to extract the behavioral feature from a sequence directly. Most existing methods just focus on either the appearance or the motion pattern. To overcome these limitations, we propose a sequential convolutional network (SCN) from a novel perspective, where spatiotemporal features can be learned by a basic convolutional backbone. In SCN, behavioral information extractors (BIE) are constructed to comprehend intermediate feature maps in time series through motion templates where the relationship between frames can be analyzed, thereby distilling the information of the walking pattern. Furthermore, a multi-frame aggregator in SCN performs feature integration on a sequence whose length is uncertain, via a mobile 3D convolutional layer. To demonstrate the effectiveness, experiments have been conducted on two popular public benchmarks, CASIA-B and OU-MVLP, and our approach is demonstrated superior performance, comparing with the state-of-art methods.
翻訳日:2021-04-26 18:48:09 公開日:2021-04-23
# (参考訳) BERTによるマルチモーダル核融合とフェイクニュース検出の注意機構 [全文訳有]

Multimodal Fusion with BERT and Attention Mechanism for Fake News Detection ( http://arxiv.org/abs/2104.11476v1 )

ライセンス: CC BY 4.0
Nguyen Manh Duc Tuan, Pham Quang Nhat Minh(参考訳) フェイクニュースの検出は、偽ニュースが毎日ソーシャルメディアに拡散しているため、メディア上の情報の信頼性を高める上で重要な課題であり、我々の社会にとって非常に深刻な関心事である。 偽ニュースは通常、画像、テキスト、ビデオを操作することで生成される。 本稿では,テキストと視覚データから派生したマルチモーダル特徴を融合させて偽ニュースを検出する手法を提案する。 具体的には、事前学習したBERTモデルを用いてテキストの特徴を学習し、ImageNetデータセットで事前学習したVGG-19モデルを用いて画像の特徴を抽出した。 テキストの特徴と視覚的特徴の関係を捉えるためのスケールドット製品アテンション機構を提案した。 実験の結果,公開twitterデータセットにおける現在の最先端手法よりも3.1%の精度で性能が向上した。

Fake news detection is an important task for increasing the credibility of information on the media since fake news is constantly spreading on social media every day and it is a very serious concern in our society. Fake news is usually created by manipulating images, texts, and videos. In this paper, we present a novel method for detecting fake news by fusing multimodal features derived from textual and visual data. Specifically, we used a pre-trained BERT model to learn text features and a VGG-19 model pre-trained on the ImageNet dataset to extract image features. We proposed a scale-dot product attention mechanism to capture the relationship between text features and visual features. Experimental results showed that our approach performs better than the current state-of-the-art method on a public Twitter dataset by 3.1% accuracy.
翻訳日:2021-04-26 18:31:32 公開日:2021-04-23
# (参考訳) 物理加熱システムのモデリングにおける帰納バイアスと自己教師あり学習 [全文訳有]

Inductive biases and Self Supervised Learning in modelling a physical heating system ( http://arxiv.org/abs/2104.11478v1 )

ライセンス: CC BY 4.0
Cristian Vicas(参考訳) モデル予測制御器(MPC)は制御プロセスに適切なモデルを必要とする。 本稿では,物理系に関する帰納バイアスを推定する。 私はこれらのバイアスを使って、ノイズと慣性を持つこの実際のシステムをモデル化できる新しいニューラルネットワークアーキテクチャを導き出します。 ここで悪用された主な帰納バイアスは、システムに対するいくつかの入力の遅延影響と、時間成分と入力がどのように相互作用してシステムの出力を生成するかの間の分離性である。 入力はシフト畳み込みカーネルを使用して独立に遅延される。 機能相互作用は、時間情報にアクセスできない完全に接続されたネットワークを用いてモデル化される。 利用可能なデータと問題設定は、モデルをトレーニングするためにセルフ監視学習の使用を可能にする。 ベースラインアーキテクチャは、mpcのような入力で動作するように適合した注意に基づく再帰ネットワークである。 提案したネットワークはより高速で、より大きなデータボリュームを活用でき、予測性能の点でベースラインネットワークとほぼ同等である。 提案されたアーキテクチャファミリーであるDelayは、実際のシナリオで、制御や入力に関して遅延応答を持つシステムを制御するために使用できる。 アブレーション研究により、遅延カーネルの存在は、提案されたアーキテクチャにおける学習を得るためには不可欠であることが示されている。 コードと実験データはオンラインで公開されている。

Model Predictive Controllers (MPC) require a good model for the controlled process. In this paper I infer inductive biases about a physical system. I use these biases to derive a new neural network architecture that can model this real system that has noise and inertia. The main inductive biases exploited here are: the delayed impact of some inputs on the system and the separability between the temporal component and how the inputs interact to produce the output of a system. The inputs are independently delayed using shifted convolutional kernels. Feature interactions are modelled using a fully connected network that does not have access to temporal information. The available data and the problem setup allow the usage of Self Supervised Learning in order to train the models. The baseline architecture is an Attention based Reccurent network adapted to work with MPC like inputs. The proposed networks are faster, better at exploiting larger data volumes and are almost as good as baseline networks in terms of prediction performance. The proposed architecture family called Delay can be used in a real scenario to control systems with delayed responses with respect to its controls or inputs. Ablation studies show that the presence of delay kernels are vital to obtain any learning in proposed architecture. Code and some experimental data are available online.
翻訳日:2021-04-26 18:19:58 公開日:2021-04-23
# (参考訳) 効率的なビデオ処理のためのスキップ畳み込み [全文訳有]

Skip-Convolutions for Efficient Video Processing ( http://arxiv.org/abs/2104.11487v1 )

ライセンス: CC BY 4.0
Amirhossein Habibian, Davide Abati, Taco S. Cohen, Babak Ehteshami Bejnordi(参考訳) 本稿では,ビデオストリームの冗長性を活用し,計算を省くためのスキップ畳み込みを提案する。 各ビデオは、フレームとネットワークアクティベーションの一連の変更として表現され、残余として表現される。 各層はモデル予測に残差が重要であるかどうかを判定するバイナリゲートと結合し、例えば、前景領域を安全にスキップすることができる。 背景地域。 これらのゲートは、畳み込みカーネルと共同で訓練された効率的なネットワークとして実装するか、単にその大きさに基づいて残差をスキップすることができる。 ゲーティング関数はハードウェアプラットフォーム上での効率的な実装に必要なブロックワイドの空間構造を組み込むこともできる。 すべての畳み込みを2つの最先端アーキテクチャ、すなわちEfficientDetとHRNetのスキップ畳み込みに置き換えることで、計算コストを2つの異なるタスクに対して3~4倍に抑えることができる。 既存のモデル圧縮と画像とビデオの効率性を比較して、Skip-Convolutionsがビデオの時間的冗長性を効果的に活用することによって、新しい最先端技術を確立したことを示す。

We propose Skip-Convolutions to leverage the large amount of redundancies in video streams and save computations. Each video is represented as a series of changes across frames and network activations, denoted as residuals. We reformulate standard convolution to be efficiently computed on residual frames: each layer is coupled with a binary gate deciding whether a residual is important to the model prediction,~\eg foreground regions, or it can be safely skipped, e.g. background regions. These gates can either be implemented as an efficient network trained jointly with convolution kernels, or can simply skip the residuals based on their magnitude. Gating functions can also incorporate block-wise sparsity structures, as required for efficient implementation on hardware platforms. By replacing all convolutions with Skip-Convolutions in two state-of-the-art architectures, namely EfficientDet and HRNet, we reduce their computational cost consistently by a factor of 3~4x for two different tasks, without any accuracy drop. Extensive comparisons with existing model compression, as well as image and video efficiency methods demonstrate that Skip-Convolutions set a new state-of-the-art by effectively exploiting the temporal redundancies in videos.
翻訳日:2021-04-26 18:04:07 公開日:2021-04-23
# (参考訳) 正しい理由のために正しいことを学べることを学ぶ [全文訳有]

Learning to Learn to be Right for the Right Reasons ( http://arxiv.org/abs/2104.11514v1 )

ライセンス: CC BY 4.0
Pride Kavumba, Benjamin Heinzerling, Ana Brassard, Kentaro Inui(参考訳) ホールドアウトデータにおけるモデル一般化の改善は、コモンセンス推論の中心的な目的の1つである。 近年の研究では、表面的キューを用いたデータセットでトレーニングされたモデルは、表面的キューを用いた簡単なテストセットではうまく機能するが、表面的キューのないハードテストセットでは性能が良くない傾向が示されている。 従来のアプローチは、表面的な手がかりに過度に適合しないようモデルに促す手動手法に頼っていた。 ハードインスタンスのパフォーマンスが向上したメソッドもあるが、簡単なインスタンスではパフォーマンスが低下している。 ここでは,表面的な手掛かりのない簡単なテストセットと,表面的な手掛かりのないハードテストセットの両方でうまく機能するモデルを明示的に学習することを提案する。 メタ学習の目的を用いて,簡単なテストセットと難しいテストセットの両方のパフォーマンスを向上させるモデルを学ぶ。 可塑性代替品選択法(COPA)とコモンセンス説明法(Commonsense Explanation)のモデルを評価することにより,提案手法がベースラインを最大16.5ポイント改善する簡単なテストセットとハードテストセットの両方の性能向上につながることを示す。

Improving model generalization on held-out data is one of the core objectives in commonsense reasoning. Recent work has shown that models trained on the dataset with superficial cues tend to perform well on the easy test set with superficial cues but perform poorly on the hard test set without superficial cues. Previous approaches have resorted to manual methods of encouraging models not to overfit to superficial cues. While some of the methods have improved performance on hard instances, they also lead to degraded performance on easy instances. Here, we propose to explicitly learn a model that does well on both the easy test set with superficial cues and hard test set without superficial cues. Using a meta-learning objective, we learn such a model that improves performance on both the easy test set and the hard test set. By evaluating our models on Choice of Plausible Alternatives (COPA) and Commonsense Explanation, we show that our proposed method leads to improved performance on both the easy test set and the hard test set upon which we observe up to 16.5 percentage points improvement over the baseline.
翻訳日:2021-04-26 17:47:30 公開日:2021-04-23
# (参考訳) 格子間依存超ネットワークウェイト [全文訳有]

Inter-choice dependent super-network weights ( http://arxiv.org/abs/2104.11522v1 )

ライセンス: CC BY 4.0
Kevin Alexander Laube, Andreas Zell(参考訳) ニューラルネットワークのためのアーキテクチャの自動設計であるNeural Architecture Searchは、ここ数年で注目を集めている。 ネットワーク検索空間はしばしば有限であり、固定された少数の決定が特定のアーキテクチャを構成するように手動で設計される。 このような状況を踏まえると、選択間の依存関係はネットワーク検索に影響を及ぼしがちであるが、一般的なワンショット手法では考慮されていない。 シングルパスワンショット検索ネットワークを拡張して、選択の組み合わせに依存し、その効果を分析する。 NAS-Bench 201 と SubImageNet ベースのサーチスペースでの実験では、コンボリューションのみの設定でスーパーネットワークの性能が向上し、シーケンシャルなネットワーク設計ではオーバーヘッドはほぼ無視できる。

The automatic design of architectures for neural networks, Neural Architecture Search, has gained a lot of attention over the recent years, as the thereby created networks repeatedly broke state-of-the-art results for several disciplines. The network search spaces are often finite and designed by hand, in a way that a fixed and small number of decisions constitute a specific architecture. Given these circumstances, inter-choice dependencies are likely to exist and affect the network search, but are unaccounted for in the popular one-shot methods. We extend the Single-Path One-Shot search-networks with additional weights that depend on combinations of choices and analyze their effect. Experiments in NAS-Bench 201 and SubImageNet based search spaces show an improved super-network performance in only-convolutions settings and that the overhead is nearly negligible for sequential network designs.
翻訳日:2021-04-26 17:36:11 公開日:2021-04-23
# (参考訳) 交叉モダリティ人物再同定のためのモダリティ共有外観特徴とモダリティ不変関係特徴の検討 [全文訳有]

Exploring Modality-shared Appearance Features and Modality-invariant Relation Features for Cross-modality Person Re-Identification ( http://arxiv.org/abs/2104.11539v1 )

ライセンス: CC BY 4.0
Nianchang Huang, Jianan Liu, Qiang Zhang, Jungong Han(参考訳) 既存のクロスモダリティの人物再同定作業のほとんどは、クロスモダリティのバリエーションとイントラモダリティのバリエーションを減らすために識別モダリティ共有機能に依存している。 初期の成功にもかかわらず、そのようなモダリティ共有の外観特徴は、RGBと赤外線画像の間に大きな差があるため、十分なモダリティ不変の識別情報を取得できない。 この課題に対処するため, 外観特徴の最上位では, 外観特徴の相補的特徴である, 異なる人物部分間のモダリティ-不変関係(モダリティ-不変関係特徴)を更に把握し, 類似の外観を持つ人物の識別を支援する。 この目的のために、MTMFE(Multi-level Two-streamed Modality-Shared Feature extract)サブネットワークを設計し、まず、共有2次元特徴空間と共有3次元特徴空間において、モダリティ共有の外観特徴とモダリティ不変の関係特徴を抽出する。 これら2つの特徴は、相互モダリティ変動と内部モダリティ変動の両方を減らすことができる最終的なモダリティ共有特徴に融合される。 さらに, クロスモダリティの4重項損失は, クロスモダリティの変動をさらに低減するために提案される。 いくつかのベンチマークデータセットによる実験結果から,提案手法が最先端のアルゴリズムをはるかに上回ることを示す。

Most existing cross-modality person re-identification works rely on discriminative modality-shared features for reducing cross-modality variations and intra-modality variations. Despite some initial success, such modality-shared appearance features cannot capture enough modality-invariant discriminative information due to a massive discrepancy between RGB and infrared images. To address this issue, on the top of appearance features, we further capture the modality-invariant relations among different person parts (referred to as modality-invariant relation features), which are the complement to those modality-shared appearance features and help to identify persons with similar appearances but different body shapes. To this end, a Multi-level Two-streamed Modality-shared Feature Extraction (MTMFE) sub-network is designed, where the modality-shared appearance features and modality-invariant relation features are first extracted in a shared 2D feature space and a shared 3D feature space, respectively. The two features are then fused into the final modality-shared features such that both cross-modality variations and intra-modality variations can be reduced. Besides, a novel cross-modality quadruplet loss is proposed to further reduce the cross-modality variations. Experimental results on several benchmark datasets demonstrate that our proposed method exceeds state-of-the-art algorithms by a noticeable margin.
翻訳日:2021-04-26 17:18:06 公開日:2021-04-23
# (参考訳) 軽量RGB-Dサルエント物体検出のための中間レベル核融合 [全文訳有]

Middle-level Fusion for Lightweight RGB-D Salient Object Detection ( http://arxiv.org/abs/2104.11543v1 )

ライセンス: CC BY 4.0
Nianchang Huang, Qiang Zhang, Jungong Han(参考訳) 既存の RGB-D salient Object Detection (SOD) モデルでは、高い計算コストとメモリ消費を必要とする。 これにより、これらのRGB-D SODモデルの実際の応用が制限される。 本稿では,新しい軽量RGB-D SODモデルについて述べる。 二つのストリーム構造や単一ストリーム構造を用いる既存のモデルとは異なり、中間レベルの融合構造は2ストリーム構造としてモダリティ共有情報とモダリティ固有情報を同時に利用でき、シングルストリーム構造としてネットワークのパラメータを著しく低減できるため、軽量なRGB-D SODモデルの設計に中間レベルの融合構造を用いる。 この構造に基づいて、新しい情報対応マルチモーダル特徴融合(IMFF)モジュールを設計し、クロスモーダル補完情報を効果的に取得する。 次に,新しい軽量な機能レベルと意思決定レベルの機能融合(lfdf)モジュールにより,特徴レベルと決定レベルのサリエンシー情報を,より少ないパラメータで異なる段階に集約する。 中層核融合構造にIMFFとLFDFモジュールが組み込まれているため,提案モデルは3.9Mパラメータしか持たず,33FPSで動作する。 さらに,いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。

Most existing RGB-D salient object detection (SOD) models require large computational costs and memory consumption to accurately detect the salient objects. This limits the real-life applications of these RGB-D SOD models. To address this issue, a novel lightweight RGB-D SOD model is presented in this paper. Different from most existing models which usually employ the two-stream or single-stream structure, we propose to employ the middle-level fusion structure for designing lightweight RGB-D SOD model, due to the fact that the middle-level fusion structure can simultaneously exploit the modality-shared and modality-specific information as the two-stream structure and can significantly reduce the network's parameters as the single-stream structure. Based on this structure, a novel information-aware multi-modal feature fusion (IMFF) module is first designed to effectively capture the cross-modal complementary information. Then, a novel lightweight feature-level and decision-level feature fusion (LFDF) module is designed to aggregate the feature-level and the decision-level saliency information in different stages with less parameters. With IMFF and LFDF modules incorporated in the middle-level fusion structure, our proposed model has only 3.9M parameters and runs at 33 FPS. Furthermore, the experimental results on several benchmark datasets verify the effectiveness and superiority of the proposed method over some state-of-the-art methods.
翻訳日:2021-04-26 16:49:10 公開日:2021-04-23
# (参考訳) コンピュータ支援に基づく乳癌深層畳み込みニューラルネットワークの検出法に関する研究 [全文訳有]

Research on the Detection Method of Breast Cancer Deep Convolutional Neural Network Based on Computer Aid ( http://arxiv.org/abs/2104.11551v1 )

ライセンス: CC BY 4.0
Mengfan Li(参考訳) 従来の乳がん画像分類法では、医療画像から特徴を手作業で抽出する必要があり、専門的な医学知識を必要とするだけでなく、時間消費や労働集約、高品質特徴の抽出が困難である。 そこで本研究では,コンピュータによる畳み込みニューラルネットワークを用いた乳がん画像の分類と検出手法を提案する。 本論文は、異なる構造を持つ2つの畳み込みニューラルネットワークを事前訓練し、その後、畳み込みニューラルネットワークを用いて特徴を自動抽出し、2つの構造から抽出された特徴を融合させ、最後に融合した特徴を分類する。 実験の結果,乳がん画像データセットの分類におけるこの手法の精度は89%であり,従来の方法と比較して乳がん画像の分類精度が有意に向上していることがわかった。

Traditional breast cancer image classification methods require manual extraction of features from medical images, which not only require professional medical knowledge, but also have problems such as time-consuming and labor-intensive and difficulty in extracting high-quality features. Therefore, the paper proposes a computer-based feature fusion Convolutional neural network breast cancer image classification and detection method. The paper pre-trains two convolutional neural networks with different structures, and then uses the convolutional neural network to automatically extract the characteristics of features, fuse the features extracted from the two structures, and finally use the classifier classifies the fused features. The experimental results show that the accuracy of this method in the classification of breast cancer image data sets is 89%, and the classification accuracy of breast cancer images is significantly improved compared with traditional methods.
翻訳日:2021-04-26 16:26:51 公開日:2021-04-23
# (参考訳) 幾何サンプリングによるスケッチベース正規写像生成 [全文訳有]

Sketch-based Normal Map Generation with Geometric Sampling ( http://arxiv.org/abs/2104.11554v1 )

ライセンス: CC BY 4.0
Yi He, Haoran Xie, Chao Zhang, Xi Yang, Kazunori Miyata(参考訳) 正規写像は複雑な3dモデルを表現するための重要かつ効率的な方法である。 デザイナーは、3dコンテンツ作成のフリーハンドスケッチから高品質で正確な正規地図の自動生成の恩恵を受けるかもしれない。 本稿では,幾何学的サンプリングによるユーザスケッチから正規地図を生成するための深層生成モデルを提案する。 我々の生成モデルは条件付きマスクの曲率感応点サンプリングによる条件付き生成適応ネットワークに基づいている。 このサンプリングプロセスは、ネットワーク入力として生成結果のあいまいさを取り除くのに役立つ。 さらに, u-net構造判別器を用いて, ジェネレータの訓練を効率化した。 提案手法がより正確な正規写像を生成できることを確認した。

Normal map is an important and efficient way to represent complex 3D models. A designer may benefit from the auto-generation of high quality and accurate normal maps from freehand sketches in 3D content creation. This paper proposes a deep generative model for generating normal maps from users sketch with geometric sampling. Our generative model is based on Conditional Generative Adversarial Network with the curvature-sensitive points sampling of conditional masks. This sampling process can help eliminate the ambiguity of generation results as network input. In addition, we adopted a U-Net structure discriminator to help the generator be better trained. It is verified that the proposed framework can generate more accurate normal maps.
翻訳日:2021-04-26 16:21:10 公開日:2021-04-23
# (参考訳) エッセイグレーディング支援における文クラスタリングのための深層学習 [全文訳有]

Deep learning for sentence clustering in essay grading support ( http://arxiv.org/abs/2104.11556v1 )

ライセンス: CC BY-SA 4.0
Li-Hsin Chang, Iiro Rastas, Sampo Pyysalo, Filip Ginter(参考訳) 評価テストの形式としてのエッセイは、短い回答や複数の質問よりも深いレベルで学生の知識をテストする。 しかし、エッセイの手動による評価は時間と労力がかかる。 手作業による評価に先立ってエッセイやその断片の自動クラスタリングは、評価プロセスに必要な労力を削減するための可能な解決策を提供する。 このようなクラスタリングは、自然言語の多様性とあいまいさによって、多くの課題をもたらす。 本稿では,フィンランド語における大学生エッセイの2つのデータセットについて紹介する。 これらのデータセットを用いて,エッセイグレーディングを支援するために,文クラスタリングに適した深層学習埋め込み手法の評価を行った。 その結果,最も適した手法の選択は,試験問題の性質と解答に依存し,深層学習法は可能であるが,語彙的重複に基づく単純な手法よりも優れた性能は保証されないことがわかった。

Essays as a form of assessment test student knowledge on a deeper level than short answer and multiple-choice questions. However, the manual evaluation of essays is time- and labor-consuming. Automatic clustering of essays, or their fragments, prior to manual evaluation presents a possible solution to reducing the effort required in the evaluation process. Such clustering presents numerous challenges due to the variability and ambiguity of natural language. In this paper, we introduce two datasets of undergraduate student essays in Finnish, manually annotated for salient arguments on the sentence level. Using these datasets, we evaluate several deep-learning embedding methods for their suitability to sentence clustering in support of essay grading. We find that the choice of the most suitable method depends on the nature of the exam question and the answers, with deep-learning methods being capable of, but not guaranteeing better performance over simpler methods based on lexical overlap.
翻訳日:2021-04-26 16:15:55 公開日:2021-04-23
# (参考訳) Knodle: PyTorchによるModular Weakly Supervised Learning [全文訳有]

Knodle: Modular Weakly Supervised Learning with PyTorch ( http://arxiv.org/abs/2104.11557v1 )

ライセンス: CC BY 4.0
Anastasiia Sedova, Andreas Stephan, Marina Speranskaya, Benjamin Roth(参考訳) 弱い教師付き機械学習モデルのトレーニングと予測品質を改善する方法は、特定のタスクにどの程度合わせるか、あるいは特定のモデルアーキテクチャに統合するかによって異なる。 本研究では,弱いデータアノテーションを分離するためのモジュール化,強力なディープラーニングモデル,弱い教師付きトレーニングを改善する手法を提供するソフトウェアフレームワークknodleを提案する。 このモジュール化により、トレーニングプロセスはデータセットの特性、ヒューリスティックルールのマッチング、最終的には予測に使用されるディープラーニングモデルの要素など、きめ細かい情報にアクセスできるようになる。 したがって、我々のフレームワークは、ルールと出力クラス(結果ラベルで訓練された機械学習モデルとは独立して)の相関のみを考察する手法から、ニューラルネットワークと弱いラベル付きデータの相互作用を利用する方法まで、弱い監視を改善するための幅広い訓練方法を含むことができる。

Methods for improving the training and prediction quality of weakly supervised machine learning models vary in how much they are tailored to a specific task, or integrated with a specific model architecture. In this work, we propose a software framework Knodle that provides a modularization for separating weak data annotations, powerful deep learning models, and methods for improving weakly supervised training. This modularization gives the training process access to fine-grained information such as data set characteristics, matches of heuristic rules, or elements of the deep learning model ultimately used for prediction. Hence, our framework can encompass a wide range of training methods for improving weak supervision, ranging from methods that only look at the correlations of rules and output classes (independently of the machine learning model trained with the resulting labels), to those methods that harness the interplay of neural networks and weakly labeled data.
翻訳日:2021-04-26 16:05:12 公開日:2021-04-23
# (参考訳) ドイツのNERで訓練された小型BERTの最適化 [全文訳有]

Optimizing small BERTs trained for German NER ( http://arxiv.org/abs/2104.11559v1 )

ライセンス: CC BY-SA 4.0
Jochen Z\"ollner, Konrad Sperfeld, Christoph Wick, Roger Labahn(参考訳) 現在、言語モデルをトレーニングするための最も広範なニューラルネットワークアーキテクチャはBERTと呼ばれ、様々なNLPタスクの改善につながっている。 一般に、BERTモデルのパラメータ数が大きくなるほど、これらのNLPタスクで得られる結果が良くなる。 残念ながら、これらのモデルのサイズによって、メモリ消費とトレーニング期間が大幅に増加する。 本稿では,より小型のBERTモデルの各種訓練手法について検討し,これらを5つの公開ドイツ語NERタスクで評価し,その2つを本論文で紹介する。 我々は、ALBERT、RoBERTa、および相対的な位置エンコーディングのような他のBERT変種とは異なる方法を組み合わせる。 さらに,CSEタグ付けとLCRFの修正形式という,より優れた性能を実現するための2つの新しい微調整手法を提案する。 さらに,BERTメモリの使用量を削減し,性能を低下させるWWAという新しい手法を導入する。

Currently, the most widespread neural network architecture for training language models is the so called BERT which led to improvements in various NLP tasks. In general, the larger the number of parameters in a BERT model, the better the results obtained in these NLP tasks. Unfortunately, the memory consumption and the training duration drastically increases with the size of these models, though. In this article, we investigate various training techniques of smaller BERT models and evaluate them on five public German NER tasks of which two are introduced by this article. We combine different methods from other BERT variants like ALBERT, RoBERTa, and relative positional encoding. In addition, we propose two new fine-tuning techniques leading to better performance: CSE-tagging and a modified form of LCRF. Furthermore, we introduce a new technique called WWA which reduces BERT memory usage and leads to a small increase in performance.
翻訳日:2021-04-26 15:50:03 公開日:2021-04-23
# (参考訳) 弱教師付きマルチタスク学習によるマルチモーダル影響認識 [全文訳有]

Weakly-supervised Multi-task Learning for Multimodal Affect Recognition ( http://arxiv.org/abs/2104.11560v1 )

ライセンス: CC BY 4.0
Wenliang Dai, Samuel Cahyawijaya, Yejin Bang, Pascale Fung(参考訳) マルチモーダルな感情認識は、人間とコンピュータの相互作用における対人関係を高める重要な側面である。 しかし、関連するデータは注釈を付けるのが難しく、特にコストがかかるため、堅牢なマルチモーダル影響認識システムを構築する上で難しい障壁となる。 これらの比較的小さなデータセットでトレーニングされたモデルは、過剰に適合しがちであり、複雑な最先端モデルを使用することによる改善は、単純なベースラインと比べて限界である。 一方、多くの異なるマルチモーダルな影響データセットがあるが、それぞれが小さいかもしれない。 本稿では,これらのデータセットを弱教師付きマルチタスク学習を用いて活用し,それらの一般化性能を向上させることを提案する。 具体的には,1) 感情認識, 2) 感情分析, 3) 皮肉認識の3つのタスクについて検討する。 実験の結果,マルチタスクは全てのタスクに有効であり,精度は2.9%,F1スコアは3.3%向上した。 さらに,本手法はモデル性能の安定性向上にも寄与する。 さらに分析の結果,タスクの相関性が高い場合には,弱い監督が強い監督に匹敵する貢献をする可能性が示唆された。

Multimodal affect recognition constitutes an important aspect for enhancing interpersonal relationships in human-computer interaction. However, relevant data is hard to come by and notably costly to annotate, which poses a challenging barrier to build robust multimodal affect recognition systems. Models trained on these relatively small datasets tend to overfit and the improvement gained by using complex state-of-the-art models is marginal compared to simple baselines. Meanwhile, there are many different multimodal affect recognition datasets, though each may be small. In this paper, we propose to leverage these datasets using weakly-supervised multi-task learning to improve the generalization performance on each of them. Specifically, we explore three multimodal affect recognition tasks: 1) emotion recognition; 2) sentiment analysis; and 3) sarcasm recognition. Our experimental results show that multi-tasking can benefit all these tasks, achieving an improvement up to 2.9% accuracy and 3.3% F1-score. Furthermore, our method also helps to improve the stability of model performance. In addition, our analysis suggests that weak supervision can provide a comparable contribution to strong supervision if the tasks are highly correlated.
翻訳日:2021-04-26 15:31:34 公開日:2021-04-23
# (参考訳) 音声ゲストタルト制御ビデオ記憶システムによる映像記憶性に及ぼす音声の影響 [全文訳有]

The Influence of Audio on Video Memorability with an Audio Gestalt Regulated Video Memorability System ( http://arxiv.org/abs/2104.11568v1 )

ライセンス: CC BY 4.0
Lorin Sweeney, Graham Healy, Alan F. Smeaton(参考訳) 記憶は我々を世界と結びつける繋がる糸であり、記憶力はその引張強さの尺度である。 メモリのスレッドは、多くのモーダル性の繊維から発散し、スレッド全体の引張強さに対する単一のファイバーの寄与を隠蔽する。 これらの繊維を解き放つことが、それらの相互作用の性質を理解する鍵であり、最終的により意味のあるメディアコンテンツを作る方法である。 本稿では,音声が映像認識能力に与える影響について検討し,ハイレベルな音声特徴に富む映像認識能力の全体的な向上を示唆する証拠を見出した。 本稿では,映像の音声が短期的認識能力に与える影響を推定するために,音声を用いたマルチモーダル深層学習に基づくレイトフュージョンシステムを導入し,音声特徴を選択的に活用して予測を行う。 我々は,memento10kの短期映像記憶性データセットを用いた音声ゲシュタルトベースシステムの性能評価を行った。

Memories are the tethering threads that tie us to the world, and memorability is the measure of their tensile strength. The threads of memory are spun from fibres of many modalities, obscuring the contribution of a single fibre to a thread's overall tensile strength. Unfurling these fibres is the key to understanding the nature of their interaction, and how we can ultimately create more meaningful media content. In this paper, we examine the influence of audio on video recognition memorability, finding evidence to suggest that it can facilitate overall video recognition memorability rich in high-level (gestalt) audio features. We introduce a novel multimodal deep learning-based late-fusion system that uses audio gestalt to estimate the influence of a given video's audio on its overall short-term recognition memorability, and selectively leverages audio features to make a prediction accordingly. We benchmark our audio gestalt based system on the Memento10k short-term video memorability dataset, achieving top-2 state-of-the-art results.
翻訳日:2021-04-26 15:14:43 公開日:2021-04-23
# (参考訳) NLP, クエリ自動生成, 遺伝的摂動を用いたサイバー脅威追跡の自動化 [全文訳有]

Automating Cyber Threat Hunting Using NLP, Automated Query Generation, and Genetic Perturbation ( http://arxiv.org/abs/2104.11576v1 )

ライセンス: CC BY 4.0
Prakruthi Karuna and Erik Hemberg and Una-May O'Reilly and Nick Rutar(参考訳) サイバーハント問題のスケーリングは、いくつかの重要な技術的課題を引き起こす。 大規模企業ネットワークにおけるサイバー脅威の検出と特徴付けは、敵が目標を達成するためにさまざまな戦術を展開する際に分析しなければならないデータの量と複雑さのために難しい。 あらゆる側面を自動化し、実際にサイバーハンティングのワークフローを自動化する必要がある。 AIは、これをサポートする多くの方法を提供する。 We has developed the WILEE system that automated cyber threat Hunts by translating high-level threat descriptions into many possible concrete implementation。 高レベルの)抽象的な実装と(低レベルの)具体的な実装の両方は、カスタムドメイン特化言語(DSL)を使用して表現されます。 WILEEは、DSLで書かれた他のロジックと共に実装を使用して、クエリを自動的に生成し、様々な抽象層に表される潜在的な敵ワークフローに結びついた仮説を確認(または否定)する。

Scaling the cyber hunt problem poses several key technical challenges. Detecting and characterizing cyber threats at scale in large enterprise networks is hard because of the vast quantity and complexity of the data that must be analyzed as adversaries deploy varied and evolving tactics to accomplish their goals. There is a great need to automate all aspects, and, indeed, the workflow of cyber hunting. AI offers many ways to support this. We have developed the WILEE system that automates cyber threat hunting by translating high-level threat descriptions into many possible concrete implementations. Both the (high-level) abstract and (low-level) concrete implementations are represented using a custom domain specific language (DSL). WILEE uses the implementations along with other logic, also written in the DSL, to automatically generate queries to confirm (or refute) any hypotheses tied to the potential adversarial workflows represented at various layers of abstraction.
翻訳日:2021-04-26 14:58:13 公開日:2021-04-23
# (参考訳) ディープオブジェクト検出のためのコトレーニング:シングルモーダルおよびマルチモーダルアプローチの比較 [全文訳有]

Co-training for Deep Object Detection: Comparing Single-modal and Multi-modal Approaches ( http://arxiv.org/abs/2104.11619v1 )

ライセンス: CC BY 4.0
Jose L. G\'omez, Gabriel Villalonga, Antonio M. L\'opez(参考訳) トップパフォーマンスコンピュータビジョンモデルは畳み込みニューラルネットワーク(cnns)によって駆動される。 正確なCNNのトレーニングは、生センサデータと関連する地上真実(GT)の両方に大きく依存する。 このようなGTの収集は通常、人間のラベル付けによって行われる。 このデータのラベル付けボトルネックは、イメージセンサー間のドメインシフトによって強化される可能性がある。 本稿では,半教師付き学習(SSL)手法であるコトレーニング(co-training)を用いて,自己ラベル付きオブジェクト境界ボックス(BB),すなわち深層物体検出装置の訓練を行う。 特に,画像の2つの異なる視点,すなわち出現(rgb)と推定深度(d)に依拠して,マルチモーダル学習の良否を評価する。 さらに,外観ベースシングルモーダルコートレインとマルチモーダルの比較を行った。 我々の結果は、標準のSSL設定(ドメインシフトなし、少数の人間ラベル付きデータ)と仮想から現実のドメインシフト(多くの仮想世界ラベル付きデータ、人間ラベル付きデータなし)では、マルチモーダル協調学習はシングルモーダルを上回っていることを示唆している。 後者の場合、GANベースのドメイン翻訳を行うことで、少なくとも翻訳画像に特化して訓練されていない既成深度推定モデルを使用する場合、共に訓練されたモダリティがペアである。

Top-performing computer vision models are powered by convolutional neural networks (CNNs). Training an accurate CNN highly depends on both the raw sensor data and their associated ground truth (GT). Collecting such GT is usually done through human labeling, which is time-consuming and does not scale as we wish. This data labeling bottleneck may be intensified due to domain shifts among image sensors, which could force per-sensor data labeling. In this paper, we focus on the use of co-training, a semi-supervised learning (SSL) method, for obtaining self-labeled object bounding boxes (BBs), i.e., the GT to train deep object detectors. In particular, we assess the goodness of multi-modal co-training by relying on two different views of an image, namely, appearance (RGB) and estimated depth (D). Moreover, we compare appearance-based single-modal co-training with multi-modal. Our results suggest that in a standard SSL setting (no domain shift, a few human-labeled data) and under virtual-to-real domain shift (many virtual-world labeled data, no human-labeled data) multi-modal co-training outperforms single-modal. In the latter case, by performing GAN-based domain translation both co-training modalities are on pair; at least, when using an off-the-shelf depth estimation model not specifically trained on the translated images.
翻訳日:2021-04-26 14:52:46 公開日:2021-04-23
# (参考訳) バイオメディカルtwitter投稿におけるクレーム検出 [全文訳有]

Claim Detection in Biomedical Twitter Posts ( http://arxiv.org/abs/2104.11639v1 )

ライセンス: CC BY 4.0
Amelie W\"uhrl and Roman Klinger(参考訳) ソーシャルメディアには、フィルターされていないユニークな情報が含まれており、これは大きな価値をもたらす可能性があるが、誤った情報の場合、大きな害を及ぼすこともある。 生物医学的な話題では、誤った情報は特に危険である。 ファクトチェックと偽ニュース検出の方法はこの問題に対処するが、まだソーシャルメディアのバイオメディカル領域には適用されていない。 我々はこの研究ギャップを埋め、暗黙的かつ明示的なバイオメディカルクレーム(後者はクレームフレーズのスパンアノテーションも含む)のために1200ツイートのコーパスに注釈を付けることを目指している。 このコーパスは、新型コロナウイルス、麻疹、嚢胞性線維症、うつ病に関連するものとして、クレームを含むツイートを自動的に検出するベースラインモデルを開発した。 分析の結果,生物医学的つぶやきにはクレームが密集していることが判明した(上述のドメインに焦点を当てた1200のつぶやきを含むコーパスの45パーセント)。 埋め込み型分類器とBERTを用いた転送学習を用いたベースライン分類実験は, 検出が困難であることを示すが, クレームの明示的表現の識別には許容できる性能を示した。 暗黙のクレームツイートは検出が難しい。

Social media contains unfiltered and unique information, which is potentially of great value, but, in the case of misinformation, can also do great harm. With regards to biomedical topics, false information can be particularly dangerous. Methods of automatic fact-checking and fake news detection address this problem, but have not been applied to the biomedical domain in social media yet. We aim to fill this research gap and annotate a corpus of 1200 tweets for implicit and explicit biomedical claims (the latter also with span annotations for the claim phrase). With this corpus, which we sample to be related to COVID-19, measles, cystic fibrosis, and depression, we develop baseline models which detect tweets that contain a claim automatically. Our analyses reveal that biomedical tweets are densely populated with claims (45 % in a corpus sampled to contain 1200 tweets focused on the domains mentioned above). Baseline classification experiments with embedding-based classifiers and BERT-based transfer learning demonstrate that the detection is challenging, however, shows acceptable performance for the identification of explicit expressions of claims. Implicit claim tweets are more challenging to detect.
翻訳日:2021-04-26 14:23:18 公開日:2021-04-23
# (参考訳) 科学的問題に対する補助情報を用いたスケーラブルで柔軟なディープベイズ最適化 [全文訳有]

Scalable and Flexible Deep Bayesian Optimization with Auxiliary Information for Scientific Problems ( http://arxiv.org/abs/2104.11667v1 )

ライセンス: CC BY 4.0
Samuel Kim, Peter Y. Lu, Charlotte Loh, Jamie Smith, Jasper Snoek, Marin Solja\v{c}i\'c(参考訳) ベイズ最適化(BO)は高価なブラックボックス関数をグローバルに最適化するための一般的なパラダイムであるが、完全にブラックボックスではない領域が多数存在する。 データには、例えばいくつかの既知の構造があるかもしれない。 対称性及びデータ生成プロセスは、最適化目的の値に加えて有用な中間情報又は補助情報を得ることができる。 しかし、ガウス過程(GP)のような従来のBOで採用されていたサロゲートモデルは、データセットのサイズや既知の構造や補助情報を組み込むのに苦労する。 代わりに,構造化データを扱うための表現力と柔軟性を備えたスケーラブルなサロゲートモデルのクラスであるベイジアンニューラルネットワーク(bnns)を用いて,複雑で構造化された問題に対するboの実行を提案する。 BOは、畳み込みニューラルネットワークを用いたフォトニック結晶材料のトポロジー最適化や、グラフニューラルネットワークを用いた分子の化学的特性最適化など、物理学や化学における現実的な多くの問題について実証する。 これらの複雑なタスクにおいて、BNNはサンプリング効率と計算コストの両方の観点から、BOのサロゲートモデルとしてGPを上回ります。

Bayesian optimization (BO) is a popular paradigm for global optimization of expensive black-box functions, but there are many domains where the function is not completely black-box. The data may have some known structure, e.g. symmetries, and the data generation process can yield useful intermediate or auxiliary information in addition to the value of the optimization objective. However, surrogate models traditionally employed in BO, such as Gaussian Processes (GPs), scale poorly with dataset size and struggle to incorporate known structure or auxiliary information. Instead, we propose performing BO on complex, structured problems by using Bayesian Neural Networks (BNNs), a class of scalable surrogate models that have the representation power and flexibility to handle structured data and exploit auxiliary information. We demonstrate BO on a number of realistic problems in physics and chemistry, including topology optimization of photonic crystal materials using convolutional neural networks, and chemical property optimization of molecules using graph neural networks. On these complex tasks, we show that BNNs often outperform GPs as surrogate models for BO in terms of both sampling efficiency and computational cost.
翻訳日:2021-04-26 14:06:34 公開日:2021-04-23
# (参考訳) 専門家の混合によるロバスト連合学習 [全文訳有]

Robust Federated Learning by Mixture of Experts ( http://arxiv.org/abs/2104.11700v1 )

ライセンス: CC BY 4.0
Saeedeh Parsaeefard, Sayed Ehsan Etesami and Alberto Leon Garcia(参考訳) 本研究では, 有毒・腐食・アウトダイドの局所モデルに対するフェデレーション学習(fl)におけるロバスト性を提供するため, 専門家(moe)概念の混合に基づく新しい重み付け平均モデルを提案する。 これらの脅威とデータセットの非IIDの性質はFLモデルの精度を著しく低下させる。 提案したMoE-FLセットアップは,ユーザの公開データセットの一部をサーバと共有するサーバ間の信頼度に依存している。 サーバは、最適化問題やソフトマックス法を解くことでロバストアグリゲーション手法を適用し、外乱ケースを強調し、FLプロセスに対する悪影響を低減する。 実験の結果,MoE-FLはアタッカーによる高毒性データに対する従来のアグリゲーション手法よりも優れていた。

We present a novel weighted average model based on the mixture of experts (MoE) concept to provide robustness in Federated learning (FL) against the poisoned/corrupted/o utdated local models. These threats along with the non-IID nature of data sets can considerably diminish the accuracy of the FL model. Our proposed MoE-FL setup relies on the trust between users and the server where the users share a portion of their public data sets with the server. The server applies a robust aggregation method by solving the optimization problem or the Softmax method to highlight the outlier cases and to reduce their adverse effect on the FL process. Our experiments illustrate that MoE-FL outperforms the performance of the traditional aggregation approach for high rate of poisoned data from attackers.
翻訳日:2021-04-26 14:03:04 公開日:2021-04-23
# (参考訳) バッチプロセス制御のためのセーフチャンス制約強化学習

Safe Chance Constrained Reinforcement Learning for Batch Process Control ( http://arxiv.org/abs/2104.11706v1 )

ライセンス: CC BY 4.0
Max Mowbray, Panagiotis Petsagkourakis, Ehecatl Antonio del R\'io Chanona, Robin Smith, Dongda Zhang(参考訳) 強化学習(RL)コントローラは,コントロールコミュニティ内で興奮を引き起こしている。 既存の手法に対するRLコントローラの主な利点は、プロセスの不確実性の明確な仮定とは無関係に不確実なシステムを最適化する能力である。 近年のエンジニアリングアプリケーションへの注目は、安全なrlコントローラの開発に向けられている。 従来の研究では、確率モデル予測制御の領域からの制約強化による制約満足度を考慮に入れたアプローチが提案されている。 ここでは、これらのアプローチを植物モデルミスマッチを考慮して拡張する。 具体的には、オフラインシミュレーションモデルにガウス過程を利用するデータ駆動手法を提案し、関連する後続不確実性予測を用いて、共同確率制約とプラントモデルミスマッチを考慮する。 この手法はケーススタディによる非線形モデル予測制御に対してベンチマークされる。 その結果,プラントモデルミスマッチの存在下においても,プロセスの不確実性を考慮し,共同確率制約の満足度を高める方法が示された。

Reinforcement Learning (RL) controllers have generated excitement within the control community. The primary advantage of RL controllers relative to existing methods is their ability to optimize uncertain systems independently of explicit assumption of process uncertainty. Recent focus on engineering applications has been directed towards the development of safe RL controllers. Previous works have proposed approaches to account for constraint satisfaction through constraint tightening from the domain of stochastic model predictive control. Here, we extend these approaches to account for plant-model mismatch. Specifically, we propose a data-driven approach that utilizes Gaussian processes for the offline simulation model and use the associated posterior uncertainty prediction to account for joint chance constraints and plant-model mismatch. The method is benchmarked against nonlinear model predictive control via case studies. The results demonstrate the ability of the methodology to account for process uncertainty, enabling satisfaction of joint chance constraints even in the presence of plant-model mismatch.
翻訳日:2021-04-26 13:45:45 公開日:2021-04-23
# (参考訳) VidTr: コンボリューションのないビデオトランスフォーマー [全文訳有]

VidTr: Video Transformer Without Convolutions ( http://arxiv.org/abs/2104.11746v1 )

ライセンス: CC BY 4.0
Xinyu Li, Yanyi Zhang, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio Brattoli, Hao Chen, Ivan Marsic, Joseph Tighe(参考訳) ビデオ分類に分離可能なビデオ変換器(VidTr)を導入する。 一般的な3dネットワークと比較すると、vidtrは重ねられた注意を通して時空間情報を集約し、より高い効率でより良いパフォーマンスを提供することができる。 まず、バニラビデオトランスを導入し、トランスモジュールが生画素から時空間モデリングを行うことができるが、メモリ使用量が多いことを示す。 次に、同じパフォーマンスを維持しながらメモリコストを3.3$\times$削減するvidtrを提案する。 このモデルをさらにコンパクトにするために, 標準偏差に基づくtopkプーリングアテンションを提案し, 非インフォーマティブな特徴を落として計算量を削減した。 VidTrは、より少ない計算要求の5つの一般的なデータセット上で最先端のパフォーマンスを実現し、設計の効率性と有効性を示す。 最後に、エラー解析と可視化は、VidTrが長期の時間的推論を必要とするアクションを予測するのに特に優れていることを示している。 コードとトレーニング済みのウェイトがリリースされる予定だ。

We introduce Video Transformer (VidTr) with separable-attention for video classification. Comparing with commonly used 3D networks, VidTr is able to aggregate spatio-temporal information via stacked attentions and provide better performance with higher efficiency. We first introduce the vanilla video transformer and show that transformer module is able to perform spatio-temporal modeling from raw pixels, but with heavy memory usage. We then present VidTr which reduces the memory cost by 3.3$\times$ while keeping the same performance. To further compact the model, we propose the standard deviation based topK pooling attention, which reduces the computation by dropping non-informative features. VidTr achieves state-of-the-art performance on five commonly used dataset with lower computational requirement, showing both the efficiency and effectiveness of our design. Finally, error analysis and visualization show that VidTr is especially good at predicting actions that require long-term temporal reasoning. The code and pre-trained weights will be released.
翻訳日:2021-04-26 13:44:48 公開日:2021-04-23
# (参考訳) グループ化特徴重要度と複合特徴効果プロット

Grouped Feature Importance and Combined Features Effect Plot ( http://arxiv.org/abs/2104.11688v1 )

ライセンス: CC BY 4.0
Quay Au, Julia Herbinger, Clemens Stachl, Bernd Bischl, Giuseppe Casalicchio(参考訳) 解釈可能な機械学習は、機械学習アルゴリズムの普及と本質的に困難な解釈可能性のために、非常に活発な研究分野となっている。 この領域でのほとんどの仕事は、モデルにおける単一特徴の解釈に焦点が当てられている。 しかし、研究者や実践者にとって、しばしば特徴群の重要性を定量化したり、その効果を可視化することが重要である。 この研究ギャップに対処するため、我々は、グループ化された特徴の重要性を評価するための機能グループに対して、既存のモデルに依存しない手法をどのように定義できるかを包括的に概観する。 また,グループ化特徴空間における機能の組み合わせを安定的かつ良好に識別する,重要度に基づくシーケンシャルプロシージャも導入する。 さらに,特徴のスパースで解釈可能な線形結合に基づいて,特徴群の効果を可視化する手法である複合特徴効果プロットを提案する。 我々は、シミュレーション研究と計算心理学の実際のデータ例を用いて、これらの手法を分析し、比較し、議論した。

Interpretable machine learning has become a very active area of research due to the rising popularity of machine learning algorithms and their inherently challenging interpretability. Most work in this area has been focused on the interpretation of single features in a model. However, for researchers and practitioners, it is often equally important to quantify the importance or visualize the effect of feature groups. To address this research gap, we provide a comprehensive overview of how existing model-agnostic techniques can be defined for feature groups to assess the grouped feature importance, focusing on permutation-based, refitting, and Shapley-based methods. We also introduce an importance-based sequential procedure that identifies a stable and well-performing combination of features in the grouped feature space. Furthermore, we introduce the combined features effect plot, which is a technique to visualize the effect of a group of features based on a sparse, interpretable linear combination of features. We used simulation studies and a real data example from computational psychology to analyze, compare, and discuss these methods.
翻訳日:2021-04-26 13:17:47 公開日:2021-04-23
# 深層学習による合成音声の自然性評価

Deep Learning Based Assessment of Synthetic Speech Naturalness ( http://arxiv.org/abs/2104.11673v1 )

ライセンス: Link先を確認
Gabriel Mittag, Sebastian M\"oller(参考訳) 本稿では,合成音声の自然性に関する新しい客観的予測モデルを提案する。 Text-To-SpeechまたはVoice Conversionシステムの評価に使用でき、言語を独立して動作させる。 このモデルはエンドツーエンドで訓練されており、CNN-LSTMネットワークをベースとしている。 私たちは、Blizzard ChallengeやVoice Conversion Challengeなど、16の異なるデータセットでモデルをトレーニングし、テストしました。 さらに,目的語POLQAスコアに基づいて学習した音声品質予測モデルからの変換学習により,深層学習に基づく自然度予測の信頼性を向上させることができることを示す。 提案したモデルは公開されており、例えば、異なるTSシステム構成を評価するために使用することができる。

In this paper, we present a new objective prediction model for synthetic speech naturalness. It can be used to evaluate Text-To-Speech or Voice Conversion systems and works language independently. The model is trained end-to-end and based on a CNN-LSTM network that previously showed to give good results for speech quality estimation. We trained and tested the model on 16 different datasets, such as from the Blizzard Challenge and the Voice Conversion Challenge. Further, we show that the reliability of deep learning-based naturalness prediction can be improved by transfer learning from speech quality prediction models that are trained on objective POLQA scores. The proposed model is made publicly available and can, for example, be used to evaluate different TTS system configurations.
翻訳日:2021-04-26 13:16:11 公開日:2021-04-23
# 並列注意を伴う複数特徴集合による教師付きビデオ要約

Supervised Video Summarization via Multiple Feature Sets with Parallel Attention ( http://arxiv.org/abs/2104.11530v1 )

ライセンス: Link先を確認
Junaid Ahmed Ghauri, Sherzod Hakimov, Ralph Ewerth(参考訳) 重要度スコアをビデオ内の特定のフレームや(短い)セグメントに割り当てることは、要約には不可欠であるが、難しい作業でもある。 以前の作業では、ビジュアル機能の1つのソースのみを使用している。 本稿では,視覚コンテンツと動きの3つの特徴セットを組み合わせて重要度を予測する新しいモデルアーキテクチャを提案する。 提案アーキテクチャは,画像分類モデルから派生した(静的な)視覚的内容を表す動作特徴と特徴を融合する前に,注意機構を利用する。 SumMeとTVSumの2つのよく知られたデータセットについて総合的な実験的評価を報告する。 この文脈では,従来のベンチマークデータセットの使用方法に関する方法論的問題を特定し,今後の作業で使用可能な適切なデータ分割を用いた公平な評価手法を提案する。 並列アテンション機構を備えた静的およびモーション機能を使用する場合、他のデータセットの最先端と同等でありながら、SumMeの最先端結果を改善する。

The assignment of importance scores to particular frames or (short) segments in a video is crucial for summarization, but also a difficult task. Previous work utilizes only one source of visual features. In this paper, we suggest a novel model architecture that combines three feature sets for visual content and motion to predict importance scores. The proposed architecture utilizes an attention mechanism before fusing motion features and features representing the (static) visual content, i.e., derived from an image classification model. Comprehensive experimental evaluations are reported for two well-known datasets, SumMe and TVSum. In this context, we identify methodological issues on how previous work used these benchmark datasets, and present a fair evaluation scheme with appropriate data splits that can be used in future work. When using static and motion features with parallel attention mechanism, we improve state-of-the-art results for SumMe, while being on par with the state of the art for the other dataset.
翻訳日:2021-04-26 13:15:33 公開日:2021-04-23
# 階層型SOMアーキテクチャによるアンセグメンテッドアクションのオンライン認識

Online recognition of unsegmented actions with hierarchical SOM architecture ( http://arxiv.org/abs/2104.11637v1 )

ライセンス: Link先を確認
Zahra Gharaee(参考訳) オンラインの一連の無意味なアクションの自動認識には、アクションの開始と終了を決定するセグメンテーションの方法が必要である。 本稿では,オンラインテスト実験における未解決行動を認識するための新しいアプローチを提案する。 この方法は、自己組織化ニューラルネットワークを使用して、3層認知アーキテクチャを構築する。 アクションシーケンスのユニークな特徴は、第1層自己組織化マップによって導かれる一連のキーアクティベーションとして表現される。 トレーニングセット内のすべてのアクションシーケンスに対してキーアクティベーションベクトルの平均長さを算出し、学習試験で調整し、第2層自己組織化マップへの入力パターンを生成する。 パターンベクトルは第2層にクラスタ化され、クラスタは第3層ニューラルネットワークのアクションidによってラベル付けされる。 実験結果から, オフラインテストと比較して, 性能はわずかに低下するが, 提案アーキテクチャが未解決のアクションシーケンスとオンラインパフォーマンスに対処できる能力により, 実ケースシナリオにおいて, より信頼性が高く, 実用的であることが示唆された。

Automatic recognition of an online series of unsegmented actions requires a method for segmentation that determines when an action starts and when it ends. In this paper, a novel approach for recognizing unsegmented actions in online test experiments is proposed. The method uses self-organizing neural networks to build a three-layer cognitive architecture. The unique features of an action sequence are represented as a series of elicited key activations by the first-layer self-organizing map. An average length of a key activation vector is calculated for all action sequences in a training set and adjusted in learning trials to generate input patterns to the second-layer self-organizing map. The pattern vectors are clustered in the second layer, and the clusters are then labeled by an action identity in the third layer neural network. The experiment results show that although the performance drops slightly in online experiments compared to the offline tests, the ability of the proposed architecture to deal with the unsegmented action sequences as well as the online performance makes the system more plausible and practical in real-case scenarios.
翻訳日:2021-04-26 13:15:19 公開日:2021-04-23
# インテンテンション型人工知能:シンボル出現から説明可能・共感的aiへ

Intensional Artificial Intelligence: From Symbol Emergence to Explainable and Empathetic AI ( http://arxiv.org/abs/2104.11573v1 )

ライセンス: Link先を確認
Michael Timothy Bennett, Yoshihiro Maruyama(参考訳) 我々は、説明可能な人工知能は、その決定の根拠を持ち、観察された行動の目的を推測し、聴衆が理解し、意図する文脈でその決定を説明することができるべきであると論じる。 これらの問題に対処するために、私たちは4つの新しい貢献を提示します。 まず、任意のタスクを知覚状態の観点で定義し、可能な解の領域の2つの極小について議論する。 第二に、インテンショナル解を定義する。 知能の定義によって最適であり、タスクの目的を記述する。 有するエージェントは、その目的の観点からその決定の根拠を持ち、ハードウェアを基盤とする知覚記号システムで表現される。 第三に、理性は自然言語を必要とし、知覚状態の符号化と復号を行う。 本稿では,言語を習得するためには,言語自体ではなく,言語が記述する世界をエージェントがモデル化すべき意味論を提案する。 人間の発話がエージェントの目標に対して予測的価値を持つ場合、エージェントはそれらの発話を自身の目標と知覚状態の観点で意味付けする。 パイルセアの記号論の文脈では、エージェントのコミュニティは、通信するためにサイン、参照者、解釈者の粗い近似を共有しなければならない。 意味は意図の文脈にのみ存在し、人間とコミュニケーションするためには、エージェントは同等の経験と目標を持つ必要がある。 空腹や痛みのような人間の動機づけと幾分類似した客観的な機能によって強制されるインテンテンションソリューションを学ぶエージェントは、自身の意図だけでなく、聴衆が理解し意図することの観点でその理論的根拠を説明することができるかもしれない。 それは人間の知覚状態の幾らかの近似を形成する。

We argue that an explainable artificial intelligence must possess a rationale for its decisions, be able to infer the purpose of observed behaviour, and be able to explain its decisions in the context of what its audience understands and intends. To address these issues we present four novel contributions. Firstly, we define an arbitrary task in terms of perceptual states, and discuss two extremes of a domain of possible solutions. Secondly, we define the intensional solution. Optimal by some definitions of intelligence, it describes the purpose of a task. An agent possessed of it has a rationale for its decisions in terms of that purpose, expressed in a perceptual symbol system grounded in hardware. Thirdly, to communicate that rationale requires natural language, a means of encoding and decoding perceptual states. We propose a theory of meaning in which, to acquire language, an agent should model the world a language describes rather than the language itself. If the utterances of humans are of predictive value to the agent's goals, then the agent will imbue those utterances with meaning in terms of its own goals and perceptual states. In the context of Peircean semiotics, a community of agents must share rough approximations of signs, referents and interpretants in order to communicate. Meaning exists only in the context of intent, so to communicate with humans an agent must have comparable experiences and goals. An agent that learns intensional solutions, compelled by objective functions somewhat analogous to human motivators such as hunger and pain, may be capable of explaining its rationale not just in terms of its own intent, but in terms of what its audience understands and intends. It forms some approximation of the perceptual states of humans.
翻訳日:2021-04-26 13:15:01 公開日:2021-04-23
# a picture is a collaboration:cumula tion design knowledge for computer-vision-base d hybrid intelligence systems

A Picture is Worth a Collaboration: Accumulating Design Knowledge for Computer-Vision-base d Hybrid Intelligence Systems ( http://arxiv.org/abs/2104.11600v1 )

ライセンス: Link先を確認
Patrick Zschech, Jannis Walk, Kai Heinrich, Michael V\"ossing, Niklas K\"uhl(参考訳) コンピュータビジョン(CV)技術は、人間の視覚能力の模倣を試み、重要な物体の認識や局所化のような労働集約的かつ時間を要するタスクをサポートする。 今日では、CVは人工知能(AI)に頼り、意思決定支援やビジネスプロセス自動化に使用できる画像から有用な情報を自動的に抽出するようになっている。 しかし、現存する研究の焦点は、信頼、制御、自律性といった社会技術的側面を無視しながら、AIベースのCVシステムを設計する際の技術的な側面に限られることが多い。 本研究の目的は,ハイブリッドインテリジェンス(HI)の観点からそのようなシステムの設計を考察し,CVベースのHIシステムのための規範的設計知識を導出することである。 我々は,6つの包括的cvプロジェクトから設計知識を蓄積し,実践に触発された設計科学アプローチを適用した。 その結果、メタ要求と設計原則を伝達する4つの設計関連メカニズム(自動化、信号処理、修正、コラボレーション)を特定した。 これは、CVベースのHIシステムに関するさらなる社会技術研究の基盤となる。

Computer vision (CV) techniques try to mimic human capabilities of visual perception to support labor-intensive and time-consuming tasks like the recognition and localization of critical objects. Nowadays, CV increasingly relies on artificial intelligence (AI) to automatically extract useful information from images that can be utilized for decision support and business process automation. However, the focus of extant research is often exclusively on technical aspects when designing AI-based CV systems while neglecting socio-technical facets, such as trust, control, and autonomy. For this purpose, we consider the design of such systems from a hybrid intelligence (HI) perspective and aim to derive prescriptive design knowledge for CV-based HI systems. We apply a reflective, practice-inspired design science approach and accumulate design knowledge from six comprehensive CV projects. As a result, we identify four design-related mechanisms (i.e., automation, signaling, modification, and collaboration) that inform our derived meta-requirements and design principles. This can serve as a basis for further socio-technical research on CV-based HI systems.
翻訳日:2021-04-26 13:14:34 公開日:2021-04-23
# 畳み込み低ランクモデルの学習による時系列予測

Time Series Forecasting via Learning Convolutionally Low-Rank Models ( http://arxiv.org/abs/2104.11510v1 )

ライセンス: Link先を確認
Guangcan Liu(参考訳) 最近、-\citet{liu:arxiv:2019} は圧縮センシングの観点から時系列予測のかなり困難な問題を研究した。 彼らは畳み込み核ノルム最小化(convolution nuclear norm minimization, cnnm)という無学習法を提案し、cnnmがその観測された部分から系列の将来部分を正確に回復できることを証明した。 印象的ではあるが、コンボリューション的低ランク性条件は、シリーズが季節的でないと満足せず、実際にはトレンドやダイナミクスの存在に不安定である。 本稿では,学習可能な正規正規直交変換をcnnmに統合し,一連の畳み込み構造を畳み込み的に低いランクの正規信号に変換することを目的とした。 結果として得られたモデルであるLbCNNM(LbCNNM)は,シリーズの変換が畳み込み的に低ランクである限り,シリーズの将来部分を特定することに成功している。 必要な成功条件を満たした適切な変換を学習するために,主成分純度(pcp)に基づく解釈可能な手法を考案する。 この学習方法といくつかの精巧なデータ議論スキルを備えたlbcnnmは、時系列(トレンド、季節性、ダイナミクスを含む)の主要な構成要素をうまく処理できるだけでなく、他のいくつかの予測方法によって提供される予測を活用できる。 TSDLおよびM4からの100,452個の実時間時系列に対する大規模な実験は、LbCNNMの優れた性能を示す。

Recently,~\citet{liu:arxiv:2019} studied the rather challenging problem of time series forecasting from the perspective of compressed sensing. They proposed a no-learning method, named Convolution Nuclear Norm Minimization (CNNM), and proved that CNNM can exactly recover the future part of a series from its observed part, provided that the series is convolutionally low-rank. While impressive, the convolutional low-rankness condition may not be satisfied whenever the series is far from being seasonal, and is in fact brittle to the presence of trends and dynamics. This paper tries to approach the issues by integrating a learnable, orthonormal transformation into CNNM, with the purpose for converting the series of involute structures into regular signals of convolutionally low-rank. We prove that the resulted model, termed Learning-Based CNNM (LbCNNM), strictly succeeds in identifying the future part of a series, as long as the transform of the series is convolutionally low-rank. To learn proper transformations that may meet the required success conditions, we devise an interpretable method based on Principal Component Purist (PCP). Equipped with this learning method and some elaborate data argumentation skills, LbCNNM not only can handle well the major components of time series (including trends, seasonality and dynamics), but also can make use of the forecasts provided by some other forecasting methods; this means LbCNNM can be used as a general tool for model combination. Extensive experiments on 100,452 real-world time series from TSDL and M4 demonstrate the superior performance of LbCNNM.
翻訳日:2021-04-26 13:14:16 公開日:2021-04-23
# 偏心正則化:明示的射影を伴わない超球面エネルギーの最小化

Eccentric Regularization: Minimizing Hyperspherical Energy without explicit projection ( http://arxiv.org/abs/2104.11610v1 )

ライセンス: Link先を確認
Xuefeng Li and Alan Blair(参考訳) いくつかの正規化手法が最近導入され、オートエンコーダやディープニューラルネットワークの潜伏活性化はガウス分布か超球面分布に適合するか、潜伏空間における分布の暗黙のランクを最小化する。 そこで本研究では,各項目の係り受け力と,各項目の原点に対する係り受け力との相互反発力をシミュレートする,新たな正則化損失関数を提案する。 この損失関数を分離して最小化すると超球面分布が得られることを示す。 さらに、正規化用語として使用する場合、スケーリング係数を調整して偏心性の柔軟性と許容性を高め、相対的重要性に応じて潜在変数を階層化することができる。 本稿では,この偏心正規化手法をオートエンコーダに適用し,画像生成,表現学習,下流分類タスクにおいてその効果を示す。

Several regularization methods have recently been introduced which force the latent activations of an autoencoder or deep neural network to conform to either a Gaussian or hyperspherical distribution, or to minimize the implicit rank of the distribution in latent space. In the present work, we introduce a novel regularizing loss function which simulates a pairwise repulsive force between items and an attractive force of each item toward the origin. We show that minimizing this loss function in isolation achieves a hyperspherical distribution. Moreover, when used as a regularizing term, the scaling factor can be adjusted to allow greater flexibility and tolerance of eccentricity, thus allowing the latent variables to be stratified according to their relative importance, while still promoting diversity. We apply this method of Eccentric Regularization to an autoencoder, and demonstrate its effectiveness in image generation, representation learning and downstream classification tasks.
翻訳日:2021-04-26 13:13:48 公開日:2021-04-23
# DeepfakeUCL:教師なしコントラスト学習によるディープフェイク検出

DeepfakeUCL: Deepfake Detection via Unsupervised Contrastive Learning ( http://arxiv.org/abs/2104.11507v1 )

ライセンス: Link先を確認
Sheldon Fung, Xuequan Lu, Chao Zhang, Chang-Tsun Li(参考訳) 顔のディープフェイク検出は、最近目覚ましい結果を得た。 顔深度検出のための既存のディープラーニング技術は、ほぼすべて教師付きであり、トレーニング中にラベルを必要とする。 本稿では,教師なしコントラスト学習による新しいディープフェイク検出手法を設計する。 まず、画像を変換した2つのバージョンを生成し、それらを2つのシーケンシャルサブネットワーク、すなわちエンコーダとプロジェクションヘッドに供給する。 プロジェクションヘッドの出力の対応度を最大化することにより、教師なしトレーニングを実現する。 教師なし手法の検出性能を評価するために,教師なし特徴を用いて効率的な線形分類ネットワークを訓練する。 広範な実験により,教師なし学習手法は,データセット内およびデータセット間において,最先端の教師付き手法に匹敵する検出性能を実現することが示された。 また, この方法ではアブレーション研究も行う。

Face deepfake detection has seen impressive results recently. Nearly all existing deep learning techniques for face deepfake detection are fully supervised and require labels during training. In this paper, we design a novel deepfake detection method via unsupervised contrastive learning. We first generate two different transformed versions of an image and feed them into two sequential sub-networks, i.e., an encoder and a projection head. The unsupervised training is achieved by maximizing the correspondence degree of the outputs of the projection head. To evaluate the detection performance of our unsupervised method, we further use the unsupervised features to train an efficient linear classification network. Extensive experiments show that our unsupervised learning method enables comparable detection performance to state-of-the-art supervised techniques, in both the intra- and inter-dataset settings. We also conduct ablation studies for our method.
翻訳日:2021-04-26 13:13:32 公開日:2021-04-23
# CapillaryNet:携帯型生体顕微鏡による微小循環ビデオの自動解析システム

CapillaryNet: An Automated System to Analyze Microcirculation Videos from Handheld Vital Microscopy ( http://arxiv.org/abs/2104.11574v1 )

ライセンス: Link先を確認
Maged Helmy, Anastasiya Dykyy, Tuyen Trung Truong, Paulo Ferreira, Eric Jul(参考訳) キャピラリー(英: Capillaries)は、体内の酸素と栄養素を周囲の細胞に供給する最小の容器である。 各種の疾患は、栄養キャピラリーの密度と赤血球の流速を変えることが示されている。 これまでの研究では、毛細血管密度と流速は訓練された専門家によって手動で評価されてきた。 20秒の微小血管ビデオの手動分析には平均20分かかり、広範なトレーニングが必要となる。 いくつかの研究は、手動解析が臨床現場での微小血管顕微鏡の応用を妨げると報告している。 本稿では, 微小血管顕微鏡解析を自動化し, 研究ツールとしてだけでなく臨床応用にも利用できる完全自動化システムであるCapillaryNetを提案する。 本手法は,50名の異なる被験者の微小循環ビデオを取得し,生医学的訓練を行った。 CapillaryNetは訓練された研究者に匹敵する精度で毛細血管を検知し、ヒトが採った時間の0.1%以下で、これまで定量化できなかったいくつかの微小血管パラメータを測定する。 毛細血管内血流速度の不均一性

Capillaries are the smallest vessels in the body responsible for the delivery of oxygen and nutrients to the surrounding cells. Various diseases have been shown to alter the density of nutritive capillaries and the flow velocity of erythrocytes. In previous studies, capillary density and flow velocity have been assessed manually by trained specialists. Manual analysis of a 20-second long microvascular video takes on average 20 minutes and requires extensive training. Several studies have reported that manual analysis hinders the application of microvascular microscopy in a clinical setting. In this paper, we present a fully automated system, called CapillaryNet, that can automate microvascular microscopy analysis and thus enable the method to be used not just as a research tool, but also for clinical applications. Our method has been developed by acquiring microcirculation videos from 50 different subjects annotated by trained biomedical researchers. CapillaryNet detects capillaries with an accuracy comparable to trained researchers in less than 0.1% of the time taken by humans and measures several microvascular parameters that researchers were previously unable to quantify, i.e. capillary hematocrit and intra-capillary flow velocity heterogeneity.
翻訳日:2021-04-26 13:13:17 公開日:2021-04-23
# guidebp: 平行ロジットの弱い経路を介してバックプロパゲーションを導く

GuideBP: Guiding Backpropagation Through Weaker Pathways of Parallel Logits ( http://arxiv.org/abs/2104.11620v1 )

ライセンス: Link先を確認
Bodhisatwa Mandal, Swarnendu Ghosh, Teresa Gon\c{c}alves, Paulo Quaresma, Mita Nasipuri, Nibaran Das(参考訳) 畳み込みニューラルネットワークは、しばしば複数のロジットを生成し、損失計算のための加算や平均化のような単純なテクニックを使用する。 しかし、これにより勾配が全ての経路に等しく分散できる。 提案手法は、最も弱い概念表現に沿ったバックプロパゲーションの勾配を導く。 弱点スコアは、最も弱い経路に沿った勾配を導くロジットを作成するために使用される個々の経路のクラス固有のパフォーマンスを定義する。 提案手法は従来のカラムマージ手法よりも優れた性能を示しており、いくつかのアプリケーションシナリオで使用することができる。 提案手法は,モデルの複数のインスタンスを並列に学習する上で,効率的な手法として利用できるだけでなく,複数の出力ブランチを持つCNNも提案手法のアップグレードにより向上することが示されている。 様々な実験により、経験的および統計的に様々な多目的シナリオにおいて単純かつ効果的である学習技術の柔軟性が確立される。

Convolutional neural networks often generate multiple logits and use simple techniques like addition or averaging for loss computation. But this allows gradients to be distributed equally among all paths. The proposed approach guides the gradients of backpropagation along weakest concept representations. A weakness scores defines the class specific performance of individual pathways which is then used to create a logit that would guide gradients along the weakest pathways. The proposed approach has been shown to perform better than traditional column merging techniques and can be used in several application scenarios. Not only can the proposed model be used as an efficient technique for training multiple instances of a model parallely, but also CNNs with multiple output branches have been shown to perform better with the proposed upgrade. Various experiments establish the flexibility of the learning technique which is simple yet effective in various multi-objective scenarios both empirically and statistically.
翻訳日:2021-04-26 13:12:59 公開日:2021-04-23
# APRF-Net:クエリ分類のための注意的擬似関連フィードバックネットワーク

APRF-Net: Attentive Pseudo-Relevance Feedback Network for Query Categorization ( http://arxiv.org/abs/2104.11384v1 )

ライセンス: Link先を確認
Ali Ahmadvand, Sayyed M. Zahiri, Simon Hughes, Khalifa Al Jadda, Surya Kallumadi, and Eugene Agichtein(参考訳) クエリ分類は、eコマース検索におけるクエリインテント理解の重要な部分である。 一般的なクエリ分類タスクは、製品分類における関連するきめ細かい製品カテゴリを選択することである。 頻繁なクエリでは、関連する製品カテゴリを推測するためにリッチな顧客行動(クリックスルーデータなど)を使用することができる。 しかし、大量の検索トラフィックをカバーするより稀なクエリでは、この信号がないため、顧客の行動のみに依存するだけでは十分ではない。 稀なクエリの分類を改善するために,Pseudo-Relevance Feedback (PRF)アプローチを適用し,意味的あるいは語彙的に類似した製品文書に埋め込まれた潜伏知識を利用して,稀なクエリの表現を強化する。 そこで本研究では,クエリ分類のためのレアクエリの表現を強化するために,新しいディープニューラルネットワークであるtextbf{A}ttentive \textbf{P}seudo \textbf{R}elevance \textbf{F}eedback \textbf{Net}work (APRF-Net)を提案する。 提案手法の有効性を示すため,大規模商用検索エンジンから検索クエリを収集し,APRF-Netと最先端のテキスト分類深層学習モデルとの比較を行った。 以上の結果から,APRF-Netはクエリ分類をF1@1$スコアで5.9\%改善し,レア(テール)クエリでは8.2\%に向上した。 本論文の知見は検索クエリの表現と理解をさらに改善するために活用できる。

Query categorization is an essential part of query intent understanding in e-commerce search. A common query categorization task is to select the relevant fine-grained product categories in a product taxonomy. For frequent queries, rich customer behavior (e.g., click-through data) can be used to infer the relevant product categories. However, for more rare queries, which cover a large volume of search traffic, relying solely on customer behavior may not suffice due to the lack of this signal. To improve categorization of rare queries, we adapt the Pseudo-Relevance Feedback (PRF) approach to utilize the latent knowledge embedded in semantically or lexically similar product documents to enrich the representation of the more rare queries. To this end, we propose a novel deep neural model named \textbf{A}ttentive \textbf{P}seudo \textbf{R}elevance \textbf{F}eedback \textbf{Net}work (APRF-Net) to enhance the representation of rare queries for query categorization. To demonstrate the effectiveness of our approach, we collect search queries from a large commercial search engine, and compare APRF-Net to state-of-the-art deep learning models for text classification. Our results show that the APRF-Net significantly improves query categorization by 5.9\% on $F1@1$ score over the baselines, which increases to 8.2\% improvement for the rare (tail) queries. The findings of this paper can be leveraged for further improvements in search query representation and understanding.
翻訳日:2021-04-26 13:12:46 公開日:2021-04-23
# DisCo RL:一般目的政策のための分散型強化学習

DisCo RL: Distribution-Conditi oned Reinforcement Learning for General-Purpose Policies ( http://arxiv.org/abs/2104.11707v1 )

ライセンス: Link先を確認
Soroush Nasiriany, Vitchyr H. Pong, Ashvin Nair, Alexander Khazatsky, Glen Berseth, Sergey Levine(参考訳) 強化学習を使って、さまざまなタスクを実行し、フレキシブルで再利用可能なスキルを身につける汎用的なポリシを学べるのか? 文脈ポリシーは原則としてこの能力を提供するが、文脈の表現は一般化の度合いと表現性を決定する。 カテゴリー的文脈は、全く新しいタスクへの一般化を妨げる。 ゴール条件ポリシーはいくつかの一般化を可能にするが、要求されるすべてのタスクをキャプチャできない。 本稿では,コンテキストポリシーに適した汎用的かつ広く適用可能なタスク表現として,目標分布を提案する。 目標分布は、適切な分布クラスを備えた場合、任意の状態ベースの報酬関数を表現できるという意味で一般的であり、一方、分布クラスの特定の選択は、表現性と学習可能性のトレードオフを可能にする。 本研究では,分散条件強化学習(disco rl)と呼ばれるオフポリシーアルゴリズムを開発し,これらのポリシーを効率的に学習する。 我々はdisco rlを様々なロボット操作タスクで評価し,新しい目標分布への一般化を必要とするタスクにおいて,従来の手法を大きく上回っていることを見出した。

Can we use reinforcement learning to learn general-purpose policies that can perform a wide range of different tasks, resulting in flexible and reusable skills? Contextual policies provide this capability in principle, but the representation of the context determines the degree of generalization and expressivity. Categorical contexts preclude generalization to entirely new tasks. Goal-conditioned policies may enable some generalization, but cannot capture all tasks that might be desired. In this paper, we propose goal distributions as a general and broadly applicable task representation suitable for contextual policies. Goal distributions are general in the sense that they can represent any state-based reward function when equipped with an appropriate distribution class, while the particular choice of distribution class allows us to trade off expressivity and learnability. We develop an off-policy algorithm called distribution-conditi oned reinforcement learning (DisCo RL) to efficiently learn these policies. We evaluate DisCo RL on a variety of robot manipulation tasks and find that it significantly outperforms prior methods on tasks that require generalization to new goal distributions.
翻訳日:2021-04-26 13:12:15 公開日:2021-04-23
# 有限ニューラルネットワークの精密前処理

Exact priors of finite neural networks ( http://arxiv.org/abs/2104.11734v1 )

ライセンス: Link先を確認
Jacob A. Zavatone-Veth and Cengiz Pehlevan(参考訳) ベイズニューラルネットワークは理論上、ネットワーク重みよりもガウスが優先する無限幅の限界においてのみよく理解されている。 最近の研究は、有限ベイズネットワークが無限のネットワークよりも優れていることを示唆しているが、その非ガウスの出力先行は摂動的アプローチによってのみ特徴づけられる。 ここで、有限完全連結フィードフォワード・ベイズ型ニューラルネットワークの個々の入力例に対する出力優先の厳密な解を求める。 深い線形ネットワークの場合、前者はMeijer$G$-functionという用語で単純な表現を持つ。 有限reluネットワークの事前は、より狭い幅の線形ネットワークの事前の混合であり、各層内の異なるアクティブユニット数に対応する。 以上の結果から,先行する有限ネットワーク事前記述を,そのテール減衰と大幅挙動の観点から統一する。

Bayesian neural networks are theoretically well-understood only in the infinite-width limit, where Gaussian priors over network weights yield Gaussian priors over network outputs. Recent work has suggested that finite Bayesian networks may outperform their infinite counterparts, but their non-Gaussian output priors have been characterized only though perturbative approaches. Here, we derive exact solutions for the output priors for individual input examples of a class of finite fully-connected feedforward Bayesian neural networks. For deep linear networks, the prior has a simple expression in terms of the Meijer $G$-function. The prior of a finite ReLU network is a mixture of the priors of linear networks of smaller widths, corresponding to different numbers of active units in each layer. Our results unify previous descriptions of finite network priors in terms of their tail decay and large-width behavior.
翻訳日:2021-04-26 13:11:58 公開日:2021-04-23
# 意図的深層学習(IDOL: Intentional Deep Overfit Learning) : 適応的放射線治療のための新しい深層学習戦略

Intentional Deep Overfit Learning (IDOL): A Novel Deep Learning Strategy for Adaptive Radiation Therapy ( http://arxiv.org/abs/2104.11401v1 )

ライセンス: Link先を確認
Jaehee Chun (3), Justin C. Park (1), Sven Olberg (1 and 2), You Zhang (1), Dan Nguyen (1), Jing Wang (1), Jin Sung Kim (3), Steve Jiang (1) ((1) Medical Artificial Intelligence and Automation (MAIA) Laboratory, Department of Radiation Oncology, University of Texas Southwestern Medical Center, Dallas, USA, (2) Department of Biomedical Engineering, Washington University in St. Louis, St. Louis, USA, (3) Department of Radiation Oncology, Yonsei Cancer Center, Yonsei University College of Medicine, Seoul, South Korea)(参考訳) 本研究では,アートワークフローで利用可能な事前情報から拡張された患者固有のトレーニングデータセットに故意に過剰適合したモデルの振る舞いを活用する,患者固有のパフォーマンスのためのカスタマイズされたdlフレームワークを提案する。 放射線治療における任意のタスクにおけるIDOLフレームワークの実装には,1) 従来のDLアプローチと同じように,N 患者の多様なトレーニングデータセットを用いた一般モデルのトレーニング,2) パーソナライズされた IDOL モデルを確立するために利用可能なタスクおよび患者固有の事前情報の摂動および拡張によって生成された興味のある患者 (N+1) を意図的に訓練データセットに適合させる2つの訓練段階がある。 IDOLフレームワーク自体はタスクに依存しないため、ARTワークフローの多くのコンポーネントに適用可能である。これらのうち3つは、従来のARTのCT再計画タスク、MRI誘導ARTのMRI超解像(SR)タスク、MRIのみのARTの合成CT(sCT)再構成タスクである。 再計画ctオートコントリゲーション作業では、dice類似度係数で測定した精度が一般モデルで0.847から0.935に向上した。 MRI SRの場合、平均絶対誤差(MAE)は従来のモデルよりもIDOLフレームワークを用いて40%向上する。 最後に、sct再構築タスクでは、idolフレームワークを利用してmaeを68から22huに削減する。

In this study, we propose a tailored DL framework for patient-specific performance that leverages the behavior of a model intentionally overfitted to a patient-specific training dataset augmented from the prior information available in an ART workflow - an approach we term Intentional Deep Overfit Learning (IDOL). Implementing the IDOL framework in any task in radiotherapy consists of two training stages: 1) training a generalized model with a diverse training dataset of N patients, just as in the conventional DL approach, and 2) intentionally overfitting this general model to a small training dataset-specific the patient of interest (N+1) generated through perturbations and augmentations of the available task- and patient-specific prior information to establish a personalized IDOL model. The IDOL framework itself is task-agnostic and is thus widely applicable to many components of the ART workflow, three of which we use as a proof of concept here: the auto-contouring task on re-planning CTs for traditional ART, the MRI super-resolution (SR) task for MRI-guided ART, and the synthetic CT (sCT) reconstruction task for MRI-only ART. In the re-planning CT auto-contouring task, the accuracy measured by the Dice similarity coefficient improves from 0.847 with the general model to 0.935 by adopting the IDOL model. In the case of MRI SR, the mean absolute error (MAE) is improved by 40% using the IDOL framework over the conventional model. Finally, in the sCT reconstruction task, the MAE is reduced from 68 to 22 HU by utilizing the IDOL framework.
翻訳日:2021-04-26 13:11:15 公開日:2021-04-23
# 制約付き階層型多モード特徴学習を用いたPET-CTスキャンによる軟部分布サルコマの遠隔転移予測

Predicting Distant Metastases in Soft-Tissue Sarcomas from PET-CT scans using Constrained Hierarchical Multi-Modality Feature Learning ( http://arxiv.org/abs/2104.11416v1 )

ライセンス: Link先を確認
Yige Peng, Lei Bi, Ashnil Kumar, Michael Fulham, Dagan Feng, Jinman Kim(参考訳) 異時性転移(Distant metastases, DM)とは、腫瘍が発生した臓器の外側にある腫瘍をいう。 軟部肉腫(STSs)患者の死因としては、これらが最も多い。 PET-CT(Positron emission tomography-computed tomography)は, STSにおける画像モダリティとして評価されている。 STS患者が転移を発症する画像研究から判断することは困難である。 「放射線」とは医用画像からの定量的特徴の抽出・分析であり、その腫瘍の同定に用いられている。 放射能の最先端は畳み込みニューラルネットワーク(CNN)に基づいている。 ほとんどのCNNは単モードイメージングデータ(CTまたはPETのみ)用に設計されており、解剖学的および機能的な画像モダリティの組み合わせがあるPET-CTに埋め込まれた情報を活用していない。 さらに、ほとんどの放射線学的手法は、腫瘍の起伏、定義、放射線学的特徴の選択のために、画像スペシャリストからの手動入力に依存している。 しかし、このアプローチは複雑な境界を持つ腫瘍や、他の複数の疾患部位が存在する場合に拡張性がない可能性がある。 PET-CTデータから,STS患者のDM予測を支援する3D CNNについて概説した。 3D CNNは制約付き特徴学習モジュールと階層型多モード特徴学習モジュールを使用して、モダリティからの補完情報を活用して意味的に重要な領域にフォーカスする。 STS患者のPET-CTデータセットを用いた結果、マルチモーダル情報により、DMを発症した患者を特定する能力が改善された。 さらに,本手法は,他の最先端手法よりも優れていた。

Distant metastases (DM) refer to the dissemination of tumors, usually, beyond the organ where the tumor originated. They are the leading cause of death in patients with soft-tissue sarcomas (STSs). Positron emission tomography-computed tomography (PET-CT) is regarded as the imaging modality of choice for the management of STSs. It is difficult to determine from imaging studies which STS patients will develop metastases. 'Radiomics' refers to the extraction and analysis of quantitative features from medical images and it has been employed to help identify such tumors. The state-of-the-art in radiomics is based on convolutional neural networks (CNNs). Most CNNs are designed for single-modality imaging data (CT or PET alone) and do not exploit the information embedded in PET-CT where there is a combination of an anatomical and functional imaging modality. Furthermore, most radiomic methods rely on manual input from imaging specialists for tumor delineation, definition and selection of radiomic features. This approach, however, may not be scalable to tumors with complex boundaries and where there are multiple other sites of disease. We outline a new 3D CNN to help predict DM in STS patients from PET-CT data. The 3D CNN uses a constrained feature learning module and a hierarchical multi-modality feature learning module that leverages the complementary information from the modalities to focus on semantically important regions. Our results on a public PET-CT dataset of STS patients show that multi-modal information improves the ability to identify those patients who develop DM. Further our method outperformed all other related state-of-the-art methods.
翻訳日:2021-04-26 13:10:50 公開日:2021-04-23
# 自動車ライダーからの確率的降雨推定

Probabilistic Rainfall Estimation from Automotive Lidar ( http://arxiv.org/abs/2104.11467v1 )

ライセンス: Link先を確認
Robin Karlsson, David Robert Wong, Kazunari Kawabata, Simon Thompson, Naoki Sakai(参考訳) 悪天候下でのロバストなセンシングと認識は、信頼できる自動運転車の移動サービスを実現する上での最大の課題の1つだ。 先行研究により、降雨速度は気象条件の逆行性にとって有用な指標であると判明した。 本研究では,自動車ライダー点雲列から降雨速度を高精度かつ信頼性で推定する確率的階層型ベイズモデルを提案する。 このモデルは、確率的決定木(probabilistic decision tree)と、変分ロジスティックおよび線形回帰モデルからなるゲーティングとエキスパートノードの階層的な混合である。 静止および移動車両プラットフォームからの大規模な降雨実験施設において,モデルを訓練し,評価するための実験データを収集した。 その結果,ディドロメータの測定精度に匹敵する予測精度,不確実性推定の健全性と有用性が得られた。 このモデルは不確定な予測をフィルタリングした後、rmse 2.42 mm/hを達成する。 この誤差は、測定値の間の平均降雨速度変化3.5mm/hに匹敵する。 モデルパラメーター研究は、樹木の深さ、サンプリング期間、作物箱寸法による予測性能の変化を示す。 2つ目の実験は、異なるlidarセンサーを用いて300mm/h以上の降雨の予測可能性を示し、センサの独立性を示している。

Robust sensing and perception in adverse weather conditions remains one of the biggest challenges for realizing reliable autonomous vehicle mobility services. Prior work has established that rainfall rate is a useful measure for adversity of atmospheric weather conditions. This work presents a probabilistic hierarchical Bayesian model that infers rainfall rate from automotive lidar point cloud sequences with high accuracy and reliability. The model is a hierarchical mixture of expert model, or a probabilistic decision tree, with gating and expert nodes consisting of variational logistic and linear regression models. Experimental data used to train and evaluate the model is collected in a large-scale rainfall experiment facility from both stationary and moving vehicle platforms. The results show prediction accuracy comparable to the measurement resolution of a disdrometer, and the soundness and usefulness of the uncertainty estimation. The model achieves RMSE 2.42 mm/h after filtering out uncertain predictions. The error is comparable to the mean rainfall rate change of 3.5 mm/h between measurements. Model parameter studies show how predictive performance changes with tree depth, sampling duration, and crop box dimension. A second experiment demonstrate the predictability of higher rainfall above 300 mm/h using a different lidar sensor, demonstrating sensor independence.
翻訳日:2021-04-26 13:10:24 公開日:2021-04-23
# BERT-CoQAC: コンテキストにおける会話型質問応答

BERT-CoQAC: BERT-based Conversational Question Answering in Context ( http://arxiv.org/abs/2104.11394v1 )

ライセンス: Link先を確認
Munazza Zaib and Dai Hoang Tran and Subhash Sagar and Adnan Mahmood and Wei E. Zhang and Quan Z. Sheng(参考訳) ボットとの対話を通じて特定の情報を問い合わせる有望な方法として,近年,質問応答ダイアログシステムの研究関心が高まっている。 対話型QAシステムの設計は、自然言語処理において常に困難な課題であり、自然言語理解の機械の能力を評価するベンチマークとして用いられてきた。 しかし、このようなシステムは、ユーザが既に学んだことに基づいてより多くの情報を求めるために、複数のターンで質問応答を行うと、しばしば苦労するので、会話型質問回答(CQA)と呼ばれる別の複雑な形式が生まれる。 CQAシステムは、質問に答える際、会話の以前の文脈を理解しない、あるいは利用していないとしばしば批判される。 本稿では,この研究のギャップに対処するために,会話履歴をニューラルマシン理解システムに統合する方法について検討する。 一方,本研究では,履歴ターンをシステムに組み込むための BERT という,一般公開された事前学習型言語モデルに基づくフレームワークを提案する。 一方,本稿では,関連するターンを選択し,現在の質問に答える上で最も貢献する履歴選択機構を提案する。 実験の結果,我々のフレームワークはQuACのリーダーボードの最先端モデルと同等の性能を示した。 また、不要な情報やノイズ信号をもたらすコンテキスト情報全体の副作用がモデルの性能の低下をもたらすことを示すために、いくつかの実験を行った。

As one promising way to inquire about any particular information through a dialog with the bot, question answering dialog systems have gained increasing research interests recently. Designing interactive QA systems has always been a challenging task in natural language processing and used as a benchmark to evaluate a machine's ability of natural language understanding. However, such systems often struggle when the question answering is carried out in multiple turns by the users to seek more information based on what they have already learned, thus, giving rise to another complicated form called Conversational Question Answering (CQA). CQA systems are often criticized for not understanding or utilizing the previous context of the conversation when answering the questions. To address the research gap, in this paper, we explore how to integrate conversational history into the neural machine comprehension system. On one hand, we introduce a framework based on a publically available pre-trained language model called BERT for incorporating history turns into the system. On the other hand, we propose a history selection mechanism that selects the turns that are relevant and contributes the most to answer the current question. Experimentation results revealed that our framework is comparable in performance with the state-of-the-art models on the QuAC leader board. We also conduct a number of experiments to show the side effects of using entire context information which brings unnecessary information and noise signals resulting in a decline in the model's performance.
翻訳日:2021-04-26 13:09:50 公開日:2021-04-23
# SCIVERにおけるQMUL-SDS: 科学的クレーム検証のためのステップバイステップバイナリ分類

QMUL-SDS at SCIVER: Step-by-Step Binary Classification for Scientific Claim Verification ( http://arxiv.org/abs/2104.11572v1 )

ライセンス: Link先を確認
Xia Zeng, Arkaitz Zubiaga(参考訳) 科学的主張の検証は、興味を惹きつける独特な挑戦である。 SCIVER共有タスクは、参加チームによるクレーム検証アプローチのテストと比較のためのベンチマークシナリオを提供し、関連する抽象的選択、合理的選択、ラベル予測の3つのステップで構成される。 本稿では,共有タスクへのQMUL-SDSの参加について述べる。 本稿では,二項分類を段階的に行うことにより,科学的クレームの検証を行う手法を提案する。 そこで我々は,BioBERT-large分類器を訓練し,各<claim, title of the abstract>の相互関連性評価に基づいて抽出し,<claim, sentence>に基づいて抽出された各抽象の中から有理性を選択するように訓練を続けた。 次にラベル予測のための2段階の設定を提案する。 最初に "NOT_ENOUGH_INFO" ; または "ENOUGH_INFO" を予測し、"ENOUGH_INFO" とマークされたものを "SUPPORT" または "CONTRADICT" とラベル付けする。 ベースラインシステムと比較して、私たちは開発セットを大幅に改善しました。 その結果、私たちのチームはNoです。 リーダーボード上の4チーム。

Scientific claim verification is a unique challenge that is attracting increasing interest. The SCIVER shared task offers a benchmark scenario to test and compare claim verification approaches by participating teams and consists in three steps: relevant abstract selection, rationale selection and label prediction. In this paper, we present team QMUL-SDS's participation in the shared task. We propose an approach that performs scientific claim verification by doing binary classifications step-by-step. We trained a BioBERT-large classifier to select abstracts based on pairwise relevance assessments for each <claim, title of the abstract> and continued to train it to select rationales out of each retrieved abstract based on <claim, sentence>. We then propose a two-step setting for label prediction, i.e. first predicting "NOT_ENOUGH_INFO" ; or "ENOUGH_INFO", then label those marked as "ENOUGH_INFO" as either "SUPPORT" or "CONTRADICT". Compared to the baseline system, we achieve substantial improvements on the dev set. As a result, our team is the No. 4 team on the leaderboard.
翻訳日:2021-04-26 13:09:29 公開日:2021-04-23
# 言語変化に対する疑似検出モデルロバスト性の評価

Evaluating Deception Detection Model Robustness To Linguistic Variation ( http://arxiv.org/abs/2104.11729v1 )

ライセンス: Link先を確認
Maria Glenski, Ellyn Ayton, Robin Cosbey, Dustin Arendt, and Svitlana Volkova(参考訳) 機械学習によるアルゴリズム判断の利用が増加する中、入力の進化や操作にロバストなモデルを開発することが重要である。 オンラインに拡散する誤情報の文脈において重要な課題である偽ニュース検出の設定における言語的変動に対するモデルロバスト性の広範な分析を提案する。 2つの予測タスクを検討し,3つの最新組込みを比較して,モデル性能,信頼性の高い誤分類,高インパクト障害の一貫した傾向を強調する。 攻撃防御戦略の有効性を計測し、文字や単語の摂動テキストを用いた攻撃に対するモデル感受性を評価することにより、文字や混合アンサンブルモデルが最も効果的な防御であり、文字摂動に基づく攻撃戦術がより成功していることが分かる。

With the increasing use of machine-learning driven algorithmic judgements, it is critical to develop models that are robust to evolving or manipulated inputs. We propose an extensive analysis of model robustness against linguistic variation in the setting of deceptive news detection, an important task in the context of misinformation spread online. We consider two prediction tasks and compare three state-of-the-art embeddings to highlight consistent trends in model performance, high confidence misclassifications, and high impact failures. By measuring the effectiveness of adversarial defense strategies and evaluating model susceptibility to adversarial attacks using character- and word-perturbed text, we find that character or mixed ensemble models are the most effective defenses and that character perturbation-based attack tactics are more successful.
翻訳日:2021-04-26 13:09:10 公開日:2021-04-23
# 予測・選択・生成:知識駆動型会話システムの探索

Prediction, Selection, and Generation: Exploration of Knowledge-Driven Conversation System ( http://arxiv.org/abs/2104.11454v1 )

ライセンス: Link先を確認
Cheng Luo, Jiancheng Lv(参考訳) オープンドメインの会話システムでは、背景知識を活用することは重要だが難しい。 知識の体系化を利用して対話生成を制御可能とし、実際の知識を含むより多様な文を生成することができる。 本稿では,知識ベースと事前学習モデルを組み合わせて,知識駆動会話システムを提案する。 本システムは,対話トピック予測,知識マッチング,対話生成などのモジュールを含む。 本システムに基づいて,話題の粗いリコールアルゴリズム,知識選択数,生成モデル選択など,知識駆動対話の生成に影響する可能性のあるパフォーマンス要因を調査し,最終的にシステムの現状に到達させた。 これらの実験結果は,今後の課題研究の指針となるだろう。 私たちが知る限りでは、これは関連する要因について研究し分析する最初の研究である。

In open-domain conversational systems, it is important but challenging to leverage background knowledge. We can use the incorporation of knowledge to make the generation of dialogue controllable, and can generate more diverse sentences that contain real knowledge. In this paper, we combine the knowledge bases and pre-training model to propose a knowledge-driven conversation system. The system includes modules such as dialogue topic prediction, knowledge matching and dialogue generation. Based on this system, we study the performance factors that maybe affect the generation of knowledge-driven dialogue: topic coarse recall algorithm, number of knowledge choices, generation model choices, etc., and finally made the system reach state-of-the-art. These experimental results will provide some guiding significance for the future research of this task. As far as we know, this is the first work to study and analyze the effects of the related factors.
翻訳日:2021-04-26 13:08:54 公開日:2021-04-23
# 不適切なグループ勧告のためのセキュアな人工知能

Secure Artificial Intelligence of Things for Implicit Group Recommendations ( http://arxiv.org/abs/2104.11699v1 )

ライセンス: Link先を確認
Keping Yu, Zhiwei Guo, Yu Shen, Wei Wang, Jerry Chun-Wei Lin, Takuro Sato(参考訳) AIoT(Artificial Intelligence of Things)の出現は、グループレコメンダシステムなど、多くのソーシャルコンピューティングアプリケーションに新たな洞察をもたらした。 人間距離が大幅に短縮されているため、個人ではなくグループにパーソナライズされたサービスを提供することがより一般的な要求となっている。 グループレベルの個人の嗜好を捉えるために,既存の手法は集約を通じて確立され,セキュアなデータ管理ワークフローが欠如しており,暗黙的な選好フィードバックが無視されている,という2つの課題に直面している。 現状の課題に対処するために,暗黙グループ勧告(SAIoT-GR)のためのセキュアなモノの人工知能を提案する。 ハードウェアモジュールに関しては、ボトムサポートプラットフォームとしてセキュアなIoT構造が開発されている。 ソフトウェアモジュールに関しては、協調ベイズネットワークモデルと非協調ゲームがアルゴリズムとして導入可能である。 このようなセキュアなAIoTアーキテクチャは、2つのモジュールのメリットを最大化することができる。 さらに,SAIoT-GRの性能を効率とロバスト性の観点から評価するために,多数の実験を行った。

The emergence of Artificial Intelligence of Things (AIoT) has provided novel insights for many social computing applications such as group recommender systems. As distance among people has been greatly shortened, it has been a more general demand to provide personalized services to groups instead of individuals. In order to capture group-level preference features from individuals, existing methods were mostly established via aggregation and face two aspects of challenges: secure data management workflow is absent, and implicit preference feedbacks is ignored. To tackle current difficulties, this paper proposes secure Artificial Intelligence of Things for implicit Group Recommendations (SAIoT-GR). As for hardware module, a secure IoT structure is developed as the bottom support platform. As for software module, collaborative Bayesian network model and non-cooperative game are can be introduced as algorithms. Such a secure AIoT architecture is able to maximize the advantages of the two modules. In addition, a large number of experiments are carried out to evaluate the performance of the SAIoT-GR in terms of efficiency and robustness.
翻訳日:2021-04-26 13:08:43 公開日:2021-04-23
# eigenbackground再訪:eigenvectorsでバックグラウンドをモデル化できるか?

Eigenbackground Revisited: Can We Model the Background with Eigenvectors? ( http://arxiv.org/abs/2104.11379v1 )

ライセンス: Link先を確認
Mahmood Amintoosi, Farzam Farbiz(参考訳) 背景モデリングに支配的な固有ベクトル(通常は固有バックグラウンド)を用いることは、文学において一般的なテクニックである。 しかし、その成果は目立った成果物に苦しむ。 このように、Eigenbackgroundアルゴリズムの改良や強化によって、アーティファクトを削減しようとする試みが数多く行われている。 本稿では,固有バックグラウンドの主な問題は,そのコアにあることを示し,その背景をモデル化するために最強の固有ベクトルを用いるのは良い考えではないことを示す。 代わりに、最も弱い固有ベクトル(通常、捨てられてゴミデータとして扱われる)を背景モデリングに利用して代替ソリューションを提案する。 MATLAB コードは \url{https://github.com/m amintoosi/Eigenbackg round-Revisited} で利用可能である。

Using dominant eigenvectors for background modeling (usually known as Eigenbackground) is a common technique in the literature. However, its results suffer from noticeable artifacts. Thus have been many attempts to reduce the artifacts by making some improvements/enhance ment in the Eigenbackground algorithm. In this paper, we show the main problem of the Eigenbackground is in its own core and in fact, it is not a good idea to use strongest eigenvectors for modeling the background. Instead, we propose an alternative solution by exploiting the weakest eigenvectors (which are usually thrown away and treated as garbage data) for background modeling. MATLAB codes are available at \url{https://github.com/m amintoosi/Eigenbackg round-Revisited}
翻訳日:2021-04-26 13:08:27 公開日:2021-04-23
# 時間的行動局在におけるアンチエイリアシングのための低パスフィルタ

Low Pass Filter for Anti-aliasing in Temporal Action Localization ( http://arxiv.org/abs/2104.11403v1 )

ライセンス: Link先を確認
Cece Jin, Yuanqi Chen, Ge Li, Tao Zhang, Thomas Li(参考訳) 時間的行動局在化法では、時間的ダウンサンプリング操作が提案特徴の抽出に広く用いられているが、サンプリング率の考慮が欠如しているため、しばしばエイリアス問題を引き起こす。 本稿では,tal法におけるエイリアスの存在を検証し,低域通過フィルタを用いて高周波帯域の抑制によりこの問題を解決する。 しかし、高周波帯域は通常、モデル推論にとって重要な大量の特定情報を含む。 したがって、アンチエイリアスと高周波情報の保存のトレードオフが必要である。 最適性能を得るために,異なるインスタンスのカットオフ周波数を動的に学習する。 この設計は1つのカットオフ周波数パラメータのみを必要とする既存の時間的モデリングプログラムにプラグインすることができる。 ローパスフィルタをダウンサンプリング操作に統合すると、検出性能が大幅に向上し、THUMOS'14、ActivityNet~1.3、Charadesデータセットで同等の結果が得られる。 実験により、TALにおける低域通過フィルタによるアンチエイリアシングは有利かつ効率的であることが示された。

In temporal action localization methods, temporal downsampling operations are widely used to extract proposal features, but they often lead to the aliasing problem, due to lacking consideration of sampling rates. This paper aims to verify the existence of aliasing in TAL methods and investigate utilizing low pass filters to solve this problem by inhibiting the high-frequency band. However, the high-frequency band usually contains large amounts of specific information, which is important for model inference. Therefore, it is necessary to make a tradeoff between anti-aliasing and reserving high-frequency information. To acquire optimal performance, this paper learns different cutoff frequencies for different instances dynamically. This design can be plugged into most existing temporal modeling programs requiring only one additional cutoff frequency parameter. Integrating low pass filters to the downsampling operations significantly improves the detection performance and achieves comparable results on THUMOS'14, ActivityNet~1.3, and Charades datasets. Experiments demonstrate that anti-aliasing with low pass filters in TAL is advantageous and efficient.
翻訳日:2021-04-26 13:08:14 公開日:2021-04-23
# TricubeNet:2Dカーネルによるオブジェクト指向検出のためのオブジェクト表現

TricubeNet: 2D Kernel-Based Object Representation for Weakly-Occluded Oriented Object Detection ( http://arxiv.org/abs/2104.11435v1 )

ライセンス: Link先を確認
Beomyoung Kim, Janghyeon Lee, Sihaeng Lee, Doyeon Kim, and Junmo Kim(参考訳) そこで我々は,アンカーフリーの1段検出器であるオブジェクト指向物体検出の新しい手法を提案する。 このアプローチはTricubeNetと呼ばれ、各オブジェクトを2D Tricubeカーネルとして表現し、外見ベースの後処理を用いて境界ボックスを抽出する。 既存のアンカーに基づく指向オブジェクト検出器とは異なり、ネットワーク設計のアンカーボックスを除外することで計算の複雑さとハイパーパラメータの数を削減できる。 さらに,ボックスオフセット回帰の代わりにヒートマップに基づく検出プロセスを採用することで,オブジェクト指向物体検出において重要な問題の一つである角度不連続問題を簡便かつ効果的に解決する。 さらに性能を向上させるために,ロスバランス,回転不変特性の抽出,ヒートマップの精細化などの効果的な手法を提案する。 triuenetの有効性を実証するために,弱吸蔵指向オブジェクト検出のための様々なタスクを実験した。 大規模な実験結果から,TricueNetはオブジェクト指向物体検出に極めて効果的で競争力があることが示された。 コードはhttps://github.com/q jadud1994/tricubenet で入手できる。

We present a new approach for oriented object detection, an anchor-free one-stage detector. This approach, named TricubeNet, represents each object as a 2D Tricube kernel and extracts bounding boxes using appearance-based post-processing. Unlike existing anchor-based oriented object detectors, we can save the computational complexity and the number of hyperparameters by eliminating the anchor box in the network design. In addition, by adopting a heatmap-based detection process instead of the box offset regression, we simply and effectively solve the angle discontinuity problem, which is one of the important problems for oriented object detection. To further boost the performance, we propose some effective techniques for the loss balancing, extracting the rotation-invariant feature, and heatmap refinement. To demonstrate the effectiveness of our TricueNet, we experiment on various tasks for the weakly-occluded oriented object detection. The extensive experimental results show that our TricueNet is highly effective and competitive for oriented object detection. The code is available at https://github.com/q jadud1994/TricubeNet .
翻訳日:2021-04-26 13:07:58 公開日:2021-04-23
# スポーツキャプション:身近なスポーツビデオで、モノクロの3Dモーションキャプチャーときめ細かい理解

SportsCap: Monocular 3D Human Motion Capture and Fine-grained Understanding in Challenging Sports Videos ( http://arxiv.org/abs/2104.11452v1 )

ライセンス: Link先を確認
Xin Chen, Anqi Pang, Wei Yang, Yuexin Ma, Lan Xu, Jingyi Yu(参考訳) プロの非日常的な人間の動きのマーカーなしのモーションキャプチャーと理解は、複雑な動きパターンと重度の自己閉塞に悩まされる重要な未解決課題である。 本稿では,3次元人間の動きを同時に捉え,モノラルな挑戦的なスポーツビデオ入力からのきめ細かい動作を理解するための,最初のアプローチであるSportsCapを提案する。 本手法は,データ駆動型マルチタスク方式の動作キャプチャと理解のために,埋め込み空間に先行する意味的および時間的構造的サブモーションを利用する。 複雑な動きパターンの下でロバストなキャプチャを実現するために,我々は,暗黙的な動き埋め込みと明示的な3次元動き詳細の両方を対応するマッピング関数とサブモーション分類器で復元する効果的な動き埋め込みモジュールを提案する。 このようなハイブリッド動作情報に基づいて,マルチストリーム時空間グラフ畳み込みネットワーク(ST-GCN)を導入し,細粒度なセマンティックアクション属性を予測し,関連するアクション属性を高レベルなアクションラベルに集約する意味属性マッピングブロックを導入し,シーケンス全体を詳細に理解し,アクションアセスメントやモーションスコアリングなどの様々な応用を可能にする。 一般および提案するデータセットの総合的な実験により, 単眼型スポーツ映像の入力に挑戦することで, 3次元モーションキャプチャの精度が大幅に向上するだけでなく, 正確な細粒度のセマンティクス特性を回復できることを示した。

Markerless motion capture and understanding of professional non-daily human movements is an important yet unsolved task, which suffers from complex motion patterns and severe self-occlusion, especially for the monocular setting. In this paper, we propose SportsCap -- the first approach for simultaneously capturing 3D human motions and understanding fine-grained actions from monocular challenging sports video input. Our approach utilizes the semantic and temporally structured sub-motion prior in the embedding space for motion capture and understanding in a data-driven multi-task manner. To enable robust capture under complex motion patterns, we propose an effective motion embedding module to recover both the implicit motion embedding and explicit 3D motion details via a corresponding mapping function as well as a sub-motion classifier. Based on such hybrid motion information, we introduce a multi-stream spatial-temporal Graph Convolutional Network(ST-GCN) to predict the fine-grained semantic action attributes, and adopt a semantic attribute mapping block to assemble various correlated action attributes into a high-level action label for the overall detailed understanding of the whole sequence, so as to enable various applications like action assessment or motion scoring. Comprehensive experiments on both public and our proposed datasets show that with a challenging monocular sports video input, our novel approach not only significantly improves the accuracy of 3D human motion capture, but also recovers accurate fine-grained semantic action attributes.
翻訳日:2021-04-26 13:07:41 公開日:2021-04-23
# 合成データを用いたストロークに基づくシーンテキスト消去

Stroke-Based Scene Text Erasing Using Synthetic Data ( http://arxiv.org/abs/2104.11493v1 )

ライセンス: Link先を確認
Zhengmi Tang, Tomo Miyazaki, Yoshihiro Sugaya, and Shinichiro Omachi(参考訳) 近年,自然画像のテキスト領域を合理的な内容に置き換えたシーンテキスト消去がコンピュータビジョンコミュニティで注目を集めている。 シーンのテキスト消去には、テキスト検出と画像インパインティングという2つのサブタスクが考えられる。 どちらのサブタスクもパフォーマンス向上のためにかなりのデータを必要とするが、大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。 実世界データのペア化の限界を回避するため,合成テキストの完全活用を図り,改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。 提案するネットワークは,テキストイメージパッチから比較的小さな穴としてテキストストロークを抽出し,より多くのバックグラウンドコンテンツを保存し,より優れたインペイント結果を得ることのできる,ストロークマスク予測モジュールとバックグラウンドインペイントモジュールを備える。 このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。 SCUT-Syn, ICDAR2013, SCUT-EnsTextデータセットの定性評価および定量的評価実験の結果, 実世界のデータを用いて訓練しても, 既存の最先端手法よりも有意に優れていることが示された。

Scene text erasing, which replaces text regions with reasonable content in natural images, has drawn attention in the computer vision community in recent years. There are two potential subtasks in scene text erasing: text detection and image inpainting. Either sub-task requires considerable data to achieve better performance; however, the lack of a large-scale real-world scene-text removal dataset allows the existing methods to not work in full strength. To avoid the limitation of the lack of pairwise real-world data, we enhance and make full use of the synthetic text and consequently train our model only on the dataset generated by the improved synthetic text engine. Our proposed network contains a stroke mask prediction module and background inpainting module that can extract the text stroke as a relatively small hole from the text image patch to maintain more background content for better inpainting results. This model can partially erase text instances in a scene image with a bounding box provided or work with an existing scene text detector for automatic scene text erasing. The experimental results of qualitative evaluation and quantitative evaluation on the SCUT-Syn, ICDAR2013, and SCUT-EnsText datasets demonstrate that our method significantly outperforms existing state-of-the-art methods even when trained on real-world data.
翻訳日:2021-04-26 13:07:14 公開日:2021-04-23
# Transformerによる顔のクラスタリングの学習

Learning to Cluster Faces via Transformer ( http://arxiv.org/abs/2104.11502v1 )

ライセンス: Link先を確認
Jinxing Ye, Xioajiang Peng, Baigui Sun, Kai Wang, Xiuyu Sun, Hao Li, Hanqing Wu(参考訳) フェイスクラスタリングは、自動顔アノテーションや検索のようなアプリケーションに有用なツールである。 主な課題は、異なる顔のポーズ、オクルージョン、画像の品質を持つ同一のアイデンティティから画像をクラスタリングすることが難しいことである。 従来のクラスタリング手法は通常、有用なコンテキスト情報を含む個々の画像とその隣同士の関係を無視する。 本稿では,よく知られたTransformerを再利用し,顔クラスタリングのためのFace Transformerを導入する。 Face Transformerでは、顔クラスタリングをリレーションエンコーディングとリンク予測の2つのステップに分解する。 具体的には、顔画像が与えられたとき、 \textbf{relation encoder} モジュールは隣人からローカルコンテキスト情報を集約し、 \textbf{linkage predictor} モジュールは、1対のイメージが同じクラスタに属するかどうかを判断する。 ローカルリンクグラフビューでは、face transformerは既存の方法よりも堅牢なノードとエッジ表現を生成することができる。 また,MS-Celeb-1MとDeepFashionの両実験から,MS-Celeb-1M上でのFスコアの対数91.12\%といった最先端性能が得られた。

Face clustering is a useful tool for applications like automatic face annotation and retrieval. The main challenge is that it is difficult to cluster images from the same identity with different face poses, occlusions, and image quality. Traditional clustering methods usually ignore the relationship between individual images and their neighbors which may contain useful context information. In this paper, we repurpose the well-known Transformer and introduce a Face Transformer for supervised face clustering. In Face Transformer, we decompose the face clustering into two steps: relation encoding and linkage predicting. Specifically, given a face image, a \textbf{relation encoder} module aggregates local context information from its neighbors and a \textbf{linkage predictor} module judges whether a pair of images belong to the same cluster or not. In the local linkage graph view, Face Transformer can generate more robust node and edge representations compared to existing methods. Experiments on both MS-Celeb-1M and DeepFashion show that our method achieves state-of-the-art performance, e.g., 91.12\% in pairwise F-score on MS-Celeb-1M.
翻訳日:2021-04-26 13:06:46 公開日:2021-04-23
# 行動認識強化のための長期相互作用のモデル化

Modeling long-term interactions to enhance action recognition ( http://arxiv.org/abs/2104.11520v1 )

ライセンス: Link先を確認
Alejandro Cartas, Petia Radeva, Mariella Dimiccoli(参考訳) 本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。 フレームレベルでは、ユーザの手に近いプライマリ領域と、相互作用対象に対応する可能性のあるセカンダリ領域のセットを入力とし、cnnの定式化によりアクションスコアを算出する領域ベースアプローチを用いる。 この情報はHierarchical LongShort-Term Memory Network (HLSTM)に送られ、ショット内およびショット間のアクション間の時間的依存関係をキャプチャする。 アブレーション研究は提案手法を徹底的に検証し、特にHLSTMアーキテクチャの両レベルが性能改善に寄与していることを示す。 さらに, 定量的比較により, 提案手法が, 動作情報に頼らずに, 標準ベンチマークの動作認識において最先端の手法よりも優れていることが示された。

In this paper, we propose a new approach to under-stand actions in egocentric videos that exploits the semantics of object interactions at both frame and temporal levels. At the frame level, we use a region-based approach that takes as input a primary region roughly corresponding to the user hands and a set of secondary regions potentially corresponding to the interacting objects and calculates the action score through a CNN formulation. This information is then fed to a Hierarchical LongShort-Term Memory Network (HLSTM) that captures temporal dependencies between actions within and across shots. Ablation studies thoroughly validate the proposed approach, showing in particular that both levels of the HLSTM architecture contribute to performance improvement. Furthermore, quantitative comparisons show that the proposed approach outperforms the state-of-the-art in terms of action recognition on standard benchmarks,without relying on motion information
翻訳日:2021-04-26 13:06:24 公開日:2021-04-23
# 単眼2次元および3次元人物ポーズ推定の最近の進歩:深層学習の視点から

Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep Learning Perspective ( http://arxiv.org/abs/2104.11536v1 )

ライセンス: Link先を確認
Wu Liu, Qian Bao, Yu Sun, Tao Mei(参考訳) 単眼カメラによる人間のポーズの推定は、コンピュータビジョンコミュニティにおける多くの応用分野において、新たな研究テーマとなっている。 近年, 深層学習技術の恩恵を受け, 2次元領域と3次元領域の両方において, 単眼的人間のポーズ推定が大幅に進歩している。 異なるアプローチをまとめる研究はいくつかあるが、研究者がこれらのアプローチがどのように機能するかを深く見ることは依然として困難である。 本稿では,この問題に対処するための包括的で総合的な2D-to-3D視点を提供する。 2014年以降の主流とマイルストーンのアプローチを、統一されたフレームワークで分類しています。 これらのアプローチの違いと関連性を体系的に要約することにより,データ不足,2dと3dの固有のあいまいさ,複雑な多人数シナリオといった課題に対するソリューションをさらに分析する。 また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。 最後に,課題について議論し,今後の研究に期待できる方向性について深く考察する。 この調査は、モノラルな人間のポーズ推定に関する深い洞察を読者に提供するものだと考えています。

Estimation of the human pose from a monocular camera has been an emerging research topic in the computer vision community with many applications. Recently, benefited from the deep learning technologies, a significant amount of research efforts have greatly advanced the monocular human pose estimation both in 2D and 3D areas. Although there have been some works to summarize the different approaches, it still remains challenging for researchers to have an in-depth view of how these approaches work. In this paper, we provide a comprehensive and holistic 2D-to-3D perspective to tackle this problem. We categorize the mainstream and milestone approaches since the year 2014 under unified frameworks. By systematically summarizing the differences and connections between these approaches, we further analyze the solutions for challenging cases, such as the lack of data, the inherent ambiguity between 2D and 3D, and the complex multi-person scenarios. We also summarize the pose representation styles, benchmarks, evaluation metrics, and the quantitative performance of popular approaches. Finally, we discuss the challenges and give deep thinking of promising directions for future research. We believe this survey will provide the readers with a deep and insightful understanding of monocular human pose estimation.
翻訳日:2021-04-26 13:06:08 公開日:2021-04-23
# 信頼性製品トレーサビリティのための細粒集合組織同定

Fine-Grained Texture Identification for Reliable Product Traceability ( http://arxiv.org/abs/2104.11548v1 )

ライセンス: Link先を確認
Junsong Wang, Yubo Li, Zhiyong Chang, Haitao Yue, Yonghua Lin(参考訳) 木、牛肉、圧縮茶など多くの製品にテクスチャーが存在する。 これらの豊富で確率的なテクスチャパターンは、どの製品とも大きく異なる。 本稿では,従来のデジタルID追跡とは違って,製品自体の自然なテクスチャを直接ユニークな識別子として利用する,製品トレーサビリティの新たなアプローチを提案する。 Pu'er圧縮茶のテクスチャ識別に基づくトレーサビリティシステムを開発し,提案手法の有効性を実証した。 製造業者や個人から収集した茶ブロック画像を用いて,茶ブロックテクスチャ検証と探索アルゴリズムの性能を評価するため,大規模データセットを構築した。 局所特徴抽出とマッチングによるテクスチャ類似性アプローチは,それぞれ99.6%,トップ1探索の98.9%の精度を実現している。

Texture exists in lots of the products, such as wood, beef and compression tea. These abundant and stochastic texture patterns are significantly different between any two products. Unlike the traditional digital ID tracking, in this paper, we propose a novel approach for product traceability, which directly uses the natural texture of the product itself as the unique identifier. A texture identification based traceability system for Pu'er compression tea is developed to demonstrate the feasibility of the proposed solution. With tea-brick images collected from manufactures and individual users, a large-scale dataset has been formed to evaluate the performance of tea-brick texture verification and searching algorithm. The texture similarity approach with local feature extraction and matching achieves the verification accuracy of 99.6% and the top-1 searching accuracy of 98.9%, respectively.
翻訳日:2021-04-26 13:05:52 公開日:2021-04-23
# AttWalk: ディープメッシュ分析のための注意深いクロスウォーク

AttWalk: Attentive Cross-Walks for Deep Mesh Analysis ( http://arxiv.org/abs/2104.11571v1 )

ライセンス: Link先を確認
Ran Ben Izhak, Alon Lahav and Ayellet Tal(参考訳) ランダムウォークによるメッシュ表現は、ディープラーニングに有用であることが示されている。 ランダム性は確かに強力な概念です。 しかし、いくつかのウォークはメッシュの非特性領域をさまよう可能性があり、特にほんの数回のウォークが使用される場合、形状分析に悪影響を及ぼす可能性がある。 本稿では,複数の歩行が使用されているという事実を活かした新しい歩行注意機構を提案する。 重要なアイデアは、ウォークがメッシュの有意義な(注意深い)機能に関する情報を互いに提供し合うことだ。 この相互情報を用いてメッシュの1つの記述子を抽出する。 これは、個々のディスクリプタの表現を改善するために注意を使う一般的な注意メカニズムとは異なる。 本手法は分類と検索の2つの基本的な3次元形状解析タスクに対してSOTA結果を実現する。 メッシュに沿って歩くだけでも、学習には十分だ。

Mesh representation by random walks has been shown to benefit deep learning. Randomness is indeed a powerful concept. However, it comes with a price: some walks might wander around non-characteristic regions of the mesh, which might be harmful to shape analysis, especially when only a few walks are utilized. We propose a novel walk-attention mechanism that leverages the fact that multiple walks are used. The key idea is that the walks may provide each other with information regarding the meaningful (attentive) features of the mesh. We utilize this mutual information to extract a single descriptor of the mesh. This differs from common attention mechanisms that use attention to improve the representation of each individual descriptor. Our approach achieves SOTA results for two basic 3D shape analysis tasks: classification and retrieval. Even a handful of walks along a mesh suffice for learning.
翻訳日:2021-04-26 13:05:39 公開日:2021-04-23
# DeepMix:ロバストなビジュアルオブジェクト追跡のためのオンライン自動データ拡張

DeepMix: Online Auto Data Augmentation for Robust Visual Object Tracking ( http://arxiv.org/abs/2104.11585v1 )

ライセンス: Link先を確認
Ziyi Cheng and Xuhong Ren and Felix Juefei-Xu and Wanli Xue and Qing Guo and Lei Ma and Jianjun Zhao(参考訳) 歴史的フレームからのサンプルによるオブジェクトモデルのオンライン更新は、正確なビジュアルオブジェクト追跡にとって非常に重要である。 近年の研究では,識別対象モデルを学習するためのトレーニングサンプルを無視しながら,効率的かつ効率的な更新手法の構築に重点を置いている。 本稿では,過去のサンプルの埋め込みを入力として取り込んでオンラインに拡張埋め込みを生成するDeepMixを提案する。 より具体的には、オブジェクト認識フィルタリングによる履歴サンプルをオンラインで強化するオンラインデータ拡張を提案する。 そこで本研究では,1ステップでオンラインデータ拡張を行うためのオフライン学習ネットワークであるmixnetを提案し,最先端のオンライン学習手法の高速性を維持しつつ,トラッキング精度を向上させる。 dimp, dsiam, siamrpn++の3つのトラッキングフレームワークに関する広範な実験と,大規模かつ挑戦的なデータセットである \ie, otb-2015, lasot, votの3つが,提案手法の有効性とメリットを示している。

Online updating of the object model via samples from historical frames is of great importance for accurate visual object tracking. Recent works mainly focus on constructing effective and efficient updating methods while neglecting the training samples for learning discriminative object models, which is also a key part of a learning problem. In this paper, we propose the DeepMix that takes historical samples' embeddings as input and generates augmented embeddings online, enhancing the state-of-the-art online learning methods for visual object tracking. More specifically, we first propose the online data augmentation for tracking that online augments the historical samples through object-aware filtering. Then, we propose MixNet which is an offline trained network for performing online data augmentation within one-step, enhancing the tracking accuracy while preserving high speeds of the state-of-the-art online learning methods. The extensive experiments on three different tracking frameworks, i.e., DiMP, DSiam, and SiamRPN++, and three large-scale and challenging datasets, \ie, OTB-2015, LaSOT, and VOT, demonstrate the effectiveness and advantages of the proposed method.
翻訳日:2021-04-26 13:05:26 公開日:2021-04-23
# STRUDEL: ドメイン間の不確実性依存ラベルリファインメントによる自己学習

STRUDEL: Self-Training with Uncertainty Dependent Label Refinement across Domains ( http://arxiv.org/abs/2104.11596v1 )

ライセンス: Link先を確認
Fabian Gr\"oger, Anne-Marie Rickmann, Christian Wachinger(参考訳) 非教師なし領域適応(unsupervised domain adaptation,uda)によるホワイトマター・ハイパーインテンシティ(wmh)セグメンテーションを提案する。 自己学習は, 自己生成型擬似ラベルに基づく, UDA の高効率な手法として紹介されている。 しかし、擬似ラベルは非常にうるさいため、モデル性能が劣化する。 疑似ラベルの不確かさを予測し,不確かさの高いラベルを強調する不確実性誘導損失関数をトレーニングプロセスに統合する。 WMHセグメンテーションの堅牢性を示す擬似ラベル生成に既存の手法のセグメンテーション出力を組み込むことにより、STRUDELをさらに改善する。 実験では,標準のU-Netと高い受容場を持つ改良型ネットワークを用いてSTRUDELを評価した。 We results on WMH segmentation across datasets showed the significant improvement of STRUDEL on standard self-training。

We propose an unsupervised domain adaptation (UDA) approach for white matter hyperintensity (WMH) segmentation, which uses Self-Training with Uncertainty DEpendent Label refinement (STRUDEL). Self-training has recently been introduced as a highly effective method for UDA, which is based on self-generated pseudo labels. However, pseudo labels can be very noisy and therefore deteriorate model performance. We propose to predict the uncertainty of pseudo labels and integrate it in the training process with an uncertainty-guided loss function to highlight labels with high certainty. STRUDEL is further improved by incorporating the segmentation output of an existing method in the pseudo label generation that showed high robustness for WMH segmentation. In our experiments, we evaluate STRUDEL with a standard U-Net and a modified network with a higher receptive field. Our results on WMH segmentation across datasets demonstrate the significant improvement of STRUDEL with respect to standard self-training.
翻訳日:2021-04-26 13:05:08 公開日:2021-04-23
# MultiCAST:CNNとLSTMに基づくマルチ確認レベルAlarm SysTemによるビデオ監視における拳銃検出のための誤報の軽減

MULTICAST: MULTI Confirmation-level Alarm SysTem based on CNN and LSTM to mitigate false alarms for handgun detection in video-surveillance ( http://arxiv.org/abs/2104.11653v1 )

ライセンス: Link先を確認
Roberto Olmos, Siham Tabik, Francisco Perez-Hernandez, Alberto Lamas, Francisco Herrera(参考訳) コンピュータビジョンの絶え間ない進歩にもかかわらず、リアルタイム拳銃アラームシステムにおける現代の単一画像検出装置の統合は、まだ議論の余地がある。 このような検出器を使用すると、多くの誤報と偽陰性を示す。 この文脈で、現存するほとんどの研究は、最新のsingle image detectorsのうちの1つを選択し、より良いデータセットでトレーニングするか、あるいは偽アラームを減らすために前処理、後処理、データフュージョンアプローチを使用する。 しかし、これらの研究はビデオにある時間的情報を利用して誤検出を軽減しようとはしなかった。 本稿では,畳み込みニューラルネットワーク(CNN)とLong Short Term Memory Network(MULTICAST)に基づくマルチ確認レベルのAlarm SysTemと呼ばれる新しいシステムを提案する。 MultiCAST は3段階,i) 拳銃検出段階,i) CNN による空間的確認段階,iii) LSTM による時間的確認段階からなる。 時間的確認段階は、検出された拳銃の位置を以前の瞬間に使用し、次のフレームでの軌跡を予測する。 実験の結果,MultiCASTは,より高速なR-CNNベースの単一画像検出装置と比較して80%の誤報を低減し,より効果的で迅速なセキュリティ応答を提供するのに有用であることがわかった。

Despite the constant advances in computer vision, integrating modern single-image detectors in real-time handgun alarm systems in video-surveillance is still debatable. Using such detectors still implies a high number of false alarms and false negatives. In this context, most existent studies select one of the latest single-image detectors and train it on a better dataset or use some pre-processing, post-processing or data-fusion approach to further reduce false alarms. However, none of these works tried to exploit the temporal information present in the videos to mitigate false detections. This paper presents a new system, called MULTI Confirmation-level Alarm SysTem based on Convolutional Neural Networks (CNN) and Long Short Term Memory networks (LSTM) (MULTICAST), that leverages not only the spacial information but also the temporal information existent in the videos for a more reliable handgun detection. MULTICAST consists of three stages, i) a handgun detection stage, ii) a CNN-based spacial confirmation stage and iii) LSTM-based temporal confirmation stage. The temporal confirmation stage uses the positions of the detected handgun in previous instants to predict its trajectory in the next frame. Our experiments show that MULTICAST reduces by 80% the number of false alarms with respect to Faster R-CNN based-single-image detector, which makes it more useful in providing more effective and rapid security responses.
翻訳日:2021-04-26 13:04:52 公開日:2021-04-23
# 骨格変換器 : 頑健な体温推定のための骨格変換器

Skeletor: Skeletal Transformers for Robust Body-Pose Estimation ( http://arxiv.org/abs/2104.11712v1 )

ライセンス: Link先を確認
Tao Jiang, Necati Cihan Camgoz, Richard Bowden(参考訳) 単一単眼映像からの3次元人物ポーズの予測は,2次元からの3次元推定における基本的な曖昧さに加えて,低分解能,動きのぼかし,咬合といった要因により非常に困難である。 独立画像から直接3Dポーズを後退させるアプローチは、これらの要因に特に感受性があり、骨格推定におけるジッタ、ノイズ、および/または不整合をもたらす。 それらの多くは、シーンと骨格の時間的進化を考慮に入れれば克服できる。 しかし, 身体部位を追跡し, 時間的平滑化を図るのではなく, 姿勢と動作の両方を教師なしの方法で学習できる新しいトランスフォーマネットワークを提案する。 私たちはアプローチを骨格と呼びます。 骨格は検出における不正確さを克服し、部分的または全骨格の腐敗を是正する。 Skeletorは2500万フレームから学習し、スケルトン配列をスムーズかつ一貫して修正する。 Skeletorは、トランスフォーマーベースのニューラルネットワークを通じて人間の動きの時空間的文脈を暗黙的に学習することでこれを実現できる。 広範な実験により、skeletorは3次元人間のポーズ推定のパフォーマンスを向上し、手話翻訳のような下流タスクにも恩恵をもたらすことが示されている。

Predicting 3D human pose from a single monoscopic video can be highly challenging due to factors such as low resolution, motion blur and occlusion, in addition to the fundamental ambiguity in estimating 3D from 2D. Approaches that directly regress the 3D pose from independent images can be particularly susceptible to these factors and result in jitter, noise and/or inconsistencies in skeletal estimation. Much of which can be overcome if the temporal evolution of the scene and skeleton are taken into account. However, rather than tracking body parts and trying to temporally smooth them, we propose a novel transformer based network that can learn a distribution over both pose and motion in an unsupervised fashion. We call our approach Skeletor. Skeletor overcomes inaccuracies in detection and corrects partial or entire skeleton corruption. Skeletor uses strong priors learn from on 25 million frames to correct skeleton sequences smoothly and consistently. Skeletor can achieve this as it implicitly learns the spatio-temporal context of human motion via a transformer based neural network. Extensive experiments show that Skeletor achieves improved performance on 3D human pose estimation and further provides benefits for downstream tasks such as sign language translation.
翻訳日:2021-04-26 13:03:36 公開日:2021-04-23
# safe fakes: 顔検出のための顔匿名化器の評価

Safe Fakes: Evaluating Face Anonymizers for Face Detectors ( http://arxiv.org/abs/2104.11721v1 )

ライセンス: Link先を確認
Sander R. Klomp (1 and 2), Matthew van Rijn (3), Rob G.J. Wijnhoven (2), Cees G.M. Snoek (3), Peter H.N. de With (1) ((1) Eindhoven University of Technology, (2) ViNotion B.V., (3) University of Amsterdam)(参考訳) GDPR法とCCPA法が導入されて以来、公的および民間の顔画像データセットはますます精査されている。 いくつかのデータセットが完全にオフラインにされ、一部は匿名化されている。 しかし、匿名化が顔検出性能に与える影響は明らかでない。 本稿では,顔検出装置の教師付きトレーニングにおける画像匿名化の効果に関する最初の実証研究を行う。 我々は,従来の顔匿名化装置と最先端の3つのGAN(Generative Adversarial Network-based)手法を比較し,匿名化データを用いた顔検出装置の訓練を行った。 本研究は,顔検出性能維持のための匿名化手法の適合性,匿名化アーティファクトのオーバートレーニング効果,匿名化学習用データセットサイズ,匿名化GANのトレーニング時間の影響について検討した。 最後の実験は、共通のgan評価指標と訓練された顔検出器の性能の相関について検討した。 試験された全ての匿名化法は、訓練された顔検出器の性能を低下させるが、GANを用いて匿名化した顔は従来の方法よりもはるかに低い性能低下を引き起こす。 最も重要な発見として、最も優れたGANであるDeepPrivacyは、匿名化されたデータに基づいて訓練された顔検出器の識別可能な顔を削除する。 過去数年間、gan生成顔のリアリズムは急速に改善されてきた。 GAN研究のさらなる進歩は、ディープフェイク技術をプライバシー保護のセーフフェイクに利用し、顔検知器のトレーニングに性能劣化を伴わないと期待している。

Since the introduction of the GDPR and CCPA legislation, both public and private facial image datasets are increasingly scrutinized. Several datasets have been taken offline completely and some have been anonymized. However, it is unclear how anonymization impacts face detection performance. To our knowledge, this paper presents the first empirical study on the effect of image anonymization on supervised training of face detectors. We compare conventional face anonymizers with three state-of-the-art Generative Adversarial Network-based (GAN) methods, by training an off-the-shelf face detector on anonymized data. Our experiments investigate the suitability of anonymization methods for maintaining face detector performance, the effect of detectors overtraining on anonymization artefacts, dataset size for training an anonymizer, and the effect of training time of anonymization GANs. A final experiment investigates the correlation between common GAN evaluation metrics and the performance of a trained face detector. Although all tested anonymization methods lower the performance of trained face detectors, faces anonymized using GANs cause far smaller performance degradation than conventional methods. As the most important finding, the best-performing GAN, DeepPrivacy, removes identifiable faces for a face detector trained on anonymized data, resulting in a modest decrease from 91.0 to 88.3 mAP. In the last few years, there have been rapid improvements in realism of GAN-generated faces. We expect that further progression in GAN research will allow the use of Deep Fake technology for privacy-preserving Safe Fakes, without any performance degradation for training face detectors.
翻訳日:2021-04-26 13:03:16 公開日:2021-04-23
# Redditを使う人を理解する:自己報告型双極性障害の診断で個人をプロファイリングする

Understanding who uses Reddit: Profiling individuals with a self-reported bipolar disorder diagnosis ( http://arxiv.org/abs/2104.11612v1 )

ライセンス: Link先を確認
Glorianna Jagfeld, Fiona Lobban, Paul Rayson, Steven H. Jones(参考訳) 近年,redditを含む公衆オンラインデータを用いたメンタルヘルスの実態調査が,nlpや健康研究で急増しているが,発見の一般性判断に重要なユーザ特性は報告されていない。 両極性障害の診断を自己報告する約20万のRedditユーザを対象に,既存のNLP手法が臨床的,人口統計学的,アイデンティティ特性に関する情報を提供する方法について述べる。 この人口は男性より男性の方がやや多く、主に若年または中年の成人が精神疾患の診断を受けており、一般的なreddit統計や疫学研究と比較される。 さらに,すべての手法を慎重に評価し,倫理的問題を論じる。

Recently, research on mental health conditions using public online data, including Reddit, has surged in NLP and health research but has not reported user characteristics, which are important to judge generalisability of findings. This paper shows how existing NLP methods can yield information on clinical, demographic, and identity characteristics of almost 20K Reddit users who self-report a bipolar disorder diagnosis. This population consists of slightly more feminine- than masculine-gendered mainly young or middle-aged US-based adults who often report additional mental health diagnoses, which is compared with general Reddit statistics and epidemiological studies. Additionally, this paper carefully evaluates all methods and discusses ethical issues.
翻訳日:2021-04-26 13:02:49 公開日:2021-04-23
# 双曲点構成としての系統樹の学習

Learning phylogenetic trees as hyperbolic point configurations ( http://arxiv.org/abs/2104.11430v1 )

ライセンス: Link先を確認
Benjamin Wilson(参考訳) 樹木の測度を特徴付ける4点条件の弱化にともなう対角距離を,双曲幾何学を用いて共同で推定する,独立な対角距離推定法を提案する。 特に、分類群は双曲空間の点として表され、一対の点間の距離が対応する分類群間の部位差を説明できる。 提案アルゴリズムは,木探索におけるログ類似度を高めるために,経験的に示される目的関数を増大させるために,点を反復的に並べ替える。 木空間上の対数類似性とは異なり、提案する目的関数は微分可能であり、勾配に基づく手法を最適化に利用することができる。 弱化4点条件における誤差項は、空間の曲率を制御する双曲型モデルの半径パラメータの線形関数によって境界されていることが示されている。 したがって、誤差は計算精度の範囲内で、所望の程度小さくすることができる。

An alternative to independent pairwise distance estimation is proposed that uses hyperbolic geometry to jointly estimate pairwise distances subject to a weakening of the four point condition that characterises tree metrics. Specifically, taxa are represented as points in hyperbolic space such that the distance between a pair of points accounts for the site differences between the corresponding taxa. The proposed algorithm iteratively rearranges the points to increase an objective function that is shown empirically to increase the log-likelihood employed in tree search. Unlike the log-likelihood on tree space, the proposed objective function is differentiable, allowing for the use of gradient-based techniques in its optimisation. It is shown that the error term in the weakened four point condition is bounded by a linear function of the radius parameter of the hyperboloid model, which controls the curvature of the space. The error may thus be made as small as desired, within the bounds of computational precision.
翻訳日:2021-04-26 13:02:20 公開日:2021-04-23
# 時系列予測のためのアンサンブル学習とメタ学習の必要性に関する研究

A study on Ensemble Learning for Time Series Forecasting and the need for Meta-Learning ( http://arxiv.org/abs/2104.11475v1 )

ライセンス: Link先を確認
Julia Gastinger, S\'ebastien Nicolas, Du\v{s}ica Stepi\'c, Mischa Schmidt, Anett Sch\"ulke(参考訳) 本研究の貢献は,(1)時系列予測のためのアンサンブル手法の集合を導入し,ベースモデルからの予測を組み合わせることである。 本研究では,m4,m5,m3,fred(feder al reserve economic data)データセットから約16,000のオープンデータセットに対して,予測のためのアンサンブル学習の能力に関する洞察を示す。 実験では、アンサンブルが予測結果に利益をもたらすことが示されているが、明確なアンサンブル戦略(ハイパーパラメータ構成以外の)は存在しない。 そこで,(2)では,データセット毎に,最も適切なアンサンブル手法と,データセットのメタ機能に基づいて実行するハイパーパラメータ設定を選択するメタ学習ステップを提案する。

The contribution of this work is twofold: (1) We introduce a collection of ensemble methods for time series forecasting to combine predictions from base models. We demonstrate insights on the power of ensemble learning for forecasting, showing experiment results on about 16000 openly available datasets, from M4, M5, M3 competitions, as well as FRED (Federal Reserve Economic Data) datasets. Whereas experiments show that ensembles provide a benefit on forecasting results, there is no clear winning ensemble strategy (plus hyperparameter configuration). Thus, in addition, (2), we propose a meta-learning step to choose, for each dataset, the most appropriate ensemble method and their hyperparameter configuration to run based on dataset meta-features.
翻訳日:2021-04-26 13:02:05 公開日:2021-04-23
# サイバー脆弱性に関するツイートの教師なし分類とデータマイニングのためのフレームワーク

A Framework for Unsupervised Classificiation and Data Mining of Tweets about Cyber Vulnerabilities ( http://arxiv.org/abs/2104.11695v1 )

ライセンス: Link先を確認
Kenneth Alperin, Emily Joback, Leslie Shing, Gabe Elkin(参考訳) 多くのサイバーネットワーク防御ツールは、あるネットワーク上のシステムに存在する既知の脆弱性のタイムリーな情報を提供するために、National Vulnerability Database(NVD)に依存している。 しかし最近の研究では、NVDが常に最新であるとは限らないことが示されており、既知の脆弱性はNVDに公開される数ヶ月前にTwitterやRedditといったソーシャルメディアプラットフォームで公に議論されている。 そこで我々は,サイバーセキュリティに関連するツイートをフィルタリングするための教師なし分類の枠組みを提案する。 フレームワークに組み込むための2つの教師なし機械学習手法を検討・評価し、双方向・自動回帰変換器(BART)モデルによるゼロショット分類が83.52%の精度で、F1スコア83.88の精度で他の手法よりも優れていることを示す。 さらに、ツイートのトピックのトレンドや、CVE(Common Vulnerabilities and Exposures)に関するTwitterの言及数など、現在のNVDベースのリスクアセスメントツールを強化するためのアラートやレポートとして使用できる、これらのサイバー関連ツイートに由来するさまざまな洞察について議論する。

Many cyber network defense tools rely on the National Vulnerability Database (NVD) to provide timely information on known vulnerabilities that exist within systems on a given network. However, recent studies have indicated that the NVD is not always up to date, with known vulnerabilities being discussed publicly on social media platforms, like Twitter and Reddit, months before they are published to the NVD. To that end, we present a framework for unsupervised classification to filter tweets for relevance to cyber security. We consider and evaluate two unsupervised machine learning techniques for inclusion in our framework, and show that zero-shot classification using a Bidirectional and Auto-Regressive Transformers (BART) model outperforms the other technique with 83.52% accuracy and a F1 score of 83.88, allowing for accurate filtering of tweets without human intervention or labelled data for training. Additionally, we discuss different insights that can be derived from these cyber-relevant tweets, such as trending topics of tweets and the counts of Twitter mentions for Common Vulnerabilities and Exposures (CVEs), that can be used in an alert or report to augment current NVD-based risk assessment tools.
翻訳日:2021-04-26 13:01:50 公開日:2021-04-23
# バイオインスパイアされた最適化を用いたディープニューラルネットワークの学習

Learning in Deep Neural Networks Using a Biologically Inspired Optimizer ( http://arxiv.org/abs/2104.11604v1 )

ライセンス: Link先を確認
Giorgia Dellaferrera, Stanislaw Wozniak, Giacomo Indiveri, Angeliki Pantazi, Evangelos Eleftheriou(参考訳) 脳の塑性回路はシナプス結合の機構とシナプス強度の局所的な調節を通じてシナプス重みの分布に影響されることが知られている。 しかし、刺激依存可塑性と局所学習信号との複雑な相互作用は、これまでの人工ニューラルネットワーク訓練アルゴリズムの多くでは無視されている。 本稿では,大脳皮質ニューロンの樹状突起で観測されるシナプス積分の鍵となる原理を取り入れた,人工神経(ANN)とスパイクニューラルネットワーク(SNN)のための生物学的にインスパイアされた新しいオプティマイザを提案する。 GRAPESは、ニューラルネットワークの各ノードにおけるエラー信号の重量分布依存変調を実装している。 この生物学的にインスパイアされたメカニズムは,ネットワークの収束率を体系的に向上させ,フィードフォワードおよびリカレントアーキテクチャによるANNとSNNの分類精度を大幅に向上させることを示す。 さらに,GRAPESは複雑性の増大するモデルに対する性能スケーラビリティをサポートし,ネットワークが以前取得した知識に基づいて未確認タスクを一般化できるようにすることにより,破滅的な忘れを緩和することを示した。 GRAPESのローカル特性は必要なメモリ資源を最小限に抑え、専用のハードウェア実装に最適である。 全体として、我々の研究は、神経生理学の洞察をマシンインテリジェンスと調和させることが、ニューラルネットワークの性能を高める鍵であることを示唆している。

Plasticity circuits in the brain are known to be influenced by the distribution of the synaptic weights through the mechanisms of synaptic integration and local regulation of synaptic strength. However, the complex interplay of stimulation-dependen t plasticity with local learning signals is disregarded by most of the artificial neural network training algorithms devised so far. Here, we propose a novel biologically inspired optimizer for artificial (ANNs) and spiking neural networks (SNNs) that incorporates key principles of synaptic integration observed in dendrites of cortical neurons: GRAPES (Group Responsibility for Adjusting the Propagation of Error Signals). GRAPES implements a weight-distribution dependent modulation of the error signal at each node of the neural network. We show that this biologically inspired mechanism leads to a systematic improvement of the convergence rate of the network, and substantially improves classification accuracy of ANNs and SNNs with both feedforward and recurrent architectures. Furthermore, we demonstrate that GRAPES supports performance scalability for models of increasing complexity and mitigates catastrophic forgetting by enabling networks to generalize to unseen tasks based on previously acquired knowledge. The local characteristics of GRAPES minimize the required memory resources, making it optimally suited for dedicated hardware implementations. Overall, our work indicates that reconciling neurophysiology insights with machine intelligence is key to boosting the performance of neural networks.
翻訳日:2021-04-26 13:01:27 公開日:2021-04-23
# 移動パターンの比較による電話対共同利用の確立

Establishing phone-pair co-usage by comparing mobility patterns ( http://arxiv.org/abs/2104.11683v1 )

ライセンス: Link先を確認
Wauter Bosma, Sander Dalm, Erwin van Eijk, Rachid el Harchaoui, Edwin Rijgersberg, Hannah Tereza Tops, Alle Veenstra, Rolf Ypma(参考訳) 法医学的な調査では、ある期間に同じ人物が2台の携帯電話を使っていたかどうかを判断する価値がしばしばある。 携帯電話の基地局登録の時間と場所を利用して,携帯電話が同一人物によって使用された証拠の強度を評価する手法を提案する。 この方法は、同一ユーザと異なるユーザの仮説を識別するためにロジスティック回帰を用いており、また、確率比で証拠の重みを定量化する標準的なカーネル密度推定法である。 さらに,本手法を実世界のデータ上で訓練し,検証することにより,従来の理論的研究をさらに進める。 本手法は,データ量や品質の異なるモデル選択下での優れた性能とロバスト性を示す。 我々は法廷で実用性について議論する。

In forensic investigations it is often of value to establish whether two phones were used by the same person during a given time period. We present a method that uses time and location of cell tower registrations of mobile phones to assess the strength of evidence that any pair of phones were used by the same person. The method is transparent as it uses logistic regression to discriminate between the hypotheses of same and different user, and a standard kernel density estimation to quantify the weight of evidence in terms of a likelihood ratio. We further add to previous theoretical work by training and validating our method on real world data, paving the way for application in practice. The method shows good performance under different modeling choices and robustness under lower quantity or quality of data. We discuss practical usage in court.
翻訳日:2021-04-26 13:01:02 公開日:2021-04-23
# LeBenchmark: 自己教師付き表現学習を音声から評価するための再現可能なフレームワーク

LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech ( http://arxiv.org/abs/2104.11462v1 )

ライセンス: Link先を確認
Solene Evain, Ha Nguyen, Hang Le, Marcely Zanon Boito, Salima Mdhaffar, Sina Alisamir, Ziyi Tong, Natalia Tomashenko, Marco Dinarelli, Titouan Parcollet, Alexandre Allauzen, Yannick Esteve, Benjamin Lecouteux, Francois Portet, Solange Rossato, Fabien Ringeval, Didier Schwab and Laurent Besacier(参考訳) 膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像および自然言語処理に成功している。 近年では音声からのSSLも検討されている。 これらは、自動音声認識(asr)などの下流タスクのパフォーマンス向上に成功している。 これらの研究は、効率的な音声システムを構築するためのラベル付きデータへの依存を減らすことができることを示唆するが、その評価は、主にASRと多種多様な実験的設定を用いて行われた。 これにより、sslアプローチと音声システム構築への影響評価との客観的比較が困難になる。 本稿では,音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。 ASR (High and Low Resource)タスクだけでなく、音声言語理解、音声翻訳、感情認識も含んでいる。 また、英語、フランス語とは異なる言語で音声技術をターゲットにしています。 異なるサイズのSSLモデルは、慎重にソースとドキュメント化されたデータセットからトレーニングされる。 実験によると、SSLはその本当の影響を評価するために、徹底的で信頼性の高いベンチマークの必要性を確認するすべてのタスクに対して有益である。 LeBenchmarkはSSLにおける音声からの再現可能な研究のために科学コミュニティと共有されている。

Self-Supervised Learning (SSL) using huge unlabeled data has been successfully explored for image and natural language processing. Recent works also investigated SSL from speech. They were notably successful to improve performance on downstream tasks such as automatic speech recognition (ASR). While these works suggest it is possible to reduce dependence on labeled data for building efficient speech systems, their evaluation was mostly made on ASR and using multiple and heterogeneous experimental settings (most of them for English). This renders difficult the objective comparison between SSL approaches and the evaluation of their impact on building speech systems. In this paper, we propose LeBenchmark: a reproducible framework for assessing SSL from speech. It not only includes ASR (high and low resource) tasks but also spoken language understanding, speech translation and emotion recognition. We also target speech technologies in a language different than English: French. SSL models of different sizes are trained from carefully sourced and documented datasets. Experiments show that SSL is beneficial for most but not all tasks which confirms the need for exhaustive and reliable benchmarks to evaluate its real impact. LeBenchmark is shared with the scientific community for reproducible research in SSL from speech.
翻訳日:2021-04-26 13:00:49 公開日:2021-04-23
# 超音波によるサイレント音声インタフェースのための3次元畳み込みニューラルネットワーク

3D Convolutional Neural Networks for Ultrasound-Based Silent Speech Interfaces ( http://arxiv.org/abs/2104.11532v1 )

ライセンス: Link先を確認
L\'aszl\'o T\'oth, Amin Honarmandi Shandiz(参考訳) silent speech interface (ssi) は、舌の超音波映像のような調音運動の記録から音声信号を再構成することを目的としている。 現在、ディープニューラルネットワークはこのタスクで最も成功した技術である。 この効率的なソリューションでは、単一の画像を処理するだけでなく、複数のビデオフレームから舌の動き情報を抽出できる方法が必要となる。 この方法の1つの選択肢は、long short-term memory network (lstm) のようなリカレントニューラルネットワークと2d convolutional neural networks (cnns) を組み合わせることである。 ここでは、CNNを拡張して3次元畳み込みを行い、余剰次元が時間に対応する別のアプローチを実験する。 特に,空間的および時間的畳み込みを分解形に適用し,近年の映像行動認識において非常に成功した。 我々の3DネットワークはCNN+LSTMモデルよりも優れており、3D CNNがSSIシステムにおけるCNN+LSTMネットワークの代替となる可能性を示している。

Silent speech interfaces (SSI) aim to reconstruct the speech signal from a recording of the articulatory movement, such as an ultrasound video of the tongue. Currently, deep neural networks are the most successful technology for this task. The efficient solution requires methods that do not simply process single images, but are able to extract the tongue movement information from a sequence of video frames. One option for this is to apply recurrent neural structures such as the long short-term memory network (LSTM) in combination with 2D convolutional neural networks (CNNs). Here, we experiment with another approach that extends the CNN to perform 3D convolution, where the extra dimension corresponds to time. In particular, we apply the spatial and temporal convolutions in a decomposed form, which proved very successful recently in video action recognition. We find experimentally that our 3D network outperforms the CNN+LSTM model, indicating that 3D CNNs may be a feasible alternative to CNN+LSTM networks in SSI systems.
翻訳日:2021-04-26 13:00:31 公開日:2021-04-23
# 音声活動検出を超えて:直接音声翻訳のためのハイブリッド音声セグメント

Beyond Voice Activity Detection: Hybrid Audio Segmentation for Direct Speech Translation ( http://arxiv.org/abs/2104.11710v1 )

ライセンス: Link先を確認
Marco Gaido, Matteo Negri, Mauro Cettolo, Marco Turchi(参考訳) 直接音声翻訳では、トレーニングデータと実行時に見る音声のセグメンテーションミスマッチが大きな問題となっている。 実際、システムは通常手動でセグメンテーションされたコーパスで訓練されるが、実例では、自動(および準最適)セグメンテーションを必要とする継続的オーディオがしばしば提示される。 本稿では,既存の手法(vadベース,固定長,ハイブリッドセグメンテーション法)を比較し,遅延を犠牲にすることなくよりよい結果を得るためのハイブリッドソリューションを提案する。 異なるドメインと言語ペアの実験を通じて、従来のvadベースのアプローチと最適な手動セグメンテーションのギャップを少なくとも30%削減し、我々の手法が他の手法よりも優れていることを示す。

The audio segmentation mismatch between training data and those seen at run-time is a major problem in direct speech translation. Indeed, while systems are usually trained on manually segmented corpora, in real use cases they are often presented with continuous audio requiring automatic (and sub-optimal) segmentation. After comparing existing techniques (VAD-based, fixed-length and hybrid segmentation methods), in this paper we propose enhanced hybrid solutions to produce better results without sacrificing latency. Through experiments on different domains and language pairs, we show that our methods outperform all the other techniques, reducing by at least 30% the gap between the traditional VAD-based approach and optimal manual segmentation.
翻訳日:2021-04-26 13:00:15 公開日:2021-04-23
# 分散フェデレーション平均化

Decentralized Federated Averaging ( http://arxiv.org/abs/2104.11375v1 )

ライセンス: Link先を確認
Tao Sun, Dongsheng Li, Bao Wang(参考訳) Federated Averaging (FedAvg) は、膨大な数のクライアントを持つ分散トレーニングのための通信効率のよいアルゴリズムである。 FedAvgでは、クライアントはプライバシ保護のためにデータをローカルに保持する。 この中央サーバは各クライアントにパラメータを分散し、更新されたパラメータをクライアントから収集する。 FedAvgは主に集中型の方法で研究されており、各通信においてサーバとクライアント間の大規模な通信が必要である。 さらに、中央サーバへの攻撃はシステム全体のプライバシを損なう可能性がある。 本稿では,非方向グラフで接続されたクライアントに実装された分散化FedAvg with momentum(DFedAvgM)について検討する。 DFedAvgMでは、全てのクライアントは運動量で確率勾配降下を行い、隣人とのみ通信する。 通信コストをさらに削減するために、量子化DFedAvgMについても検討する。 我々は、自明な仮定の下で(量子化された)dfedavgmの収束を証明し、損失関数が p{\l} 特性を満たす場合に収束率を改善することができる。 最後にDFedAvgMの有効性を数値的に検証した。

Federated averaging (FedAvg) is a communication efficient algorithm for the distributed training with an enormous number of clients. In FedAvg, clients keep their data locally for privacy protection; a central parameter server is used to communicate between clients. This central server distributes the parameters to each client and collects the updated parameters from clients. FedAvg is mostly studied in centralized fashions, which requires massive communication between server and clients in each communication. Moreover, attacking the central server can break the whole system's privacy. In this paper, we study the decentralized FedAvg with momentum (DFedAvgM), which is implemented on clients that are connected by an undirected graph. In DFedAvgM, all clients perform stochastic gradient descent with momentum and communicate with their neighbors only. To further reduce the communication cost, we also consider the quantized DFedAvgM. We prove convergence of the (quantized) DFedAvgM under trivial assumptions; the convergence rate can be improved when the loss function satisfies the P{\L} property. Finally, we numerically verify the efficacy of DFedAvgM.
翻訳日:2021-04-26 13:00:01 公開日:2021-04-23
# 肺結節悪性度予測のための曖昧なラベルからの学習

Learning from Ambiguous Labels for Lung Nodule Malignancy Prediction ( http://arxiv.org/abs/2104.11436v1 )

ライセンス: Link先を確認
Zehui Liao, Yutong Xie, Shishuai Hu, Yong Xia(参考訳) 肺癌の早期診断には肺結節悪性度予測が不可欠である。 一般的に議論される困難に加えて、このタスクの課題はアノテーションによって提供されるあいまいなラベルからも生じる。 本稿では,肺結節悪性度予測のための信頼性と曖昧性の両方から,多視点のMV-DAR(divide-and-ru le)モデルを提案する。 アノテーションの一貫性と信頼性に基づき、節を3つの集合(CR-Set)、一貫性のない集合(IC-Set)、信頼性の低い集合(LR-Set)に分割する。 IC-Setの結節は複数の放射線科医によって無矛盾に注釈され、LR-Setの結節は1つのラジオ科医によって注釈される。 提案したMV-DARは3つのDARサブモデルを含み、3つの直視から肺結節を特徴づける。 各DARは予測ネットワーク(Prd-Net)、対物ネットワーク(CF-Net)、低信頼ネットワーク(LR-Net)で構成され、それぞれCR-Set、IC-Set、LR-Setを学習する。 CF-NetとLR-Netが学習した画像表現能力は、Prd-Netの予測能力を高めるために、負のアテンションモジュール(NA-Module)と一貫したアテンションモジュール(CA-Module)によってPrd-Netに転送される。 MV-DARモデルはLIDC-IDRIデータセットとLUNGxデータセットで評価されている。 以上の結果から,肺結節悪性度予測におけるMV-DARモデルの有効性だけでなく,現在のノイズラベル学習モデルよりも優れていることが示唆された。

Lung nodule malignancy prediction is an essential step in the early diagnosis of lung cancer. Besides the difficulties commonly discussed, the challenges of this task also come from the ambiguous labels provided by annotators, since deep learning models may learn, even amplify, the bias embedded in them. In this paper, we propose a multi-view "divide-and-rule" ; (MV-DAR) model to learn from both reliable and ambiguous annotations for lung nodule malignancy prediction. According to the consistency and reliability of their annotations, we divide nodules into three sets: a consistent and reliable set (CR-Set), an inconsistent set (IC-Set), and a low reliable set (LR-Set). The nodule in IC-Set is annotated by multiple radiologists inconsistently, and the nodule in LR-Set is annotated by only one radiologist. The proposed MV-DAR contains three DAR submodels to characterize a lung nodule from three orthographic views. Each DAR consists of a prediction network (Prd-Net), a counterfactual network (CF-Net), and a low reliable network (LR-Net), learning on CR-Set, IC-Set, and LR-Set, respectively. The image representation ability learned by CF-Net and LR-Net is then transferred to Prd-Net by negative-attention module (NA-Module) and consistent-attention module (CA-Module), aiming to boost the prediction ability of Prd-Net. The MV-DAR model has been evaluated on the LIDC-IDRI dataset and LUNGx dataset. Our results indicate not only the effectiveness of the proposed MV-DAR model in learning from ambiguous labels but also its superiority over present noisy label-learning models in lung nodule malignancy prediction.
翻訳日:2021-04-26 12:58:50 公開日:2021-04-23
# 人間の乗っ取りを警告する自動運転車: 現実世界のデータによるモデリング

Autonomous Vehicles that Alert Humans to Take-Over Controls: Modeling with Real-World Data ( http://arxiv.org/abs/2104.11489v1 )

ライセンス: Link先を確認
Akshay Rangesh, Nachiket Deo, Ross Greer, Pujitha Gunaratne, Mohan M. Trivedi(参考訳) 乗用車における自動化の増大に伴い、安全でスムーズな車両間相互作用と制御遷移の研究が重要である。 本研究では,ドライバの状態の文脈的,意味的に意味のある表現の開発に焦点をあて,ドライバと車両間の制御の伝達の適切なタイミングと条件を決定する。 そこで我々は,様々な注意喚起活動に従事しながら,異なる運転条件下での自律エージェントの乗っ取り制御を参加者に指示する大規模実世界制御データ研究を行った。 これらのテイクオーバイベントは、複数のドライバー向けカメラを使用してキャプチャされ、ラベル付けされると、コントロール遷移のデータセットと対応するテイクオーバタイム(tot)が生成される。 このデータセットを拡張後、異なるドライバ向けカメラビューで動作するコンピュータビジョンアルゴリズムが生成する低レベルと中レベルの機能でシーケンシャルに動作するtotモデルを開発・訓練する。 提案したTOTモデルは,遅延のないテイクオーバー時間を連続的に推定し,複雑な実世界のシナリオにおいて有望な質的,定量的な結果を示す。

With increasing automation in passenger vehicles, the study of safe and smooth occupant-vehicle interaction and control transitions is key. In this study, we focus on the development of contextual, semantically meaningful representations of the driver state, which can then be used to determine the appropriate timing and conditions for transfer of control between driver and vehicle. To this end, we conduct a large-scale real-world controlled data study where participants are instructed to take-over control from an autonomous agent under different driving conditions while engaged in a variety of distracting activities. These take-over events are captured using multiple driver-facing cameras, which when labelled result in a dataset of control transitions and their corresponding take-over times (TOTs). After augmenting this dataset, we develop and train TOT models that operate sequentially on low and mid-level features produced by computer vision algorithms operating on different driver-facing camera views. The proposed TOT model produces continuous estimates of take-over times without delay, and shows promising qualitative and quantitative results in complex real-world scenarios.
翻訳日:2021-04-26 12:58:18 公開日:2021-04-23
# 画像品質評価のための領域適応変形型ネットワーク

Region-Adaptive Deformable Network for Image Quality Assessment ( http://arxiv.org/abs/2104.11599v1 )

ライセンス: Link先を確認
Shuwei Shi, Qingyan Bai, Mingdeng Cao, Weihao Xia, Jiahao Wang, Yifan Chen, Yujiu Yang(参考訳) 画像品質評価(IQA)は、画像の知覚品質を評価することを目的としている。 IQAアルゴリズムの出力は、人間の主観的知覚と一致することが期待される。 画像復元・拡張タスクでは, 空間シフトやテクスチャノイズがあるにも関わらず, GAN(Generative Adversarial Network)によって生成された画像は, 従来のCNN生成画像よりも優れた視覚性能が得られる。 残念なことに、既存のIQA法は空間的不整合に対する耐性が低いため、GANに基づく歪みに対して不満足な性能を有する。 そこで本研究では,この誤りを適応的に考慮し,GANに基づく歪みに対するIQAネットワークの性能を向上させるための参照指向の変形可能な畳み込みを提案する。 さらに,従来のパッチベース手法では独立して処理される異なるパッチ領域間のインタラクションを強化するパッチレベルアテンションモジュールを提案する。 修正された残留ブロックは、古典的な残留ブロックに修正を加えてWResNetと呼ばれるパッチリージョンベースのベースラインを構築することでも提案されている。 このベースラインを2つのモジュールで満たし、さらにradn(region-adaptive deformable network)を提案する。 ntire 2021の知覚的画像品質評価課題データセットにおける実験結果から,radnの性能が向上し,最終試験段階ではアンサンブルアプローチが4位となった。 コードはhttps://github.com/I IGROUP/RADN.comで入手できる。

Image quality assessment (IQA) aims to assess the perceptual quality of images. The outputs of the IQA algorithms are expected to be consistent with human subjective perception. In image restoration and enhancement tasks, images generated by generative adversarial networks (GAN) can achieve better visual performance than traditional CNN-generated images, although they have spatial shift and texture noise. Unfortunately, the existing IQA methods have unsatisfactory performance on the GAN-based distortion partially because of their low tolerance to spatial misalignment. To this end, we propose the reference-oriented deformable convolution, which can improve the performance of an IQA network on GAN-based distortion by adaptively considering this misalignment. We further propose a patch-level attention module to enhance the interaction among different patch regions, which are processed independently in previous patch-based methods. The modified residual block is also proposed by applying modifications to the classic residual block to construct a patch-region-based baseline called WResNet. Equipping this baseline with the two proposed modules, we further propose Region-Adaptive Deformable Network (RADN). The experiment results on the NTIRE 2021 Perceptual Image Quality Assessment Challenge dataset show the superior performance of RADN, and the ensemble approach won fourth place in the final testing phase of the challenge. Code is available at https://github.com/I IGROUP/RADN.
翻訳日:2021-04-26 12:58:03 公開日:2021-04-23
# 3次元マルチオブジェクトトラッキングのための学習可能なオンライングラフ表現

Learnable Online Graph Representations for 3D Multi-Object Tracking ( http://arxiv.org/abs/2104.11747v1 )

ライセンス: Link先を確認
Jan-Nico Zaech, Dengxin Dai, Alexander Liniger, Martin Danelljan, Luc Van Gool(参考訳) 3dでオブジェクトを追跡することは、自動運転やロボティクス、拡張現実など、幅広いアプリケーションで使用されるコンピュータビジョンの基本的なタスクである。 LIDARからの3Dマルチオブジェクト追跡(MOT)に対する最近のアプローチでは、オブジェクトの検出にマッチする手作りの機能セットとともに、オブジェクトダイナミクスを使用している。 しかし、そのような特徴やヒューリスティックを手動で設計するのは面倒で、しばしば準最適性能につながる。 そこで本研究では,3次元MOT問題に対する統一的かつ学習的アプローチを提案する。 オンライン方式で検出と追跡を共同で行うグラフ構造を設計した。 この目的のために、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。 提案手法は,偽陽性検出の初期化と処理の自然な方法であり,トラック安定性を著しく向上させる。 AMOTAの65.6%の最先端性能と58%のIDスイッチを達成し,公開可能なnuScenesデータセットに対する提案手法のメリットを示す。

Tracking of objects in 3D is a fundamental task in computer vision that finds use in a wide range of applications such as autonomous driving, robotics or augmented reality. Most recent approaches for 3D multi object tracking (MOT) from LIDAR use object dynamics together with a set of handcrafted features to match detections of objects. However, manually designing such features and heuristics is cumbersome and often leads to suboptimal performance. In this work, we instead strive towards a unified and learning based approach to the 3D MOT problem. We design a graph structure to jointly process detection and track states in an online manner. To this end, we employ a Neural Message Passing network for data association that is fully trainable. Our approach provides a natural way for track initialization and handling of false positive detections, while significantly improving track stability. We show the merit of the proposed approach on the publicly available nuScenes dataset by achieving state-of-the-art performance of 65.6% AMOTA and 58% fewer ID-switches.
翻訳日:2021-04-26 12:57:39 公開日:2021-04-23
# ブランド選択におけるクロスカテゴリダイナミクスのガウス過程モデル

A Gaussian Process Model of Cross-Category Dynamics in Brand Choice ( http://arxiv.org/abs/2104.11702v1 )

ライセンス: Link先を確認
Ryan Dew, Yuhao Fan(参考訳) 個々の顧客の価格、プロモーション、ブランド、その他のマーケティングミックスに対する感受性を理解することは、ターゲティングや価格を含む幅広いマーケティング問題の根本的な原因である。 多くの製品カテゴリーにまたがって運用している企業は、あるカテゴリーからデータを購入して、別のカテゴリーへの洞察を拡大できるという、ユニークな機会を持っている。 このようなクロスカテゴリの洞察は、購入データが1つのカテゴリで豊かで、別のカテゴリで不足している状況において特に重要である。 消費者がカテゴリをまたいでどのように振る舞うかの重要な側面は、ダイナミクスである: 選好は時間とともに安定せず、一方のカテゴリにおける個人レベルの選好パラメータの変化は、他のカテゴリの変化を示す可能性がある。 しかし、クロスカテゴリの好みをモデリングする豊富な歴史があるにもかかわらず、マーケティング文献には「textit{correlated dynamics}」や「個人レベルの感度ダイナミクスのクロスカテゴリ相互リンク」を柔軟に説明できるフレームワークが欠けている。 本研究では,顧客,時間,カテゴリ間での嗜好パラメータの情報共有を可能にする非パラメトリックベイズ選択モデルを構築するために,個人レベルの多出力ガウスプロセスを活用する枠組みを提案する。 本モデルは食料品購入データに適用し,複数のカテゴリにわたる顧客価格感受性の興味深いダイナミクスを検知することを示す。 管理面では、相関ダイナミクスのキャプチャは、ベンチマークと比較してかなりの予測的ゲインをもたらすことを示す。 さらに,関連するダイナミクスを捉えることは,消費者の嗜好の変化を時間とともに理解し,そのダイナミクスに基づいたターゲットマーケティング戦略を開発する上で意味を持つことがわかった。

Understanding individual customers' sensitivities to prices, promotions, brand, and other aspects of the marketing mix is fundamental to a wide swath of marketing problems, including targeting and pricing. Companies that operate across many product categories have a unique opportunity, insofar as they can use purchasing data from one category to augment their insights in another. Such cross-category insights are especially crucial in situations where purchasing data may be rich in one category, and scarce in another. An important aspect of how consumers behave across categories is dynamics: preferences are not stable over time, and changes in individual-level preference parameters in one category may be indicative of changes in other categories, especially if those changes are driven by external factors. Yet, despite the rich history of modeling cross-category preferences, the marketing literature lacks a framework that flexibly accounts for \textit{correlated dynamics}, or the cross-category interlinkages of individual-level sensitivity dynamics. In this work, we propose such a framework, leveraging individual-level, latent, multi-output Gaussian processes to build a nonparametric Bayesian choice model that allows information sharing of preference parameters across customers, time, and categories. We apply our model to grocery purchase data, and show that our model detects interesting dynamics of customers' price sensitivities across multiple categories. Managerially, we show that capturing correlated dynamics yields substantial predictive gains, relative to benchmarks. Moreover, we find that capturing correlated dynamics can have implications for understanding changes in consumers preferences over time, and developing targeted marketing strategies based on those dynamics.
翻訳日:2021-04-26 12:57:01 公開日:2021-04-23
# 長期記憶と形態認識ニューラルネットのモジュール性比較

A modularity comparison of Long Short-Term Memory and Morphognosis neural networks ( http://arxiv.org/abs/2104.11410v1 )

ライセンス: Link先を確認
Thomas E. Portegys(参考訳) 本研究では,2つのニューラルネットワークアーキテクチャのモジュール性性能を比較する。long short-term memory (lstm) recurrent networkと,空間的および時間的コンテキストの階層に基づくmorphognosisである。 mazeは、独立した学習されたmazeを使用して、それらで構成されるmazeを解決する能力として定義される、パフォーマンスを測定するために使用される。 迷路はドアで繋がれた部屋の列である。 モジュラータスクは次のように実行されます: mazeの開始時に、最初のドア選択は、目標に到達するために同じドアを再度選択しなければならない、中間の迷路の終わりまで保持されなければならないコンテキストを形成します。 試験では、初めて、ドア連想迷路と別々に訓練されたインターベンティング迷路が提示される。 どちらのニューラルネットワークもトレーニング中は良好に動作しますが、Morphognosisのテスト性能は、このモジュラータスクにおけるLSTMよりも大幅に向上します。

This study compares the modularity performance of two artificial neural network architectures: a Long Short-Term Memory (LSTM) recurrent network, and Morphognosis, a neural network based on a hierarchy of spatial and temporal contexts. Mazes are used to measure performance, defined as the ability to utilize independently learned mazes to solve mazes composed of them. A maze is a sequence of rooms connected by doors. The modular task is implemented as follows: at the beginning of the maze, an initial door choice forms a context that must be retained until the end of an intervening maze, where the same door must be chosen again to reach the goal. For testing, the door-association mazes and separately trained intervening mazes are presented together for the first time. While both neural networks perform well during training, the testing performance of Morphognosis is significantly better than LSTM on this modular task.
翻訳日:2021-04-26 12:56:34 公開日:2021-04-23
# 鍵モデルパラメータの選択と推定を同時に行う正規化非線形回帰

Regularized Nonlinear Regression for Simultaneously Selecting and Estimating Key Model Parameters ( http://arxiv.org/abs/2104.11426v1 )

ライセンス: Link先を確認
Kyubaek Yoon, Hojun You, Wei-Ying Wu, Chae Young Lim, Jongeun Choi, Connor Boss, Ahmed Ramadan, John M. Popovich Jr., Jacek Cholewicki, N. Peter Reeves, Clark J. Radcliffe(参考訳) システム同定では、限られた観測値を用いてモデルのパラメータを推定すると、識別性が低下する。 そこで本研究では,感度の高いパラメータをキーモデルパラメータとして同時に選択し,推定し,残りのパラメータを典型的な値に固定する手法を提案する。 本手法は,一組の典型的な値からパラメータの偏差をl1正規化した非線形最小二乗推定器として定式化する。 まず,提案した推定器の整合性とオラクル特性を理論的基礎として提供する。 第二に,levenberg-marquardt 最適化に基づく数値解を求める新しい手法を提案する。 第3に, 有効性を示すために, 限られたデータから, 頭部位置追跡タスクの生体力学的パラメトリックモデルを特定するアプリケーションを提案する。 シミュレーション研究では、L1規則化のない推定パラメータと比較して、推定パラメータの分散は96.1%減少する。 実験では, (vaf) に対する分散を82.5%以上維持しつつ, 推定すべきパラメータの数を削減し, モデル解釈を改善した。 さらに、推定パラメータの分散はL1正規化のない推定パラメータと比較して71.1%削減される。 本手法は,正規化非線形回帰を解くために,標準のsimplexに基づく最適化よりも54倍高速である。

In system identification, estimating parameters of a model using limited observations results in poor identifiability. To cope with this issue, we propose a new method to simultaneously select and estimate sensitive parameters as key model parameters and fix the remaining parameters to a set of typical values. Our method is formulated as a nonlinear least squares estimator with L1-regularization on the deviation of parameters from a set of typical values. First, we provide consistency and oracle properties of the proposed estimator as a theoretical foundation. Second, we provide a novel approach based on Levenberg-Marquardt optimization to numerically find the solution to the formulated problem. Third, to show the effectiveness, we present an application identifying a biomechanical parametric model of a head position tracking task for 10 human subjects from limited data. In a simulation study, the variances of estimated parameters are decreased by 96.1% as compared to that of the estimated parameters without L1-regularization. In an experimental study, our method improves the model interpretation by reducing the number of parameters to be estimated while maintaining variance accounted for (VAF) at above 82.5%. Moreover, the variances of estimated parameters are reduced by 71.1% as compared to that of the estimated parameters without L1-regularization. Our method is 54 times faster than the standard simplex-based optimization to solve the regularized nonlinear regression.
翻訳日:2021-04-26 12:56:20 公開日:2021-04-23
# レベルセット法におけるデータ駆動インタフェース再構成の一貫性と対称性

Consistent and symmetry preserving data-driven interface reconstruction for the level-set method ( http://arxiv.org/abs/2104.11578v1 )

ライセンス: Link先を確認
Aaron B. Buhendwa, Deniz A. Bezgin, Nikolaus Adams(参考訳) 近年、機械学習は従来の計算流体力学の一部を代用するために使われてきた。 有限体積解法におけるセルフェイス再構成またはvof法における曲率計算 後者は粗く解決されたインタフェースの精度の改善を示したが、収束と対称性を犠牲にしていた。 本研究では,上記の欠点に対処し,組み合わせたアプローチを提案する。 レベルセット手法におけるインタフェース再構成(IR)に焦点を当てる。 体積率と開口率の計算。 組み合わせモデルは、従来の(線形)IRとニューラルネットワークIRを、局所的なインターフェイスの解像度に応じて選択する分類ニューラルネットワークで構成されている。 提案手法は,粗分解界面の精度を向上し,従来のirを高分解能で回収し,一階全体の収束を実現する。 対称性は、入力レベルセットグリッドをミラーリングして回転させ、その後予測を平均化する。 組み合わせモデルはCFDソルバに実装され、2相流に対して実証される。 さらに,浮動小数点対称実装の詳細と計算効率について述べる。

Recently, machine learning has been used to substitute parts of conventional computational fluid dynamics, e.g. the cell-face reconstruction in finite-volume solvers or the curvature computation in the Volume-of-Fluid (VOF) method. The latter showed improvements in terms of accuracy for coarsely resolved interfaces, however at the expense of convergence and symmetry. In this work, a combined approach is proposed, adressing the aforementioned shortcomings. We focus on interface reconstruction (IR) in the level-set method, i.e. the computation of the volume fraction and apertures. The combined model consists of a classification neural network, that chooses between the conventional (linear) IR and the neural network IR depending on the local interface resolution. The proposed approach improves accuracy for coarsely resolved interfaces and recovers the conventional IR for high resolutions, yielding first order overall convergence. Symmetry is preserved by mirroring and rotating the input level-set grid and subsequently averaging the predictions. The combined model is implemented into a CFD solver and demonstrated for two-phase flows. Furthermore, we provide details of floating point symmetric implementation and computational efficiency.
翻訳日:2021-04-26 12:55:59 公開日:2021-04-23
# 新型コロナウイルス薬品発見のための遺伝的制約付きグラフ変動オートエンコーダ

Genetic Constrained Graph Variational Autoencoder for COVID-19 Drug Discovery ( http://arxiv.org/abs/2104.11674v1 )

ライセンス: Link先を確認
Tianyue Cheng, Tianchi Fan, Landi Wang(参考訳) 過去数ヵ月間、新型コロナウイルス(covid-19)は世界中に広がり、人々や社会に大きな被害をもたらした。 この厳しい状況の中で、潜在的薬物を生成する効果的な薬物発見法は非常に有意義である。 本稿では,重症急性呼吸器症候群コロナウイルス2 (sars-cov-2) に対する治療の可能性について検討する。 そこで我々は,GCGVAE (Genematic Constrained Graph Variational Autoencoder) と呼ばれる新しいモデルを提案した。 我々はSARS、HIV、Hep3、MERSなどの各種ウイルスのタンパク質構造データに基づいてモデルを訓練し、SARS-CoV-2の薬物生成に使用した。 数値マスキングや遺伝的アルゴリズムなど,いくつかの最適化アルゴリズムを配置し,モデルを微調整する。 シミュレーションによると, 生成分子はSARS-CoV-2を阻害する効果が高い。 我々は、生成した分子のスコアを定量的に計算し、既存の薬物のスコアと比較した。 さらに,本モデルは,タンパク質構造から他のウイルスを治療するための有効な薬物の生成にも応用できる。

In the past several months, COVID-19 has spread over the globe and caused severe damage to the people and the society. In the context of this severe situation, an effective drug discovery method to generate potential drugs is extremely meaningful. In this paper, we provide a methodology of discovering potential drugs for the treatment of Severe Acute Respiratory Syndrome Corona-Virus 2 (commonly known as SARS-CoV-2). We proposed a new model called Genetic Constrained Graph Variational Autoencoder (GCGVAE) to solve this problem. We trained our model based on the data of various viruses' protein structure, including that of the SARS, HIV, Hep3, and MERS, and used it to generate possible drugs for SARS-CoV-2. Several optimization algorithms, including valency masking and genetic algorithm, are deployed to fine tune our model. According to the simulation, our generated molecules have great effectiveness in inhibiting SARS-CoV-2. We quantitatively calculated the scores of our generated molecules and compared it with the scores of existing drugs, and the result shows our generated molecules scores much better than those existing drugs. Moreover, our model can be also applied to generate effective drugs for treating other viruses given their protein structure, which could be used to generate drugs for future viruses.
翻訳日:2021-04-26 12:55:13 公開日:2021-04-23
# リフレクションへの学習:データ駆動確率的制御戦略の統一的アプローチ

Learning to reflect: A unifying approach for data-driven stochastic control strategies ( http://arxiv.org/abs/2104.11496v1 )

ライセンス: Link先を確認
S\"oren Christensen, Claudia Strauch and Lukas Trottner(参考訳) 確率的最適制御問題は応用確率において長い伝統を持ち、多くの分野において高い関連性を持つ問題である。 理論解は多くのシナリオでよく理解されているが、その実践性は基礎となる確率過程の既知の力学の仮定に悩まされ、純粋にデータ駆動戦略を開発するという統計的課題を提起する。 連続拡散過程とL\'evy過程の数学的に分離されたクラスについて、関連する特異確率制御問題に対する効率的な戦略の開発は、制御問題の理論的解を決定するエルゴード過程の不変分布に関連するオブジェクトの超ノルムリスクに対する速度最適推定器の発見に本質的に還元できることを示す。 統計的観点からは、指数的$\beta$-mixing特性を両シナリオの共通因子として利用して収束解析を駆動し、マルコフ過程の一般的な安定性特性に依存することは、統計的方法を必要とする複雑なアプリケーションを扱うための十分強力で柔軟なアプローチであることを示す。 さらに、L\'evyの場合、各ジャンププロセスが統計学と制御理論の両方で扱うのが困難であるにもかかわらず、$-$は拡散の場合よりもはるかに優れた順序を後悔する完全なデータ駆動戦略であることを示す。

Stochastic optimal control problems have a long tradition in applied probability, with the questions addressed being of high relevance in a multitude of fields. Even though theoretical solutions are well understood in many scenarios, their practicability suffers from the assumption of known dynamics of the underlying stochastic process, raising the statistical challenge of developing purely data-driven strategies. For the mathematically separated classes of continuous diffusion processes and L\'evy processes, we show that developing efficient strategies for related singular stochastic control problems can essentially be reduced to finding rate-optimal estimators with respect to the sup-norm risk of objects associated to the invariant distribution of ergodic processes which determine the theoretical solution of the control problem. From a statistical perspective, we exploit the exponential $\beta$-mixing property as the common factor of both scenarios to drive the convergence analysis, indicating that relying on general stability properties of Markov processes is a sufficiently powerful and flexible approach to treat complex applications requiring statistical methods. We show moreover that in the L\'evy case $-$ even though per se jump processes are more difficult to handle both in statistics and control theory $-$ a fully data-driven strategy with regret of significantly better order than in the diffusion case can be constructed.
翻訳日:2021-04-26 12:54:55 公開日:2021-04-23
# 過渡条件独立

Transitional Conditional Independence ( http://arxiv.org/abs/2104.11547v1 )

ライセンス: Link先を確認
Patrick Forr\'e(参考訳) 我々は過渡条件独立の枠組みを開発する。 そこで,遷移確率空間と遷移確率変数を導入する。 これらの構成は、(条件付き)確率変数と非確率変数、(拡張された)確率的条件独立およびある種の機能的条件独立の概念を一般化し、強化し、統一する。 遷移条件独立性は一般に非対称であり、標準的、解析的、普遍的な可測空間上の対称性を除いて、セファロイド規則の左右バージョンで全ての所望の関連性を満たすことが示される。 準備として、遷移確率、すなわち遷移確率の分解定理を証明する。 これらの空間上の条件付きマルコフ核(正規)の存在と本質的一意性。 遷移条件独立は、充足性、充実性、無秩序性といった古典的な統計概念を表現できる。 アプリケーションとして、過渡条件独立性を用いて、強い一般性を持つ非確率的な入力変数を許容する因果図形モデルに対する有向グローバルマルコフ特性を証明できることを示す。 これはまた、観測的および介入的分布に関連する因果的do-calculusの主なルールを、そのような測定理論一般性で示せるようにもなります。

We develope the framework of transitional conditional independence. For this we introduce transition probability spaces and transitional random variables. These constructions will generalize, strengthen and unify previous notions of (conditional) random variables and non-stochastic variables, (extended) stochastic conditional independence and some form of functional conditional independence. Transitional conditional independence is asymmetric in general and it will be shown that it satisfies all desired relevance relations in terms of left and right versions of the separoid rules, except symmetry, on standard, analytic and universal measurable spaces. As a preparation we prove a disintegration theorem for transition probabilities, i.e. the existence and essential uniqueness of (regular) conditional Markov kernels, on those spaces. Transitional conditional independence will be able to express classical statistical concepts like sufficiency, adequacy and ancillarity. As an application, we will then show how transitional conditional independence can be used to prove a directed global Markov property for causal graphical models that allow for non-stochastic input variables in strong generality. This will then also allow us to show the main rules of causal do-calculus, relating observational and interventional distributions, in such measure theoretic generality.
翻訳日:2021-04-26 12:54:29 公開日:2021-04-23
# モデル予測制御のための最適コスト設計

Optimal Cost Design for Model Predictive Control ( http://arxiv.org/abs/2104.11353v1 )

ライセンス: Link先を確認
Avik Jain, Lawrence Chan, Daniel S. Brown, and Anca D. Dragan(参考訳) 多くのロボティクス領域は、計画に何らかの形で非凸モデル予測制御(MPC)を使用し、時間的地平線を減らし、軌道最適化を行い、全てのステップで再計画を行う。 実際のタスクは通常、計算可能よりもはるかに長い水平線を必要とし、その全水平線上に累積するコスト関数によって指定される。 例えば、自動運転車は、効率性、安全性、そして交通法に従うことの間のトレードオフを希望するコスト関数を持つかもしれない。 本研究は, MPC を用いて最適化するコストは, タスクの真理コスト(および端末コスト)と同じである,という一般的な仮定に挑戦する。 MPCソルバは、短い計画の地平線、局所的な最適性、誤った力学モデルに悩まされ、そして重要なことに、将来の計画能力の考慮に失敗する。 したがって、多くのタスクにおいて、MPCの計画軌道ではなく、MPCのロールアウトコストが低いMPCロールアウトを最適化するための異なるコスト関数を意図的に選択することは有益である。 我々はこれを最適コスト設計問題として定式化し、連続MDPにおけるMPC計画ロボットの最適コストを設計するためのゼロ階最適化に基づくアプローチを提案する。 当社のアプローチは、リプラン、短い地平線、不正なダイナミクスモデル、ローカルなミニマ問題に対して暗黙的に補償する、基底的真理とは異なるコストを、自律運転領域でテストします。 例えば、学習コストはmpcに決定を後まで遅らせるようインセンティブを与え、将来より多くの情報を得ることができ、より良い決定ができるという事実を暗黙的に説明します。 コードとビデオはhttps://sites.google .com/berkeley.edu/oc d-mpc/で入手できる。

Many robotics domains use some form of nonconvex model predictive control (MPC) for planning, which sets a reduced time horizon, performs trajectory optimization, and replans at every step. The actual task typically requires a much longer horizon than is computationally tractable, and is specified via a cost function that cumulates over that full horizon. For instance, an autonomous car may have a cost function that makes a desired trade-off between efficiency, safety, and obeying traffic laws. In this work, we challenge the common assumption that the cost we optimize using MPC should be the same as the ground truth cost for the task (plus a terminal cost). MPC solvers can suffer from short planning horizons, local optima, incorrect dynamics models, and, importantly, fail to account for future replanning ability. Thus, we propose that in many tasks it could be beneficial to purposefully choose a different cost function for MPC to optimize: one that results in the MPC rollout having low ground truth cost, rather than the MPC planned trajectory. We formalize this as an optimal cost design problem, and propose a zeroth-order optimization-based approach that enables us to design optimal costs for an MPC planning robot in continuous MDPs. We test our approach in an autonomous driving domain where we find costs different from the ground truth that implicitly compensate for replanning, short horizon, incorrect dynamics models, and local minima issues. As an example, the learned cost incentivizes MPC to delay its decision until later, implicitly accounting for the fact that it will get more information in the future and be able to make a better decision. Code and videos available at https://sites.google .com/berkeley.edu/oc d-mpc/.
翻訳日:2021-04-26 12:53:50 公開日:2021-04-23
# CNN年齢分類による乳幼児声道発達解析とCry信号による診断

Infant Vocal Tract Development Analysis and Diagnosis by Cry Signals with CNN Age Classification ( http://arxiv.org/abs/2104.11395v1 )

ライセンス: Link先を確認
Chunyan Ji and Yi Pan(参考訳) 泣き声からバブリング、そしてスピーチまで、幼児の声道は解剖学的再構成を経ている。 本稿では,乳児の涙信号と畳み込み神経回路(CNN)を用いた年齢分類を用いて,声道発達異常を早期に4カ月前に診断する方法を提案する。 F0, F1, F2, およびスペクトログラムについて検討し, 乳児発声後の発達との関連について検討した。 声道変化のパターンと傾向を明らかにするために,二元年齢ペアを用いて新しいcnnベースの年齢分類を行う。 このアプローチの有効性は, 健康な乳幼児の泣き声と, 病理的な乳幼児の泣き声のデータベースで評価された。 その結果,健常者では79.20%,窒息者では84.80%,難聴者では91.20%の精度が得られた。 まず,乳児の声道は4か月で一定のレベルまで発達し,乳児は声帯を制御して不連続な泣き声を生じさせうることを明らかにした。 声道の発育異常の早期診断は、親が警戒心を保ち、できるだけ早く乳幼児の医学的治療や訓練療法を採用するのに役立つ。

From crying to babbling and then to speech, infant's vocal tract goes through anatomic restructuring. In this paper, we propose a non-invasive fast method of using infant cry signals with convolutional neural network (CNN) based age classification to diagnose the abnormality of the vocal tract development as early as 4-month age. We study F0, F1, F2, and spectrograms and relate them to the postnatal development of infant vocalization. A novel CNN based age classification is performed with binary age pairs to discover the pattern and tendency of the vocal tract changes. The effectiveness of this approach is evaluated on Baby2020 with healthy infant cries and Baby Chillanto database with pathological infant cries. The results show that our approach yields 79.20% accuracy for healthy cries, 84.80% for asphyxiated cries, and 91.20% for deaf cries. Our method first reveals that infants' vocal tract develops to a certain level at 4-month age and infants can start controlling the vocal folds to produce discontinuous cry sounds leading to babbling. Early diagnosis of growth abnormality of the vocal tract can help parents keep vigilant and adopt medical treatment or training therapy for their infants as early as possible.
翻訳日:2021-04-26 12:53:18 公開日:2021-04-23
# 自律移動型オンデマンドシステムのためのグラフニューラルネットワーク強化学習

Graph Neural Network Reinforcement Learning for Autonomous Mobility-on-Demand Systems ( http://arxiv.org/abs/2104.11434v1 )

ライセンス: Link先を確認
Daniele Gammelli, Kaidi Yang, James Harrison, Filipe Rodrigues, Francisco C. Pereira, Marco Pavone(参考訳) 自律型モビリティ・オン・デマンドシステム(AMoD)は、移動要求をロボットと自動運転車の連携によって動的に処理する、急速に発展する交通手段である。 交通ネットワークのグラフ表現 - 例えば、ノードが都市のエリアを表現し、それらの間の接続をエッジする - が与えられた場合、AMoD制御問題は、当然ノードワイドな意思決定問題として扱われる、と我々は主張する。 本稿では,グラフニューラルネットワークによるAMoDシステムの再バランス制御のための深層強化学習フレームワークを提案する。 重要なのは、グラフニューラルネットワークによって強化学習エージェントが、他のアプローチで学んだポリシーよりもはるかに転送可能で汎用的でスケーラブルな行動ポリシーを回復できることである。 都市間一般化やサービスエリアの拡大,潜在的に複雑な都市トポロジへの適応といった重要なポータビリティタスクに直面した場合,学習方針がゼロショット転送能力を示すことを示す。

Autonomous mobility-on-demand (AMoD) systems represent a rapidly developing mode of transportation wherein travel requests are dynamically handled by a coordinated fleet of robotic, self-driving vehicles. Given a graph representation of the transportation network - one where, for example, nodes represent areas of the city, and edges the connectivity between them - we argue that the AMoD control problem is naturally cast as a node-wise decision-making problem. In this paper, we propose a deep reinforcement learning framework to control the rebalancing of AMoD systems through graph neural networks. Crucially, we demonstrate that graph neural networks enable reinforcement learning agents to recover behavior policies that are significantly more transferable, generalizable, and scalable than policies learned through other approaches. Empirically, we show how the learned policies exhibit promising zero-shot transfer capabilities when faced with critical portability tasks such as inter-city generalization, service area expansion, and adaptation to potentially complex urban topologies.
翻訳日:2021-04-26 12:52:57 公開日:2021-04-23
# 羽の鳥が群がる:マルチエージェントrlによる協力の出現をよく見る

Birds of a Feather Flock Together: A Close Look at Cooperation Emergence via Multi-Agent RL ( http://arxiv.org/abs/2104.11455v1 )

ライセンス: Link先を確認
Heng Dong, Tonghan Wang, Jiayuan Liu, Chongjie Zhang(参考訳) 協力の出現は長年にわたる学際的な問題である。 社会ジレンマに関するゲーム理論的研究は、利他的なインセンティブが協力の出現に不可欠であるが、その分析はステートレスゲームに限られていることを示している。 より現実的なシナリオでは、連続的な社会的ジレンマ(SSD)の研究にマルチエージェント強化学習が用いられている。 最近の研究は、他のエージェントにインセンティブを与える学習がssdでの協調を促進することを示している。 しかしながら、これらのインセンティブ化メカニズムによって、チーム協力レベルは収束せず、学習中の協力と欠陥の間に定期的に振動する。 これらのインセンティブ機構から生じる二階の社会的ジレンマが,このような脆弱な協力の主な原因であることを示す。 この二階の社会的ジレンマのダイナミクスを分析し、ホモフィリーと呼ばれる人間の典型的な傾向がこの問題を解決できることを見出す。 そこで本研究では,公共財のジレンマと庶民ジレンマの悲劇の両方において,安定した協調を実現するための新しい学習枠組みを提案する。

How cooperation emerges is a long-standing and interdisciplinary problem. Game-theoretical studies on social dilemmas reveal that altruistic incentives are critical to the emergence of cooperation but their analyses are limited to stateless games. For more realistic scenarios, multi-agent reinforcement learning has been used to study sequential social dilemmas (SSDs). Recent works show that learning to incentivize other agents can promote cooperation in SSDs. However, with these incentivizing mechanisms, the team cooperation level does not converge and regularly oscillates between cooperation and defection during learning. We show that a second-order social dilemma resulting from these incentive mechanisms is the main reason for such fragile cooperation. We analyze the dynamics of this second-order social dilemma and find that a typical tendency of humans, called homophily, can solve the problem. We propose a novel learning framework to encourage incentive homophily and show that it achieves stable cooperation in both public goods dilemma and tragedy of the commons dilemma.
翻訳日:2021-04-26 12:52:39 公開日:2021-04-23
# DeepSpectrumLite: 分散データからの組込み音声とオーディオ処理のための高効率トランスファー学習フレームワーク

DeepSpectrumLite: A Power-Efficient Transfer Learning Framework for Embedded Speech and Audio Processing from Decentralised Data ( http://arxiv.org/abs/2104.11629v1 )

ライセンス: Link先を確認
Shahin Amiriparian (1), Tobias H\"ubner (1), Maurice Gerczuk (1), Sandra Ottl (1), Bj\"orn W. Schuller (1,2) ((1) EIHW -- Chair of Embedded Intelligence for Health Care and Wellbeing, University of Augsburg, Germany, (2) GLAM -- Group on Language, Audio, and Music, Imperial College London, UK)(参考訳) ディープニューラルネットワークとオーディオ処理システムは、多くのトレーニング可能なパラメータを持ち、比較的複雑なアーキテクチャを持ち、膨大なトレーニングデータと計算能力を必要とする。 これらの制約により、そのようなシステムを組み込みデバイスに統合し、リアルタイムで現実世界のアプリケーションに利用することがより困難になる。 画像畳み込みニューラルネットワーク(cnns)を用いた,デバイス上での音声および音声認識のための,オープンソースの軽量トランスファー学習フレームワークであるdeepspectrumliteを導入することで,これらの制限に対処した。 このフレームワークは、Mel-spectrogramプロットを生音声信号からオンザフライで作成、拡張し、ターゲット分類タスクのために特定のトレーニング済みCNNを微調整する。 その後、DenseNet121モデルがコンシューマグレードのMotorola moto e7+スマートフォンで使用される場合、パイプライン全体を242.0ミリ秒の推論ラグでリアルタイムに実行できる。 DeepSpectrumLiteは分散処理で動作し、さらなる処理のためにデータアップロードを不要にする。 パラ言語的タスクの集合に対する最先端結果を得ることにより,データが少ない場合でも,組込み音声信号処理における伝達学習手法の適合性を実証する。 ユーザと開発者にとって広範なコマンドラインインターフェースを提供しており、https://github.com/D eepSpectrum/DeepSpec trumLite.comで公開されています。

Deep neural speech and audio processing systems have a large number of trainable parameters, a relatively complex architecture, and require a vast amount of training data and computational power. These constraints make it more challenging to integrate such systems into embedded devices and utilise them for real-time, real-world applications. We tackle these limitations by introducing DeepSpectrumLite, an open-source, lightweight transfer learning framework for on-device speech and audio recognition using pre-trained image convolutional neural networks (CNNs). The framework creates and augments Mel-spectrogram plots on-the-fly from raw audio signals which are then used to finetune specific pre-trained CNNs for the target classification task. Subsequently, the whole pipeline can be run in real-time with a mean inference lag of 242.0 ms when a DenseNet121 model is used on a consumer-grade Motorola moto e7 plus smartphone. DeepSpectrumLite operates decentralised, eliminating the need for data upload for further processing. By obtaining state-of-the-art results on a set of paralinguistics tasks, we demonstrate the suitability of the proposed transfer learning approach for embedded audio signal processing, even when data is scarce. We provide an extensive command-line interface for users and developers which is comprehensively documented and publicly available at https://github.com/D eepSpectrum/DeepSpec trumLite.
翻訳日:2021-04-26 12:52:22 公開日:2021-04-23
# (参考訳) Token Labeling: ImageNet上で56Mパラメータを持つ85.4%のTop-1精度ビジョントランスのトレーニング [全文訳有]

Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet ( http://arxiv.org/abs/2104.10858v2 )

ライセンス: CC BY 4.0
Zihang Jiang, Qibin Hou, Li Yuan, Daquan Zhou, Xiaojie Jin, Anran Wang, Jiashi Feng(参考訳) 本稿では,imagenet分類タスクにおける視覚トランスフォーマの強力なベースラインを提供する。 最近のビジョントランスフォーマーは、ImageNet分類において有望な結果を示しているが、そのパフォーマンスは、ほぼ同じモデルサイズで強力な畳み込みニューラルネットワーク(CNN)よりも遅れている。 本研究では,新しいトランスフォーマーアーキテクチャを記述する代わりに,イメージネット分類におけるビジョントランスフォーマーの可能性を探究する。 視覚トランスフォーマーの構造を微調整し、トークンラベリングを導入することで、新たなトレーニング目標として、同様のトレーニングパラメータと計算量を持つcnnや他のトランスフォーマーベースの分類モデルよりも優れた結果が得られることを示した。 例えば、26Mの学習可能なパラメータを持つ視覚変換器を用いて、ImageNet上で84.4%のTop-1精度を達成できる。 モデルサイズが56m/150mまでスケールすると、追加のデータなしでさらに85.4%/86.2%に拡大できる。 この研究は、強力な視覚トランスフォーマーを訓練するための有用な技術を提供することを願っている。 私たちのコードとトレーニングの詳細はhttps://github.com/z ihangJiang/TokenLabe ling.comで公開されます。

This paper provides a strong baseline for vision transformers on the ImageNet classification task. While recent vision transformers have demonstrated promising results in ImageNet classification, their performance still lags behind powerful convolutional neural networks (CNNs) with approximately the same model size. In this work, instead of describing a novel transformer architecture, we explore the potential of vision transformers in ImageNet classification by developing a bag of training techniques. We show that by slightly tuning the structure of vision transformers and introducing token labeling -- a new training objective, our models are able to achieve better results than the CNN counterparts and other transformer-based classification models with similar amount of training parameters and computations. Taking a vision transformer with 26M learnable parameters as an example, we can achieve an 84.4% Top-1 accuracy on ImageNet. When the model size is scaled up to 56M/150M, the result can be further increased to 85.4%/86.2% without extra data. We hope this study could provide researchers with useful techniques to train powerful vision transformers. Our code and all the training details will be made publicly available at https://github.com/z ihangJiang/TokenLabe ling.
翻訳日:2021-04-26 11:50:04 公開日:2021-04-23
# (参考訳) 完全畳み込み線解析 [全文訳有]

Fully Convolutional Line Parsing ( http://arxiv.org/abs/2104.11207v2 )

ライセンス: CC0 1.0
Xili Dai, Xiaojun Yuan, Haigang Gong, Yi Ma(参考訳) 画像から線分を検出する一段階のF-Clip(Fully Convolutional Line Parsing Network)を提案する。 提案するネットワークは非常にシンプルで柔軟性があり、異なるアプリケーションの速度と精度を優雅にトレードオフするバリエーションがある。 F-Clipは、各行の中央位置、長さ、角度で予測することで、ラインセグメントをエンドツーエンドで検出する。 実画像データセットにおける線分角分布の実証的観察に基づき, 畳み込みネットワークの畳み込みカーネルの設計をさらにカスタマイズし, このような統計的事前化を効果的に活用する。 提案手法は,1つのGPU上で最大73FPSのリアルタイムライン検出器を実現することにより,効率と精度のトレードオフを著しく向上することを示す。 このような推論速度は,従来の手法の精度を損なうことなく,リアルタイムタスクに容易に適用できる。 さらに、性能改善バックボーンネットワークを備えた場合、F-Clipは、同じまたはそれ以上のフレームレートで精度で全ての最先端ライン検出器を著しく上回ることができる。 ソースコード https://github.com/D elay-Xili/F-Clip.com

We present a one-stage Fully Convolutional Line Parsing network (F-Clip) that detects line segments from images. The proposed network is very simple and flexible with variations that gracefully trade off between speed and accuracy for different applications. F-Clip detects line segments in an end-to-end fashion by predicting them with each line's center position, length, and angle. Based on empirical observation of the distribution of line angles in real image datasets, we further customize the design of convolution kernels of our fully convolutional network to effectively exploit such statistical priors. We conduct extensive experiments and show that our method achieves a significantly better trade-off between efficiency and accuracy, resulting in a real-time line detector at up to 73 FPS on a single GPU. Such inference speed makes our method readily applicable to real-time tasks without compromising any accuracy of previous methods. Moreover, when equipped with a performance-improvin g backbone network, F-Clip is able to significantly outperform all state-of-the-art line detectors on accuracy at a similar or even higher frame rate. Source code https://github.com/D elay-Xili/F-Clip.
翻訳日:2021-04-26 11:34:15 公開日:2021-04-23
# ニューラルネットワークロスランドスケープにおける単調線形補間の解析

Analyzing Monotonic Linear Interpolation in Neural Network Loss Landscapes ( http://arxiv.org/abs/2104.11044v2 )

ライセンス: Link先を確認
James Lucas, Juhan Bae, Michael R. Zhang, Stanislav Fort, Richard Zemel, Roger Grosse(参考訳) 確率勾配降下(SGD)によるトレーニング後の初期ニューラルネットワークパラメータと収束パラメータの線形補間は、訓練目標の単調な減少につながる。 この単調線形補間(MLI)特性はGoodfellowらによって初めて観察された。 2014年) ニューラルネットワークの非凸目的と高度に非線形なトレーニングダイナミクスにもかかわらず継続する。 この研究を拡張し、この性質について、我々の知る限り、まだ研究されていないいくつかの仮説を評価する。 微分幾何学のツールを用いて、関数空間における補間経路と平均二乗誤差の下でのMLI特性に対する十分な条件を満たすネットワークの単調性との間の接続を描く。 MLIプロパティはさまざまな設定(例)で保持される。 ネットワークアーキテクチャと学習問題) MLIプロパティに違反するネットワークは,初期化から遠ざかる重みを奨励することにより,体系的に生成可能であることを示す。 MLIプロパティは、ニューラルネットワークの損失ランドスケープ幾何学に関する重要な疑問を提起し、そのグローバルな特性をさらに研究する必要性を強調している。

Linear interpolation between initial neural network parameters and converged parameters after training with stochastic gradient descent (SGD) typically leads to a monotonic decrease in the training objective. This Monotonic Linear Interpolation (MLI) property, first observed by Goodfellow et al. (2014) persists in spite of the non-convex objectives and highly non-linear training dynamics of neural networks. Extending this work, we evaluate several hypotheses for this property that, to our knowledge, have not yet been explored. Using tools from differential geometry, we draw connections between the interpolated paths in function space and the monotonicity of the network - providing sufficient conditions for the MLI property under mean squared error. While the MLI property holds under various settings (e.g. network architectures and learning problems), we show in practice that networks violating the MLI property can be produced systematically, by encouraging the weights to move far from initialization. The MLI property raises important questions about the loss landscape geometry of neural networks and highlights the need to further study their global properties.
翻訳日:2021-04-26 11:21:32 公開日:2021-04-23
# the road less travel: 歩行シミュレーターの試作と失敗

The Road Less Travelled: Trying And Failing To Generate Walking Simulators ( http://arxiv.org/abs/2104.10789v2 )

ライセンス: Link先を確認
Michael Cook(参考訳) 自動ゲーム設計は急速に拡大する研究分野であるが、ほとんどのシステムは明確な目的とゴール指向のゲームプレイを持つ二次元ゲームに焦点を当てているため、ゲーム設計の多くの側面はいまだにほとんど見当たらない。 本稿では,空間,雰囲気,経験に重点を置いた3dゲームのための自動ゲームデザイナー構築の試みについて述べる。 我々は、これらのシステムの構築の試み、なぜ失敗したのか、そして将来の試みにどのようなステップと将来の作業が役立つと信じているのかを説明します。

Automated game design is a rapidly growing area of research, yet many aspects of game design lie largely unexamined still, as most systems focus on two-dimensional games with clear objectives and goal-oriented gameplay. This paper describes several attempts to build an automated game designer for 3D games more focused on space, atmosphere and experience. We describe our attempts to build these systems, why they failed, and what steps and future work we believe would be useful for future attempts by others.
翻訳日:2021-04-26 11:21:14 公開日:2021-04-23
# METGAN:光シート顕微鏡におけるTumour InpaintingとModality Synthesis

METGAN: Generative Tumour Inpainting and Modality Synthesis in Light Sheet Microscopy ( http://arxiv.org/abs/2104.10993v2 )

ライセンス: Link先を確認
Izabela Horvath, Johannes C. Paetzold, Oliver Schoppe, Rami Al-Maskari, Ivan Ezhov, Suprosanna Shit, Hongwei Li, Ali Ertuerk, Bjoern H. Menze(参考訳) 新たなマルチモーダルイメージング手法は、先臨床研究のための超高解像度データセットを生成することができる。 しかし、アノテーションの欠如により、このようなデータ分析にディープラーニングが広く使われるのを防いでいる。 これまでのところ、頻繁なラベルエラーのため、既存の生成モデルではこの問題を緩和できていない。 本稿では,実際の解剖情報を活用し,腫瘍の現実的な画像ラベル対を生成する新しい生成法を提案する。 解剖学的画像とラベルのためのデュアルパス生成器を構築し, 独立して事前学習されたセグメンタによって制約された, サイクル一貫性のある設定で学習する。 生成した画像は,既存の手法に比べて定量的に顕著に改善された。 合成の質を検証するため,合成データを付加したデータセット上でセグメンテーションネットワークを訓練し,ベースライン上のセグメンテーションを大幅に改善した。

Novel multimodal imaging methods are capable of generating extensive, super high resolution datasets for preclinical research. Yet, a massive lack of annotations prevents the broad use of deep learning to analyze such data. So far, existing generative models fail to mitigate this problem because of frequent labeling errors. In this paper, we introduce a novel generative method which leverages real anatomical information to generate realistic image-label pairs of tumours. We construct a dual-pathway generator, for the anatomical image and label, trained in a cycle-consistent setup, constrained by an independent, pretrained segmentor. The generated images yield significant quantitative improvement compared to existing methods. To validate the quality of synthesis, we train segmentation networks on a dataset augmented with the synthetic data, substantially improving the segmentation over baseline.
翻訳日:2021-04-26 11:21:04 公開日:2021-04-23
# 二酸化炭素排出量と大規模ニューラルネットワークトレーニング

Carbon Emissions and Large Neural Network Training ( http://arxiv.org/abs/2104.10350v3 )

ライセンス: Link先を確認
David Patterson, Joseph Gonzalez, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, Jeff Dean(参考訳) 機械学習(ML)の計算需要は最近急速に増加しており、多くのコストが伴っている。 エネルギーコストの推定は環境への影響を測定し、よりグリーンな戦略を見つけるのに役立つが、詳細な情報なしでは困難である。 我々は,最近の大規模モデルであるt5, meena, gshard, switch transformer, gpt-3のエネルギー使用量とカーボンフットプリントを計算し,進化したトランスフォーマーを発見したニューラルネットワーク探索の初期の推定を洗練する。 エネルギー効率とCO2排出量(CO2e)を改善するための次の機会を強調する: 大きいが疎に活性化されたDNNは、多くのパラメータを使用しながら精度を犠牲にすることなく、大きくて密度の高いDNNの1/10のエネルギーを消費することができる。 MLワークロードスケジューリングの地理的な場所は、カーボンフリーエネルギーのごく一部と結果のCO2eは、同じ国と同じ組織内であっても、約5X-10Xが異なるためである。 現在、大規模モデルのトレーニングの場所と時期を最適化しています。 データセンターのインフラは、典型的なデータセンターよりも1.4~2倍エネルギー効率が良く、内部のML指向アクセラレータは、既製のシステムよりも2~5倍効率が良い。 注目すべきは、DNN、データセンター、プロセッサの選択により、カーボンフットプリントを最大100-1000Xまで削減できることだ。 これらの大きな要因は、エネルギーコストの遡及的な見積もりを困難にする。 計算ミスを回避するため,大規模な計算資源を必要とするML論文はエネルギー消費とCO2eを明確にする必要がある。 我々は、将来の研究でエネルギー利用とCO2eをより透明にするために取り組んでいます。 MLの炭素フットプリントを減らすために、私たちは、エネルギー使用量とCO2eがモデルを評価する上で重要な指標であるべきだと考えています。

The computation demand for machine learning (ML) has grown rapidly recently, which comes with a number of costs. Estimating the energy cost helps measure its environmental impact and finding greener strategies, yet it is challenging without detailed information. We calculate the energy use and carbon footprint of several recent large models-T5, Meena, GShard, Switch Transformer, and GPT-3-and refine earlier estimates for the neural architecture search that found Evolved Transformer. We highlight the following opportunities to improve energy efficiency and CO2 equivalent emissions (CO2e): Large but sparsely activated DNNs can consume <1/10th the energy of large, dense DNNs without sacrificing accuracy despite using as many or even more parameters. Geographic location matters for ML workload scheduling since the fraction of carbon-free energy and resulting CO2e vary ~5X-10X, even within the same country and the same organization. We are now optimizing where and when large models are trained. Specific datacenter infrastructure matters, as Cloud datacenters can be ~1.4-2X more energy efficient than typical datacenters, and the ML-oriented accelerators inside them can be ~2-5X more effective than off-the-shelf systems. Remarkably, the choice of DNN, datacenter, and processor can reduce the carbon footprint up to ~100-1000X. These large factors also make retroactive estimates of energy cost difficult. To avoid miscalculations, we believe ML papers requiring large computational resources should make energy consumption and CO2e explicit when practical. We are working to be more transparent about energy use and CO2e in our future research. To help reduce the carbon footprint of ML, we believe energy usage and CO2e should be a key metric in evaluating models, and we are collaborating with MLPerf developers to include energy usage during training and inference in this industry standard benchmark.
翻訳日:2021-04-26 11:20:48 公開日:2021-04-23
# 3次元点雲からのボクセル構造に基づくメッシュ再構成

Voxel Structure-based Mesh Reconstruction from a 3D Point Cloud ( http://arxiv.org/abs/2104.10622v3 )

ライセンス: Link先を確認
Chenlei Lv, Weisi Lin, Baoquan Zhao(参考訳) 3Dポイントクラウドからのメッシュ再構築は、コンピュータグラフィック、コンピュータビジョン、マルチメディア分析の分野で重要なトピックである。 本稿では,ボクセル構造に基づくメッシュ再構築フレームワークを提案する。 局所領域検出の精度を向上させるための本質的な指標を提供する。 検出された局所領域に基づいて、初期再構成メッシュを得ることができる。 我々のフレームワークにおけるメッシュ最適化では、初期再構成メッシュは、外部エッジや内部エッジといった重要な幾何学的特徴を持つ等方的メッシュに最適化される。 実験の結果,メッシュ品質,幾何的特徴保持,処理速度の点で,我々のフレームワークはピアに比べて大きな優位性を示した。

Mesh reconstruction from a 3D point cloud is an important topic in the fields of computer graphic, computer vision, and multimedia analysis. In this paper, we propose a voxel structure-based mesh reconstruction framework. It provides the intrinsic metric to improve the accuracy of local region detection. Based on the detected local regions, an initial reconstructed mesh can be obtained. With the mesh optimization in our framework, the initial reconstructed mesh is optimized into an isotropic one with the important geometric features such as external and internal edges. The experimental results indicate that our framework shows great advantages over peer ones in terms of mesh quality, geometric feature keeping, and processing speed.
翻訳日:2021-04-26 11:20:13 公開日:2021-04-23