このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200711となっている論文です。

PDF登録状況(公開日: 20200711)

TitleAuthorsAbstract論文公表日・翻訳日
# 生物配列設計のための集団ベースブラックボックス最適化

Population-Based Black-Box Optimization for Biological Sequence Design ( http://arxiv.org/abs/2006.03227v2 )

ライセンス: Link先を確認
Christof Angermueller, David Belanger, Andreea Gane, Zelda Mariet, David Dohan, Kevin Murphy, Lucy Colwell, D Sculley(参考訳) 新たな生物配列の設計にブラックボックス最適化を用いることは、潜在的に革命的な影響を持つ新たな研究分野である。 ウェットラボ実験のコストと待ち時間には、いくつかの実験的なバッチで良好なシーケンスを見つける方法が必要となる。 既存の手法の性能は最適化タスクによって大きく異なり、現実のアプリケーションにとって大きな障害となる。 ロバスト性を改善するため,提案手法のアンサンブルからサンプリングしてシーケンスのバッチを生成するP3BO(Population-Based Black-Box Optimization)を提案する。 任意の方法からサンプリングされた配列の数は、以前に提案した配列の品質に比例し、P3BOは個々の手法の強度を自然の脆さに対抗しながら組み合わせることができる。 オンライン上の各メソッドのハイパーパラメータを進化的最適化を用いて適応させることで、パフォーマンスはさらに向上する。 シリコン内最適化タスクに関する広範な実験を通じて、P3BOは、より高品質なシーケンスとより多様なバッチを提案しながら、その集団において、どの方法よりも優れていることを示す。 このように、P3BOとAdaptive-P3BOは、MLを現実世界のシーケンス設計にデプロイするための重要なステップである。

The use of black-box optimization for the design of new biological sequences is an emerging research area with potentially revolutionary impact. The cost and latency of wet-lab experiments requires methods that find good sequences in few experimental rounds of large batches of sequences--a setting that off-the-shelf black-box optimization methods are ill-equipped to handle. We find that the performance of existing methods varies drastically across optimization tasks, posing a significant obstacle to real-world applications. To improve robustness, we propose Population-Based Black-Box Optimization (P3BO), which generates batches of sequences by sampling from an ensemble of methods. The number of sequences sampled from any method is proportional to the quality of sequences it previously proposed, allowing P3BO to combine the strengths of individual methods while hedging against their innate brittleness. Adapting the hyper-parameters of each of the methods online using evolutionary optimization further improves performance. Through extensive experiments on in-silico optimization tasks, we show that P3BO outperforms any single method in its population, proposing higher quality sequences as well as more diverse batches. As such, P3BO and Adaptive-P3BO are a crucial step towards deploying ML to real-world sequence design.
翻訳日:2022-11-25 02:24:13 公開日:2020-07-11
# イメージベース植物育種におけるアクティブラーニングの有用性

How useful is Active Learning for Image-based Plant Phenotyping? ( http://arxiv.org/abs/2006.04255v3 )

ライセンス: Link先を確認
Koushik Nagasubramanian, Talukder Z. Jubery, Fateme Fotouhi Ardakani, Seyed Vahid Mirnezami, Asheesh K. Singh, Arti Singh, Soumik Sarkar, and Baskar Ganapathysubramanian(参考訳) 深層学習モデルは、病気の検出や分類を含む多様なイメージベースの植物表現型アプリケーションのために、うまく展開されている。 しかし、教師付きディープラーニングモデルのデプロイの成功には、大量のラベル付きデータが必要である。 特に、データアノテーションは費用がかかり、労力がかかり、時間もかかり、特に病気に対する表現型タスクにはドメインの専門知識が必要です。 この課題を克服するために,ディープラーニングモデルが優れた予測性能を達成するために必要なラベル付け量を削減できる能動的学習アルゴリズムが提案されている。 アクティブラーニング手法は, 取得関数を用いてアノテートするサンプルを適応的に選択し, 固定ラベル付予算下での最大(分類)性能を実現する。 本報告では,(1)深部ベイズアクティブラーニング(dbal),(2)エントロピー(エントロピー),(3)最小信頼度,(4)コアセットの4つの異なるアクティブラーニング手法について,従来のランダムサンプリング型アノテーションを用いた2種類の画像ベース分類データセットの性能について報告する。 第1の画像データセットはダイズ(グリシンマックスl. (merr.))の葉を8つの異なるダイズストレスと健康なクラスに分け、第2のデータセットは9種の雑草から成り立っている。 固定的なラベリング予算では,データセットのランダムサンプリングによる獲得よりも,アクティブな学習に基づく獲得戦略を持つディープラーニングモデルの分類性能が優れていることがわかった。 データアノテーションに対するアクティブな学習戦略の統合は、特に深いドメイン知識が必要な植物科学アプリケーションにおけるラベリングの課題を軽減するのに役立つ。

Deep learning models have been successfully deployed for a diverse array of image-based plant phenotyping applications including disease detection and classification. However, successful deployment of supervised deep learning models requires large amount of labeled data, which is a significant challenge in plant science (and most biological) domains due to the inherent complexity. Specifically, data annotation is costly, laborious, time consuming and needs domain expertise for phenotyping tasks, especially for diseases. To overcome this challenge, active learning algorithms have been proposed that reduce the amount of labeling needed by deep learning models to achieve good predictive performance. Active learning methods adaptively select samples to annotate using an acquisition function to achieve maximum (classification) performance under a fixed labeling budget. We report the performance of four different active learning methods, (1) Deep Bayesian Active Learning (DBAL), (2) Entropy, (3) Least Confidence, and (4) Coreset, with conventional random sampling-based annotation for two different image-based classification datasets. The first image dataset consists of soybean [Glycine max L. (Merr.)] leaves belonging to eight different soybean stresses and a healthy class, and the second consists of nine different weed species from the field. For a fixed labeling budget, we observed that the classification performance of deep learning models with active learning-based acquisition strategies is better than random sampling-based acquisition for both datasets. The integration of active learning strategies for data annotation can help mitigate labelling challenges in the plant sciences applications particularly where deep domain knowledge is required.
翻訳日:2022-11-24 08:22:25 公開日:2020-07-11
# edcompress: データフローのためのエネルギアウェアモデル圧縮

EDCompress: Energy-Aware Model Compression for Dataflows ( http://arxiv.org/abs/2006.04588v2 )

ライセンス: Link先を確認
Zhehui Wang, Tao Luo, Joey Tianyi Zhou, Rick Siow Mong Goh(参考訳) エッジデバイスは低エネルギー消費、コスト、小型フォームファクターを必要とする。 エッジデバイスに畳み込みニューラルネットワーク(CNN)モデルを効率よくデプロイするには,エネルギーを考慮したモデル圧縮が極めて重要である。 しかし、ハードウェアアーキテクチャにおけるデータフロータイプの多様性を考慮しないため、既存の研究はこの問題を十分に研究していなかった。 本稿では,各種データフローのエネルギーを考慮したモデル圧縮手法であるEDCompressを提案する。 様々なエッジデバイスのエネルギー消費を、異なるデータフロータイプで効果的に削減することができる。 モデル圧縮プロシージャの性質を考慮し、最適化プロセスを多段階問題に再キャストし、強化学習アルゴリズムを用いて解決する。 実験の結果、EDCompressはVGG-16、MobileNet、LeNet-5ネットワークでそれぞれ20X、17X、37Xのエネルギー効率を向上でき、精度が低下することが示された。 edcompressは、ハードウェアシステムへのcnnモデルの配置を導くエネルギー消費の観点から、特定のニューラルネットワークのための最適なデータフロータイプを見つけることもできる。

Edge devices demand low energy consumption, cost and small form factor. To efficiently deploy convolutional neural network (CNN) models on edge device, energy-aware model compression becomes extremely important. However, existing work did not study this problem well because the lack of considering the diversity of dataflow types in hardware architectures. In this paper, we propose EDCompress, an Energy-aware model compression method for various Dataflows. It can effectively reduce the energy consumption of various edge devices, with different dataflow types. Considering the very nature of model compression procedures, we recast the optimization process to a multi-step problem, and solve it by reinforcement learning algorithms. Experiments show that EDCompress could improve 20X, 17X, 37X energy efficiency in VGG-16, MobileNet, LeNet-5 networks, respectively, with negligible loss of accuracy. EDCompress could also find the optimal dataflow type for specific neural networks in terms of energy consumption, which can guide the deployment of CNN models on hardware systems.
翻訳日:2022-11-24 00:42:11 公開日:2020-07-11
# 学習フローを用いたロバストモデルトレーニングと一般化

Robust model training and generalisation with Studentising flows ( http://arxiv.org/abs/2006.06599v2 )

ライセンス: Link先を確認
Simon Alexanderson, Gustav Eje Henter(参考訳) 正規化フロー(英: normalising flow)は、学習の力を活用して幅広いパラメトリックな分布族を記述することのできる、学習可能な確率モデルである。 我々は,ロバスト統計(特に耐性統計)の知見に基づいて,これらの手法をさらに改善する方法について論じる。 具体的には,従来の正規化フローで用いられるガウス分布の簡易な代替として,多変量学生の$t$のような太い潜伏分布を持つフローベースモデルを提案する。 堅牢性は多くの利点をもたらすが、本論文は2つの利点を考察する。 1)fatter-tailed base distributionsの使用は勾配クリッピングと同様の利点を与えるが,漸近的一貫性を損なわない。 2) 一般化ギャップの低減と保持データ可能性の向上によるモデルへの頑健なアイデアの導出についても論じる。 複数の異なるデータセットにおける実験により、どちらの点においても提案手法の有効性が確認された。

Normalising flows are tractable probabilistic models that leverage the power of deep learning to describe a wide parametric family of distributions, all while remaining trainable using maximum likelihood. We discuss how these methods can be further improved based on insights from robust (in particular, resistant) statistics. Specifically, we propose to endow flow-based models with fat-tailed latent distributions such as multivariate Student's $t$, as a simple drop-in replacement for the Gaussian distribution used by conventional normalising flows. While robustness brings many advantages, this paper explores two of them: 1) We describe how using fatter-tailed base distributions can give benefits similar to gradient clipping, but without compromising the asymptotic consistency of the method. 2) We also discuss how robust ideas lead to models with reduced generalisation gap and improved held-out data likelihood. Experiments on several different datasets confirm the efficacy of the proposed approach in both regards.
翻訳日:2022-11-22 10:11:41 公開日:2020-07-11
# ゼロ階決定論的政策勾配

Zeroth-order Deterministic Policy Gradient ( http://arxiv.org/abs/2006.07314v2 )

ライセンス: Link先を確認
Harshat Kumar and Dionysios S. Kalogerias and George J. Pappas and Alejandro Ribeiro(参考訳) 決定論的ポリシーグラディエント(DPG)は、標準的なランダム化アクションポリシーグラディエント(PG)からランダム性のレベルを取り除き、マルコフ決定プロセスを含む複雑な動的問題に対処するための経験的成功を示す。 しかし同時に、DSGはモデルフリー(つまりアクターのみ)な方法で学習する能力を失い、関連する政策回帰勾配の一貫性のある推定を得るためには、しばしば批評家の使用を必要とする。 本研究では,ZDPG(Zeroth-order Deterministic Policy Gradient)を導入し,低次元動作空間の摂動を適切に設計したQ$関数の2点確率的評価により,政策回帰勾配を近似する。 Q$関数の偏りのない見積もりを得るためにランダムな水平展開というアイデアを発明し、ZDPGは批判への依存を解き、真のモデルなし政策学習を復活させ、組込みで証明可能なアルゴリズム安定性を享受する。 さらに、ZDPGに対する新しい有限標本複雑性境界を提案し、最大2桁の精度で既存の結果を改善する。 本研究は, ZDPG の有効性と PG と Baseline PG の両面での優位性を示す数値実験により裏付けられた。

Deterministic Policy Gradient (DPG) removes a level of randomness from standard randomized-action Policy Gradient (PG), and demonstrates substantial empirical success for tackling complex dynamic problems involving Markov decision processes. At the same time, though, DPG loses its ability to learn in a model-free (i.e., actor-only) fashion, frequently necessitating the use of critics in order to obtain consistent estimates of the associated policy-reward gradient. In this work, we introduce Zeroth-order Deterministic Policy Gradient (ZDPG), which approximates policy-reward gradients via two-point stochastic evaluations of the $Q$-function, constructed by properly designed low-dimensional action-space perturbations. Exploiting the idea of random horizon rollouts for obtaining unbiased estimates of the $Q$-function, ZDPG lifts the dependence on critics and restores true model-free policy learning, while enjoying built-in and provable algorithmic stability. Additionally, we present new finite sample complexity bounds for ZDPG, which improve upon existing results by up to two orders of magnitude. Our findings are supported by several numerical experiments, which showcase the effectiveness of ZDPG in a practical setting, and its advantages over both PG and Baseline PG.
翻訳日:2022-11-22 03:53:05 公開日:2020-07-11
# ADMMを用いた制約付きCASH問題の解法

Solving Constrained CASH Problems with ADMM ( http://arxiv.org/abs/2006.09635v2 )

ライセンス: Link先を確認
Parikshit Ram, Sijia Liu, Deepak Vijaykeerthi, Dakuo Wang, Djallel Bouneffouf, Greg Bramble, Horst Samulowitz, Alexander G. Gray(参考訳) CASH問題は機械学習(ML)パイプラインの自動構成の文脈で広く研究されており、様々な解決器やツールキットが利用可能である。 しかし、CASHソルバは、公正性、堅牢性、その他のドメイン固有のカスタム制約などのブラックボックス制約を直接処理しない。 我々は、admm最適化フレームワークを利用して現金を複数の小さな問題に分解する最近のアプローチ(liu, et al., 2020)を紹介し、admmがブラックボックス制約の導入をいかに促進しているかを示す。

The CASH problem has been widely studied in the context of automated configurations of machine learning (ML) pipelines and various solvers and toolkits are available. However, CASH solvers do not directly handle black-box constraints such as fairness, robustness or other domain-specific custom constraints. We present our recent approach [Liu, et al., 2020] that leverages the ADMM optimization framework to decompose CASH into multiple small problems and demonstrate how ADMM facilitates incorporation of black-box constraints.
翻訳日:2022-11-19 20:18:33 公開日:2020-07-11
# X-ModalNet:リモートセンシングデータの分類のための半スーパービジョンディープクロスモーダルネットワーク

X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for Classification of Remote Sensing Data ( http://arxiv.org/abs/2006.13806v2 )

ライセンス: Link先を確認
Danfeng Hong, Naoto Yokoya, Gui-Song Xia, Jocelyn Chanussot, Xiao Xiang Zhu(参考訳) 本稿では,リモートセンシングにおけるクロスモーダルデータによる半教師ありトランスファー学習の問題に対処する。 マルチスペクトル画像(MSI)や合成開口レーダ(SAR)データなどの多モード地球観測画像は、グローバルスケールで公開されており、リモートセンシング画像を通して地球規模の都市景観を解析することができる。 しかし, ノイズの多い収集環境や識別情報が乏しいこと, 注釈付き訓練画像の数が限られていることなどから, 資料の識別能力(画素単位の分類)は依然として限られている。 そこで本研究では,大規模MSIデータやSARデータを用いて,小規模ハイパースペクトル画像(HSI)からより識別性の高い情報を分類タスクに転送することを学ぶことで,自己学習モジュール,インタラクティブ学習モジュール,ラベル伝搬モジュールの3つのよく設計されたモジュールを備えた,X-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。 重要なことに、X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダブルグラフ上のラベルの伝播により、半教師ありクロスモダリティ学習をもたらすため、うまく一般化する。 我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。

This paper addresses the problem of semi-supervised transfer learning with limited cross-modality data in remote sensing. A large amount of multi-modal earth observation images, such as multispectral imagery (MSI) or synthetic aperture radar (SAR) data, are openly available on a global scale, enabling parsing global urban scenes through remote sensing imagery. However, their ability in identifying materials (pixel-wise classification) remains limited, due to the noisy collection environment and poor discriminative information as well as limited number of well-annotated training images. To this end, we propose a novel cross-modal deep-learning framework, called X-ModalNet, with three well-designed modules: self-adversarial module, interactive learning module, and label propagation module, by learning to transfer more discriminative information from a small-scale hyperspectral image (HSI) into the classification task using a large-scale MSI or SAR data. Significantly, X-ModalNet generalizes well, owing to propagating labels on an updatable graph constructed by high-level features on the top of the network, yielding semi-supervised cross-modality learning. We evaluate X-ModalNet on two multi-modal remote sensing datasets (HSI-MSI and HSI-SAR) and achieve a significant improvement in comparison with several state-of-the-art methods.
翻訳日:2022-11-17 12:58:57 公開日:2020-07-11
# 細粒度解析を利用したオープンドメイン提案マイニング

Open Domain Suggestion Mining Leveraging Fine-Grained Analysis ( http://arxiv.org/abs/2007.04297v2 )

ライセンス: Link先を確認
Shreya Singal, Tanishq Goel, Shivang Chopra, Sonika Dahiya(参考訳) 提案マイニングタスクは、しばしば意味的に複雑であり、現実世界のデータに適用できる洗練された方法論が欠けている。 さまざまなドメインにまたがる提案の存在と、大きなラベル付き、バランスのとれたデータセットが存在しないため、このタスクは特に対処が難しい。 これらの課題を克服するために、Discourse Markerに基づくオーバーサンプリングときめ細かい提案マイニング技術を利用してオンラインフォーラムから提案を検索する2層パイプラインを提案する。 実世界のオープンドメイン提案データセットを広範囲に比較して、トランスフォーマーベースのきめ細かな解析と組み合わせたオーバーサンプリング手法が、いかに芸術の現状に勝るのかを実証する。 さらに,提案したパイプラインの構成妥当性を示すために,広範囲な定性的・定性的な分析を行う。 最後に,我々のパイプラインをWeb上に展開する際の実用的,計算的,再現的側面について論じる。

Suggestion mining tasks are often semantically complex and lack sophisticated methodologies that can be applied to real-world data. The presence of suggestions across a large diversity of domains and the absence of large labelled and balanced datasets render this task particularly challenging to deal with. In an attempt to overcome these challenges, we propose a two-tier pipeline that leverages Discourse Marker based oversampling and fine-grained suggestion mining techniques to retrieve suggestions from online forums. Through extensive comparison on a real-world open-domain suggestion dataset, we demonstrate how the oversampling technique combined with transformer based fine-grained analysis can beat the state of the art. Additionally, we perform extensive qualitative and qualitative analysis to give construct validity to our proposed pipeline. Finally, we discuss the practical, computational and reproducibility aspects of the deployment of our pipeline across the web.
翻訳日:2022-11-16 07:50:52 公開日:2020-07-11
# 被写体特異的fMRI応答の予測のための共有ニューラルエンコーディングモデル

A shared neural encoding model for the prediction of subject-specific fMRI response ( http://arxiv.org/abs/2006.15802v2 )

ライセンス: Link先を確認
Meenakshi Khosla, Gia H. Ngo, Keith Jamison, Amy Kuceyeski and Mert R. Sabuncu(参考訳) fMRI(映画視聴など)における自然主義的パラダイムの普及は、ニューラルエンコーディングモデルの使用など、多目的データ分析のための新しい戦略を必要としている。 本研究では,個人レベルでの違いを考慮した共用畳み込みニューラルエンコーディング手法を提案する。 本手法は,視覚刺激や聴覚刺激によって誘発される主観的応答の予測を改善するために,多目的データを活用する。 我々は,ヒトコネクトームプロジェクトムービーウォッチングプロトコルを用いた高分解能7t fmriデータに対するアプローチを示し,単一サブジェクトエンコーディングモデルに対する著しい改善を示す。 さらに,従来の課題に基づく顔とシーンの刺激に応答して,有意義な個人差を効果的に捉えるための共有符号化モデルの有用性を実証する。 その結果,対象物間知識伝達が主観的予測モデルに有用であることが示唆された。

The increasing popularity of naturalistic paradigms in fMRI (such as movie watching) demands novel strategies for multi-subject data analysis, such as use of neural encoding models. In the present study, we propose a shared convolutional neural encoding method that accounts for individual-level differences. Our method leverages multi-subject data to improve the prediction of subject-specific responses evoked by visual or auditory stimuli. We showcase our approach on high-resolution 7T fMRI data from the Human Connectome Project movie-watching protocol and demonstrate significant improvement over single-subject encoding models. We further demonstrate the ability of the shared encoding model to successfully capture meaningful individual differences in response to traditional task-based facial and scenes stimuli. Taken together, our findings suggest that inter-subject knowledge transfer can be beneficial to subject-specific predictive models.
翻訳日:2022-11-15 15:15:51 公開日:2020-07-11
# NestFuse:Nest接続と空間/チャネル注意モデルに基づく赤外線可視画像融合アーキテクチャ

NestFuse: An Infrared and Visible Image Fusion Architecture based on Nest Connection and Spatial/Channel Attention Models ( http://arxiv.org/abs/2007.00328v2 )

ライセンス: Link先を確認
Hui Li, Xiao-Jun Wu, Tariq Durrani(参考訳) 本稿では,ネスト接続型ネットワークと空間/チャネルアテンションモデルを開発する赤外線・可視画像融合法を提案する。 nest接続ベースのネットワークは、複数スケールの観点で入力データからかなりの量の情報を保存できる。 このアプローチは、それぞれエンコーダ、融合戦略、デコーダの3つの重要な要素から構成される。 提案する融合戦略では,それぞれの空間的位置と深い特徴を有する各チャネルの重要性を記述した空間的注意モデルとチャネル注意モデルが開発されている。 まず、ソースイメージをエンコーダに供給して、マルチスケールの深い特徴を抽出する。 新たな融合戦略が開発され、それぞれのスケールでこれらの特徴を融合させる。 最後に、融合画像をネスト接続ベースのデコーダで再構成する。 実験は公開データセット上で実施される。 これらの結果から,提案手法は他の最先端手法よりも高い核融合性能を示した。 この主張は主観的評価と客観的評価の両方によって正当化される。 私たちのfusionメソッドのコードはhttps://github.com/hli1221/imagefusion-nestfuseで利用可能です。

In this paper we propose a novel method for infrared and visible image fusion where we develop nest connection-based network and spatial/channel attention models. The nest connection-based network can preserve significant amounts of information from input data in a multi-scale perspective. The approach comprises three key elements: encoder, fusion strategy and decoder respectively. In our proposed fusion strategy, spatial attention models and channel attention models are developed that describe the importance of each spatial position and of each channel with deep features. Firstly, the source images are fed into the encoder to extract multi-scale deep features. The novel fusion strategy is then developed to fuse these features for each scale. Finally, the fused image is reconstructed by the nest connection-based decoder. Experiments are performed on publicly available datasets. These exhibit that our proposed approach has better fusion performance than other state-of-the-art methods. This claim is justified through both subjective and objective evaluation. The code of our fusion method is available at https://github.com/hli1221/imagefusion-nestfuse
翻訳日:2022-11-14 23:10:30 公開日:2020-07-11
# 最小二乗プラグを用いた高次元時系列モデルにおける変化点の推定

Inference on the change point in high dimensional time series models via plug in least squares ( http://arxiv.org/abs/2007.01888v3 )

ライセンス: Link先を確認
Abhishek Kaul, Stergios B. Fotopoulos, Venkata K. Jandhyala, Abolfazl Safikhani(参考訳) 本研究では,変点パラメータの最小2乗推定器について,ガウス分布や指数分布の下での高次元ランダムベクトルの平均値の変化について検討する。 この推定器が平均パラメータの推定値のプラグに対して十分な適応性を持ち、整数スケールで最適収束率$O_p(\xi^{-2})$を得るための十分な条件を得る。 この値は、高次元を許容しつつ、潜在的に減少するジャンプサイズ $\xi,$ provided $s\log (p\vee T)=o(\surd(Tl_T))$ or $s\log^{3/2}(p\vee T)=o(\surd(Tl_T))$ を、それぞれ部分ガウス的および部分指数的ケースで許容する。 ここで$s,p,T$と$l_T$は、パラメータ、モデル次元、サンプリング期間、およびパラメータ境界からの変更点の分離を表す。 さらに、収束率は$s,p$ と対数項 $t から自由であるため、それは制限分布の存在を可能にする。 これらの分布は、二つの辺の負のドリフトブラウン運動の {\displaystyle {\it argmax} として導出され、また、消失した状態での両側の負のドリフトランダムウォークと、バニッシュでないジャンプサイズのレジームとして導かれる。 これにより、高次元設定における変化点パラメータの推測が可能になる。 提案手法の実装のための実現可能なアルゴリズムを提供する。 理論的結果はモンテカルロシミュレーションで支持される。

We study a plug in least squares estimator for the change point parameter where change is in the mean of a high dimensional random vector under subgaussian or subexponential distributions. We obtain sufficient conditions under which this estimator possesses sufficient adaptivity against plug in estimates of mean parameters in order to yield an optimal rate of convergence $O_p(\xi^{-2})$ in the integer scale. This rate is preserved while allowing high dimensionality as well as a potentially diminishing jump size $\xi,$ provided $s\log (p\vee T)=o(\surd(Tl_T))$ or $s\log^{3/2}(p\vee T)=o(\surd(Tl_T))$ in the subgaussian and subexponential cases, respectively. Here $s,p,T$ and $l_T$ represent a sparsity parameter, model dimension, sampling period and the separation of the change point from its parametric boundary. Moreover, since the rate of convergence is free of $s,p$ and logarithmic terms of $T,$ it allows the existence of limiting distributions. These distributions are then derived as the {\it argmax} of a two sided negative drift Brownian motion or a two sided negative drift random walk under vanishing and non-vanishing jump size regimes, respectively. Thereby allowing inference of the change point parameter in the high dimensional setting. Feasible algorithms for implementation of the proposed methodology are provided. Theoretical results are supported with monte-carlo simulations.
翻訳日:2022-11-14 05:54:41 公開日:2020-07-11
# 医療用ASRのゆらぎとTruecasingのロバスト予測

Robust Prediction of Punctuation and Truecasing for Medical ASR ( http://arxiv.org/abs/2007.02025v2 )

ライセンス: Link先を確認
Monica Sunkara, Srikanth Ronanki, Kalpit Dixit, Sravan Bodapati, Katrin Kirchhoff(参考訳) 医療領域における自動音声認識システム (ASR) は, クリニカルディクテーションや医師と患者との会話の書き起こしに重点を置いており, ドメインの複雑さが原因で多くの課題が生じることが多い。 ASR出力は、通常、ユーザが" period"、"add comma"、"exclamation point"といった、ぎこちなく明示的な句読点コマンドを発声することなく、自然に話すことができるように自動句読点を行うが、 truecasingは、ユーザの可読性を向上し、下流のNLPタスクのパフォーマンスを向上させる。 本稿では,BERT,BioBERT,RoBERTaといった事前学習されたマスキング言語モデルを用いて,句読点と真偽の予測のための条件付き共同モデリングフレームワークを提案する。 また,医療領域データを用いた微調整マスキング言語モデルによるドメイン・タスク特化手法を提案する。 最後に、データ拡張を行うことにより、ASRにおける一般的なエラーに対するモデルの堅牢性を改善する。 予測と対話型コーパスを用いた実験により,提案したモデルでは,F1 の基準モデルよりも約5%,ASR の出力が約10%向上していることがわかった。

Automatic speech recognition (ASR) systems in the medical domain that focus on transcribing clinical dictations and doctor-patient conversations often pose many challenges due to the complexity of the domain. ASR output typically undergoes automatic punctuation to enable users to speak naturally, without having to vocalise awkward and explicit punctuation commands, such as "period", "add comma" or "exclamation point", while truecasing enhances user readability and improves the performance of downstream NLP tasks. This paper proposes a conditional joint modeling framework for prediction of punctuation and truecasing using pretrained masked language models such as BERT, BioBERT and RoBERTa. We also present techniques for domain and task specific adaptation by fine-tuning masked language models with medical domain data. Finally, we improve the robustness of the model against common errors made in ASR by performing data augmentation. Experiments performed on dictation and conversational style corpora show that our proposed model achieves ~5% absolute improvement on ground truth text and ~10% improvement on ASR outputs over baseline models under F1 metric.
翻訳日:2022-11-13 13:47:30 公開日:2020-07-11
# マルチサイト乳幼児脳セグメンテーションアルゴリズム: iseg-2019チャレンジ

Multi-Site Infant Brain Segmentation Algorithms: The iSeg-2019 Challenge ( http://arxiv.org/abs/2007.02096v2 )

ライセンス: Link先を確認
Yue Sun, Kun Gao, Zhengwang Wu, Zhihao Lei, Ying Wei, Jun Ma, Xiaoping Yang, Xue Feng, Li Zhao, Trung Le Phan, Jitae Shin, Tao Zhong, Yu Zhang, Lequan Yu, Caizi Li, Ramesh Basnet, M. Omair Ahmad, M.N.S. Swamy, Wenao Ma, Qi Dou, Toan Duc Bui, Camilo Bermudez Noguera, Bennett Landman (Senior Member, IEEE), Ian H. Gotlib, Kathryn L. Humphreys, Sarah Shultz, Longchuan Li, Sijie Niu, Weili Lin, Valerie Jewells, Gang Li (Senior Member, IEEE), Dinggang Shen (Fellow, IEEE), Li Wang (Senior Member, IEEE)(参考訳) 健康と障害の早期の脳成長パターンをよりよく理解するためには、幼児の脳磁気共鳴(MR)画像を白質(WM)、灰白質(GM)、髄液(CSF)に正確に分割することが重要である。 ディープラーニングベースの手法は最先端のパフォーマンスを達成したが、大きな制限のひとつは、学習ベースの手法がマルチサイト問題、すなわち、あるサイトからデータセットでトレーニングされたモデルは、異なるイメージングプロトコル/スキャナーを持つ他のサイトから取得したデータセットには適用できない可能性があることである。 コミュニティにおける方法論開発を促進するため、iSeg-2019 Challenge (http://iseg2019.web.unc.edu)は、様々なプロトコル/スキャナーを持つ複数のサイトから6ヶ月の乳児のセットを提供する。 研修・検証科目はUNC(MAP)、試験科目はUNC/UMN(BCP)、スタンフォード大学、エモリー大学である。 執筆時点では、iSeg-2019に参加する自動セグメンテーションメソッドが30ある。 パイプライン/実装を詳述し、実験結果を示し、脳全体、関心領域、ジャラルランドマーク曲線の観点からパフォーマンスを評価することで、8つのトップランクチームについてレビューした。 また,多地点問題の限界と今後の方向性についても論じる。 iseg-2019のマルチサイトデータセットと、このレビュー記事がマルチサイト問題に関する研究者を引き付けることを期待しています。

To better understand early brain growth patterns in health and disorder, it is critical to accurately segment infant brain magnetic resonance (MR) images into white matter (WM), gray matter (GM), and cerebrospinal fluid (CSF). Deep learning-based methods have achieved state-of-the-art performance; however, one of major limitations is that the learning-based methods may suffer from the multi-site issue, that is, the models trained on a dataset from one site may not be applicable to the datasets acquired from other sites with different imaging protocols/scanners. To promote methodological development in the community, iSeg-2019 challenge (http://iseg2019.web.unc.edu) provides a set of 6-month infant subjects from multiple sites with different protocols/scanners for the participating methods. Training/validation subjects are from UNC (MAP) and testing subjects are from UNC/UMN (BCP), Stanford University, and Emory University. By the time of writing, there are 30 automatic segmentation methods participating in iSeg-2019. We review the 8 top-ranked teams by detailing their pipelines/implementations, presenting experimental results and evaluating performance in terms of the whole brain, regions of interest, and gyral landmark curves. We also discuss their limitations and possible future directions for the multi-site issue. We hope that the multi-site dataset in iSeg-2019 and this review article will attract more researchers on the multi-site issue.
翻訳日:2022-11-13 13:18:41 公開日:2020-07-11
# AM-GCN:適応型マルチチャネルグラフ畳み込みネットワーク

AM-GCN: Adaptive Multi-channel Graph Convolutional Networks ( http://arxiv.org/abs/2007.02265v2 )

ライセンス: Link先を確認
Xiao Wang, Meiqi Zhu, Deyu Bo, Peng Cui, Chuan Shi, Jian Pei(参考訳) Graph Convolutional Networks(GCN)は、グラフやネットワークデータに対するさまざまな分析タスクに取り組むことで、大きな人気を集めている。 しかし、近年の研究では、gcnsがノードの特徴と位相構造を、リッチな情報を持つ複雑なグラフに最適に統合できるかどうかに懸念が持たれている。 本稿では,まず実験的な研究について述べる。 意外なことに, 実験結果から, ノード特徴や位相構造を融合させるGCNが, 最適あるいは満足できるものには程遠いことが明らかとなった。 この弱点は、GCNが位相構造とノード特徴の間の深い相関情報を適応的に学習できないため、いくつかの分類タスクにおいてGCNの能力を著しく損なう可能性がある。 最先端のGCNの利点を維持できる新しいタイプのGCNを設計し、同時に、トポロジ的構造とノードの特徴を著しく融合させる能力を高めることができるだろうか? 本稿では,半教師付き分類(AM-GCN)のための適応型マルチチャネルグラフ畳み込みネットワークを提案する。 中心となる考え方は、ノードの特徴、トポロジカル構造、およびそれらの組み合わせから特定の、一般的な埋め込みを同時に抽出し、注意機構を用いて埋め込みの適応的重要性重みを学習することである。 ベンチマークデータセットに関する広範な実験により、AM-GCNはノードの特徴と位相構造の両方から最も相関性の高い情報を抽出し、明確なマージンで分類精度を向上することを示した。

Graph Convolutional Networks (GCNs) have gained great popularity in tackling various analytics tasks on graph and network data. However, some recent studies raise concerns about whether GCNs can optimally integrate node features and topological structures in a complex graph with rich information. In this paper, we first present an experimental investigation. Surprisingly, our experimental results clearly show that the capability of the state-of-the-art GCNs in fusing node features and topological structures is distant from optimal or even satisfactory. The weakness may severely hinder the capability of GCNs in some classification tasks, since GCNs may not be able to adaptively learn some deep correlation information between topological structures and node features. Can we remedy the weakness and design a new type of GCNs that can retain the advantages of the state-of-the-art GCNs and, at the same time, enhance the capability of fusing topological structures and node features substantially? We tackle the challenge and propose an adaptive multi-channel graph convolutional networks for semi-supervised classification (AM-GCN). The central idea is that we extract the specific and common embeddings from node features, topological structures, and their combinations simultaneously, and use the attention mechanism to learn adaptive importance weights of the embeddings. Our extensive experiments on benchmark data sets clearly show that AM-GCN extracts the most correlated information from both node features and topological structures substantially, and improves the classification accuracy with a clear margin.
翻訳日:2022-11-13 08:45:06 公開日:2020-07-11
# 頭蓋骨切除による脳ct画像の自己教師あり頭蓋再建

Self-supervised Skull Reconstruction in Brain CT Images with Decompressive Craniectomy ( http://arxiv.org/abs/2007.03817v2 )

ライセンス: Link先を確認
Franco Matzkin, Virginia Newcombe, Susan Stevenson, Aneesh Khetani, Tom Newman, Richard Digby, Andrew Stevens, Ben Glocker, Enzo Ferrante(参考訳) 除圧式頭蓋切除術(decompressive craniectomy, dc)は、脳卒中、外傷性脳損傷(tbi)など、急性硬膜下出血や頭蓋内圧上昇を引き起こす可能性のある出来事の後に行われる頭蓋の一部を切除することを含む、一般的な外科手術である。 これらのケースでは、ctスキャンが傷の診断と評価、または特定の治療と介入を導くために得られる。 術後CT画像からTBI後の直流時に摘出した頭蓋骨欠損を再建する深層学習法を提案する。 この再建は、頭蓋形成プレートの作成、骨弁容積の正確な測定、頭蓋内総体積などの複数のシナリオにおいて有用であり、後天性萎縮と患者の予後を関連づける研究に重要である。 エンコーダ-デコーダ畳み込みニューラルネットワーク(cnn)が術後ctで欠損骨弁を推定する代替自己教師付き手法を提案する。 自己教師付き学習戦略は、完全な頭蓋骨を持つ画像のみを必要とし、注釈付きdc画像の必要性を避ける。 評価には,実画像とシミュレーション画像を用い,他の最先端手法との比較を行った。 実験の結果, 手術中に頭蓋骨の大きな欠損が除去された症例においても, 従来の手作業法を上回っており, 再建が可能であった。

Decompressive craniectomy (DC) is a common surgical procedure consisting of the removal of a portion of the skull that is performed after incidents such as stroke, traumatic brain injury (TBI) or other events that could result in acute subdural hemorrhage and/or increasing intracranial pressure. In these cases, CT scans are obtained to diagnose and assess injuries, or guide a certain therapy and intervention. We propose a deep learning based method to reconstruct the skull defect removed during DC performed after TBI from post-operative CT images. This reconstruction is useful in multiple scenarios, e.g. to support the creation of cranioplasty plates, accurate measurements of bone flap volume and total intracranial volume, important for studies that aim to relate later atrophy to patient outcome. We propose and compare alternative self-supervised methods where an encoder-decoder convolutional neural network (CNN) estimates the missing bone flap on post-operative CTs. The self-supervised learning strategy only requires images with complete skulls and avoids the need for annotated DC images. For evaluation, we employ real and simulated images with DC, comparing the results with other state-of-the-art approaches. The experiments show that the proposed model outperforms current manual methods, enabling reconstruction even in highly challenging cases where big skull defects have been removed during surgery.
翻訳日:2022-11-12 20:26:38 公開日:2020-07-11
# RGCF: 簡潔で表現力豊かな埋め込みによるグラフ畳み込み協調フィルタリング

RGCF: Refined Graph Convolution Collaborative Filtering with concise and expressive embedding ( http://arxiv.org/abs/2007.03383v2 )

ライセンス: Link先を確認
Kang Liu, Feng Xue, and Richang Hong(参考訳) グラフ畳み込みネットワーク(GCN)は注目され、グラフ表現を学習する最も一般的な方法となった。 近年,GCNを推奨タスクに統合する取り組みが盛んに行われており,目覚ましい進歩を遂げている。 中心となるのは、ユーザ-テム二部グラフ内のノード間の高次接続性を明示的にキャプチャすることである。 しかし、これらのGCNベースのレコメンデーション手法に固有の欠点が理論的および経験的に見出され、GCNは近隣ノードの集約に直接適用され、ノイズや情報冗長性がもたらされる。 従って、異なるノード間での高次接続性をキャプチャするこれらのモデルの能力は制限され、レコメンダタスクの最適性能を低下させる。 主な理由は、GCN構造内の非線形ネットワーク層が、協調フィルタリングシナリオにおいて非意味的特徴(例えばワンホットID特徴)を抽出するのに適さないからである。 本研究では,Refined Graph Convolution Collaborative Filtering (RGCF) と呼ばれるGCNベースの新しい協調フィルタリングモデルを構築し,グラフ上のアグリゲーションの間,ユーザ (item) の埋め込みの構成を微妙に再設計する。 最先端のgcnベースの推奨と比較して、rgcfはグラフ内の暗黙の高次接続性と結果ベクトル表現をより表現的に捉えることができる。 我々は3つの公開百万規模のデータセットに対して広範な実験を行い、我々のRGCFが最先端のモデルを大幅に上回っていることを示す。 コードをhttps://github.com/hfutmars/RGCFでリリースします。

Graph Convolution Network (GCN) has attracted significant attention and become the most popular method for learning graph representations. In recent years, many efforts have been focused on integrating GCN into the recommender tasks and have made remarkable progress. At its core is to explicitly capture high-order connectivities between the nodes in user-item bipartite graph. However, we theoretically and empirically find an inherent drawback existed in these GCN-based recommendation methods, where GCN is directly applied to aggregate neighboring nodes will introduce noise and information redundancy. Consequently, the these models' capability of capturing high-order connectivities among different nodes is limited, leading to suboptimal performance of the recommender tasks. The main reason is that the the nonlinear network layer inside GCN structure is not suitable for extracting non-sematic features(such as one-hot ID feature) in the collaborative filtering scenarios. In this work, we develop a new GCN-based Collaborative Filtering model, named Refined Graph convolution Collaborative Filtering(RGCF), where the construction of the embeddings of users (items) are delicately redesigned from several aspects during the aggregation on the graph. Compared to the state-of-the-art GCN-based recommendation, RGCF is more capable for capturing the implicit high-order connectivities inside the graph and the resultant vector representations are more expressive. We conduct extensive experiments on three public million-size datasets, demonstrating that our RGCF significantly outperforms state-of-the-art models. We release our code at https://github.com/hfutmars/RGCF.
翻訳日:2022-11-12 19:14:51 公開日:2020-07-11
# 脳信号解析のためのグラフ理論のチュートリアル

A Tutorial on Graph Theory for Brain Signal Analysis ( http://arxiv.org/abs/2007.05800v1 )

ライセンス: Link先を確認
Nikolaos Laskaris, Dimitrios A. Adamos, Anastasios Bezerianos(参考訳) 本稿では,脳信号解析におけるグラフ理論の活用について述べる。 実践的な目的のために、理論と応用の2つの部分に分かれる。 第一部では、グラフ理論の基本的な要素と、データ分析の目的に使用できるアルゴリズムツールの導入から開始する。 次に、これらの概念がネットワーク接続の進化とネットワーク再編成への洞察の処理にどのように適応されているかを説明する。 最後に、所定のグラフ上に存在する信号の概念を導入し、グラフ信号処理(GSP)の新興分野からの要素を提供する。 第2部は、前述したツールとテクニックの実践的なデモとして機能する。 これは、視覚的ERPパラダイムから単審理応答を含む多審理データセットを解析することに基づいている。 この論文は、近未来に脳信号処理を形作ろうとしているグラフ理論の最新のトレンドの概要と、連続モード神経記録の解析のためのグラフ理論方法論の関連性に関するより一般的な議論で締めくくられる。

This tutorial paper refers to the use of graph-theoretic concepts for analyzing brain signals. For didactic purposes it splits into two parts: theory and application. In the first part, we commence by introducing some basic elements from graph theory and stemming algorithmic tools, which can be employed for data-analytic purposes. Next, we describe how these concepts are adapted for handling evolving connectivity and gaining insights into network reorganization. Finally, the notion of signals residing on a given graph is introduced and elements from the emerging field of graph signal processing (GSP) are provided. The second part serves as a pragmatic demonstration of the tools and techniques described earlier. It is based on analyzing a multi-trial dataset containing single-trial responses from a visual ERP paradigm. The paper ends with a brief outline of the most recent trends in graph theory that are about to shape brain signal processing in the near future and a more general discussion on the relevance of graph-theoretic methodologies for analyzing continuous-mode neural recordings.
翻訳日:2022-11-11 13:54:42 公開日:2020-07-11
# 複雑なウェーブレットSSIMに基づく画像データ拡張

Complex Wavelet SSIM based Image Data Augmentation ( http://arxiv.org/abs/2007.05853v1 )

ライセンス: Link先を確認
Ritin Raveendran, Aviral Singh, Rajesh Kumar M(参考訳) ニューラルネットワークの最大の問題のひとつは、ネットワークをトレーニングするためのトレーニングデータがないことだ。 そのため,過去数年間にデータ拡張技術が開発され,実世界の限られたサンプル数で人工トレーニングデータの量を増やすことを目指している。 本稿では,文字認識に使用される画像データセットであるMNISTの手書きデータセットと,このデータセット上で行われるデータ拡張方法について検討する。 次に,このデータ集合の弾性変形に使用される最も一般的な拡張技術の1つについて詳細に検討し,データ品質の低下を強調し,トレーニングセットに無関係なデータを導入する。 この無関係性を低減するために, 複合ウェーブレット構造類似度指標尺度 (cwssim) と呼ばれる類似度尺度を用いて, データセットの拡張前に無関係データを選択的にフィルタする手法を提案する。 従来の拡張手法と比較し,提案手法が既存の手法よりも優れた結果が得られることを確認した。

One of the biggest problems in neural learning networks is the lack of training data available to train the network. Data augmentation techniques over the past few years, have therefore been developed, aiming to increase the amount of artificial training data with the limited number of real world samples. In this paper, we look particularly at the MNIST handwritten dataset an image dataset used for digit recognition, and the methods of data augmentation done on this data set. We then take a detailed look into one of the most popular augmentation techniques used for this data set elastic deformation; and highlight its demerit of degradation in the quality of data, which introduces irrelevant data to the training set. To decrease this irrelevancy, we propose to use a similarity measure called Complex Wavelet Structural Similarity Index Measure (CWSSIM) to selectively filter out the irrelevant data before we augment the data set. We compare our observations with the existing augmentation technique and find our proposed method works yields better results than the existing technique.
翻訳日:2022-11-11 13:46:00 公開日:2020-07-11
# 異常検出に基づく未知顔提示攻撃検出

Anomaly Detection-Based Unknown Face Presentation Attack Detection ( http://arxiv.org/abs/2007.05856v1 )

ライセンス: Link先を確認
Yashasvi Baweja, Poojan Oza, Pramuditha Perera and Vishal M. Patel(参考訳) 異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出(fPAD)における最近の進歩であり、スプーフ検出は非攻撃画像のみを用いて学習される。 これらの検出器は、新しい攻撃タイプによく適応することが示されるため、実用上重要である。 本稿では,分類器と特徴表現の両方をエンドツーエンドで学習する,異常検出に基づくspoof攻撃検出のためのディープラーニングソリューションを提案する。 まず,攻撃画像がない場合のトレーニング中に擬似負のクラスを導入する。 擬似負クラスは、重み付きランニング平均によって平均が計算されるガウス分布を用いてモデル化される。 第2に,ペアワイズによる混乱損失を利用して,トレーニングプロセスをさらに調整する。 提案手法は,cnnの表現学習能力を活用し,アブレーション研究で示されたfpadタスクの優れた特徴を学習する。 Replay-Attack, Rose-Youtu, OULU-NPU, Spoof in Wildの4つの公開データセットに対して,提案手法の有効性を示す大規模な実験を行った。 コードは以下の通り。 \url{https://github.com/yashasvi97/IJCB2020_anomaly}

Anomaly detection-based spoof attack detection is a recent development in face Presentation Attack Detection (fPAD), where a spoof detector is learned using only non-attacked images of users. These detectors are of practical importance as they are shown to generalize well to new attack types. In this paper, we present a deep-learning solution for anomaly detection-based spoof attack detection where both classifier and feature representations are learned together end-to-end. First, we introduce a pseudo-negative class during training in the absence of attacked images. The pseudo-negative class is modeled using a Gaussian distribution whose mean is calculated by a weighted running mean. Secondly, we use pairwise confusion loss to further regularize the training process. The proposed approach benefits from the representation learning power of the CNNs and learns better features for fPAD task as shown in our ablation study. We perform extensive experiments on four publicly available datasets: Replay-Attack, Rose-Youtu, OULU-NPU and Spoof in Wild to show the effectiveness of the proposed approach over the previous methods. Code is available at: \url{https://github.com/yashasvi97/IJCB2020_anomaly}
翻訳日:2022-11-11 13:45:44 公開日:2020-07-11
# Human $\neq$ AGI

Human $\neq$ AGI ( http://arxiv.org/abs/2007.07710v1 )

ライセンス: Link先を確認
Roman V. Yampolskiy(参考訳) AGI(Artificial General Intelligence)とHLAI(Human-Level Artificial Intelligence)という用語は、人工知能の聖杯(Holy Grail of Artificial Intelligence)研究(The Holy Grail of Artificial Intelligence(AI)研究)において、幅広い環境で目標を達成できる機械の作成について、相互に言及するために使用されている。 しかしながら、AGIとHLAIの能力の等価性の広範に暗黙の仮定は、人間は一般的な知性ではないため、不当であるように見える。 本稿では、この区別を証明します。

Terms Artificial General Intelligence (AGI) and Human-Level Artificial Intelligence (HLAI) have been used interchangeably to refer to the Holy Grail of Artificial Intelligence (AI) research, creation of a machine capable of achieving goals in a wide range of environments. However, widespread implicit assumption of equivalence between capabilities of AGI and HLAI appears to be unjustified, as humans are not general intelligences. In this paper, we will prove this distinction.
翻訳日:2022-11-11 13:45:22 公開日:2020-07-11
# 深部パッチに基づくヒトセグメンテーション

Deep Patch-based Human Segmentation ( http://arxiv.org/abs/2007.05661v1 )

ライセンス: Link先を確認
Dongbo Zhang, Zheng Fang, Xuequan Lu, Hong Qin, Antonio Robles-Kelly, Chao Zhang, Ying He(参考訳) 3D人間のセグメンテーションは、近年顕著な進歩を遂げている。 しかし、それでもまだ課題は残っている。 本稿では,3次元ヒトセグメンテーションのための深いパッチベース手法を提案する。 まず、頂点ごとに局所的な表面パッチを抽出し、2Dグリッド(または画像)にパラメータ化します。 次に、2dグリッドに識別された形状記述子を埋め込み、対応する意味ラベル(例えばhead, torso)をレグレッションする強力な2d畳み込みニューラルネットワークにさらに供給する。 実験により,本手法は非人間的セグメンテーションの有効性を示し,最先端の精度を実現する。

3D human segmentation has seen noticeable progress in re-cent years. It, however, still remains a challenge to date. In this paper, weintroduce a deep patch-based method for 3D human segmentation. Wefirst extract a local surface patch for each vertex and then parameterizeit into a 2D grid (or image). We then embed identified shape descriptorsinto the 2D grids which are further fed into the powerful 2D Convolu-tional Neural Network for regressing corresponding semantic labels (e.g.,head, torso). Experiments demonstrate that our method is effective inhuman segmentation, and achieves state-of-the-art accuracy.
翻訳日:2022-11-11 13:45:09 公開日:2020-07-11
# 正準相関解析による都市交差点における運転行動モデリング

Driver Behavior Modelling at the Urban Intersection via Canonical Correlation Analysis ( http://arxiv.org/abs/2007.05751v1 )

ライセンス: Link先を確認
Zirui Li, Chao Lu, Cheng Gong, Cheng Gong, Jinghang Li, Lianzhen Wei(参考訳) 都市交差点は、様々な運転行動や交通参加者が存在するインテリジェント車両の典型的な動的かつ複雑なシナリオである。 交差点での運転行動の正確なモデル化は、インテリジェント交通システム(ITS)にとって不可欠である。 先行研究は主に注意機構を用いて相関度をモデル化することに焦点を当てた。 本研究では,正準相関解析(cca)に基づく枠組みを提案する。 正準相関の値は特徴選択に使用される。 ガウス混合モデルとガウス過程回帰は運転行動モデルに適用される。 シミュレーションおよび自然主義駆動データを用いた2つの実験が検証のために設計されている。 実験結果は運転者の判断と一致している。 比較研究により,提案フレームワークはより良い性能が得られることが示された。

The urban intersection is a typically dynamic and complex scenario for intelligent vehicles, which exists a variety of driving behaviors and traffic participants. Accurately modelling the driver behavior at the intersection is essential for intelligent transportation systems (ITS). Previous researches mainly focus on using attention mechanism to model the degree of correlation. In this research, a canonical correlation analysis (CCA)-based framework is proposed. The value of canonical correlation is used for feature selection. Gaussian mixture model and Gaussian process regression are applied for driver behavior modelling. Two experiments using simulated and naturalistic driving data are designed for verification. Experimental results are consistent with the driver's judgment. Comparative studies show that the proposed framework can obtain a better performance.
翻訳日:2022-11-11 13:45:00 公開日:2020-07-11
# 深層学習に基づく画像復元のための軽量モジュール

Lightweight Modules for Efficient Deep Learning based Image Restoration ( http://arxiv.org/abs/2007.05835v1 )

ライセンス: Link先を確認
Avisek Lahiri, Sourav Bairagya, Sutanu Bera, Siddhant Haldar, Prabir Kumar Biswas(参考訳) 低レベルの画像復元は、現代の人工知能(AI)駆動カメラパイプラインの不可欠なコンポーネントである。 これらのフレームワークのほとんどはディープニューラルネットワークに基づいており、携帯電話のようなリソース制約のあるプラットフォーム上での計算オーバーヘッドが大きい。 本稿では,与えられたベースラインモデルの計算的に低価格な変形を作成できる軽量な低レベルモジュールをいくつか提案する。 効率的なニューラルネットワーク設計のための最近の研究は、主に分類に焦点を当てている。 しかし、低レベルの画像処理は、分類に存在しない追加の計算モジュールを必要とするイメージ・ツー・イメージの翻訳ジャンルに該当する。 本稿では,現代ディープラーニングに基づく画像復元ネットワークで使用される必須コンポーネントを置き換える汎用的効率的なモジュールを設計することで,このギャップを埋めることを目指す。 また,サブピクセル・コンボリューションに基づくアップサンプリング(低レベルのビジョンアプリケーションで一般的なアップサンプリング戦略)において,深度分離可能な畳み込みカーネル(効率的な分類ネットワークの一般的な方法)を適用する際の欠点について,分析を行った。 これは、分類領域からの概念が必ずしも画像から画像への翻訳タスクにシームレスに統合できないことを示している。 画像インペイント,デノナイジング,超解像の3つの一般的な課題について検討した。 その結果,提案ネットワークは,パラメータやメモリフットプリント,実行速度を大幅に削減したフルキャパシティベースラインと比較して,視覚的に類似した再構成を行うことがわかった。

Low level image restoration is an integral component of modern artificial intelligence (AI) driven camera pipelines. Most of these frameworks are based on deep neural networks which present a massive computational overhead on resource constrained platform like a mobile phone. In this paper, we propose several lightweight low-level modules which can be used to create a computationally low cost variant of a given baseline model. Recent works for efficient neural networks design have mainly focused on classification. However, low-level image processing falls under the image-to-image' translation genre which requires some additional computational modules not present in classification. This paper seeks to bridge this gap by designing generic efficient modules which can replace essential components used in contemporary deep learning based image restoration networks. We also present and analyse our results highlighting the drawbacks of applying depthwise separable convolutional kernel (a popular method for efficient classification network) for sub-pixel convolution based upsampling (a popular upsampling strategy for low-level vision applications). This shows that concepts from domain of classification cannot always be seamlessly integrated into image-to-image translation tasks. We extensively validate our findings on three popular tasks of image inpainting, denoising and super-resolution. Our results show that proposed networks consistently output visually similar reconstructions compared to full capacity baselines with significant reduction of parameters, memory footprint and execution speeds on contemporary mobile devices.
翻訳日:2022-11-11 13:44:51 公開日:2020-07-11
# 大規模MIMO検出のためのグラフニューラルネットワーク

Graph Neural Networks for Massive MIMO Detection ( http://arxiv.org/abs/2007.05703v1 )

ライセンス: Link先を確認
Andrea Scotti, Nima N. Moghadam, Dong Liu, Karl Gafvert, Jinliang Huang(参考訳) 本稿では,無線通信におけるMIMO(Multiple-input multiple-output)検出の推測タスクに対して,グラフニューラルネットワーク(GNN)を用いてメッセージパスソリューションを学習する。 我々は、マルコフ確率場(MRF)に基づくグラフィカルモデルを採用し、送信されたシンボルに対して一様となると、信念伝播(BP)が貧弱な結果をもたらす。 数値シミュレーションにより、GNNに基づくMIMO検出法は、BPと対照的に最小平均二乗誤差(MMSE)ベースライン検出器より優れていることが示された。 さらに,MMSE情報を事前に組み込むことにより,アルゴリズムの性能がわずかに向上することを示す。

In this paper, we innovately use graph neural networks (GNNs) to learn a message-passing solution for the inference task of massive multiple multiple-input multiple-output (MIMO) detection in wireless communication. We adopt a graphical model based on the Markov random field (MRF) where belief propagation (BP) yields poor results when it assumes a uniform prior over the transmitted symbols. Numerical simulations show that, under the uniform prior assumption, our GNN-based MIMO detection solution outperforms the minimum mean-squared error (MMSE) baseline detector, in contrast to BP. Furthermore, experiments demonstrate that the performance of the algorithm slightly improves by incorporating MMSE information into the prior.
翻訳日:2022-11-11 13:44:31 公開日:2020-07-11
# 音源の定位には音が必要か?

Do We Need Sound for Sound Source Localization? ( http://arxiv.org/abs/2007.05722v1 )

ライセンス: Link先を確認
Takashi Oya, Shohei Iwase, Ryota Natsume, Takahiro Itazuri, Shugo Yamaguchi, Shigeo Morishima(参考訳) 視覚情報と聴覚情報の両方を用いた音源定位性能では, 画像と音質のいずれが結果にどの程度寄与しているか,すなわち, 音源定位に画像と音が必要か, 現時点では不明である。 そこで本研究では,この課題を2つのステップに分解して音源定位を解消する教師なし学習システムを開発した。 (i)視覚情報のみを用いて可能な音源を局所化する「電位音源定位」 (ii)「対象選択」とは、聴覚情報を用いて実際に音を鳴らしている物体を特定するステップである。 我々のシステム全体は、音源定位における最先端の性能を達成し、さらに重要なことは、利用可能な情報に制約があるにもかかわらず、その結果がわかることである。 (i)同様の性能を達成する。 この観察およびさらなる実験から、現在採用されているベンチマークデータセットで評価すると、視覚情報は「音」ソースのローカライゼーションにおいて支配的であることが示された。 さらに,本データセット内の音声生成対象の大部分が視覚情報のみを用いて固有に識別できることを示し,聴覚情報を活用するシステムの能力を評価するにはデータセットが不十分であることを示す。 代替として,視覚情報と聴覚情報の両方を活用可能な評価プロトコルを提案し,その特性をいくつかの実験により検証する。

During the performance of sound source localization which uses both visual and aural information, it presently remains unclear how much either image or sound modalities contribute to the result, i.e. do we need both image and sound for sound source localization? To address this question, we develop an unsupervised learning system that solves sound source localization by decomposing this task into two steps: (i) "potential sound source localization", a step that localizes possible sound sources using only visual information (ii) "object selection", a step that identifies which objects are actually sounding using aural information. Our overall system achieves state-of-the-art performance in sound source localization, and more importantly, we find that despite the constraint on available information, the results of (i) achieve similar performance. From this observation and further experiments, we show that visual information is dominant in "sound" source localization when evaluated with the currently adopted benchmark dataset. Moreover, we show that the majority of sound-producing objects within the samples in this dataset can be inherently identified using only visual information, and thus that the dataset is inadequate to evaluate a system's capability to leverage aural information. As an alternative, we present an evaluation protocol that enforces both visual and aural information to be leveraged, and verify this property through several experiments.
翻訳日:2022-11-11 13:43:45 公開日:2020-07-11
# 時間アグリゲーションネットワークと動的テンプレートマッチングを用いた高速ビデオオブジェクト分割

Fast Video Object Segmentation With Temporal Aggregation Network and Dynamic Template Matching ( http://arxiv.org/abs/2007.05687v1 )

ライセンス: Link先を確認
Xuhua Huang, Jiarui Xu, Yu-Wing Tai, Chi-Keung Tang(参考訳) ビデオオブジェクトセグメンテーション(VOS: Video Object Segmentation)は、ビデオオブジェクトのトラッキングタスクである。 VOSタスクは自然にイメージセマンティックセグメンテーションとビデオオブジェクトトラッキングに分離できるが、トラッキングよりもはるかに多くの研究努力がなされている。 本稿では,新しい時間的アグリゲーションネットワークと新しい動的時間発展テンプレートマッチング機構を提案し,性能を著しく向上させることにより,セグメンテーションをトラッキングとコヒーレント的に統合できるvosに「検出による追跡」を導入する。 特に,この手法は完全にオンラインなので,ワンショット学習に適しており,エンドツーエンドのトレーニング可能なモデルでは,複数のオブジェクトを1回のフォワードパスでセグメンテーションすることが可能である。 我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。

Significant progress has been made in Video Object Segmentation (VOS), the video object tracking task in its finest level. While the VOS task can be naturally decoupled into image semantic segmentation and video object tracking, significantly much more research effort has been made in segmentation than tracking. In this paper, we introduce "tracking-by-detection" into VOS which can coherently integrate segmentation into tracking, by proposing a new temporal aggregation network and a novel dynamic time-evolving template matching mechanism to achieve significantly improved performance. Notably, our method is entirely online and thus suitable for one-shot learning, and our end-to-end trainable model allows multiple object segmentation in one forward pass. We achieve new state-of-the-art performance on the DAVIS benchmark without complicated bells and whistles in both speed and accuracy, with a speed of 0.14 second per frame and J&F measure of 75.9% respectively.
翻訳日:2022-11-11 13:36:27 公開日:2020-07-11
# AutoTrajectory:動的ポイントを用いたビデオからのラベルなし軌道抽出と予測

AutoTrajectory: Label-free Trajectory Extraction and Prediction from Videos using Dynamic Points ( http://arxiv.org/abs/2007.05719v1 )

ライセンス: Link先を確認
Yuexin Ma, Xinge ZHU, Xinjing Cheng, Ruigang Yang, Jiming Liu, Dinesh Manocha(参考訳) 軌道予測の現在の手法は教師付き方式で動作しており、訓練には膨大な量の地上真実データが必要である。 本稿では,トラジェクトリ抽出と生動画を直接使用するための新しいラベルなしアルゴリズムAutoTrajectoryを提案する。 動画中の移動物体をよりよく捉えるために,動的ポイントを導入する。 動的動作のモデル化には,前方逆方向抽出器を用いて時間的一貫性を維持し,画像再構成により教師なしの空間的一貫性を保つ。 次に動的ポイントをインスタンスポイントに集約し,動画中の歩行者などの移動物体を表す。 最後に,予測学習のためのインスタンスポイントをマッチングして軌道を抽出する。 我々の知識を最大限に活用するため,提案手法は軌道抽出と予測の教師なし学習を初めて達成した。 我々は,よく知られた軌道データセット上での性能を評価し,本手法が実世界ビデオに有効であることを示し,生ビデオを用いて既存モデルの性能をさらに向上できることを示す。

Current methods for trajectory prediction operate in supervised manners, and therefore require vast quantities of corresponding ground truth data for training. In this paper, we present a novel, label-free algorithm, AutoTrajectory, for trajectory extraction and prediction to use raw videos directly. To better capture the moving objects in videos, we introduce dynamic points. We use them to model dynamic motions by using a forward-backward extractor to keep temporal consistency and using image reconstruction to keep spatial consistency in an unsupervised manner. Then we aggregate dynamic points to instance points, which stand for moving objects such as pedestrians in videos. Finally, we extract trajectories by matching instance points for prediction training. To the best of our knowledge, our method is the first to achieve unsupervised learning of trajectory extraction and prediction. We evaluate the performance on well-known trajectory datasets and show that our method is effective for real-world videos and can use raw videos to further improve the performance of existing models.
翻訳日:2022-11-11 13:35:48 公開日:2020-07-11
# ECML: 顔認証のためのアンサンブルカスケードメトリック学習機構

ECML: An Ensemble Cascade Metric Learning Mechanism towards Face Verification ( http://arxiv.org/abs/2007.05720v1 )

ライセンス: Link先を確認
Fu Xiong, Yang Xiao, Zhiguo Cao, Yancheng Wang, Joey Tianyi Zhou and Jianxi Wu(参考訳) 顔認証は2クラスのきめ細かい視覚認識問題と見なすことができる。 機能の識別力を高めることが、パフォーマンスを改善する上で重要な問題のひとつです。 メトリック学習技術は、このニーズに対処するためにしばしば適用され、未適合と過剰適合の良好なトレードオフを達成することは、メトリック学習において重要な役割を担います。 そこで我々は,新しいアンサンブル・カスケード・メトリック・ラーニング(ECML)機構を提案する。 特に、階層的メトリック学習は、下位フィッティングを緩和するためにカスケード方法で実行される。 一方、各学習レベルでは、機能は重複しないグループに分割される。 そして、アンサンブル方式で特徴群間でメートル法学習を行い、オーバーフィッティングに抵抗する。 また,顔の特徴分布を考慮し,閉形式解を用いたロバストなマハラノビス計量学習法(rmml)を提案する。 有名なメトリック学習アプローチ(例えばkissme)が直面する逆行列の計算障害問題を回避することができる。 RMMLをECML機構に組み込むことで、メトリック学習パラダイム(EC-RMML)をワンパス学習方式で実行することができる。 実験により,EC-RMMLは顔認証のための最先端の計量学習法よりも優れていることが示された。 また,提案するアンサンブルカスケード計量学習機構は,他の計量学習手法にも適用可能である。

Face verification can be regarded as a 2-class fine-grained visual recognition problem. Enhancing the feature's discriminative power is one of the key problems to improve its performance. Metric learning technology is often applied to address this need, while achieving a good tradeoff between underfitting and overfitting plays the vital role in metric learning. Hence, we propose a novel ensemble cascade metric learning (ECML) mechanism. In particular, hierarchical metric learning is executed in the cascade way to alleviate underfitting. Meanwhile, at each learning level, the features are split into non-overlapping groups. Then, metric learning is executed among the feature groups in the ensemble manner to resist overfitting. Considering the feature distribution characteristics of faces, a robust Mahalanobis metric learning method (RMML) with closed-form solution is additionally proposed. It can avoid the computation failure issue on inverse matrix faced by some well-known metric learning approaches (e.g., KISSME). Embedding RMML into the proposed ECML mechanism, our metric learning paradigm (EC-RMML) can run in the one-pass learning manner. Experimental results demonstrate that EC-RMML is superior to state-of-the-art metric learning methods for face verification. And, the proposed ensemble cascade metric learning mechanism is also applicable to other metric learning approaches.
翻訳日:2022-11-11 13:35:33 公開日:2020-07-11
# 深層学習に基づく植物ストレス表現のための解釈可能性手法の有用性

Usefulness of interpretability methods to explain deep learning based plant stress phenotyping ( http://arxiv.org/abs/2007.05729v1 )

ライセンス: Link先を確認
Koushik Nagasubramanian, Asheesh K. Singh, Arti Singh, Soumik Sarkar, Baskar Ganapathysubramanian(参考訳) 深層学習技術は植物のストレス識別と定量化の自動化に成功している。 近年,分類決定に不可欠な画像の特徴を視覚的に強調することにより分類決定を正当化する,解釈可能な訓練モデルへの取り組みが高まっている。 トレーニングされたネットワークモデルは、植物病理学者が使用する視覚手がかりを模倣した画像特徴を利用する。 本研究では,高度学習モデルの解釈のために,サリエンシマップ,スムースグレード,ガイドバックプロポゲーション,深いテイラー分解,統合勾配,層間相関伝播,勾配時間入力など,最も一般的な解釈方法をいくつか比較する。 我々は,8種類のダイズストレス(生物的および無生物的)を分類するために,密度ネット-121ネットワークを訓練する。 16,573RGBの健康・ストレスのダイズ葉のデータセットを用いて,全体の分類精度を95.05 \%とした。 テストデータの多様なサブセットについては、重要な特徴と人間の専門家が特定した特徴を比較した。 その結果, 葉の感染部位を, 正しく分類された画像の重要な特徴として認識しうる方法がほとんどであることがわかった。 いくつかの画像では、解釈可能性の手法の出力は、特徴相関がそれらを正しく分類するために使われた可能性があることを示している。 これらの解釈可能性手法の出力説明マップは, 与えられた画像に対して異なる場合があるが, 科学的洞察を促進する「仮説生成」機構として, これらの解釈可能性手法の利用を提唱する。

Deep learning techniques have been successfully deployed for automating plant stress identification and quantification. In recent years, there is a growing push towards training models that are interpretable -i.e. that justify their classification decisions by visually highlighting image features that were crucial for classification decisions. The expectation is that trained network models utilize image features that mimic visual cues used by plant pathologists. In this work, we compare some of the most popular interpretability methods: Saliency Maps, SmoothGrad, Guided Backpropogation, Deep Taylor Decomposition, Integrated Gradients, Layer-wise Relevance Propagation and Gradient times Input, for interpreting the deep learning model. We train a DenseNet-121 network for the classification of eight different soybean stresses (biotic and abiotic). Using a dataset consisting of 16,573 RGB images of healthy and stressed soybean leaflets captured under controlled conditions, we obtained an overall classification accuracy of 95.05 \%. For a diverse subset of the test data, we compared the important features with those identified by a human expert. We observed that most interpretability methods identify the infected regions of the leaf as important features for some -- but not all -- of the correctly classified images. For some images, the output of the interpretability methods indicated that spurious feature correlations may have been used to correctly classify them. Although the output explanation maps of these interpretability methods may be different from each other for a given image, we advocate the use of these interpretability methods as `hypothesis generation' mechanisms that can drive scientific insight.
翻訳日:2022-11-11 13:35:11 公開日:2020-07-11
# 移動学習を用いた行動クローン型自動運転車

Enhanced Behavioral Cloning Based self-driving Car Using Transfer Learning ( http://arxiv.org/abs/2007.05740v1 )

ライセンス: Link先を確認
Uppala Sumanth, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) 人工知能(AI)と自律学習(Autonomous learning)の段階が進む中、自動運転車は自動車産業に焦点を絞る研究と新興分野の1つとなる。 行動クローニングは、機械学習アルゴリズムを用いて、ビジュモータポリシーを介して人間の行動を複製するプロセスである。 近年,移動学習の概念に基づく自動運転車の文脈において,深層学習に基づく行動クローニング手法が開発されている。 そこで本研究では,VGG16アーキテクチャを用いた伝達学習手法を提案する。 提案されたアーキテクチャの性能は、既存のNVIDIAアーキテクチャやその刈り取られたバリエーション(パラメータの総数を減らすために1x1フィルタを使用して22.2%、33.85%)と比較される。 実験結果から,伝達学習アーキテクチャを持つVGG16は,収束の速い他の手法よりも優れていた。

With the growing phase of artificial intelligence and autonomous learning, the self-driving car is one of the promising area of research and emerging as a center of focus for automobile industries. Behavioral cloning is the process of replicating human behavior via visuomotor policies by means of machine learning algorithms. In recent years, several deep learning-based behavioral cloning approaches have been developed in the context of self-driving cars specifically based on the concept of transfer learning. Concerning the same, the present paper proposes a transfer learning approach using VGG16 architecture, which is fine tuned by retraining the last block while keeping other blocks as non-trainable. The performance of proposed architecture is further compared with existing NVIDIA architecture and its pruned variants (pruned by 22.2% and 33.85% using 1x1 filter to decrease the total number of parameters). Experimental results show that the VGG16 with transfer learning architecture has outperformed other discussed approaches with faster convergence.
翻訳日:2022-11-11 13:34:44 公開日:2020-07-11
# 説明可能性に着目した細胞画像における生体ノイズの分散

Distangling Biological Noise in Cellular Images with a focus on Explainability ( http://arxiv.org/abs/2007.05743v1 )

ライセンス: Link先を確認
Manik Sharma and Ganapathy Krishnamurthi(参考訳) 薬や治療のコストは近年上昇しており、多くの患者が手放さなければならない。 分類プロジェクトにより、研究者はより効率的になる。 コストの理由の1つは、新しい治療法を市場に出すのにどのくらい時間がかかるかだ。 技術と科学の改善にもかかわらず、研究開発は遅れ続けている。 実際、新しい治療法を見つけるには平均して10年以上かかり、何億ドルもの費用がかかる。 結果的に、治療のコストを大幅に削減することで、これらの治療がより早く患者に届くようにする。 この研究は、細胞内の遺伝的摂動(自然あるいは人工的に起こる)を解読できる細胞画像分類モデルを作成することで、この問題の一部を解決することを目的としている。 もうひとつの興味深い疑問は、ディープラーニングモデルを特定の方法で決定する理由である。これは、特定の摂動のメカニズムを解明し、ディープラーニングモデルの説明可能性への道を開くのに役立つ。 我々はGrad-CAM視覚化の結果を示し、ある特徴が他よりも重要であることを示す。 さらに,これらの重要な機能は,ディープラーニングモデルから有用な診断情報を抽出する上で重要な役割を担っている。

The cost of some drugs and medical treatments has risen in recent years that many patients are having to go without. A classification project could make researchers more efficient. One of the more surprising reasons behind the cost is how long it takes to bring new treatments to market. Despite improvements in technology and science, research and development continues to lag. In fact, finding new treatment takes, on average, more than 10 years and costs hundreds of millions of dollars. In turn, greatly decreasing the cost of treatments can make ensure these treatments get to patients faster. This work aims at solving a part of this problem by creating a cellular image classification model which can decipher the genetic perturbations in cell (occurring naturally or artificially). Another interesting question addressed is what makes the deep-learning model decide in a particular fashion, which can further help in demystifying the mechanism of action of certain perturbations and paves a way towards the explainability of the deep-learning model. We show the results of Grad-CAM visualizations and make a case for the significance of certain features over others. Further we discuss how these significant features are pivotal in extracting useful diagnostic information from the deep-learning model.
翻訳日:2022-11-11 13:34:24 公開日:2020-07-11
# manigen: 逆例の多様体支援ブラックボックス生成器

ManiGen: A Manifold Aided Black-box Generator of Adversarial Examples ( http://arxiv.org/abs/2007.05817v1 )

ライセンス: Link先を確認
Guanxiong Liu, Issa Khalil, Abdallah Khreishah, Abdulelah Algosaibi, Adel Aldalbahi, Mohammed Alaneem, Abdulaziz Alhumam, Mohammed Anan(参考訳) 機械学習モデル、特にニューラルネットワーク(NN)分類器は、日々のさまざまな側面において広く採用されるように、パフォーマンスと精度を許容できる。 基本的な前提は、これらのモデルが生成され、アタックフリーシナリオで使用されることである。 しかし、ニューラルネットワークに基づく分類器は敵の例に弱いことが示されている。 逆の例は、人間の目で無視される特別な摂動を持つ入力であり、NN分類器を誤解させる可能性がある。 このような摂動を生成する既存の方法の多くは、ターゲット分類器に関する一定のレベルの知識を必要とするため、あまり実践的ではない。 例えば、一部のジェネレータはプレソフトマックスロジットの知識を必要とし、他のジェネレータは予測スコアを使用する。 本稿では,実効的なブラックボックス逆例生成器manigenを設計した。 ManiGenはターゲット分類器の内部状態に関する知識を一切必要としない。 入力データの簡潔な表現である多様体に沿って探索することで、逆例を生成する。 異なるデータセットに対する広範な実験を通して,(1) ManiGen が生成した逆の例は,最先端のホワイトボックス生成器であるCarliini と同じくらい成功し,(2) ManiGen が生成した逆の例は,最先端の防御でより効果的に分類器を攻撃できることを示す。

Machine learning models, especially neural network (NN) classifiers, have acceptable performance and accuracy that leads to their wide adoption in different aspects of our daily lives. The underlying assumption is that these models are generated and used in attack free scenarios. However, it has been shown that neural network based classifiers are vulnerable to adversarial examples. Adversarial examples are inputs with special perturbations that are ignored by human eyes while can mislead NN classifiers. Most of the existing methods for generating such perturbations require a certain level of knowledge about the target classifier, which makes them not very practical. For example, some generators require knowledge of pre-softmax logits while others utilize prediction scores. In this paper, we design a practical black-box adversarial example generator, dubbed ManiGen. ManiGen does not require any knowledge of the inner state of the target classifier. It generates adversarial examples by searching along the manifold, which is a concise representation of input data. Through extensive set of experiments on different datasets, we show that (1) adversarial examples generated by ManiGen can mislead standalone classifiers by being as successful as the state-of-the-art white-box generator, Carlini, and (2) adversarial examples generated by ManiGen can more effectively attack classifiers with state-of-the-art defenses.
翻訳日:2022-11-11 13:29:14 公開日:2020-07-11
# 逆レンズによる物体検出の理解

Understanding Object Detection Through An Adversarial Lens ( http://arxiv.org/abs/2007.05828v1 )

ライセンス: Link先を確認
Ka-Ho Chow, Ling Liu, Mehmet Emre Gursoy, Stacey Truex, Wenqi Wei, Yanzhao Wu(参考訳) ディープニューラルネットワークに基づくオブジェクト検出モデルはコンピュータビジョンに革命をもたらし、幅広い視覚認識アプリケーションの開発を加速させた。 しかし、最近の研究で、ディープ・オブジェクト・ディテクターは敵の攻撃を受け、被害者の検出器が物体、偽物、または誤ラベルされた物体を検出できないことが判明した。 自動運転車やスマートシティなど、多くのセキュリティクリティカルなアプリケーションでオブジェクト検出が広く使われているため、深層物体検出システムの敵意攻撃や脆弱性を深く理解するための包括的アプローチは、研究コミュニティにとって堅牢な防御メカニズムを開発する上で最も重要であると論じている。 本稿では,攻撃戦略,悪影響,コスト,および攻撃のクロスモデルおよびクロスレゾリューション伝達性を分析することを目的とした,敵レンズ下の最先端物体検出器の脆弱性を解析・評価するためのフレームワークを提案する。 測定値のセットを用いて、2つのベンチマークデータセット(PASCAL VOCとMS COCO)を持つ3つの一般的なファミリー(YOLOv3、SSD、Faster R-CNN)の6つの代表的ディープオブジェクト検出器に対して、広範な実験を行う。 提案手法は, リアルタイムオブジェクト検出システムにおいて, 対向行動やリスクを分析するための方法論的ベンチマークとして機能することを示す。 このフレームワークは、現実世界のアプリケーションにデプロイされる深層物体検出器のセキュリティリスクと敵対的ロバスト性を評価するツールとしても利用できると推測する。

Deep neural networks based object detection models have revolutionized computer vision and fueled the development of a wide range of visual recognition applications. However, recent studies have revealed that deep object detectors can be compromised under adversarial attacks, causing a victim detector to detect no object, fake objects, or mislabeled objects. With object detection being used pervasively in many security-critical applications, such as autonomous vehicles and smart cities, we argue that a holistic approach for an in-depth understanding of adversarial attacks and vulnerabilities of deep object detection systems is of utmost importance for the research community to develop robust defense mechanisms. This paper presents a framework for analyzing and evaluating vulnerabilities of the state-of-the-art object detectors under an adversarial lens, aiming to analyze and demystify the attack strategies, adverse effects, and costs, as well as the cross-model and cross-resolution transferability of attacks. Using a set of quantitative metrics, extensive experiments are performed on six representative deep object detectors from three popular families (YOLOv3, SSD, and Faster R-CNN) with two benchmark datasets (PASCAL VOC and MS COCO). We demonstrate that the proposed framework can serve as a methodical benchmark for analyzing adversarial behaviors and risks in real-time object detection systems. We conjecture that this framework can also serve as a tool to assess the security risks and the adversarial robustness of deep object detectors to be deployed in real-world applications.
翻訳日:2022-11-11 13:27:36 公開日:2020-07-11
# Look and Listen: 自律機械のシーン分類のためのマルチモーダルレイトフュージョンアプローチ

Look and Listen: A Multi-modality Late Fusion Approach to Scene Classification for Autonomous Machines ( http://arxiv.org/abs/2007.10175v1 )

ライセンス: Link先を確認
Jordan J. Bird, Diego R. Faria, Cristiano Premebida, Anik\'o Ek\'art, George Vogiatzis(参考訳) 本研究の新規性は,画像と音声が深層融合の過程において相互に補完するシーン分類への多様性アプローチである。 このアプローチは、16,000のデータオブジェクトの2つの同期とバランスの取れたデータセットからなり、類似度が異なる8つの環境の4.4時間の動画を包含する難しい分類問題で実証されている。 まず、ビデオフレームを抽出し、1秒間隔でオーディオを付加する。 画像と音声データセットは、それぞれ89.27%と93.72%の精度で、微調整されたvgg16と進化最適化されたディープニューラルネットワークを使用して、最初に独立に分類される。 続く2つのニューラルネットワークの後期融合により高次関数が実現され、このマルチモーダル分類器では96.81%の精度でビデオフレームとオーディオクリップが同期される。 late fusionのために実装された第3次ニューラルネットワークは、2つのプライマリネットワークを特徴生成器と見なす場合、従来の最先端の分類器を約3%上回る。 単一モダリティが異常なデータポイントと混同される可能性のある状況が、新たに出現する高次統合によって修正されることを示す。 代表的な例としては、オーディオ分類器単独で川と誤分類された都市の水の特徴と、画像分類器単独で森と誤分類された密集した通りがある。 どちらも、マルチモダリティアプローチによって正しく分類された例です。

The novelty of this study consists in a multi-modality approach to scene classification, where image and audio complement each other in a process of deep late fusion. The approach is demonstrated on a difficult classification problem, consisting of two synchronised and balanced datasets of 16,000 data objects, encompassing 4.4 hours of video of 8 environments with varying degrees of similarity. We first extract video frames and accompanying audio at one second intervals. The image and the audio datasets are first classified independently, using a fine-tuned VGG16 and an evolutionary optimised deep neural network, with accuracies of 89.27% and 93.72%, respectively. This is followed by late fusion of the two neural networks to enable a higher order function, leading to accuracy of 96.81% in this multi-modality classifier with synchronised video frames and audio clips. The tertiary neural network implemented for late fusion outperforms classical state-of-the-art classifiers by around 3% when the two primary networks are considered as feature generators. We show that situations where a single-modality may be confused by anomalous data points are now corrected through an emerging higher order integration. Prominent examples include a water feature in a city misclassified as a river by the audio classifier alone and a densely crowded street misclassified as a forest by the image classifier alone. Both are examples which are correctly classified by our multi-modality approach.
翻訳日:2022-11-11 13:26:25 公開日:2020-07-11
# I3rab:アラビア語文法理論に基づく新しいアラビア語依存ツリーバンク

I3rab: A New Arabic Dependency Treebank Based on Arabic Grammatical Theory ( http://arxiv.org/abs/2007.05772v1 )

ライセンス: Link先を確認
Dana Halabi, Ebaa Fayyoumi, Arafat Awajan(参考訳) 木バンクは、POSタグや形態的特徴に加えて、言語文の構文構造を含む貴重な言語資源である。 主に統計解析器のモデル化に利用される。 統計的自然言語パーサーは、最近英語のような言語ではより正確になったが、アラビア語のパーサーは依然として精度が低い。 本研究の目的は,従来のアラビア語の文法理論とアラビア語の特徴に基づいて,新しいアラビア語依存木バンクを構築し,統計解析器の精度に与える影響を検討することである。 i3rabと呼ばれるアラビア語の依存関係ツリーバンクは、既存のアラビア語依存ツリーバンクとは2つの主要な概念で対照的である。 第一の概念は文の主語を決定するアプローチであり、第二の概念は結合代名詞と被覆代名詞の表現である。 I3rabを評価するために、我々はそのパフォーマンスをプラハのアラビア語依存ツリーバンクのサブセットと比較した。 実験の結果、uasでは7.5%、lasでは18.8%に向上した。

Treebanks are valuable linguistic resources that include the syntactic structure of a language sentence in addition to POS-tags and morphological features. They are mainly utilized in modeling statistical parsers. Although the statistical natural language parser has recently become more accurate for languages such as English, those for the Arabic language still have low accuracy. The purpose of this paper is to construct a new Arabic dependency treebank based on the traditional Arabic grammatical theory and the characteristics of the Arabic language, to investigate their effects on the accuracy of statistical parsers. The proposed Arabic dependency treebank, called I3rab, contrasts with existing Arabic dependency treebanks in two main concepts. The first concept is the approach of determining the main word of the sentence, and the second concept is the representation of the joined and covert pronouns. To evaluate I3rab, we compared its performance against a subset of Prague Arabic Dependency Treebank that shares a comparable level of details. The conducted experiments show that the percentage improvement reached up to 7.5% in UAS and 18.8% in LAS.
翻訳日:2022-11-11 13:25:58 公開日:2020-07-11
# 確率的分類ベクターマシンのための転送学習拡張

Transfer learning extensions for the probabilistic classification vector machine ( http://arxiv.org/abs/2007.07090v1 )

ライセンス: Link先を確認
Christoph Raab and Frank-Michael Schleif(参考訳) 転送学習は、新しいコンテキストにおける教師あり学習モデルの再利用に焦点を当てている。 顕著な応用はロボティクス、画像処理、ウェブマイニングで見ることができる。 これらの分野では、学習シナリオは自然に変化しているが、多くの場合、既存の教師付きモデルの再利用を動機付けている。 現在の伝達学習モデルはスパースでも解釈可能でもない。 技術的に制限された環境での使用が必要で、プライバシの規制によって解釈性がより重要になっている場合、スパーシティは極めて望ましい。 本研究では,sparse and interpretable probabilistic classification vector machineに統合された2つのトランスファー学習拡張を提案する。 それらはこの分野の標準ベンチマークと比較され、スパーシティまたはパフォーマンス改善によってその関連性を示す。

Transfer learning is focused on the reuse of supervised learning models in a new context. Prominent applications can be found in robotics, image processing or web mining. In these fields, the learning scenarios are naturally changing but often remain related to each other motivating the reuse of existing supervised models. Current transfer learning models are neither sparse nor interpretable. Sparsity is very desirable if the methods have to be used in technically limited environments and interpretability is getting more critical due to privacy regulations. In this work, we propose two transfer learning extensions integrated into the sparse and interpretable probabilistic classification vector machine. They are compared to standard benchmarks in the field and show their relevance either by sparsity or performance improvements.
翻訳日:2022-11-11 13:18:00 公開日:2020-07-11
# 深部畳み込みニューラルネットワークの一般化 -オープンソース胸部X線撮影の事例研究-

Generalization of Deep Convolutional Neural Networks -- A Case-study on Open-source Chest Radiographs ( http://arxiv.org/abs/2007.05786v1 )

ライセンス: Link先を確認
Nazanin Mashhaditafreshi, Amara Tariq, Judy Wawira Gichoya, Imon Banerjee(参考訳) 深層畳み込みニューラルネットワーク(DCNN)は広く注目を集めており、医療画像解析や臨床診断など多くの分野で応用されている。 主要な課題の1つは、内部データと外部データの両方で顕著なパフォーマンスを持つDCNNモデルを考案することである。 我々は,dcnnが新たなデータに一般化することはないが,トレーニングデータの品質と不均一性の向上は,汎用性の向上に寄与することを示した。 inceptionresnetv2 と densenet121 アーキテクチャを用いて胸部病理のリスクを予測する。 実験はCheXpert、ChestX-ray14、MIMIC Chest Xray JPGの3つの公開データベースで実施された。 その結果,5つの病態の内的性能は,両モデルにおける外的性能よりも優れていた。 さらに、トレーニングフェーズ中に異なるデータセットの混合にモデルを公開する戦略は、外部データセットでのモデルパフォーマンスを改善するのに役立つ。

Deep Convolutional Neural Networks (DCNNs) have attracted extensive attention and been applied in many areas, including medical image analysis and clinical diagnosis. One major challenge is to conceive a DCNN model with remarkable performance on both internal and external data. We demonstrate that DCNNs may not generalize to new data, but increasing the quality and heterogeneity of the training data helps to improve the generalizibility factor. We use InceptionResNetV2 and DenseNet121 architectures to predict the risk of 5 common chest pathologies. The experiments were conducted on three publicly available databases: CheXpert, ChestX-ray14, and MIMIC Chest Xray JPG. The results show the internal performance of each of the 5 pathologies outperformed external performance on both of the models. Moreover, our strategy of exposing the models to a mix of different datasets during the training phase helps to improve model performance on the external dataset.
翻訳日:2022-11-11 13:17:31 公開日:2020-07-11
# 図形プランナの進化:視覚・言語ナビゲーションのための文脈的グローバルプランニング

Evolving Graphical Planner: Contextual Global Planning for Vision-and-Language Navigation ( http://arxiv.org/abs/2007.05655v1 )

ライセンス: Link先を確認
Zhiwei Deng, Karthik Narasimhan, Olga Russakovsky(参考訳) 効果的な計画を行う能力は、指示追従エージェントの構築に不可欠である。 エージェントは、新しい環境をナビゲートする際に、(1)自然言語の指示と世界の知識を徐々に成長させていくこと、(2)効果的な探索と誤り訂正という形で長距離計画と意思決定を行うことに挑戦する。 現在の手法は、広範囲な努力にもかかわらず、両面ではまだ限られている。 本稿では,生の感覚入力に基づくナビゲーションのグローバル計画を行うモデルとして,進化するグラフィカルプランナー(egp)を提案する。 モデルはグラフィカル表現を動的に構築し、アクション空間を一般化し、より柔軟な意思決定を可能にし、プロキシグラフ表現の効率的な計画を実行する。 本研究は,フォトリアリスティックな画像を用いたvln課題について評価し,従来のナビゲーションアーキテクチャよりも優れた性能を実現する。 例えば、部屋間ナビゲーションタスクのテスト分割において、純粋な模倣学習によって53%の成功率を達成し、従来のナビゲーションアーキテクチャを最大5%上回った。

The ability to perform effective planning is crucial for building an instruction-following agent. When navigating through a new environment, an agent is challenged with (1) connecting the natural language instructions with its progressively growing knowledge of the world; and (2) performing long-range planning and decision making in the form of effective exploration and error correction. Current methods are still limited on both fronts despite extensive efforts. In this paper, we introduce the Evolving Graphical Planner (EGP), a model that performs global planning for navigation based on raw sensory input. The model dynamically constructs a graphical representation, generalizes the action space to allow for more flexible decision making, and performs efficient planning on a proxy graph representation. We evaluate our model on a challenging Vision-and-Language Navigation (VLN) task with photorealistic images and achieve superior performance compared to previous navigation architectures. For instance, we achieve a 53% success rate on the test split of the Room-to-Room navigation task through pure imitation learning, outperforming previous navigation architectures by up to 5%.
翻訳日:2022-11-11 13:17:02 公開日:2020-07-11
# プライベートラーニングとオンラインラーニングの計算的分離

A Computational Separation between Private Learning and Online Learning ( http://arxiv.org/abs/2007.05665v1 )

ライセンス: Link先を確認
Mark Bun(参考訳) 最近の研究の行は、微分プライベートPAC学習とオンライン学習の質的な等価性を示している: 概念クラスが、有限な誤り境界でオンライン学習可能である場合に限って、プライベートに学習可能である。 しかし、この等価性の両方の方向は、サンプルと計算効率の両方に大きな損失をもたらす。 この接続の特別なケースを調べた結果、Goen, Hazan, Moran (NeurIPS 2019) は、一様あるいは高効率の純私的学習者はオンライン学習者に時間効率でコンパイルできることを示した。 単方向関数の存在を仮定すると、多項式サンプル複雑性を持つ一般の純粋プライベート学習者であっても、そのような効率的な変換は不可能であることを示す。 これはNeel、Roth、Wu(FOCS 2019)の問題を解決する。

A recent line of work has shown a qualitative equivalence between differentially private PAC learning and online learning: A concept class is privately learnable if and only if it is online learnable with a finite mistake bound. However, both directions of this equivalence incur significant losses in both sample and computational efficiency. Studying a special case of this connection, Gonen, Hazan, and Moran (NeurIPS 2019) showed that uniform or highly sample-efficient pure-private learners can be time-efficiently compiled into online learners. We show that, assuming the existence of one-way functions, such an efficient conversion is impossible even for general pure-private learners with polynomial sample complexity. This resolves a question of Neel, Roth, and Wu (FOCS 2019).
翻訳日:2022-11-11 13:09:45 公開日:2020-07-11
# GANに基づく半教師あり学習はどのように働くか?

How Does GAN-based Semi-supervised Learning Work? ( http://arxiv.org/abs/2007.05692v1 )

ライセンス: Link先を確認
Xuejiao Liu and Xueshuang Xiang(参考訳) generative adversarial network (gans) は広く使われており、半教師付き学習で競争的な結果を得ている。 本稿では,GANを用いた半教師付き学習(GAN-SSL)の動作を理論的に解析する。 まず,GAN-SSLの識別器を最適化することは教師あり学習の最適化と等価であることを示す。 したがって、GAN-SSLにおける最適な識別器はラベル付きデータに完全であることが期待される。 そして、完全判別器がさらに最適化目標を理論上の最大値に達することができるならば、最適生成器は真のデータ分布と一致する。 実際に理論的な最大値に達することは不可能であるため、GANの目的と明らかに異なるデータを生成するための完璧なジェネレータを得ることはできない。 さらに、ラベル付きデータが半教師付き分類で妥当なデータ多様体のすべての連結部分領域をトラバースできるなら、GAN-SSLにおける最適な識別器はラベルなしデータでも完璧であると予想する。 結論として、GAN-SSLにおけるミニマックス最適化は、不完全生成器を予期せず学習することにより、ラベル付きデータとラベルなしデータの両方で完全判別器を理論的に出力する。

Generative adversarial networks (GANs) have been widely used and have achieved competitive results in semi-supervised learning. This paper theoretically analyzes how GAN-based semi-supervised learning (GAN-SSL) works. We first prove that, given a fixed generator, optimizing the discriminator of GAN-SSL is equivalent to optimizing that of supervised learning. Thus, the optimal discriminator in GAN-SSL is expected to be perfect on labeled data. Then, if the perfect discriminator can further cause the optimization objective to reach its theoretical maximum, the optimal generator will match the true data distribution. Since it is impossible to reach the theoretical maximum in practice, one cannot expect to obtain a perfect generator for generating data, which is apparently different from the objective of GANs. Furthermore, if the labeled data can traverse all connected subdomains of the data manifold, which is reasonable in semi-supervised classification, we additionally expect the optimal discriminator in GAN-SSL to also be perfect on unlabeled data. In conclusion, the minimax optimization in GAN-SSL will theoretically output a perfect discriminator on both labeled and unlabeled data by unexpectedly learning an imperfect generator, i.e., GAN-SSL can effectively improve the generalization ability of the discriminator by leveraging unlabeled information.
翻訳日:2022-11-11 13:08:47 公開日:2020-07-11
# 深成林によるロバスト分類に向けて

Towards Robust Classification with Deep Generative Forests ( http://arxiv.org/abs/2007.05721v1 )

ライセンス: Link先を確認
Alvaro H. C. Correia, Robert Peharz, Cassio de Campos(参考訳) 決定木とランダムフォレストは、最も広く使われている機械学習モデルのひとつであり、表型でドメインに依存しないデータセットで最先端のパフォーマンスを達成することが多い。 それでも、主に識別モデルであるため、予測の不確実性を操作するための原則的な方法が欠けている。 本稿では,自然林を特徴空間上の全ジョイント分布を表す生成モデルに拡張することで,これらの問題に対処する最近の深層確率モデルであるgefs(generative forests)を活用した。 gefは不確かさを認識できる分類器であり、各予測のロバスト性を測定し、分散サンプルを検出することができる。

Decision Trees and Random Forests are among the most widely used machine learning models, and often achieve state-of-the-art performance in tabular, domain-agnostic datasets. Nonetheless, being primarily discriminative models they lack principled methods to manipulate the uncertainty of predictions. In this paper, we exploit Generative Forests (GeFs), a recent class of deep probabilistic models that addresses these issues by extending Random Forests to generative models representing the full joint distribution over the feature space. We demonstrate that GeFs are uncertainty-aware classifiers, capable of measuring the robustness of each prediction as well as detecting out-of-distribution samples.
翻訳日:2022-11-11 13:08:27 公開日:2020-07-11
# 複数の分散タスクのオンラインパラメータフリー学習

Online Parameter-Free Learning of Multiple Low Variance Tasks ( http://arxiv.org/abs/2007.05732v1 )

ライセンス: Link先を確認
Giulia Denevi, Dimitris Stamos, Massimiliano Pontil(参考訳) 低分散タスクの成長列に対して,共通のバイアスベクトルを学習する手法を提案する。 最先端のアプローチとは異なり、この手法ではハイパーパラメータのチューニングは不要である。 我々のアプローチは非統計的な設定で示され、2つの変種から成り得る。 aggressive" は各データポイントの後にバイアスを更新し、"lazy" は各タスクの最後にのみバイアスを更新する。 私たちはその方法に対する全タスクの後悔を招きます。 最先端のアプローチと比較して、アグレッシブなバリエーションはより高速なレートを返すが、遅延は標準レートを回復するが、ハイパーパラメータをチューニングする必要はない。 攻撃的変種はマルチタスク学習法となり、遅延的変種はメタ学習法となる。 実験により本手法の有効性を確認した。

We propose a method to learn a common bias vector for a growing sequence of low-variance tasks. Unlike state-of-the-art approaches, our method does not require tuning any hyper-parameter. Our approach is presented in the non-statistical setting and can be of two variants. The "aggressive" one updates the bias after each datapoint, the "lazy" one updates the bias only at the end of each task. We derive an across-tasks regret bound for the method. When compared to state-of-the-art approaches, the aggressive variant returns faster rates, the lazy one recovers standard rates, but with no need of tuning hyper-parameters. We then adapt the methods to the statistical setting: the aggressive variant becomes a multi-task learning method, the lazy one a meta-learning method. Experiments confirm the effectiveness of our methods in practice.
翻訳日:2022-11-11 13:08:01 公開日:2020-07-11
# XGBoostの特徴的相互作用

Feature Interactions in XGBoost ( http://arxiv.org/abs/2007.05758v1 )

ライセンス: Link先を確認
Kshitij Goyal, Sebastijan Dumancic, Hendrik Blockeel(参考訳) 本稿では,XGBoostの実装を用いて,木モデルの勾配向上の制約として機能的相互作用をどう扱うかを検討する。 これらの制約の正確な同定は,ベースラインXGBoostモデルの性能向上に有効であることを示す。 さらに、モデル構造の改善は、解釈性の向上につながる可能性がある。

In this paper, we investigate how feature interactions can be identified to be used as constraints in the gradient boosting tree models using XGBoost's implementation. Our results show that accurate identification of these constraints can help improve the performance of baseline XGBoost model significantly. Further, the improvement in the model structure can also lead to better interpretability.
翻訳日:2022-11-11 13:07:48 公開日:2020-07-11
# 深層強化学習を用いたマルチエクイット避難シミュレーション

Simulating multi-exit evacuation using deep reinforcement learning ( http://arxiv.org/abs/2007.05783v1 )

ライセンス: Link先を確認
Dong Xu, Xiao Huang, Joseph Mango, Xiang Li, Zhenlong Li(参考訳) 屋内避難における従来のシミュレーションは, 変化環境における多数の要因に基づいて, 合理的出口を決定する方法に重点を置いている。 一般的には渋滞や未利用の出口、特に大規模な歩行者を含む。 本稿では,DNN(Deep Neural Network)フレームワークを応用し,状態と動作のマッピングを容易にするマルチエクスジット・DRL(MultiExit-DRL)と呼ばれる,深層強化学習に基づくマルチエクジット避難シミュレーションを提案する。 DNNフレームワークは、いくつかの先進的なDQNメソッドを統合するDRLアルゴリズムであるRainbow Deep Q-Network (DQN)を適用し、データ利用とアルゴリズムの安定性を改善し、さらにアクション空間を8つの等尺方向に分割して歩行者選択を可能にする。 従来の2つの避難シミュレーションモデルとMultiExit-DRLを3つのシナリオで比較する。 1)歩行者分布比の変化 2)出口幅比の変化,及び 3)出口のオープンスケジュールの変更。 その結果,MultiExit-DRLは,全設計実験において,避難枠の総数を削減しつつ,学習効率が高いことがわかった。 さらに、DRLの統合により、歩行者は他の潜在的な出口を探索することができ、最適な方向を決定するのに役立つ。

Conventional simulations on multi-exit indoor evacuation focus primarily on how to determine a reasonable exit based on numerous factors in a changing environment. Results commonly include some congested and other under-utilized exits, especially with massive pedestrians. We propose a multi-exit evacuation simulation based on Deep Reinforcement Learning (DRL), referred to as the MultiExit-DRL, which involves in a Deep Neural Network (DNN) framework to facilitate state-to-action mapping. The DNN framework applies Rainbow Deep Q-Network (DQN), a DRL algorithm that integrates several advanced DQN methods, to improve data utilization and algorithm stability, and further divides the action space into eight isometric directions for possible pedestrian choices. We compare MultiExit-DRL with two conventional multi-exit evacuation simulation models in three separate scenarios: 1) varying pedestrian distribution ratios, 2) varying exit width ratios, and 3) varying open schedules for an exit. The results show that MultiExit-DRL presents great learning efficiency while reducing the total number of evacuation frames in all designed experiments. In addition, the integration of DRL allows pedestrians to explore other potential exits and helps determine optimal directions, leading to the high efficiency of exit utilization.
翻訳日:2022-11-11 13:07:42 公開日:2020-07-11
# 逆比較最適輸送による表現学習

Representation Learning via Adversarially-Contrastive Optimal Transport ( http://arxiv.org/abs/2007.05840v1 )

ライセンス: Link先を確認
Anoop Cherian, Shuchin Aeron(参考訳) 本稿では,その暗黙時空間をキャプチャする逐次データに対するコンパクト(低次元)表現の学習問題について検討する。 データからそのような情報的手がかりの抽出を最大化するために、コントラスト表現学習の文脈内で問題を設定し、その目的を最適な輸送によって提案する。 具体的には,共同的にデータの低次元部分空間表現を求める。 (i) 最適な輸送(すなわちワッサースタイン距離)の下での逆データ分布からのデータ(この部分空間に埋め込まれた)の距離を最大化する。 (ii)時間順をキャプチャし、 (iii)データの歪みを最小限に抑える。 逆分布を生成するために,ワッサースタインGANと分類器を接続する新しいフレームワークを提案する。 我々の全目的はグラスマン多様体上の部分空間学習問題としてキャストされ、リーマン最適化によって解決される。 我々の定式化を実証的に研究するために,ビデオシーケンスにおける人間の行動認識の課題について実験を行った。 我々の結果は、挑戦的なベースラインに対する競争力を示す。

In this paper, we study the problem of learning compact (low-dimensional) representations for sequential data that captures its implicit spatio-temporal cues. To maximize extraction of such informative cues from the data, we set the problem within the context of contrastive representation learning and to that end propose a novel objective via optimal transport. Specifically, our formulation seeks a low-dimensional subspace representation of the data that jointly (i) maximizes the distance of the data (embedded in this subspace) from an adversarial data distribution under the optimal transport, a.k.a. the Wasserstein distance, (ii) captures the temporal order, and (iii) minimizes the data distortion. To generate the adversarial distribution, we propose a novel framework connecting Wasserstein GANs with a classifier, allowing a principled mechanism for producing good negative distributions for contrastive learning, which is currently a challenging problem. Our full objective is cast as a subspace learning problem on the Grassmann manifold and solved via Riemannian optimization. To empirically study our formulation, we provide experiments on the task of human action recognition in video sequences. Our results demonstrate competitive performance against challenging baselines.
翻訳日:2022-11-11 13:00:40 公開日:2020-07-11
# グラフニューラルネットワークと階層的リファインメントを用いた頭蓋内ラベリングの自動化

Automated Intracranial Artery Labeling using a Graph Neural Network and Hierarchical Refinement ( http://arxiv.org/abs/2007.14472v1 )

ライセンス: Link先を確認
Li Chen, Thomas Hatsukami, Jenq-Neng Hwang, Chun Yuan(参考訳) 頭蓋内動脈 (ica) を解剖学的名称で自動的に分類することは, 頭蓋内血管構造の特徴抽出および詳細な解析に有用である。 ICAには自然および病理的な原因により大きなバリエーションがあり、自動ラベリングが困難である。 しかし、解剖学的ラベリングの評価のための既存の公開データセットは限られている。 我々は、729磁気共鳴血管造影スキャンを用いた包括的データセットを構築し、属性付きリレーショナルグラフのノードとエッジのタイプを分類して動脈をラベル付けするグラフニューラルネットワーク(GNN)手法を提案する。 さらに,gnn出力をさらに改善し,icaに関する構造的および関係的知識を組み込むための階層的改良フレームワークを開発した。 本手法は,健常者および疾患患者の105回の検診において,全Willisノードに対して97.5%,63.8%のスキャンを正しくラベル付けした。 これは最先端の手法よりも大幅に改善されている。 動脈の自動ラベリングは複雑なicaネットワークを特徴付けるための手作業を最小限にし、血管疾患の幾何学的危険因子の同定に有用な情報を提供する。 私たちのコードとデータセットはhttps://github.com/clatfd/GNN-ARTLABELで公開されています。

Automatically labeling intracranial arteries (ICA) with their anatomical names is beneficial for feature extraction and detailed analysis of intracranial vascular structures. There are significant variations in the ICA due to natural and pathological causes, making it challenging for automated labeling. However, the existing public dataset for evaluation of anatomical labeling is limited. We construct a comprehensive dataset with 729 Magnetic Resonance Angiography scans and propose a Graph Neural Network (GNN) method to label arteries by classifying types of nodes and edges in an attributed relational graph. In addition, a hierarchical refinement framework is developed for further improving the GNN outputs to incorporate structural and relational knowledge about the ICA. Our method achieved a node labeling accuracy of 97.5%, and 63.8% of scans were correctly labeled for all Circle of Willis nodes, on a testing set of 105 scans with both healthy and diseased subjects. This is a significant improvement over available state-of-the-art methods. Automatic artery labeling is promising to minimize manual effort in characterizing the complicated ICA networks and provides valuable information for the identification of geometric risk factors of vascular disease. Our code and dataset are available at https://github.com/clatfd/GNN-ARTLABEL.
翻訳日:2022-11-11 13:00:04 公開日:2020-07-11
# 自律ドローンの深部強化学習による長期計画

Long-Term Planning with Deep Reinforcement Learning on Autonomous Drones ( http://arxiv.org/abs/2007.05694v1 )

ライセンス: Link先を確認
Ugurkan Ates(参考訳) 本稿では,実生活で開催されているドローンレース競技に基づく長期計画シナリオについて検討する。 この実験は、NeurIPS 2019で"Game of Drones: Drone Racing Competition"のために作成されたフレームワーク上で実施された。 レース環境はmicrosoftのairsim drone racing labを使って作られた。 強化学習エージェントであるシミュレート・クアドロターは、ppo(policy proximal optimization)アルゴリズムを用いて、古典的な経路計画アルゴリズムを実行していた別のシミュレート・クアドロターとうまく競合することができた。 エージェント観測は、IMUセンサー、シミュレーションによって得られたドローンのGPS座標、反対のドローンGPS情報から成り立っている。 訓練中に反対のドローンGPS情報を使用することで、複雑な状態空間を扱うことができる。 この論文で実施されたすべての実験は、GitHubリポジトリでコードの発見と再現が可能です。

In this paper, we study a long-term planning scenario that is based on drone racing competitions held in real life. We conducted this experiment on a framework created for "Game of Drones: Drone Racing Competition" at NeurIPS 2019. The racing environment was created using Microsoft's AirSim Drone Racing Lab. A reinforcement learning agent, a simulated quadrotor in our case, has trained with the Policy Proximal Optimization(PPO) algorithm was able to successfully compete against another simulated quadrotor that was running a classical path planning algorithm. Agent observations consist of data from IMU sensors, GPS coordinates of drone obtained through simulation and opponent drone GPS information. Using opponent drone GPS information during training helps dealing with complex state spaces, serving as expert guidance allows for efficient and stable training process. All experiments performed in this paper can be found and reproduced with code at our GitHub repository
翻訳日:2022-11-11 12:59:43 公開日:2020-07-11
# 遺伝的アルゴリズムとA*アルゴリズムを用いたハイブリッド多目的カープール経路最適化手法

A Hybrid Multi-Objective Carpool Route Optimization Technique using Genetic Algorithm and A* Algorithm ( http://arxiv.org/abs/2007.05781v1 )

ライセンス: Link先を確認
Romit S Beed, Sunita Sarkar, Arindam Roy, Suvranil D Biswas and Suhana Biswas(参考訳) 自動車の循環は、音と空気の両方の車両の汚染を制御する効果的な解決策として、先進国や発展途上国で非常に重要になっている。 相乗りは通勤者の車両数を減少させるため、道路交通の緩和や渋滞の緩和、駐車施設の需要減少、エネルギーや燃料消費の減少、そして最も重要なのは二酸化炭素排出量の減少、都市生活の質の向上など、様々な利点をもたらす。 本研究では,複数の競合対象を持つ多目的最適化領域において,カープール問題に対する最適経路を得るためのGA-A*ハイブリッドアルゴリズムを提案する。 遺伝的アルゴリズムは最適解を提供するが、a*アルゴリズムはヒューリスティックスに基づく任意の2点間の最短経路を提供するため、遺伝的アルゴリズムを用いて得られる最適経路を強化する。 GA-A*アルゴリズムを用いて得られた洗練された経路は、パレート最適性に基づく非支配的解を得るために支配試験を受ける。 得られた経路は、車両の利用を最大化しつつ、走行・出入口距離とピックアップ・ドロップコストを最小化し、サービス提供者の利益を最大化する。 提案されたアルゴリズムはコルカタのソルトレイク地域で実装されている。 提案手法で得られた最適経路の経路距離と方向距離は,既存のアルゴリズムで得られたデータと比較した場合,同一の乗客数に対して一貫して小さくなる。 ボックスプロットのような様々な統計分析により、提案アルゴリズムは遺伝的アルゴリズムのみを用いて既存のアルゴリズムよりもよく機能することが確認された。

Carpooling has gained considerable importance in developed as well as in developing countries as an effective solution for controlling vehicular pollution, both sound and air. As carpooling decreases the number of vehicles used by commuters, it results in multiple benefits like mitigation of traffic and congestion on the roads, reduced demand for parking facilities, lesser energy or fuel consumption and most importantly, reduction in carbon emission, thus improving the quality of life in cities. This work presents a hybrid GA-A* algorithm to obtain optimal routes for the carpooling problem in the domain of multi-objective optimization having multiple conflicting objectives. Though Genetic algorithm provides optimal solutions, A* algorithm because of its efficiency in providing the shortest route between any two points based on heuristics, enhances the optimal routes obtained using Genetic algorithm. The refined routes, obtained using the GA-A* algorithm, are further subjected to dominance test to obtain non-dominating solutions based on Pareto-Optimality. The routes obtained maximize the profit of the service provider by minimizing the travel and detour distance as well as pick-up/drop costs while maximizing the utilization of the car. The proposed algorithm has been implemented over the Salt Lake area of Kolkata. Route distance and detour distance for the optimal routes obtained using the proposed algorithm are consistently lesser for the same number of passengers when compared with the corresponding data obtained using the existing algorithm. Various statistical analyses like boxplots have also confirmed that the proposed algorithm regularly performed better than the existing algorithm using only Genetic Algorithm.
翻訳日:2022-11-11 12:59:18 公開日:2020-07-11
# nodule2vec : 意味表現を用いた肺結節検索のための3次元深層学習システム

Nodule2vec: a 3D Deep Learning System for Pulmonary Nodule Retrieval Using Semantic Representation ( http://arxiv.org/abs/2007.07081v1 )

ライセンス: Link先を確認
Ilia Kravets, Tal Heletz, Hayit Greenspan(参考訳) コンテンツに基づく検索は、歴史的診断とさらなる疾患発生履歴の両方を含むデータベースから医師に最も類似した事例を提示することにより、放射線科医による意思決定プロセスを支援する。 本稿では,肺結節の3次元画像をctスキャンから低次元埋め込みベクトルに変換する深層学習システムを提案する。 このようなベクトル表現は、結節に関する意味情報を保存し、コンテンツベース画像検索(CBIR)に実行可能なアプローチを提供する。 現状の肺結節検出モデルの伝達学習を適用することで,利用可能なデータセットの理論的限界を議論し,それを克服する。 胸部CTスキャンのLIDC-IDRIデータセットを用いてシステム評価を行った。 類似度スコアを考案し 類似度の測定に活用できることを示します 1) 異なる放射線学者による同一結節の注釈と 2) クエリノードとトップ4のCBIR結果の間。 医師とアルゴリズムのスコアを比較すると、このシステムのエンドユーザに対する利点は、第2の放射線学者の意見に匹敵することを示している。

Content-based retrieval supports a radiologist decision making process by presenting the doctor the most similar cases from the database containing both historical diagnosis and further disease development history. We present a deep learning system that transforms a 3D image of a pulmonary nodule from a CT scan into a low-dimensional embedding vector. We demonstrate that such a vector representation preserves semantic information about the nodule and offers a viable approach for content-based image retrieval (CBIR). We discuss the theoretical limitations of the available datasets and overcome them by applying transfer learning of the state-of-the-art lung nodule detection model. We evaluate the system using the LIDC-IDRI dataset of thoracic CT scans. We devise a similarity score and show that it can be utilized to measure similarity 1) between annotations of the same nodule by different radiologists and 2) between the query nodule and the top four CBIR results. A comparison between doctors and algorithm scores suggests that the benefit provided by the system to the radiologist end-user is comparable to obtaining a second radiologist's opinion.
翻訳日:2022-11-11 12:58:51 公開日:2020-07-11
# 多機能群における自動行動生成の枠組み

A Framework for Automatic Behavior Generation in Multi-Function Swarms ( http://arxiv.org/abs/2007.08656v1 )

ライセンス: Link先を確認
Sondre A. Engebraaten, Jonas Moen, Oleg A. Yakimenko, Kyrre Glette(参考訳) 多機能Swarmは複数のタスクを同時に解決するSwarmである。 例えば、クワッドコプターの群れは興味のある領域を探索し、同時にアドホックリレーとして機能する。 このタイプのマルチファンクションでは、潜在的に矛盾する要件を同時に扱うことが課題となる。 品質多様性アルゴリズムMAP-elitesと適切なコントローラ構造を組み合わせることで,マルチファンクションスワムの自動動作生成のためのフレームワークを提案する。 このフレームワークは、RFエミッタの探索、通信ネットワークの作成、位置決めという3つの同時タスクのシナリオでテストされる。 レパートリーが進化し、様々なタスクで異なる特性とトレードオフを持つ幅広いコントローラーまたは行動プリミティブで構成されている。 このレパートリーにより、状況条件に従って、swarmはオンライン上で行動トレードオフを切り替えることができる。 さらに, MAPエリートの挙動特性に及ぼすノイズの影響について検討した。 適度な再評価の回数は、計算要求を比較的低く保ちながら、ロバスト性を高めることが判明した。 選択されたコントローラをいくつか検討し、これらのコントローラ間の遷移のダイナミクスについて検討する。 最後に, 制御器の構成を解析するための方法論を考案した。 これは、Swarmコントローラに対する個々の入力の重要性を評価し分析するパラメータ変動研究を通じて行われる。

Multi-function swarms are swarms that solve multiple tasks at once. For example, a quadcopter swarm could be tasked with exploring an area of interest while simultaneously functioning as ad-hoc relays. With this type of multi-function comes the challenge of handling potentially conflicting requirements simultaneously. Using the Quality-Diversity algorithm MAP-elites in combination with a suitable controller structure, a framework for automatic behavior generation in multi-function swarms is proposed. The framework is tested on a scenario with three simultaneous tasks: exploration, communication network creation and geolocation of RF emitters. A repertoire is evolved, consisting of a wide range of controllers, or behavior primitives, with different characteristics and trade-offs in the different tasks. This repertoire would enable the swarm to transition between behavior trade-offs online, according to the situational requirements. Furthermore, the effect of noise on the behavior characteristics in MAP-elites is investigated. A moderate number of re-evaluations is found to increase the robustness while keeping the computational requirements relatively low. A few selected controllers are examined, and the dynamics of transitioning between these controllers are explored. Finally, the study develops a methodology for analyzing the makeup of the resulting controllers. This is done through a parameter variation study where the importance of individual inputs to the swarm controllers is assessed and analyzed.
翻訳日:2022-11-11 12:58:34 公開日:2020-07-11
# 感情制御型チャットボットの検討

Investigation of Sentiment Controllable Chatbot ( http://arxiv.org/abs/2007.07196v1 )

ライセンス: Link先を確認
Hung-yi Lee, Cheng-Hao Ho, Chien-Fu Lin, Chiung-Chih Chang, Chih-Wei Lee, Yau-Shian Wang, Tsung-Yuan Hsu and Kuan-Yu Chen(参考訳) 従来のSeq2seqチャットボットモデルは、出力文の感情を考慮せずに、入力シーケンスで条件付けられた最も高い確率の文のみを見つけようとする。 本稿では,チャットボット応答の感情をスケールまたは調整するための4つのモデル,すなわち,ペルソナベースモデル,強化学習,プラグアンドプレイモデル,サイクガンモデルについて検討する。 また,入力した応答が妥当かどうかを推定するために,機械評価指標を開発した。 これらの指標は、人的評価とともに、4つのモデルのパフォーマンスを異なる観点から分析するために使用され、強化学習とCycleGANは非常に魅力的である。

Conventional seq2seq chatbot models attempt only to find sentences with the highest probabilities conditioned on the input sequences, without considering the sentiment of the output sentences. In this paper, we investigate four models to scale or adjust the sentiment of the chatbot response: a persona-based model, reinforcement learning, a plug and play model, and CycleGAN, all based on the seq2seq model. We also develop machine-evaluated metrics to estimate whether the responses are reasonable given the input. These metrics, together with human evaluation, are used to analyze the performance of the four models in terms of different aspects; reinforcement learning and CycleGAN are shown to be very attractive.
翻訳日:2022-11-11 12:58:13 公開日:2020-07-11
# 言語識別のためのノイズの多いTwitter短文メッセージの特徴選択

Feature Selection on Noisy Twitter Short Text Messages for Language Identification ( http://arxiv.org/abs/2007.05727v1 )

ライセンス: Link先を確認
Mohd Zeeshan Ansari, Tanvir Ahmad and Ana Fatima(参考訳) 言語識別のタスクは典型的には、テキストのサンプルに存在する言語を検出することである。 さらに、一連のテキストは単一の固有言語に属するのではなく、複数の言語で書かれたテキストの混合でもある。 この種のテキストは、フレキシブルでユーザーフレンドリーな環境のため、ソーシャルメディアプラットフォームから大量に生成されます。 このようなテキストには、統計的、確率的および他の種類の言語モデルの開発に不可欠な、非常に多くの特徴が含まれている。 多数の機能は、学習モデルの性能に様々な影響を及ぼす無関係で冗長な特徴と同様に、豊富である。 したがって、効率的なモデルに最も関係のある特徴の選択において、特徴選択手法は重要である。 本稿では、ヒンディー語と英語の識別課題について、ヒンディー語と英語はしばしばインドで最も広く話されている2つの言語であると考える。 我々は,様々な学習アルゴリズムに異なる特徴選択アルゴリズムを適用し,そのアルゴリズムの効果と課題の性能に対する特徴数を分析した。 この手法は、Twitterから抽出された6903ツイートの新しいデータセットを用いた単語レベルの言語識別に焦点を当てている。 様々なn-gramプロファイルを様々な分類器上で異なる特徴選択アルゴリズムを用いて検討する。 最後に, 課題に対する総合的な実験について, 徹底的な比較分析を行った。

The task of written language identification involves typically the detection of the languages present in a sample of text. Moreover, a sequence of text may not belong to a single inherent language but also may be mixture of text written in multiple languages. This kind of text is generated in large volumes from social media platforms due to its flexible and user friendly environment. Such text contains very large number of features which are essential for development of statistical, probabilistic as well as other kinds of language models. The large number of features have rich as well as irrelevant and redundant features which have diverse effect over the performance of the learning model. Therefore, feature selection methods are significant in choosing feature that are most relevant for an efficient model. In this article, we basically consider the Hindi-English language identification task as Hindi and English are often two most widely spoken languages of India. We apply different feature selection algorithms across various learning algorithms in order to analyze the effect of the algorithm as well as the number of features on the performance of the task. The methodology focuses on the word level language identification using a novel dataset of 6903 tweets extracted from Twitter. Various n-gram profiles are examined with different feature selection algorithms over many classifiers. Finally, an exhaustive comparative analysis is put forward with respect to the overall experiments conducted for the task.
翻訳日:2022-11-11 12:58:02 公開日:2020-07-11
# 機械学習は私の言語を話すのか? 8言語にわたるNLP-Pipelineの批判的考察

Is Machine Learning Speaking my Language? A Critical Look at the NLP-Pipeline Across 8 Human Languages ( http://arxiv.org/abs/2007.05872v1 )

ライセンス: Link先を確認
Esma Wali, Yan Chen, Christopher Mahoney, Thomas Middleton, Marzieh Babaeianjelodar, Mariama Njie, Jeanna Neefe Matthews(参考訳) 自然言語処理(NLP)は、求職者のリストのソートに使用される履歴解析器などの重要な意思決定システムにおいて、ますます重要な要素となっている。 nlpシステムは、しばしば大量の人間のテキストを取り込み、過去の人間の行動や決定から学び、将来の世界についてのレコメンデーションを行うシステムを作ろうとする。 今日、7000以上の人間の言語が話されており、典型的なnlpパイプラインは、そのほとんどが話し手でありながら、他の言語の話者の声を増幅している。 本稿では,8言語(英語,中国語,ウルドゥー語,ファルシ語,アラビア語,フランス語,スペイン語,ウーロフ語)の話者を含むチームが,典型的なNLPパイプラインと,技術的にサポートされた言語であっても,完全な参加を防止するために重要な注意点が残っている。 多くのツールやリソースにおける多言語サポートへの多大な投資にもかかわらず、我々は今でも世界中の声を体系的かつ劇的に過小に表現するnlp誘導の決定をしています。

Natural Language Processing (NLP) is increasingly used as a key ingredient in critical decision-making systems such as resume parsers used in sorting a list of job candidates. NLP systems often ingest large corpora of human text, attempting to learn from past human behavior and decisions in order to produce systems that will make recommendations about our future world. Over 7000 human languages are being spoken today and the typical NLP pipeline underrepresents speakers of most of them while amplifying the voices of speakers of other languages. In this paper, a team including speakers of 8 languages - English, Chinese, Urdu, Farsi, Arabic, French, Spanish, and Wolof - takes a critical look at the typical NLP pipeline and how even when a language is technically supported, substantial caveats remain to prevent full participation. Despite huge and admirable investments in multilingual support in many tools and resources, we are still making NLP-guided decisions that systematically and dramatically underrepresent the voices of much of the world.
翻訳日:2022-11-11 12:57:44 公開日:2020-07-11
# 継続的学習のためのバッチレベルの体験リプレイ

Batch-level Experience Replay with Review for Continual Learning ( http://arxiv.org/abs/2007.05683v1 )

ライセンス: Link先を確認
Zheda Mai, Hyunwoo Kim, Jihwan Jeong, Scott Sanner(参考訳) 継続的な学習は、学習の安定性と可塑性のバランスを保とうとする深層学習の一分野である。 CVPR 2020 CLVision Continual Learning for Computer Visionチャレンジは、3つの異なる連続学習シナリオを持つCORe50データセットを使用して、現在の最先端の継続的学習手法を評価し、前進させることを目的としている。 本稿では,この課題に対して,Batch-level Experience Replay with Reviewというアプローチを提案する。 我々のチームは79チーム中3つのシナリオで1位となった。 実装のコードベースはhttps://github.com/RaptorMai/CVPR20_CLVision_challengeで公開されています。

Continual learning is a branch of deep learning that seeks to strike a balance between learning stability and plasticity. The CVPR 2020 CLVision Continual Learning for Computer Vision challenge is dedicated to evaluating and advancing the current state-of-the-art continual learning methods using the CORe50 dataset with three different continual learning scenarios. This paper presents our approach, called Batch-level Experience Replay with Review, to this challenge. Our team achieved the 1'st place in all three scenarios out of 79 participated teams. The codebase of our implementation is publicly available at https://github.com/RaptorMai/CVPR20_CLVision_challenge
翻訳日:2022-11-11 12:52:01 公開日:2020-07-11
# BERTが化学(とティーチ)を学ぶ

BERT Learns (and Teaches) Chemistry ( http://arxiv.org/abs/2007.16012v1 )

ライセンス: Link先を確認
Josh Payne, Mario Srouji, Dian Ang Yap, Vineet Kosaraju(参考訳) 現代の計算有機化学はデータ駆動化が進んでいる。 この領域では、反応剤の製品予測、薬物発見、メートル最適化分子合成などの重要な未解決問題が多く残っているが、近年では機械学習を用いてこれらの問題を解く取り組みも増えている。 本研究では,分子の文字列表現のデータセット上での変換器モデル (BERT) を用いて,データ駆動の観点から関数群やその他の特性に影響を及ぼす分子サブ構造の研究に注意を向けることを提案する。 次に,本モデルで学習した官能基と原子の表現を適用し,毒性,溶解度,薬物類似性,および小さなデータセットに対する合成アクセシビリティの問題をグラフ畳み込みおよび分子のグラフ構造への注意モデルの特徴として利用し,BERTの微調整を行った。 最後に,様々な化学特性において重要なサブ構造を迅速に識別する上で,化学実践者や学生にとって有用なツールとして注意の可視化の利用を提案する。

Modern computational organic chemistry is becoming increasingly data-driven. There remain a large number of important unsolved problems in this area such as product prediction given reactants, drug discovery, and metric-optimized molecule synthesis, but efforts to solve these problems using machine learning have also increased in recent years. In this work, we propose the use of attention to study functional groups and other property-impacting molecular substructures from a data-driven perspective, using a transformer-based model (BERT) on datasets of string representations of molecules and analyzing the behavior of its attention heads. We then apply the representations of functional groups and atoms learned by the model to tackle problems of toxicity, solubility, drug-likeness, and synthesis accessibility on smaller datasets using the learned representations as features for graph convolution and attention models on the graph structure of molecules, as well as fine-tuning of BERT. Finally, we propose the use of attention visualization as a helpful tool for chemistry practitioners and students to quickly identify important substructures in various chemical properties.
翻訳日:2022-11-11 12:51:22 公開日:2020-07-11
# ハイブリッド推論としての制御

Control as Hybrid Inference ( http://arxiv.org/abs/2007.05838v1 )

ライセンス: Link先を確認
Alexander Tschantz, Beren Millidge, Anil K. Seth, Christopher L. Buckley(参考訳) 強化学習の分野はモデルベースとモデルフリーに分けることができる。 本稿では,モデルフリー政策最適化を償却された変分推論として,モデルベース計画を反復的変分推論として,'ハイブリッド推論としての制御' (CHI) フレームワーク内で,これらアプローチを統一する。 本稿では,反復推論と償却推論のバランスを自然に仲介するchiの実装を提案する。 ディダクティックな実験を用いて,本アルゴリズムが学習開始時にモデルベースで動作し,十分なデータが収集された後にモデルフリーのアルゴリズムに収束することを示す。 連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。 CHIは、モデルフリー政策最適化の漸近的性能を維持しつつ、モデルベース計画のサンプル効率を活用するための原則化されたフレームワークを提供する。

The field of reinforcement learning can be split into model-based and model-free methods. Here, we unify these approaches by casting model-free policy optimisation as amortised variational inference, and model-based planning as iterative variational inference, within a `control as hybrid inference' (CHI) framework. We present an implementation of CHI which naturally mediates the balance between iterative and amortised inference. Using a didactic experiment, we demonstrate that the proposed algorithm operates in a model-based manner at the onset of learning, before converging to a model-free algorithm once sufficient data have been collected. We verify the scalability of our algorithm on a continuous control benchmark, demonstrating that it outperforms strong model-free and model-based baselines. CHI thus provides a principled framework for harnessing the sample efficiency of model-based planning while retaining the asymptotic performance of model-free policy optimisation.
翻訳日:2022-11-11 12:51:01 公開日:2020-07-11
# Polestar: インテリジェントで効率的で全国的な公共交通機関のルーティングエンジン

Polestar: An Intelligent, Efficient and National-Wide Public Transportation Routing Engine ( http://arxiv.org/abs/2007.07195v1 )

ライセンス: Link先を確認
Hao Liu, Ying Li, Yanjie Fu, Huaibo Mei, Jingbo Zhou, Xu Ma, Hui Xiong(参考訳) 公共交通機関は人々の日常生活において重要な役割を果たす。 公共交通は、他のどの形態よりも環境的に持続可能、効率的、経済的であることが証明されている。 しかし、交通網の拡大や交通状況の複雑化などにより、公共交通機関を通じて最優先の経路を効率的に見つけることが困難になっている。 そこで,本稿では,インテリジェントで効率的な公共交通経路のためのデータ駆動エンジン polestar を提案する。 具体的には、まず、時間や距離といった様々な交通費の観点から公共交通システムのモデル化を行う新しい公共交通グラフ(ptg)を提案する。 次に,効率的な経路候補生成のための効率的な駅結合法を組み合わせた一般経路探索アルゴリズムを提案する。 その後,動的な移動状況下でユーザの嗜好をキャプチャする2パス経路候補ランキングモジュールを提案する。 最後に、2つの実世界のデータセットに対する実験は、効率性と有効性の両方の観点から、Poestarの利点を示す。 実際、2019年初頭に、世界最大の地図サービスのひとつであるbaidu mapsにpolestarがデプロイされた。 Polestarはこれまでに330以上の都市にサービスを提供しており、毎日1億以上のクエリに回答し、ユーザークリック率を大幅に改善している。

Public transportation plays a critical role in people's daily life. It has been proven that public transportation is more environmentally sustainable, efficient, and economical than any other forms of travel. However, due to the increasing expansion of transportation networks and more complex travel situations, people are having difficulties in efficiently finding the most preferred route from one place to another through public transportation systems. To this end, in this paper, we present Polestar, a data-driven engine for intelligent and efficient public transportation routing. Specifically, we first propose a novel Public Transportation Graph (PTG) to model public transportation system in terms of various travel costs, such as time or distance. Then, we introduce a general route search algorithm coupled with an efficient station binding method for efficient route candidate generation. After that, we propose a two-pass route candidate ranking module to capture user preferences under dynamic travel situations. Finally, experiments on two real-world data sets demonstrate the advantages of Polestar in terms of both efficiency and effectiveness. Indeed, in early 2019, Polestar has been deployed on Baidu Maps, one of the world's largest map services. To date, Polestar is servicing over 330 cities, answers over a hundred millions of queries each day, and achieves substantial improvement of user click ratio.
翻訳日:2022-11-11 12:50:44 公開日:2020-07-11
# 関係誘導表現学習

Relation-Guided Representation Learning ( http://arxiv.org/abs/2007.05742v1 )

ライセンス: Link先を確認
Zhao Kang and Xiao Lu and Jian Liang and Kun Bai and Zenglin Xu(参考訳) ディープオートエンコーダ(DAE)は、ニューラルネットワークの強力な表現可能性を通じて、データ表現の学習において大きな成功を収めている。 しかし、ほとんどのDAEは、潜在空間からデータを再構築し、豊富な潜在構造情報を無視できる最も支配的な構造のみに焦点を当てている。 本研究では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。 以前の作業とは異なり、私たちのフレームワークはサンプル間の関係をよく保存します。 対関係自体の予測は根本的な問題であるため,モデルではデータから適応的に学習する。 これは、実際のデータ多様体をエンコードする柔軟性を提供する。 クラスタリングタスクにおいて,関係と表現学習の重要な役割が評価される。 ベンチマークデータセットに関する大規模な実験は、我々のアプローチの優位性を示している。 サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。

Deep auto-encoders (DAEs) have achieved great success in learning data representations via the powerful representability of neural networks. But most DAEs only focus on the most dominant structures which are able to reconstruct the data from a latent space and neglect rich latent structural information. In this work, we propose a new representation learning method that explicitly models and leverages sample relations, which in turn is used as supervision to guide the representation learning. Different from previous work, our framework well preserves the relations between samples. Since the prediction of pairwise relations themselves is a fundamental problem, our model adaptively learns them from data. This provides much flexibility to encode real data manifold. The important role of relation and representation learning is evaluated on the clustering task. Extensive experiments on benchmark data sets demonstrate the superiority of our approach. By seeking to embed samples into subspace, we further show that our method can address the large-scale and out-of-sample problem.
翻訳日:2022-11-11 12:49:42 公開日:2020-07-11
# AutoEmbedder:クラスタリングのための半教師付きDNN埋め込みシステム

AutoEmbedder: A semi-supervised DNN embedding system for clustering ( http://arxiv.org/abs/2007.05830v1 )

ライセンス: Link先を確認
Abu Quwsar Ohi, M. F. Mridha, Farisa Benta Safir, Md. Abdul Hamid, Muhammad Mostafa Monowar(参考訳) クラスタリングは、ラベルのないデータを扱う教師なし学習法で広く使われている。 ディープクラスタリングは、ディープニューラルネットワーク(dnn)アーキテクチャによるクラスタリングに関連する一般的な研究領域となっている。 ディープクラスタリング法は、クラスタリング損失を関連付けた高次元データをサンプリングする。 深層クラスタリングは半教師付き学習(SSL)にも導入されている。 ほとんどのSSLメソッドはペアの制約情報に依存しており、同じクラスタにデータペアがあるかどうかの知識を含むマトリックスである。 本稿では,高次元データをクラスタリング可能な埋め込みポイントにダウンサンプリングする,AutoEmbedderという新しい埋め込みシステムを提案する。 私たちの知る限りでは、これは従来の分類器dnnアーキテクチャとペアワイズ損失削減技術に関連する最初の研究成果です。 トレーニングプロセスは半教師あり、Siameseネットワークアーキテクチャを使用して、機能学習フェーズにおけるペアワイズ制約損失を計算する。 AutoEmbedderは、有名なデータセットでテストされた既存のDNNベースの半教師付きメソッドよりも優れています。

Clustering is widely used in unsupervised learning method that deals with unlabeled data. Deep clustering has become a popular study area that relates clustering with Deep Neural Network (DNN) architecture. Deep clustering method downsamples high dimensional data, which may also relate clustering loss. Deep clustering is also introduced in semi-supervised learning (SSL). Most SSL methods depend on pairwise constraint information, which is a matrix containing knowledge if data pairs can be in the same cluster or not. This paper introduces a novel embedding system named AutoEmbedder, that downsamples higher dimensional data to clusterable embedding points. To the best of our knowledge, this is the first research endeavor that relates to traditional classifier DNN architecture with a pairwise loss reduction technique. The training process is semi-supervised and uses Siamese network architecture to compute pairwise constraint loss in the feature learning phase. The AutoEmbedder outperforms most of the existing DNN based semi-supervised methods tested on famous datasets.
翻訳日:2022-11-11 12:49:06 公開日:2020-07-11