このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200716となっている論文です。

PDF登録状況(公開日: 20200716)

TitleAuthorsAbstract論文公表日・翻訳日
# ボソニックガウスチャネルのプライベート容量上の上限

Upper bounds on the private capacity for bosonic Gaussian channels ( http://arxiv.org/abs/2001.01179v3 )

ライセンス: Link先を確認
Kabgyun Jeong(参考訳) 近年、ボソニックガウスチャネルの様々な量子チャネル容量の境界がかなり進歩している。 特に、古典容量のいくつかの上限とボソニックガウスチャネル上の量子容量は、量子エントロピー力の不等式として知られる技術によって、謎の量子チャネル容量問題を理解することに光を当てている。 しかし、量子チャネル上のプライベートな容量の上限は、ある普遍的な上限の研究にはまだ欠けている。 ここでは、条件付き量子エントロピーパワーの不等式を通して、一般ガウス雑音の場合を含むボソニックガウスチャネルのプライベートキャパシティの上限を導出する。

Recently, there have been considerable progresses on the bounds of various quantum channel capacities for bosonic Gaussian channels. Especially, several upper bounds for the classical capacity and the quantum capacity on the bosonic Gaussian channels, via a technique known as quantum entropy power inequality, have been shed light on understanding the mysterious quantum-channel-capacity problems. However, upper bounds for the private capacity on quantum channels are still missing for the study on certain universal upper bounds. Here, we derive upper bounds on the private capacity for bosonic Gaussian channels involving a general Gaussian-noise case through the conditional quantum entropy power inequality.
翻訳日:2023-01-14 07:59:36 公開日:2020-07-16
# ツイスト付きカネメレ:分数質量キンクを有する準結晶高次位相絶縁体

Kane-Mele with a twist: Quasicrystalline higher-order topological insulators with fractional mass kinks ( http://arxiv.org/abs/2001.05511v2 )

ライセンス: Link先を確認
Stephen Spurrier, Nigel R. Cooper(参考訳) 準結晶系における高次トポロジカル絶縁体(HOTI)相の解析的低エネルギー理論を確立する。 これを2つの重積Haldaneモデルと反対に伝播するエッジモードを持ち、Ke-Meleモデルと類似し、30^\circ$ツイストを持つモデルに適用する。 HOTIの特徴である角の局所化モードは、従来の質量インバージョンとは関係がなく、代わりに「摩擦質量キンク」と呼ばれるものと関連していることを示す。 低エネルギー理論を一般化することにより、任意の$ n $-fold 回転対称性の分類を確立する。 また,二層におけるコーナーモードと単一層における判別モードとの関係も導出する。 弱結合限界を越えるために数値を用いることにより、余分なギャップの階層が準周期性によって生じることを示し、これはコーナーローカライズモードも含んでいることを示した。

We establish an analytic low-energy theory describing higher-order topological insulator (HOTI) phases in quasicrystalline systems. We apply this to a model consisting of two stacked Haldane models with oppositely propagating edge modes, analogous to the Kane-Mele model, and with a $30^\circ$ twist. We show that the resulting localized modes at corners, characteristic of a HOTI, are not associated with conventional mass inversions but are instead associated with what we dub "fractional mass kinks". By generalizing the low-energy theory, we establish a classification for arbitrary $ n $-fold rotational symmetries. We also derive a relationship between corner modes in a bilayer and disclination modes in a single layer. By using numerics to go beyond the weak-coupling limit, we show that a hierarchy of additional gaps occurs due to the quasiperiodicity, which also harbor corner-localized modes.
翻訳日:2023-01-11 07:07:47 公開日:2020-07-16
# ささいなノイズ、大きな間違い:脳-コンピュータインタフェーススペルの逆摂動はエラーを引き起こす

Tiny noise, big mistakes: Adversarial perturbations induce errors in Brain-Computer Interface spellers ( http://arxiv.org/abs/2001.11569v4 )

ライセンス: Link先を確認
Xiao Zhang, Dongrui Wu, Lieyun Ding, Hanbin Luo, Chin-Teng Lin, Tzyy-Ping Jung, Ricardo Chavarriaga(参考訳) 脳波(EEG)ベースの脳コンピュータインタフェース(BCI)スペルにより、ユーザは思考によってコンピュータにテキストを入力できる。 例えば筋萎縮性側索硬化症(amyotrophic lateral sclerosis)の患者は、他人やコンピュータとコミュニケーションする他の効果的な手段がない。 これまでの研究のほとんどは、EEGベースのBCIスペルを迅速かつ信頼性の高いものにすることに重点を置いている。 この研究は、初めてp300と定常的な視覚誘発電位bciのスペルが非常に脆弱であることを示します。 その結果は、単にユーザーのフラストレーションから、臨床応用における深刻な誤診まで様々である。 私たちは、私たちの研究が、eegベースのbciスペラー、そしてより広くeegベースのbcisのセキュリティにもっと注意を引けることを期待しています。

An electroencephalogram (EEG) based brain-computer interface (BCI) speller allows a user to input text to a computer by thought. It is particularly useful to severely disabled individuals, e.g., amyotrophic lateral sclerosis patients, who have no other effective means of communication with another person or a computer. Most studies so far focused on making EEG-based BCI spellers faster and more reliable; however, few have considered their security. This study, for the first time, shows that P300 and steady-state visual evoked potential BCI spellers are very vulnerable, i.e., they can be severely attacked by adversarial perturbations, which are too tiny to be noticed when added to EEG signals, but can mislead the spellers to spell anything the attacker wants. The consequence could range from merely user frustration to severe misdiagnosis in clinical applications. We hope our research can attract more attention to the security of EEG-based BCI spellers, and more broadly, EEG-based BCIs, which has received little attention before.
翻訳日:2023-01-05 12:46:50 公開日:2020-07-16
# ディープニューラルネットワークを用いた高次元固有値問題の解法:拡散モンテカルロ的アプローチ

Solving high-dimensional eigenvalue problems using deep neural networks: A diffusion Monte Carlo like approach ( http://arxiv.org/abs/2002.02600v2 )

ライセンス: Link先を確認
Jiequn Han, Jianfeng Lu, Mo Zhou(参考訳) 本稿では,深層ニューラルネットワークに基づく線形および半線形2次微分作用素の固有値問題の高次元解法を提案する。 固有値問題は、作用素によって誘導される半群流の固定点問題として再計算され、その解は前向き確率微分方程式でファインマン・カックの公式で表される。 この方法は拡散モンテカルロと類似の精神を共有しているが、ニューラルネットワークのアンサッツによる固有関数への直接近似を補強する。 固定点の基準は、最適化によってパラメータを探索する自然損失関数を提供する。 本手法は,fokker-planck演算子や高次元の線形および非線形schr\"odinger演算子など,いくつかの数値例において固有値と固有関数の正確な近似を提供することができる。

We propose a new method to solve eigenvalue problems for linear and semilinear second order differential operators in high dimensions based on deep neural networks. The eigenvalue problem is reformulated as a fixed point problem of the semigroup flow induced by the operator, whose solution can be represented by Feynman-Kac formula in terms of forward-backward stochastic differential equations. The method shares a similar spirit with diffusion Monte Carlo but augments a direct approximation to the eigenfunction through neural-network ansatz. The criterion of fixed point provides a natural loss function to search for parameters via optimization. Our approach is able to provide accurate eigenvalue and eigenfunction approximations in several numerical examples, including Fokker-Planck operator and the linear and nonlinear Schr\"odinger operators in high dimensions.
翻訳日:2023-01-03 04:34:41 公開日:2020-07-16
# 組合せ多腕バンディットの厳密な下限

Tight Lower Bounds for Combinatorial Multi-Armed Bandits ( http://arxiv.org/abs/2002.05392v3 )

ライセンス: Link先を確認
Nadav Merlis, Shie Mannor(参考訳) Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドのアームを選択し、各アームのフィードバックを観察し、選択したアームの既知の報酬関数を最大化することを目的とした、シーケンシャルな意思決定問題である。 以前の研究では、この設定で一般的な報酬関数に対する後悔の上限が証明されたが、特定の報酬関数に対して、下限に一致するものはごくわずかであった。 本研究では,すべてのスムーズな報酬関数に対して軽度な仮定で成り立つ組合せ的包帯に対して,後悔の少ない境界を証明した。 問題依存境界と問題非依存境界の両方を導出し、最近提案されたgini-weighted smoothnessパラメータ(merlis and mannor, 2019)も単調報酬関数の下限を決定することを示した。 特にこれは、下位境界がログファクタに固まることを意味します。

The Combinatorial Multi-Armed Bandit problem is a sequential decision-making problem in which an agent selects a set of arms on each round, observes feedback for each of these arms and aims to maximize a known reward function of the arms it chose. While previous work proved regret upper bounds in this setting for general reward functions, only a few works provided matching lower bounds, all for specific reward functions. In this work, we prove regret lower bounds for combinatorial bandits that hold under mild assumptions for all smooth reward functions. We derive both problem-dependent and problem-independent bounds and show that the recently proposed Gini-weighted smoothness parameter (Merlis and Mannor, 2019) also determines the lower bounds for monotone reward functions. Notably, this implies that our lower bounds are tight up to log-factors.
翻訳日:2023-01-01 09:53:42 公開日:2020-07-16
# 複素マルコフ論理ネットワーク:表現性とリフト性

Complex Markov Logic Networks: Expressivity and Liftability ( http://arxiv.org/abs/2002.10259v2 )

ライセンス: Link先を確認
Ondrej Kuzelka(参考訳) マルコフ論理ネットワーク(MLN)の表現性について検討する。 複素数値重みを用いた複素MLNを導入し、実数値重みを持つ標準MLNとは異なり、複素MLNは完全に表現可能であることを示す。 次に、複素重み付き重み付き1次モデルカウント(WFOMC)を用いて離散フーリエ変換を計算し、この観測を用いて、最近のアルゴリズムよりもWFOMCオラクルへの呼び出しが大幅に少ないリレーショナル境界ポリトープの計算アルゴリズムを設計する。

We study expressivity of Markov logic networks (MLNs). We introduce complex MLNs, which use complex-valued weights, and we show that, unlike standard MLNs with real-valued weights, complex MLNs are fully expressive. We then observe that discrete Fourier transform can be computed using weighted first order model counting (WFOMC) with complex weights and use this observation to design an algorithm for computing relational marginal polytopes which needs substantially less calls to a WFOMC oracle than a recent algorithm.
翻訳日:2022-12-29 03:30:16 公開日:2020-07-16
# 構造的手がかりによる視覚位置認識の強化

Augmenting Visual Place Recognition with Structural Cues ( http://arxiv.org/abs/2003.00278v3 )

ライセンス: Link先を確認
Amadeus Oertel, Titus Cieslewski and Davide Scaramuzza(参考訳) 本稿では,画像に基づく位置認識を構造的手がかりで強化することを提案する。 具体的には、これらの構造的手がかりは、位置認識のために追加のセンサーを必要としない構造的移動を用いて得られる。 これは、一般的に画像ベースの位置認識に使用される2D畳み込みニューラルネットワーク(CNN)を3D CNNで拡張することで実現される。 2次元と3次元の特徴を融合するための異なる手法を評価し、グローバル平均プーリングと単純な連結法で最高の性能を得る。 Oxford RobotCarデータセットでは、結果のディスクリプタは、最先端の画像ベースのディスクリプタを含む入力モードの1つから抽出されたディスクリプタよりも優れた認識性能を示す。 特に低ディスクリプタ次元では,最先端ディスクリプタを最大90%上回っている。

In this paper, we propose to augment image-based place recognition with structural cues. Specifically, these structural cues are obtained using structure-from-motion, such that no additional sensors are needed for place recognition. This is achieved by augmenting the 2D convolutional neural network (CNN) typically used for image-based place recognition with a 3D CNN that takes as input a voxel grid derived from the structure-from-motion point cloud. We evaluate different methods for fusing the 2D and 3D features and obtain best performance with global average pooling and simple concatenation. On the Oxford RobotCar dataset, the resulting descriptor exhibits superior recognition performance compared to descriptors extracted from only one of the input modalities, including state-of-the-art image-based descriptors. Especially at low descriptor dimensionalities, we outperform state-of-the-art descriptors by up to 90%.
翻訳日:2022-12-27 21:02:41 公開日:2020-07-16
# 超スパーススーパービジョンによる深度学習

Learning Depth With Very Sparse Supervision ( http://arxiv.org/abs/2003.00752v2 )

ライセンス: Link先を確認
Antonio Loquercio, Alexey Dosovitskiy, and Davide Scaramuzza(参考訳) 自然知的エージェントの驚くべき能力に触発され、心理学の理論に触発された本研究では、環境との相互作用を通じて知覚が世界の3次元特性と結合されるという考えを探求する。 既存の深度推定には大量の注釈付きトレーニングデータか、ハードコードされた幾何的制約が必要である。 本稿では,これらを必要としない深度知覚を学習するための新しいアプローチについて検討する。 具体的には、環境と相互作用するロボットが利用できる特殊なグローバルローカルネットワークアーキテクチャをトレーニングする。 一対の連続した画像から,提案するネットワークは,画像と深度マップとの間の観測者の動きの潜時表現を出力する。 いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習することができる。 この研究は科学的な関心をよそに、非常にまばらな監視から深く学ぶための基礎を築き上げていると我々は信じている。

Motivated by the astonishing capabilities of natural intelligent agents and inspired by theories from psychology, this paper explores the idea that perception gets coupled to 3D properties of the world via interaction with the environment. Existing works for depth estimation require either massive amounts of annotated training data or some form of hard-coded geometrical constraint. This paper explores a new approach to learning depth perception requiring neither of those. Specifically, we train a specialized global-local network architecture with what would be available to a robot interacting with the environment: from extremely sparse depth measurements down to even a single pixel per image. From a pair of consecutive images, our proposed network outputs a latent representation of the observer's motion between the images and a dense depth map. Experiments on several datasets show that, when ground truth is available even for just one of the image pixels, the proposed network can learn monocular dense depth estimation up to 22.5% more accurately than state-of-the-art approaches. We believe that this work, despite its scientific interest, lays the foundations to learn depth from extremely sparse supervision, which can be valuable to all robotic systems acting under severe bandwidth or sensing constraints.
翻訳日:2022-12-27 04:12:49 公開日:2020-07-16
# 競争型マルチエージェントチームにおける創発的コミュニケーションについて

On Emergent Communication in Competitive Multi-Agent Teams ( http://arxiv.org/abs/2003.01848v2 )

ライセンス: Link先を確認
Paul Pu Liang, Jeffrey Chen, Ruslan Salakhutdinov, Louis-Philippe Morency, Satwik Kottur(参考訳) 近年、下流タスクの性能を最大化するために、主に協調型マルチエージェントシステムによって開発された通信プロトコルにおいて、基底合成言語が出現することが報告されている。 しかし、人間の集団は、完全な協調的な環境だけでなく、競争が改善のための追加の外部圧力として働くシナリオにおいても、コミュニケーション行動に関わる複雑な課題を解決することを学ぶ。 本研究では、外部の類似エージェントチームによるパフォーマンス競争が、パフォーマンス、構成性、収束速度を改善するためのより良いコミュニケーションプロトコルを開発するマルチエージェント集団を奨励する社会的影響として機能するかどうかを検討する。 先程提案した2つの協力エージェント間の参照ゲームであるTask & Talkから始まり、前述の2つの協力エージェントで構成される2つの競争チームからなるゲームであるTask, Talk & Competeに拡張する。 この新しい設定を用いることで、マルチエージェントチームにおける競争の影響を実証する実証研究を行う。 以上の結果から,外部競争の影響は精度の向上や一般化につながり,より情報的かつ構成的なコミュニケーション言語がより早く出現することが示唆された。

Several recent works have found the emergence of grounded compositional language in the communication protocols developed by mostly cooperative multi-agent systems when learned end-to-end to maximize performance on a downstream task. However, human populations learn to solve complex tasks involving communicative behaviors not only in fully cooperative settings but also in scenarios where competition acts as an additional external pressure for improvement. In this work, we investigate whether competition for performance from an external, similar agent team could act as a social influence that encourages multi-agent populations to develop better communication protocols for improved performance, compositionality, and convergence speed. We start from Task & Talk, a previously proposed referential game between two cooperative agents as our testbed and extend it into Task, Talk & Compete, a game involving two competitive teams each consisting of two aforementioned cooperative agents. Using this new setting, we provide an empirical study demonstrating the impact of competitive influence on multi-agent teams. Our results show that an external competitive influence leads to improved accuracy and generalization, as well as faster emergence of communicative languages that are more informative and compositional.
翻訳日:2022-12-26 12:06:41 公開日:2020-07-16
# 部分領域適応のためのバランスと不確実性を考慮したアプローチ

A Balanced and Uncertainty-aware Approach for Partial Domain Adaptation ( http://arxiv.org/abs/2003.02541v2 )

ライセンス: Link先を確認
Jian Liang, Yunbo Wang, Dapeng Hu, Ran He, and Jiashi Feng(参考訳) 本研究は、特に対象ドメインのクラスラベルがソースドメインのサブセットである場合において、教師なしのドメイン適応問題に対処する。 このような部分的な転送設定は現実的であるが困難であり、既存の手法は常に負の転送と不確実性伝播という2つの重要な問題に悩まされる。 本稿では,ドメイン逆転学習に基づく新しいドメイン適応手法 BA$^3$US を提案し,それぞれ「平衡逆転アライメント(BAA)」と「適応不確実性抑圧(AUS)」という2つの新しい手法を提案する。 一方、負の転送は、対象のサンプルをソースドメインにのみ存在するクラスに誤って分類する結果となる。 この問題に対処するため、BAAはドメイン間のラベル分布のバランスを比較的単純な方法で追求している。 具体的には、いくつかのソースサンプルをランダムに利用して、ドメインアライメント中に小さなターゲットドメインを拡大し、異なるドメインのクラスが対称になるようにする。 一方、ソースサンプルは、相対的に高い予測スコアを持つ不正確なクラスがある場合の不確かさを示し、そのような不確かさは、アライメント中に周囲のラベルのないターゲットデータに容易に伝播し、適応性能を著しく低下させる。 そこで本研究では,不確かさを強調し,適応的重み付き補足エントロピー目標を活用し,不正確なクラスが均一で低い予測スコアを持つように促す。 複数のベンチマーク実験の結果、BA$^3$USは部分的なドメイン適応タスクの最先端よりも優れていることが示された。 コードは \url{https://github.com/tim-learn/ba3us} で入手できる。

This work addresses the unsupervised domain adaptation problem, especially in the case of class labels in the target domain being only a subset of those in the source domain. Such a partial transfer setting is realistic but challenging and existing methods always suffer from two key problems, negative transfer and uncertainty propagation. In this paper, we build on domain adversarial learning and propose a novel domain adaptation method BA$^3$US with two new techniques termed Balanced Adversarial Alignment (BAA) and Adaptive Uncertainty Suppression (AUS), respectively. On one hand, negative transfer results in misclassification of target samples to the classes only present in the source domain. To address this issue, BAA pursues the balance between label distributions across domains in a fairly simple manner. Specifically, it randomly leverages a few source samples to augment the smaller target domain during domain alignment so that classes in different domains are symmetric. On the other hand, a source sample would be denoted as uncertain if there is an incorrect class that has a relatively high prediction score, and such uncertainty easily propagates to unlabeled target data around it during alignment, which severely deteriorates adaptation performance. Thus we present AUS that emphasizes uncertain samples and exploits an adaptive weighted complement entropy objective to encourage incorrect classes to have uniform and low prediction scores. Experimental results on multiple benchmarks demonstrate our BA$^3$US surpasses state-of-the-arts for partial domain adaptation tasks. Code is available at \url{https://github.com/tim-learn/BA3US}.
翻訳日:2022-12-26 06:42:39 公開日:2020-07-16
# AutoSTR: シーンテキスト認識のための効率的なバックボーン検索

AutoSTR: Efficient Backbone Search for Scene Text Recognition ( http://arxiv.org/abs/2003.06567v2 )

ライセンス: Link先を確認
Hui Zhang, Quanming Yao, Mingkun Yang, Yongchao Xu, Xiang Bai(参考訳) テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。 コミュニティは、修正やデブロアリングなどの前処理イメージモジュールやシーケンストランスレータを改善することで、パフォーマンス向上に注意を払っている。 しかし、他の重要なモジュール、すなわち特徴系列抽出器は、広く研究されていない。 本稿では,人間設計のものよりも優れたアーキテクチャを識別できるニューラルネットワーク検索(nas)の成功に触発されて,テキスト認識性能を向上させるために,データ依存のバックボーンを検索する自動str(autostr)を提案する。 まず、操作の選択とダウンサンプリングパスの制約の両方を含むSTRのドメイン固有検索空間を設計する。 そこで我々は,与えられた空間における効率的な探索のための2段階探索アルゴリズムを提案する。 実験により、データ依存のバックボーンを検索することで、AutoSTRはFLOPSやモデルパラメータをはるかに少なくした標準ベンチマークにおける最先端のアプローチより優れていることが示されている。

Scene text recognition (STR) is very challenging due to the diversity of text instances and the complexity of scenes. The community has paid increasing attention to boost the performance by improving the pre-processing image module, like rectification and deblurring, or the sequence translator. However, another critical module, i.e., the feature sequence extractor, has not been extensively explored. In this work, inspired by the success of neural architecture search (NAS), which can identify better architectures than human-designed ones, we propose automated STR (AutoSTR) to search data-dependent backbones to boost text recognition performance. First, we design a domain-specific search space for STR, which contains both choices on operations and constraints on the downsampling path. Then, we propose a two-step search algorithm, which decouples operations and downsampling path, for an efficient search in the given space. Experiments demonstrate that, by searching data-dependent backbones, AutoSTR can outperform the state-of-the-art approaches on standard benchmarks with much fewer FLOPS and model parameters.
翻訳日:2022-12-23 20:21:19 公開日:2020-07-16
# 雑音データによる競合対象のバランシング:福祉対応機械学習のためのスコアベース分類器

Balancing Competing Objectives with Noisy Data: Score-Based Classifiers for Welfare-Aware Machine Learning ( http://arxiv.org/abs/2003.06740v4 )

ライセンス: Link先を確認
Esther Rolf and Max Simchowitz and Sarah Dean and Lydia T. Liu and Daniel Bj\"orkegren and Moritz Hardt and Joshua Blumenstock(参考訳) 現実世界の決定には多くの競合する目的が伴うが、アルゴリズム的決定はしばしば単一の目的関数で評価される。 本稿では,私的目的(利益など)と公共的目的(社会福祉など)を明確にトレードオフするアルゴリズム政策について検討する。 我々は,経験的パレートフロンティアを学習スコアに基づいて追跡する自然な政策の類型を分析し,ノイズやデータ制限のある状況下での意思決定の方法に着目する。 本理論は,このクラスにおける最適戦略を特徴付け,スコアの不正確さによるパレート誤差を限定し,最適戦略と公平性に制約された利益最大化政策の富裕層との等価性を示す。 そして、オンラインコンテンツレコメンデーションと持続可能なアワビ漁業という2つの異なる文脈で実証的な結果を示し、我々のアプローチを幅広い実践的意思決定に適用する可能性を強調します。 これらの結果は、社会福祉に影響を与える決定に機械学習を使うことにおける本質的にのトレードオフを浮き彫りにした。

While real-world decisions involve many competing objectives, algorithmic decisions are often evaluated with a single objective function. In this paper, we study algorithmic policies which explicitly trade off between a private objective (such as profit) and a public objective (such as social welfare). We analyze a natural class of policies which trace an empirical Pareto frontier based on learned scores, and focus on how such decisions can be made in noisy or data-limited regimes. Our theoretical results characterize the optimal strategies in this class, bound the Pareto errors due to inaccuracies in the scores, and show an equivalence between optimal strategies and a rich class of fairness-constrained profit-maximizing policies. We then present empirical results in two different contexts -- online content recommendation and sustainable abalone fisheries -- to underscore the applicability of our approach to a wide range of practical decisions. Taken together, these results shed light on inherent trade-offs in using machine learning for decisions that impact social welfare.
翻訳日:2022-12-23 08:38:48 公開日:2020-07-16
# PT2PC: 部分木条件から3次元点雲形状を生成する学習

PT2PC: Learning to Generate 3D Point Cloud Shapes from Part Tree Conditions ( http://arxiv.org/abs/2003.08624v2 )

ライセンス: Link先を確認
Kaichun Mo, He Wang, Xinchen Yan, Leonidas J. Guibas(参考訳) 3D生成形状モデリングはコンピュータビジョンとインタラクティブコンピュータグラフィックスの基本的な研究領域であり、多くの実世界の応用がある。 本稿では,象徴的部分木表現から3次元形状点クラウド幾何を生成する新しい問題について検討する。 このような条件付き形状生成手法をエンドツーエンドに学習するために,構造的および幾何学的要因を乱す条件付きGAN "part tree"-to-point cloud"モデル(PT2PC)を提案する。 提案モデルは、部分ツリー階層に沿ってトップダウンとボトムアップのメッセージを渡すことで、部分ツリー条件をアーキテクチャ設計に組み込む。 実験結果とユーザスタディにより, 部分木条件を考慮し, 知覚的に妥当で多様な3次元点雲を発生させる手法の強みを実証した。 また、生成した形状点雲が部分木条件を満たすかどうかを評価するための新しい構造尺度を提案する。

3D generative shape modeling is a fundamental research area in computer vision and interactive computer graphics, with many real-world applications. This paper investigates the novel problem of generating 3D shape point cloud geometry from a symbolic part tree representation. In order to learn such a conditional shape generation procedure in an end-to-end fashion, we propose a conditional GAN "part tree"-to-"point cloud" model (PT2PC) that disentangles the structural and geometric factors. The proposed model incorporates the part tree condition into the architecture design by passing messages top-down and bottom-up along the part tree hierarchy. Experimental results and user study demonstrate the strengths of our method in generating perceptually plausible and diverse 3D point clouds, given the part tree condition. We also propose a novel structural measure for evaluating if the generated shape point clouds satisfy the part tree conditions.
翻訳日:2022-12-22 05:00:15 公開日:2020-07-16
# カリキュラムDeepSDF

Curriculum DeepSDF ( http://arxiv.org/abs/2003.08593v3 )

ライセンス: Link先を確認
Yueqi Duan, Haidong Zhu, He Wang, Li Yi, Ram Nevatia, Leonidas J. Guibas(参考訳) スケッチを学ぶとき、初心者はシンプルで柔軟な形から始め、その後、トレーニングセッションでより複雑で正確なものへと徐々に取り組みます。 本稿では,連続符号距離関数(SDF)の形状,すなわちCurriculum DeepSDFを学習するための「形状カリキュラム」を設計する。 人間の学習方法にインスパイアされたカリキュラムdeepsdfは、表面精度とサンプル難易度という2つの基準に従って、難易度順に学習タスクを編成する。 前者は基底的真理を監督するのに対し、後者は複雑な幾何学と微細構造の近くでのハードトレーニングサンプルの重みを考える。 より具体的には、カリキュラムdeepsdfはまず粗い形状を再構築し、徐々に精度を高め、より複雑な局所的な詳細に集中する。 実験結果から,DeepSDFと同じトレーニングデータ,トレーニングエポック,ネットワークアーキテクチャを用いて,慎重に設計したカリキュラムが,より優れた形状復元を実現することが示された。 形状曲線の応用は,多種多様な3次元形状表現学習手法の学習プロセスに有用であると考えられる。

When learning to sketch, beginners start with simple and flexible shapes, and then gradually strive for more complex and accurate ones in the subsequent training sessions. In this paper, we design a "shape curriculum" for learning continuous Signed Distance Function (SDF) on shapes, namely Curriculum DeepSDF. Inspired by how humans learn, Curriculum DeepSDF organizes the learning task in ascending order of difficulty according to the following two criteria: surface accuracy and sample difficulty. The former considers stringency in supervising with ground truth, while the latter regards the weights of hard training samples near complex geometry and fine structure. More specifically, Curriculum DeepSDF learns to reconstruct coarse shapes at first, and then gradually increases the accuracy and focuses more on complex local details. Experimental results show that a carefully-designed curriculum leads to significantly better shape reconstructions with the same training data, training epochs and network architecture as DeepSDF. We believe that the application of shape curricula can benefit the training process of a wide variety of 3D shape representation learning methods.
翻訳日:2022-12-22 04:25:28 公開日:2020-07-16
# ビデオから物体の永続性を学ぶ

Learning Object Permanence from Video ( http://arxiv.org/abs/2003.10469v4 )

ライセンス: Link先を確認
Aviv Shamsian, Ofri Kleinfeld, Amir Globerson, Gal Chechik(参考訳) オブジェクト永続性(object permanence)は、直接認識されていなくても存在し続けることを理解して、見えないオブジェクトの位置を判断可能にする。 オブジェクト永続性は、自然の視覚的なシーンのオブジェクトが動的に閉塞し、お互いを含むため、世界のモデルを構築するために重要である。 発達心理学における集中的な研究は、物体の永続性は広範な経験を通して学習される困難な課題であることを示している。 ここでは、データからObject Permanenceを学習するセットアップを紹介します。 この学習問題を,(1)可視物,(2)隠蔽物,(3)他の対象物,(4)包含物という4つの構成要素に分解すべき理由を説明する。 対象物が対象物によって運ばれる第4のサブタスクは、見えない物体の移動位置をシステムに推論する必要があるため、特に困難である。 次に、これら4つのシナリオでオブジェクトの位置を予測することを学ぶ、統一されたディープアーキテクチャを示す。 アーキテクチャとシステムをCATERに基づく新しいデータセット上で評価し、従来のローカライゼーション手法や様々なベースラインよりも優れていることを示す。

Object Permanence allows people to reason about the location of non-visible objects, by understanding that they continue to exist even when not perceived directly. Object Permanence is critical for building a model of the world, since objects in natural visual scenes dynamically occlude and contain each-other. Intensive studies in developmental psychology suggest that object permanence is a challenging task that is learned through extensive experience. Here we introduce the setup of learning Object Permanence from data. We explain why this learning problem should be dissected into four components, where objects are (1) visible, (2) occluded, (3) contained by another object and (4) carried by a containing object. The fourth subtask, where a target object is carried by a containing object, is particularly challenging because it requires a system to reason about a moving location of an invisible object. We then present a unified deep architecture that learns to predict object location under these four scenarios. We evaluate the architecture and system on a new dataset based on CATER, and find that it outperforms previous localization methods and various baselines.
翻訳日:2022-12-21 00:24:54 公開日:2020-07-16
# 実画像編集のためのドメイン内GANインバージョン

In-Domain GAN Inversion for Real Image Editing ( http://arxiv.org/abs/2004.00049v3 )

ライセンス: Link先を確認
Jiapeng Zhu, Yujun Shen, Deli Zhao, Bolei Zhou(参考訳) 最近の研究は、画像合成の訓練を受けた際に、GAN(Generative Adversarial Networks)の潜在領域に様々な意味が現れることを示している。 しかし、これらの学習した意味論を実際の画像編集に使用するのは困難である。 トレーニングされたGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。 しかし、既存の反転法は通常、画素値によるターゲット画像の再構成に重点を置いているが、反転したコードは元の潜在空間のセマンティックドメインに着陸できない。 その結果、再構成された画像は、反転コードの変更による意味編集を十分にサポートできない。 そこで本研究では,入力画像を忠実に再構成するだけでなく,その逆コードを意味的に編集に意味のあるものにすることを保証する,ドメイン内gan逆変換手法を提案する。 まずドメイン誘導型エンコーダを学習し、与えられた画像をGANのネイティブ潜在空間に投影する。 次に、エンコーダが生成するコードを微調整し、ターゲット画像をより良く復元するために、エンコーダをレギュレータとして含むことにより、ドメインレギュラライズ最適化を提案する。 広範にわたる実験により,本手法は実際の画像再構成を満足し,さらに重要な画像編集作業を促進することが示唆された。

Recent work has shown that a variety of semantics emerge in the latent space of Generative Adversarial Networks (GANs) when being trained to synthesize images. However, it is difficult to use these learned semantics for real image editing. A common practice of feeding a real image to a trained GAN generator is to invert it back to a latent code. However, existing inversion methods typically focus on reconstructing the target image by pixel values yet fail to land the inverted code in the semantic domain of the original latent space. As a result, the reconstructed image cannot well support semantic editing through varying the inverted code. To solve this problem, we propose an in-domain GAN inversion approach, which not only faithfully reconstructs the input image but also ensures the inverted code to be semantically meaningful for editing. We first learn a novel domain-guided encoder to project a given image to the native latent space of GANs. We then propose domain-regularized optimization by involving the encoder as a regularizer to fine-tune the code produced by the encoder and better recover the target image. Extensive experiments suggest that our inversion method achieves satisfying real image reconstruction and more importantly facilitates various image editing tasks, significantly outperforming start-of-the-arts.
翻訳日:2022-12-18 01:32:49 公開日:2020-07-16
# プログレッシブ・ポピュレーションによる3次元物体検出の改善

Improving 3D Object Detection through Progressive Population Based Augmentation ( http://arxiv.org/abs/2004.00831v2 )

ライセンス: Link先を確認
Shuyang Cheng, Zhaoqi Leng, Ekin Dogus Cubuk, Barret Zoph, Chunyan Bai, Jiquan Ngiam, Yang Song, Benjamin Caine, Vijay Vasudevan, Congcong Li, Quoc V. Le, Jonathon Shlens, Dragomir Anguelov(参考訳) データ拡張は3Dポイントクラウドにおけるオブジェクト検出に広く採用されている。 しかしながら、以前のすべての取り組みは、個々のアーキテクチャのための特定のデータ拡張メソッドを手作業で設計することに集中してきた。 本研究では,3次元オブジェクト検出のためのデータ拡張ポリシーの設計を自動化する最初の試みを示す。 探索空間を狭くし,前回の反復で発見された最良パラメータを採用することで,拡張戦略を最適化するために学習するprogressive population based augmentation (ppba)アルゴリズムを導入する。 KITTIの3D検出テストセットでは、PPBAは車、歩行者、サイクリストの適度な難易度カテゴリーのかなりのマージンでStarNet検出器を改良し、現在の最先端の単一ステージ検出モデルを上回っている。 Waymo Open Datasetに関するさらなる実験は、PPBAがKITTIと比較して20倍大きなデータセット上のStarNetとPointPillars検出器を効果的に改善していることを示している。 改善の規模は3D知覚アーキテクチャの進歩に匹敵する可能性があり、利得は推論時のコストを伴わない。 その後の実験では,PPBAは拡張のないベースライン3D検出モデルよりも最大10倍のデータ効率が向上し,ラベル付きモデルよりもはるかに少ない精度で3D検出モデルが競合する可能性が示唆された。

Data augmentation has been widely adopted for object detection in 3D point clouds. However, all previous related efforts have focused on manually designing specific data augmentation methods for individual architectures. In this work, we present the first attempt to automate the design of data augmentation policies for 3D object detection. We introduce the Progressive Population Based Augmentation (PPBA) algorithm, which learns to optimize augmentation strategies by narrowing down the search space and adopting the best parameters discovered in previous iterations. On the KITTI 3D detection test set, PPBA improves the StarNet detector by substantial margins on the moderate difficulty category of cars, pedestrians, and cyclists, outperforming all current state-of-the-art single-stage detection models. Additional experiments on the Waymo Open Dataset indicate that PPBA continues to effectively improve the StarNet and PointPillars detectors on a 20x larger dataset compared to KITTI. The magnitude of the improvements may be comparable to advances in 3D perception architectures and the gains come without an incurred cost at inference time. In subsequent experiments, we find that PPBA may be up to 10x more data efficient than baseline 3D detection models without augmentation, highlighting that 3D detection models may achieve competitive accuracy with far fewer labeled examples.
翻訳日:2022-12-17 12:47:29 公開日:2020-07-16
# 連続マルチモーダル推論による曖昧な場面における6次元カメラ再配置

6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal Inference ( http://arxiv.org/abs/2004.04807v2 )

ライセンス: Link先を確認
Mai Bui and Tolga Birdal and Haowen Deng and Shadi Albarqouni and Leonidas Guibas and Slobodan Ilic and Nassir Navab(参考訳) 本稿では,カメラポーズの多様体上に定義された連続混合モデルとのあいまいさと不確かさを捉えるマルチモーダルカメラ再局在化フレームワークを提案する。 現場の対称性や繰り返し構造によって容易に生じる非常にあいまいな環境では、1つの可算解(現在の最先端の手法)を計算しても十分ではないかもしれない。 代わりに、複数のカメラが仮説を仮定し、各予測に対する不確実性を予測する。 この目的に向けて、カメラの姿勢をモデル化するビンガム分布と、エンドツーエンドのディープニューラルネットワークを用いて位置をモデル化する多変量ガウス分布を用いる。 勝者全員の訓練を組み込むことで,シーンの曖昧さを説明するのに適した混合モデルが得られたが,混合密度ネットワークにおける一般的な問題であるモード崩壊に苦しむことはない。 我々は、不明瞭な環境におけるカメラのローカライゼーション研究の促進と、あいまいなシーンと非あいまいなベンチマークデータセットの両方の実際のデータに対する我々の方法の徹底的な評価を目的として、新しいデータセットを導入した。 コードとデータセットを$\href{https://multimodal3dvision.github.io}{multimodal3dvision.github.io}$でリリースする予定です。

We present a multimodal camera relocalization framework that captures ambiguities and uncertainties with continuous mixture models defined on the manifold of camera poses. In highly ambiguous environments, which can easily arise due to symmetries and repetitive structures in the scene, computing one plausible solution (what most state-of-the-art methods currently regress) may not be sufficient. Instead we predict multiple camera pose hypotheses as well as the respective uncertainty for each prediction. Towards this aim, we use Bingham distributions, to model the orientation of the camera pose, and a multivariate Gaussian to model the position, with an end-to-end deep neural network. By incorporating a Winner-Takes-All training scheme, we finally obtain a mixture model that is well suited for explaining ambiguities in the scene, yet does not suffer from mode collapse, a common problem with mixture density networks. We introduce a new dataset specifically designed to foster camera localization research in ambiguous environments and exhaustively evaluate our method on synthetic as well as real data on both ambiguous scenes and on non-ambiguous benchmark datasets. We plan to release our code and dataset under $\href{https://multimodal3dvision.github.io}{multimodal3dvision.github.io}$.
翻訳日:2022-12-15 02:46:40 公開日:2020-07-16
# SpaceSim: グラフニューラルネットワークを用いた物体の空間的構成認識

SpatialSim: Recognizing Spatial Configurations of Objects with Graph Neural Networks ( http://arxiv.org/abs/2004.04546v2 )

ライセンス: Link先を確認
Laetitia Teodorescu, Katja Hofmann, and Pierre-Yves Oudeyer(参考訳) オブジェクトのグループの正確な幾何学的配置を認識することは、人間の空間認識の重要な能力であるが、ディープラーニングの文献ではほとんど研究されていない。 特に、基本的な問題は、マシンがどのようにして外部観察者の視点に不変な幾何学的空間構成のクラスを学習し比較できるかである。 本稿では2つの重要な貢献をする。 まず、新しい幾何学的推論ベンチマークであるSpatialSim(Spatial similarity)を提案し、このベンチマークの進歩は、現実の世界でこの問題に対処するための一般的な解決策への道を開くであろうと論じる。 このベンチマークは、識別と比較という2つのタスクで構成されています。 第2に,完全接続型メッセージパスグラフニューラルネットワーク(MPGNN)が示すリレーショナル帰納バイアスが,これらの課題の解決にどのように有用かを検討するとともに,Deep SetsやMulti-Layer Perceptronsなどの非構造モデルよりも少ないリレーショナルベースラインに対する優位性を示す。 最後に、これらのタスクにおけるGNNの現在の限界を強調します。

Recognizing precise geometrical configurations of groups of objects is a key capability of human spatial cognition, yet little studied in the deep learning literature so far. In particular, a fundamental problem is how a machine can learn and compare classes of geometric spatial configurations that are invariant to the point of view of an external observer. In this paper we make two key contributions. First, we propose SpatialSim (Spatial Similarity), a novel geometrical reasoning benchmark, and argue that progress on this benchmark would pave the way towards a general solution to address this challenge in the real world. This benchmark is composed of two tasks: Identification and Comparison, each one instantiated in increasing levels of difficulty. Secondly, we study how relational inductive biases exhibited by fully-connected message-passing Graph Neural Networks (MPGNNs) are useful to solve those tasks, and show their advantages over less relational baselines such as Deep Sets and unstructured models such as Multi-Layer Perceptrons. Finally, we highlight the current limits of GNNs in these tasks.
翻訳日:2022-12-15 02:02:40 公開日:2020-07-16
# 量子化誘導jpegアーティファクト補正

Quantization Guided JPEG Artifact Correction ( http://arxiv.org/abs/2004.09320v2 )

ライセンス: Link先を確認
Max Ehrlich, Larry Davis, Ser-Nam Lim, Abhinav Shrivastava(参考訳) JPEG画像圧縮アルゴリズムは、圧縮比が大きいため、画像圧縮の最も一般的な方法である。 しかし、そのような高い圧縮を達成するには、情報が失われる。 積極的な量子化の設定では、画像の品質が著しく低下する。 人工物補正は、深層ニューラルネットワークの文脈でしばらく研究されてきたが、現在の最先端の手法では、それぞれの品質設定のために異なるモデルを訓練する必要がある。 我々はJPEGファイル量子化行列によってパラメータ化される新しいアーキテクチャを作成することでこの問題を解決する。 これにより、特定の品質設定のためにトレーニングされたモデルに対して、単一のモデルで最先端のパフォーマンスを実現できます。

The JPEG image compression algorithm is the most popular method of image compression because of its ability for large compression ratios. However, to achieve such high compression, information is lost. For aggressive quantization settings, this leads to a noticeable reduction in image quality. Artifact correction has been studied in the context of deep neural networks for some time, but the current state-of-the-art methods require a different model to be trained for each quality setting, greatly limiting their practical application. We solve this problem by creating a novel architecture which is parameterized by the JPEG files quantization matrix. This allows our single model to achieve state-of-the-art performance over models trained for specific quality settings.
翻訳日:2022-12-12 10:16:35 公開日:2020-07-16
# マルチモダリティ融合を用いた医用画像分割のための深層学習

A review: Deep learning for medical image segmentation using multi-modality fusion ( http://arxiv.org/abs/2004.10664v2 )

ライセンス: Link先を確認
Tongxue Zhou, Su Ruan, St\'ephane Canu(参考訳) マルチモダリティは、標的(腫瘍、臓器、組織)に関するマルチ情報を提供することができるため、医用画像に広く用いられている。 マルチモーダルを用いたセグメンテーションは、セグメンテーションを改善するために複数の情報を融合する。 近年, 画像分類, セグメンテーション, 物体検出, 追跡タスクにおいて, ディープラーニングに基づくアプローチが最先端の性能を示した。 大量のデータに対する自己学習と一般化能力により、近年、深層学習はマルチモーダルな医療画像セグメンテーションにも大きな関心を集めている。 本稿では,マルチモーダル医用画像セグメンテーションタスクのための深層学習に基づくアプローチの概要を示す。 まず,深層学習とマルチモーダル医用画像セグメンテーションの一般原理を紹介する。 次に、異なるディープラーニングネットワークアーキテクチャを示し、その融合戦略を分析し、その結果を比較する。 初期の融合は単純で、後のセグメンテーションネットワークアーキテクチャに重点を置いているため、一般的に使われている。 しかし、後の融合は、異なるモダリティ間の複雑な関係を学ぶための核融合戦略にさらに注意を向ける。 一般に、初期の核融合と比較して、核融合法が十分に有効であれば、後者の核融合はより正確な結果が得られる。 また, 医用画像分割の問題点についても考察する。 最後に,今後の研究の展望について概説する。

Multi-modality is widely used in medical imaging, because it can provide multiinformation about a target (tumor, organ or tissue). Segmentation using multimodality consists of fusing multi-information to improve the segmentation. Recently, deep learning-based approaches have presented the state-of-the-art performance in image classification, segmentation, object detection and tracking tasks. Due to their self-learning and generalization ability over large amounts of data, deep learning recently has also gained great interest in multi-modal medical image segmentation. In this paper, we give an overview of deep learning-based approaches for multi-modal medical image segmentation task. Firstly, we introduce the general principle of deep learning and multi-modal medical image segmentation. Secondly, we present different deep learning network architectures, then analyze their fusion strategies and compare their results. The earlier fusion is commonly used, since it's simple and it focuses on the subsequent segmentation network architecture. However, the later fusion gives more attention on fusion strategy to learn the complex relationship between different modalities. In general, compared to the earlier fusion, the later fusion can give more accurate result if the fusion method is effective enough. We also discuss some common problems in medical image segmentation. Finally, we summarize and provide some perspectives on the future research.
翻訳日:2022-12-10 17:13:45 公開日:2020-07-16
# 3次元レーダキューブを用いたCNNによる道路ユーザ検出

CNN based Road User Detection using the 3D Radar Cube ( http://arxiv.org/abs/2004.12165v2 )

ライセンス: Link先を確認
Andras Palffy, Jiaao Dong, Julian F. P. Kooij and Dariu M. Gavrila(参考訳) 本文は,低レベルレーダ立方体データを利用する移動道路利用者(歩行者,サイクリスト,自動車)を対象に,新しいレーダベース単一フレームマルチクラス検出手法を提案する。 この方法は、レーダー目標レベルとオブジェクトレベルの両方に関するクラス情報を提供する。 レーダターゲットは3次元レーダキューブの刈り取られたブロックをその位置に沿って拡大し、局所速度分布における可動部の運動を捉えた後に個別に分類される。 この分類ステップのために畳み込みニューラルネットワーク(CNN)を提案する。 その後、レーダターゲットの位置や速度だけでなく、計算されたクラススコアも考慮したクラスタリングステップでオブジェクトの提案が生成される。 実生活データセットを用いた実験では,本手法は目標値0.70(ベースライン:0.68),目標値0.56(ベースライン:0.48),目標値F1(ベースライン:0.48),目標値0.70(ベースライン:0。 さらに, アブレーション研究における使用済み特徴の重要性について検討した。

This letter presents a novel radar based, single-frame, multi-class detection method for moving road users (pedestrian, cyclist, car), which utilizes low-level radar cube data. The method provides class information both on the radar target- and object-level. Radar targets are classified individually after extending the target features with a cropped block of the 3D radar cube around their positions, thereby capturing the motion of moving parts in the local velocity distribution. A Convolutional Neural Network (CNN) is proposed for this classification step. Afterwards, object proposals are generated with a clustering step, which not only considers the radar targets' positions and velocities, but their calculated class scores as well. In experiments on a real-life dataset we demonstrate that our method outperforms the state-of-the-art methods both target- and object-wise by reaching an average of 0.70 (baseline: 0.68) target-wise and 0.56 (baseline: 0.48) object-wise F1 score. Furthermore, we examine the importance of the used features in an ablation study.
翻訳日:2022-12-09 22:03:19 公開日:2020-07-16
# ニューラルアーキテクチャ探索のための角度に基づく探索空間縮小

Angle-based Search Space Shrinking for Neural Architecture Search ( http://arxiv.org/abs/2004.13431v3 )

ライセンス: Link先を確認
Yiming Hu, Yuding Liang, Zichao Guo, Ruosi Wan, Xiangyu Zhang, Yichen Wei, Qingyi Gu, Jian Sun(参考訳) 本研究では,ニューラルネットワーク探索(NAS)のためのアングルベース探索空間シュライキング(ABS)と呼ばれる,単純で汎用的な探索空間縮小手法を提案する。 提案手法は, 従来のNAS手法が優れたアーキテクチャを見つけることの難しさを軽減し, 探索空間を段階的に単純化する。 特に,縮小過程を導くために,角度に基づく計量法を提案する。 重み付けスーパーネットにおいて,提案手法は,子モデルの能力を予測するために,精度ベースおよび等級ベースの指標よりも安定かつ正確であることを示す。 また,超ネットの学習中に角度に基づくメトリックが高速に収束し,有望な探索空間を効率的に獲得できることを示した。 ABSは、ほとんどのNASアプローチ(例えば、SPOS、FairNAS、ProxylessNAS、DARTS、PDARTS)に容易に適用できる。 包括的実験により、ABSは有望なスランク検索空間を提供することで既存のNASアプローチを劇的に強化できることが示された。

In this work, we present a simple and general search space shrinking method, called Angle-Based search space Shrinking (ABS), for Neural Architecture Search (NAS). Our approach progressively simplifies the original search space by dropping unpromising candidates, thus can reduce difficulties for existing NAS methods to find superior architectures. In particular, we propose an angle-based metric to guide the shrinking process. We provide comprehensive evidences showing that, in weight-sharing supernet, the proposed metric is more stable and accurate than accuracy-based and magnitude-based metrics to predict the capability of child models. We also show that the angle-based metric can converge fast while training supernet, enabling us to get promising shrunk search spaces efficiently. ABS can easily apply to most of NAS approaches (e.g. SPOS, FairNAS, ProxylessNAS, DARTS and PDARTS). Comprehensive experiments show that ABS can dramatically enhance existing NAS approaches by providing a promising shrunk search space.
翻訳日:2022-12-08 21:49:31 公開日:2020-07-16
# ロボットナビゲーション時の性能を損なうことなく計算時間を短縮する方法 モデルベースとモデルフリー学習の自律的移行のためのニューロインスパイアド・アーキテクチャ

How to reduce computation time while sparing performance during robot navigation? A neuro-inspired architecture for autonomous shifting between model-based and model-free learning ( http://arxiv.org/abs/2004.14698v2 )

ライセンス: Link先を確認
R\'emi Dromnelle, Erwan Renaudo, Guillaume Pourcel, Raja Chatila, Beno\^it Girard, and Mehdi Khamassi(参考訳) 脳が複数の学習システムを協調させる方法からインスピレーションを得たことは、ロボットにもっと柔軟性を与える魅力的な戦略だ。 期待されている利点の1つは、ロボットが性能が満足すれば、自律的に最もコストの少ないシステムに切り替えることである。 しかし、我々の知る限り、実際のロボットについての研究は、脳にインスパイアされたアルゴリズムで性能を維持しながら計算コストを削減できることをまだ示していない。 本稿では,ゴール,デッドエンド,非定常性(すなわち目標位置の変化と障害物の出現)に異なる長さの経路を含むナビゲーション実験を行う。 本稿では,性能とコストを明示的に計測する学習システム間の新たな調停機構を提案する。 ロボットは,学習システム間の切り替えによって環境変化に適応し,高い性能を維持することができる。 さらに,タスクが安定している場合,ロボットは低コストシステムに自律的に移行し,高い性能を維持しながら計算コストを大幅に削減する。 全体として、これらの結果は複数の学習システムを使うことへの関心を示している。

Taking inspiration from how the brain coordinates multiple learning systems is an appealing strategy to endow robots with more flexibility. One of the expected advantages would be for robots to autonomously switch to the least costly system when its performance is satisfying. However, to our knowledge no study on a real robot has yet shown that the measured computational cost is reduced while performance is maintained with such brain-inspired algorithms. We present navigation experiments involving paths of different lengths to the goal, dead-end, and non-stationarity (i.e., change in goal location and apparition of obstacles). We present a novel arbitration mechanism between learning systems that explicitly measures performance and cost. We find that the robot can adapt to environment changes by switching between learning systems so as to maintain a high performance. Moreover, when the task is stable, the robot also autonomously shifts to the least costly system, which leads to a drastic reduction in computation cost while keeping a high performance. Overall, these results illustrates the interest of using multiple learning systems.
翻訳日:2022-12-08 05:35:29 公開日:2020-07-16
# デュアルピクセルデータを用いたデフォーカスデブラリング

Defocus Deblurring Using Dual-Pixel Data ( http://arxiv.org/abs/2005.00305v3 )

ライセンス: Link先を確認
Abdullah Abuolaim and Michael S. Brown(参考訳) デフォーカスのぼやけは、広い開口部を使用することで、浅い視野の深さで撮影される画像に現れる。 ぼかしが空間的に変化し、推定が困難であるため、デフォーカスのぼかしの修正は困難である。 最新のカメラで検出されるデュアルピクセル(DP)センサで利用可能なデータを活用する,効果的なデフォーカスデブロリング手法を提案する。 dpセンサーは、1枚の写真でシーンの2つのサブアパーチャービューを撮影することで、カメラのオートフォーカスを支援する。 2つのサブアパーチャ画像を用いて、特定のシーン領域にフォーカスする適切なレンズ位置を算出し、その後廃棄する。 我々は,これら捨てられたサブアパーチャ画像を用いてデフォーカスのぼかしを低減するディープニューラルネットワーク(DNN)アーキテクチャを導入する。 私たちの取り組みの重要な貢献は、500のシーン(2000の画像)を注意深く捉えたデータセットである。 (i)大開口部で捉えたデフォーカスぼけの画像 (ii)関連する2つのDPサブアパーチャビュー、及び 三 小さい開口部で撮影した対応するオールインフォーカス画像。 提案したDNNは、カメラで既に利用可能だが無視されているデータから、定量的および知覚的メトリクスの両方の観点から、従来の単一画像手法よりもはるかに優れた結果を生成する。 データセット、コード、トレーニングされたモデルはhttps://github.com/Abdullah-Abuolaim/defocus-deblurring-dual-ピクセルで入手できる。

Defocus blur arises in images that are captured with a shallow depth of field due to the use of a wide aperture. Correcting defocus blur is challenging because the blur is spatially varying and difficult to estimate. We propose an effective defocus deblurring method that exploits data available on dual-pixel (DP) sensors found on most modern cameras. DP sensors are used to assist a camera's auto-focus by capturing two sub-aperture views of the scene in a single image shot. The two sub-aperture images are used to calculate the appropriate lens position to focus on a particular scene region and are discarded afterwards. We introduce a deep neural network (DNN) architecture that uses these discarded sub-aperture images to reduce defocus blur. A key contribution of our effort is a carefully captured dataset of 500 scenes (2000 images) where each scene has: (i) an image with defocus blur captured at a large aperture; (ii) the two associated DP sub-aperture views; and (iii) the corresponding all-in-focus image captured with a small aperture. Our proposed DNN produces results that are significantly better than conventional single image methods in terms of both quantitative and perceptual metrics -- all from data that is already available on the camera but ignored. The dataset, code, and trained models are available at https://github.com/Abdullah-Abuolaim/defocus-deblurring-dual-pixel.
翻訳日:2022-12-08 00:21:52 公開日:2020-07-16
# CNNを用いた軸受の振動解析

Vibration Analysis in Bearings for Failure Prevention using CNN ( http://arxiv.org/abs/2005.07057v2 )

ライセンス: Link先を確認
Luis A. Pinedo-Sanchez, Diego A. Mercado-Ravell, Carlos A. Carballo-Monsivais(参考訳) 軸受のタイムリーな故障検出は、産業における経済損失を防ぐ上で非常に重要である。 本稿では,畳み込みニューラルネットワーク(CNN)を用いて軸受の摩耗レベルを推定する手法を提案する。 まず、原振動データの自動ラベリングを行い、シャノンのエントロピーとともに、根平均正方形特徴を用いて、異なるベアリング摩耗レベルを得るとともに、原データから特徴を抽出することにより、k-meansアルゴリズムを用いて7つの異なるクラスにグループ分けしてラベルを得る。 そして、生の振動データを小さな正方形画像に変換し、画像の1ピクセルを表すデータのサンプルをそれぞれ表示する。 そこで本研究では,alexnetアーキテクチャに基づくcnnモデルを提案し,摩耗度を分類し,回転系を診断する。 ネットワークのトレーニングと提案の検証には,Intelligent maintenance Systems (IMS) の中心からのデータセットを使用し,文献に報告されている他の手法と広範囲に比較する。 提案手法の有効性は良好であり,最先端の他の手法よりも優れていた。

Timely failure detection for bearings is of great importance to prevent economic loses in the industry. In this article we propose a method based on Convolutional Neural Networks (CNN) to estimate the level of wear in bearings. First of all, an automatic labeling of the raw vibration data is performed to obtain different levels of bearing wear, by means of the Root Mean Square features along with the Shannon's entropy to extract features from the raw data, which is then grouped in seven different classes using the K-means algorithm to obtain the labels. Then, the raw vibration data is converted into small square images, each sample of the data representing one pixel of the image. Following this, we propose a CNN model based on the AlexNet architecture to classify the wear level and diagnose the rotatory system. To train the network and validate our proposal, we use a dataset from the center of Intelligent Maintenance Systems (IMS), and extensively compare it with other methods reported in the literature. The effectiveness of the proposed strategy proved to be excellent, outperforming other approaches in the state-of-the-art.
翻訳日:2022-12-06 06:32:25 公開日:2020-07-16
# Flowtron: テキスト音声合成のための自己回帰型フローベース生成ネットワーク

Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis ( http://arxiv.org/abs/2005.05957v3 )

ライセンス: Link先を確認
Rafael Valle, Kevin Shih, Ryan Prenger, Bryan Catanzaro(参考訳) 本稿では,音声の変動とスタイル伝達を制御した音声合成のための自動回帰フローベース生成ネットワークFlowtronを提案する。 FlowtronはIAFから洞察を借り、高品質で表現力のあるメル-スペクトログラム合成を提供するためにTacotronを改良した。 flowtronはトレーニングデータの可能性を最大化することで最適化され、トレーニングがシンプルで安定したものになる。 Flowtronは、音声合成のさまざまな側面(ピッチ、トーン、発話速度、ケイデンス、アクセント)を制御するために操作できる、潜在空間へのデータの可逆マッピングを学習する。 我々の平均世論スコア (MOS) は, Flowtron が現在最先端の TTS モデルと音声品質の点で一致していることを示している。 また,音声のばらつき,サンプル間の補間,訓練中の話者間のスタイル伝達の制御に関する結果を提供する。 コードおよび事前トレーニングされたモデルはhttps://github.com/NVIDIA/flowtronで公開される。

In this paper we propose Flowtron: an autoregressive flow-based generative network for text-to-speech synthesis with control over speech variation and style transfer. Flowtron borrows insights from IAF and revamps Tacotron in order to provide high-quality and expressive mel-spectrogram synthesis. Flowtron is optimized by maximizing the likelihood of the training data, which makes training simple and stable. Flowtron learns an invertible mapping of data to a latent space that can be manipulated to control many aspects of speech synthesis (pitch, tone, speech rate, cadence, accent). Our mean opinion scores (MOS) show that Flowtron matches state-of-the-art TTS models in terms of speech quality. In addition, we provide results on control of speech variation, interpolation between samples and style transfer between speakers seen and unseen during training. Code and pre-trained models will be made publicly available at https://github.com/NVIDIA/flowtron
翻訳日:2022-12-03 18:32:55 公開日:2020-07-16
# Span-ConveRT: 予め制約された会話表現を持つ対話のためのFew-shot Span extract

Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations ( http://arxiv.org/abs/2005.08866v2 )

ライセンス: Link先を確認
Sam Coope, Tyler Farghly, Daniela Gerz, Ivan Vuli\'c, Matthew Henderson(参考訳) 本稿では,タスクをターンベーススパン抽出タスクとしてフレーム化する,ダイアログスロット補完のための軽量モデルであるSpan-ConveRTを紹介する。 この定式化により、ConveRT(Henderson et al., 2019)のような大規模な事前訓練された会話モデルでコーディングされた会話知識の簡単な統合が可能になる。 Span-ConveRTでそのような知識を活用することは、特に数ショットの学習シナリオにおいて有用であることを示す。 1)対象領域のスクラッチから表現を訓練するスパン抽出器、 2)BERTベースのスパン抽出器。 スロット充足タスクのスパン抽出に関するさらなる作業を促すため、レストラン予約ドメインの実際の会話からコンパイルされた8,198の発話からなる新しい挑戦的なデータセットであるRESTAURANTS-8Kもリリースしました。

We introduce Span-ConveRT, a light-weight model for dialog slot-filling which frames the task as a turn-based span extraction task. This formulation allows for a simple integration of conversational knowledge coded in large pretrained conversational models such as ConveRT (Henderson et al., 2019). We show that leveraging such knowledge in Span-ConveRT is especially useful for few-shot learning scenarios: we report consistent gains over 1) a span extractor that trains representations from scratch in the target domain, and 2) a BERT-based span extractor. In order to inspire more work on span extraction for the slot-filling task, we also release RESTAURANTS-8K, a new challenging data set of 8,198 utterances, compiled from actual conversations in the restaurant booking domain.
翻訳日:2022-12-01 23:39:44 公開日:2020-07-16
# geotagged audio visual scene recognitionのためのクロスタスク転送

Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition ( http://arxiv.org/abs/2005.08449v2 )

ライセンス: Link先を確認
Di Hu, Xuhong Li, Lichao Mou, Pu Jin, Dong Chen, Liping Jing, Xiaoxiang Zhu, Dejing Dou(参考訳) 航空シーン認識はリモートセンシングの基本的な課題であり,近年関心が高まっている。 強力なモデルと効率的なアルゴリズムを持つオーバヘッド画像から得られる視覚情報は、シーン認識にかなりの性能をもたらすが、地上の物体や照明条件の変化に悩まされている。 本稿では,認知科学における多チャンネル知覚理論に着想を得て,映像と音の両方を入力として,新しい視覚映像認識タスクについて検討する。 特定の音のイベントが特定の場所においてより聞こえやすいという観測に基づいて、音のイベントからの知識を活用し、空中シーン認識の性能を向上させることを提案する。 そこで我々は,AuDio Visual Aerial sceNe reCognition datasEt (ADVANCE) という新しいデータセットを構築した。 本データセットの助けを借りて,マルチモーダル学習の枠組みにおいて,音のイベント知識を音場認識タスクに移すための3つの手法を評価し,音場認識に音声情報を利用するメリットを示す。 ソースコードは再現性のために公開されている。

Aerial scene recognition is a fundamental task in remote sensing and has recently received increased interest. While the visual information from overhead images with powerful models and efficient algorithms yields considerable performance on scene recognition, it still suffers from the variation of ground objects, lighting conditions etc. Inspired by the multi-channel perception theory in cognition science, in this paper, for improving the performance on the aerial scene recognition, we explore a novel audiovisual aerial scene recognition task using both images and sounds as input. Based on an observation that some specific sound events are more likely to be heard at a given geographic location, we propose to exploit the knowledge from the sound events to improve the performance on the aerial scene recognition. For this purpose, we have constructed a new dataset named AuDio Visual Aerial sceNe reCognition datasEt (ADVANCE). With the help of this dataset, we evaluate three proposed approaches for transferring the sound event knowledge to the aerial scene recognition task in a multimodal learning framework, and show the benefit of exploiting the audio information for the aerial scene recognition. The source code is publicly available for reproducibility purposes.
翻訳日:2022-12-01 23:22:06 公開日:2020-07-16
# 1つのサイズ:全ての騒音レベルに1つのデノイザーを訓練できるか?

One Size Fits All: Can We Train One Denoiser for All Noise Levels? ( http://arxiv.org/abs/2005.09627v3 )

ライセンス: Link先を確認
Abhiram Gnansambandam, Stanley H. Chan(参考訳) イメージデノイングなどのタスクのためにニューラルネットワークなどの推定器をトレーニングする場合、ひとつの推定器をトレーニングして、すべてのノイズレベルに適用することが望ましい。 この目標を達成するためのデファクトトレーニングプロトコルは、ノイズレベルが関心範囲に均一に分散しているノイズサンプルで推定器をトレーニングすることである。 しかし、なぜサンプルを均一に割り当てるべきなのか? ノイズが少なく、ノイズの多いサンプルが少ないほど、より多くのトレーニングサンプルが得られますか? 最適分布とは何か? どうやってそのような分布を得るのか。 本研究の目的は,この学習サンプル分布問題をミニマックスリスク最適化の観点から解決することである。 我々は、許容推定器の集合が閉じて凸である限り、収束が保証される最適なサンプリング分布を決定するための双対昇降アルゴリズムを導出する。 ディープニューラルネットワークのような非凸許容集合を持つ推定器では、二重定式化は凸緩和の解に収束する。 実際にどのようにアルゴリズムを実装できるかを論じる。 線形推定器およびディープネットワーク上でのアルゴリズムの評価を行う。

When training an estimator such as a neural network for tasks like image denoising, it is often preferred to train one estimator and apply it to all noise levels. The de facto training protocol to achieve this goal is to train the estimator with noisy samples whose noise levels are uniformly distributed across the range of interest. However, why should we allocate the samples uniformly? Can we have more training samples that are less noisy, and fewer samples that are more noisy? What is the optimal distribution? How do we obtain such a distribution? The goal of this paper is to address this training sample distribution problem from a minimax risk optimization perspective. We derive a dual ascent algorithm to determine the optimal sampling distribution of which the convergence is guaranteed as long as the set of admissible estimators is closed and convex. For estimators with non-convex admissible sets such as deep neural networks, our dual formulation converges to a solution of the convex relaxation. We discuss how the algorithm can be implemented in practice. We evaluate the algorithm on linear estimators and deep networks.
翻訳日:2022-12-01 13:21:45 公開日:2020-07-16
# 自律運転のためのラベル効率のよい視覚抽象化

Label Efficient Visual Abstractions for Autonomous Driving ( http://arxiv.org/abs/2005.10091v2 )

ライセンス: Link先を確認
Aseem Behl, Kashyap Chitta, Aditya Prakash, Eshed Ohn-Bar, Andreas Geiger(参考訳) セマンティックセグメンテーションは、駆動ポリシーを学習するための効果的な中間表現として利用できることはよく知られている。 しかし、ストリートシーンのセマンティクスセグメンテーションのタスクは高価なアノテーションを必要とする。 さらに、セグメンテーションアルゴリズムは実際の運転タスクによらず、安全や介入ごとの距離といった運転メトリクスを最大化することが保証されていない補助的な画像空間損失関数を用いて訓練されることが多い。 本研究では,セグメンテーションアノテーションのコスト削減が学習行動クローニングエージェントに与える影響を定量的に検討する。 複数のセグメンテーションに基づく中間表現を分析した。 これらの視覚的抽象化を用いて、アノテーション効率と駆動性能のトレードオフ、すなわち、ラベル付けされたクラスの種類、視覚的抽象モデルを学ぶために使用される画像サンプルの数、そしてその粒度(オブジェクトマスク対2D境界ボックス)を体系的に研究する。 今回の分析は、セグメンテーションベースの視覚的抽象化がよりラベルの効率的な方法でどのように活用できるかに関する、いくつかの実践的な洞察を明らかにする。 驚いたことに、アノテーションのコストを大幅に削減することで最先端の駆動性能を実現することができる。 ラベル効率以外にも、最先端の運転モデルと比較した場合の学習方針のばらつきなど、視覚的抽象化を活用する際のトレーニング上のメリットもいくつかあります。

It is well known that semantic segmentation can be used as an effective intermediate representation for learning driving policies. However, the task of street scene semantic segmentation requires expensive annotations. Furthermore, segmentation algorithms are often trained irrespective of the actual driving task, using auxiliary image-space loss functions which are not guaranteed to maximize driving metrics such as safety or distance traveled per intervention. In this work, we seek to quantify the impact of reducing segmentation annotation costs on learned behavior cloning agents. We analyze several segmentation-based intermediate representations. We use these visual abstractions to systematically study the trade-off between annotation efficiency and driving performance, i.e., the types of classes labeled, the number of image samples used to learn the visual abstraction model, and their granularity (e.g., object masks vs. 2D bounding boxes). Our analysis uncovers several practical insights into how segmentation-based visual abstractions can be exploited in a more label efficient manner. Surprisingly, we find that state-of-the-art driving performance can be achieved with orders of magnitude reduction in annotation cost. Beyond label efficiency, we find several additional training benefits when leveraging visual abstractions, such as a significant reduction in the variance of the learned policy when compared to state-of-the-art end-to-end driving models.
翻訳日:2022-12-01 05:04:23 公開日:2020-07-16
# デュアルメモリを用いた合成フォント生成

Few-shot Compositional Font Generation with Dual Memory ( http://arxiv.org/abs/2005.10510v2 )

ライセンス: Link先を確認
Junbum Cha, Sanghyuk Chun, Gayoung Lee, Bado Lee, Seonghyeon Kim, and Hwalsuk Lee(参考訳) 新しいフォントライブラリを生成することは、glyphに富んだスクリプトに対して非常に労力と時間を要する作業である。 既存のフォント生成方法の顕著な成功にもかかわらず、新しいフォントセットを生成するのに大量の参照画像を必要とするか、少数のサンプルで詳細なスタイルをキャプチャできないという重大な欠点がある。 本稿では,各グリフを複数の構成要素で分解可能な,世界で広く使用されている文字体系である合成スクリプトに注目した。 本稿では,合成スクリプトの構成性を利用して,dual memory-augmented font generation network (dm-font) と呼ばれる新しいフォント生成フレームワークを提案する。 我々は、構成性を活用するために、メモリコンポーネントとグローバルコンテキスト認識をジェネレータに採用する。 韓国手書きフォントとタイ手書きフォントの実験において,本手法は,最先端のテクスト生成手法と比較して,忠実なスタイリゼーションを施したサンプルの品質を,定量的かつ定性的に生成する。 ソースコードはhttps://github.com/clovaai/dmfontで入手できる。

Generating a new font library is a very labor-intensive and time-consuming job for glyph-rich scripts. Despite the remarkable success of existing font generation methods, they have significant drawbacks; they require a large number of reference images to generate a new font set, or they fail to capture detailed styles with only a few samples. In this paper, we focus on compositional scripts, a widely used letter system in the world, where each glyph can be decomposed by several components. By utilizing the compositionality of compositional scripts, we propose a novel font generation framework, named Dual Memory-augmented Font Generation Network (DM-Font), which enables us to generate a high-quality font library with only a few samples. We employ memory components and global-context awareness in the generator to take advantage of the compositionality. In the experiments on Korean-handwriting fonts and Thai-printing fonts, we observe that our method generates a significantly better quality of samples with faithful stylization compared to the state-of-the-art generation methods quantitatively and qualitatively. Source code is available at https://github.com/clovaai/dmfont.
翻訳日:2022-11-30 23:10:42 公開日:2020-07-16
# 少人数学習における低レベル情報への振り返る

Looking back to lower-level information in few-shot learning ( http://arxiv.org/abs/2005.13638v2 )

ライセンス: Link先を確認
Zhongjie Yu and Sebastian Raschka(参考訳) 人間は少数の例から新しい概念を学ぶことができる。 対照的に、教師付きディープラーニングモデルには、新しい例を分類しようとするときに、限られたデータシナリオから信頼できる予測ルールを抽出する能力がない。 この挑戦的なシナリオは、通常、数発の学習として知られている。 近年、実世界の問題の多くにその重要性があるため、わずかなショット学習が注目を集めている。 近年、例間の関係をモデル化するグラフ構造とメタ学習パラダイムを組み合わせる新しい手法が、様々な少数の分類タスクで有望な結果を示している。 しかしながら、少数ショット学習に関する既存の研究は、ニューラルネットワークの最終層によって生成される機能埋め込みにのみ焦点をあてている。 本研究では,隠れたニューラルネットワーク層の特徴埋め込みを低レベル支援情報として活用し,分類器の精度を向上させることを提案する。 グラフをベースとしたメタラーニングフレームワークであるLooking-Backを開発した。このような低レベル情報を用いて,限られたデータ設定でラベル伝搬のためのグラフを構築する。 miniimagenet と tieredimagenet という2つの人気のあるマイナショット学習データセットを実験した結果,ネットワークの下位レベル情報を利用して最先端の分類性能を向上させることができた。

Humans are capable of learning new concepts from small numbers of examples. In contrast, supervised deep learning models usually lack the ability to extract reliable predictive rules from limited data scenarios when attempting to classify new examples. This challenging scenario is commonly known as few-shot learning. Few-shot learning has garnered increased attention in recent years due to its significance for many real-world problems. Recently, new methods relying on meta-learning paradigms combined with graph-based structures, which model the relationship between examples, have shown promising results on a variety of few-shot classification tasks. However, existing work on few-shot learning is only focused on the feature embeddings produced by the last layer of the neural network. In this work, we propose the utilization of lower-level, supporting information, namely the feature embeddings of the hidden neural network layers, to improve classifier accuracy. Based on a graph-based meta-learning framework, we develop a method called Looking-Back, where such lower-level information is used to construct additional graphs for label propagation in limited data settings. Our experiments on two popular few-shot learning datasets, miniImageNet and tieredImageNet, show that our method can utilize the lower-level information in the network to improve state-of-the-art classification performance.
翻訳日:2022-11-28 07:52:15 公開日:2020-07-16
# サイバー物理システムのテストとセキュリティのためのアクティブファジング

Active Fuzzing for Testing and Securing Cyber-Physical Systems ( http://arxiv.org/abs/2005.14124v2 )

ライセンス: Link先を確認
Yuqi Chen, Bohan Xuan, Christopher M. Poskitt, Jun Sun, Fan Zhang(参考訳) 重要なインフラにおけるサイバー物理システム(CPS)は、攻撃者による広範囲にわたる脅威に直面し、それらを保護するための様々な対策の研究を動機付けている。 これらの対策の有効性を評価することは難しいが、現実的な攻撃のベンチマークを手作業で構築することは困難であり、膨大な検索スペースとリソース要求のために盲目的なテストは非効率であり、インテリジェントファジィングアプローチは非現実的な量のデータとネットワークアクセスを必要とする。 本研究では,パケットレベルのCPSネットワーク攻撃テストスイートを自動で検出する能動ファジィングを提案し,攻撃者がセンサを観測してパケットを操作できるが,ペイロードエンコーディングに関する既存の知識を持たないシナリオをターゲットとした。 提案手法は,サンプリングされたネットワークパケットから生じるセンサ値を予測する回帰モデルを学習し,これらの予測を用いてペイロード操作(ビットフリップ)の探索をガイドし,cpsを安全でない状態に誘導する。 私たちのソリューションの鍵となるのは、オンラインアクティブラーニングを使うことです。これは、最大限に改善するよう見積もられるペイロードをサンプリングすることで、モデルを反復的に更新します。 本研究は,水浄化プラントテストベッドに実装してアクティブファジィングの有効性を評価し,フロー,プレッシャー,オーバー/アンダーフロー攻撃などのテストスイートを,最も類似したアプローチよりもはるかに少ない時間,データ,ネットワークアクセスで自動的に検出できることを見出した。 最後に, 予測モデル自体を対策として利用し, 異常検知器や早期警報システムとして活用できることを実証する。

Cyber-physical systems (CPSs) in critical infrastructure face a pervasive threat from attackers, motivating research into a variety of countermeasures for securing them. Assessing the effectiveness of these countermeasures is challenging, however, as realistic benchmarks of attacks are difficult to manually construct, blindly testing is ineffective due to the enormous search spaces and resource requirements, and intelligent fuzzing approaches require impractical amounts of data and network access. In this work, we propose active fuzzing, an automatic approach for finding test suites of packet-level CPS network attacks, targeting scenarios in which attackers can observe sensors and manipulate packets, but have no existing knowledge about the payload encodings. Our approach learns regression models for predicting sensor values that will result from sampled network packets, and uses these predictions to guide a search for payload manipulations (i.e. bit flips) most likely to drive the CPS into an unsafe state. Key to our solution is the use of online active learning, which iteratively updates the models by sampling payloads that are estimated to maximally improve them. We evaluate the efficacy of active fuzzing by implementing it for a water purification plant testbed, finding it can automatically discover a test suite of flow, pressure, and over/underflow attacks, all with substantially less time, data, and network access than the most comparable approach. Finally, we demonstrate that our prediction models can also be utilised as countermeasures themselves, implementing them as anomaly detectors and early warning systems.
翻訳日:2022-11-27 06:09:30 公開日:2020-07-16
# 量子イメージセンサを用いた暗黒領域の画像分類

Image Classification in the Dark using Quanta Image Sensors ( http://arxiv.org/abs/2006.02026v3 )

ライセンス: Link先を確認
Abhiram Gnanasambandam and Stanley H. Chan(参考訳) 最先端の画像分類器は、よく照らされた画像を用いて訓練され、テストされる。 これらの画像は通常、cmosイメージセンサーによって撮影され、1ピクセルに少なくとも10光子がある。 しかし、光子フラックスが低い暗黒環境では、計測信号がノイズによって抑制されるため、画像分類が困難になる。 本稿では,Quanta Image Sensors (QIS) を用いた新しい低照度画像分類法を提案する。 QISは、画素サイズと空間解像度を妥協することなく光子計数能力を有する新しいタイプの画像センサである。 過去10年間の多くの研究が低照度撮像におけるQISの可能性を示しているが、画像分類には使用されていない。 本稿では,うるさいqis生データを分類できる学生教師学習方式を提案することで,そのギャップを埋める。 学生・教師の学習では,1ピクセル以下の光子レベルの画像分類が可能であることを示す。 実験により,提案手法の有効性を既存手法と比較して検証した。

State-of-the-art image classifiers are trained and tested using well-illuminated images. These images are typically captured by CMOS image sensors with at least tens of photons per pixel. However, in dark environments when the photon flux is low, image classification becomes difficult because the measured signal is suppressed by noise. In this paper, we present a new low-light image classification solution using Quanta Image Sensors (QIS). QIS are a new type of image sensors that possess photon counting ability without compromising on pixel size and spatial resolution. Numerous studies over the past decade have demonstrated the feasibility of QIS for low-light imaging, but their usage for image classification has not been studied. This paper fills the gap by presenting a student-teacher learning scheme which allows us to classify the noisy QIS raw data. We show that with student-teacher learning, we are able to achieve image classification at a photon level of one photon per pixel or lower. Experimental results verify the effectiveness of the proposed method compared to existing solutions.
翻訳日:2022-11-25 18:31:09 公開日:2020-07-16
# 離散フーリエ変換を用いた関数・濃度制約付き2変数マルコフ論理ネットワークのリフト推論

Lifted Inference in 2-Variable Markov Logic Networks with Function and Cardinality Constraints Using Discrete Fourier Transform ( http://arxiv.org/abs/2006.03432v2 )

ライセンス: Link先を確認
Ondrej Kuzelka(参考訳) 本稿では,2変数マルコフ論理ネットワーク(MLN)における濃度と関数制約の推論がドメインリフト可能であることを示す。 この結果を得るために、既存のドメインリフトアルゴリズムを重み付き一階モデルカウント(Van den Broeck et al, KR 2014)と、MLNに関連する特定の分布の離散フーリエ変換に使用した。

In this paper we show that inference in 2-variable Markov logic networks (MLNs) with cardinality and function constraints is domain-liftable. To obtain this result we use existing domain-lifted algorithms for weighted first-order model counting (Van den Broeck et al, KR 2014) together with discrete Fourier transform of certain distributions associated to MLNs.
翻訳日:2022-11-25 12:41:41 公開日:2020-07-16
# Kafka-ML: データストリームとML/AIフレームワークの接続

Kafka-ML: connecting the data stream with ML/AI frameworks ( http://arxiv.org/abs/2006.04105v2 )

ライセンス: Link先を確認
Cristian Mart\'in, Peter Langendoerfer, Pouya Soltani Zarrin, Manuel D\'iaz and Bartolom\'e Rubio(参考訳) 機械学習(ML)と人工知能(AI)は、アルゴリズムを通じてトレーニング、改善、予測を行うデータソースに依存している。 デジタル革命やモノのインターネットのような現在のパラダイムによって、この情報は静的データから連続的なデータストリームへと変わりつつある。 しかし、現在使われているML/AIフレームワークのほとんどは、この革命に備えて完全には準備されていない。 本稿では,データストリーム(Apache Kafka)を通じてTensorFlow ML/AIパイプラインの管理を可能にする,オープンソースのフレームワークであるKafka-MLを提案する。 Kafka-MLは、ユーザが簡単にMLモデルを定義し、推論のためにトレーニング、評価、デプロイできる、アクセシブルでユーザフレンドリなWebユーザインターフェースを提供する。 Kafka-ML自体とそのデプロイされたコンポーネントは、コンテナ化テクノロジを通じて完全に管理されており、ポータビリティと容易に配布できる他、フォールトトレランスや高可用性といった機能を備えている。 最後に、データストリームの管理と再利用に新たなアプローチが導入され、データストレージとファイルシステム(no)の利用に繋がる可能性がある。

Machine Learning (ML) and Artificial Intelligence (AI) have a dependency on data sources to train, improve and make predictions through their algorithms. With the digital revolution and current paradigms like the Internet of Things, this information is turning from static data into continuous data streams. However, most of the ML/AI frameworks used nowadays are not fully prepared for this revolution. In this paper, we proposed Kafka-ML, an open-source framework that enables the management of TensorFlow ML/AI pipelines through data streams (Apache Kafka). Kafka-ML provides an accessible and user-friendly Web User Interface where users can easily define ML models, to then train, evaluate and deploy them for inference. Kafka-ML itself and its deployed components are fully managed through containerization technologies, which ensure its portability and easy distribution and other features such as fault-tolerance and high availability. Finally, a novel approach has been introduced to manage and reuse data streams, which may lead to the (no) utilization of data storage and file systems.
翻訳日:2022-11-24 08:29:44 公開日:2020-07-16
# 安定性トレードオフによるクラスタ数の選択 $k$: 内部検証基準

Selecting the Number of Clusters $K$ with a Stability Trade-off: an Internal Validation Criterion ( http://arxiv.org/abs/2006.08530v2 )

ライセンス: Link先を確認
Alex Mourer, Florent Forest, Mustapha Lebbah, Hanane Azzag and J\'er\^ome Lacaille(参考訳) モデル選択は非パラメトリッククラスタリングにおいて大きな課題である。 教師付き学習のように、どの結果がテストできるのかという根拠のない明確な理由から、クラスタリング結果を評価する普遍的に認められた方法はない。 普遍的な評価基準を見つけることの難しさは、クラスタリングの根本的な不明確な目的の直接的な結果である。 この観点では、クラスタリングの安定性は自然およびモデルに依存しない原理として現れている。 データセットが同じ分布から繰り返しサンプリングされる場合、アルゴリズムは同様のパーティションを見つけるべきである。 しかし、安定性だけではクラスタ数を決定するのに十分なツールではないことが判明した。 例えば、クラスタの数が小さすぎるかどうかを検出することができない。 優れたクラスタリングは安定していなければならないし、各クラスタには安定したパーティションが存在しなければならない。 この原則は、クラスタ間およびクラスタ内安定性に基づく新しい内部クラスタリング妥当性基準を導き、以前の安定性ベースの方法の限界を克服する。 サンプルベース摂動と比較して,付加雑音による構造発見の優れた性能を実証的に示す。 本稿では,多数の実験を通してクラスタ数を選択する手法の有効性を実証し,既存の評価手法と比較する。

Model selection is a major challenge in non-parametric clustering. There is no universally admitted way to evaluate clustering results for the obvious reason that there is no ground truth against which results could be tested, as in supervised learning. The difficulty to find a universal evaluation criterion is a direct consequence of the fundamentally ill-defined objective of clustering. In this perspective, clustering stability has emerged as a natural and model-agnostic principle: an algorithm should find stable structures in the data. If data sets are repeatedly sampled from the same underlying distribution, an algorithm should find similar partitions. However, it turns out that stability alone is not a well-suited tool to determine the number of clusters. For instance, it is unable to detect if the number of clusters is too small. We propose a new principle for clustering validation: a good clustering should be stable, and within each cluster, there should exist no stable partition. This principle leads to a novel internal clustering validity criterion based on between-cluster and within-cluster stability, overcoming limitations of previous stability-based methods. We empirically show the superior ability of additive noise to discover structures, compared with sampling-based perturbation. We demonstrate the effectiveness of our method for selecting the number of clusters through a large number of experiments and compare it with existing evaluation methods.
翻訳日:2022-11-21 03:15:43 公開日:2020-07-16
# データ蒸留・添加による深層学習による脳腫瘍検出

Human-Expert-Level Brain Tumor Detection Using Deep Learning with Data Distillation and Augmentation ( http://arxiv.org/abs/2006.12285v3 )

ライセンス: Link先を確認
Diyuan Lu, Nenad Polomac, Iskra Gacheva, Elke Hattingen, Jochen Triesch(参考訳) 医学診断におけるDeep Learning (DL) の適用は2つの問題によって妨げられることが多い。 第一に、診断を受けた患者数によって制限されるため、トレーニングデータの量が少ない場合がある。 第2に、トレーニングデータは様々な種類のノイズによって破損する可能性がある。 本稿では,磁気共鳴分光法(MRS)データによる脳腫瘍検出の問題点について考察する。 これらの課題を克服するために,特に代表的なトレーニングサンプルを蒸留し,そのサンプルと他のクラスからのサンプルを混合して追加のトレーニングサンプルを作成する,深層ニューラルネットワークのトレーニング手法を提案する。 本研究では,この手法により性能が大幅に向上し,数千のトレーニング例で人間の熟練度に到達できることを実証する。 興味深いことに、このネットワークは人間の専門家によって無視されるデータの特徴に頼り、将来の研究の新たな方向性を提案する。

The application of Deep Learning (DL) for medical diagnosis is often hampered by two problems. First, the amount of training data may be scarce, as it is limited by the number of patients who have acquired the condition to be diagnosed. Second, the training data may be corrupted by various types of noise. Here, we study the problem of brain tumor detection from magnetic resonance spectroscopy (MRS) data, where both types of problems are prominent. To overcome these challenges, we propose a new method for training a deep neural network that distills particularly representative training examples and augments the training data by mixing these samples from one class with those from the same and other classes to create additional training samples. We demonstrate that this technique substantially improves performance, allowing our method to reach human-expert-level accuracy with just a few thousand training examples. Interestingly, the network learns to rely on features of the data that are usually ignored by human experts, suggesting new directions for future research.
翻訳日:2022-11-19 19:15:52 公開日:2020-07-16
# Earnに学ぶ: ライドハイリング艦隊における調整の実施

Learn to Earn: Enabling Coordination within a Ride Hailing Fleet ( http://arxiv.org/abs/2006.10904v2 )

ライセンス: Link先を確認
Harshal A. Chaudhari, John W. Byers and Evimaria Terzi(参考訳) uber、lyftなどの多面的配車プラットフォーム上での社会福祉目標の最適化は、ドライバー、乗客、プラットフォーム自体の目標の不一致から、課題となっている。 都市全体の需要満足度と供給利用率を同時に維持しつつ、各超ローカル乗車要求に対する応答時間を最小化することを目的としている。 経済学者は、価格に敏感な過剰需要を抑制し、特定の地域で出現する需給不均衡を解決する動的な価格メカニズムに頼りがちである。 対照的に、コンピュータ科学者は、ブラックボックスを協調した多エージェント深層強化学習に基づくアプローチを用いて、これらの地区へのプリエンプティブな供給を前提とした需要予測問題であると考えている。 ここでは,運転者の特定の場所や時刻における調整の必要性を確立することで,既存の供給再配置手法の説明可能性について紹介する。 明示的なニーズベースのコーディネーションにより、フレームワークはよりシンプルな非深層強化学習ベースのアプローチを使用できるようになる。 さらに、これはうらやましい無料のレコメンデーション、すなわち、同じ場所と時刻のドライバーがお互いの将来の利益をうらやむことはない。 実験評価の結果,フレームワークの有効性,堅牢性,汎用性が示された。 最後に,これまでの研究とは対照的に,研究のエンドツーエンド再現性向上のための強化学習環境を提供し,今後の比較研究を奨励する。

The problem of optimizing social welfare objectives on multi sided ride hailing platforms such as Uber, Lyft, etc., is challenging, due to misalignment of objectives between drivers, passengers, and the platform itself. An ideal solution aims to minimize the response time for each hyper local passenger ride request, while simultaneously maintaining high demand satisfaction and supply utilization across the entire city. Economists tend to rely on dynamic pricing mechanisms that stifle price sensitive excess demand and resolve the supply demand imbalances emerging in specific neighborhoods. In contrast, computer scientists primarily view it as a demand prediction problem with the goal of preemptively repositioning supply to such neighborhoods using black box coordinated multi agent deep reinforcement learning based approaches. Here, we introduce explainability in the existing supply repositioning approaches by establishing the need for coordination between the drivers at specific locations and times. Explicit need based coordination allows our framework to use a simpler non deep reinforcement learning based approach, thereby enabling it to explain its recommendations ex post. Moreover, it provides envy free recommendations i.e., drivers at the same location and time do not envy one another's future earnings. Our experimental evaluation demonstrates the effectiveness, the robustness, and the generalizability of our framework. Finally, in contrast to previous works, we make available a reinforcement learning environment for end to end reproducibility of our work and to encourage future comparative studies.
翻訳日:2022-11-19 04:58:27 公開日:2020-07-16
# アイリスのプレゼン攻撃:今どこにいるのか?

Iris Presentation Attack Detection: Where Are We Now? ( http://arxiv.org/abs/2006.13252v2 )

ライセンス: Link先を確認
Aidan Boyd, Zhaoyuan Fang, Adam Czajka, Kevin W. Bowyer(参考訳) 虹彩認識システムの普及に伴い、プレゼンテーション攻撃に対する効果的なセキュリティ対策の重要性が高まっている。 本研究は,過去2年間に公表されたアイリス提示攻撃検出領域における最も重要な進歩について概説する。 irisプレゼンテーションアタック検出の開発と評価のために新たに公開されたデータセットについて述べる。 近年の文献は、伝統的な「手作り」特徴抽出と分類、ディープラーニングに基づくソリューション、両方の方法論を用いたハイブリッドアプローチの3つのカテゴリに分けられている。 現代のアプローチの結論は、この課題の難しさを強調している。 最後に,今後の研究の方向性について解説する。

As the popularity of iris recognition systems increases, the importance of effective security measures against presentation attacks becomes paramount. This work presents an overview of the most important advances in the area of iris presentation attack detection published in recent two years. Newly-released, publicly-available datasets for development and evaluation of iris presentation attack detection are discussed. Recent literature can be seen to be broken into three categories: traditional "hand-crafted" feature extraction and classification, deep learning-based solutions, and hybrid approaches fusing both methodologies. Conclusions of modern approaches underscore the difficulty of this task. Finally, commentary on possible directions for future research is provided.
翻訳日:2022-11-17 23:27:54 公開日:2020-07-16
# 英国バイオバンクにおける腹部磁気共鳴画像の画像処理と品質管理

Image Processing and Quality Control for Abdominal Magnetic Resonance Imaging in the UK Biobank ( http://arxiv.org/abs/2007.01251v2 )

ライセンス: Link先を確認
Nicolas Basty, Yi Liu, Madeleine Cule, E. Louise Thomas, Jimmy D. Bell and Brandon Whitcher(参考訳) 最初の38,971人の参加者に対して,英国バイオバンクで使用される腹部MRIプロトコルについて,エンドツーエンドの画像解析パイプラインを提示する。 セグメンテーションやパラメータ推定といった下流の定量的分析のためのデータセットを作成するために、高レベルのデータ品質と一貫性を確実にするために必要な処理ステップに重点を置いている。 生データの問題を検知し、可能であれば修正するために品質管理手順が導入された。 ディープラーニングモデルによりディクソン系列中の脂肪水スワップの検出を行い、自動的に補正する。 骨関節は, 肩, 腰, 膝に対するハイブリッドアトラスによる登録と深層学習モデルを用いて予測される。 単スライスマルチエチョ級数の大きさおよび位相情報を用いて, プロトン密度脂肪分率と横緩和率(R2*)の同時推定を行う。 2点のディクソン買収の約98.1%が処理に成功し、品質管理に合格し、高解像度のT1重み付き3Dボリュームの99.98%が成功した。 肝臓を覆う1本スライスのマルチエコー買収の約99.98%が処理に成功し、品質管理に合格し、97.6%が膵臓を覆っている。 参加者の1.8%で少なくとも1つの脂肪水スワップが検出された。 骨関節に関しては、参加者の約3.3%が少なくとも1つの膝関節を欠席し、0.8%が少なくとも1つの肩関節を欠席した。 肝に対する2つのシングルスライスマルチエチョ取得プロトコルを受信した被験者に対して,2つのプロトコルの系統的差異を同定し,複数の線形回帰を用いてモデル化した。 腹部mriプロトコルから画像由来の表現型を使おうとする科学者にとって、ここでの知見は貴重なものとなる。

An end-to-end image analysis pipeline is presented for the abdominal MRI protocol used in the UK Biobank on the first 38,971 participants. Emphasis is on the processing steps necessary to ensure a high-level of data quality and consistency is produced in order to prepare the datasets for downstream quantitative analysis, such as segmentation and parameter estimation. Quality control procedures have been incorporated to detect and, where possible, correct issues in the raw data. Detection of fat-water swaps in the Dixon series is performed by a deep learning model and corrected automatically. Bone joints are predicted using a hybrid atlas-based registration and deep learning model for the shoulders, hips and knees. Simultaneous estimation of proton density fat fraction and transverse relaxivity (R2*) is performed using both the magnitude and phase information for the single-slice multiecho series. Approximately 98.1% of the two-point Dixon acquisitions were successfully processed and passed quality control, with 99.98% of the high-resolution T1-weighted 3D volumes succeeding. Approximately 99.98% of the single-slice multiecho acquisitions covering the liver were successfully processed and passed quality control, with 97.6% of the single-slice multiecho acquisitions covering the pancreas succeeding. At least one fat-water swap was detected in 1.8% of participants. With respect to the bone joints, approximately 3.3% of participants were missing at least one knee joint and 0.8% were missing at least one shoulder joint. For the participants who received both single-slice multiecho acquisition protocols for the liver a systematic difference between the two protocols was identified and modeled using multiple linear regression. The findings presented here will be invaluable for scientists who seek to use image-derived phenotypes from the abdominal MRI protocol.
翻訳日:2022-11-14 14:53:01 公開日:2020-07-16
# 遅延正則化の事前学習と除去による深潜時変数モデルのベネフィット

Benefiting Deep Latent Variable Models via Learning the Prior and Removing Latent Regularization ( http://arxiv.org/abs/2007.03640v2 )

ライセンス: Link先を確認
Rogan Morrow, Wei-Chen Chiu(参考訳) 変分オートエンコーダ(英語版)や逆数オートエンコーダ(英語版)など、多くの種類の潜伏変数モデルが存在する。 モデルの特定のクラスにかかわらず、潜在分布は事前分布が学習された場合でも、事前分布に対して正規化されるべきという暗黙のコンセンサスが存在する。 画像生成における潜伏正則化の影響を調査した結果,十分に表現力のある事前学習を行う場合,潜伏正則化は不要であり,画像品質が問題となるため,実際は有害である可能性が示唆された。 さらに、コンピュータビジョンにおける2つの一般的な問題、潜伏変数の絡み合い、画像と画像の翻訳における多様性に関する学習前の利点についても検討する。

There exist many forms of deep latent variable models, such as the variational autoencoder and adversarial autoencoder. Regardless of the specific class of model, there exists an implicit consensus that the latent distribution should be regularized towards the prior, even in the case where the prior distribution is learned. Upon investigating the effect of latent regularization on image generation our results indicate that in the case where a sufficiently expressive prior is learned, latent regularization is not necessary and may in fact be harmful insofar as image quality is concerned. We additionally investigate the benefit of learned priors on two common problems in computer vision: latent variable disentanglement, and diversity in image-to-image translation.
翻訳日:2022-11-12 18:56:53 公開日:2020-07-16
# 対数領域適応のための二重混合正規化学習

Dual Mixup Regularized Learning for Adversarial Domain Adaptation ( http://arxiv.org/abs/2007.03141v2 )

ライセンス: Link先を確認
Yuan Wu, Diana Inkpen and Ahmed El-Roby(参考訳) 教師なしドメイン適応(UDA)の最近の進歩は、ドメイン適応のための説明的特徴と伝達可能な特徴を切り離すための敵対的学習に依存している。 しかし、既存の方法には2つの問題がある。 まず、対象領域のクラス認識情報を考慮しない限り、潜在空間の識別性を完全に保証することはできない。 第二に、ソースおよびターゲットドメインからのサンプルは、潜在空間におけるドメイン不変の特徴抽出には不十分である。 そこで本研究では,この課題を解消するために,標本間の一貫性のある予測を導出するだけでなく,潜在空間の固有構造を充実させる,udaのためのdual mixup regularized learning (dmrl)法を提案する。 DMRLは、モデルの有効性を改善するために、ピクセルレベルでカテゴリとドメインの混合正則化を共同で行う。 4つのドメイン適応ベンチマークに関する一連の実証研究は、我々のアプローチが最先端を実現することを実証している。

Recent advances on unsupervised domain adaptation (UDA) rely on adversarial learning to disentangle the explanatory and transferable features for domain adaptation. However, there are two issues with the existing methods. First, the discriminability of the latent space cannot be fully guaranteed without considering the class-aware information in the target domain. Second, samples from the source and target domains alone are not sufficient for domain-invariant feature extracting in the latent space. In order to alleviate the above issues, we propose a dual mixup regularized learning (DMRL) method for UDA, which not only guides the classifier in enhancing consistent predictions in-between samples, but also enriches the intrinsic structures of the latent space. The DMRL jointly conducts category and domain mixup regularizations on pixel level to improve the effectiveness of models. A series of empirical studies on four domain adaptation benchmarks demonstrate that our approach can achieve the state-of-the-art.
翻訳日:2022-11-12 18:31:49 公開日:2020-07-16
# 2次元幾何学のための誘導損失とハイブリッド注意を有するカスケードネットワーク

Cascade Network with Guided Loss and Hybrid Attention for Two-view Geometry ( http://arxiv.org/abs/2007.05706v2 )

ライセンス: Link先を確認
Zhi Chen and Fan Yang and Wenbing Tao(参考訳) 本稿では,2次元幾何学のための高性能ネットワークの設計にコミットする。 まず,学習中の正負のクラスと負のクラスの重みを動的に調整することにより,損失とFn測定の直接負の相関関係を理論的に確立し,ネットワークを常にFn測定の増加方向に向けて訓練する。 これにより、ネットワークはFn測定を最大化しながら、クロスエントロピー損失の利点を維持することができる。 次に,ベイズ注意コンテキスト正規化(BACN)とチャネルワイドアテンション(CA)を統合した特徴抽出のためのハイブリッドアテンションブロックを提案する。 bacnは事前情報をマイニングして、グローバルコンテキストをより活用し、caは複雑なチャネルコンテキストをキャプチャして、ネットワークのチャネル意識を高めることができる。 最後に、我々の誘導損失とハイブリッドアテンションブロックに基づいて、カスケードネットワークは、より優れたパフォーマンスのために、徐々に結果を最適化するように設計されています。 実験により,我々のネットワークは,ベンチマークデータセットの最先端性能を達成することが示された。

In this paper, we are committed to designing a high-performance network for two-view geometry. We first propose a Guided Loss and theoretically establish the direct negative correlation between the loss and Fn-measure by dynamically adjusting the weights of positive and negative classes during training, so that the network is always trained towards the direction of increasing Fn-measure. By this way, the network can maintain the advantage of the cross-entropy loss while maximizing the Fn-measure. We then propose a hybrid attention block to extract feature, which integrates the bayesian attentive context normalization (BACN) and channel-wise attention (CA). BACN can mine the prior information to better exploit global context and CA can capture complex channel context to enhance the channel awareness of the network. Finally, based on our Guided Loss and hybrid attention block, a cascade network is designed to gradually optimize the result for more superior performance. Experiments have shown that our network achieves the state-of-the-art performance on benchmark datasets.
翻訳日:2022-11-11 13:36:06 公開日:2020-07-16
# RGB次元高次物体検出のための階層動的フィルタリングネットワーク

Hierarchical Dynamic Filtering Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2007.06227v3 )

ライセンス: Link先を確認
Youwei Pang, Lihe Zhang, Xiaoqi Zhao, Huchuan Lu(参考訳) RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。 本稿では,これらの問題を新たな視点から考察する。 我々は、密結合構造を通して異なるモジュラリティの特徴を統合し、それらの混合特徴を用いて異なるサイズの受容場を持つ動的フィルタを生成する。 最後に、動的拡張ピラミッドモジュールという、より柔軟で効率的なマルチスケールのクロスモーダル特徴処理を実装した。 予測がより鋭いエッジと一貫したサリエンシー領域を持つようにするため、結果をさらに最適化するハイブリッド拡張損失関数を設計した。 この損失関数は、単一モードのRGB SODタスクでも有効であることを示す。 6つの指標に関して,提案手法は8つの挑戦的ベンチマークデータセット上で既存の12の手法より優れている。 提案するモジュールと損失関数の有効性を検証する実験が多数行われた。 私たちのコード、モデル、結果は \url{https://github.com/lartpang/hdfnet} で利用可能です。

The main purpose of RGB-D salient object detection (SOD) is how to better integrate and utilize cross-modal fusion information. In this paper, we explore these issues from a new perspective. We integrate the features of different modalities through densely connected structures and use their mixed features to generate dynamic filters with receptive fields of different sizes. In the end, we implement a kind of more flexible and efficient multi-scale cross-modal feature processing, i.e. dynamic dilated pyramid module. In order to make the predictions have sharper edges and consistent saliency regions, we design a hybrid enhanced loss function to further optimize the results. This loss function is also validated to be effective in the single-modal RGB SOD task. In terms of six metrics, the proposed method outperforms the existing twelve methods on eight challenging benchmark datasets. A large number of experiments verify the effectiveness of the proposed module and loss function. Our code, model and results are available at \url{https://github.com/lartpang/HDFNet}.
翻訳日:2022-11-11 00:08:01 公開日:2020-07-16
# 構文誘導合成のためのメタグラム上のグラディエントDescent

Gradient Descent over Metagrammars for Syntax-Guided Synthesis ( http://arxiv.org/abs/2007.06677v2 )

ライセンス: Link先を確認
Nicolas Chan, Elizabeth Polgreen and Sanjit A. Seshia(参考訳) 構文誘導合成アルゴリズムの性能は、優れた構文テンプレート、あるいは文法の提供に大きく依存する。 このようなテンプレートのプロビジョニングは手作業で行なわなければならないことが多いが、そのような文法がなければ、最先端のソルバは、ターゲットプログラムのシグネチャに依存する独自のデフォルト文法を提供することになる。 この作業では、このデフォルト文法が大幅に改善される可能性があると推測する。 文法を構築するための一連のルール(メタグラムマー)を構築し、これらのメタグラムマーに対して勾配降下を実行し、より多くのベンチマークと平均を高速化するメタグラムマーを見つける。 その結果, CVC4は300sタイムアウトでデフォルトの文法よりも26%多くのベンチマークを解くことができ, メタ文法は数十のベンチマークから学習し, 100のベンチマークで性能を一般化することを示した。

The performance of a syntax-guided synthesis algorithm is highly dependent on the provision of a good syntactic template, or grammar. Provision of such a template is often left to the user to do manually, though in the absence of such a grammar, state-of-the-art solvers will provide their own default grammar, which is dependent on the signature of the target program to be sythesized. In this work, we speculate this default grammar could be improved upon substantially. We build sets of rules, or metagrammars, for constructing grammars, and perform a gradient descent over these metagrammars aiming to find a metagrammar which solves more benchmarks and on average faster. We show the resulting metagrammar enables CVC4 to solve 26% more benchmarks than the default grammar within a 300s time-out, and that metagrammars learnt from tens of benchmarks generalize to performance on 100s of benchmarks.
翻訳日:2022-11-10 23:33:03 公開日:2020-07-16
# 不確実性に基づく産業用工具摩耗分析用ヒューマン・イン・ザ・ループシステム

An Uncertainty-based Human-in-the-loop System for Industrial Tool Wear Analysis ( http://arxiv.org/abs/2007.07129v2 )

ライセンス: Link先を確認
Alexander Treiss, Jannis Walk, Niklas K\"uhl(参考訳) 畳み込みニューラルネットワークは、画像セグメンテーションタスクにおいて優れたパフォーマンスを実現することが示されている。 しかし、ブラックボックスシステムとして動作する畳み込みニューラルネットワークは、一般的に彼らの決定の信頼性について信頼できる尺度を提供していない。 これは、産業環境における様々な問題、特にモデルのアウトプットにおけるユーザからの信頼レベルが不十分なこと、および現在のポリシーガイドライン(EU AI Strategyなど)に準拠していないことにつながる。 これらの問題に対処するために,我々はモンテカルロドロップアウトに基づく不確実性尺度を用いて,人間のループ内システムを用いてシステムの透明性と性能を向上させる。 特に, 加工産業における摩耗分析における実世界のマルチクラス画像分割タスクにおいて, 上述の利点を実証する。 先行研究の結果,予測の質はモデルの不確実性と相関することが示された。 さらに、モデルの不確かさを独立変数として用いた多重線形回帰が予測の品質を著しく説明できることを実証する(\(R^2=0.718\)。 不確実性に基づくヒューマン・イン・ザ・ループシステムでは、多重回帰は画像レベルでの失敗予測を特定することを目的としている。 このシステムは、人間の専門家を利用して、これらの失敗予測を手動でラベル付けする。 シミュレーション研究により、不確実性に基づく人間-イン・ザ・ループシステムは、ランダムベースの人間-イン・ザ・ループシステムと比較して、異なるレベルの人間の関与に対するパフォーマンスを向上させることが示された。 一般化性を確保するため,提案手法が利用可能なCityscapesデータセット上で同様の結果が得られることを示す。

Convolutional neural networks have shown to achieve superior performance on image segmentation tasks. However, convolutional neural networks, operating as black-box systems, generally do not provide a reliable measure about the confidence of their decisions. This leads to various problems in industrial settings, amongst others, inadequate levels of trust from users in the model's outputs as well as a non-compliance with current policy guidelines (e.g., EU AI Strategy). To address these issues, we use uncertainty measures based on Monte-Carlo dropout in the context of a human-in-the-loop system to increase the system's transparency and performance. In particular, we demonstrate the benefits described above on a real-world multi-class image segmentation task of wear analysis in the machining industry. Following previous work, we show that the quality of a prediction correlates with the model's uncertainty. Additionally, we demonstrate that a multiple linear regression using the model's uncertainties as independent variables significantly explains the quality of a prediction (\(R^2=0.718\)). Within the uncertainty-based human-in-the-loop system, the multiple regression aims at identifying failed predictions on an image-level. The system utilizes a human expert to label these failed predictions manually. A simulation study demonstrates that the uncertainty-based human-in-the-loop system increases performance for different levels of human involvement in comparison to a random-based human-in-the-loop system. To ensure generalizability, we show that the presented approach achieves similar results on the publicly available Cityscapes dataset.
翻訳日:2022-11-10 15:00:04 公開日:2020-07-16
# 抽象構文解析のための深層学習

Deep Learning for Abstract Argumentation Semantics ( http://arxiv.org/abs/2007.07629v2 )

ライセンス: Link先を確認
Dennis Craandijk and Floris Bex(参考訳) 本稿では,複数の抽象的論証セマンティクスの下での議論の受容を決定するための学習に基づくアプローチを提案する。 より具体的には、議論が受け入れられる可能性を予測するためにメッセージパスアルゴリズムを学習する議論グラフニューラルネットワーク(AGNN)を提案する。 実験の結果、AGNNは、異なるセマンティクスの下での受け入れ可能性をほぼ完全に予測でき、より大きな議論フレームワークに対してうまくスケールできることが示された。 さらに、メッセージパッシングアルゴリズムの振る舞いを分析することは、AGNNが文献で特定された議論の意味論の基本原則に従うことを学び、それによって異なる意味論の下で拡張を予測するために訓練できることを示している。 https://github.com/DennisCraandijk/DL-Abstract-Argumentationでコードを公開しています。

In this paper, we present a learning-based approach to determining acceptance of arguments under several abstract argumentation semantics. More specifically, we propose an argumentation graph neural network (AGNN) that learns a message-passing algorithm to predict the likelihood of an argument being accepted. The experimental results demonstrate that the AGNN can almost perfectly predict the acceptability under different semantics and scales well for larger argumentation frameworks. Furthermore, analysing the behaviour of the message-passing algorithm shows that the AGNN learns to adhere to basic principles of argument semantics as identified in the literature, and can thus be trained to predict extensions under the different semantics - we show how the latter can be done for multi-extension semantics by using AGNNs to guide a basic search. We publish our code at https://github.com/DennisCraandijk/DL-Abstract-Argumentation
翻訳日:2022-11-10 04:42:42 公開日:2020-07-16
# 教師なしクラスタリングによるディープニューラルネットワークの解説

Explaining Deep Neural Networks using Unsupervised Clustering ( http://arxiv.org/abs/2007.07477v2 )

ライセンス: Link先を確認
Yu-han Liu and Sercan O. Arik(参考訳) 本研究では,教師なしクラスタリングを用いて,訓練された深層ニューラルネットワーク(dnn)をサロゲートモデルに蒸留して説明する新しい手法を提案する。 提案手法はDNNアーキテクチャの任意のレイヤに柔軟に適用でき,低レベルかつ高レベルな情報を組み込むことができる。 トレーニング済みのDNNの画像データセットでは、同じようなトレーニングサンプルを見つけ、DNNが決定を下す概念に光を当てる方法の強みを実証する。 ユーザスタディを通じて,本モデルがモデル予測に対するユーザの信頼度を向上させることを示す。

We propose a novel method to explain trained deep neural networks (DNNs), by distilling them into surrogate models using unsupervised clustering. Our method can be applied flexibly to any subset of layers of a DNN architecture and can incorporate low-level and high-level information. On image datasets given pre-trained DNNs, we demonstrate the strength of our method in finding similar training samples, and shedding light on the concepts the DNNs base their decisions on. Via user studies, we show that our model can improve the user trust in model's prediction.
翻訳日:2022-11-10 04:33:45 公開日:2020-07-16
# quantaイメージセンサを用いた動的低光イメージング

Dynamic Low-light Imaging with Quanta Image Sensors ( http://arxiv.org/abs/2007.08614v1 )

ライセンス: Link先を確認
Yiheng Chi, Abhiram Gnanasambandam, Vladlen Koltun, Stanley H. Chan(参考訳) センサーに届く光子の数は少ないため、低光度での撮像は困難である。 低照度環境でのダイナミックなシーンの撮影は、シーンが動くにつれて、隣接するフレームのピクセルを区別する前にアライメントする必要があるため、さらに難しい。 従来のcmosイメージセンサ(cis)は、露光があまり短くなく、読み出しノイズが信号を圧倒することがないため、ダイナミックな低照度設定では特に不利である。 本稿では,Quanta Image Sensors (QIS) を用いた新しい画像再構成アルゴリズムを提案する。 QISは光子計数機能を備えた単光子画像センサである。 過去10年間の研究により、QISの低照度画像への応用が確認されてきたが、低照度の動的シーンの再構成アルゴリズムは未解決の問題のままである。 このギャップを埋めるために,モーション教師とデノーミング教師の知識を学生ネットワークに転送する学生・教師養成プロトコルを提案する。 動的シーンは,光子レベルが1ピクセル当たり1光子である場合,フレームのバーストから再構成可能であることを示す。 提案手法の利点を既存手法と比較して実験的に検証した。

Imaging in low light is difficult because the number of photons arriving at the sensor is low. Imaging dynamic scenes in low-light environments is even more difficult because as the scene moves, pixels in adjacent frames need to be aligned before they can be denoised. Conventional CMOS image sensors (CIS) are at a particular disadvantage in dynamic low-light settings because the exposure cannot be too short lest the read noise overwhelms the signal. We propose a solution using Quanta Image Sensors (QIS) and present a new image reconstruction algorithm. QIS are single-photon image sensors with photon counting capabilities. Studies over the past decade have confirmed the effectiveness of QIS for low-light imaging but reconstruction algorithms for dynamic scenes in low light remain an open problem. We fill the gap by proposing a student-teacher training protocol that transfers knowledge from a motion teacher and a denoising teacher to a student network. We show that dynamic scenes can be reconstructed from a burst of frames at a photon level of 1 photon per pixel per frame. Experimental results confirm the advantages of the proposed method compared to existing methods.
翻訳日:2022-11-10 00:18:05 公開日:2020-07-16
# 転送学習とk-meansクラスタリングによる教師なし機械学習による材料画像データの分類

Unsupervised machine learning via transfer learning and k-means clustering to classify materials image data ( http://arxiv.org/abs/2007.08361v1 )

ライセンス: Link先を確認
Ryan Cohn (1) and Elizabeth Holm (1) ((1) Department of Materials Science and Engineering, Carnegie Mellon University, Pittsburgh, PA, USA)(参考訳) 教師なし機械学習は、ラベルなしデータセットから知識を抽出し、最大機械学習性能を達成するための重要な機会を提供する。 本稿では,人気のマイクロ構造データセットにおける画像分類のための高速教師なし機械学習システムの構築,使用,評価について述べる。 東北大学スチール表面欠陥データベースには、熱間圧延鋼で観察された6種類の欠陥のマイクログラフが含まれており、画像分類のためのモデルの訓練と評価に便利である。 自然画像のimagenetデータセット上で事前トレーニングされたvgg16畳み込みニューラルネットワークを用いて,各マイクログラフの特徴表現を抽出する。 特徴記述子から信号を抽出するために主成分分析を適用した後、k平均クラスタリングを用いてラベル付きトレーニングデータを必要としない画像分類を行う。 このアプローチは99.4\% \pm 0.16\%$精度を達成し、結果として得られたモデルは、以前の研究よりもパフォーマンスと有用性が向上することを示すことなく、新しいイメージの分類に使用できる。 分類性能に対する各ステップの影響をよりよく理解するために感度解析を行う。 その結果, 教材科学に関心のある問題に対する教師なし機械学習技術の適用に向けた洞察が得られた。

Unsupervised machine learning offers significant opportunities for extracting knowledge from unlabeled data sets and for achieving maximum machine learning performance. This paper demonstrates how to construct, use, and evaluate a high performance unsupervised machine learning system for classifying images in a popular microstructural dataset. The Northeastern University Steel Surface Defects Database includes micrographs of six different defects observed on hot-rolled steel in a format that is convenient for training and evaluating models for image classification. We use the VGG16 convolutional neural network pre-trained on the ImageNet dataset of natural images to extract feature representations for each micrograph. After applying principal component analysis to extract signal from the feature descriptors, we use k-means clustering to classify the images without needing labeled training data. The approach achieves $99.4\% \pm 0.16\%$ accuracy, and the resulting model can be used to classify new images without retraining This approach demonstrates an improvement in both performance and utility compared to a previous study. A sensitivity analysis is conducted to better understand the influence of each step on the classification performance. The results provide insight toward applying unsupervised machine learning techniques to problems of interest in materials science.
翻訳日:2022-11-10 00:17:31 公開日:2020-07-16
# 進行進行グラフのためのコミュニティ検出アルゴリズムの評価

Evaluating Community Detection Algorithms for Progressively Evolving Graphs ( http://arxiv.org/abs/2007.08635v1 )

ライセンス: Link先を確認
Remy Cazabet, Souaad Boudebza, Giulio Rossetti(参考訳) 過去10年間、動的コミュニティの発見のために多くのアルゴリズムが提案されてきた。 しかし、これらの方法は互いに比較されることがほとんどない。 本稿では,そのようなアルゴリズムを比較し評価するためのベンチマークとして,進化するコミュニティ構造を持つ動的グラフの生成法を提案する。 以前提案されたベンチマークとは異なり、記述言語を通じて望ましい進化するコミュニティ構造を指定でき、それに対応する漸進的に進化するネットワークを生成することができる。 我々は,既存の6つの動的コミュニティ検出アルゴリズムを,植栽された地盤真理との瞬時および縦方向の類似性,動的パーティショニングの滑らかさ,スケーラビリティの観点から実験的に評価した。 特に、スムーズさを確保するためのアプローチ、すなわちGlitches、Oversimplification、Identity Lossなど、さまざまなタイプの弱点を観察します。 明確な勝者は得られなかったが,明確な違いを観察し,各ステップにおいて最も高速で,最も滑らかな解あるいは最も正確な解を導出する解を同定した。

Many algorithms have been proposed in the last ten years for the discovery of dynamic communities. However, these methods are seldom compared between themselves. In this article, we propose a generator of dynamic graphs with planted evolving community structure, as a benchmark to compare and evaluate such algorithms. Unlike previously proposed benchmarks, it is able to specify any desired evolving community structure through a descriptive language, and then to generate the corresponding progressively evolving network. We empirically evaluate six existing algorithms for dynamic community detection in terms of instantaneous and longitudinal similarity with the planted ground truth, smoothness of dynamic partitions, and scalability. We notably observe different types of weaknesses depending on their approach to ensure smoothness, namely Glitches, Oversimplification and Identity loss. Although no method arises as a clear winner, we observe clear differences between methods, and we identified the fastest, those yielding the most smoothed or the most accurate solutions at each step.
翻訳日:2022-11-10 00:16:47 公開日:2020-07-16
# 深部強化学習を用いた自動車用高速道路の意思決定戦略

Decision-making Strategy on Highway for Autonomous Vehicles using Deep Reinforcement Learning ( http://arxiv.org/abs/2007.08691v1 )

ライセンス: Link先を確認
Jiangdong Liao, Teng Liu, Xiaolin Tang, Xingyu Mu, Bing Huang, Dongpu Cao(参考訳) 自動運転は、交通事故を減らし、運転効率を向上させる有望な技術である。 本研究は,高速道路の走行行動に対処するために,自動車の深部強化学習(DRL)対応意思決定ポリシーを構築した。 まず高速道路の走行環境が整備され、エゴ車両は効率よく安全な操作で周囲の車両を通り抜けることを目的としている。 これらの車両を制御するために階層的な制御枠組みが提示され、上層部が運転決定を管理し、下層部が車両の速度と加速の監督を行うことを示す。 次に、ハイウェイ決定戦略を導出するために、Dullling Deep Q-network (DDQN)アルゴリズムと名付けられたDRL法を適用した。 ディープQネットワークとDDQNアルゴリズムの網羅的な計算手順を議論し比較した。 最後に,提案する高速道路意思決定方針の有効性を評価するために,一連の推定シミュレーション実験を行った。 提案手法の収束速度と制御性能における利点を明らかにした。 シミュレーションの結果,DDQNをベースとした乗っ取り政策が高速道路走行のタスクを効率的かつ安全に達成できることが判明した。

Autonomous driving is a promising technology to reduce traffic accidents and improve driving efficiency. In this work, a deep reinforcement learning (DRL)-enabled decision-making policy is constructed for autonomous vehicles to address the overtaking behaviors on the highway. First, a highway driving environment is founded, wherein the ego vehicle aims to pass through the surrounding vehicles with an efficient and safe maneuver. A hierarchical control framework is presented to control these vehicles, which indicates the upper-level manages the driving decisions, and the lower-level cares about the supervision of vehicle speed and acceleration. Then, the particular DRL method named dueling deep Q-network (DDQN) algorithm is applied to derive the highway decision-making strategy. The exhaustive calculative procedures of deep Q-network and DDQN algorithms are discussed and compared. Finally, a series of estimation simulation experiments are conducted to evaluate the effectiveness of the proposed highway decision-making policy. The advantages of the proposed framework in convergence rate and control performance are illuminated. Simulation results reveal that the DDQN-based overtaking policy could accomplish highway driving tasks efficiently and safely.
翻訳日:2022-11-10 00:16:28 公開日:2020-07-16
# コミュニティ特化言語特徴と個人価値相関を用いたソーシャルメディア利用者の個人価値予測について

On Predicting Personal Values of Social Media Users using Community-Specific Language Features and Personal Value Correlation ( http://arxiv.org/abs/2007.08107v1 )

ライセンス: Link先を確認
Amila Silva, Pei-Chi Lo, Ee-Peng Lim(参考訳) 個人の価値観は個人の行動、好み、意思決定に大きな影響を与える。 したがって、個人の個人的価値が自身のソーシャルメディアの内容や活動に影響を与えることは驚きではない。 ユーザーが個人価値のアンケートを完了させる代わりに、研究者はユーザー生成のソーシャルメディアデータを使って個人価値を予測する非侵襲的でスケーラブルなアプローチを検討してきた。 それでも、このような予測モデルを設計する際には、単語使用率とプロファイル情報の地理的差異が問題となる。 本研究では、シンガポールの利用者の個人価値を分析し、Facebookデータを用いて個人価値を予測する効果的なモデルを開発する。 これらのモデルは、言語問合せと単語数(LIWC)における単語カテゴリと個人値間の相関を利用する。 LIWCの単語カテゴリはシンガポールの英語以外の単語に適応している。 提案したスタックモデルには,基本モデルのタスク固有層とクロススティッチ層モデルからなる相関関係が組み込まれている。 実験により,提案手法は従来よりも精度が向上した個人価値を予測できることを示した。 さらに、スタックモデルを用いて、公開ツイートコンテンツを用いて、Twitterユーザーの大規模なコミュニティの個人的価値を予測し、ソーシャルサイエンスやソーシャルメディアの文献における以前の発見と一致するオンライン行動に関する興味深い知見を経験的に導き出す。

Personal values have significant influence on individuals' behaviors, preferences, and decision making. It is therefore not a surprise that personal values of a person could influence his or her social media content and activities. Instead of getting users to complete personal value questionnaire, researchers have looked into a non-intrusive and highly scalable approach to predict personal values using user-generated social media data. Nevertheless, geographical differences in word usage and profile information are issues to be addressed when designing such prediction models. In this work, we focus on analyzing Singapore users' personal values, and developing effective models to predict their personal values using their Facebook data. These models leverage on word categories in Linguistic Inquiry and Word Count (LIWC) and correlations among personal values. The LIWC word categories are adapted to non-English word use in Singapore. We incorporate the correlations among personal values into our proposed Stack Model consisting of a task-specific layer of base models and a cross-stitch layer model. Through experiments, we show that our proposed model predicts personal values with considerable improvement of accuracy over the previous works. Moreover, we use the stack model to predict the personal values of a large community of Twitter users using their public tweet content and empirically derive several interesting findings about their online behavior consistent with earlier findings in the social science and social media literature.
翻訳日:2022-11-10 00:11:40 公開日:2020-07-16
# 運転条件認識に基づくハイブリッド電気自動車の送電エネルギー管理戦略

Transferred Energy Management Strategies for Hybrid Electric Vehicles Based on Driving Conditions Recognition ( http://arxiv.org/abs/2007.08337v1 )

ライセンス: Link先を確認
Teng Liu, Xiaolin Tang, Jiaxin Chen, Hong Wang, Wenhao Tan, Yalian Yang(参考訳) エネルギー管理戦略(EMS、Energy Management Strategy)は、ハイブリッド電気自動車(HEV)において、エネルギー保存と排出削減の可能性を決定するため最も重要な要素である。 本研究は, 強化学習法と駆動条件認識を組み合わせることで, 並列HEV用トランスポートEMSを提案する。 まず、マルコフ決定過程(MDP)と遷移確率行列を用いて駆動条件を判別する。 そして、強化学習アルゴリズムを定式化し、現在の運転状況でqテーブルをチューニングするパワースプリット制御を実現する。 最後に,提案フレームワークを並列ハイブリッドトポロジーで推定し,検証する。 計算効率と燃費におけるその利点を要約し、証明した。

Energy management strategies (EMSs) are the most significant components in hybrid electric vehicles (HEVs) because they decide the potential of energy conservation and emission reduction. This work presents a transferred EMS for a parallel HEV via combining the reinforcement learning method and driving conditions recognition. First, the Markov decision process (MDP) and the transition probability matrix are utilized to differentiate the driving conditions. Then, reinforcement learning algorithms are formulated to achieve power split controls, in which Q-tables are tuned by current driving situations. Finally, the proposed transferred framework is estimated and validated in a parallel hybrid topology. Its advantages in computational efficiency and fuel economy are summarized and proved.
翻訳日:2022-11-10 00:10:36 公開日:2020-07-16
# タンパク質構造モデリングと設計における深層学習

Deep Learning in Protein Structural Modeling and Design ( http://arxiv.org/abs/2007.08383v1 )

ライセンス: Link先を確認
Wenhao Gao, Sai Pooja Mahajan, Jeremias Sulam, and Jeffrey J. Gray(参考訳) ディープラーニングは、ビッグデータ、アクセス可能なツールキット、強力な計算資源によって刺激される科学的革命を触媒し、タンパク質構造モデリングを含む多くの分野に影響を与える。 アミノ酸配列や進化情報からの構造予測、望ましい機能へのタンパク質の設計、タンパク質の性質や挙動の予測などのタンパク質構造モデリングは、分子レベルでの生物学的システムの理解と設計に不可欠である。 本稿では,タンパク質構造モデリングと設計の課題に対処する深層学習技術の最近の進歩を概説する。 タンパク質構造モデリングの深層学習技術を用いて新しいアプローチを解明し、対処すべき進歩と課題について議論する。 我々は「シーケンス ->構造 ->機能」パラダイムに従って、構造の中心的な重要性を論じる。 このレビューは、計算生物学者がタンパク質モデリングに適用される深層学習手法に親しみやすくするためと、深層学習技術から恩恵を受ける生物学的に有意義な問題に対する視点を得るためのコンピュータ科学者の両方の支援を目的としている。

Deep learning is catalyzing a scientific revolution fueled by big data, accessible toolkits, and powerful computational resources, impacting many fields including protein structural modeling. Protein structural modeling, such as predicting structure from amino acid sequence and evolutionary information, designing proteins toward desirable functionality, or predicting properties or behavior of a protein, is critical to understand and engineer biological systems at the molecular level. In this review, we summarize the recent advances in applying deep learning techniques to tackle problems in protein structural modeling and design. We dissect the emerging approaches using deep learning techniques for protein structural modeling, and discuss advances and challenges that must be addressed. We argue for the central importance of structure, following the "sequence -> structure -> function" paradigm. This review is directed to help both computational biologists to gain familiarity with the deep learning methods applied in protein modeling, and computer scientists to gain perspective on the biologically meaningful problems that may benefit from deep learning techniques.
翻訳日:2022-11-10 00:10:25 公開日:2020-07-16
# 宇宙で最も奇妙な銀河の探索

In search of the weirdest galaxies in the Universe ( http://arxiv.org/abs/2007.08530v1 )

ライセンス: Link先を確認
Job Formsma, Teymoor Saifollahi(参考訳) 奇妙な銀河は未知または非常に珍しい特徴を持つ異常銀河であり、通常の標本とは異なる。 これらの銀河は、現在の理論に新たな洞察を与えるかもしれないし、宇宙の過程に関する新しい理論を形成するのに使うことができるので、非常に興味深い。 興味深い外れ値はしばしば偶然に見つかるが、将来の大規模調査が膨大なデータを生成することで、これはますます難しくなっていくだろう。 これにより、興味深い奇妙なオブジェクトを見つけるために機械学習検出技術が必要になる。 本研究では,銀河と質量集合体に関する第3のデータリリースの銀河スペクトルを精査し,二つの異なる異常検出手法を用いて奇妙な外向き銀河を探索する。 まず,フラックス値を入力として,銀河スペクトルに距離に基づく教師なしランダムフォレストを適用する。 高い外れ値を持つスペクトルは、ブレンド、準恒星天体、bpt外れ値などの異なるカテゴリに検査および分割される。 また,変分オートエンコーダを用いた再構成型異常検出法を実験し,この2つの方法の比較を行った。 最後に,類似スペクトルのクラスタリングを検査するために,手法の出力に次元性低減技術を適用する。 両手法ともデータから重要な特徴を抽出し,様々な種類の外れ値を見つけるために利用できることがわかった。

Weird galaxies are outliers that have either unknown or very uncommon features making them different from the normal sample. These galaxies are very interesting as they may provide new insights into current theories, or can be used to form new theories about processes in the Universe. Interesting outliers are often found by accident, but this will become increasingly more difficult with future big surveys generating an enormous amount of data. This gives the need for machine learning detection techniques to find the interesting weird objects. In this work, we inspect the galaxy spectra of the third data release of the Galaxy And Mass Assembly survey and look for the weird outlying galaxies using two different outlier detection techniques. First, we apply distance-based Unsupervised Random Forest on the galaxy spectra using the flux values as input features. Spectra with a high outlier score are inspected and divided into different categories such as blends, quasi-stellar objects, and BPT outliers. We also experiment with a reconstruction-based outlier detection method using a variational autoencoder and compare the results of the two different methods. At last, we apply dimensionality reduction techniques on the output of the methods to inspect the clustering of similar spectra. We find that both unsupervised methods extract important features from the data and can be used to find many different types of outliers.
翻訳日:2022-11-10 00:10:07 公開日:2020-07-16
# FTRANS:FPGAを用いた変圧器のエネルギー効率向上

FTRANS: Energy-Efficient Acceleration of Transformers using FPGA ( http://arxiv.org/abs/2007.08563v1 )

ライセンス: Link先を確認
Bingbing Li, Santosh Pandey, Haowen Fang, Yanjun Lyv, Ji Li, Jieyang Chen, Mimi Xie, Lipeng Wan, Hang Liu, Caiwen Ding(参考訳) 自然言語処理(nlp)では、シーケンスアラインリカレントニューラルネットワーク(rnn)や畳み込みを使わずに、自己接続機構に完全に応答する最初のトランスダクションモデルとして「トランスフォーマー」アーキテクチャが提案され、シーケンスからシーケンスへのタスクへの大幅な改善を達成した。 これらの事前訓練された言語表現の集中的な計算と記憶が、計算やメモリ制約のあるデバイスに人気を落としている。 フィールドプログラマブルゲートアレイ(FPGA)は、高い並列性と低レイテンシのためにディープラーニングアルゴリズムを高速化するために広く使われている。 しかし、トレーニングされたモデルはFPGAファブリックに対応するには大きすぎる。 本稿では,変圧器を用いた大規模言語表現のための高速化フレームワークFtransを提案する。 本フレームワークは,アルゴリズムレベルでの大規模言語表現のモデル圧縮を実現するため,ブロック循環行列(BCM)に基づく重み表現の強化と,アーキテクチャレベルでのアクセラレーション設計を含む。 実験の結果,提案手法はNLPモデルのモデルサイズを最大16倍に削減することがわかった。 FPGA設計では,CPUに比べて27.07倍,81倍の性能向上とエネルギー効率の向上を実現している。

In natural language processing (NLP), the "Transformer" architecture was proposed as the first transduction model replying entirely on self-attention mechanisms without using sequence-aligned recurrent neural networks (RNNs) or convolution, and it achieved significant improvements for sequence to sequence tasks. The introduced intensive computation and storage of these pre-trained language representations has impeded their popularity into computation and memory-constrained devices. The field-programmable gate array (FPGA) is widely used to accelerate deep learning algorithms for its high parallelism and low latency. However, the trained models are still too large to accommodate to an FPGA fabric. In this paper, we propose an efficient acceleration framework, Ftrans, for transformer-based large scale language representations. Our framework includes enhanced block-circulant matrix (BCM)-based weight representation to enable model compression on large-scale language representations at the algorithm level with few accuracy degradation, and an acceleration design at the architecture level. Experimental results show that our proposed framework significantly reduces the model size of NLP models by up to 16 times. Our FPGA design achieves 27.07x and 81x improvement in performance and energy efficiency compared to CPU, and up to 8.80x improvement in energy efficiency compared to GPU.
翻訳日:2022-11-10 00:09:45 公開日:2020-07-16
# ディープラーニングが因果推論を満たすとき: 現実世界のデータから薬物を再利用するための計算フレームワーク

When deep learning meets causal inference: a computational framework for drug repurposing from real-world data ( http://arxiv.org/abs/2007.10152v1 )

ライセンス: Link先を確認
Ruoqi Liu, Lai Wei, Ping Zhang(参考訳) 薬物再服用は、既存の薬物の新規使用を特定する効果的な戦略であり、ベンチからベッドサイドへの最も早い移行を可能にする。 臨床前情報に主に焦点をあてた既存の薬物再提案法は、ヒトに適用される場合の翻訳問題が存在する可能性がある。 電子健康記録や保険請求書などのリアル・ワールド・データ(RWD)は、多くの薬物の利用者の膨大なコホートに関する情報を提供する。 本稿では、RWDの振り返り分析を用いて、医薬品再資源化の候補を複数生成し、検証するための効率的で簡便なフレームワークを提案する。 確立された因果推論と深層学習法に基づいて,大規模医療クレームデータベースに存在する薬物のランダム化臨床試験をエミュレートする。 本研究の枠組みは, 冠動脈疾患(CAD)の症例研究において, 55の薬剤候補が各種疾患の予後に及ぼす影響を評価することで実証する。 CADの成績は有意に改善するが,CAD治療には役立たず,薬物再資源化の道筋をたどる6つの薬剤候補を達成した。

Drug repurposing is an effective strategy to identify new uses for existing drugs, providing the quickest possible transition from bench to bedside. Existing methods for drug repurposing that mainly focus on pre-clinical information may exist translational issues when applied to human beings. Real world data (RWD), such as electronic health records and insurance claims, provide information on large cohorts of users for many drugs. Here we present an efficient and easily-customized framework for generating and testing multiple candidates for drug repurposing using a retrospective analysis of RWDs. Building upon well-established causal inference and deep learning methods, our framework emulates randomized clinical trials for drugs present in a large-scale medical claims database. We demonstrate our framework in a case study of coronary artery disease (CAD) by evaluating the effect of 55 repurposing drug candidates on various disease outcomes. We achieve 6 drug candidates that significantly improve the CAD outcomes but not have been indicated for treating CAD, paving the way for drug repurposing.
翻訳日:2022-11-10 00:09:19 公開日:2020-07-16
# リズム頭部運動を用いたトーキングヘッド生成

Talking-head Generation with Rhythmic Head Motion ( http://arxiv.org/abs/2007.08547v1 )

ライセンス: Link先を確認
Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, Yi Xu, and Chenliang Xu(参考訳) 人々がスピーチを届けると、彼らは自然に頭を動かし、このリズミカルな頭の動きは韻律情報を伝達する。 しかし,頭部を自然に動かしながらリップ同期ビデオを生成することは困難である。 非常に成功したが、既存の作品は静止画のビデオを生成するか、ヘッドモーションを生成するためのスパース/デンスマッピングガイダンスとしてランドマーク/ビデオフレームに頼っている。 この制限を克服するため,ハイブリッド埋め込みモジュールと非線形合成モジュールとともに3次元認識型生成ネットワークを提案する。 頭部の動きと表情1を明示的にモデル化し、3dアニメーションを慎重に操作し、参照画像を動的に埋め込み、自然な頭部の動きで制御可能で、フォトリアリスティックで、時間的にコヒーレントなトーキーヘッドビデオを実現する。 いくつかの標準ベンチマークにおける疑わしい実験により,本手法は定量比較と定性比較の両方において最先端の手法よりもはるかに優れた結果が得られることが示された。 コードはhttps://github.com/lelechen63/Talking-head-Generation-with-Rhythmic-Head-Motionで公開されている。

When people deliver a speech, they naturally move heads, and this rhythmic head motion conveys prosodic information. However, generating a lip-synced video while moving head naturally is challenging. While remarkably successful, existing works either generate still talkingface videos or rely on landmark/video frames as sparse/dense mapping guidance to generate head movements, which leads to unrealistic or uncontrollable video synthesis. To overcome the limitations, we propose a 3D-aware generative network along with a hybrid embedding module and a non-linear composition module. Through modeling the head motion and facial expressions1 explicitly, manipulating 3D animation carefully, and embedding reference images dynamically, our approach achieves controllable, photo-realistic, and temporally coherent talking-head videos with natural head movements. Thoughtful experiments on several standard benchmarks demonstrate that our method achieves significantly better results than the state-of-the-art methods in both quantitative and qualitative comparisons. The code is available on https://github.com/ lelechen63/Talking-head-Generation-with-Rhythmic-Head-Motion.
翻訳日:2022-11-10 00:02:12 公開日:2020-07-16
# 動的変形場に基づくリアルタイムのミスマッチ除去

Smooth Deformation Field-based Mismatch Removal in Real-time ( http://arxiv.org/abs/2007.08553v1 )

ライセンス: Link先を確認
Haoyin Zhou, Jagadeesan Jayender(参考訳) 本稿では,機能マッチングの次のステップとなる不一致除去問題について検討する。 非剛性変形はパラメトリック変換が見られないため、ミスマッチの除去が困難である。 この問題を解決するために,我々はまず,非剛性変形を複数の局所的剛性変換で概略表現できるという合理的な仮定の下でパラメトリック手法である再重み付けと1点RANSAC戦略(R1P-RNSC)に基づくアルゴリズムを提案する。 R1P-RNSCは高速であるが、局所的な平滑化情報を考慮できないという欠点に悩む。 次に,予測最大化アルゴリズムと2重四元数表現(EMDQ)に基づく非パラメトリックアルゴリズムを提案し,滑らかな変形場を生成する。 2つのアルゴリズムは互いに欠点を補う。 具体的には、EMDQはR1P-RNSCによって提供される優れた初期値を必要とし、R1P-RNSCは改良のためにEMDQを必要とする。 実世界のデータによる実験結果から、この2つのアルゴリズムの組み合わせは、他の最先端手法と比較して最も精度が高いことが示される。 非剛性登録やSLAMなど多くの潜在的な応用が提案されている。

This paper studies the mismatch removal problem, which may serve as the subsequent step of feature matching. Non-rigid deformation makes it difficult to remove mismatches because no parametric transformation can be found. To solve this problem, we first propose an algorithm based on the re-weighting and 1-point RANSAC strategy (R1P-RNSC), which is a parametric method under a reasonable assumption that the non-rigid deformation can be approximately represented by multiple locally rigid transformations. R1P-RNSC is fast but suffers from a drawback that the local smoothing information cannot be taken into account. Then, we propose a non-parametric algorithm based on the expectation maximization algorithm and dual quaternion (EMDQ) representation to generate the smooth deformation field. The two algorithms compensate for the drawbacks of each other. Specifically, EMDQ needs good initial values provided by R1P-RNSC, and R1P-RNSC needs EMDQ for refinement. Experimental results with real-world data demonstrate that the combination of the two algorithms has the best accuracy compared to other state-of-the-art methods, which can handle up to 85% of outliers in real-time. The ability to generate dense deformation field from sparse matches with outliers in real-time makes the proposed algorithms have many potential applications, such as non-rigid registration and SLAM.
翻訳日:2022-11-10 00:01:52 公開日:2020-07-16
# 時間符号化リモートアパーチャを用いた超解像リモートイメージング

Super-Resolution Remote Imaging using Time Encoded Remote Apertures ( http://arxiv.org/abs/2007.08667v1 )

ライセンス: Link先を確認
Ji Hyun Nam, Andreas Velten(参考訳) 光または他の波動現象を用いたシーンのイメージングは、回折限界に従属する。 シーンと撮像システムの間を伝播する波の空間プロファイルは、回折によって歪められ、走行距離に比例する分解能の損失が生じる。 ここでは,1つの空間画素または空間平均のみを用いて,波面の時間的プロファイルからスパースシーンを再構築可能であることを示す。 波動の時間プロファイルは、理論的には、シーンからの距離によらず波長スケールの分解能を達成できる回折によって影響を受けない。

Imaging of scenes using light or other wave phenomena is subject to the diffraction limit. The spatial profile of a wave propagating between a scene and the imaging system is distorted by diffraction resulting in a loss of resolution that is proportional with traveled distance. We show here that it is possible to reconstruct sparse scenes from the temporal profile of the wave-front using only one spatial pixel or a spatial average. The temporal profile of the wave is not affected by diffraction yielding an imaging method that can in theory achieve wavelength scale resolution independent of distance from the scene.
翻訳日:2022-11-10 00:01:25 公開日:2020-07-16
# 円筒状トポロジカル制約を伴う深部小腸分節

Deep Small Bowel Segmentation with Cylindrical Topological Constraints ( http://arxiv.org/abs/2007.08674v1 )

ライセンス: Link先を確認
Seung Yeon Shin, Sungwon Lee, Daniel C. Elton, James L. Gulley, Ronald M. Summers(参考訳) 本稿では, 持続的ホモロジーに基づく円筒状位相制約を適用した小腸セグメンテーション法を提案する。 応用制約を破る可能性のある接触問題に対処するため,小便の内筒を予測するために,追加の支柱でネットワークを強化することを提案する。 インナーシリンダにはタッチ問題がなく、この拡張ブランチに印加された円筒形状制約がネットワークを案内し、位相的に正しいセグメンテーションを生成する。 厳密な評価のために,腹腔内ctデータに高密度セグメンテーションを施した。 提案手法は,ベースライン法と比較して4つの異なる指標を用いて明らかに改善し,t-テストによる統計的意義を示した。

We present a novel method for small bowel segmentation where a cylindrical topological constraint based on persistent homology is applied. To address the touching issue which could break the applied constraint, we propose to augment a network with an additional branch to predict an inner cylinder of the small bowel. Since the inner cylinder is free of the touching issue, a cylindrical shape constraint applied on this augmented branch guides the network to generate a topologically correct segmentation. For strict evaluation, we achieved an abdominal computed tomography dataset with dense segmentation ground-truths. The proposed method showed clear improvements in terms of four different metrics compared to the baseline method, and also showed the statistical significance from a paired t-test.
翻訳日:2022-11-10 00:01:18 公開日:2020-07-16
# POMDPに対する決定論的政策の強化

Strengthening Deterministic Policies for POMDPs ( http://arxiv.org/abs/2007.08351v1 )

ライセンス: Link先を確認
Leonore Winterer, Ralf Wimmer, Nils Jansen, Bernd Becker(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)の合成問題は、与えられた仕様を満たすポリシーを計算することである。 このようなポリシーはPOMDPの完全な実行履歴を考慮に入れなければなりません。 一般的なアプローチは、限られたメモリ量を使用して、潜在的な選択をランダム化することです。 しかし、この問題はまだnpハードであり、実際には計算が難しいことが多い。 制限された問題は、履歴もランダム化も使用せず、定常的かつ決定論的と呼ばれるポリシーをもたらすことである。 このようなポリシーを計算する以前のアプローチは、mixed-integer linear programming (milp) を用いる。 時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。 任意の数のそのような仕様を扱うことができる。 しかし、ランダム化とメモリは、しばしば満足なポリシーを達成するために必須である。 まず、ランダム化ポリシーの制限されたクラスを提供するためにエンコーディングを拡張します。 第2に、元のMILPの結果に基づいて、メモリベースの決定を包含するPOMDPの事前処理を採用する。 最先端の pomdp ソルバに対する我々のアプローチの利点は,(1)計算能力を失うことなく単純な決定論的ポリシを強化する柔軟性と,(2)任意に多数の仕様を満足させる能力にある。 後者のポイントは、典型的なPOMDPの例のパフォーマンスと安全性のトレードオフを考慮に入れます。 本手法の有効性を,幅広いベンチマークで示す。

The synthesis problem for partially observable Markov decision processes (POMDPs) is to compute a policy that satisfies a given specification. Such policies have to take the full execution history of a POMDP into account, rendering the problem undecidable in general. A common approach is to use a limited amount of memory and randomize over potential choices. Yet, this problem is still NP-hard and often computationally intractable in practice. A restricted problem is to use neither history nor randomization, yielding policies that are called stationary and deterministic. Previous approaches to compute such policies employ mixed-integer linear programming (MILP). We provide a novel MILP encoding that supports sophisticated specifications in the form of temporal logic constraints. It is able to handle an arbitrary number of such specifications. Yet, randomization and memory are often mandatory to achieve satisfactory policies. First, we extend our encoding to deliver a restricted class of randomized policies. Second, based on the results of the original MILP, we employ a preprocessing of the POMDP to encompass memory-based decisions. The advantages of our approach over state-of-the-art POMDP solvers lie (1) in the flexibility to strengthen simple deterministic policies without losing computational tractability and (2) in the ability to enforce the provable satisfaction of arbitrarily many specifications. The latter point allows taking trade-offs between performance and safety aspects of typical POMDP examples into account. We show the effectiveness of our method on a broad range of benchmarks.
翻訳日:2022-11-10 00:01:05 公開日:2020-07-16
# グラフに基づく時空間論理に基づく自律ロボットの仕様マイニングと自動タスク計画

Specification mining and automated task planning for autonomous robots based on a graph-based spatial temporal logic ( http://arxiv.org/abs/2007.08451v1 )

ライセンス: Link先を確認
Zhiyu Liu, Meng Jiang, Hai Lin(参考訳) 我々は、自律ロボットがデモビデオから新しいスキルを学習し、これらの新しいスキルを使って非自明なハイレベルなタスクを達成できるようにすることを目指している。 このような自律ロボットを開発する目標は、知識表現、仕様マイニング、タスク計画の自動化である。 知識表現には、グラフベースの時空間論理(GSTL)を用いて、デモビデオで示される関連スキルの空間的および時間的情報をキャプチャする。 我々は,空間項と時間式を帰納的に構築することで,デモビデオからパラメトリックGSTL式を生成するための仕様マイニングアルゴリズムを設計する。 仕様マイニングから得られるパラメトリックGSTL式は、自律ロボットの自動タスク計画に使用されるドメイン理論として機能する。 本稿では,GSTLに基づく自動タスク計画を提案し,提案者が順序付きアクションを生成するとともに,検証者が実行可能なタスク計画を生成する。 テーブル設定の例は、主要なアイデアを説明するために、論文全体に使われます。

We aim to enable an autonomous robot to learn new skills from demo videos and use these newly learned skills to accomplish non-trivial high-level tasks. The goal of developing such autonomous robot involves knowledge representation, specification mining, and automated task planning. For knowledge representation, we use a graph-based spatial temporal logic (GSTL) to capture spatial and temporal information of related skills demonstrated by demo videos. We design a specification mining algorithm to generate a set of parametric GSTL formulas from demo videos by inductively constructing spatial terms and temporal formulas. The resulting parametric GSTL formulas from specification mining serve as a domain theory, which is used in automated task planning for autonomous robots. We propose an automatic task planning based on GSTL where a proposer is used to generate ordered actions, and a verifier is used to generate executable task plans. A table setting example is used throughout the paper to illustrate the main ideas.
翻訳日:2022-11-10 00:00:41 公開日:2020-07-16
# オンラインレコメンデーションシステムのための高速分散バンディット

Fast Distributed Bandits for Online Recommendation Systems ( http://arxiv.org/abs/2007.08061v1 )

ライセンス: Link先を確認
Kanak Mahadik, Qingyun Wu, Shuai Li, and Amit Sabne(参考訳) コンテキスト帯域幅アルゴリズムは、コンテンツの人気が急速に変化するレコメンデーションシステムで一般的に使用される。 これらのアルゴリズムは、ユーザとアイテムの間の潜在的なマッピングを継続的に学習する。 ユーザ間のクラスタリングや社会的構造を学ぶ最近の推奨アルゴリズムは、推奨精度が高い。 しかし,環境におけるユーザ数や項目数の増加に伴い,レコメンデーション作成に必要な時間が著しく低下する。 結果として、これらは実際にデプロイすることはできない。 最先端の分散バンディットアルゴリズム(DCCB)は、分散ワーカー間で情報を共有するためにピアツーピアのネットワークに依存している。 しかし、このアプローチはユーザ数の増加とともにうまくスケールしない。 さらに、クラスターの発見が遅くなり、精度が低下する。 そこで本研究では,DistCLUBと呼ばれる分散帯域ベースアルゴリズムを提案する。 このアルゴリズムは分散的にクラスタを生成し、ネットワークデータ共有要件を劇的に削減し、高いスケーラビリティを実現します。 さらに、DistCLUBはクラスタをはるかに高速に検出し、最先端のアルゴリズムよりも精度が向上する。 実世界のベンチマークと合成データセットによる評価では、DistCLUBはDCCBよりも平均8.87倍速く、正規化予測性能は14.5%向上している。

Contextual bandit algorithms are commonly used in recommender systems, where content popularity can change rapidly. These algorithms continuously learn latent mappings between users and items, based on contexts associated with them both. Recent recommendation algorithms that learn clustering or social structures between users have exhibited higher recommendation accuracy. However, as the number of users and items in the environment increases, the time required to generate recommendations deteriorates significantly. As a result, these cannot be deployed in practice. The state-of-the-art distributed bandit algorithm - DCCB - relies on a peer-to-peer net-work to share information among distributed workers. However, this approach does not scale well with the increasing number of users. Furthermore, it suffers from slow discovery of clusters, resulting in accuracy degradation. To address the above issues, this paper proposes a novel distributed bandit-based algorithm called DistCLUB. This algorithm lazily creates clusters in a distributed manner, and dramatically reduces the network data sharing requirement, achieving high scalability. Additionally, DistCLUB finds clusters much faster, achieving better accuracy than the state-of-the-art algorithm. Evaluation over both real-world benchmarks and synthetic datasets shows that DistCLUB is on average 8.87x faster than DCCB, and achieves 14.5% higher normalized prediction performance.
翻訳日:2022-11-09 23:59:57 公開日:2020-07-16
# HyperTune: 異種システム上でのDNNトレーニングの効率的な分散のための動的ハイパーパラメータチューニング

HyperTune: Dynamic Hyperparameter Tuning For Efficient Distribution of DNN Training Over Heterogeneous Systems ( http://arxiv.org/abs/2007.08077v1 )

ライセンス: Link先を確認
Ali HeydariGorji, Siavash Rezaei, Mahdi Torabzadehkashi, Hossein Bobarshad, Vladimir Alves, Pai H. Chou(参考訳) 分散トレーニングは、Deep Neural Networks(DNN)トレーニングを加速する新しいアプローチだが、一般的なトレーニングライブラリは、異種プロセッサによる分散ケースや、他のワークロードによって処理ノードが中断されるケースに対処できない。 本稿では、NANDフラッシュベースで内部処理エンジンを備えた高容量データストレージである計算記憶装置(CSD)におけるDNNの分散トレーニングについて述べる。 CSDベースの分散アーキテクチャは、ストレージデバイスとホストプロセッサ間の不要なデータ移動を排除し、パフォーマンスのスケーラビリティ、レジリエンス、データプライバシの観点からのフェデレーション学習の利点を取り入れている。 また、異種システムのトレーニングハイパーパラメータを動的に調整し、毎秒の処理画像とエネルギー効率の両面での処理速度を最大に保つことにより、既存の分散トレーニングフレームワークの欠点を改善するDNNトレーニングフレームワークであるStannisについても述べる。 画像分類訓練ベンチマーク実験の結果、スタニス+csdを用いた場合、性能が最大3.1倍改善され、エネルギー消費量が2.45倍削減された。

Distributed training is a novel approach to accelerate Deep Neural Networks (DNN) training, but common training libraries fall short of addressing the distributed cases with heterogeneous processors or the cases where the processing nodes get interrupted by other workloads. This paper describes distributed training of DNN on computational storage devices (CSD), which are NAND flash-based, high capacity data storage with internal processing engines. A CSD-based distributed architecture incorporates the advantages of federated learning in terms of performance scalability, resiliency, and data privacy by eliminating the unnecessary data movement between the storage device and the host processor. The paper also describes Stannis, a DNN training framework that improves on the shortcomings of existing distributed training frameworks by dynamically tuning the training hyperparameters in heterogeneous systems to maintain the maximum overall processing speed in term of processed images per second and energy efficiency. Experimental results on image classification training benchmarks show up to 3.1x improvement in performance and 2.45x reduction in energy consumption when using Stannis plus CSD compare to the generic systems.
翻訳日:2022-11-09 23:59:39 公開日:2020-07-16
# データから始める:高品質データセットの構築と共有による空間データ科学の進歩

Starting with data: advancing spatial data science by building and sharing high-quality datasets ( http://arxiv.org/abs/2007.08087v1 )

ライセンス: Link先を確認
Yingjie Hu(参考訳) 近年,空間データ科学が学際分野として登場している。 本稿では,空間データ科学のための高品質データセットの構築と共有の重要性について論じる。

Spatial data science has emerged in recent years as an interdisciplinary field. This position paper discusses the importance of building and sharing high-quality datasets for spatial data science.
翻訳日:2022-11-09 23:59:17 公開日:2020-07-16
# 操作計画のためのオブジェクト指向述語を用いた効率的な状態抽象化

Efficient State Abstraction using Object-centered Predicates for Manipulation Planning ( http://arxiv.org/abs/2007.08251v1 )

ライセンス: Link先を確認
Alejandro Agostini, Dongheui Lee(参考訳) 操作タスクにおける幾何学的側面を一貫して表現する象徴的記述の定義は、ロボットコミュニティでほとんど注目を集めていない難しい問題である。 この定義は通常、実験室で実験を行うための幾何学的制約のみを満たす有限の対象関係と向きの集合の観測者の視点から行われる。 これにより、オブジェクト設定空間における操作アクションで可能な変更は、特定の外部参照定義と互換性のあるものに制限され、可能な操作のスペクトルは大きく制限される。 これらの制限に対処するために、従来のオブザーバ・パースペクティブよりもはるかに広い構成空間の変化を特徴付けるオブジェクト中心表現を提案する。 この表現に基づいて、操作タスクにおける幾何的および力的整合性を持つ計画を生成するための行動の選択と配置のための普遍的な計画演算子を定義する。 このオブジェクト中心記述は、特定のシナリオごとにこれらの関係を手作りすることなく、信号-シンボル関係を生成することができる新しい学習機構を用いて、オブジェクトのポーズおよびバウンディングボックスから直接得られる。

The definition of symbolic descriptions that consistently represent relevant geometrical aspects in manipulation tasks is a challenging problem that has received little attention in the robotic community. This definition is usually done from an observer perspective of a finite set of object relations and orientations that only satisfy geometrical constraints to execute experiments in laboratory conditions. This restricts the possible changes with manipulation actions in the object configuration space to those compatible with that particular external reference definitions, which greatly limits the spectrum of possible manipulations. To tackle these limitations we propose an object-centered representation that permits characterizing a much wider set of possible changes in configuration spaces than the traditional observer perspective counterpart. Based on this representation, we define universal planning operators for picking and placing actions that permits generating plans with geometric and force consistency in manipulation tasks. This object-centered description is directly obtained from the poses and bounding boxes of objects using a novel learning mechanisms that permits generating signal-symbols relations without the need of handcrafting these relations for each particular scenario.
翻訳日:2022-11-09 23:53:13 公開日:2020-07-16
# 人種偏りポリシングにおける統計理解における衝突型バイアスの役割

The role of collider bias in understanding statistics on racially biased policing ( http://arxiv.org/abs/2007.08406v1 )

ライセンス: Link先を確認
Norman Fenton, Martin Neil, Steven Frazier(参考訳) 同じデータを使った非武装の白人よりも、非武装の黒人が警察によって撃たれる可能性が高いという矛盾した結論が出された。 問題は、 '警察遭遇' のデータにのみ依存することによって、真のバイアスを隠蔽できる可能性があることだ。 このバイアスを説明するために因果ベイズ型ネットワークモデルを提案する。これは衝突型バイアスまたはバークソンのパラドックスと呼ばれ、異なる結論が同じモデルとデータからどのように生じるかを示す。 また,因果ベイズネットワークは,代替仮説やバイアスの説明を考えるための理想的定式化を提供することを示した。

Contradictory conclusions have been made about whether unarmed blacks are more likely to be shot by police than unarmed whites using the same data. The problem is that, by relying only on data of 'police encounters', there is the possibility that genuine bias can be hidden. We provide a causal Bayesian network model to explain this bias, which is called collider bias or Berkson's paradox, and show how the different conclusions arise from the same model and data. We also show that causal Bayesian networks provide the ideal formalism for considering alternative hypotheses and explanations of bias.
翻訳日:2022-11-09 23:52:57 公開日:2020-07-16
# 保守的aiと社会的不平等--社会理論によるバイアスの代替概念化

Conservative AI and social inequality: Conceptualizing alternatives to bias through social theory ( http://arxiv.org/abs/2007.08666v1 )

ライセンス: Link先を確認
Mike Zajko(参考訳) 本稿では,人工知能システムの開発,ガバナンス,研究において,社会科学と人文科学から学際的な関与を求める声に対して,アルゴリズムバイアスの問題と社会バイアスの再現に関する社会学者の見解を提案する。 aiにおけるバイアスの議論は、不平等を研究する社会学者がより具体的な用語と理論を使って長い間理解してきた概念的地形の多くをカバーしている。 社会バイアスの再現に対する懸念は、社会において不平等が継続的に再現される方法の理解によって知らされるべきである。 ここで提示されるコントラストは、AIに対する保守的なアプローチと急進的なアプローチの中間であり、保守主義は現状を再現し強化する支配的な傾向を指し、急進的なアプローチは不平等の体系的な形態を破壊する。 階級、性別、人種バイアスに対する保守的アプローチの限界は、これらの領域におけるバイアスが関連する社会構造やプロセスとともに、特定の例として議論される。 これらのシステムが人間の生活に与える影響を考えると、社会的な問題はもはやAIと機械学習の範囲外にはならない。 これは、偏見のあるデータを超えて不平等を永続する構造化された方法を分析し、急進的な代替案の可能性を高めるために、成長するAI奨学金の団体との関わりを必要とする。

In response to calls for greater interdisciplinary involvement from the social sciences and humanities in the development, governance, and study of artificial intelligence systems, this paper presents one sociologist's view on the problem of algorithmic bias and the reproduction of societal bias. Discussions of bias in AI cover much of the same conceptual terrain that sociologists studying inequality have long understood using more specific terms and theories. Concerns over reproducing societal bias should be informed by an understanding of the ways that inequality is continually reproduced in society -- processes that AI systems are either complicit in, or can be designed to disrupt and counter. The contrast presented here is between conservative and radical approaches to AI, with conservatism referring to dominant tendencies that reproduce and strengthen the status quo, while radical approaches work to disrupt systemic forms of inequality. The limitations of conservative approaches to class, gender, and racial bias are discussed as specific examples, along with the social structures and processes that biases in these areas are linked to. Societal issues can no longer be out of scope for AI and machine learning, given the impact of these systems on human lives. This requires engagement with a growing body of critical AI scholarship that goes beyond biased data to analyze structured ways of perpetuating inequality, opening up the possibility for radical alternatives.
翻訳日:2022-11-09 23:52:46 公開日:2020-07-16
# 多項式時間でランダムパリティゲームを解く

Solving Random Parity Games in Polynomial Time ( http://arxiv.org/abs/2007.08387v1 )

ライセンス: Link先を確認
Richard Combes and Mikael Touati(参考訳) ランダムなパリティゲームを解決する問題を考察する。 我々は、パリティゲームが$d_p$以上の位相遷移しきい値を示すことを証明し、ゲームを定義するグラフの次数が $d > d_p$ であるとき、ノード数が無限大となると高い確率でゲームを解く多項式時間アルゴリズムが存在することを証明する。 さらに,scp (self-winning cycles propagation) アルゴリズムを提案し,scpが十分に大きい場合には高い確率で解くことを示す。 さらに、SWCP の複雑性は多項式 $O\Big(|{\cal V}|^2 + |{\cal V}||{\cal E}|\Big)$ である。 swcpの設計は、プレイヤーの各サブグラフにおける特定の種類のサイクルの出現のしきい値に基づいている。 さらに、非スパースゲームは高い確率で時間$o(|{\cal v}|)$で解くことができ、$d=2$ ケースの硬さに関する推測を出力できることを示した。

We consider the problem of solving random parity games. We prove that parity games exibit a phase transition threshold above $d_P$, so that when the degree of the graph that defines the game has a degree $d > d_P$ then there exists a polynomial time algorithm that solves the game with high probability when the number of nodes goes to infinity. We further propose the SWCP (Self-Winning Cycles Propagation) algorithm and show that, when the degree is large enough, SWCP solves the game with high probability. Furthermore, the complexity of SWCP is polynomial $O\Big(|{\cal V}|^2 + |{\cal V}||{\cal E}|\Big)$. The design of SWCP is based on the threshold for the appearance of particular types of cycles in the players' respective subgraphs. We further show that non-sparse games can be solved in time $O(|{\cal V}|)$ with high probability, and emit a conjecture concerning the hardness of the $d=2$ case.
翻訳日:2022-11-09 23:52:21 公開日:2020-07-16
# TrashCan: 海藻の視覚的検出に向けたセマンティックセグメンテーションデータセット

TrashCan: A Semantically-Segmented Dataset towards Visual Detection of Marine Debris ( http://arxiv.org/abs/2007.08097v1 )

ライセンス: Link先を確認
Jungseok Hong, Michael Fulton, and Junaed Sattar(参考訳) 本論文は, 各種資料から収集した水中ゴミの画像からなる大規模データセットであるgascanを, 境界ボックスとセグメンテーションラベルを用いてアノテートし, 海洋ゴミのロバスト検出装置の開発を行った。 データセットには、異なるオブジェクトクラスの設定に対応する2つのバージョンがある。 最終的な目標は、ロボットの配置に適した効率的で正確なゴミ検出方法を開発することである。 TrashCanデータセットの構築とソーシングに関する情報とともに、Mask R-CNNからのインスタンスセグメンテーションとFaster R-CNNからのオブジェクト検出の初期結果を示す。 これらは最高の検出結果を示すものではないが、TrashCanデータセットのインスタンスセグメンテーションとオブジェクト検出における将来の作業のための最初のベースラインを提供する。

This paper presents TrashCan, a large dataset comprised of images of underwater trash collected from a variety of sources, annotated both using bounding boxes and segmentation labels, for development of robust detectors of marine debris. The dataset has two versions, TrashCan-Material and TrashCan-Instance, corresponding to different object class configurations. The eventual goal is to develop efficient and accurate trash detection methods suitable for onboard robot deployment. Along with information about the construction and sourcing of the TrashCan dataset, we present initial results of instance segmentation from Mask R-CNN and object detection from Faster R-CNN. These do not represent the best possible detection results but provides an initial baseline for future work in instance segmentation and object detection on the TrashCan dataset.
翻訳日:2022-11-09 23:51:44 公開日:2020-07-16
# 解剖学に基づく深部強化学習による3次元MRIにおける胎児のポーズの高次検出

Enhanced detection of fetal pose in 3D MRI by Deep Reinforcement Learning with physical structure priors on anatomy ( http://arxiv.org/abs/2007.08146v1 )

ライセンス: Link先を確認
Molin Zhang, Junshen Xu, Esra Abaci Turk, P. Ellen Grant, Polina Golland and Elfar Adalsteinsson(参考訳) 胎児mriは、画像アーティファクトを引き起こし、有効な画像コントラストのセットを制限する予測不能で実質的な胎児運動に強く制約されている。 動作アーティファクトの現在の緩和は、高速で単発のMRIと振り返りの動作補正によって主に実行される。 胎児運動がオンラインスライス処方と低レイテンシ意思決定を併用した胎児運動を検出・緩和するための将来的な方法として,MRIにおける胎児ポーズの推定が重要である。 近年の深部強化学習(DRL)は胎児のランドマーク検出に新しいアプローチを提供している。 このタスクでは、DRLにより15のランドマークを同時に検出するために15のエージェントが配置される。 最適化は困難であり,ここでは,胎児の物理的構造に先行するdrlの改良を提案する。 まず、各ノードが胎児のランドマークを表すグラフに基づいて、エージェント間の通信を改善するためにグラフ通信層を使用する。 また、身体構造を十分に活用するために、エージェントと胎児四肢などの身体構造との間の距離に基づく追加報酬を用いる。 生体内データの3mm解像度のレポジトリにおけるこの手法の評価は、10mmの地中真理の範囲内におけるランドマーク推定の平均精度が87.3%、平均誤差が6.9mmであることを示す。 胎児ポーズのランドマーク検索のためのDRLは、妊娠中の母親のMRIにおける健康診断と同様に、リアルタイムな運動の緩和を誘導する胎児の動きをオンラインで検出するための潜在的な臨床的有用性を示す。

Fetal MRI is heavily constrained by unpredictable and substantial fetal motion that causes image artifacts and limits the set of viable diagnostic image contrasts. Current mitigation of motion artifacts is predominantly performed by fast, single-shot MRI and retrospective motion correction. Estimation of fetal pose in real time during MRI stands to benefit prospective methods to detect and mitigate fetal motion artifacts where inferred fetal motion is combined with online slice prescription with low-latency decision making. Current developments of deep reinforcement learning (DRL), offer a novel approach for fetal landmarks detection. In this task 15 agents are deployed to detect 15 landmarks simultaneously by DRL. The optimization is challenging, and here we propose an improved DRL that incorporates priors on physical structure of the fetal body. First, we use graph communication layers to improve the communication among agents based on a graph where each node represents a fetal-body landmark. Further, additional reward based on the distance between agents and physical structures such as the fetal limbs is used to fully exploit physical structure. Evaluation of this method on a repository of 3-mm resolution in vivo data demonstrates a mean accuracy of landmark estimation within 10 mm of ground truth as 87.3%, and a mean error of 6.9 mm. The proposed DRL for fetal pose landmark search demonstrates a potential clinical utility for online detection of fetal motion that guides real-time mitigation of motion artifacts as well as health diagnosis during MRI of the pregnant mother.
翻訳日:2022-11-09 23:51:30 公開日:2020-07-16
# 注視による病理像の自己監督核分割

Self-Supervised Nuclei Segmentation in Histopathological Images Using Attention ( http://arxiv.org/abs/2007.08373v1 )

ライセンス: Link先を確認
Mihir Sahasrabudhe, Stergios Christodoulidis, Roberto Salgado, Stefan Michiels, Sherene Loi, Fabrice Andr\'e, Nikos Paragios, Maria Vakalopoulou(参考訳) 病理組織像における核のセグメンテーションと正確な局在化は非常に困難な問題であり、既存のアプローチでは教師あり戦略を採用している。 これらの方法は通常、医療専門家から多くの時間と労力を必要とする手動アノテーションに依存しています。 本研究では,スライス組織像全体に対する核分割の自己監督的アプローチを提案する。 本手法は,核の大きさとテクスチャがパッチ抽出時の拡大度を決定することができると仮定する。 タイルの倍率レベルを同定することで、予備的な自己超越信号を生成して核を特定できることを示す。 さらに,本モデルに適切に制約を加えることで,一次拡大識別タスクの補助出力として有意義なセグメンテーションマップを検索できることを示す。 実験の結果、標準後処理により、他の教師なし核セグメンテーションアプローチを上回ることができ、monusegデータセット上で教師なし核セグメンテーションと同等の性能を報告できることがわかった。 私たちのコードとモデルは、さらなる研究を促進するためにオンラインで利用できます。

Segmentation and accurate localization of nuclei in histopathological images is a very challenging problem, with most existing approaches adopting a supervised strategy. These methods usually rely on manual annotations that require a lot of time and effort from medical experts. In this study, we present a self-supervised approach for segmentation of nuclei for whole slide histopathology images. Our method works on the assumption that the size and texture of nuclei can determine the magnification at which a patch is extracted. We show that the identification of the magnification level for tiles can generate a preliminary self-supervision signal to locate nuclei. We further show that by appropriately constraining our model it is possible to retrieve meaningful segmentation maps as an auxiliary output to the primary magnification identification task. Our experiments show that with standard post-processing, our method can outperform other unsupervised nuclei segmentation approaches and report similar performance with supervised ones on the publicly available MoNuSeg dataset. Our code and models are available online to facilitate further research.
翻訳日:2022-11-09 23:50:32 公開日:2020-07-16
# ロボット手術における剛性3Dキャリブレーションの改善

Improving rigid 3D calibration for robotic surgery ( http://arxiv.org/abs/2007.08427v1 )

ライセンス: Link先を確認
Andrea Roberti, Nicola Piccinelli, Daniele Meli, Riccardo Muradore, Paolo Fiorini(参考訳) 自律性はロボット手術研究の最前線であり、その目的は、近い将来の外科手術の質を向上させることである。 自律性の基本的な要件は、視覚センサーによる高度な知覚能力である。 本稿では,da vinciロボットを用いた手術シナリオに対する新しいキャリブレーション手法を提案する。 高性能外科医をエミュレートするためには,カメラとロボットの校正が必要である。 我々の校正技術はRGB-Dカメラに向いている。 手術の適切な使用例について異なる試験を行った結果,手術サイズ設定における類似装置の術式ソリューションの精度と精度が有意に向上した。 また,本法を標準手術内視鏡に容易に拡張でき,実際の手術シナリオでの使用を促進できる。

Autonomy is the frontier of research in robotic surgery and its aim is to improve the quality of surgical procedures in the next future. One fundamental requirement for autonomy is advanced perception capability through vision sensors. In this paper, we propose a novel calibration technique for a surgical scenario with da Vinci robot. Calibration of the camera and the robot is necessary for precise positioning of the tools in order to emulate the high performance surgeons. Our calibration technique is tailored for RGB-D camera. Different tests performed on relevant use cases for surgery prove that we significantly improve precision and accuracy with respect to the state of the art solutions for similar devices on a surgical-size setup. Moreover, our calibration method can be easily extended to standard surgical endoscope to prompt its use in real surgical scenario.
翻訳日:2022-11-09 23:50:15 公開日:2020-07-16
# RetrieveGAN:微分パッチ検索による画像合成

RetrieveGAN: Image Synthesis via Differentiable Patch Retrieval ( http://arxiv.org/abs/2007.08513v1 )

ライセンス: Link先を確認
Hung-Yu Tseng, Hsin-Ying Lee, Lu Jiang, Ming-Hsuan Yang, Weilong Yang(参考訳) シーン記述からの画像生成は、制御された生成の基盤となる技術であり、コンテンツ作成や画像編集などのアプリケーションに有用である。 本研究では,抽出したパッチを参照として,シーン記述から画像を合成することを目的とする。 識別可能な検索モジュールを提案する。 差別化可能な検索モジュールを使用することで,(1)パイプライン全体をエンドツーエンドでトレーニング可能にし,検索のためのより優れた機能埋め込みの学習を可能にし,(2)目的関数の追加による相互互換性のあるパッチの選択を奨励する。 本研究では,提案手法が現実的かつ多様な画像を生成することができることを示すために,定量的・定性的な広範囲な実験を行った。

Image generation from scene description is a cornerstone technique for the controlled generation, which is beneficial to applications such as content creation and image editing. In this work, we aim to synthesize images from scene description with retrieved patches as reference. We propose a differentiable retrieval module. With the differentiable retrieval module, we can (1) make the entire pipeline end-to-end trainable, enabling the learning of better feature embedding for retrieval; (2) encourage the selection of mutually compatible patches with additional objective functions. We conduct extensive quantitative and qualitative experiments to demonstrate that the proposed method can generate realistic and diverse images, where the retrieved patches are reasonable and mutually compatible.
翻訳日:2022-11-09 23:45:04 公開日:2020-07-16
# ゴースト正規化の新しい見方

A New Look at Ghost Normalization ( http://arxiv.org/abs/2007.08554v1 )

ライセンス: Link先を確認
Neofytos Dimitriou, Ognjen Arandjelovic(参考訳) バッチ正規化(BatchNorm)は、ニューラルネットワーク最適化の有効な手法であるが、理解されていない手法である。 BatchNormの性能が小さいバッチサイズに低下したことは、小さなサンプルサイズを使って層統計を見積もる必要があることに起因するとしばしば仮定される。 しかし、最近、正規化のためにより小さなサンプルサイズを明示的に使用するBatchNormの亜種であるGhost normalization(GhostNorm)が、いくつかのデータセットでBatchNormに改善されていることが示されている。 私たちの貢献は (i)単にBatchNormの拡張ではなく、GhostNorm特有の正規化のソースを明らかにする。 (ii) 3種類のGhostNorm実装について述べ、そのうち2つはBatchNormを基礎となる正規化手法として採用している。 (三)GhostNormの損失景観を可視化することにより、GhostNormはBatchNormと比較して常に滑らかさを低下させる。 (4)シークエンシャル正規化(SeqNorm)を導入し,CIFAR--10およびCIFAR-100データセットの最先端手法よりも優れた性能を示す。

Batch normalization (BatchNorm) is an effective yet poorly understood technique for neural network optimization. It is often assumed that the degradation in BatchNorm performance to smaller batch sizes stems from it having to estimate layer statistics using smaller sample sizes. However, recently, Ghost normalization (GhostNorm), a variant of BatchNorm that explicitly uses smaller sample sizes for normalization, has been shown to improve upon BatchNorm in some datasets. Our contributions are: (i) we uncover a source of regularization that is unique to GhostNorm, and not simply an extension from BatchNorm, (ii) three types of GhostNorm implementations are described, two of which employ BatchNorm as the underlying normalization technique, (iii) by visualising the loss landscape of GhostNorm, we observe that GhostNorm consistently decreases the smoothness when compared to BatchNorm, (iv) we introduce Sequential Normalization (SeqNorm), and report superior performance over state-of-the-art methodologies on both CIFAR--10 and CIFAR--100 datasets.
翻訳日:2022-11-09 23:44:51 公開日:2020-07-16
# InfoFocus:動的情報モデリングによる自律走行のための3次元物体検出

InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic Information Modeling ( http://arxiv.org/abs/2007.08556v1 )

ライセンス: Link先を確認
Jun Wang, Shiyi Lan, Mingfei Gao, Larry S. Davis(参考訳) 自動運転車にはリアルタイム3dオブジェクト検出が不可欠だ。 高効率で有望なパフォーマンスを実現するために、voxelベースのアプローチが注目されている。 しかし、従来の手法は、点雲が一般に一様ではないことを考慮せずに、均等に分割された部分領域から特徴を抽出した入力空間をモデル化する。 そこで本稿では,動的情報モデリングを用いた新しい3次元物体検出フレームワークを提案する。 提案するフレームワークは粗大に設計されている。 第1段階では、voxelベースの地域提案ネットワークを介して粗い予測が生成される。 我々は,ポイントクラウド密度情報に導かれる特徴を適応的に洗練することにより,粗い検出を改善するインフォフォーカスを導入する。 大規模なnuScenes 3D検出ベンチマークで実験を行った。 その結果,本フレームワークは31FPSで最先端性能を実現し,nuScenesテストセットで9.0%のmAP向上を実現した。

Real-time 3D object detection is crucial for autonomous cars. Achieving promising performance with high efficiency, voxel-based approaches have received considerable attention. However, previous methods model the input space with features extracted from equally divided sub-regions without considering that point cloud is generally non-uniformly distributed over the space. To address this issue, we propose a novel 3D object detection framework with dynamic information modeling. The proposed framework is designed in a coarse-to-fine manner. Coarse predictions are generated in the first stage via a voxel-based region proposal network. We introduce InfoFocus, which improves the coarse detections by adaptively refining features guided by the information of point cloud density. Experiments are conducted on the large-scale nuScenes 3D detection benchmark. Results show that our framework achieves the state-of-the-art performance with 31 FPS and improves our baseline significantly by 9.0% mAP on the nuScenes test set.
翻訳日:2022-11-09 23:44:28 公開日:2020-07-16
# 細粒度分類作業におけるカメラバイアス

Camera Bias in a Fine Grained Classification Task ( http://arxiv.org/abs/2007.08574v1 )

ライセンス: Link先を確認
Philip T. Jackson, Stephen Bonner, Ning Jia, Christopher Holder, Jon Stonehouse, Boguslaw Obara(参考訳) 画像取得に使用されるカメラと画像のクラスラベルとの相関関係は畳み込みニューラルネットワーク(CNN)によって利用でき、その結果、どのカメラが画像を取り込んだかを認識して、クラスラベルをカメラから推論することで、画像分類タスクで「焼く」モデルが得られることを示す。 カメラとラベルの相関関係を持つデータセット上で訓練されたモデルは、それらの相関関係が欠如している画像や、未知のカメラの画像によく当てはまらないことを示す。 さらに、カメラ認識に利用する視覚的特徴について検討する。 実験では,グローバルカラー統計,レンズ変形,彩色収差の重要性,およびカメラに内蔵された画像処理アルゴリズムによって導入される高周波数特性について検証した。

We show that correlations between the camera used to acquire an image and the class label of that image can be exploited by convolutional neural networks (CNN), resulting in a model that "cheats" at an image classification task by recognizing which camera took the image and inferring the class label from the camera. We show that models trained on a dataset with camera / label correlations do not generalize well to images in which those correlations are absent, nor to images from unencountered cameras. Furthermore, we investigate which visual features they are exploiting for camera recognition. Our experiments present evidence against the importance of global color statistics, lens deformation and chromatic aberration, and in favor of high frequency features, which may be introduced by image processing algorithms built into the cameras.
翻訳日:2022-11-09 23:43:38 公開日:2020-07-16
# ステレオ映像からのリアルタイム表面変形回復

Real-time Surface Deformation Recovery from Stereo Videos ( http://arxiv.org/abs/2007.08576v1 )

ライセンス: Link先を確認
Haoyin Zhou, Jagadeesan Jayender(参考訳) 手術時の組織変形は手術ナビゲーションシステムの精度を著しく低下させる可能性がある。 本稿では, 咬合, 滑らかな表面, 高速変形を処理できるステレオ映像から組織表面の変形をリアルタイムに推定する手法を提案する。 まず,ステレオビデオフレームから深度情報を抽出して組織テンプレートを生成し,icp,orb特徴マッチング,as-rigid-as-possible (arap)コストを最小化し,得られたテンプレートの変形を推定するステレオマッチング手法を提案する。 まず,(1)非剛性変形のため,従来のransac法では特徴マッチングアウトリアーの除去が困難であるため,滑らかな面と高速変形を扱うマッチングイナリアを事前に選択する,新しい1点ransacおよび再重み付け法を提案する。 2) 制御点間の密接な接続に基づく新しいarapコスト関数を提案する。 アルゴリズムはGPU並列コンピューティング用に設計および実装されている。 元とインビボのデータの実験によると、このアプローチはNVIDIA Titan X GPUで2.5mm未満の精度で15Hzの更新速度で動作する。

Tissue deformation during the surgery may significantly decrease the accuracy of surgical navigation systems. In this paper, we propose an approach to estimate the deformation of tissue surface from stereo videos in real-time, which is capable of handling occlusion, smooth surface and fast deformation. We first use a stereo matching method to extract depth information from stereo video frames and generate the tissue template, and then estimate the deformation of the obtained template by minimizing ICP, ORB feature matching and as-rigid-as-possible (ARAP) costs. The main novelties are twofold: (1) Due to non-rigid deformation, feature matching outliers are difficult to be removed by traditional RANSAC methods; therefore we propose a novel 1-point RANSAC and reweighting method to preselect matching inliers, which handles smooth surfaces and fast deformations. (2) We propose a novel ARAP cost function based on dense connections between the control points to achieve better smoothing performance with limited number of iterations. Algorithms are designed and implemented for GPU parallel computing. Experiments on ex- and in vivo data showed that this approach works at an update rate of 15Hz with an accuracy of less than 2.5 mm on a NVIDIA Titan X GPU.
翻訳日:2022-11-09 23:43:22 公開日:2020-07-16
# 異常値を扱うための再重み付けと1点ransacベースのpnpソリューション

Re-weighting and 1-Point RANSAC-Based PnP Solution to Handle Outliers ( http://arxiv.org/abs/2007.08577v1 )

ライセンス: Link先を確認
Haoyin Zhou, Tao Zhang, Jagadeesan Jayender(参考訳) 異常値を扱う能力は、実際応用においてpnp(pointer-n-point)アプローチを実行するのに不可欠であるが、従来のransac+p3pまたはp4p法は高い時間的複雑度を持つ。 ソフトな再重み付け機構と1点RANSAC方式を用いて, 異常値を扱う高速PnPソリューションR1PPnPを提案する。 まず,pnp問題の解法としてr1ppnpの核となるpnpアルゴリズムを提案する。 コアアルゴリズムは、ランダム制御ポイントで実行される目的関数を最小化する最適プロセスである。 次に, 異常値の影響を低減するため, 再投影誤差に基づく再重み付け法を提案し, コアアルゴリズムに統合する。 最後に、異なる制御点を試すために1点RANSAC方式を用いる。 合成および実世界のデータを用いた実験では、R1PPnPがRANSAC+P3P法やP4P法よりも高速であることが示されている。 さらに、外れ値のない合成データと比較すると、R1PPnPは最も正確で高速なPnP溶液の1つであり、通常はRANSAC+P3PまたはP4Pの最終精製ステップとして機能する。 現状のPnPアルゴリズムであるREPPnPと比較して、R1PPnPは遅いが、REPPnPとして外周制限の比率に苦しむことはない。

The ability to handle outliers is essential for performing the perspective-n-point (PnP) approach in practical applications, but conventional RANSAC+P3P or P4P methods have high time complexities. We propose a fast PnP solution named R1PPnP to handle outliers by utilizing a soft re-weighting mechanism and the 1-point RANSAC scheme. We first present a PnP algorithm, which serves as the core of R1PPnP, for solving the PnP problem in outlier-free situations. The core algorithm is an optimal process minimizing an objective function conducted with a random control point. Then, to reduce the impact of outliers, we propose a reprojection error-based re-weighting method and integrate it into the core algorithm. Finally, we employ the 1-point RANSAC scheme to try different control points. Experiments with synthetic and real-world data demonstrate that R1PPnP is faster than RANSAC+P3P or P4P methods especially when the percentage of outliers is large, and is accurate. Besides, comparisons with outlier-free synthetic data show that R1PPnP is among the most accurate and fast PnP solutions, which usually serve as the final refinement step of RANSAC+P3P or P4P. Compared with REPPnP, which is the state-of-the-art PnP algorithm with an explicit outliers-handling mechanism, R1PPnP is slower but does not suffer from the percentage of outliers limitation as REPPnP.
翻訳日:2022-11-09 23:43:01 公開日:2020-07-16
# SiamParseNet:幼児運動ビデオにおける共同身体解析とラベル伝播

SiamParseNet: Joint Body Parsing and Label Propagation in Infant Movement Videos ( http://arxiv.org/abs/2007.08646v1 )

ライセンス: Link先を確認
Haomiao Ni, Yuan Xue, Qian Zhang, Xiaolei Huang(参考訳) 乳児運動ビデオ(IMV)の一般運動評価(GMA)は、乳幼児の脳性麻痺(CP)の早期発見に有効な方法である。 自動身体解析はコンピュータ支援GMAに向けた重要なステップであり、幼児の身体の部位を時間とともに分割して追跡し、運動分析を行う。 しかし、imvのフレーム数が多いため、ビデオベースのボディ解析のための完全に注釈付きデータを取得することは特に高価である。 本稿では,SiamParseNet(SPN)と呼ばれる半教師付きボディパーシングモデルを提案する。 siamese-structured spnは、共有特徴エンコーダと、フレーム内ボディ部分セグメンテーション用とフレーム間ラベル伝搬用という2つの別々のブランチで構成される。 2つのブランチは共同でトレーニングされ、入力と同じビデオからペアのフレームを取ります。 ラベル付きフレームのみの入力ペアとラベル付きフレームとラベル付きフレームの両方の入力とでトレーニングモードを交互に使用する適応型トレーニングプロセスを提案する。 テストでは、マルチソース推論機構を採用し、テストフレームの最終結果がセグメンテーションブランチまたは近くのキーフレームからの伝搬を介して取得される。 提案手法の有効性を実証するために,spnがすべての先行技術を上回る部分ラベルipvデータセットを広範囲に実験した。

General movement assessment (GMA) of infant movement videos (IMVs) is an effective method for the early detection of cerebral palsy (CP) in infants. Automated body parsing is a crucial step towards computer-aided GMA, in which infant body parts are segmented and tracked over time for movement analysis. However, acquiring fully annotated data for video-based body parsing is particularly expensive due to the large number of frames in IMVs. In this paper, we propose a semi-supervised body parsing model, termed SiamParseNet (SPN), to jointly learn single frame body parsing and label propagation between frames in a semi-supervised fashion. The Siamese-structured SPN consists of a shared feature encoder, followed by two separate branches: one for intra-frame body parts segmentation, and one for inter-frame label propagation. The two branches are trained jointly, taking pairs of frames from the same videos as their input. An adaptive training process is proposed that alternates training modes between using input pairs of only labeled frames and using inputs of both labeled and unlabeled frames. During testing, we employ a multi-source inference mechanism, where the final result for a test frame is either obtained via the segmentation branch or via propagation from a nearby key frame. We conduct extensive experiments on a partially-labeled IMV dataset where SPN outperforms all prior arts, demonstrating the effectiveness of our proposed method.
翻訳日:2022-11-09 23:42:33 公開日:2020-07-16
# ステレオビデオによる組織表面のリアルタイム密度再構成

Real-time Dense Reconstruction of Tissue Surface from Stereo Optical Video ( http://arxiv.org/abs/2007.12623v1 )

ライセンス: Link先を確認
Haoyin Zhou, Jagadeesan Jayender(参考訳) 本研究では,立体光学映像から組織表面の密集した3次元モデル(3次元)をリアルタイムに再構成する手法を提案し,ステレオマッチングを用いてまず映像フレームから3次元情報を抽出し,その再構成した3次元モデルをモザイク化する。 組織表面上の共通の低テクスチャ領域を扱うために, 局所ステレオマッチング法において, 異常除去, ホール充填, 平滑化など, 制約半径を拡大するための効果的な後処理手順を提案する。 ステレオマッチングにより得られた組織モデルはイメージングモダリティの視野に制限されるため,新しい特徴量に基づく同時局在化マッピング(slam)法を用いてモデルモザイク化手法を提案する。 低テクスチャ領域と様々な照明条件は、多くの特徴マッチングアウトレイラをもたらす可能性がある。 この問題を解決するために,(1)特徴マッチング結果から可能なイリアーを大まかに選択するヒストグラム投票に基づく手法,(2)カメラ動作を追跡するdynamicr1pp$n$pと呼ばれる新しい1点ransacベースのp$n$pアルゴリズム,(3)カメラ動作推定結果を洗練するためのgpuベースの反復的最接近点(icp)とバンドル調整(ba)法など,slamのロバスト性を改善するアルゴリズムを提案する。 2mm未満の精度で高分解能テクスチャを有する復元3Dモデルについて, 生体内および生体内データによる実験結果を得た。 ほとんどのアルゴリズムはgpu計算のために高度に並列化されており、1つのキーフレームを処理する平均ランタイムは960x540解像度のステレオ画像上で76.3msである。

We propose an approach to reconstruct dense three-dimensional (3D) model of tissue surface from stereo optical videos in real-time, the basic idea of which is to first extract 3D information from video frames by using stereo matching, and then to mosaic the reconstructed 3D models. To handle the common low texture regions on tissue surfaces, we propose effective post-processing steps for the local stereo matching method to enlarge the radius of constraint, which include outliers removal, hole filling and smoothing. Since the tissue models obtained by stereo matching are limited to the field of view of the imaging modality, we propose a model mosaicking method by using a novel feature-based simultaneously localization and mapping (SLAM) method to align the models. Low texture regions and the varying illumination condition may lead to a large percentage of feature matching outliers. To solve this problem, we propose several algorithms to improve the robustness of SLAM, which mainly include (1) a histogram voting-based method to roughly select possible inliers from the feature matching results, (2) a novel 1-point RANSAC-based P$n$P algorithm called as DynamicR1PP$n$P to track the camera motion and (3) a GPU-based iterative closest points (ICP) and bundle adjustment (BA) method to refine the camera motion estimation results. Experimental results on ex- and in vivo data showed that the reconstructed 3D models have high resolution texture with an accuracy error of less than 2 mm. Most algorithms are highly parallelized for GPU computation, and the average runtime for processing one key frame is 76.3 ms on stereo images with 960x540 resolution.
翻訳日:2022-11-09 23:41:51 公開日:2020-07-16
# 神経-内視鏡-トレーナー-オンラインアセスメントシステム(NET-OAS)

Neuro-Endo-Trainer-Online Assessment System (NET-OAS) for Neuro-Endoscopic Skills Training ( http://arxiv.org/abs/2007.08378v1 )

ライセンス: Link先を確認
Vinkle Srivastav, Britty Baby, Ramandeep Singh, Prem Kalra, Ashish Suri(参考訳) 神経内視鏡は、既存の見習いモデルとは異なる訓練方法を用いて外科的スキルを取得することを必要とする、最小限の侵襲的神経外科手術である。 腹腔鏡の基本的な技術スキルを付与する訓練システムとして,神経内視鏡の限られたシステムとして開発されている。 Neuro-Endo-Trainer(ニューロ・エンド・トレーナー)は、ビデオによるオフライン評価システムを用いた内鼻経皮的外科的スキルトレーニング用に開発されたボックストレーナーである。 本研究の目的は、オンライン評価とリアルタイムフィードバックを備えたスタンドアロンシステムを提供することにより、修正版(Neuro-Endo-Trainer-Online Assessment System (NET-OAS))を開発することである。 初級者15名を対象にした検証研究は, 選別・選別活動を行いながら, 神経内視鏡とツールの取扱いにおける技術力の向上を示すものである。

Neuro-endoscopy is a challenging minimally invasive neurosurgery that requires surgical skills to be acquired using training methods different from the existing apprenticeship model. There are various training systems developed for imparting fundamental technical skills in laparoscopy where as limited systems for neuro-endoscopy. Neuro-Endo-Trainer was a box-trainer developed for endo-nasal transsphenoidal surgical skills training with video based offline evaluation system. The objective of the current study was to develop a modified version (Neuro-Endo-Trainer-Online Assessment System (NET-OAS)) by providing a stand-alone system with online evaluation and real-time feedback. The validation study on a group of 15 novice participants shows the improvement in the technical skills for handling the neuro-endoscope and the tool while performing pick and place activity.
翻訳日:2022-11-09 23:35:19 公開日:2020-07-16
# 浅層顔学習のためのセミシアム学習

Semi-Siamese Training for Shallow Face Learning ( http://arxiv.org/abs/2007.08398v1 )

ライセンス: Link先を確認
Hang Du, Hailin Shi, Yuchi Liu, Jun Wang, Zhen Lei, Dan Zeng, Tao Mei(参考訳) MS-Celeb-1MやVGGFace2のような既存の公開顔データセットは、トレーニング用の幅(大きなID数)と深さ(十分なサンプル数)の両方で豊富な情報を提供する。 しかし、現実の顔認識の多くのシナリオでは、トレーニングデータセットは深さが限られており、各IDに対して2つの顔画像しか利用できない。 私たちはこの状況を浅い顔学習と定義し、既存のトレーニング方法に問題があることに気付きました。 ディープフェイスデータとは異なり、浅い顔データにはクラス内多様性が欠けている。 これにより特徴次元の崩壊を招き、学習ネットワークは崩壊次元の劣化や過度な適合に容易に苦しむことができる。 本稿では,SST(Semi-Siamese Training)と呼ばれる新しいトレーニング手法を導入することで,この問題に対処することを目的とする。 一対のセミ・シームズネットワークが前方伝播構造を構成し、トレーニング損失を更新ギャラリーキューで計算し、浅いトレーニングデータに対して効果的な最適化を行う。 提案手法は外部依存なしに開発され,既存の損失関数やネットワークアーキテクチャと柔軟に統合することができる。 提案手法は, 浅層学習だけでなく, 従来型深層顔データにおいても, 大規模に評価実験を行った結果, トレーニング精度が大幅に向上した。

Most existing public face datasets, such as MS-Celeb-1M and VGGFace2, provide abundant information in both breadth (large number of IDs) and depth (sufficient number of samples) for training. However, in many real-world scenarios of face recognition, the training dataset is limited in depth, i.e. only two face images are available for each ID. $\textit{We define this situation as Shallow Face Learning, and find it problematic with existing training methods.}$ Unlike deep face data, the shallow face data lacks intra-class diversity. As such, it can lead to collapse of feature dimension and consequently the learned network can easily suffer from degeneration and over-fitting in the collapsed dimension. In this paper, we aim to address the problem by introducing a novel training method named Semi-Siamese Training (SST). A pair of Semi-Siamese networks constitute the forward propagation structure, and the training loss is computed with an updating gallery queue, conducting effective optimization on shallow training data. Our method is developed without extra-dependency, thus can be flexibly integrated with the existing loss functions and network architectures. Extensive experiments on various benchmarks of face recognition show the proposed method significantly improves the training, not only in shallow face learning, but also for conventional deep face data.
翻訳日:2022-11-09 23:35:04 公開日:2020-07-16
# CNNを用いた大気乱流による単一顔画像の復元学習

Learning to Restore a Single Face Image Degraded by Atmospheric Turbulence using CNNs ( http://arxiv.org/abs/2007.08404v1 )

ライセンス: Link先を確認
Rajeev Yasarla, Vishal M Patel(参考訳) 大気の乱流は、長い大気の経路を伝播した光を使用する撮像システムに大きく影響する。 このような条件下で撮影された画像は、幾何学的変形と空間変化のぼやけの組み合わせに苦しむ。 本稿では,2つの異なるネットワークを用いて,顔画像の各位置における幾何歪みとぼやけの量に関する事前情報を推定する,乱流劣化顔画像の復元問題に対する深層学習に基づく解を提案する。 推定された事前情報は、乱歪除去ネットワーク(TDRN)と呼ばれるネットワークによって、幾何学的歪みを補正し、顔画像のぼやけを低減するために使用される。 さらに,TDRNのトレーニングにおいて,第1次および第2次画像勾配と信頼性マップを併用することで乱流劣化の影響を緩和する新たな損失を提案する。 合成顔画像と実顔画像の総合的な実験により, この枠組みは大気乱流によるぼやけや幾何学的歪みを緩和し, 視覚的品質を著しく向上することを示した。 また,提案手法における異なるモジュールによる改善を示すため,アブレーション実験を行った。

Atmospheric turbulence significantly affects imaging systems which use light that has propagated through long atmospheric paths. Images captured under such condition suffer from a combination of geometric deformation and space varying blur. We present a deep learning-based solution to the problem of restoring a turbulence-degraded face image where prior information regarding the amount of geometric distortion and blur at each location of the face image is first estimated using two separate networks. The estimated prior information is then used by a network called, Turbulence Distortion Removal Network (TDRN), to correct geometric distortion and reduce blur in the face image. Furthermore, a novel loss is proposed to train TDRN where first and second order image gradients are computed along with their confidence maps to mitigate the effect of turbulence degradation. Comprehensive experiments on synthetic and real face images show that this framework is capable of alleviating blur and geometric distortion caused by atmospheric turbulence, and significantly improves the visual quality. In addition, an ablation study is performed to demonstrate the improvements obtained by different modules in the proposed method.
翻訳日:2022-11-09 23:34:43 公開日:2020-07-16
# カテゴリー6次元物体ポーズの形状事前変形と寸法推定

Shape Prior Deformation for Categorical 6D Object Pose and Size Estimation ( http://arxiv.org/abs/2007.08454v1 )

ライセンス: Link先を確認
Meng Tian, Marcelo H Ang Jr, Gim Hee Lee(参考訳) RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。 クラス内形状変化に対処するために,事前学習したカテゴリ形状からの変形を明示的にモデル化して3次元物体モデルを構築するディープネットワークを提案する。 さらに,本ネットワークは,オブジェクトの深度観測と再構成された3次元モデルとの密接な対応関係を推定し,その6次元オブジェクトのポーズとサイズを共同で推定する。 対象モデルの集合を訓練するオートエンコーダを設計し,各カテゴリの平均潜埋込みを計算してカテゴリ形状を事前に学習する。 人工と実世界の両方のデータセットに対する大規模な実験は、我々のアプローチが芸術の状態を著しく上回ることを示した。 私たちのコードはhttps://github.com/mentian/object-deformnetで利用可能です。

We present a novel learning approach to recover the 6D poses and sizes of unseen object instances from an RGB-D image. To handle the intra-class shape variation, we propose a deep network to reconstruct the 3D object model by explicitly modeling the deformation from a pre-learned categorical shape prior. Additionally, our network infers the dense correspondences between the depth observation of the object instance and the reconstructed 3D model to jointly estimate the 6D object pose and size. We design an autoencoder that trains on a collection of object models and compute the mean latent embedding for each category to learn the categorical shape priors. Extensive experiments on both synthetic and real-world datasets demonstrate that our approach significantly outperforms the state of the art. Our code is available at https://github.com/mentian/object-deformnet.
翻訳日:2022-11-09 23:34:06 公開日:2020-07-16
# アクティブファインチューニングネットワークを用いたマルチソースリモートセンシングデータの車両検出

Vehicle Detection of Multi-source Remote Sensing Data Using Active Fine-tuning Network ( http://arxiv.org/abs/2007.08494v1 )

ライセンス: Link先を確認
Xin Wu and Wei Li and Danfeng Hong and Jiaojiao Tian and Ran Tao and Qian Du(参考訳) 近年,リモートセンシング画像における車両検出が注目されている。 しかし、特に密集したシーンでは、よく注釈されたサンプルが不足しているため、検出能力は限られている。 さらに、リモートセンシングされたデータソースのリストが利用可能であるため、車両検出を改善するために、マルチソースデータからの有用な情報の効率的な活用が困難である。 上記の課題を解決するために,移動学習,セグメンテーション,アクティブな分類を自動ラベル付けと検出のための統合フレームワークに統合したマルチソースアクティブ微調整車両検出(Ms-AFt)フレームワークを提案する。 提案するms-aftは、微調整ネットワークを用いて、ラベルなしデータセットから最初に車両トレーニングセットを生成する。 車両カテゴリの多様性に対処するため、複数ソースベースセグメンテーションブランチは、追加の候補オブジェクトセットを構築するように設計されている。 設計された注意分類ネットワークにより高品質車両の分離を実現する。 最後に、3つの枝を組み合わせて車両検出を行う。 2つのオープンisprsベンチマークデータセット(vaihingen villageとpotsdam city dataset)で行った広範な実験の結果は、提案するms-aftの車両検出における優位性と有効性を示している。 さらに,大規模キャンプ場のステレオ空中画像において,高密度リモートセンシングシーンにおけるMs-AFtの一般化能力について検証した。

Vehicle detection in remote sensing images has attracted increasing interest in recent years. However, its detection ability is limited due to lack of well-annotated samples, especially in densely crowded scenes. Furthermore, since a list of remotely sensed data sources is available, efficient exploitation of useful information from multi-source data for better vehicle detection is challenging. To solve the above issues, a multi-source active fine-tuning vehicle detection (Ms-AFt) framework is proposed, which integrates transfer learning, segmentation, and active classification into a unified framework for auto-labeling and detection. The proposed Ms-AFt employs a fine-tuning network to firstly generate a vehicle training set from an unlabeled dataset. To cope with the diversity of vehicle categories, a multi-source based segmentation branch is then designed to construct additional candidate object sets. The separation of high quality vehicles is realized by a designed attentive classifications network. Finally, all three branches are combined to achieve vehicle detection. Extensive experimental results conducted on two open ISPRS benchmark datasets, namely the Vaihingen village and Potsdam city datasets, demonstrate the superiority and effectiveness of the proposed Ms-AFt for vehicle detection. In addition, the generalization ability of Ms-AFt in dense remote sensing scenes is further verified on stereo aerial imagery of a large camping site.
翻訳日:2022-11-09 23:33:34 公開日:2020-07-16
# 無注画像コレクションからの暗黙的メッシュ再構成

Implicit Mesh Reconstruction from Unannotated Image Collections ( http://arxiv.org/abs/2007.08504v1 )

ライセンス: Link先を確認
Shubham Tulsiani, Nilesh Kulkarni, Abhinav Gupta(参考訳) 本稿では,前景マスクを用いたカテゴリレベルの画像収集のみを監督として,単一のrgb画像から物体の3次元形状,テクスチャ,カメラポーズを推定する手法を提案する。 この形状を画像条件付暗黙関数として表現し、球面を予測メッシュの表面に変換するとともに、対応するテクスチャを予測する。 学習のための監視シグナルを導出するために、我々は次のように実施する。 a) レンダリング時の予測は、利用可能な画像証拠を説明し、 b) 推定された3次元構造は、学習した画素と表面マッピングとの幾何学的整合性を有するべきである。 我々は、我々のアプローチが、同様の監督を利用する以前の作業よりも改善され、実際、より強力な監督を利用する手法と競争的に機能することを示す。 最後に,本手法が限定的な指導力で学習を可能にするため,約30の対象カテゴリに対して,その適用性を質的に実証する。

We present an approach to infer the 3D shape, texture, and camera pose for an object from a single RGB image, using only category-level image collections with foreground masks as supervision. We represent the shape as an image-conditioned implicit function that transforms the surface of a sphere to that of the predicted mesh, while additionally predicting the corresponding texture. To derive supervisory signal for learning, we enforce that: a) our predictions when rendered should explain the available image evidence, and b) the inferred 3D structure should be geometrically consistent with learned pixel to surface mappings. We empirically show that our approach improves over prior work that leverages similar supervision, and in fact performs competitively to methods that use stronger supervision. Finally, as our method enables learning with limited supervision, we qualitatively demonstrate its applicability over a set of about 30 object categories.
翻訳日:2022-11-09 23:33:10 公開日:2020-07-16
# RepPoints V2: オブジェクト検出の回帰を検証

RepPoints V2: Verification Meets Regression for Object Detection ( http://arxiv.org/abs/2007.08508v1 )

ライセンス: Link先を確認
Yihong Chen, Zheng Zhang, Yue Cao, Liwei Wang, Stephen Lin, Han Hu(参考訳) 検証と回帰は、ニューラルネットワークにおける予測の2つの一般的な方法である。 検証は正確に推測しやすくなり、回帰はより効率的で、継続的なターゲット変数に適用できる。 したがって、それらを慎重に組み合わせて利益を享受することがしばしば有益である。 本稿では、RepPointsによる最先端のオブジェクト検出を改善するために、この哲学を考察する。 RepPointsは高い性能を提供するが、オブジェクトローカライゼーションの回帰に大きく依存しているため、改善の余地がある。 本稿では,reppointの局所化予測に検証タスクを導入し,reppoints v2を生成し,異なるバックボーンとトレーニング手法を用いたcocoオブジェクト検出ベンチマークのオリジナルreppointよりも約2.0マップに一貫性のある改善を提供する。 RepPoints v2はまた、1つのモデルでCOCO \texttt{test-dev}上で52.1 mAPを達成する。 さらに,提案手法がより汎用的に他のオブジェクト検出フレームワークやインスタンスセグメンテーションなどのアプリケーションにも適用可能であることを示す。 コードはhttps://github.com/scalsol/reppointsv2で入手できる。

Verification and regression are two general methodologies for prediction in neural networks. Each has its own strengths: verification can be easier to infer accurately, and regression is more efficient and applicable to continuous target variables. Hence, it is often beneficial to carefully combine them to take advantage of their benefits. In this paper, we take this philosophy to improve state-of-the-art object detection, specifically by RepPoints. Though RepPoints provides high performance, we find that its heavy reliance on regression for object localization leaves room for improvement. We introduce verification tasks into the localization prediction of RepPoints, producing RepPoints v2, which provides consistent improvements of about 2.0 mAP over the original RepPoints on the COCO object detection benchmark using different backbones and training methods. RepPoints v2 also achieves 52.1 mAP on COCO \texttt{test-dev} by a single model. Moreover, we show that the proposed approach can more generally elevate other object detection frameworks as well as applications such as instance segmentation. The code is available at https://github.com/Scalsol/RepPointsV2.
翻訳日:2022-11-09 23:32:56 公開日:2020-07-16
# 世界一貫性のあるビデオからビデオへの合成

World-Consistent Video-to-Video Synthesis ( http://arxiv.org/abs/2007.08509v1 )

ライセンス: Link先を確認
Arun Mallya, Ting-Chun Wang, Karan Sapra, Ming-Yu Liu(参考訳) ビデオ間合成(vid2vid)は、高レベルなセマンティックインプットをフォトリアリスティックなビデオに変換することを目的としている。 既存のvid2vidメソッドは短期的一貫性を実現することができるが、長期的な一貫性を保証することはできない。 これは3dワールドがレンダリングされ、過去数フレームのみに基づいて各フレームを生成するという知識が欠けているためである。 そこで本研究では,過去生成したフレームを効率的に効果的に活用する新しいvid2vidフレームワークを提案する。 これは、これまでにレンダリングされた3d世界を現在のフレームの物理的接地推定に凝縮することで実現されます。 さらに、ガイダンス画像に格納された情報を活用する新しいニューラルネットワークアーキテクチャを提案する。 いくつかの挑戦的なデータセットに関する広範囲な実験結果は、世界一貫性を達成するためのアプローチの有効性を検証するものです。 https://nvlabs.github.io/wc-vid2vid/

Video-to-video synthesis (vid2vid) aims for converting high-level semantic inputs to photorealistic videos. While existing vid2vid methods can achieve short-term temporal consistency, they fail to ensure the long-term one. This is because they lack knowledge of the 3D world being rendered and generate each frame only based on the past few frames. To address the limitation, we introduce a novel vid2vid framework that efficiently and effectively utilizes all past generated frames during rendering. This is achieved by condensing the 3D world rendered so far into a physically-grounded estimate of the current frame, which we call the guidance image. We further propose a novel neural network architecture to take advantage of the information stored in the guidance images. Extensive experimental results on several challenging datasets verify the effectiveness of our approach in achieving world consistency - the output video is consistent within the entire rendered 3D world. https://nvlabs.github.io/wc-vid2vid/
翻訳日:2022-11-09 23:32:35 公開日:2020-07-16
# 画像内外観類似性を利用した高能率フルイメージインタラクティブセグメンテーション

Efficient Full Image Interactive Segmentation by Leveraging Within-image Appearance Similarity ( http://arxiv.org/abs/2007.08173v1 )

ライセンス: Link先を確認
Mykhaylo Andriluka, Stefano Pellegrini, Stefan Popov, Vittorio Ferrari(参考訳) 従来は認識されていなかった意味クラスで新しいデータセットのトレーニングデータを迅速に収集できるインタラクティブなフルイメージセマンティクスセグメンテーションへの新しいアプローチを提案する(デモはhttps://youtu.be/yuk8d5gex-oで利用可能)。 ラベル付き画素からラベルなしピクセルへの伝搬は必ずしもクラス固有の知識を必要としないが、画像内の外観的類似性に基づいて純粋に行うことができる。 我々は,この観測に基づいて,クラス固有の外観モデルを持たない複数のクラスから画素ラベルを共同で伝播する手法を提案する。 長距離伝搬を実現するため,画像全体にわたってラベル付き画素とラベルなし画素の外観類似性を測定する。 そして、局所的にピクセル単位の測定を統合し、境界における精度を改善し、同質領域におけるノイズの多いラベルスイッチを除去する。 また,従来のポリゴン描画ツールを便利な機能群で拡張し,自動的なプロパゲーションを付加する,効率的な手動アノテーションインタフェースを設計する。 COCO Panoptic Challengeデータセットのアノテータを用いた実験により、より優れた手動インタフェースと新しい自動伝搬機構を組み合わせることで、ポリゴン描画と比較してアノテーション時間を2倍以上短縮できることが示された。 また,ade-20k と fashionista のデータセットでテストを行い,データセット固有の適応やモデルの再トレーニングを行わず,新たなデータセットやビジュアルクラスに一般化できることを実証した。

We propose a new approach to interactive full-image semantic segmentation which enables quickly collecting training data for new datasets with previously unseen semantic classes (A demo is available at https://youtu.be/yUk8D5gEX-o). We leverage a key observation: propagation from labeled to unlabeled pixels does not necessarily require class-specific knowledge, but can be done purely based on appearance similarity within an image. We build on this observation and propose an approach capable of jointly propagating pixel labels from multiple classes without having explicit class-specific appearance models. To enable long-range propagation, our approach first globally measures appearance similarity between labeled and unlabeled pixels across the entire image. Then it locally integrates per-pixel measurements which improves the accuracy at boundaries and removes noisy label switches in homogeneous regions. We also design an efficient manual annotation interface that extends the traditional polygon drawing tools with a suite of additional convenient features (and add automatic propagation to it). Experiments with human annotators on the COCO Panoptic Challenge dataset show that the combination of our better manual interface and our novel automatic propagation mechanism leads to reducing annotation time by more than factor of 2x compared to polygon drawing. We also test our method on the ADE-20k and Fashionista datasets without making any dataset-specific adaptation nor retraining our model, demonstrating that it can generalize to new datasets and visual classes.
翻訳日:2022-11-09 23:27:07 公開日:2020-07-16
# 課題報告:VIPriors Action Recognition Challenge

Challenge report:VIPriors Action Recognition Challenge ( http://arxiv.org/abs/2007.08180v1 )

ライセンス: Link先を確認
Zhipeng Luo, Dawei Xu, Zhiguang Zhang(参考訳) 本報告は,VIPriors Action Recognition Challengeへの提出に関する簡単な報告である。 アクション認識は完全な応用のために多くの研究者を惹きつけてきたが、それでも挑戦的だ。 本稿では,先行手法について検討し,提案手法を提案する。 提案手法では,slowfastネットワークの改善と,tsmによるさらなるブレークスルーの実現を主な目的としている。 また,残差フレームを入力としてビデオから動画の特徴を抽出するために,高速かつ効果的な手法を用いる。 より高速な残差フレームを用いてより優れたモーション特徴を抽出することができ、残差フレーム入力パスは既存のrgbフレーム入力モデルにとって優れた補足である。 そして、3D畳み込み(SlowFast)と2D畳み込み(TSM)を組み合わせることで得られるより良い性能を得る。 上記の実験はすべて、UCF101でスクラッチからトレーニングされた。

This paper is a brief report to our submission to the VIPriors Action Recognition Challenge. Action recognition has attracted many researchers attention for its full application, but it is still challenging. In this paper, we study previous methods and propose our method. In our method, we are primarily making improvements on the SlowFast Network and fusing with TSM to make further breakthroughs. Also, we use a fast but effective way to extract motion features from videos by using residual frames as input. Better motion features can be extracted using residual frames with SlowFast, and the residual-frame-input path is an excellent supplement for existing RGB-frame-input models. And better performance obtained by combining 3D convolution(SlowFast) with 2D convolution(TSM). The above experiments were all trained from scratch on UCF101.
翻訳日:2022-11-09 23:26:39 公開日:2020-07-16
# クロスバージョニングによる映像を用いた遠隔生理計測

Video-based Remote Physiological Measurement via Cross-verified Feature Disentangling ( http://arxiv.org/abs/2007.08213v1 )

ライセンス: Link先を確認
Xuesong Niu, Zitong Yu, Hu Han, Xiaobai Li, Shiguang Shan, Guoying Zhao(参考訳) 遠隔の生理的測定(例えば、リモート光胸腺撮影(rPPG)ベースの心拍数(HR)、心拍変動(HRV)および呼吸周波数(RF)測定)は、接触測定が不便または不可能なアプリケーションシナリオにおいて、ますます重要な役割を担っている。 生理的信号の振幅は非常に小さいため、頭部の動き、照明条件、センサーの多様性に影響を受けやすい。 これらの課題に対処するために, 生理的特徴と非生理的表現を区別し, 蒸留した生理的特徴をロバストな多タスク生理的測定に利用するクロス検証型特徴分割戦略を提案する。 まず、入力された顔の映像をマルチスケールの時空間マップ(MSTmap)に変換し、周期的生理的信号の時間的特性の大半を保持しながら、無関係な背景と雑音の特徴を抑える。 次に、2つのエンコーダを持つオートエンコーダアーキテクチャ(生理的信号と非生理的情報)への入力として、ペアワイズMSTマップを用いて、非生理的特徴とは無関係な生理的特徴を得る。 解離した特徴は、最終的に平均HR値やrPPG信号のような複数の生理的信号の合同予測に使用される。 複数の生理的測定タスクの大規模公開データセットの総合的な実験とデータベース横断試験は、我々のアプローチの堅牢性を示している。

Remote physiological measurements, e.g., remote photoplethysmography (rPPG) based heart rate (HR), heart rate variability (HRV) and respiration frequency (RF) measuring, are playing more and more important roles under the application scenarios where contact measurement is inconvenient or impossible. Since the amplitude of the physiological signals is very small, they can be easily affected by head movements, lighting conditions, and sensor diversities. To address these challenges, we propose a cross-verified feature disentangling strategy to disentangle the physiological features with non-physiological representations, and then use the distilled physiological features for robust multi-task physiological measurements. We first transform the input face videos into a multi-scale spatial-temporal map (MSTmap), which can suppress the irrelevant background and noise features while retaining most of the temporal characteristics of the periodic physiological signals. Then we take pairwise MSTmaps as inputs to an autoencoder architecture with two encoders (one for physiological signals and the other for non-physiological information) and use a cross-verified scheme to obtain physiological features disentangled with the non-physiological features. The disentangled features are finally used for the joint prediction of multiple physiological signals like average HR values and rPPG signals. Comprehensive experiments on different large-scale public datasets of multiple physiological measurement tasks as well as the cross-database testing demonstrate the robustness of our approach.
翻訳日:2022-11-09 23:26:24 公開日:2020-07-16
# 自己回帰的教師なし画像分割

Autoregressive Unsupervised Image Segmentation ( http://arxiv.org/abs/2007.08247v1 )

ライセンス: Link先を確認
Yassine Ouali, C\'eline Hudelot, Myriam Tami(参考訳) 本研究では,入力の異なる構成ビュー間での相互情報最大化に基づく教師なし画像分割手法を提案する。 マスク付き畳み込みを用いたラスタスキャンオーダリングにおいて,過去の画素から現在の画素を予測する自己回帰生成モデルからインスピレーションを得て,様々な形態のマスク畳み込みを用いて入力に対する異なる順序付けを行い,データの異なるビューを構築することを提案する。 与えられた入力に対して、モデルは2つの有効な順序付き2つの予測を生成し、2つの出力間の相互情報を最大化するように訓練される。 これらの出力は、表現学習のための低次元の特徴か、クラスタリングのためのセマンティックラベルに対応する出力クラスタである。 トレーニング中にマスク付き畳み込みが使用されるが、推論ではマスクは適用されず、モデルが完全な入力にアクセス可能な標準畳み込みにフォールバックする。 提案手法は,教師なし画像セグメンテーションにおける最先端技術よりも優れている。 実装は簡単で簡単で、他の視覚タスクにも拡張でき、データの異なるビューを必要とする既存の教師なし学習手法にシームレスに統合できる。

In this work, we propose a new unsupervised image segmentation approach based on mutual information maximization between different constructed views of the inputs. Taking inspiration from autoregressive generative models that predict the current pixel from past pixels in a raster-scan ordering created with masked convolutions, we propose to use different orderings over the inputs using various forms of masked convolutions to construct different views of the data. For a given input, the model produces a pair of predictions with two valid orderings, and is then trained to maximize the mutual information between the two outputs. These outputs can either be low-dimensional features for representation learning or output clusters corresponding to semantic labels for clustering. While masked convolutions are used during training, in inference, no masking is applied and we fall back to the standard convolution where the model has access to the full input. The proposed method outperforms current state-of-the-art on unsupervised image segmentation. It is simple and easy to implement, and can be extended to other visual tasks and integrated seamlessly into existing unsupervised learning methods requiring different views of the data.
翻訳日:2022-11-09 23:25:30 公開日:2020-07-16
# Weighing Counts:強化学習による逐次集団カウント

Weighing Counts: Sequential Crowd Counting by Reinforcement Learning ( http://arxiv.org/abs/2007.08260v1 )

ライセンス: Link先を確認
Liang Liu, Hao Lu, Hongwei Zou, Haipeng Xiong, Zhiguo Cao, Chunhua Shen(参考訳) 逐次決定問題としてカウントを定式化し、深層強化学習により解ける新しい群集カウントモデルを提案する。 カウント値を直接出力する既存の計数モデルとは対照的に、ワンステップ推定をより簡単で扱いやすい部分分解問題の列に分割する。 このような逐次的決定の性質は、実重量スケールの物理的過程に正確に対応している。 尺度重み付けに触発されて,数値を重みで類推する新しい「計数尺度」libranetを提案する。 実際に群衆像をスケールの片側に配置することで、LibraNet(エージェント)は、群衆数と一致するように、反対側に適切な重みを置くことをシーケンシャルに学習する。 各ステップでlibranetは、スケールパン(状態)に置かれている現在の群衆画像の特徴と重みに応じて、重みボックス(事前定義されたアクションプール)から1つの重み(アクション)を選択する。 LibraNetは針(Q値)のフィードバックに応じてスケールのバランスを学ぶ必要がある。 LibraNetは、LibraNetがアクションの選択方法を決定する過程を可視化することで、正確にスケール計測を実装していることを示す。 広範な実験によって設計選択の有効性が示され、いくつかのクラウドカウントベンチマークで最新の結果が報告された。 また、LibraNetのクロスデータセットの優れた一般化を示す。 コードとモデルは、https://git.io/libranetで利用可能である。

We formulate counting as a sequential decision problem and present a novel crowd counting model solvable by deep reinforcement learning. In contrast to existing counting models that directly output count values, we divide one-step estimation into a sequence of much easier and more tractable sub-decision problems. Such sequential decision nature corresponds exactly to a physical process in reality scale weighing. Inspired by scale weighing, we propose a novel 'counting scale' termed LibraNet where the count value is analogized by weight. By virtually placing a crowd image on one side of a scale, LibraNet (agent) sequentially learns to place appropriate weights on the other side to match the crowd count. At each step, LibraNet chooses one weight (action) from the weight box (the pre-defined action pool) according to the current crowd image features and weights placed on the scale pan (state). LibraNet is required to learn to balance the scale according to the feedback of the needle (Q values). We show that LibraNet exactly implements scale weighing by visualizing the decision process how LibraNet chooses actions. Extensive experiments demonstrate the effectiveness of our design choices and report state-of-the-art results on a few crowd counting benchmarks. We also demonstrate good cross-dataset generalization of LibraNet. Code and models are made available at: https://git.io/libranet
翻訳日:2022-11-09 23:25:11 公開日:2020-07-16
# ビデオオブジェクト分割のためのカーネル化メモリネットワーク

Kernelized Memory Network for Video Object Segmentation ( http://arxiv.org/abs/2007.08270v1 )

ライセンス: Link先を確認
Hongje Seong, Junhyuk Hyun, Euntai Kim(参考訳) 半教師付きビデオオブジェクトセグメンテーション(英: Semi-supervised Video Object segmentation、VOS)は、ターゲットオブジェクトの接地真実セグメンテーションマスクが第1フレームに与えられるとき、ビデオ中の対象オブジェクトを予測するタスクである。 近年,時空メモリネットワーク (STM) は, 半教師付きVOSにおいて有望なソリューションとして注目されている。 しかし、VOSにSTMを適用する場合、重要な点は見過ごされる。 解(STM)は非局所的であるが、問題(VOS)は主に局所的である。 STMとVOSのミスマッチを解決するために,カーネル型メモリネットワーク(KMN)を提案する。 実際のビデオでトレーニングされる前に、我々のKMNは、以前の作品のように静的イメージで事前トレーニングされています。 先行研究と異なり,前訓練における隠れ・見抜き戦略を用いて咬合処理とセグメント境界抽出の最良の結果を得る。 提案されたKMNは、標準ベンチマークの最先端をかなり上回り(DAVIS 2017 test-dev セットでは+5%)。 さらに、KMNのランタイムはDAVIS 2016バリデーションセットで1フレーム当たり0.12秒であり、STMと比較してKMNが余分な計算を必要とすることは滅多にない。

Semi-supervised video object segmentation (VOS) is a task that involves predicting a target object in a video when the ground truth segmentation mask of the target object is given in the first frame. Recently, space-time memory networks (STM) have received significant attention as a promising solution for semi-supervised VOS. However, an important point is overlooked when applying STM to VOS. The solution (STM) is non-local, but the problem (VOS) is predominantly local. To solve the mismatch between STM and VOS, we propose a kernelized memory network (KMN). Before being trained on real videos, our KMN is pre-trained on static images, as in previous works. Unlike in previous works, we use the Hide-and-Seek strategy in pre-training to obtain the best possible results in handling occlusions and segment boundary extraction. The proposed KMN surpasses the state-of-the-art on standard benchmarks by a significant margin (+5% on DAVIS 2017 test-dev set). In addition, the runtime of KMN is 0.12 seconds per frame on the DAVIS 2016 validation set, and the KMN rarely requires extra computation, when compared with STM.
翻訳日:2022-11-09 23:24:50 公開日:2020-07-16
# イベント強化高画質イメージリカバリ

Event Enhanced High-Quality Image Recovery ( http://arxiv.org/abs/2007.08336v1 )

ライセンス: Link先を確認
Bishan Wang, Jingwei He, Lei Yu, Gui-Song Xia, Wen Yang(参考訳) 非常に高時間分解能のイベントカメラは、ロボティクスとコンピュータビジョンに大きな可能性を秘めている。 しかし、その非同期撮像機構は、しばしばノイズに対する測定感度を増大させ、画像空間分解能を高めるために物理的負担をもたらす。 高画質のインテンシティ画像を復元するには、イベントカメラのデノイジングとスーパーレゾリューションの両方の問題に対処する必要がある。 イベントは明るさの変化を描いており、事象による変性モデルの改善により、ノイズ、ぼかし、低分解能の観測から鮮明でシャープな高解像度の潜像を復元することができる。 スパース学習の枠組みを開拓し、イベントと低分解能度観測を共同で検討することができる。 そこで本稿では,イベントカメラから高品質な画像を取り出すための,イベント強化スパース学習ネットワーク(eSL-Net)を提案する。 合成データセットを用いてトレーニングした後、提案したeSL-Netは、最先端の性能を7~12dB向上させることができる。 さらに、追加のトレーニングプロセスなしでは、提案するesl-netを容易に拡張でき、フレームレートがイベントと同じくらい高い連続フレームを生成することができる。

With extremely high temporal resolution, event cameras have a large potential for robotics and computer vision. However, their asynchronous imaging mechanism often aggravates the measurement sensitivity to noises and brings a physical burden to increase the image spatial resolution. To recover high-quality intensity images, one should address both denoising and super-resolution problems for event cameras. Since events depict brightness changes, with the enhanced degeneration model by the events, the clear and sharp high-resolution latent images can be recovered from the noisy, blurry and low-resolution intensity observations. Exploiting the framework of sparse learning, the events and the low-resolution intensity observations can be jointly considered. Based on this, we propose an explainable network, an event-enhanced sparse learning network (eSL-Net), to recover the high-quality images from event cameras. After training with a synthetic dataset, the proposed eSL-Net can largely improve the performance of the state-of-the-art by 7-12 dB. Furthermore, without additional training process, the proposed eSL-Net can be easily extended to generate continuous frames with frame-rate as high as the events.
翻訳日:2022-11-09 23:24:30 公開日:2020-07-16
# 病理学における意味セグメンテーションのためのクラス比を用いた否定的擬似ラベリング

Negative Pseudo Labeling using Class Proportion for Semantic Segmentation in Pathology ( http://arxiv.org/abs/2007.08044v1 )

ライセンス: Link先を確認
Hiroki Tokunaga, Brian Kenji Iwana, Yuki Teramoto, Akihiko Yoshizawa, Ryoma Bise(参考訳) 本稿では,畳み込みニューラルネットワーク(cnn)を結合情報なしに「細胞検出」(すなわち細胞位置の座標)の注釈のみを用いて学習し,核染色により容易に細胞位置を得ることができる弱教師付き細胞追跡法を提案する。 まず,弱いラベルを用いて連続フレーム内の細胞を検出する共検出cnnを訓練する。 我々の重要な前提は、CNNは検出に加えて暗黙的に関連を学習するということである。 関連情報を得るために,共検出CNNの出力する検出マップにおけるセル位置の対応を解析する後方・前方伝搬法を提案する。 実験により,共検出CNNを解析することにより,提案手法が位置と一致できることを示した。 本手法は弱い監督しか用いていないが,本手法の性能は最先端の監督手法とほぼ同程度であった。

We propose a weakly-supervised cell tracking method that can train a convolutional neural network (CNN) by using only the annotation of "cell detection" (i.e., the coordinates of cell positions) without association information, in which cell positions can be easily obtained by nuclear staining. First, we train a co-detection CNN that detects cells in successive frames by using weak-labels. Our key assumption is that the co-detection CNN implicitly learns association in addition to detection. To obtain the association information, we propose a backward-and-forward propagation method that analyzes the correspondence of cell positions in the detection maps output of the co-detection CNN. Experiments demonstrated that the proposed method can match positions by analyzing the co-detection CNN. Even though the method uses only weak supervision, the performance of our method was almost the same as the state-of-the-art supervised method.
翻訳日:2022-11-09 23:17:42 公開日:2020-07-16
# Paired-Embedding Data Augmentation によるエンドツーエンドアクションインタラクションの学習

Learning End-to-End Action Interaction by Paired-Embedding Data Augmentation ( http://arxiv.org/abs/2007.08071v1 )

ライセンス: Link先を確認
Ziyang Song, Zejian Yuan, Chong Zhang, Wanchao Chi, Yonggen Ling and Shenghao Zhang(参考訳) 認識に基づく行動相互作用では、人間の行動に対するロボットの反応は認識されたカテゴリーに従って事前設計されることが多く、したがって硬い。 本稿では,ラベルなしの対話型ペアからエンドツーエンドのアクションインタラクションを学習し,明示的なアクション認識を解消することを目的とした,新しい対話型アクション翻訳(iat)タスクを提案する。 小規模データ上での学習を可能にするために,有効で信頼性の高いデータ拡張のためのペアエンベディング(pe)法を提案する。 具体的には,まず,組込み空間における個々の動作をクラスタ化するためのペア関係を利用する。 次に、最初にペア化された2つのアクションは、それぞれの近所の他のアクションに置き換えられ、新しいペアに組み立てられる。 条件付きGANに基づくAct2Actネットワークは、拡張データから学習する。 IAT-test と IAT-train のスコアは,タスクのメソッドの評価に特に有用である。 2つのデータセットにおける実験結果は印象的な効果を示し,本手法の幅広い応用可能性を示した。

In recognition-based action interaction, robots' responses to human actions are often pre-designed according to recognized categories and thus stiff. In this paper, we specify a new Interactive Action Translation (IAT) task which aims to learn end-to-end action interaction from unlabeled interactive pairs, removing explicit action recognition. To enable learning on small-scale data, we propose a Paired-Embedding (PE) method for effective and reliable data augmentation. Specifically, our method first utilizes paired relationships to cluster individual actions in an embedding space. Then two actions originally paired can be replaced with other actions in their respective neighborhood, assembling into new pairs. An Act2Act network based on conditional GAN follows to learn from augmented data. Besides, IAT-test and IAT-train scores are specifically proposed for evaluating methods on our task. Experimental results on two datasets show impressive effects and broad application prospects of our method.
翻訳日:2022-11-09 23:17:23 公開日:2020-07-16
# 深度蒸留によるデフォーカスブラ検出

Defocus Blur Detection via Depth Distillation ( http://arxiv.org/abs/2007.08113v1 )

ライセンス: Link先を確認
Xiaodong Cun and Chi-Man Pun(参考訳) Defocus Blur Detection(DBD)は、1つの画像ピクセルからインフォーカス領域とアウトフォーカス領域を分離することを目的としている。 ボケ効果はデジタルカメラやスマートフォンの撮影で広く使われているため、この課題は注目されている。 しかし、部分デフォーカス画像における不明瞭な同質領域と境界線遷移の同定は依然として困難である。 これらの問題を解決するため,dbdに初めて深層情報を導入する。 カメラパラメータが固定された場合,DBDの精度はシーン深度と高い関係があることを論じる。 そこで我々は,深度情報をDBDの近似ソフトラベルとみなし,知識蒸留に着想を得た共同学習フレームワークを提案する。 より詳しくは, 地底の真理からデフォーカスのぼかしと, 十分に訓練された深度推定ネットワークから抽出した深度を同時に学習する。 このように、鋭い領域は深度推定に強い先行を与える一方、ぼかし検出は蒸留深度から利益を得る。 さらに,ネットワーク構造として完全畳み込みネットワーク(FCN)における新しいデコーダを提案する。 このデコーダの各レベルにおいて、マルチスケール機能を効率的にマージするための選択受容フィールドブロック(SRFB)を設計し、サイド出力をスーパービジョン誘導アテンションブロック(SAB)として再利用する。 従来の方法とは異なり、デコーダは受信フィールドピラミッドを構築し、単純かつ効率的に突出領域を強調している。 実験によると、このアプローチは2つの人気のあるデータセットで11の最先端のメソッドよりも優れています。 また,1つのGPU上で30fps以上で動作し,従来よりも2倍高速である。 コードはhttps://github.com/vinthony/depth-distillationで入手できる。

Defocus Blur Detection(DBD) aims to separate in-focus and out-of-focus regions from a single image pixel-wisely. This task has been paid much attention since bokeh effects are widely used in digital cameras and smartphone photography. However, identifying obscure homogeneous regions and borderline transitions in partially defocus images is still challenging. To solve these problems, we introduce depth information into DBD for the first time. When the camera parameters are fixed, we argue that the accuracy of DBD is highly related to scene depth. Hence, we consider the depth information as the approximate soft label of DBD and propose a joint learning framework inspired by knowledge distillation. In detail, we learn the defocus blur from ground truth and the depth distilled from a well-trained depth estimation network at the same time. Thus, the sharp region will provide a strong prior for depth estimation while the blur detection also gains benefits from the distilled depth. Besides, we propose a novel decoder in the fully convolutional network(FCN) as our network structure. In each level of the decoder, we design the Selective Reception Field Block(SRFB) for merging multi-scale features efficiently and reuse the side outputs as Supervision-guided Attention Block(SAB). Unlike previous methods, the proposed decoder builds reception field pyramids and emphasizes salient regions simply and efficiently. Experiments show that our approach outperforms 11 other state-of-the-art methods on two popular datasets. Our method also runs at over 30 fps on a single GPU, which is 2x faster than previous works. The code is available at: https://github.com/vinthony/depth-distillation
翻訳日:2022-11-09 23:16:24 公開日:2020-07-16
# PerMO: 自動運転のための画像から一度により多くのものを認識する

PerMO: Perceiving More at Once from a Single Image for Autonomous Driving ( http://arxiv.org/abs/2007.08116v1 )

ライセンス: Link先を確認
Feixiang Lu, Zongdai Liu, Xibin Song, Dingfu Zhou, Wei Li, Hui Miao, Miao Liao, Liangjun Zhang, Bin Zhou, Ruigang Yang and Dinesh Manocha(参考訳) 自律運転のための1つの画像から車両の完全なテクスチャ3dモデルを検出し,セグメント化し,再構成する新しい手法を提案する。 提案手法は, 深層学習の強みと, 部分的変形可能なモデル表現からの従来の手法のエレガンスさを組み合わせて, 厳密なオクルージョンの存在下で高品質な3Dモデルを生成する。 本稿では,2次元画像と3次元モデルとの密接な対応関係を含むデータセットを自動的に生成する,新しい部分ベースの変形可能な車両モデルを提案する。 また,密度の高い2d/3dマッピングを予測し,その利点を強調する新しいエンド・ツー・エンド深層ニューラルネットワークを提案する。 密接なマッピングに基づいて,商品gpu上でほぼインタラクティブなレートで,正確な6dofポーズと3d再構成結果を計算できる。 我々はこれらのアルゴリズムを自動運転システムに統合した。 本手法は,4.4ポイント (mAP) の2次元インスタンス分割,9.11ポイントの6-DoFポーズ推定,1.37ポイントの3次元検出を行う。 さらに、githubですべてのソースコード、データセット、トレーニングされたモデルをリリースしました。

We present a novel approach to detect, segment, and reconstruct complete textured 3D models of vehicles from a single image for autonomous driving. Our approach combines the strengths of deep learning and the elegance of traditional techniques from part-based deformable model representation to produce high-quality 3D models in the presence of severe occlusions. We present a new part-based deformable vehicle model that is used for instance segmentation and automatically generate a dataset that contains dense correspondences between 2D images and 3D models. We also present a novel end-to-end deep neural network to predict dense 2D/3D mapping and highlight its benefits. Based on the dense mapping, we are able to compute precise 6-DoF poses and 3D reconstruction results at almost interactive rates on a commodity GPU. We have integrated these algorithms with an autonomous driving system. In practice, our method outperforms the state-of-the-art methods for all major vehicle parsing tasks: 2D instance segmentation by 4.4 points (mAP), 6-DoF pose estimation by 9.11 points, and 3D detection by 1.37. Moreover, we have released all of the source code, dataset, and the trained model on Github.
翻訳日:2022-11-09 23:15:56 公開日:2020-07-16
# グローバルおよびローカル転送モジュールを用いたインタラクティブビデオオブジェクトセグメンテーション

Interactive Video Object Segmentation Using Global and Local Transfer Modules ( http://arxiv.org/abs/2007.08139v1 )

ライセンス: Link先を確認
Yuk Heo, Yeong Jun Koh and Chang-Su Kim(参考訳) 本稿では,クエリオブジェクトのスクリブルアノテーションを入力として利用する対話型ビデオオブジェクトセグメンテーションアルゴリズムを提案する。 本稿では,アノテーションネットワーク(a-net)とトランスファーネットワーク(t-net)からなるディープニューラルネットワークを開発した。 まず、ユーザがフレームに書き込むと、a-netはエンコーダ-デコーダアーキテクチャに基づいてセグメンテーション結果を生成する。 第2に、T-Netは、グローバルおよびローカル転送モジュールを用いて、セグメント化結果を他のフレームに双方向に転送する。 グローバル転送モジュールは、アノテーション付きフレーム内のセグメンテーション情報をターゲットフレームに伝達し、ローカル転送モジュールは、時間的に隣接したフレーム内のセグメンテーション情報をターゲットフレームに伝搬する。 A-NetとT-Netを交互に適用することにより、ユーザは最小限の努力で所望のセグメンテーション結果を得ることができる。 ユーザの書き込みをエミュレートし,補助的損失を生かして,ネットワーク全体を2段階に訓練する。 実験の結果,提案する対話型ビデオオブジェクトセグメンテーションアルゴリズムは,従来のアルゴリズムよりも優れていた。 コードとモデルはhttps://github.com/yuk6heo/ivos-atnetで入手できる。

An interactive video object segmentation algorithm, which takes scribble annotations on query objects as input, is proposed in this paper. We develop a deep neural network, which consists of the annotation network (A-Net) and the transfer network (T-Net). First, given user scribbles on a frame, A-Net yields a segmentation result based on the encoder-decoder architecture. Second, T-Net transfers the segmentation result bidirectionally to the other frames, by employing the global and local transfer modules. The global transfer module conveys the segmentation information in an annotated frame to a target frame, while the local transfer module propagates the segmentation information in a temporally adjacent frame to the target frame. By applying A-Net and T-Net alternately, a user can obtain desired segmentation results with minimal efforts. We train the entire network in two stages, by emulating user scribbles and employing an auxiliary loss. Experimental results demonstrate that the proposed interactive video object segmentation algorithm outperforms the state-of-the-art conventional algorithms. Codes and models are available at https://github.com/yuk6heo/IVOS-ATNet.
翻訳日:2022-11-09 23:15:35 公開日:2020-07-16
# 人間解釈言語を用いた包括的顔表情合成

Comprehensive Facial Expression Synthesis using Human-Interpretable Language ( http://arxiv.org/abs/2007.08154v1 )

ライセンス: Link先を確認
Joanna Hong, Jung Uk Kim, Sangmin Lee, and Yong Man Ro(参考訳) 表情合成の最近の進歩は、顔の動作単位を含む多様な表現表現を用いた有望な結果を示している。 精巧な表情合成のための顔動作単位は、人間の理解のために直感的に表現される必要があり、顔動作単位の数値的分類ではない。 この問題に対処するために,我々は自然言語の利用という人間にやさしいアプローチを用いている。 そこで本稿では,言語に基づく表情記述に基づく新しい表情合成モデルを提案する。 本手法は,詳細な表情で顔画像の合成を行う。 さらに, 顔の特徴に言語特徴を効果的に埋め込むことで, 個々の単語を制御し, 顔の動きを処理できる。 自然言語の有効性を検証するために,広範囲な質的,定量的な評価を行った。

Recent advances in facial expression synthesis have shown promising results using diverse expression representations including facial action units. Facial action units for an elaborate facial expression synthesis need to be intuitively represented for human comprehension, not a numeric categorization of facial action units. To address this issue, we utilize human-friendly approach: use of natural language where language helps human grasp conceptual contexts. In this paper, therefore, we propose a new facial expression synthesis model from language-based facial expression description. Our method can synthesize the facial image with detailed expressions. In addition, effectively embedding language features on facial features, our method can control individual word to handle each part of facial movement. Extensive qualitative and quantitative evaluations were conducted to verify the effectiveness of the natural language.
翻訳日:2022-11-09 23:14:52 公開日:2020-07-16
# VIPriors Object Detection Challenge

VIPriors Object Detection Challenge ( http://arxiv.org/abs/2007.08170v1 )

ライセンス: Link先を確認
Zhipeng Luo, Lixuan Che(参考訳) 本稿は,vipriors object detection challengeへの提案に対する簡単な報告である。 オブジェクト検出は、そのフル応用で多くの研究者の注目を集めているが、それでも難しい課題である。 本稿では,データの特徴を解析し,効果的なデータエンハンスメント手法を提案する。 私たちは、スクラッチからトレーニングに適したモデルを慎重に選択します。 softnmsとmodel fusionを巧みに利用することで多くの恩恵を受けています。

This paper is a brief report to our submission to the VIPriors Object Detection Challenge. Object Detection has attracted many researchers' attention for its full application, but it is still a challenging task. In this paper, we study analysis the characteristics of the data, and an effective data enhancement method is proposed. We carefully choose the model which is more suitable for training from scratch. We benefit a lot from using softnms and model fusion skillfully.
翻訳日:2022-11-09 23:14:41 公開日:2020-07-16
# 深部強化学習と歴史的運転経験に基づく人間的エネルギー管理

Human-like Energy Management Based on Deep Reinforcement Learning and Historical Driving Experiences ( http://arxiv.org/abs/2007.10126v1 )

ライセンス: Link先を確認
Teng Liu, Xiaolin Tang, Xiaosong Hu, Wenhao Tan, Jinwei Zhang(参考訳) ハイブリッド電気自動車の開発は、先進的で効率的なエネルギー管理戦略(ems)に依存する。 本稿では, オンラインおよびリアルタイムの要件を念頭に, 深部強化学習手法によるハイブリッド電気自動車の人為的なエネルギー管理の枠組みを示し, 過去の運転データを収集する。 研究対象のハイブリッドパワートレインは並列トポロジーを持ち、その制御指向モデリングが最初に確立されている。 次に,Dep Deterministic Policy gradient (DDPG) と呼ばれるDRLアルゴリズムを導入する。 DRLフレームワークの導出電力分割制御を強化するため、動的プログラミング(DP)から得られたグローバル最適制御軌跡を専門知識とみなし、DDPGモデルを訓練する。 この操作は、提案した制御アーキテクチャの最適性を保証する。 さらに、経験豊富な運転者に基づく過去の運転データを用いて、DPベースの制御を代替し、人間ライクなEMSを構築する。 最後に,提案するヒト様emsの最適性と適応性を評価するために,実験の異なるカテゴリが実行される。 燃費と収束率の改善は、構築した制御構造の有効性を示している。

Development of hybrid electric vehicles depends on an advanced and efficient energy management strategy (EMS). With online and real-time requirements in mind, this article presents a human-like energy management framework for hybrid electric vehicles according to deep reinforcement learning methods and collected historical driving data. The hybrid powertrain studied has a series-parallel topology, and its control-oriented modeling is founded first. Then, the distinctive deep reinforcement learning (DRL) algorithm, named deep deterministic policy gradient (DDPG), is introduced. To enhance the derived power split controls in the DRL framework, the global optimal control trajectories obtained from dynamic programming (DP) are regarded as expert knowledge to train the DDPG model. This operation guarantees the optimality of the proposed control architecture. Moreover, the collected historical driving data based on experienced drivers are employed to replace the DP-based controls, and thus construct the human-like EMSs. Finally, different categories of experiments are executed to estimate the optimality and adaptability of the proposed human-like EMS. Improvements in fuel economy and convergence rate indicate the effectiveness of the constructed control structure.
翻訳日:2022-11-09 23:09:03 公開日:2020-07-16
# DeepInit Phase Retrieval

DeepInit Phase Retrieval ( http://arxiv.org/abs/2007.08214v1 )

ライセンス: Link先を確認
Martin Reiche and Peter Jung(参考訳) 本稿では,データ駆動型深層生成モデルを用いて,少数のインテンシティ測定値から信号を再構成したい場合の難解な位相探索問題の解法を示す。 古典的反復アルゴリズムは、最適に近く初期化されていればうまく機能することが知られているが、そうでなければ非凸性に悩まされ、しばしば局所ミニマで立ち往生する。 そこで我々は,高速古典アルゴリズム(例えばランダム化kaczmarz法)の学習初期化計算に先立って,深部生成データに基づく正規化勾配降下を用いたディープイット位相検索を提案する。 提案手法は, 発電機モデル誤差が大きい場合でも, 低サンプリングレートで非常に高い再構成結果が得られることを実証的に示す。 概念的には、学習した初期化は、古典的な降下段階を大域的最適に近づけることで、問題の非凸性を克服するのに役立つ。 また,従来の勾配型再構成法よりも優れたランタイム性能を示す。 本手法を総括的に評価し,テラヘルツ単画素位相検索法で用いられる回折型測定モデルにも適用できることを実証的に示した。

This paper shows how data-driven deep generative models can be utilized to solve challenging phase retrieval problems, in which one wants to reconstruct a signal from only few intensity measurements. Classical iterative algorithms are known to work well if initialized close to the optimum but otherwise suffer from non-convexity and often get stuck in local minima. We therefore propose DeepInit Phase Retrieval, which uses regularized gradient descent under a deep generative data prior to compute a trained initialization for a fast classical algorithm (e.g. the randomized Kaczmarz method). We empirically show that our hybrid approach is able to deliver very high reconstruction results at low sampling rates even when there is significant generator model error. Conceptually, learned initializations may therefore help to overcome the non-convexity of the problem by starting classical descent steps closer to the global optimum. Also, our idea demonstrates superior runtime performance over conventional gradient-based reconstruction methods. We evaluate our method for generic measurements and show empirically that it is also applicable to diffraction-type measurement models which are found in terahertz single-pixel phase retrieval.
翻訳日:2022-11-09 23:08:45 公開日:2020-07-16
# LogiQA: 論理推論による機械読み取り理解のための課題データセット

LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning ( http://arxiv.org/abs/2007.08124v1 )

ライセンス: Link先を確認
Jian Liu, Leyang Cui, Hanmeng Liu, Dandan Huang, Yile Wang, Yue Zhang(参考訳) 機械読解は自然言語理解の能力をテストするための基本的なタスクであり、多くの側面において人間の認識と密接に関連している。 ディープラーニング技術の増加に伴い、アルゴリズムモデルは単純なQA上での人間のパフォーマンスに対抗し、ますます困難な機械学習データセットが提案されている。 エビデンス統合や常識知識といった様々な課題が統合されているが、人間の読書における基本的な能力である論理的推論は十分に研究されていない。 私たちは、人間の論理的推論をテストするための専門家による質問から得られた、LogiQAという名前の包括的なデータセットを構築します。 8,678のqaインスタンスで構成され、複数の推論タイプをカバーする。 その結果、最先端のニューラルモデルは人間の天井よりもはるかに悪い結果が得られた。 我々のデータセットは、ディープラーニングNLP設定下で論理AIを再調査するためのベンチマークとしても機能する。 データセットはhttps://github.com/lgw863/logiqa-datasetで無料で利用できる。

Machine reading is a fundamental task for testing the capability of natural language understanding, which is closely related to human cognition in many aspects. With the rising of deep learning techniques, algorithmic models rival human performances on simple QA, and thus increasingly challenging machine reading datasets have been proposed. Though various challenges such as evidence integration and commonsense knowledge have been integrated, one of the fundamental capabilities in human reading, namely logical reasoning, is not fully investigated. We build a comprehensive dataset, named LogiQA, which is sourced from expert-written questions for testing human Logical reasoning. It consists of 8,678 QA instances, covering multiple types of deductive reasoning. Results show that state-of-the-art neural models perform by far worse than human ceiling. Our dataset can also serve as a benchmark for reinvestigating logical AI under the deep learning NLP setting. The dataset is freely available at https://github.com/lgw863/LogiQA-dataset
翻訳日:2022-11-09 23:07:35 公開日:2020-07-16
# SLK-NER:中国NERの2次辞書知識の展開

SLK-NER: Exploiting Second-order Lexicon Knowledge for Chinese NER ( http://arxiv.org/abs/2007.08416v1 )

ライセンス: Link先を確認
Dou Hu and Lingwei Wei(参考訳) 辞書を用いた文字ベースモデルでは,中国語のエンティティ認識(NER)タスクにおいて有望な結果が得られたが,一部の語彙的単語は誤マッチした単語による誤情報をもたらす。 既存の研究は、語彙知識を統合するための多くの戦略を提案した。 しかし、単純な一階述語知識により、単語情報が不足し、一致した単語境界紛争の課題に直面している、あるいは、負の単語を導入した高階述語情報が識別を妨害する可能性のあるグラフを用いて辞書知識を探索した。 上記の制限を緩和するため,文中の各文字の2次語彙知識(SLK)に関する新たな知見を提示し,意味的および単語境界特徴を含むより語彙的な単語情報を提供する。 そこで我々は,上記の語彙知識を統合するための新しい戦略を持つSLKモデルを提案する。 提案モデルは,グローバルコンテキストの助けを借りて,より識別可能な語彙情報を利用することができる。 3つの公開データセットにおける実験結果はslkの有効性を示している。 提案手法は最先端の比較手法よりも優れた性能を実現する。

Although character-based models using lexicon have achieved promising results for Chinese named entity recognition (NER) task, some lexical words would introduce erroneous information due to wrongly matched words. Existing researches proposed many strategies to integrate lexicon knowledge. However, they performed with simple first-order lexicon knowledge, which provided insufficient word information and still faced the challenge of matched word boundary conflicts; or explored the lexicon knowledge with graph where higher-order information introducing negative words may disturb the identification. To alleviate the above limitations, we present new insight into second-order lexicon knowledge (SLK) of each character in the sentence to provide more lexical word information including semantic and word boundary features. Based on these, we propose a SLK-based model with a novel strategy to integrate the above lexicon knowledge. The proposed model can exploit more discernible lexical words information with the help of global context. Experimental results on three public datasets demonstrate the validity of SLK. The proposed model achieves more excellent performance than the state-of-the-art comparison methods.
翻訳日:2022-11-09 23:07:20 公開日:2020-07-16
# 感情誘発運動に及ぼす位置バイアスの影響に関する実験的研究

An Experimental Study of The Effects of Position Bias on Emotion CauseExtraction ( http://arxiv.org/abs/2007.15066v1 )

ライセンス: Link先を確認
Jiayuan Ding, Mayank Kejriwal(参考訳) 感情原因抽出(ECE)は、感情キーワードを注釈付けした後、文書から感情の原因を特定することを目的としている。 ルールベース、コモンセンスベース、機械学習など、この問題に対処するためのベースラインが提案されている。 しかし,テキストを観察する必要のないECEに対する単純なランダム選択手法が,ベースラインと同じような性能を実現することを示す。 この目標を達成するために,感情要因に対する位置情報のみを利用した。 位置情報はテキストを観察せずに単独でF値が高くなるため,ECEのシングルジャンルであるSina-newsベンチマークに偏りがみられた。 さらに分析したところ、感情的原因位置の不均衡がベンチマークに存在し、大半が中心感情節の直前にあることがわかった。 言語的観点からバイアスを検証し、位置情報を利用した最先端ディープラーニングモデルの高精度化が、そのような位置バイアスを含むデータセットでのみ明らかであることを示す。 バランスの取れた位置分布を持つデータセットを導入すると、精度が大幅に低下する。 したがって,本ベンチマークでは,eceにおけるディープラーニングモデルの高精度化が生起バイアスであると結論づける。 本論文のケーススタディは,バイアスを問うことなく,深層学習モデルの優れた適合性を解釈する上で,注意深い授業とさらなる研究のためのテンプレートの両立を期待する。

Emotion Cause Extraction (ECE) aims to identify emotion causes from a document after annotating the emotion keywords. Some baselines have been proposed to address this problem, such as rule-based, commonsense based and machine learning methods. We show, however, that a simple random selection approach toward ECE that does not require observing the text achieves similar performance compared to the baselines. We utilized only position information relative to the emotion cause to accomplish this goal. Since position information alone without observing the text resulted in higher F-measure, we therefore uncovered a bias in the ECE single genre Sina-news benchmark. Further analysis showed that an imbalance of emotional cause location exists in the benchmark, with a majority of cause clauses immediately preceding the central emotion clause. We examine the bias from a linguistic perspective, and show that high accuracy rate of current state-of-art deep learning models that utilize location information is only evident in datasets that contain such position biases. The accuracy drastically reduced when a dataset with balanced location distribution is introduced. We therefore conclude that it is the innate bias in this benchmark that caused high accuracy rate of these deep learning models in ECE. We hope that the case study in this paper presents both a cautionary lesson, as well as a template for further studies, in interpreting the superior fit of deep learning models without checking for bias.
翻訳日:2022-11-09 23:06:20 公開日:2020-07-16
# 計算オントロジーにおける時間の概念モデリング

Conceptual Modeling of Time for Computational Ontologies ( http://arxiv.org/abs/2007.10151v1 )

ライセンス: Link先を確認
Sabah Al-Fedaghi(参考訳) 概念モデリングの基盤を提供するため、その存在がモデルで認識されるエンティティを特定するためにオントロジーが導入されている。 オントロジーは、ソフトウェア工学における現実の一部をモデル化するメカニズムとして不可欠なコンポーネントである。 この文脈では、モデルとは、システムを構成するオブジェクトとプロセスを記述することを指す。 このような記述の開発は、対立や共通理解の欠如といった困難を避けるために、対応するシステムの設計、開発、使用を制約し、指示する。 モデリングとオントロジーの間の横断的な研究において、ドメインオントロジー(例えば、リソース記述フレームワーク、オントロジーWeb言語)の開発と利用への関心が高まっている。 本稿では,機能可能なオントロジー(tm)の提案を通じて,特定の領域における概念モデリングのための幅広いオントロジー基盤の確立に寄与する。 TMはthimac (things/machines)と呼ばれる一つのカテゴリーのオントロジーであり、オントロジ的推定の設計と分析に使用される。 この研究の焦点は、変化、出来事、時間といった概念にあります。 いくつかの現在の存在論的困難をTMでレビューし、再モデリングする。 TMモデリングはSysMLの時間表現とも対照的である。 その結果,TMはこれらの存在論的問題に対処するための有用なツールであることがわかった。

To provide a foundation for conceptual modeling, ontologies have been introduced to specify the entities, the existences of which are acknowledged in the model. Ontologies are essential components as mechanisms to model a portion of reality in software engineering. In this context, a model refers to a description of objects and processes that populate a system. Developing such a description constrains and directs the design, development, and use of the corresponding system, thus avoiding such difficulties as conflicts and lack of a common understanding. In this cross-area research between modeling and ontology, there has been a growing interest in the development and use of domain ontologies (e.g., Resource Description Framework, Ontology Web Language). This paper contributes to the establishment of a broad ontological foundation for conceptual modeling in a specific domain through proposing a workable ontology (abbreviated as TM). A TM is a one-category ontology called a thimac (things/machines) that is used to elaborate the design and analysis of ontological presumptions. The focus of the study is on such notions as change, event, and time. Several current ontological difficulties are reviewed and remodeled in the TM. TM modeling is also contrasted with time representation in SysML. The results demonstrate that a TM is a useful tool for addressing these ontological problems.
翻訳日:2022-11-09 23:06:01 公開日:2020-07-16
# 差分分類法による学習における一般化誤差の大規模解析

Large scale analysis of generalization error in learning using margin based classification methods ( http://arxiv.org/abs/2007.10112v1 )

ライセンス: Link先を確認
Hanwen Huang and Qinglong Yang(参考訳) 大きなマージン分類器は分類の一般的な方法である。 サンプルサイズ $n$ と次元 $p$ の両方の限界において、大マージン分類器のファミリーの一般化誤差に対する漸近的表現を導出し、固定比 $\alpha=n/p$ で$\infty$ となる。 このファミリーは、サポートベクターマシン、距離重み付き識別、ペナル化ロジスティック回帰など、広く使われている分類器を幅広くカバーしている。 この結果は2つのクラスの分離性のための相転移境界の確立に利用できる。 データは任意の共分散構造を持つ単一の多変量ガウス分布から生成されると仮定する。 共分散行列には、スパイク人口モデルとランダムな第1層重みを持つ2層ニューラルネットワークの2つの特別な選択を探索する。 閉形式表現の導出に用いた手法は、レプリカ法として知られる統計物理学によるものである。 我々の漸近的な結果は、既に$n,p$が数百のオーダーである場合のシミュレーションと一致する。 2層ニューラルネットワークでは,最近開発された「二重降下」現象を複数の分類モデルで再現した。 これらの分析から得られる統計的知見についても論じる。

Large-margin classifiers are popular methods for classification. We derive the asymptotic expression for the generalization error of a family of large-margin classifiers in the limit of both sample size $n$ and dimension $p$ going to $\infty$ with fixed ratio $\alpha=n/p$. This family covers a broad range of commonly used classifiers including support vector machine, distance weighted discrimination, and penalized logistic regression. Our result can be used to establish the phase transition boundary for the separability of two classes. We assume that the data are generated from a single multivariate Gaussian distribution with arbitrary covariance structure. We explore two special choices for the covariance matrix: spiked population model and two layer neural networks with random first layer weights. The method we used for deriving the closed-form expression is from statistical physics known as the replica method. Our asymptotic results match simulations already when $n,p$ are of the order of a few hundreds. For two layer neural networks, we reproduce the recently developed `double descent' phenomenology for several classification models. We also discuss some statistical insights that can be drawn from these analysis.
翻訳日:2022-11-09 23:00:54 公開日:2020-07-16
# 近代ホップフィールドネットワークと免疫レパートリー分類への留意

Modern Hopfield Networks and Attention for Immune Repertoire Classification ( http://arxiv.org/abs/2007.13505v1 )

ライセンス: Link先を確認
Michael Widrich, Bernhard Sch\"afl, Hubert Ramsauer, Milena Pavlovi\'c, Lukas Gruber, Markus Holzleitner, Johannes Brandstetter, Geir Kjetil Sandve, Victor Greiff, Sepp Hochreiter, G\"unter Klambauer(参考訳) 機械学習の中心的なメカニズムは、パターンを識別、保存、認識することです。 このようなパターンを学習し、アクセスし、取得する方法は、ホップフィールドネットワークや最近のトランスフォーマーアーキテクチャにおいて極めて重要である。 変換器アーキテクチャの注意機構は、多くのパターンを指数的に保存できる現代のホップフィールドネットワークの更新ルールであることを示す。 計算生物学におけるMIL(Multiple Case Learning)問題(免疫レパートリー分類)を解決するために,現代のホップフィールドネットワークのこの高容量化を活用している。 この問題を解決する正確かつ解釈可能な機械学習手法は、新型コロナウイルスの危機によって強化された、現在非常に関連する研究トピックである、新しいワクチンや治療法への道を開く可能性がある。 個体の膨大な免疫配列に基づく免疫レパートリー分類は、前例のないほど多くの事例があり、現在考慮されている問題よりも2桁大きく、目撃率が極めて低いMIL問題である。 本稿では,トランスフォーマー的な注意,あるいは現代のホップフィールドネットワークを免疫レパートリー分類などの大規模なミルのための深層学習アーキテクチャに統合した新しいdeeprc法を提案する。 シミュレーションおよび実世界のウイルス感染データを含む大規模実験において、DeepRCは予測性能に関して他の方法よりも優れており、特定の病種に関連付けられたシーケンスモチーフの抽出を可能にする。 ソースコードとデータセット:https://github.com/ml-jku/DeepRC

A central mechanism in machine learning is to identify, store, and recognize patterns. How to learn, access, and retrieve such patterns is crucial in Hopfield networks and the more recent transformer architectures. We show that the attention mechanism of transformer architectures is actually the update rule of modern Hopfield networks that can store exponentially many patterns. We exploit this high storage capacity of modern Hopfield networks to solve a challenging multiple instance learning (MIL) problem in computational biology: immune repertoire classification. Accurate and interpretable machine learning methods solving this problem could pave the way towards new vaccines and therapies, which is currently a very relevant research topic intensified by the COVID-19 crisis. Immune repertoire classification based on the vast number of immunosequences of an individual is a MIL problem with an unprecedentedly massive number of instances, two orders of magnitude larger than currently considered problems, and with an extremely low witness rate. In this work, we present our novel method DeepRC that integrates transformer-like attention, or equivalently modern Hopfield networks, into deep learning architectures for massive MIL such as immune repertoire classification. We demonstrate that DeepRC outperforms all other methods with respect to predictive performance on large-scale experiments, including simulated and real-world virus infection data, and enables the extraction of sequence motifs that are connected to a given disease class. Source code and datasets: https://github.com/ml-jku/DeepRC
翻訳日:2022-11-09 23:00:35 公開日:2020-07-16
# リソース限定設定におけるX線画像を用いた新型コロナウイルス・結核検出のための深層学習モデルと機械学習モデルの効率的な混合

An Efficient Mixture of Deep and Machine Learning Models for COVID-19 and Tuberculosis Detection Using X-Ray Images in Resource Limited Settings ( http://arxiv.org/abs/2007.08223v1 )

ライセンス: Link先を確認
Ali H. Al-Timemy, Rami N. Khushaba, Zahraa M. Mosa and Javier Escudero(参考訳) 臨床医は、症状のある患者が本当に新型コロナウイルス(covid-19)を持っているかどうかを迅速に評価する必要がある。 この作業の難しさは、バイオテクノロジーテストにアクセスできない可能性のある低い資源設定で悪化する。 さらに、結核(TB)は、いくつかの低所得国や中所得国で主要な健康問題であり、その一般的な症状は、熱、うっ血、疲労などである。 新型コロナウイルスの検出を支援するため,胸部X線画像から深部特徴(DF)を抽出する手法を提案する。 新型コロナウイルス, ウイルス性肺炎, 細菌性肺炎, TB, 健常例を含む5種類のX線胸部画像のデータセットを収集した。 従来の機械学習分類器とDF抽出のための訓練済みのディープネットワークを14個組み合わせたパイプラインの性能を比較した。 df計算のためのresnet-50とサブスペース判別器のアンサンブルからなるパイプラインは5つのクラスを分類し、検出精度は91.6+2.6%(精度+95%信頼区間)に達した。 さらに、同じパイプラインは、より単純な3クラスと2クラスの分類問題で98.6+1.4%と99.9+0.5%の精度を達成した。 パイプラインの効率は0.19秒でX線画像1枚につきDFを抽出でき、2分でCPUマシン上で2000枚以上の画像を持つ従来の分類器を訓練できる。 結果は、特にリソース制限の設定で、私たちのパイプラインを使用して、限られた計算リソースで実行できる可能性を示している。

Clinicians in the frontline need to assess quickly whether a patient with symptoms indeed has COVID-19 or not. The difficulty of this task is exacerbated in low resource settings that may not have access to biotechnology tests. Furthermore, Tuberculosis (TB) remains a major health problem in several low- and middle-income countries and its common symptoms include fever, cough and tiredness, similarly to COVID-19. In order to help in the detection of COVID-19, we propose the extraction of deep features (DF) from chest X-ray images, a technology available in most hospitals, and their subsequent classification using machine learning methods that do not require large computational resources. We compiled a five-class dataset of X-ray chest images including a balanced number of COVID-19, viral pneumonia, bacterial pneumonia, TB, and healthy cases. We compared the performance of pipelines combining 14 individual state-of-the-art pre-trained deep networks for DF extraction with traditional machine learning classifiers. A pipeline consisting of ResNet-50 for DF computation and ensemble of subspace discriminant classifier was the best performer in the classification of the five classes, achieving a detection accuracy of 91.6+ 2.6% (accuracy + 95% Confidence Interval). Furthermore, the same pipeline achieved accuracies of 98.6+1.4% and 99.9+0.5% in simpler three-class and two-class classification problems focused on distinguishing COVID-19, TB and healthy cases; and COVID-19 and healthy images, respectively. The pipeline was computationally efficient requiring just 0.19 second to extract DF per X-ray image and 2 minutes for training a traditional classifier with more than 2000 images on a CPU machine. The results suggest the potential benefits of using our pipeline in the detection of COVID-19, particularly in resource-limited settings and it can run with limited computational resources.
翻訳日:2022-11-09 22:59:52 公開日:2020-07-16
# 3次元CNN-PCA:複雑なジオモデルのための深層学習に基づくパラメータ化

3D CNN-PCA: A Deep-Learning-Based Parameterization for Complex Geomodels ( http://arxiv.org/abs/2007.08478v1 )

ライセンス: Link先を確認
Yimin Liu, Louis J. Durlofsky(参考訳) 地質パラメータ化(geological parameterization)は、比較的小さな変数セットの観点からのジオモデルの表現を可能にする。 したがって、パラメータ化はデータ同化と不確実な定量化の文脈で非常に有用である。 本研究では,複雑な3次元地形モデルのための深層学習に基づく地質パラメータ化アルゴリズムCNN-PCAを開発した。 cnn-pcaは、畳み込みニューラルネットワークをジオモデルの低次元主成分分析表現のポストプロセッサとして使用する。 ここでは2D CNN-PCA法と若干異なる3D治療を行った。 具体的には,スタイルロスとハードデータロスを組み合わせた新しい教師付き学習に基づく再構築損失を提案する。 スタイルロスは、ビデオ分類のために事前訓練された3D CNNから抽出された特徴を使用する。 3D CNN-PCAアルゴリズムは、3つの地質学的シナリオ(バイナリとバイモーダルのチャネル化システムと3相のチャネルレジー・ミュードシステム)に対して$60\times60\times40$グリッドで定義された条件付き3Dの実現に適用される。 CNN-PCAの実現は、オブジェクトベースの手法を用いて生成された参照モデルと視覚的に一致した地質学的特徴を示す。 3次元CNN-PCAモデルのテストセットに対するフローレスポンス(\text{P}_{10}$, $\text{P}_{50}$, $\text{P}_{90}$%ile result)の統計は、参照ジオモデルからのものと一致している。 最後に、CNN-PCAはバイモーダルチャネル化システムにおけるESMDAとの履歴マッチングに成功している。

Geological parameterization enables the representation of geomodels in terms of a relatively small set of variables. Parameterization is therefore very useful in the context of data assimilation and uncertainty quantification. In this study, a deep-learning-based geological parameterization algorithm, CNN-PCA, is developed for complex 3D geomodels. CNN-PCA entails the use of convolutional neural networks as a post-processor for the low-dimensional principal component analysis representation of a geomodel. The 3D treatments presented here differ somewhat from those used in the 2D CNN-PCA procedure. Specifically, we introduce a new supervised-learning-based reconstruction loss, which is used in combination with style loss and hard data loss. The style loss uses features extracted from a 3D CNN pretrained for video classification. The 3D CNN-PCA algorithm is applied for the generation of conditional 3D realizations, defined on $60\times60\times40$ grids, for three geological scenarios (binary and bimodal channelized systems, and a three-facies channel-levee-mud system). CNN-PCA realizations are shown to exhibit geological features that are visually consistent with reference models generated using object-based methods. Statistics of flow responses ($\text{P}_{10}$, $\text{P}_{50}$, $\text{P}_{90}$ percentile results) for test sets of 3D CNN-PCA models are shown to be in consistent agreement with those from reference geomodels. Lastly, CNN-PCA is successfully applied for history matching with ESMDA for the bimodal channelized system.
翻訳日:2022-11-09 22:58:57 公開日:2020-07-16
# PyTorch3Dによる3Dディープラーニングの高速化

Accelerating 3D Deep Learning with PyTorch3D ( http://arxiv.org/abs/2007.08501v1 )

ライセンス: Link先を確認
Nikhila Ravi, Jeremy Reizenstein, David Novotny, Taylor Gordon, Wan-Yen Lo, Justin Johnson, Georgia Gkioxari(参考訳) ディープラーニングは2D画像認識を大幅に改善した。 3Dへの拡張は、自動運転車、バーチャルおよび拡張現実、3Dコンテンツのオーサリング、さらには2D認識の改善など、多くの新しい応用を推し進める可能性がある。 しかし、興味が高まっているにもかかわらず、3dディープラーニングは比較的未熟である。 この格差の一部は、異種データの効率的な処理やグラフィックス操作のリフレーミングなど、3dディープラーニングに関わるエンジニアリング上の課題によるものだと考えています。 PyTorch3Dは,3次元ディープラーニングのためのモジュール型,効率的,差別化可能な演算子ライブラリである。 メッシュとポイントクラウドのための高速でモジュラーな微分可能なレンダラが含まれており、分析と合成のアプローチを可能にする。 他の差別化可能なレンダラと比較して、pytorch3dはモジュール性が高く、効率が良く、ユーザが簡単に拡張できると同時に、大規模なメッシュやイメージにも優雅に拡張できる。 我々はPyTorch3D演算子とレンダラーを他の実装と比較し、大幅な速度とメモリ改善を示す。 またPyTorch3Dを使って、ShapeNet上の2D画像から教師なしの3Dメッシュとポイントクラウドの予測を改善する。 PyTorch3Dはオープンソースで、3Dディープラーニングの研究を加速したいと考えている。

Deep learning has significantly improved 2D image recognition. Extending into 3D may advance many new applications including autonomous vehicles, virtual and augmented reality, authoring 3D content, and even improving 2D recognition. However despite growing interest, 3D deep learning remains relatively underexplored. We believe that some of this disparity is due to the engineering challenges involved in 3D deep learning, such as efficiently processing heterogeneous data and reframing graphics operations to be differentiable. We address these challenges by introducing PyTorch3D, a library of modular, efficient, and differentiable operators for 3D deep learning. It includes a fast, modular differentiable renderer for meshes and point clouds, enabling analysis-by-synthesis approaches. Compared with other differentiable renderers, PyTorch3D is more modular and efficient, allowing users to more easily extend it while also gracefully scaling to large meshes and images. We compare the PyTorch3D operators and renderer with other implementations and demonstrate significant speed and memory improvements. We also use PyTorch3D to improve the state-of-the-art for unsupervised 3D mesh and point cloud prediction from 2D images on ShapeNet. PyTorch3D is open-source and we hope it will help accelerate research in 3D deep learning.
翻訳日:2022-11-09 22:58:27 公開日:2020-07-16
# ハイパースペクトル画像解析のための深層学習の進歩--実用的なイメージングシナリオにおける課題

Advances in Deep Learning for Hyperspectral Image Analysis--Addressing Challenges Arising in Practical Imaging Scenarios ( http://arxiv.org/abs/2007.08592v1 )

ライセンス: Link先を確認
Xiong Zhou and Saurabh Prasad(参考訳) ディープニューラルネットワークは、画像分類、オブジェクト検出、セマンティックセグメンテーションなどのコンピュータビジョンタスクに非常に効果的であることが証明されている。 近年,遠隔センシングやバイオメディカルタスクのためのハイパースペクトル・マルチスペクトル画像にディープラーニングアルゴリズムが適用されている。 これらのマルチチャンネル画像には、効果的な画像分析のために対処しなければならない独自の課題が伴う。 課題には、限られた基底的真理(注釈は高価であり、広範囲なラベリングは不可能であることが多い)、データの高次元的性質(各ピクセルは数百のスペクトル帯域で表される)、大量のラベルのないデータと、同じシーンを観察する複数のセンサー/ソースを活用する可能性がある。 この章では、これらのユニークな課題にもかかわらず、強固なハイパースペクトル画像分析にディープラーニングを利用するコミュニティの最近の進歩を概観する。具体的には、画像分析に対する教師なし、半教師なし、アクティブな学習アプローチ、およびマルチソース画像分析のための転送学習アプローチ(例えば、マルチセンサー、マルチタイムポーラ)について検討する。

Deep neural networks have proven to be very effective for computer vision tasks, such as image classification, object detection, and semantic segmentation -- these are primarily applied to color imagery and video. In recent years, there has been an emergence of deep learning algorithms being applied to hyperspectral and multispectral imagery for remote sensing and biomedicine tasks. These multi-channel images come with their own unique set of challenges that must be addressed for effective image analysis. Challenges include limited ground truth (annotation is expensive and extensive labeling is often not feasible), and high dimensional nature of the data (each pixel is represented by hundreds of spectral bands), despite being presented by a large amount of unlabeled data and the potential to leverage multiple sensors/sources that observe the same scene. In this chapter, we will review recent advances in the community that leverage deep learning for robust hyperspectral image analysis despite these unique challenges -- specifically, we will review unsupervised, semi-supervised and active learning approaches to image analysis, as well as transfer learning approaches for multi-source (e.g. multi-sensor, or multi-temporal) image analysis.
翻訳日:2022-11-09 22:58:03 公開日:2020-07-16
# 近似線形時間における最適ロバスト線形回帰

Optimal Robust Linear Regression in Nearly Linear Time ( http://arxiv.org/abs/2007.08137v1 )

ライセンス: Link先を確認
Yeshwanth Cherapanamjeri, Efe Aras, Nilesh Tripuraneni, Michael I. Jordan, Nicolas Flammarion, Peter L. Bartlett(参考訳) 生成モデル $y = \langle x,w^* \rangle + \epsilon$ ($x \in \mathbb{r}^d$ と $\epsilon$ independent) から学習者が$n$ のサンプルにアクセスできるような高次元のロバストな線形回帰の問題を研究し、そのサンプルのうち$\eta$ の割が反対に破損している。 この問題に対する推定器を2つの設定で提案する。 (i) $x$ は l4-l2 hypercontractive、$\mathbb{e} [xx^\top]$ は有界条件数、$\epsilon$ は有界分散を持つ。 (ii) $x$ は等式 2 番目の部分ガウジアンであり、$\epsilon$ は準ガウジアンである。 どちらの設定でも、推定器は以下のとおりです。 (a)最適試料複雑度及び回収保証をログファクターまで達成し、 (b) ほぼ線形時間 (\tilde{O}(nd / \eta^6)$) で実行する。 我々の研究に先立ち、最適なサンプル複素量に近い多項式時間アルゴリズムは、同一性共分散を持つ$X$がガウス的であり、$\epsilon$がガウス的であり、任意の設定において線形時間推定器が堅牢な線形回帰について知られていないような環境でのみ知られていた。 我々の推定器とその解析法は、より高速な平均推定アルゴリズムの構築と、ガウスのラウンドリング技術と並行して測度論法を洗練し、統計サンプルの複雑さを向上する。

We study the problem of high-dimensional robust linear regression where a learner is given access to $n$ samples from the generative model $Y = \langle X,w^* \rangle + \epsilon$ (with $X \in \mathbb{R}^d$ and $\epsilon$ independent), in which an $\eta$ fraction of the samples have been adversarially corrupted. We propose estimators for this problem under two settings: (i) $X$ is L4-L2 hypercontractive, $\mathbb{E} [XX^\top]$ has bounded condition number and $\epsilon$ has bounded variance and (ii) $X$ is sub-Gaussian with identity second moment and $\epsilon$ is sub-Gaussian. In both settings, our estimators: (a) Achieve optimal sample complexities and recovery guarantees up to log factors and (b) Run in near linear time ($\tilde{O}(nd / \eta^6)$). Prior to our work, polynomial time algorithms achieving near optimal sample complexities were only known in the setting where $X$ is Gaussian with identity covariance and $\epsilon$ is Gaussian, and no linear time estimators were known for robust linear regression in any setting. Our estimators and their analysis leverage recent developments in the construction of faster algorithms for robust mean estimation to improve runtimes, and refined concentration of measure arguments alongside Gaussian rounding techniques to improve statistical sample complexities.
翻訳日:2022-11-09 22:50:49 公開日:2020-07-16
# 修正されたクロスエントロピーコスト:明示的な多様性奨励のための枠組み

Amended Cross Entropy Cost: Framework For Explicit Diversity Encouragement ( http://arxiv.org/abs/2007.08140v1 )

ライセンス: Link先を確認
Ron Shoham and Haim Permuter(参考訳) クロスエントロピー(cross entropy、ce)は、機械学習、特にニューラルネットワークにおいて重要な役割を担っている。 一般に、ラベルの既知の分布とSoftmax/Sigmoid出力の間のコストとしてニューラルネットワークで使用される。 本稿では,新しいコスト関数であるAmended Cross Entropy(ACE)を提案する。 その斬新さは、複数の分類器を訓練する能力と、それらの間の多様性を明示的に制御できることにある。 グラデーションの動作を希望する数学的解析と「リバースエンジニアリング」によって新たなコストを導出し,所望の結果を達成するためのテーラーメイド,エレガント,直感的なコスト関数を作成した。 このプロセスは、CEコストが線形微分を得るためのSoftmax/Sigmoid分類器のコスト関数として選択される方法に似ている。 最適な多様性係数を選択することで、バニラよりも良い結果をもたらすアンサンブルを生成する。 この結果の2つの潜在的利用例を示し、実証結果を示す。 本手法は回帰問題に対する負相関学習(NCL)と類似した分類問題に有効である。

Cross Entropy (CE) has an important role in machine learning and, in particular, in neural networks. It is commonly used in neural networks as the cost between the known distribution of the label and the Softmax/Sigmoid output. In this paper we present a new cost function called the Amended Cross Entropy (ACE). Its novelty lies in its affording the capability to train multiple classifiers while explicitly controlling the diversity between them. We derived the new cost by mathematical analysis and "reverse engineering" of the way we wish the gradients to behave, and produced a tailor-made, elegant and intuitive cost function to achieve the desired result. This process is similar to the way that CE cost is picked as a cost function for the Softmax/Sigmoid classifiers for obtaining linear derivatives. By choosing the optimal diversity factor we produce an ensemble which yields better results than the vanilla one. We demonstrate two potential usages of this outcome, and present empirical results. Our method works for classification problems analogously to Negative Correlation Learning (NCL) for regression problems.
翻訳日:2022-11-09 22:50:17 公開日:2020-07-16
# クロスフィルタリング雑音ラベルによる音声タグ付け

Audio Tagging by Cross Filtering Noisy Labels ( http://arxiv.org/abs/2007.08165v1 )

ライセンス: Link先を確認
Boqing Zhu, Kele Xu, Qiuqiang Kong, Huaimin Wang, Yuxing Peng(参考訳) 高品質なラベル付きデータセットによって、ディープラーニングは多くの音響分析タスクで印象的な結果を得ることができる。 しかし、大量のオーディオデータを正確に注釈付けるのに手間がかかり、データセットには実用的な設定でノイズの多いラベルが含まれている可能性がある。 一方、ディープニューラルネットワークは、記憶力に優れたため、誤ったラベル付きデータに影響を受けやすい。 本稿では,音声タグ付けにおける雑音ラベル問題に対処するために,crossfilterという新しい枠組みを提案する。 複数の表現(LogmelやMFCCなど)が我々のフレームワークの入力として使われ、より補完的なオーディオ情報を提供する。 そして、2つのニューラルネットワークの協調と相互作用にもかかわらず、ノイズのあるデータから正しいラベル付きデータをインクリメンタルに選択することで、データセットをキュレートされた、ノイズの多いサブセットに分割する。 さらに,データ集合全体を十分に活用するために,損失関数の異なる,キュレーションやノイズの多い部分集合に対するマルチタスク学習も活用する。 ノイズロバスト損失関数は、誤ったラベルの悪影響を軽減するために用いられる。 オーディオタグ付けデータセットであるFSDKaggle2018とFSDKaggle2019では、他の競合するアプローチと比べてパフォーマンス改善が実証されている。 FSDKaggle2018データセットでは,本手法は最先端の性能を達成し,アンサンブルモデルを超えている。

High quality labeled datasets have allowed deep learning to achieve impressive results on many sound analysis tasks. Yet, it is labor-intensive to accurately annotate large amount of audio data, and the dataset may contain noisy labels in the practical settings. Meanwhile, the deep neural networks are susceptive to those incorrect labeled data because of their outstanding memorization ability. In this paper, we present a novel framework, named CrossFilter, to combat the noisy labels problem for audio tagging. Multiple representations (such as, Logmel and MFCC) are used as the input of our framework for providing more complementary information of the audio. Then, though the cooperation and interaction of two neural networks, we divide the dataset into curated and noisy subsets by incrementally pick out the possibly correctly labeled data from the noisy data. Moreover, our approach leverages the multi-task learning on curated and noisy subsets with different loss function to fully utilize the entire dataset. The noisy-robust loss function is employed to alleviate the adverse effects of incorrect labels. On both the audio tagging datasets FSDKaggle2018 and FSDKaggle2019, empirical results demonstrate the performance improvement compared with other competing approaches. On FSDKaggle2018 dataset, our method achieves state-of-the-art performance and even surpasses the ensemble models.
翻訳日:2022-11-09 22:49:59 公開日:2020-07-16
# 移動モード分類のための正規パターン遷移グラフの自己遷移確率の活用

Leveraging the Self-Transition Probability of Ordinal Pattern Transition Graph for Transportation Mode Classification ( http://arxiv.org/abs/2007.08687v1 )

ライセンス: Link先を確認
I. Cardoso-Pereira, J. B. Borges, P. H. Barros, A. F. Loureiro, O. A. Rosso, H. S. Ramos(参考訳) GPSトラジェクトリの分析は、都市コンピューティングにおいてよく研究されている問題であり、人々を追跡するために使われてきた。 交通渋滞や移動時間を減らしたい都市にとって、モビリティの分析や交通手段の特定が不可欠であり、市民の生活の質の向上に寄与する。 移動物体の軌道データは、時間を通しての離散的な点の集合、すなわち時系列によって表現される。 実世界の応用の学際的かつ幅広い範囲において、時系列データから知識を抽出する必要があることは明らかである。 しかし、この種のデータのマイニングは、そのユニークな特性のために、いくつかの複雑さに直面します。 データの異なる表現がこれを克服する可能性がある。 本研究は,交通モード分類における自己遷移の確率という,通常のパターン遷移グラフから保持される特徴の利用を提案する。 提案手法は,これらを組み合わせた場合であっても,置換エントロピーや統計的複雑度よりも精度がよい。 交通モードの分類に情報理論量化器を使用し、この種の問題に対して実現可能なアプローチであることを示すのは、これが私たちの知る限りでは最初の作業です。

The analysis of GPS trajectories is a well-studied problem in Urban Computing and has been used to track people. Analyzing people mobility and identifying the transportation mode used by them is essential for cities that want to reduce traffic jams and travel time between their points, thus helping to improve the quality of life of citizens. The trajectory data of a moving object is represented by a discrete collection of points through time, i.e., a time series. Regarding its interdisciplinary and broad scope of real-world applications, it is evident the need of extracting knowledge from time series data. Mining this type of data, however, faces several complexities due to its unique properties. Different representations of data may overcome this. In this work, we propose the use of a feature retained from the Ordinal Pattern Transition Graph, called the probability of self-transition for transportation mode classification. The proposed feature presents better accuracy results than Permutation Entropy and Statistical Complexity, even when these two are combined. This is the first work, to the best of our knowledge, that uses Information Theory quantifiers to transportation mode classification, showing that it is a feasible approach to this kind of problem.
翻訳日:2022-11-09 22:48:22 公開日:2020-07-16
# 残響音声から無響音声への変換:BERTによる発声

Translate Reverberated Speech to Anechoic Ones: Speech Dereverberation with BERT ( http://arxiv.org/abs/2007.08052v1 )

ライセンス: Link先を確認
Yang Jiao(参考訳) 本研究では,単一チャネル音声の残響について考察する。 自然言語処理領域(nlp)におけるトランスフォーマ(bert)モデルからの双方向エンコーダ表現の最近の成功に触発されて,残響音声信号の強調のためのバックボーンシーケンスモデルとしての適用性について検討した。 本稿では,バックボーン系列モデルに先立って,局所的スペクトル-時間情報の抽出と順序情報の提供を行う前シーケンスネットワークについて述べる。 さらに,前訓練したニューラルボコーダを用いて暗黙の位相再構成を行う。 本手法を評価するため,第3回CHiMEチャレンジのデータを用いて,他の手法との比較を行った。 実験の結果,提案手法は従来のWPEよりも優れており,最先端のBLSTMに基づくシーケンスモデルと同等の性能を発揮することがわかった。

Single channel speech dereverberation is considered in this work. Inspired by the recent success of Bidirectional Encoder Representations from Transformers (BERT) model in the domain of Natural Language Processing (NLP), we investigate its applicability as backbone sequence model to enhance reverberated speech signal. We present a variation of the basic BERT model: a pre-sequence network, which extracts local spectral-temporal information and/or provides order information, before the backbone sequence model. In addition, we use pre-trained neural vocoder for implicit phase reconstruction. To evaluate our method, we used the data from the 3rd CHiME challenge, and compare our results with other methods. Experiments show that the proposed method outperforms traditional method WPE, and achieve comparable performance with state-of-the-art BLSTM-based sequence models.
翻訳日:2022-11-09 22:42:06 公開日:2020-07-16
# メモリ制約付き近完全ハッシュ化のための遺伝的アルゴリズム

A Genetic Algorithm for Obtaining Memory Constrained Near-Perfect Hashing ( http://arxiv.org/abs/2007.08311v1 )

ライセンス: Link先を確認
Dan Domnita and Ciprian Oprisa(参考訳) 固定コレクションから高速なアイテムを検索する問題は、オペレーティングシステムのコンポーネントからデータベースやユーザインターフェースに至るまで、ほとんどのコンピュータサイエンス領域でしばしば発生する。 本稿では,検索時の比較回数の最小化と,総コレクションサイズを最小化することに焦点を当てたハッシュテーブルに基づくアプローチを提案する。 ハッシュテーブル内のデータの均一な分布を確保するために、パラメータ化が可能な非線形変換によって、標準のオープンアドレッシングダブルハッシングアプローチが改善される。 最適パラメータは遺伝的アルゴリズムを用いて決定される。 論文の結果、ほぼ完全なハッシュはバイナリ検索よりも高速であるが、完全ハッシュよりもメモリ使用量が少ないことが示され、検索時間も重要なメモリ制約のあるアプリケーションにとって良い選択である。

The problem of fast items retrieval from a fixed collection is often encountered in most computer science areas, from operating system components to databases and user interfaces. We present an approach based on hash tables that focuses on both minimizing the number of comparisons performed during the search and minimizing the total collection size. The standard open-addressing double-hashing approach is improved with a non-linear transformation that can be parametrized in order to ensure a uniform distribution of the data in the hash table. The optimal parameter is determined using a genetic algorithm. The paper results show that near-perfect hashing is faster than binary search, yet uses less memory than perfect hashing, being a good choice for memory-constrained applications where search time is also critical.
翻訳日:2022-11-09 22:41:17 公開日:2020-07-16
# トランスファーディープ強化学習によるハイブリッドトラック車両のエネルギー管理戦略

Transfer Deep Reinforcement Learning-enabled Energy Management Strategy for Hybrid Tracked Vehicle ( http://arxiv.org/abs/2007.08690v1 )

ライセンス: Link先を確認
Xiaowei Guo, Teng Liu, Bangbei Tang, Xiaolin Tang, Jinwei Zhang, Wenhao Tan, and Shufeng Jin(参考訳) 本稿では、深部強化学習(DRL)と伝達学習(TL)を組み合わせたハイブリッド電気自動車の適応エネルギー管理戦略を提案する。 この研究は、退屈なトレーニング時間におけるDRLの欠陥に対処することを目的としている。 まず、精巧なパワートレイン成分を導入するハイブリッドトラック車両の最適化制御モデルを構築した。 次に、エネルギー管理戦略(EMS)を導出する二段階制御フレームワークを構築する。 上位層では、異なる速度間隔でEMSトレーニングを行うために、特定のDeep Deterministic Policy gradient (DDPG)アルゴリズムを適用している。 低レベルはTL法を用いて、新しい駆動サイクルのためにトレーニング済みのニューラルネットワークを変換している。 最後に、提示された制御フレームワークの有効性を証明するために、一連の実験が実行される。 定式化EMSの最適性と適応性を照明する。 DRLおよびTL対応制御ポリシは、エネルギー効率を高め、システム性能を向上させることができる。

This paper proposes an adaptive energy management strategy for hybrid electric vehicles by combining deep reinforcement learning (DRL) and transfer learning (TL). This work aims to address the defect of DRL in tedious training time. First, an optimization control modeling of a hybrid tracked vehicle is built, wherein the elaborate powertrain components are introduced. Then, a bi-level control framework is constructed to derive the energy management strategies (EMSs). The upper-level is applying the particular deep deterministic policy gradient (DDPG) algorithms for EMS training at different speed intervals. The lower-level is employing the TL method to transform the pre-trained neural networks for a novel driving cycle. Finally, a series of experiments are executed to prove the effectiveness of the presented control framework. The optimality and adaptability of the formulated EMS are illuminated. The founded DRL and TL-enabled control policy is capable of enhancing energy efficiency and improving system performance.
翻訳日:2022-11-09 22:40:42 公開日:2020-07-16
# 連系環境における車体-車体-物理系の強化学習型意思決定戦略

Reinforcement Learning-Enabled Decision-Making Strategies for a Vehicle-Cyber-Physical-System in Connected Environment ( http://arxiv.org/abs/2007.09101v1 )

ライセンス: Link先を確認
Teng Liu, Xiaolin Tang, Jinwei Zhang, Wenbo Li, Zejian Deng, Yalian Yang(参考訳) 典型的なV-CPS(V-cyber-physical-system)として、コネクテッド・オートマチック・カーは近年ますます注目を集めている。 本稿では,コネクテッド環境における自動運転車の意思決定戦略について議論する。 まずハイウェイDMの問題を定式化し、車両は無線ネットワークを介して情報を交換できる。 次に、古典的強化学習(RL)アルゴリズムであるQ-learningとDynaを利用して、事前に定義された運転シナリオにおけるDM戦略を導出する。 最後に、安全及び効率における派生dmポリシーの制御性能を解析する。 さらに、RLアルゴリズム固有の違いを具現化し、DM戦略で議論する。

As a typical vehicle-cyber-physical-system (V-CPS), connected automated vehicles attracted more and more attention in recent years. This paper focuses on discussing the decision-making (DM) strategy for autonomous vehicles in a connected environment. First, the highway DM problem is formulated, wherein the vehicles can exchange information via wireless networking. Then, two classical reinforcement learning (RL) algorithms, Q-learning and Dyna, are leveraged to derive the DM strategies in a predefined driving scenario. Finally, the control performance of the derived DM policies in safety and efficiency is analyzed. Furthermore, the inherent differences of the RL algorithms are embodied and discussed in DM strategies.
翻訳日:2022-11-09 22:40:30 公開日:2020-07-16
# 自律走行車における時系列予測の異なる方法の比較

Comparison of Different Methods for Time Sequence Prediction in Autonomous Vehicles ( http://arxiv.org/abs/2007.10786v1 )

ライセンス: Link先を確認
Teng Liu, Bin Tian, Yunfeng Ai, Long Chen, Fei Liu, Dongpu Cao(参考訳) さまざまな技術を組み合わせることで、自動運転車は認識、意思決定、計画、制御といった一連の運転タスクをそれ自体で完了させることができる。 緊急時には人間ドライバーがいないため、将来の交通情報は自動走行車にとって重要である。 本稿では,最も近い地域(NN),ファジィ符号化(FC),長期記憶(LSTM)など,自動運転車の時系列を予測するための異なる手法を提案する。 まず,これら3つのアプローチの定式化と運用プロセスについて紹介する。 次に、車両の速度をケーススタディとみなし、実世界のデータセットを用いてこれらの手法を用いて将来の情報を予測する。 最後に,提案手法の性能,メリット,欠点を分析し,考察した。

As a combination of various kinds of technologies, autonomous vehicles could complete a series of driving tasks by itself, such as perception, decision-making, planning, and control. Since there is no human driver to handle the emergency situation, future transportation information is significant for automated vehicles. This paper proposes different methods to forecast the time series for autonomous vehicles, which are the nearest neighborhood (NN), fuzzy coding (FC), and long short term memory (LSTM). First, the formulation and operational process for these three approaches are introduced. Then, the vehicle velocity is regarded as a case study and the real-world dataset is utilized to predict future information via these techniques. Finally, the performance, merits, and drawbacks of the presented methods are analyzed and discussed.
翻訳日:2022-11-09 22:40:18 公開日:2020-07-16
# 属性情報のみを持つノードの帰納的リンク予測

Inductive Link Prediction for Nodes Having Only Attribute Information ( http://arxiv.org/abs/2007.08053v1 )

ライセンス: Link先を確認
Yu Hao, Xin Cao, Yixiang Fang, Xike Xie, Sibo Wang(参考訳) 2つのノード間のリンクを予測することは、グラフデータ分析の根本的な問題である。 帰属グラフでは、構造情報と属性情報の両方をリンク予測に利用することができる。 既存の研究のほとんどは、両方のノードがすでにグラフにあるようなトランスダクティブリンク予測に焦点を当てている。 しかし、多くの実世界のアプリケーションは属性情報のみを持つ新しいノードに対して帰納的予測を必要とする。 新しいノードは構造情報を持っておらず、モデルのトレーニング中に見ることができないため、より難しい。 この問題を解決するため、2つのノード埋め込みエンコーダと1つのアライメント機構からなるdealと呼ばれるモデルを提案する。 2つのエンコーダは属性指向ノードの埋め込みと構造指向ノードの埋め込みを出力することを目的としており、アライメント機構は属性とリンク間の接続を構築するために2種類の埋め込みをアライメントする。 私たちのモデルディールは、インダクティブリンク予測とトランスダクティブリンク予測の両方で機能するという意味では万能です。 いくつかのベンチマークデータセットにおいて,提案手法は既存のインダクティブリンク予測手法を著しく上回り,また,トランスダクティブリンク予測における最先端手法よりも優れていることを示す。

Predicting the link between two nodes is a fundamental problem for graph data analytics. In attributed graphs, both the structure and attribute information can be utilized for link prediction. Most existing studies focus on transductive link prediction where both nodes are already in the graph. However, many real-world applications require inductive prediction for new nodes having only attribute information. It is more challenging since the new nodes do not have structure information and cannot be seen during the model training. To solve this problem, we propose a model called DEAL, which consists of three components: two node embedding encoders and one alignment mechanism. The two encoders aim to output the attribute-oriented node embedding and the structure-oriented node embedding, and the alignment mechanism aligns the two types of embeddings to build the connections between the attributes and links. Our model DEAL is versatile in the sense that it works for both inductive and transductive link prediction. Extensive experiments on several benchmark datasets show that our proposed model significantly outperforms existing inductive link prediction methods, and also outperforms the state-of-the-art methods on transductive link prediction.
翻訳日:2022-11-09 22:40:07 公開日:2020-07-16
# コンピュータビジョンのための高忠実度合成顔フレームワーク

A high fidelity synthetic face framework for computer vision ( http://arxiv.org/abs/2007.08364v1 )

ライセンス: Link先を確認
Tadas Baltrusaitis, Erroll Wood, Virginia Estellers, Charlie Hewitt, Sebastian Dziadzio, Marek Kowalski, Matthew Johnson, Thomas J. Cashman, and Jamie Shotton(参考訳) 顔の分析はコンピュータビジョンの核となる応用の一つであり、ランドマークアライメント、頭の位置推定、表情認識、顔認識など様々なタスクがある。 しかし、信頼できるメソッドを構築するには、時間を要するデータ収集と、さらに時間を要する手作業によるアノテーションが必要だ。 本研究では,合成データを用いて,手作業によるアノテーションによる取得がほぼ不可能となるような,真理アノテーションを含む顔データの合成を提案する。 パラメトリックな顔モデルと手作りの資産を用いて、前例のない品質と多様性(形状、テクスチャ、表現、ポーズ、照明、髪)でトレーニングデータを生成することができる。

Analysis of faces is one of the core applications of computer vision, with tasks ranging from landmark alignment, head pose estimation, expression recognition, and face recognition among others. However, building reliable methods requires time-consuming data collection and often even more time-consuming manual annotation, which can be unreliable. In our work we propose synthesizing such facial data, including ground truth annotations that would be almost impossible to acquire through manual annotation at the consistency and scale possible through use of synthetic data. We use a parametric face model together with hand crafted assets which enable us to generate training data with unprecedented quality and diversity (varying shape, texture, expression, pose, lighting, and hair).
翻訳日:2022-11-09 22:32:45 公開日:2020-07-16
# クロネッカー・アテンション・ネットワーク

Kronecker Attention Networks ( http://arxiv.org/abs/2007.08442v1 )

ライセンス: Link先を確認
Hongyang Gao, Zhengyang Wang, Shuiwang Ji(参考訳) 注意演算子はテキストのような1次元データと画像やビデオのような高次データの両方に適用されている。 高次データに対する注意演算子の使用には、空間的あるいは時空間的な次元の平坦化が必要であり、これは多変量正規分布に従うと仮定される。 これは計算資源の過剰な要求を生じさせるだけでなく、データ構造を保存できない。 本研究では,行列変量正規分布に従えばフラット化を回避することを提案する。 この新たな視点に基づいて,高次テンソルデータを直接操作するKronecker attention operator (KAOs) を開発した。 さらに重要なことに、提案されたKAOは計算資源の劇的な削減につながる。 実験の結果,高次元データと高次データでは,必要な計算資源の量を数百倍に削減できることがわかった。 また,kaosを用いたネットワークは,元々の注意操作者に比べて競争性能を保ちながら,注意力のないモデルよりも優れていた。

Attention operators have been applied on both 1-D data like texts and higher-order data such as images and videos. Use of attention operators on high-order data requires flattening of the spatial or spatial-temporal dimensions into a vector, which is assumed to follow a multivariate normal distribution. This not only incurs excessive requirements on computational resources, but also fails to preserve structures in data. In this work, we propose to avoid flattening by assuming the data follow matrix-variate normal distributions. Based on this new view, we develop Kronecker attention operators (KAOs) that operate on high-order tensor data directly. More importantly, the proposed KAOs lead to dramatic reductions in computational resources. Experimental results show that our methods reduce the amount of required computational resources by a factor of hundreds, with larger factors for higher-dimensional and higher-order data. Results also show that networks with KAOs outperform models without attention, while achieving competitive performance as those with original attention operators.
翻訳日:2022-11-09 22:32:19 公開日:2020-07-16
# openDD: 大規模なドローンデータセット

openDD: A Large-Scale Roundabout Drone Dataset ( http://arxiv.org/abs/2007.08463v1 )

ライセンス: Link先を確認
Antonia Breuer, Jan-Aike Term\"ohlen, Silviu Homoceanu, Tim Fingscheidt(参考訳) ego車両周辺の交通状況の分析と予測は、自動運転における重要な課題の1つだ。 シーン内に存在するすべての道路利用者の軌跡を含むデータセットと基盤となる道路トポロジは、異なる交通参加者の行動を分析するのに有用である。 様々な交通参加者間の相互作用は、信号機によって規制されていない交差点タイプで特に高く、最も一般的なものはラウンドアバウトである。 84,774個のトラジェクタと7種類のラウンドアラウンドのhdマップデータを含むopenddデータセットを紹介する。 OpenDDデータセットは、501回の飛行でドローンが撮影した画像を使用して注釈付けされ、62時間以上の軌道データで合計される。 現在、openddはドローンの観点から記録されている最大の軌道データセットであり、比較可能なデータセットは最大17時間に及ぶ。 データは、商用および非商用の両方で利用可能である。

Analyzing and predicting the traffic scene around the ego vehicle has been one of the key challenges in autonomous driving. Datasets including the trajectories of all road users present in a scene, as well as the underlying road topology are invaluable to analyze the behavior of the different traffic participants. The interaction between the various traffic participants is especially high in intersection types that are not regulated by traffic lights, the most common one being the roundabout. We introduce the openDD dataset, including 84,774 accurately tracked trajectories and HD map data of seven different roundabouts. The openDD dataset is annotated using images taken by a drone in 501 separate flights, totalling in over 62 hours of trajectory data. As of today, openDD is by far the largest publicly available trajectory dataset recorded from a drone perspective, while comparable datasets span 17 hours at most. The data is available, for both commercial and noncommercial use, at: http://www.l3pilot.eu/openDD.
翻訳日:2022-11-09 22:31:45 公開日:2020-07-16
# featmatch: 半教師付き学習のための機能ベース拡張

FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning ( http://arxiv.org/abs/2007.08505v1 )

ライセンス: Link先を確認
Chia-Wen Kuo and Chih-Yao Ma and Jia-Bin Huang and Zsolt Kira(参考訳) 最近の最先端の半教師付き学習(SSL)手法は、画像ベースの変換と一貫性の正則化をコアコンポーネントとして用いている。 しかし、そのような方法は従来のデータ拡張や2つの画像の凸結合のような単純な変換に限られる。 本稿では,多種多様な複雑な変換を生成する特徴量に基づく改良・拡張手法を提案する。 重要なことは、これらの変換はクラスタリングを通して抽出したクラス内およびクラス横断のプロトタイプ表現の情報も利用する。 私たちは、メモリバンクにそれらを格納することで、イテレーション全体で計算された機能を既に使用しています。 これらの変換と従来のイメージベースの拡張の組み合わせは、一貫性に基づく正規化損失の一部として使用される。 この手法は,cifar-100 や mini-imagenet のような大規模データセットまでスケールアップできる一方で,より小さなデータセット (cifar-10 や svhn) に対する現在の art に匹敵するものであることを実証する(例えば,mini-imagenet における絶対値 17.44\% の利得)。 さらに,本手法をDomainNet上でテストし,ドメイン外の未ラベルデータに対してより堅牢性を示すとともに,厳密な改善と解析を行い,検証を行った。

Recent state-of-the-art semi-supervised learning (SSL) methods use a combination of image-based transformations and consistency regularization as core components. Such methods, however, are limited to simple transformations such as traditional data augmentation or convex combinations of two images. In this paper, we propose a novel learned feature-based refinement and augmentation method that produces a varied set of complex transformations. Importantly, these transformations also use information from both within-class and across-class prototypical representations that we extract through clustering. We use features already computed across iterations by storing them in a memory bank, obviating the need for significant extra computation. These transformations, combined with traditional image-based augmentation, are then used as part of the consistency-based regularization loss. We demonstrate that our method is comparable to current state of art for smaller datasets (CIFAR-10 and SVHN) while being able to scale up to larger datasets such as CIFAR-100 and mini-Imagenet where we achieve significant gains over the state of art (\textit{e.g.,} absolute 17.44\% gain on mini-ImageNet). We further test our method on DomainNet, demonstrating better robustness to out-of-domain unlabeled data, and perform rigorous ablations and analysis to validate the method.
翻訳日:2022-11-09 22:31:08 公開日:2020-07-16
# 材料発見・設計のための実用的な科学的洞察を明らかにするための説明可能な深層学習

Explainable Deep Learning for Uncovering Actionable Scientific Insights for Materials Discovery and Design ( http://arxiv.org/abs/2007.08631v1 )

ライセンス: Link先を確認
Shusen Liu, Bhavya Kailkhura, Jize Zhang, Anna M. Hiszpanski, Emily Robertson, Donald Loveland, T. Yong-Jin Han(参考訳) 科学コミュニティは、さまざまな領域の課題を解決するためにディープラーニングの力を活用することにますます関心を寄せている。 しかしながら、予測モデルの構築の有効性にもかかわらず、その不透明な性質から深層ニューラルネットワークから実行可能な知識を抽出する上で、根本的な課題が存在する。 本研究では,分析パイプラインに可変なknobsとしてドメイン固有動作可能な属性を注入することにより,ディープラーニングモデルの振る舞いを探索する手法を提案する。 ドメイン知識を生成モデリングフレームワークに組み込むことで、これらのブラックボックスモデルの振る舞いをよりよく理解できるだけでなく、科学者に基本的な発見につながる可能性のある実用的な洞察を提供することができます。

The scientific community has been increasingly interested in harnessing the power of deep learning to solve various domain challenges. However, despite the effectiveness in building predictive models, fundamental challenges exist in extracting actionable knowledge from deep neural networks due to their opaque nature. In this work, we propose techniques for exploring the behavior of deep learning models by injecting domain-specific actionable attributes as tunable "knobs" in the analysis pipeline. By incorporating the domain knowledge in a generative modeling framework, we are not only able to better understand the behavior of these black-box models, but also provide scientists with actionable insights that can potentially lead to fundamental discoveries.
翻訳日:2022-11-09 22:30:31 公開日:2020-07-16
# マルチタスクゲートリカレントユニットを用いた電子健康記録からの心血管疾患発症の予測

Prediction of the onset of cardiovascular diseases from electronic health records using multi-task gated recurrent units ( http://arxiv.org/abs/2007.08491v1 )

ライセンス: Link先を確認
Fernando Andreotti, Frank S. Heldt, Basel Abu-Jamous, Ming Li, Avelino Javer, Oliver Carr, Stojan Jovanovic, Nadezda Lipunova, Benjamin Irving, Rabia T. Khan, Robert D\"urichen(参考訳) 本研究では,電子健康記録(ehrs)から心血管イベントを時間軸ごとに予測するための注意機構を備えたマルチタスクリカレントニューラルネットワークを提案する。 提案手法は,nhs foundation trustの5年間のデータを用いて,標準臨床リスク予測器(qrisk)と機械学習代替品と比較した。 予測脳卒中 (auc=0.85) と心筋梗塞 (auc=0.89) における標準臨床リスクスコアを, 最大時間軸を考慮し, 比較検討した。 gls{mt} 設定を使うことの利点は、非常に短時間の水平線で見え、その結果 AUC は 2-6% に増加する。 さらに,心血管イベントの予測における個々の特徴と注意重みの重要性について検討した。 以上の結果から,リカレントニューラルネットワークアプローチは病院の縦断情報から利益を得られることを示し,二次医療における機械学習手法の適用方法を示す。

In this work, we propose a multi-task recurrent neural network with attention mechanism for predicting cardiovascular events from electronic health records (EHRs) at different time horizons. The proposed approach is compared to a standard clinical risk predictor (QRISK) and machine learning alternatives using 5-year data from a NHS Foundation Trust. The proposed model outperforms standard clinical risk scores in predicting stroke (AUC=0.85) and myocardial infarction (AUC=0.89), considering the largest time horizon. Benefit of using an \gls{mt} setting becomes visible for very short time horizons, which results in an AUC increase between 2-6%. Further, we explored the importance of individual features and attention weights in predicting cardiovascular events. Our results indicate that the recurrent neural network approach benefits from the hospital longitudinal information and demonstrates how machine learning techniques can be applied to secondary care.
翻訳日:2022-11-09 22:23:18 公開日:2020-07-16
# SketchGraphs:コンピュータ支援設計における関係幾何学モデリングのための大規模データセット

SketchGraphs: A Large-Scale Dataset for Modeling Relational Geometry in Computer-Aided Design ( http://arxiv.org/abs/2007.08506v1 )

ライセンス: Link先を確認
Ari Seff, Yaniv Ovadia, Wenda Zhou, Ryan P. Adams(参考訳) CAD(Parametric Computer-Aided Design)は、物理設計における機械工学の主要なパラダイムである。 パラメトリックCADモデルは、幾何学的プリミティブ(線分、弧など)とそれらの間の明示的な制約(偶然、垂直性など)からなる2次元スケッチとして始まり、3次元構成操作の基礎となる。 パラメトリックCAD設計を推論し合成するための機械学習モデルを訓練することは、設計時間を短縮し、新しい設計ワークフローを可能にする可能性がある。 さらに、パラメトリックCAD設計は制約プログラミングの例と見なすことができ、プログラムの合成と帰納に関するアイデアを探求するためのよく観察されたテストベッドを提供する。 本研究では,実世界のCADモデルから抽出した1500万のスケッチと,オープンソースのデータ処理パイプラインを組み合わせたSketchGraphsを紹介する。 各スケッチは幾何学的制約グラフとして表現され、辺はグラフのノードであるプリミティブ間のデザイナーによる幾何学的関係を表す。 我々は,データセットの2つのユースケースについて,スケッチの生成的モデリングと,制約のない幾何学的制約の条件付き生成のベンチマークを実証し,確立する。

Parametric computer-aided design (CAD) is the dominant paradigm in mechanical engineering for physical design. Distinguished by relational geometry, parametric CAD models begin as two-dimensional sketches consisting of geometric primitives (e.g., line segments, arcs) and explicit constraints between them (e.g., coincidence, perpendicularity) that form the basis for three-dimensional construction operations. Training machine learning models to reason about and synthesize parametric CAD designs has the potential to reduce design time and enable new design workflows. Additionally, parametric CAD designs can be viewed as instances of constraint programming and they offer a well-scoped test bed for exploring ideas in program synthesis and induction. To facilitate this research, we introduce SketchGraphs, a collection of 15 million sketches extracted from real-world CAD models coupled with an open-source data processing pipeline. Each sketch is represented as a geometric constraint graph where edges denote designer-imposed geometric relationships between primitives, the nodes of the graph. We demonstrate and establish benchmarks for two use cases of the dataset: generative modeling of sketches and conditional generation of likely constraints given unconstrained geometry.
翻訳日:2022-11-09 22:23:00 公開日:2020-07-16
# Sparse Linear Contextual Bandit 問題に対するオンラインラッソの平滑化解析

A Smoothed Analysis of Online Lasso for the Sparse Linear Contextual Bandit Problem ( http://arxiv.org/abs/2007.08561v1 )

ライセンス: Link先を確認
Zhiyuan Liu, Huazheng Wang, Bo Waggoner, Youjian (Eugene) Liu, Lijun Chen(参考訳) パラメータ$\theta$がスパースであるスパース線形文脈帯域問題について検討する。 サンプリング非効率を緩和するために、コンテキストが逆向きに生成されるが、ランダムな非適応的摂動が小さい「摂動逆」を用いる。 簡単なオンラインラッソは、$d \gg T$ が有効次元の個数であり、$k$ と $d$ が実効次元および周辺次元の個数である場合でも、残差が $\mathcal{O}(\sqrt{kT\log d})$ でスパース線形文脈帯域をサポートすることを証明している。 Sivakumar et al. (2020) の最近の研究と比較すると、我々の分析は事前条件処理、適応摂動(適応摂動はi.dの摂動設定に反する)、あるいは誤差セットのトランケーションに依存していない。 さらに, 本研究の特殊構造は, 摂動が探査期間に与える影響を明示し, 摂動法の基本的な性能限界とともに摂動の設計を導く。 理論的解析を補完する数値実験が提供されている。

We investigate the sparse linear contextual bandit problem where the parameter $\theta$ is sparse. To relieve the sampling inefficiency, we utilize the "perturbed adversary" where the context is generated adversarilly but with small random non-adaptive perturbations. We prove that the simple online Lasso supports sparse linear contextual bandit with regret bound $\mathcal{O}(\sqrt{kT\log d})$ even when $d \gg T$ where $k$ and $d$ are the number of effective and ambient dimension, respectively. Compared to the recent work from Sivakumar et al. (2020), our analysis does not rely on the precondition processing, adaptive perturbation (the adaptive perturbation violates the i.i.d perturbation setting) or truncation on the error set. Moreover, the special structures in our results explicitly characterize how the perturbation affects exploration length, guide the design of perturbation together with the fundamental performance limit of perturbation method. Numerical experiments are provided to complement the theoretical analysis.
翻訳日:2022-11-09 22:22:11 公開日:2020-07-16
# 機械学習のためのグラフトポロジー推論ベンチマーク

Graph topology inference benchmarks for machine learning ( http://arxiv.org/abs/2007.08216v1 )

ライセンス: Link先を確認
Carlos Lassance and Vincent Gripon and Gonzalo Mateos(参考訳) グラフは現在、信号処理と機械学習の分野で広く使われている。 オブジェクト間の関係を表現するツールとして、グラフは様々な端に展開することができる: (I) 頂点のクラスタリング、 (II) 頂点の半教師付き分類、 (III) グラフ信号の教師付き分類、 (IV) グラフ信号の復調。 しかし、多くの場合、グラフは明示的に利用できないため、データから推測する必要がある。 検証は、グラフが学習される下流のタスクに自然に依存する、難しい取り組みです。 したがって、異なるアルゴリズムの有効性を比較することはしばしば困難である。 本研究では,グラフ推論手法の相対的メリットと限界を明らかにするために,いくつかの簡易かつ公開なベンチマークを紹介する。 我々はまた、文学における最も顕著な技法のいくつかを対比する。

Graphs are nowadays ubiquitous in the fields of signal processing and machine learning. As a tool used to express relationships between objects, graphs can be deployed to various ends: I) clustering of vertices, II) semi-supervised classification of vertices, III) supervised classification of graph signals, and IV) denoising of graph signals. However, in many practical cases graphs are not explicitly available and must therefore be inferred from data. Validation is a challenging endeavor that naturally depends on the downstream task for which the graph is learnt. Accordingly, it has often been difficult to compare the efficacy of different algorithms. In this work, we introduce several ease-to-use and publicly released benchmarks specifically designed to reveal the relative merits and limitations of graph inference methods. We also contrast some of the most prominent techniques in the literature.
翻訳日:2022-11-09 22:14:10 公開日:2020-07-16
# サポートベクトルマシン分類器のラジアル基底関数カーネル最適化

Radial basis function kernel optimization for Support Vector Machine classifiers ( http://arxiv.org/abs/2007.08233v1 )

ライセンス: Link先を確認
Karl Thurnhofer-Hemsi, Ezequiel L\'opez-Rubio, Miguel A. Molina-Cabello, Kayvan Najarian(参考訳) Support Vector Machines (SVM) は今でも最も人気があり正確な分類法の一つである。 Radial Basis Function (RBF)カーネルは、SVMにおいて、かなり成功したクラス間で分離するために使われている。 しかし、カーネルハイパーパラメータの初期値には固有の依存性がある。 本研究では,RBFカーネルハイパーパラメータを自動的に学習し,SVM重みを同時に調整するアルゴリズムであるOKSVMを提案する。 提案手法は勾配降下法に基づく。 合成データおよび実データに基づく分類において,従来のSVMに対するアプローチの性能を解析する。 実験結果から,OKSVMはRBFハイパーパラメータの初期値によらず高い性能を示した。

Support Vector Machines (SVMs) are still one of the most popular and precise classifiers. The Radial Basis Function (RBF) kernel has been used in SVMs to separate among classes with considerable success. However, there is an intrinsic dependence on the initial value of the kernel hyperparameter. In this work, we propose OKSVM, an algorithm that automatically learns the RBF kernel hyperparameter and adjusts the SVM weights simultaneously. The proposed optimization technique is based on a gradient descent method. We analyze the performance of our approach with respect to the classical SVM for classification on synthetic and real data. Experimental results show that OKSVM performs better irrespective of the initial values of the RBF hyperparameter.
翻訳日:2022-11-09 22:13:57 公開日:2020-07-16
# 相対的特徴の重要性

Relative Feature Importance ( http://arxiv.org/abs/2007.08283v1 )

ライセンス: Link先を確認
Gunnar K\"onig, Christoph Molnar, Bernd Bischl, Moritz Grosse-Wentrup(参考訳) 解釈可能な機械学習(IML)手法は、モデルの性能に対する興味のある特徴の関連性を理解するために用いられる。 一般的に使用されるIMLメソッドは、PFI(Permutation Feature Importance)や、CFI(Conditional Feature Importance)などの残りのすべての特徴変数に関して、分離に関心のある特徴を考慮するかどうかが異なる。 このように、PFIとCFIに固有の摂動機構は極端な基準点を表す。 本稿では,PFIとCFIを一般化したRelative Feature Importance (RFI)を導入する。 RFIでは、トレーニング時に利用できなかった変数を含む、機能の他のサブセットに対する機能の重要性を評価することができる。 rfiの一般解釈規則を,相対的特徴関係の詳細な理論的解析に基づいて導出し,シミュレーション例での有用性を示す。

Interpretable Machine Learning (IML) methods are used to gain insight into the relevance of a feature of interest for the performance of a model. Commonly used IML methods differ in whether they consider features of interest in isolation, e.g., Permutation Feature Importance (PFI), or in relation to all remaining feature variables, e.g., Conditional Feature Importance (CFI). As such, the perturbation mechanisms inherent to PFI and CFI represent extreme reference points. We introduce Relative Feature Importance (RFI), a generalization of PFI and CFI that allows for a more nuanced feature importance computation beyond the PFI versus CFI dichotomy. With RFI, the importance of a feature relative to any other subset of features can be assessed, including variables that were not available at training time. We derive general interpretation rules for RFI based on a detailed theoretical analysis of the implications of relative feature relevance, and demonstrate the method's usefulness on simulated examples.
翻訳日:2022-11-09 22:13:17 公開日:2020-07-16
# 異種多視点学習のためのランダムフォレスト

Random Forest for Dissimilarity-based Multi-view Learning ( http://arxiv.org/abs/2007.08377v1 )

ライセンス: Link先を確認
Simon Bernard, Hongliu Cao, Robert Sabourin, Laurent Heutte(参考訳) 多くの分類問題は、データが複数の異種記述によって記述されるという意味で自然に多ビューである。 このようなタスクに対して、相似性戦略は、異なる記述を同等にし、それらを簡単にマージする効果的な方法である。 (i)各視点の中間相似表現を構築すること、及び (ii)ビューの相違点を平均化することにより、これらの表現を融合する。 本研究では,Random Forest 近距離測度が,特徴とクラスメンバシップの類似性を反映しているため,相似性表現の構築に有効であることを示す。 次に,ビュー固有の不類似性表現をよりよく結合する動的ビュー選択法を提案する。 これにより、各インスタンスに対して、そのインスタンスの最も関連するビューのみを使用して、予測する決定を下すことができる。 複数の実世界のマルチビューデータセットで実験を行い、Dynamic View Selectionは、単純な平均の組み合わせと最先端の静的ビューの組み合わせの2つと比較して、パフォーマンスが大幅に向上することを示した。

Many classification problems are naturally multi-view in the sense their data are described through multiple heterogeneous descriptions. For such tasks, dissimilarity strategies are effective ways to make the different descriptions comparable and to easily merge them, by (i) building intermediate dissimilarity representations for each view and (ii) fusing these representations by averaging the dissimilarities over the views. In this work, we show that the Random Forest proximity measure can be used to build the dissimilarity representations, since this measure reflects similarities between features but also class membership. We then propose a Dynamic View Selection method to better combine the view-specific dissimilarity representations. This allows to take a decision, on each instance to predict, with only the most relevant views for that instance. Experiments are conducted on several real-world multi-view datasets, and show that the Dynamic View Selection offers a significant improvement in performance compared to the simple average combination and two state-of-the-art static view combinations.
翻訳日:2022-11-09 22:12:44 公開日:2020-07-16
# コンパレータ適応凸バンディット

Comparator-adaptive Convex Bandits ( http://arxiv.org/abs/2007.08448v1 )

ライセンス: Link先を確認
Dirk van der Hoeven and Ashok Cutkosky and Haipeng Luo(参考訳) 本研究では,コンパレータの規範に適合するバンディット凸最適化手法について検討する。 具体的には、コンパレータのノルムが小さいときは常に小さい後悔境界を持つ凸バンディットアルゴリズムを開発する。 まず,線形帯域に対するコンパレータ適応アルゴリズムを開発するために,全情報設定の手法を用いる。 次に、新しい単一点勾配推定器と注意深く設計されたサロゲート損失を用いて、リプシッツやスムーズな損失関数との接点バンディットへ拡張する。

We study bandit convex optimization methods that adapt to the norm of the comparator, a topic that has only been studied before for its full-information counterpart. Specifically, we develop convex bandit algorithms with regret bounds that are small whenever the norm of the comparator is small. We first use techniques from the full-information setting to develop comparator-adaptive algorithms for linear bandits. Then, we extend the ideas to convex bandits with Lipschitz or smooth loss functions, using a new single-point gradient estimator and carefully designed surrogate losses.
翻訳日:2022-11-09 22:12:28 公開日:2020-07-16
# モラル・センシティブなロボットの明確化要求

Enabling Morally Sensitive Robotic Clarification Requests ( http://arxiv.org/abs/2007.08670v1 )

ライセンス: Link先を確認
Ryan Blake Jackson and Tom Williams(参考訳) 現在の自然言語指向ロボットアーキテクチャの設計により、特定のアーキテクチャコンポーネントが道徳的推論能力を回避できる。 この例の1つは、人間の発話で参照あいまいさが検出されると、即座に明確化要求の反射生成である。 前回の研究で示されたように、ロボットは(1)道徳的配置を誤解し、(2)現在の文脈における人間の知覚や道徳的規範の適用を弱める。 本研究では, あいまいな人間の発話の曖昧さについて道徳的推論を行い, 即時かつ素直に解明を求めるのではなく, 対応して対応することで, これらの問題の解決法を提案する。 我々の知る限りでは、モラル推論と明確化要求生成機能の両方を備えた現在のロボットアーキテクチャは、diarcロボットアーキテクチャにソリューションを実装しています。 そして,本手法を人体実験により評価し,本手法が2つの懸念事項を改善できることを示唆した。

The design of current natural language oriented robot architectures enables certain architectural components to circumvent moral reasoning capabilities. One example of this is reflexive generation of clarification requests as soon as referential ambiguity is detected in a human utterance. As shown in previous research, this can lead robots to (1) miscommunicate their moral dispositions and (2) weaken human perception or application of moral norms within their current context. We present a solution to these problems by performing moral reasoning on each potential disambiguation of an ambiguous human utterance and responding accordingly, rather than immediately and naively requesting clarification. We implement our solution in the DIARC robot architecture, which, to our knowledge, is the only current robot architecture with both moral reasoning and clarification request generation capabilities. We then evaluate our method with a human subjects experiment, the results of which indicate that our approach successfully ameliorates the two identified concerns.
翻訳日:2022-11-09 22:05:38 公開日:2020-07-16
# 統合型ロボットアーキテクチャのための予測型参照表現生成に向けて

Toward Forgetting-Sensitive Referring Expression Generationfor Integrated Robot Architectures ( http://arxiv.org/abs/2007.08672v1 )

ライセンス: Link先を確認
Tom Williams and Torin Johnson and Will Culpepper and Kellyn Larson(参考訳) 人間のような対話を行うには、ロボットは「参照表現生成(Referring Expression Generation)」と呼ばれる、環境内の物体、場所、人々を記述する能力を必要とする。 話者は類似したオブジェクトを繰り返し参照するので、前述した記述からプロパティを再利用する傾向があり、その一部はリスナーを助け、一部はワーキングメモリ(wm)におけるそれらのプロパティの認知的可利用性のためである。 作業記憶の異なる理論は、必ずしも認知的可用性の差をもたらすため、それらも同様に異なる参照表現を生成すると仮定する。 効果的な知的エージェントを設計するには, 自然人のような参照表現を生成する上で, 異なる種類の忘れ方モデルが相違して有効であるかを判断する必要がある。 本研究では,ロボット認知アーキテクチャにおける作業記憶の2つの候補モデルを計算し,それらが生成した参照表現における認知的可用性に基づく差異にどのようにつながるかを実証する。

To engage in human-like dialogue, robots require the ability to describe the objects, locations, and people in their environment, a capability known as "Referring Expression Generation." As speakers repeatedly refer to similar objects, they tend to re-use properties from previous descriptions, in part to help the listener, and in part due to cognitive availability of those properties in working memory (WM). Because different theories of working memory "forgetting" necessarily lead to differences in cognitive availability, we hypothesize that they will similarly result in generation of different referring expressions. To design effective intelligent agents, it is thus necessary to determine how different models of forgetting may be differentially effective at producing natural human-like referring expressions. In this work, we computationalize two candidate models of working memory forgetting within a robot cognitive architecture, and demonstrate how they lead to cognitive availability-based differences in generated referring expressions.
翻訳日:2022-11-09 22:05:23 公開日:2020-07-16
# 自律走行車における道路決定のためのディープQネットワークの一事例

Dueling Deep Q Network for Highway Decision Making in Autonomous Vehicles: A Case Study ( http://arxiv.org/abs/2007.08343v1 )

ライセンス: Link先を確認
Teng Liu, Xingyu Mu, Xiaolin Tang, Bing Huang, Hong Wang, Dongpu Cao(参考訳) 本研究は、深部強化学習(DRL)を用いて、自動運転車の高速道路意思決定戦略を最適化する。 まず高速道路の走行環境が整備され、エゴ車、周辺車両、道路車線が組み込まれている。 そして、最適制御問題として、自動車両のオーバーテイク決定問題を定式化する。 次に、関連する制御アクション、状態変数、および最適化の目的を詳述する。 最後に、ディープQネットワークを用いて、エゴ車両のインテリジェントな駆動ポリシーを導出する。 シミュレーションの結果,エゴ車両は学習および訓練後の運転課題を安全かつ効率的に達成できることがわかった。

This work optimizes the highway decision making strategy of autonomous vehicles by using deep reinforcement learning (DRL). First, the highway driving environment is built, wherein the ego vehicle, surrounding vehicles, and road lanes are included. Then, the overtaking decision-making problem of the automated vehicle is formulated as an optimal control problem. Then relevant control actions, state variables, and optimization objectives are elaborated. Finally, the deep Q-network is applied to derive the intelligent driving policies for the ego vehicle. Simulation results reveal that the ego vehicle could safely and efficiently accomplish the driving task after learning and training.
翻訳日:2022-11-09 22:05:05 公開日:2020-07-16
# スポーツゲームをシミュレートするためのオートエンコーダに基づくアプローチ

An Autoencoder Based Approach to Simulate Sports Games ( http://arxiv.org/abs/2007.10257v1 )

ライセンス: Link先を確認
Ashwin Vaswani and Rijul Ganguly and Het Shah and Sharan Ranjit S and Shrey Pandit and Samruddhi Bothara(参考訳) スポーツデータは近年広く利用されるようになった。 機械学習技術の改善により、スポーツデータを用いて個々のゲームの結果を分析するだけでなく、洞察や戦略を改善することが試みられている。 新型コロナウイルスの感染拡大で世界各国のスポーツリーグが中断し、シーズンのリーグの結果に関する疑問や憶測が高まりつつある。 もしシーズンが中断され、正常に終了しなかったら? どのチームがトロフィーを獲得するのか? どの選手がベストを尽くしますか。 どのチームがシーズンをハイで終え、どのチームがプレッシャーに間に合わなかったのか。 我々はこの問題に取り組み、解決策を開発することを目指している。 本稿では,過去6年間に行われたUEFAチャンピオンズリーグの試合の詳細情報を含むデータセットUCLDataを提案する。 また,新しい自動エンコーダベースの機械学習パイプラインを提案する。

Sports data has become widely available in the recent past. With the improvement of machine learning techniques, there have been attempts to use sports data to analyze not only the outcome of individual games but also to improve insights and strategies. The outbreak of COVID-19 has interrupted sports leagues globally, giving rise to increasing questions and speculations about the outcome of this season's leagues. What if the season was not interrupted and concluded normally? Which teams would end up winning trophies? Which players would perform the best? Which team would end their season on a high and which teams would fail to keep up with the pressure? We aim to tackle this problem and develop a solution. In this paper, we proposeUCLData, which is a dataset containing detailed information of UEFA Champions League games played over the past six years. We also propose a novel autoencoder based machine learning pipeline that can come up with a story on how the rest of the season will pan out.
翻訳日:2022-11-09 22:04:55 公開日:2020-07-16
# lstmとsarimaモデルによるクラスタcpu使用量の予測

Using LSTM and SARIMA Models to Forecast Cluster CPU Usage ( http://arxiv.org/abs/2007.08092v1 )

ライセンス: Link先を確認
Langston Nashold, Rayan Krishnan(参考訳) 大規模クラウドコンピューティングセンターが個々のサーバよりも普及するにつれ、将来のリソース需要予測は重要な問題となっている。 予測リソースの要求により、パブリッククラウドプロバイダは、クラウドサービスのリソースを積極的に割り当てたり、配置したりできる。 この研究は、短期と長期の両方の時間スケールで、ひとつのリソース、CPU使用量を予測することを目指している。 特定のタスクを最もサポートしているモデル特性を理解するために、歴史的に関連するSARIMAモデルと、より現代的なニューラルネットワークLSTMモデルという、2つの大きな異なるアーキテクチャを検討します。 我々は、これらのモデルをデータポイントあたり20分に再サンプリングしたazureデータに適用し、短期タスクでは次の時間、長期タスクでは次の3日間の使用率を予測することを目標とした。 SARIMAモデルはLSTMの長期予測タスクよりも優れていたが、短期的なタスクでは性能が劣った。 さらに、LSTMモデルはより堅牢であり、SARIMAモデルは季節性に関する特定の仮定を満たすデータに依存していた。

As large scale cloud computing centers become more popular than individual servers, predicting future resource demand need has become an important problem. Forecasting resource need allows public cloud providers to proactively allocate or deallocate resources for cloud services. This work seeks to predict one resource, CPU usage, over both a short term and long term time scale. To gain insight into the model characteristics that best support specific tasks, we consider two vastly different architectures: the historically relevant SARIMA model and the more modern neural network, LSTM model. We apply these models to Azure data resampled to 20 minutes per data point with the goal of predicting usage over the next hour for the short-term task and for the next three days for the long-term task. The SARIMA model outperformed the LSTM for the long term prediction task, but performed poorer on the short term task. Furthermore, the LSTM model was more robust, whereas the SARIMA model relied on the data meeting certain assumptions about seasonality.
翻訳日:2022-11-09 22:04:24 公開日:2020-07-16
# 共形規則に基づくマルチラベル分類

Conformal Rule-Based Multi-label Classification ( http://arxiv.org/abs/2007.08145v1 )

ライセンス: Link先を確認
Eyke H\"ullermeier and Johannes F\"urnkranz and Eneldo Loza Mencia(参考訳) 我々は、規則に基づく多ラベル分類(MLC)を強化するために、共形予測(CP)の使用を提唱する。 特に、cpとルール学習の相互利益を強調する: ルールはcpが要求する自然な(非)コンフォーマリティスコアを提供する能力を持ち、cpは候補規則の評価を校正する方法を提案し、それによってより良い予測とより精巧な意思決定を支援する。 遅延マルチラベルルール学習の事例研究において,調整適合度スコアの有用性を示す。

We advocate the use of conformal prediction (CP) to enhance rule-based multi-label classification (MLC). In particular, we highlight the mutual benefit of CP and rule learning: Rules have the ability to provide natural (non-)conformity scores, which are required by CP, while CP suggests a way to calibrate the assessment of candidate rules, thereby supporting better predictions and more elaborate decision making. We illustrate the potential usefulness of calibrated conformity scores in a case study on lazy multi-label rule learning.
翻訳日:2022-11-09 22:03:30 公開日:2020-07-16
# ロバストなクロスモーダル検索のためのセマンティクス近傍の保存

Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval ( http://arxiv.org/abs/2007.08617v1 )

ライセンス: Link先を確認
Christopher Thomas and Adriana Kovashka(参考訳) マルチモーダルデータの豊富さ(ソーシャルメディア投稿など)は、クロスモーダル検索手法への関心を喚起している。 一般的なアプローチは、学習空間における画像とテキストの近接性を規定する、さまざまなメトリック学習損失に依存している。 しかし、ほとんどの先行手法では、画像とテキストが冗長な情報を伝達する場合に焦点が当てられている。 さらに、ニュース記事やメディアのイメージは、視覚的に多様なトピックを表現しているため、意味のあるイメージ表現を保証するために特別な注意が必要である。 本稿では,テキスト部分空間と画像部分空間の両方において意味的コヒーレンシを助長する,視覚コヒーレンシと必ずしも一致しない新しいモダリティ内損失を提案する。 本手法では,画像とテキストが近接しているだけでなく,期待される画像とテキストの関係も観察できる。 提案手法は,5つのベースラインと比較して,4つのデータセットにおけるクロスモーダル検索の結果を改善する。

The abundance of multimodal data (e.g. social media posts) has inspired interest in cross-modal retrieval methods. Popular approaches rely on a variety of metric learning losses, which prescribe what the proximity of image and text should be, in the learned space. However, most prior methods have focused on the case where image and text convey redundant information; in contrast, real-world image-text pairs convey complementary information with little overlap. Further, images in news articles and media portray topics in a visually diverse fashion; thus, we need to take special care to ensure a meaningful image representation. We propose novel within-modality losses which encourage semantic coherency in both the text and image subspaces, which does not necessarily align with visual coherency. Our method ensures that not only are paired images and texts close, but the expected image-image and text-text relationships are also observed. Our approach improves the results of cross-modal retrieval on four datasets compared to five baselines.
翻訳日:2022-11-09 21:57:57 公開日:2020-07-16
# Few-Shot画像分類のための層幅適応更新

Layer-Wise Adaptive Updating for Few-Shot Image Classification ( http://arxiv.org/abs/2007.08129v1 )

ライセンス: Link先を確認
Yunxiao Qin, Weiguo Zhang, Zezheng Wang, Chenxu Zhao, Jingping Shi(参考訳) 少数のカテゴリの画像から学習することで新たなカテゴリを認識するモデルが必要となる、少数ショット画像分類(fsic)は、多くの注目を集めている。 近年,メタラーニングに基づく手法がFSICの有望な方向性として示されている。 一般的に、簡単な微調整のウェイトを学ぶためにメタラーナー(メタラーナーモデル)を訓練し、FSICタスクを解くとき、メタラーナーはタスクの少ない画像に更新することで、タスク固有のモデルに効率的に微調整する。 本稿では,fsicのためのメタラーニングに基づく階層型適応更新(lwau)手法を提案する。 lwauは、一般的な深層モデルと比較して、少数の画像から学習する際にトップ層を更新することに多くの注意を払っている興味深い発見にインスパイアされている。 この発見によると、メタリアナーは、fsicパフォーマンスを改善するために、トップ層をアップデートして、ボトム層をアップデートすることを好むかもしれない。 したがって、lwauでは、メタリーナーは簡単な微調整モデルだけでなく、学習効率を向上させるために好みの層順適応更新規則を学ぶように訓練される。 広汎な実験により、レイヤワイド適応更新規則により、提案されたLWAUは次のようになる。 1) 既存の少数ショット分類法を明確なマージンで上回る。 2)FSICを解く際に既存のメタラーナーの5倍の効率で画像から学習する。

Few-shot image classification (FSIC), which requires a model to recognize new categories via learning from few images of these categories, has attracted lots of attention. Recently, meta-learning based methods have been shown as a promising direction for FSIC. Commonly, they train a meta-learner (meta-learning model) to learn easy fine-tuning weight, and when solving an FSIC task, the meta-learner efficiently fine-tunes itself to a task-specific model by updating itself on few images of the task. In this paper, we propose a novel meta-learning based layer-wise adaptive updating (LWAU) method for FSIC. LWAU is inspired by an interesting finding that compared with common deep models, the meta-learner pays much more attention to update its top layer when learning from few images. According to this finding, we assume that the meta-learner may greatly prefer updating its top layer to updating its bottom layers for better FSIC performance. Therefore, in LWAU, the meta-learner is trained to learn not only the easy fine-tuning model but also its favorite layer-wise adaptive updating rule to improve its learning efficiency. Extensive experiments show that with the layer-wise adaptive updating rule, the proposed LWAU: 1) outperforms existing few-shot classification methods with a clear margin; 2) learns from few images more efficiently by at least 5 times than existing meta-learners when solving FSIC.
翻訳日:2022-11-09 21:57:20 公開日:2020-07-16
# 文表現の曖昧化に向けて

Towards Debiasing Sentence Representations ( http://arxiv.org/abs/2007.08100v1 )

ライセンス: Link先を確認
Paul Pu Liang, Irene Mengze Li, Emily Zheng, Yao Chong Lim, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 自然言語処理手法は、医療、法体系、社会科学といった現実のシナリオにますます導入されているため、社会的バイアスやステレオタイプを形成する上で、彼らが果たす役割を認識する必要がある。 以前の研究では、性別、人種、宗教、その他の社会的構成を含む広く使われる単語埋め込みにおける社会的バイアスの存在が明らかになった。 単語レベルの埋め込みを嫌悪する手法はいくつか提案されているが、ELMoやBERTといった新しい文脈化文表現へのシフトを考えると、文レベルでのデバイアスを行う必要がある。 本稿では,文レベルの表象における社会的バイアスの存在を調査し,これらのバイアスを減らすための新しい方法であるsend-debiasを提案する。 本研究では,感情分析,言語受容性,自然言語理解などの文レベルの下流タスクにおいて,send-debiasはバイアスの除去に有効であることを示す。 我々は、より公平なNLPのための広く採用されている文表現から社会的偏見を識別・除去する今後の研究に刺激を与えることを期待している。

As natural language processing methods are increasingly deployed in real-world scenarios such as healthcare, legal systems, and social science, it becomes necessary to recognize the role they potentially play in shaping social biases and stereotypes. Previous work has revealed the presence of social biases in widely used word embeddings involving gender, race, religion, and other social constructs. While some methods were proposed to debias these word-level embeddings, there is a need to perform debiasing at the sentence-level given the recent shift towards new contextualized sentence representations such as ELMo and BERT. In this paper, we investigate the presence of social biases in sentence-level representations and propose a new method, Sent-Debias, to reduce these biases. We show that Sent-Debias is effective in removing biases, and at the same time, preserves performance on sentence-level downstream tasks such as sentiment analysis, linguistic acceptability, and natural language understanding. We hope that our work will inspire future research on characterizing and removing social biases from widely adopted sentence representations for fairer NLP.
翻訳日:2022-11-09 21:54:50 公開日:2020-07-16
# tudataset:グラフを用いた学習のためのベンチマークデータセットのコレクション

TUDataset: A collection of benchmark datasets for learning with graphs ( http://arxiv.org/abs/2007.08663v1 )

ライセンス: Link先を確認
Christopher Morris, Nils M. Kriege, Franka Bause, Kristian Kersting, Petra Mutzel, Marion Neumann(参考訳) 近年,特にグラフニューラルネットワークを用いたグラフデータによる(教師付き)学習への関心が高まっている。 しかし、有意義なベンチマークデータセットと標準化された評価手順の開発は遅れており、この領域の進歩を妨げる。 そこで我々は,グラフ分類と回帰のためのTUDatasetを提案する。 このコレクションは、幅広いアプリケーションからさまざまなサイズの120以上のデータセットで構成されている。 我々はpythonベースのデータローダ、カーネルおよびグラフニューラルネットワークのベースライン実装、評価ツールを提供する。 本稿では,データセットの概要,標準化された評価手順,ベースライン実験について述べる。 すべてのデータセットはwww.graphlearning.ioで入手できる。 実験はwww.github.com/chrsmrrs/tudatasetで利用可能なコードから完全に再現可能である。

Recently, there has been an increasing interest in (supervised) learning with graph data, especially using graph neural networks. However, the development of meaningful benchmark datasets and standardized evaluation procedures is lagging, consequently hindering advancements in this area. To address this, we introduce the TUDataset for graph classification and regression. The collection consists of over 120 datasets of varying sizes from a wide range of applications. We provide Python-based data loaders, kernel and graph neural network baseline implementations, and evaluation tools. Here, we give an overview of the datasets, standardized evaluation procedures, and provide baseline experiments. All datasets are available at www.graphlearning.io. The experiments are fully reproducible from the code available at www.github.com/chrsmrrs/tudataset.
翻訳日:2022-11-09 21:48:03 公開日:2020-07-16
# DRIFT: 機能的ソフトウェアテストのための深層強化学習

DRIFT: Deep Reinforcement Learning for Functional Software Testing ( http://arxiv.org/abs/2007.08220v1 )

ライセンス: Link先を確認
Luke Harries, Rebekah Storan Clarke, Timothy Chapman, Swamy V. P. L. N. Nallamalli, Levent Ozgur, Shuktika Jain, Alex Leung, Steve Lim, Aaron Dietrich, Jos\'e Miguel Hern\'andez-Lobato, Tom Ellis, Cheng Zhang, Kamil Ciosek(参考訳) 効率的なソフトウェアテストは、生産的なソフトウェア開発と信頼性の高いユーザエクスペリエンスに欠かせない。 人間のテストは非効率で費用がかかるので、自動化されたソフトウェアテストが必要です。 本研究では,DRIFT という関数型ソフトウェアテストのための強化学習(RL)フレームワークを提案する。 DRIFTはユーザインタフェースのシンボル表現で動作する。 バッチrlを通じてq-learningを使用し、グラフニューラルネットワークで状態アクション値関数をモデル化する。 我々は、Windows 10オペレーティングシステムのテストにDRIFTを適用し、DRIFTが望まれるソフトウェア機能を完全に自動化された方法で確実にトリガーできることを示します。 実験では、異なるアプリケーションにまたがって単一のタスクと組み合わせたタスクを実行する能力をテストし、フレームワークが幅広いテスト目標でソフトウェアを効率的にテストできることを実証した。

Efficient software testing is essential for productive software development and reliable user experiences. As human testing is inefficient and expensive, automated software testing is needed. In this work, we propose a Reinforcement Learning (RL) framework for functional software testing named DRIFT. DRIFT operates on the symbolic representation of the user interface. It uses Q-learning through Batch-RL and models the state-action value function with a Graph Neural Network. We apply DRIFT to testing the Windows 10 operating system and show that DRIFT can robustly trigger the desired software functionality in a fully automated manner. Our experiments test the ability to perform single and combined tasks across different applications, demonstrating that our framework can efficiently test software with a large range of testing objectives.
翻訳日:2022-11-09 21:47:01 公開日:2020-07-16
# ブートストラップDQNにおけるステップリターンの混合

Mixture of Step Returns in Bootstrapped DQN ( http://arxiv.org/abs/2007.08229v1 )

ライセンス: Link先を確認
Po-Han Chiang, Hsuan-Kung Yang, Zhang-Wei Hong and Chun-Yi Lee(参考訳) 値関数の更新に多段階の戻り値を利用するという概念は,近年,深層強化学習(DRL)において採用されてきた。 異なるバックアップ長で値関数を更新することは、値推定のバイアスや分散、収束速度、エージェントの探索行動など、さまざまな面での利点を提供する。 TD-lambdaのような従来の方法は、異なるステップ戻りの指数平均に相当するターゲット値を使用することで、これらの利点を利用する。 それでも、ステップリターンをひとつのターゲットに統合することは、異なるステップリターンターゲットが提供するメリットの多様性を犠牲にする。 この問題を解決するために、ブートストラップDQN上に構築されたMixture Bootstrapped DQN(MB-DQN)を提案し、異なるブートストラップヘッドに対して異なるバックアップ長を使用する。 MB-DQNは、単一のターゲット値のみに依存するアプローチでは利用できないターゲット値の不均一性を実現する。 その結果、異なるバックアップ長によって提供される利点を維持できる。 本稿では,まず,単純な迷路環境を通してのモチベーション的洞察について論じる。 MB-DQNの有効性を検証するため,Atari 2600ベンチマーク環境で実験を行い,多数のベースライン手法によるMB-DQNの性能改善を実証した。 さらに,mb-dqnの異なる設計構成の影響を調べるため,アブレーション研究のセットを提供する。

The concept of utilizing multi-step returns for updating value functions has been adopted in deep reinforcement learning (DRL) for a number of years. Updating value functions with different backup lengths provides advantages in different aspects, including bias and variance of value estimates, convergence speed, and exploration behavior of the agent. Conventional methods such as TD-lambda leverage these advantages by using a target value equivalent to an exponential average of different step returns. Nevertheless, integrating step returns into a single target sacrifices the diversity of the advantages offered by different step return targets. To address this issue, we propose Mixture Bootstrapped DQN (MB-DQN) built on top of bootstrapped DQN, and uses different backup lengths for different bootstrapped heads. MB-DQN enables heterogeneity of the target values that is unavailable in approaches relying only on a single target value. As a result, it is able to maintain the advantages offered by different backup lengths. In this paper, we first discuss the motivational insights through a simple maze environment. In order to validate the effectiveness of MB-DQN, we perform experiments on the Atari 2600 benchmark environments, and demonstrate the performance improvement of MB-DQN over a number of baseline methods. We further provide a set of ablation studies to examine the impacts of different design configurations of MB-DQN.
翻訳日:2022-11-09 21:46:51 公開日:2020-07-16
# オブジェクト指向オンラインによるメタグラディエント強化学習

Meta-Gradient Reinforcement Learning with an Objective Discovered Online ( http://arxiv.org/abs/2007.08433v1 )

ライセンス: Link先を確認
Zhongwen Xu, Hado van Hasselt, Matteo Hessel, Junhyuk Oh, Satinder Singh, David Silver(参考訳) 深層強化学習は、ディープニューラルネットワークによる値関数やポリシーなどの内部表現をパラメータ化する幅広いアルゴリズム群を含んでいる。 各アルゴリズムは、そのセマンティクスを定義するQ学習やポリシー勾配といった目的に対してパラメータを最適化する。 本研究では,その環境との対話的体験のみから,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。 時間が経つにつれ、エージェントはより効果的に学習する方法を学ぶことができます。 さらに、目的がオンラインで発見されるため、時間とともに変化に適応できる。 このアルゴリズムは,ブートストラップ,非定常性,非政治学習など,RLにおけるいくつかの重要な問題に対処する方法を発見する。 Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応し、より高い効率で学習し、最終的には強いアクター批判ベースラインの中央値よりも優れている。

Deep reinforcement learning includes a broad family of algorithms that parameterise an internal representation, such as a value function or policy, by a deep neural network. Each algorithm optimises its parameters with respect to an objective, such as Q-learning or policy gradient, that defines its semantics. In this work, we propose an algorithm based on meta-gradient descent that discovers its own objective, flexibly parameterised by a deep neural network, solely from interactive experience with its environment. Over time, this allows the agent to learn how to learn increasingly effectively. Furthermore, because the objective is discovered online, it can adapt to changes over time. We demonstrate that the algorithm discovers how to address several important issues in RL, such as bootstrapping, non-stationarity, and off-policy learning. On the Atari Learning Environment, the meta-gradient algorithm adapts over time to learn with greater efficiency, eventually outperforming the median score of a strong actor-critic baseline.
翻訳日:2022-11-09 21:46:27 公開日:2020-07-16
# メタラーニング(CARML)による衝突回避ロボティクス

Collision Avoidance Robotics Via Meta-Learning (CARML) ( http://arxiv.org/abs/2007.08616v1 )

ライセンス: Link先を確認
Abhiram Iyer, Aravind Mahadevan(参考訳) 本稿では,モデル非依存メタラーニングを用いた多目的強化学習問題へのアプローチを提案する。 私たちが使用した環境は、LIDARセンサーを備えた2D車両で構成されています。 環境の目標は、事前に決められた目標地点に到達するだけでなく、経路に沿って見つかるであろう障害を効果的に回避することである。 また,この手法を,同じ問題を解こうとするベースラインTD3ソリューションと比較する。

This paper presents an approach to exploring a multi-objective reinforcement learning problem with Model-Agnostic Meta-Learning. The environment we used consists of a 2D vehicle equipped with a LIDAR sensor. The goal of the environment is to reach some pre-determined target location but also effectively avoid any obstacles it may find along its path. We also compare this approach against a baseline TD3 solution that attempts to solve the same problem.
翻訳日:2022-11-09 21:45:48 公開日:2020-07-16
# Data Stream Clustering: レビュー

Data Stream Clustering: A Review ( http://arxiv.org/abs/2007.10781v1 )

ライセンス: Link先を確認
Alaettin Zubaro\u{g}lu and Volkan Atalay(参考訳) 接続デバイス数は着実に増加しており、これらのデバイスは継続的にデータストリームを生成する。 データストリームのリアルタイム処理は多くの課題にもかかわらず関心を集めている。 クラスタリングは、データに関する事前情報が少なく、ラベル付きインスタンスを必要としないため、リアルタイムデータストリーム処理に最も適した方法の1つである。 しかし、データストリームのクラスタリングは多くの点で従来のクラスタリングと異なり、いくつかの課題がある。 本稿では,概念ドリフト,データストリーム用データ構造,タイムウインドウモデル,異常検出など,データストリームの概念と共通特性に関する情報を提供する。 本稿では,最近のデータストリームクラスタリングアルゴリズムを総括的に検討し,ベースクラスタリング手法,計算複雑性,クラスタリング精度の観点から解析する。 これらのアルゴリズムの比較は、まだ未解決の問題と共に与えられる。 一般的なデータストリームレポジトリとデータセット、ストリーム処理ツール、プラットフォームを示します。 データストリームクラスタリングに関するオープンな問題についても論じる。

Number of connected devices is steadily increasing and these devices continuously generate data streams. Real-time processing of data streams is arousing interest despite many challenges. Clustering is one of the most suitable methods for real-time data stream processing, because it can be applied with less prior information about the data and it does not need labeled instances. However, data stream clustering differs from traditional clustering in many aspects and it has several challenging issues. Here, we provide information regarding the concepts and common characteristics of data streams, such as concept drift, data structures for data streams, time window models and outlier detection. We comprehensively review recent data stream clustering algorithms and analyze them in terms of the base clustering technique, computational complexity and clustering accuracy. A comparison of these algorithms is given along with still open problems. We indicate popular data stream repositories and datasets, stream processing tools and platforms. Open problems about data stream clustering are also discussed.
翻訳日:2022-11-09 21:45:41 公開日:2020-07-16