このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210825となっている論文です。

PDF登録状況(公開日: 20210825)

TitleAuthorsAbstract論文公表日・翻訳日
# 残基レベルのタンパク質構造ネットワークから原子構造へのニューラルアップスケーリング

Neural Upscaling from Residue-level Protein Structure Networks to Atomistic Structure ( http://arxiv.org/abs/2109.06700v1 )

ライセンス: Link先を確認
Vy Duong, Elizabeth Diessner, Gianmarc Grazioli, Rachel W. Martin, and Carter T. Butts(参考訳) 粗粒化はタンパク質や他の生体高分子の動的モデルの範囲を広げる強力なツールである。 生体分子またはそれらの集合がグラフ構造を介して表されるトポロジカル粗粒化は、分子構造の高度に圧縮された表現を得るための特に有用な方法であり、そのような表現を介して操作されるシミュレーションは、実質的な計算節約を達成することができる。 しかし、粗粒化の欠点は、特にタンパク質構造ネットワーク(psns)のようなトポロジカルな表現に対する影響である原子的詳細の喪失である。 そこで本研究では,PSNから原子座標を推定するための,機械学習と物理誘導改良を組み合わせたアプローチを提案する。 この "neural upscaling" 手順は、PSNが考えられる構成に関する制約と、同じPSNで異なる構成を観察する可能性の違いを利用する。 1$\mu$s atomistic molecular dynamics trajectory of A$\beta_{1-40}$を用いて、ニューラルアップスケーリングは、内因的に乱れたタンパク質の詳細な構造情報を効果的に再カプセル化することができ、過渡的な二次構造のような特徴の回復に成功していることを示す。 これらの結果から,タンパク質の構造と動態のスケーラブルなネットワークモデルが,PSNから原子座標をインプットするために,原子論的な詳細が望まれる環境で用いられる可能性が示唆された。

Coarse-graining is a powerful tool for extending the reach of dynamic models of proteins and other biological macromolecules. Topological coarse-graining, in which biomolecules or sets thereof are represented via graph structures, is a particularly useful way of obtaining highly compressed representations of molecular structure, and simulations operating via such representations can achieve substantial computational savings. A drawback of coarse-graining, however, is the loss of atomistic detail - an effect that is especially acute for topological representations such as protein structure networks (PSNs). Here, we introduce an approach based on a combination of machine learning and physically-guided refinement for inferring atomic coordinates from PSNs. This "neural upscaling" procedure exploits the constraints implied by PSNs on possible configurations, as well as differences in the likelihood of observing different configurations with the same PSN. Using a 1 $\mu$s atomistic molecular dynamics trajectory of A$\beta_{1-40}$, we show that neural upscaling is able to effectively recapitulate detailed structural information for intrinsically disordered proteins, being particularly successful in recovering features such as transient secondary structure. These results suggest that scalable network-based models for protein structure and dynamics may be used in settings where atomistic detail is desired, with upscaling employed to impute atomic coordinates from PSNs.
翻訳日:2021-09-19 13:42:30 公開日:2021-08-25
# TraverseNet:メッセージパッシングにおける空間と時間の統合

TraverseNet: Unifying Space and Time in Message Passing ( http://arxiv.org/abs/2109.02474v1 )

ライセンス: Link先を確認
Zonghan Wu, Da Zheng, Shirui Pan, Quan Gan, Guodong Long, George Karypis(参考訳) 本稿では,非ユークリッド空間における空間依存と時間依存を統一し,空間-時間グラフデータの内部空間-時間依存を捉えることを目的とする。 位相構造を持つ時空間属性エンティティでは、時空間は連続的に統一され、各ノードの現在の状態は隣人の過去の状態によって影響される。 ほとんどの時空間ニューラルネットワークは、処理において別々に空間的依存と時間的相関を研究し、時空間連続性に致命的な障害を与え、近隣のノードの時間的依存期間が遅延し動的になるという事実を無視している。 この状況をモデル化するために,メッセージトラバース機構を用いて各ノードの時間的依存関係を進化させながら空間時空間グラフをマイニングするために,空間時空間グラフニューラルネットワークであるTraverseNetを提案する。 アブレーションとパラメータスタディによる実験は提案されたTraverseNetsの有効性を検証しており、詳細な実装はhttps://github.com/n nzhan/TraverseNetで見ることができる。

This paper aims to unify spatial dependency and temporal dependency in a non-Euclidean space while capturing the inner spatial-temporal dependencies for spatial-temporal graph data. For spatial-temporal attribute entities with topological structure, the space-time is consecutive and unified while each node's current status is influenced by its neighbors' past states over variant periods of each neighbor. Most spatial-temporal neural networks study spatial dependency and temporal correlation separately in processing, gravely impaired the space-time continuum, and ignore the fact that the neighbors' temporal dependency period for a node can be delayed and dynamic. To model this actual condition, we propose TraverseNet, a novel spatial-temporal graph neural network, viewing space and time as an inseparable whole, to mine spatial-temporal graphs while exploiting the evolving spatial-temporal dependencies for each node via message traverse mechanisms. Experiments with ablation and parameter studies have validated the effectiveness of the proposed TraverseNets, and the detailed implementation can be found from https://github.com/n nzhan/TraverseNet.
翻訳日:2021-09-12 10:55:31 公開日:2021-08-25
# 推薦システムシミュレーション:2つの重要な課題について

Recommendation System Simulations: A Discussion of Two Key Challenges ( http://arxiv.org/abs/2109.02475v1 )

ライセンス: Link先を確認
Allison J.B. Chaney(参考訳) オンラインプラットフォームではレコメンデーションシステムがますます標準になっているため、シミュレーションはこれらのシステムが個人や社会に与える影響を理解するための道筋を提供する。 推薦システムシミュレーションを構築する際には,まず推奨項目を選択したり,関わったりするためのモデルを定義し,次に,特定のコンテンツを友人が共有するなど,プラットフォームから直接推奨されない項目に遭遇するためのメカニズムを定義する。 本稿では,これらの課題を掘り下げ,既存の研究からシミュレーション仮定を見直し,代替仮定を提案する。 また、シミュレーションの限界に関するより広範な議論や、この分野におけるオープンな質問の概要も紹介する。

As recommendation systems become increasingly standard for online platforms, simulations provide an avenue for understanding the impacts of these systems on individuals and society. When constructing a recommendation system simulation, there are two key challenges: first, defining a model for users selecting or engaging with recommended items and second, defining a mechanism for users encountering items that are not recommended to the user directly by the platform, such as by a friend sharing specific content. This paper will delve into both of these challenges, reviewing simulation assumptions from existing research and proposing alternative assumptions. We also include a broader discussion of the limitations of simulations and outline of open questions in this area.
翻訳日:2021-09-12 10:55:11 公開日:2021-08-25
# 一様多様体近似と投影(UMAP)とその変数:チュートリアルと調査

Uniform Manifold Approximation and Projection (UMAP) and its Variants: Tutorial and Survey ( http://arxiv.org/abs/2109.02508v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) ユニフォーマルマニフォールド近似・投影(Uniform Manifold Approximation and Projection, UMAP)は、次元の減少とデータの可視化のための最先端の手法の1つである。 これは、UMAPとその変種に関するチュートリアルおよび調査論文である。 まず, 入力・埋め込み空間における近傍の確率, コスト関数の最適化, トレーニングアルゴリズム, 勾配の導出, UMAPによる教師付き・半教師付き埋め込みについて説明する。 次に、代数的トポロジーと圏論による UMAP の背後にある理論を紹介する。 次に、隣接する埋め込み手法としてUMAPを導入し、t-SNEおよびLargeVisアルゴリズムと比較する。 UMAPのコスト関数における負のサンプリングと反発力について論じる。 デンスマップは密度保存埋め込みのために説明される。 次に、ディープラーニングによる埋め込みのためのパラメトリックUMAPと、ストリーミングおよびサンプル外データ埋め込みのためのプログレッシブUMAPを紹介する。

Uniform Manifold Approximation and Projection (UMAP) is one of the state-of-the-art methods for dimensionality reduction and data visualization. This is a tutorial and survey paper on UMAP and its variants. We start with UMAP algorithm where we explain probabilities of neighborhood in the input and embedding spaces, optimization of cost function, training algorithm, derivation of gradients, and supervised and semi-supervised embedding by UMAP. Then, we introduce the theory behind UMAP by algebraic topology and category theory. Then, we introduce UMAP as a neighbor embedding method and compare it with t-SNE and LargeVis algorithms. We discuss negative sampling and repulsive forces in UMAP's cost function. DensMAP is then explained for density-preserving embedding. We then introduce parametric UMAP for embedding by deep learning and progressive UMAP for streaming and out-of-sample data embedding.
翻訳日:2021-09-12 10:54:59 公開日:2021-08-25
# (参考訳) 2次元3次元都市モデリングのための固定翼UAV画像からのマルチタスク学習 [全文訳有]

Multi-task learning from fixed-wing UAV images for 2D/3D city modeling ( http://arxiv.org/abs/2109.00918v1 )

ライセンス: CC BY 4.0
Mohammad R. Bayanlou, Mehdi Khoshboresh-Masouleh (参考訳) ニューラルネットワークにおけるシングルタスク学習はモデルを十分に学習することができ、知識の伝達によるメリットは限定的になる。 この点において、タスクの数が増加すると(セマンティックセグメンテーション、パノスコープセグメンテーション、単眼深度推定、および3Dポイントクラウドなど)、重複した情報がタスク全体に存在し、改善はそれほど重要ではない。 マルチタスク学習は知識伝達問題の解法として登場し、潜在的な訓練データに複数の関連するタスクを含むシーン理解へのアプローチである。 マルチタスク学習は、関連するタスクのトレーニングデータに含まれるドメイン固有情報を活用することにより、一般化を改善する。 インフラ開発、交通監視、スマート3d都市、変化検出などの都市管理アプリケーションでは、セマンティック、インスタンス、パンオプティカルアノテーションに基づくシーン理解のための自動マルチタスクデータ分析と、モノキュラー深さ推定が、正確な都市モデルを生成するために必要となる。 本研究では,2d/3d都市モデルのための固定翼uav画像からのマルチタスク学習手法の性能評価のための共通フレームワークを提案する。

Single-task learning in artificial neural networks will be able to learn the model very well, and the benefits brought by transferring knowledge thus become limited. In this regard, when the number of tasks increases (e.g., semantic segmentation, panoptic segmentation, monocular depth estimation, and 3D point cloud), duplicate information may exist across tasks, and the improvement becomes less significant. Multi-task learning has emerged as a solution to knowledge-transfer issues and is an approach to scene understanding which involves multiple related tasks each with potentially limited training data. Multi-task learning improves generalization by leveraging the domain-specific information contained in the training data of related tasks. In urban management applications such as infrastructure development, traffic monitoring, smart 3D cities, and change detection, automated multi-task data analysis for scene understanding based on the semantic, instance, and panoptic annotation, as well as monocular depth estimation, is required to generate precise urban models. In this study, a common framework for the performance assessment of multi-task learning methods from fixed-wing UAV images for 2D/3D city modeling is presented.
翻訳日:2021-09-05 09:24:42 公開日:2021-08-25
# 行列の近似について

On the approximation of a matrix ( http://arxiv.org/abs/2108.13195v1 )

ライセンス: Link先を確認
Samriddha Sanyal(参考訳) F^{*}$を与えられた$(a \times b)$Matrix $F$をランダム化されていないメソッドによって導出される近似とする。 与えられた$f$ と $f^{*}$ に対して、$h$ と $t$ は、$(ht)$ が$f^{*}$ よりもよい$f$の近似であるようなランダム化アルゴリズムによって計算可能であることを証明する。

Let $F^{*}$ be an approximation of a given $(a \times b)$ matrix $F$ derived by methods that are not randomized. We prove that for a given $F$ and $F^{*}$, $H$ and $T$ can be computed by randomized algorithm such that $(HT)$ is an approximation of $F$ better than $F^{*}$.
翻訳日:2021-09-05 08:55:32 公開日:2021-08-25
# ハイブリッドGARCH-LSTMを用いたアセットリターンの高次元共分散行列の予測

Forecasting High-Dimensional Covariance Matrices of Asset Returns with Hybrid GARCH-LSTMs ( http://arxiv.org/abs/2109.01044v1 )

ライセンス: Link先を確認
Lucien Boulet(参考訳) いくつかの研究者は、単変量一般化自己回帰条件ヘテロスケダスティック性(GARCH)モデルとニューラルネットワークを混合して、純粋な計量モデルよりも優れたボラティリティ予測を実現する能力について研究している。 非常に有望な結果を示したにもかかわらず、そのようなモデルの多変量体への一般化はまだ研究されていない。 さらに、アセットリターンの共分散行列を予測するニューラルネットワークの能力を検証した論文はほとんどなく、いずれも比較的少数のアセットを使用するため、次元性の呪いとして知られるものには対処していない。 本研究の目的は,garchプロセスとニューラルネットワークを混合し,資産リターンの共分散行列を予測するハイブリッドモデルの能力を検討することである。 そこで本研究では,ボラティリティと相関予測を分解する多変量ガーチに基づく新しいモデルを提案する。 ボラティリティはハイブリッドニューラルネットワークを使って予測され、相関は従来の計量過程に従っている。 最小分散ポートフォリオフレームワークでモデルを実装した後、以下の結果が得られます。 まず、入力としてGARCHパラメータを追加することは、提案したモデルに有益である。 第2に、ニューラルネットワークが各ストックを区別するためのワンホットエンコーディングを使用することで、パフォーマンスが向上する。 第三に、提案された新しいモデルは、均等に重み付けされたポートフォリオを上回るだけでなく、一変量 GARCH を用いて変動を予測できる、その計量的手法のかなりの差によって、非常に有望である。

Several academics have studied the ability of hybrid models mixing univariate Generalized Autoregressive Conditional Heteroskedasticity (GARCH) models and neural networks to deliver better volatility predictions than purely econometric models. Despite presenting very promising results, the generalization of such models to the multivariate case has yet to be studied. Moreover, very few papers have examined the ability of neural networks to predict the covariance matrix of asset returns, and all use a rather small number of assets, thus not addressing what is known as the curse of dimensionality. The goal of this paper is to investigate the ability of hybrid models, mixing GARCH processes and neural networks, to forecast covariance matrices of asset returns. To do so, we propose a new model, based on multivariate GARCHs that decompose volatility and correlation predictions. The volatilities are here forecast using hybrid neural networks while correlations follow a traditional econometric process. After implementing the models in a minimum variance portfolio framework, our results are as follows. First, the addition of GARCH parameters as inputs is beneficial to the model proposed. Second, the use of one-hot-encoding to help the neural network differentiate between each stock improves the performance. Third, the new model proposed is very promising as it not only outperforms the equally weighted portfolio, but also by a significant margin its econometric counterpart that uses univariate GARCHs to predict the volatilities.
翻訳日:2021-09-05 08:54:40 公開日:2021-08-25
# (参考訳) 医用画像における異常検出 --ミニレビュー- [全文訳有]

Anomaly Detection in Medical Imaging -- A Mini Review ( http://arxiv.org/abs/2108.11986v1 )

ライセンス: CC BY-SA 4.0
Maximilian E. Tschuchnig and Michael Gadermayr(参考訳) 医療画像のデジタル化が進むと、機械学習による病変の検出、可視化、セグメント化が改善され、医療専門家の作業負荷が軽減される。 しかしながら、教師付き機械学習には信頼性の高いラベル付きデータが必要であり、収集が困難、あるいは不可能、あるいは少なくとも時間を要するためコストがかかることが多い。 そのため、部分的にラベル付けされたデータのみを必要とする手法(半教師なし)や全くラベル付けを行わない手法(非教師なし)が、より定期的に適用されている。 異常検出は、半教師あり、教師なしの手法を利用して、分類やセグメンテーションのような医療画像のタスクを処理できる1つの方法である。 本稿では,医用画像における関連異常検出論文を概説し,アプリケーションへのクラスタ化,重要な成果の強調,学習の確立,医用画像における異常検出へのアプローチに関するさらなるアドバイスを行う。 質的分析は、google scholarと4つの異なる検索用語に基づいており、120の異なる分析論文が得られた。 主な結果は、現在の研究が主にラベル付きデータの必要性を減らすことが動機であることを示している。 また、脳MRI領域における多くの研究が成功し、OCTや胸部X線といったさらなる領域への応用の可能性を示している。

The increasing digitization of medical imaging enables machine learning based improvements in detecting, visualizing and segmenting lesions, easing the workload for medical experts. However, supervised machine learning requires reliable labelled data, which is is often difficult or impossible to collect or at least time consuming and thereby costly. Therefore methods requiring only partly labeled data (semi-supervised) or no labeling at all (unsupervised methods) have been applied more regularly. Anomaly detection is one possible methodology that is able to leverage semi-supervised and unsupervised methods to handle medical imaging tasks like classification and segmentation. This paper uses a semi-exhaustive literature review of relevant anomaly detection papers in medical imaging to cluster into applications, highlight important results, establish lessons learned and give further advice on how to approach anomaly detection in medical imaging. The qualitative analysis is based on google scholar and 4 different search terms, resulting in 120 different analysed papers. The main results showed that the current research is mostly motivated by reducing the need for labelled data. Also, the successful and substantial amount of research in the brain MRI domain shows the potential for applications in further domains like OCT and chest X-ray.
翻訳日:2021-08-30 23:48:16 公開日:2021-08-25
# 知識駆動型ディリクレ過程に基づく生涯無限混合モデル

Lifelong Infinite Mixture Model Based on Knowledge-Driven Dirichlet Process ( http://arxiv.org/abs/2108.12278v1 )

ライセンス: Link先を確認
Fei Ye and Adrian G. Bors(参考訳) 生涯学習における最近の研究は、より多くのタスクに適応するためにモデルの混合を成長させることを提案する。 提案手法は破滅的な忘れを克服する有望な結果を示す。 しかし、これらのモデルの背後にある理論はまだよく分かっていない。 本稿では,モデルが生成したデータの確率的表現と対象データセットに対応するデータとの差分距離に基づいて,リスク境界を導出することにより,生涯学習モデルの理論的解析を行う。 ネットワークアーキテクチャを自動拡張したり、新しいタスクの学習にパラメータを適合させるために適切なコンポーネントを選択したりすることができる。 本稿では,従来学習した知識と各コンポーネントに記憶された知識との依存性を計算するゲーティング機構と,新たなデータセットを用いて,ディリクレプロセスによる知識の取り込みを提案する。 さらに、時間とともにクロスドメイン表現を蓄積し、素早く推論できるコンパクトな学生モデルを訓練する。 コードはhttps://github.com/d tuzi123/Lifelong-inf inite-mixture-modelで入手できる。

Recent research efforts in lifelong learning propose to grow a mixture of models to adapt to an increasing number of tasks. The proposed methodology shows promising results in overcoming catastrophic forgetting. However, the theory behind these successful models is still not well understood. In this paper, we perform the theoretical analysis for lifelong learning models by deriving the risk bounds based on the discrepancy distance between the probabilistic representation of data generated by the model and that corresponding to the target dataset. Inspired by the theoretical analysis, we introduce a new lifelong learning approach, namely the Lifelong Infinite Mixture (LIMix) model, which can automatically expand its network architectures or choose an appropriate component to adapt its parameters for learning a new task, while preserving its previously learnt information. We propose to incorporate the knowledge by means of Dirichlet processes by using a gating mechanism which computes the dependence between the knowledge learnt previously and stored in each component, and a new set of data. Besides, we train a compact Student model which can accumulate cross-domain representations over time and make quick inferences. The code is available at https://github.com/d tuzi123/Lifelong-inf inite-mixture-model.
翻訳日:2021-08-30 14:25:29 公開日:2021-08-25
# 胸部における鉛レス注入型電子機器のX線画像検出と分類のためのカスケードニューラルネットワーク手法

Cascading Neural Network Methodology for Artificial Intelligence-Assiste d Radiographic Detection and Classification of Lead-Less Implanted Electronic Devices within the Chest ( http://arxiv.org/abs/2108.11954v1 )

ライセンス: Link先を確認
Mutlu Demirer, Richard D. White, Vikash Gupta, Ronnie A. Sebro, Barbaros S. Erdal(参考訳) background & Purpose: Chest X-Ray (CXR) はリードレス注入電子デバイス (LLIED) のMRI前安全スクリーニングに使われており、正面からの視認や誤認が容易である(しばしば取得のみ)。 LLIED のほとんどの型は "MRI conditional" である。 いくつかは厳密な条件付きである。 条件の異なるタイプは、特定の患者またはデバイス管理要件、および3。 特に「MRIアンセーフ」が特徴。 本研究は,CXR解釈支援人工知能(AI)方法論の開発に焦点を当てた。 100%検出し, 2。 LLIEDタイピングにおける高分類 Materials & Methods: Data-mining (03/1993-02/2021)は、AIモデル開発人口(1,100人/4,871人)を作成し、トレーニング、検証、テストに使用される4,924のLIEDリージョン-Of-Interests(ROI)を生成した。 カスケーディングニューラルネットワーク(Faster R-CNNによる検出とInception V3による分類)の開発には、GPUベースのグラフィカルユーザインターフェースに依存した"ground-truth" CXRアノテーション(LLIEDあたりROIラベル付け)に加えて、推論ディスプレイ(生成バウンディングボックス(GBBs))が使用された。 結果: 100%LLIED検出を達成するためには, Model 1 では 0.00002 の確率しきい値の低減が必要であり, LLIED 関連ROI 当たりの GBB が増加した。 全LLIED検出後のLLIED型分類を目標としたモデル2は, 偽陽性GBBを減少させながら, 高性能化を図った。 24%のROI画像品質にもかかわらず、98.9%の分類が正し、9種類のLLIEDではAUCが1.00、0.92が1。 すべての誤分類の場合: 1。 厳密な条件付きまたは安全でないロディーは含まない。 ほとんどが最適下画像によるものである。 結論: このプロジェクトはLLIED関連のAI方法論の開発に成功した。 検出率100%, 検出率2。 典型的には100%型分類である。

Background & Purpose: Chest X-Ray (CXR) use in pre-MRI safety screening for Lead-Less Implanted Electronic Devices (LLIEDs), easily overlooked or misidentified on a frontal view (often only acquired), is common. Although most LLIED types are "MRI conditional": 1. Some are stringently conditional; 2. Different conditional types have specific patient- or device- management requirements; and 3. Particular types are "MRI unsafe". This work focused on developing CXR interpretation-assis ting Artificial Intelligence (AI) methodology with: 1. 100% detection for LLIED presence/location; and 2. High classification in LLIED typing. Materials & Methods: Data-mining (03/1993-02/2021) produced an AI Model Development Population (1,100 patients/4,871 images) creating 4,924 LLIED Region-Of-Interests (ROIs) (with image-quality grading) used in Training, Validation, and Testing. For developing the cascading neural network (detection via Faster R-CNN and classification via Inception V3), "ground-truth" CXR annotation (ROI labeling per LLIED), as well as inference display (as Generated Bounding Boxes (GBBs)), relied on a GPU-based graphical user interface. Results: To achieve 100% LLIED detection, probability threshold reduction to 0.00002 was required by Model 1, resulting in increasing GBBs per LLIED-related ROI. Targeting LLIED-type classification following detection of all LLIEDs, Model 2 multi-classified to reach high-performance while decreasing falsely positive GBBs. Despite 24% suboptimal ROI image quality, classification was correct in 98.9% and AUCs for the 9 LLIED-types were 1.00 for 8 and 0.92 for 1. For all misclassification cases: 1. None involved stringently conditional or unsafe LLIEDs; and 2. Most were attributable to suboptimal images. Conclusion: This project successfully developed a LLIED-related AI methodology supporting: 1. 100% detection; and 2. Typically 100% type classification.
翻訳日:2021-08-30 14:08:20 公開日:2021-08-25
# オペレーター・レグレッション・ニューラル・ネットワークを用いた大動脈解離に至る進行性村内損傷のシミュレーション

Simulating progressive intramural damage leading to aortic dissection using an operator-regression neural network ( http://arxiv.org/abs/2108.11985v1 )

ライセンス: Link先を確認
Minglang Yin, Ehsan Ban, Bruno V. Rego, Enrui Zhang, Cristina Cavinato, Jay D. Humphrey, George Em Karniadakis(参考訳) 大動脈解離は壁の内側層を剥離することで進行する。 このプロセスの複雑さにも拘わらず、in vitro およびsilico において、流体注入による粘膜内空間の準静圧加圧によって引き起こされる解離の進行が、隣り合う弾性ラメラと接続する構造的に有意な層間トラストの空間分布に影響されることが示されている。 特に, 種々の組織学的微細構造は, 注入流体の圧力-体積関係や隣接するラメラ間の変位場など, 解剖中の力学的挙動の違いを引き起こす可能性がある。 本研究では,新しい演算子回帰ニューラルネットワークであるDeepONetを用いて,差分ストラット分布の偏微分過程に対するデータ駆動サロゲートモデルを開発した。 サロゲートモデルは、位相場有限要素モデルによって生成されたシリコデータを用いて、射出流体の圧力体積曲線と、strutsの空間分布が与えられる壁の損傷進行場を予測するように訓練されている。 その結果、DeepONetは様々なストラット分布の正確な予測が可能であり、この複合分岐トランクニューラルネットワークは、特徴的なミクロ組織と機械的特性の基盤となる機能的関係を効果的に抽出できることを示した。 より広範に、DeepONetはモデルに基づく解析を補助し、生物の多様性を定量化し、逆設計を改善し、多モード実験データに基づいて機械的特性を予測する。

Aortic dissection progresses via delamination of the medial layer of the wall. Notwithstanding the complexity of this process, insight has been gleaned by studying in vitro and in silico the progression of dissection driven by quasi-static pressurization of the intramural space by fluid injection, which demonstrates that the differential propensity of dissection can be affected by spatial distributions of structurally significant interlamellar struts that connect adjacent elastic lamellae. In particular, diverse histological microstructures may lead to differential mechanical behavior during dissection, including the pressure--volume relationship of the injected fluid and the displacement field between adjacent lamellae. In this study, we develop a data-driven surrogate model for the delamination process for differential strut distributions using DeepONet, a new operator--regression neural network. The surrogate model is trained to predict the pressure--volume curve of the injected fluid and the damage progression field of the wall given a spatial distribution of struts, with in silico data generated with a phase-field finite element model. The results show that DeepONet can provide accurate predictions for diverse strut distributions, indicating that this composite branch-trunk neural network can effectively extract the underlying functional relationship between distinctive microstructures and their mechanical properties. More broadly, DeepONet can facilitate surrogate model-based analyses to quantify biological variability, improve inverse design, and predict mechanical properties based on multi-modality experimental data.
翻訳日:2021-08-30 14:04:43 公開日:2021-08-25
# 健康状態診断と予後診断のための量子機械学習

Quantum Machine Learning for Health State Diagnosis and Prognostics ( http://arxiv.org/abs/2108.12265v1 )

ライセンス: Link先を確認
Gabriel San Mart\'in, Enrique L\'opez Droguett(参考訳) 量子コンピューティングは、その表現力、柔軟性、そしてスピードとスケーラビリティの両面で有望な結果により、最近幅広い分野の研究者を惹きつけた新しい分野である。 2020年以降、世界中の研究所が、機械学習と量子コンピューティングの相互関係にあるモデルを実験し始めた。 量子処理ユニット(QPU)がオープンAPI(IBMのQiskitなど)を通じて一般科学コミュニティに利用可能になったことで、古い問題に対する新しいアプローチの開発とテストへの関心が高まった。 本稿では,健康状態診断と予後診断のためのハイブリッド量子機械学習フレームワークを提案する。 このフレームワークは、ボールベアリングデータセットに関わる問題を用いて例示される。 我々の知る限りでは、これは量子コンピューティングを収穫し活用し、ハイブリッド量子古典機械学習アプローチを予後・健康管理(PHM)問題に応用する最初の試みである。 本稿では、リスクと信頼性の分野で量子機械学習アルゴリズムの探索と応用を開始することを願っている。

Quantum computing is a new field that has recently attracted researchers from a broad range of fields due to its representation power, flexibility and promising results in both speed and scalability. Since 2020, laboratories around the globe have started to experiment with models that lie in the juxtaposition between machine learning and quantum computing. The availability of quantum processing units (QPUs) to the general scientific community through open APIs (e.g., Qiskit from IBM) have kindled the interest in developing and testing new approaches to old problems. In this paper, we present a hybrid quantum machine learning framework for health state diagnostics and prognostics. The framework is exemplified using a problem involving ball bearings dataset. To the best of our knowledge, this is the first attempt to harvest and leverage quantum computing to develop and apply a hybrid quantum-classical machine learning approach to a prognostics and health management (PHM) problem. We hope that this paper initiates the exploration and application of quantum machine learning algorithms in areas of risk and reliability.
翻訳日:2021-08-30 14:03:13 公開日:2021-08-25
# (参考訳) 人体表面の解析のためのリーマン的枠組み [全文訳有]

A Riemannian Framework for Analysis of Human Body Surface ( http://arxiv.org/abs/2108.11449v1 )

ライセンス: CC BY 4.0
Emery Pierson, Mohamed Daoudi, Alice-Barbara Tumpach(参考訳) 形状とポーズの変化を考慮した3次元形状比較のための新しい枠組みを提案する。 3次元の人間の形状は被験者や身体姿勢によって大きく異なるため、この問題は難しい。 我々はリーマン的手法を用いてこの問題を解く。 私たちの中心となる貢献は、人体表面をメトリクスと正常な空間にマッピングすることです。 我々はこの空間に、Ebin(またはDeWitt)メトリクスと呼ばれるリーマン計量の族を割り当てる。 我々は、人体表面を、リーマン計量の族を持つ「形空間」の一点として扱う。 計量の族は剛体運動と再パラメータ化の下で不変であり、したがって曲面の「形状空間」上の計量を誘導する。 人体を所定のテンプレートでアライメントすることで、この一連のメトリクスによって形やポーズの変化を区別できることを示します。 提案されたフレームワークにはいくつかの利点がある。 まず,人間の形状を比較するために,所望の不変特性を持つ指標群を定義する。 第2に,人間の形状間の測地路を計算するための効率的な枠組みを提案する。 第3に、このフレームワークは人体表面の統計的形状解析のための基本的なツールを提供している。 最後に,人体のポーズと形状検索における提案手法の有用性を実証する。

We propose a novel framework for comparing 3D human shapes under the change of shape and pose. This problem is challenging since 3D human shapes vary significantly across subjects and body postures. We solve this problem by using a Riemannian approach. Our core contribution is the mapping of the human body surface to the space of metrics and normals. We equip this space with a family of Riemannian metrics, called Ebin (or DeWitt) metrics. We treat a human body surface as a point in a "shape space" equipped with a family of Riemmanian metrics. The family of metrics is invariant under rigid motions and reparametrizations; hence it induces a metric on the "shape space" of surfaces. Using the alignment of human bodies with a given template, we show that this family of metrics allows us to distinguish the changes in shape and pose. The proposed framework has several advantages. First, we define family of metrics with desired invariant properties for the comparison of human shape. Second, we present an efficient framework to compute geodesic paths between human shape given the chosen metric. Third, this framework provides some basic tools for statistical shape analysis of human body surfaces. Finally, we demonstrate the utility of the proposed framework in pose and shape retrieval of human body.
翻訳日:2021-08-28 03:06:07 公開日:2021-08-25
# (参考訳) SomnNET: スマートウォッチの睡眠時無呼吸検出のためのSpO2ベースのディープラーニングネットワーク [全文訳有]

SomnNET: An SpO2 Based Deep Learning Network for Sleep Apnea Detection in Smartwatches ( http://arxiv.org/abs/2108.11468v1 )

ライセンス: CC BY 4.0
Arlene John, Koushik Kumar Nundy, Barry Cardiff, Deepu John(参考訳) 呼吸の異常停止または速度低下は睡眠時無呼吸症候群と呼ばれ、個人の睡眠の質に影響する。 本稿では,ウェアラブルデバイスから得られる末梢酸素飽和(SpO2)信号から睡眠時無呼吸現象(呼吸時ポーズ)を検出する新しい手法について述べる。 論文では、SomnNETと呼ばれる1次元畳み込みニューラルネットワークが開発された秒単位の超高分解能のアパネ検出アルゴリズムについて詳述する。 このネットワークは97.08%の精度を示し、いくつかの低分解能アパネ検出法より優れている。 計算複雑性を低減するためのモデルプルーニングとバイナライズの実現可能性について検討した。 80%のスパーシティを有するプルーニングネットワークは89.75%の精度を示し、バイナリ化ネットワークは68.22%の精度を示した。 提案したネットワークの性能は、いくつかの最先端アルゴリズムと比較される。

The abnormal pause or rate reduction in breathing is known as the sleep-apnea hypopnea syndrome and affects the quality of sleep of an individual. A novel method for the detection of sleep apnea events (pause in breathing) from peripheral oxygen saturation (SpO2) signals obtained from wearable devices is discussed in this paper. The paper details an apnea detection algorithm of a very high resolution on a per-second basis for which a 1-dimensional convolutional neural network -- which we termed SomnNET -- is developed. This network exhibits an accuracy of 97.08% and outperforms several lower resolution state-of-the-art apnea detection methods. The feasibility of model pruning and binarization to reduce the computational complexity is explored. The pruned network with 80% sparsity exhibited an accuracy of 89.75%, and the binarized network exhibited an accuracy of 68.22%. The performance of the proposed networks is compared against several state-of-the-art algorithms.
翻訳日:2021-08-28 02:50:54 公開日:2021-08-25
# (参考訳) 脳循環動態予測のための物理インフォームニューラルネットワーク [全文訳有]

Physics-informed neural networks for improving cerebral hemodynamics predictions ( http://arxiv.org/abs/2108.11498v1 )

ライセンス: CC BY 4.0
Mohammad Sarabian, Hessam Babaee, Kaveh Laksari(参考訳) 脳循環動態の決定は、様々な脳血管疾患の診断と治療において重要な役割を果たす。 本研究では, 高速計算流体力学(CFD)シミュレーションを用いて, 脳循環動態パラメータの物理的に一貫した高時空間分解能を生成することにより, スパース臨床測定を増強する物理インフォームド・ディープラーニング・フレームワークを提案する。 経頭蓋ドプラ(TCD)超音波は、脳動脈内の血流速度を非侵襲的かつ瞬時に評価できる、現在の臨床ワークフローにおいて最も一般的な手法の1つである。 しかし、頭蓋骨の音響窓を通してのアクセシビリティが制限されているため、脳血管の至る所には空間的に限られている。 深層学習フレームワークでは,脳内数箇所のリアルタイムTD速度測定と3次元血管造影画像から得られた血管横断領域を用いて,血管全体の速度,面積,圧力の高解像度マップを提供する。 4次元フローmriスキャンで得られた生体内速度測定から予測したモデルの有効性を検証した。 次に, 血管内皮の局所血管径の変化を正常に予測し, 脳血管拡張症(CVS)の診断における本手法の臨床的意義を明らかにした。 ここでの鍵となる発見は、出口境界条件のサブスクリプションにおける不確実性と物理モデリングの欠陥が組み合わさって、従来の純粋に物理学に基づく計算モデルが正確な脳血行動態の回復に失敗したことである。 それでも、これらのモデルをデータ駆動アプローチによる臨床測定で融合することで、脳の血行動態変数の予測が改善される。

Determining brain hemodynamics plays a critical role in the diagnosis and treatment of various cerebrovascular diseases. In this work, we put forth a physics-informed deep learning framework that augments sparse clinical measurements with fast computational fluid dynamics (CFD) simulations to generate physically consistent and high spatiotemporal resolution of brain hemodynamic parameters. Transcranial Doppler (TCD) ultrasound is one of the most common techniques in the current clinical workflow that enables noninvasive and instantaneous evaluation of blood flow velocity within the cerebral arteries. However, it is spatially limited to only a handful of locations across the cerebrovasculature due to the constrained accessibility through the skull's acoustic windows. Our deep learning framework employs in-vivo real-time TCD velocity measurements at several locations in the brain and the baseline vessel cross-sectional areas acquired from 3D angiography images, and provides high-resolution maps of velocity, area, and pressure in the entire vasculature. We validated the predictions of our model against in-vivo velocity measurements obtained via 4D flow MRI scans. We then showcased the clinical significance of this technique in diagnosing the cerebral vasospasm (CVS) by successfully predicting the changes in vasospastic local vessel diameters based on corresponding sparse velocities measurements. The key finding here is that the combined effects of uncertainties in outlet boundary condition subscription and modeling physics deficiencies render the conventional purely physics-based computational models unsuccessful in recovering accurate brain hemodynamics. Nonetheless, fusing these models with clinical measurements through a data-driven approach ameliorates predictions of brain hemodynamic variables.
翻訳日:2021-08-28 02:42:54 公開日:2021-08-25
# (参考訳) 時間誘導によるロバスト高分解能ビデオマッチング [全文訳有]

Robust High-Resolution Video Matting with Temporal Guidance ( http://arxiv.org/abs/2108.11515v1 )

ライセンス: CC BY 4.0
Shanchuan Lin, Linjie Yang, Imran Saleemi, Soumyadip Sengupta(参考訳) 我々は,新しい最先端性能を実現する,堅牢でリアルタイム,高解像度のヒューマンビデオマッチング手法を提案する。 従来の方法よりもずっと軽量で、4kは76 fps、hdは104 fpsでnvidia gtx 1080ti gpuで処理できる。 フレーム・バイ・フレームを独立画像として行う既存の方法とは異なり,ビデオの時間的情報を活用するために再帰的アーキテクチャを用い,時間的コヒーレンスやマッチング品質の大幅な向上を実現している。 さらに,マッティング目標とセグメンテーション目標の両方にネットワークを強制する新たなトレーニング戦略を提案する。 これにより、モデルの堅牢性が大幅に向上します。 提案手法はトリマップや背景画像などの補助的な入力を必要としないため,既存の人間のマッチングアプリケーションに広く適用することができる。

We introduce a robust, real-time, high-resolution human video matting method that achieves new state-of-the-art performance. Our method is much lighter than previous approaches and can process 4K at 76 FPS and HD at 104 FPS on an Nvidia GTX 1080Ti GPU. Unlike most existing methods that perform video matting frame-by-frame as independent images, our method uses a recurrent architecture to exploit temporal information in videos and achieves significant improvements in temporal coherence and matting quality. Furthermore, we propose a novel training strategy that enforces our network on both matting and segmentation objectives. This significantly improves our model's robustness. Our method does not require any auxiliary inputs such as a trimap or a pre-captured background image, so it can be widely applied to existing human matting applications.
翻訳日:2021-08-28 02:13:08 公開日:2021-08-25
# コンピュータビジョンにおける深層強化学習 : 包括的調査

Deep Reinforcement Learning in Computer Vision: A Comprehensive Survey ( http://arxiv.org/abs/2108.11510v1 )

ライセンス: Link先を確認
Ngan Le, Vidhiwar Singh Rathour, Kashu Yamazaki, Khoa Luu, Marios Savvides(参考訳) ディープ強化学習は強化学習フレームワークを強化し、ディープニューラルネットワークの強力な表現を活用する。 近年の研究では、ファイナンス、医療、医療、ビデオゲーム、ロボティクス、コンピュータビジョンなど様々な分野で、深い強化学習が顕著に成功している。 本稿では,コンピュータビジョンにおける深層強化学習の最近の研究動向と最新技術について概観する。 まず、深層学習、強化学習、深層学習の理論を理解することから始めます。 次に,深層強化学習手法の分類を提案し,その利点と限界について議論する。 特に,深層強化学習を,コンピュータビジョンへの応用によって7つの主要カテゴリに分割した。 (i)ランドマークの局所化(ii)オブジェクト検出、(iii)オブジェクト追跡、(iv)2次元画像と3次元画像のボリュームデータ(v)イメージセグメンテーション、(vi)ビデオ分析、(vii)その他のアプリケーション。 これらのカテゴリは、強化学習技術、ネットワーク設計、パフォーマンスによってさらに分析される。 さらに,既存の公開データセットの包括的解析を行い,ソースコードの可用性を検討する。 最後に,コンピュータビジョンにおける深層強化学習の課題と今後の研究方向性について述べる。

Deep reinforcement learning augments the reinforcement learning framework and utilizes the powerful representation of deep neural networks. Recent works have demonstrated the remarkable successes of deep reinforcement learning in various domains including finance, medicine, healthcare, video games, robotics, and computer vision. In this work, we provide a detailed review of recent and state-of-the-art research advances of deep reinforcement learning in computer vision. We start with comprehending the theories of deep learning, reinforcement learning, and deep reinforcement learning. We then propose a categorization of deep reinforcement learning methodologies and discuss their advantages and limitations. In particular, we divide deep reinforcement learning into seven main categories according to their applications in computer vision, i.e. (i)landmark localization (ii) object detection; (iii) object tracking; (iv) registration on both 2D image and 3D image volumetric data (v) image segmentation; (vi) videos analysis; and (vii) other applications. Each of these categories is further analyzed with reinforcement learning techniques, network design, and performance. Moreover, we provide a comprehensive analysis of the existing publicly available datasets and examine source code availability. Finally, we present some open issues and discuss future research directions on deep reinforcement learning in computer vision
翻訳日:2021-08-27 14:16:55 公開日:2021-08-25
# 説明のための潜在概念のセマンティックグルーピング:アンテホックアプローチ

Inducing Semantic Grouping of Latent Concepts for Explanations: An Ante-Hoc Approach ( http://arxiv.org/abs/2108.11761v1 )

ライセンス: Link先を確認
Anirban Sarkar, Deepak Vijaykeerthy, Anindya Sarkar, Vineeth N Balasubramanian(参考訳) 自己説明可能な深層モデルは、ポストホックな説明生成手法を必要とせずにデータセット内の隠れた概念を表現するために考案される。 分類子関数を線形関数として明示的に表現することで動機づけられたモデルの一つに取り組み,確率的潜在性を利用してモデルの異なる部分を適切に修正することで,より優れた説明と優れた予測性能が得られることを示した。 標準的な可視化技術とは別に,隠れた概念に対する人間の理解を強化する新しい手法を提案した。 また, 2つの異なる自己スーパービジョン技術を用いて, 自己スーパービジョンのタイプに関連する有意義な概念を抽出し, 有意な性能向上を達成する手法を提案した。 我々の手法の最も重要な側面は、低いデータ構造でうまく機能し、いくつかのエポックにおいて所望の精度に達することである。 CIFAR10, CIFAR100, AWA2データセットを用いて, 中等度かつ比較的複雑なデータセットを用いた手法の有効性を示す。

Self-explainable deep models are devised to represent the hidden concepts in the dataset without requiring any posthoc explanation generation technique. We worked with one of such models motivated by explicitly representing the classifier function as a linear function and showed that by exploiting probabilistic latent and properly modifying different parts of the model can result better explanation as well as provide superior predictive performance. Apart from standard visualization techniques, we proposed a new technique which can strengthen human understanding towards hidden concepts. We also proposed a technique of using two different self-supervision techniques to extract meaningful concepts related to the type of self-supervision considered and achieved significant performance boost. The most important aspect of our method is that it works nicely in a low data regime and reaches the desired accuracy in a few number of epochs. We reported exhaustive results with CIFAR10, CIFAR100, and AWA2 datasets to show effect of our method with moderate and relatively complex datasets.
翻訳日:2021-08-27 14:12:18 公開日:2021-08-25
# 操縦識別チャレンジ

Maneuver Identification Challenge ( http://arxiv.org/abs/2108.11503v1 )

ライセンス: Link先を確認
Kaira Samuel, Vijay Gadepally, David Jacobs, Michael Jones, Kyle McAlpin, Kyle Palko, Ben Paulk, Sid Samsi, Ho Chit Siu, Charles Yee, Jeremy Kepner(参考訳) 軌道データから操作を識別するaiアルゴリズムは、飛行の安全性とパイロットの訓練を改善する上で重要な役割を果たす。 AIの課題は、さまざまなチームが協力して難しい問題を解決することを可能にし、AIソリューションを開発する効果的なツールである。 AIの課題は、AIの計算要求の鍵でもある。 機動id.mit.eduで開催されているManeuver Identification Challengeは、飛行シミュレーターで練習しているパイロットから集めた何千もの軌道、機動の説明、経験豊富なパイロットによるこれらの操縦の例を提供する。 各軌道は、共通の座標系に正規化された位置、速度、航空機の方向からなる。 データセットの構築には、フライトシミュレータログをAI準備データに変換するための重要なデータアーキテクチャが必要だった。 3つの課題がある。 第一の課題は、物理的にもっともらしい(良い)軌跡と(悪い)軌跡を分離することである。 この作業を支援するために、人間のラベル付き良い軌道と悪い軌道が提供される。 その後の課題は、軌道を意図した操作でラベル付けし、それらの操作の質を評価することである。

AI algorithms that identify maneuvers from trajectory data could play an important role in improving flight safety and pilot training. AI challenges allow diverse teams to work together to solve hard problems and are an effective tool for developing AI solutions. AI challenges are also a key driver of AI computational requirements. The Maneuver Identification Challenge hosted at maneuver-id.mit.edu provides thousands of trajectories collected from pilots practicing in flight simulators, descriptions of maneuvers, and examples of these maneuvers performed by experienced pilots. Each trajectory consists of positions, velocities, and aircraft orientations normalized to a common coordinate system. Construction of the data set required significant data architecture to transform flight simulator logs into AI ready data, which included using a supercomputer for deduplication and data conditioning. There are three proposed challenges. The first challenge is separating physically plausible (good) trajectories from unfeasible (bad) trajectories. Human labeled good and bad trajectories are provided to aid in this task. Subsequent challenges are to label trajectories with their intended maneuvers and to assess the quality of those maneuvers.
翻訳日:2021-08-27 14:11:47 公開日:2021-08-25
# googleマップにおけるグラフニューラルネットワークによるeta予測

ETA Prediction with Graph Neural Networks in Google Maps ( http://arxiv.org/abs/2108.11482v1 )

ライセンス: Link先を確認
Austin Derrow-Pinion, Jennifer She, David Wong, Oliver Lange, Todd Hester, Luis Perez, Marc Nunkesser, Seongjae Lee, Xueying Guo, Brett Wiltshire, Peter W. Battaglia, Vishal Gupta, Ang Li, Zhongwen Xu, Alvaro Sanchez-Gonzalez, Yujia Li, Petar Veli\v{c}kovi\'c(参考訳) 旅行時間の予測は交通ネットワークにおいて重要なタスクであり、Google MapsのようなWebマッピングサービスは、ユーザーや企業からの大量の旅行時間クエリを定期的に提供している。 さらに、このようなタスクは複雑な時空間的相互作用(道路ネットワークのトポロジカルな特性と、ラッシュ時間のような予測イベントをモデル化する)を考慮に入れる必要がある。 したがって、大規模なグラフ表現学習の理想的なターゲットである。 ここでは、Google Mapsで本番環境にデプロイした到着時刻(ETA)を推定するためのグラフニューラルネットワーク推定器を提案する。 我々の主要なアーキテクチャは標準のGNNビルディングブロックで構成されていますが、モデルが堅牢でプロダクション対応にするためにMetaGradientsのようなトレーニングスケジュールメソッドの使用をさらに詳細に説明します。 さまざまなアーキテクチャ決定とトレーニング体制を非難する、そして私たちのモデルが競争力のあるエッジを提供する現実の状況に関する質的な分析を提供する。 我々のGNNはデプロイ時に強力であることが分かり、シドニーのような都市では40%以上)に比べ、いくつかの地域で負のETA結果が著しく減少した。

Travel-time prediction constitutes a task of high importance in transportation networks, with web mapping services like Google Maps regularly serving vast quantities of travel time queries from users and enterprises alike. Further, such a task requires accounting for complex spatiotemporal interactions (modelling both the topological properties of the road network and anticipating events -- such as rush hours -- that may occur in the future). Hence, it is an ideal target for graph representation learning at scale. Here we present a graph neural network estimator for estimated time of arrival (ETA) which we have deployed in production at Google Maps. While our main architecture consists of standard GNN building blocks, we further detail the usage of training schedule methods such as MetaGradients in order to make our model robust and production-ready. We also provide prescriptive studies: ablating on various architectural decisions and training regimes, and qualitative analyses on real-world situations where our model provides a competitive edge. Our GNN proved powerful when deployed, significantly reducing negative ETA outcomes in several regions compared to the previous production baseline (40+% in cities like Sydney).
翻訳日:2021-08-27 14:10:39 公開日:2021-08-25
# 重み付きストリーミング統計推定

Heavy-tailed Streaming Statistical Estimation ( http://arxiv.org/abs/2108.11483v1 )

ライセンス: Link先を確認
Che-Ping Tsai, Adarsh Prasad, Sivaraman Balakrishnan, Pradeep Ravikumar(参考訳) p$-dimensional サンプルをストリーミングする場合,重み付き統計量推定の課題を考える。 これは、さらに$o(p)$の空間複雑性制約を伴う重畳分布の下での確率的最適化と見なすこともできる。 本研究では, 確率勾配の雑音に対してよりニュアンスな条件下で, 確率勾配降下アルゴリズムを設計し, 一般的な統計的推定問題から生じる確率勾配最適化問題を解析する場合に重要であることを示す。 結果は期待値だけでなく指数関数集中度で収束し,さらに$o(1)$バッチサイズで収束する。 平均回帰および線形回帰に対する結果の結果を提供する。 最後に, 平均推定と線形回帰のための合成実験により, 実験結果とアルゴリズムの実証的照合を行う。

We consider the task of heavy-tailed statistical estimation given streaming $p$-dimensional samples. This could also be viewed as stochastic optimization under heavy-tailed distributions, with an additional $O(p)$ space complexity constraint. We design a clipped stochastic gradient descent algorithm and provide an improved analysis, under a more nuanced condition on the noise of the stochastic gradients, which we show is critical when analyzing stochastic optimization problems arising from general statistical estimation problems. Our results guarantee convergence not just in expectation but with exponential concentration, and moreover does so using $O(1)$ batch size. We provide consequences of our results for mean estimation and linear regression. Finally, we provide empirical corroboration of our results and algorithms via synthetic experiments for mean estimation and linear regression.
翻訳日:2021-08-27 14:09:37 公開日:2021-08-25
# 2層線形ネットワークにおけるインシシトバイアスとベニグオーバーフィッティングの相互作用

The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer Linear Networks ( http://arxiv.org/abs/2108.11489v1 )

ライセンス: Link先を確認
Niladri S. Chatterji, Philip M. Long, Peter L. Bartlett(参考訳) 最近のニューラルネットワークモデルの成功は、かなり驚くべき統計的現象に光を当てている。ノイズの多いデータに完全に適合する統計モデルは、目に見えないテストデータによく当てはまる。 $\textit{benign overfitting}$のこの現象を理解することは、理論的および経験的研究を強く惹きつけている。 本稿では,2層線形ニューラルネットワークを2層に補間し,2層共変体が準ガウス性および反集束特性を満たす場合の過大なリスクを導出し,ノイズは独立かつ準ガウス性であることを示す。 この推定器の暗黙バイアスを特徴付ける最近の結果を活用することで、我々の限界は初期化の品質とデータ共分散行列の特性の両方が低い余剰リスクを達成する上で果たす役割を強調している。

The recent success of neural network models has shone light on a rather surprising statistical phenomenon: statistical models that perfectly fit noisy data can generalize well to unseen test data. Understanding this phenomenon of $\textit{benign overfitting}$ has attracted intense theoretical and empirical study. In this paper, we consider interpolating two-layer linear neural networks trained with gradient flow on the squared loss and derive bounds on the excess risk when the covariates satisfy sub-Gaussianity and anti-concentration properties, and the noise is independent and sub-Gaussian. By leveraging recent results that characterize the implicit bias of this estimator, our bounds emphasize the role of both the quality of the initialization as well as the properties of the data covariance matrix in achieving low excess risk.
翻訳日:2021-08-27 14:09:26 公開日:2021-08-25
# 逆ロバスト性による一般化実世界の超解法

Generalized Real-World Super-Resolution through Adversarial Robustness ( http://arxiv.org/abs/2108.11505v1 )

ライセンス: Link先を確認
Angela Castillo, Mar\'ia Escobar, Juan C. P\'erez, Andr\'es Romero, Radu Timofte, Luc Van Gool and Pablo Arbel\'aez(参考訳) 現実の超解法(SR)は、低分解能画像におけるノイズや汚物に似た特定の劣化モデルを初めて学習することで、伝統的に取り組まれてきた。 したがって、現在の手法は一般化を欠き、目に見えない種類の汚職でテストすると精度が低下する。 従来の提案とは対照的に,現実のSRに対処するための敵攻撃の一般化能力を活用する手法であるRobust Super-Resolution(RSR )を提案する。 データセット固有の劣化を学習する代わりに、モデルの弱点を狙う難しい例を作成するために、敵攻撃を使用します。 その後、トレーニング中にこれらの逆例を使用して、ノイズの多い入力を処理するモデルの能力を改善する。 我々は,合成および実世界の画像に対して広範囲に実験を行い,RSR法が特定のノイズ前処理を再学習することなく,データセット間でよく一般化できることを実証的に実証した。 単一のロバストモデルを使用することで、実世界のベンチマークで最先端の特殊な手法より優れている。

Real-world Super-Resolution (SR) has been traditionally tackled by first learning a specific degradation model that resembles the noise and corruption artifacts in low-resolution imagery. Thus, current methods lack generalization and lose their accuracy when tested on unseen types of corruption. In contrast to the traditional proposal, we present Robust Super-Resolution (RSR), a method that leverages the generalization capability of adversarial attacks to tackle real-world SR. Our novel framework poses a paradigm shift in the development of real-world SR methods. Instead of learning a dataset-specific degradation, we employ adversarial attacks to create difficult examples that target the model's weaknesses. Afterward, we use these adversarial examples during training to improve our model's capacity to process noisy inputs. We perform extensive experimentation on synthetic and real-world images and empirically demonstrate that our RSR method generalizes well across datasets without re-training for specific noise priors. By using a single robust model, we outperform state-of-the-art specialized methods on real-world benchmarks.
翻訳日:2021-08-27 14:09:09 公開日:2021-08-25
# 統計的リレーショナルからニューラルシンボリック人工知能へ:調査

From Statistical Relational to Neural Symbolic Artificial Intelligence: a Survey ( http://arxiv.org/abs/2108.11451v1 )

ライセンス: Link先を確認
Giuseppe Marra and Sebastijan Duman\v{c}i\'c and Robin Manhaeve and Luc De Raedt(参考訳) ニューラルシンボリックと統計リレーショナル人工知能はどちらも、論理的推論による学習のためのフレームワークを統合する。 この調査は、これらの2つの分野の7つの異なる次元にまたがる複数の並列性を特定する。 これらは、ニューラルシンボリック人工知能アプローチの特徴付けと位置決めだけでなく、さらなる研究のためのいくつかの方向を特定するためにも使われる。

Neural-symbolic and statistical relational artificial intelligence both integrate frameworks for learning with logical reasoning. This survey identifies several parallels across seven different dimensions between these two fields. These cannot only be used to characterize and position neural-symbolic artificial intelligence approaches but also to identify a number of directions for further research.
翻訳日:2021-08-27 14:05:52 公開日:2021-08-25
# pgtrnet:疑似基底真理精錬による2相弱教師付き物体検出

PGTRNet: Two-phase Weakly Supervised Object Detection with Pseudo Ground Truth Refining ( http://arxiv.org/abs/2108.11439v1 )

ライセンス: Link先を確認
Jun Wang, Hefeng Zhou, Xiaohan Yu(参考訳) 画像レベルのアノテーションだけで検出器を訓練することを目的としたweakly supervised object detection(wsod)が注目されている。 現在の最先端のアプローチは、主に完全な教師付き検出器(fsd)と純粋なwsodモデルを統合する2段階のトレーニング戦略に従っている。 2相WSODアプローチの性能を阻害する主な問題は2つある。すなわち、不十分な学習問題と、WSODモデルによって生成されたFSDと擬似基底真理(PGT)との厳密な依存である。 本稿では,これらの問題に対処するために,学習可能なパラメータを導入することなく,単純かつ効果的な手法であるpseudo ground truthfine network (pgtrnet)を提案する。 PGTRNetは複数のバウンディングボックスを用いてPGTを確立することで、不十分な学習問題を軽減している。 さらに,第1相モデルと第2相モデルの分離により,第2相トレーニングにおけるFSDのパワーをフル活用し,PGTbyの品質を着実に向上させる新しいオンラインPGT改善手法を提案する。 本手法の有効性を検証するため,PASCAL VOC 2007ベンチマークを用いて実験を行った。 実験の結果,PGTRNetはバックボーンモデルを2.074%のmAPで向上し,2相トレーニングの有意な可能性を示唆した。

Weakly Supervised Object Detection (WSOD), aiming to train detectors with only image-level annotations, has arisen increasing attention. Current state-of-the-art approaches mainly follow a two-stage training strategy whichintegrates a fully supervised detector (FSD) with a pure WSOD model. There are two main problems hindering the performance of the two-phase WSOD approaches, i.e., insufficient learning problem and strict reliance between the FSD and the pseudo ground truth (PGT) generated by theWSOD model. This paper proposes pseudo ground truth refinement network (PGTRNet), a simple yet effective method without introducing any extra learnable parameters, to cope with these problems. PGTRNet utilizes multiple bounding boxes to establish the PGT, mitigating the insufficient learning problem. Besides, we propose a novel online PGT refinement approach to steadily improve the quality of PGTby fully taking advantage of the power of FSD during the second-phase training, decoupling the first and second-phase models. Elaborate experiments are conducted on the PASCAL VOC 2007 benchmark to verify the effectiveness of our methods. Experimental results demonstrate that PGTRNet boosts the backbone model by 2.074% mAP and achieves the state-of-the-art performance, showing the significant potentials of the second-phase training.
翻訳日:2021-08-27 14:04:44 公開日:2021-08-25
# ラベルの労力を減らす: セルフ教師付き学習

Reducing Label Effort: Self-Supervised meets Active Learning ( http://arxiv.org/abs/2108.11458v1 )

ライセンス: Link先を確認
Javad Zolfaghari Bengar, Joost van de Weijer, Bartlomiej Twardowski, Bogdan Raducanu(参考訳) アクティブラーニング(active learning)は、積極的に選択された情報的および/または代表的サンプルに基づいてモデルをトレーニングすることで、アノテーションの労力を削減することを目的としたパラダイムである。 アノテーションの労力を減らす別のパラダイムは、大量のラベルのないデータから教師なしの方法で学習する自己学習であり、ラベル付きサンプルはほとんどない。 最近の自己学習の発展は、いくつかのデータセットで教師付き学習に匹敵する非常に印象的な結果をもたらしている。 現在の作業は、この2つのパラダイムが互いにメリットを享受できるかどうかに焦点を当てている。 評価のために,cifar10,cifar100,ti ny imagenetなどのオブジェクト認識データセットを調査した。 実験の結果,ラベル付け作業の削減に積極的学習が有効であること,ラベル付け予算の削減に積極的学習が有効であること,ラベル付け予算が高い場合には積極的学習と自己学習の組み合わせが有益であること,などが判明した。 自己学習またはスクラッチでトレーニングされたアクティブラーニングのパフォーマンスギャップは、データセットのほぼ半分がラベル付けされた時点に近づくにつれて減少します。

Active learning is a paradigm aimed at reducing the annotation effort by training the model on actively selected informative and/or representative samples. Another paradigm to reduce the annotation effort is self-training that learns from a large amount of unlabeled data in an unsupervised way and fine-tunes on few labeled samples. Recent developments in self-training have achieved very impressive results rivaling supervised learning on some datasets. The current work focuses on whether the two paradigms can benefit from each other. We studied object recognition datasets including CIFAR10, CIFAR100 and Tiny ImageNet with several labeling budgets for the evaluations. Our experiments reveal that self-training is remarkably more efficient than active learning at reducing the labeling effort, that for a low labeling budget, active learning offers no benefit to self-training, and finally that the combination of active learning and self-training is fruitful when the labeling budget is high. The performance gap between active learning trained either with self-training or from scratch diminishes as we approach to the point where almost half of the dataset is labeled.
翻訳日:2021-08-27 14:04:20 公開日:2021-08-25
# 特徴エンタングルメント低減による物体検出と属性認識の改善

Improving Object Detection and Attribute Recognition by Feature Entanglement Reduction ( http://arxiv.org/abs/2108.11501v1 )

ライセンス: Link先を確認
Zhaoheng Zheng, Arka Sadhu and Ram Nevatia(参考訳) 色と素材という2つの属性で物体検出を探索する。 このタスクは、オブジェクトを同時に検出し、その色と素材を推測することを目的としている。 ストレートフォワードアプローチは、通常のオブジェクト検出パイプラインの最後に属性ヘッドを追加することである。 オブジェクト検出は属性独立でなければならないし、属性は主にオブジェクト独立である。 カテゴリーと属性の特徴を独立に計算するが、分類ヘッドは興味の領域(RoIs)を共有している2ストリームモデルを用いることで、カテゴリーと属性の特徴を絞った標準検出ネットワークによって計算される特徴を解消する。 従来のシングルストリームモデルと比較すると,Visual GenomeのサブセットであるVG-20よりも,教師付きタスクと属性転送タスクにおいて大幅な改善が見られた。

We explore object detection with two attributes: color and material. The task aims to simultaneously detect objects and infer their color and material. A straight-forward approach is to add attribute heads at the very end of a usual object detection pipeline. However, we observe that the two goals are in conflict: Object detection should be attribute-independen t and attributes be largely object-independent. Features computed by a standard detection network entangle the category and attribute features; we disentangle them by the use of a two-stream model where the category and attribute features are computed independently but the classification heads share Regions of Interest (RoIs). Compared with a traditional single-stream model, our model shows significant improvements over VG-20, a subset of Visual Genome, on both supervised and attribute transfer tasks.
翻訳日:2021-08-27 14:03:59 公開日:2021-08-25
# 自律駐車のためのモデルベース意思決定

Model-based Decision Making with Imagination for Autonomous Parking ( http://arxiv.org/abs/2108.11420v1 )

ライセンス: Link先を確認
Ziyue Feng, Yu Chen, Shitao Chen, Nanning Zheng(参考訳) 自動駐車技術は自動運転研究における重要な概念である。 本稿では,駐車に関する課題を解決するための想像的自律駐車アルゴリズムを提案する。 提案アルゴリズムは,駐車前に結果を予測する想像モデルと,所定のスタート地点から駐車場までの軌道を計画するための改良された高速探索ランダムツリー(RRT)と,駐車作業の効率を最適化する経路平滑化モジュールの3つの部分から構成される。 我々のアルゴリズムは実際の運動車モデルに基づいており、実際の自動運転車のアルゴリズム適用に適している。 さらに,イマジネーション機構の導入により,アルゴリズムの処理速度が従来の手法の処理速度の10倍に向上し,同時にリアルタイム計画の実現が可能となった。 アルゴリズムの有効性を評価するため,3つの異なる駐車シナリオにおいて,従来のRTとアルゴリズムを比較した。 その結果,我々のアルゴリズムは従来のRTよりも安定であり,効率や品質の面では優れていた。

Autonomous parking technology is a key concept within autonomous driving research. This paper will propose an imaginative autonomous parking algorithm to solve issues concerned with parking. The proposed algorithm consists of three parts: an imaginative model for anticipating results before parking, an improved rapid-exploring random tree (RRT) for planning a feasible trajectory from a given start point to a parking lot, and a path smoothing module for optimizing the efficiency of parking tasks. Our algorithm is based on a real kinematic vehicle model; which makes it more suitable for algorithm application on real autonomous cars. Furthermore, due to the introduction of the imagination mechanism, the processing speed of our algorithm is ten times faster than that of traditional methods, permitting the realization of real-time planning simultaneously. In order to evaluate the algorithm's effectiveness, we have compared our algorithm with traditional RRT, within three different parking scenarios. Ultimately, results show that our algorithm is more stable than traditional RRT and performs better in terms of efficiency and quality.
翻訳日:2021-08-27 13:54:56 公開日:2021-08-25
# エッジ上のコンピュータビジョンのための効率的なdnnオペレータの設計と足場訓練

Design and Scaffolded Training of an Efficient DNN Operator for Computer Vision on the Edge ( http://arxiv.org/abs/2108.11441v1 )

ライセンス: Link先を確認
Vinod Ganesan and Pratyush Kumar(参考訳) 大規模並列シリアルアレイと資源効率の深い分離可能な畳み込みは、エッジ上のDNN推論を加速する2つの有望な手法である。 深く分離可能な畳み込みの計算パターンは、リズム的なシストリックフローを示しておらず、シストリックアレイを飽和させるのに十分なデータ再利用が不十分である。 我々は、この非効率性を正式に分析し、効率的なオペレーター、最適なハードウェアデータフロー、そしてこれを緩和するための優れたトレーニング方法論を提案する。 FuSeConvと呼ばれる効率的な演算子は、深い分離可能な畳み込みのドロップイン置換である。 fuseconvは畳み込みを空間と深さの次元に沿って完全に分解する。 結果の計算は、効率的にシストリックアレイにマッピングする。 最適データフローはSpatial-Tiled Output Stationary (ST-OS)と呼ばれ、FuSeConvのシストリクスアレイ上での効率を最大化する。 独立な畳み込みを配列の行にマッピングし、無視できるVLSIオーバーヘッドでリソース利用を最大化する。 Neuro Operator Scaffolding (NOS)は、高価な深度分離可能な畳み込みからの知識を蒸留することで、FuSeConvのトレーニングを足場に置いている。 これはfuseconvネットワークとベースライン間の精度ギャップを埋める。 さらに、NAS(Neural Architecture Search)と組み合わせることで、レイテンシと精度のトレードオフが可能になる。 FuSeConvとST-OSのHW/SW共同設計により、4.1-9.25Xの大幅な高速化を実現した。 FuSeConvのパラメータ効率と、その奥行きの分離可能なシリアルアレイ上の畳み込みに対する顕著なアウトパフォーマンスは、エッジ上での強い解であることを示す。 NOSを用いたFuSeConvネットワークのトレーニングは、ベースラインに匹敵する精度を達成する。 さらに,NASとNASを組み合わせることで,サイストリックアレイの精度と待ち時間を改善した最先端モデルを定義するネットワークを設計する。

Massively parallel systolic arrays and resource-efficient depthwise separable convolutions are two promising techniques to accelerate DNN inference on the edge. Interestingly, their combination is inefficient: Computational patterns of depthwise separable convolutions do not exhibit a rhythmic systolic flow and lack sufficient data reuse to saturate systolic arrays. We formally analyse this inefficiency and propose an efficient operator, an optimal hardware dataflow, and a superior training methodology towards alleviating this. The efficient operator, called FuSeConv, is a drop-in replacement for depthwise separable convolutions. FuSeConv factorizes convolution fully along their spatial and depth dimensions. The resultant computation efficiently maps to systolic arrays. The optimal dataflow, called Spatial-Tiled Output Stationary (ST-OS), maximizes the efficiency of FuSeConv on systolic arrays. It maps independent convolutions to rows of the array to maximize resource utilization with negligible VLSI overheads. Neural Operator Scaffolding (NOS) scaffolds the training of FuSeConv by distilling knowledge from the expensive depthwise separable convolutions. This bridges the accuracy gap between FuSeConv networks and baselines. Additionally, NOS can be combined with Neural Architecture Search (NAS) to trade-off latency and accuracy. The HW/SW co-design of FuSeConv with ST-OS achieves a significant speedup of 4.1-9.25X with state-of-the-art efficient networks for ImageNet. The parameter efficiency of FuSeConv and its significant out-performance over depthwise separable convolutions on systolic arrays illustrates their promise as a strong solution on the edge. Training FuSeConv networks with NOS achieves accuracy comparable to the baselines. Further, by combining NOS with NAS, we design networks that define state-of-the-art models improving on both accuracy and latency on systolic arrays.
翻訳日:2021-08-27 13:54:38 公開日:2021-08-25
# PIVODL: 分散ラベルを用いたプライバシー保護型縦型学習

PIVODL: Privacy-preserving vertical federated learning over distributed labels ( http://arxiv.org/abs/2108.11444v1 )

ライセンス: Link先を確認
Hangyu Zhu, Rui Wang, Yaochu Jin, Kaitai Liang(参考訳) フェデレーテッド・ラーニング(FL)は、複数のデバイスがプライベートなローカルデータを公開せずに、共同で共有グローバルモデルをトレーニングできる、新たなプライバシ保護機械学習プロトコルである。 グラデーションブースティング決定木(gbdt)のような非パラメトリックモデルは、flで垂直分割データのために一般的に用いられてきた。 しかしながら、これらの研究はすべて、すべてのデータラベルが1つのクライアントにのみ格納されていると仮定している。 そこで本研究では,複数のデバイスに分散したデータラベルでGBDTをトレーニングするための,PIVODLと呼ばれるセキュアな垂直FLフレームワークを提案する。 同型暗号化と差分プライバシーの両方が採用され、送信された勾配と葉の値によってラベル情報が漏洩することを防ぐ。 実験の結果,提案したPIVODLは情報漏洩もモデル性能劣化も無視できることがわかった。

Federated learning (FL) is an emerging privacy preserving machine learning protocol that allows multiple devices to collaboratively train a shared global model without revealing their private local data. Non-parametric models like gradient boosting decision trees (GBDT) have been commonly used in FL for vertically partitioned data. However, all these studies assume that all the data labels are stored on only one client, which may be unrealistic for real-world applications. Therefore, in this work, we propose a secure vertical FL framework, named PIVODL, to train GBDT with data labels distributed on multiple devices. Both homomorphic encryption and differential privacy are adopted to prevent label information from being leaked through transmitted gradients and leaf values. Our experimental results show that both information leakage and model performance degradation of the proposed PIVODL are negligible.
翻訳日:2021-08-27 13:52:25 公開日:2021-08-25
# 常微分方程式を解くための教師なし貯水池計算

Unsupervised Reservoir Computing for Solving Ordinary Differential Equations ( http://arxiv.org/abs/2108.11417v1 )

ライセンス: Link先を確認
Marios Mattheakis, Hayden Joy, Pavlos Protopapas(参考訳) 微分方程式を解くために教師なしニューラルネットワークを使うことに関心がある。 既存の手法はフィードフォワードネットワークに基づいているが,ニューラルネットワーク微分方程式解法はまだ報告されていない。 我々は,通常の微分方程式 (odes) を満たす近似解を探索可能な,エコー状態再帰型ニューラルネットワークであるunsupervised reservoir computing (rc)を提案する。 バックプロパゲーションを使わずにリカレントニューラルネットワーク出力の時間微分を計算する手法を提案する。 RCの内部重量は固定され、線形出力層のみが訓練され、効率よく訓練される。 しかし、RC性能は計算に高価なプロセスである最適ハイパーパラメータの発見に強く依存する。 我々はベイジアン最適化を用いて高次元ハイパーパラメータ空間における最適集合を効率的に発見し、1つの集合がロバストであり、異なる初期条件と時間範囲のODEを解くために使用できることを示す。 最適出力重みの閉形式式を導出し、バックプロパゲーションフリー学習プロセスにおいて一階線形方程式を解く。 我々は,勾配降下とベイズ最適化を組み合わせたハイブリッド最適化法を用いて,ODEの非線形系を解くことでRC手法を拡張した。 方程式の線形系および非線形系の評価は、RCODEソルバの効率を示す。

There is a wave of interest in using unsupervised neural networks for solving differential equations. The existing methods are based on feed-forward networks, {while} recurrent neural network differential equation solvers have not yet been reported. We introduce an unsupervised reservoir computing (RC), an echo-state recurrent neural network capable of discovering approximate solutions that satisfy ordinary differential equations (ODEs). We suggest an approach to calculate time derivatives of recurrent neural network outputs without using backpropagation. The internal weights of an RC are fixed, while only a linear output layer is trained, yielding efficient training. However, RC performance strongly depends on finding the optimal hyper-parameters, which is a computationally expensive process. We use Bayesian optimization to efficiently discover optimal sets in a high-dimensional hyper-parameter space and numerically show that one set is robust and can be used to solve an ODE for different initial conditions and time ranges. A closed-form formula for the optimal output weights is derived to solve first order linear equations in a backpropagation-free learning process. We extend the RC approach by solving nonlinear system of ODEs using a hybrid optimization method consisting of gradient descent and Bayesian optimization. Evaluation of linear and nonlinear systems of equations demonstrates the efficiency of the RC ODE solver.
翻訳日:2021-08-27 13:51:42 公開日:2021-08-25
# マルチレベルin situ生成によるメモリ効率のよいニューラルネットワーク

Towards Memory-Efficient Neural Networks via Multi-Level in situ Generation ( http://arxiv.org/abs/2108.11430v1 )

ライセンス: Link先を確認
Jiaqi Gu, Hanqing Zhu, Chenghao Feng, Mingjie Liu, Zixuan Jiang, Ray T. Chen, David Z. Pan(参考訳) ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。 それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。 従来の電子回路から新しい光子技術まで、幅広い効率的な加速器の設計が実証されたが、電気メモリの帯域幅/電力/レイテンシーと計算コアとのギャップのため、高価なメモリアクセスによってボトルネックを負っている。 従来のソリューションでは、新しいDNNアクセラレーターの超高速計算速度がクリティカルメモリバウンドを突破するのに失敗している。 本稿では,超高速オンチップ計算による高価なメモリトランザクションを交換する汎用的で統一的なフレームワークを提案する。 DNNカーネル内の固有相関とビットレベル冗長性を共同で検討し、ハードウェアオーバーヘッドを最小限に抑えた高分解能パラメータのオンザフライ回復を実現するために、混合精度ベースを用いたマルチレベルIn situ生成機構を提案する。 提案手法は,ResNet-18/DenseNet- 121/MobileNetV2/V3のベンチマークにおいて,4つの最先端設計に対して10~20倍の精度でメモリ効率を向上できることを示す。

Deep neural networks (DNN) have shown superior performance in a variety of tasks. As they rapidly evolve, their escalating computation and memory demands make it challenging to deploy them on resource-constrained edge devices. Though extensive efficient accelerator designs, from traditional electronics to emerging photonics, have been successfully demonstrated, they are still bottlenecked by expensive memory accesses due to tremendous gaps between the bandwidth/power/late ncy of electrical memory and computing cores. Previous solutions fail to fully-leverage the ultra-fast computational speed of emerging DNN accelerators to break through the critical memory bound. In this work, we propose a general and unified framework to trade expensive memory transactions with ultra-fast on-chip computations, directly translating to performance improvement. We are the first to jointly explore the intrinsic correlations and bit-level redundancy within DNN kernels and propose a multi-level in situ generation mechanism with mixed-precision bases to achieve on-the-fly recovery of high-resolution parameters with minimum hardware overhead. Extensive experiments demonstrate that our proposed joint method can boost the memory efficiency by 10-20x with comparable accuracy over four state-of-the-art designs, when benchmarked on ResNet-18/DenseNet-1 21/MobileNetV2/V3 with various tasks.
翻訳日:2021-08-27 13:51:21 公開日:2021-08-25
# 注意に基づく神経負荷予測:動的特徴選択アプローチ

Attention-based Neural Load Forecasting: A Dynamic Feature Selection Approach ( http://arxiv.org/abs/2108.11763v1 )

ライセンス: Link先を確認
Jing Xiong, Pengyang Zhou, Alan Chen and Yu Zhang(参考訳) エンコーダデコーダに基づくリカレントニューラルネットワーク(RNN)は,機械翻訳や会話モデルといったシーケンス対シーケンス学習タスクにおいて,大きな進歩を遂げている。 最近の研究は、様々な時系列予測タスクを扱う上で、この種のネットワークの利点を示している。 本稿では,電力系統の計画・運用において重要な役割を果たすマルチ水平短期負荷予測の問題に焦点をあてる。 エンコーダ・デコーダRNNを利用して、関連する特徴や類似の時間情報を適応的に選択するアテンションモデルを開発する。 まず、入力特徴は特徴選択注意層によって異なる重みに割り当てられ、更新された履歴特徴は双方向長短期記憶層(BiLSTM)によって符号化される。 そして、階層的な時間的注意を持つデコーダは、時間ステップ毎に履歴情報の重要性を再評価する類似の日選択を可能にする。 2014年の世界エネルギー予測コンペティションのデータセットで検証した結果,提案手法は既存の予測手法よりも優れていた。

Encoder-decoder-base d recurrent neural network (RNN) has made significant progress in sequence-to-sequence learning tasks such as machine translation and conversational models. Recent works have shown the advantage of this type of network in dealing with various time series forecasting tasks. The present paper focuses on the problem of multi-horizon short-term load forecasting, which plays a key role in the power system's planning and operation. Leveraging the encoder-decoder RNN, we develop an attention model to select the relevant features and similar temporal information adaptively. First, input features are assigned with different weights by a feature selection attention layer, while the updated historical features are encoded by a bi-directional long short-term memory (BiLSTM) layer. Then, a decoder with hierarchical temporal attention enables a similar day selection, which re-evaluates the importance of historical information at each time step. Numerical results tested on the dataset of the global energy forecasting competition 2014 show that our proposed model significantly outperforms some existing forecasting schemes.
翻訳日:2021-08-27 13:50:39 公開日:2021-08-25
# 発見への学習--物理科学における多次元シミュレーションとパラメータ推論のための表現型ガウス混合モデル

Learning to discover: expressive Gaussian mixture models for multi-dimensional simulation and parameter inference in the physical sciences ( http://arxiv.org/abs/2108.11481v1 )

ライセンス: Link先を確認
Stephen B. Menary and Darren D. Price(参考訳) i) 硬い境界と (ii) 外部パラメータに依存する複数の観測可能量を記述する密度モデルは, 自己回帰型ガウス混合モデルを用いて生成できることを示す。 このモデルは観測可能なスペクトルが仮説のバリエーションによってどのように変形するかを捉えるように設計されており、データを構成可能な潜在空間に投影することでより表現力がある。 物理モデルのパラメータを制約したり、キャリブレーションデータに従ってシミュレーションパラメータをチューニングする場合など、実験的な観測を解釈するための科学的発見のための統計モデルとして使用できる。 このモデルはモンテカルロシミュレーションチェーン内で使用するためにサンプル化することもできるし、イベント分類の確率比の推定にも使われる。 本手法は,大型ハドロン衝突型加速器におけるダイジェット系に関連して,z$ボソンの異常電弱発生を考慮したシミュレーション高エネルギー粒子物理データを用いて実証され,現実的なおもちゃの例を用いて推定精度が検証された。 多くの実値オブザーバブルからなるデータセットが外部パラメータに条件依存性を持つようなシミュレーションや推論を行うために、任意のフィールド内で使用される。

We show that density models describing multiple observables with (i) hard boundaries and (ii) dependence on external parameters may be created using an auto-regressive Gaussian mixture model. The model is designed to capture how observable spectra are deformed by hypothesis variations, and is made more expressive by projecting data onto a configurable latent space. It may be used as a statistical model for scientific discovery in interpreting experimental observations, for example when constraining the parameters of a physical model or tuning simulation parameters according to calibration data. The model may also be sampled for use within a Monte Carlo simulation chain, or used to estimate likelihood ratios for event classification. The method is demonstrated on simulated high-energy particle physics data considering the anomalous electroweak production of a $Z$ boson in association with a dijet system at the Large Hadron Collider, and the accuracy of inference is tested using a realistic toy example. The developed methods are domain agnostic; they may be used within any field to perform simulation or inference where a dataset consisting of many real-valued observables has conditional dependence on external parameters.
翻訳日:2021-08-27 13:48:19 公開日:2021-08-25
# 音声とジェスチャーの統合合成

Integrated Speech and Gesture Synthesis ( http://arxiv.org/abs/2108.11436v1 )

ライセンス: Link先を確認
Siyang Wang, Simon Alexanderson, Joakim Gustafson, Jonas Beskow, Gustav Eje Henter, \'Eva Sz\'ekely(参考訳) text-to-speechとco-speechのジェスチャー合成は、これまで2つの異なる研究コミュニティによって別々の領域として扱われてきた。 これは非効率をモデル化し、達成可能な自然性を制限する不整合をもたらす可能性がある。 そこで本研究では,統合音声・ジェスチャー合成(ISG)と呼ばれる新しい問題である,単一モデルで2つのモーダルを合成することを提案する。 また,この目的を達成するために,最先端のニューラル音声合成エンジンから修正したモデルセットを提案する。 3つの慎重に設計されたユーザスタディでモデルを評価し、そのうちの2つは、合成された音声とジェスチャーを分離して評価し、また、実際のアプリケーションで使用されるようなモデル(音声とジェスチャー)をまとめて評価する。 その結果,提案する統合合成モデルの1つを,我々が比較した最先端のパイプラインシステムと同等の精度で評価した。 このモデルは、合成時間を短縮し、パイプラインシステムに比べてパラメータ数を大幅に削減し、単一の統一問題として音声とジェスチャー合成を組み合わせることの潜在的な利点を明らかにした。 ビデオとコードはhttps://swatsw.githu b.io/isg_icmi21/にある。

Text-to-speech and co-speech gesture synthesis have until now been treated as separate areas by two different research communities, and applications merely stack the two technologies using a simple system-level pipeline. This can lead to modeling inefficiencies and may introduce inconsistencies that limit the achievable naturalness. We propose to instead synthesize the two modalities in a single model, a new problem we call integrated speech and gesture synthesis (ISG). We also propose a set of models modified from state-of-the-art neural speech-synthesis engines to achieve this goal. We evaluate the models in three carefully-designed user studies, two of which evaluate the synthesized speech and gesture in isolation, plus a combined study that evaluates the models like they will be used in real-world applications -- speech and gesture presented together. The results show that participants rate one of the proposed integrated synthesis models as being as good as the state-of-the-art pipeline system we compare against, in all three tests. The model is able to achieve this with faster synthesis time and greatly reduced parameter count compared to the pipeline system, illustrating some of the potential benefits of treating speech and gesture synthesis together as a single, unified problem. Videos and code are available on our project page at https://swatsw.githu b.io/isg_icmi21/
翻訳日:2021-08-27 13:47:40 公開日:2021-08-25
# (参考訳) Isaac Gym: ロボット学習のための高性能GPUベースの物理シミュレーション

Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning ( http://arxiv.org/abs/2108.10470v2 )

ライセンス: CC BY 4.0
Viktor Makoviychuk, Lukasz Wawrzyniak, Yunrong Guo, Michelle Lu, Kier Storey, Miles Macklin, David Hoeller, Nikita Rudin, Arthur Allshire, Ankur Handa, Gavriel State(参考訳) Isaac Gymは、GPU上でさまざまなロボットタスクのポリシーをトレーニングする、高性能な学習プラットフォームを提供する。 物理シミュレーションとニューラルネットワークポリシのトレーニングはどちらもgpu上にあり、物理バッファからpytorchテンソルに直接データを渡すことで、cpuボトルネックを乗り越えることなく通信する。 これにより、ニューラルネットワークにcpuベースのシミュレータとgpuを使用する従来のrlトレーニングに比べて、複雑なロボットタスクを1つのgpu上で高速にトレーニングする時間が2~3桁向上した。 結果は \url{https://sites.google .com/view/isaacgym-n vidia} でホストされ、isaac gymは \url{https://developer.nv idia.com/isaac-gym} でダウンロードできる。

Isaac Gym offers a high performance learning platform to train policies for wide variety of robotics tasks directly on GPU. Both physics simulation and the neural network policy training reside on GPU and communicate by directly passing data from physics buffers to PyTorch tensors without ever going through any CPU bottlenecks. This leads to blazing fast training times for complex robotics tasks on a single GPU with 2-3 orders of magnitude improvements compared to conventional RL training that uses a CPU based simulator and GPU for neural networks. We host the results and videos at \url{https://sites.google .com/view/isaacgym-n vidia} and isaac gym can be downloaded at \url{https://developer.nv idia.com/isaac-gym}.
翻訳日:2021-08-27 09:34:36 公開日:2021-08-25
# (参考訳) Wanderlust: 現実世界におけるオンライン連続物体検出 [全文訳有]

Wanderlust: Online Continual Object Detection in the Real World ( http://arxiv.org/abs/2108.11005v1 )

ライセンス: CC BY 4.0
Jianren Wang, Xin Wang, Yue Shang-Guan, Abhinav Gupta(参考訳) 動的環境におけるデータストリームからのオンライン連続学習は、コンピュータビジョン分野における重要な方向である。 しかし、このラインにおける現実的なベンチマークや基礎研究はまだ欠落している。 このギャップを埋めるために、エゴセントリックなビデオデータセットであるObjects Around Krishna (OAK)を用いた新しいオンライン連続オブジェクト検出ベンチマークを提案する。 OAKは、大学院生が9ヶ月以上にわたって収集したエゴ中心のビデオストリームであるKrishnaCAMビデオを採用している。 OAKは、屋外シーンで105のオブジェクトカテゴリに対して、80本のビデオスニペット(約17.5時間)の包括的なバウンディングボックスアノテーションを提供する。 ベンチマークにおける新しいオブジェクトカテゴリの出現は、1人の人が日々の生活で見るようなパターンに従っています。 データセットは、人が別の場所へ行くと、自然な分布シフトもキャプチャする。 これらのエゴセントリックなロングラン動画は、特にオンラインの具体的設定において、継続的な学習アルゴリズムの現実的な遊び場を提供する。 また,新しい評価指標を導入し,モデルの性能と破滅的な忘れ方を評価し,オンライン連続物体検出のためのベースラインスタディを提供する。 このベンチマークは、継続学習における非定常データからの学習に新たなエキサイティングな課題をもたらすと思います。 OAKデータセットと関連するベンチマークはhttps://oakdata.gith ub.io/で公開されている。

Online continual learning from data streams in dynamic environments is a critical direction in the computer vision field. However, realistic benchmarks and fundamental studies in this line are still missing. To bridge the gap, we present a new online continual object detection benchmark with an egocentric video dataset, Objects Around Krishna (OAK). OAK adopts the KrishnaCAM videos, an ego-centric video stream collected over nine months by a graduate student. OAK provides exhaustive bounding box annotations of 80 video snippets (~17.5 hours) for 105 object categories in outdoor scenes. The emergence of new object categories in our benchmark follows a pattern similar to what a single person might see in their day-to-day life. The dataset also captures the natural distribution shifts as the person travels to different places. These egocentric long-running videos provide a realistic playground for continual learning algorithms, especially in online embodied settings. We also introduce new evaluation metrics to evaluate the model performance and catastrophic forgetting and provide baseline studies for online continual object detection. We believe this benchmark will pose new exciting challenges for learning from non-stationary data in continual learning. The OAK dataset and the associated benchmark are released at https://oakdata.gith ub.io/.
翻訳日:2021-08-26 21:47:54 公開日:2021-08-25
# (参考訳) 合成から実への移動のスケーリング則:事前学習の尺度 [全文訳有]

A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training ( http://arxiv.org/abs/2108.11018v1 )

ライセンス: CC BY 4.0
Hiroaki Mikami, Kenji Fukumizu, Shogo Murai, Shuji Suzuki, Yuta Kikuchi, Taiji Suzuki, Shin-ichi Maeda, Kohei Hayashi(参考訳) 合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。 合成画像はデータの不足を克服するが、特に事前学習データサイズの観点から、事前学習されたモデルで微調整性能がどのようにスケールするかは定かではない。 本研究では,多くの経験的観察を収集し,その秘密を明らかにする。 実験を通じて,合成前学習データの様々なタスク,モデル,複雑度における学習曲線を一貫して記述する,単純で一般的なスケーリング則を観察する。 さらに, 簡易シナリオに対する伝達学習の理論を開発し, 導出一般化境界が経験的発見と一致していることを確認する。

Synthetic-to-real transfer learning is a framework in which we pre-train models with synthetically generated images and ground-truth annotations for real tasks. Although synthetic images overcome the data scarcity issue, it remains unclear how the fine-tuning performance scales with pre-trained models, especially in terms of pre-training data size. In this study, we collect a number of empirical observations and uncover the secret. Through experiments, we observe a simple and general scaling law that consistently describes learning curves in various tasks, models, and complexities of synthesized pre-training data. Further, we develop a theory of transfer learning for a simplified scenario and confirm that the derived generalization bound is consistent with our empirical findings.
翻訳日:2021-08-26 21:35:22 公開日:2021-08-25
# (参考訳) EncoderMI:コントラスト学習における事前学習エンコーダに対する会員推論 [全文訳有]

EncoderMI: Membership Inference against Pre-trained Encoders in Contrastive Learning ( http://arxiv.org/abs/2108.11023v1 )

ライセンス: CC BY 4.0
Hongbin Liu, Jinyuan Jia, Wenjie Qu, Neil Zhenqiang Gong(参考訳) ラベルのない画像や(画像、テキスト)ペアが与えられたコントラスト学習は、多くの下流タスクの機能抽出器として使用できるイメージエンコーダを事前訓練することを目的としている。 本研究では,コントラスト学習によって事前学習された画像エンコーダに対する最初のメンバシップ推論手法であるEncoderMIを提案する。 特に、入力とイメージエンコーダへのブラックボックスアクセスが与えられた場合、EncoderMIは、入力がイメージエンコーダのトレーニングデータセットにあるかどうかを推測する。 エンコーダmiは、データ所有者が、その(公開)データが画像エンコーダを許可なく事前トレーニングするために使用されたか、または、プライベート/敏感な場合、トレーニングデータのプライバシを侵害する攻撃者による監査に使用できる。 私たちのEncoderMIは、トレーニングデータに対する画像エンコーダの過度な適合を利用しています。 特に、過度に適合したイメージエンコーダは、トレーニングデータセット内の2つの追加バージョンの入力に対して、より多く(またはより少ない)類似した特徴ベクトルを出力する傾向にある。 複数のデータセットでプリトレーニングされた画像エンコーダのエンコーダと、インターネットから4億(画像、テキスト)ペアで事前トレーニングされ、openaiによってリリースされているコントラスト言語イメージプリトレーニング(clip)イメージエンコーダについて評価する。 その結果, EncoderMI は高精度, 高精度, リコールが可能であった。 また,早期停止によるオーバーフィットを防止し,エンコーダミ対策を検討する。 本研究では,EncoderMIの精度と画像エンコーダの実用性とのトレードオフ,すなわちEncoderMIの精度を低減できることを示すとともに,画像エンコーダに基づいて構築された下流分類器の分類精度を低下させることを示す。

Given a set of unlabeled images or (image, text) pairs, contrastive learning aims to pre-train an image encoder that can be used as a feature extractor for many downstream tasks. In this work, we propose EncoderMI, the first membership inference method against image encoders pre-trained by contrastive learning. In particular, given an input and a black-box access to an image encoder, EncoderMI aims to infer whether the input is in the training dataset of the image encoder. EncoderMI can be used 1) by a data owner to audit whether its (public) data was used to pre-train an image encoder without its authorization or 2) by an attacker to compromise privacy of the training data when it is private/sensitive. Our EncoderMI exploits the overfitting of the image encoder towards its training data. In particular, an overfitted image encoder is more likely to output more (or less) similar feature vectors for two augmented versions of an input in (or not in) its training dataset. We evaluate EncoderMI on image encoders pre-trained on multiple datasets by ourselves as well as the Contrastive Language-Image Pre-training (CLIP) image encoder, which is pre-trained on 400 million (image, text) pairs collected from the Internet and released by OpenAI. Our results show that EncoderMI can achieve high accuracy, precision, and recall. We also explore a countermeasure against EncoderMI via preventing overfitting through early stopping. Our results show that it achieves trade-offs between accuracy of EncoderMI and utility of the image encoder, i.e., it can reduce the accuracy of EncoderMI, but it also incurs classification accuracy loss of the downstream classifiers built based on the image encoder.
翻訳日:2021-08-26 20:59:03 公開日:2021-08-25
# (参考訳) 自然言語処理による指標の正確な分類と多施設大腸内視鏡所見と病理所見 [全文訳有]

Natural Language Processing Accurately Categorizes Indications, Findings and Pathology Reports from Multicenter Colonoscopy ( http://arxiv.org/abs/2108.11034v1 )

ライセンス: CC BY-SA 4.0
Shashank Reddy Vadyala, Eric A. Sherer(参考訳) 大腸内視鏡は大腸癌(CRC)スクリーニングに用いられる。 電子健康記録(EHR)における自由テキストからの大腸内視鏡所見の抽出により,CRCおよび大腸癌スクリーニング戦略の患者リスクを判定することができる。 臨床診断支援システムのための情報抽出のための深層学習モデルフレームワークの開発と評価を行い, 適応, 病理, 所見ノートなど, 関連フリーテキストレポートの解釈を行った。 The Bio-Bi-LSTM-CRF framework was developed using Bidirectional Long Short-term Memory (Bi-LSTM) and Conditional Random Fields (CRF) to extract several clinical features from these free-text reports including illustrates for the colonoscopy, findings during the colonoscopy, and pathology of resected material。 我々は,3,867人の手書き注釈書の80%に対して,Bio-Bi-LSTM-CRFおよび既存のBi-LSTM-CRFモデルを訓練した。 これらの臨床記録は4つの退役軍人医療センターに登録された40歳以上の患者のグループによるものである。 残りのアノテートノートの10%はハイパーパラメータのトレーニングに使用し,残りの10%はBio-Bi-LSTM-CRFの精度を評価し,Bi-LSTM-CRFと比較した。

Colonoscopy is used for colorectal cancer (CRC) screening. Extracting details of the colonoscopy findings from free text in electronic health records (EHRs) can be used to determine patient risk for CRC and colorectal screening strategies. We developed and evaluated the accuracy of a deep learning model framework to extract information for the clinical decision support system to interpret relevant free-text reports, including indications, pathology, and findings notes. The Bio-Bi-LSTM-CRF framework was developed using Bidirectional Long Short-term Memory (Bi-LSTM) and Conditional Random Fields (CRF) to extract several clinical features from these free-text reports including indications for the colonoscopy, findings during the colonoscopy, and pathology of resected material. We trained the Bio-Bi-LSTM-CRF and existing Bi-LSTM-CRF models on 80% of 4,000 manually annotated notes from 3,867 patients. These clinical notes were from a group of patients over 40 years of age enrolled in four Veterans Affairs Medical Centers. A total of 10% of the remaining annotated notes were used to train hyperparameter and the remaining 10% were used to evaluate the accuracy of our model Bio-Bi-LSTM-CRF and compare to Bi-LSTM-CRF.
翻訳日:2021-08-26 20:30:04 公開日:2021-08-25
# (参考訳) ビデオ超解像のためのメモリ拡張非局所注意法 [全文訳有]

Memory-Augmented Non-Local Attention for Video Super-Resolution ( http://arxiv.org/abs/2108.11048v1 )

ライセンス: CC BY 4.0
Jiyang Yu, Jingen Liu, Liefeng Bo, Tao Mei(参考訳) 本稿では,低解像度(LR)ビデオから高解像度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。 従来の方法は、主に時間的隣接フレームを利用して、現在のフレームの超解像を支援する。 これらの手法は、空間的フレームアライメントの課題や、類似のLR隣接フレームからの有用な情報の欠如に悩まされているため、限られた性能を達成する。 対照的に、フレームアライメントなしでビデオの超高解像度化を可能にするクロスフレーム非局所アテンション機構を考案し、ビデオの大きな動きに対してより堅牢になる。 さらに, 隣接フレーム以外の情報を取得するために, 超高解像度トレーニング中に一般的な映像を記憶するためのメモリ拡張アテンションモジュールを設計する。 実験結果から,本手法はフレームの整列を伴わずに,最先端の手法と比較してより優れた性能が得られることが示された。 ソースコードはリリースされます。

In this paper, we propose a novel video super-resolution method that aims at generating high-fidelity high-resolution (HR) videos from low-resolution (LR) ones. Previous methods predominantly leverage temporal neighbor frames to assist the super-resolution of the current frame. Those methods achieve limited performance as they suffer from the challenge in spatial frame alignment and the lack of useful information from similar LR neighbor frames. In contrast, we devise a cross-frame non-local attention mechanism that allows video super-resolution without frame alignment, leading to be more robust to large motions in the video. In addition, to acquire the information beyond neighbor frames, we design a novel memory-augmented attention module to memorize general video details during the super-resolution training. Experimental results indicate that our method can achieve superior performance on large motion videos comparing to the state-of-the-art methods without aligning frames. Our source code will be released.
翻訳日:2021-08-26 20:17:56 公開日:2021-08-25
# (参考訳) 注意型ネットワークを用いたビデオの正規学習 [全文訳有]

Normal Learning in Videos with Attention Prototype Network ( http://arxiv.org/abs/2108.11055v1 )

ライセンス: CC BY 4.0
Chao Hu, Fan Wu, Weijie Wu, Weibin Qiu, Shengxin Lai(参考訳) オートエンコーダ(AE)に基づくフレーム再構成(現在または将来のフレーム)は、ビデオ異常検出の一般的な方法である。 通常のデータに基づいてトレーニングされたモデルでは、異常シーンの再構成エラーは通常、通常のものよりもはるかに大きい。 以前の方法では、トレーニングビデオのさまざまな通常のパターンをエンコードするために、メモリバンクをAEに導入していた。 しかし、それらはメモリ消費であり、テストデータで目に見えない新しいシナリオに対応できない。 本研究では,通常の潜伏空間をメモリコストを伴わず,プロトタイプとしてリアルタイムに符号化する自己注意型プロトタイプユニット(APU)を提案する。 さらに,我々の背骨に循環注意機構を導入し,新たな特徴抽出学習者,すなわち循環注意ユニット(CAU)を形成する。 新しいシーンへの高速な適応機能を実現するために、更新を数回繰り返すだけでよい。 様々なベンチマークで広範な実験が行われている。 最先端技術よりも優れた性能は,本手法の有効性を示す。 私たちのコードはhttps://github.com/h uchao-AI/APN/で利用可能です。

Frame reconstruction (current or future frame) based on Auto-Encoder (AE) is a popular method for video anomaly detection. With models trained on the normal data, the reconstruction errors of anomalous scenes are usually much larger than those of normal ones. Previous methods introduced the memory bank into AE, for encoding diverse normal patterns across the training videos. However, they are memory consuming and cannot cope with unseen new scenarios in the testing data. In this work, we propose a self-attention prototype unit (APU) to encode the normal latent space as prototypes in real time, free from extra memory cost. In addition, we introduce circulative attention mechanism to our backbone to form a novel feature extracting learner, namely Circulative Attention Unit (CAU). It enables the fast adaption capability on new scenes by only consuming a few iterations of update. Extensive experiments are conducted on various benchmarks. The superior performance over the state-of-the-art demonstrates the effectiveness of our method. Our code is available at https://github.com/h uchao-AI/APN/.
翻訳日:2021-08-26 19:59:47 公開日:2021-08-25
# (参考訳) 社会的ノームバイアス:公正なアルゴリズムの残酷さ [全文訳有]

Social Norm Bias: Residual Harms of Fairness-Aware Algorithms ( http://arxiv.org/abs/2108.11056v1 )

ライセンス: CC BY 4.0
Myra Cheng, Maria De-Arteaga, Lester Mackey, Adam Tauman Kalai(参考訳) 多くの現代の学習アルゴリズムは、性別や人種のような繊細な属性に関連する粗い定義されたグループに公平性を与えることでバイアスを軽減している。 しかし、同じアルゴリズムは、グループメンバーの多様性によって生じるグループ内のバイアスをほとんど考慮しない。 本研究では,これらのシステムが集団的公平性目標を達成しても,自動意思決定システムによって示されるような,微妙だが連続的な差別のタイプである社会規範バイアス(snob)を特徴付ける。 本稿では, 職業分類における性別偏見のレンズを通して, この問題を考察する。 我々は、アルゴリズムの予測がジェンダー規範とどのように関連しているかを測定することでSNoBを定量化し、機械学習アプローチを用いて測定する。 この枠組みは、男性優位の職業に関連する分類タスクにおいて、フェアネスウェア分類器は男性的ジェンダー規範に合致した方法で書かれた伝記を好むことを明らかにする。 我々は、公平な介入技術間でSNoBを比較し、後処理の介入がこの種のバイアスを全く軽減しないことを示す。

Many modern learning algorithms mitigate bias by enforcing fairness across coarsely-defined groups related to a sensitive attribute like gender or race. However, the same algorithms seldom account for the within-group biases that arise due to the heterogeneity of group members. In this work, we characterize Social Norm Bias (SNoB), a subtle but consequential type of discrimination that may be exhibited by automated decision-making systems, even when these systems achieve group fairness objectives. We study this issue through the lens of gender bias in occupation classification from biographies. We quantify SNoB by measuring how an algorithm's predictions are associated with conformity to gender norms, which is measured using a machine learning approach. This framework reveals that for classification tasks related to male-dominated occupations, fairness-aware classifiers favor biographies written in ways that align with masculine gender norms. We compare SNoB across fairness intervention techniques and show that post-processing interventions do not mitigate this type of bias at all.
翻訳日:2021-08-26 19:47:02 公開日:2021-08-25
# (参考訳) viola:トピックに依存しない生成・ランク対話システム [全文訳有]

Viola: A Topic Agnostic Generate-and-Rank Dialogue System ( http://arxiv.org/abs/2108.11063v1 )

ライセンス: CC BY 4.0
Hyundong Cho, Basel Shbita, Kartik Shenoy, Shuai Liu, Nikhil Patel, Hitesh Pindikanti, Jennifer Lee, Jonathan May(参考訳) 本稿では,音声対話のためのオープンドメイン対話システムであるviolaについて述べる。 大規模な言語モデルに基づく生成対話システムの最近の進歩を活用して、Violaは、さまざまなデータセットと知識基底入力でトレーニングされたさまざまな神経対話モデルから、応答候補のバッチを取得する。 テンプレートベースのジェネレータに由来する追加のレスポンスも、ユーザの入力と検出されたエンティティによって考慮される。 手作りのジェネレータは、Webからクロールされ、毎日自動的に処理されるリッチコンテンツで注入された動的知識グラフの上に構築される。 viola's response rankerは、対話履歴から最適な応答を選択する、微調整されたポリエンコーダである。 ポリエンコーダ専用のアノテーションだけで、問題のある応答の選択を間接的に回避できますが、神経変性を検出するためのルールベースのセーフティネットと、攻撃的なコンテンツをフィルターする専用の分類器を追加します。 ViolaがAlexa Prize Socialbot Grand Challenge 4に参加した会話を分析し、私たちのアプローチの長所と短所について論じます。 最後に、より堅牢なデータ駆動型ソーシャルボットに貢献するソーシャルボットのために、会話データを特別にキュレートすることに焦点を当てた今後の作業を提案する。

We present Viola, an open-domain dialogue system for spoken conversation that uses a topic-agnostic dialogue manager based on a simple generate-and-rank approach. Leveraging recent advances of generative dialogue systems powered by large language models, Viola fetches a batch of response candidates from various neural dialogue models trained with different datasets and knowledge-grounding inputs. Additional responses originating from template-based generators are also considered, depending on the user's input and detected entities. The hand-crafted generators build on a dynamic knowledge graph injected with rich content that is crawled from the web and automatically processed on a daily basis. Viola's response ranker is a fine-tuned polyencoder that chooses the best response given the dialogue history. While dedicated annotations for the polyencoder alone can indirectly steer it away from choosing problematic responses, we add rule-based safety nets to detect neural degeneration and a dedicated classifier to filter out offensive content. We analyze conversations that Viola took part in for the Alexa Prize Socialbot Grand Challenge 4 and discuss the strengths and weaknesses of our approach. Lastly, we suggest future work with a focus on curating conversation data specifcially for socialbots that will contribute towards a more robust data-driven socialbot.
翻訳日:2021-08-26 19:22:23 公開日:2021-08-25
# (参考訳) 単発学習のためのクラスレベルプロトタイプの学習 [全文訳有]

Learning Class-level Prototypes for Few-shot Learning ( http://arxiv.org/abs/2108.11072v1 )

ライセンス: CC BY 4.0
Minglei Yuan, Wenhai Wang, Tao Wang, Chunhao Cai, Qian Xu and Tong Lu(参考訳) ほとんどラベル付きサンプルを使用して新しいカテゴリを認識することを目的としていない。 近年の有望な開発は少ないが、既存の手法ではプロトタイプの計算に平均的な演算を採用しているため、外れたサンプルによって制限されている。 本研究では,エピソディックプロトタイプ生成モジュールを用いて,少数のサポートデータから好適なプロトタイプを生成することを学ぶための,単純かつ効果的なマイナショット分類フレームワークを提案する。 生成されたプロトタイプは特定の \textit{\targetproto{}} に近いことを意図しており、外れたサンプルの影響は少ない。 大規模な実験により,本モジュールの有効性が実証され,提案手法はベースラインモデルよりも大幅に向上し,従来手法である \textit{mini}ImageNet, \textit{tiered}ImageNet, cross-domain (\textit{mini}ImageNet $\rightarrow$ CUB-200-2011) のデータセットと比較して競合する結果が得られる。

Few-shot learning aims to recognize new categories using very few labeled samples. Although few-shot learning has witnessed promising development in recent years, most existing methods adopt an average operation to calculate prototypes, thus limited by the outlier samples. In this work, we propose a simple yet effective framework for few-shot classification, which can learn to generate preferable prototypes from few support data, with the help of an episodic prototype generator module. The generated prototype is meant to be close to a certain \textit{\targetproto{}} and is less influenced by outlier samples. Extensive experiments demonstrate the effectiveness of this module, and our approach gets a significant raise over baseline models, and get a competitive result compared to previous methods on \textit{mini}ImageNet, \textit{tiered}ImageNet, and cross-domain (\textit{mini}ImageNet $\rightarrow$ CUB-200-2011) datasets.
翻訳日:2021-08-26 18:59:30 公開日:2021-08-25
# (参考訳) 単一画像超解像用高能率変圧器 [全文訳有]

Efficient Transformer for Single Image Super-Resolution ( http://arxiv.org/abs/2108.11084v1 )

ライセンス: CC BY 4.0
Zhisheng Lu, Hong Liu, Juncheng Li, and Linlin Zhang(参考訳) シングルイメージによる超解像タスクは、ディープラーニングの開発で大きな進歩を遂げています。 しかし、既存のほとんどの研究は、大量のレイヤーを持つより複雑なニューラルネットワークの構築に焦点を当てており、計算コストとメモリストレージが重い。 近年、トランスフォーマーがNLPタスクで素晴らしい結果をもたらすにつれて、コンピュータビジョンタスクにおけるトランスフォーマーの適用を探求する研究者が増えている。 しかし、計算コストとビジョントランスフォーマーのGPUメモリ占有率が高いため、ネットワークはそれほど深く設計することはできない。 この問題に対処するため,高速かつ高精度な画像超解像変換器(ESRT)を提案する。 ESRTは、CNNベースのSRネットワークを前面に設計し、深い特徴を抽出するハイブリッドトランスフォーマーである。 具体的には、ESRTのフォーマットには、軽量CNNバックボーン(LCB)と軽量トランスフォーマーバックボーン(LTB)の2つのバックボーンがある。 LCBは、特徴マップのサイズを動的に調整することにより、計算コストの低い深部SR特徴を抽出する軽量SRネットワークである。 LTBは、GPUメモリの占有が少ない効率的なトランスフォーマー(ET)で構成されており、これは新しい効率的なマルチヘッドアテンション(EMHA)の恩恵を受けている。 EMHAでは、長文列をサブセグメントに分割する機能分割モジュール(FSM)を提案し、これらのサブセグメントをアテンション操作により適用する。 このモジュールはGPUメモリの占有を著しく減少させる。 大規模な実験により,ESRTは競争力を発揮することが示された。 16057MのGPUメモリを占有するオリジナルのTransformerと比較すると、ETは4191MのGPUメモリしか使用せず、性能も向上している。

Single image super-resolution task has witnessed great strides with the development of deep learning. However, most existing studies focus on building a more complex neural network with a massive number of layers, bringing heavy computational cost and memory storage. Recently, as Transformer yields brilliant results in NLP tasks, more and more researchers start to explore the application of Transformer in computer vision tasks. But with the heavy computational cost and high GPU memory occupation of the vision Transformer, the network can not be designed too deep. To address this problem, we propose a novel Efficient Super-Resolution Transformer (ESRT) for fast and accurate image super-resolution. ESRT is a hybrid Transformer where a CNN-based SR network is first designed in the front to extract deep features. Specifically, there are two backbones for formatting the ESRT: lightweight CNN backbone (LCB) and lightweight Transformer backbone (LTB). Among them, LCB is a lightweight SR network to extract deep SR features at a low computational cost by dynamically adjusting the size of the feature map. LTB is made up of an efficient Transformer (ET) with a small GPU memory occupation, which benefited from the novel efficient multi-head attention (EMHA). In EMHA, a feature split module (FSM) is proposed to split the long sequence into sub-segments and then these sub-segments are applied by attention operation. This module can significantly decrease the GPU memory occupation. Extensive experiments show that our ESRT achieves competitive results. Compared with the original Transformer which occupies 16057M GPU memory, the proposed ET only occupies 4191M GPU memory with better performance.
翻訳日:2021-08-26 18:45:04 公開日:2021-08-25
# (参考訳) 正点検出と正規化ヘッセン損失による単眼深度推定 [全文訳有]

Monocular Depth Estimation Primed by Salient Point Detection and Normalized Hessian Loss ( http://arxiv.org/abs/2108.11098v1 )

ライセンス: CC BY 4.0
Lam Huynh, Matteo Pedone, Phong Nguyen, Jiri Matas, Esa Rahtu, Janne Heikkila(参考訳) 深層ニューラルネットワークは最近、単一の画像深度推定で繁栄している。 とはいえ、このトピックの現在の開発は、正確さとネットワークサイズの間に明らかな妥協点を浮き彫りにしている。 本研究は,特異点検出に起因した自己拘束機構に基づく単眼深度推定のための高精度で軽量な枠組みを提案する。 具体的には,Fusion-NetとSaliency-Netの2つの主要コンポーネントで構成されるFuSaNetモデルをトレーニングするために,キーポイントのスパースセットを利用する。 さらに, 深さ方向のスケーリングとせん断に不変な正規化ヘッセン損失項を導入することにより, 精度が大幅に向上することを示す。 提案手法は,nyu-depth-v2およびkittiにおいて,パラメータ数をベースラインアプローチよりも3.1-38.4倍小さいモデルを用いて最先端の結果を得る。 SUN-RGBDの実験は、提案手法の一般化可能性をさらに示している。

Deep neural networks have recently thrived on single image depth estimation. That being said, current developments on this topic highlight an apparent compromise between accuracy and network size. This work proposes an accurate and lightweight framework for monocular depth estimation based on a self-attention mechanism stemming from salient point detection. Specifically, we utilize a sparse set of keypoints to train a FuSaNet model that consists of two major components: Fusion-Net and Saliency-Net. In addition, we introduce a normalized Hessian loss term invariant to scaling and shear along the depth direction, which is shown to substantially improve the accuracy. The proposed method achieves state-of-the-art results on NYU-Depth-v2 and KITTI while using 3.1-38.4 times smaller model in terms of the number of parameters than baseline approaches. Experiments on the SUN-RGBD further demonstrate the generalizability of the proposed method.
翻訳日:2021-08-26 18:08:03 公開日:2021-08-25
# (参考訳) 単発検出器を用いた熱画像中の小物体検出 [全文訳有]

Detecting Small Objects in Thermal Images Using Single-Shot Detector ( http://arxiv.org/abs/2108.11101v1 )

ライセンス: CC BY 4.0
Hao Zhang, Xianggong Hong, and Li Zhu(参考訳) ssd(single shot multibox detector)は、高い精度と高速性で最も成功した物体検出器の1つである。 しかし、SSDの浅い層(主にConv4_3)の機能は意味情報を欠いているため、小さなオブジェクトでは性能が劣る。 本稿では,DDSSD(Dilation and Deconvolution Single Shot Multibox Detector)を提案する。 拡張畳み込みモジュールを用いて浅層から特徴の受容領域を拡大し、高層から特徴マップのサイズを増やすためにデコンボリューションモジュールを採用する。 我々のネットワークは、PASCAL VOC2007テストで79.7% mAP、MS COCOテストデブで28.3% mmAPを41 FPSで達成し、Nvidia 1080 GPUで300x300入力しかできない。 特に小さなオブジェクトの場合、DDSSDはMS COCOで10.5%、FLIR熱データセットで22.8%を達成し、精度と速度の両面で最先端のオブジェクト検出アルゴリズムよりも優れている。

SSD (Single Shot Multibox Detector) is one of the most successful object detectors for its high accuracy and fast speed. However, the features from shallow layer (mainly Conv4_3) of SSD lack semantic information, resulting in poor performance in small objects. In this paper, we proposed DDSSD (Dilation and Deconvolution Single Shot Multibox Detector), an enhanced SSD with a novel feature fusion module which can improve the performance over SSD for small object detection. In the feature fusion module, dilation convolution module is utilized to enlarge the receptive field of features from shallow layer and deconvolution module is adopted to increase the size of feature maps from high layer. Our network achieves 79.7% mAP on PASCAL VOC2007 test and 28.3% mmAP on MS COCO test-dev at 41 FPS with only 300x300 input using a single Nvidia 1080 GPU. Especially, for small objects, DDSSD achieves 10.5% on MS COCO and 22.8% on FLIR thermal dataset, outperforming a lot of state-of-the-art object detection algorithms in both aspects of accuracy and speed.
翻訳日:2021-08-26 17:47:32 公開日:2021-08-25
# (参考訳) ニューラルアーキテクチャ探索法による軽量単分子深度 [全文訳有]

Lightweight Monocular Depth with a Novel Neural Architecture Search Method ( http://arxiv.org/abs/2108.11105v1 )

ライセンス: CC BY 4.0
Lam Huynh, Phong Nguyen, Jiri Matas, Esa Rahtu, Janne Heikkila(参考訳) 本稿では,軽量な単眼深度推定モデルを生成するための新しいニューラルネットワーク探索法,lidnasを提案する。 最適化されたネットワークを見つけるという従来のニューラルネットワーク探索(NAS)アプローチとは異なり、新しいAssisted Tabu Searchは効率的なアーキテクチャ探索をもたらす。 さらに,階層の多様性と探索空間サイズをバランスさせるために,事前定義されたバックボーンネットワーク上で探索空間を構築する。 lidnas法は,検索効率と出力モデル性能の観点から,差と深さ推定のために提案された最先端のnasアプローチを上回っている。 lidnaの最適化されたモデルは、nyu-depth-v2、kitti、scannetのコンパクトな深さ推定よりも優れた結果が得られるが、サイズは7%-500%、すなわちモデルパラメータの数である。

This paper presents a novel neural architecture search method, called LiDNAS, for generating lightweight monocular depth estimation models. Unlike previous neural architecture search (NAS) approaches, where finding optimized networks are computationally highly demanding, the introduced novel Assisted Tabu Search leads to efficient architecture exploration. Moreover, we construct the search space on a pre-defined backbone network to balance layer diversity and search space size. The LiDNAS method outperforms the state-of-the-art NAS approach, proposed for disparity and depth estimation, in terms of search efficiency and output model performance. The LiDNAS optimized models achieve results superior to compact depth estimation state-of-the-art on NYU-Depth-v2, KITTI, and ScanNet, while being 7%-500% more compact in size, i.e the number of model parameters.
翻訳日:2021-08-26 17:40:01 公開日:2021-08-25
# (参考訳) 勾配からの深い漏れに対するドロップアウト [全文訳有]

Dropout against Deep Leakage from Gradients ( http://arxiv.org/abs/2108.11106v1 )

ライセンス: CC BY 4.0
Yanchong Zheng(参考訳) データの規模とサイズが増大するにつれて、連邦学習(Bonawitz et al.)が増加している。 ハイパフォーマンスコンピューティングと機械学習のための[2019]は、これまで以上にずっと重要だった。 [2016]. 勾配を共有することは、トレーニングステージ中にローカルトレーニングデータを隠蔽することが安全である、と以前は信じていた。 しかし、zhuとal。 [2019] は勾配検出によりモデルトレーニングデータから生データを復元できることを実証した。 生成したランダムダミーデータを使用し、実際のデータとの距離を最小化する。 Zhaoら。 [2020]は収束アルゴリズムをさらに推し進める。 元の損失関数をクロスエントロピー損失に置き換えることで、より忠実な閾値が得られる。 本稿では,追加のドロップアウト(srivastava et al)を提案する。 [2014]) データを分類器に渡す前に層。 5,800エポックを0.5に設定しても、トレーニングデータは小さなrmseに収束することができないため、生データの漏洩を防止するのに非常に効果的である。

As the scale and size of the data increases significantly nowadays, federal learning (Bonawitz et al. [2019]) for high performance computing and machine learning has been much more important than ever beforeAbadi et al. [2016]. People used to believe that sharing gradients seems to be safe to conceal the local training data during the training stage. However, Zhu et al. [2019] demonstrated that it was possible to recover raw data from the model training data by detecting gradients. They use generated random dummy data and minimise the distance between them and real data. Zhao et al. [2020] pushes the convergence algorithm even further. By replacing the original loss function with cross entropy loss, they achieve better fidelity threshold. In this paper, we propose using an additional dropout (Srivastava et al. [2014]) layer before feeding the data to the classifier. It is very effective in preventing leakage of raw data, as the training data cannot converge to a small RMSE even after 5,800 epochs with dropout rate set to 0.5.
翻訳日:2021-08-26 17:10:30 公開日:2021-08-25
# (参考訳) transfer:学習関係-トランスフォーマーによる表情表現の認識

TransFER: Learning Relation-aware Facial Expression Representations with Transformers ( http://arxiv.org/abs/2108.11116v1 )

ライセンス: CC BY 4.0
Fanglei Xue, Qiangchang Wang, Guodong Guo(参考訳) 表情認識(FER)はコンピュータビジョンへの関心が高まっている。 豊かな関係を認識できる局所表現を学習できる転送モデルを提案する。 主にMulti-Attention Dropping (MAD)、ViT-FER、Multi-head Self-Attention Dropping (MSAD)の3つのコンポーネントで構成されている。 第一に、ローカルパッチは様々な表現を識別する上で重要な役割を果たすが、既存の作品では識別的かつ多様なローカルパッチを見つけることができない。 これは、いくつかのパッチがバリエーションや視点の変化のために見えない場合に深刻な問題を引き起こす可能性がある。 この問題に対処するため,MADはランダムにアテンションマップをドロップする。 その結果、モデルは適応的に多様な局所パッチを探索するようにプッシュされる。 第二に、異なるローカルパッチ間のリッチな関係を構築するために、ViT-FERと呼ばれるFERでViT変換器(ViT)が使用される。 グローバルスコープは各ローカルパッチの強化に使用されるため、FER性能を高めるためにより良い表現が得られる。 第3に、マルチヘッドの自己注意により、ViTは異なる位置の異なる情報サブスペースから特徴に共同で参加することができる。 しかし、明示的な指導が与えられなければ、複数の自己注意が類似した関係を抽出できる。 これを解決するため、MSADは1つの自己注意モジュールをランダムにドロップするよう提案されている。 その結果、さまざまなローカルパッチ間の豊富な関係を学習せざるを得なくなる。 提案するTransFERモデルは,複数のFERベンチマークにおいて最先端の手法よりも優れ,その有効性と有用性を示す。

Facial expression recognition (FER) has received increasing interest in computer vision. We propose the TransFER model which can learn rich relation-aware local representations. It mainly consists of three components: Multi-Attention Dropping (MAD), ViT-FER, and Multi-head Self-Attention Dropping (MSAD). First, local patches play an important role in distinguishing various expressions, however, few existing works can locate discriminative and diverse local patches. This can cause serious problems when some patches are invisible due to pose variations or viewpoint changes. To address this issue, the MAD is proposed to randomly drop an attention map. Consequently, models are pushed to explore diverse local patches adaptively. Second, to build rich relations between different local patches, the Vision Transformers (ViT) are used in FER, called ViT-FER. Since the global scope is used to reinforce each local patch, a better representation is obtained to boost the FER performance. Thirdly, the multi-head self-attention allows ViT to jointly attend to features from different information subspaces at different positions. Given no explicit guidance, however, multiple self-attentions may extract similar relations. To address this, the MSAD is proposed to randomly drop one self-attention module. As a result, models are forced to learn rich relations among diverse local patches. Our proposed TransFER model outperforms the state-of-the-art methods on several FER benchmarks, showing its effectiveness and usefulness.
翻訳日:2021-08-26 17:05:50 公開日:2021-08-25
# (参考訳) YANMTT: もう1つのニューラルマシン翻訳ツールキット [全文訳有]

YANMTT: Yet Another Neural Machine Translation Toolkit ( http://arxiv.org/abs/2108.11126v1 )

ライセンス: CC BY-SA 4.0
Raj Dabre, Eiichiro Sumita(参考訳) 本稿では,Transformersライブラリ上に構築されたYANMTT(Yet Another Neural Machine Translation Toolkit)と呼ばれるオープンソースのニューラルネットワーク翻訳ツールキットについて述べる。 シーケンスからシーケンスへの事前トレーニングの重要性が増しているにも関わらず、ユーザが簡単に事前トレーニングできる、十分に確立されたツールキットは驚くほど少ない。 事前トレーニングが可能なFairseqのようなツールキットは非常に大きなコードベースであるため、初心者フレンドリーではない。 微調整による転送学習に関しては、ほとんどのツールキットは、ユーザが事前学習されたモデルのどの部分を転送できるかを明示的に制御できない。 YANMTTは、大規模なNMTモデルを事前訓練するための最小限のコードでこれらの問題に対処し、事前訓練されたパラメータを選択的に転送し、微調整し、翻訳を行い、可視化と分析のための表現と注意を抽出することを目的としている。 これらのコア機能とは別に、ツールキットはドキュメント/マルチソースNMT、同時NMT、蒸留によるモデル圧縮といった高度な機能を提供しています。

In this paper we present our open-source neural machine translation (NMT) toolkit called "Yet Another Neural Machine Translation Toolkit" abbreviated as YANMTT which is built on top of the Transformers library. Despite the growing importance of sequence to sequence pre-training there surprisingly few, if not none, well established toolkits that allow users to easily do pre-training. Toolkits such as Fairseq which do allow pre-training, have very large codebases and thus they are not beginner friendly. With regards to transfer learning via fine-tuning most toolkits do not explicitly allow the user to have control over what parts of the pre-trained models can be transferred. YANMTT aims to address these issues via the minimum amount of code to pre-train large scale NMT models, selectively transfer pre-trained parameters and fine-tune them, perform translation as well as extract representations and attentions for visualization and analyses. Apart from these core features our toolkit also provides other advanced functionalities such as but not limited to document/multi-sourc e NMT, simultaneous NMT and model compression via distillation which we believe are relevant to the purpose behind our toolkit.
翻訳日:2021-08-26 17:04:46 公開日:2021-08-25
# (参考訳) ロボット応用のための意味シーンセグメンテーション [全文訳有]

Semantic Scene Segmentation for Robotics Applications ( http://arxiv.org/abs/2108.11128v1 )

ライセンス: CC BY-SA 4.0
Maria Tzelepi and Anastasios Tefas(参考訳) セマンティックシーンセグメンテーションは、自律ナビゲーションなど、幅広いロボット工学応用において重要な役割を果たしている。 これらのアプリケーションには、低消費電力gpuの動作や十分な速度、高解像度入力など、特定の計算上の制約が伴う。 既存の最先端のセグメンテーションモデルは、異なるセットアップ、主に高出力gpuでの評価結果を提供する。 本稿では,セマンティクスシーンセグメンテーションモデルにおいて,様々なセットアップ(gpu,入力サイズなど)下での展開(参照)速度の観点から,最も成功したセマンティクスシーンセグメンテーションモデルの挙動について検討する。 ロボット工学の応用の文脈で この研究の目的は、ロボット工学の応用要件に最も準拠したものを選択するために、現在の最先端のセグメンテーションモデルの比較研究を提供することである。

Semantic scene segmentation plays a critical role in a wide range of robotics applications, e.g., autonomous navigation. These applications are accompanied by specific computational restrictions, e.g., operation on low-power GPUs, at sufficient speed, and also for high-resolution input. Existing state-of-the-art segmentation models provide evaluation results under different setups and mainly considering high-power GPUs. In this paper, we investigate the behavior of the most successful semantic scene segmentation models, in terms of deployment (inference) speed, under various setups (GPUs, input sizes, etc.) in the context of robotics applications. The target of this work is to provide a comparative study of current state-of-the-art segmentation models so as to select the most compliant with the robotics applications requirements.
翻訳日:2021-08-26 16:52:55 公開日:2021-08-25
# (参考訳) ハイパースペクトル画像の超画素誘導識別低ランク表現による分類 [全文訳有]

Superpixel-guided Discriminative Low-rank Representation of Hyperspectral Images for Classification ( http://arxiv.org/abs/2108.11172v1 )

ライセンス: CC BY 4.0
Shujun Yang, Junhui Hou, Yuheng Jia, Shaohui Mei, and Qian Du(参考訳) 本稿では,局所空間情報や低ランク性など,その特徴を包括的に検討することにより,リモートセンシングハイパースペクトル画像(hsi,sp-dlrr)の新しい分類手法を提案する。 sp-dlrrは主に2つのモジュール、すなわち分類誘導スーパーピクセルセグメンテーションと識別的低ランク表現から構成される。 具体的には、局所空間情報を利用し、典型的な分類器からの予測を組み込むことにより、第1モジュールは入力hsi(または第2モジュールによって生成されたその復元)の画素をスーパーピクセルに分割する。 その結果得られたスーパーピクセルにより、入力hsiの画素はクラスタにグループ化され、効率的な数値解法を用いて、新しい識別的低ランク表現モデルに供給される。 このようなモデルは、クラス間識別性をグローバルに促進しつつ、局所的なスペクトル変動を抑制してクラス内類似度を高め、より識別可能な画素を持つhsiを復元することができる。 3つのベンチマークデータセットによる実験結果から,SP-DLRRが最先端の手法よりも優れていることが示された。

In this paper, we propose a novel classification scheme for the remotely sensed hyperspectral image (HSI), namely SP-DLRR, by comprehensively exploring its unique characteristics, including the local spatial information and low-rankness. SP-DLRR is mainly composed of two modules, i.e., the classification-guide d superpixel segmentation and the discriminative low-rank representation, which are iteratively conducted. Specifically, by utilizing the local spatial information and incorporating the predictions from a typical classifier, the first module segments pixels of an input HSI (or its restoration generated by the second module) into superpixels. According to the resulting superpixels, the pixels of the input HSI are then grouped into clusters and fed into our novel discriminative low-rank representation model with an effective numerical solution. Such a model is capable of increasing the intra-class similarity by suppressing the spectral variations locally while promoting the inter-class discriminability globally, leading to a restored HSI with more discriminative pixels. Experimental results on three benchmark datasets demonstrate the significant superiority of SP-DLRR over state-of-the-art methods, especially for the case with an extremely limited number of training pixels.
翻訳日:2021-08-26 16:44:51 公開日:2021-08-25
# (参考訳) Spelling Beeにおけるモデル: 言語モデルがトークンの文字構成を暗黙的に学習する [全文訳有]

Models In a Spelling Bee: Language Models Implicitly Learn the Character Composition of Tokens ( http://arxiv.org/abs/2108.11193v1 )

ライセンス: CC BY 4.0
Itay Itzhak and Omer Levy(参考訳) 標準事前学習された言語モデルは、各トークンの文字列表現を構成する文字に直接アクセスすることなく、サブワードトークンのシーケンスで動作する。 事前学習された言語モデルの埋め込み層を調査し、モデルがトークンと結合された文字を見ることなく、単語全体とサブワードのトークンの内部文字構成を驚くほど学習できることを示します。 以上の結果から,RoBERTaの埋め込み層は,語彙の3分の1を正確に綴り,すべてのトークンタイプで平均的なngramに重なり合うほど十分な情報を持っていることがわかった。 さらに,追加の文字情報を持つサブワードモデルエンリッチメントが言語モデルを改善するかどうかをさらに検証し,この手法が綴りに基づくエンリッチメントを伴わない学習としてほぼ同一の学習曲線を有することを確かめる。 全体として,言語モデリングの目的はスペルの概念を暗黙的に学習するためにモデルにインセンティブを与えるものであり,スペルの仕方を明確に教えることは,そのようなタスクにおける性能を高めるものではないことを示唆している。

Standard pretrained language models operate on sequences of subword tokens without direct access to the characters that compose each token's string representation. We probe the embedding layer of pretrained language models and show that models learn the internal character composition of whole word and subword tokens to a surprising extent, without ever seeing the characters coupled with the tokens. Our results show that the embedding layer of RoBERTa holds enough information to accurately spell up to a third of the vocabulary and reach high average character ngram overlap on all token types. We further test whether enriching subword models with additional character information can improve language modeling, and observe that this method has a near-identical learning curve as training without spelling-based enrichment. Overall, our results suggest that language modeling objectives incentivize the model to implicitly learn some notion of spelling, and that explicitly teaching the model how to spell does not enhance its performance on such tasks.
翻訳日:2021-08-26 16:19:53 公開日:2021-08-25
# (参考訳) 3次元骨格に基づく動き予測のためのマルチスケール時空間グラフニューラルネットワーク [全文訳有]

Multiscale Spatio-Temporal Graph Neural Networks for 3D Skeleton-Based Motion Prediction ( http://arxiv.org/abs/2108.11244v1 )

ライセンス: CC BY 4.0
Maosen Li, Siheng Chen, Yangheng Zhao, Ya Zhang, Yanfeng Wang, Qi Tian(参考訳) 本研究では,3次元骨格型人体ポーズを行動カテゴリーに依存しない形で予測するためのマルチスケール時空間グラフニューラルネットワーク(MST-GNN)を提案する。 MST-GNNのコアはマルチスケールの時空間グラフであり、様々な空間的・時間的スケールにおける動きの関係を明示的にモデル化する。 従来の階層構造とは異なり、我々のマルチスケール時空間グラフはデータ適応型で構築され、非物理的だが動きに基づく関係を捉える。 MST-GNNのキーモジュールは、トレーニング可能なグラフ構造に基づくマルチスケール時空間グラフ計算ユニット(MST-GCU)である。 mst-gcuは下位の機能を個々のスケールに組み込んで、スケールにまたがって機能を融合して包括的な表現を得る。 MST-GNNの全体的なアーキテクチャはエンコーダ・デコーダ・フレームワークに従い、エンコーダは動きの空間的特徴と時間的特徴を学習するためにMST-GCUのシーケンスで構成され、デコーダはグラフベースのアテンションゲートリカレント・ユニット(GA-GRU)を使用して将来のポーズを生成する。 Extensive experiments are conducted to show that the proposed MST-GNN outperforms state-of-the-art methods in both short and long-term motion prediction on the datasets of Human 3.6M, CMU Mocap and 3DPW, where MST-GNN outperforms previous works by 5.33% and 3.67% of mean angle errors in average for short-term and long-term prediction on Human 3.6M, and by 11.84% and 4.71% of mean angle errors for short-term and long-term prediction on CMU Mocap, and by 1.13% of mean angle errors on 3DPW in average, respectively. さらに,解析可能なマルチスケールグラフについても検討する。

We propose a multiscale spatio-temporal graph neural network (MST-GNN) to predict the future 3D skeleton-based human poses in an action-category-agno stic manner. The core of MST-GNN is a multiscale spatio-temporal graph that explicitly models the relations in motions at various spatial and temporal scales. Different from many previous hierarchical structures, our multiscale spatio-temporal graph is built in a data-adaptive fashion, which captures nonphysical, yet motion-based relations. The key module of MST-GNN is a multiscale spatio-temporal graph computational unit (MST-GCU) based on the trainable graph structure. MST-GCU embeds underlying features at individual scales and then fuses features across scales to obtain a comprehensive representation. The overall architecture of MST-GNN follows an encoder-decoder framework, where the encoder consists of a sequence of MST-GCUs to learn the spatial and temporal features of motions, and the decoder uses a graph-based attention gate recurrent unit (GA-GRU) to generate future poses. Extensive experiments are conducted to show that the proposed MST-GNN outperforms state-of-the-art methods in both short and long-term motion prediction on the datasets of Human 3.6M, CMU Mocap and 3DPW, where MST-GNN outperforms previous works by 5.33% and 3.67% of mean angle errors in average for short-term and long-term prediction on Human 3.6M, and by 11.84% and 4.71% of mean angle errors for short-term and long-term prediction on CMU Mocap, and by 1.13% of mean angle errors on 3DPW in average, respectively. We further investigate the learned multiscale graphs for interpretability.
翻訳日:2021-08-26 16:10:50 公開日:2021-08-25
# (参考訳) YOLOP:パンオプティカル・ドライビング・パーセプションで一度だけ見る [全文訳有]

YOLOP: You Only Look Once for Panoptic Driving Perception ( http://arxiv.org/abs/2108.11250v1 )

ライセンス: CC BY 4.0
Dong Wu, Manwen Liao, Weitian Zhang, Xinggang Wang(参考訳) パノプティクス駆動認識システムは、自律運転の重要な部分である。 高精度かつリアルタイムな知覚システムは、運転中に合理的な判断を行うことで車両を補助することができる。 本稿では,交通物体検出,乾燥領域分割,車線検出を同時に行うパノプティカル駆動認識ネットワーク(YOLOP)を提案する。 特徴抽出のための1つのエンコーダと、特定のタスクを処理する3つのデコーダで構成されている。 私たちのモデルは、BDD100Kデータセットで非常によく機能し、正確性とスピードの観点から、3つのタスクすべてで最先端の処理を実現しています。 また,複合学習におけるマルチタスク学習モデルの有効性を,アブレイティブスタディを通して検証する。 私たちの知る限りでは、この3つの視覚知覚タスクをjetson tx2(23 fps)組み込みデバイス上でリアルタイムに処理し、優れた精度を維持することができる最初の作業です。 さらなる研究を容易にするため、ソースコードと事前訓練されたモデルはhttps://github.com/h ustvl/YOLOP.comでリリースされる。

A panoptic driving perception system is an essential part of autonomous driving. A high-precision and real-time perception system can assist the vehicle in making the reasonable decision while driving. We present a panoptic driving perception network (YOLOP) to perform traffic object detection, drivable area segmentation and lane detection simultaneously. It is composed of one encoder for feature extraction and three decoders to handle the specific tasks. Our model performs extremely well on the challenging BDD100K dataset, achieving state-of-the-art on all three tasks in terms of accuracy and speed. Besides, we verify the effectiveness of our multi-task learning model for joint training via ablative studies. To our best knowledge, this is the first work that can process these three visual perception tasks simultaneously in real-time on an embedded device Jetson TX2(23 FPS) and maintain excellent accuracy. To facilitate further research, the source codes and pre-trained models will be released at https://github.com/h ustvl/YOLOP.
翻訳日:2021-08-26 15:19:32 公開日:2021-08-25
# (参考訳) bi-temporal building change detectionのための深部少数ショット学習 [全文訳有]

Deep few-shot learning for bi-temporal building change detection ( http://arxiv.org/abs/2108.11262v1 )

ライセンス: CC BY 4.0
Mehdi Khoshboresh-Masouleh , Reza Shah-Hosseini(参考訳) 現実世界のアプリケーション(例えば変化検出)では、画像の注釈付けは非常に高価である。 これらのアプリケーションで効果的なディープラーニングモデルを構築するために、深層学習法が開発され、小さなトレーニングデータにおいて堅牢なアプローチであることが証明されている。 高空間分解能リモートセンシング観測による建築変化検出の分析は、近年の光グラム計測、コンピュータビジョン、リモートセンシングにおいて重要な研究であり、地図更新など、様々な現実世界のアプリケーションで広く利用することができる。 手動高解像度画像の解釈は高価で時間を要するため、構造変化検出法は注目に値する。 光リモートセンシング画像から建物変化検出アプローチを開発することへの関心は、カバー範囲の増大と光学画像のコストの低下によって急速に高まっている。 本研究では,複数の都市に立地する異なる地域からの建物変更の小さなセットに対する建物変更検出分析に焦点を当てた。 本稿では,モンテカルロのドロップアウトとリモートセンシング観測を用いた変更検出のための,新しい深層数ショット学習手法を提案する。 セットアップは小さなデータセットに基づいており、建物の変更検出用にラベル付けされたバイテンポラル光学画像が含まれている。

In real-world applications (e.g., change detection), annotating images is very expensive. To build effective deep learning models in these applications, deep few-shot learning methods have been developed and prove to be a robust approach in small training data. The analysis of building change detection from high spatial resolution remote sensing observations is important research in photogrammetry, computer vision, and remote sensing nowadays, which can be widely used in a variety of real-world applications, such as map updating. As manual high resolution image interpretation is expensive and time-consuming, building change detection methods are of high interest. The interest in developing building change detection approaches from optical remote sensing images is rapidly increasing due to larger coverages, and lower costs of optical images. In this study, we focus on building change detection analysis on a small set of building change from different regions that sit in several cities. In this paper, a new deep few-shot learning method is proposed for building change detection using Monte Carlo dropout and remote sensing observations. The setup is based on a small dataset, including bitemporal optical images labeled for building change detection.
翻訳日:2021-08-26 15:05:44 公開日:2021-08-25
# (参考訳) オントロジー強化スロットフィリング [全文訳有]

Ontology-Enhanced Slot Filling ( http://arxiv.org/abs/2108.11275v1 )

ライセンス: CC BY 4.0
Yuhao Ding and Yik-Cheung Tam(参考訳) スロット充填はタスク指向ダイアログシステムにおけるダイアログ状態追跡の基本タスクである。 マルチドメインタスク指向ダイアログシステムでは、ユーザ発話とシステム応答は複数の名前付きエンティティと属性値を参照することができる。 システムはユーザによって確認されたものを選択し、それを運命のスロットに埋める必要がある。 対話セッションには複数のシステムユーザターンが含まれているため、BERTのようなディープモデルにすべてのトークンを投入することは、入力ワードトークンやGPUメモリの容量が限られているため困難である。 本稿では,オントロジーを用いて,すべての対話において発生する名前付きエンティティを一致させることにより,オントロジーのアプローチを検討する。 前回の対話で一致したエンティティは、BERTベースの対話状態トラッカーへの追加入力として蓄積され、エンコードされる。 さらに、オントロジー制約チェックやスロット名トークン化の修正も改善しました。 実験の結果,マルチウォズ2.1コーパスにおいて,合体目標精度(slot f1)を52.63% (91.64%) から53.91% (92%) に向上させた。

Slot filling is a fundamental task in dialog state tracking in task-oriented dialog systems. In multi-domain task-oriented dialog system, user utterances and system responses may mention multiple named entities and attributes values. A system needs to select those that are confirmed by the user and fill them into destined slots. One difficulty is that since a dialogue session contains multiple system-user turns, feeding in all the tokens into a deep model such as BERT can be challenging due to limited capacity of input word tokens and GPU memory. In this paper, we investigate an ontology-enhanced approach by matching the named entities occurred in all dialogue turns using ontology. The matched entities in the previous dialogue turns will be accumulated and encoded as additional inputs to a BERT-based dialogue state tracker. In addition, our improvement includes ontology constraint checking and the correction of slot name tokenization. Experimental results showed that our ontology-enhanced dialogue state tracker improves the joint goal accuracy (slot F1) from 52.63% (91.64%) to 53.91% (92%) on MultiWOZ 2.1 corpus.
翻訳日:2021-08-26 14:58:50 公開日:2021-08-25
# (参考訳) 深層学習によるスラブバーナのハイブリッドロケット固体燃料回帰速度の測定

Measurement of Hybrid Rocket Solid Fuel Regression Rate for a Slab Burner using Deep Learning ( http://arxiv.org/abs/2108.11276v1 )

ライセンス: CC BY 4.0
Gabriel Surina III, Georgios Georgalis, Siddhant S. Aphale, Abani Patra, Paul E. DesJardin(参考訳) 本研究では, ハイブリッドロケット燃料用2次元スラブバーナ実験において, 燃料回帰率を測定するための画像ベースディープラーニングツールを提案する。 スラブバーナー実験は、燃料回帰速度の測定によりハイブリッドロケットにおける境界層燃焼の機構モデルを検証するために設計された。 高輝度フラッシュ付きデジタル一眼レフカメラは、燃焼中の画像を撮影するために使用され、画像は燃料境界を見つけて回帰率を計算するために使用される。 実験画像から燃料を分離するために,U-net畳み込みニューラルネットワークアーキテクチャを検討した。 モンテカルロドロップアウトプロセスは、ネットワークから発生する回帰率の不確かさを定量化するために使用される。 U-net計算レグレッションレートは文献の他の手法の値と比較され、10%未満の誤差を示す。 酸化剤フラックス依存性の研究を行い、トレーニングセット内の画像が過飽和でない場合、回帰速度のU-net予測が酸化剤フラックスとは独立であることを示す。 モノクロ画像を用いた訓練は検討され,高騒音画像からの燃料回帰率の予測には成功していない。 このネットワークは、しきい値の2値変換や空間フィルタリングといった従来の画像処理技術と比較して、室内ガラスのすす、ピット、ワックス堆積によるノイズを除去するのに優れている。 u-netは、燃料の回帰率を正確に計算できるように、一貫して低エラー画像分割を提供する。

This study presents an imaging-based deep learning tool to measure the fuel regression rate in a 2D slab burner experiment for hybrid rocket fuels. The slab burner experiment is designed to verify mechanistic models of reacting boundary layer combustion in hybrid rockets by the measurement of fuel regression rates. A DSLR camera with a high intensity flash is used to capture images throughout the burn and the images are then used to find the fuel boundary to calculate the regression rate. A U-net convolutional neural network architecture is explored to segment the fuel from the experimental images. A Monte-Carlo Dropout process is used to quantify the regression rate uncertainty produced from the network. The U-net computed regression rates are compared with values from other techniques from literature and show error less than 10%. An oxidizer flux dependency study is performed and shows the U-net predictions of regression rates are accurate and independent of the oxidizer flux, when the images in the training set are not over-saturated. Training with monochrome images is explored and is not successful at predicting the fuel regression rate from images with high noise. The network is superior at filtering out noise introduced by soot, pitting, and wax deposition on the chamber glass as well as the flame when compared to traditional image processing techniques, such as threshold binary conversion and spatial filtering. U-net consistently provides low error image segmentations to allow accurate computation of the regression rate of the fuel.
翻訳日:2021-08-26 14:52:23 公開日:2021-08-25
# (参考訳) CSG-Stump:解釈可能な形状解析のための学習フレンドリーなCSGライクな表現 [全文訳有]

CSG-Stump: A Learning Friendly CSG-Like Representation for Interpretable Shape Parsing ( http://arxiv.org/abs/2108.11305v1 )

ライセンス: CC BY 4.0
Daxuan Ren, Jianmin Zheng, Jianfei Cai, Jiatong Li, Haiyong Jiang, Zhongang Cai, Junzhe Zhang, Liang Pan, Mingyuan Zhang, Haiyu Zhao, Shuai Yi(参考訳) 点雲から3次元形状の解釈可能かつコンパクトな表現を生成することは重要かつ困難な問題である。 本稿では,ポイントクラウドから形状を学習し,基礎となる構成的モデリングプリミティブや操作も発見するための教師なしエンドツーエンドネットワークcsg-stump netを提案する。 コアには、下部に相補層、中央に交叉層、上部に結合層からなる、 {\em CSG-Stump} と呼ばれる3層構造がある。 CSG-StumpはCSGと同値であることが証明されており、CSGの複雑な木構造から解放しながらCSGの解釈可能でコンパクトで編集可能な性質を継承している。 特にCSG-Stumpは単純で規則的な構造であり、ニューラルネットワークは一定の次元の出力を与えることができ、深い学習がしやすい。 csg-stumpの特性により,csg-stump netは従来のcsg-stump法よりも優れた結果を示し,広範な実験で確認されたようにより魅力的な形状を生成する。 プロジェクトページ: https://kimren227.gi thub.io/projects/CSG Stump/

Generating an interpretable and compact representation of 3D shapes from point clouds is an important and challenging problem. This paper presents CSG-Stump Net, an unsupervised end-to-end network for learning shapes from point clouds and discovering the underlying constituent modeling primitives and operations as well. At the core is a three-level structure called {\em CSG-Stump}, consisting of a complement layer at the bottom, an intersection layer in the middle, and a union layer at the top. CSG-Stump is proven to be equivalent to CSG in terms of representation, therefore inheriting the interpretable, compact and editable nature of CSG while freeing from CSG's complex tree structures. Particularly, the CSG-Stump has a simple and regular structure, allowing neural networks to give outputs of a constant dimensionality, which makes itself deep-learning friendly. Due to these characteristics of CSG-Stump, CSG-Stump Net achieves superior results compared to previous CSG-based methods and generates much more appealing shapes, as confirmed by extensive experiments. Project page: https://kimren227.gi thub.io/projects/CSG Stump/
翻訳日:2021-08-26 14:51:15 公開日:2021-08-25
# (参考訳) 事前学習されたコードモデルはコードについて何を知っていますか? [全文訳有]

What do pre-trained code models know about code? ( http://arxiv.org/abs/2108.11308v1 )

ライセンス: CC BY 4.0
Anjan Karmakar, Romain Robbes(参考訳) トランスフォーマーアーキテクチャ上に構築されたコードの事前訓練モデルは、予測コード生成やコード要約などのソフトウェア工学(SE)タスクでうまく機能している。 しかし、これらの事前訓練されたモデルからのベクトル表現が、幅広い下流タスクに適用できるほどソースコードの特徴を包括的にエンコードするかどうかは未解決のままである。 これを調べる方法の1つは、プローブと呼ばれる診断タスクである。 本稿では,事前学習されたコードモデルに対する4つの探索タスク(表面レベル,構文,構造,意味情報)を構築する。 我々は、モデルが特定のコードプロパティに欠陥があるかどうかを判断し、異なるモデル層を特徴づけ、モデルのサンプル効率について洞察を得るために、プローブをどのように使うかを示す。 BERT(英語で事前学習)、CodeBERTとCodeBERTa(ソースコードで事前学習)、GraphCodeBERT(データフローでソースコードで事前学習)の4つのモデルについて検討する。 GraphCodeBERTは全体的に一貫して機能しますが、BERTは驚くほど多くのコードタスクで機能します。

Pre-trained models of code built on the transformer architecture have performed well on software engineering (SE) tasks such as predictive code generation, code summarization, among others. However, whether the vector representations from these pre-trained models comprehensively encode characteristics of source code well enough to be applicable to a broad spectrum of downstream tasks remains an open question. One way to investigate this is with diagnostic tasks called probes. In this paper, we construct four probing tasks (probing for surface-level, syntactic, structural, and semantic information) for pre-trained code models. We show how probes can be used to identify whether models are deficient in (understanding) certain code properties, characterize different model layers, and get insight into the model sample-efficiency. We probe four models that vary in their expected knowledge of code properties: BERT (pre-trained on English), CodeBERT and CodeBERTa (pre-trained on source code, and natural language documentation), and GraphCodeBERT (pre-trained on source code with dataflow). While GraphCodeBERT performs more consistently overall, we find that BERT performs surprisingly well on some code tasks, which calls for further investigation.
翻訳日:2021-08-26 14:36:09 公開日:2021-08-25
# (参考訳) 連続リスク逆帯域におけるトンプソンサンプリングの統一理論 [全文訳有]

A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits ( http://arxiv.org/abs/2108.11345v1 )

ライセンス: CC BY 4.0
Joel Q. L. Chang, Vincent Y. F. Tan(参考訳) 本稿では、連続なリスク汎関数の一般クラスであるリスク汎関数の多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの設計と解析を単純化する。 大偏差理論における縮約原理を用いて,これらの連続的リスク汎関数に対する新しい濃度境界を証明した。 境界がサンプル自身に依存する既存の作品とは対照的に、我々の境界はサンプルの数のみに依存する。 これにより、重要な解析的課題をサイドステップし、既存のトンプソンサンプリングベースのアルゴリズムの後悔境界の既存の証明を統一することができる。 リスク汎関数の幅広いクラスとそれらの"nice"関数が連続性条件を満たすことを示す。 新たに開発した分析ツールキットを用いて,アルゴリズムを$\rho$-MTS(多項分布)および$\rho$-NPTS(有界分布)で解析し,平均分散,CVaR,その他のユビキタスリスク対策の下で,漸近的に最適なリスク回避アルゴリズムの残差が認められたこと,および新たに合成されたリスク対策のホストであることを証明する。 数値シミュレーションにより、我々の境界はvis-\`a-visアルゴリズム非依存な下界であることが示される。

This paper unifies the design and simplifies the analysis of risk-averse Thompson sampling algorithms for the multi-armed bandit problem for a generic class of risk functionals \r{ho} that are continuous. Using the contraction principle in the theory of large deviations, we prove novel concentration bounds for these continuous risk functionals. In contrast to existing works in which the bounds depend on the samples themselves, our bounds only depend on the number of samples. This allows us to sidestep significant analytical challenges and unify existing proofs of the regret bounds of existing Thompson sampling-based algorithms. We show that a wide class of risk functionals as well as "nice" functions of them satisfy the continuity condition. Using our newly developed analytical toolkits, we analyse the algorithms $\rho$-MTS (for multinomial distributions) and $\rho$-NPTS (for bounded distributions) and prove that they admit asymptotically optimal regret bounds of risk-averse algorithms under the mean-variance, CVaR, and other ubiquitous risk measures, as well as a host of newly synthesized risk measures. Numerical simulations show that our bounds are reasonably tight vis-\`a-vis algorithm-independen t lower bounds.
翻訳日:2021-08-26 14:26:44 公開日:2021-08-25
# (参考訳) 一般表現学習のためのマルチタスク自己学習 [全文訳有]

Multi-Task Self-Training for Learning General Representations ( http://arxiv.org/abs/2108.11353v1 )

ライセンス: CC BY 4.0
Golnaz Ghiasi, Barret Zoph, Ekin D. Cubuk, Quoc V. Le, Tsung-Yi Lin(参考訳) 様々なタスクのための専門モデルトレーニングの急速な進歩にもかかわらず、多くのタスクでうまく機能する単一の汎用モデルを学ぶことは、コンピュータビジョンにとって依然として困難である。 ここでは、独立した専門教師モデル(例えば、分類上のイメージネットモデル)の知識を活用して、1つの一般学生モデルを訓練するマルチタスク自己学習(MuST)を紹介する。 私たちのアプローチには3つのステップがあります。 まず、ラベル付きデータセットで個別に専門教師を訓練する。 次に、専門教師を使ってラベル付きデータセットをラベル付けし、マルチタスクの擬似ラベル付きデータセットを作成します。 最後に、さまざまなデータセット/タスクでトレーニングされた教師モデルの擬似ラベルを含むデータセットが、マルチタスク学習による学生モデルのトレーニングに使用される。 画像認識(分類,検出,セグメンテーション)および3次元形状推定(深さおよび表面正規推定)を含む6つの視覚課題において,学生モデルの特徴表現を評価する。 MuSTはラベルなしまたは部分的にラベル付けされたデータセットでスケーラブルで、大規模データセットのトレーニングにおいて、特別な教師付きモデルとセルフ教師付きモデルの両方を上回っている。 最後に、 MuST は数十億のサンプルでトレーニングされた既に強力なチェックポイントを改善することができることを示す。 その結果,一般特徴表現を学習するためにラベル付きおよびラベルなしの訓練データを集約する有望な方向性が示唆された。

Despite the fast progress in training specialized models for various tasks, learning a single general model that works well for many tasks is still challenging for computer vision. Here we introduce multi-task self-training (MuST), which harnesses the knowledge in independent specialized teacher models (e.g., ImageNet model on classification) to train a single general student model. Our approach has three steps. First, we train specialized teachers independently on labeled datasets. We then use the specialized teachers to label an unlabeled dataset to create a multi-task pseudo labeled dataset. Finally, the dataset, which now contains pseudo labels from teacher models trained on different datasets/tasks, is then used to train a student model with multi-task learning. We evaluate the feature representations of the student model on 6 vision tasks including image recognition (classification, detection, segmentation)and 3D geometry estimation (depth and surface normal estimation). MuST is scalable with unlabeled or partially labeled datasets and outperforms both specialized supervised models and self-supervised models when training on large scale datasets. Lastly, we show MuST can improve upon already strong checkpoints trained with billions of examples. The results suggest self-training is a promising direction to aggregate labeled and unlabeled training data for learning general feature representations.
翻訳日:2021-08-26 13:58:51 公開日:2021-08-25
# (参考訳) CDCGen:フローの正規化と対人訓練によるクロスドメイン条件生成 [全文訳有]

CDCGen: Cross-Domain Conditional Generation via Normalizing Flows and Adversarial Training ( http://arxiv.org/abs/2108.11368v1 )

ライセンス: CC BY 4.0
Hari Prasanna Das, Ryan Tran, Japjot Singh, Yu-Wen Lin and Costas J. Spanos(参考訳) ラベル/属性に関する情報を使わずにドメインの条件付き合成データを生成する方法 私たちの研究は上記の問題に対する解決策を提示します。 本稿では,フローの正規化を利用したトランスファー学習に基づくフレームワークを提案する。 我々は、ソースドメイン(利用可能なラベル)とターゲットドメイン(使用できないラベル)を個別の正規化フローでモデル化し、adversarial discriminatorsを用いて共通の潜在空間へのドメインアライメントを行う。 フローモデルの可逆性のため、マッピングは正確なサイクル整合性を持つ。 また,属性を潜在空間にマッピングするエンコーダを用いて,情報源領域におけるデータサンプルと属性の共分散も学習する。 合成フェーズでは,属性の組み合わせが与えられた場合に,対象領域内で条件づけされた合成サンプルを生成できる。 ベンチマークデータセットにおける本手法の有効性を実証する実験を行った。 本手法は,属性変換による非自明な拡張を生成することで,ラベルスカースシステムにおける合成データ生成に特に有用であると考えられる。 これらの合成サンプルは、幾何学的および測光的な変換よりもラベル・スカース領域にエントロピーを導入し、下流の堅牢なタスクに役立ちます。

How to generate conditional synthetic data for a domain without utilizing information about its labels/attributes? Our work presents a solution to the above question. We propose a transfer learning-based framework utilizing normalizing flows, coupled with both maximum-likelihood and adversarial training. We model a source domain (labels available) and a target domain (labels unavailable) with individual normalizing flows, and perform domain alignment to a common latent space using adversarial discriminators. Due to the invertible property of flow models, the mapping has exact cycle consistency. We also learn the joint distribution of the data samples and attributes in the source domain by employing an encoder to map attributes to the latent space via adversarial training. During the synthesis phase, given any combination of attributes, our method can generate synthetic samples conditioned on them in the target domain. Empirical studies confirm the effectiveness of our method on benchmarked datasets. We envision our method to be particularly useful for synthetic data generation in label-scarce systems by generating non-trivial augmentations via attribute transformations. These synthetic samples will introduce more entropy into the label-scarce domain than their geometric and photometric transformation counterparts, helpful for robust downstream tasks.
翻訳日:2021-08-26 13:34:32 公開日:2021-08-25
# ウェーブレットVAEによる非制限逆例の視覚的品質向上

Improving Visual Quality of Unrestricted Adversarial Examples with Wavelet-VAE ( http://arxiv.org/abs/2108.11032v1 )

ライセンス: Link先を確認
Wenzhao Xiang, Chang Liu, Shibao Zheng(参考訳) 従来の逆数例は典型的には、小さな行列ノルム内の入力画像に摂動ノイズを加えることによって生成される。 実際には、制限なしの敵攻撃は大きな懸念を呼び、AIの安全性に新たな脅威をもたらした。 本稿では,ウェーブレット-VAE構造を用いて入力画像の再構成を行い,潜在コードの変更による逆例を生成する。 摂動攻撃と異なり、提案手法の修正は制限されないが、人間の目には受け入れられない。 実験により,imagenetデータセット上で高品質な逆例を生成できることを示した。

Traditional adversarial examples are typically generated by adding perturbation noise to the input image within a small matrix norm. In practice, un-restricted adversarial attack has raised great concern and presented a new threat to the AI safety. In this paper, we propose a wavelet-VAE structure to reconstruct an input image and generate adversarial examples by modifying the latent code. Different from perturbation-based attack, the modifications of the proposed method are not limited but imperceptible to human eyes. Experiments show that our method can generate high quality adversarial examples on ImageNet dataset.
翻訳日:2021-08-26 13:10:23 公開日:2021-08-25
# 追撃回避のための敵エージェント強化学習

Adversary agent reinforcement learning for pursuit-evasion ( http://arxiv.org/abs/2108.11010v1 )

ライセンス: Link先を確認
X. Huang(参考訳) 敵エージェントを用いた強化学習環境を,宇宙空間における科学的意義と実践的重要性の両面から,戦争の霧の存在下での追従回避ゲームとして提案する。 最も人気のある学習環境の一つであるStarCraftがここで採用され、関連するミニゲームを分析して、敵エージェントのトレーニングの現在の制限を特定する。 この鍵となる貢献は、制御と微分ゲーム理論を特定の強化学習環境に組み込むことによるエージェントの潜在的なパフォーマンスの分析と、現在のstarcraftミニゲームを拡張して敵エージェントチャレンジ(saac)環境の開発を含む。 その後の研究は、この学習環境の利用と、回避ユニットに対する敵エージェントの有効性を示す。 全体として、SAAC環境は、急速に発展する強化学習技術による追従回避研究の恩恵を受けるべきである。 最後に重要なのは、対応するチュートリアルコードがGitHubにあることだ。

A reinforcement learning environment with adversary agents is proposed in this work for pursuit-evasion game in the presence of fog of war, which is of both scientific significance and practical importance in aerospace applications. One of the most popular learning environments, StarCraft, is adopted here and the associated mini-games are analyzed to identify the current limitation for training adversary agents. The key contribution includes the analysis of the potential performance of an agent by incorporating control and differential game theory into the specific reinforcement learning environment, and the development of an adversary agents challenge (SAAC) environment by extending the current StarCraft mini-games. The subsequent study showcases the use of this learning environment and the effectiveness of an adversary agent for evasion units. Overall, the proposed SAAC environment should benefit pursuit-evasion studies with rapidly-emerging reinforcement learning technologies. Last but not least, the corresponding tutorial code can be found at GitHub.
翻訳日:2021-08-26 13:09:59 公開日:2021-08-25
# GRIM: 微細粒構造重み空間に基づくモバイルデバイスのための汎用リアルタイムディープラーニング推論フレームワーク

GRIM: A General, Real-Time Deep Learning Inference Framework for Mobile Devices based on Fine-Grained Structured Weight Sparsity ( http://arxiv.org/abs/2108.11033v1 )

ライセンス: Link先を確認
Wei Niu, Zhengang Li, Xiaolong Ma, Peiyan Dong, Gang Zhou, Xuehai Qian, Xue Lin, Yanzhi Wang, Bin Ren(参考訳) モバイルデバイス上でリアルタイムディープニューラルネットワーク(DNN)推論を実現するのは魅力的だが、大規模なDNNを実行する際には、パワフルなモバイル機器でさえ‘リソース制約’と見なされるため、難しい。 重み付けによるスパースモデル推論,すなわち、DNN重み空間性が必要であり、高いスパースモデル精度を維持しつつ、モバイルデバイス上でリアルタイムな推論を容易にする新しいDNN重み空間性スキームを設計することが望ましい。 本稿では,畳み込みニューラルネットワーク (cnns) とリカレントニューラルネットワーク (rnns) の両方に汎用的な新しいモバイル推論高速化フレームワーク grim を設計し,詳細な構造化スパースモデル推論とモバイル用コンパイラ最適化を活用し,リアルタイム実行と高精度化を実現する。 まず,Block-based Column-Row (BCR) プルーニングにより,より微細な構造を持つスポーシティスキームを提案する。 我々のGRIMフレームワークは、この新たな微細構造空間に基づいて、(a)リアルタイムモバイル推論のためのコンパイラ最適化とコード生成、(b)プルーニングハイパーパラメータを決定するためのBCRプルーニング最適化、およびウェイトプルーニングを行う2つの部分から構成される。 我々は、GRIMとAlibaba MNN、TVM、TensorFlow-Lite、CSR、PatDNN、ESE(RNNの代表的FPGA推論加速フレームワーク)に基づくスパース実装を比較し、最大14.08倍のスピードアップを達成する。

It is appealing but challenging to achieve real-time deep neural network (DNN) inference on mobile devices because even the powerful modern mobile devices are considered as ``resource-constrained '' when executing large-scale DNNs. It necessitates the sparse model inference via weight pruning, i.e., DNN weight sparsity, and it is desirable to design a new DNN weight sparsity scheme that can facilitate real-time inference on mobile devices while preserving a high sparse model accuracy. This paper designs a novel mobile inference acceleration framework GRIM that is General to both convolutional neural networks (CNNs) and recurrent neural networks (RNNs) and that achieves Real-time execution and high accuracy, leveraging fine-grained structured sparse model Inference and compiler optimizations for Mobiles. We start by proposing a new fine-grained structured sparsity scheme through the Block-based Column-Row (BCR) pruning. Based on this new fine-grained structured sparsity, our GRIM framework consists of two parts: (a) the compiler optimization and code generation for real-time mobile inference; and (b) the BCR pruning optimizations for determining pruning hyperparameters and performing weight pruning. We compare GRIM with Alibaba MNN, TVM, TensorFlow-Lite, a sparse implementation based on CSR, PatDNN, and ESE (a representative FPGA inference acceleration framework for RNNs), and achieve up to 14.08x speedup.
翻訳日:2021-08-26 13:09:46 公開日:2021-08-25
# グラフオートエンコーダを用いた帰納行列補完

Inductive Matrix Completion Using Graph Autoencoder ( http://arxiv.org/abs/2108.11124v1 )

ライセンス: Link先を確認
Wei Shen, Chuheng Zhang, Yun Tian, Liang Zeng, Xiaonan He, Wanchun Dou, Xiaolong Xu(参考訳) 近年,グラフニューラルネットワーク (GNN) は, 評価行列を二部グラフとして定式化し, 対応するユーザノードとアイテムノード間のリンクを予測することにより, 行列補完において大きな力を示している。 GNNベースの行列補完手法の大半はグラフオートエンコーダ(GAE)に基づいており、これは1ホットインデックスを入力とみなし、ユーザ(またはアイテム)インデックスを学習可能な埋め込みにマップし、学習可能な埋め込みに基づいてノード固有の表現を学習するためにGNNを適用し、最終的にターゲットユーザとその対応するアイテムノードの表現を集約し、不足リンクを予測する。 しかし、トレーニング用のノード内容(サイド情報)がなければ、ユーザ(またはアイテム)固有の表現は、帰納的設定では学べず、すなわち、あるグループ(またはアイテム)でトレーニングされたモデルが、新しいユーザ(またはアイテム)に適応できない。 そこで本研究では,gaeを用いたインダクティブマトリクス補完法を提案する。これはgaeを利用して,ユーザ固有の(あるいはアイテム固有の)表現と,インダクティブマトリクス補完のためのローカルグラフパターンの両方を学習する。 具体的には、2つの情報ノードの特徴を設計し、GAEに階層的なノードドロップアウト方式を用いて局所グラフパターンを学習する。 本稿の主な貢献は,GAEの局所グラフパターンを効率よく学習できることであり,従来のGNNベースの行列補完法と比較して,スケーラビリティと表現性に優れていた。 さらに,複数の行列補完ベンチマークにおいて,本モデルが最先端の性能を達成することを示す実験を行った。 公式コードは公開されています。

Recently, the graph neural network (GNN) has shown great power in matrix completion by formulating a rating matrix as a bipartite graph and then predicting the link between the corresponding user and item nodes. The majority of GNN-based matrix completion methods are based on Graph Autoencoder (GAE), which considers the one-hot index as input, maps a user (or item) index to a learnable embedding, applies a GNN to learn the node-specific representations based on these learnable embeddings and finally aggregates the representations of the target users and its corresponding item nodes to predict missing links. However, without node content (i.e., side information) for training, the user (or item) specific representation can not be learned in the inductive setting, that is, a model trained on one group of users (or items) cannot adapt to new users (or items). To this end, we propose an inductive matrix completion method using GAE (IMC-GAE), which utilizes the GAE to learn both the user-specific (or item-specific) representation for personalized recommendation and local graph patterns for inductive matrix completion. Specifically, we design two informative node features and employ a layer-wise node dropout scheme in GAE to learn local graph patterns which can be generalized to unseen data. The main contribution of our paper is the capability to efficiently learn local graph patterns in GAE, with good scalability and superior expressiveness compared to previous GNN-based matrix completion methods. Furthermore, extensive experiments demonstrate that our model achieves state-of-the-art performance on several matrix completion benchmarks. Our official code is publicly available.
翻訳日:2021-08-26 13:09:17 公開日:2021-08-25
# 橋梁の対人訓練

Bridged Adversarial Training ( http://arxiv.org/abs/2108.11135v1 )

ライセンス: Link先を確認
Hoki Kim, Woojin Lee, Sungyoon Lee, Jaewook Lee(参考訳) 敵対的ロバスト性はディープニューラルネットワークの必須特性と見なされる。 本研究では, 対向訓練されたモデルが, 類似した強靭性を示すとしても, マージンや滑らかさの点で, 著しく異なる特性を持つ可能性があることを明らかにする。 本研究は, 異なる正則化剤の効果を考察し, 正則化剤がマージンを最大化する際の負の効果を見出した。 本研究は, 橋渡し逆行訓練と呼ばれる, クリーンと逆行のギャップを埋めることで, 負の効果を緩和する手法を提案する。 提案手法は,特に大きな摂動に対して,安定かつ良好なロバスト性を提供するという理論的および実証的な証拠を提供する。

Adversarial robustness is considered as a required property of deep neural networks. In this study, we discover that adversarially trained models might have significantly different characteristics in terms of margin and smoothness, even they show similar robustness. Inspired by the observation, we investigate the effect of different regularizers and discover the negative effect of the smoothness regularizer on maximizing the margin. Based on the analyses, we propose a new method called bridged adversarial training that mitigates the negative effect by bridging the gap between clean and adversarial examples. We provide theoretical and empirical evidence that the proposed method provides stable and better robustness, especially for large perturbations.
翻訳日:2021-08-26 13:08:45 公開日:2021-08-25
# 複雑な推論タスクのサブゴアル検索

Subgoal Search For Complex Reasoning Tasks ( http://arxiv.org/abs/2108.11204v1 )

ライセンス: Link先を確認
Konrad Czechowski, Tomasz Odrzyg\'o\'zd\'z, Marek Zbysi\'nski, Micha{\l} Zawalski, Krzysztof Olejnik, Yuhuai Wu, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s(参考訳) 人間は複雑な推論タスクを1つのアイデアから関連するものへと移行するメンタルプロセスを通じて解くのに優れています。 そこで本研究では,ksubs(subgoal search)法を提案する。 その鍵となる構成要素は、学習されたサブゴール生成器で、解に近づき、達成可能なサブゴールの多様性を生み出す。 サブゴールの使用は検索スペースを削減し、効率的な計画に適した高レベル検索グラフを誘導する。 本稿では,従来の最優先探索フレームワークと組み合わせたトランスフォーマーベースのサブゴールモジュールを用いてkSubSを実装した。 我々は,2つのパズルゲーム,ソコバンとルービックキューブ,不等式証明ベンチマークINTという,3つの挑戦的な領域において,$k$-第2のステップを先取りするという単純なアプローチが驚くほど効率的であることを示す。 kSubSは、控えめな計算予算内でINTの最先端を含む強力な結果を得る。

Humans excel in solving complex reasoning tasks through a mental process of moving from one idea to a related one. Inspired by this, we propose Subgoal Search (kSubS) method. Its key component is a learned subgoal generator that produces a diversity of subgoals that are both achievable and closer to the solution. Using subgoals reduces the search space and induces a high-level search graph suitable for efficient planning. In this paper, we implement kSubS using a transformer-based subgoal module coupled with the classical best-first search framework. We show that a simple approach of generating $k$-th step ahead subgoals is surprisingly efficient on three challenging domains: two popular puzzle games, Sokoban and the Rubik's Cube, and an inequality proving benchmark INT. kSubS achieves strong results including state-of-the-art on INT within a modest computational budget.
翻訳日:2021-08-26 13:08:32 公開日:2021-08-25
# ベイズニューラルネットワークにおける層適応ノード選択:統計的保証と実装詳細

Layer Adaptive Node Selection in Bayesian Neural Networks: Statistical Guarantees and Implementation Details ( http://arxiv.org/abs/2108.11000v1 )

ライセンス: Link先を確認
Sanket Jantre and Shrijita Bhattacharya and Tapabrata Maiti(参考訳) スパースディープニューラルネットワークは、大規模研究において予測モデル構築に効率的であることが証明されている。 いくつかの研究はスパースニューラルネットワークの理論的および数値的性質を研究しているが、それらは主にエッジの選択に焦点を当てている。 エッジ選択によるスパーシリティは直感的に魅力的かもしれないが、ネットワークの構造的複雑さを必ずしも低減しない。 代わりに、各層で過剰なノードを刈り取ると、計算の複雑さとメモリフットプリントが低下する構造的に疎結合なネットワークになる。 本稿では,スパイク・アンド・スラブ型ガウス先行法を用いて,訓練中のノード選択を可能にするベイズスパース解を提案する。 スパイクとスラブの事前使用により、ネットワークから冗長ノードをプルーニングするためのアドホックなしきい値規則の必要性が軽減される。 さらに,従来のマルコフ連鎖モンテカルロ(mcmc)実装の計算課題を回避するために,変分ベイズ法を適用した。 ノード選択の文脈では、先行パラメータのキャラクタリゼーションとともに、変動の後続一貫性の基本的な結果を確立する。 従来の研究とは対照的に,我々の理論的発展は,すべてのネットワーク重みの等しいノード数と一様境界の仮定を緩和し,層依存ノード構造や係数境界を持つスパースネットワークを適応させる。 先行包含確率の層別特徴付けにより,変動後方の最適収縮率についても検討した。 最後に,我々の理論的研究が層別最適ノードリカバリと競合予測性能の両立を促進することを示す実証的証拠を提供する。

Sparse deep neural networks have proven to be efficient for predictive model building in large-scale studies. Although several works have studied theoretical and numerical properties of sparse neural architectures, they have primarily focused on the edge selection. Sparsity through edge selection might be intuitively appealing; however, it does not necessarily reduce the structural complexity of a network. Instead pruning excessive nodes in each layer leads to a structurally sparse network which would have lower computational complexity and memory footprint. We propose a Bayesian sparse solution using spike-and-slab Gaussian priors to allow for node selection during training. The use of spike-and-slab prior alleviates the need of an ad-hoc thresholding rule for pruning redundant nodes from a network. In addition, we adopt a variational Bayes approach to circumvent the computational challenges of traditional Markov Chain Monte Carlo (MCMC) implementation. In the context of node selection, we establish the fundamental result of variational posterior consistency together with the characterization of prior parameters. In contrast to the previous works, our theoretical development relaxes the assumptions of the equal number of nodes and uniform bounds on all network weights, thereby accommodating sparse networks with layer-dependent node structures or coefficient bounds. With a layer-wise characterization of prior inclusion probabilities, we also discuss optimal contraction rates of the variational posterior. Finally, we provide empirical evidence to substantiate that our theoretical work facilitates layer-wise optimal node recovery together with competitive predictive performance.
翻訳日:2021-08-26 13:08:17 公開日:2021-08-25
# NGC: オープンワールドノイズデータによる学習のための統一フレームワーク

NGC: A Unified Framework for Learning with Open-World Noisy Data ( http://arxiv.org/abs/2108.11035v1 )

ライセンス: Link先を確認
Zhi-Fan Wu, Tong Wei, Jianwen Jiang, Chaojie Mao, Mingqian Tang, Yu-Feng Li(参考訳) ノイズの多いデータの存在は、機械学習システムのトレーニングとテストのフェーズの両方で一般的であり、必然的にモデル性能の低下につながる。 過去10年間、インディストリビューション(ind)ノイズラベルによる学習に集中した研究が数多く行われており、トレーニングサンプルの中には、真のクラスと一致しない不正確なラベルが割り当てられているものもある。 それにもかかわらず、実際のアプリケーションシナリオでは、まだ十分に調査されていない既知のクラスに属さないサンプル(out-of-distriion(OO D)サンプルの影響を検討する必要がある。 これを解決するために,オープンワールドノイズデータ(LOND)を用いた学習という,新たな問題設定について検討する。 LONDの目的は、INDとOODの混在したデータセットから分類器とOOD検出器を同時に学習することである。 本稿では,データの幾何学的構造とモデル予測信頼性を利用して,クリーンなサンプルを収集するグラフベースの新しいフレームワークであるNoisy Graph Cleaning(NGC)を提案する。 追加のトレーニングがなければ、NGCはテストフェーズで直接学習したクラスプロトタイプに基づいて、OODサンプルを検出し、拒否することができる。 異なる種類のノイズを持つ複数のベンチマークで実験を行い、その結果、我々の手法の最先端性能を実証した。

The existence of noisy data is prevalent in both the training and testing phases of machine learning systems, which inevitably leads to the degradation of model performance. There have been plenty of works concentrated on learning with in-distribution (IND) noisy labels in the last decade, i.e., some training samples are assigned incorrect labels that do not correspond to their true classes. Nonetheless, in real application scenarios, it is necessary to consider the influence of out-of-distribution (OOD) samples, i.e., samples that do not belong to any known classes, which has not been sufficiently explored yet. To remedy this, we study a new problem setup, namely Learning with Open-world Noisy Data (LOND). The goal of LOND is to simultaneously learn a classifier and an OOD detector from datasets with mixed IND and OOD noise. In this paper, we propose a new graph-based framework, namely Noisy Graph Cleaning (NGC), which collects clean samples by leveraging geometric structure of data and model predictive confidence. Without any additional training effort, NGC can detect and reject the OOD samples based on the learned class prototypes directly in testing phase. We conduct experiments on multiple benchmarks with different types of noise and the results demonstrate the superior performance of our method against state of the arts.
翻訳日:2021-08-26 13:07:52 公開日:2021-08-25
# 雑音ラベルによる長期データからの学習

Learning From Long-Tailed Data With Noisy Labels ( http://arxiv.org/abs/2108.11096v1 )

ライセンス: Link先を確認
Shyamgopal Karthik and J\'erome Revaud and Chidlovskii Boris(参考訳) クラス不均衡とノイズラベルは多くの大規模分類データセットの例外よりも標準である。 それでも、機械学習におけるほとんどの仕事は、バランスとクリーンなデータを想定している。 最近の試みでは、ノイズの多いラベルから学ぶことや、長い尾を持つデータから学ぶことの難しさに対処する試みがいくつかある。 それぞれのメソッド群は、他方に関する仮定を単純化する。 この分離のため、提案された解は両方の仮定に違反する場合にしばしば過小評価される。 本稿では,両課題を同時に扱うための自己教師付き学習の最近の進歩に基づく,単純な二段階アプローチを提案する。 まず、タスクに依存しない自己教師付き事前トレーニングと、適切な損失を用いたタスク固有の微調整で構成される。 さらに, 自己指導型学習アプローチは, 重度のクラス不均衡に効果的に対処できることがわかった。 また, 不平衡・耐雑音損失関数を微調整した場合, 学習した表現はラベルノイズに対して著しく頑健である。 我々は,cifar-10とcifar-100の合成不均衡とノイズを付加した実験と,大規模で本質的にノイズの多いwears-1mデータセットを用いて,我々の主張を検証する。

Class imbalance and noisy labels are the norm rather than the exception in many large-scale classification datasets. Nevertheless, most works in machine learning typically assume balanced and clean data. There have been some recent attempts to tackle, on one side, the problem of learning from noisy labels and, on the other side, learning from long-tailed data. Each group of methods make simplifying assumptions about the other. Due to this separation, the proposed solutions often underperform when both assumptions are violated. In this work, we present a simple two-stage approach based on recent advances in self-supervised learning to treat both challenges simultaneously. It consists of, first, task-agnostic self-supervised pre-training, followed by task-specific fine-tuning using an appropriate loss. Most significantly, we find that self-supervised learning approaches are effectively able to cope with severe class imbalance. In addition, the resulting learned representations are also remarkably robust to label noise, when fine-tuned with an imbalance- and noise-resistant loss function. We validate our claims with experiments on CIFAR-10 and CIFAR-100 augmented with synthetic imbalance and noise, as well as the large-scale inherently noisy Clothing-1M dataset.
翻訳日:2021-08-26 13:07:31 公開日:2021-08-25
# Lizard: コロニー型核インスタンスセグメンテーションと分類のための大規模データセット

Lizard: A Large-Scale Dataset for Colonic Nuclear Instance Segmentation and Classification ( http://arxiv.org/abs/2108.11195v1 )

ライセンス: Link先を確認
Simon Graham, Mostafa Jahanifar, Ayesha Azam, Mohammed Nimir, Yee-Wah Tsang, Katherine Dodd, Emily Hero, Harvir Sahota, Atisha Tank, Ksenija Benes, Noorul Wahab, Fayyaz Minhas, Shan E Ahmed Raza, Hesham El Daly, Kishore Gopalakrishnan, David Snead, Nasir Rajpoot(参考訳) 計算病理学のための深層分節モデル(cpath)の開発は、解釈可能な形態学的バイオマーカーの研究を促進するのに役立つ。 しかし、教師付きディープラーニングモデルは正確なラベル付きデータを必要とするため、そのようなアプローチの成功には大きなボトルネックがある。 この問題はCPathの分野でさらに悪化している。なぜなら、詳細なアノテーションの生成は通常、病理学者が異なる組織構造と核を区別できることを要求するためである。 手動でラベル付けする核は、大規模な注釈付きデータセットを集めるための実現可能なアプローチではないかもしれない。 しかし、アノテーションの自動生成だけに頼ると、根拠の真理の正確さと信頼性が制限される。 そこで,上記の課題を克服するために,病理学画像解析のための大規模データセットの収集を可能にする多段階アノテーションパイプラインを提案する。 このパイプラインを用いて、H&E染色大腸組織に約50万個のラベル付き核を含む、既知の最大の核インスタンスのセグメンテーションと分類データセットを生成する。 我々はデータセットをリリースし、CPathの下流セルベースモデルの開発を促進するために研究コミュニティに活用するよう促しています。

The development of deep segmentation models for computational pathology (CPath) can help foster the investigation of interpretable morphological biomarkers. Yet, there is a major bottleneck in the success of such approaches because supervised deep learning models require an abundance of accurately labelled data. This issue is exacerbated in the field of CPath because the generation of detailed annotations usually demands the input of a pathologist to be able to distinguish between different tissue constructs and nuclei. Manually labelling nuclei may not be a feasible approach for collecting large-scale annotated datasets, especially when a single image region can contain thousands of different cells. However, solely relying on automatic generation of annotations will limit the accuracy and reliability of ground truth. Therefore, to help overcome the above challenges, we propose a multi-stage annotation pipeline to enable the collection of large-scale datasets for histology image analysis, with pathologist-in-the-l oop refinement steps. Using this pipeline, we generate the largest known nuclear instance segmentation and classification dataset, containing nearly half a million labelled nuclei in H&E stained colon tissue. We have released the dataset and encourage the research community to utilise it to drive forward the development of downstream cell-based models in CPath.
翻訳日:2021-08-26 13:07:12 公開日:2021-08-25
# Generalize then Adapt: Source-Free Domain Adaptive Semantic Segmentation

Generalize then Adapt: Source-Free Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2108.11249v1 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Akshay Kulkarni, Amit Singh, Varun Jampani, R. Venkatesh Babu(参考訳) 非教師なしドメイン適応(DA)はセマンティックセグメンテーションに大きく関心を寄せている。 しかしながら、ほとんどの先行技術はラベル付きソースとラベルなしターゲットの両方に同時アクセスを前提としており、ソースフリーな適応を必要とするシナリオには適さない。 本研究では,a) ソースのみドメインの一般化とb) ソースフリーのターゲット適応という2つのタスクに分割することで,ソースフリーdaを実現する。 前者に対しては、一般化と特異性のバランスを目標として、事実上拡張されたマルチソースデータセットでトレーニングされたマルチヘッドフレームワークを開発するための理論的洞察を提供する。 後者に向けて,我々はマルチヘッドフレームワークを用いて,自己学習のための信頼性の高い擬似ラベルを抽出する。 さらに,空間的不規則性を回避し,擬似ラベル品質を向上する条件付き事前強化オートエンコーダを導入する。 標準GTA5-to-CityscapesとSynTHIA-to-Cityscape sベンチマークの実験は、非ソースフリーの先行技術に対しても、我々の優位性を示している。 さらに、逐次変化する環境での展開を可能にするオンライン適応との互換性を示す。

Unsupervised domain adaptation (DA) has gained substantial interest in semantic segmentation. However, almost all prior arts assume concurrent access to both labeled source and unlabeled target, making them unsuitable for scenarios demanding source-free adaptation. In this work, we enable source-free DA by partitioning the task into two: a) source-only domain generalization and b) source-free target adaptation. Towards the former, we provide theoretical insights to develop a multi-head framework trained with a virtually extended multi-source dataset, aiming to balance generalization and specificity. Towards the latter, we utilize the multi-head framework to extract reliable target pseudo-labels for self-training. Additionally, we introduce a novel conditional prior-enforcing auto-encoder that discourages spatial irregularities, thereby enhancing the pseudo-label quality. Experiments on the standard GTA5-to-Cityscapes and SYNTHIA-to-Cityscape s benchmarks show our superiority even against the non-source-free prior-arts. Further, we show our compatibility with online adaptation enabling deployment in a sequentially changing environment.
翻訳日:2021-08-26 13:06:53 公開日:2021-08-25
# 木分解グラフニューラルネットワーク

Tree Decomposed Graph Neural Network ( http://arxiv.org/abs/2108.11022v1 )

ライセンス: Link先を確認
Yu Wang, Tyler Derr(参考訳) グラフニューラルネットワーク(gnns)は,近隣情報を活用するために,特徴の伝播と変換を反復的に行うことで,優れた表現の学習において大きな成功を収めている。 しかし, 反復伝搬は, 層間における特徴の平滑化を必然的に招き, 特にヘテロフィリネットワーク上での性能を損なうような, 層間を輸送・融合する高層近傍の情報を制限する。 さらに、ほとんどの深層gnnは、高層近傍の重要性のみを認識しつつも、より優れた表現を学ぶ上で、異なる層近傍のコンテキストにおけるマルチホップ依存の重要性を十分に検討していない。 本研究ではまず,異なる層における近傍の滑らかな特徴を理論的に解析し,異なる層における近傍のホモフィリレベルのばらつきを実証的に示す。 そこで本研究では,これらの層間の特徴の平滑化を緩和するために,異なる層内の近傍を乱す木分解法を提案する。 さらに,木分解定式化におけるグラフ拡散によるマルチホップ依存を特徴付け,木分解型グラフニューラルネットワーク(tdgnn)を構築した。 包括的実験は、ノード分類設定の異なるホモフィリーネットワークとヘテロフィリーネットワークにおいて、TDGNNの優れた性能を示す。 広範囲なパラメータ分析は、tdgnnが過剰なスムーシングを防止し、より深いマルチホップ依存性を持つ浅層からの機能を組み込む能力を強調し、より深いグラフニューラルネットワークへの新たな洞察を提供する。 TDGNNのコード:http://github.com/Y uWVandy/TDGNN

Graph Neural Networks (GNNs) have achieved significant success in learning better representations by performing feature propagation and transformation iteratively to leverage neighborhood information. Nevertheless, iterative propagation restricts the information of higher-layer neighborhoods to be transported through and fused with the lower-layer neighborhoods', which unavoidably results in feature smoothing between neighborhoods in different layers and can thus compromise the performance, especially on heterophily networks. Furthermore, most deep GNNs only recognize the importance of higher-layer neighborhoods while yet to fully explore the importance of multi-hop dependency within the context of different layer neighborhoods in learning better representations. In this work, we first theoretically analyze the feature smoothing between neighborhoods in different layers and empirically demonstrate the variance of the homophily level across neighborhoods at different layers. Motivated by these analyses, we further propose a tree decomposition method to disentangle neighborhoods in different layers to alleviate feature smoothing among these layers. Moreover, we characterize the multi-hop dependency via graph diffusion within our tree decomposition formulation to construct Tree Decomposed Graph Neural Network (TDGNN), which can flexibly incorporate information from large receptive fields and aggregate this information utilizing the multi-hop dependency. Comprehensive experiments demonstrate the superior performance of TDGNN on both homophily and heterophily networks under a variety of node classification settings. Extensive parameter analysis highlights the ability of TDGNN to prevent over-smoothing and incorporate features from shallow layers with deeper multi-hop dependencies, which provides new insights towards deeper graph neural networks. Code of TDGNN: http://github.com/Yu WVandy/TDGNN
翻訳日:2021-08-26 13:06:34 公開日:2021-08-25
# 適切な正規化を伴うニューラルネットワーク学習におけるadamの一般化の理解

Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization ( http://arxiv.org/abs/2108.11371v1 )

ライセンス: Link先を確認
Difan Zou and Yuan Cao and Yuanzhi Li and Quanquan Gu(参考訳) adamのような適応勾配法は、ディープラーニング最適化で人気が高まっている。 しかし、(確率的な)勾配降下と比較して、Adamは、微調整された正規化であっても、画像分類のような多くのディープラーニングアプリケーションにおいて、はるかに悪いテスト誤差で異なる解に収束できる。 本稿では,学習の非凸設定において,同一のランダム初期化から開始した2層畳み込みニューラルネットワークにおいて,画像データから着想を得たデータ分布のクラスに対して,adam andgradient descent (gd) がトレーニング対象の異なるグローバル解に収束することを示す。 対照的に、トレーニング対象が凸であり、重量減少正規化が採用されている場合、adamやgdを含む任意の最適化アルゴリズムは、トレーニングが成功すれば同じ解に収束する。 これは、Adamの劣等な一般化性能が、ディープラーニング最適化の非凸景観と根本的に結びついていることを示唆している。

Adaptive gradient methods such as Adam have gained increasing popularity in deep learning optimization. However, it has been observed that compared with (stochastic) gradient descent, Adam can converge to a different solution with a significantly worse test error in many deep learning applications such as image classification, even with a fine-tuned regularization. In this paper, we provide a theoretical explanation for this phenomenon: we show that in the nonconvex setting of learning over-parameterized two-layer convolutional neural networks starting from the same random initialization, for a class of data distributions (inspired from image data), Adam and gradient descent (GD) can converge to different global solutions of the training objective with provably different generalization errors, even with weight decay regularization. In contrast, we show that if the training objective is convex, and the weight decay regularization is employed, any optimization algorithms including Adam and GD will converge to the same solution if the training is successful. This suggests that the inferior generalization performance of Adam is fundamentally tied to the nonconvex landscape of deep learning optimization.
翻訳日:2021-08-26 13:05:19 公開日:2021-08-25
# マルチ属性・構造化テキスト対面合成

Multi-Attributed and Structured Text-to-Face Synthesis ( http://arxiv.org/abs/2108.11100v1 )

ライセンス: Link先を確認
Rohan Wadhawan, Tanuj Drall, Shubham Singh, Shampa Chakraverty(参考訳) generative adversarial networks (gans)は、顔生成、写真編集、画像の超解像など、多くのアプリケーションを通じて画像合成に革命をもたらした。 GANを用いた画像合成は、主にユニモーダルであり、テキストや他のデータモードから画像を合成できるアプローチはほとんどない。 テキスト対画像合成、特にテキスト対面合成は、目の目撃者アカウントによる堅牢な顔生成と、視覚手がかりによる読書体験の強化という、有望なユースケースを持っている。 しかし、テキスト対面合成のための統合された顔データとテキスト記述を提供するデータセットは、わずか2つしかない。 さらに、これらのテキストアノテーションはより広範囲で記述的であり、そこから生成される顔の多様性を減少させる。 本稿では,各テキスト記述における顔属性数の増加が,ganがより多様でリアルな顔を生成するのに役立つことを実証する。 そこで本研究では,構造化テキスト記述を用いた新しい手法を提案する。 また、構造化されたテキストアノテーションによる高品質な画像からなるマルチAttributed and Structured Text-to-face (MAST)データセットを統合し、研究者が実験と構築を行うことを可能にする。 最後に,Frechet's Inception Distance (FID), Facial Semantic similarity (FSS), Facial Semantic Distance (FSD)のスコアをMASTデータセットのベンチマークで報告する。

Generative Adversarial Networks (GANs) have revolutionized image synthesis through many applications like face generation, photograph editing, and image super-resolution. Image synthesis using GANs has predominantly been uni-modal, with few approaches that can synthesize images from text or other data modes. Text-to-image synthesis, especially text-to-face synthesis, has promising use cases of robust face-generation from eye witness accounts and augmentation of the reading experience with visual cues. However, only a couple of datasets provide consolidated face data and textual descriptions for text-to-face synthesis. Moreover, these textual annotations are less extensive and descriptive, which reduces the diversity of faces generated from it. This paper empirically proves that increasing the number of facial attributes in each textual description helps GANs generate more diverse and real-looking faces. To prove this, we propose a new methodology that focuses on using structured textual descriptions. We also consolidate a Multi-Attributed and Structured Text-to-face (MAST) dataset consisting of high-quality images with structured textual annotations and make it available to researchers to experiment and build upon. Lastly, we report benchmark Frechet's Inception Distance (FID), Facial Semantic Similarity (FSS), and Facial Semantic Distance (FSD) scores for the MAST dataset.
翻訳日:2021-08-26 13:04:58 公開日:2021-08-25
# CycleGANによるノイズRESデータの自動特徴強調

Automatic Feature Highlighting in Noisy RES Data With CycleGAN ( http://arxiv.org/abs/2108.11283v1 )

ライセンス: Link先を確認
Nicholas Khami, Omar Imtiaz, Akif Abidi, Akash Aedavelli, Alan Goff, Jesse R. Pisel, Michael J. Pyrcz(参考訳) 電波エコー (RES) は、地下の氷河イメージングでよく用いられる技法であり、基盤となる岩石や氷の知見を提供する。 しかし、収集中のデータにシステマティックノイズが導入され、結果の解釈が複雑になる。 研究者は多くの場合、手動の解釈とフィルタリング技術を組み合わせてデータを識別するが、これらのプロセスは時間と一貫性がない。 完全な畳み込みネットワークは、radargramの層境界を識別するための自動化された代替として提案されている。 しかし、高品質な手作業によるトレーニングデータを必要とし、ノイズの多いサンプル(Varshneyら)でデータを補間するのに苦労する。 2020). 本稿では,GANモデルを用いて2次元の氷河RESデータにおいて,層の境界をノイズで補間し,層をハイライトする手法を提案する。 実世界のノイズ画像では、フィルタリングは、レイヤー境界を補間することはほぼ不可能であるようなデータの損失をもたらすことが多い。 さらに、従来の機械学習手法はペアデータがないため、このタスクには適さないため、未ペア画像から画像への変換モデルを採用する。 このモデルでは、透明で強調されたレイヤを持つイメージのドメインを表現する合成データセットを作成し、既存の現実世界のresデータセットをノイズの多いドメインとして使用します。 これら2つのドメインでトレーニングされたサイクガンを実装し、ノイズの多い画像の層を強調表示し、構造や忠実度を著しく損なうことなく効果的に補間できる。 現在の実装は完璧な解決策ではないが、このモデルはノイズの多いデータの層を明確に強調し、数学的フィルタリングや手動処理、地平線画像のトレーニングなしに、レイヤーのサイズと位置を決定できる。 これは、我々のモデルによって生成されたクリーンな画像により、地下の研究者が氷河層厚をより効率的に決定できるためである。

Radio echo sounding (RES) is a common technique used in subsurface glacial imaging, which provides insight into the underlying rock and ice. However, systematic noise is introduced into the data during collection, complicating interpretation of the results. Researchers most often use a combination of manual interpretation and filtering techniques to denoise data; however, these processes are time intensive and inconsistent. Fully Convolutional Networks have been proposed as an automated alternative to identify layer boundaries in radargrams. However, they require high-quality manually processed training data and struggle to interpolate data in noisy samples (Varshney et al. 2020). Herein, the authors propose a GAN based model to interpolate layer boundaries through noise and highlight layers in two-dimensional glacial RES data. In real-world noisy images, filtering often results in loss of data such that interpolating layer boundaries is nearly impossible. Furthermore, traditional machine learning approaches are not suited to this task because of the lack of paired data, so we employ an unpaired image-to-image translation model. For this model, we create a synthetic dataset to represent the domain of images with clear, highlighted layers and use an existing real-world RES dataset as our noisy domain. We implement a CycleGAN trained on these two domains to highlight layers in noisy images that can interpolate effectively without significant loss of structure or fidelity. Though the current implementation is not a perfect solution, the model clearly highlights layers in noisy data and allows researchers to determine layer size and position without mathematical filtering, manual processing, or ground-truth images for training. This is significant because clean images generated by our model enable subsurface researchers to determine glacial layer thickness more efficiently.
翻訳日:2021-08-26 13:04:32 公開日:2021-08-25
# データ中毒によるネットワーク認証のバックドア攻撃

Backdoor Attacks on Network Certification via Data Poisoning ( http://arxiv.org/abs/2108.11299v1 )

ライセンス: Link先を確認
Tobias Lorenz, Marta Kwiatkowska, Mario Fritz(参考訳) ニューラルネットワークの証明器は、敵の例を使って回避攻撃に対する堅牢性を保証するために大きな進歩を遂げている。 しかし、ディープラーニングシステムに認証を導入することで、デプロイ前に考慮する必要がある新たな攻撃ベクトルもオープンになる。 本研究では,実運用パイプラインにおける認証者に対するトレーニングタイムアタックの系統的解析を行い,システム全体の劣化に悪用できる新たな脅威ベクトルを同定する。 これらの知見を用いて,ネットワーク認証者に対するバックドア攻撃を2つ設計し,バックドアをアクティベートした場合の認証ロバスト性を大幅に低減する。 例えば、トレーニング中に1%の有毒なデータポイントを追加することは、認定された堅牢性を最大95%削減するのに十分である。 このような新たな攻撃がシステム全体の整合性や可用性を損なう可能性があるかを分析する。 複数のデータセット、モデルアーキテクチャ、証明器をまたいだ広範な実験は、これらの攻撃の幅広い適用性を示しています。 潜在的な防御に関する最初の調査は、現在のアプローチが問題を部分的に緩和するだけで、新しいより具体的なソリューションの必要性を強調していることを示している。

Certifiers for neural networks have made great progress towards provable robustness guarantees against evasion attacks using adversarial examples. However, introducing certifiers into deep learning systems also opens up new attack vectors, which need to be considered before deployment. In this work, we conduct the first systematic analysis of training time attacks against certifiers in practical application pipelines, identifying new threat vectors that can be exploited to degrade the overall system. Using these insights, we design two backdoor attacks against network certifiers, which can drastically reduce certified robustness when the backdoor is activated. For example, adding 1% poisoned data points during training is sufficient to reduce certified robustness by up to 95 percentage points, effectively rendering the certifier useless. We analyze how such novel attacks can compromise the overall system's integrity or availability. Our extensive experiments across multiple datasets, model architectures, and certifiers demonstrate the wide applicability of these attacks. A first investigation into potential defenses shows that current approaches only partially mitigate the issue, highlighting the need for new, more specific solutions.
翻訳日:2021-08-26 13:04:02 公開日:2021-08-25
# 対称正定値行列多様体の最適化のためのベクトル輸送自由リーマンLBFGS

Vector Transport Free Riemannian LBFGS for Optimization on Symmetric Positive Definite Matrix Manifolds ( http://arxiv.org/abs/2108.11019v1 )

ライセンス: Link先を確認
Reza Godaz, Benyamin Ghojogh, Reshad Hosseini, Reza Monsefi, Fakhri Karray, Mark Crowley(参考訳) この仕事はリーマン多様体の最適化に集中する。 有限メモリブロイデン・フレッチャー・ゴールドファーブ・シャンノ法(lbfgs)はユークリッド空間の数値最適化によく用いられる準ニュートン法である。 リーマン lbfgs (rlbfgs) はリーマン多様体へのこの方法の拡張である。 RLBFGSは計算コストの高いベクトル輸送と、随伴ベクトル輸送を用いた再帰の展開を含む。 本稿では,逆二次根とコールスキー分解を用いた接空間における2つの写像を提案する。 これらの写像はベクトル輸送と随伴ベクトル輸送を同一視する。 同一ベクトル輸送は、RLBFGSの計算コストを低減し、RLBFGSの収束解析にも非常に有用である。 さらに、提案された写像の下では、リーマン計量は計算コストがはるかに低いユークリッド内積に還元される。 我々は,データ科学や統計学などの様々な分野において有益である対称性正定値(SPD)多様体に着目する。 この研究は、提案された写像を他のよく知られた多様体に拡張する研究の機会を開く。

This work concentrates on optimization on Riemannian manifolds. The Limited-memory Broyden-Fletcher-Gol dfarb-Shanno (LBFGS) algorithm is a commonly used quasi-Newton method for numerical optimization in Euclidean spaces. Riemannian LBFGS (RLBFGS) is an extension of this method to Riemannian manifolds. RLBFGS involves computationally expensive vector transports as well as unfolding recursions using adjoint vector transports. In this article, we propose two mappings in the tangent space using the inverse second root and Cholesky decomposition. These mappings make both vector transport and adjoint vector transport identity and therefore isometric. Identity vector transport makes RLBFGS less computationally expensive and its isometry is also very useful in convergence analysis of RLBFGS. Moreover, under the proposed mappings, the Riemannian metric reduces to Euclidean inner product, which is much less computationally expensive. We focus on the Symmetric Positive Definite (SPD) manifolds which are beneficial in various fields such as data science and statistics. This work opens a research opportunity for extension of the proposed mappings to other well-known manifolds.
翻訳日:2021-08-26 13:03:46 公開日:2021-08-25
# 混合モデルを用いた逐次出現クラスタを用いたアコースティックエミッションデータストリームのクラスタリング

Clustering acoustic emission data streams with sequentially appearing clusters using mixture models ( http://arxiv.org/abs/2108.11211v1 )

ライセンス: Link先を確認
Emmanuel Ramasso, Thierry Den{\o}e ux, Ga\"el Chevallier(参考訳) 非ラベル音響放射(AE)データの解釈は、古典的には汎用クラスタリング法に依存している。 これらのアルゴリズムのハイパーパラメータの選択には,これまでいくつかの外部基準が用いられてきたが,AEデータの特異性に対処できるクラスタリング手法における専用目的関数の開発に注意を払っている研究は少ない。 本稿では,混合モデルやガウス混合モデル(GMM)において,クラスターのオンセットを明示的に表現する方法を検討する。 このようなモデルの内部基準を変更することで、期待最大化手順で推定されるパラメータ、いつクラスタが発生したかの情報(onets)、どのように成長するか(kinetics)、時間を通じてそのアクティベーションレベルを提供することができる最初のクラスタリング手法を提案する。 この新たな目的関数は、AE信号の連続したタイムスタンプと、その発生順序を許容する。 GMMSEQと呼ばれるこの手法は、振動を受けるボルト構造における緩み現象を特徴づけるために実験的に検証されている。 5つの実験キャンペーンから得られた生のストリーミングデータに対する3つの標準的なクラスタリング手法と比較すると、GMMSEQはクラスタのタイムラインに関する有用な定性的情報を提供するだけでなく、クラスタ特性の観点からも優れたパフォーマンスを示す。 オープン・アコースティック・エミッション・イニシアチブの開発を視野に入れ,fair原則によれば,データセットとコードは,本論文の研究を再現するために利用可能である。

The interpretation of unlabeled acoustic emission (AE) data classically relies on general-purpose clustering methods. While several external criteria have been used in the past to select the hyperparameters of those algorithms, few studies have paid attention to the development of dedicated objective functions in clustering methods able to cope with the specificities of AE data. We investigate how to explicitly represent clusters onsets in mixture models in general, and in Gaussian Mixture Models (GMM) in particular. By modifying the internal criterion of such models, we propose the first clustering method able to provide, through parameters estimated by an expectation-maximiza tion procedure, information about when clusters occur (onsets), how they grow (kinetics) and their level of activation through time. This new objective function accommodates continuous timestamps of AE signals and, thus, their order of occurrence. The method, called GMMSEQ, is experimentally validated to characterize the loosening phenomenon in bolted structure under vibrations. A comparison with three standard clustering methods on raw streaming data from five experimental campaigns shows that GMMSEQ not only provides useful qualitative information about the timeline of clusters, but also shows better performance in terms of cluster characterization. In view of developing an open acoustic emission initiative and according to the FAIR principles, the datasets and the codes are made available to reproduce the research of this paper.
翻訳日:2021-08-26 13:03:28 公開日:2021-08-25
# ProoFVer: ファクト検証を証明した自然論理理論

ProoFVer: Natural Logic Theorem Proving for Fact Verification ( http://arxiv.org/abs/2108.11357v1 )

ライセンス: Link先を確認
Amrith Krishna, Sebastian Riedel, Andreas Vlachos(参考訳) 本稿では,自然論理を用いた事実検証システムProoFVerを提案する。 ProoFVerのテキストエンテーメントモデルは、証明として有効な自然論理に基づく論理的推論を生成するSeq2seqモデルである。 証明の生成により、ProoFVerは説明可能なシステムになる。 この証明は、クレーム内のスパンの反復的語彙変異と、回収されたエビデンス文の集合のスパンからなる。 さらに、これらの変異は、自然論理演算子を用いたエンテーメント関係でマークされる。 主張の正確性は、証明に存在する自然論理関係の列に基づいてのみ決定される。 設計上は、ProoFVerを忠実な説明を生成する建設システムに忠実にする。 ProoFVerは既存の事実検証モデルより優れており、性能と堅牢性は2%以上向上している。 ProoFVerは、その説明が忠実であることに加えて、既存のモデルにおける注意に基づく合理性よりも5点絶対的な改善によって、有理性抽出の点も高く評価している。 最後に、人間は、検索された証拠を直接意思決定に使用する既存のモデルの判断よりも、より頻繁に証明者の決定をシミュレートする。

We propose ProoFVer, a proof system for fact verification using natural logic. The textual entailment model in ProoFVer is a seq2seq model generating valid natural-logic based logical inferences as its proofs. The generation of proofs makes ProoFVer an explainable system. The proof consists of iterative lexical mutations of spans in the claim with spans in a set of retrieved evidence sentences. Further, each such mutation is marked with an entailment relation using natural logic operators. The veracity of a claim is determined solely based on the sequence of natural logic relations present in the proof. By design, this makes ProoFVer a faithful by construction system that generates faithful explanations. ProoFVer outperforms existing fact-verification models, with more than two percent absolute improvements in performance and robustness. In addition to its explanations being faithful, ProoFVer also scores high on rationale extraction, with a five point absolute improvement compared to attention-based rationales in existing models. Finally, we find that humans correctly simulate ProoFVer's decisions more often using the proofs, than the decisions of an existing model that directly use the retrieved evidence for decision making.
翻訳日:2021-08-26 13:02:44 公開日:2021-08-25
# iDARTS:ノード正規化とデコレート離散化によるDARTSの改善

iDARTS: Improving DARTS by Node Normalization and Decorrelation Discretization ( http://arxiv.org/abs/2108.11014v1 )

ライセンス: Link先を確認
Huiqun Wang, Ruijie Yang, Di Huang and Yunhong Wang(参考訳) 微分可能なArchiTecture Search(DARTS)は、ネットワーク表現の継続的な緩和を使用し、GPUデーにおいてニューラルネットワークサーチ(NAS)を約数千倍高速化する。 しかし、DARTSの探索過程は不安定であり、訓練エポックが大きくなると深刻な劣化に悩まされ、適用が制限される。 本稿では、この劣化問題は、異なるノード間の不均衡なノルムと、様々な操作からの高相関な出力が原因であると主張する。 次に,2つの問題に対処するため,DARTSの改良版,すなわちiDARTSを提案する。 トレーニングフェーズでは、標準バランスを維持するためにノード正規化を導入する。 離散化フェーズでは、連続アーキテクチャは、アーキテクチャパラメータの値ではなく、ノードの出力と非相関演算との類似性に基づいて近似される。 CIFAR-10 と ImageNet で徹底的な評価を行い、アーキテクチャ検索において、それぞれ0.2 と 1.9 GPU-day のエラー率 2.25 % と 24.7 % を報告し、その効果を示している。 さらなる分析により、iDARTSは他のDARTSベースのものよりも堅牢性と一般化の優位性が示された。

Differentiable ARchiTecture Search (DARTS) uses a continuous relaxation of network representation and dramatically accelerates Neural Architecture Search (NAS) by almost thousands of times in GPU-day. However, the searching process of DARTS is unstable, which suffers severe degradation when training epochs become large, thus limiting its application. In this paper, we claim that this degradation issue is caused by the imbalanced norms between different nodes and the highly correlated outputs from various operations. We then propose an improved version of DARTS, namely iDARTS, to deal with the two problems. In the training phase, it introduces node normalization to maintain the norm balance. In the discretization phase, the continuous architecture is approximated based on the similarity between the outputs of the node and the decorrelated operations rather than the values of the architecture parameters. Extensive evaluation is conducted on CIFAR-10 and ImageNet, and the error rates of 2.25\% and 24.7\% are reported within 0.2 and 1.9 GPU-day for architecture search respectively, which shows its effectiveness. Additional analysis also reveals that iDARTS has the advantage in robustness and generalization over other DARTS-based counterparts.
翻訳日:2021-08-26 13:02:16 公開日:2021-08-25
# 高精度物体検出のための層別弱分割ブロックとaiou損失

Layer-wise Customized Weak Segmentation Block and AIoU Loss for Accurate Object Detection ( http://arxiv.org/abs/2108.11021v1 )

ライセンス: Link先を確認
Keyang Wang, Lei Zhang, Wenli Song, Qinghai Lang, Lingyun Qin(参考訳) アンカーベースの検出器は、機能ピラミッドを構築し、異なる層内の各セルに異なるアンカーのスケールを直接設定することで、スケール変動の問題に対処する。 しかし,ボックスワイズアンカーとピクセルレベルの機能には1対1の対応がないため,各層におけるスケール特有の特徴の適応学習をボックスワイズアンカーが導くことは困難である。 この問題を軽減するため,本稿では,各層をカスタマイズしたオブジェクト特徴学習のために,画素レベルでのスケールカスタマイズされた弱セグメント化(scws)ブロックを提案する。 SCWSブロックを単発検出器に統合することにより、スケール認識オブジェクト検出器(SCOD)を構築し、異なるサイズのオブジェクトを自然かつ正確に検出する。 さらに、標準位置損失は、困難で簡単なサンプルが深刻な不均衡であるという事実を無視している。 今後の問題は、不均衡のため、より正確なバウンディングボックスを得ることができないことだ。 この問題に対処するため、SCODでは、単純で効果的な圧縮操作による適応IoU(AIoU)損失が特定されている。 PASCAL VOCとMS COCOの大規模な実験はSCODの優位性を示している。

The anchor-based detectors handle the problem of scale variation by building the feature pyramid and directly setting different scales of anchors on each cell in different layers. However, it is difficult for box-wise anchors to guide the adaptive learning of scale-specific features in each layer because there is no one-to-one correspondence between box-wise anchors and pixel-level features. In order to alleviate the problem, in this paper, we propose a scale-customized weak segmentation (SCWS) block at the pixel level for scale customized object feature learning in each layer. By integrating the SCWS blocks into the single-shot detector, a scale-aware object detector (SCOD) is constructed to detect objects of different sizes naturally and accurately. Furthermore, the standard location loss neglects the fact that the hard and easy samples may be seriously imbalanced. A forthcoming problem is that it is unable to get more accurate bounding boxes due to the imbalance. To address this problem, an adaptive IoU (AIoU) loss via a simple yet effective squeeze operation is specified in our SCOD. Extensive experiments on PASCAL VOC and MS COCO demonstrate the superiority of our SCOD.
翻訳日:2021-08-26 13:01:53 公開日:2021-08-25
# 物体検出のための位置不確かさに基づく注意

Localization Uncertainty-Based Attention for Object Detection ( http://arxiv.org/abs/2108.11042v1 )

ライセンス: Link先を確認
Sanghun Park, Kunhee Kim, Eunseop Lee and Daijin Kim(参考訳) オブジェクト検出は様々な現実世界のシナリオに適用されているため、検出アルゴリズムは結果に基づいて適切な決定を下せるように、結果に自信を持たなければならない。 そこで, 境界箱回帰の確率的信頼度について検討した。 しかし、このようなアプローチは、非最大抑制(NMS)手順中に追加のスクリーニングスコアとしてボックス信頼値を使用するアンカーベース検出器に制限されている。 本稿では,ガウスモデルを用いて4方向の局所化不確かさを予測する,より効率的な不確実性認識型高密度検出器 (UADET) を提案する。 さらに,ボックス信頼度マップを利用した簡易不確実性注意モジュール (UAM) を提案し,機能改善による性能向上を図っている。 MS COCOベンチマークを用いた実験によると、UADETはベースラインFCOSを一貫して上回り、最高のモデルであるResNext-64x4d-101-DC Nは、COCOテストデブ上で48.3%の単一スケールAPを得ることができ、様々な物体検出器の最先端を実現することができる。

Object detection has been applied in a wide variety of real world scenarios, so detection algorithms must provide confidence in the results to ensure that appropriate decisions can be made based on their results. Accordingly, several studies have investigated the probabilistic confidence of bounding box regression. However, such approaches have been restricted to anchor-based detectors, which use box confidence values as additional screening scores during non-maximum suppression (NMS) procedures. In this paper, we propose a more efficient uncertainty-aware dense detector (UADET) that predicts four-directional localization uncertainties via Gaussian modeling. Furthermore, a simple uncertainty attention module (UAM) that exploits box confidence maps is proposed to improve performance through feature refinement. Experiments using the MS COCO benchmark show that our UADET consistently surpasses baseline FCOS, and that our best model, ResNext-64x4d-101-DC N, obtains a single model, single-scale AP of 48.3% on COCO test-dev, thus achieving the state-of-the-art among various object detectors.
翻訳日:2021-08-26 13:01:32 公開日:2021-08-25
# 画像中の不適切な視覚特徴の抑制によるCNNモデルのカーネル理解

Understanding of Kernels in CNN Models by Suppressing Irrelevant Visual Features in Images ( http://arxiv.org/abs/2108.11054v1 )

ライセンス: Link先を確認
Jia-Xin Zhuang, Wanying Tao, Jianfei Xing, Wei Shi, Ruixuan Wang, Wei-shi Zheng(参考訳) ディープラーニングモデルは、様々な視覚タスクにおいて優れたパフォーマンスを示している。 しかし、畳み込みニューラルネットワーク(cnns)におけるカーネルの正確な解釈の欠如は、実際のシナリオにおけるディープラーニングモデルの幅広い応用において大きな障害となっている。 既存の解釈方法は特定のカーネルのアクティベーションに関連する特定のビジュアルパターンを見つけることができるが、それらのビジュアルパターンは特定のカーネルの特定のアクティベーションを解釈するのに十分なほど具体的でも包括的でもないかもしれない。 本稿では,cnnモデルにおける任意のカーネルの活性化を解釈するために,単純かつ効果的な最適化手法を提案する。 基本的な考え方は、特定のカーネルの活性化を同時に保存し、同じレイヤで他のすべてのカーネルの活性化を抑制することである。 このようにして、特定のカーネルの活性化に関連する視覚情報のみが入力に残される。 複数の変更された入力からの一貫したビジュアル情報は、ユーザが特定のカーネルに具体的に関連する機能を理解するのに役立ちます。 包括的評価により,2つのカーネルが同一の入力画像から非常によく似た活性化領域を持つ場合でも,特定のカーネルの活性化をよりよく解釈できることがわかった。

Deep learning models have shown their superior performance in various vision tasks. However, the lack of precisely interpreting kernels in convolutional neural networks (CNNs) is becoming one main obstacle to wide applications of deep learning models in real scenarios. Although existing interpretation methods may find certain visual patterns which are associated with the activation of a specific kernel, those visual patterns may not be specific or comprehensive enough for interpretation of a specific activation of kernel of interest. In this paper, a simple yet effective optimization method is proposed to interpret the activation of any kernel of interest in CNN models. The basic idea is to simultaneously preserve the activation of the specific kernel and suppress the activation of all other kernels at the same layer. In this way, only visual information relevant to the activation of the specific kernel is remained in the input. Consistent visual information from multiple modified inputs would help users understand what kind of features are specifically associated with specific kernel. Comprehensive evaluation shows that the proposed method can help better interpret activation of specific kernels than widely used methods, even when two kernels have very similar activation regions from the same input image.
翻訳日:2021-08-26 13:01:13 公開日:2021-08-25
# 遺伝性認知型小児顔画像生成における空間歪みの遅延

Heredity-aware Child Face Image Generation with Latent Space Disentanglement ( http://arxiv.org/abs/2108.11080v1 )

ライセンス: Link先を確認
Xiao Cui, Wengang Zhou, Yang Hu, Weilun Wang and Houqiang Li(参考訳) 近年, 画像合成において生成的敵対ネットワークが広く利用されており, 生成画像の品質が大幅に向上している。 しかし、顔の特徴(例えば、目、鼻、口)を制御・分離する柔軟性はまだ限られている。 そこで,本研究では,先天的な遺伝を持つ親のイメージに基づいて,子どものイメージを生成するための新しいアプローチであるchildganを提案する。 主なアイデアは、事前訓練された世代モデルの潜在空間を分離し、明確な意味を持つ児童画像の顔属性を正確に制御することである。 我々は、顔ランドマーク間の距離を擬似ラベルとして使用し、潜在ベクトルの擬似ラベルへの勾配を計算し、対応する顔属性の最も影響力のある意味ベクトルを求める。 さらに、無関係な特徴を重み付け、シュミット直交化で直交化することにより意味ベクトルをアンタングル化する。 最後に, 生物学的遺伝法則の指導のもと, 両親の潜伏ベクトルを, 絡み合った意味ベクトルを利用して融合する。 大規模な実験により,本手法は既存の手法よりも優れた性能を示した。

Generative adversarial networks have been widely used in image synthesis in recent years and the quality of the generated image has been greatly improved. However, the flexibility to control and decouple facial attributes (e.g., eyes, nose, mouth) is still limited. In this paper, we propose a novel approach, called ChildGAN, to generate a child's image according to the images of parents with heredity prior. The main idea is to disentangle the latent space of a pre-trained generation model and precisely control the face attributes of child images with clear semantics. We use distances between face landmarks as pseudo labels to figure out the most influential semantic vectors of the corresponding face attributes by calculating the gradient of latent vectors to pseudo labels. Furthermore, we disentangle the semantic vectors by weighting irrelevant features and orthogonalizing them with Schmidt Orthogonalization. Finally, we fuse the latent vector of the parents by leveraging the disentangled semantic vectors under the guidance of biological genetic laws. Extensive experiments demonstrate that our approach outperforms the existing methods with encouraging results.
翻訳日:2021-08-26 13:00:54 公開日:2021-08-25
# GlassNet:ロバスト画像検出のためのラベルデカップリングに基づく3ストリームニューラルネットワーク

GlassNet: Label Decoupling-based Three-stream Neural Network for Robust Image Glass Detection ( http://arxiv.org/abs/2108.11117v1 )

ライセンス: Link先を確認
C. Zheng, D. Shi, X. Yan, D. Liang, M. wei, X. Yang, Y. Guo, H. Xie(参考訳) 既存の物体検出手法のほとんどは、透明ガラスが画像中の任意の物体と同一の外観を共有するため、ガラス検出結果が不十分である。 従来の深層学習に基づく知恵とは違い,従来のラベル付き接地トラス(GT)マップを内部拡散マップと境界拡散マップに分解するためにラベル分離を利用する。 新たに生成された2つの地図と協調したGTマップは、オブジェクト境界の不均衡分布を破り、ガラス検出品質が向上する。 透明ガラス検出問題の解決には3つの重要な貢献がある: 1) 3つの地図の有用な特徴を完全に吸収する3ストリームニューラルネットワーク(GlassNetを略して呼び出す)を提案する。 2)より広い文脈情報を調べるために,マルチスケールのインタラクティブ拡張モジュールを設計した。 (3) マルチモーダル情報を統合するためのモザイクモジュールを開発した。 ベンチマークデータセットにおける広範囲な実験は, ガラス検出精度と境界クリア性の両方の観点から, sotaよりも明らかに改善されている。

Most of the existing object detection methods generate poor glass detection results, due to the fact that the transparent glass shares the same appearance with arbitrary objects behind it in an image. Different from traditional deep learning-based wisdoms that simply use the object boundary as auxiliary supervision, we exploit label decoupling to decompose the original labeled ground-truth (GT) map into an interior-diffusion map and a boundary-diffusion map. The GT map in collaboration with the two newly generated maps breaks the imbalanced distribution of the object boundary, leading to improved glass detection quality. We have three key contributions to solve the transparent glass detection problem: (1) We propose a three-stream neural network (call GlassNet for short) to fully absorb beneficial features in the three maps. (2) We design a multi-scale interactive dilation module to explore a wider range of contextual information. (3) We develop an attention-based boundary-aware feature Mosaic module to integrate multi-modal information. Extensive experiments on the benchmark dataset exhibit clear improvements of our method over SOTAs, in terms of both the overall glass detection accuracy and boundary clearness.
翻訳日:2021-08-26 13:00:34 公開日:2021-08-25
# cross-modal cross-lingual pre-trainingを用いた製品指向機械翻訳

Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-training ( http://arxiv.org/abs/2108.11119v1 )

ライセンス: Link先を確認
Yuqing Song, Shizhe Chen, Qin Jin, Wei Luo, Jun Xie, Fei Huang(参考訳) e-commercialの製品記述を翻訳する、すなわち製品指向機械翻訳(PMT)は、世界中のe-shopperを提供するために不可欠である。 しかし、ドメインの専門性のため、PMTタスクは従来の機械翻訳問題よりも難しい。 第一に、製品記述には多くの専門用語があり、製品イメージなしで翻訳することは曖昧である。 第二に、製品記述は、通常の画像記述よりも複雑な方法で画像と関連しており、オブジェクト、形状、色、さらには主観的なスタイルなど様々な視覚的な側面を含んでいる。 さらに、研究を支援するため、既存のPMTデータセットは小規模である。 本稿では、まず、Fashion-MMTと呼ばれる大規模なバイリンガル製品記述データセットを構築し、複数の製品画像による114kのノイズと40k以上の手作業による記述翻訳を含む。 翻訳における製品画像とバイリンガルテキスト間のセマンティックアライメントを効果的に学習するために,事前学習と微調整のための製品指向のクロスランガルモデル (\upoc~) を設計する。 Fashion-MMTとMulti30kデータセットの実験では、私たちのモデルは、同じデータセット上で事前トレーニングされた最先端モデルよりも大幅に優れています。 また、翻訳品質を向上させるために、大規模ノイズデータの恩恵を受けることも示されている。 データセットとコードはhttps://github.com/s yuqings/Fashion-MMT. comで公開します。

Translating e-commercial product descriptions, a.k.a product-oriented machine translation (PMT), is essential to serve e-shoppers all over the world. However, due to the domain specialty, the PMT task is more challenging than traditional machine translation problems. Firstly, there are many specialized jargons in the product description, which are ambiguous to translate without the product image. Secondly, product descriptions are related to the image in more complicated ways than standard image descriptions, involving various visual aspects such as objects, shapes, colors or even subjective styles. Moreover, existing PMT datasets are small in scale to support the research. In this paper, we first construct a large-scale bilingual product description dataset called Fashion-MMT, which contains over 114k noisy and 40k manually cleaned description translations with multiple product images. To effectively learn semantic alignments among product images and bilingual texts in translation, we design a unified product-oriented cross-modal cross-lingual model (\upoc~) for pre-training and fine-tuning. Experiments on the Fashion-MMT and Multi30k datasets show that our model significantly outperforms the state-of-the-art models even pre-trained on the same dataset. It is also shown to benefit more from large-scale noisy data to improve the translation quality. We will release the dataset and codes at https://github.com/s yuqings/Fashion-MMT.
翻訳日:2021-08-26 13:00:14 公開日:2021-08-25
# AutoShape:リアルタイム形状認識モノクロ3Dオブジェクト検出

AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection ( http://arxiv.org/abs/2108.11127v1 )

ライセンス: Link先を確認
Zongdai Liu, Dingfu Zhou, Feixiang Lu, Jin Fang and Liangjun Zhang(参考訳) 既存のディープラーニングに基づく自律運転におけるモノクロ3d物体検出手法では、物体の幾何学的形状が無視されているにもかかわらず、物体を回転3d立方体としてモデル化することが多い。 本研究では,形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。 具体的には、ディープニューラルネットワークを用いて、2D画像領域の区別された2Dキーポイントを学習し、その対応する3D座標をまず局所的な3Dオブジェクト座標に回帰する。 次に、各オブジェクトの対応によって2D/3D幾何学的制約を構築し、検出性能を高める。 2D/3Dキーポイントの基底真実を生成するために,変形した3Dオブジェクトモデルとオブジェクトマスクを2D画像に組み込むことにより,自動的なモデル適合手法を提案する。 提案手法はパブリックなKITTIデータセット上で検証され, 追加の幾何学的制約を用いることで, 検出性能がベースライン法と比較して有意に向上したことを示す。 さらに重要なのは,提案フレームワークがリアルタイムに最先端のパフォーマンスを実現することだ。 データとコードはhttps://github.com/z ongdai/AutoShapeで入手できる。

Existing deep learning-based approaches for monocular 3D object detection in autonomous driving often model the object as a rotated 3D cuboid while the object's geometric shape has been ignored. In this work, we propose an approach for incorporating the shape-aware 2D/3D constraints into the 3D detection framework. Specifically, we employ the deep neural network to learn distinguished 2D keypoints in the 2D image domain and regress their corresponding 3D coordinates in the local 3D object coordinate first. Then the 2D/3D geometric constraints are built by these correspondences for each object to boost the detection performance. For generating the ground truth of 2D/3D keypoints, an automatic model-fitting approach has been proposed by fitting the deformed 3D object model and the object mask in the 2D image. The proposed framework has been verified on the public KITTI dataset and the experimental results demonstrate that by using additional geometrical constraints the detection performance has been significantly improved as compared to the baseline method. More importantly, the proposed framework achieves state-of-the-art performance with real time. Data and code will be available at https://github.com/z ongdai/AutoShape
翻訳日:2021-08-26 12:59:47 公開日:2021-08-25
# 侵略ゲームにおけるイベントの統一分類とマルチモーダルデータセット

A Unified Taxonomy and Multimodal Dataset for Events in Invasion Games ( http://arxiv.org/abs/2108.11149v1 )

ライセンス: Link先を確認
Henrik Biermann, Jonas Theiner, Manuel Bassek, Dominik Raabe, Daniel Memmert, Ralph Ewerth(参考訳) サッカーやハンドボールといった複雑なスポーツゲームにおける位置データやビデオデータによるイベントの自動検出は、研究や産業に大きな関心を寄せている。 1つの要件は、基本的な概念、すなわちピッチで起こるイベントの基本的な理解である。 以前の作業では、フリーキック、フリースロー、ゴールなど、明確に定義されたルールに基づいたいわゆる低レベルのイベントのみを扱うことが多い。 パスのような高レベルのイベントは、一貫した定義が欠如しているため、頻繁にアプローチされる。 これは、イベントアノテーションに関して慎重に検証する必要がある曖昧さのレベルを導入する。 しかし、ほとんどの研究は、未知の品質のプライベートデータセットに関する商用提供者からのアノテーションを採用し、サッカーのみに焦点を当てているため、この検証手順は無視される。 これらの問題に対処するために,(1)侵略ゲームのための幅広い低レベル・高レベルのイベントをカバーし,例えばサッカーやハンドボールに洗練されている普遍的分類法,(2)細粒度・球中心のイベントスポッティングの研究を促進するために,金標準アノテーション付きビデオと位置データからなる2つのマルチモーダルデータセットをリリースする。 人間のパフォーマンス実験では,提案する分類法の頑健性が示され,アノテーションにおける不一致やあいまいさは,イベントの複雑さとともに増大する。 イベントスポッティングにビデオ分類のためのI3Dモデルを採用し、ベンチマークの可能性を明らかにする。 データセットは、https://github.com/m m4spa/eigd.comで入手できる。

The automatic detection of events in complex sports games like soccer and handball using positional or video data is of large interest in research and industry. One requirement is a fundamental understanding of underlying concepts, i.e., events that occur on the pitch. Previous work often deals only with so-called low-level events based on well-defined rules such as free kicks, free throws, or goals. High-level events, such as passes, are less frequently approached due to a lack of consistent definitions. This introduces a level of ambiguity that necessities careful validation when regarding event annotations. Yet, this validation step is usually neglected as the majority of studies adopt annotations from commercial providers on private datasets of unknown quality and focuses on soccer only. To address these issues, we present (1) a universal taxonomy that covers a wide range of low and high-level events for invasion games and is exemplarily refined to soccer and handball, and (2) release two multi-modal datasets comprising video and positional data with gold-standard annotations to foster research in fine-grained and ball-centered event spotting. Experiments on human performance demonstrate the robustness of the proposed taxonomy, and that disagreements and ambiguities in the annotation increase with the complexity of the event. An I3D model for video classification is adopted for event spotting and reveals the potential for benchmarking. Datasets are available at: https://github.com/m m4spa/eigd
翻訳日:2021-08-26 12:59:29 公開日:2021-08-25
# Duo-SegNet:半監督医用画像分割のための対人デュアルビュー

Duo-SegNet: Adversarial Dual-Views for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2108.11154v1 )

ライセンス: Link先を確認
Himashi Peiris, Zhaolin Chen, Gary Egan, Mehrtash Harandi(参考訳) 画像のセグメンテーションは、医療AIにおける長年の課題である。 これは主に、イメージセグメンテーションを実行するためにニューラルネットワークをトレーニングする場合、大量のピクセルレベルのアノテートデータが必要になるためであり、しばしば利用できない。 この問題に対処するために,多視点学習の概念に基づく半教師付き画像分割手法を提案する。 先行技術とは対照的に,デュアルビュートレーニングの敵対的形式を導入し,批判者を用いて,マルチビュートレーニングにおける学習問題をmin-max問題として定式化する。 いくつかのデータセットの定量的および定性的な評価は,提案手法が最新の医用画像分割アルゴリズムを安定かつ快適に向上させることを示す。 コードはhttps://github.com/h imashi92/Duo-SegNetで公開されている。

Segmentation of images is a long-standing challenge in medical AI. This is mainly due to the fact that training a neural network to perform image segmentation requires a significant number of pixel-level annotated data, which is often unavailable. To address this issue, we propose a semi-supervised image segmentation technique based on the concept of multi-view learning. In contrast to the previous art, we introduce an adversarial form of dual-view training and employ a critic to formulate the learning problem in multi-view training as a min-max problem. Thorough quantitative and qualitative evaluations on several datasets indicate that our proposed method outperforms state-of-the-art medical image segmentation algorithms consistently and comfortably. The code is publicly available at https://github.com/h imashi92/Duo-SegNet
翻訳日:2021-08-26 12:59:04 公開日:2021-08-25
# 逆ロバスト一級ノベルティ検出

Adversarially Robust One-class Novelty Detection ( http://arxiv.org/abs/2108.11168v1 )

ライセンス: Link先を確認
Shao-Yuan Lo, Poojan Oza, Vishal M. Patel(参考訳) 一級ノベルティ検出器は特定のクラスの例で訓練され、クエリの例が同じ既知のクラスに属しているかどうかを識別する。 最近の進歩は、新しいクラスデータを検出するための新しいスコアを計算するために、ディープオートエンコーダスタイルのアーキテクチャを採用している。 ディープネットワークは敵の攻撃に弱いことが示されているが、ディープノベルティ検出器の敵の堅牢性の研究にはほとんど焦点が当てられていない。 本稿では,既存の新規性検知器が敵の例の影響を受けやすいことを示す。 さらに,分類課題に対する一般的な防御手法は,一級新奇性検出において有効性に乏しいことを実証する。 したがって、ノベルティ検出用に特別に設計された防御が必要である。 そこで本研究では,新規性検知器の潜伏空間を制御し,敵の例に対する堅牢性を向上する防衛戦略を提案する。 提案手法はPLS(Principal Latent Space)と呼ばれ、潜伏空間における漸進的に訓練されたカスケード主成分を学習し、新規検出器の堅牢化を図る。 PLSは、逆例に対する潜在空間を浄化し、既知のクラス分布のみをモデル化するために潜在空間を制約することができる。 我々は,複数攻撃,データセット,ノベルティ検出器の広範な実験を行い,PLSが新規性検出モデルの対角的堅牢性を一貫して向上することを示した。

One-class novelty detectors are trained with examples of a particular class and are tasked with identifying whether a query example belongs to the same known class. Most recent advances adopt a deep auto-encoder style architecture to compute novelty scores for detecting novel class data. Deep networks have shown to be vulnerable to adversarial attacks, yet little focus is devoted to studying the adversarial robustness of deep novelty detectors. In this paper, we first show that existing novelty detectors are susceptible to adversarial examples. We further demonstrate that commonly-used defense approaches for classification tasks have limited effectiveness in one-class novelty detection. Hence, we need a defense specifically designed for novelty detection. To this end, we propose a defense strategy that manipulates the latent space of novelty detectors to improve the robustness against adversarial examples. The proposed method, referred to as Principal Latent Space (PLS), learns the incrementally-traine d cascade principal components in the latent space to robustify novelty detectors. PLS can purify latent space against adversarial examples and constrain latent space to exclusively model the known class distribution. We conduct extensive experiments on multiple attacks, datasets and novelty detectors, showing that PLS consistently enhances the adversarial robustness of novelty detection models.
翻訳日:2021-08-26 12:58:50 公開日:2021-08-25
# recall@k total loss with large batches and similarity mixup

Recall@k Surrogate Loss with Large Batches and Similarity Mixup ( http://arxiv.org/abs/2108.11179v1 )

ライセンス: Link先を確認
Yash Patel, Giorgos Tolias, Jiri Matas(参考訳) 評価指標の勾配降下による直接最適化は、非微分可能であれば不可能であり、これは検索におけるリコールのケースである。 本研究は,リコールにおける相異なるサロゲート損失を提案する。 gpuメモリのハードウェア制約を回避する実装を使用して、このメソッドは、検索データベース全体で計算されるメトリクスに不可欠な非常に大きなバッチサイズでトレーニングされる。 これはペアワイズスカラーの類似性で動作し、バッチサイズを実質的に増加させる効率的なミックスアップアプローチによって支援される。 ディープメトリック学習に使用する場合,提案手法は,いくつかの画像検索ベンチマークにおいて最先端の結果を得る。 例えば、この手法は平均精度の近似を用いて訓練する類似の手法よりも優れている。 実装は公開されます。

Direct optimization, by gradient descent, of an evaluation metric, is not possible when it is non-differentiable, which is the case for recall in retrieval. In this work, a differentiable surrogate loss for the recall is proposed. Using an implementation that sidesteps the hardware constraints of the GPU memory, the method trains with a very large batch size, which is essential for metrics computed on the entire retrieval database. It is assisted by an efficient mixup approach that operates on pairwise scalar similarities and virtually increases the batch size further. When used for deep metric learning, the proposed method achieves state-of-the-art results in several image retrieval benchmarks. For instance-level recognition, the method outperforms similar approaches that train using an approximation of average precision. The implementation will be made public.
翻訳日:2021-08-26 12:58:26 公開日:2021-08-25
# 重複ラベルを用いた多領域意味セグメンテーション

Multi-domain semantic segmentation with overlapping labels ( http://arxiv.org/abs/2108.11224v1 )

ライセンス: Link先を確認
Petra Bevandi\'c, Marin Or\v{s}i\'c, Ivan Grubi\v{s}i\'c, Josip \v{S}ari\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 深層監視モデルには、大量のトレーニングデータを吸収する前例のない能力がある。 したがって、多くのデータセットのトレーニングは、珍しいシーンにおける優雅な劣化への選択方法となる。 残念ながら、異なるデータセットは、しばしば互換性のないラベルを使用する。 例えば、Cityscapesロードクラスはすべての走行面を仮定し、Vistasは道路マーキングやマンホールなどの別々のクラスを定義している。 この課題に対して,部分ラベルと確率的損失に基づく重複クラスを持つデータセットをシームレスに学習する手法を提案する。 本手法は,データセット内およびデータセット間を競争的に一般化するとともに,トレーニングデータセットに別々にラベル付けされていない視覚概念を学習する能力を有する。 実験では、2つのマルチドメインデータセットコレクションとWildDash 2ベンチマークで、競合や最先端のパフォーマンスが明らかになった。

Deep supervised models have an unprecedented capacity to absorb large quantities of training data. Hence, training on many datasets becomes a method of choice towards graceful degradation in unusual scenes. Unfortunately, different datasets often use incompatible labels. For instance, the Cityscapes road class subsumes all driving surfaces, while Vistas defines separate classes for road markings, manholes etc. We address this challenge by proposing a principled method for seamless learning on datasets with overlapping classes based on partial labels and probabilistic loss. Our method achieves competitive within-dataset and cross-dataset generalization, as well as ability to learn visual concepts which are not separately labeled in any of the training datasets. Experiments reveal competitive or state-of-the-art performance on two multi-domain dataset collections and on the WildDash 2 benchmark.
翻訳日:2021-08-26 12:58:13 公開日:2021-08-25
# 法律領域における規範的主張の表現のためのトランスフォーマーに基づくLMの約束

Exploring the Promises of Transformer-Based LMs for the Representation of Normative Claims in the Legal Domain ( http://arxiv.org/abs/2108.11215v1 )

ライセンス: Link先を確認
Reto Gubelmann (1), Peter Hongler (1), Siegfried Handschuh (1) ((1) University of St.Gallen (HSG))(参考訳) 本稿では,法律領域における規範的言明を正しく表現するトランスフォーマティブ言語モデル(lms)の可能性について検討する。 この実験では、様々なlmsを単語と文に基づくクラスタリングのベースとして使用し、4つの規範理論の1つに明確に割り当てられる税法研究文献の実世界のサンプルからなる、専門的にコンパイルされた小さなテストセットで評価した。 実験の結果,文-BERT埋め込みに基づくクラスタリングが最も有望な結果が得られた。 この主実験に基づいて、これらの4つの規範的理論のうちの1つに規範的クレームをマッピングする分類器を構築するために、ブートストラップループで最高の実行モデルを使用するための最初の試みを行う。

In this article, we explore the potential of transformer-based language models (LMs) to correctly represent normative statements in the legal domain, taking tax law as our use case. In our experiment, we use a variety of LMs as bases for both word- and sentence-based clusterers that are then evaluated on a small, expert-compiled test-set, consisting of real-world samples from tax law research literature that can be clearly assigned to one of four normative theories. The results of the experiment show that clusterers based on sentence-BERT-embedd ings deliver the most promising results. Based on this main experiment, we make first attempts at using the best performing models in a bootstrapping loop to build classifiers that map normative claims on one of these four normative theories.
翻訳日:2021-08-26 12:58:00 公開日:2021-08-25
# 深層学習による計算費用シミュレーションの機会論的エミュレーション

Opportunistic Emulation of Computationally Expensive Simulations via Deep Learning ( http://arxiv.org/abs/2108.11057v1 )

ライセンス: Link先を確認
Conrad Sanderson, Dan Pagendam, Brendan Power, Frederick Bennett, Ross Darnell(参考訳) グレートバリアリーフの管理と保護を目的とした計算モデリングの効率向上を基礎として,APSIMモデルの実行出力を含む既存の大規模データセットを再利用することにより,APSIMモデルの機会論的モデルエミュレーションにディープニューラルネットワークを用いることを検討した。 データセットは、モデルエミュレーションタスクに特化していない。 我々は,2つのニューラルネットワークアーキテクチャをエミュレーションタスクに適用する:密結合フィードフォワードニューラルネットワーク(FFNN)と,繰り返しニューラルネットワークの一種であるFFNN(GRU-FFNN)へのゲートリカレントユニット供給。 アーキテクチャの様々な構成が試行されている。 最小相関統計量を用いて、モデルエミュレーションのためのトレーニングセットを形成するために集約可能なAPSIMシナリオのクラスタを特定する。 apsimモデルの4つの重要なアウトプットであるrunoff, soil_loss, dinrunoff, nleachedをエミュレートすることに注力した。 GRU-FFNNアーキテクチャは3つの隠蔽層と1層128ユニットで、ランオフとDINrunoffをうまくエミュレートする。 しかしながら、 soil_loss と nleached は、考慮されたアーキテクチャの範囲内で比較的低くエミュレートされ、エミュレータはこれら2つの出力のより高い値で可変性をキャプチャできなかった。 過去のモデリングアクティビティから得られる日和見データは、アプシムエミュレーションを探索するための大規模で有用なデータセットを提供するが、より複雑なモデルダイナミクスのディープラーニングを成功させるには不十分である。 コンピュータ実験の設計は、興味のあるすべての出力変数をエミュレートするために、より情報的なデータを生成する必要がある。 また、モデルが幅広い入力を供給できるようにするために、合成気象設定を使用することも提案する。 これらはすべて正常な状態の代表である必要はなく、入力と出力の間の複雑な関係を学習できるより密集したより有益なデータセットを提供することができる。

With the underlying aim of increasing efficiency of computational modelling pertinent for managing and protecting the Great Barrier Reef, we investigate the use of deep neural networks for opportunistic model emulation of APSIM models by repurposing an existing large dataset containing the outputs of APSIM model runs. The dataset has not been specifically tailored for the model emulation task. We employ two neural network architectures for the emulation task: densely connected feed-forward neural network (FFNN), and gated recurrent unit feeding into FFNN (GRU-FFNN), a type of a recurrent neural network. Various configurations of the architectures are trialled. A minimum correlation statistic is employed to identify clusters of APSIM scenarios that can be aggregated to form training sets for model emulation. We focus on emulating four important outputs of the APSIM model: runoff, soil_loss, DINrunoff, Nleached. The GRU-FFNN architecture with three hidden layers and 128 units per layer provides good emulation of runoff and DINrunoff. However, soil_loss and Nleached were emulated relatively poorly under a wide range of the considered architectures; the emulators failed to capture variability at higher values of these two outputs. While the opportunistic data available from past modelling activities provides a large and useful dataset for exploring APSIM emulation, it may not be sufficiently rich enough for successful deep learning of more complex model dynamics. Design of Computer Experiments may be required to generate more informative data to emulate all output variables of interest. We also suggest the use of synthetic meteorology settings to allow the model to be fed a wide range of inputs. These need not all be representative of normal conditions, but can provide a denser, more informative dataset from which complex relationships between input and outputs can be learned.
翻訳日:2021-08-26 12:57:42 公開日:2021-08-25
# Auxiliary Task Update Decomposition: The Good, the Bad and the Neutral

Auxiliary Task Update Decomposition: The Good, The Bad and The Neutral ( http://arxiv.org/abs/2108.11346v1 )

ライセンス: Link先を確認
Lucio M. Dery, Yann Dauphin and David Grangier(参考訳) ディープラーニングは、データ豊富な設定で非常に有用であるが、トレーニングセットが小さいタスクは、事前トレーニングやマルチタスク学習を利用して、他のタスクのデータを活用することが多い。 この場合、補助タスクからの更新が実際にプライマリタスクに役立つようなタスクの選択とモデルパラメータ化には、慎重に考慮する必要があります。 我々は,補助タスク勾配のきめ細かな操作を行うモデル非依存のフレームワークを定式化することにより,この負担を軽減することを目指す。 そこで本研究では,タスクの損失を軽減・ダメージ・回避する方向に補助的な更新を分解することを提案する。 これにより、関心の問題に対する影響に応じて、更新方向を異なる重み付けが可能になる。 我々は,その目的のために,新しい,効率的なアルゴリズムを提案し,実際にその利点を示す。 本手法はスケーラビリティのために効率的な自動微分手順とランダム化特異値分解を利用する。 我々のフレームワークは汎用的で、特定のケースとしていくつかの先行作業を含んでいることを示します。 本手法は,テキストと画像の分類タスクに分散データの活用において,強固で広く使用されているベースラインを一貫して上回っている。

While deep learning has been very beneficial in data-rich settings, tasks with smaller training set often resort to pre-training or multitask learning to leverage data from other tasks. In this case, careful consideration is needed to select tasks and model parameterizations such that updates from the auxiliary tasks actually help the primary task. We seek to alleviate this burden by formulating a model-agnostic framework that performs fine-grained manipulation of the auxiliary task gradients. We propose to decompose auxiliary updates into directions which help, damage or leave the primary task loss unchanged. This allows weighting the update directions differently depending on their impact on the problem of interest. We present a novel and efficient algorithm for that purpose and show its advantage in practice. Our method leverages efficient automatic differentiation procedures and randomized singular value decomposition for scalability. We show that our framework is generic and encompasses some prior work as particular cases. Our approach consistently outperforms strong and widely used baselines when leveraging out-of-distribution data for Text and Image classification tasks.
翻訳日:2021-08-26 12:57:12 公開日:2021-08-25
# 反事実と説明に関する推論--問題、結果、方向性

Reasoning about Counterfactuals and Explanations: Problems, Results and Directions ( http://arxiv.org/abs/2108.11004v1 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) 分類下のエンティティに対する反事実的介入を特定するための解集合プログラミングの使用や、それに対する推論に関する最近のアプローチや結果がある。 これらのアプローチは柔軟でモジュール化され、ドメイン知識のシームレスな追加を可能にする。 応答セットプログラムからの質問応答によって推論が可能となる。 プログラムは、責任に基づく数値スコアを分類結果の属性的説明として指定し、計算するために使用することができる。

There are some recent approaches and results about the use of answer-set programming for specifying counterfactual interventions on entities under classification, and reasoning about them. These approaches are flexible and modular in that they allow the seamless addition of domain knowledge. Reasoning is enabled by query answering from the answer-set program. The programs can be used to specify and compute responsibility-based numerical scores as attributive explanations for classification results.
翻訳日:2021-08-26 12:56:55 公開日:2021-08-25
# エージェントベースモデリングとシミュレーションによるレコメンダシステムの経時ダイナミクスの理解

Understanding Longitudinal Dynamics of Recommender Systems with Agent-Based Modeling and Simulation ( http://arxiv.org/abs/2108.11068v1 )

ライセンス: Link先を確認
Gediminas Adomavicius and Dietmar Jannach and Stephan Leitner and Jingjing Zhang(参考訳) 今日のレコメンデーションシステムの研究は、主に、ユーザにレコメンデーションを提供することによる潜在的長期効果を考慮しないという意味で静的な実験的な設計に基づいている。 しかし実際には、音楽ストリーミングサイトですでに成功しているアーティストの人気を継続的に強化するレコメンダシステムや、利益の最大化を目指すレコメンデーションが長期的に消費者の信頼を失うような、さまざまな重要で興味深い現象が、時間とともに現れるか、あるいは見えなくなるだけだ。 本稿では,エージェント・ベース・モデリング・シミュレーション(ABM)技術を用いて,レコメンダシステムのこのような重要な縦断力学を研究する方法について論じる。 そこで本研究では,abm原則の概要,文献に基づくレコメンダシステムのためのシミュレーションフレームワークの概要,およびそのようなabmベースのシミュレーションフレームワークで対処できる様々な実用的な研究課題について論じる。

Today's research in recommender systems is largely based on experimental designs that are static in a sense that they do not consider potential longitudinal effects of providing recommendations to users. In reality, however, various important and interesting phenomena only emerge or become visible over time, e.g., when a recommender system continuously reinforces the popularity of already successful artists on a music streaming site or when recommendations that aim at profit maximization lead to a loss of consumer trust in the long run. In this paper, we discuss how Agent-Based Modeling and Simulation (ABM) techniques can be used to study such important longitudinal dynamics of recommender systems. To that purpose, we provide an overview of the ABM principles, outline a simulation framework for recommender systems based on the literature, and discuss various practical research questions that can be addressed with such an ABM-based simulation framework.
翻訳日:2021-08-26 12:56:48 公開日:2021-08-25
# 新型コロナウイルスが中国に対する米国の態度にどのように影響したか:Twitter調査

How COVID-19 has Impacted American Attitudes Toward China: A Study on Twitter ( http://arxiv.org/abs/2108.11040v1 )

ライセンス: Link先を確認
Gavin Cook, Junming Huang, Yu Xie(参考訳) 過去の研究は、外国に対する態度の社会的決定要因を研究してきた。 観察されていない要因や逆因果関係による潜在的な内在性バイアスによって構築されたこれらの要因が世論に与える影響は、確立するのが通常困難である。 ソーシャルメディアデータを用いて、新型コロナウイルス(covid-19)パンデミックの突然性を利用して、世界的な大きなイベントが他国のアメリカの見解を因果的に変えたかどうかを調べます。 我々は、2020年6月までに、中国や新型コロナウイルスに関するtwitter上の2億9900万以上の投稿のデータベースを照合し、covid-19に関するツイートを、covid-19の個人的認識の代理として扱う。 回帰不連続と差分差の推定を用いることで、新型コロナウイルスに対する認識が反中国姿勢の急上昇を引き起こすことが判明した。 私たちの研究は、自己利益が政策の選好にどう影響するか、アメリカ人が移民コミュニティをどう見ているかを理解するための意味を持っています。

Past research has studied social determinants of attitudes toward foreign countries. Confounded by potential endogeneity biases due to unobserved factors or reverse causality, the causal impact of these factors on public opinion is usually difficult to establish. Using social media data, we leverage the suddenness of the COVID-19 pandemic to examine whether a major global event has causally changed American views of another country. We collate a database of more than 297 million posts on the social media platform Twitter about China or COVID-19 up to June 2020, and we treat tweeting about COVID-19 as a proxy for individual awareness of COVID-19. Using regression discontinuity and difference-in-differ ence estimation, we find that awareness of COVID-19 causes a sharp rise in anti-China attitudes. Our work has implications for understanding how self-interest affects policy preference and how Americans view migrant communities.
翻訳日:2021-08-26 12:56:29 公開日:2021-08-25
# 3d顔認識:調査

3D Face Recognition: A Survey ( http://arxiv.org/abs/2108.11082v1 )

ライセンス: Link先を確認
Yaping Jing, Xuequan Lu, and Shang Gao(参考訳) 顔認識はコミュニティで最も研究されている研究トピックの1つである。 近年,3次元幾何学的情報によって特徴の識別が容易になるため,顔認識の研究は3次元顔表面の利用にシフトしている。 本研究は,過去10年間に開発された3次元顔認識手法を概観し,従来の手法と深層学習法に分類した。 分類技術は代表作の詳細な説明を用いて評価される。 テクニックの利点と欠点は、顔の変化(表現、ポーズ、オクルージョンなど)に対する正確さ、複雑さ、堅牢性の観点から要約される。 本調査の主な貢献は、3次元顔認識における従来の手法とディープラーニング手法の両方を包括的にカバーすることである。 さらに,利用可能な3D顔データベースのレビューや,今後の研究課題や方向性の議論も実施されている。

Face recognition is one of the most studied research topics in the community. In recent years, the research on face recognition has shifted to using 3D facial surfaces, as more discriminating features can be represented by the 3D geometric information. This survey focuses on reviewing the 3D face recognition techniques developed in the past ten years which are generally categorized into conventional methods and deep learning methods. The categorized techniques are evaluated using detailed descriptions of the representative works. The advantages and disadvantages of the techniques are summarized in terms of accuracy, complexity and robustness to face variation (expression, pose and occlusions, etc). The main contribution of this survey is that it comprehensively covers both conventional methods and deep learning methods on 3D face recognition. In addition, a review of available 3D face databases is provided, along with the discussion of future research challenges and directions.
翻訳日:2021-08-26 12:55:38 公開日:2021-08-25
# cell multi-bernoulli (cell-mb) sensor control for multi-object search-while-trackin g (swt)

Cell Multi-Bernoulli (Cell-MB) Sensor Control for Multi-object Search-While-Trackin g (SWT) ( http://arxiv.org/abs/2108.11236v1 )

ライセンス: Link先を確認
Keith A. LeGrand, Pingping Zhu, and Silvia Ferrari(参考訳) 情報駆動制御は、環境フィードバックに基づいて測定値を最適化できるインテリジェントセンサーの開発に使用できる。 オブジェクト追跡アプリケーションでは、センサアクションは情報ゲインとして知られる不確かさの期待値の低下に基づいて選択される。 ランダム有限集合(RFS)理論は、多目的追跡問題における情報ゲインの定量化と推定のための形式主義を提供する。 しかし、これらのアプリケーションでの情報収集を推定することは、計算的に困難である。 本稿では,マルチオブジェクト探索・追跡のためのセンサ制御に適用可能な,新たなトラクタブルな RFS 予測情報の近似法を提案する。 既存の RFS アプローチと異なり,本論文ではノイズ測定,検出の欠如,誤報,物体の出現・消失を近似した。 情報駆動型センサ制御の有効性は、遠隔光学センサからの実映像データを用いて、複数車両探索時追跡実験により実証される。

Information driven control can be used to develop intelligent sensors that can optimize their measurement value based on environmental feedback. In object tracking applications, sensor actions are chosen based on the expected reduction in uncertainty also known as information gain. Random finite set (RFS) theory provides a formalism for quantifying and estimating information gain in multi-object tracking problems. However, estimating information gain in these applications remains computationally challenging. This paper presents a new tractable approximation of the RFS expected information gain applicable to sensor control for multi-object search and tracking. Unlike existing RFS approaches, the approximation presented in this paper accounts for noisy measurements, missed detections, false alarms, and object appearance/disappear ance. The effectiveness of the information driven sensor control is demonstrated through a multi-vehicle search-while-trackin g experiment using real video data from a remote optical sensor.
翻訳日:2021-08-26 12:55:23 公開日:2021-08-25
# Mitosis DOmain Generalization (MIDOG) のための参照アルゴリズムとしてのDomain Adversarial RetinaNet

Domain Adversarial RetinaNet as a Reference Algorithm for the MItosis DOmain Generalization (MIDOG) Challenge ( http://arxiv.org/abs/2108.11269v1 )

ライセンス: Link先を確認
Frauke Wilm, Katharina Breininger, Marc Aubreville(参考訳) 有糸分裂数の評価は、高い内的・内的変動性を有することが知られている。 コンピュータ支援システムは、このばらつきを減らし、ラベル付け時間を短縮することが証明されている。 しかし、これらのシステムは一般的に訓練領域に大きく依存しており、見えない領域に適用性が低い。 病理組織学では、これらの領域シフトは、組織サンプルのデジタル化に用いられる異なるスライドスキャンシステムを含む、様々なソースから生じる可能性がある。 Mitosis DOmain Generalization Challengeは、有糸分裂図形検出のタスクに対するこの特定の領域シフトに焦点を当てている。 本研究は,ドメイン・アドバーサリアン・トレーニングに基づいて,課題のベースラインとして開発された模倣図形検出アルゴリズムを提案する。 予備テストセットでは、アルゴリズムはf$_1$スコアを0.7514とする。

Assessing the Mitotic Count has a known high degree of intra- and inter-rater variability. Computer-aided systems have proven to decrease this variability and reduce labelling time. These systems, however, are generally highly dependent on their training domain and show poor applicability to unseen domains. In histopathology, these domain shifts can result from various sources, including different slide scanning systems used to digitize histologic samples. The MItosis DOmain Generalization challenge focuses on this specific domain shift for the task of mitotic figure detection. This work presents a mitotic figure detection algorithm developed as a baseline for the challenge, based on domain adversarial training. On the preliminary test set, the algorithm scores an F$_1$ score of 0.7514.
翻訳日:2021-08-26 12:55:08 公開日:2021-08-25
# 畳み込みニューラルネットワークを用いた単一画像デハジングのための完全不均質大気散乱モデリング

Fully Non-Homogeneous Atmospheric Scattering Modeling with Convolutional Neural Networks for Single Image Dehazing ( http://arxiv.org/abs/2108.11292v1 )

ライセンス: Link先を確認
Cong Wang, Yan Huang, Yuexian Zou and Yong Xu(参考訳) 近年,大気散乱モデル (ASM) に基づく単一画像復調モデル (SIDM) が顕著な成果を上げている。 しかし、大気光係数(ALF)と角散乱係数(ASC)が1つの画像の定数として仮定されるASMのモデリング能力に制限があるため、ASMをベースとしたSIDMは現実のヘイズ画像の性能を低下させる。 明らかに、現実世界で撮影されたぼんやりした画像は、この仮定を満たさない。 このような実世界の画像とASM間のモデリングミスマッチの生成は、デハージングのためにトレーニングされたASMベースのSIDMの上限を設定する。 このことを念頭に置いて, ALF と ASC が画素依存である複雑な条件下でのヘイズ画像のモデル化のために, 完全均一な大気散乱モデル (FNH-ASM) を提案する。 しかし、FNH-ASMは実用化に困難をもたらす。 FNH-ASMに基づくSIDMでは、異なる位置におけるパラメータの推定バイアスは脱ハージング結果の歪みが異なる。 そこで, パラメータ推定バイアスが消音結果に与える影響を低減すべく, 消音結果に大きな影響を及ぼす感度位置のパラメータバイアスを制限するために, 新たなコストに敏感な損失関数であるベータロスとdロスの2つを革新的に開発した。 最終的に、FNH-ASMに基づく、エンドツーエンドCNNベースのデハージングネットワークであるFNHD-Netが開発され、β-LossとD-Lossが適用される。 提案するfnhd-netの合成画像と実世界画像の両方におけるデハジング効果と優位性を実験により実証した。 また,本手法の性能向上は,濃密で異質なヘイズシーンにおいて明らかに向上する。

In recent years, single image dehazing models (SIDM) based on atmospheric scattering model (ASM) have achieved remarkable results. However, it is noted that ASM-based SIDM degrades its performance in dehazing real world hazy images due to the limited modelling ability of ASM where the atmospheric light factor (ALF) and the angular scattering coefficient (ASC) are assumed as constants for one image. Obviously, the hazy images taken in real world cannot always satisfy this assumption. Such generating modelling mismatch between the real-world images and ASM sets up the upper bound of trained ASM-based SIDM for dehazing. Bearing this in mind, in this study, a new fully non-homogeneous atmospheric scattering model (FNH-ASM) is proposed for well modeling the hazy images under complex conditions where ALF and ASC are pixel dependent. However, FNH-ASM brings difficulty in practical application. In FNH-ASM based SIDM, the estimation bias of parameters at different positions lead to different distortion of dehazing result. Hence, in order to reduce the influence of parameter estimation bias on dehazing results, two new cost sensitive loss functions, beta-Loss and D-Loss, are innovatively developed for limiting the parameter bias of sensitive positions that have a greater impact on the dehazing result. In the end, based on FNH-ASM, an end-to-end CNN-based dehazing network, FNHD-Net, is developed, which applies beta-Loss and D-Loss. Experimental results demonstrate the effectiveness and superiority of our proposed FNHD-Net for dehazing on both synthetic and real-world images. And the performance improvement of our method increases more obviously in dense and heterogeneous haze scenes.
翻訳日:2021-08-26 12:54:56 公開日:2021-08-25
# ブラインド画像分解

Blind Image Decomposition ( http://arxiv.org/abs/2108.11364v1 )

ライセンス: Link先を確認
Junlin Han, Weihao Li, Pengfei Fang, Chunyi Sun, Jie Hong, Mohammad Ali Armin, Lars Petersson, Hongdong Li(参考訳) そこで本研究では,視覚障害者に重畳画像と視覚障害者像を分離する必要がある視覚障害者像分解(bid)という新しいタスクについて検討した。 例えば、雨は雨のストレーク、雨滴、雪、煙など複数の成分から構成されている。 雨の降るイメージは、これらのコンポーネントの任意の組み合わせとして扱うことができる。 雨画像のような重畳イメージを異なるソースコンポーネントに分解する方法は、現実世界のビジョンシステムへの重要なステップです。 本研究は,複数の領域にまたがる画像の混合分解,リアルタイムデレーニング,共同シャドウ/リフレクション/ウォーターマーク除去の3つのベンチマークデータセットを構築した。 さらに,将来的な作業のための強固なベースラインとして,簡易かつ汎用的なブラインド画像分解ネットワーク(biden)を提案する。 実験の結果,ベンチマークの持続性とBIDeNの有効性が示された。 コードとプロジェクトページが利用可能である。

We present and study a novel task named Blind Image Decomposition (BID), which requires separating a superimposed image into constituent underlying images in a blind setting, that is, both the source components involved in mixing as well as the mixing mechanism are unknown. For example, rain may consist of multiple components, such as rain streaks, raindrops, snow, and haze. Rainy images can be treated as an arbitrary combination of these components, some of them or all of them. How to decompose superimposed images, like rainy images, into distinct source components is a crucial step towards real-world vision systems. To facilitate research on this new task, we construct three benchmark datasets, including mixed image decomposition across multiple domains, real-scenario deraining, and joint shadow/reflection/wa termark removal. Moreover, we propose a simple yet general Blind Image Decomposition Network (BIDeN) to serve as a strong baseline for future work. Experimental results demonstrate the tenability of our benchmarks and the effectiveness of BIDeN. Code and project page are available.
翻訳日:2021-08-26 12:54:24 公開日:2021-08-25
# クラスタリングアルゴリズムへの半自動ハイパーパラメータチューニングの適用

Applying Semi-Automated Hyperparameter Tuning for Clustering Algorithms ( http://arxiv.org/abs/2108.11053v1 )

ライセンス: Link先を確認
Elizabeth Ditton, Anne Swinbourne, Trina Myers, Mitchell Scovell(参考訳) クラスタリング問題にアプローチする場合、各クラスタリングアルゴリズムは特定の性質のクラスタを見つけるのに熟練しているため、適切なクラスタリングアルゴリズムとパラメータを選択することが不可欠である。 クラスタリングアルゴリズムの教師なしの性質のため、経験的評価に利用可能な基底真理値は存在せず、ハイパーパラメータチューニングによるパラメータ選択プロセスの自動化が難しい。 クラスタリングアルゴリズムのハイパーパラメータチューニングに対する従来のアプローチは、内部メトリクスに依存しており、それはしばしば特定のアルゴリズムに偏っている。 この予備研究では、グリッド探索を用いて一連のグラフを開発し、より効率的なドメイン特化評価に使用できるメトリクスを解釈する、半自動的なクラスタリング問題のハイパーパラメータチューニングのためのフレームワークを提案する。 予備的な結果は、内部メトリクスがクラスタの意味的品質を捉えることができないことを示し、内部メトリクスによって駆動されるアプローチは、手動による評価によって駆動されるものと異なる結論に達することを示している。

When approaching a clustering problem, choosing the right clustering algorithm and parameters is essential, as each clustering algorithm is proficient at finding clusters of a particular nature. Due to the unsupervised nature of clustering algorithms, there are no ground truth values available for empirical evaluation, which makes automation of the parameter selection process through hyperparameter tuning difficult. Previous approaches to hyperparameter tuning for clustering algorithms have relied on internal metrics, which are often biased towards certain algorithms, or having some ground truth labels available, moving the problem into the semi-supervised space. This preliminary study proposes a framework for semi-automated hyperparameter tuning of clustering problems, using a grid search to develop a series of graphs and easy to interpret metrics that can then be used for more efficient domain-specific evaluation. Preliminary results show that internal metrics are unable to capture the semantic quality of the clusters developed and approaches driven by internal metrics would come to different conclusions than those driven by manual evaluation.
翻訳日:2021-08-26 12:54:08 公開日:2021-08-25
# 効率的な機械学習モデル構築のための形式的データセット検証に向けて

Toward Formal Data Set Verification for Building Effective Machine Learning Models ( http://arxiv.org/abs/2108.11220v1 )

ライセンス: Link先を確認
Jorge L\'opez, Maxime Labonne and Claude Poletti(参考訳) 機械学習モデルを適切にトレーニングするには、データを適切に収集する必要がある。 適切なデータ収集を保証するため、収集されたデータセットが特定のプロパティを保持することが可能であることを検証する。 例えば、データセットが入力空間全体にわたるサンプルを含むこと、あるいはデータセットがw.r.tと均衡していることを保証する。 クラスが違う。 本稿では,データセット上の任意のプロパティの集合を検証するための公式なアプローチを提案する。 提案手法は、データセットの第一次論理式への変換に依存しており、後述の w.r.t で検証できる。 異なる性質が同じ論理で述べられています z3ソルバを使用するプロトタイプツールが開発され、プロトタイプは形式言語で記述されたプロパティのセットを入力として、与えられたデータセット w.r.t を正式に検証することができる。 与えられたプロパティのセットに。 予備実験の結果,提案手法の有効性と性能,さらに興味のある特性を表現する柔軟性が示された。

In order to properly train a machine learning model, data must be properly collected. To guarantee a proper data collection, verifying that the collected data set holds certain properties is a possible solution. For example, guaranteeing that the data set contains samples across the whole input space, or that the data set is balanced w.r.t. different classes. We present a formal approach for verifying a set of arbitrarily stated properties over a data set. The proposed approach relies on the transformation of the data set into a first order logic formula, which can be later verified w.r.t. the different properties also stated in the same logic. A prototype tool, which uses the z3 solver, has been developed; the prototype can take as an input a set of properties stated in a formal language and formally verify a given data set w.r.t. to the given set of properties. Preliminary experimental results show the feasibility and performance of the proposed approach, and furthermore the flexibility for expressing properties of interest.
翻訳日:2021-08-26 12:53:50 公開日:2021-08-25
# 軽量自己認識型シーケンスレコメンデーション

Lightweight Self-Attentive Sequential Recommendation ( http://arxiv.org/abs/2108.11333v1 )

ライセンス: Link先を確認
Yang Li, Tong Chen, Peng-Fei Zhang, Hongzhi Yin(参考訳) 現代のディープニューラルネットワーク(DNN)は、様々なシーケンシャルレコメンデーションタスクで最先端のレコメンデーションパフォーマンスを達成することによって、シーケンシャルレコメンデーションシステムの開発を大いに促進してきた。 相互作用したアイテムのシーケンスが与えられた場合、既存のDNNベースのシーケンシャルレコメンデータは、各アイテムを単一のベクトルに埋め込んで、その後のユーザの関心事の計算をサポートする。 しかし、潜在的に多数のアイテムがあるため、シーケンシャルレコメンデータの過剰なパラメータのアイテム埋め込みマトリックスは、例えばスマートフォンや他のエッジデバイスのようなリソース制約のある環境での効率的なデプロイのためのメモリボトルネックとなっている。 さらに,各項目間の連続的依存関係のモデル化に有効な多面的自己注意は,グローバルおよび局所的な項目・項目遷移パターンを十分に捉えるために,冗長な注意単位に大きく依存している。 本稿では, 逐次レコメンデーションのための軽量自己拡張型ネットワーク(LSAN)について紹介する。 元の埋め込み行列を積極的に圧縮するために、lsanは合成埋め込みの概念を活用し、各埋め込みは、実質的に小さい埋め込み行列から得られる選択された基底埋め込みベクトルのグループをマージすることによって構成される。 一方,各項目の内在的ダイナミクスを考慮するため,時間的文脈認識型埋め込み合成スキームを提案する。 さらに,従来の多面的自己注意の冗長性を軽減しつつ,長期的・短期的(グローバル的・ローカルな)アイテム依存をフルに把握する,革新的なツインアテンションネットワークを構築した。 総合実験により、LSANは既存のシーケンシャルレコメンデータの精度とメモリ効率を大幅に向上することが示された。

Modern deep neural networks (DNNs) have greatly facilitated the development of sequential recommender systems by achieving state-of-the-art recommendation performance on various sequential recommendation tasks. Given a sequence of interacted items, existing DNN-based sequential recommenders commonly embed each item into a unique vector to support subsequent computations of the user interest. However, due to the potentially large number of items, the over-parameterised item embedding matrix of a sequential recommender has become a memory bottleneck for efficient deployment in resource-constrained environments, e.g., smartphones and other edge devices. Furthermore, we observe that the widely-used multi-head self-attention, though being effective in modelling sequential dependencies among items, heavily relies on redundant attention units to fully capture both global and local item-item transition patterns within a sequence. In this paper, we introduce a novel lightweight self-attentive network (LSAN) for sequential recommendation. To aggressively compress the original embedding matrix, LSAN leverages the notion of compositional embeddings, where each item embedding is composed by merging a group of selected base embedding vectors derived from substantially smaller embedding matrices. Meanwhile, to account for the intrinsic dynamics of each item, we further propose a temporal context-aware embedding composition scheme. Besides, we develop an innovative twin-attention network that alleviates the redundancy of the traditional multi-head self-attention while retaining full capacity for capturing long- and short-term (i.e., global and local) item dependencies. Comprehensive experiments demonstrate that LSAN significantly advances the accuracy and memory efficiency of existing sequential recommenders.
翻訳日:2021-08-26 12:53:33 公開日:2021-08-25
# 深層強化学習に基づく動的uav通信ネットワークの応答性制御

Responsive Regulation of Dynamic UAV Communication Networks Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2108.11012v1 )

ライセンス: Link先を確認
Ran Zhang, Duc Minh (Aaron) Nguyen, Miao Wang, Lin X. Cai and Xuemin (Sherman) Shen(参考訳) 本章では,無人航空機(UAV)通信網の制御について,UAVラインアップとユーザ分布の動的変化の存在下で検討する。 我々は,UAVのラインアップ(クイットやジョイン)やユーザ分布の今後の変更を識別し,変更後のUAVを受動的にディスパッチするのではなく,変更前のUAVを積極的に移動させる,最適なUAV制御ポリシをターゲットにしている。 具体的には,高度強化学習(DRL)に基づくUAV制御フレームワークを開発し,UAVラインアップとユーザ分布の両方の変更を処理可能な,所定の時間地平線に対する蓄積されたユーザ満足度(US)スコアを最大化する。 このフレームワークは、意図的な状態遷移設計によりUAVラインアップ変更前後の状態-作用空間の変化次元に対応している。 さらに、連続状態と行動空間を扱うために、アクター批判に基づくDRLであるDeep Deterministic Policy gradient (DDPG)アルゴリズムを利用する。 さらに、変更のタイミングに関する学習探索を促進するため、オリジナルのDDPGは非同期並列コンピューティング(APC)構造に適合し、批評家ネットワークとアクターネットワークの双方でのトレーニング性能が向上する。 最後に,提案手法の収束性を検証し,UAVラインアップとユーザ分布のダイナミックスを協調的に扱う能力と,受動的反応法よりも優れた性能を示すため,広範囲なシミュレーションを行った。

In this chapter, the regulation of Unmanned Aerial Vehicle (UAV) communication network is investigated in the presence of dynamic changes in the UAV lineup and user distribution. We target an optimal UAV control policy which is capable of identifying the upcoming change in the UAV lineup (quit or join-in) or user distribution, and proactively relocating the UAVs ahead of the change rather than passively dispatching the UAVs after the change. Specifically, a deep reinforcement learning (DRL)-based UAV control framework is developed to maximize the accumulated user satisfaction (US) score for a given time horizon which is able to handle the change in both the UAV lineup and user distribution. The framework accommodates the changed dimension of the state-action space before and after the UAV lineup change by deliberate state transition design. In addition, to handle the continuous state and action space, deep deterministic policy gradient (DDPG) algorithm, which is an actor-critic based DRL, is exploited. Furthermore, to promote the learning exploration around the timing of the change, the original DDPG is adapted into an asynchronous parallel computing (APC) structure which leads to a better training performance in both the critic and actor networks. Finally, extensive simulations are conducted to validate the convergence of the proposed learning approach, and demonstrate its capability in jointly handling the dynamics in UAV lineup and user distribution as well as its superiority over a passive reaction method.
翻訳日:2021-08-26 12:52:28 公開日:2021-08-25
# ストラグラー存在下での非同定サンプリングによる分散最適化

Decentralized optimization with non-identical sampling in presence of stragglers ( http://arxiv.org/abs/2108.11071v1 )

ライセンス: Link先を確認
Tharindu Adikari, Stark Draper(参考訳) 我々は,非ID分布からデータをサンプリングし,トラグラーと呼ばれる遅いノードによって変動量の作業を行う場合,分散コンセンサス最適化を検討する。 非同一性分布の問題と様々な作業量の問題はこれまで別々に研究されてきた。 私たちの研究では、統合システムモデルの下でそれらを一緒に分析します。 作業者の出力を2つのヒューリスティックな手法で組み合わせる際の最適化アルゴリズムの収束性について検討する。 この2つの手法の収束を完全なコンセンサスで証明し、全ての反復に対してストラグラー統計が独立であり、全ての作業者間で同一であると仮定する。 数値計算の結果,近似的コンセンサスの下では,第2の手法は凸関数と非凸関数の両方に対して,第1の手法よりも優れていた。 本研究では,最小分散アンバイアス推定器(MVUE)の理論を用いて,労働者の出力を結合する最適手法の存在を評価する。 2つのヒューリスティック手法はいずれも最適ではないと結論づける一方で、最適手法は存在しないことを示す。

We consider decentralized consensus optimization when workers sample data from non-identical distributions and perform variable amounts of work due to slow nodes known as stragglers. The problem of non-identical distributions and the problem of variable amount of work have been previously studied separately. In our work we analyze them together under a unified system model. We study the convergence of the optimization algorithm when combining worker outputs under two heuristic methods: (1) weighting equally, and (2) weighting by the amount of work completed by each. We prove convergence of the two methods under perfect consensus, assuming straggler statistics are independent and identical across all workers for all iterations. Our numerical results show that under approximate consensus the second method outperforms the first method for both convex and non-convex objective functions. We make use of the theory on minimum variance unbiased estimator (MVUE) to evaluate the existence of an optimal method for combining worker outputs. While we conclude that neither of the two heuristic methods are optimal, we also show that an optimal method does not exist.
翻訳日:2021-08-26 12:52:02 公開日:2021-08-25
# GraphQLクエリのコスト(拡張バージョン)を学ぶ

Learning GraphQL Query Costs (Extended Version) ( http://arxiv.org/abs/2108.11139v1 )

ライセンス: Link先を確認
Georgios Mavroudeas and Guillaume Baudart and Alan Cha and Martin Hirzel and Jim A. Laredo and Malik Magdon-Ismail and Louis Mandel and Erik Wittern(参考訳) GraphQLはAPI用のクエリ言語であり、既存のマイクロサービス、REST API、データベース、その他のソースから要求されたデータをフェッチする、これらのクエリを実行するランタイムである。 その表現力と柔軟性は、多くの業界、特にWebを通じてAPIプロバイダにとって魅力的な候補となっている。 GraphQLでクライアントのクエリを盲目的にサーブする大きな欠点は、クエリのコストが予想外に大きくなり、プロバイダの計算とリソースのオーバーロードが発生し、クライアントのAPIレート制限のオーバーロードとインフラストラクチャのオーバーロードが発生することだ。 これらの欠点を軽減するためには、クエリの実行前に効率的にクエリのコストを見積もる必要がある。 GraphQLクエリにはネスト構造があり、GraphQL APIは異なる設計規則に従っており、基礎となるデータソースが隠されているため、クエリコストの推定は難しい。 最悪の静的クエリ分析に基づく推定は、コストを大幅に過大評価する傾向があるため、成功は限られている。 本稿では,クエリコストを効率的に正確に推定する機械学習手法を提案する。 また,公開商用apiからのクエリ応答データ上でテストすることにより,このアプローチのパワーを実証する。 私たちのフレームワークは効率的で、高い精度でクエリコストを予測し、静的解析を高いマージンで上回っています。

GraphQL is a query language for APIs and a runtime for executing those queries, fetching the requested data from existing microservices, REST APIs, databases, or other sources. Its expressiveness and its flexibility have made it an attractive candidate for API providers in many industries, especially through the web. A major drawback to blindly servicing a client's query in GraphQL is that the cost of a query can be unexpectedly large, creating computation and resource overload for the provider, and API rate-limit overages and infrastructure overload for the client. To mitigate these drawbacks, it is necessary to efficiently estimate the cost of a query before executing it. Estimating query cost is challenging, because GraphQL queries have a nested structure, GraphQL APIs follow different design conventions, and the underlying data sources are hidden. Estimates based on worst-case static query analysis have had limited success because they tend to grossly overestimate cost. We propose a machine-learning approach to efficiently and accurately estimate the query cost. We also demonstrate the power of this approach by testing it on query-response data from publicly available commercial APIs. Our framework is efficient and predicts query costs with high accuracy, consistently outperforming the static analysis by a large margin.
翻訳日:2021-08-26 12:51:44 公開日:2021-08-25
# (参考訳) SERF:log-Softplus ERrorActivation Functionを用いたディープニューラルネットワークのより良いトレーニングを目指して [全文訳有]

SERF: Towards better training of deep neural networks using log-Softplus ERror activation Function ( http://arxiv.org/abs/2108.09598v3 )

ライセンス: CC BY 4.0
Sayan Nag, Mayukh Bhattacharyya(参考訳) アクティベーション機能は、トレーニングダイナミクスとニューラルネットワークのパフォーマンスを決定する上で重要な役割を果たす。 シンプルで有効であるにもかかわらず広く採用されているアクティベーション関数 ReLU には、Dying ReLU 問題を含むいくつかの欠点がある。 そこで本研究では,自然界において自己正規化され,非単調であるサーフと呼ばれる新しい活性化関数を提案する。 Mishと同様に、SerfもSwishファミリーに属している。 コンピュータビジョン(画像分類とオブジェクト検出)と自然言語処理(機械翻訳、感情分類、マルチモーダル・エンテーメント)の様々な実験に基づいて、SerfはReLU(ベースライン)とSwishとMishを含む他のアクティベーション機能を大きく上回っており、より深いアーキテクチャに顕著な差がある。 アブレーション研究により、serfベースのアーキテクチャは様々なシナリオにおいてswishやmishよりも優れた性能を示し、様々な深さ、複雑さ、最適化、学習率、バッチサイズ、初期化器、ドロップアウト率でserfの有効性と互換性を検証する。 最後に,SwishとSerfの数学的関係について検討し,よりスムーズかつ高速に勾配を最適化する正規化効果を提供するSerfの第1微分のプレコンディショナー関数の影響を示す。

Activation functions play a pivotal role in determining the training dynamics and neural network performance. The widely adopted activation function ReLU despite being simple and effective has few disadvantages including the Dying ReLU problem. In order to tackle such problems, we propose a novel activation function called Serf which is self-regularized and nonmonotonic in nature. Like Mish, Serf also belongs to the Swish family of functions. Based on several experiments on computer vision (image classification and object detection) and natural language processing (machine translation, sentiment classification and multimodal entailment) tasks with different state-of-the-art architectures, it is observed that Serf vastly outperforms ReLU (baseline) and other activation functions including both Swish and Mish, with a markedly bigger margin on deeper architectures. Ablation studies further demonstrate that Serf based architectures perform better than those of Swish and Mish in varying scenarios, validating the effectiveness and compatibility of Serf with varying depth, complexity, optimizers, learning rates, batch sizes, initializers and dropout rates. Finally, we investigate the mathematical relation between Swish and Serf, thereby showing the impact of preconditioner function ingrained in the first derivative of Serf which provides a regularization effect making gradients smoother and optimization faster.
翻訳日:2021-08-26 10:34:27 公開日:2021-08-25
# APObind:De Novoドラッグデザインにおける機械学習応用のためのリガンド非結合タンパク質のデータセット

APObind: A Dataset of Ligand Unbound Protein Conformations for Machine Learning Applications in De Novo Drug Design ( http://arxiv.org/abs/2108.09926v2 )

ライセンス: Link先を確認
Rishal Aggarwal, Akash Gupta, U Deva Priyakumar(参考訳) タンパク質リガンド複合体構造は、受容体結合部位の検出、小さな分子ドッキング、結合親和性予測などの薬物設計に関連する重要なタスクを実行するベンチマーク機械学習手法を設計するために利用されてきた。 しかし、これらの方法は通常、タンパク質のリガンド結合(またはホロ)配座のみに基づいて訓練されるため、タンパク質構造がネイティブなアンバウンド配座(apo)にある場合、通常は新しく同定された受容体の配座である場合、うまく機能することが保証されない。 主な理由は、結合部位の局所構造が通常、リガンド結合によって変化するからである。 この問題を解決するため,我々は pdbbind データセットに存在するタンパク質の apo コンフォーメーションを提供することを目的とした apobind というデータセットを提案する。 さらに,本データセット上の3つのユースケースに特有の手法の性能について検討し,APObindデータセット上での検証の重要性を示す。

Protein-ligand complex structures have been utilised to design benchmark machine learning methods that perform important tasks related to drug design such as receptor binding site detection, small molecule docking and binding affinity prediction. However, these methods are usually trained on only ligand bound (or holo) conformations of the protein and therefore are not guaranteed to perform well when the protein structure is in its native unbound conformation (or apo), which is usually the conformation available for a newly identified receptor. A primary reason for this is that the local structure of the binding site usually changes upon ligand binding. To facilitate solutions for this problem, we propose a dataset called APObind that aims to provide apo conformations of proteins present in the PDBbind dataset, a popular dataset used in drug design. Furthermore, we explore the performance of methods specific to three use cases on this dataset, through which, the importance of validating them on the APObind dataset is demonstrated.
翻訳日:2021-08-26 10:21:37 公開日:2021-08-25
# 第2回反UAVワークショップ・チャレンジ:方法と成果

The 2nd Anti-UAV Workshop & Challenge: Methods and Results ( http://arxiv.org/abs/2108.09909v2 )

ライセンス: Link先を確認
Jian Zhao, Gang Wang, Jianan Li, Lei Jin, Nana Fan, Min Wang, Xiaojuan Wang, Ting Yong, Yafeng Deng, Yandong Guo, Shiming Ge, Guodong Guo(参考訳) 第2回反UAVワークショップ「チャレンジ」は、マルチスケール物体追跡の新しい高精度な手法の研究を促進することを目的としている。 反UAVチャレンジで使用される反UAVデータセットが公開された。 データセットには$i.e.$とtest-devサブセットとtest-challengeサブセットの2つのサブセットがある。 どちらのサブセットも140個の熱赤外ビデオシーケンスで構成されており、複数のUAVが発生している。 世界から24チームが参加し、第2回対uavチャレンジに出場した。 本稿では,第2回反UAVワークショップ・チャレンジの概要を紹介するとともに,第2回反UAVワークショップ・チャレンジについて紹介する。 ベンチマークデータセットとその他の情報は、https://anti-uav.git hub.io/で見ることができる。

The 2nd Anti-UAV Workshop \& Challenge aims to encourage research in developing novel and accurate methods for multi-scale object tracking. The Anti-UAV dataset used for the Anti-UAV Challenge has been publicly released. There are two subsets in the dataset, $i.e.$, the test-dev subset and test-challenge subset. Both subsets consist of 140 thermal infrared video sequences, spanning multiple occurrences of multi-scale UAVs. Around 24 participating teams from the globe competed in the 2nd Anti-UAV Challenge. In this paper, we provide a brief summary of the 2nd Anti-UAV Workshop \& Challenge including brief introductions to the top three methods.The submission leaderboard will be reopened for researchers that are interested in the Anti-UAV challenge. The benchmark dataset and other information can be found at: https://anti-uav.git hub.io/.
翻訳日:2021-08-26 10:21:17 公開日:2021-08-25
# autoencoder-based semantic novelty detection: towards dependable ai-based systems

Autoencoder-based Semantic Novelty Detection: Towards Dependable AI-based Systems ( http://arxiv.org/abs/2108.10851v2 )

ライセンス: Link先を確認
Andreas Rausch, Azarmidokht Motamedi Sedeh, Meng Zhang(参考訳) 無人タクシーのような多くの自律システムは、安全上重要な機能を果たす。 自律システムは、特に環境認識のために人工知能(AI)技術を採用している。 エンジニアはAIベースの自律システムを完全にテストしたり、正式に検証することはできない。 aiベースのシステムの精度は、トレーニングデータの品質に依存する。 これにより、訓練に使用するデータと何らかの点で異なる新規検出データが、システム開発及び運用の安全対策となる。 本稿では, 意味的オートエンコーダトポロジーのためのアーキテクチャガイドラインと, 意味的エラー計算をノベルティ基準として, オートエンコーダに基づく意味的ノベルティ検出のための新しいアーキテクチャを提案する。 このような意味的新規性検出は、偽陰性を最小化することにより、文献から知られているオートエンコーダに基づく新規性検出アプローチよりも優れていることを実証する。

Many autonomous systems, such as driverless taxis, perform safety critical functions. Autonomous systems employ artificial intelligence (AI) techniques, specifically for the environment perception. Engineers cannot completely test or formally verify AI-based autonomous systems. The accuracy of AI-based systems depends on the quality of training data. Thus, novelty detection - identifying data that differ in some respect from the data used for training - becomes a safety measure for system development and operation. In this paper, we propose a new architecture for autoencoder-based semantic novelty detection with two innovations: architectural guidelines for a semantic autoencoder topology and a semantic error calculation as novelty criteria. We demonstrate that such a semantic novelty detection outperforms autoencoder-based novelty detection approaches known from literature by minimizing false negatives.
翻訳日:2021-08-26 10:21:05 公開日:2021-08-25