このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210419となっている論文です。

PDF登録状況(公開日: 20210419)

TitleAuthorsAbstract論文公表日・翻訳日
# 完全量子化画像超解像ネットワーク

Fully Quantized Image Super-Resolution Networks ( http://arxiv.org/abs/2011.14265v2 )

ライセンス: Link先を確認
Hu Wang, Peng Chen, Bohan Zhuang, Chunhua Shen(参考訳) インテリジェントなモバイルデバイスの普及に伴い、高精度でリアルタイムでエネルギー効率の高い画像超解法(SR)の推論手法を開発することは、非常に実用的に重要である。 モデル量子化(model quantization)は、高価な浮動小数点演算を効率的な不動小数点演算やビット演算に置き換える手法である。 今のところ、量子化SRフレームワークが実現可能な精度効率トレードオフを実現することは、依然として困難である。 本稿では,効率と精度を両立させるFQSR(Fully Quantized Image Super-Resolution framework)を提案する。 特に,全層に対するエンドツーエンド量子化モデル,特にスキップ接続の獲得を目標としており,文献にはほとんど触れられていない。 さらに、低ビットSRネットワークが直面する学習障害を特定し、2つの新しい手法を提案する。 2つの回折は, 1) 活性化と重み分布が異なる層で大きく異なること, 2) 量子化の不正確な近似によって引き起こされる。 我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。 実験結果から,低ビット量子化を用いたFQSRは,5つのベンチマークデータセットの完全精度に比較して,計算コストとメモリ消費を大幅に削減した最先端の数値化SR手法を克服できることがわかった。

With the rising popularity of intelligent mobile devices, it is of great practical significance to develop accurate, realtime and energy-efficient image Super-Resolution (SR) inference methods. A prevailing method for improving the inference efficiency is model quantization, which allows for replacing the expensive floating-point operations with efficient fixed-point or bitwise arithmetic. To date, it is still challenging for quantized SR frameworks to deliver feasible accuracy-efficiency trade-off. Here, we propose a Fully Quantized image Super-Resolution framework (FQSR) to jointly optimize efficiency and accuracy. In particular, we target on obtaining end-to-end quantized models for all layers, especially including skip connections, which was rarely addressed in the literature. We further identify training obstacles faced by low-bit SR networks and propose two novel methods accordingly. The two difficulites are caused by 1) activation and weight distributions being vastly distinctive in different layers; 2) the inaccurate approximation of the quantization. We apply our quantization scheme on multiple mainstream super-resolution architectures, including SRResNet, SRGAN and EDSR. Experimental results show that our FQSR using low bits quantization can achieve on par performance compared with the full-precision counterparts on five benchmark datasets and surpass state-of-the-art quantized SR methods with significantly reduced computational cost and memory consumption.
翻訳日:2021-06-07 08:58:13 公開日:2021-04-19
# 二重確率部分空間クラスタリング

Doubly Stochastic Subspace Clustering ( http://arxiv.org/abs/2011.14859v2 )

ライセンス: Link先を確認
Derek Lim, Ren\'e Vidal, Benjamin D. Haeffele(参考訳) 多くの最先端サブスペースクラスタリング法は、まずデータポイント間の親和性行列を構築し、その親和性にスペクトルクラスタリングを適用することによって、2段階のプロセスに従う。 これらの手法の研究の多くは、しばしば線形部分空間の自己表現性を利用するアフィニティを生成する最初のステップに焦点が当てられ、最終的なクラスタリングを生成するスペクトルクラスタリングステップにはほとんど考慮されない。 さらに、自己表現的クラスタリングの定式化によって生成されるアフィニティにアドホックまたは任意に選択された後処理ステップを適用することにより、スペクトルクラスタリング工程で用いられる最終アフィニティを得ることができ、全体のクラスタリング性能に大きな影響を与える。 本研究では,データの自己表現表現と,スペクトルクラスタリングによく対応した親和性行列の両方を学習することにより,これら2つのステップを統合する。 提案するモデルでは,親和性行列を二重確率化に限定し,親和性行列正規化の原理を定めながら,スペクトルクラスタリングにおける二重確率正規化の既知の利点を生かした。 1つは二重確率的親和性とともに自己表現的表現を共に学習し、もう1つは次々に次々に解く。 さらに,この問題の分散性を利用して,大規模データセットの効率的な計算を可能にするシーケンシャルソルバの高速能動セット法を開発した。 実験により,コンピュータビジョンにおける多くの共通データセットに対して,最先端のサブスペースクラスタリング性能が得られた。

Many state-of-the-art subspace clustering methods follow a two-step process by first constructing an affinity matrix between data points and then applying spectral clustering to this affinity. Most of the research into these methods focuses on the first step of generating the affinity, which often exploits the self-expressive property of linear subspaces, with little consideration typically given to the spectral clustering step that produces the final clustering. Moreover, existing methods often obtain the final affinity that is used in the spectral clustering step by applying ad-hoc or arbitrarily chosen postprocessing steps to the affinity generated by a self-expressive clustering formulation, which can have a significant impact on the overall clustering performance. In this work, we unify these two steps by learning both a self-expressive representation of the data and an affinity matrix that is well-normalized for spectral clustering. In our proposed models, we constrain the affinity matrix to be doubly stochastic, which results in a principled method for affinity matrix normalization while also exploiting known benefits of doubly stochastic normalization in spectral clustering. We develop a general framework and derive two models: one that jointly learns the self-expressive representation along with the doubly stochastic affinity, and one that sequentially solves for one then the other. Furthermore, we leverage sparsity in the problem to develop a fast active-set method for the sequential solver that enables efficient computation on large datasets. Experiments show that our method achieves state-of-the-art subspace clustering performance on many common datasets in computer vision.
翻訳日:2021-06-06 15:03:40 公開日:2021-04-19
# 3次元点雲の閉塞誘導シーンフロー推定

Occlusion Guided Scene Flow Estimation on 3D Point Clouds ( http://arxiv.org/abs/2011.14880v2 )

ライセンス: Link先を確認
Bojun Ouyang, Dan Raviv(参考訳) 3次元シーンフロー推定は環境の深度や範囲のセンサーを理解する上で重要なツールである。 光の流れとは異なり、データは通常スパースであり、ほとんどの場合、2つの時間的サンプリングの間に部分的に閉じ込められている。 本稿では,フレーム間の流れとオクルージョンの学習を密結合した新しいシーンフローアーキテクチャogsf-netを提案する。 それらの結合共生は、宇宙の流れをより正確に予測する。 従来のマルチアクションネットワークとは異なり、当社の統一アプローチはネットワーク全体に融合し、閉塞検出とフロー推定の両方のパフォーマンスを高める。 我々のアーキテクチャは、点雲上の3次元シーンフロー推定における閉塞度を初めて測定したものである。 Flyingthings3DやKITTIといった重要なデータセットでは、最先端の結果が得られます。

3D scene flow estimation is a vital tool in perceiving our environment given depth or range sensors. Unlike optical flow, the data is usually sparse and in most cases partially occluded in between two temporal samplings. Here we propose a new scene flow architecture called OGSF-Net which tightly couples the learning for both flow and occlusions between frames. Their coupled symbiosis results in a more accurate prediction of flow in space. Unlike a traditional multi-action network, our unified approach is fused throughout the network, boosting performances for both occlusion detection and flow estimation. Our architecture is the first to gauge the occlusion in 3D scene flow estimation on point clouds. In key datasets such as Flyingthings3D and KITTI, we achieve the state-of-the-art results.
翻訳日:2021-06-06 14:58:13 公開日:2021-04-19
# AFD-Net:Few-Shotオブジェクト検出のための適応フルデュアルネットワーク

AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection ( http://arxiv.org/abs/2011.14667v2 )

ライセンス: Link先を確認
Longyao Liu, Bo Ma, Yulin Zhang, Xin Yi, Haozhi Li(参考訳) Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器を学習することを目的としている。 既存の手法では、検出器内の共有コンポーネント(roiヘッドなど)を利用して分類と局所化のサブタスクを実行するが、2つのサブタスクの異なる好みを考慮に入れることは少ない。 本稿では,FSODの特性を慎重に解析し,2つのサブタスクの明示的な分解を考慮すべきであることを示す。 最後に, 単純で効果的な適応完全双対ネットワーク (AFD-Net) を提案する。 具体的には,分離特徴抽出のためのデュアルクエリエンコーダとデュアルアテンション生成器,分離モデル重み付けのためのデュアルアグリゲータを導入することで,r-cnnを高速化した。 自然にR-CNN検出器によって別々の状態推定が達成される。 また,機能表現の強化のために,異なるサブタスクで機能融合を適応的に行うための適応的融合機構も導入する。 PASCAL VOCとMS COCOの多種多様な環境下での大規模実験により,本手法は新たな最先端性能を大きなマージンで達成し,その有効性と一般化能力を示した。

Few-shot object detection (FSOD) aims at learning a detector that can fast adapt to previously unseen objects with scarce annotated examples, which is challenging and demanding. Existing methods solve this problem by performing subtasks of classification and localization utilizing a shared component (e.g., RoI head) in the detector, yet few of them take the distinct preferences of two subtasks towards feature embedding into consideration. In this paper, we carefully analyze the characteristics of FSOD, and present that a general few-shot detector should consider the explicit decomposition of two subtasks, as well as leveraging information from both of them to enhance feature representations. To the end, we propose a simple yet effective Adaptive Fully-Dual Network (AFD-Net). Specifically, we extend Faster R-CNN by introducing Dual Query Encoder and Dual Attention Generator for separate feature extraction, and Dual Aggregator for separate model reweighting. Spontaneously, separate state estimation is achieved by the R-CNN detector. Besides, for the acquisition of enhanced feature representations, we further introduce Adaptive Fusion Mechanism to adaptively perform feature fusion in different subtasks. Extensive experiments on PASCAL VOC and MS COCO in various settings show that, our method achieves new state-of-the-art performance by a large margin, demonstrating its effectiveness and generalization ability.
翻訳日:2021-06-06 14:46:39 公開日:2021-04-19
# オブジェクト認識のためのロッキーチケット仮説

The Lottery Ticket Hypothesis for Object Recognition ( http://arxiv.org/abs/2012.04643v2 )

ライセンス: Link先を確認
Sharath Girish, Shishira R. Maiya, Kamal Gupta, Hao Chen, Larry Davis, Abhinav Shrivastava(参考訳) 近年,物体認識やキーポイント推定などの認識タスクが広く採用されている。 これらのタスクの最先端の手法のほとんどは、計算コストが高く、巨大なメモリフットプリントを持つディープネットワークを使用する。 これにより、これらのシステムを低電力の組み込みデバイスにデプロイすることは非常に困難である。 したがって、そのようなモデルにおけるストレージ要件の削減と計算量の削減が重要となる。 最近提案されたLottery Ticket hypothesis (LTH)は、大規模なデータセットでトレーニングされたディープニューラルネットワークには、高密度ネットワークと同等のパフォーマンスを達成するための小さなサブネットが含まれている、と述べている。 本稿では,オブジェクト検出,インスタンスセグメンテーション,キーポイント推定の文脈におけるモデルプルーニングのlthについて,最初の実証研究を行う。 本研究では,ImageNet事前学習から得られる宝くじが下流のタスクにうまく転送されないことを示す。 異なるサブタスクに対して最大80%の間隔で宝くじを見つける方法に関するガイダンスを,パフォーマンスの低下を招くことなく提供する。 最後に,対象物の大きさや頻度,検出の困難さなど,さまざまなタスク属性に対して,トレーニングチケットの挙動を分析する。

Recognition tasks, such as object recognition and keypoint estimation, have seen widespread adoption in recent years. Most state-of-the-art methods for these tasks use deep networks that are computationally expensive and have huge memory footprints. This makes it exceedingly difficult to deploy these systems on low power embedded devices. Hence, the importance of decreasing the storage requirements and the amount of computation in such models is paramount. The recently proposed Lottery Ticket Hypothesis (LTH) states that deep neural networks trained on large datasets contain smaller subnetworks that achieve on par performance as the dense networks. In this work, we perform the first empirical study investigating LTH for model pruning in the context of object detection, instance segmentation, and keypoint estimation. Our studies reveal that lottery tickets obtained from ImageNet pretraining do not transfer well to the downstream tasks. We provide guidance on how to find lottery tickets with up to 80% overall sparsity on different sub-tasks without incurring any drop in the performance. Finally, we analyse the behavior of trained tickets with respect to various task attributes such as object size, frequency, and difficulty of detection.
翻訳日:2021-05-16 21:43:11 公開日:2021-04-19
# ロンドンにおける準リアルタイムソーシャルディスタンシング

Near Real-Time Social Distancing in London ( http://arxiv.org/abs/2012.07751v2 )

ライセンス: Link先を確認
James Walsh, Oluwafunmilola Kesa, Andrew Wang, Mihai Ilas, Patrick O'Hara, Oscar Giles, Neil Dhir, Theodoros Damoulas(参考訳) 新型コロナウイルス(COVID-19)パンデミックの間、ロンドンの地方行政機関であるグレーター・ロンドン・オーソリティの政策当局は、迅速かつ正確なデータソースに依存している。 都市全体で広く定義された不均一な活動構成は、取得が難しいこともあるが、「ビジネス」を学び、結果として安全な政策決定を行うためには必要である。 この領域における我々のプロジェクトの1つの構成要素は、一般市民によるソーシャルディスタンシングの遵守を見積もるために既存のインフラを活用することです。 本手法により,ロンドンの街路における活動と身体的距離の即時サンプリングと文脈化が,ライブトラフィックカメラフィードを介して可能となる。 また,900以上のリアルタイムフィードへのアクティブなデプロイを記述しながら,既存のメソッドを検査し,改善するためのフレームワークを提案する。

During the COVID-19 pandemic, policy makers at the Greater London Authority, the regional governance body of London, UK, are reliant upon prompt and accurate data sources. Large well-defined heterogeneous compositions of activity throughout the city are sometimes difficult to acquire, yet are a necessity in order to learn 'busyness' and consequently make safe policy decisions. One component of our project within this space is to utilise existing infrastructure to estimate social distancing adherence by the general public. Our method enables near immediate sampling and contextualisation of activity and physical distancing on the streets of London via live traffic camera feeds. We introduce a framework for inspecting and improving upon existing methods, whilst also describing its active deployment on over 900 real-time feeds.
翻訳日:2021-05-16 20:48:45 公開日:2021-04-19
# (参考訳) PyPlutchik:感情関連コーパスの可視化と比較 [全文訳有]

PyPlutchik: visualising and comparing emotion-annotated corpora ( http://arxiv.org/abs/2105.04295v1 )

ライセンス: CC BY 4.0
Alfonso Semeraro, Salvatore Vilella and Giancarlo Ruffo(参考訳) ソーシャルネットワークから抽出されたテキストコーパスとデータは、心理学者のロバート・プルチク(robert plutchik)が提唱した「plutchik wheel」と呼ばれるモデルに基づいて、膨大な量の著作物を生み出している。 関連する研究は、アノテーションタスクの記述から感情検出ツールまで幅広い。 このような感情の可視化は、伝統的にバープロットやテーブルなど、最も一般的なレイアウトを使用して行われる。 このモデルにおける空間的近接は意味的近接であり、隣接する感情が一緒に引き起こされたときに複雑な感情(一次ダイナド)を誘発するのと同様に、空間的対立は意味的反対であり、ポジティブな感情は否定的な感情とは反対である。 最も一般的なレイアウトは両方の機能を保存できず、視覚的に異なるコーパス間の比較を目線で許可する必要性は言うまでもなく、基本的な設計ソリューションでは難しい。 PyPlutchikはPlutchikの感情をテキストやコーパスで可視化するように設計されたPythonライブラリである。 ピプルツチクは、コーパスでどれだけの感情が検出または注釈付けされたかの後に、それぞれの感情の花弁でプルツチクの花を描き、それぞれに3度の強さを表す。 特にPyPlutchikでは、ユーザーはコンパクトで直感的に、プライマリ、セカンダリ、セカンダリ、第三、反対のダイアドを表示できる。 我々は、PyPlutchikがPlutchikの感情を表示するときに、他の古典的な視覚よりも優れているという主張を裏付ける。

The increasing availability of textual corpora and data fetched from social networks is fuelling a huge production of works based on the model proposed by psychologist Robert Plutchik, often referred simply as the ``Plutchik Wheel''. Related researches range from annotation tasks description to emotions detection tools. Visualisation of such emotions is traditionally carried out using the most popular layouts, as bar plots or tables, which are however sub-optimal. The classic representation of the Plutchik's wheel follows the principles of proximity and opposition between pairs of emotions: spatial proximity in this model is also a semantic proximity, as adjacent emotions elicit a complex emotion (a primary dyad) when triggered together; spatial opposition is a semantic opposition as well, as positive emotions are opposite to negative emotions. The most common layouts fail to preserve both features, not to mention the need of visually allowing comparisons between different corpora in a blink of an eye, that is hard with basic design solutions. We introduce PyPlutchik, a Python library specifically designed for the visualisation of Plutchik's emotions in texts or in corpora. PyPlutchik draws the Plutchik's flower with each emotion petal sized after how much that emotion is detected or annotated in the corpus, also representing three degrees of intensity for each of them. Notably, PyPlutchik allows users to display also primary, secondary, tertiary and opposite dyads in a compact, intuitive way. We substantiate our claim that PyPlutchik outperforms other classic visualisations when displaying Plutchik emotions and we showcase a few examples that display our library's most compelling features.
翻訳日:2021-05-14 07:06:55 公開日:2021-04-19
# NeRD:ニューラル3次元反射対称性検出器

NeRD: Neural 3D Reflection Symmetry Detector ( http://arxiv.org/abs/2105.03211v1 )

ライセンス: Link先を確認
Yichao Zhou, Shichen Liu, Yi Ma(参考訳) 近年の進歩は、ほとんどの物体が示す構造的先行性である対称性が、様々な単一視点の3D理解タスクをサポートすることを示している。 しかし、画像から3次元対称性を検出することは難しい課題である。 以前の研究は対称性が与えられると仮定するか、ヒューリスティックな手法で対称性を検出する。 本稿では,物体の鏡面の通常の方向を正確に再現するために,学習に基づく認識と幾何に基づく再構成の強さを組み合わせたニューラル3次元反射対称性検出器NeRDを提案する。 具体的には、まず対称性面を粗い対極戦略で列挙し、次に3dコストボリュームを構築して、その対称性から画像内画素対応を調べることで最適な面を見つける。 実験により,本手法で検出した対称性平面は,合成および実世界の両方のデータセット上で直接CNN回帰から得られる平面よりも有意に精度が高いことがわかった。 また,検出された対称性をポーズ推定や深度マップ回帰といった下流タスクの性能向上に利用できることを示す。 本論文のコードはhttps://github.com/z hou13/nerd.comで公開されている。

Recent advances have shown that symmetry, a structural prior that most objects exhibit, can support a variety of single-view 3D understanding tasks. However, detecting 3D symmetry from an image remains a challenging task. Previous works either assume that the symmetry is given or detect the symmetry with a heuristic-based method. In this paper, we present NeRD, a Neural 3D Reflection Symmetry Detector, which combines the strength of learning-based recognition and geometry-based reconstruction to accurately recover the normal direction of objects' mirror planes. Specifically, we first enumerate the symmetry planes with a coarse-to-fine strategy and then find the best ones by building 3D cost volumes to examine the intra-image pixel correspondence from the symmetry. Our experiments show that the symmetry planes detected with our method are significantly more accurate than the planes from direct CNN regression on both synthetic and real-world datasets. We also demonstrate that the detected symmetry can be used to improve the performance of downstream tasks such as pose estimation and depth map regression. The code of this paper has been made public at https://github.com/z hou13/nerd.
翻訳日:2021-05-11 08:33:36 公開日:2021-04-19
# マルチモーダル目的に対する多目的進化アルゴリズムの理論的解析

Theoretical Analyses of Multi-Objective Evolutionary Algorithms on Multi-Modal Objectives ( http://arxiv.org/abs/2012.07231v3 )

ライセンス: Link先を確認
Benjamin Doerr, Weijie Zheng(参考訳) 先述した多目的進化アルゴリズムに関する理論は、主に一助的目的からなる簡単な問題を考える。 本稿では,進化的アルゴリズムがマルチモーダル多目的問題をどのように解決するかを理解するための第一歩を踏み出す。 本論文では,古典ジャンプ関数のベンチマークに単一目的が同型である単目的問題であるOneJumpZeroJump問題を提案する。 単純な進化的多目的最適化器 (SEMO) は完全なパレートフロントを計算できないことを示す。 対照的に、すべての問題サイズ~$n$とすべてのジャンプサイズに対して$k \in [4..\frac n21]$は、大域SEMO (GSEMO) がパレートフロントを$\Theta((n-2k)n^{k})$イテレーションでカバーする。 性能向上のため,gsemoと重畳型突然変異演算子とスタギネーション検出戦略の2つのアプローチを組み合わせることで,単一目的のマルチモーダル問題に有利性を示した。 どちらの戦略にも、漸近的順序の少なくとも$k^{\Omega(k)}$のランタイム改善が示されている。 我々の実験は、中程度の問題サイズで既に実行時のゲインを検証する。 これらの結果から,最近開発された単目的進化アルゴリズムのアイデアは,多目的最適化においても有効に活用できることが示唆された。

Previous theory work on multi-objective evolutionary algorithms considers mostly easy problems that are composed of unimodal objectives. This paper takes a first step towards a deeper understanding of how evolutionary algorithms solve multi-modal multi-objective problems. We propose the OneJumpZeroJump problem, a bi-objective problem whose single objectives are isomorphic to the classic jump functions benchmark. We prove that the simple evolutionary multi-objective optimizer (SEMO) cannot compute the full Pareto front. In contrast, for all problem sizes~$n$ and all jump sizes $k \in [4..\frac n2 - 1]$, the global SEMO (GSEMO) covers the Pareto front in $\Theta((n-2k)n^{k})$ iterations in expectation. To improve the performance, we combine the GSEMO with two approaches, a heavy-tailed mutation operator and a stagnation detection strategy, that showed advantages in single-objective multi-modal problems. Runtime improvements of asymptotic order at least $k^{\Omega(k)}$ are shown for both strategies. Our experiments verify the {substantial} runtime gains already for moderate problem sizes. Overall, these results show that the ideas recently developed for single-objective evolutionary algorithms can be effectively employed also in multi-objective optimization.
翻訳日:2021-05-08 14:22:17 公開日:2021-04-19
# 深層学習に基づく非分割型心電図スペクトログラムの分類

Deep Learning Based Classification of Unsegmented Phonocardiogram Spectrograms Leveraging Transfer Learning ( http://arxiv.org/abs/2012.08406v3 )

ライセンス: Link先を確認
Kaleem Nawaz Khan, Faiq Ahmad Khan, Anam Abid, Tamer Olmez, Zumray Dokur, Amith Khandakar, Muhammad E. H. Chowdhury, Muhammad Salman Khan(参考訳) 心臓血管疾患(CVD)は、世界中の死因である。 心臓の大腿骨は聴診過程において最もよく検出される異常である。 広く使われている2つの心電図(PCG)データセットは、PhyloNet/CinC (2016) とPASCAL (2011) の課題に由来する。 データセットは、データ取得、臨床プロトコル、デジタルストレージ、信号品質に使用されるツールによって大きく異なるため、処理と分析が難しい。 本研究では,短時間フーリエ変換(stft)に基づくスペクトログラムを用いて,正常および異常なpcg信号の代表パターンを学習した。 両方のデータセットから生成されたスペクトログラムを使用して、3つの異なる研究を行う: (i) PhysioNetデータセットを用いた畳み込みニューラルネットワーク(CNN)モデルの異なる変種を訓練、検証、テストし、 (ii) PhysioNet-PASCALデータセットの組み合わせによる最高のCNN構造を検証する。 本稿では、PhyloNetとPASCALデータセットの分類のための新しい、より複雑で比較的軽量なカスタムCNNモデルを提案する。 第1の研究では、正確性、感度、特異性、正確性、f1スコアは95.4%、96.3%、92.4%、97.6%、96.98%、第2の研究では94.2%、95.5%、90.3%、96.8%、96.1%である。 最後に、第3の研究では、転送学習アプローチによるノイズの多いPASCALデータセットにおいて、98.29%の精度を示す。 提案した3つのアプローチは、比較的高い分類精度と精度を達成し、PCG信号を用いたCVDのスクリーニングに適している。

Cardiovascular diseases (CVDs) are the main cause of deaths all over the world. Heart murmurs are the most common abnormalities detected during the auscultation process. The two widely used publicly available phonocardiogram (PCG) datasets are from the PhysioNet/CinC (2016) and PASCAL (2011) challenges. The datasets are significantly different in terms of the tools used for data acquisition, clinical protocols, digital storages and signal qualities, making it challenging to process and analyze. In this work, we have used short-time Fourier transform (STFT) based spectrograms to learn the representative patterns of the normal and abnormal PCG signals. Spectrograms generated from both the datasets are utilized to perform three different studies: (i) train, validate and test different variants of convolutional neural network (CNN) models with PhysioNet dataset, (ii) train, validate and test the best performing CNN structure on combined PhysioNet-PASCAL dataset and (iii) finally, transfer learning technique is employed to train the best performing pre-trained network from the first study with PASCAL dataset. We propose a novel, less complex and relatively light custom CNN model for the classification of PhysioNet, combined and PASCAL datasets. The first study achieves an accuracy, sensitivity, specificity, precision and F1 score of 95.4%, 96.3%, 92.4%, 97.6% and 96.98% respectively while the second study shows accuracy, sensitivity, specificity, precision and F1 score of 94.2%, 95.5%, 90.3%, 96.8% and 96.1% respectively. Finally, the third study shows a precision of 98.29% on the noisy PASCAL dataset with transfer learning approach. All the three proposed approaches outperform most of the recent competing studies by achieving comparatively high classification accuracy and precision, which make them suitable for screening CVDs using PCG signals.
翻訳日:2021-05-07 05:36:33 公開日:2021-04-19
# (参考訳) Federated Word2Vec: フェデレーション学習を活用して協調表現学習を促進する [全文訳有]

Federated Word2Vec: Leveraging Federated Learning to Encourage Collaborative Representation Learning ( http://arxiv.org/abs/2105.00831v1 )

ライセンス: CC BY 4.0
Daniel Garcia Bernal, Lodovico Giaretta, Sarunas Girdzijauskas, Magnus Sahlgren(参考訳) 大規模文脈表現モデルは近年NLPを著しく進歩させており、テキストの意味を今まで見たことのない程度まで理解している。 しかし、高品質な結果を得るためには大量のデータを処理する必要がある。 プライバシーや規制上の理由から、複数のソースからこれらすべてのデータにアクセスすることは極めて難しい。 フェデレーション学習は、データを生成するデバイスのハードウェアを活用することで、モデルを分散形式でトレーニングすることで、これらの制限を解決することができる。 フェデレートラーニングプロトコルを用いて,NLPモデルのトレーニング,特にWord2Vecの実現可能性を示す。 特に私たちは、少数の組織がそれぞれ比較的大きなコーパスを持っているというシナリオに注目しています。 その結果, フェデレートされたWord2Vecは, 集中型Word2Vecに比べて, 結果の質や収束時間が劣化しないことがわかった。

Large scale contextual representation models have significantly advanced NLP in recent years, understanding the semantics of text to a degree never seen before. However, they need to process large amounts of data to achieve high-quality results. Joining and accessing all these data from multiple sources can be extremely challenging due to privacy and regulatory reasons. Federated Learning can solve these limitations by training models in a distributed fashion, taking advantage of the hardware of the devices that generate the data. We show the viability of training NLP models, specifically Word2Vec, with the Federated Learning protocol. In particular, we focus on a scenario in which a small number of organizations each hold a relatively large corpus. The results show that neither the quality of the results nor the convergence time in Federated Word2Vec deteriorates as compared to centralised Word2Vec.
翻訳日:2021-05-06 07:08:51 公開日:2021-04-19
# 汎用会話知能のためのリンク文法を用いた自然言語生成

Natural Language Generation Using Link Grammar for General Conversational Intelligence ( http://arxiv.org/abs/2105.00830v1 )

ライセンス: Link先を確認
Vignav Ramesh, Anton Kolonin(参考訳) 現在の人工知能(agi)や自然言語処理(nlp)アーキテクチャの多くは、一般的な会話知性を持っていない。つまり、言語を扱わないか、あるいはテンプレートベースのカスタマイズのような手作業集約的な手法を使わずに、人間の言語に似た形で知識を伝達できないかのどちらかである。 本稿では,リンク文法データベースを用いて文法的に有効な文を自動的に生成する手法を提案する。 この自然言語生成方法は、現在最先端のベースラインをはるかに上回り、自然言語素材を理解できるAGI質問応答パイプラインの最終コンポーネントとして機能する。

Many current artificial general intelligence (AGI) and natural language processing (NLP) architectures do not possess general conversational intelligence--that is, they either do not deal with language or are unable to convey knowledge in a form similar to the human language without manual, labor-intensive methods such as template-based customization. In this paper, we propose a new technique to automatically generate grammatically valid sentences using the Link Grammar database. This natural language generation method far outperforms current state-of-the-art baselines and may serve as the final component in a proto-AGI question answering pipeline that understandably handles natural language material.
翻訳日:2021-05-04 20:44:00 公開日:2021-04-19
# (参考訳) CMSオープンデータを用いたトップクォークのエンド・ツー・エンドジェット分類 [全文訳有]

End-to-End Jet Classification of Boosted Top Quarks with the CMS Open Data ( http://arxiv.org/abs/2104.14659v1 )

ライセンス: CC BY 4.0
Michael Andrews, Bjorn Burkle, Yi-fan Chen, Davide DiCroce, Sergei Gleyzer, Ulrich Heintz, Meenakshi Narain, Manfred Paulini, Nikolas Pervan, Yusef Shafi, Wei Sun, Kun Yang(参考訳) 本研究は,光クォークやグルーオンのハドロン化を起因とするジェットからトップクォークを誘導するジェットを識別するタスクへのエンドツーエンドディープラーニング技術の新たな応用について述べる。 エンドツーエンドのディープラーニング技術は、ディープラーニングアルゴリズムと高エネルギー衝突イベントの低レベル検出器表現を組み合わせる。 本研究では,cmsオープンデータサンプルからの低レベル検出器情報を用いて,トップジェット分類器を構成する。 分類器の性能を最適化するために, 画素検出器を再構築したヒットや衝突パラメータを含むCMS追跡検出器からの低レベル情報を段階的に追加し, 新たな空間構造が加えられなくても追加追跡情報の価値を示す。 温度計のエネルギー蓄積と再構成されたピクセル検出器のヒットにのみ依存し、アップクォークジェットを分類するタスクにおいて、エンドツーエンドの分類器はAUCスコア0.975$\pm$0.002を達成する。 派生トラック量を加えた後、AUCスコアは0.9824$\pm$0.0013に上昇し、これらのCMS Open Dataサンプルの最初のパフォーマンスベンチマークとなった。 さらに、ネットワークをトレーニングするための異なるプロセッサユニットアーキテクチャのタイミング性能比較も提供する。

We describe a novel application of the end-to-end deep learning technique to the task of discriminating top quark-initiated jets from those originating from the hadronization of a light quark or a gluon. The end-to-end deep learning technique combines deep learning algorithms and low-level detector representation of the high-energy collision event. In this study, we use low-level detector information from the simulated CMS Open Data samples to construct the top jet classifiers. To optimize classifier performance we progressively add low-level information from the CMS tracking detector, including pixel detector reconstructed hits and impact parameters, and demonstrate the value of additional tracking information even when no new spatial structures are added. Relying only on calorimeter energy deposits and reconstructed pixel detector hits, the end-to-end classifier achieves an AUC score of 0.975$\pm$0.002 for the task of classifying boosted top quark jets. After adding derived track quantities, the classifier AUC score increases to 0.9824$\pm$0.0013, serving as the first performance benchmark for these CMS Open Data samples. We additionally provide a timing performance comparison of different processor unit architectures for training the network.
翻訳日:2021-05-04 05:38:57 公開日:2021-04-19
# 深い畳み込みガウス混合モデルによる画像モデリング

Image Modeling with Deep Convolutional Gaussian Mixture Models ( http://arxiv.org/abs/2104.12686v1 )

ライセンス: Link先を確認
Alexander Gepperth, Benedikt Pf\"ulb(参考訳) 本稿では,特に画像の記述・生成に適した深層階層型ガウス混合モデル(GMM)の新たな定式化として,深部畳み込みガウス混合モデル(DCGMM)を提案する。 バニラ(フラット)のGMMは画像を記述するのに非常に多くのコンポーネントを必要とし、長いトレーニング時間とメモリの問題を引き起こす。 DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。 これにより、ディープCNNと同じように、画像の合成性を活用できる。 DCGMMはStochastic Gradient Descentによってエンドツーエンドでトレーニングすることができる。 これにより、期待-最大化によって訓練されたバニラGMMとは分離され、層構造では不可能なk平均初期化が要求される。 dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。 MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示す。

In this conceptual work, we present Deep Convolutional Gaussian Mixture Models (DCGMMs): a new formulation of deep hierarchical Gaussian Mixture Models (GMMs) that is particularly suitable for describing and generating images. Vanilla (i.e., flat) GMMs require a very large number of components to describe images well, leading to long training times and memory issues. DCGMMs avoid this by a stacked architecture of multiple GMM layers, linked by convolution and pooling operations. This allows to exploit the compositionality of images in a similar way as deep CNNs do. DCGMMs can be trained end-to-end by Stochastic Gradient Descent. This sets them apart from vanilla GMMs which are trained by Expectation-Maximiza tion, requiring a prior k-means initialization which is infeasible in a layered structure. For generating sharp images with DCGMMs, we introduce a new gradient-based technique for sampling through non-invertible operations like convolution and pooling. Based on the MNIST and FashionMNIST datasets, we validate the DCGMMs model by demonstrating its superiority over flat GMMs for clustering, sampling and outlier detection.
翻訳日:2021-05-03 19:48:34 公開日:2021-04-19
# 肺炎胸部X線画像の理解を深めた説明可能なAIに向けた対話型新しい手法

A Novel Interaction-based Methodology Towards Explainable AI with Better Understanding of Pneumonia Chest X-ray Images ( http://arxiv.org/abs/2104.12672v1 )

ライセンス: Link先を確認
Shaw-Hwa Lo, Yiqiao Yin(参考訳) eXplainable AI(XAI)の分野では、畳み込みニューラルネットワーク(CNN)のようなロバストな 'blackbox'' アルゴリズムが高い予測性能で知られている。 しかし、これらのアルゴリズムを説明し、解釈する能力は、予測性能に直接的または間接的に影響を及ぼす、影響力のある、そしてより重要な説明可能な機能を理解するのに革新を必要とする。 文献に存在する多くの手法は可視化技術に重点を置いているが、説明可能性と解釈可能性の概念は厳密な定義を必要とする。 そこで本稿では, 画像中のノイズや非インフォーマティブな変数を抽出し, 特徴予測に直接関連した説明可能な, 解釈可能な特徴を持つ環境を育む, インタラクションベースの方法論であるインフルエンススコア(Iスコア)を提案する。 提案手法をPneumonia Chest X-ray Imageデータセットに実世界の応用に適用し,その成果を報告する。 本稿では,より一般的なビッグデータ問題に対して,予測性能を犠牲にすることなく,説明可能性と解釈可能性を改善することにより,提案手法を適用する方法を示す。 本論文の貢献により,XAI問題の今後のパイプラインにコミュニティを近づける新たなアングルが開かれる。

In the field of eXplainable AI (XAI), robust ``blackbox'' algorithms such as Convolutional Neural Networks (CNNs) are known for making high prediction performance. However, the ability to explain and interpret these algorithms still require innovation in the understanding of influential and, more importantly, explainable features that directly or indirectly impact the performance of predictivity. A number of methods existing in literature focus on visualization techniques but the concepts of explainability and interpretability still require rigorous definition. In view of the above needs, this paper proposes an interaction-based methodology -- Influence Score (I-score) -- to screen out the noisy and non-informative variables in the images hence it nourishes an environment with explainable and interpretable features that are directly associated to feature predictivity. We apply the proposed method on a real world application in Pneumonia Chest X-ray Image data set and produced state-of-the-art results. We demonstrate how to apply the proposed approach for more general big data problems by improving the explainability and interpretability without sacrificing the prediction performance. The contribution of this paper opens a novel angle that moves the community closer to the future pipelines of XAI problems.
翻訳日:2021-05-03 19:48:04 公開日:2021-04-19
# 畳み込みニューラルネットワークの株式市場トレンド識別への応用

Applying Convolutional Neural Networks for Stock Market Trends Identification ( http://arxiv.org/abs/2104.13948v1 )

ライセンス: Link先を確認
Ekaterina Zolotareva(参考訳) 本稿では、市場への参入と離脱の最適なポイントであるトレンドの開始と終端を見つける問題に対して、特定のタイプのANN(畳み込みニューラルネットワーク(CNN))を適用する。 私たちは、数日ではなく数ヶ月続く長期的なトレンドを探求することを目指している。 我々のモデルの主な違いは、そのラベルが専門家の意見データに基づくものであることです。 株価データのみに基づくさまざまなモデルにもかかわらず、一部の市場専門家はトレーダーが隠れた機会を見ることができると主張している。 ラベル付けはGUIインターフェースを通じて行われ、専門家は数値データではなく画像を直接処理した。 この事実により、CNNはアルゴリズムの自然な選択となる。 提案フレームワークは3つのCNNサブモデルの逐次的相互作用を必要とし、ウィンドウ内の変更点の存在を特定し、それを特定し、最終的に新しい傾向のタイプ(上向き、下向き、フラット)を認識する。 これらのサブモデルにはある種の落とし穴があるため、ハイパーパラメータの校正がさらなる研究の主要な方向である。 この研究は、不均衡データセットや矛盾するラベルといった問題や、実用的な適用性を維持するための特定の品質指標の必要性に対処している。 本論文は,第20回人工知能・ソフトコンピューティングWebシステム国際会議(ICAISC 2021)で発表された研究の全文である。

In this paper we apply a specific type ANNs - convolutional neural networks (CNNs) - to the problem of finding start and endpoints of trends, which are the optimal points for entering and leaving the market. We aim to explore long-term trends, which last several months, not days. The key distinction of our model is that its labels are fully based on expert opinion data. Despite the various models based solely on stock price data, some market experts still argue that traders are able to see hidden opportunities. The labelling was done via the GUI interface, which means that the experts worked directly with images, not numerical data. This fact makes CNN the natural choice of algorithm. The proposed framework requires the sequential interaction of three CNN submodels, which identify the presence of a changepoint in a window, locate it and finally recognize the type of new tendency - upward, downward or flat. These submodels have certain pitfalls, therefore the calibration of their hyperparameters is the main direction of further research. The research addresses such issues as imbalanced datasets and contradicting labels, as well as the need for specific quality metrics to keep up with practical applicability. This paper is the full text of the research, presented at the 20th International Conference on Artificial Intelligence and Soft Computing Web System (ICAISC 2021)
翻訳日:2021-05-03 19:46:39 公開日:2021-04-19
# Zeus: 強化学習を用いたビデオ中のアクションの効率よいローカライズ

Zeus: Efficiently Localizing Actions in Videos using Reinforcement Learning ( http://arxiv.org/abs/2104.06142v2 )

ライセンス: Link先を確認
Pramod Chunduri, Jaeho Bang, Yao Lu, Joy Arulraj(参考訳) ビデオ中のアクションの検出とローカライズは、実際に重要な問題である。 交通アナリストは、車両が所定の交差点で移動するパターンを研究することに興味があるかもしれない。 最先端のビデオ分析システムは、そのようなアクションクエリを効率的かつ効果的に答えることができない。 理由は3つある。 まず、アクション検出とローカライゼーションタスクは計算に高価なディープニューラルネットワークを必要とする。 第2に、アクションはしばしばまれなイベントです。 第3に、アクションは一連のフレームに分散されます。 クエリを効果的に応答するためには、フレームのシーケンス全体をコンテキストにまとめることが重要です。 ビデオの無関係な部分を素早くスキップして、アクションクエリに効率的に答えることが重要です。 本稿では,アクションクエリに応答するビデオ分析システムzeusについて述べる。 深層強化学習エージェントを用いて,これらの問合せを効率的に答える新しい手法を提案する。 Zeusは、入力ビデオセグメントをアクション分類ネットワークに適応的に変更することを学ぶエージェントを訓練する。 エージェントは、サンプリングレート、セグメント長、解像度の3次元に沿って入力セグメントを変更する。 効率性に加えて、zeusは、精度を意識した報酬関数に基づいてエージェントをトレーニングするクエリオプティマイザを使用して、ユーザ指定のターゲット精度でクエリに応答することができる。 新たなアクションローカライゼーションデータセットを用いたゼウスの評価では,最先端のフレームベースとウィンドウベースをそれぞれ1.4倍,3倍に向上した。 さらに、フレームベースの手法とは異なり、フレームベースの手法よりも最大2倍高い精度で、全クエリでユーザ指定のターゲット精度を満たす。

Detection and localization of actions in videos is an important problem in practice. A traffic analyst might be interested in studying the patterns in which vehicles move at a given intersection. State-of-the-art video analytics systems are unable to efficiently and effectively answer such action queries. The reasons are threefold. First, action detection and localization tasks require computationally expensive deep neural networks. Second, actions are often rare events. Third, actions are spread across a sequence of frames. It is important to take the entire sequence of frames into context for effectively answering the query. It is critical to quickly skim through the irrelevant parts of the video to answer the action query efficiently. In this paper, we present Zeus, a video analytics system tailored for answering action queries. We propose a novel technique for efficiently answering these queries using a deep reinforcement learning agent. Zeus trains an agent that learns to adaptively modify the input video segments to an action classification network. The agent alters the input segments along three dimensions -- sampling rate, segment length, and resolution. Besides efficiency, Zeus is capable of answering the query at a user-specified target accuracy using a query optimizer that trains the agent based on an accuracy-aware reward function. Our evaluation of Zeus on a novel action localization dataset shows that it outperforms the state-of-the-art frame- and window-based techniques by up to 1.4x and 3x, respectively. Furthermore, unlike the frame-based technique, it satisfies the user-specified target accuracy across all the queries, at up to 2x higher accuracy, than frame-based methods.
翻訳日:2021-05-03 19:41:21 公開日:2021-04-19
# (参考訳) 脳損傷基準と頭部障害の種類による脳ひずみの関係は異なる可能性がある [全文訳有]

Relationship between brain injury criteria and brain strain across different types of head impacts can be different ( http://arxiv.org/abs/2012.10006v3 )

ライセンス: CC BY 4.0
Xianghao Zhan, Yiheng Li, Yuzhe Liu, August G. Domel, Hossein Vahid Alizadeh, Samuel J. Raymond, Jesse Ruan, Saeed Barbat, Stephen Tiernan, Olivier Gevaert, Michael Zeineh, Gerald Grant, David B. Camarillo(参考訳) 複数の脳損傷基準(bic)が開発され、頭部衝突後の脳損傷リスクを迅速に定量化することができる。 これらのBICは、様々なタイプの頭部衝突(例えばスポーツや自動車事故)がリスク評価に広く用いられていることに由来する。 しかし,脳損傷リスク評価におけるBICの精度は,異なる種類の頭部衝撃に対して評価されていない。 生理学的には、脳のひずみはしばしば脳損傷の重要なパラメータとみなされる。 ヘッドインパクトタイプが異なる5つのデータセットにおけるbicのリスク推定精度を評価するために、リニアレグレッションを用いて、各18 bicに対して95%の最大主ひずみ、95%のコーパスカルボサムにおける最大主ひずみ、および累積ひずみ損傷(15%)をそれぞれモデル化した。 その結果、データセット間でのBICと脳のひずみの関係は有意な差を示し、同じBIC値が、異なる脳の衝撃タイプで異なる脳のひずみを示す可能性が示唆された。 脳ひずみ回帰の精度は、BIC回帰モデルが同じタイプのデータセットではなく、異なるタイプの頭部インパクトを持つデータセットに適合している場合、一般的に低下している。 この知見を踏まえて,本研究は,bicが発達した頭部衝撃と異なる頭部衝撃に対する脳損傷リスクを推定するためにbicを適用することについての懸念を提起する。

Multiple brain injury criteria (BIC) are developed to quickly quantify brain injury risks after head impacts. These BIC originated from different types of head impacts (e.g., sports and car crashes) are widely used in risk evaluation. However, the accuracy of using the BIC on brain injury risk estimation across different types of head impacts has not been evaluated. Physiologically, brain strain is often considered the key parameter of brain injury. To evaluate the BIC's risk estimation accuracy across five datasets comprising different head impact types, linear regression was used to model 95% maximum principal strain, 95% maximum principal strain at the corpus callosum, and cumulative strain damage (15%) on each of 18 BIC respectively. The results show a significant difference in the relationship between BIC and brain strain across datasets, indicating the same BIC value may suggest different brain strain in different head impact types. The accuracy of brain strain regression is generally decreasing if the BIC regression models are fit on a dataset with a different type of head impact rather than on the dataset with the same type. Given this finding, this study raises concerns for applying BIC to estimate the brain injury risks for head impacts different from the head impacts on which the BIC was developed.
翻訳日:2021-05-02 04:33:29 公開日:2021-04-19
# Blended Abstract Semantics を用いた部分プログラムの表現

Representing Partial Programs with Blended Abstract Semantics ( http://arxiv.org/abs/2012.12964v2 )

ライセンス: Link先を確認
Maxwell Nye, Yewen Pu, Matthew Bowers, Jacob Andreas, Joshua B. Tenenbaum, Armando Solar-Lezama(参考訳) プログラムを例から合成するには、可能なプログラムの広大な組合せ空間を探索する必要がある。 この探索プロセスでは、実行前に部分的に記述されたプログラムの動作を表現し、それが正しいトラック上にあるかどうかを判断し、次に検索する場所を予測することが重要な課題である。 本稿では,プログラム合成エンジンにおいて,部分記述されたプログラムを表現する一般的な手法を提案する。 我々は,未完成のプログラムが最終的に目標仕様を満たすかどうかを近似実行モデルを用いて判断する,抽象解釈の手法から着想を得た。 ここでは,モジュール型ニューラルネットワークとして実装された近似実行モデルを学ぶ。 プログラミング言語の解釈セマンティクスを暗黙的にエンコードする構成的プログラム表現を構築することにより、具体的セマンティクスが知られていない場合(プログラムの未完成部分)に学習された近似セマンティクスを用いて、具体的な実行状態と学習されたニューラル表現の柔軟な組み合わせを用いて部分的プログラムを表現することができる。 これらのハイブリッドなニューラルシンボリック表現により、ループや高次関数といったより強力な言語構造を実装でき、複数のドメインにおける純粋なニューラルアプローチよりも、与えられた探索予算に対してプログラムをより正確に合成することができる。

Synthesizing programs from examples requires searching over a vast, combinatorial space of possible programs. In this search process, a key challenge is representing the behavior of a partially written program before it can be executed, to judge if it is on the right track and predict where to search next. We introduce a general technique for representing partially written programs in a program synthesis engine. We take inspiration from the technique of abstract interpretation, in which an approximate execution model is used to determine if an unfinished program will eventually satisfy a goal specification. Here we learn an approximate execution model implemented as a modular neural network. By constructing compositional program representations that implicitly encode the interpretation semantics of the underlying programming language, we can represent partial programs using a flexible combination of concrete execution state and learned neural representations, using the learned approximate semantics when concrete semantics are not known (in unfinished parts of the program). We show that these hybrid neuro-symbolic representations enable execution-guided synthesizers to use more powerful language constructs, such as loops and higher-order functions, and can be used to synthesize programs more accurately for a given search budget than pure neural approaches in several domains.
翻訳日:2021-04-25 18:16:53 公開日:2021-04-19
# (参考訳) 中国株式市場の実証的研究に基づくポートフォリオ管理のための深層強化学習 [全文訳有]

Deep reinforcement learning for portfolio management based on the empirical study of chinese stock market ( http://arxiv.org/abs/2012.13773v4 )

ライセンス: CC BY 4.0
Gang Huang, Xiaohua Zhou, Qingyang Song(参考訳) 文書によると、ポートフォリオ最適化のための継続的なアクション空間におけるショート機構を備えた完全な人工知能フレームワークは存在しない。 本研究の目的は,現在の最先端技術である深層強化学習がポートフォリオ管理に適用可能であることを検証し,人工知能の実現を支援することである。 既存のDeep Reinforcement Learning Portfolioモデルを改善し、多くのイノベーションを生み出します。 離散的取引信号に関する従来の多くの研究とは異なり、ポートフォリオ最適化のための連続的な行動空間においてエージェントを短くする。 さらに,仲裁価格理論に基づく仲裁機構を設計し,行動ベクトル獲得のための活性化関数を再設計する。 さらに,画像データを処理するディープニューラルネットワークを参考に,強化学習のためのニューラルネットの再設計を行った。 実験では、市場のリターン率を表すCSI300や、ランダムに選択されたCSI500の構成成分など、ランダムに選択されたポートフォリオにモデルを使用。 実験の結果、ポートフォリオにどんな株を選んでも、常に市場自体よりも高いリターンを得ることができ、すなわち、深い強化学習を通じて人工知能が市場を打破できることを示している。

According to documents, there has not been a completely artificial intelligence framework with shorting mechanism in continuous action space for portfolio optimization. The objective of this paper is to verify that current cutting-edge technology, deep reinforcement learning, can be applied to portfolio management, and help us get artificial intelligence. We improve on the existing Deep Reinforcement Learning Portfolio model and make many innovations. Unlike many previous studies on discrete trading signals, we make the agent to short in a continuous action space for portfolio optimization. In addition, we design an arbitrage mechanism based on Arbitrage Pricing Theory, and redesign the activation function for acquiring action vectors. Furthermore, we redesign neural networks for reinforcement learning with reference to deep neural networks that process image data. In experiments, we use our model in several randomly selected portfolios which include CSI300 that represents the market's rate of return and the randomly selected constituents of CSI500. The experimental results show that no matter what stocks we select in our portfolios, we can always get a higher return than the market itself, namely we can get artificial intelligence through deep reinforcement learning to defeat market.
翻訳日:2021-04-25 02:07:46 公開日:2021-04-19
# 適応確率ミラー降下における分散低減

Variance Reduction on Adaptive Stochastic Mirror Descent ( http://arxiv.org/abs/2012.13760v2 )

ライセンス: Link先を確認
Wenjie Li, Zhanyu Wang, Yichen Zhang, Guang Cheng(参考訳) 本研究では,非滑らかな非凸有限サム最適化問題における適応確率的ミラー降下アルゴリズムに適用する分散低減の考え方について検討する。 本稿では,svramd という分散低減手法を用いた簡易かつ一般化した適応ミラー降下アルゴリズムを提案し,その収束解析を異なる設定で提供する。 分散低減は、ほとんどの適応ミラー降下アルゴリズムのSFO複雑性を減少させ、それらの収束を加速させることを示す。 特に,本理論は,時間変化ステップサイズとアダグラードやrmspropなどの自己適応アルゴリズムを用いて分散還元をアルゴリズムに適用できることを示す。 さらに、SVRAMDの収束速度は、非適応分散還元ミラー降下アルゴリズムの最良の既存速度を回復する。 深層学習における実験を用いて,クレームの有効性を確認した。

In this work, we study the idea of variance reduction applied to adaptive stochastic mirror descent algorithms in the nonsmooth nonconvex finite-sum optimization problems. We propose a simple yet generalized adaptive mirror descent algorithm with variance reduction named SVRAMD and provide its convergence analysis in different settings. We prove that variance reduction reduces the SFO complexity of most adaptive mirror descent algorithms and accelerates their convergence. In particular, our general theory implies that variance reduction can be applied to algorithms using time-varying step sizes and self-adaptive algorithms such as AdaGrad and RMSProp. Moreover, the convergence rates of SVRAMD recover the best existing rates of non-adaptive variance reduced mirror descent algorithms. We check the validity of our claims using experiments in deep learning.
翻訳日:2021-04-25 01:15:50 公開日:2021-04-19
# (参考訳) 個人化半監督型フェデレーション学習による人間活動認識 [全文訳有]

Personalized Semi-Supervised Federated Learning for Human Activity Recognition ( http://arxiv.org/abs/2104.08094v2 )

ライセンス: CC BY 4.0
Claudio Bettini, Gabriele Civitarese, Riccardo Presotto(参考訳) ヒューマンアクティビティ認識(har)のための最も効果的なデータ駆動手法は、センサデータの連続ストリームに適用された教師あり学習に基づいている。 しかし、これらのメソッドは、完全にラベル付きデータセットがあるドメイン内の制限されたアクティビティセットでうまく機能する。 大規模実世界展開における異なる被験者間の活動実行の多種間および異種間性に対処することは依然として課題である。 harの半教師付き学習アプローチは、現実的な設定に必要な大量のラベル付きデータを取得するという課題に対処するために提案されている。 しかしながら、彼らの集中型アーキテクチャは、多数のユーザを含むプロセスにおいてスケーラビリティとプライバシの問題を引き起こします。 フェデレートラーニング(FL)はこれらの問題を解決するための有望なパラダイムです。 しかし、HARのために提案されたFL手法は、参加するユーザが常にローカルモデルをトレーニングするためのラベルを取得できると仮定する。 本稿では,半教師付き学習とフェデレーション学習を組み合わせたHARの新しいハイブリッド手法であるFedHARを提案する。 実際、feedharはアクティブな学習とラベルの伝達を組み合わせることで、ラベルのないセンサーデータのローカルストリームを半自動的に注釈付けし、スケーラブルでプライバシを意識した方法でグローバルなアクティビティモデルを構築するためにflに依存しています。 FedHARには、グローバルモデルをユーザ毎にパーソナライズするトランスファー学習戦略も含まれている。 提案手法を2つの公開データセット上で評価した結果,FedHARが認識率とパーソナライズ能力に到達したことを示す。 大きな利点として、FedHARは、事前訓練されたモデルに適応するために、非常に限られた数のアノテートデータと、システムの使用中に急速に減少する少数のアクティブな学習質問しか必要とせず、HARのデータ不足問題に対する効果的でスケーラブルなソリューションへと繋がる。

The most effective data-driven methods for human activities recognition (HAR) are based on supervised learning applied to the continuous stream of sensors data. However, these methods perform well on restricted sets of activities in domains for which there is a fully labeled dataset. It is still a challenge to cope with the intra- and inter-variability of activity execution among different subjects in large scale real world deployment. Semi-supervised learning approaches for HAR have been proposed to address the challenge of acquiring the large amount of labeled data that is necessary in realistic settings. However, their centralised architecture incurs in the scalability and privacy problems when the process involves a large number of users. Federated Learning (FL) is a promising paradigm to address these problems. However, the FL methods that have been proposed for HAR assume that the participating users can always obtain labels to train their local models. In this work, we propose FedHAR: a novel hybrid method for HAR that combines semi-supervised and federated learning. Indeed, FedHAR combines active learning and label propagation to semi-automatically annotate the local streams of unlabeled sensor data, and it relies on FL to build a global activity model in a scalable and privacy-aware fashion. FedHAR also includes a transfer learning strategy to personalize the global model on each user. We evaluated our method on two public datasets, showing that FedHAR reaches recognition rates and personalization capabilities similar to state-of-the-art FL supervised approaches. As a major advantage, FedHAR only requires a very limited number of annotated data to populate a pre-trained model and a small number of active learning questions that quickly decrease while using the system, leading to an effective and scalable solution for the data scarcity problem of HAR.
翻訳日:2021-04-24 15:08:22 公開日:2021-04-19
# (参考訳) 鏡視下画像分類における分布外検出 [全文訳有]

Out-of-Distribution Detection for Dermoscopic Image Classification ( http://arxiv.org/abs/2104.07819v2 )

ライセンス: CC BY 4.0
Mohammadreza Mohseni, Jordan Yap, William Yolland, Majid Razmara, M Stella Atkins(参考訳) 深層ニューラルネットワークによって医療画像診断が可能であり、疾患クラスごとに十分なトレーニングデータがある。 しかし、訓練中に遭遇しない未知の病気クラスは、低い確率で予測しても必然的に誤分類される。 この問題は医用画像診断において特に重要であり、特に皮膚鏡などの同一画像領域から画像が得られた場合に、被検者不明の疾患の画像が診断のために提示される。 現在の分布外検出アルゴリズムは、分布内クラスが不均衡な場合に不公平に動作し、トレーニングセットで最も多い疾患を選択する。 これは、しばしば医学的に重要なまれな症例の誤診につながる可能性がある。 そこで我々は,神経ネットワークを訓練する新しい手法を開発し,皮膚疾患の画像の分布を分類し,検査時に皮膚内視鏡画像から新たな疾患を検出する。 提案手法は,データのバランスが取れない場合の分類バランスのよい精度を損なうだけでなく,バランスの取れた精度を一貫して向上させる。 また,実環境において発生する可能性のある多種多様な分散データの存在に基づいて,分散検出手法の有効性を検討するための重要な手法を提案する。

Medical image diagnosis can be achieved by deep neural networks, provided there is enough varied training data for each disease class. However, a hitherto unknown disease class not encountered during training will inevitably be misclassified, even if predicted with low probability. This problem is especially important for medical image diagnosis, when an image of a hitherto unknown disease is presented for diagnosis, especially when the images come from the same image domain, such as dermoscopic skin images. Current out-of-distribution detection algorithms act unfairly when the in-distribution classes are imbalanced, by favouring the most numerous disease in the training sets. This could lead to false diagnoses for rare cases which are often medically important. We developed a novel yet simple method to train neural networks, which enables them to classify in-distribution dermoscopic skin disease images and also detect novel diseases from dermoscopic images at test time. We show that our BinaryHeads model not only does not hurt classification balanced accuracy when the data is imbalanced, but also consistently improves the balanced accuracy. We also introduce an important method to investigate the effectiveness of out-of-distribution detection methods based on presence of varying amounts of out-of-distribution data, which may arise in real-world settings.
翻訳日:2021-04-24 14:43:13 公開日:2021-04-19
# (参考訳) TalkNet 2: 明示的ピッチと継続時間予測を用いた音声合成のための非自己回帰深度分離畳み込みモデル [全文訳有]

TalkNet 2: Non-Autoregressive Depth-Wise Separable Convolutional Model for Speech Synthesis with Explicit Pitch and Duration Prediction ( http://arxiv.org/abs/2104.08189v2 )

ライセンス: CC BY 4.0
Stanislav Beliaev, Boris Ginsburg(参考訳) 本研究では,音声合成のための非自己回帰畳み込みニューラルモデルであるTalkNetを提案する。 モデルは3つのフィードフォワード畳み込みネットワークで構成される。 第1のネットワークは、グラフ化期間を予測する。 予測期間に応じて各シンボルを繰り返して入力テキストを拡張する。 第2のネットワークは、メルフレーム毎にピッチ値を予測する。 第3のネットワークは、予測ピッチに条件付き拡張テキストからメルスペクトルを生成する。 すべてのネットワークは1次元奥行き分離可能な畳み込み構造に基づいている。 明示的な持続時間予測は、単語のスキップと繰り返しを排除する。 生成された音声の品質は、最も優れた自動回帰モデルとほぼ一致している - LJSpeechデータセットでトレーニングされたTalkNetは、MOS4.08を得た。 このモデルは13.2Mパラメータしか持たず、現在の最先端のテキスト音声モデルより約2倍少ない。 非自己回帰アーキテクチャは、高速なトレーニングと推論を可能にし、リアルタイムよりも422倍高速である。 小型モデルのサイズと高速推論により、TalkNetは組込み音声合成の魅力的な候補となる。

We propose TalkNet, a non-autoregressive convolutional neural model for speech synthesis with explicit pitch and duration prediction. The model consists of three feed-forward convolutional networks. The first network predicts grapheme durations. An input text is expanded by repeating each symbol according to the predicted duration. The second network predicts pitch value for every mel frame. The third network generates a mel-spectrogram from the expanded text conditioned on predicted pitch. All networks are based on 1D depth-wise separable convolutional architecture. The explicit duration prediction eliminates word skipping and repeating. The quality of the generated speech nearly matches the best auto-regressive models - TalkNet trained on the LJSpeech dataset got MOS4.08. The model has only 13.2M parameters, almost 2x less than the present state-of-the-art text-to-speech models. The non-autoregressive architecture allows for fast training and inference - 422x times faster than real-time. The small model size and fast inference make the TalkNet an attractive candidate for embedded speech synthesis.
翻訳日:2021-04-24 14:30:02 公開日:2021-04-19
# (参考訳) 共形p値を持つ外れ値の検定

Testing for Outliers with Conformal p-values ( http://arxiv.org/abs/2104.08279v2 )

ライセンス: CC BY 4.0
Stephen Bates, Emmanuel Cand\`es, Lihua Lei, Yaniv Romano, Matteo Sesia(参考訳) 本稿では,非パラメトリック外乱検出のためのp値の構成について検討する。 目標は、新しい独立したサンプルが参照データセットと同じ分布に属しているかどうかをテストすることである。 そこで本論文では,p-値が有意であるが,異なるテストポイントに対して互いに依存する,広く適用可能なフレームワークである共形推論に基づく解を提案する。 これらのp値が正に依存していることが証明され、比較的弱い限界意味でも正確な発見率制御が可能となる。 次に、異なるテストポイントに対して、トレーニングデータ上で条件付きかつ互いに独立に有効なp値を計算する新しい方法を導入する。 我々の結果は、有限サンプル保証を確立するために組合せ論よりも集中不等式を利用するため、古典的な共形推論から逸脱する。 さらに,本手法は,任意の外乱検出アルゴリズムの偽陽性率に対して,その生統計に適用されるしきい値の関数として均一な信頼度を与える。 最後に,実データおよびシミュレーションデータの数値実験により,結果の妥当性を実証した。

This paper studies the construction of p-values for nonparametric outlier detection, taking a multiple-testing perspective. The goal is to test whether new independent samples belong to the same distribution as a reference data set or are outliers. We propose a solution based on conformal inference, a broadly applicable framework which yields p-values that are marginally valid but mutually dependent for different test points. We prove these p-values are positively dependent and enable exact false discovery rate control, although in a relatively weak marginal sense. We then introduce a new method to compute p-values that are both valid conditionally on the training data and independent of each other for different test points; this paves the way to stronger type-I error guarantees. Our results depart from classical conformal inference as we leverage concentration inequalities rather than combinatorial arguments to establish our finite-sample guarantees. Furthermore, our techniques also yield a uniform confidence bound for the false positive rate of any outlier detection algorithm, as a function of the threshold applied to its raw statistics. Finally, the relevance of our results is demonstrated by numerical experiments on real and simulated data.
翻訳日:2021-04-24 14:20:16 公開日:2021-04-19
# 科学計算のためのランダム化アルゴリズム(RASC)

Randomized Algorithms for Scientific Computing (RASC) ( http://arxiv.org/abs/2104.11079v1 )

ライセンス: Link先を確認
Aydin Buluc, Tamara G. Kolda, Stefan M. Wild, Mihai Anitescu, Anthony DeGennaro, John Jakeman, Chandrika Kamath, Ramakrishnan (Ramki) Kannan, Miles E. Lopes, Per-Gunnar Martinsson, Kary Myers, Jelani Nelson, Juan M. Restrepo, C. Seshadhri, Draguna Vrabie, Brendt Wohlberg, Stephen J. Wright, Chao Yang, Peter Zwart(参考訳) ランダム化されたアルゴリズムは、人工知能の進歩を推進し、AI for Scienceの進歩における基礎研究領域を表している。 気候科学、天体物理学、融合、先端材料、燃焼、量子コンピューティングなどの分野における将来の進歩には、複雑さ、堅牢性、スケーラビリティの課題を克服するためのランダム化アルゴリズムが必要である。 本報告は,そのワークショップ "randomized algorithms for scientific computing (rasc)" の結果を,2020年12月と2021年1月にほぼ4日間にわたって実施した。

Randomized algorithms have propelled advances in artificial intelligence and represent a foundational research area in advancing AI for Science. Future advancements in DOE Office of Science priority areas such as climate science, astrophysics, fusion, advanced materials, combustion, and quantum computing all require randomized algorithms for surmounting challenges of complexity, robustness, and scalability. This report summarizes the outcomes of that workshop, "Randomized Algorithms for Scientific Computing (RASC)," held virtually across four days in December 2020 and January 2021.
翻訳日:2021-04-23 13:48:12 公開日:2021-04-19
# 大学キャンパスにおけるWiFiインフラデータを用いた授業活動のモデル化

Modeling Classroom Occupancy using Data of WiFi Infrastructure in a University Campus ( http://arxiv.org/abs/2104.10667v1 )

ライセンス: Link先を確認
Iresha Pasquel Mohottige and Hassan Habibi Gharakheili and Vijay Sivaraman and Tim Moors(参考訳) 世界中の大学は入学者数が急増しているため、キャンパスの不動産管理者は教室スペースの使用を最適化するために出席パターンに関する継続的なデータを求めている。 その結果,様々なセンサ技術を用いて授業出席率を測定する傾向が強くなり,Wi-Fiインフラの普及が低コストな方法と見なされている。 密集したキャンパス環境では、隣接する部屋、屋外通路、ネットワーク負荷分散によって接続数が汚染されるため、接続WiFi利用者の数は部屋占有率を十分に見積もっていない。 本稿では,WiFiセンサのインフラから教室の占有度を推定する機械学習モデルを開発する。 1) apsのカバー範囲、wi-fi接続ユーザの行動、および部屋占有率推定の課題に対する洞察を得るために、数千のアクセスポイント(aps)からなる高密度でダイナミックな無線ネットワークからメタデータを解析し、(2)教師なしクラスタリングアルゴリズムを用いて教室にapをマップする手法を提案し、(3)様々なアルゴリズムの分類と回帰手法を組み合わせた教室占有度をモデル化する。 教室におけるAPのマッピング精度は84.6%であり, 部屋占有率の推定精度は, 対称平均絶対パーセンテージ誤差(sMAPE)が13.10%であるビームカウンタセンサに匹敵する。

Universities worldwide are experiencing a surge in enrollments, therefore campus estate managers are seeking continuous data on attendance patterns to optimize the usage of classroom space. As a result, there is an increasing trend to measure classrooms attendance by employing various sensing technologies, among which pervasive WiFi infrastructure is seen as a low cost method. In a dense campus environment, the number of connected WiFi users does not well estimate room occupancy since connection counts are polluted by adjoining rooms, outdoor walkways, and network load balancing. In this paper, we develop machine learning based models to infer classroom occupancy from WiFi sensing infrastructure. Our contributions are three-fold: (1) We analyze metadata from a dense and dynamic wireless network comprising of thousands of access points (APs) to draw insights into coverage of APs, behavior of WiFi connected users, and challenges of estimating room occupancy; (2) We propose a method to automatically map APs to classrooms using unsupervised clustering algorithms; and (3) We model classroom occupancy using a combination of classification and regression methods of varying algorithms. We achieve 84.6% accuracy in mapping APs to classrooms while the accuracy of our estimation for room occupancy is comparable to beam counter sensors with a symmetric Mean Absolute Percentage Error (sMAPE) of 13.10%.
翻訳日:2021-04-22 14:13:09 公開日:2021-04-19
# 変動性ターゲティングのための金融市場混合モデルとモデルフリーrlのための適応学習

Adaptive learning for financial markets mixing model-based and model-free RL for volatility targetting ( http://arxiv.org/abs/2104.10483v1 )

ライセンス: Link先を確認
Eric Benhamou and David Saltiel and Serge Tabachnik and Sui Kai Wong and Fran\c{c}ois Chareyron(参考訳) モデルフリー強化学習は安定した環境において有意義な成果を上げてきたが、今日でも金融市場のような環境の変化に問題がある。 対照的に、モデルベースのrlは環境の基本的な動的概念を捉えることができるが、認知バイアスに苦しむ。 本研究では,モデルフリーの深層強化学習により,モデルベースアプローチを選択することによって,この2つの手法の最良の組み合わせを提案する。 過去のパフォーマンスやボラティリティだけでなく、暗黙のレジームの変化を考慮したマクロやリスクに対する欲求といった追加のコンテキスト情報も使用しています。 また,トレーニングセットの過去のデータのみを考慮することで,従来のRL手法を現実の状況に適用する。 したがって、K-foldクロスバリデーションで示されるトレーニングデータセットでは、将来の情報は利用できない。 従来の統計手法を基盤として,拡張期間に基づく連続的なトレーニングとテストによって定義される従来の「ウォークフォワード分析」を用いて,エージェントの頑健さを断定する。 最後に、2尾のT-テストに基づく統計的差分の重要性の概念を示し、我々のモデルが従来のモデルと異なる方法を強調する。 実験結果から,本手法は,ネットパフォーマンス,シャープ,ソーティノ比,最大ドローダウン,ボラティリティに対する最大ドローダウンなど,金融数学で一般的に用いられる評価指標のほとんどすべてにおいて,markowitzモデルのような従来の金融ベースラインモデルよりも優れていることが示された。

Model-Free Reinforcement Learning has achieved meaningful results in stable environments but, to this day, it remains problematic in regime changing environments like financial markets. In contrast, model-based RL is able to capture some fundamental and dynamical concepts of the environment but suffer from cognitive bias. In this work, we propose to combine the best of the two techniques by selecting various model-based approaches thanks to Model-Free Deep Reinforcement Learning. Using not only past performance and volatility, we include additional contextual information such as macro and risk appetite signals to account for implicit regime changes. We also adapt traditional RL methods to real-life situations by considering only past data for the training sets. Hence, we cannot use future information in our training data set as implied by K-fold cross validation. Building on traditional statistical methods, we use the traditional "walk-forward analysis", which is defined by successive training and testing based on expanding periods, to assert the robustness of the resulting agent. Finally, we present the concept of statistical difference's significance based on a two-tailed T-test, to highlight the ways in which our models differ from more traditional ones. Our experimental results show that our approach outperforms traditional financial baseline portfolio models such as the Markowitz model in almost all evaluation metrics commonly used in financial mathematics, namely net performance, Sharpe and Sortino ratios, maximum drawdown, maximum drawdown over volatility.
翻訳日:2021-04-22 14:10:18 公開日:2021-04-19
# (参考訳) 潜在アライメントは自動回帰機械翻訳を改善するか? [全文訳有]

Can Latent Alignments Improve Autoregressive Machine Translation? ( http://arxiv.org/abs/2104.09554v1 )

ライセンス: CC BY 4.0
Adi Haviv, Lior Vassertail and Omer Levy(参考訳) CTCやAXEのような遅延アライメント目的は非自己回帰機械翻訳モデルを大幅に改善する。 自己回帰モデルも改善できるのでしょうか? 潜在的アライメント目標を用いた自己回帰型機械翻訳モデルの学習の可能性を検討し,実際にこのアプローチが縮退モデルをもたらすことを観察する。 これらの実験結果に対する理論的説明を提供し,教師の強制と潜在的アライメントの目的が相容れないことを証明した。

Latent alignment objectives such as CTC and AXE significantly improve non-autoregressive machine translation models. Can they improve autoregressive models as well? We explore the possibility of training autoregressive machine translation models with latent alignment objectives, and observe that, in practice, this approach results in degenerate models. We provide a theoretical explanation for these empirical results, and prove that latent alignment objectives are incompatible with teacher forcing.
翻訳日:2021-04-22 05:16:30 公開日:2021-04-19
# (参考訳) チャネルランダム化法によるストランガーとのコミュニケーションの学習 [全文訳有]

Learning to Communicate with Strangers via Channel Randomisation Methods ( http://arxiv.org/abs/2104.09557v1 )

ライセンス: CC BY 4.0
Dylan Cope and Nandi Schoots(参考訳) 我々は,コミュニケーションタスクを実現するために,初めてエージェントミーティングのパフォーマンスを向上させる2つの方法を紹介する。 方法は、(1)通信プロトコルの生成中における「メッセージ変異」、(2)通信チャネルのランダムな置換である。 これらの提案は、通信プロトコルを生成しメッセージを送信する「教師」と、メッセージを解釈する「生徒」を含む単純な2人プレイゲームを用いてテストされる。 複数のエージェントをセルフプレイで訓練した後、そのエージェントが見知らぬ人と一致した場合、そのエージェントのパフォーマンスを分析する。 ゼロショット通信性能。 メッセージ突然変異とチャネル置換の両方が性能に肯定的な影響を及ぼし,その効果について考察する。

We introduce two methods for improving the performance of agents meeting for the first time to accomplish a communicative task. The methods are: (1) `message mutation' during the generation of the communication protocol; and (2) random permutations of the communication channel. These proposals are tested using a simple two-player game involving a `teacher' who generates a communication protocol and sends a message, and a `student' who interprets the message. After training multiple agents via self-play we analyse the performance of these agents when they are matched with a stranger, i.e. their zero-shot communication performance. We find that both message mutation and channel permutation positively influence performance, and we discuss their effects.
翻訳日:2021-04-22 05:09:14 公開日:2021-04-19
# (参考訳) 雑音ラベルを用いた分類のためのコントラスト学習フレームワーク [全文訳有]

A Framework using Contrastive Learning for Classification with Noisy Labels ( http://arxiv.org/abs/2104.09563v1 )

ライセンス: CC BY 4.0
Madalina Ciortan, Romain Dupuis, Thomas Peel(参考訳) 雑音ラベルの存在下で画像分類を行うための事前学習課題としてコントラスト学習を用いたフレームワークを提案する。 擬似ラベル, ガウス混合モデルを用いたサンプル選択, 重み付き教師付きコントラスト学習などの近年の戦略は, 事前学習後の微調整相に組み合わされている。 本稿では,非ロバスト,ロバスト,ロバスト,早期学習といった異なる損失関数を用いた場合,予備的なコントラスト学習ステップは,高い性能向上をもたらすことを示した。 基準ベンチマークと実世界のデータセットを用いて行った実験では, 対照的な事前学習は損失関数の強靭性をノイズラベルに高め, 追加の微調整フェーズは精度をさらに向上させるが, 追加の複雑さを犠牲にすることができることを示した。

We propose a framework using contrastive learning as a pre-training task to perform image classification in the presence of noisy labels. Recent strategies such as pseudo-labeling, sample selection with Gaussian Mixture models, weighted supervised contrastive learning have been combined into a fine-tuning phase following the pre-training. This paper provides an extensive empirical study showing that a preliminary contrastive learning step brings a significant gain in performance when using different loss functions: non-robust, robust, and early-learning regularized. Our experiments performed on standard benchmarks and real-world datasets demonstrate that: i) the contrastive pre-training increases the robustness of any loss function to noisy labels and ii) the additional fine-tuning phase can further improve accuracy but at the cost of additional complexity.
翻訳日:2021-04-22 04:48:26 公開日:2021-04-19
# (参考訳) Syntactic-Guided Temporal Graph Transformerによる時間事象関係の抽出 [全文訳有]

Extracting Temporal Event Relation with Syntactic-Guided Temporal Graph Transformer ( http://arxiv.org/abs/2104.09570v1 )

ライセンス: CC BY-SA 4.0
Shuaicheng Zhang, Lifu Huang, Qiang Ning(参考訳) イベント間の時間的関係(例えば、前後、並行)の抽出は自然言語理解に不可欠である。 これまでの研究では、主にニューラルネットワークを使用して、時間的関係抽出のための効果的な特徴や手作りの言語特徴を学習している。 Inspired by the examination of available temporal relation annotations and human-like cognitive procedures, we propose a new Temporal Graph Transformer network to (1) explicitly find the connection between two events from a syntactic graph constructed from one or two continuous sentences, and (2) automatically locate the most indicative temporal cues from the path of the two event mentions as well as their surrounding concepts in the syntactic graph with a new temporal-oriented attention mechanism. MATRES と TB-Dense データセットを用いた実験により,本手法は時間的関係抽出と時間的関係分類の両方において,従来の最先端手法よりも有意に優れていた。

Extracting temporal relations (e.g., before, after, concurrent) among events is crucial to natural language understanding. Previous studies mainly rely on neural networks to learn effective features or manual-crafted linguistic features for temporal relation extraction, which usually fail when the context between two events is complex or wide. Inspired by the examination of available temporal relation annotations and human-like cognitive procedures, we propose a new Temporal Graph Transformer network to (1) explicitly find the connection between two events from a syntactic graph constructed from one or two continuous sentences, and (2) automatically locate the most indicative temporal cues from the path of the two event mentions as well as their surrounding concepts in the syntactic graph with a new temporal-oriented attention mechanism. Experiments on MATRES and TB-Dense datasets show that our approach significantly outperforms previous state-of-the-art methods on both end-to-end temporal relation extraction and temporal relation classification.
翻訳日:2021-04-22 04:27:48 公開日:2021-04-19
# (参考訳) 対話応答生成における因果共通感覚の探索 [全文訳有]

Probing Causal Common Sense in Dialogue Response Generation ( http://arxiv.org/abs/2104.09574v1 )

ライセンス: CC BY 4.0
Pei Zhou, Pegah Jandaghi, Bill Yuchen Lin, Justin Cho, Jay Pujara, Xiang Ren(参考訳) コミュニケーションは、参加者間の相互理解に到達する必要がある共同作業である。 人間は暗黙的に常識推論を使用して自然で論理的に一貫性のある反応を生成する。 流動型人間-AIコミュニケーションに向けたステップとして,RGモデルが人間の推論過程をエミュレートし,共通感覚を用いて高品質な応答を生成するかを検討する。 会話のコモンセンスの形式化と、コモンセンスを利用するRGモデル能力の検証という2つの研究課題に取り組むことを目指している。 まず, 対話応答生成における因果的共通sEnseを, 応答に繋がる可能性のある文的説明として, 共通感覚を増進し, モデル損失と無効な説明とを比較してRGモデルの振る舞いを評価する。 そして、このような説明を自動的に生成し、人間に検証を依頼するプロセスを導入する。 最後に、検証された説明を用いた2つの推論機能を対象としたRGモデルの2つの探索設定を設計する。 RGモデルは、説明の論理的妥当性を決定するのに苦労するが、説明の文法的自然性を容易に特定できる。

Communication is a cooperative effort that requires reaching mutual understanding among the participants. Humans use commonsense reasoning implicitly to produce natural and logically-coherent responses. As a step towards fluid human-AI communication, we study if response generation (RG) models can emulate human reasoning process and use common sense to help produce better-quality responses. We aim to tackle two research questions: how to formalize conversational common sense and how to examine RG models capability to use common sense? We first propose a task, CEDAR: Causal common sEnse in DiAlogue Response generation, that concretizes common sense as textual explanations for what might lead to the response and evaluates RG models behavior by comparing the modeling loss given a valid explanation with an invalid one. Then we introduce a process that automatically generates such explanations and ask humans to verify them. Finally, we design two probing settings for RG models targeting two reasoning capabilities using verified explanations. We find that RG models have a hard time determining the logical validity of explanations but can identify grammatical naturalness of the explanation easily.
翻訳日:2021-04-22 04:11:33 公開日:2021-04-19
# (参考訳) ELECTRAMed:バイオメディカルNLPのための新しい訓練済み言語表現モデル [全文訳有]

ELECTRAMed: a new pre-trained language representation model for biomedical NLP ( http://arxiv.org/abs/2104.09585v1 )

ライセンス: CC BY 4.0
Giacomo Miolo, Giulio Mantoan, Carlotta Orsenigo(参考訳) バイオメディカル・サイエンス・テキストの圧倒的な量は、幅広いバイオメディカル自然言語処理(NLP)タスクに対処できる効果的な言語モデルの開発を要求する。 最近の支配的なアプローチはドメイン固有モデルであり、一般ドメインのテキストデータで初期化され、様々な科学的コーパスで訓練される。 しかし, 大規模コーパスが存在する専門領域では, ドメイン内知識だけでモデルをゼロから訓練することで, より良い結果が得られることが示されている。 さらに、最近の事前トレーニングの計算コストへの注目が高まり、electraのようなより効率的なアーキテクチャの設計につながった。 本稿では,バイオメディカル分野に適したELECTRAMedという,事前訓練済みのドメイン固有言語モデルを提案する。 この新しいアプローチは、一般ドメインエレクトラアーキテクチャの学習フレームワークとその計算上の利点を継承している。 複数の生物医学的nlpタスクのベンチマークデータセットで実施した実験は、名前付きエンティティ認識のためのbc5cdrコーパスに最新の結果を設定するelectramedの有用性をサポートし、質問応答タスクのための第7のbioasq-factoid challangeの5つの実行に対する最良の結果を提供する。

The overwhelming amount of biomedical scientific texts calls for the development of effective language models able to tackle a wide range of biomedical natural language processing (NLP) tasks. The most recent dominant approaches are domain-specific models, initialized with general-domain textual data and then trained on a variety of scientific corpora. However, it has been observed that for specialized domains in which large corpora exist, training a model from scratch with just in-domain knowledge may yield better results. Moreover, the increasing focus on the compute costs for pre-training recently led to the design of more efficient architectures, such as ELECTRA. In this paper, we propose a pre-trained domain-specific language model, called ELECTRAMed, suited for the biomedical field. The novel approach inherits the learning framework of the general-domain ELECTRA architecture, as well as its computational advantages. Experiments performed on benchmark datasets for several biomedical NLP tasks support the usefulness of ELECTRAMed, which sets the novel state-of-the-art result on the BC5CDR corpus for named entity recognition, and provides the best outcome in 2 over the 5 runs of the 7th BioASQ-factoid Challange for the question answering task.
翻訳日:2021-04-22 03:56:33 公開日:2021-04-19
# (参考訳) 国立デジタル図書館の運用:ノルウェーのトランスフォーマーモデルの場合 [全文訳有]

Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model ( http://arxiv.org/abs/2104.09617v1 )

ライセンス: CC BY 4.0
Per E Kummervold, Javier de la Rosa, Freddy Wetjen, Svein Arne Brygfjeld(参考訳) 本稿では,国立図書館において,デジタルコレクションとデジタルコレクションの大規模な学習セットを構築する過程を示す。 ノルウェーの変換器(BERT)に基づく言語モデルによる双方向エンコーダ表現は、ノルウェーのBokm{\aa}lおよびノルウェーのNynorskの複数のトークンおよびシーケンス分類タスクにおいて、多言語BERT(mBERT)モデルより優れている。 我々のモデルは、英語、スウェーデン語、デンマーク語などのコーパスに存在する他の言語に対するmBERTの性能も改善する。 コーパスに含まれない言語では、重みは強い多言語特性を維持しながら適度に低下する。 そこで,我々は,OCR(Oonosy Optical character recognition)コンテンツを用いたメモリシステム内で高品質なモデルを構築することが可能であることを示し,他のメモリシステムに追従する道を開いたいと願っている。

In this work, we show the process of building a large-scale training set from digital and digitized collections at a national library. The resulting Bidirectional Encoder Representations from Transformers (BERT)-based language model for Norwegian outperforms multilingual BERT (mBERT) models in several token and sequence classification tasks for both Norwegian Bokm{\aa}l and Norwegian Nynorsk. Our model also improves the mBERT performance for other languages present in the corpus such as English, Swedish, and Danish. For languages not included in the corpus, the weights degrade moderately while keeping strong multilingual properties. Therefore, we show that building high-quality models within a memory institution using somewhat noisy optical character recognition (OCR) content is feasible, and we hope to pave the way for other memory institutions to follow.
翻訳日:2021-04-22 03:45:07 公開日:2021-04-19
# (参考訳) \textit{NewsEdits}:ニュース記事の改訂履歴のデータセット(技術報告:データ処理) [全文訳有]

\textit{NewsEdits}: A Dataset of Revision Histories for News Articles (Technical Report: Data Processing) ( http://arxiv.org/abs/2104.09647v1 )

ライセンス: CC BY 4.0
Alexander Spangher and Jonathan May(参考訳) ニュース記事リビジョンの歴史は、言語学と社会科学のさまざまな分野にまたがる新しい洞察を与える可能性がある。 本稿では,我々の知る限り,最初に公開されたニュース記事のリビジョン履歴データセットである「textit{NewsEdits}」を紹介する。 うちのデータセットは多言語で、1,278,804の記事と、22以上の英語とフランス語の新聞ソースから4,609,430のバージョンがある。 バージョンペア間では、追加文が1090万、変更文が890万、削除された文章が680万である。 変更文の中では、7200万の原子編集を導き出します。 \textit{newsedits} は、我々の知識では、あらゆるドメインのリビジョン履歴の最大のコーパスです。

News article revision histories have the potential to give us novel insights across varied fields of linguistics and social sciences. In this work, we present, to our knowledge, the first publicly available dataset of news article revision histories, or \textit{NewsEdits}. Our dataset is multilingual; it contains 1,278,804 articles with 4,609,430 versions from over 22 English- and French-language newspaper sources based in three countries. Across version pairs, we count 10.9 million added sentences; 8.9 million changed sentences and 6.8 million removed sentences. Within the changed sentences, we derive 72 million atomic edits. \textit{NewsEdits} is, to our knowledge, the largest corpus of revision histories of any domain.
翻訳日:2021-04-22 03:33:22 公開日:2021-04-19
# (参考訳) 脳腫瘍分節に対する可逆的移動インバータネックを用いた記憶効率3次元U-Net [全文訳有]

Memory Efficient 3D U-Net with Reversible Mobile Inverted Bottlenecks for Brain Tumor Segmentation ( http://arxiv.org/abs/2104.09648v1 )

ライセンス: CC BY 4.0
Mihir Pendse, Vithursan Thangarasa, Vitaliy Chiley, Ryan Holmdahl, Joel Hestness, Dennis DeCoste(参考訳) 従来のu-netアーキテクチャとメモリ節約技術を組み合わせることで,脳腫瘍分節(brats)課題におけるモデルの複雑さを高めることを提案する。 BraTSチャレンジは、240x240x155x4入力画像を一連の腫瘍クラスに3Dセグメント化したものである。 大きなボリュームと3d畳み込み層の必要性のため、このタスクは非常にメモリ集約的です。 これに対処するために、以前のアプローチでは、モデルの深さと幅を制約しながら、より小さな切り抜き画像を使用する。 私たちの3D U-Netは、MobileNetV2、MnasNetおよびより最近のEfficientNetアーキテクチャで定義されたモバイル逆ボトルネックブロックの可逆バージョンを使用して、トレーニング中のアクティベーションメモリを節約します。 可逆的なレイヤを使用することで、モデルはそのレイヤの出力に応じて入力アクティベーションを再計算し、フォワードパス中にアクティベーションを保存する必要がなくなることでメモリを節約できる。 逆の残差ボトルネックブロックは、軽量の深さ分離可能な畳み込みを用いて、畳み込みをポイントワイド畳み込みと奥行き畳み込みに分解することで計算を低減する。 さらに、入力と出力線形1x1畳み込みの間に中間膨張層を配置することにより、従来のボトルネックブロックを反転させ、チャネルの総数を削減する。 固定メモリ予算を考えると、これらのメモリ節約技術により、画像ボリュームを最大3倍、深さ25%以上のモデル、または、対応する非可逆ネットワークよりも最大2倍のチャネル数でトレーニングすることができる。

We propose combining memory saving techniques with traditional U-Net architectures to increase the complexity of the models on the Brain Tumor Segmentation (BraTS) challenge. The BraTS challenge consists of a 3D segmentation of a 240x240x155x4 input image into a set of tumor classes. Because of the large volume and need for 3D convolutional layers, this task is very memory intensive. To address this, prior approaches use smaller cropped images while constraining the model's depth and width. Our 3D U-Net uses a reversible version of the mobile inverted bottleneck block defined in MobileNetV2, MnasNet and the more recent EfficientNet architectures to save activation memory during training. Using reversible layers enables the model to recompute input activations given the outputs of that layer, saving memory by eliminating the need to store activations during the forward pass. The inverted residual bottleneck block uses lightweight depthwise separable convolutions to reduce computation by decomposing convolutions into a pointwise convolution and a depthwise convolution. Further, this block inverts traditional bottleneck blocks by placing an intermediate expansion layer between the input and output linear 1x1 convolution, reducing the total number of channels. Given a fixed memory budget, with these memory saving techniques, we are able to train image volumes up to 3x larger, models with 25% more depth, or models with up to 2x the number of channels than a corresponding non-reversible network.
翻訳日:2021-04-22 03:19:30 公開日:2021-04-19
# (参考訳) インターネットのマッピング:複雑な異種ネットワークにおけるエンティティインタラクションのモデリング

Mapping the Internet: Modelling Entity Interactions in Complex Heterogeneous Networks ( http://arxiv.org/abs/2104.09650v1 )

ライセンス: CC BY 4.0
\v{S}imon Mandl\'ik and Tom\'a\v{s} Pevn\'y(参考訳) 機械学習アルゴリズムはすでにデータサイエンスにおいて重要な役割を果たすが、現在の多くの手法は入力データに非現実的な仮定をもたらす。 このような手法の適用は、データセットの非互換なデータフォーマット、あるいは不均一、階層的、あるいは完全に欠落したデータフラグメントのために困難である。 そこで本研究では,サンプル表現,モデル定義,トレーニングのための汎用統一フレームワークであるHMillを提案する。 我々は、フレームワークが構築し拡張する機械学習のためのマルチインスタンスパラダイムを深くレビューする。 HMillの鍵成分の設計を理論的に正当化するために、フレームワークで実装されたモデルによって実現されたすべての関数の集合に対する普遍近似定理の拡張を示す。 このテキストには、技術と実装のパフォーマンス改善に関する詳細な議論も含まれており、mitライセンス下でダウンロードで公開されています。 フレームワークの主な資産は柔軟性である。これにより、さまざまな現実世界のデータソースを同じツールでモデリングできる。 さらに、個々のオブジェクトに対して属性の集合を個別に観察する標準的な設定に加えて、オブジェクトのシステム全体を表すグラフにおけるメッセージパッシング推論をフレームワークに実装する方法を説明します。 当社の主張を支持するため、このフレームワークを使用してサイバーセキュリティドメインから3つの異なる問題を解決する。 最初のユースケースは、生のネットワーク観測からIoTデバイスを識別するものだ。 第2の問題は,有向グラフとして表されるオペレーティングシステムのスナップショットを用いて,悪意のあるバイナリファイルの分類方法を検討することである。 最後に提供される例は、ネットワーク内のエンティティ間の相互作用をモデル化するドメインブラックリスト拡張のタスクである。 3つの問題すべてにおいて、提案されたフレームワークに基づくソリューションは、専門的なアプローチに匹敵するパフォーマンスを達成する。

Even though machine learning algorithms already play a significant role in data science, many current methods pose unrealistic assumptions on input data. The application of such methods is difficult due to incompatible data formats, or heterogeneous, hierarchical or entirely missing data fragments in the dataset. As a solution, we propose a versatile, unified framework called `HMill' for sample representation, model definition and training. We review in depth a multi-instance paradigm for machine learning that the framework builds on and extends. To theoretically justify the design of key components of HMill, we show an extension of the universal approximation theorem to the set of all functions realized by models implemented in the framework. The text also contains a detailed discussion on technicalities and performance improvements in our implementation, which is published for download under the MIT License. The main asset of the framework is its flexibility, which makes modelling of diverse real-world data sources with the same tool possible. Additionally to the standard setting in which a set of attributes is observed for each object individually, we explain how message-passing inference in graphs that represent whole systems of objects can be implemented in the framework. To support our claims, we solve three different problems from the cybersecurity domain using the framework. The first use case concerns IoT device identification from raw network observations. In the second problem, we study how malicious binary files can be classified using a snapshot of the operating system represented as a directed graph. The last provided example is a task of domain blacklist extension through modelling interactions between entities in the network. In all three problems, the solution based on the proposed framework achieves performance comparable to specialized approaches.
翻訳日:2021-04-22 03:09:12 公開日:2021-04-19
# (参考訳) コーパスにおけるリードジェネレーションの「新しさ」のモデル化 [全文訳有]

Modeling "Newsworthiness" for Lead-Generation Across Corpora ( http://arxiv.org/abs/2104.09653v1 )

ライセンス: CC BY 4.0
Alexander Spangher, Nanyun Peng, Jonathan May and Emilio Ferrara(参考訳) ジャーナリストは、裁判所事件、法案案など、政府記録の大きなコーパスを読むことで「リーダー」または物語のアイデアを得る。 しかし、そうした記録のごく一部が興味深い文書である。 興味ある文書を提示することを目的とした「新鮮さ」のモデルを提案する。 私たちは、各記事がフロントページの記事であるかどうかを予測するために、自動ラベル付きコーポラ(新聞記事)でモデルをトレーニングします(例: \textbf{newsworthy})。 われわれはこれらのモデルを未定のコーパス(訴訟、法案、市議会の議事録)に転送し、これらのコーパスの文書を「新鮮さ」でランク付けする。 微調整されたRoBERTaモデルでは、ホールトアウトラベル付き文書では.93 AUC、エキスパート検証されていないコーパスでは.88 AUCを達成している。 モデルに対する解釈と視覚化を提供します。

Journalists obtain "leads", or story ideas, by reading large corpora of government records: court cases, proposed bills, etc. However, only a small percentage of such records are interesting documents. We propose a model of "newsworthiness" aimed at surfacing interesting documents. We train models on automatically labeled corpora -- published newspaper articles -- to predict whether each article was a front-page article (i.e., \textbf{newsworthy}) or not (i.e., \textbf{less newsworthy}). We transfer these models to unlabeled corpora -- court cases, bills, city-council meeting minutes -- to rank documents in these corpora on "newsworthiness". A fine-tuned RoBERTa model achieves .93 AUC performance on heldout labeled documents, and .88 AUC on expert-validated unlabeled corpora. We provide interpretation and visualization for our models.
翻訳日:2021-04-22 03:07:51 公開日:2021-04-19
# (参考訳) 『それを引用しないで』:ニュース記事の出典の混同を見つける [全文訳有]

"Don't quote me on that": Finding Mixtures of Sources in News Articles ( http://arxiv.org/abs/2104.09656v1 )

ライセンス: CC BY 4.0
Alexander Spangher, Nanyun Peng, Jonathan May and Emilio Ferrara(参考訳) ジャーナリストは、現在の出来事をコンテキスト化し、有権者がインフォームドな判断をするのを手助けし、強力な個人を説明責任に持つために、人々によって提供された声明を発行する。 本研究では、各ソースの \textit{affiliation} と \textit{role} に基づいて、ソースに対するオントロジラベリングシステムを構築する。 我々は、これらの属性を名前付きソースに推論し、これらのソースの混合としてニュース記事を記述する確率モデルを構築した。 提案モデルは,既存の混合モデルおよび協調クラスタリング手法より優れ,専門家評価試験の80%でソースタイプを正しく推定する。 このような作業は、意見や議論のマイニングといった下流のタスクの研究を容易にし、マシン・イン・ザ・ループの \textit{computational journalism} システムへの第一歩を示す。

Journalists publish statements provided by people, or \textit{sources} to contextualize current events, help voters make informed decisions, and hold powerful individuals accountable. In this work, we construct an ontological labeling system for sources based on each source's \textit{affiliation} and \textit{role}. We build a probabilistic model to infer these attributes for named sources and to describe news articles as mixtures of these sources. Our model outperforms existing mixture modeling and co-clustering approaches and correctly infers source-type in 80\% of expert-evaluated trials. Such work can facilitate research in downstream tasks like opinion and argumentation mining, representing a first step towards machine-in-the-loop \textit{computational journalism} systems.
翻訳日:2021-04-22 03:00:12 公開日:2021-04-19
# (参考訳) 逆サーロゲート損失の校正と整合性

Calibration and Consistency of Adversarial Surrogate Losses ( http://arxiv.org/abs/2104.09658v1 )

ライセンス: CC BY 4.0
Pranjal Awasthi and Natalie Frank and Anqi Mao and Mehryar Mohri and Yutao Zhong(参考訳) 逆の堅牢性は、アプリケーションにおける分類器のますます重要な性質である。 ほとんどの仮説集合による逆損失の最適化はnp-hardであるため、ロバストアルゴリズムの設計は代理損失に依存する。 しかし、どの代理損失を使うべきで、いつ理論的保証から利益を得るのか? 本稿では, H-calibration と H-consistency of adversarial surrogate loss の詳細な分析を含む, この問題の広範な研究について述べる。 一般化線形モデルや一層ニューラルネットワークのような重要な関数クラスに対しては、いくつかの一般的な仮定の下では、凸損失関数、あるいはアプリケーションでよく使用される上限に基づく凸損失がH校正されないことを示す。 すると、H-キャリブレーションのキャラクタリゼーションを与え、いくつかのサロゲート損失が、これらの関数クラスと共に、実際にH-キャリブレーションされることを示す。 次に、H-キャリブレーションが整合性を保証するのに十分でないことを示し、任意の分布仮定がなければ、連続的なサロゲート損失は対向的な設定では一致しないことを示す。 これは特に、COLT 2020の出版物における主張を偽造している。 次に, 一般化線形モデルや一層ニューラルネットワークなどの関数クラスに対して, H-consistent な代理損失を詳細に記述した自然条件を同定する。 また,h-calibrated surrogateの損失の多くがh-consistenceではないことを示すシミュレーションデータを用いて実験結果を報告し,理論的な仮定を検証した。

Adversarial robustness is an increasingly critical property of classifiers in applications. The design of robust algorithms relies on surrogate losses since the optimization of the adversarial loss with most hypothesis sets is NP-hard. But which surrogate losses should be used and when do they benefit from theoretical guarantees? We present an extensive study of this question, including a detailed analysis of the H-calibration and H-consistency of adversarial surrogate losses. We show that, under some general assumptions, convex loss functions, or the supremum-based convex losses often used in applications, are not H-calibrated for important functions classes such as generalized linear models or one-layer neural networks. We then give a characterization of H-calibration and prove that some surrogate losses are indeed H-calibrated for the adversarial loss, with these function classes. Next, we show that H-calibration is not sufficient to guarantee consistency and prove that, in the absence of any distributional assumption, no continuous surrogate loss is consistent in the adversarial setting. This, in particular, falsifies a claim made in a COLT 2020 publication. Next, we identify natural conditions under which some surrogate losses that we describe in detail are H-consistent for function classes such as generalized linear models and one-layer neural networks. We also report a series of empirical results with simulated data, which show that many H-calibrated surrogate losses are indeed not H-consistent, and validate our theoretical assumptions.
翻訳日:2021-04-22 02:48:46 公開日:2021-04-19
# (参考訳) データ順序攻撃によるSGDの操作

Manipulating SGD with Data Ordering Attacks ( http://arxiv.org/abs/2104.09667v1 )

ライセンス: CC BY 4.0
Ilia Shumailov, Zakhar Shumaylov, Dmitry Kazhdan, Yiren Zhao, Nicolas Papernot, Murat A. Erdogdu, Ross Anderson(参考訳) 機械学習はさまざまな種類の攻撃に対して脆弱である。 現在よく理解されているのは、基盤となるデータ分布を変更することで、敵がトレーニングしたモデルに毒を塗ったり、バックドアを導入することができるということだ。 本稿では,基礎となるモデルデータセットやアーキテクチャを変更することなく,モデルにデータを供給する順序を変更する,新たなトレーニングタイム攻撃のクラスを提案する。 特に、アタッカーは、モデルまたはデータセットの両方に関する知識なしで、トレーニングバッチを単に順序変更することで、モデルの完全性と可用性を損なう可能性がある。 実際、ここで提示される攻撃はモデルやデータセットに特有ではなく、現代の学習手順の確率的な性質をターゲットにしている。 攻撃を広範囲に評価して、敵がモデルのトレーニングを中断し、バックドアも導入できることを確認しました。 整合性のために、攻撃者はモデルを学習から止めるか、あるいは攻撃者が指定した振る舞いを学習するために毒を塗ることができる。 可用性のため、1つの逆順のエポックがモデル学習を遅くしたり、学習の進捗をリセットするのに十分であることがわかった。 このような攻撃は、攻撃後数百エポックというモデル性能を低下させるという長期的な影響をもたらす。 並べ替えは、敵が訓練時攻撃を行うために敵のデータポイントや摂動を注入しなければならないという仮定を取り除くという非常に強力な敵のパラダイムである。 確率勾配降下は、データがランダムにサンプリングされるという仮定に依存する。 このランダム性が損なわれた場合、すべての賭けはオフとなる。

Machine learning is vulnerable to a wide variety of different attacks. It is now well understood that by changing the underlying data distribution, an adversary can poison the model trained with it or introduce backdoors. In this paper we present a novel class of training-time attacks that require no changes to the underlying model dataset or architecture, but instead only change the order in which data are supplied to the model. In particular, an attacker can disrupt the integrity and availability of a model by simply reordering training batches, with no knowledge about either the model or the dataset. Indeed, the attacks presented here are not specific to the model or dataset, but rather target the stochastic nature of modern learning procedures. We extensively evaluate our attacks to find that the adversary can disrupt model training and even introduce backdoors. For integrity we find that the attacker can either stop the model from learning, or poison it to learn behaviours specified by the attacker. For availability we find that a single adversarially-ordere d epoch can be enough to slow down model learning, or even to reset all of the learning progress. Such attacks have a long-term impact in that they decrease model performance hundreds of epochs after the attack took place. Reordering is a very powerful adversarial paradigm in that it removes the assumption that an adversary must inject adversarial data points or perturbations to perform training-time attacks. It reminds us that stochastic gradient descent relies on the assumption that data are sampled at random. If this randomness is compromised, then all bets are off.
翻訳日:2021-04-22 02:47:37 公開日:2021-04-19
# (参考訳) skweak:Wak SupervisionはNLPで簡単に使える [全文訳有]

skweak: Weak Supervision Made Easy for NLP ( http://arxiv.org/abs/2104.09683v1 )

ライセンス: CC BY 4.0
Pierre Lison and Jeremy Barnes and Aliaksandr Hubin(参考訳) 我々は NLP 開発者が幅広い NLP タスクに弱い監督を適用できる,汎用的でPython ベースのソフトウェアツールキット skweak を提案する。 データポイントを手でラベル付けするのではなく、ドメイン知識から派生したラベル付け関数を使用して、所定のデータセットに対するアノテーションを自動的に取得します。 得られたラベルは生成モデルで集約され、各ラベル関数の精度(および可能性のある混乱)を推定する。 skweakツールキットは、テキストデータに大量のラベリング関数(ヒューリスティックス、ガゼテア、ニューラルモデル、言語制約など)を実装するのを容易にし、コーパスにそれらを適用し、完全に教師なしの方法で結果を集約する。 skweakは特に、テキスト分類やシーケンスラベリングといったNLPタスクの弱い管理を容易にするように設計されている。 NERと感情分析におけるskweakの使用について説明する。 skweakはオープンソースライセンスでリリースされ、https://github.com/n orskregnesentral/skw eak.com/で利用可能である。

We present skweak, a versatile, Python-based software toolkit enabling NLP developers to apply weak supervision to a wide range of NLP tasks. Weak supervision is an emerging machine learning paradigm based on a simple idea: instead of labelling data points by hand, we use labelling functions derived from domain knowledge to automatically obtain annotations for a given dataset. The resulting labels are then aggregated with a generative model that estimates the accuracy (and possible confusions) of each labelling function. The skweak toolkit makes it easy to implement a large spectrum of labelling functions (such as heuristics, gazetteers, neural models or linguistic constraints) on text data, apply them on a corpus, and aggregate their results in a fully unsupervised fashion. skweak is especially designed to facilitate the use of weak supervision for NLP tasks such as text classification and sequence labelling. We illustrate the use of skweak for NER and sentiment analysis. skweak is released under an open-source license and is available at: https://github.com/N orskRegnesentral/skw eak
翻訳日:2021-04-22 02:46:16 公開日:2021-04-19
# 構文情報を用いた視覚言語ナビゲーションにおけるクロスモーダルアライメントの改善

Improving Cross-Modal Alignment in Vision Language Navigation via Syntactic Information ( http://arxiv.org/abs/2104.09580v1 )

ライセンス: Link先を確認
Jialu Li, Hao Tan, Mohit Bansal(参考訳) 視覚言語ナビゲーションは、エージェントが自然言語命令に基づいて3D環境をナビゲートする必要があるタスクである。 このタスクにおける1つの重要な課題は、エージェントが知覚する現在の視覚情報で指示を接地することである。 既存の作業の多くは、次の行動に必要な指示を見つけるために個々の単語に対してソフトな注意を払っている。 しかし、異なる単語は文の中で異なる機能を持つ(例えば修飾語は属性を、動詞はアクションを伝達する)。 依存関係やフレーズ構造といった構文情報は、エージェントが命令の重要な部分を見つけるのに役立つ。 そこで本稿では,依存性木から派生した構文情報を利用して,命令と現在の視覚シーンとの整合性を高めるナビゲーションエージェントを提案する。 経験的に、我々のエージェントは、特に目に見えない環境で、Room-to-Roomデータセットの構文情報を使用しないベースラインモデルよりも優れています。 さらに,我々のエージェントは3言語(英語,ヒンディー語,テルグ語)の命令を含むroom-across-roomデータセットの最先端版を実現している。 また,我々のエージェントは,質的可視化による指示と現在の視覚情報との整合が良好であることを示す。 コードとモデル: https://github.com/j ialuli-luka/syntaxvl n

Vision language navigation is the task that requires an agent to navigate through a 3D environment based on natural language instructions. One key challenge in this task is to ground instructions with the current visual information that the agent perceives. Most of the existing work employs soft attention over individual words to locate the instruction required for the next action. However, different words have different functions in a sentence (e.g., modifiers convey attributes, verbs convey actions). Syntax information like dependencies and phrase structures can aid the agent to locate important parts of the instruction. Hence, in this paper, we propose a navigation agent that utilizes syntax information derived from a dependency tree to enhance alignment between the instruction and the current visual scenes. Empirically, our agent outperforms the baseline model that does not use syntax information on the Room-to-Room dataset, especially in the unseen environment. Besides, our agent achieves the new state-of-the-art on Room-Across-Room dataset, which contains instructions in 3 languages (English, Hindi, and Telugu). We also show that our agent is better at aligning instructions with the current visual information via qualitative visualizations. Code and models: https://github.com/j ialuli-luka/SyntaxVL N
翻訳日:2021-04-21 13:56:20 公開日:2021-04-19
# 四元数生成逆ネットワーク

Quaternion Generative Adversarial Networks ( http://arxiv.org/abs/2104.09630v1 )

ライセンス: Link先を確認
Eleonora Grassucci, Edoardo Cicero, Danilo Comminiello(参考訳) 最新のGAN(Generative Adversarial Networks)は大規模なトレーニングを通じて優れた結果を集めており、膨大な計算能力を必要とする数百万のパラメータからなるモデルを採用している。 このような巨大なモデルの構築は、その複製性を損なうとともに、トレーニングの不安定性を高める。 さらに、画像やオーディオなどのマルチチャネルデータは、通常、入力をフラット化し、連結する実数値畳み込みネットワークによって処理され、チャネル内の空間関係は失われる。 本稿では,これらの問題に対処するために,四元価値生成逆ネットワーク(qgans)のファミリーを提案する。 QGANは四元環の性質、例えば畳み込みに対するハミルトン積を利用する。 これにより、チャンネルを単一のエンティティとして処理し、内部の潜伏関係をキャプチャし、パラメータの総数を4倍削減できる。 我々はqganの設計方法を示し,提案手法を先進モデルにも拡張する。 提案したQGANと,複数の画像生成ベンチマークにおける実値との比較を行った。 その結果,QGANは視覚的に満足な画像を生成することができ,実値のGANに対して優れたFIDスコアを得ることができることがわかった。 さらに、QGANはトレーニングパラメータの最大75%を節約する。 これらの結果は、新しい、よりアクセシブルな、パフォーマンスを改善し、計算資源を節約できるGANの道を開くかもしれない。

Latest Generative Adversarial Networks (GANs) are gathering outstanding results through a large-scale training, thus employing models composed of millions of parameters requiring extensive computational capabilities. Building such huge models undermines their replicability and increases the training instability. Moreover, multi-channel data, such as images or audio, are usually processed by real-valued convolutional networks that flatten and concatenate the input, losing any intra-channel spatial relation. To address these issues, here we propose a family of quaternion-valued generative adversarial networks (QGANs). QGANs exploit the properties of quaternion algebra, e.g., the Hamilton product for convolutions. This allows to process channels as a single entity and capture internal latent relations, while reducing by a factor of 4 the overall number of parameters. We show how to design QGANs and to extend the proposed approach even to advanced models. We compare the proposed QGANs with real-valued counterparts on multiple image generation benchmarks. Results show that QGANs are able to generate visually pleasing images and to obtain better FID scores with respect to their real-valued GANs. Furthermore, QGANs save up to 75% of the training parameters. We believe these results may pave the way to novel, more accessible, GANs capable of improving performance and saving computational resources.
翻訳日:2021-04-21 13:55:08 公開日:2021-04-19
# 臨床ノートから主うつ病性障害を識別するための遠隔監視型ニューラルランゲージモデル

Neural Language Models with Distant Supervision to Identify Major Depressive Disorder from Clinical Notes ( http://arxiv.org/abs/2104.09644v1 )

ライセンス: Link先を確認
Bhavani Singh Agnikula Kshatriya, Nicolas A Nunez, Manuel Gardea- Resendez, Euijung Ryu, Brandon J Coombes, Sunyang Fu, Mark A Frye, Joanna M Biernacka, Yanshan Wang(参考訳) 大うつ病 (Major depressive disorder, MDD) は、世界中で深刻な医療負担を伴う精神疾患である。 mddの表現型は早期診断の助けとなり、患者の管理に重要な利点がある。 以前の研究では、mdd表現型は構造化電子健康記録(ehr)や脳波(eeg)データから抽出され、従来の機械学習モデルを用いてmdd表現型を予測する。 しかし、MDDの表現型情報は、臨床ノートなどの自由テキストEHRデータにも記録されている。 臨床ノートはより正確な表現型情報を提供するが、自然言語処理(NLP)アルゴリズムはそのような情報を抽象化するために開発する必要がある。 nlpの最近の進歩により、トランスフォーマー(bert)モデルのための双方向エンコーダ表現(bidirectional encoder representations for transformers)のような最先端のニューラルネットワークモデルが生まれた。 しかし、そのようなニューラルネットワークモデルは、大規模なトレーニングデータセットが不足しているため、臨床NLPタスクでは使われていない。 論文では,遠隔指導パラダイムを用いて臨床テキスト分類タスクにおける機械学習モデルを訓練し,注釈付き訓練データの欠如問題を軽減した。 このパラダイムがニューラルネットワークモデルに有効かどうかはまだ分かっていない。 本稿では,臨床ノートからMDD表現型を識別するために,遠隔監視パラダイムのニューラルネットワークモデルを活用することを提案する。 実験結果から,本手法はMDD表現型同定に有効であり,臨床データに特有のBERTモデルであるBio- Clinical BERTが従来の機械学習モデルと比較して優れた性能を示した。

Major depressive disorder (MDD) is a prevalent psychiatric disorder that is associated with significant healthcare burden worldwide. Phenotyping of MDD can help early diagnosis and consequently may have significant advantages in patient management. In prior research MDD phenotypes have been extracted from structured Electronic Health Records (EHR) or using Electroencephalograp hic (EEG) data with traditional machine learning models to predict MDD phenotypes. However, MDD phenotypic information is also documented in free-text EHR data, such as clinical notes. While clinical notes may provide more accurate phenotyping information, natural language processing (NLP) algorithms must be developed to abstract such information. Recent advancements in NLP resulted in state-of-the-art neural language models, such as Bidirectional Encoder Representations for Transformers (BERT) model, which is a transformer-based model that can be pre-trained from a corpus of unsupervised text data and then fine-tuned on specific tasks. However, such neural language models have been underutilized in clinical NLP tasks due to the lack of large training datasets. In the literature, researchers have utilized the distant supervision paradigm to train machine learning models on clinical text classification tasks to mitigate the issue of lacking annotated training data. It is still unknown whether the paradigm is effective for neural language models. In this paper, we propose to leverage the neural language models in a distant supervision paradigm to identify MDD phenotypes from clinical notes. The experimental results indicate that our proposed approach is effective in identifying MDD phenotypes and that the Bio- Clinical BERT, a specific BERT model for clinical data, achieved the best performance in comparison with conventional machine learning models.
翻訳日:2021-04-21 13:52:00 公開日:2021-04-19
# コンピュータ支援設計のためのエンジニアリングスケッチ生成

Engineering Sketch Generation for Computer-Aided Design ( http://arxiv.org/abs/2104.09621v1 )

ライセンス: Link先を確認
Karl D.D. Willis, Pradeep Kumar Jayaraman, Joseph G. Lambourne, Hang Chu, Yewen Pu(参考訳) 工学的スケッチはパラメトリックコンピュータ支援設計(cad、parametric computer-aided design)の2次元ベースを形成している。 本稿では,パラメトリックcadモデルの合成と合成のための第一歩として,学習に基づく設計スケッチ生成の問題に取り組む。 エンジニアリングスケッチ生成のための2つの生成モデルであるCurveGenとTurtleGenを提案する。 どちらのモデルも、スケッチ制約ソルバを必要とせずに曲線プリミティブを生成し、制約付き下流利用のためのトポロジーと3dcadモデリング操作を明示的に考慮する。 人間の被験者による知覚的評価では,curvergen と turtlegen は,現在の技術スケッチ生成の最先端と比較して,よりリアルなエンジニアリングスケッチを生成できることがわかった。

Engineering sketches form the 2D basis of parametric Computer-Aided Design (CAD), the foremost modeling paradigm for manufactured objects. In this paper we tackle the problem of learning based engineering sketch generation as a first step towards synthesis and composition of parametric CAD models. We propose two generative models, CurveGen and TurtleGen, for engineering sketch generation. Both models generate curve primitives without the need for a sketch constraint solver and explicitly consider topology for downstream use with constraints and 3D CAD modeling operations. We find in our perceptual evaluation using human subjects that both CurveGen and TurtleGen produce more realistic engineering sketches when compared with the current state-of-the-art for engineering sketch generation.
翻訳日:2021-04-21 13:47:56 公開日:2021-04-19
# ほぼ最適ロバスト性保証を用いたGMM学習

Learning GMMs with Nearly Optimal Robustness Guarantees ( http://arxiv.org/abs/2104.09665v1 )

ライセンス: Link先を確認
Allen Liu, Ankur Moitra(参考訳) この研究では、$\epsilon$-corrupted sample から $\widetilde{O}(\epsilon)$ までの高次元ガウス混合モデルと$k$の成分を、任意の定数$k$に対する全変動距離と、混合物上の軽度の仮定で頑健に学習する。 この堅牢性保証は多対数因子に最適である。 このアルゴリズムの核心は, 重みが低次多項式であるガウス混合モデルを出力することを許される不適切な学習問題を解くことに対応する多項式方程式系を緩和する新しい方法である。

In this work we solve the problem of robustly learning a high-dimensional Gaussian mixture model with $k$ components from $\epsilon$-corrupted samples up to accuracy $\widetilde{O}(\epsilon)$ in total variation distance for any constant $k$ and with mild assumptions on the mixture. This robustness guarantee is optimal up to polylogarithmic factors. At the heart of our algorithm is a new way to relax a system of polynomial equations which corresponds to solving an improper learning problem where we are allowed to output a Gaussian mixture model whose weights are low-degree polynomials.
翻訳日:2021-04-21 13:45:48 公開日:2021-04-19
# 言語モデルの精製対象構文評価

Refining Targeted Syntactic Evaluation of Language Models ( http://arxiv.org/abs/2104.09635v1 )

ライセンス: Link先を確認
Benjamin Newman, Kai-Siang Ang, Julia Gong and John Hewitt(参考訳) 英語における主語-動詞数合意(tse)の統語的評価は、主動詞の活用のみで異なる手作りの最小文対を用いて言語モデルの統語的知識を評価する。 本手法は,各文法文を非文法文よりも高い確率で評価する。 TSEの目標は2つある。 まず、言語モデルの構文的知識の体系性を評価する:ある文が与えられたら、任意の動詞を正しく共役できるか? 第二に、モデルの起こりそうな振る舞いを評価する:ある文が与えられたとき、モデルは正しい共役動詞にその確率質量を集中させるだろうか。 現在のtseの実装では、これらの目標のいずれかを直接捉えておらず、それぞれの目標を別々に捉えるための新しいメトリクスを提案している。 我々の測定では、TSEは言語モデルの体系性を過大評価しているが、予測される動詞では最大40%のスコアが得られた。

Targeted syntactic evaluation of subject-verb number agreement in English (TSE) evaluates language models' syntactic knowledge using hand-crafted minimal pairs of sentences that differ only in the main verb's conjugation. The method evaluates whether language models rate each grammatical sentence as more likely than its ungrammatical counterpart. We identify two distinct goals for TSE. First, evaluating the systematicity of a language model's syntactic knowledge: given a sentence, can it conjugate arbitrary verbs correctly? Second, evaluating a model's likely behavior: given a sentence, does the model concentrate its probability mass on correctly conjugated verbs, even if only on a subset of the possible verbs? We argue that current implementations of TSE do not directly capture either of these goals, and propose new metrics to capture each goal separately. Under our metrics, we find that TSE overestimates systematicity of language models, but that models score up to 40% better on verbs that they predict are likely in context.
翻訳日:2021-04-21 13:44:37 公開日:2021-04-19
# fasttextが注意を払う:制約付き位置重み付けを用いた単語表現の効率的な推定

When FastText Pays Attention: Efficient Estimation of Word Representations using Constrained Positional Weighting ( http://arxiv.org/abs/2104.09691v1 )

ライセンス: Link先を確認
V\'it Novotn\'y and Michal \v{S}tef\'anik and Eniafe Festus Ayetiran and Petr Sojka(参考訳) ミコロフらによる独創的な作品から。 (2013a) と Bojanowski et al。 2017年、浅い対数双線形言語モデルの単語表現は多くのNLPアプリケーションに導入されている。 Mikolovら。 (2018) は,注目に基づく言語モデルの特徴を持つ位置対数双線形言語モデルを導入し,本質的な単語類似タスクで最先端のパフォーマンスを達成した。 しかしながら、位置モデルは定性的な基準や極端なタスクで評価されることはなく、その速度は実用的ではない。 注意機構と位置モデルとの類似性について概説し,dai等のスパース注意機構を適応した制約付き位置モデルを提案する。 (2018). 本研究では,3つの新しい定性基準と,Borta and Blunsom(2014)の外部言語モデリング課題に基づいて,位置モデルと制約付き位置モデルを評価する。 位置と制約のある位置モデルは、単語の順序に関する解釈可能な情報を含み、Bojanowskiらのサブワードモデルより優れていることを示す。 2017年) 言語モデル。 また,制約のある位置モデルは,言語モデルにおいて位置モデルよりも優れており,その2倍の速度を示す。

Since the seminal work of Mikolov et al. (2013a) and Bojanowski et al. (2017), word representations of shallow log-bilinear language models have found their way into many NLP applications. Mikolov et al. (2018) introduced a positional log-bilinear language model, which has characteristics of an attention-based language model and which has reached state-of-the-art performance on the intrinsic word analogy task. However, the positional model has never been evaluated on qualitative criteria or extrinsic tasks and its speed is impractical. We outline the similarities between the attention mechanism and the positional model, and we propose a constrained positional model, which adapts the sparse attention mechanism of Dai et al. (2018). We evaluate the positional and constrained positional models on three novel qualitative criteria and on the extrinsic language modeling task of Botha and Blunsom (2014). We show that the positional and constrained positional models contain interpretable information about word order and outperform the subword model of Bojanowski et al. (2017) on language modeling. We also show that the constrained positional model outperforms the positional model on language modeling and is twice as fast.
翻訳日:2021-04-21 13:44:21 公開日:2021-04-19
# インセルオンラインコミュニティにおける意味的知識発見と議論マイニング:トピック・モデリング

Semantic Knowledge Discovery and Discussion Mining of Incel Online Community: Topic modeling ( http://arxiv.org/abs/2104.09586v1 )

ライセンス: Link先を確認
Hamed Jelodar, Richard Frank(参考訳) オンラインフォーラムは、オンラインユーザーがコメントを共有し、特定のトピックに関する情報を交換するユニークな機会を提供する。 ユーザ行動を理解することは組織にとって価値があり、例えばコミュニティ内のユーザの意見を識別したり、将来の行動を予測したりといった、社会的およびセキュリティ戦略のアプリケーションを持っている。 本研究の主目的は,インセルフォーラムのセマンティックな側面を明らかにすることであり,トピックモデリングに基づく自然言語処理手法を,人気のあるオンラインインセルディスカッションフォーラムのユーザに対する潜在トピック発見と意見マイニングに適用する。 本研究の入力データを作成するため,incels.coからコメントを抽出した。 実験の結果,NLPモデルに基づく人工知能(AI)は,インセルコミュニティから有用な情報のセマンティックおよび感情知識の発見と検索に有効であることが示唆された。 例えば,大量のインセルコメントの中で問題を記述する意味的関連語を発見したが,手作業では難しい。

Online forums provide a unique opportunity for online users to share comments and exchange information on a particular topic. Understanding user behaviour is valuable to organizations and has applications for social and security strategies, for instance, identifying user opinions within a community or predicting future behaviour. Discovering the semantic aspects in Incel forums are the main goal of this research; we apply Natural language processing techniques based on topic modeling to latent topic discovery and opinion mining of users from a popular online Incel discussion forum. To prepare the input data for our study, we extracted the comments from Incels.co. The research experiments show that Artificial Intelligence (AI) based on NLP models can be effective for semantic and emotion knowledge discovery and retrieval of useful information from the Incel community. For example, we discovered semantic-related words that describe issues within a large volume of Incel comments, which is difficult with manual methods.
翻訳日:2021-04-21 13:42:41 公開日:2021-04-19
# ASFM-Net:ポイントコンプリートのための非対称シーム特徴マッチングネットワーク

ASFM-Net: Asymmetrical Siamese Feature Matching Network for Point Completion ( http://arxiv.org/abs/2104.09587v1 )

ライセンス: Link先を確認
Yaqi Xia, Yan Xia, Wei Li, Rui Song, Kailang Cao, Uwe Stilla(参考訳) 我々は,ポイントクラウドからのオブジェクト補完の問題に取り組み,ASFM-Netと呼ばれる特徴マッチング戦略を用いた新しいポイントクラウド補完ネットワークを提案する。 具体的には、非対称なシームズオートエンコーダニューラルネットワークを用いて、部分的および完全な入力点雲を共有潜在空間にマッピングし、より詳細な形状を事前にキャプチャすることができる。 次に,事前情報の統合により,細粒度詳細の完全な形状を生成するために,反復的改良ユニットを設計する。 pcn データセットと completion3d ベンチマークで実験を行い、提案する asfm-net の最先端性能を実証した。 コードとトレーニングされたモデルはオープンソースになる。

We tackle the problem of object completion from point clouds and propose a novel point cloud completion network using a feature matching strategy, termed as ASFM-Net. Specifically, the asymmetrical Siamese auto-encoder neural network is adopted to map the partial and complete input point cloud into a shared latent space, which can capture detailed shape prior. Then we design an iterative refinement unit to generate complete shapes with fine-grained details by integrating prior information. Experiments are conducted on the PCN dataset and the Completion3D benchmark, demonstrating the state-of-the-art performance of the proposed ASFM-Net. The codes and trained models will be open-sourced.
翻訳日:2021-04-21 13:41:49 公開日:2021-04-19
# LaTeX-Numeric: eXtraction for E-Commerce Numeric Attributes

LaTeX-Numeric: Language-agnostic Text attribute eXtraction for E-commerce Numeric Attributes ( http://arxiv.org/abs/2104.09576v1 )

ライセンス: Link先を確認
Kartik Mehta, Ioana Oprea and Nikhil Rasiwasia(参考訳) 本稿では,製品記述などの製品テキストから電子商取引数値属性を抽出するための高精度完全自動スケーラブルフレームワークであるlatex-numericを提案する。 属性抽出に関する過去の作業のほとんどは、アクティブラーニングの使用の有無に関わらず、手動でキュレートされたトレーニングデータに依存しているため、スケーラブルではない。 手動ラベルへの依存性を取り除き、データ生成をトレーニングするために、遠方からの監督に依存しています。 遠隔監視の1つの問題は、マッチング中に属性値の欠如による不完全なトレーニングアノテーションにつながることである。 本稿では,学習データのラベル欠落に対処するマルチタスク学習アーキテクチャを提案する。f1では,シングルタスクアーキテクチャよりも数値属性が9.2%向上した。 マルチタスクアーキテクチャは数値属性と非数値属性の両方にメリットがあるが,数値属性抽出モデルをさらに改善するための自動化手法を提案する。 数値属性は、遠くの監督とよりよく一致するためにユニット(またはエイリアス)のリストを必要とする。 本稿では,製品テキストと属性値を用いたエイリアス自動生成アルゴリズムを提案する。 5つの製品カテゴリと3つの英語マーケットプレースにまたがる20の数値属性に関する実世界のデータセットに関する大規模な実験は、LaTeX-Numericが手動で介入することなく高いF1スコアを達成したことを示している。 最後に、言語に依存しないLaTeX-Numericが3つのロマンス言語で13.9%のF1改善を実現していることを示す。

In this paper, we present LaTeX-Numeric - a high-precision fully-automated scalable framework for extracting E-commerce numeric attributes from product text like product description. Most of the past work on attribute extraction is not scalable as they rely on manually curated training data, either with or without the use of active learning. We rely on distant supervision for training data generation, removing dependency on manual labels. One issue with distant supervision is that it leads to incomplete training annotation due to missing attribute values while matching. We propose a multi-task learning architecture to deal with missing labels in the training data, leading to F1 improvement of 9.2% for numeric attributes over single-task architecture. While multi-task architecture benefits both numeric and non-numeric attributes, we present automated techniques to further improve the numeric attributes extraction models. Numeric attributes require a list of units (or aliases) for better matching with distant supervision. We propose an automated algorithm for alias creation using product text and attribute values, leading to a 20.2% F1 improvement. Extensive experiments on real world dataset for 20 numeric attributes across 5 product categories and 3 English marketplaces show that LaTeX-Numeric achieves a high F1-score, without any manual intervention, making it suitable for practical applications. Finally, we show that the improvements are language-agnostic and LaTeX-Numeric achieves 13.9% F1 improvement for 3 Romance languages.
翻訳日:2021-04-21 13:36:43 公開日:2021-04-19
# 伝達学習はスパースマルチモーダルデータから構築した予測モデルにおけるシミュレーションバイアスを抑制する

Transfer learning suppresses simulation bias in predictive models built from sparse, multi-modal data ( http://arxiv.org/abs/2104.09684v1 )

ライセンス: Link先を確認
Bogdan Kustowski, Jim A. Gaffney, Brian K. Spears, Gemma J. Anderson, Rushil Anirudh, Peer-Timo Bremer, Jayaraman J. Thiagarajan (Lawrence Livermore National Laboratory, Livermore, CA)(参考訳) 科学、工学、ビジネスにおける多くの問題は、ごくわずかな観察に基づく予測を必要とする。 堅牢な予測モデルを構築するには、特に設計空間が多次元である場合、これらのスパースデータをシミュレーションデータで拡張する必要がある。 しかしシミュレーションは、しばしば固有のバイアスに悩まされる。 従来の予測モデルはスカラーや画像のような1種類の観測にのみ適合するので、このバイアスの予測はデータの分散のためだけでなく、大きなコストで取得・シミュレートされたすべてのデータモダリティに代えて、制約の弱いものとなる。 我々は,マルチモーダルデータからよりロバストな予測モデルを構築するために,ディープラーニングの最近の進展と,バイアスを抑制する最新の新しい手法を組み合わせて,複数のデータモダリティを考慮したモデルの拡張を行う。 まず、初期、シミュレーション訓練されたニューラルネットワークサロゲートモデルは、異なるデータモダリティとシミュレーション入力と出力の間の重要な相関を学習する。 その後、モデルは部分的に再訓練されるか、あるいは学習され、観察に適合する。 この手法は,10個未満の慣性凝縮核融合実験を用いてシミュレーション予測を体系的に改善し,単純な出力校正により予測が悪化することを示した。 また,本研究を支援するために,実データと合成データとのクロスバリデーションも行った。 伝達学習法は、シミュレーションから実観察領域への知識の伝達を必要とする他の問題に適用することができる。 本稿では,従来予測モデルでは無視されてきた複数のデータ型を用いたモデル校正への道を開く。

Many problems in science, engineering, and business require making predictions based on very few observations. To build a robust predictive model, these sparse data may need to be augmented with simulated data, especially when the design space is multidimensional. Simulations, however, often suffer from an inherent bias. Estimation of this bias may be poorly constrained not only because of data sparsity, but also because traditional predictive models fit only one type of observations, such as scalars or images, instead of all available data modalities, which might have been acquired and simulated at great cost. We combine recent developments in deep learning to build more robust predictive models from multimodal data with a recent, novel technique to suppress the bias, and extend it to take into account multiple data modalities. First, an initial, simulation-trained, neural network surrogate model learns important correlations between different data modalities and between simulation inputs and outputs. Then, the model is partially retrained, or transfer learned, to fit the observations. Using fewer than 10 inertial confinement fusion experiments for retraining, we demonstrate that this technique systematically improves simulation predictions while a simple output calibration makes predictions worse. We also offer extensive cross-validation with real and synthetic data to support our findings. The transfer learning method can be applied to other problems that require transferring knowledge from simulations to the domain of real observations. This paper opens up the path to model calibration using multiple data types, which have traditionally been ignored in predictive models.
翻訳日:2021-04-21 13:36:16 公開日:2021-04-19
# プローブデータを用いた交通速度推定:ディープニューラルネットワークによるアプローチ

Estimating Traffic Speeds using Probe Data: A Deep Neural Network Approach ( http://arxiv.org/abs/2104.09686v1 )

ライセンス: Link先を確認
Felix Rempe, Philipp Franeck, Klaus Bogenberger(参考訳) 本稿では,低速な高速道路における時空間交通速度を再構成するDeep Neural Network (DNN) アーキテクチャを提案する。 DNNは、特にプローブ車両から、スパース速度データの大規模なデータセットを用いて、異質な渋滞パターンを学ぶように構築されている。 dnnへの入力は2つの等サイズの入力行列であり、1つは生の測定データを含み、もう1つはデータに占有された細胞を示す。 符号化復号構造とフィードフォワードパスを備えた複数の畳み込み層からなるdnnは、入力をトラフィック速度の完全なマトリックスに変換する。 提案したDNNアーキテクチャは,異なる入力データ間隔で不均一な混雑パターンを正確に再構築する能力について評価する。 そのため、ドイツ高速道路A9で2ヶ月の間に収集された大規模な浮動車データ(FCD)が利用される。 総じて43の渋滞シナリオが観察され、そのシナリオは移動パターンと定常的な混雑パターンから構成される。 データの入力出力サンプルを生成するためにデータ拡張手法を適用し,DNNシフト不変性を向上するとともに,データの分散性を管理する。 DNNはトレーニングされ、その後、目に見えない混雑シナリオのスパースデータに適用される。 その結果,DNNは学習パターンを適用でき,移動や定常的な渋滞を高精度に再現できることがわかった。 ASM(Adaptive Smoothing Method)、PSM( Phase-Based Smoothing Method)、標準畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)アーキテクチャなど、いくつかの最先端手法の結果と、再構成された速度を質的に定量的に比較する。 その結果、DNNは他の手法よりも大幅に優れている。

This paper presents a dedicated Deep Neural Network (DNN) architecture that reconstructs space-time traffic speeds on freeways given sparse data. The DNN is constructed in such a way, that it learns heterogeneous congestion patterns using a large dataset of sparse speed data, in particular from probe vehicles. Input to the DNN are two equally sized input matrices: one containing raw measurement data, and the other indicates the cells occupied with data. The DNN, comprising multiple stacked convolutional layers with an encoding-decoding structure and feed-forward paths, transforms the input into a full matrix of traffic speeds. The proposed DNN architecture is evaluated with respect to its ability to accurately reconstruct heterogeneous congestion patterns under varying input data sparsity. Therefore, a large set of empirical Floating-Car Data (FCD) collected on German freeway A9 during two months is utilized. In total, 43 congestion distinct scenarios are observed which comprise moving and stationary congestion patterns. A data augmentation technique is applied to generate input-output samples of the data, which makes the DNN shift-invariant as well as capable of managing varying data sparsities. The DNN is trained and subsequently applied to sparse data of an unseen congestion scenario. The results show that the DNN is able to apply learned patterns, and reconstructs moving as well as stationary congested traffic with high accuracy; even given highly sparse input data. Reconstructed speeds are compared qualitatively and quantitatively with the results of several state-of-the-art methods such as the Adaptive Smoothing Method (ASM), the Phase-Based Smoothing Method (PSM) and a standard Convolutional Neural Network (CNN) architecture. As a result, the DNN outperforms the other methods significantly.
翻訳日:2021-04-21 13:35:50 公開日:2021-04-19
# automtpを用いたマルチターゲット予測における自動問題設定

Automated problem setting selection in multi-target prediction with AutoMTP ( http://arxiv.org/abs/2104.09967v1 )

ライセンス: Link先を確認
Dimitrios Iliadis, Bernard De Baets, Willem Waegeman(参考訳) アルゴリズム選択(AS)は、与えられた問題の候補の集合から最も適したアルゴリズムの選択に関するものである。 ASの領域は、機械学習の研究者や実践者から多くの注目を集めている。この一連の研究によって、機械学習の専門知識が、他のドメインの専門家や一般大衆にも容易にアクセスできるようになるからだ。 もう一つの急速に広がる領域はMulti-Target Prediction (MTP)である。 多様なタイプの複数のターゲット変数を同時に予測する能力は、MSPの関心を多くのアプリケーションに向ける。 MTPは、マルチラベル分類、マルチターゲット回帰、マルチタスク学習、ダイアディック予測、ゼロショット学習、ネットワーク推論、行列補完など、機械学習のいくつかのサブフィールドを取り入れている。 本研究は,MTPのアルゴリズム選択を行う自動フレームワークであるAutoMTPを提案することによって,上記の2つの領域を組み合わせる。 アルゴリズム選択ステップのためのルールベースシステムと、mtpのいくつかのサブフィールドに使用できるフレキシブルニューラルネットワークアーキテクチャを採用することで、automtpを実現する。

Algorithm Selection (AS) is concerned with the selection of the best-suited algorithm out of a set of candidates for a given problem. The area of AS has received a lot of attention from machine learning researchers and practitioners, as positive results along this line of research can make expertise in ML more readily accessible to experts in other domains as well as to the general public. Another quickly expanding area is that of Multi-Target Prediction (MTP). The ability to simultaneously predict multiple target variables of diverse types makes MTP of interest for a plethora of applications. MTP embraces several subfields of machine learning, such as multi-label classification, multi-target regression, multi-task learning, dyadic prediction, zero-shot learning, network inference, and matrix completion. This work combines the two above-mentioned areas by proposing AutoMTP, an automated framework that performs algorithm selection for MTP. AutoMTP is realized by adopting a rule-based system for the algorithm selection step and a flexible neural network architecture that can be used for the several subfields of MTP.
翻訳日:2021-04-21 13:34:31 公開日:2021-04-19
# SALAD:リアルタイム時系列の自己適応型軽量異常検出

SALAD: Self-Adaptive Lightweight Anomaly Detection for Real-time Recurrent Time Series ( http://arxiv.org/abs/2104.09968v1 )

ライセンス: Link先を確認
Ming-Chang Lee, Jia-Chun Lin, and Ernst Gunnar Gran(参考訳) 実世界の時系列データは、しばしば繰り返しまたは繰り返しのパターンを示し、輸送客数、ネットワークトラフィック、システムリソース消費、エネルギー使用量、人間の歩行など、リアルタイムに生成されることが多い。 このような時系列データにおける機械学習アプローチに基づく異常事象の検出は多くの分野において活発な研究課題となっている。 しかしながら、ほとんどの機械学習アプローチはラベル付きデータセット、オフライントレーニングを必要としており、高い計算複雑性に悩まされるため、適用性を妨げている。 オフライントレーニングを事前に必要とせず、同時にリアルタイムに異常を検出する軽量な自己適応型アプローチを提供することは、非常に有益である。 このようなアプローチを即座に適用して,任意のコモディティマシンにデプロイして,タイムリーな異常アラートを提供することも可能だ。 このようなアプローチを容易にするために,LSTM(Long Short-Term Memory)と呼ばれる特殊タイプのリカレントニューラルネットワークに基づく自己適応型軽量異常検出手法であるSALADを提案する。 オフライントレーニングを使用する代わりに、SALADはターゲットの時系列をフライ時の平均絶対相対誤差(AARE)の一連の値に変換し、短期的な歴史的AARE値に基づいて、今後のすべてのデータポイントに対するAARE値を予測する。 算出されたAARE値と対応する予測AARE値との差が自己適応検出閾値よりも高い場合、対応するデータポイントが異常とみなされる。 さもなくば、データポイントは正常とみなされる。 2つの実世界のオープンソース時系列データセットに基づく実験により、SALADは他の5つの最先端の異常検出アプローチよりも精度が高いことが示された。 さらに、SALADは軽量であり、コモディティマシンにデプロイ可能であることも示している。

Real-world time series data often present recurrent or repetitive patterns and it is often generated in real time, such as transportation passenger volume, network traffic, system resource consumption, energy usage, and human gait. Detecting anomalous events based on machine learning approaches in such time series data has been an active research topic in many different areas. However, most machine learning approaches require labeled datasets, offline training, and may suffer from high computation complexity, consequently hindering their applicability. Providing a lightweight self-adaptive approach that does not need offline training in advance and meanwhile is able to detect anomalies in real time could be highly beneficial. Such an approach could be immediately applied and deployed on any commodity machine to provide timely anomaly alerts. To facilitate such an approach, this paper introduces SALAD, which is a Self-Adaptive Lightweight Anomaly Detection approach based on a special type of recurrent neural networks called Long Short-Term Memory (LSTM). Instead of using offline training, SALAD converts a target time series into a series of average absolute relative error (AARE) values on the fly and predicts an AARE value for every upcoming data point based on short-term historical AARE values. If the difference between a calculated AARE value and its corresponding forecast AARE value is higher than a self-adaptive detection threshold, the corresponding data point is considered anomalous. Otherwise, the data point is considered normal. Experiments based on two real-world open-source time series datasets demonstrate that SALAD outperforms five other state-of-the-art anomaly detection approaches in terms of detection accuracy. In addition, the results also show that SALAD is lightweight and can be deployed on a commodity machine.
翻訳日:2021-04-21 13:34:13 公開日:2021-04-19
# Reach-to-Grasp動作中の筋電図時系列の分割と分類

Segmentation and Classification of EMG Time-Series During Reach-to-Grasp Motion ( http://arxiv.org/abs/2104.09627v1 )

ライセンス: Link先を確認
Mo Han, Mehrshad Zandigohar, Mariusz P. Furmanek, Mathew Yarossi, Gunar Schirner, Deniz Erdogmus(参考訳) エレクトロミオグラフィー(EMG)信号は、人間のロボットインタラクションにおいて、ユーザの手と腕の動き指示を抽出するために広く利用されている。 ロボットとのオンラインインタラクションの大きな課題は、リアルタイムデータからの信頼性の高いEMG認識である。 しかし, 従来の研究では, 少数の把持パターンを有する定常的筋電図信号を用いた分類アルゴリズムの実装が主であり, 動的筋活動変動に対するロバスト制御が不十分であった。 トレーニングとバリデーションの間により多くのEMG変数を導入することで、より優れた動的動き検出を実現することができるが、そのような把握動作の識別に焦点を絞った研究は限られており、非静的EMG分類に関するこれらの評価は、移動状態の教師付き地味ラベルを必要とする。 本研究では,連続的把持動作から発生する筋電図信号の動的アーム・ハンド姿勢の変化を教師なし動作分節法を用いて分類する枠組みを提案する。 我々は,複数の動的動作位相を持つ大規模ジェスチャー語彙からデータを収集し,握り動作の共通配列に基づいて,ある意図から別の目的への遷移を符号化した。 動作相ラベルと把持型ラベルを識別するために2つの分類器を構築し,動的動作相を分割し教師なしでラベル付けした。 提案手法は,emgデータの自由度が高いため,時間経過に伴う精度の変動をリアルタイムに評価した。

The electromyography (EMG) signals have been widely utilized in human robot interaction for extracting user hand and arm motion instructions. A major challenge of the online interaction with robots is the reliable EMG recognition from real-time data. However, previous studies mainly focused on using steady-state EMG signals with a small number of grasp patterns to implement classification algorithms, which is insufficient to generate robust control regarding the dynamic muscular activity variation in practice. Introducing more EMG variability during training and validation could implement a better dynamic-motion detection, but only limited research focused on such grasp-movement identification, and all of those assessments on the non-static EMG classification require supervised ground-truth label of the movement status. In this study, we propose a framework for classifying EMG signals generated from continuous grasp movements with variations on dynamic arm/hand postures, using an unsupervised motion status segmentation method. We collected data from large gesture vocabularies with multiple dynamic motion phases to encode the transitions from one intent to another based on common sequences of the grasp movements. Two classifiers were constructed for identifying the motion-phase label and grasp-type label, where the dynamic motion phases were segmented and labeled in an unsupervised manner. The proposed framework was evaluated in real-time with the accuracy variation over time presented, which was shown to be efficient due to the high degree of freedom of the EMG data.
翻訳日:2021-04-21 13:32:53 公開日:2021-04-19
# ダイナミックスキップ接続ネットワークによるディスプレイ下カメラの回折画像の除去

Removing Diffraction Image Artifacts in Under-Display Camera via Dynamic Skip Connection Network ( http://arxiv.org/abs/2104.09556v1 )

ライセンス: Link先を確認
Ruicheng Feng, Chongyi Li, Huaijin Chen, Shuai Li, Chen Change Loy, Jinwei Gu(参考訳) 最近のudc(under-display camera)システムの開発は、スマートフォン(およびテレビ、ラップトップ、タブレット)でベゼルなしでノッチなしの視聴体験を提供し、下に埋め込まれた自撮りカメラから画像を撮影することができる。 典型的なudcシステムでは、半透明有機発光ダイオード(oled)画素アレイの微細構造がカメラの入射光を減衰させ拡散させ、画質を著しく低下させる。 udc画像では、しばしば、ノイズ、フレア、ヘイズ、ぼやけが観察される。 本研究では, 上記の劣化問題を分析し, 対処することを目的とする。 劣化をよりよく理解するために物理ベースの画像形成モデルを定義する。 また,世界初となる市販のudcスマートフォンプロトタイプの1つを用いて,udcシステムの実世界の点拡散関数(psf)を計測し,現実的に劣化した画像を生成するモデルベースデータ合成パイプラインを提供する。 UDC画像の復元のために,新しいドメイン知識対応動的スキップ接続ネットワーク(DISCNet)を設計する。 提案手法の有効性を, 合成および実 UDC データの広範囲な実験により実証する。 我々の物理ベースの画像形成モデルと提案するディスクネットは、udc画像復元のさらなる探索や、より広い意味での一般的な回折アーティファクト除去の基礎を提供することができる。

Recent development of Under-Display Camera (UDC) systems provides a true bezel-less and notch-free viewing experience on smartphones (and TV, laptops, tablets), while allowing images to be captured from the selfie camera embedded underneath. In a typical UDC system, the microstructure of the semi-transparent organic light-emitting diode (OLED) pixel array attenuates and diffracts the incident light on the camera, resulting in significant image quality degradation. Oftentimes, noise, flare, haze, and blur can be observed in UDC images. In this work, we aim to analyze and tackle the aforementioned degradation problems. We define a physics-based image formation model to better understand the degradation. In addition, we utilize one of the world's first commodity UDC smartphone prototypes to measure the real-world Point Spread Function (PSF) of the UDC system, and provide a model-based data synthesis pipeline to generate realistically degraded images. We specially design a new domain knowledge-enabled Dynamic Skip Connection Network (DISCNet) to restore the UDC images. We demonstrate the effectiveness of our method through extensive experiments on both synthetic and real UDC data. Our physics-based image formation model and proposed DISCNet can provide foundations for further exploration in UDC image restoration, and even for general diffraction artifact removal in a broader sense.
翻訳日:2021-04-21 13:31:17 公開日:2021-04-19
# カーネルヒルベルト空間の再現におけるロバスト不確かさ境界:凸最適化アプローチ

Robust Uncertainty Bounds in Reproducing Kernel Hilbert Spaces: A Convex Optimization Approach ( http://arxiv.org/abs/2104.09582v1 )

ライセンス: Link先を確認
Paul Scharnhorst, Emilio T. Maddalena, Yuning Jiang, Colin N. Jones(参考訳) ラベル付きデータセットに散在したサンプルを与え、既知の正定値核の再生核ヒルベルト空間(英語版)(rkhs)に属する基底の仮説を考える。 この関数を学習するリスクを制限し、見当たらない入力位置でサンプル外境界を確立できることが知られている。 計算が厳密で有限サンプルの不確実性は、パラメトリックな2次制約付き線形プログラムの解法と重なることを示す。 我々の設定では、出力は任意のコンパクトに支持された分布から発せられる境界測定ノイズによって汚染されると仮定される。 利用可能なデータには独立性の仮定はない。 本結果を他の閉形式代替物と比較するために, 数値実験を行った。

Let a labeled dataset be given with scattered samples and consider the hypothesis of the ground-truth belonging to the reproducing kernel Hilbert space (RKHS) of a known positive-definite kernel. It is known that out-of-sample bounds can be established at unseen input locations, thus limiting the risk associated with learning this function. We show how computing tight, finite-sample uncertainty bounds amounts to solving parametric quadratically constrained linear programs. In our setting, the outputs are assumed to be contaminated by bounded measurement noise that can otherwise originate from any compactly supported distribution. No independence assumptions are made on the available data. Numerical experiments are presented to compare the present results with other closed-form alternatives.
翻訳日:2021-04-21 13:26:44 公開日:2021-04-19
# オンライン非線形モデリングのための適応フィルタの新しいクラス

A New Class of Efficient Adaptive Filters for Online Nonlinear Modeling ( http://arxiv.org/abs/2104.09641v1 )

ライセンス: Link先を確認
Danilo Comminiello, Alireza Nezamdoust, Simone Scardapane, Michele Scarpiniti, Amir Hussain, Aurelio Uncini(参考訳) 非線形モデルは、非理想的条件下でしばしば動作する実世界のアプリケーションにおいて優れた性能を提供することが知られている。 しかし、そのようなアプリケーションでは、計算資源が限られてオンライン処理が要求されることが多い。 本稿では,オンラインアプリケーションのための非線形モデルを提案する。 提案アルゴリズムは線形パラメータ(LIP)非線形フィルタとその機能的リンク適応フィルタ(FLAF)としての実装に基づいている。 本稿では、周波数領域適応フィルタに基づくFLAFの新しい効率的かつ効率的なアプローチに焦点を当てる。 本稿では、周波数領域関数リンク適応フィルタ(FD-FLAF)のクラスを導入し、その実装のための分割ブロックアプローチを提案する。 また、周波数領域内の限られたリソースで運用する最も重要な利点を提供する機能的リンク拡張についても検討する。 本稿では,FD-FLAFを異なる拡張で比較し,性能と計算複雑性の最良のトレードオフを示すLIP非線形フィルタを同定する。 実験結果から, 周波数領域リップ非線形フィルタは, 非線形音響エコーキャンセリングのようなオンラインアプリケーションにとって効率的かつ効果的なソリューションであると考えられる。

Nonlinear models are known to provide excellent performance in real-world applications that often operate in non-ideal conditions. However, such applications often require online processing to be performed with limited computational resources. In this paper, we propose a new efficient nonlinear model for online applications. The proposed algorithm is based on the linear-in-the-parame ters (LIP) nonlinear filters and their implementation as functional link adaptive filters (FLAFs). We focus here on a new effective and efficient approach for FLAFs based on frequency-domain adaptive filters. We introduce the class of frequency-domain functional link adaptive filters (FD-FLAFs) and propose a partitioned block approach for their implementation. We also investigate on the functional link expansions that provide the most significant benefits operating with limited resources in the frequency-domain. We present and compare FD-FLAFs with different expansions to identify the LIP nonlinear filters showing the best tradeoff between performance and computational complexity. Experimental results prove that the frequency domain LIP nonlinear filters can be considered as an efficient and effective solution for online applications, like the nonlinear acoustic echo cancellation.
翻訳日:2021-04-21 13:26:00 公開日:2021-04-19
# (参考訳) データ表現と解析のための量子アルゴリズム

Quantum Algorithms for Data Representation and Analysis ( http://arxiv.org/abs/2104.08987v1 )

ライセンス: CC BY 4.0
Armando Bellante, Alessandro Luongo, Stefano Zanero(参考訳) 量子線形代数に関する従来の文献と量子コンピュータ上の有用なデータ解析とのギャップを狭め、機械学習におけるデータ表現のための固有問題解を高速化する量子手続きを提供する。 これらのサブルーチンのパワーと実用性は、主成分分析、対応解析、潜在意味解析のための入力行列の大きさのサブ線形量子アルゴリズムによって示される。 我々は、実行時間の理論的解析を行い、ランダム化アルゴリズムの誤差の厳密な境界を証明する。 我々は複数のデータセットで実験を行い、新しいルーチンで画像分類のためのPCAの次元削減をシミュレートした。 その結果、入力のサイズに依存しない実行時のパラメータは妥当であり、計算モデル上の誤差が小さいことが示され、競合的な分類性能が得られる。

We narrow the gap between previous literature on quantum linear algebra and useful data analysis on a quantum computer, providing quantum procedures that speed-up the solution of eigenproblems for data representation in machine learning. The power and practical use of these subroutines is shown through new quantum algorithms, sublinear in the input matrix's size, for principal component analysis, correspondence analysis, and latent semantic analysis. We provide a theoretical analysis of the run-time and prove tight bounds on the randomized algorithms' error. We run experiments on multiple datasets, simulating PCA's dimensionality reduction for image classification with the novel routines. The results show that the run-time parameters that do not depend on the input's size are reasonable and that the error on the computed model is small, allowing for competitive classification performances.
翻訳日:2021-04-21 05:38:51 公開日:2021-04-19
# (参考訳) 自律的サイバー防衛のための制約充足性強化学習 [全文訳有]

Constraints Satisfiability Driven Reinforcement Learning for Autonomous Cyber Defense ( http://arxiv.org/abs/2104.08994v1 )

ライセンス: CC BY 4.0
Ashutosh Dutta, Ehab Al-Shaer, and Samrat Chatterjee(参考訳) システムの複雑さの増大と高度な攻撃により、自律的なサイバー防御の必要性はサイバーおよびサイバー物理システム(CPS)にとって鮮明なものとなる。 現在の最先端の既存のフレームワークの多くは、非現実的な仮定を持つ静的モデルに依存するか、システムの安全性とセキュリティ要件を満たすことができない。 本稿では,エージェントの判断ループに制約検証(SMT)を組み込むことにより,強化学習(RL)の防御方針を最適化し,検証することを目的とした,ハイブリッド自律エージェントアーキテクチャを提案する。 SMTの組織化は、安全性とセキュリティ要件の満足度を確保するだけでなく、安全かつ効果的な行動に向けたRL意思決定を常にフィードバックする。 このアプローチは、安全性やセキュリティ違反によるリスクの高いCPSに対して、極めて必要である。 シミュレーションCPS環境における提案手法の評価は, エージェントが最適方針を迅速に学習し, 99\%のケースで多種多様な攻撃戦略を破ることを示す。

With the increasing system complexity and attack sophistication, the necessity of autonomous cyber defense becomes vivid for cyber and cyber-physical systems (CPSs). Many existing frameworks in the current state-of-the-art either rely on static models with unrealistic assumptions, or fail to satisfy the system safety and security requirements. In this paper, we present a new hybrid autonomous agent architecture that aims to optimize and verify defense policies of reinforcement learning (RL) by incorporating constraints verification (using satisfiability modulo theory (SMT)) into the agent's decision loop. The incorporation of SMT does not only ensure the satisfiability of safety and security requirements, but also provides constant feedback to steer the RL decision-making toward safe and effective actions. This approach is critically needed for CPSs that exhibit high risk due to safety or security violations. Our evaluation of the presented approach in a simulated CPS environment shows that the agent learns the optimal policy fast and defeats diversified attack strategies in 99\% cases.
翻訳日:2021-04-21 05:37:52 公開日:2021-04-19
# (参考訳) resnet-50を用いたマスク顔認識 [全文訳有]

Masked Face Recognition using ResNet-50 ( http://arxiv.org/abs/2104.08997v1 )

ライセンス: CC BY 4.0
Bishwas Mandal, Adaeze Okeukwu, Yihong Theis(参考訳) 過去20年間で、世界中でいくつかの異なる新型コロナウイルスの流行があった。 これらのアウトブレイクはしばしば呼吸器疾患を引き起こし、時には致命的であることが判明した。 現在、新型コロナウイルス(covid-19)の感染拡大に伴う健康危機に直面している。 新型コロナウイルス19の感染モードの一つは空中感染である。 この伝達は、人間が呼吸、話す、歌う、かじる、またはくしゃみを通じて感染した人が放出した液滴に呼吸するときに起こる。 そのため、公衆衛生当局は病気の感染を65%削減できるマスクの使用を義務付けている。 顔認証プログラムでは、マスクのない人間の顔で訓練されるのが一般的だが、Covid-19のパンデミックの開始によりマスクで顔を識別せざるを得なくなったため、マスクの使用は厳しい課題となっている。 そこで本稿では,顔をマスクした人物を正確に識別できるディープラーニングモデルを開発した。 本稿では,ResNet-50ベースのアーキテクチャをトレーニングし,マスク面の認識に優れることを示す。 この研究の成果は、セキュリティ検証のために顔を検出するために設計された既存の顔認識プログラムにシームレスに統合することができる。

Over the last twenty years, there have seen several outbreaks of different coronavirus diseases across the world. These outbreaks often led to respiratory tract diseases and have proved to be fatal sometimes. Currently, we are facing an elusive health crisis with the emergence of COVID-19 disease of the coronavirus family. One of the modes of transmission of COVID- 19 is airborne transmission. This transmission occurs as humans breathe in the droplets released by an infected person through breathing, speaking, singing, coughing, or sneezing. Hence, public health officials have mandated the use of face masks which can reduce disease transmission by 65%. For face recognition programs, commonly used for security verification purposes, the use of face mask presents an arduous challenge since these programs were typically trained with human faces devoid of masks but now due to the onset of Covid-19 pandemic, they are forced to identify faces with masks. Hence, this paper investigates the same problem by developing a deep learning based model capable of accurately identifying people with face-masks. In this paper, the authors train a ResNet-50 based architecture that performs well at recognizing masked faces. The outcome of this study could be seamlessly integrated into existing face recognition programs that are designed to detect faces for security verification purposes.
翻訳日:2021-04-21 05:28:43 公開日:2021-04-19
# (参考訳) カーネルシードネットワークを用いたスケーラブルベイズ型ディープラーニング [全文訳有]

Scalable Bayesian Deep Learning with Kernel Seed Networks ( http://arxiv.org/abs/2104.09005v1 )

ライセンス: CC BY-SA 4.0
Sam Maksoud, Kun Zhao, Can Peng, Brian C. Lovell(参考訳) 本稿ではベイジアンディープニューラルネットワークのスケーラビリティ問題に対処する。 ディープニューラルネットワークの性能は、これらのアルゴリズムが不確実性のキャリブレーションが不十分であるという事実によって損なわれている。 これにより、コンピュータ支援診断や自律走行車ナビゲーションのようなリスクの高い領域での応用が制限される。 Bayesian Deep Learning (BDL)は、ニューラルネットワークにおける不確実性を表現するための有望な方法を提供する。 しかし、bdlは分布を学ぶためにモデル重みの平均と標準偏差を保存するために別々のパラメータセットを必要とする。 これにより、モデルパラメータの数が2倍に増加します。 この問題に対処するために,我々は,パラメータ数を2倍に増やす必要のない,カーネルシードネットワーク(ksn)と呼ばれるbdlを実行する方法を提案する。 KSNは1x1の畳み込み演算を用いてパラメータ分布の圧縮潜在空間表現を学習する。 本稿では,KSNが従来のBDL手法より優れている一方で,必要なパラメータの数を最大6.6倍に削減できることを示す。

This paper addresses the scalability problem of Bayesian deep neural networks. The performance of deep neural networks is undermined by the fact that these algorithms have poorly calibrated measures of uncertainty. This restricts their application in high risk domains such as computer aided diagnosis and autonomous vehicle navigation. Bayesian Deep Learning (BDL) offers a promising method for representing uncertainty in neural network. However, BDL requires a separate set of parameters to store the mean and standard deviation of model weights to learn a distribution. This results in a prohibitive 2-fold increase in the number of model parameters. To address this problem we present a method for performing BDL, namely Kernel Seed Networks (KSN), which does not require a 2-fold increase in the number of parameters. KSNs use 1x1 Convolution operations to learn a compressed latent space representation of the parameter distribution. In this paper we show how this allows KSNs to outperform conventional BDL methods while reducing the number of required parameters by up to a factor of 6.6.
翻訳日:2021-04-21 05:18:59 公開日:2021-04-19
# (参考訳) オートエンコーダを用いた遺伝子配列データの多次元スケーリング [全文訳有]

Multidimensional Scaling for Gene Sequence Data with Autoencoders ( http://arxiv.org/abs/2104.09014v1 )

ライセンス: CC BY 4.0
Pulasthi Wickramasinghe, Geoffrey Fox(参考訳) 遺伝子配列データの多次元スケーリングは、長い間、配列データを分析してクラスタやパターンを特定する上で重要な役割を担ってきた。 しかし、最先端の次元スケーリングアルゴリズムの計算複雑性とメモリ要求により、大規模なデータセットにスケールすることは不可能である。 本稿では,数百万の遺伝子配列を含むデータセットに容易にスケール可能な自動エンコーダに基づく次元縮小モデルを提案する。 このモデルは、実験に基づいて99.5%以上の精度でサンプル外データポイントもサポートする。 提案モデルは実世界の真菌遺伝子配列データセットを用いてDAMDSに対して評価する。 本稿では,オートエンコーダに基づく次元縮小モデルの有効性とその利点を示す。

Multidimensional scaling of gene sequence data has long played a vital role in analysing gene sequence data to identify clusters and patterns. However the computation complexities and memory requirements of state-of-the-art dimensional scaling algorithms make it infeasible to scale to large datasets. In this paper we present an autoencoder-based dimensional reduction model which can easily scale to datasets containing millions of gene sequences, while attaining results comparable to state-of-the-art MDS algorithms with minimal resource requirements. The model also supports out-of-sample data points with a 99.5%+ accuracy based on our experiments. The proposed model is evaluated against DAMDS with a real world fungi gene sequence dataset. The presented results showcase the effectiveness of the autoencoder-based dimension reduction model and its advantages.
翻訳日:2021-04-21 05:08:25 公開日:2021-04-19
# (参考訳) 無線通信システムにおけるグラフニューラルネットワークを用いた分散推論 [全文訳有]

Decentralized Inference with Graph Neural Networks in Wireless Communication Systems ( http://arxiv.org/abs/2104.09027v1 )

ライセンス: CC BY 4.0
Mengyuan Lee, Guanding Yu, and Huaiyu Dai(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータのための効率的なニューラルネットワークモデルであり、無線通信を含むさまざまな分野で広く利用されている。 他のニューラルネットワークモデルとは異なり、GNNは隣人の情報交換と分散的に実装できるため、無線通信システムにおける分散制御のための潜在的に強力なツールである。 しかし、主なボトルネックは、GNNの予測ロバスト性を低下させる無線チャネル障害である。 この障害を克服するために、本稿では、異なる無線通信システムにおける分散GNNのロバスト性を分析し、強化する。 具体的には、GNNバイナリ分類器を例として、予測が堅牢かどうかを検証する方法論を最初に開発する。 そして,非符号化および符号化された無線通信システムにおいて,分散化GNNバイナリ分類器の性能を解析する。 無線伝送の不完全性を解消し、予測ロバスト性を高めるため、上記2つの通信システムの新しい再送機構をそれぞれ提案する。 合成グラフデータのシミュレーションにより,本解析の有効性を確認し,提案する再送機構の有効性を検証し,実際に実施するための知見を提供する。

Graph neural network (GNN) is an efficient neural network model for graph data and is widely used in different fields, including wireless communications. Different from other neural network models, GNN can be implemented in a decentralized manner with information exchanges among neighbors, making it a potentially powerful tool for decentralized control in wireless communication systems. The main bottleneck, however, is wireless channel impairments that deteriorate the prediction robustness of GNN. To overcome this obstacle, we analyze and enhance the robustness of the decentralized GNN in different wireless communication systems in this paper. Specifically, using a GNN binary classifier as an example, we first develop a methodology to verify whether the predictions are robust. Then, we analyze the performance of the decentralized GNN binary classifier in both uncoded and coded wireless communication systems. To remedy imperfect wireless transmission and enhance the prediction robustness, we further propose novel retransmission mechanisms for the above two communication systems, respectively. Through simulations on the synthetic graph data, we validate our analysis, verify the effectiveness of the proposed retransmission mechanisms, and provide some insights for practical implementation.
翻訳日:2021-04-21 04:56:10 公開日:2021-04-19
# (参考訳) benchmarking the benchmark -- analysis of synthetic nids datasets (英語) [全文訳有]

Benchmarking the Benchmark -- Analysis of Synthetic NIDS Datasets ( http://arxiv.org/abs/2104.09029v1 )

ライセンス: CC BY 4.0
Siamak Layeghy, Marcus Gallagher, Marius Portmann(参考訳) ネットワーク侵入検知システム(NIDS)は、サイバー攻撃の防止と緩和のためにますます重要なツールである。 多くのラベル付き合成データセットが作成され、研究者によって公開されており、新しいMLベースのNIDS分類器が評価されているベンチマークとなっている。 最近発表された結果は、これらのデータセットで優れた分類性能を示し、精度、F1スコアなどの主要な評価指標で100%のパフォーマンスに近づきつつある。 残念なことに、これらの優れた学術研究成果が、ほぼ完璧な性能を持つ実践的なNIDSシステムに変換されることは、まだありません。 そこで本研究では,より最近かつ関連する3つのnidsデータセット (cic, unsw, ...) において,良性トラフィックの統計特性を解析した。 比較として,大学ネットワークと中規模インターネットサービスプロバイダ(ISP)の2つの実世界の生産ネットワークから得られたデータセットについて考察する。 以上の結果から,2つの実世界のデータセットは,統計的に考慮された特徴のほとんどに非常によく似ていることがわかった。 同様に、3つの合成データセットもグループ内では比較的類似している。 しかし,本研究の結果は,3つの合成データセットと2つの実世界のデータセットの統計的特徴のほとんどをはっきりと示している。 MLは、同じ分布からサンプリングされたトレーニングとテストデータセットの基本的な仮定に依存しているため、考慮された合成データセットに基づいてトレーニングされたML分類器のパフォーマンス結果が、現実のネットワークにどのように翻訳および一般化できるかという疑問が提起される。 この分野のさらなる研究の動機となる興味深い、関連する質問だと考えています。

Network Intrusion Detection Systems (NIDSs) are an increasingly important tool for the prevention and mitigation of cyber attacks. A number of labelled synthetic datasets generated have been generated and made publicly available by researchers, and they have become the benchmarks via which new ML-based NIDS classifiers are being evaluated. Recently published results show excellent classification performance with these datasets, increasingly approaching 100 percent performance across key evaluation metrics such as accuracy, F1 score, etc. Unfortunately, we have not yet seen these excellent academic research results translated into practical NIDS systems with such near-perfect performance. This motivated our research presented in this paper, where we analyse the statistical properties of the benign traffic in three of the more recent and relevant NIDS datasets, (CIC, UNSW, ...). As a comparison, we consider two datasets obtained from real-world production networks, one from a university network and one from a medium size Internet Service Provider (ISP). Our results show that the two real-world datasets are quite similar among themselves in regards to most of the considered statistical features. Equally, the three synthetic datasets are also relatively similar within their group. However, and most importantly, our results show a distinct difference of most of the considered statistical features between the three synthetic datasets and the two real-world datasets. Since ML relies on the basic assumption of training and test datasets being sampled from the same distribution, this raises the question of how well the performance results of ML-classifiers trained on the considered synthetic datasets can translate and generalise to real-world networks. We believe this is an interesting and relevant question which provides motivation for further research in this space.
翻訳日:2021-04-21 04:24:00 公開日:2021-04-19
# (参考訳) 生産対知覚: 使用法に基づく文法誘導における個人性の役割 [全文訳有]

Production vs Perception: The Role of Individuality in Usage-Based Grammar Induction ( http://arxiv.org/abs/2104.09033v1 )

ライセンス: CC BY 4.0
Jonathan Dunn and Andrea Nini(参考訳) 本稿では,文法と語彙の成長曲線(i)コーパスの独立部分集合から学習した表現の類似性(ii)について,生産ベースと知覚ベースの文法誘導の区別が影響するかどうかを問う。 生産ベースモデルは、個々の個人の使用に基づいて訓練され、単一の話者の文法的知識をシミュレートする。 知覚に基づくモデルは、多くの個人の集合に基づいて訓練され、多くの異なる話者への暴露から学んだ文法的一般化をシミュレートする。 堅牢性を確保するため、実験は2つの英語のレジスタに複製され、さらに4つのレジスタがコントロールとして保持される。 3つの計算実験のセットは、生産ベースの文法が全ての条件における知覚に基づく文法と大きく異なることを示し、より急勾配な成長曲線は、実質的な個人間の文法的差異によって説明できる。

This paper asks whether a distinction between production-based and perception-based grammar induction influences either (i) the growth curve of grammars and lexicons or (ii) the similarity between representations learned from independent sub-sets of a corpus. A production-based model is trained on the usage of a single individual, thus simulating the grammatical knowledge of a single speaker. A perception-based model is trained on an aggregation of many individuals, thus simulating grammatical generalizations learned from exposure to many different speakers. To ensure robustness, the experiments are replicated across two registers of written English, with four additional registers reserved as a control. A set of three computational experiments shows that production-based grammars are significantly different from perception-based grammars across all conditions, with a steeper growth curve that can be explained by substantial inter-individual grammatical differences.
翻訳日:2021-04-21 04:04:48 公開日:2021-04-19
# (参考訳) 厳密な探索空間を用いた画像超解のニューラルネットワーク探索:DeCoNAS [全文訳有]

Neural Architecture Search for Image Super-Resolution Using Densely Constructed Search Space: DeCoNAS ( http://arxiv.org/abs/2104.09048v1 )

ライセンス: CC BY 4.0
Joon Young Ahn and Nam Ik Cho(参考訳) 深層畳み込みニューラルネットワークの最近の進歩は、シングルイメージスーパーレゾリューション(sisr)や他の多くの視覚タスクで大きな成功を収めた。 彼らのパフォーマンスは、ネットワークの深化とより洗練されたネットワーク構造の開発によって向上している。 しかし、与えられた問題に対して最適な構造を見つけることは、人間の専門家にとっても難しい課題である。 このため、構造構築の手順を自動化するニューラル・アーキテクチャ・サーチ(nas)法が導入された。 本稿では,NASを超高分解能領域に拡張し,DeCoNASNetという高密度接続ネットワークを求める。 階層的な検索戦略を使用して,ローカル機能とグローバル機能との最高の接続を見つけます。 このプロセスでは,画像超解法を解くための複雑性に基づくペナルティを定義し,多目的問題とみなすことができる。 実験の結果,DeCoNASNetは手工法やNASをベースとした設計によって設計された,最先端の軽量超解像ネットワークよりも優れていた。

The recent progress of deep convolutional neural networks has enabled great success in single image super-resolution (SISR) and many other vision tasks. Their performances are also being increased by deepening the networks and developing more sophisticated network structures. However, finding an optimal structure for the given problem is a difficult task, even for human experts. For this reason, neural architecture search (NAS) methods have been introduced, which automate the procedure of constructing the structures. In this paper, we expand the NAS to the super-resolution domain and find a lightweight densely connected network named DeCoNASNet. We use a hierarchical search strategy to find the best connection with local and global features. In this process, we define a complexity-based penalty for solving image super-resolution, which can be considered a multi-objective problem. Experiments show that our DeCoNASNet outperforms the state-of-the-art lightweight super-resolution networks designed by handcraft methods and existing NAS-based design.
翻訳日:2021-04-21 03:53:25 公開日:2021-04-19
# (参考訳) メタデータの正規化 [全文訳有]

Metadata Normalization ( http://arxiv.org/abs/2104.09052v1 )

ライセンス: CC BY 4.0
Mandy Lu, Qingyu Zhao, Jiequan Zhang, Kilian M. Pohl, Li Fei-Fei, Juan Carlos Niebles, Ehsan Adeli(参考訳) バッチ正規化(BN)とその変種は、深層学習法のトレーニングステップによって引き起こされる共変量シフトと戦うことに大きく成功している。 これらの手法は、バッチ統計の標準化によって特徴分布を標準化するが、外部変数や複数分布の特徴の影響を補正しない。 このような余分な変数は、ここでメタデータと呼ばれ、バイアスや反響効果(例えば、顔画像から性別を分類する際のレース)を生じることがある。 本稿では,MDN(Metadata Normalization)層をトレーニングフレームワーク内でエンド・ツー・エンドで使用できる新しいバッチレベルの操作として導入し,特徴分布に対するメタデータの影響を補正する。 MDNは従来、事前処理に用いられていた回帰分析技術を採用して、トレーニング中のモデル機能に対するメタデータ効果を除去(回帰)する。 距離相関に基づくメトリクスを用いて,メタデータから分布バイアスを定量化し,合成1,2D画像,ビデオ1,3D画像データセットの4つの異なる設定におけるメタデータ効果の除去に成功したことを示す。

Batch Normalization (BN) and its variants have delivered tremendous success in combating the covariate shift induced by the training step of deep learning methods. While these techniques normalize feature distributions by standardizing with batch statistics, they do not correct the influence on features from extraneous variables or multiple distributions. Such extra variables, referred to as metadata here, may create bias or confounding effects (e.g., race when classifying gender from face images). We introduce the Metadata Normalization (MDN) layer, a new batch-level operation which can be used end-to-end within the training framework, to correct the influence of metadata on feature distributions. MDN adopts a regression analysis technique traditionally used for preprocessing to remove (regress out) the metadata effects on model features during training. We utilize a metric based on distance correlation to quantify the distribution bias from the metadata and demonstrate that our method successfully removes metadata effects on four diverse settings: one synthetic, one 2D image, one video, and one 3D medical image dataset.
翻訳日:2021-04-21 03:38:44 公開日:2021-04-19
# (参考訳) 物体検出課題を克服するための競争的手法 [全文訳有]

A Competitive Method to VIPriors Object Detection Challenge ( http://arxiv.org/abs/2104.09059v1 )

ライセンス: CC BY 4.0
Fei Shen, Xin He, Mengwan Wei and Yi Xie(参考訳) 本稿では,VIPriorsオブジェクト検出問題に対する提案の技術的詳細について紹介する。 我々のソリューションは、強力なベースラインのオープンソース検出ツールボックスのmm検出に基づいている。 まず,bbox-jitter, grid-mask,mix-upを含むデータ問題に対処する効果的なデータ拡張手法を提案する。 次に,グローバルコンテキスト機能を埋め込むことにより,より重要なroi機能を学ぶためのロバストなroi抽出手法を提案する。 第3に,ボックス融合(WBF)を重み付けした予測ボックスを改良する多モデル統合手法を提案する。 実験の結果,COCO2017データセットのサブセットにおけるオブジェクト検出の平均精度(AP)を大幅に向上できることが示された。

In this report, we introduce the technical details of our submission to the VIPriors object detection challenge. Our solution is based on mmdetction of a strong baseline open-source detection toolbox. Firstly, we introduce an effective data augmentation method to address the lack of data problem, which contains bbox-jitter, grid-mask, and mix-up. Secondly, we present a robust region of interest (ROI) extraction method to learn more significant ROI features via embedding global context features. Thirdly, we propose a multi-model integration strategy to refinement the prediction box, which weighted boxes fusion (WBF). Experimental results demonstrate that our approach can significantly improve the average precision (AP) of object detection on the subset of the COCO2017 dataset.
翻訳日:2021-04-21 03:20:46 公開日:2021-04-19
# (参考訳) コントラスト候補生成と選択による抽象要約の忠実度向上 [全文訳有]

Improving Faithfulness in Abstractive Summarization with Contrast Candidate Generation and Selection ( http://arxiv.org/abs/2104.09061v1 )

ライセンス: CC BY-SA 4.0
Sihao Chen and Fan Zhang and Kazoo Sone and Dan Roth(参考訳) 神経抽象的要約の著しい進歩にもかかわらず、最近の研究では、現在のモデルは元の文脈に反する要約を生成する傾向があることが示されている。 この問題に対処するために,モデル非依存な後処理手法としてコントラスト候補生成と選択を検討した。 偽りの要約(原文に存在しない情報) 我々は,生成した要約文中の名前付きエンティティと量とを,ソース文書から互換性のある意味型に置き換える代替候補要約を生成することにより,識別的補正モデルを学ぶ。 このモデルを使用して、最終的な出力サマリーとして最適な候補を選択する。 神経要約システムを用いた実験と解析により,本手法は外因性幻覚の同定と修正に有効であることが示された。 我々は,様々な種類の神経要約システムによる幻覚現象を解析し,今後の方向性についての知見を期待する。

Despite significant progress in neural abstractive summarization, recent studies have shown that the current models are prone to generating summaries that are unfaithful to the original context. To address the issue, we study contrast candidate generation and selection as a model-agnostic post-processing technique to correct the extrinsic hallucinations (i.e. information not present in the source text) in unfaithful summaries. We learn a discriminative correction model by generating alternative candidate summaries where named entities and quantities in the generated summary are replaced with ones with compatible semantic types from the source document. This model is then used to select the best candidate as the final output summary. Our experiments and analysis across a number of neural summarization systems show that our proposed method is effective in identifying and correcting extrinsic hallucinations. We analyze the typical hallucination phenomenon by different types of neural summarization systems, in hope to provide insights for future work on the direction.
翻訳日:2021-04-21 03:13:35 公開日:2021-04-19
# (参考訳) IIITT@LT-EDI-EACL202 1-Hope音声検出:変圧器には常に希望がある [全文訳有]

IIITT@LT-EDI-EACL202 1-Hope Speech Detection: There is always Hope in Transformers ( http://arxiv.org/abs/2104.09066v1 )

ライセンス: CC BY 4.0
Karthik Puranik, Adeep Hande, Ruba Priyadharshini, Sajeetha Thavareesan, Bharathi Raja Chakravarthi(参考訳) 気候変動、宗教と政治の対立、世界的なパンデミック、テロリズム、人種差別といった深刻な課題に満ちた世界では、ヘイトスピーチ、虐待、攻撃的なコンテンツでいっぱいのインターネットが、私たちが望む最後のものなのです。 本稿では,これらのプラットフォーム上での肯定的かつ支援的なコンテンツを特定し,促進する。 我々は,ソーシャルメディアのコメントを英語,マラヤラム語,タミル語でホープ音声,非ホープ音声に分類するためのトランスフォーマモデルをいくつか開発している。 本稿では, LT-EDI 2021-EACL 2021における, 品質, 多様性, 包摂性に関する共通課題について述べる。

In a world filled with serious challenges like climate change, religious and political conflicts, global pandemics, terrorism, and racial discrimination, an internet full of hate speech, abusive and offensive content is the last thing we desire for. In this paper, we work to identify and promote positive and supportive content on these platforms. We work with several transformer-based models to classify social media comments as hope speech or not-hope speech in English, Malayalam and Tamil languages. This paper portrays our work for the Shared Task on Hope Speech Detection for Equality, Diversity, and Inclusion at LT-EDI 2021- EACL 2021.
翻訳日:2021-04-21 03:02:18 公開日:2021-04-19
# (参考訳) 自己監督型WiFiによる活動認識 [全文訳有]

Self-Supervised WiFi-Based Activity Recognition ( http://arxiv.org/abs/2104.09072v1 )

ライセンス: CC BY 4.0
Hok-Shing Lau, Ryan McConville, Mohammud J. Bocus, Robert J. Piechocki, Raul Santos-Rodriguez(参考訳) アクティビティ認識の伝統的なアプローチは、人間の活動を認識するためにウェアラブルセンサーやカメラを使用する。 本研究では,屋内環境における受動的活動認識のために,WiFiデバイスから微細な物理層情報を抽出する。 このようなデータはユビキタスだが、大量のラベルなしのwifiデータを利用するためのアプローチはほとんどない。 本稿では,異なる同期受信機で受信された送信wifi信号の複数ビューを用いた場合の行動認識性能を向上させるために,自己教師付きコントラスト学習の利用を提案する。 我々は、送信機と受信機を異なる物理配置で配置し、Line-of-Sight(LoS)とNon LoS(NLoS)の両方の条件をカバーする実験を行う。 提案したコントラスト学習システムと非コントラスト学習システムを比較し,Wi-Fiベースアクティビティ認識タスクにおけるマクロ平均F1スコアの17.7%増加と,ワンショットおよび少数ショット学習シナリオの大幅な改善を観察する。

Traditional approaches to activity recognition involve the use of wearable sensors or cameras in order to recognise human activities. In this work, we extract fine-grained physical layer information from WiFi devices for the purpose of passive activity recognition in indoor environments. While such data is ubiquitous, few approaches are designed to utilise large amounts of unlabelled WiFi data. We propose the use of self-supervised contrastive learning to improve activity recognition performance when using multiple views of the transmitted WiFi signal captured by different synchronised receivers. We conduct experiments where the transmitters and receivers are arranged in different physical layouts so as to cover both Line-of-Sight (LoS) and non LoS (NLoS) conditions. We compare the proposed contrastive learning system with non-contrastive systems and observe a 17.7% increase in macro averaged F1 score on the task of WiFi based activity recognition, as well as significant improvements in one- and few-shot learning scenarios.
翻訳日:2021-04-21 02:46:53 公開日:2021-04-19
# (参考訳) 部分モジュラ関数学習による帰属法の改善 [全文訳有]

Improving Attribution Methods by Learning Submodular Functions ( http://arxiv.org/abs/2104.09073v1 )

ライセンス: CC BY 4.0
Piyushi Manupriya, Saketha Nath Jagarlapudi, Tarun Ram Menta, Vineeth N Balasubramanian(参考訳) 本研究は,既存の特徴帰属法の特異性と選択性を改善するために,サブモジュラースコアリング関数を学習する新しいアイデアを探求する。 サブモジュラースコアは帰属に自然であり、還元の原理を正確にモデル化することが知られている。 既存の帰属法で得られる実値帰属写像と一致する深い部分モジュラー集合関数を学習するための新しい定式化法を提案する。 この定式化により、既存の方法に共通する特徴を含むヒートマップのスコアが高いだけでなく、最も特定のヒートマップに対しても飽和度が高いことが保証される。 そして、特徴の最終帰属値は、他の高属性特徴の文脈における特徴の誘導された部分モジュラースコアの限界ゲインとして定義され、冗長で差別的な特徴の帰属が減少する。 複数のデータセットにおける実験により,提案手法は識別力の低下を伴わずに高い特異性を達成することが示されている。

This work explores the novel idea of learning a submodular scoring function to improve the specificity/selectiv ity of existing feature attribution methods. Submodular scores are natural for attribution as they are known to accurately model the principle of diminishing returns. A new formulation for learning a deep submodular set function that is consistent with the real-valued attribution maps obtained by existing attribution methods is proposed. This formulation not only ensures that the scores for the heat maps that include the highly attributed features across the existing methods are high, but also that the score saturates even for the most specific heat map. The final attribution value of a feature is then defined as the marginal gain in the induced submodular score of the feature in the context of other highly attributed features, thus decreasing the attribution of redundant yet discriminatory features. Experiments on multiple datasets illustrate that the proposed attribution method achieves higher specificity while not degrading the discriminative power.
翻訳日:2021-04-21 02:34:31 公開日:2021-04-19
# (参考訳) 畳み込みニューラルネットワークの大規模モデル/ハイブリッド並列学習のためのOracle [全文訳有]

An Oracle for Guiding Large-Scale Model/Hybrid Parallel Training of Convolutional Neural Networks ( http://arxiv.org/abs/2104.09075v1 )

ライセンス: CC BY 4.0
Albert Njoroge Kahira, Truong Thao Nguyen, Leonardo Bautista Gomez, Ryousei Takano, Rosa M Badia, Mohamed Wahib(参考訳) Deep Neural Network(DNN)フレームワークは、分散トレーニングを使用して、大規模モデルのトレーニングや高次元入力の使用時のメモリ容量制限の収束と緩和を可能にする。 データセットとモデルサイズが着実に増加する中で、モデル/ハイブリッド並列性はDNNの分散トレーニングの将来において重要な役割を果たすと考えられている。 我々は、コンボリューショナルニューラルネットワーク(CNN)の計算、通信、メモリ要件を分析し、パフォーマンスとスケーラビリティに関する異なる並列性アプローチ間のトレードオフを理解する。 私たちは、モデル駆動分析をoracleユーティリティの基盤として活用し、大規模で異なる並列処理アプローチの制限とボトルネックの検出に役立てます。 我々は、最大1024GPUで4つのCNNモデルと複数のデータセット(2Dと3D)を用いて、6つの並列化戦略のオラクルを評価する。 その結果、オラクルは経験的な結果と比較して平均86.74%の正確さがあり、データ並列性は97.57%であることがわかった。

Deep Neural Network (DNN) frameworks use distributed training to enable faster time to convergence and alleviate memory capacity limitations when training large models and/or using high dimension inputs. With the steady increase in datasets and model sizes, model/hybrid parallelism is deemed to have an important role in the future of distributed training of DNNs. We analyze the compute, communication, and memory requirements of Convolutional Neural Networks (CNNs) to understand the trade-offs between different parallelism approaches on performance and scalability. We leverage our model-driven analysis to be the basis for an oracle utility which can help in detecting the limitations and bottlenecks of different parallelism approaches at scale. We evaluate the oracle on six parallelization strategies, with four CNN models and multiple datasets (2D and 3D), on up to 1024 GPUs. The results demonstrate that the oracle has an average accuracy of about 86.74% when compared to empirical results, and as high as 97.57% for data parallelism.
翻訳日:2021-04-21 02:10:55 公開日:2021-04-19
# (参考訳) UVCE-IIITT@Dravidian LangTech-EACL2021: Tamil Troll Memeの分類 [全文訳有]

UVCE-IIITT@Dravidian LangTech-EACL2021: Tamil Troll Meme Classification: You need to Pay more Attention ( http://arxiv.org/abs/2104.09081v1 )

ライセンス: CC BY 4.0
Siddhanth U Hegde, Adeep Hande, Ruba Priyadharshini, Sajeetha Thavareesan, Bharathi Raja Chakravarthi(参考訳) タミル語はドラヴィダ語であり、アジア南部で一般的に使われ、話されている。 ソーシャルメディアの時代、ミームは人々の日々の生活において楽しい瞬間だった。 ここでは,タミルミームの真の意味をトロルと非トロールに分類して分析する。 本稿では,注意を主成分として,最先端を実現するトランスフォーマアーキテクチャからなる巧妙なモデルを提案する。 データセットはtroll画像とnon-troll画像で構成され、キャプションはテキストとして表示される。 タスクはバイナリ分類タスクです。 モデルの目的は抽出した特徴により多くの注意を払って、画像とテキストのノイズを無視することである。

Tamil is a Dravidian language that is commonly used and spoken in the southern part of Asia. In the era of social media, memes have been a fun moment in the day-to-day life of people. Here, we try to analyze the true meaning of Tamil memes by categorizing them as troll and non-troll. We propose an ingenious model comprising of a transformer-transfor mer architecture that tries to attain state-of-the-art by using attention as its main component. The dataset consists of troll and non-troll images with their captions as text. The task is a binary classification task. The objective of the model is to pay more attention to the extracted features and to ignore the noise in both images and text.
翻訳日:2021-04-21 01:39:51 公開日:2021-04-19
# (参考訳) 測定可能な運動学のスペクトル密度に基づく頭部衝撃の分類 [全文訳有]

Classification of head impacts based on the spectral density of measurable kinematics ( http://arxiv.org/abs/2104.09082v1 )

ライセンス: CC BY 4.0
Xianghao Zhan, Yiheng Li, Yuzhe Liu, Nicholas J. Cecchi, Samuel J. Raymond, Zhou Zhou, Hossein Vahid Alizadeh, Jesse Ruan, Saeed Barbat, Stephen Tiernan, Olivier Gevaert, Michael M. Zeineh, Gerald A. Grant, David B. Camarillo(参考訳) 外傷性脳損傷は頭部の衝撃によって引き起こされる可能性があるが、多くの脳損傷リスク推定モデルは、患者が経験する様々な影響よりも正確ではない。 本研究では,キネマティクス分類による異なる頭部衝撃種のスペクトル特性について検討した。 頭部モデルシミュレーションによる3262件の頭部衝撃、american football and mixed martial arts(mma)のオンフィールドデータ、および一般公開された自動車事故データから分析した。 線形加速度と角速度のスペクトル密度を持つランダム森林分類器は、異なる種類の頭部衝撃(例えば、フットボール、MMA)を分類するために構築され、トレーニングとテストセットのランダム分割の96%の精度に達した。 さらに, 異なる測定装置のデータを用いて分類器をテストするために, 分類器が96%以上の精度に達する他の5つの計測マウスガードから271個のラボ再構成衝撃が得られた。 分類における最も重要な特徴は、低周波と高周波の両方の特徴、線形加速度特性と角速度特徴である。 その結果,低周波帯と高周波帯のスペクトル密度の分布が異なることが分かった(例えば,低周波帯よりも高周波帯のスペクトル密度が高かった)。 最後に, 頭部衝撃分類, タイプ特異的, 近接回帰モデルを構築し, 95%の最大主ひずみ, 95%の最大主ひずみ, 累積ひずみ損傷(15。 これは分類のないベースラインモデルよりも一般的に高いr^2値を示した。

Traumatic brain injury can be caused by head impacts, but many brain injury risk estimation models are less accurate across the variety of impacts that patients may undergo. In this study, we investigated the spectral characteristics of different head impact types with kinematics classification. Data was analyzed from 3262 head impacts from head model simulations, on-field data from American football and mixed martial arts (MMA) using our instrumented mouthguard, and publicly available car crash data. A random forest classifier with spectral densities of linear acceleration and angular velocity was built to classify different types of head impacts (e.g., football, MMA), reaching a median accuracy of 96% over 1000 random partitions of training and test sets. Furthermore, to test the classifier on data from different measurement devices, another 271 lab-reconstructed impacts were obtained from 5 other instrumented mouthguards with the classifier reaching over 96% accuracy from these devices. The most important features in classification included both low-frequency and high-frequency features, both linear acceleration features and angular velocity features. It was found that different head impact types had different distributions of spectral densities in low-frequency and high-frequency ranges (e.g., the spectral densities of MMA impacts were higher in high-frequency range than in the low-frequency range). Finally, with head impact classification, type-specific, nearest-neighbor regression models were built for 95th percentile maximum principal strain, 95th percentile maximum principal strain in corpus callosum, and cumulative strain damage (15th percentile). This showed a generally higher R^2-value than baseline models without classification.
翻訳日:2021-04-21 01:32:08 公開日:2021-04-19
# (参考訳) TransCrowd: トランスフォーマーで観客を数える [全文訳有]

TransCrowd: Weakly-Supervised Crowd Counting with Transformer ( http://arxiv.org/abs/2104.09116v1 )

ライセンス: CC BY 4.0
Dingkang Liang, Xiwu Chen, Wei Xu, Yu Zhou, Xiang Bai(参考訳) メインストリームの群衆カウント手法は通常、畳み込みニューラルネットワーク(cnn)を使用して密度マップを後退させ、ポイントレベルのアノテーションを必要とする。 しかし、各人にポイントを付けるのは高価で手間のかかる作業である。 テストフェーズでは、ポイントレベルのアノテーションはカウントの正確さを評価できないため、ポイントレベルのアノテーションは冗長である。 したがって、より経済的なラベル付け方法であるカウントレベルのアノテーションのみに依存する弱い教師付きカウントメソッドを開発することが望ましい。 現在の弱教師付きカウント手法はcnnを採用し、画像対カウントパラダイムによって群衆の総カウントを後退させる。 しかしながら、文脈モデリングに限定された受容場を持つことは、これらの弱い教師付きcnnベースの方法の本質的な制限である。 したがって、これらの手法は、実語での限られた応用を満足な性能で達成できない。 トランスフォーマはnlpで一般的なシーケンスからシーケンスへの予測モデルであり、グローバルレセプティブフィールドを含んでいる。 本稿では,変圧器に基づく数列化の観点から,教師なし群数問題を再構成するtranscrowdを提案する。 提案手法は,トランスフォーマの自己着脱機構を用いて,意味的群集情報を効果的に抽出できることを示す。 私たちの知る限りでは、群衆カウント研究に純粋なトランスフォーマーを採用するのはこれが初めてです。 5つのベンチマークデータセットの実験では、提案したTransCrowdは、弱教師付きCNNベースのカウント方式と比較して優れた性能を示し、一般的な完全教師付きカウント方式と比較して高い競争力を持つ。 コードはhttps://github.com/d k-liang/transcrowdで入手できる。

The mainstream crowd counting methods usually utilize the convolution neural network (CNN) to regress a density map, requiring point-level annotations. However, annotating each person with a point is an expensive and laborious process. During the testing phase, the point-level annotations are not considered to evaluate the counting accuracy, which means the point-level annotations are redundant. Hence, it is desirable to develop weakly-supervised counting methods that just rely on count level annotations, a more economical way of labeling. Current weakly-supervised counting methods adopt the CNN to regress a total count of the crowd by an image-to-count paradigm. However, having limited receptive fields for context modeling is an intrinsic limitation of these weakly-supervised CNN-based methods. These methods thus can not achieve satisfactory performance, limited applications in the real-word. The Transformer is a popular sequence-to-sequence prediction model in NLP, which contains a global receptive field. In this paper, we propose TransCrowd, which reformulates the weakly-supervised crowd counting problem from the perspective of sequence-to-count based on Transformer. We observe that the proposed TransCrowd can effectively extract the semantic crowd information by using the self-attention mechanism of Transformer. To the best of our knowledge, this is the first work to adopt a pure Transformer for crowd counting research. Experiments on five benchmark datasets demonstrate that the proposed TransCrowd achieves superior performance compared with all the weakly-supervised CNN-based counting methods and gains highly competitive counting performance compared with some popular fully-supervised counting methods. Code is available at https://github.com/d k-liang/TransCrowd.
翻訳日:2021-04-21 01:15:08 公開日:2021-04-19
# (参考訳) 効率的な深層強化学習のための確率的混合学習 [全文訳有]

Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement Learning ( http://arxiv.org/abs/2104.09122v1 )

ライセンス: CC BY 4.0
Jie Ren, Yewen Li, Zihan Ding, Wei Pan and Hao Dong(参考訳) 深部強化学習(DRL)は近年,一元的政策表現を用いて,様々な問題を解決している。 しかし, 学習効率と性能向上のためには, 非特異な最適タスクにおいて, 識別可能なスキルの把握が不可欠であり, マルチモーダル政策(MOE)が成立する可能性がある。 最善の知識として,本手法を政策関数近似器として用いることは,政策学習における差別化可能性の潜在的な課題である。 本研究では,マルチモーダル・ポリシーのためのガウス混合モデル (gmm) を用いて実装した確率的混合・オブ・エキスパート (pmoe) と,非微分可能性問題に対する新しい勾配推定器を提案し,確率的ポリシー,例えばsoft actor-critic (sac) とproximal policy optimization (ppo) を用いて,非微分可能性問題に適用できる。 実験の結果,6つのmujocoタスクに対して,単モード警察と2つのmoe法,および上記の2種類のdrlアルゴリズムに基づくオプションフレームワークの利点を検証した。 また,再パラメータ化トリック (gumbel-softmax) やスコアレイトトリックのようなgmmの勾配推定法も本手法と比較した。 我々はさらに,pmoeで学習した識別可能なプリミティブを実証し,探索の観点で手法の利点を示す。

Deep reinforcement learning (DRL) has successfully solved various problems recently, typically with a unimodal policy representation. However, grasping distinguishable skills for some tasks with non-unique optima can be essential for further improving its learning efficiency and performance, which may lead to a multimodal policy represented as a mixture-of-experts (MOE). To our best knowledge, present DRL algorithms for general utility do not deploy this method as policy function approximators due to the potential challenge in its differentiability for policy learning. In this work, we propose a probabilistic mixture-of-experts (PMOE) implemented with a Gaussian mixture model (GMM) for multimodal policy, together with a novel gradient estimator for the indifferentiability problem, which can be applied in generic off-policy and on-policy DRL algorithms using stochastic policies, e.g., Soft Actor-Critic (SAC) and Proximal Policy Optimisation (PPO). Experimental results testify the advantage of our method over unimodal polices and two different MOE methods, as well as a method of option frameworks, based on the above two types of DRL algorithms, on six MuJoCo tasks. Different gradient estimations for GMM like the reparameterisation trick (Gumbel-Softmax) and the score-ratio trick are also compared with our method. We further empirically demonstrate the distinguishable primitives learned with PMOE and show the benefits of our method in terms of exploration.
翻訳日:2021-04-21 00:58:27 公開日:2021-04-19
# (参考訳) TetraPackNet:ロジスティックス利用ケースにおける4コラーベースオブジェクト検出 [全文訳有]

TetraPackNet: Four-Corner-Based Object Detection in Logistics Use-Cases ( http://arxiv.org/abs/2104.09123v1 )

ライセンス: CC BY-SA 4.0
Laura D\"orr, Felix Brandt, Alexander Naumann, Martin Pouls(参考訳) 一般的な画像オブジェクト検出タスクは、境界ボックスやセグメンテーションマスクをオブジェクト表現として重視する一方で、四角形オブジェクト表現を用いたtetrapacknetという新しい手法を提案する。 tetrapacknetはcornernetにインスパイアされ、類似のベースアルゴリズムとアイデアを使っている。 パッケージ構造認識のロジスティクスユースケースにおいて,定期的な形状の物体の高精度検出が重要となるため,用途が指定されている。 このユースケースのために、我々のモデルを実世界のデータセットで評価する。 マスクr-cnnモデルと適切な後処理ステップからなる以前のソリューションに対して、tetrapacknetは4角形トランスポートユニットサイド検出の適用において優れた結果(6%高い精度)を達成している。

While common image object detection tasks focus on bounding boxes or segmentation masks as object representations, we propose a novel method, named TetraPackNet, using fourcorner based object representations. TetraPackNet is inspired by and based on CornerNet and uses similar base algorithms and ideas. It is designated for applications were the high-accuracy detection of regularly shaped objects is crucial, which is the case in the logistics use-case of packaging structure recognition. We evaluate our model on our specific real-world dataset for this use-case. Baselined against a previous solution, consisting of a a Mask R-CNN model and suitable post-processing steps, TetraPackNet achieves superior results (6% higher in accuracy) in the application of four-corner based transport unit side detection.
翻訳日:2021-04-21 00:31:37 公開日:2021-04-19
# (参考訳) ransic:不変互換性を用いたローテーション探索とポイントクラウド登録の高速かつ高堅牢な推定 [全文訳有]

RANSIC: Fast and Highly Robust Estimation for Rotation Search and Point Cloud Registration using Invariant Compatibility ( http://arxiv.org/abs/2104.09133v1 )

ライセンス: CC0 1.0
Lei Sun(参考訳) 対応に基づく回転探索と点雲登録は、ロボット工学とコンピュータビジョンの2つの基本的な問題である。 しかし、アウトリアーの存在は、しばしば仮定された対応の大部分を占めることさえあり、既存のアルゴリズムの多くを失敗させるか、非常に高い計算コストを持つかのどちらかにすることができる。 本稿では,ランダムサンプリングと不変性と不変性を組み合わせた新しいパラダイムに基づいて,両問題に適用可能な高速かつ高堅牢な手法であるransic(random sampling with invariant compatibility)を提案する。 一般に、ransicは対応集合から小さな部分集合をランダムに選択することから始まり、各問題で確立された不変量の互換性テストを通じてランダムな部分集合からグラフの頂点としてポテンシャルのイリアーを求め、最終的に少なくとも1つのk度頂点(kは問題に応じて自動的に更新される)が存在し、残差エラーが同時に特定の終了条件を満たす場合に、対応するイリアーを返す。 複数の合成および実実験において、RANSICは高速で95%以上のアウトレーヤに対して頑健であり、また、インレーヤの約100%をリコールでき、ローテーション探索とポイントクラウド登録の問題の両方において、他の最先端の解法よりも優れていることを示した。

Correspondence-based rotation search and point cloud registration are two fundamental problems in robotics and computer vision. However, the presence of outliers, sometimes even occupying the great majority of the putative correspondences, can make many existing algorithms either fail or have very high computational cost. In this paper, we present RANSIC (RANdom Sampling with Invariant Compatibility), a fast and highly robust method applicable to both problems based on a new paradigm combining random sampling with invariance and compatibility. Generally, RANSIC starts with randomly selecting small subsets from the correspondence set, then seeks potential inliers as graph vertices from the random subsets through the compatibility tests of invariants established in each problem, and eventually returns the eligible inliers when there exists at least one K-degree vertex (K is automatically updated depending on the problem) and the residual errors satisfy a certain termination condition at the same time. In multiple synthetic and real experiments, we demonstrate that RANSIC is fast for use, robust against over 95% outliers, and also able to recall approximately 100% of the inliers, outperforming other state-of-the-art solvers for both the rotation search and the point cloud registration problems.
翻訳日:2021-04-21 00:19:50 公開日:2021-04-19
# (参考訳) 動き理解による単一ぼやけた画像からの映像フレームの復元 [全文訳有]

Restoration of Video Frames from a Single Blurred Image with Motion Understanding ( http://arxiv.org/abs/2104.09134v1 )

ライセンス: CC BY 4.0
Dawit Mureja Argaw, Junsik Kim, Francois Rameau, Chaoning Zhang, In So Kweon(参考訳) 本研究では,単一の動きブル画像からクリーンな映像フレームを生成する新しいフレームワークを提案する。 広範にわたる文献は、ぼやけた画像から1つのイメージを復元することに焦点を当てているが、本研究では、より困難な課題、すなわち課題に取り組む。 ぼやけた画像からの映像復元。 一つのぼやけた画像からの映像復元を逆問題として、クリーンな画像シーケンスとそれぞれの動きを潜伏要因として、ぼやけた画像を観察として定式化する。 本フレームワークは,ビデオシーケンスとその基盤となる動作をエンドツーエンドに復元する空間トランスフォーマーネットワークモジュールを備えたエンコーダデコーダ構造に基づいている。 提案するネットワークのモデルの学習と解析を安定させるために,補足特性を持つ損失関数と正規化器を設計した。 ネットワークの有効性と転送性は,パノラマシーンから発生するカメラ回転のぼかしと,高速ビデオにおけるダイナミックモーションのぼかしという,2種類のデータセットの大規模な実験を通して強調される。

We propose a novel framework to generate clean video frames from a single motion-blurred image. While a broad range of literature focuses on recovering a single image from a blurred image, in this work, we tackle a more challenging task i.e. video restoration from a blurred image. We formulate video restoration from a single blurred image as an inverse problem by setting clean image sequence and their respective motion as latent factors, and the blurred image as an observation. Our framework is based on an encoder-decoder structure with spatial transformer network modules to restore a video sequence and its underlying motion in an end-to-end manner. We design a loss function and regularizers with complementary properties to stabilize the training and analyze variant models of the proposed network. The effectiveness and transferability of our network are highlighted through a large set of experiments on two different types of datasets: camera rotation blurs generated from panorama scenes and dynamic motion blurs in high speed videos.
翻訳日:2021-04-21 00:00:37 公開日:2021-04-19
# (参考訳) 原型アライメントと一貫性学習を用いた半教師付きドメイン適応 [全文訳有]

Semi-Supervised Domain Adaptation with Prototypical Alignment and Consistency Learning ( http://arxiv.org/abs/2104.09136v1 )

ライセンス: CC BY 4.0
Kai Li, Chang Liu, Handong Zhao, Yulun Zhang, Yun Fu(参考訳) ドメイン適応は、ドメインシフトを伴うドメイン間のモデルの一般化性を高める。 ほとんどの研究は、ラベル付きソースデータとラベル付きターゲットデータとともにモデルをトレーニングするUnsupervised Domain Adaption (UDA)に費やされている。 本稿では,いくつかの対象サンプル(例えば,クラス毎に1つのサンプル)がラベル付けされている場合,ドメインシフトの対処にどの程度役立つかを検討する。 これはいわゆる半教師付きドメイン適応(SSDA)問題であり、数少ないラベル付きターゲットサンプルは'landmarks'と呼ばれる。 ランドマークの完全な可能性を探るため、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込み、ソースサンプルを同じクラスからターゲットプロトタイプにアライメントする。 さらにラベルの不足を軽減するために,データ拡張に基づくソリューションを提案する。 具体的には,ラベル付き画像に深刻な摂動が生じ,PAを非自明にし,モデル一般化性を促進する。 さらに、光変換と強い変換で各画像を摂動することで、ラベルのない対象画像に一貫性学習を適用する。 そして、強い摂動画像は、軽い摂動画像から推測される擬似ラベルを用いて「教師的な」訓練を楽しむことができる。 実験により,提案手法は,既存のUDA方式にプラグイン・アンド・プレイ・コンポーネントとして機能し,ランドマークを付与して適応性能を向上させることの柔軟性を享受できることがわかった。 私たちのコードは \url{https://github.com/k ailigo/pacl} で利用可能です。

Domain adaptation enhances generalizability of a model across domains with domain shifts. Most research effort has been spent on Unsupervised Domain Adaption (UDA) which trains a model jointly with labeled source data and unlabeled target data. This paper studies how much it can help address domain shifts if we further have a few target samples (e.g., one sample per class) labeled. This is the so-called semi-supervised domain adaptation (SSDA) problem and the few labeled target samples are termed as ``landmarks''. To explore the full potential of landmarks, we incorporate a prototypical alignment (PA) module which calculates a target prototype for each class from the landmarks; source samples are then aligned with the target prototype from the same class. To further alleviate label scarcity, we propose a data augmentation based solution. Specifically, we severely perturb the labeled images, making PA non-trivial to achieve and thus promoting model generalizability. Moreover, we apply consistency learning on unlabeled target images, by perturbing each image with light transformations and strong transformations. Then, the strongly perturbed image can enjoy ``supervised-like' ;' training using the pseudo label inferred from the lightly perturbed one. Experiments show that the proposed method, though simple, reaches significant performance gains over state-of-the-art methods, and enjoys the flexibility of being able to serve as a plug-and-play component to various existing UDA methods and improve adaptation performance with landmarks provided. Our code is available at \url{https://github.com/k ailigo/pacl}.
翻訳日:2021-04-20 23:48:04 公開日:2021-04-19
# (参考訳) Face-GCN:3次元動的顔識別/認識のためのグラフ畳み込みネットワーク [全文訳有]

Face-GCN: A Graph Convolutional Network for 3D Dynamic Face Identification/Recog nition ( http://arxiv.org/abs/2104.09145v1 )

ライセンス: CC BY 4.0
Konstantinos Papadopoulos, Anis Kacem, Abdelrahman Shabayek, Djamila Aouada(参考訳) 顔認識/認識はここ数年で大きく進歩している。 しかし、提案手法のほとんどは静的なRGBフレームと中立な表情に依存している。 これには2つの欠点がある。 第一に、重要な顔形状の手がかりは無視される。 第二に、表情による顔の変形は、そのような方法の性能に影響を及ぼす可能性がある。 本稿では,顔のキーポイントに基づく動的3次元顔認識のためのフレームワークを提案する。 各動的表情列は時空間グラフとして表現され、3d顔ランドマークを用いて構築される。 各グラフノードは、その近傍から抽出された局所的な形状とテクスチャを含む。 顔の分類・識別には時空間グラフ畳み込みネットワーク(ST-GCN)を用いる。 最後に,動的3次元表情データセットに対するアプローチについて検討した。

Face identification/recog nition has significantly advanced over the past years. However, most of the proposed approaches rely on static RGB frames and on neutral facial expressions. This has two disadvantages. First, important facial shape cues are ignored. Second, facial deformations due to expressions can have an impact in the performance of such a method. In this paper, we propose a novel framework for dynamic 3D face identification/recog nition based on facial keypoints. Each dynamic sequence of facial expressions is represented as a spatio-temporal graph, which is constructed using 3D facial landmarks. Each graph node contains local shape and texture features that are extracted from its neighborhood. For the classification/ident ification of faces, a Spatio-temporal Graph Convolutional Network (ST-GCN) is used. Finally, we evaluate our approach on a challenging dynamic 3D facial expression dataset.
翻訳日:2021-04-20 23:34:26 公開日:2021-04-19
# (参考訳) 開集合認識のための条件変動カプセルネットワーク [全文訳有]

Conditional Variational Capsule Network for Open Set Recognition ( http://arxiv.org/abs/2104.09159v1 )

ライセンス: CC BY 4.0
Yunrui Guo, Guglielmo Camporese, Wenjing Yang, Alessandro Sperduti, Lamberto Ballan(参考訳) オープンセット認識では、分類器はトレーニング時に未知の未知のクラスを検出する必要がある。 新しいクラスを認識するために、分類器は既知のクラスの入力サンプルを特徴空間の非常にコンパクトで分離された領域に投影し、未知のクラスの外れたサンプルを識別する必要がある。 最近提案されたカプセルネットワークは、多くの分野、特に画像認識において代替案を上回ることが示されているが、オープンセット認識にはまだ完全には適用されていない。 カプセルネットワークでは、スカラーニューロンはカプセルベクターや行列に置き換えられる。 本提案では,訓練中,各クラス毎に1つずつ,事前に定義されたガウスのカプセルの特徴を一致させるよう推奨する。 この目的のために、後方分布の近似としてガウス前駆体を含む変分オートエンコーダフレームワークを用いる。 このようにして、ガウス中心付近の同類の特徴のコンパクトさを制御でき、未知のクラスからのサンプルの検出における分類器の能力を制御することができる。 オープンデータセット認識および未知検出タスクにおいて,異なるデータセット上でのアート結果の状態を把握し,実験とアブリレーションを行った。

In open set recognition, a classifier has to detect unknown classes that are not known at training time. In order to recognize new classes, the classifier has to project the input samples of known classes in very compact and separated regions of the features space in order to discriminate outlier samples of unknown classes. Recently proposed Capsule Networks have shown to outperform alternatives in many fields, particularly in image recognition, however they have not been fully applied yet to open-set recognition. In capsule networks, scalar neurons are replaced by capsule vectors or matrices, whose entries represent different properties of objects. In our proposal, during training, capsules features of the same known class are encouraged to match a pre-defined gaussian, one for each class. To this end, we use the variational autoencoder framework, with a set of gaussian prior as the approximation for the posterior distribution. In this way, we are able to control the compactness of the features of the same class around the center of the gaussians, thus controlling the ability of the classifier in detecting samples from unknown classes. We conducted several experiments and ablation of our model, obtaining state of the art results on different datasets in the open set recognition and unknown detection tasks.
翻訳日:2021-04-20 23:26:35 公開日:2021-04-19
# (参考訳) 予測符号化とアクティブ推論を用いた視覚と運動生成モデルの双方向インタラクション [全文訳有]

Bidirectional Interaction between Visual and Motor Generative Models using Predictive Coding and Active Inference ( http://arxiv.org/abs/2104.09163v1 )

ライセンス: CC BY-SA 4.0
Louis Annabi, Alexandre Pitti, Mathias Quoy(参考訳) 本研究では,能動推論(aif)と予測符号化(pc)のフレームワークを基盤として,知覚予測のための生成モデルと運動軌跡の異なる生成モデルからなるニューラルネットワークを提案する。 我々は,知覚予測のシーケンスが学習,制御,オンライン適応を導くレールとしてどのように機能するかを強調する。 さらに、モータと視覚モジュール間の双方向相互作用の効果についても検討する。 このアーキテクチャは、手書き文字を再現するシミュレーションロボットアーム学習の制御に基づいてテストされる。

In this work, we build upon the Active Inference (AIF) and Predictive Coding (PC) frameworks to propose a neural architecture comprising a generative model for sensory prediction, and a distinct generative model for motor trajectories. We highlight how sequences of sensory predictions can act as rails guiding learning, control and online adaptation of motor trajectories. We furthermore inquire the effects of bidirectional interactions between the motor and the visual modules. The architecture is tested on the control of a simulated robotic arm learning to reproduce handwritten letters.
翻訳日:2021-04-20 23:13:07 公開日:2021-04-19
# (参考訳) サイクリストの意図検出:確率的アプローチ [全文訳有]

Cyclist Intention Detection: A Probabilistic Approach ( http://arxiv.org/abs/2104.09176v1 )

ライセンス: CC BY 4.0
Stefan Zernetsch, Hannes Reichert, Viktor Kress, Konrad Doll, Bernhard Sick(参考訳) 本稿では,確率的サイクリスト意図検出のための包括的アプローチを提案する。 運動履歴画像(mhi)と残留畳み込みニューラルネットワーク(resnet)に基づく基本運動検出を用いて、現在の自転車運動状態の確率を推定する。 これらの確率は確率的アンサンブル軌道予測の重みとして用いられる。 アンサンブルは、サイクリストの特定の運動状態(例えば、)を仮定して、ガウス分布の形で個々の予測を生成する専門モデルで構成されている。 自転車は左に曲がる、または左に曲がる)。 特殊なモデルを重み付けすることで、サイクリストが一定の確率で居住する領域を定義するガウス混合混合物から予測を作成する。 提案手法を評価するために,予測分布の信頼性,鋭さ,位置精度を評価する。 本手法は,ガウス分布の形で予測を生成する単一モデル手法と比較し,同等の位置精度を維持しつつ,より信頼性が高くシャープな出力が得られることを示す。 どちらの手法も、公共交通交差点で作成されたデータセットを用いて評価される。 私たちのコードとデータセットは公開されています。

This article presents a holistic approach for probabilistic cyclist intention detection. A basic movement detection based on motion history images (MHI) and a residual convolutional neural network (ResNet) are used to estimate probabilities for the current cyclist motion state. These probabilities are used as weights in a probabilistic ensemble trajectory forecast. The ensemble consists of specialized models, which produce individual forecasts in the form of Gaussian distributions under the assumption of a certain motion state of the cyclist (e.g. cyclist is starting or turning left). By weighting the specialized models, we create forecasts in the from of Gaussian mixtures that define regions within which the cyclists will reside with a certain probability. To evaluate our method, we rate the reliability, sharpness, and positional accuracy of our forecasted distributions. We compare our method to a single model approach which produces forecasts in the form of Gaussian distributions and show that our method is able to produce more reliable and sharper outputs while retaining comparable positional accuracy. Both methods are evaluated using a dataset created at a public traffic intersection. Our code and the dataset are made publicly available.
翻訳日:2021-04-20 22:52:20 公開日:2021-04-19
# (参考訳) 複数の先行分布下での回帰に対するガウス過程の混合 [全文訳有]

Mixtures of Gaussian Processes for regression under multiple prior distributions ( http://arxiv.org/abs/2104.09185v1 )

ライセンス: CC BY 4.0
Sarem Seitz(参考訳) ベイズ型機械学習モデルを構築する場合、複数の異なる事前分布に直面する可能性があるため、モデル内で適切な方法でそれらを適切に検討する必要がある。 この状況は古典ベイズ統計学においてかなりよく研究されているが、複雑な機械学習問題に対応する方法を開発するのに有用である。 基礎となるベイズ的枠組みとその普及を考えると、ガウス的プロセスはこの課題に取り組むのによい候補である。 したがって、ガウス過程回帰に対する混合モデルの概念を拡張して、複数の先行信念を同時に扱えるようにし、解析的回帰公式とスパース変分法の両方を考慮する。 さらに,機能回帰問題における事前の誤特定問題についても,本手法を用いた検討を行った。

When constructing a Bayesian Machine Learning model, we might be faced with multiple different prior distributions and thus are required to properly consider them in a sensible manner in our model. While this situation is reasonably well explored for classical Bayesian Statistics, it appears useful to develop a corresponding method for complex Machine Learning problems. Given their underlying Bayesian framework and their widespread popularity, Gaussian Processes are a good candidate to tackle this task. We therefore extend the idea of Mixture models for Gaussian Process regression in order to work with multiple prior beliefs at once - both a analytical regression formula and a Sparse Variational approach are considered. In addition, we consider the usage of our approach to additionally account for the problem of prior misspecification in functional regression problems.
翻訳日:2021-04-20 22:29:42 公開日:2021-04-19
# (参考訳) BERTi\'c -- ボスニア、クロアチア、モンテネグロ、セルビアのトランスフォーマー言語モデル [全文訳有]

BERTi\'c -- The Transformer Language Model for Bosnian, Croatian, Montenegrin and Serbian ( http://arxiv.org/abs/2104.09243v1 )

ライセンス: CC BY-SA 4.0
Nikola Ljube\v{s}i\'c, Davor Lauc(参考訳) 本稿では,クロアチア,ボスニア,セルビア,モンテネグロのWebドメインから,80億個のクローリングされたテキストを事前訓練したトランスフォーマーモデルについて述べる。 本研究は,パート・オブ・スパイチ・タギング,名前付きエンティティ認識,ジオロケーション予測,コモンセンス因果推論のタスクにおけるトランスフォーマーモデルを評価し,最先端モデルにおけるタスク全体の改善を示す。 コモンセンス推論の評価には、COPA-HR(Choice of Plausible Alternatives (COPA))データセットをクロアチア語に翻訳する。 BERTi\'cモデルは、HuggingFaceを通じて、無償使用とタスク固有の微調整が可能である。

In this paper we describe a transformer model pre-trained on 8 billion tokens of crawled text from the Croatian, Bosnian, Serbian and Montenegrin web domains. We evaluate the transformer model on the tasks of part-of-speech tagging, named-entity-recogni tion, geo-location prediction and commonsense causal reasoning, showing improvements on all tasks over state-of-the-art models. For commonsense reasoning evaluation, we introduce COPA-HR -- a translation of the Choice of Plausible Alternatives (COPA) dataset into Croatian. The BERTi\'c model is made available for free usage and further task-specific fine-tuning through HuggingFace.
翻訳日:2021-04-20 22:07:40 公開日:2021-04-19
# (参考訳) 動的物体追跡のための視覚ベース誘導 [全文訳有]

Vision-Based Guidance for Tracking Dynamic Objects ( http://arxiv.org/abs/2104.09301v1 )

ライセンス: CC BY 4.0
Pritam Karmokar, Kashish Dhal, William J. Beksi, Animesh Chakravarthy(参考訳) 本稿では,ランデブーコーン法に基づく誘導則を用いた動的物体追跡のための新しいビジョンベースフレームワークを提案する。 これらの誘導法により、単眼カメラを備えた無人航空機システムは、センサーの視野内の移動物体を継続的に追従することができる。 追跡過程における閉塞の発生を排他的に管理するための特徴点推定器を同定・分類する。 さらに,オープンソースのシミュレーション環境を開発し,提案手法の有効性を示すための一連のシミュレーションを行う。

In this paper, we present a novel vision-based framework for tracking dynamic objects using guidance laws based on a rendezvous cone approach. These guidance laws enable an unmanned aircraft system equipped with a monocular camera to continuously follow a moving object within the sensor's field of view. We identify and classify feature point estimators for managing the occurrence of occlusions during the tracking process in an exclusive manner. Furthermore, we develop an open-source simulation environment and perform a series of simulations to show the efficacy of our methods.
翻訳日:2021-04-20 21:59:21 公開日:2021-04-19
# (参考訳) フィードバック制御の安定性解析による跳躍を伴う線形凸モデルの強化学習 [全文訳有]

Reinforcement learning for linear-convex models with jumps via stability analysis of feedback controls ( http://arxiv.org/abs/2104.09311v1 )

ライセンス: CC BY 4.0
Xin Guo, Anran Hu, Yufei Zhang(参考訳) 有限時間地平線連続時間線形凸強化学習問題をエピソディクス環境で検討する。 この問題では、未知の線形跳躍拡散過程は非平滑凸コストによって制御される。 リプシッツの連続最適フィードバック制御を許容する線形凸制御問題を示し、さらにフィードバック制御のリプシッツ安定性を証明し、すなわち、誤ったモデルに対するフィードバック制御と真のモデルに対するフィードバック制御とのパフォーマンスギャップは、モデル係数の摂動の大きさに連続的に依存し、その証明は関連する前方確率微分方程式の安定性解析に依存することを示した。 そこで,本研究では,ジャンプによる線形凸学習問題に対する1次$o(\sqrt{n\ln n})$の後悔を,フィードバック制御のリプシッツ安定性とサブワイブル確率変数の集中特性を活かした,新たな最小二乗法を提案する。

We study finite-time horizon continuous-time linear-convex reinforcement learning problems in an episodic setting. In this problem, the unknown linear jump-diffusion process is controlled subject to nonsmooth convex costs. We show that the associated linear-convex control problems admit Lipchitz continuous optimal feedback controls and further prove the Lipschitz stability of the feedback controls, i.e., the performance gap between applying feedback controls for an incorrect model and for the true model depends Lipschitz-continuous ly on the magnitude of perturbations in the model coefficients; the proof relies on a stability analysis of the associated forward-backward stochastic differential equation. We then propose a novel least-squares algorithm which achieves a regret of the order $O(\sqrt{N\ln N})$ on linear-convex learning problems with jumps, where $N$ is the number of learning episodes; the analysis leverages the Lipschitz stability of feedback controls and concentration properties of sub-Weibull random variables.
翻訳日:2021-04-20 21:40:08 公開日:2021-04-19
# (参考訳) トラベリングセールスマン問題事例をスパシフィケートする学習 [全文訳有]

Learning to Sparsify Travelling Salesman Problem Instances ( http://arxiv.org/abs/2104.09345v1 )

ライセンス: CC BY 4.0
James Fitzpatrick, Deepak Ajwani and Paula Carroll(参考訳) NPハード組合せ最適化問題に対する高精度・近似アルゴリズムの開発時間と高精度解法の実行時間に対処するため,近年,解を見つけるためのエンドツーエンドアプローチとしてディープラーニング技術が用いられている。 しかし、表現、一般化、複雑なアーキテクチャ、数学的解析のためのモデルの解釈可能性などの問題もある。 深層学習技術を使っています 妥協として、機械学習は、数学的フレームワークにおける正確なアルゴリズムの実行時間パフォーマンスを改善するために使用できる。 本稿では,機械学習を前処理ステップとして活用し,厳密な整数型プログラミング手法を提案する。 このアプローチを,古典的なトラベルセールスマン問題のインスタンス化に応用する。 提案手法では,グラフのどの辺が最適解に属さないかを学習し,それらを除去し,グラフを分散させ,決定変数の数を著しく減少させる。 線形計画緩和,切断面探索,最小重み付きスパンディングツリーヒューリスティックス,その他の局所的および統計的なグラフ解析から得られた注意深く選択された特徴を用いる。 私たちの学習アプローチは、非常に少ないトレーニングデータを必要とし、数学的分析に適しています。 本稿では,TSPLIB/MATILDA (>85%) からTSPインスタンスの変数の大部分を確実に抽出し,最適なツアーエッジの大部分を保存できることを実証する。 提案手法は,たとえトレーニング分布外にあるとしても問題インスタンスのプルーフ化に成功し,ほとんどの場合,プルーニングされた問題と元の問題との最適性ギャップを小さくする。 学習手法を用いて、車両ルーティング問題の変種に対して独立した関心を持つTSPインスタンスをスパース化するための新しいヒューリスティックスを発見する。

In order to deal with the high development time of exact and approximation algorithms for NP-hard combinatorial optimisation problems and the high running time of exact solvers, deep learning techniques have been used in recent years as an end-to-end approach to find solutions. However, there are issues of representation, generalisation, complex architectures, interpretability of models for mathematical analysis etc. using deep learning techniques. As a compromise, machine learning can be used to improve the run time performance of exact algorithms in a matheuristics framework. In this paper, we use a pruning heuristic leveraging machine learning as a pre-processing step followed by an exact Integer Programming approach. We apply this approach to sparsify instances of the classical travelling salesman problem. Our approach learns which edges in the underlying graph are unlikely to belong to an optimal solution and removes them, thus sparsifying the graph and significantly reducing the number of decision variables. We use carefully selected features derived from linear programming relaxation, cutting planes exploration, minimum-weight spanning tree heuristics and various other local and statistical analysis of the graph. Our learning approach requires very little training data and is amenable to mathematical analysis. We demonstrate that our approach can reliably prune a large fraction of the variables in TSP instances from TSPLIB/MATILDA (>85%$) while preserving most of the optimal tour edges. Our approach can successfully prune problem instances even if they lie outside the training distribution, resulting in small optimality gaps between the pruned and original problems in most cases. Using our learning technique, we discover novel heuristics for sparsifying TSP instances, that may be of independent interest for variants of the vehicle routing problem.
翻訳日:2021-04-20 20:04:08 公開日:2021-04-19
# (参考訳) コンパクト単一画像デハジングのためのコントラスト学習 [全文訳有]

Contrastive Learning for Compact Single Image Dehazing ( http://arxiv.org/abs/2104.09367v1 )

ライセンス: CC BY 4.0
Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Yuan Xie, Lizhuang Ma(参考訳) 単一画像のデハジングは、深刻な情報変性のために問題となる。 しかし,既存の深層学習に基づくデハジング手法では,デハジングネットワークのトレーニングをガイドするために,明確なイメージを正のサンプルとしてのみ採用している。 さらに、大半は、深さと幅の増加によってデヘイジングネットワークの強化に重点を置いており、計算とメモリの大幅な要求に繋がる。 本稿では, 対照的学習に基づく新しいコントラスト正規化 (CR) を提案し, それぞれ, 曖昧な画像の情報と明瞭な画像の情報を負と正のサンプルとして活用する。 CRは、復元された画像がクリアな画像に近づき、表現空間内のぼやけた画像から遠くに押されるようにする。 さらに,性能とメモリストレージのトレードオフを考慮し,オートエンコーダ(AE)フレームワークに基づく小型デハージングネットワークを開発する。 適応的なミックスアップ操作と動的機能拡張モジュールにより、情報フローを適応的に保存し、受容場を拡張して、ネットワークの変換能力を向上させることができる。 我々は、オートエンコーダとコントラスト正規化をAECR-Netと呼ぶ。 合成および実世界のデータセットに関する広範な実験は、我々のAECR-Netが最先端のアプローチを超えたことを示している。 コードはhttps://github.com/G lassyWu/AECR-Netで公開されている。

Single image dehazing is a challenging ill-posed problem due to the severe information degeneration. However, existing deep learning based dehazing methods only adopt clear images as positive samples to guide the training of dehazing network while negative information is unexploited. Moreover, most of them focus on strengthening the dehazing network with an increase of depth and width, leading to a significant requirement of computation and memory. In this paper, we propose a novel contrastive regularization (CR) built upon contrastive learning to exploit both the information of hazy images and clear images as negative and positive samples, respectively. CR ensures that the restored image is pulled to closer to the clear image and pushed to far away from the hazy image in the representation space. Furthermore, considering trade-off between performance and memory storage, we develop a compact dehazing network based on autoencoder-like (AE) framework. It involves an adaptive mixup operation and a dynamic feature enhancement module, which can benefit from preserving information flow adaptively and expanding the receptive field to improve the network's transformation capability, respectively. We term our dehazing network with autoencoder and contrastive regularization as AECR-Net. The extensive experiments on synthetic and real-world datasets demonstrate that our AECR-Net surpass the state-of-the-art approaches. The code is released in https://github.com/G lassyWu/AECR-Net.
翻訳日:2021-04-20 19:42:01 公開日:2021-04-19
# (参考訳) ニューラルネットワークを用いた非線形関数モデリング [全文訳有]

Non-linear Functional Modeling using Neural Networks ( http://arxiv.org/abs/2104.09371v1 )

ライセンス: CC BY 4.0
Aniruddha Rajendra Rao and Matthew Reimherr(参考訳) ニューラルネットワークに基づく関数型データのための非線形モデルの新たなクラスを導入する。 ディープラーニングは非線形モデリングにおいて非常に成功したが、機能的なデータ設定ではほとんど行われていない。 我々は,機能的直接ニューラルネットワーク(fdnn)と呼ばれる,連続的な隠れ層を持つ機能的ニューラルネットワークと,機能的基底ニューラルネットワーク(fbnn)と呼ばれる基底拡張と連続的隠れ層を利用する2番目のバージョンを提案する。 どちらも関数データに固有の構造を利用するように設計されている。 これらのモデルに適合するため、関数勾配に基づく最適化アルゴリズムを導出する。 複雑な関数モデルを扱うための提案手法の有効性を総合的なシミュレーションと実データ例を用いて実証した。

We introduce a new class of non-linear models for functional data based on neural networks. Deep learning has been very successful in non-linear modeling, but there has been little work done in the functional data setting. We propose two variations of our framework: a functional neural network with continuous hidden layers, called the Functional Direct Neural Network (FDNN), and a second version that utilizes basis expansions and continuous hidden layers, called the Functional Basis Neural Network (FBNN). Both are designed explicitly to exploit the structure inherent in functional data. To fit these models we derive a functional gradient based optimization algorithm. The effectiveness of the proposed methods in handling complex functional models is demonstrated by comprehensive simulation studies and real data examples.
翻訳日:2021-04-20 19:26:55 公開日:2021-04-19
# (参考訳) フットプリントセグメンテーション構築のためのマルチタスク深層学習フレームワーク [全文訳有]

A Multi-Task Deep Learning Framework for Building Footprint Segmentation ( http://arxiv.org/abs/2104.09375v1 )

ライセンス: CC BY 4.0
Burak Ekim, Elif Sertel(参考訳) 足跡セグメンテーションの課題は,多くの面で貴重な情報を提供するリモートセンシング(rs)の文脈でよく研究されてきたが,空間配置の変化や非一貫性構築パターンなどのrs画像の性質が生み出す困難さは,分類図が不十分な場合が多いため,さらなる研究が必要である。 そこで,本稿では,足跡分割作業のための協調最適化スキームの設計と,補助タスクに有利な単一タスクモデルの分類精度向上を目的とした共通構造を明らかにすることを目的とした,画像再構成と建物足跡境界分割という2つの補助タスクの導入により,このニーズを解決する。 特に,各タスクのホモシダスティックな不確実性を考慮した学習可能な損失重み付きジョイント損失関数を用いて,エンドツーエンドで動作可能な,深いマルチタスク学習(mtl)に基づく統合型畳み込みフレームワークを提案する。 spacenet6データセットで行った実験結果は、シングルタスクやより少ない複合タスクに比べて分類精度が大幅に向上するため、提案されたmtlフレームワークの可能性を示している。

The task of building footprint segmentation has been well-studied in the context of remote sensing (RS) as it provides valuable information in many aspects, however, difficulties brought by the nature of RS images such as variations in the spatial arrangements and in-consistent constructional patterns require studying further, since it often causes poorly classified segmentation maps. We address this need by designing a joint optimization scheme for the task of building footprint delineation and introducing two auxiliary tasks; image reconstruction and building footprint boundary segmentation with the intent to reveal the common underlying structure to advance the classification accuracy of a single task model under the favor of auxiliary tasks. In particular, we propose a deep multi-task learning (MTL) based unified fully convolutional framework which operates in an end-to-end manner by making use of joint loss function with learnable loss weights considering the homoscedastic uncertainty of each task loss. Experimental results conducted on the SpaceNet6 dataset demonstrate the potential of the proposed MTL framework as it improves the classification accuracy considerably compared to single-task and lesser compounded tasks.
翻訳日:2021-04-20 19:08:45 公開日:2021-04-19
# (参考訳) 高ダイナミックレンジ画像再構成のための2段階深層ネットワーク [全文訳有]

A Two-stage Deep Network for High Dynamic Range Image Reconstruction ( http://arxiv.org/abs/2104.09386v1 )

ライセンス: CC BY 4.0
SMA Sharif, Rizwan Ali Naqvi, Mithun Biswas, and Kim Sungjun(参考訳) 単一露光低ダイナミックレンジ(LDR)画像を高ダイナミックレンジ(HDR)にマッピングすることは、露光関連情報不足による画像翻訳タスクにおいて、最も頑丈な画像であると考えられる。 本研究では,新しい2段階深層ネットワークを提案することにより,シングルショットLDRからHDRマッピングへの課題に取り組む。 特に,提案手法は,カメラ応答関数 (CRF) や露出設定などのハードウェア情報を知ることなく,HDR画像を再構成することを目的としている。 そこで我々は,第1段階において,デノベーションや露出補正などの画像強調作業を行う。 さらに、ディープネットワークの第2段階は、データサンプルの凸集合からトーンマッピングとビット展開を学ぶ。 定性的および定量的な比較は,提案手法が既存のLDRとHDRの限界差よりも優れていることを示す。 これとは別に,異なるカメラシステムを用いたLDR画像データセットを収集した。 実世界のLDR画像を用いて評価した結果,提案手法は視覚的アーティファクトを提示することなく,可視なHDR画像を再構成可能であることが示された。 コード提供: https://github.com。 2段hdr_ntire21。

Mapping a single exposure low dynamic range (LDR) image into a high dynamic range (HDR) is considered among the most strenuous image to image translation tasks due to exposure-related missing information. This study tackles the challenges of single-shot LDR to HDR mapping by proposing a novel two-stage deep network. Notably, our proposed method aims to reconstruct an HDR image without knowing hardware information, including camera response function (CRF) and exposure settings. Therefore, we aim to perform image enhancement task like denoising, exposure correction, etc., in the first stage. Additionally, the second stage of our deep network learns tone mapping and bit-expansion from a convex set of data samples. The qualitative and quantitative comparisons demonstrate that the proposed method can outperform the existing LDR to HDR works with a marginal difference. Apart from that, we collected an LDR image dataset incorporating different camera systems. The evaluation with our collected real-world LDR images illustrates that the proposed method can reconstruct plausible HDR images without presenting any visual artefacts. Code available: https://github. com/sharif-apu/twost ageHDR_NTIRE21.
翻訳日:2021-04-20 19:02:16 公開日:2021-04-19
# (参考訳) Algoritmos de miner\'ia de datos en la industria sanitaria [全文訳有]

Algoritmos de miner\'ia de datos en la industria sanitaria ( http://arxiv.org/abs/2104.09395v1 )

ライセンス: CC0 1.0
Marta Li Wang(参考訳) 本稿では,健康応用のためのデータマイニング手法について概説する。 私たちの焦点はハードウェア中心のアプローチです。 現代のコンピュータは複数のプロセッサで構成され、それぞれが複数のコアを備え、それぞれが算術/論理単位のセットを備えている。 したがって、現代のコンピュータは、加算や乗算といった算術演算が可能な数万単位からなることができる。 さらに、グラフィックプロセッサは数千のユニットを提供する。 いずれの場合も、単一の命令多重データと複数の命令多重データ並列性を利用する必要がある。 この並列性を利用したアルゴリズムの原理を概観し、複数の処理ユニットがキャッシュを介してメインメモリにアクセスする際のメモリ問題にも注目する。 これは、ECG、EEG、CT、SPECT、fMRI、DTI、超音波、顕微鏡、皮膚顕微鏡など、多くの健康分野において重要である。

In this paper, we review data mining approaches for health applications. Our focus is on hardware-centric approaches. Modern computers consist of multiple processors, each equipped with multiple cores, each with a set of arithmetic/logical units. Thus, a modern computer may be composed of several thousand units capable of doing arithmetic operations like addition and multiplication. Graphic processors, in addition may offer some thousand such units. In both cases, single instruction multiple data and multiple instruction multiple data parallelism must be exploited. We review the principles of algorithms which exploit this parallelism and focus also on the memory issues when multiple processing units access main memory through caches. This is important for many applications of health, such as ECG, EEG, CT, SPECT, fMRI, DTI, ultrasound, microscopy, dermascopy, etc.
翻訳日:2021-04-20 18:50:40 公開日:2021-04-19
# (参考訳) センサを用いた人間行動認識における連続学習--経験的ベンチマーク分析

Continual Learning in Sensor-based Human Activity Recognition: an Empirical Benchmark Analysis ( http://arxiv.org/abs/2104.09396v1 )

ライセンス: CC BY 4.0
Saurav Jha, Martin Schiemer, Franco Zambonelli and Juan Ye(参考訳) センサに基づく人間の活動認識(HAR)、すなわちウェアラブルや組み込みセンサーから人間の日常生活の行動パターンを発見する能力は、スマートホーム、パーソナルヘルスケア、都市計画における多くの現実的な応用の鍵となる。 HARシステムは、スクラッチから再設計されることなく、どのようにして長期間にわたって、新しいアクティビティを自律的に学習できるのか? この問題は連続学習(continuous learning)として知られ、コンピュータビジョンの分野では特に人気があり、攻撃する技術が開発されている。 本稿では,HAR領域に適用可能な連続学習手法の程度を評価することを目的とする。 そこで本研究では,様々なタイプのHARデータセットにおいて,そのような手法の性能を評価するための一般的なフレームワークを提案する。 次に,ハール特有の課題(センサノイズとラベルの不足)に取り組む計算コストと有効性に関する包括的実証分析を行った。 以上の結果から,HARシステムへの適用性に関する有用な知見が得られ,今後の研究の方向性が示唆された。 私たちのコード、モデル、データはhttps://github.com/s rvCodes/continual-le arning-benchmarkで公開されています。

Sensor-based human activity recognition (HAR), i.e., the ability to discover human daily activity patterns from wearable or embedded sensors, is a key enabler for many real-world applications in smart homes, personal healthcare, and urban planning. However, with an increasing number of applications being deployed, an important question arises: how can a HAR system autonomously learn new activities over a long period of time without being re-engineered from scratch? This problem is known as continual learning and has been particularly popular in the domain of computer vision, where several techniques to attack it have been developed. This paper aims to assess to what extent such continual learning techniques can be applied to the HAR domain. To this end, we propose a general framework to evaluate the performance of such techniques on various types of commonly used HAR datasets. We then present a comprehensive empirical analysis of their computational cost and effectiveness of tackling HAR-specific challenges (i.e., sensor noise and labels' scarcity). The presented results uncover useful insights on their applicability and suggest future research directions for HAR systems. Our code, models and data are available at https://github.com/s rvCodes/continual-le arning-benchmark.
翻訳日:2021-04-20 18:09:00 公開日:2021-04-19
# (参考訳) 共同デモサイクリングとデノイジングを超えて:ピクセル・ビン・イメージセンサのための画像処理パイプライン [全文訳有]

Beyond Joint Demosaicking and Denoising: An Image Processing Pipeline for a Pixel-bin Image Sensor ( http://arxiv.org/abs/2104.09398v1 )

ライセンス: CC BY 4.0
SMA Sharif, and Rizwan Ali Naqvi, and Mithun Biswas(参考訳) Pixel binningは、スマートフォンカメラのハードウェア制限に対処する最も顕著なソリューションの1つだと考えられている。 このような画像センサは、多くの利点があるにもかかわらず、バイヤーカラーフィルタアレイ(CFA)を組み込むために、アーティファクトを発生させる。 対照的に、CFAパターンを明示的に記述した復号化や復号化といった重要な画像信号処理(ISP)タスクを実行すると、再構成プロセスは明らかに複雑になる。 本稿では,新しい学習手法を導入することで,このような画像センサ上でのJDD(Joint Desaicing and Denoising)の課題に取り組む。 提案手法はディープネットワークにおける奥行きと空間的注意を生かした。 提案するネットワークは、視覚的に妥当な画像を生成するために、2つの新しい知覚損失を含む多項目的関数によって導かれる。 さらに,提案する画像処理パイプラインを拡張して,画素バイニング技術を用いたスマートフォンカメラで撮影した画像の包括的再構成と拡張を行う。 実験の結果,提案手法は質的および定量的比較において,既存の手法を有意なマージンで上回ることができることがわかった。 コード提供: https://github.com/s harif-apu/bjdd_cvpr2 1。

Pixel binning is considered one of the most prominent solutions to tackle the hardware limitation of smartphone cameras. Despite numerous advantages, such an image sensor has to appropriate an artefact-prone non-Bayer colour filter array (CFA) to enable the binning capability. Contrarily, performing essential image signal processing (ISP) tasks like demosaicking and denoising, explicitly with such CFA patterns, makes the reconstruction process notably complicated. In this paper, we tackle the challenges of joint demosaicing and denoising (JDD) on such an image sensor by introducing a novel learning-based method. The proposed method leverages the depth and spatial attention in a deep network. The proposed network is guided by a multi-term objective function, including two novel perceptual losses to produce visually plausible images. On top of that, we stretch the proposed image processing pipeline to comprehensively reconstruct and enhance the images captured with a smartphone camera, which uses pixel binning techniques. The experimental results illustrate that the proposed method can outperform the existing methods by a noticeable margin in qualitative and quantitative comparisons. Code available: https://github.com/s harif-apu/BJDD_CVPR2 1.
翻訳日:2021-04-20 18:07:56 公開日:2021-04-19
# (参考訳) トランスフォーマー言語モデルにおけるブリッジング推論の探索 [全文訳有]

Probing for Bridging Inference in Transformer Language Models ( http://arxiv.org/abs/2104.09400v1 )

ライセンス: CC BY 4.0
Onkar Pandit and Yufang Hou(参考訳) 我々はブリッジング推論のための事前訓練されたトランスフォーマー言語モデルを探索する。 まず、BERTにおける個々の注目ヘッドを調査し、上位層における注目ヘッドが、下層と中層とのブリッジ関係に顕著に焦点を合わせているのを観察する。 さらに重要なのは,anaphora分解能をマスキングトークン予測タスク(クローズテスト)として定式化する,第2のアプローチでは,言語モデル全体を考慮している点です。 提案手法は,事前学習された言語モデルがブリッジング推論を実質的に捉えていることを示す。 本研究は, 言語モデルにおいて, アナプホル・アンセシタントと文脈との間の距離が重要な役割を担っていることを示す。

We probe pre-trained transformer language models for bridging inference. We first investigate individual attention heads in BERT and observe that attention heads at higher layers prominently focus on bridging relations in-comparison with the lower and middle layers, also, few specific attention heads concentrate consistently on bridging. More importantly, we consider language models as a whole in our second approach where bridging anaphora resolution is formulated as a masked token prediction task (Of-Cloze test). Our formulation produces optimistic results without any fine-tuning, which indicates that pre-trained language models substantially capture bridging inference. Our further investigation shows that the distance between anaphor-antecedent and the context provided to language models play an important role in the inference.
翻訳日:2021-04-20 17:50:22 公開日:2021-04-19
# (参考訳) OmniLayout:屋内球状パノラマからの部屋レイアウト再構築 [全文訳有]

OmniLayout: Room Layout Reconstruction from Indoor Spherical Panoramas ( http://arxiv.org/abs/2104.09403v1 )

ライセンス: CC BY 4.0
Shivansh Rao and Vikas Kumar and Daniel Kifer and Lee Giles and Ankur Mali(参考訳) 1つのrgbパノラマが与えられると、3dレイアウト再構成の目標は、コーナー、フロア境界、天井境界を予測して部屋レイアウトを推定することである。 一般的なアプローチは、標準的な畳み込みネットワークを使用してコーナーとバウンダリを予測し、3Dレイアウトを生成する後処理である。 しかしながら、パノラマ画像における空間変動歪みは標準畳み込みの変換同分散特性とは相容れないため、性能が低下する。 代わりに球状畳み込みを使うように提案する。 我々がOmniLayoutと呼ぶ結果のネットワークは球面上で直接畳み込みを行い、逆正方形投影に従ってサンプリングし、したがって等方形歪みに不変である。 新しい評価指標を用いて,本ネットワークは,標準畳み込みネットワークと比較して,歪んだ領域(極付近)の誤差を約25%低減することを示した。 実験の結果、OmniLayoutは2つの異なるベンチマークデータセット(PanoContextとStanford 2D-3D)で最先端の4%を達成している。 コードはhttps://github.com/r shivansh/OmniLayout. comから入手できる。

Given a single RGB panorama, the goal of 3D layout reconstruction is to estimate the room layout by predicting the corners, floor boundary, and ceiling boundary. A common approach has been to use standard convolutional networks to predict the corners and boundaries, followed by post-processing to generate the 3D layout. However, the space-varying distortions in panoramic images are not compatible with the translational equivariance property of standard convolutions, thus degrading performance. Instead, we propose to use spherical convolutions. The resulting network, which we call OmniLayout performs convolutions directly on the sphere surface, sampling according to inverse equirectangular projection and hence invariant to equirectangular distortions. Using a new evaluation metric, we show that our network reduces the error in the heavily distorted regions (near the poles) by approx 25 % when compared to standard convolutional networks. Experimental results show that OmniLayout outperforms the state-of-the-art by approx 4% on two different benchmark datasets (PanoContext and Stanford 2D-3D). Code is available at https://github.com/r shivansh/OmniLayout.
翻訳日:2021-04-20 17:37:02 公開日:2021-04-19
# (参考訳) コントラスト型マルチモーダル事前学習による中国語ビデオと言語理解 [全文訳有]

Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training ( http://arxiv.org/abs/2104.09411v1 )

ライセンス: CC BY 4.0
Chenyi Lei, Shixian Luo, Yong Liu, Wanggui He, Jiamang Wang, Guoxin Wang, Haihong Tang, Chunyan Miao, Houqiang Li(参考訳) 事前学習されたニューラルモデルは最近、マルチモーダルコンテンツの理解において印象的なパフォーマンスを達成している。 しかし、ビデオや言語理解のためのニューラルモデルの事前学習、特に中国のビデオ言語データについては、以下の理由から、まだ非常に困難である。 まず、既存のビデオ言語事前学習アルゴリズムは、主に単語とビデオフレームの共起に焦点を当てるが、他のビデオ言語コンテンツ、例えば逐次順序や時空間関係の意味や構造情報を無視する。 第二に、ビデオ文アライメントと他のプロキシタスクとの間には矛盾がある。 第三に、大規模で高品質な中国語ビデオ言語データセット(例えば1000万のユニークなビデオを含む)が欠如しており、これは事前学習技術の基本的な成功条件である。 本研究では,コントラスト型マルチモーダル事前学習によるビデオ言語理解の基盤となる,victorと呼ばれる新しいビデオ言語理解フレームワークを提案する。 マスク言語モデリングのような一般的なプロキシタスクに加えて、VICTORは対照的な学習パラダイムの下でいくつかの新しいプロキシタスクを構築し、モデルがより堅牢になり、異なる視点からより複雑なマルチモーダルセマンティクスと構造的関係を捉えることができる。 VICTORは、高品質なテキスト記述を備えた1000万以上の完全なビデオを含む、大規模な中国のビデオ言語データセットでトレーニングされている。 我々は,VICTORモデルを一連のダウンストリームアプリケーションに適用し,その優れた性能を示し,ビデオBERTやUniVLのような最先端の事前学習手法と比較した。 コードとトレーニングされたチェックポイントは、研究コミュニティのさらなる発展を養うために公開される予定だ。

The pre-trained neural models have recently achieved impressive performances in understanding multimodal content. However, it is still very challenging to pre-train neural models for video and language understanding, especially for Chinese video-language data, due to the following reasons. Firstly, existing video-language pre-training algorithms mainly focus on the co-occurrence of words and video frames, but ignore other valuable semantic and structure information of video-language content, e.g., sequential order and spatiotemporal relationships. Secondly, there exist conflicts between video sentence alignment and other proxy tasks. Thirdly, there is a lack of large-scale and high-quality Chinese video-language datasets (e.g., including 10 million unique videos), which are the fundamental success conditions for pre-training techniques. In this work, we propose a novel video-language understanding framework named VICTOR, which stands for VIdeo-language understanding via Contrastive mulTimOdal pRe-training. Besides general proxy tasks such as masked language modeling, VICTOR constructs several novel proxy tasks under the contrastive learning paradigm, making the model be more robust and able to capture more complex multimodal semantic and structural relationships from different perspectives. VICTOR is trained on a large-scale Chinese video-language dataset, including over 10 million complete videos with corresponding high-quality textual descriptions. We apply the pre-trained VICTOR model to a series of downstream applications and demonstrate its superior performances, comparing against the state-of-the-art pre-training methods such as VideoBERT and UniVL. The codes and trained checkpoints will be publicly available to nourish further developments of the research community.
翻訳日:2021-04-20 17:24:06 公開日:2021-04-19
# (参考訳) 人間の最小限のビデオは、動的認識モデルについて何を教えてくれるか? [全文訳有]

What can human minimal videos tell us about dynamic recognition models? ( http://arxiv.org/abs/2104.09447v1 )

ライセンス: CC BY 4.0
Guy Ben-Yosef, Gabriel Kreiman, Shimon Ullman(参考訳) 人間の視覚では、物体とその部分は純粋に空間的または純粋に時間的情報から視覚的に認識できるが、空間と時間を統合するメカニズムはよく分かっていない。 ここでは,物体と行動の人間の視覚的認識は,各音源が認識に不十分な構成において,空間的および運動的手がかりを効率的に組み合わせることによって達成できることを示す。 この分析は、最小限の動画を識別することで得られる。これらは、オブジェクト、部品、アクションを確実に認識できる、短くて小さなビデオクリップである。 ダイナミックな視覚認識のための最先端のディープネットワークは、これらの構成で人間の行動を再現できない。 この人間と機械のギャップは、現在のモデルに欠けている人間のダイナミックビジョンにおける重要なメカニズムを示している。

In human vision objects and their parts can be visually recognized from purely spatial or purely temporal information but the mechanisms integrating space and time are poorly understood. Here we show that human visual recognition of objects and actions can be achieved by efficiently combining spatial and motion cues in configurations where each source on its own is insufficient for recognition. This analysis is obtained by identifying minimal videos: these are short and tiny video clips in which objects, parts, and actions can be reliably recognized, but any reduction in either space or time makes them unrecognizable. State-of-the-art deep networks for dynamic visual recognition cannot replicate human behavior in these configurations. This gap between humans and machines points to critical mechanisms in human dynamic vision that are lacking in current models.
翻訳日:2021-04-20 16:52:42 公開日:2021-04-19
# (参考訳) 規範的事前学習を用いた価値整合強化学習エージェントの訓練 [全文訳有]

Training Value-Aligned Reinforcement Learning Agents Using a Normative Prior ( http://arxiv.org/abs/2104.09469v1 )

ライセンス: CC BY 4.0
Md Sultan Al Nahian, Spencer Frazier, Brent Harrison, Mark Riedl(参考訳) より多くの機械学習エージェントが人間と対話するにつれて、タスクを最適に実行するよう訓練されたエージェントが、タスクのパフォーマンスをフィードバックとしてのみ使用し、許容される行動や害をもたらす社会的規範に違反する可能性が高まっている。 価値アライメントは知的エージェントの特性であり、それらは単に害のない行動や人間-利益目標だけを追求する。 そこで我々は,標準的なタスクパフォーマンス報酬と規範的な行動報酬という2つの報酬信号を持つエージェントを訓練する,価値整合強化学習のアプローチを紹介する。 規範的行動報酬は、テキストを規範的または非規範的と分類するために以前に示された値整合事前モデルに由来する。 政策形成手法のバリエーションがこれら2つの報酬源をバランスさせ、効果的かつより規範的であると見なされる政策を生み出す方法を示す。 我々は、3つのインタラクティブなテキストベースの世界において価値調整技術をテストする。各世界は、タスクを持ったエージェントに挑戦すると同時に、タスクから逸脱して規範的および/または利他的行動に従事する機会を提供するように設計されている。

As more machine learning agents interact with humans, it is increasingly a prospect that an agent trained to perform a task optimally, using only a measure of task performance as feedback, can violate societal norms for acceptable behavior or cause harm. Value alignment is a property of intelligent agents wherein they solely pursue non-harmful behaviors or human-beneficial goals. We introduce an approach to value-aligned reinforcement learning, in which we train an agent with two reward signals: a standard task performance reward, plus a normative behavior reward. The normative behavior reward is derived from a value-aligned prior model previously shown to classify text as normative or non-normative. We show how variations on a policy shaping technique can balance these two sources of reward and produce policies that are both effective and perceived as being more normative. We test our value-alignment technique on three interactive text-based worlds; each world is designed specifically to challenge agents with a task as well as provide opportunities to deviate from the task to engage in normative and/or altruistic behavior.
翻訳日:2021-04-20 16:45:38 公開日:2021-04-19
# (参考訳) 対応比較:ビデオ予測と対応損失 [全文訳有]

Comparing Correspondences: Video Prediction with Correspondence-wise Losses ( http://arxiv.org/abs/2104.09498v1 )

ライセンス: CC BY 4.0
Daniel Geng, Andrew Owens(参考訳) 今日の画像予測手法は、シーン内の物体の位置を変更するのに苦労し、彼らが占めるであろう多くの位置の平均的なぼやけた画像を生成する。 本稿では,既存の画像類似度測定値に簡単な変更を加えることで,画像に光学的フローを用いてマッチングし,対応する画素の視覚的類似度を測定する。 この変更により、より鮮明で知覚的に正確な予測が可能になり、任意の画像予測ネットワークで使用できる。 提案手法は,ビデオのフレームの予測に応用され,単純で既製のアーキテクチャで高い性能が得られる。

Today's image prediction methods struggle to change the locations of objects in a scene, producing blurry images that average over the many positions they might occupy. In this paper, we propose a simple change to existing image similarity metrics that makes them more robust to positional errors: we match the images using optical flow, then measure the visual similarity of corresponding pixels. This change leads to crisper and more perceptually accurate predictions, and can be used with any image prediction network. We apply our method to predicting future frames of a video, where it obtains strong performance with simple, off-the-shelf architectures.
翻訳日:2021-04-20 16:29:03 公開日:2021-04-19
# 強データ拡張を用いた半教師付きセマンティクスセグメンテーションのための簡易ベースライン

A Simple Baseline for Semi-supervised Semantic Segmentation with Strong Data Augmentation ( http://arxiv.org/abs/2104.07256v2 )

ライセンス: Link先を確認
Jianlong Yuan, Yifan Liu, Chunhua Shen, Zhibin Wang, Hao Li(参考訳) 近年,セマンティクスセグメンテーションにおいて著しい進歩がみられた。 しかし、教師付きセマンティックセグメンテーションの成功は一般的に大量のラベル付きデータに依存しており、それは時間とコストがかかる。 画像分類におけるセミ教師あり学習手法の成功に触発されて,セマンティックセグメンテーションのためのシンプルで効果的なセミ教師あり学習フレームワークを提案する。 簡単な設計と訓練手法のセットは、半教師付きセマンティックセグメンテーションの性能を大幅に向上させることができる。 先行研究[3, 27]は,強い増分による大きな分布変化がバッチ正規化統計を損なうため,擬似ラベル学習において強力な増分を効率的に採用できない。 そこで我々は,この問題に対処し,セマンティックセグメンテーションにおける強化の重要性を示すために,新しいバッチ正規化(DSBN)を設計する。 さらに, 耐雑音性に優れた自己補正損失の設計を行う。 それぞれの成分の有効性を示す一連のアブレーション研究を行っている。 本手法は,Cityscapes と Pascal VOC データセットの半教師付き設定において,最先端の結果を得られる。

Recently, significant progress has been made on semantic segmentation. However, the success of supervised semantic segmentation typically relies on a large amount of labelled data, which is time-consuming and costly to obtain. Inspired by the success of semi-supervised learning methods in image classification, here we propose a simple yet effective semi-supervised learning framework for semantic segmentation. We demonstrate that the devil is in the details: a set of simple design and training techniques can collectively improve the performance of semi-supervised semantic segmentation significantly. Previous works [3, 27] fail to employ strong augmentation in pseudo label learning efficiently, as the large distribution change caused by strong augmentation harms the batch normalisation statistics. We design a new batch normalisation, namely distribution-specifi c batch normalisation (DSBN) to address this problem and demonstrate the importance of strong augmentation for semantic segmentation. Moreover, we design a self correction loss which is effective in noise resistance. We conduct a series of ablation studies to show the effectiveness of each component. Our method achieves state-of-the-art results in the semi-supervised settings on the Cityscapes and Pascal VOC datasets.
翻訳日:2021-04-20 14:52:21 公開日:2021-04-19
# ファウショット学習のためのPareto Self-Supervised Training

Pareto Self-Supervised Training for Few-Shot Learning ( http://arxiv.org/abs/2104.07841v2 )

ライセンス: Link先を確認
Zhengyu Chen, Jixie Ge, Heshen Zhan, Siteng Huang, Donglin Wang(参考訳) 少数ショット学習(FSL)は、監督の少ない新しい概念への迅速な一般化を目的としているが、自己監督学習(SSL)は、ラベルなしデータから直接計算される監視信号を構成する。 この2つの方法の相補性を駆使して、最近、少数のラベル付きデータを扱うために、少数の補助学習が注目されている。 従来の作業は、メインタスク(FSL)と補助タスク(SSL)間で帰納バイアスを共有することの恩恵を受けており、タスクの損失の線形結合を最小限にすることでタスクの共有パラメータを最適化する。 しかし、タスクのバランスとタスクの衝突を減らすために適切な重みを選択することは困難である。 そこで本研究では,FSLのためのPSST(Pareto Self-supervised Training)という新しい手法を提案する。 psstは、マイショット補助問題を、トレードオフ選択の異なる複数の制約付き多目的部分問題に明示的に分解し、ここで、メインタスクが最高の性能を達成する選好領域を特定する。 次に,このような選好領域において最適な解の組を求めるために,有効なpareto探索を提案する。 いくつかの公開ベンチマークデータセットに対する大規模な実験は、最先端のパフォーマンスを達成することによって、我々のアプローチの有効性を検証する。

While few-shot learning (FSL) aims for rapid generalization to new concepts with little supervision, self-supervised learning (SSL) constructs supervisory signals directly computed from unlabeled data. Exploiting the complementarity of these two manners, few-shot auxiliary learning has recently drawn much attention to deal with few labeled data. Previous works benefit from sharing inductive bias between the main task (FSL) and auxiliary tasks (SSL), where the shared parameters of tasks are optimized by minimizing a linear combination of task losses. However, it is challenging to select a proper weight to balance tasks and reduce task conflict. To handle the problem as a whole, we propose a novel approach named as Pareto self-supervised training (PSST) for FSL. PSST explicitly decomposes the few-shot auxiliary problem into multiple constrained multi-objective subproblems with different trade-off preferences, and here a preference region in which the main task achieves the best performance is identified. Then, an effective preferred Pareto exploration is proposed to find a set of optimal solutions in such a preference region. Extensive experiments on several public benchmark datasets validate the effectiveness of our approach by achieving state-of-the-art performance.
翻訳日:2021-04-20 14:52:03 公開日:2021-04-19
# SSPC-Net: 半教師付きセマンティック3Dポイントクラウドセグメンテーションネットワーク

SSPC-Net: Semi-supervised Semantic 3D Point Cloud Segmentation Network ( http://arxiv.org/abs/2104.07861v2 )

ライセンス: Link先を確認
Mingmei Cheng, Le Hui, Jin Xie, Jian Yang(参考訳) ポイントクラウドセマンティックセグメンテーションは3Dシーン理解において重要なタスクである。 既存の手法は主に、教師付きセマンティックセグメンテーションに多数の注釈付きラベルを使うことに焦点を当てている。 それでも、教師付きセグメンテーションタスクのために、このような大きなポイントクラウドを手動でラベル付けするのは時間を要する。 そこで,sspc-netと呼ばれる半教師付きセマンティックポイントクラウドセグメンテーションネットワークを提案する。このネットワークでは,ラベルなしの3dポイントのラベルを推測して意味セグメンテーションネットワークを訓練する。 提案手法では,まず点群全体をスーパーポイントに分割し,点群内の長距離依存関係をマイニングするスーパーポイントグラフを構築する。 構築したスーパーポイントグラフに基づいて,教師なしスーパーポイントに対して擬似ラベルを生成する動的ラベル伝搬法を開発した。 特に,生成した擬似ラベルを動的に選択するために,スーパーポイントドロップアウト戦略を採用する。 さらに,教師なしスーパーポイントの擬似ラベルをフル活用するために,スーパーポイント機能埋め込みのための結合型アテンション機構を提案する。 最後に,教師付きスーパーポイントのラベルと教師なしスーパーポイントの擬似ラベルとのセグメンテーションネットワークをトレーニングするために,クロスエントロピー損失を用いる。 各種データセットを用いた実験により, 注釈付き3D点の少ない半教師付きセグメンテーション法よりも優れた性能が得られた。 私たちのコードはhttps://github.com/M MCheng/SSPC-Net.comで利用可能です。

Point cloud semantic segmentation is a crucial task in 3D scene understanding. Existing methods mainly focus on employing a large number of annotated labels for supervised semantic segmentation. Nonetheless, manually labeling such large point clouds for the supervised segmentation task is time-consuming. In order to reduce the number of annotated labels, we propose a semi-supervised semantic point cloud segmentation network, named SSPC-Net, where we train the semantic segmentation network by inferring the labels of unlabeled points from the few annotated 3D points. In our method, we first partition the whole point cloud into superpoints and build superpoint graphs to mine the long-range dependencies in point clouds. Based on the constructed superpoint graph, we then develop a dynamic label propagation method to generate the pseudo labels for the unsupervised superpoints. Particularly, we adopt a superpoint dropout strategy to dynamically select the generated pseudo labels. In order to fully exploit the generated pseudo labels of the unsupervised superpoints, we furthermore propose a coupled attention mechanism for superpoint feature embedding. Finally, we employ the cross-entropy loss to train the semantic segmentation network with the labels of the supervised superpoints and the pseudo labels of the unsupervised superpoints. Experiments on various datasets demonstrate that our semi-supervised segmentation method can achieve better performance than the current semi-supervised segmentation method with fewer annotated 3D points. Our code is available at https://github.com/M MCheng/SSPC-Net.
翻訳日:2021-04-20 14:51:41 公開日:2021-04-19
# カーネルとニューラルネットワーク近似を用いた高次元強化学習の$L^2$の解析

An $L^2$ Analysis of Reinforcement Learning in High Dimensions with Kernel and Neural Network Approximation ( http://arxiv.org/abs/2104.07794v2 )

ライセンス: Link先を確認
Jihao Long, Jiequn Han, Weinan E(参考訳) 高次元関数近似に基づく強化学習(RL)アルゴリズムは、多数の状態を持つ大規模問題において、大きな経験的成功を収めた。 しかし、そのようなアルゴリズムのほとんどの分析は、状態数と特徴数のいずれかを含む誤差境界を生じる。 本稿では,カーネル法あるいは2層ニューラルネットワークモデルを用いて関数近似を行う状況について,明示的な正規化を伴うQ-イテレーションアルゴリズムを用いて検討する。 我々は、$Hn$サンプルを持つ最適なポリシーに対して$\tilde{O}(H^3|\mathcal {A}|^{\frac14}n^{-\frac14})$を定め、$H$は各エピソードの長さであり、$|\mathcal {A}|$はアクション空間のサイズである。 解析では、近似q関数の$l^2$誤差を$n$データポイントを用いて解析する。 この結果はまだ有限サイズの作用空間を必要とするが、誤差境界は状態空間の次元性とは独立である。

Reinforcement learning (RL) algorithms based on high-dimensional function approximation have achieved tremendous empirical success in large-scale problems with an enormous number of states. However, most analysis of such algorithms gives rise to error bounds that involve either the number of states or the number of features. This paper considers the situation where the function approximation is made either using the kernel method or the two-layer neural network model, in the context of a fitted Q-iteration algorithm with explicit regularization. We establish an $\tilde{O}(H^3|\mathcal {A}|^{\frac14}n^{-\frac14})$ bound for the optimal policy with $Hn$ samples, where $H$ is the length of each episode and $|\mathcal {A}|$ is the size of action space. Our analysis hinges on analyzing the $L^2$ error of the approximated Q-function using $n$ data points. Even though this result still requires a finite-sized action space, the error bound is independent of the dimensionality of the state space.
翻訳日:2021-04-20 14:51:16 公開日:2021-04-19
# 電子商取引プラットフォームにおけるカテゴリー勧告の変分推論

Variational Inference for Category Recommendation in E-Commerce platforms ( http://arxiv.org/abs/2104.07748v2 )

ライセンス: Link先を確認
Ramasubramanian Balasubramanian, Venugopal Mani, Abhinav Mathur, Sushant Kumar, Kannan Achan(参考訳) eコマースプラットフォーム上のユーザのカテゴリレコメンデーションは、Webサイトのトラフィックの流れを規定する上で重要なタスクである。 したがって、利用者がプラットフォームを旅するのを助け、新しいカテゴリーの発見を支援するために、正確で多様なカテゴリーの推奨事項を提示することが重要である。 カテゴリーレコメンデーションでしばしば過小評価される部分は、購入を繰り返すユーザーの傾向である。 この時間的行動の構造はより優れたカテゴリーの推薦のために収集することができ、本研究では変分推論によってこれを活用しようと試みる。 さらに、変分推論に基づく最適化を強化するために、よく知られたmetapath2vecアルゴリズムを用いて最適化器をより良い出発点に初期化する。 実世界の2つのデータセットで結果を実証し、我々のモデルが標準ベースライン法より優れていることを示す。

Category recommendation for users on an e-Commerce platform is an important task as it dictates the flow of traffic through the website. It is therefore important to surface precise and diverse category recommendations to aid the users' journey through the platform and to help them discover new groups of items. An often understated part in category recommendation is users' proclivity to repeat purchases. The structure of this temporal behavior can be harvested for better category recommendations and in this work, we attempt to harness this through variational inference. Further, to enhance the variational inference based optimization, we initialize the optimizer at better starting points through the well known Metapath2Vec algorithm. We demonstrate our results on two real-world datasets and show that our model outperforms standard baseline methods.
翻訳日:2021-04-20 14:50:56 公開日:2021-04-19
# 教師なし深層学習を用いた3次元蛍光顕微鏡の軸方向超解像

Axial-to-lateral super-resolution for 3D fluorescence microscopy using unsupervised deep learning ( http://arxiv.org/abs/2104.09435v1 )

ライセンス: Link先を確認
Hyoungjun Park, Myeongsu Na, Bumju Kim, Soohyun Park, Ki Hean Kim, Sunghoe Chang, and Jong Chul Ye(参考訳) 蛍光顕微鏡による体積イメージングは、横分解能と比較して下方軸分解能からの異方性空間分解能によってしばしば制限される。 この問題に対処するため,本研究では,ボリューム蛍光顕微鏡における異方性画像の強調を行う,ディープラーニング対応の非教師なし超解像技術を提案する。 高分解能のターゲットボリューム画像を必要とする既存のディープラーニングのアプローチとは対照的に、ネットワークのトレーニングでは画像形成プロセスの事前知識やトレーニングデータの登録、ターゲットデータの分離といった知識を必要とせず、単一の3dイメージスタックしか必要とせず、実践の労力を大幅に削減する。 これは、横方向画像平面における高解像度2D画像と他の平面における低解像度2D画像との未ペアマッチングから学習する最適な輸送駆動サイクル一貫性生成対向ネットワークに基づいて達成される。 蛍光共焦点顕微鏡と光シート顕微鏡を用いて, 訓練したネットワークは回折限界を超える軸分解能を増大させるだけでなく, 撮像面間の視覚詳細の抑制や画像アーティファクトの除去にも寄与することを示した。

Volumetric imaging by fluorescence microscopy is often limited by anisotropic spatial resolution from inferior axial resolution compared to the lateral resolution. To address this problem, here we present a deep-learning-enable d unsupervised super-resolution technique that enhances anisotropic images in volumetric fluorescence microscopy. In contrast to the existing deep learning approaches that require matched high-resolution target volume images, our method greatly reduces the effort to put into practice as the training of a network requires as little as a single 3D image stack, without a priori knowledge of the image formation process, registration of training data, or separate acquisition of target data. This is achieved based on the optimal transport driven cycle-consistent generative adversarial network that learns from an unpaired matching between high-resolution 2D images in lateral image plane and low-resolution 2D images in the other planes. Using fluorescence confocal microscopy and light-sheet microscopy, we demonstrate that the trained network not only enhances axial resolution beyond the diffraction limit, but also enhances suppressed visual details between the imaging planes and removes imaging artifacts.
翻訳日:2021-04-20 14:50:24 公開日:2021-04-19
# トピックモデリングのための少数ショット学習

Few-shot Learning for Topic Modeling ( http://arxiv.org/abs/2104.09011v1 )

ライセンス: Link先を確認
Tomoharu Iwata(参考訳) 話題モデルはテキスト文書の分析に成功している。 しかし、既存のトピックモデルでは、多くのドキュメントがトレーニングに必要である。 本稿では,いくつかの文書からトピックモデルを学習できるニューラルネットワークによる少数ショット学習手法を提案する。 我々のモデルのニューラルネットワークは、少数の文書を入力として取り、トピックモデルを出力する。 提案手法は,EMアルゴリズムに基づいて先行確率を最大化することにより,トピックモデルパラメータの推定時に期待されるテスト可能性を改善するようにニューラルネットワークを訓練する。 EMアルゴリズムの各ステップは微分可能であるため、提案手法はEMアルゴリズムを通じて損失を逆伝播させてニューラルネットワークを訓練することができる。 複数のテキストコーパスの集合とエピソディックなトレーニングフレームワークを用いて確率勾配降下法により,予測試験確率を最大化する。 本研究では,提案手法が実世界の3つの文書集合を用いた既存手法よりも難易度が高いことを示す。

Topic models have been successfully used for analyzing text documents. However, with existing topic models, many documents are required for training. In this paper, we propose a neural network-based few-shot learning method that can learn a topic model from just a few documents. The neural networks in our model take a small number of documents as inputs, and output topic model priors. The proposed method trains the neural networks such that the expected test likelihood is improved when topic model parameters are estimated by maximizing the posterior probability using the priors based on the EM algorithm. Since each step in the EM algorithm is differentiable, the proposed method can backpropagate the loss through the EM algorithm to train the neural networks. The expected test likelihood is maximized by a stochastic gradient descent method using a set of multiple text corpora with an episodic training framework. In our experiments, we demonstrate that the proposed method achieves better perplexity than existing methods using three real-world text document sets.
翻訳日:2021-04-20 14:47:37 公開日:2021-04-19
# エンド・ツー・エンド自動運転用マルチモーダル核融合変圧器

Multi-Modal Fusion Transformer for End-to-End Autonomous Driving ( http://arxiv.org/abs/2104.09224v1 )

ライセンス: Link先を確認
Aditya Prakash, Kashyap Chitta, Andreas Geiger(参考訳) 補完的センサによる表現を自律運転にどのように組み込むべきか? 幾何学に基づくセンサー融合は、物体検出や動き予測などの知覚タスクに大きな期待を寄せている。 しかし、実際の運転タスクでは、3Dシーンのグローバルなコンテキストが鍵となる。 信号機状態の変化は、その信号機から幾何的に離れた車両の挙動に影響を与える可能性がある。 したがって、幾何学だけではエンドツーエンドの駆動モデルで表現を効果的に融合するには不十分である。 本研究では,既存のセンサ融合手法に基づく模倣学習方針が,非制御交差点における複数方向からのトラフィックの処理など,グローバルな文脈的推論を必要とする動的エージェントや複雑なシナリオの存在下では過小評価されることを実証する。 そこで我々は,新しいマルチモーダルフュージョン変換器であるTransFuserを提案し,注意力を用いて画像とLiDAR表現を統合する。 CARLA都市運転シミュレータを用いた複雑なシナリオを含む都市環境におけるアプローチの有効性を実験的に検証した。 本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。

How should representations from complementary sensors be integrated for autonomous driving? Geometry-based sensor fusion has shown great promise for perception tasks such as object detection and motion forecasting. However, for the actual driving task, the global context of the 3D scene is key, e.g. a change in traffic light state can affect the behavior of a vehicle geometrically distant from that traffic light. Geometry alone may therefore be insufficient for effectively fusing representations in end-to-end driving models. In this work, we demonstrate that imitation learning policies based on existing sensor fusion methods under-perform in the presence of a high density of dynamic agents and complex scenarios, which require global contextual reasoning, such as handling traffic oncoming from multiple directions at uncontrolled intersections. Therefore, we propose TransFuser, a novel Multi-Modal Fusion Transformer, to integrate image and LiDAR representations using attention. We experimentally validate the efficacy of our approach in urban settings involving complex scenarios using the CARLA urban driving simulator. Our approach achieves state-of-the-art driving performance while reducing collisions by 76% compared to geometry-based fusion.
翻訳日:2021-04-20 14:46:22 公開日:2021-04-19
# ベイズアルゴリズムの実行:相互情報を用いたブラックボックス関数の計算可能特性の推定

Bayesian Algorithm Execution: Estimating Computable Properties of Black-box Functions Using Mutual Information ( http://arxiv.org/abs/2104.09460v1 )

ライセンス: Link先を確認
Willie Neiswanger, Ke Alexander Wang, Stefano Ermon(参考訳) 実世界の多くの問題では、t 関数の評価の予算を考えると、高価なブラックボックス関数 f のいくつかの性質を推測したい。 例えば、予算制約付き f のグローバル最適化であり、ベイズ最適化は一般的な方法である。 しばしば、所望のプロパティを計算するアルゴリズムAを見つけることができるが、実行にはTクエリよりもはるかに多く必要である。 このような A と f 上の事前分布が与えられた場合、ベイズアルゴリズム実行(BAX)として評価された A を用いて A の出力を推定する問題を参照する。 そこで本研究では,アルゴリズムの出力に対して相互情報を最大化するクエリを順次選択する手法であるinfobaxを提案する。 これをdijkstraのアルゴリズムに適用すると、例えば、ブラックボックスのエッジコストを伴う合成および実世界のグラフにおける最短経路を推測する。 進化戦略を用いることで、グローバルではなく局所を対象とするベイズ最適化の変種が得られる。 これらの問題に対してInfoBAXは、元のアルゴリズムで要求されるより500倍少ないクエリをfに使用する。 本手法は、エントロピー探索法やガウス過程を用いた最適センサ配置法などのベイズ最適実験設計手法と密接な関係がある。

In many real world problems, we want to infer some property of an expensive black-box function f, given a budget of T function evaluations. One example is budget constrained global optimization of f, for which Bayesian optimization is a popular method. Other properties of interest include local optima, level sets, integrals, or graph-structured information induced by f. Often, we can find an algorithm A to compute the desired property, but it may require far more than T queries to execute. Given such an A, and a prior distribution over f, we refer to the problem of inferring the output of A using T evaluations as Bayesian Algorithm Execution (BAX). To tackle this problem, we present a procedure, InfoBAX, that sequentially chooses queries that maximize mutual information with respect to the algorithm's output. Applying this to Dijkstra's algorithm, for instance, we infer shortest paths in synthetic and real-world graphs with black-box edge costs. Using evolution strategies, we yield variants of Bayesian optimization that target local, rather than global, optima. On these problems, InfoBAX uses up to 500 times fewer queries to f than required by the original algorithm. Our method is closely connected to other Bayesian optimal experimental design procedures such as entropy search methods and optimal sensor placement using Gaussian processes.
翻訳日:2021-04-20 14:45:42 公開日:2021-04-19
# SemEval-2021 Task 1: アセンブリモデルによる語彙複雑度予測

BigGreen at SemEval-2021 Task 1: Lexical Complexity Prediction with Assembly Models ( http://arxiv.org/abs/2104.09040v1 )

ライセンス: Link先を確認
Aadil Islam, Weicheng Ma, Soroush Vosoughi(参考訳) 本稿では,チームBigGreen が LCP 2021 に提案した,ある文脈における英語単語の語彙的複雑さを予測するシステムについて述べる。 BERT上に構築されたディープニューラルネットワークモデルを用いて,機能エンジニアリングベースのモデルを組み立てる。 BERT自体は競争力がありますが、私たちの機能エンジニアリングベースのモデルは極端な場合、例えば、役に立ちます。 簡単で中立的な困難を 切り離すことです 我々の手工芸品の特徴は、語彙、意味、構文、および新しい音韻学的尺度からなる。 BERTアテンションマップの可視化は、Transformersモデルが語彙複雑性予測のために微調整した時に学習する可能性のある潜在的な機能についての洞察を提供する。 一つの単語のサブタスクに対して,組み合わされた予測は合理的に評価され,マルチワードのサブタスクでもうまく機能することを示す。

This paper describes a system submitted by team BigGreen to LCP 2021 for predicting the lexical complexity of English words in a given context. We assemble a feature engineering-based model with a deep neural network model founded on BERT. While BERT itself performs competitively, our feature engineering-based model helps in extreme cases, eg. separating instances of easy and neutral difficulty. Our handcrafted features comprise a breadth of lexical, semantic, syntactic, and novel phonological measures. Visualizations of BERT attention maps offer insight into potential features that Transformers models may learn when fine-tuned for lexical complexity prediction. Our ensembled predictions score reasonably well for the single word subtask, and we demonstrate how they can be harnessed to perform well on the multi word expression subtask too.
翻訳日:2021-04-20 14:40:40 公開日:2021-04-19
# ニューラル・タンジェント・カーネル・パースペクティブにおける深部前処理による非教師なし形状補完

Unsupervised Shape Completion via Deep Prior in the Neural Tangent Kernel Perspective ( http://arxiv.org/abs/2104.09023v1 )

ライセンス: Link先を確認
Lei Chu, Hao Pan, Wenping Wang(参考訳) 深層ニューラルネットワークを用いて不完全なスキャンデータから3次元形状の完成と再構成を行う新しい手法を提案する。 教師付き完了タスクでトレーニングされ、テスト形状に適用される代わりに、ネットワークは単一のテスト形状をゼロから最適化し、その形状に完全に適応し、既知の領域からのコンテキストガイダンスを使用して欠落したデータを完成させる。 訓練されていないニューラルネットワークによって欠落したデータを完遂する能力は、通常、deep priorと呼ばれる。 本稿では,神経接核(ntk)の観点からの深部前処理を解釈し,訓練されたcnnによる形状パッチが,ntkによって誘導される核特徴空間において近在であるため,既存のパッチと自然に類似していることを示す。 この解釈により、より効率的なネットワーク構造と学習機構を設計し、形状の完成と復元を行うことができる。 従来型および他の教師なし学習に基づく再構築法よりも構造的規則性に気付いており,そのアプローチでは,十分な形状を持つ大きな欠落領域を完備し,追加のトレーニングデータセットを必要とせず,特定の形状インスタンスに柔軟な適応を示すことにより,データベースを優先的に使用する教師あり学習ベースの手法を補完する。

We present a novel approach for completing and reconstructing 3D shapes from incomplete scanned data by using deep neural networks. Rather than being trained on supervised completion tasks and applied on a testing shape, the network is optimized from scratch on the single testing shape, to fully adapt to the shape and complete the missing data using contextual guidance from the known regions. The ability to complete missing data by an untrained neural network is usually referred to as the deep prior. In this paper, we interpret the deep prior from a neural tangent kernel (NTK) perspective and show that the completed shape patches by the trained CNN are naturally similar to existing patches, as they are proximate in the kernel feature space induced by NTK. The interpretation allows us to design more efficient network structures and learning mechanisms for the shape completion and reconstruction task. Being more aware of structural regularities than both traditional and other unsupervised learning-based reconstruction methods, our approach completes large missing regions with plausible shapes and complements supervised learning-based methods that use database priors by requiring no extra training data set and showing flexible adaptation to a particular shape instance.
翻訳日:2021-04-20 14:39:26 公開日:2021-04-19
# DisCo: 拡張コントラスト学習による軽量モデルの自己指導型学習

DisCo: Remedy Self-supervised Learning on Lightweight Models with Distilled Contrastive Learning ( http://arxiv.org/abs/2104.09124v1 )

ライセンス: Link先を確認
Yuting Gao, Jia-Xin Zhuang, Ke Li, Hao Cheng, Xiaowei Guo, Feiyue Huang, Rongrong Ji, Xing Sun(参考訳) 自己監督型表現学習(SSL)はコミュニティから広く注目を集めているが,最近の研究では,モデルサイズが減少すると,その性能が低下すると主張している。 本研究は,ネットワークを訓練するためのコントラスト学習に主に依存しており,この問題を大きなマージンで解決するために,簡易かつ効果的な蒸留コントラスト学習(disco)を提案する。 具体的には,主流のSSL方式で得られた最終埋め込みに最も実りのある情報が含まれており,教師の知識を最大限に軽量モデルに伝達するための最終埋め込みを,教師の知識と整合性を保つために,教師の知識を制約することを提案する。 また, 本実験では, 蒸留ボトルネックと呼ばれる現象が存在し, 埋込み寸法を拡大してこの問題を緩和できることがわかった。 我々の手法は、展開中に軽量モデルに余分なパラメータを導入しない。 実験の結果,全軽量モデルにおいて最先端の手法が得られた。 特に、ResNet-101/ResNet-50 が教師として使われているとき、ImageNet上のEfficientNet-B0の線形結果はResNet-101/ResNet-50 に非常に近いが、EfficientNet-B0のパラメータの数はResNet-101/ResNet-50 の9.4%/16.3%に過ぎない。

While self-supervised representation learning (SSL) has received widespread attention from the community, recent research argue that its performance will suffer a cliff fall when the model size decreases. The current method mainly relies on contrastive learning to train the network and in this work, we propose a simple yet effective Distilled Contrastive Learning (DisCo) to ease the issue by a large margin. Specifically, we find the final embedding obtained by the mainstream SSL methods contains the most fruitful information, and propose to distill the final embedding to maximally transmit a teacher's knowledge to a lightweight model by constraining the last embedding of the student to be consistent with that of the teacher. In addition, in the experiment, we find that there exists a phenomenon termed Distilling BottleNeck and present to enlarge the embedding dimension to alleviate this problem. Our method does not introduce any extra parameter to lightweight models during deployment. Experimental results demonstrate that our method achieves the state-of-the-art on all lightweight models. Particularly, when ResNet-101/ResNet-50 is used as teacher to teach EfficientNet-B0, the linear result of EfficientNet-B0 on ImageNet is very close to ResNet-101/ResNet-50 , but the number of parameters of EfficientNet-B0 is only 9.4%/16.3% of ResNet-101/ResNet-50 .
翻訳日:2021-04-20 14:39:02 公開日:2021-04-19
# SCNet:自己コントラスト背景型によるFew-Shot Semantic Segmentationの強化

SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive Background Prototypes ( http://arxiv.org/abs/2104.09216v1 )

ライセンス: Link先を確認
Jiacheng Chen, Bin-Bin Gao, Zongqing Lu, Jing-Hao Xue, Chengjie Wang, Qingmin Liao(参考訳) Few-shotのセマンティックセマンティックセマンティクスは、新しいクラスオブジェクトをクエリイメージにセグメントすることを目的としており、サポートイメージに注釈付きの例がわずかである。 先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。 しかし、このフレームワークは、前景のプロトタイプのみとサンプルペアの不完全な構成のため、偏りのある分類に苦しむ。 この問題に対処するため,本稿では,小ショットセマンティクスセグメンテーションにおける補完的自己結合的タスクを提案する。 私たちの新しいモデルは、フォアグラウンドでも背景でも、領域内のピクセルとこの領域のプロトタイプを関連付けることができます。 この目的のために,クエリ画像から直接自己コントラストの背景プロトタイプを生成し,完全なサンプルペアの構築を可能にし,補完的かつ補助的なセグメンテーションタスクにより,より良いセグメンテーションモデルのトレーニングを実現する。 PASCAL-5$^i$とCOCO-20$^i$の大規模な実験により,提案手法の優位性が明らかとなった。 推論効率を犠牲にすることなく、1ショットと5ショットの両方のセマンティクスセグメンテーションで結果が得られた。

Few-shot semantic segmentation aims to segment novel-class objects in a query image with only a few annotated examples in support images. Most of advanced solutions exploit a metric learning framework that performs segmentation through matching each pixel to a learned foreground prototype. However, this framework suffers from biased classification due to incomplete construction of sample pairs with the foreground prototype only. To address this issue, in this paper, we introduce a complementary self-contrastive task into few-shot semantic segmentation. Our new model is able to associate the pixels in a region with the prototype of this region, no matter they are in the foreground or background. To this end, we generate self-contrastive background prototypes directly from the query image, with which we enable the construction of complete sample pairs and thus a complementary and auxiliary segmentation task to achieve the training of a better segmentation model. Extensive experiments on PASCAL-5$^i$ and COCO-20$^i$ demonstrate clearly the superiority of our proposal. At no expense of inference efficiency, our model achieves state-of-the results in both 1-shot and 5-shot settings for few-shot semantic segmentation.
翻訳日:2021-04-20 14:38:33 公開日:2021-04-19
# 駐車空間推薦のためのa*アルゴリズムによるエントロピーに基づく最適化

Entropy-based Optimization via A* Algorithm for Parking Space Recommendation ( http://arxiv.org/abs/2104.09461v1 )

ライセンス: Link先を確認
Xin Wei, Runqi Qiu, Houyu Yu, Yurun Yang, Haoyu Tian, Xiang Xiang(参考訳) 本稿では,駐車スペースの最適な経路を特定することが困難であり,駐車スペースを出発する最短の時間を考慮し,駐車スペースを推薦する経路計画問題に対処する。 我々の最適化手法はエントロピー法に基づいており、A*アルゴリズムによって実現されている。 実験により、a*とエントロピー値の組み合わせは、環境因子に頑健でありながら最も短い経路で最適な駐車ソリューションをもたらすことが示されている。

This paper addresses the path planning problems for recommending parking spaces, given the difficulties of identifying the most optimal route to vacant parking spaces and the shortest time to leave the parking space. Our optimization approach is based on the entropy method and realized by the A* algorithm. Experiments have shown that the combination of A* and the entropy value induces the optimal parking solution with the shortest route while being robust to environmental factors.
翻訳日:2021-04-20 14:38:14 公開日:2021-04-19
# Alexa Conversations: タスク指向対話システム構築のための拡張可能なデータ駆動アプローチ

Alexa Conversations: An Extensible Data-driven Approach for Building Task-oriented Dialogue Systems ( http://arxiv.org/abs/2104.09088v1 )

ライセンス: Link先を確認
Anish Acharya, Suranjit Adhikari, Sanchit Agarwal, Vincent Auvray, Nehal Belgamwar, Arijit Biswas, Shubhra Chandra, Tagyoung Chung, Maryam Fazel-Zarandi, Raefer Gabriel, Shuyang Gao, Rahul Goel, Dilek Hakkani-Tur, Jan Jezabek, Abhay Jha, Jiun-Yu Kao, Prakash Krishnan, Peter Ku, Anuj Goyal, Chien-Wei Lin, Qing Liu, Arindam Mandal, Angeliki Metallinou, Vishal Naik, Yi Pan, Shachi Paul, Vittorio Perera, Abhishek Sethi, Minmin Shen, Nikko Strom, Eddie Wang(参考訳) 従来の目標指向対話システムは、自然言語理解、対話状態追跡、政策学習、応答生成など、さまざまなコンポーネントに依存している。 それぞれのコンポーネントをトレーニングするには、新しいドメインごとに取得が難しいアノテーションが必要である。 同様に、ルールベースの対話システムは、ルールの広範な記述とメンテナンスを必要とし、スケールしない。 一方、エンドツーエンドの対話システムでは、モジュール固有のアノテーションは必要ありませんが、トレーニングには大量のデータが必要です。 これらの問題を解決するために、このデモでは、スケーラブルで拡張性があり、データ効率も良い、目標指向の対話システムを構築するための新しいアプローチであるAlexa Conversationsを紹介します。 このシステムのコンポーネントはデータ駆動型で訓練されるが、トレーニング用に注釈付き会話を収集するのではなく、いくつかのシードダイアログと開発者が提供するAPIやエンティティの仕様に基づいて、新しい対話シミュレータを用いて生成する。 当社のアプローチでは,ターン間のエンティティ共有や会話中のユーザの心の変化といった,自然な会話現象に対して,開発者がそのような対話フローを提供することなく,最初からサポートしています。 我々は、シンプルなピザ注文タスクを使ってアプローチを実証し、堅牢な体験を生み出すための開発者の負担を軽減することの価値を示します。 最後に,一般的な映画のチケット予約タスクを用いてシステム評価を行い,対話シミュレータがシステムの本質的な構成要素であり,ターンレベルのアクションシグネチャ予測精度が50 %以上向上することを示す。

Traditional goal-oriented dialogue systems rely on various components such as natural language understanding, dialogue state tracking, policy learning and response generation. Training each component requires annotations which are hard to obtain for every new domain, limiting scalability of such systems. Similarly, rule-based dialogue systems require extensive writing and maintenance of rules and do not scale either. End-to-End dialogue systems, on the other hand, do not require module-specific annotations but need a large amount of data for training. To overcome these problems, in this demo, we present Alexa Conversations, a new approach for building goal-oriented dialogue systems that is scalable, extensible as well as data efficient. The components of this system are trained in a data-driven manner, but instead of collecting annotated conversations for training, we generate them using a novel dialogue simulator based on a few seed dialogues and specifications of APIs and entities provided by the developer. Our approach provides out-of-the-box support for natural conversational phenomena like entity sharing across turns or users changing their mind during conversation without requiring developers to provide any such dialogue flows. We exemplify our approach using a simple pizza ordering task and showcase its value in reducing the developer burden for creating a robust experience. Finally, we evaluate our system using a typical movie ticket booking task and show that the dialogue simulator is an essential component of the system that leads to over $50\%$ improvement in turn-level action signature prediction accuracy.
翻訳日:2021-04-20 14:35:34 公開日:2021-04-19
# サルカスム検出のための潜時最適化逆行性神経伝達

Latent-Optimized Adversarial Neural Transfer for Sarcasm Detection ( http://arxiv.org/abs/2104.09261v1 )

ライセンス: Link先を確認
Xu Guo, Boyang Li, Han Yu and Chunyan Miao(参考訳) サルカズム検出のための複数のデータセットの存在は、転送学習を適用してそれらの共通性を利用するよう促す。 adversarial neural transfer(ant)フレームワークは、ソースドメインとターゲットドメインの機能分布をドメイン固有のパフォーマンスのために最適化しながら類似させる複数の損失項を利用する。 しかし、これらの目標は相反する可能性があり、最適化の困難を招き、時には転送が減少することがある。 本稿では,相互に異なる損失を許容し,トレーニングダイナミクスを向上させる汎用的潜在最適化戦略を提案する。 提案手法はトランスファーラーニングとメタラーニングのベースラインに優れる。 特に,iSarcasmデータセットの先行技術よりも10.02%の絶対的なパフォーマンス向上を達成した。

The existence of multiple datasets for sarcasm detection prompts us to apply transfer learning to exploit their commonality. The adversarial neural transfer (ANT) framework utilizes multiple loss terms that encourage the source-domain and the target-domain feature distributions to be similar while optimizing for domain-specific performance. However, these objectives may be in conflict, which can lead to optimization difficulties and sometimes diminished transfer. We propose a generalized latent optimization strategy that allows different losses to accommodate each other and improves training dynamics. The proposed method outperforms transfer learning and meta-learning baselines. In particular, we achieve 10.02% absolute performance gain over the previous state of the art on the iSarcasm dataset.
翻訳日:2021-04-20 14:35:10 公開日:2021-04-19
# すべてに原因がある: 法的テキスト分析における因果推論の活用

Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis ( http://arxiv.org/abs/2104.09420v1 )

ライセンス: Link先を確認
Xiao Liu, Da Yin, Yansong Feng, Yuting Wu, Dongyan Zhao(参考訳) 因果推論は変数間の因果関係を捉えるプロセスである。 既存の研究の多くは構造化データを扱うことに重点を置いているが、テキストのような構造化されていないデータから因果関係を抽出することはあまり検討されていない。 本稿では,人間の関与をあまり受けずに事実記述から因果グラフを構築する新しいグラフベース因果推論(gci)フレームワークを提案する。 我々は、類似の電荷曖昧化課題について、その枠組みを評価する。 実験の結果、gciは複数の紛らわしいチャージの事実記述からニュアンスを捉え、特に少数ショット設定において説明可能な識別を提供することができた。 また,gciに含まれる因果知識を強力なニューラルネットワークに効果的に注入することで,性能と解釈性の向上が期待できる。

Causal inference is the process of capturing cause-effect relationship among variables. Most existing works focus on dealing with structured data, while mining causal relationship among factors from unstructured data, like text, has been less examined, but is of great importance, especially in the legal domain. In this paper, we propose a novel Graph-based Causal Inference (GCI) framework, which builds causal graphs from fact descriptions without much human involvement and enables causal inference to facilitate legal practitioners to make proper decisions. We evaluate the framework on a challenging similar charge disambiguation task. Experimental results show that GCI can capture the nuance from fact descriptions among multiple confusing charges and provide explainable discrimination, especially in few-shot settings. We also observe that the causal knowledge contained in GCI can be effectively injected into powerful neural networks for better performance and interpretability.
翻訳日:2021-04-20 14:34:58 公開日:2021-04-19
# ラベル, 情報, 計算: 十分なラベルを用いた効率的, プライバシー保護学習

Labels, Information, and Computation: Efficient, Privacy-Preserving Learning Using Sufficient Labels ( http://arxiv.org/abs/2104.09015v1 )

ライセンス: Link先を確認
Shiyu Duan and Jose C. Principe(参考訳) 教師付き学習では、大量の完全ラベル付きトレーニングデータを取得するのが高価である。 有能な分類器を訓練するには、すべてのトレーニング例の完全なラベル情報を必ずしも必要としないことを示す。 具体的には、統計学における十分性の原理に着想を得て、ほぼ全ての関連情報を分類するが、同時に直接入手しやすい完全ラベル付きトレーニングセットの統計(要約)を示す。 我々は、この統計データを「十分ラベル付きデータ」と呼び、クラス毎に1つのランダムな完全ラベル付き例を用いて、有能な分類器ヘッドを訓練できる最適な隠れ表現を見つけるための、その十分性と効率性を証明する。 完全なラベル付きデータを最初に収集することなく、アノテータから直接十分なラベル付きデータを得ることができる。 また、完全ラベルデータを得るよりも、十分なラベルデータを直接取得することが容易であることが証明される。 さらに、十分にラベルされたデータは、絶対的な情報ではなく、相対的な情報を格納することで、自然にユーザーのプライバシーを保ちます。 我々の理論を支持するために広範な実験結果が得られた。

In supervised learning, obtaining a large set of fully-labeled training data is expensive. We show that we do not always need full label information on every single training example to train a competent classifier. Specifically, inspired by the principle of sufficiency in statistics, we present a statistic (a summary) of the fully-labeled training set that captures almost all the relevant information for classification but at the same time is easier to obtain directly. We call this statistic "sufficiently-labeled data" and prove its sufficiency and efficiency for finding the optimal hidden representations, on which competent classifier heads can be trained using as few as a single randomly-chosen fully-labeled example per class. Sufficiently-labeled data can be obtained from annotators directly without collecting the fully-labeled data first. And we prove that it is easier to directly obtain sufficiently-labeled data than obtaining fully-labeled data. Furthermore, sufficiently-labeled data naturally preserves user privacy by storing relative, instead of absolute, information. Extensive experimental results are provided to support our theory.
翻訳日:2021-04-20 14:34:38 公開日:2021-04-19
# da-dgcex: 分散認識型オートエンコーダ損失による深い説明の妥当性の確保

DA-DGCEx: Ensuring Validity of Deep Guided Counterfactual Explanations With Distribution-Aware Autoencoder Loss ( http://arxiv.org/abs/2104.09062v1 )

ライセンス: Link先を確認
Jokin Labaien, Ekhi Zugasti, Xabier De Carlos(参考訳) ディープラーニングはさまざまな分野で非常に価値のあるツールになっていますが、これらのモデルの学習能力に疑問を持つ人はいません。 それでも、ディープラーニングモデルは解釈可能性の欠如からブラックボックスと見なされることが多いため、意思決定プロセスに一般的な不信がある。 近年、有効性と解釈可能性のバランスを見つけるために、説明可能な人工知能(XAI)が人気を集めており、この分野の手法のいくつかは、反現実的な説明を生み出すために使われている。 これらの説明を生成するプロセスは、一般的に、説明すべき各入力の最適化問題を解決することで成り立っている。 この処理を高速化するために、いくつかの手法は自動エンコーダを使用して、即時対実的な説明を生成する。 近年,dgcex(deep guided counterfactual explanations)と呼ばれる分類モデルを付加したオートエンコーダを訓練し,簡単な反事実説明を生成する手法が提案されている。 しかし、この方法は生成した反実例がデータ多様体に近いことを保証しないので、非現実的な反実例を生成することができる。 そこで本論文では,DGCExのコスト関数を付加したDA-DGCEx(Dis Distribution Aware Deep Guided Counterfactual Explanations)を提案する。

Deep Learning has become a very valuable tool in different fields, and no one doubts the learning capacity of these models. Nevertheless, since Deep Learning models are often seen as black boxes due to their lack of interpretability, there is a general mistrust in their decision-making process. To find a balance between effectiveness and interpretability, Explainable Artificial Intelligence (XAI) is gaining popularity in recent years, and some of the methods within this area are used to generate counterfactual explanations. The process of generating these explanations generally consists of solving an optimization problem for each input to be explained, which is unfeasible when real-time feedback is needed. To speed up this process, some methods have made use of autoencoders to generate instant counterfactual explanations. Recently, a method called Deep Guided Counterfactual Explanations (DGCEx) has been proposed, which trains an autoencoder attached a the classification model, in order to generate straightforward counterfactual explanations. However, this method does not ensure that the generated counterfactual instances are close to the data manifold, so unrealistic counterfactual instances may be generated. To overcome this issue, this paper presents Distribution Aware Deep Guided Counterfactual Explanations (DA-DGCEx), which adds a term to the DGCEx cost function that penalizes out of distribution counterfactual instances.
翻訳日:2021-04-20 14:34:21 公開日:2021-04-19
# 不均一周波数による交通速度予測のための多面相関注意ネットワーク

Multi-fold Correlation Attention Network for Predicting Traffic Speeds with Heterogeneous Frequency ( http://arxiv.org/abs/2104.09083v1 )

ライセンス: Link先を確認
Yidan Sun, Guiyuan Jiang, Siew-Kei Lam, Peilan He, Fangxin Ning(参考訳) 交通速度予測精度向上のための時空間相関の調査に,本研究が注力している。 しかしながら、既存の作業は通常、観測されたトラフィック状態のみに基づいて相関をモデル化する(例えば、)。 トラフィック速度) トラフィックデータの相関測定が異なる状況下で多様なパターンを示す可能性があることを考慮せずに。 さらに、既存の研究は、全ての道路セグメントが同じトラフィック状態のサンプリング周波数を利用できると仮定している。 本稿では,トラヒックデータ間の空間相関をモデル化する新しい測定方法を提案するとともに,トラヒックの状況によって,結果の相関パターンが著しく変化することを示す。 本研究では, 道路区間の交通データを不均質にすることが可能な, 特定測定に基づく空間相関を捉えるための不均質空間相関モデル(hsc)を提案する。 異なるサンプリング周波数で得られる)。 本稿では,多次元空間相関を探索するためにhscモデルに依拠し,lstmネットワークを用いて多次元時間相関を捉え,高精度なトラヒック予測を実現するマルチフォールド相関注意ネットワーク(mcan)を提案する。 学習した多次元時空間相関と文脈因子を注意機構で融合させて最終的な予測を行う。 実世界のデータセットの実験は、提案されたMCANモデルが最先端のベースラインより優れていることを示した。

Substantial efforts have been devoted to the investigation of spatiotemporal correlations for improving traffic speed prediction accuracy. However, existing works typically model the correlations based solely on the observed traffic state (e.g. traffic speed) without due consideration that different correlation measurements of the traffic data could exhibit a diverse set of patterns under different traffic situations. In addition, the existing works assume that all road segments can employ the same sampling frequency of traffic states, which is impractical. In this paper, we propose new measurements to model the spatial correlations among traffic data and show that the resulting correlation patterns vary significantly under various traffic situations. We propose a Heterogeneous Spatial Correlation (HSC) model to capture the spatial correlation based on a specific measurement, where the traffic data of varying road segments can be heterogeneous (i.e. obtained with different sampling frequency). We propose a Multi-fold Correlation Attention Network (MCAN), which relies on the HSC model to explore multi-fold spatial correlations and leverage LSTM networks to capture multi-fold temporal correlations to provide discriminating features in order to achieve accurate traffic prediction. The learned multi-fold spatiotemporal correlations together with contextual factors are fused with attention mechanism to make the final predictions. Experiments on real-world datasets demonstrate that the proposed MCAN model outperforms the state-of-the-art baselines.
翻訳日:2021-04-20 14:33:57 公開日:2021-04-19
# グラフに基づく交通予測モデルにおける逆拡散攻撃

Adversarial Diffusion Attacks on Graph-based Traffic Prediction Models ( http://arxiv.org/abs/2104.09369v1 )

ライセンス: Link先を確認
Lyuyi Zhu, Kairui Feng, Ziyuan Pu, Wei Ma(参考訳) リアルタイム交通予測モデルはスマートモビリティシステムにおいて重要な役割を担っており、ルートガイダンス、新興モビリティサービス、高度な交通管理システムで広く使われている。 大規模トラフィックデータの提供により、ニューラルネットワークベースのディープラーニング手法、特にグラフ畳み込みネットワーク(GCN)は、時空間情報のマイニングにおいて優れた性能を示し、高い予測精度を実現している。 最近の研究は、GCNの脆弱性を敵攻撃下で明らかにしているが、GCNベースの交通予測モデルの脆弱性を理解するための研究は乏しい。 そこで本研究では,gcnに基づくトラヒック予測モデルのロバスト性を検討するため,新しいタスクである拡散攻撃を提案する。 拡散攻撃は、予測モデル全体の性能を低下させるために、少数のノードを選択して攻撃することを目的としている。 拡散攻撃を行うために,1) 同時摂動確率近似 (spsa) によるブラックボックス予測モデルの勾配近似,2) ナップサック・グリーディアルゴリズムの適用による攻撃ノードの選択,という2つの主成分からなる新しい攻撃アルゴリズムを提案する。 提案アルゴリズムは,2都市における3つのGCNベース交通予測モデル,St-Gcn,T-Gcn,A3t-Gc nを用いて検討した。 提案アルゴリズムは,様々なシナリオ下での敵攻撃タスクにおいて高い効率性を示し,DropOut,DropNode,Dr opEdgeなどのドロップ正規化の下で敵サンプルを生成することができる。 この研究結果は、GCNベースの交通予測モデルの堅牢性を改善し、スマートモビリティシステムを保護するのに役立つだろう。 私たちのコードはhttps://github.com/L YZ98/Adversarial-Dif fusion-Attacks-on-Gr aph-based-Traffic-Pr ediction-Modelsで利用可能です。

Real-time traffic prediction models play a pivotal role in smart mobility systems and have been widely used in route guidance, emerging mobility services, and advanced traffic management systems. With the availability of massive traffic data, neural network-based deep learning methods, especially the graph convolutional networks (GCN) have demonstrated outstanding performance in mining spatio-temporal information and achieving high prediction accuracy. Recent studies reveal the vulnerability of GCN under adversarial attacks, while there is a lack of studies to understand the vulnerability issues of the GCN-based traffic prediction models. Given this, this paper proposes a new task -- diffusion attack, to study the robustness of GCN-based traffic prediction models. The diffusion attack aims to select and attack a small set of nodes to degrade the performance of the entire prediction model. To conduct the diffusion attack, we propose a novel attack algorithm, which consists of two major components: 1) approximating the gradient of the black-box prediction model with Simultaneous Perturbation Stochastic Approximation (SPSA); 2) adapting the knapsack greedy algorithm to select the attack nodes. The proposed algorithm is examined with three GCN-based traffic prediction models: St-Gcn, T-Gcn, and A3t-Gcn on two cities. The proposed algorithm demonstrates high efficiency in the adversarial attack tasks under various scenarios, and it can still generate adversarial samples under the drop regularization such as DropOut, DropNode, and DropEdge. The research outcomes could help to improve the robustness of the GCN-based traffic prediction models and better protect the smart mobility systems. Our code is available at https://github.com/L YZ98/Adversarial-Dif fusion-Attacks-on-Gr aph-based-Traffic-Pr ediction-Models
翻訳日:2021-04-20 14:33:37 公開日:2021-04-19
# 自己ラベル強化トレーニングによるスケーラブルで適応的なグラフニューラルネットワーク

Scalable and Adaptive Graph Neural Networks with Self-Label-Enhanced training ( http://arxiv.org/abs/2104.09376v1 )

ライセンス: Link先を確認
Chuxiong Sun(参考訳) 大規模グラフにグラフニューラルネットワーク(gnn)を直接実装することは困難である。 既存の隣接サンプリング技術に加えて、グラフ畳み込みやその他の学習可能な変換を前処理に分離するスケーラブルな手法や、後分類器は通常のミニバッチトレーニングを可能にする。 SIGNにおける冗長結合操作を注意機構に置き換えることで、スケーラブルで適応的なグラフニューラルネットワーク(SAGN)を提案する。 SAGNは、異なるホップ間で近隣情報を適応的に収集することができる。 半教師付き学習タスクにおけるスケーラブルなモデルをさらに改善するために,自己学習アプローチとラベルの深度伝播を組み合わせたSLE(Self-Label-Enhan ce)フレームワークを提案する。 スケーラブルなノードラベルモジュールでベースモデルを追加します。 そして、反復的にモデルを訓練し、いくつかの段階で列車セットを強化します。 ノードラベルモジュールの入力を生成するために,内乱マスキングを伴わない1ホット符号化ラベルベクトルに基づいて直接ラベル伝搬を適用する。 グラフの畳み込みによりラベルの漏洩が効果的に緩和されたことを実証的に確認した。 強化列車の硬い擬似ラベルは、真のラベルによるラベル伝搬に関与する。 インダクティブデータセットとトランスダクティブデータセットの両方の実験では、他のサンプリングベースおよびサンプリングフリーメソッドと比較して、SAGNはより良い結果または同等の結果を得ることができ、SLEはパフォーマンスをさらに向上させることができる。

It is hard to directly implement Graph Neural Networks (GNNs) on large scaled graphs. Besides of existed neighbor sampling techniques, scalable methods decoupling graph convolutions and other learnable transformations into preprocessing and post classifier allow normal minibatch training. By replacing redundant concatenation operation with attention mechanism in SIGN, we propose Scalable and Adaptive Graph Neural Networks (SAGN). SAGN can adaptively gather neighborhood information among different hops. To further improve scalable models on semi-supervised learning tasks, we propose Self-Label-Enhance (SLE) framework combining self-training approach and label propagation in depth. We add base model with a scalable node label module. Then we iteratively train models and enhance train set in several stages. To generate input of node label module, we directly apply label propagation based on one-hot encoded label vectors without inner random masking. We find out that empirically the label leakage has been effectively alleviated after graph convolutions. The hard pseudo labels in enhanced train set participate in label propagation with true labels. Experiments on both inductive and transductive datasets demonstrate that, compared with other sampling-based and sampling-free methods, SAGN achieves better or comparable results and SLE can further improve performance.
翻訳日:2021-04-20 14:33:04 公開日:2021-04-19
# 多エージェント強化学習のためのエージェント中心表現

Agent-Centric Representations for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2104.09402v1 )

ライセンス: Link先を確認
Wenling Shang, Lasse Espeholt, Anton Raichuk, Tim Salimans(参考訳) オブジェクト中心の表現は、最近リレーショナル推論タスクに対処する大きな進歩を可能にした。 ニューラルネットワークに強力なオブジェクト中心誘導バイアスを構築することで、これらの問題に対する機械学習アルゴリズムの一般化とデータ効率が改善されている。 まだ未熟な関係推論に関わる問題クラスとして、マルチエージェント強化学習(marl)がある。 本稿では、完全に協調的なMARL設定においても、オブジェクト中心表現が有用かどうかを検討する。 具体的には,エージェント中心の帰納バイアスをRLアルゴリズムに組み込む2つの方法について検討する。 エージェント間の明示的な接続を持つエージェント中心のアテンションモジュールの導入。 エージェント中心の教師なし予測目標(すなわち)を追加する。 アクションラベルを使用しない) marlの補助損失として、または事前訓練ステップの基礎として使用される。 google research football環境およびdeepmind lab 2dにおけるこれらのアプローチを評価した。 エージェント中心の表現学習は、エージェント間のより複雑な協調戦略の出現と、サンプル効率の向上と一般化につながる。

Object-centric representations have recently enabled significant progress in tackling relational reasoning tasks. By building a strong object-centric inductive bias into neural architectures, recent efforts have improved generalization and data efficiency of machine learning algorithms for these problems. One problem class involving relational reasoning that still remains under-explored is multi-agent reinforcement learning (MARL). Here we investigate whether object-centric representations are also beneficial in the fully cooperative MARL setting. Specifically, we study two ways of incorporating an agent-centric inductive bias into our RL algorithm: 1. Introducing an agent-centric attention module with explicit connections across agents 2. Adding an agent-centric unsupervised predictive objective (i.e. not using action labels), to be used as an auxiliary loss for MARL, or as the basis of a pre-training step. We evaluate these approaches on the Google Research Football environment as well as DeepMind Lab 2D. Empirically, agent-centric representation learning leads to the emergence of more complex cooperation strategies between agents as well as enhanced sample efficiency and generalization.
翻訳日:2021-04-20 14:32:42 公開日:2021-04-19
# 生音声で学習したCNNの中間畳み込み層の解析

Interpreting intermediate convolutional layers of CNNs trained on raw speech ( http://arxiv.org/abs/2104.09489v1 )

ライセンス: Link先を確認
Ga\v{s}per Begu\v{s} and Alan Zhou(参考訳) 本稿では,生音声データで学習したcnnの中間層を教師なしで解釈・可視化する手法を提案する。 各畳み込み層におけるReLU活性化後の特徴写像の平均値が解釈可能な時系列データを生成することを示す。 提案手法は中間畳み込み層の音響解析を可能にする。 cnnの中間層にいかに有意義な表現がエンコードされるかを明らかにするために、我々は個々の潜在変数をトレーニング範囲外の限界レベルまで操作する。 我々は、素のGANアーキテクチャとciwGAN拡張という2つのモデルで内部表現を訓練し、調査する。 音声の3つの基本音響特性(周期的振動(母音に対応する)、非周期的雑音振動(摩擦に対応する)、沈黙(停止に対応する)について解釈と可視化を行う。 また,提案手法は,人間の音声データの音響解析と並行する中間層の音響解析を可能にする。中間層からf0,強度,持続時間,フォルマント,その他の音響特性を抽出し,cnnが様々な情報の符号化場所と方法をテストする。 モデルは、単純な[s]の存在と、計算的に複雑な再帰的存在(複写材料)という、複雑さの度合いの異なる2つの音声プロセスに基づいて訓練される。 補間と中間層の変化の間の因果効果を観察することで、個々の変数が中間層における活性化のスパイクにどのように変換されるかを明らかにすることができる。 提案手法を用いて,言語的に有意味な単位が異なる畳み込み層にどのようにエンコードされるかを分析することができる。

This paper presents a technique to interpret and visualize intermediate layers in CNNs trained on raw speech data in an unsupervised manner. We show that averaging over feature maps after ReLU activation in each convolutional layer yields interpretable time-series data. The proposed technique enables acoustic analysis of intermediate convolutional layers. To uncover how meaningful representation in speech gets encoded in intermediate layers of CNNs, we manipulate individual latent variables to marginal levels outside of the training range. We train and probe internal representations on two models -- a bare GAN architecture and a ciwGAN extension which forces the Generator to output informative data and results in emergence of linguistically meaningful representations. Interpretation and visualization is performed for three basic acoustic properties of speech: periodic vibration (corresponding to vowels), aperiodic noise vibration (corresponding to fricatives), and silence (corresponding to stops). We also argue that the proposed technique allows acoustic analysis of intermediate layers that parallels the acoustic analysis of human speech data: we can extract F0, intensity, duration, formants, and other acoustic properties from intermediate layers in order to test where and how CNNs encode various types of information. The models are trained on two speech processes with different degrees of complexity: a simple presence of [s] and a computationally complex presence of reduplication (copied material). Observing the causal effect between interpolation and the resulting changes in intermediate layers can reveal how individual variables get transformed into spikes in activation in intermediate layers. Using the proposed technique, we can analyze how linguistically meaningful units in speech get encoded in different convolutional layers.
翻訳日:2021-04-20 14:31:59 公開日:2021-04-19
# 機械学習によるcovid-19死亡率の動的リスクモデリング--英国バイオバンクによる研究

Machine learning approach to dynamic risk modeling of mortality in COVID-19: a UK Biobank study ( http://arxiv.org/abs/2104.09226v1 )

ライセンス: Link先を確認
Mohammad A. Dabbah, Angus B. Reed, Adam T.C. Booth, Arrash Yassaee, Alex Despotovic, Benjamin Klasmer, Emily Binning, Mert Aral, David Plans, Alain B. Labrique, Diwakar Mohan(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、高リスク患者の階層化を支援する堅牢でスケーラブルなモニタリングツールを緊急に必要としてきた。 本研究は、英国バイオバンクを用いた予測モデルを開発し、検証し、新型コロナウイルスの死亡リスクを推定することを目的とする。 新型コロナウイルス陽性者11,245名から,基礎的特徴,既往の状態,症状,生命徴候を用いて,優れた性能(auc: 0.91)を有するデータ駆動ランダム林分類モデルを開発し,死亡リスクを動的に評価した。 また, 詳細な人文科学, 早期急性腎不全, 尿路感染症, 肺炎など, 既往の高リスクコモビディティよりも, 同等あるいは高い予測値で, 新型コロナウイルス死亡の予測因子を多数同定した。 モデル設計と特徴選択により、外来での利用が可能となる。 考えられるアプリケーションには、個人レベルのリスクプロファイリングのサポートや、新型コロナウイルス(covid-19)の大規模患者、特に在宅病院における病気の進行状況の監視などが含まれる。

The COVID-19 pandemic has created an urgent need for robust, scalable monitoring tools supporting stratification of high-risk patients. This research aims to develop and validate prediction models, using the UK Biobank, to estimate COVID-19 mortality risk in confirmed cases. From the 11,245 participants testing positive for COVID-19, we develop a data-driven random forest classification model with excellent performance (AUC: 0.91), using baseline characteristics, pre-existing conditions, symptoms, and vital signs, such that the score could dynamically assess mortality risk with disease deterioration. We also identify several significant novel predictors of COVID-19 mortality with equivalent or greater predictive value than established high-risk comorbidities, such as detailed anthropometrics and prior acute kidney failure, urinary tract infection, and pneumonias. The model design and feature selection enables utility in outpatient settings. Possible applications include supporting individual-level risk profiling and monitoring disease progression across patients with COVID-19 at-scale, especially in hospital-at-home settings.
翻訳日:2021-04-20 14:30:19 公開日:2021-04-19
# 完全確率モデルによる連続学習

Continual Learning with Fully Probabilistic Models ( http://arxiv.org/abs/2104.09240v1 )

ライセンス: Link先を確認
Benedikt Pf\"ulb, Alexander Gepperth, Benedikt Bagus(参考訳) 本稿では,機械学習の確率論的(あるいは生成的)モデルに基づく連続学習(CL)のアプローチを提案する。 サンプルを生成できるという意味で"生成的"なganとは対照的に、完全な確率モデルでは、データ分布を直接モデル化することを目指している。 その結果、密度推定 (outlier detection) やサンプル生成など、連続的な学習に非常に関係のある機能を提供している。 生成連続学習の具体的実現として,ガウス混合再生(GMR)を提案する。 GMRはガウス混合モデル(GMM)インスタンスをジェネレータと分類器の両方の機能に用いた擬似リハーサル手法である。 MNIST, FashionMNIST, Devanagari のベンチマークを参考に, GMM 密度推定による教師なしタスク境界検出の実証を行った。 また,GMRはcGANの方法でクラス条件サンプリングを行うことができることを示した。 最後に,gmrは単純な構造であるにもかかわらず,高い競合時間とメモリの複雑さで,一般的なクラスインクリメンタル学習問題に対して最先端のパフォーマンスを実現することを検証した。

We present an approach for continual learning (CL) that is based on fully probabilistic (or generative) models of machine learning. In contrast to, e.g., GANs that are "generative" in the sense that they can generate samples, fully probabilistic models aim at modeling the data distribution directly. Consequently, they provide functionalities that are highly relevant for continual learning, such as density estimation (outlier detection) and sample generation. As a concrete realization of generative continual learning, we propose Gaussian Mixture Replay (GMR). GMR is a pseudo-rehearsal approach using a Gaussian Mixture Model (GMM) instance for both generator and classifier functionalities. Relying on the MNIST, FashionMNIST and Devanagari benchmarks, we first demonstrate unsupervised task boundary detection by GMM density estimation, which we also use to reject untypical generated samples. In addition, we show that GMR is capable of class-conditional sampling in the way of a cGAN. Lastly, we verify that GMR, despite its simple structure, achieves state-of-the-art performance on common class-incremental learning problems at very competitive time and memory complexity.
翻訳日:2021-04-20 14:29:58 公開日:2021-04-19
# ラベル雑音下でのモデルロバスト性を改善するコントラスト学習

Contrastive Learning Improves Model Robustness Under Label Noise ( http://arxiv.org/abs/2104.08984v1 )

ライセンス: Link先を確認
Aritra Ghosh and Andrew Lan(参考訳) 分類的クロスエントロピー(CCE)損失で訓練されたディープニューラルネットワークベースの分類器は、トレーニングデータのラベルノイズに敏感である。 ラベルノイズの影響を緩和できる一般的な方法の1つは、CCE損失をラベルノイズに頑健な損失に置き換えることや、より高損失値のトレーニングサンプルとダウンウェイトに置き換えることができる。 近年,半教師付き学習(SSL)を用いた別の手法が提案されている。 教師付きロバスト手法は様々なデータタイプでよく機能するが、ラベルノイズ下での画像分類タスクではSSL法より劣っていることが示されている。 したがって、これらの教師付きロバストな手法が、ラベルなしのサンプルをより効果的に利用できれば、うまく機能するかどうかは、まだ明らかでない。 本稿では,コントラスト学習で学習した表現を用いて教師付きロバスト手法を初期化することで,ラベル雑音下での性能が著しく向上することを示す。 驚くべきことに、最も単純な方法(CCE損失のある分類器の学習)でさえ、コントラスト学習で初期化される場合、高いラベルノイズの下で、最先端のSSLメソッドを50倍以上上回ることができる。 実装は {\url{https://github.com/a rghosh/noisy_label_p retrain}} で公開されている。

Deep neural network-based classifiers trained with the categorical cross-entropy (CCE) loss are sensitive to label noise in the training data. One common type of method that can mitigate the impact of label noise can be viewed as supervised robust methods; one can simply replace the CCE loss with a loss that is robust to label noise, or re-weight training samples and down-weight those with higher loss values. Recently, another type of method using semi-supervised learning (SSL) has been proposed, which augments these supervised robust methods to exploit (possibly) noisy samples more effectively. Although supervised robust methods perform well across different data types, they have been shown to be inferior to the SSL methods on image classification tasks under label noise. Therefore, it remains to be seen that whether these supervised robust methods can also perform well if they can utilize the unlabeled samples more effectively. In this paper, we show that by initializing supervised robust methods using representations learned through contrastive learning leads to significantly improved performance under label noise. Surprisingly, even the simplest method (training a classifier with the CCE loss) can outperform the state-of-the-art SSL method by more than 50\% under high label noise when initialized with contrastive learning. Our implementation will be publicly available at {\url{https://github.com/a rghosh/noisy_label_p retrain}}.
翻訳日:2021-04-20 14:27:41 公開日:2021-04-19
# ラベルノイズ下でのサンプル重み付けに本当に金のサンプルが必要か?

Do We Really Need Gold Samples for Sample Weighting Under Label Noise? ( http://arxiv.org/abs/2104.09045v1 )

ライセンス: Link先を確認
Aritra Ghosh, Andrew Lan(参考訳) ラベルノイズを用いた学習は、ラベルノイズ下の深層ニューラルネットワークの一般損失関数に対する感度が高まり、近年大きな注目を集めている。 しかし、理論的に雑音に頑健な損失は、しばしばトレーニングを困難にする。 その結果,Meta-Weight-Net (MW-Net) のような最近提案されたいくつかの手法は,メタラーニングフレームワークの下でラベルが破損した可能性のある重み付け関数を学習するために,少数の未バイアスでクリーンなサンプルを使用する。 しかし、そのようなクリーンサンプルのセットを得ることは、必ずしも実現可能であるとは限らない。 本稿では,重み付けネットワークをトレーニングするメタ目的として,平均絶対誤差などのノイズをラベル付けするロス関数を用いることで,クリーンサンプルへのアクセスなしにMW-Netのトレーニングが容易であることを解析的に示す。 提案手法は,クリーンなサンプルを使用しない既存の手法と,様々なノイズタイプやノイズ率をまたいだベンチマークデータセットでゴールドサンプルを使用する手法をほぼ同等に評価できることを実験的に示した。

Learning with labels noise has gained significant traction recently due to the sensitivity of deep neural networks under label noise under common loss functions. Losses that are theoretically robust to label noise, however, often makes training difficult. Consequently, several recently proposed methods, such as Meta-Weight-Net (MW-Net), use a small number of unbiased, clean samples to learn a weighting function that downweights samples that are likely to have corrupted labels under the meta-learning framework. However, obtaining such a set of clean samples is not always feasible in practice. In this paper, we analytically show that one can easily train MW-Net without access to clean samples simply by using a loss function that is robust to label noise, such as mean absolute error, as the meta objective to train the weighting network. We experimentally show that our method beats all existing methods that do not use clean samples and performs on-par with methods that use gold samples on benchmark datasets across various noise types and noise rates.
翻訳日:2021-04-20 14:27:16 公開日:2021-04-19
# LSPnet: 2Dローカライゼーション指向の宇宙画像推定ニューラルネットワーク

LSPnet: A 2D Localization-oriente d Spacecraft Pose Estimation Neural Network ( http://arxiv.org/abs/2104.09248v1 )

ライセンス: Link先を確認
Albert Garcia, Mohamed Adel Musallam, Vincent Gaudilliere, Enjie Ghorbel, Kassem Al Ismaeil, Marcos Perez, Djamila Aouada(参考訳) 宇宙での非協力的な物体のポーズを推定できることは、宇宙ランデブー、軌道内サービシング、アクティブデブリ除去のような安全な近接操作を可能にする重要な資産として提案されている。 ポーズ推定に使用するアプローチには、古典的なコンピュータビジョンベースのソリューションやディープラーニング(DL)技術の適用が含まれる。 本研究は,非協調宇宙船の姿勢を推定するために,畳み込みニューラルネットワーク(CNN)を用いた新しいDLベースの手法を探索する。 他のアプローチとは対照的に、提案されているcnnは、事前に3d情報を必要とせずにポーズを直接レグレッシブする。 さらに、画像中の宇宙船のバウンディングボックスは、単純だが効率的な方法で予測される。 この実験は、3D情報を必要とする作業や、洗練されたCNNを通して境界ボックスを予測する作業を含む、非協力的な宇宙船のポーズ推定における最先端技術とどのように競合するかを示す。

Being capable of estimating the pose of uncooperative objects in space has been proposed as a key asset for enabling safe close-proximity operations such as space rendezvous, in-orbit servicing and active debris removal. Usual approaches for pose estimation involve classical computer vision-based solutions or the application of Deep Learning (DL) techniques. This work explores a novel DL-based methodology, using Convolutional Neural Networks (CNNs), for estimating the pose of uncooperative spacecrafts. Contrary to other approaches, the proposed CNN directly regresses poses without needing any prior 3D information. Moreover, bounding boxes of the spacecraft in the image are predicted in a simple, yet efficient manner. The performed experiments show how this work competes with the state-of-the-art in uncooperative spacecraft pose estimation, including works which require 3D information as well as works which predict bounding boxes through sophisticated CNNs.
翻訳日:2021-04-20 14:26:59 公開日:2021-04-19
# LAFEAT: 敵対的防御と潜在的な機能によるピアリング

LAFEAT: Piercing Through Adversarial Defenses with Latent Features ( http://arxiv.org/abs/2104.09284v1 )

ライセンス: Link先を確認
Yunrui Yu, Xitong Gao, Cheng-Zhong Xu(参考訳) 深層畳み込みニューラルネットワークは敵の攻撃を受けやすい。 入力に小さな摂動を加えることで、誤った出力を与えるように容易に騙すことができる。 このような攻撃に対してCNNを堅牢にする上で,これは大きな課題だ。 この目的のために新たな防御技術が提案されている。 本稿では,特定の「ロバスト」モデルにおける潜在的特徴が,敵攻撃の影響を受けやすいことを示す。 これに加えて、勾配降下ステップ(LAFEAT)における潜伏特徴を利用する統合された$\ell_\infty$-normホワイトボックス攻撃アルゴリズムを導入する。 攻撃を成功させるためには計算的にはるかに効率的であるだけでなく、様々な防御機構における現在の最先端技術よりも強力な敵であることを示す。 これは、モデルのロバスト性がディフェンダーの隠れたコンポーネントの有効利用に起因しており、もはや全体論的観点から見るべきではないことを示唆している。

Deep convolutional neural networks are susceptible to adversarial attacks. They can be easily deceived to give an incorrect output by adding a tiny perturbation to the input. This presents a great challenge in making CNNs robust against such attacks. An influx of new defense techniques have been proposed to this end. In this paper, we show that latent features in certain "robust" models are surprisingly susceptible to adversarial attacks. On top of this, we introduce a unified $\ell_\infty$-norm white-box attack algorithm which harnesses latent features in its gradient descent steps, namely LAFEAT. We show that not only is it computationally much more efficient for successful attacks, but it is also a stronger adversary than the current state-of-the-art across a wide range of defense mechanisms. This suggests that model robustness could be contingent on the effective use of the defender's hidden components, and it should no longer be viewed from a holistic perspective.
翻訳日:2021-04-20 14:26:42 公開日:2021-04-19
# 回帰学習におけるアクティブラーニングのための学習損失の数学的解析

A Mathematical Analysis of Learning Loss for Active Learning in Regression ( http://arxiv.org/abs/2104.09315v1 )

ライセンス: Link先を確認
Megh Shukla, Shuaib Ahmed(参考訳) データ効率が良いため、業界ではアクティブラーニングが引き続き重要なままです。 制約付き予算で効果的にコストがかかるだけでなく、モデルの継続的な改善により、モデル開発段階での早期発見と障害シナリオの解決が可能になる。 産業アプリケーションでは、基礎となるモデルがすべての予測可能なユースケースで正確に機能することを要求しているため、モデルによる障害の特定と修正が不可欠である。 失敗識別を通じてモデルを継続的に精錬する技術として有名なのがLearning Lossである。 シンプルでエレガントですが、このアプローチは経験的モチベーションです。 本稿では,LearningLoss++と呼ばれる新しい修正を提案するための,Learning Lossの基礎を開発する。 本稿では,学習損失の解釈において,学習損失と学習ロス++との勾配を厳密に分析し比較することで,勾配が重要であることを示す。 また,異なるスケールで機能を組み合わせて損失を予測する畳み込みアーキテクチャを提案する。 学習損失における人間のポーズ推定(mpii と lsp データセットを用いた)のタスクにおける回帰として learningloss++ を検証する。 learningloss++は、モデルがパフォーマンスの悪いシナリオを特定するのに優れており、モデルリファインメントがオープン世界での信頼性の高いパフォーマンスに繋がることを示している。

Active learning continues to remain significant in the industry since it is data efficient. Not only is it cost effective on a constrained budget, continuous refinement of the model allows for early detection and resolution of failure scenarios during the model development stage. Identifying and fixing failures with the model is crucial as industrial applications demand that the underlying model performs accurately in all foreseeable use cases. One popular state-of-the-art technique that specializes in continuously refining the model via failure identification is Learning Loss. Although simple and elegant, this approach is empirically motivated. Our paper develops a foundation for Learning Loss which enables us to propose a novel modification we call LearningLoss++. We show that gradients are crucial in interpreting how Learning Loss works, with rigorous analysis and comparison of the gradients between Learning Loss and LearningLoss++. We also propose a convolutional architecture that combines features at different scales to predict the loss. We validate LearningLoss++ for regression on the task of human pose estimation (using MPII and LSP datasets), as done in Learning Loss. We show that LearningLoss++ outperforms in identifying scenarios where the model is likely to perform poorly, which on model refinement translates into reliable performance in the open world.
翻訳日:2021-04-20 14:26:27 公開日:2021-04-19
# bm-nas:bilevel multimodal neural architecture search

BM-NAS: Bilevel Multimodal Neural Architecture Search ( http://arxiv.org/abs/2104.09379v1 )

ライセンス: Link先を確認
Yihang Yin, Siyu Huang, Xiang Zhang, Dejing Dou(参考訳) ディープニューラルネットワーク(DNN)は、様々なマルチモーダル学習問題において優れた性能を示している。 しかし、dnnを個別のマルチモーダルタスクに適応させるためには、手動でユニモーダルな特徴を設計、マルチモーダルな特徴融合戦略を設計することがしばしば必要となる。 本稿では,バイレベル探索方式を用いて,マルチモーダル融合モデルのアーキテクチャを完全に検索可能にする,バイレベル・マルチモーダル・ニューラル・アーキテクチャ・サーチ(BM-NAS)フレームワークを提案する。 上層レベルでは、bm-nasは事前訓練されたユニモーダルバックボーンからインター・イントラモーダル特徴対を選択する。 下層では、BM-NASは事前に定義されたプリミティブ演算の組み合わせである各特徴ペアの融合戦略を学習する。 プリミティブ操作は精巧に設計されており、マルチヘッドアテンション(Transformer)やアテンション・オン・アテンション(AoA)といった様々な効果的な機能融合モジュールに対応するために柔軟に組み合わせることができる。 3つのマルチモーダルタスクの実験結果は,提案するbm-nasフレームワークの有効性と効率を示す。 BM-NASは,既存の汎用マルチモーダルNAS法と比較して,探索時間が少なく,モデルパラメータも少ない競争性能を実現している。

Deep neural networks (DNNs) have shown superior performances on various multimodal learning problems. However, it often requires huge efforts to adapt DNNs to individual multimodal tasks by manually engineering unimodal features and designing multimodal feature fusion strategies. This paper proposes Bilevel Multimodal Neural Architecture Search (BM-NAS) framework, which makes the architecture of multimodal fusion models fully searchable via a bilevel searching scheme. At the upper level, BM-NAS selects the inter/intra-modal feature pairs from the pretrained unimodal backbones. At the lower level, BM-NAS learns the fusion strategy for each feature pair, which is a combination of predefined primitive operations. The primitive operations are elaborately designed and they can be flexibly combined to accommodate various effective feature fusion modules such as multi-head attention (Transformer) and Attention on Attention (AoA). Experimental results on three multimodal tasks demonstrate the effectiveness and efficiency of the proposed BM-NAS framework. BM-NAS achieves competitive performances with much less search time and fewer model parameters in comparison with the existing generalized multimodal NAS methods.
翻訳日:2021-04-20 14:26:05 公開日:2021-04-19
# egl++:人間のポーズ推定のための推定勾配長をアクティブラーニングに拡張する

EGL++: Extending Expected Gradient Length to Active Learning for Human Pose Estimation ( http://arxiv.org/abs/2104.09493v1 )

ライセンス: Link先を確認
Megh Shukla(参考訳) 最先端の人間のポーズ推定モデルは、堅牢なパフォーマンスのために大量のラベル付きデータに依存し続けている。 ラベル付け予算はしばしば制限されるため、アクティブラーニングアルゴリズムはモデル全体のパフォーマンスを低コストで維持する上で重要である。 アクティブラーニングは文献でよく研究されているが、人間のポーズ推定のための技術はほとんど報告されていない。 本稿では,回帰のための予測勾配長を理論的に導出し,離散ラベルが利用できないタスクまで予測勾配長を拡張する新しいヒューリスティックアルゴリズム EGL++ を提案する。 これを,近傍グラフを形成するために使用する原画像の低次元表現を計算することで実現する。 1) 与えられたサンプルの近傍の集合を求め, 勾配計算のために各サンプルが基底真理を表すことを反復的に仮定し, 2) 上記集合における各サンプルが近傍である確率を定量化し, 期待される勾配ステップを容易にする。 このようなアプローチにより、連続的な出力領域をまたいで統合する、さもなければ難解なタスクに対する近似的な解を提供することができます。 EGL++の検証には,従来の文献と同様のデータセット(Leeds Sports Pose, MPII)と実験設計を用い,これらの手法と比較して競合的な結果を得た。

State of the art human pose estimation models continue to rely on large quantities of labelled data for robust performance. Since labelling budget is often constrained, active learning algorithms are important in retaining the overall performance of the model at a lower cost. Although active learning has been well studied in literature, few techniques are reported for human pose estimation. In this paper, we theoretically derive expected gradient length for regression, and propose EGL++, a novel heuristic algorithm that extends expected gradient length to tasks where discrete labels are not available. We achieve this by computing low dimensional representations of the original images which are then used to form a neighborhood graph. We use this graph to: 1) Obtain a set of neighbors for a given sample, with each neighbor iteratively assumed to represent the ground truth for gradient calculation 2) Quantify the probability of each sample being a neighbor in the above set, facilitating the expected gradient step. Such an approach allows us to provide an approximate solution to the otherwise intractable task of integrating over the continuous output domain. To validate EGL++, we use the same datasets (Leeds Sports Pose, MPII) and experimental design as suggested by previous literature, achieving competitive results in comparison to these methods.
翻訳日:2021-04-20 14:25:44 公開日:2021-04-19
# 新しい時間-周波数変圧器と転がり軸受の故障診断への応用

A novel Time-frequency Transformer and its Application in Fault Diagnosis of Rolling Bearings ( http://arxiv.org/abs/2104.09079v1 )

ライセンス: Link先を確認
Yifei Ding, Minping Jia, Qiuhua Miao, Yudong Cao(参考訳) データ駆動型故障診断モデルの範囲は、ディープラーニング(DL)により大幅に改善される。 しかしながら、古典的畳み込みと再帰構造は計算効率と特徴表現に欠陥があるが、注意機構に基づく最新のトランスフォーマーアーキテクチャはこの分野では適用されていない。 そこで本研究では, シーケンス処理における標準変圧器の大成功に触発された新しい時間周波数変圧器(tft)モデルを提案する。 特に,振動信号の時間周波数表現(tfr)から効果的な抽象化を抽出するために,フレッシュトークン化器とエンコーダモジュールを設計した。 そこで本論文では,時間周波数変換器に基づく新しいエンドツーエンド故障診断フレームワークを提案する。 実験データセットの組込みに関するケーススタディを通じて,最適なトランスフォーマー構造を構築し,診断手法の性能を検証した。 提案手法の優位性は,ベンチマークモデルや他の最先端手法との比較により示される。

The scope of data-driven fault diagnosis models is greatly improved through deep learning (DL). However, the classical convolution and recurrent structure have their defects in computational efficiency and feature representation, while the latest Transformer architecture based on attention mechanism has not been applied in this field. To solve these problems, we propose a novel time-frequency Transformer (TFT) model inspired by the massive success of standard Transformer in sequence processing. Specially, we design a fresh tokenizer and encoder module to extract effective abstractions from the time-frequency representation (TFR) of vibration signals. On this basis, a new end-to-end fault diagnosis framework based on time-frequency Transformer is presented in this paper. Through the case studies on bearing experimental datasets, we constructed the optimal Transformer structure and verified the performance of the diagnostic method. The superiority of the proposed method is demonstrated in comparison with the benchmark model and other state-of-the-art methods.
翻訳日:2021-04-20 14:23:32 公開日:2021-04-19
# 分散低減によるランダムリシャッフル--新しい解析とより良いレート

Random Reshuffling with Variance Reduction: New Analysis and Better Rates ( http://arxiv.org/abs/2104.09342v1 )

ライセンス: Link先を確認
Grigory Malinovsky, Alibek Sailanbayev, Peter Richt\'arik(参考訳) 教師付き機械学習モデルをトレーニングするための、事実上すべての最先端の手法は、ミニバッチ、運動量、適応ステップサイズなどの追加のトリックで強化されたSGDの変種である。 事実上広く使われている機械学習ソフトウェアでデフォルトとして使用されるような、実際にうまく機能するトリックの1つは、ランダムリシャッフル(RR)である。 しかし、RRの実践的な利点は、理論を用いて十分に説明される試みを非常に最近まで免れた。 Mishchenko, Khaled and Richt\'{a}rik (2020) による最近の発展によって動機づけられたこの研究において、一般有限サム問題に対するランダムリシャッフル(RR-SVRG)の下でのSVRGの最初の解析を提供する。 まず、RR-SVRG は強凸の場合で $\mathcal{O}(\kappa^{3/2})$ と線形収束し、さらにビッグデータレシスタンス($n > \mathcal{O}(\kappa)$ で $\mathcal{O}(\kappa)$ に改善可能であることを示す。 これにより、Ying, Yuan and Sayed (2020) による強凸の場合の分散還元RR法で知られている前の最高値 $\mathcal{O}(\kappa^2)$ が改善される。 第二に、一般凸問題に対する最初の部分線型率を求める。 第3に、Cyclic-SVRGとShuffle-Once-SVRGに対して同様の高速速度を確立する。 最後に,制御変動の頻繁な更新を可能にするrrのより一般的な分散低減方式を開発し,解析する。 我々は、合成および実データ集合に関する適切に選択された実験で理論結果と照合する。

Virtually all state-of-the-art methods for training supervised machine learning models are variants of SGD enhanced with a number of additional tricks, such as minibatching, momentum, and adaptive stepsizes. One of the tricks that works so well in practice that it is used as default in virtually all widely used machine learning software is {\em random reshuffling (RR)}. However, the practical benefits of RR have until very recently been eluding attempts at being satisfactorily explained using theory. Motivated by recent development due to Mishchenko, Khaled and Richt\'{a}rik (2020), in this work we provide the first analysis of SVRG under Random Reshuffling (RR-SVRG) for general finite-sum problems. First, we show that RR-SVRG converges linearly with the rate $\mathcal{O}(\kappa^{3/2})$ in the strongly-convex case, and can be improved further to $\mathcal{O}(\kappa)$ in the big data regime (when $n > \mathcal{O}(\kappa)$), where $\kappa$ is the condition number. This improves upon the previous best rate $\mathcal{O}(\kappa^2)$ known for a variance reduced RR method in the strongly-convex case due to Ying, Yuan and Sayed (2020). Second, we obtain the first sublinear rate for general convex problems. Third, we establish similar fast rates for Cyclic-SVRG and Shuffle-Once-SVRG. Finally, we develop and analyze a more general variance reduction scheme for RR, which allows for less frequent updates of the control variate. We corroborate our theoretical results with suitably chosen experiments on synthetic and real datasets.
翻訳日:2021-04-20 14:23:16 公開日:2021-04-19
# コンバータとクエリ項独立性を用いたトランスフォーマーカーネルランキングモデルの改善

Improving Transformer-Kernel Ranking Model Using Conformer and Query Term Independence ( http://arxiv.org/abs/2104.09393v1 )

ライセンス: Link先を確認
Bhaskar Mitra, Sebastian Hofstatter, Hamed Zamani and Nick Craswell(参考訳) tk(transformer-kerne l)モデルは、trec deep learningベンチマークで強力なリランキングパフォーマンスを示している -- そして、(i)大規模事前トレーニング(高いトレーニングコスト)、(ii)クエリとドキュメントのジョイントエンコーディング(高い推論コスト)、(iii)多くのトランスフォーマー層(高いトレーニングと高い推論コストの両方)を採用する、他のトランスフォーマーベースのアーキテクチャに代わる、効率的(しかし少しは効果的ではない)な代替案と見なすことができる。 その後、tklと呼ばれるtkモデルの変種が開発され、文書のランク付けの文脈において、より長い入力シーケンスを効率的に処理するために、ローカルなセルフアテンションが組み込まれている。 本稿では,より長い入力列にtkをスケールするための代替手法として,新しい適合層を提案する。 さらに,クエリ項の独立性と明示的な項マッチングを組み込んで,モデルを完全に検索設定に拡張する。 trec 2020ディープラーニングトラックの厳密なブラインド評価設定下でのモデルベンチマークを行い,提案するアーキテクチャ変更がtklよりも検索品質の向上につながることを確認した。 我々の最良のモデルは、NDCG@10でトレーニング済みのTransformerベースのラン(nnlm)の3分の2の非ニューロンラン(trad)を上回ります。

The Transformer-Kernel (TK) model has demonstrated strong reranking performance on the TREC Deep Learning benchmark -- and can be considered to be an efficient (but slightly less effective) alternative to other Transformer-based architectures that employ (i) large-scale pretraining (high training cost), (ii) joint encoding of query and document (high inference cost), and (iii) larger number of Transformer layers (both high training and high inference costs). Since, a variant of the TK model -- called TKL -- has been developed that incorporates local self-attention to efficiently process longer input sequences in the context of document ranking. In this work, we propose a novel Conformer layer as an alternative approach to scale TK to longer input sequences. Furthermore, we incorporate query term independence and explicit term matching to extend the model to the full retrieval setting. We benchmark our models under the strictly blind evaluation setting of the TREC 2020 Deep Learning track and find that our proposed architecture changes lead to improved retrieval quality over TKL. Our best model also outperforms all non-neural runs ("trad") and two-thirds of the pretrained Transformer-based runs ("nnlm") on NDCG@10.
翻訳日:2021-04-20 14:22:45 公開日:2021-04-19
# TRECディープラーニングトラック:大規模データレジームで再利用可能なテストコレクション

TREC Deep Learning Track: Reusable Test Collections in the Large Data Regime ( http://arxiv.org/abs/2104.09399v1 )

ライセンス: Link先を確認
Nick Craswell, Bhaskar Mitra, Emine Yilmaz, Daniel Campos, Ellen M. Voorhees and Ian Soboroff(参考訳) TREC Deep Learning (DL) Trackは、大規模なデータ体制におけるアドホック検索を研究する。 これまでの結果は、大きなデータを持つ最良のモデルがディープニューラルネットワークであることを示している。 本稿では,TREC DLテストコレクションの再利用を3つの方法で支援する。 まず、データセットを詳細に記述し、明確に文書化し、それ以外はトラックガイドライン、概要論文、および関連するMS MARCOリーダーボードページに散らばっているいくつかの詳細を記述します。 この記述は、新規参入者がtrac dlデータを簡単に利用できるように意図している。 第2に,データセットを再利用する場合,反復や選択バイアスのリスクがあるため,trac dlデータを用いた論文作成のベストプラクティスを過大評価することなく記述する。 いくつか説明的な分析を行う。 最後に、trac dlデータに関する多くの問題に対処し、再利用可能性の分析を含む。

The TREC Deep Learning (DL) Track studies ad hoc search in the large data regime, meaning that a large set of human-labeled training data is available. Results so far indicate that the best models with large data may be deep neural networks. This paper supports the reuse of the TREC DL test collections in three ways. First we describe the data sets in detail, documenting clearly and in one place some details that are otherwise scattered in track guidelines, overview papers and in our associated MS MARCO leaderboard pages. We intend this description to make it easy for newcomers to use the TREC DL data. Second, because there is some risk of iteration and selection bias when reusing a data set, we describe the best practices for writing a paper using TREC DL data, without overfitting. We provide some illustrative analysis. Finally we address a number of issues around the TREC DL data, including an analysis of reusability.
翻訳日:2021-04-20 14:22:16 公開日:2021-04-19
# NISQA:クラウドソーシングデータセットを用いた多次元音声品質予測のための深部CNN自己認識モデル

NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech Quality Prediction with Crowdsourced Datasets ( http://arxiv.org/abs/2104.09494v1 )

ライセンス: Link先を確認
Gabriel Mittag, Babak Naderi, Assmaa Chehadi, Sebastian M\"oller(参考訳) 本稿では,通信ネットワークにおける歪みに着目したNISQA音声品質予測モデルのアップデートを提案する。 以前のバージョンとは対照的に、モデルはエンドツーエンドで訓練され、時間依存モデリングと時間プーリングは自己認識機構によって達成される。 全体的な音声品質に加えて、モデルは、ノイズネス、着色、不連続、ラウドネスの4つの品質次元を予測し、品質劣化の原因についてより深い洞察を与える。 さらに、モデルのトレーニングと検証のために、13,000以上の音声ファイルを持つ新しいデータセットが作成された。 このモデルは、実電話の記録を含む新しいライブトークテストデータセットでようやくテストされた。 全体として、NISQAは異なるソースから81のデータセットをトレーニングし、評価し、未知の音声サンプルに対しても信頼性の高い予測を提供することを示した。 コード、モデルウェイト、データセットはオープンソースである。

In this paper, we present an update to the NISQA speech quality prediction model that is focused on distortions that occur in communication networks. In contrast to the previous version, the model is trained end-to-end and the time-dependency modelling and time-pooling is achieved through a Self-Attention mechanism. Besides overall speech quality, the model also predicts the four speech quality dimensions Noisiness, Coloration, Discontinuity, and Loudness, and in this way gives more insight into the cause of a quality degradation. Furthermore, new datasets with over 13,000 speech files were created for training and validation of the model. The model was finally tested on a new, live-talking test dataset that contains recordings of real telephone calls. Overall, NISQA was trained and evaluated on 81 datasets from different sources and showed to provide reliable predictions also for unknown speech samples. The code, model weights, and datasets are open-sourced.
翻訳日:2021-04-20 14:22:01 公開日:2021-04-19
# 雑音を伴う半空間学習のための対向学習の証明可能なロバスト性

Provable Robustness of Adversarial Training for Learning Halfspaces with Noise ( http://arxiv.org/abs/2104.09437v1 )

ライセンス: Link先を確認
Difan Zou and Spencer Frei and Quanquan Gu(参考訳) 本研究は,ラベル雑音の存在下での対向的ロバストなハーフスペース学習のための対向訓練の特性を解析する。 for $p=2$, $\tilde O(\sqrt{\mathsf{OPT}_{2,r}})$ for $p=2$, and $\tilde O(d^{1/4} \sqrt{\mathsf{OPT}_{\infty, r}} + d^{1/2} \mathf{OPT}_{\infty,r}} + d^{1/2} \mathf{OPT}_{\infty,r)$p=2$に対して、標準二項のクロスエントロピー損失に対する逆向きのトレーニングが逆強な半空間を得ることを示す。 この結果から,対数対数対等方分布が持つ反濃度特性を満たす分布が得られた。 さらに、非凸シグモディカル損失を使用する場合、逆トレーニングは、$O(\mathsf{OPT}_{2,r})$ for $p=2$, $O(d^{1/4}\mathsf{OPT}_{\infty, r})$ if $p=\infty$の堅牢な分類誤差を改良したハーフスペースを得る。 我々の知る限りでは、敵対的訓練が雑音の存在下で頑健な分類器を確実に得ることを示す最初の研究である。

We analyze the properties of adversarial training for learning adversarially robust halfspaces in the presence of agnostic label noise. Denoting $\mathsf{OPT}_{p,r}$ as the best robust classification error achieved by a halfspace that is robust to perturbations of $\ell_{p}$ balls of radius $r$, we show that adversarial training on the standard binary cross-entropy loss yields adversarially robust halfspaces up to (robust) classification error $\tilde O(\sqrt{\mathsf{OPT}_{2,r}})$ for $p=2$, and $\tilde O(d^{1/4} \sqrt{\mathsf{OPT}_{\infty, r}} + d^{1/2} \mathsf{OPT}_{\infty,r})$ when $p=\infty$. Our results hold for distributions satisfying anti-concentration properties enjoyed by log-concave isotropic distributions among others. We additionally show that if one instead uses a nonconvex sigmoidal loss, adversarial training yields halfspaces with an improved robust classification error of $O(\mathsf{OPT}_{2,r})$ for $p=2$, and $O(d^{1/4}\mathsf{OPT}_{\infty, r})$ when $p=\infty$. To the best of our knowledge, this is the first work to show that adversarial training provably yields robust classifiers in the presence of noise.
翻訳日:2021-04-20 14:20:48 公開日:2021-04-19
# Epsilon Consistent Mixup: 適応的一貫性-補間トレードオフ

Epsilon Consistent Mixup: An Adaptive Consistency-Interpol ation Tradeoff ( http://arxiv.org/abs/2104.09452v1 )

ライセンス: Link先を確認
Vincent Pisztora, Yanglan Ou, Xiaolei Huang, Francesca Chiaromonte, Jia Li(参考訳) 本稿では,$\epsilon$-Consiste nt Mixup(\epsilon$mu)を提案する。 $\epsilon$muは、mixupの線形補間とmixupの方向における一貫性の正規化を組み合わせたデータベースの構造正規化手法である。 この一貫性と補間の学習可能な組み合わせは、機能空間全体の応答の進化をより柔軟に構成し、svhnおよびcifar10ベンチマークデータセットにおける半教師付き分類精度を改善し、最も困難なラベルアベイラビリティシナリオにおいて最大の利益をもたらす。 $\epsilon$mu と Mixup を比較した実証的研究を行い、$\epsilon$mu の有効性のメカニズムについて考察した。 特に$\epsilon$muは、Mixupよりも正確な合成ラベルと信頼性の高い予測を生成する。

In this paper we propose $\epsilon$-Consisten t Mixup ($\epsilon$mu). $\epsilon$mu is a data-based structural regularization technique that combines Mixup's linear interpolation with consistency regularization in the Mixup direction, by compelling a simple adaptive tradeoff between the two. This learnable combination of consistency and interpolation induces a more flexible structure on the evolution of the response across the feature space and is shown to improve semi-supervised classification accuracy on the SVHN and CIFAR10 benchmark datasets, yielding the largest gains in the most challenging low label-availability scenarios. Empirical studies comparing $\epsilon$mu and Mixup are presented and provide insight into the mechanisms behind $\epsilon$mu's effectiveness. In particular, $\epsilon$mu is found to produce more accurate synthetic labels and more confident predictions than Mixup.
翻訳日:2021-04-20 14:19:48 公開日:2021-04-19
# 任意の行列群に対する等変多層パーセプトロンの実用的構築法

A Practical Method for Constructing Equivariant Multilayer Perceptrons for Arbitrary Matrix Groups ( http://arxiv.org/abs/2104.09459v1 )

ライセンス: Link先を確認
Marc Finzi, Max Welling, Andrew Gordon Wilson(参考訳) 対称性と等価性は、画像、グラフ、点雲などの領域におけるニューラルネットワークの一般化に基本的である。 既存の研究は主に翻訳群、回転群、置換群といった少数のグループに焦点を当ててきた。 本研究では,行列群の同変層を解くための完全一般アルゴリズムを提案する。 特殊ケースとして他の作品からの解の回収に加えて、これまで取り組まなかった複数の群に同値な多層パーセプトロンを構築し、その中には$\mathrm{o}(1,3)$、$\mathrm{o}(5)$、$\mathrm{sp}(n)$、rubik's cube groupが含まれる。 提案手法は, 粒子物理学および力学系への応用により, 非同変基底線より優れる。 研究者が任意の行列群に対して同変層を構築できるようにソフトウェアライブラリをリリースする。

Symmetries and equivariance are fundamental to the generalization of neural networks on domains such as images, graphs, and point clouds. Existing work has primarily focused on a small number of groups, such as the translation, rotation, and permutation groups. In this work we provide a completely general algorithm for solving for the equivariant layers of matrix groups. In addition to recovering solutions from other works as special cases, we construct multilayer perceptrons equivariant to multiple groups that have never been tackled before, including $\mathrm{O}(1,3)$, $\mathrm{O}(5)$, $\mathrm{Sp}(n)$, and the Rubik's cube group. Our approach outperforms non-equivariant baselines, with applications to particle physics and dynamical systems. We release our software library to enable researchers to construct equivariant layers for arbitrary matrix groups.
翻訳日:2021-04-20 14:19:33 公開日:2021-04-19
# 神経最適化のためのプログレッシブエンコーディング

Progressive Encoding for Neural Optimization ( http://arxiv.org/abs/2104.09125v1 )

ライセンス: Link先を確認
Amir Hertz, Or Perel, Raja Giryes, Olga Sorkine-Hornung and Daniel Cohen-Or(参考訳) そこで本研究では,神経最適化により周波数が増大する信号が徐々に露出するプログレッシブ・ポジショナル・エンコーディング(ppe)層を提案する。 本稿では,メッシュ転送のためのPPE層の能力とその利点を,現代の表面マッピング技術と比較して示す。 私たちのアプローチはシンプルで、ユーザーガイダンスをほとんど必要としません。 最も重要なのは,パラメタライズフリーな手法であり,ポイントクラウド,ポリゴンスープ,非マニフォールドメッシュなど,さまざまな対象形状表現に適用可能である。 転送されたメッシュは、ソースメッシュの設計特性に忠実であり、同時にターゲットジオメトリにも適していることを実証する。

We introduce a Progressive Positional Encoding (PPE) layer, which gradually exposes signals with increasing frequencies throughout the neural optimization. In this paper, we show the competence of the PPE layer for mesh transfer and its advantages compared to contemporary surface mapping techniques. Our approach is simple and requires little user guidance. Most importantly, our technique is a parameterization-fre e method, and thus applicable to a variety of target shape representations, including point clouds, polygon soups, and non-manifold meshes. We demonstrate that the transferred meshing remains faithful to the source mesh design characteristics, and at the same time fits the target geometry well.
翻訳日:2021-04-20 14:18:48 公開日:2021-04-19
# プロキシ分布を用いた対向ロバスト性の改善

Improving Adversarial Robustness Using Proxy Distributions ( http://arxiv.org/abs/2104.09425v1 )

ライセンス: Link先を確認
Vikash Sehwag, Saeed Mahloujifar, Tinashe Handina, Sihui Dai, Chong Xiang, Mung Chiang, Prateek Mittal(参考訳) 画像分類における逆ロバスト性の理解と改善の両面において,トレーニングデータセットの基盤となる分布の近似として,プロキシ分布の利用に注目した。 追加のトレーニングデータは、敵対的なトレーニングに役立つが、膨大な数の現実世界の画像のキュレーションは困難である。 対照的に、プロキシ分布は、潜在的に無制限な数のイメージをサンプリングし、これらのサンプルを使用して敵のロバスト性を改善することができる。 敵のロバスト性は、いつトレーニング段階でプロキシディストリビューションから追加のサンプルを組み込むことの恩恵を受けるのか? プロキシ上の分類器のロバスト性と元のトレーニングデータセット分布との差は条件付きワッサースタイン距離によって上限される。 この結果から,トレーニングデータセット分布を近似したプロキシ分布からのサンプルは,対向的ロバスト性を高めることができると考えられた。 この発見に触発されて、トレーニングデータの分布を正確に近似できる最先端の生成モデルからのサンプルを活用し、堅牢性を向上させる。 特に、ロバスト精度を最大6.1%、$l_{\infty}$および$l_2$脅威モデルで5.7%向上させ、cifar-10データセットのプロキシディストリビューションを使用しないベースラインよりも6.7%向上させた。 プロキシ分布から無制限のイメージをサンプリングできるので,トレーニングサンプルの増加が対向的ロバスト性に与える影響を調べることもできる。 ここでは,2kから10m画像の深層ニューラルネットワークを訓練することにより,精度とロバスト性とのトレードオフ,および敵訓練のサンプル複雑性について,最初の大規模実験を行った。

We focus on the use of proxy distributions, i.e., approximations of the underlying distribution of the training dataset, in both understanding and improving the adversarial robustness in image classification. While additional training data helps in adversarial training, curating a very large number of real-world images is challenging. In contrast, proxy distributions enable us to sample a potentially unlimited number of images and improve adversarial robustness using these samples. We first ask the question: when does adversarial robustness benefit from incorporating additional samples from the proxy distribution in the training stage? We prove that the difference between the robustness of a classifier on the proxy and original training dataset distribution is upper bounded by the conditional Wasserstein distance between them. Our result confirms the intuition that samples from a proxy distribution that closely approximates training dataset distribution should be able to boost adversarial robustness. Motivated by this finding, we leverage samples from state-of-the-art generative models, which can closely approximate training data distribution, to improve robustness. In particular, we improve robust accuracy by up to 6.1% and 5.7% in $l_{\infty}$ and $l_2$ threat model, and certified robust accuracy by 6.7% over baselines not using proxy distributions on the CIFAR-10 dataset. Since we can sample an unlimited number of images from a proxy distribution, it also allows us to investigate the effect of an increasing number of training samples on adversarial robustness. Here we provide the first large scale empirical investigation of accuracy vs robustness trade-off and sample complexity of adversarial training by training deep neural networks on 2K to 10M images.
翻訳日:2021-04-20 14:18:21 公開日:2021-04-19
# 多言語BERTを用いたスワヒリ語の感性分類

Sentiment Classification in Swahili Language Using Multilingual BERT ( http://arxiv.org/abs/2104.09006v1 )

ライセンス: Link先を確認
Gati L. Martin, Medard E. Mswahili, Young-Seob Jeong(参考訳) インターネットの進化は、異なるプラットフォーム上の人々が表現する情報の量を増やしました。 この情報は、製品レビュー、フォーラムでの議論、ソーシャルメディアプラットフォームなどである。 これらの意見と人々の感情のアクセシビリティは、意見マイニングと感情分析の扉を開く。 言語技術や音声技術が進歩するにつれて、多くの言語が使われ、最良のモデルが得られた。 しかし、言語的な多様性とデータセットの欠如により、アフリカ語は残された。 本研究では,現在の最先端モデルである多言語BERTを用いて,スワヒリデータセットの感情分類を行う。 このデータは、異なるソーシャルメディアプラットフォームとisear emotionデータセットで8.2kのレビューとコメントを抽出、注釈付けすることで作成された。 データは正か負のどちらかに分類された。 モデルは微調整され、87.59%の精度を達成した。

The evolution of the Internet has increased the amount of information that is expressed by people on different platforms. This information can be product reviews, discussions on forums, or social media platforms. Accessibility of these opinions and peoples feelings open the door to opinion mining and sentiment analysis. As language and speech technologies become more advanced, many languages have been used and the best models have been obtained. However, due to linguistic diversity and lack of datasets, African languages have been left behind. In this study, by using the current state-of-the-art model, multilingual BERT, we perform sentiment classification on Swahili datasets. The data was created by extracting and annotating 8.2k reviews and comments on different social media platforms and the ISEAR emotion dataset. The data were classified as either positive or negative. The model was fine-tuned and achieve the best accuracy of 87.59%.
翻訳日:2021-04-20 14:04:29 公開日:2021-04-19
# ニューラルネットワークによる意味的役割のラベル付け

Neural Unsupervised Semantic Role Labeling ( http://arxiv.org/abs/2104.09047v1 )

ライセンス: Link先を確認
Kashif Munir, Hai Zhao, Zuchao Li(参考訳) セマンティック・ロール・ラベリング(SRL)の課題は述語句構造を見つけることにある。 SRLの以前の研究はほとんどが監督されており、非常に高価で時間を要する各例のラベル付けの難しさを考慮していない。 本稿では,SRLのための最初の神経教師なしモデルを提案する。 タスクを2つの引数関連サブタスク、識別とクラスタリングとして分解するために、2つのニューラルネットワークモジュールからなるパイプラインを提案する。 まず,2つの構文を考慮した統計的ルールに基づいてニューラルモデルを訓練する。 ニューラルモデルは、文中の各トークンの関連信号を取得し、BiLSTMに入力した後、ノイズ付加と分類のための逆層を同時に取得することにより、モデルの文の意味構造を学習することができる。 次に,学習された引数の組込みを依存関係に偏ってクラスタリングすることで,引数ロールクラスタリングのための新たなニューラルモデルを提案する。 conll-2009 英語データセットにおける実験により,本モデルは,議論の識別と分類のための非ニューラルモデルの観点から,これまでの最先端のベースラインよりも優れていることが示された。

The task of semantic role labeling (SRL) is dedicated to finding the predicate-argument structure. Previous works on SRL are mostly supervised and do not consider the difficulty in labeling each example which can be very expensive and time-consuming. In this paper, we present the first neural unsupervised model for SRL. To decompose the task as two argument related subtasks, identification and clustering, we propose a pipeline that correspondingly consists of two neural modules. First, we train a neural model on two syntax-aware statistically developed rules. The neural model gets the relevance signal for each token in a sentence, to feed into a BiLSTM, and then an adversarial layer for noise-adding and classifying simultaneously, thus enabling the model to learn the semantic structure of a sentence. Then we propose another neural model for argument role clustering, which is done through clustering the learned argument embeddings biased towards their dependency relations. Experiments on CoNLL-2009 English dataset demonstrate that our model outperforms previous state-of-the-art baseline in terms of non-neural models for argument identification and classification.
翻訳日:2021-04-20 14:04:17 公開日:2021-04-19
# エンドツーエンド音声認識のための音響データ駆動サブワードモデリング

Acoustic Data-Driven Subword Modeling for End-to-End Speech Recognition ( http://arxiv.org/abs/2104.09106v1 )

ライセンス: Link先を確認
Wei Zhou, Mohammad Zeineldeen, Zuoyun Zheng, Ralf Schl\"uter, Hermann Ney(参考訳) サブワード単位は、エンドツーエンドの自動音声認識(asr)に一般的に使用されるが、完全に音響指向のサブワードモデリングアプローチは欠落している。 本稿では,複数のテキストベースおよび音響ベースサブワード手法の利点を1つのパイプラインに適応させるアコースティックデータ駆動サブワードモデリング(ADSM)手法を提案する。 完全な音響指向ラベル設計と学習プロセスにより、ADSMは音響構造化サブワードユニットと音響マッチングされたターゲットシーケンスを生成して、さらなるASRトレーニングを行う。 得られたADSMラベルは、CTC、RNN-transducer、アテンションモデルを含む、異なるエンドツーエンドのASRアプローチで評価される。 LibriSpeech corpus の実験では、ADSM はバイトペア符号化 (BPE) と発音支援サブワードモデリング (PASM) の両方で明らかに優れていた。 詳細な分析の結果,ADSMは時間同期モデルとラベル同期モデルの両方に適しており,より論理的な単語分割とバランスの取れたシーケンス長を実現している。 また,ADSMを用いた音声によるサブワード正規化と未知のテキストセグメンテーションの応用法についても簡潔に述べる。

Subword units are commonly used for end-to-end automatic speech recognition (ASR), while a fully acoustic-oriented subword modeling approach is somewhat missing. We propose an acoustic data-driven subword modeling (ADSM) approach that adapts the advantages of several text-based and acoustic-based subword methods into one pipeline. With a fully acoustic-oriented label design and learning process, ADSM produces acoustic-structured subword units and acoustic-matched target sequence for further ASR training. The obtained ADSM labels are evaluated with different end-to-end ASR approaches including CTC, RNN-transducer and attention models. Experiments on the LibriSpeech corpus show that ADSM clearly outperforms both byte pair encoding (BPE) and pronunciation-assist ed subword modeling (PASM) in all cases. Detailed analysis shows that ADSM achieves acoustically more logical word segmentation and more balanced sequence length, and thus, is suitable for both time-synchronous and label-synchronous models. We also briefly describe how to apply acoustic-based subword regularization and unseen text segmentation using ADSM.
翻訳日:2021-04-20 14:04:01 公開日:2021-04-19
# コメントなし:ウェブサイトの分析におけるコメントセクションへの対処

No comments: Addressing commentary sections in websites' analyses ( http://arxiv.org/abs/2104.09113v1 )

ライセンス: Link先を確認
Florian Cafiero, Paul Guille-Escuret, Jeremy Ward(参考訳) 一連のウェブサイトから注釈セクションを削除または抽出することは面倒な作業であり、コーディングの標準的な方法が広く採用されていない。 この操作はめったに行われない。 本稿では,これらのコメントセクションが分析において有意なバイアスを生じさせることを示す。特に議論の的となっているHighlights $\bullet$ Commentaryセクションは,ウェブサイトの内容の分析においてバイアスを誘発することができる。 $\bullet$これらのポイントは、抗ワクチンウェブサイトのコーパスを使って説明します。 $\bullet$ これらのセクションを削除または抽出するためのガイドラインを提供します。

Removing or extracting the commentary sections from a series of websites is a tedious task, as no standard way to code them is widely adopted. This operation is thus very rarely performed. In this paper, we show that these commentary sections can induce significant biases in the analyses, especially in the case of controversial Highlights $\bullet$ Commentary sections can induce biases in the analysis of websites' contents $\bullet$ Analyzing these sections can be interesting per se. $\bullet$ We illustrate these points using a corpus of anti-vaccine websites. $\bullet$ We provide guidelines to remove or extract these sections.
翻訳日:2021-04-20 14:03:40 公開日:2021-04-19
# ソースコード要約のためのコード構造案内変換器

Code Structure Guided Transformer for Source Code Summarization ( http://arxiv.org/abs/2104.09340v1 )

ライセンス: Link先を確認
Shuzheng Gao, Cuiyun Gao, Yulan He, Jichuan Zeng, Lun Yiu Nie, Xin Xia(参考訳) ソースコード要約は、与えられたプログラムの機能の簡潔な記述を生成することを目的としている。 Transformerベースのアプローチは有望なパフォーマンスを実現するが、コードセマンティクスをキャプチャする上で重要なコード構造情報を明示的に組み込んでいるわけではない。 さらに、明示的な制約がなければ、Transformerのマルチヘッドアテンションは注意の崩壊に悩まされ、要約のためのコード表現が貧弱になる可能性がある。 このタスク領域では、コード構造情報をtransformerに効果的に統合することは未検討である。 本稿では,コード構造特性をTransformerに組み込むSG-Transという新しい手法を提案する。 具体的には、コードの階層的な特徴を捉えるために、局所的なシンボル情報(コードトークンなど)とグローバルな構文構造(データフローなど)を帰納的バイアスとして自己保持モジュールに注入する。 総合評価の結果,SG-Transは最先端手法よりも優れた性能を示した。

Source code summarization aims at generating concise descriptions of given programs' functionalities. While Transformer-based approaches achieve promising performance, they do not explicitly incorporate the code structure information which is important for capturing code semantics. Besides, without explicit constraints, multi-head attentions in Transformer may suffer from attention collapse, leading to poor code representations for summarization. Effectively integrating the code structure information into Transformer is under-explored in this task domain. In this paper, we propose a novel approach named SG-Trans to incorporate code structural properties into Transformer. Specifically, to capture the hierarchical characteristics of code, we inject the local symbolic information (e.g., code tokens) and global syntactic structure (e.g., data flow) into the self-attention module as inductive bias. Extensive evaluation shows the superior performance of SG-Trans over the state-of-the-art approaches.
翻訳日:2021-04-20 14:03:28 公開日:2021-04-19
# 文脈拡張変換器を用いた高次長コンテキストエンドツーエンド音声認識

Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers ( http://arxiv.org/abs/2104.09426v1 )

ライセンス: Link先を確認
Takaaki Hori, Niko Moritz, Chiori Hori, Jonathan Le Roux(参考訳) 本稿では,講義や会話音声などの長音録音におけるエンドツーエンド自動音声認識(asr)について述べる。 ほとんどのエンドツーエンドのASRモデルは独立した発話を認識するように設計されているが、複数の発話に対する文脈情報(話者や話題など)はASRにとって有用であることが知られている。 本稿では,複数の連続発話を同時に受け取り,最後の発話の出力シーケンスを予測し,講義および会話ASRベンチマークにおける発話ベースラインからの相対誤差を5~15%削減するコンテキスト拡張変換器を提案する。 結果は顕著なパフォーマンス向上を示しているが、モデルアーキテクチャとデコードプロセスをさらに改善する可能性はまだ残っている。 本稿では,(1)コンバータアーキテクチャを導入して精度を向上し,(2)新しい再生リサイクル技術により復号処理を高速化し,(3)注意を喚起したストリーミング復号を可能にすることによって,従来の作業を拡張する。 この拡張トランスフォーマーは,HKUSTデータセットに対する17.3%の文字誤り率と,Switchboard-300 Eval2000 CallHome/Switchboard テストセットに対する12.0%/6.3%の単語エラー率が得られる。 新たな復号法はデコーディング時間を50%以上削減し、より少ない精度でストリーミングasrを可能にする。

This paper addresses end-to-end automatic speech recognition (ASR) for long audio recordings such as lecture and conversational speeches. Most end-to-end ASR models are designed to recognize independent utterances, but contextual information (e.g., speaker or topic) over multiple utterances is known to be useful for ASR. In our prior work, we proposed a context-expanded Transformer that accepts multiple consecutive utterances at the same time and predicts an output sequence for the last utterance, achieving 5-15% relative error reduction from utterance-based baselines in lecture and conversational ASR benchmarks. Although the results have shown remarkable performance gain, there is still potential to further improve the model architecture and the decoding process. In this paper, we extend our prior work by (1) introducing the Conformer architecture to further improve the accuracy, (2) accelerating the decoding process with a novel activation recycling technique, and (3) enabling streaming decoding with triggered attention. We demonstrate that the extended Transformer provides state-of-the-art end-to-end ASR performance, obtaining a 17.3% character error rate for the HKUST dataset and 12.0%/6.3% word error rates for the Switchboard-300 Eval2000 CallHome/Switchboard test sets. The new decoding method reduces decoding time by more than 50% and further enables streaming ASR with limited accuracy degradation.
翻訳日:2021-04-20 14:03:14 公開日:2021-04-19
# tfrom: 顧客とプロバイダの両方に対する、公平さを意識したレコメンデーションモデル

TFROM: A Two-sided Fairness-Aware Recommendation Model for Both Customers and Providers ( http://arxiv.org/abs/2104.09024v1 )

ライセンス: Link先を確認
Yao Wu and Jian Cao and Guandong Xu and Yudong Tan(参考訳) 現在、レコメンダシステムの公平性に関するほとんどの研究は、顧客の観点からも、あるいは製品(またはサービス)プロバイダの観点からも行われている。 しかし、一方の面に公正が保証された場合、他方の面の公平性と権利が減少する可能性が高いという事実を無視している。 本稿では,2つの側面(顧客と提供者)の観点から,レコメンデーションシナリオについて考察する。 プロバイダの観点からは,プロバイダのレコメンデーションシステムにおける露出の公平性を考慮する。 顧客にとって、公正度対策の導入による推奨結果の品質低下の公平性を考慮する。 提案手法は,推奨品質,顧客フェアネス,提供者フェアネスの関係を理論的に分析し,顧客と提供者の両方に対して二面的フェアネス・アウェア・レコメンデーション・モデル(TFROM)を設計する。 具体的には、オフラインおよびオンラインレコメンデーションのためのTFROMの2つのバージョンを設計する。 モデルの有効性を実世界の3つのデータセットで検証する。 実験の結果,TFROMはベースラインアルゴリズムよりも高いパーソナライズレベルを維持しつつ,両面の公平性を向上することが示された。

At present, most research on the fairness of recommender systems is conducted either from the perspective of customers or from the perspective of product (or service) providers. However, such a practice ignores the fact that when fairness is guaranteed to one side, the fairness and rights of the other side are likely to reduce. In this paper, we consider recommendation scenarios from the perspective of two sides (customers and providers). From the perspective of providers, we consider the fairness of the providers' exposure in recommender system. For customers, we consider the fairness of the reduced quality of recommendation results due to the introduction of fairness measures. We theoretically analyzed the relationship between recommendation quality, customers fairness, and provider fairness, and design a two-sided fairness-aware recommendation model (TFROM) for both customers and providers. Specifically, we design two versions of TFROM for offline and online recommendation. The effectiveness of the model is verified on three real-world data sets. The experimental results show that TFROM provides better two-sided fairness while still maintaining a higher level of personalization than the baseline algorithms.
翻訳日:2021-04-20 14:01:50 公開日:2021-04-19
# カテゴリー化における干渉効果予測のための否定量子決定モデル

A Negation Quantum Decision Model to Predict the Interference Effect in Categorization ( http://arxiv.org/abs/2104.09058v1 )

ライセンス: Link先を確認
Qinyuan Wu and Yong Deng(参考訳) 分類は意思決定において重要なタスクであり、それは人間の行動の重要な部分である。 干渉効果は、場合によっては全確率原理を破る分類によって引き起こされる。 本稿では、干渉を予測するために、否定量子モデル(NQモデル)を開発した。 異なる視点から分布により多くの情報をもたらすために否定の利点を生かして、提案モデルは確率分布の否定と量子決定モデルの組み合わせである。 量子確率に含まれる位相の情報とそれに対する特別な計算方法は干渉効果を容易に表現できる。 提案したNQモデルの結果は実実験データに近いものであり,既存のモデルよりも誤差が少ない。

Categorization is a significant task in decision-making, which is a key part of human behavior. An interference effect is caused by categorization in some cases, which breaks the total probability principle. A negation quantum model (NQ model) is developed in this article to predict the interference. Taking the advantage of negation to bring more information in the distribution from a different perspective, the proposed model is a combination of the negation of a probability distribution and the quantum decision model. Information of the phase contained in quantum probability and the special calculation method to it can easily represented the interference effect. The results of the proposed NQ model is closely to the real experiment data and has less error than the existed models.
翻訳日:2021-04-20 14:01:31 公開日:2021-04-19
# 追加クラスとステガノグラフィ画像による深層ニューラルネットワークの知的特性の保護

Protecting the Intellectual Properties of Deep Neural Networks with an Additional Class and Steganographic Images ( http://arxiv.org/abs/2104.09203v1 )

ライセンス: Link先を確認
Shichang Sun, Mingfu Xue, Jian Wang, Weiqiang Liu(参考訳) 近年,ディープニューラルネットワーク(DNN)の知的特性(IP)を保護する研究が注目されている。 多くのDNN著作権保護手法が提案されている。 しかし,既存の透かし手法の多くは,ユーザの指紋の認証と管理をサポートしないため,商業的著作権保護の要件を満たすことができない,モデルの著作権の検証に重点を置いている。 さらに、最近提案されたクエリ修正攻撃は、既存のバックドアベースの透かし手法のほとんどを無効にすることができる。 本稿では,これらの課題に対処するために,追加のクラスとステガノグラフィー画像を用いて,dnnモデルの知的特性を保護する手法を提案する。 具体的には、透かしキーのセットを用いて追加のクラスをDNNに埋め込むため、透かしDNNは、著作権検証段階において予め定義された追加のクラスとして、透かしキーのサンプルを分類する。 我々は,ウォーターマークキー画像にユーザの指紋を埋め込むために,最下位ビット(lsb)画像ステガノグラフィを採用する。 各ユーザーごとにユニークな指紋画像が割り当てられ、ユーザーの身元が後で認証される。 実験により,提案手法はDNNモデルの著作権を効果的に保護できることを示した。 Fashion-MNISTとCIFAR-10データセットでは,100%透かし精度と100%指紋認証成功率が得られる。 また,提案手法は,モデルの微調整攻撃,モデルプルーニング攻撃,クエリ変更攻撃に対して頑健であることが示されている。 提案手法は,既存の3つの透かし法(ロゴベース,ノイズベース,敵対的フロンティアスタイピング透かし法)と比較して,クエリ修正攻撃に対する透かし精度とロバスト性が向上した。

Recently, the research on protecting the intellectual properties (IP) of deep neural networks (DNN) has attracted serious concerns. A number of DNN copyright protection methods have been proposed. However, most of the existing watermarking methods focus on verifying the copyright of the model, which do not support the authentication and management of users' fingerprints, thus can not satisfy the requirements of commercial copyright protection. In addition, the query modification attack which was proposed recently can invalidate most of the existing backdoor-based watermarking methods. To address these challenges, in this paper, we propose a method to protect the intellectual properties of DNN models by using an additional class and steganographic images. Specifically, we use a set of watermark key samples to embed an additional class into the DNN, so that the watermarked DNN will classify the watermark key sample as the predefined additional class in the copyright verification stage. We adopt the least significant bit (LSB) image steganography to embed users' fingerprints into watermark key images. Each user will be assigned with a unique fingerprint image so that the user's identity can be authenticated later. Experimental results demonstrate that, the proposed method can protect the copyright of DNN models effectively. On Fashion-MNIST and CIFAR-10 datasets, the proposed method can obtain 100% watermark accuracy and 100% fingerprint authentication success rate. In addition, the proposed method is demonstrated to be robust to the model fine-tuning attack, model pruning attack, and the query modification attack. Compared with three existing watermarking methods (the logo-based, noise-based, and adversarial frontier stitching watermarking methods), the proposed method has better performance on watermark accuracy and robustness against the query modification attack.
翻訳日:2021-04-20 14:01:22 公開日:2021-04-19
# ソフトウェア脆弱性識別のためのマルチコンテキスト注意融合ニューラルネットワーク

Multi-context Attention Fusion Neural Network for Software Vulnerability Identification ( http://arxiv.org/abs/2104.09225v1 )

ライセンス: Link先を確認
Anshul Tanwar, Hariharan Manikandan, Krishna Sundaresan, Prasanna Ganesan, Sathish Kumar Chandrasekaran, Sriram Ravi(参考訳) 出荷されたコードのセキュリティ問題は、予期せぬデバイス障害、システムのクラッシュ、クラッカーによる悪意あるエクスプロイト、後デプロイにつながる可能性がある。 これらの脆弱性は修理コストを発生させ、会社の信頼性を損なう。 リリース前にこれらの問題が検出され、より早く修正された時に報いる。 Common Weakness Estimation (CWE)は、Cコードで見られる一般的な脆弱性パターンを記述する命名法である。 本研究では,ソースコードに共通するセキュリティ脆弱性のカテゴリを効率的に検出する深層学習モデルを提案する。 aiアーキテクチャは注意の融合モデルであり、コードの脆弱性ホットスポットをデコードするために、繰り返し、畳み込み、自己接続ネットワークの有効性を組み合わせる。 コードAST構造を利用することで、私たちのモデルは、学習可能なパラメータがはるかに少ないコードセマンティクスの正確な理解を構築します。 コードの脆弱性を効率的に検出する新しい方法に加えて、このモデルに追加された新しさは、モデルによって脆弱とみなされたコードセクションを正確に指さすことである。 このようにして、開発者は脆弱なコードセクションに素早く集中できるようになり、これは脆弱性検出の"説明可能な"部分になる。 提案されたAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを獲得し、最先端技術と比較する。

Security issues in shipped code can lead to unforeseen device malfunction, system crashes or malicious exploitation by crackers, post-deployment. These vulnerabilities incur a cost of repair and foremost risk the credibility of the company. It is rewarding when these issues are detected and fixed well ahead of time, before release. Common Weakness Estimation (CWE) is a nomenclature describing general vulnerability patterns observed in C code. In this work, we propose a deep learning model that learns to detect some of the common categories of security vulnerabilities in source code efficiently. The AI architecture is an Attention Fusion model, that combines the effectiveness of recurrent, convolutional and self-attention networks towards decoding the vulnerability hotspots in code. Utilizing the code AST structure, our model builds an accurate understanding of code semantics with a lot less learnable parameters. Besides a novel way of efficiently detecting code vulnerability, an additional novelty in this model is to exactly point to the code sections, which were deemed vulnerable by the model. Thus helping a developer to quickly focus on the vulnerable code sections; and this becomes the "explainable" part of the vulnerability detection. The proposed AI achieves 98.40% F1-score on specific CWEs from the benchmarked NIST SARD dataset and compares well with state of the art.
翻訳日:2021-04-20 14:00:50 公開日:2021-04-19
# エレクトロカルカルレコードにおける数学的モデルによるグリッサードの自動決定

Automatic glissade determination through a mathematical model in electrooculographic records ( http://arxiv.org/abs/2104.09492v1 )

ライセンス: Link先を確認
Camilo Vel\'azquez-Rodr\'iguez, Rodolfo Garc\'ia-Berm\'udez, Fernando Rojas-Ruiz, Roberto Becerra-Garc\'ia, Luis Vel\'azquez(参考訳) グリサドのオーバーシュートは、グリサドとして知られる望ましくないタイプの運動によって特徴づけられる。 グリッセード(glissade)は、ササードの神経プログラミングが特定の目標に達するために目を動かすのに失敗したことを表す短い眼球運動である。 本稿では,特定のサッケードにグルーサードが付加されているかどうかを判定する手法を開発する。 ガウス級数の第3部分和を数学的モデルとして使用し、特定のパラメータとRMSE誤差を比較することが、この目標を達成するためのステップである。 最後に、機械学習アルゴリズムをトレーニングし、この種の眼球運動の有無の期待応答を返す。

The glissadic overshoot is characterized by an unwanted type of movement known as glissades. The glissades are a short ocular movement that describe the failure of the neural programming of saccades to move the eyes in order to reach a specific target. In this paper we develop a procedure to determine if a specific saccade have a glissade appended to the end of it. The use of the third partial sum of the Gauss series as mathematical model, a comparison between some specific parameters and the RMSE error are the steps made to reach this goal. Finally a machine learning algorithm is trained, returning expected responses of the presence or not of this kind of ocular movement.
翻訳日:2021-04-20 14:00:27 公開日:2021-04-19
# カーネル非依存な実世界画像スーパーレゾリューション

Kernel Agnostic Real-world Image Super-resolution ( http://arxiv.org/abs/2104.09008v1 )

ライセンス: Link先を確認
Hu Wang, Congbo Ma, Chunhua Shen(参考訳) 近年,深層ニューラルネットワークモデルが様々な研究分野で見事な成果を上げている。 これに伴い、多くの注目が深層超解像(SR)アプローチに惹きつけられている。 既存の多くの手法は、直接ダウンサンプリングされた低解像度画像から高解像度画像を復元するか、あるいは単純さのために付加雑音を持つガウス分解核を仮定して試みている。 しかし、現実のシナリオでは、歪んだ画像が透明なものと視覚的に似ているにもかかわらず、非常に複雑なカーネルと非付加的なノイズが関与する可能性がある。 このような状況下では、既存のSRモデルは現実世界の画像を扱うのに困難に直面している。 本稿では,実世界の画像SR問題に対処する新しいカーネル非依存SRフレームワークを提案する。 フレームワークは、複数の主流モデルにシームレスにハングすることができる。 提案手法では,劣化カーネルとノイズは明示的に指定するのではなく適応的にモデル化される。 さらに,直交的視点から反復的な監督プロセスと周波数対応目標を提案し,さらなる性能向上を図る。 実験は、複数の実世界のデータセットにおける提案フレームワークの有効性を検証する。

Recently, deep neural network models have achieved impressive results in various research fields. Come with it, an increasing number of attentions have been attracted by deep super-resolution (SR) approaches. Many existing methods attempt to restore high-resolution images from directly down-sampled low-resolution images or with the assumption of Gaussian degradation kernels with additive noises for their simplicities. However, in real-world scenarios, highly complex kernels and non-additive noises may be involved, even though the distorted images are visually similar to the clear ones. Existing SR models are facing difficulties to deal with real-world images under such circumstances. In this paper, we introduce a new kernel agnostic SR framework to deal with real-world image SR problem. The framework can be hanged seamlessly to multiple mainstream models. In the proposed framework, the degradation kernels and noises are adaptively modeled rather than explicitly specified. Moreover, we also propose an iterative supervision process and frequency-attended objective from orthogonal perspectives to further boost the performance. The experiments validate the effectiveness of the proposed framework on multiple real-world datasets.
翻訳日:2021-04-20 13:51:59 公開日:2021-04-19
# 空気中の文字:時空間畳み込みを用いた指運動からの非拘束テキスト認識

Writing in The Air: Unconstrained Text Recognition from Finger Movement Using Spatio-Temporal Convolution ( http://arxiv.org/abs/2104.09021v1 )

ライセンス: Link先を確認
Ue-Hwan Kim, Yewon Hwang, Sun-Kyung Lee, Jong-Hwan Kim(参考訳) 本稿では,視覚とNLPの精巧なタスクブリッジングタスクであるWiTAタスクのための新しいベンチマークデータセットを提案する。 WiTAは人-コンピュータインタラクション(HCI)のための指の動きによる直感的で自然な筆記法を実装している。 私たちのWiTAデータセットは、データセットの欠如と、採用した従来の統計モデルのために、これまで不満足なパフォーマンスを示してきた、データ駆動型WiTAシステムの開発を容易にします。 本データセットは韓国語と英語の5つのサブデータセットで構成され,122人の参加者から209,926の動画インスタンスを抽出した。 我々は、RGBカメラでWiTAの指の動きを捉え、幅広いアクセシビリティとコスト効率を確保する。 次に3次元ResNetにインスパイアされた時空間残差ネットワークアーキテクチャを提案する。 これらのモデルは指の動きから制約のないテキスト認識を行い、韓国語と英語でそれぞれ435フレームと697フレームのデコーディングを処理してリアルタイム動作を保証し、評価基準となる。 私たちのデータセットとソースコードはhttps://github.com/U ehwan/WiTA.comで公開されています。

In this paper, we introduce a new benchmark dataset for the challenging writing in the air (WiTA) task -- an elaborate task bridging vision and NLP. WiTA implements an intuitive and natural writing method with finger movement for human-computer interaction (HCI). Our WiTA dataset will facilitate the development of data-driven WiTA systems which thus far have displayed unsatisfactory performance -- due to lack of dataset as well as traditional statistical models they have adopted. Our dataset consists of five sub-datasets in two languages (Korean and English) and amounts to 209,926 video instances from 122 participants. We capture finger movement for WiTA with RGB cameras to ensure wide accessibility and cost-efficiency. Next, we propose spatio-temporal residual network architectures inspired by 3D ResNet. These models perform unconstrained text recognition from finger movement, guarantee a real-time operation by processing 435 and 697 decoding frames-per-second for Korean and English, respectively, and will serve as an evaluation standard. Our dataset and the source codes are available at https://github.com/U ehwan/WiTA.
翻訳日:2021-04-20 13:51:44 公開日:2021-04-19
# lidar point cloud誘導型単眼3次元物体検出

Lidar Point Cloud Guided Monocular 3D Object Detection ( http://arxiv.org/abs/2104.09035v1 )

ライセンス: Link先を確認
Liang Peng, Fei Liu, Zhengxu Yu, Senbo Yan, Dan Deng, Deng Cai(参考訳) モノクロ3Dオブジェクト検出は、車が1台のカメラで3Dの世界を知覚できるようにするため、コミュニティから注目を集めている。 しかし、現在モノクロ3D検出はLiDARベースの方法と比較して非常に低い検出率で困難であり、その応用は制限されている。 精度の低さは、主に単眼画像の異常な性質により、正確な深さの手がかりがないことによって引き起こされる。 正確な深度測定を提供するLiDAR点雲は、単分子法の訓練に有用な情報を提供することができる。 先行研究は、深度推定器を訓練するためにライダーポイント雲のみを使用する。 この暗黙的な方法は、LiDARポイントクラウドを完全に利用していないため、結果として、サブ最適パフォーマンスにつながる。 本稿では,lidar点雲を効果的に活用するために,単眼的手法の汎用的,単純かつ効果的な枠組みを提案する。 具体的には、LiDAR点雲を用いて単分子3D検出器のトレーニングを直接指導し、付加的なアノテーションコストを排除しながら、望ましい目的を学習することができる。 汎用設計により,本手法は任意の単分子3次元検出法に接続可能となり,性能が著しく向上する。 結論として,kitti monocular 3d detection benchmark において,先行手法のハード設定において bev/3d ap を 11.88/8.65 から 22.06/16.80 に増加させた。 コードはまもなく公開される予定だ。

Monocular 3D object detection is drawing increasing attention from the community as it enables cars to perceive the world in 3D with a single camera. However, monocular 3D detection currently struggles with extremely lower detection rates compared to LiDAR-based methods, limiting its applications. The poor accuracy is mainly caused by the absence of accurate depth cues due to the ill-posed nature of monocular imagery. LiDAR point clouds, which provide accurate depth measurement, can offer beneficial information for the training of monocular methods. Prior works only use LiDAR point clouds to train a depth estimator. This implicit way does not fully utilize LiDAR point clouds, consequently leading to suboptimal performances. To effectively take advantage of LiDAR point clouds, in this paper we propose a general, simple yet effective framework for monocular methods. Specifically, we use LiDAR point clouds to directly guide the training of monocular 3D detectors, allowing them to learn desired objectives meanwhile eliminating the extra annotation cost. Thanks to the general design, our method can be plugged into any monocular 3D detection method, significantly boosting the performance. In conclusion, we take the first place on KITTI monocular 3D detection benchmark and increase the BEV/3D AP from 11.88/8.65 to 22.06/16.80 on the hard setting for the prior state-of-the-art method. The code will be made publicly available soon.
翻訳日:2021-04-20 13:51:27 公開日:2021-04-19
# 知識レビューによる知識の蒸留

Distilling Knowledge via Knowledge Review ( http://arxiv.org/abs/2104.09044v1 )

ライセンス: Link先を確認
Pengguang Chen, Shu Liu, Hengshuang Zhao, Jiaya Jia(参考訳) 知識蒸留は,教師ネットワークから学生ネットワークへ知識を伝達し,学生ネットワークの性能を大幅に向上させることを目的としている。 従来の手法は主に、機能変換と損失関数を同じレベルの機能間で提案し、有効性を改善することに焦点を当てていた。 教師と生徒のネットワーク間における接続パスのクロスレベル要因について検討し,その重要さを明らかにする。 知識蒸留において初めて, クロスステージ接続経路が提案されている。 新しいレビューメカニズムは効果的で構造的にシンプルです。 最終的に設計されたネスト型でコンパクトなフレームワークは、無視可能な計算オーバーヘッドを必要とし、様々なタスクで他のメソッドよりも優れています。 分類,オブジェクト検出,インスタンス分割タスクに本手法を適用した。 いずれも学生ネットワークのパフォーマンス向上に寄与している。 コードはhttps://github.com/J ia-Research-Lab/Revi ewKDで入手できる。

Knowledge distillation transfers knowledge from the teacher network to the student one, with the goal of greatly improving the performance of the student network. Previous methods mostly focus on proposing feature transformation and loss functions between the same level's features to improve the effectiveness. We differently study the factor of connection path cross levels between teacher and student networks, and reveal its great importance. For the first time in knowledge distillation, cross-stage connection paths are proposed. Our new review mechanism is effective and structurally simple. Our finally designed nested and compact framework requires negligible computation overhead, and outperforms other methods on a variety of tasks. We apply our method to classification, object detection, and instance segmentation tasks. All of them witness significant student network performance improvement. Code is available at https://github.com/J ia-Research-Lab/Revi ewKD
翻訳日:2021-04-20 13:51:02 公開日:2021-04-19
# 潜在空間操作のためのサロゲート勾配場

Surrogate Gradient Field for Latent Space Manipulation ( http://arxiv.org/abs/2104.09065v1 )

ライセンス: Link先を確認
Minjun Li, Yanghua Jin, Huachun Zhu(参考訳) GAN(Generative Adversarial Network)は、サンプルコードから高品質な画像を生成する。 最近の作品は、基礎となる潜在コードを操作して画像の編集を試みるが、属性調整の基本的なタスクを超えることは滅多にない。 キーポイントやキャプションなどの多次元条件で操作できる最初の手法を提案する。 具体的には,補助マッピングネットワークによって誘導されるサーロゲート勾配場(sgf)に基づいて,対象条件を満たす新しい潜在コードを探索するアルゴリズムを設計する。 定量的比較のために,操作方法の絡み合いを評価する指標を提案する。 顔属性調整タスクの詳細な実験的解析により, 提案手法は, アンタングルメントにおける最先端手法よりも優れていることが示された。 さらに,本手法がキーポイントやキャプションなどの複雑な画像特性を変更可能であることを示すために,様々な条件のタスクに適用する。

Generative adversarial networks (GANs) can generate high-quality images from sampled latent codes. Recent works attempt to edit an image by manipulating its underlying latent code, but rarely go beyond the basic task of attribute adjustment. We propose the first method that enables manipulation with multidimensional condition such as keypoints and captions. Specifically, we design an algorithm that searches for a new latent code that satisfies the target condition based on the Surrogate Gradient Field (SGF) induced by an auxiliary mapping network. For quantitative comparison, we propose a metric to evaluate the disentanglement of manipulation methods. Thorough experimental analysis on the facial attribute adjustment task shows that our method outperforms state-of-the-art methods in disentanglement. We further apply our method to tasks of various condition modalities to demonstrate that our method can alter complex image properties such as keypoints and captions.
翻訳日:2021-04-20 13:50:50 公開日:2021-04-19
# 外部学習とモノクロミックボトルネックを用いた画像インペインティング

Image Inpainting with External-internal Learning and Monochromic Bottleneck ( http://arxiv.org/abs/2104.09068v1 )

ライセンス: Link先を確認
Tengfei Wang, Hao Ouyang, Qifeng Chen(参考訳) 最近の塗装アプローチはディープニューラルネットワークで大幅に改善されているが、不足する領域を埋める際に、鈍い構造や急激な色などのアーティファクトに悩まされている。 これらの問題に対処するため,単色ボトルネックを用いた外部インペイント方式を提案し,画像インペイントモデルによりこれらのアーティファクトを除去する。 外部学習段階において,モノクロ空間における欠落構造と詳細を再構成し,学習次元を減らす。 内部学習段階において,一貫した色復元のための進行学習戦略を備えた内部色伝搬法を提案する。 広汎な実験により,提案手法は,より構造が保存され,視覚的に説得力のある結果が得られることを示す。

Although recent inpainting approaches have demonstrated significant improvements with deep neural networks, they still suffer from artifacts such as blunt structures and abrupt colors when filling in the missing regions. To address these issues, we propose an external-internal inpainting scheme with a monochromic bottleneck that helps image inpainting models remove these artifacts. In the external learning stage, we reconstruct missing structures and details in the monochromic space to reduce the learning dimension. In the internal learning stage, we propose a novel internal color propagation method with progressive learning strategies for consistent color restoration. Extensive experiments demonstrate that our proposed scheme helps image inpainting models produce more structure-preserved and visually compelling results.
翻訳日:2021-04-20 13:50:36 公開日:2021-04-19
# ワンショット人物再同定のための自己ペース不確実性推定

Self-Paced Uncertainty Estimation for One-shot Person Re-Identification ( http://arxiv.org/abs/2104.09152v1 )

ライセンス: Link先を確認
Yulin Zhang, Bo Ma, Longyao Liu and Xin Yi(参考訳) ワンショットの人物再識別シナリオは、予測モデルをx$からy$という2種類の不確実性に直面します。 1つはモデル不確実性であり、トレーニングデータの欠如によりDNNのパラメータのノイズをキャプチャする。 2つ目は、画像ノイズであり、重度の咬合と複雑な背景には、アイデンティティに関する無関係な情報が含まれ、もう1つはラベルノイズであり、誤ラベルが視覚的な外観学習に影響を及ぼす。 本稿では,これらの問題に対処するため,単発人物再識別のための新しい自己ペーシング不確実性推定ネットワーク(spue-net)を提案する。 自己ペースサンプリング戦略を導入することで,ラベルなしサンプルの擬似ラベルを反復的に推定し,ラベル付きサンプルを徐々に拡張し,余分な監督なしにモデルの不確かさを除去できる。 擬似ラベルサンプルを2つのサブセットに分割し、トレーニングサンプルをより合理的かつ効果的に活用する。 さらに,局所的不確かさ推定と決定性推定を組み合わせた協調学習法を適用し,隠れ空間特徴マイニングの精度向上と,選択された擬似ラベル標本の精度向上を行い,データ不確実性を低減する。 ビデオベースおよび画像ベースデータセットの大規模な比較評価実験により、SPUE-Netは最先端の手法よりも大きな利点があることが示された。

The one-shot Person Re-ID scenario faces two kinds of uncertainties when constructing the prediction model from $X$ to $Y$. The first is model uncertainty, which captures the noise of the parameters in DNNs due to a lack of training data. The second is data uncertainty, which can be divided into two sub-types: one is image noise, where severe occlusion and the complex background contain irrelevant information about the identity; the other is label noise, where mislabeled affects visual appearance learning. In this paper, to tackle these issues, we propose a novel Self-Paced Uncertainty Estimation Network (SPUE-Net) for one-shot Person Re-ID. By introducing a self-paced sampling strategy, our method can estimate the pseudo-labels of unlabeled samples iteratively to expand the labeled samples gradually and remove model uncertainty without extra supervision. We divide the pseudo-label samples into two subsets to make the use of training samples more reasonable and effective. In addition, we apply a Co-operative learning method of local uncertainty estimation combined with determinacy estimation to achieve better hidden space feature mining and to improve the precision of selected pseudo-labeled samples, which reduces data uncertainty. Extensive comparative evaluation experiments on video-based and image-based datasets show that SPUE-Net has significant advantages over the state-of-the-art methods.
翻訳日:2021-04-20 13:50:21 公開日:2021-04-19
# LaLaLoc: 動的で目に見えない環境での遅延レイアウトのローカライズ

LaLaLoc: Latent Layout Localisation in Dynamic, Unvisited Environments ( http://arxiv.org/abs/2104.09169v1 )

ライセンス: Link先を確認
Henry Howard-Jenkins, Jose-Raul Ruiz-Sarmiento, Victor Adrian Prisacariu(参考訳) 室内環境におけるLaLaLocのローカライズには,事前の来訪を必要とせず,家具の全面的な再配置など,外観の大きな変化に頑健な方法を提案する。 具体的には、LaLaLocは部屋レイアウトの潜在表現を通じてローカライズを行う。 lalalocは、rgbパノラマと、場所間の構造的類似性をエンコードする既知のフロアプランから推測されるレイアウト間で共有されるリッチな埋め込み空間を学ぶ。 さらにLaLaLocは、その潜在空間において、直接的、クロスモーダルなポーズ最適化を導入する。 したがって、LaLaLocは、事前に訪問する必要がなく、家具構成の変更のような動的に堅牢なシーンで、きめ細かいポーズ推定を可能にする。 室内環境において,ララロックは1枚のrgbパノラマ画像を8.3cm以内に正確に配置できることを示した。

We present LaLaLoc to localise in environments without the need for prior visitation, and in a manner that is robust to large changes in scene appearance, such as a full rearrangement of furniture. Specifically, LaLaLoc performs localisation through latent representations of room layout. LaLaLoc learns a rich embedding space shared between RGB panoramas and layouts inferred from a known floor plan that encodes the structural similarity between locations. Further, LaLaLoc introduces direct, cross-modal pose optimisation in its latent space. Thus, LaLaLoc enables fine-grained pose estimation in a scene without the need for prior visitation, as well as being robust to dynamics, such as a change in furniture configuration. We show that in a domestic environment LaLaLoc is able to accurately localise a single RGB panorama image to within 8.3cm, given only a floor plan as a prior.
翻訳日:2021-04-20 13:49:56 公開日:2021-04-19
# 知識蒸留によるコンパクトcnn構造学習

Compact CNN Structure Learning by Knowledge Distillation ( http://arxiv.org/abs/2104.09191v1 )

ライセンス: Link先を確認
Waqar Ahmed, Andrea Zunino, Pietro Morerio and Vittorio Murino(参考訳) 深層畳み込みニューラルネットワーク(cnns)の圧縮という概念は、組み込みデバイスで限られた計算、電力、メモリリソースを使用するのに不可欠である。 しかし,既存の手法はコンピュータビジョンタスクにおける推論精度の低下を犠牲にして,この目的を達成する。 このような欠点に対処するため、我々は、知識蒸留とカスタマイズ可能なブロックワイズ最適化を利用して軽量CNN構造を学習し、圧縮性能のトレードオフをよりよく制御するフレームワークを提案する。 提案手法は,例えばFLOP(Floating-point Operations per inference)やモデルパラメータなど,特定のリソース制約を考慮し,より優れた推論精度を達成しつつ,アートネットワークの圧縮状態が得られる。 包括的評価により,本手法は様々なネットワークアーキテクチャやデータセットにおいて,トレーニングオーバーヘッドが無視できるほど効果的で頑健であり,結果に一貫性があることを実証する。 特に,すでにコンパクトなネットワークであるMobileNet_v2では,FLOPとモデルパラメータでそれぞれ最大2倍,5.2倍のモデル圧縮を実現し,ベースラインネットワークよりも1.05%優れたモデル性能を実現している。

The concept of compressing deep Convolutional Neural Networks (CNNs) is essential to use limited computation, power, and memory resources on embedded devices. However, existing methods achieve this objective at the cost of a drop in inference accuracy in computer vision tasks. To address such a drawback, we propose a framework that leverages knowledge distillation along with customizable block-wise optimization to learn a lightweight CNN structure while preserving better control over the compression-performa nce tradeoff. Considering specific resource constraints, e.g., floating-point operations per inference (FLOPs) or model-parameters, our method results in a state of the art network compression while being capable of achieving better inference accuracy. In a comprehensive evaluation, we demonstrate that our method is effective, robust, and consistent with results over a variety of network architectures and datasets, at negligible training overhead. In particular, for the already compact network MobileNet_v2, our method offers up to 2x and 5.2x better model compression in terms of FLOPs and model-parameters, respectively, while getting 1.05% better model performance than the baseline network.
翻訳日:2021-04-20 13:49:41 公開日:2021-04-19
# 効率的なジェネレーティブ・ディバイザ・ネットワークのための粗相関探索

Coarse-to-Fine Searching for Efficient Generative Adversarial Networks ( http://arxiv.org/abs/2104.09223v1 )

ライセンス: Link先を確認
Jiahao Wang, Han Shu, Weihao Xia, Yujiu Yang, Yunhe Wang(参考訳) 本稿では,効率的なジェネレータネットワーク構築のためのニューラルネットワーク探索(nas)問題について検討する。 視覚認識タスクの深層モデルと比較して、GAN(Generative Adversarial Network)は通常、様々な複雑な画像生成を行うように設計されている。 まず,経路,演算子,チャネルなど3次元のジェネレータネットワークの無傷検索空間を探索し,ネットワーク性能の完全な探索を行う。 探索コストを大幅に削減するため,探索プロセス全体を3つのサブ最適化問題に分割する粗大な探索戦略を探索する。 さらに、全てのサブネットワークを公平かつ安定的に更新できるように、公正なスーパーネットトレーニングアプローチが採用されている。 ベンチマーク実験の結果,最先端手法よりも画像品質が向上し,計算コストの低減が期待できることがわかった。 例えば、我々の方法では、エッジ・ツー・シューズデータセット全体のGPU時間は約8時間で、24.13 FIDスコアを持つ2.56MBモデル、Urban100データセット全体のGPU時間10時間で、24.94 PSNRスコアを持つ1.49MBモデルが得られる。

This paper studies the neural architecture search (NAS) problem for developing efficient generator networks. Compared with deep models for visual recognition tasks, generative adversarial network (GAN) are usually designed to conduct various complex image generation. We first discover an intact search space of generator networks including three dimensionalities, i.e., path, operator, channel for fully excavating the network performance. To reduce the huge search cost, we explore a coarse-to-fine search strategy which divides the overall search process into three sub-optimization problems accordingly. In addition, a fair supernet training approach is utilized to ensure that all sub-networks can be updated fairly and stably. Experiments results on benchmarks show that we can provide generator networks with better image quality and lower computational costs over the state-of-the-art methods. For example, with our method, it takes only about 8 GPU hours on the entire edges-to-shoes dataset to get a 2.56 MB model with a 24.13 FID score and 10 GPU hours on the entire Urban100 dataset to get a 1.49 MB model with a 24.94 PSNR score.
翻訳日:2021-04-20 13:49:22 公開日:2021-04-19
# 植物は通りを歩かない:信頼性の高いセマンティックセグメンテーションのための常識推論

Plants Don't Walk on the Street: Common-Sense Reasoning for Reliable Semantic Segmentation ( http://arxiv.org/abs/2104.09254v1 )

ライセンス: Link先を確認
Linara Adilova, Elena Schulz, Maram Akila, Sebastian Houben, Jan David Schneider, Fabian Hueger, Tim Wirtz(参考訳) 自動運転におけるデータ駆動センサの解釈は、ほとんどが常識的な知識で検証できるような、非常に目立たない予測につながる可能性がある。 しかし、データのみから共通知識を学ぶことは困難であり、知識統合へのアプローチは活発な研究分野である。 我々は,交通シーンのオブジェクト間の関係を高レベルの抽象化で記述するために,部分的に設計され,部分的に学習されたルールセットを使用することを提案する。 これにより、低レベルのセンサー情報を消費する既存のディープニューラルネットワークを改善し、強化する。 セマンティックセグメンテーションの問題を検証・改善するために,確立された確率的ソフト論理(PSL)フレームワークを適用した最初の研究を行った。 PSLを用いて共通知識をセグメンテーションパイプラインに統合し、A2D2自律運転データセットに適用されたいくつかの厳しい画像歪みに対するロバスト性の増加を示す一連の実験において、我々のアプローチを検証する方法について詳述する。

Data-driven sensor interpretation in autonomous driving can lead to highly implausible predictions as can most of the time be verified with common-sense knowledge. However, learning common knowledge only from data is hard and approaches for knowledge integration are an active research area. We propose to use a partly human-designed, partly learned set of rules to describe relations between objects of a traffic scene on a high level of abstraction. In doing so, we improve and robustify existing deep neural networks consuming low-level sensor information. We present an initial study adapting the well-established Probabilistic Soft Logic (PSL) framework to validate and improve on the problem of semantic segmentation. We describe in detail how we integrate common knowledge into the segmentation pipeline using PSL and verify our approach in a set of experiments demonstrating the increase in robustness against several severe image distortions applied to the A2D2 autonomous driving data set.
翻訳日:2021-04-20 13:49:03 公開日:2021-04-19
# モノクルビデオからの高分解能テクスチャと3次元Human再構成のための時間的整合性損失

Temporal Consistency Loss for High Resolution Textured and Clothed 3DHuman Reconstruction from Monocular Video ( http://arxiv.org/abs/2104.09259v1 )

ライセンス: Link先を確認
Akin Caliskan, Armin Mustafa, Adrian Hilton(参考訳) 本稿では,単眼映像から着衣者の時間的一貫性のある3次元再構成を学習する新しい手法を提案する。 音量, 暗黙的, パラメトリックの形状モデルを用いた単眼映像からの3次元再構成手法は, 時間的に不整合な出力を与え, 映像に適用した場合の性能を制限したフレーム単位の再構成を実現する。 本稿では,新しい時間的整合性損失関数と2次元画像からの暗黙的3次元再構成と粗い3次元形状のハイブリッド表現学習の2つの進歩を提案することによって,モノクロ映像から3次元人物列をテクスチャ化するための時間的一貫した特徴を学習する手法を提案する。 提案手法は,モノクロ映像からの3次元再構成とテクスチャ予測の時間的一貫性と精度を向上させる。 画像の総合的比較性能評価により,提案手法は,復元精度,完全性,品質,時間的一貫性の大幅な向上を実現するために,最先端学習に基づく3次元人物形状推定手法を著しく上回っていることが示された。

We present a novel method to learn temporally consistent 3D reconstruction of clothed people from a monocular video. Recent methods for 3D human reconstruction from monocular video using volumetric, implicit or parametric human shape models, produce per frame reconstructions giving temporally inconsistent output and limited performance when applied to video. In this paper, we introduce an approach to learn temporally consistent features for textured reconstruction of clothed 3D human sequences from monocular video by proposing two advances: a novel temporal consistency loss function; and hybrid representation learning for implicit 3D reconstruction from 2D images and coarse 3D geometry. The proposed advances improve the temporal consistency and accuracy of both the 3D reconstruction and texture prediction from a monocular video. Comprehensive comparative performance evaluation on images of people demonstrates that the proposed method significantly outperforms the state-of-the-art learning-based single image 3D human shape estimation approaches achieving significant improvement of reconstruction accuracy, completeness, quality and temporal consistency.
翻訳日:2021-04-20 13:48:48 公開日:2021-04-19
# 単一画像からの多人数暗黙的再構成

Multi-person Implicit Reconstruction from a Single Image ( http://arxiv.org/abs/2104.09283v1 )

ライセンス: Link先を確認
Armin Mustafa, Akin Caliskan, Lourdes Agapito, Adrian Hilton(参考訳) 画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するためのエンドツーエンド学習フレームワークを提案する。 既存のマルチパーソン手法は、しばしばモデルベースであり、ゆるい服や髪を持つ人々の正確な3Dモデルを捉えることができず、または、隠蔽や相互作用を解決するために手動で介入する必要がある。 本手法は,1つの画像から任意のポーズ(オクルージョンを伴う)で複数の服を着た人物を写実的に3dキャプチャするモデルフリーな暗黙的再構成を行うための,最初のエンドツーエンド学習手法を導入することで,両者の制限に対処する。 ネットワークは、各人物とその6DOF空間位置の3次元形状を同時に推定し、コヒーレントなマルチヒューマン再構成を得る。 さらに,様々な数の人体とさまざまな衣服やヘアスタイルの画像を表現した新しい合成データセットも紹介した。 複雑な咬合、ゆるい衣服、多彩なポーズやシーンを持つ複数の人間の画像に対して、ロバストで高解像度な再構成を示す。 合成および実世界の両方のデータセットに対する定量的評価は、競合するアプローチに対する再構成の精度と完全性を大幅に改善した最先端の性能を示す。

We present a new end-to-end learning framework to obtain detailed and spatially coherent reconstructions of multiple people from a single image. Existing multi-person methods suffer from two main drawbacks: they are often model-based and therefore cannot capture accurate 3D models of people with loose clothing and hair; or they require manual intervention to resolve occlusions or interactions. Our method addresses both limitations by introducing the first end-to-end learning approach to perform model-free implicit reconstruction for realistic 3D capture of multiple clothed people in arbitrary poses (with occlusions) from a single image. Our network simultaneously estimates the 3D geometry of each person and their 6DOF spatial locations, to obtain a coherent multi-human reconstruction. In addition, we introduce a new synthetic dataset that depicts images with a varying number of inter-occluded humans and a variety of clothing and hair styles. We demonstrate robust, high-resolution reconstructions on images of multiple humans with complex occlusions, loose clothing and a large variety of poses and scenes. Our quantitative evaluation on both synthetic and real-world datasets demonstrates state-of-the-art performance with significant improvements in the accuracy and completeness of the reconstructions over competing approaches.
翻訳日:2021-04-20 13:48:25 公開日:2021-04-19
# 共発現型畳み込みニューラルネットワークを用いた病理組織像からの前立腺癌遺伝子発現予測

Transcriptome-wide prediction of prostate cancer gene expression from histopathology images using co-expression based convolutional neural networks ( http://arxiv.org/abs/2104.09310v1 )

ライセンス: Link先を確認
Philippe Weitz, Yinxi Wang, Kimmo Kartasalo, Lars Egevad, Johan Lindberg, Henrik Gr\"onberg, Martin Eklund, Mattias Rantalainen(参考訳) 遺伝子発現プロファイリングによる分子表現型は、現代のがん研究や分子診断においてよく見られる。 しかし、分子プロファイリングはいまだにコストと資源がかかり、臨床診断に導入され始めている。 腫瘍で発生した遺伝子変化や遺伝子発現変化などの分子変化は組織の形態変化を引き起こし、ミクロレベルで観察することができる。 形態的パターンといくつかの分子表現型との関係は、深層畳み込みニューラルネットワーク(cnns)を用いて、通常のヘマトキシリンおよびエオシン(h&e)染色全スライド画像(wsis)から直接分子表現型を予測するために利用することができる。 本研究では,H&E染色組織WSIからのRNA配列推定をCNNを用いて前立腺癌において,形態と遺伝子発現の関係性に関する疾患特異的なモデリングのための,新しい,計算学的に効率的なアプローチを提案する。 この研究はTCGA PRADの研究に基づいており、370人の患者に対してWSIsとRNA-seqの両方のデータを含んでいる。 15586のタンパク質コードと十分に発現された転写産物のうち、6618はRNA-seq推定値(FDR調整p-value <1*10-4)に大きく関連していると予測していた。 5419 (81.9%) はその後、ホールドアウトテストセットで検証された。 また,wsisから直接,前立腺癌特異的細胞周期の進行を予測できることを示した。 これらの結果から,現代のコンピュータビジョンモデルは,WSIから直接発現表現型を予測するための安価でスケーラブルなソリューションを提供し,コスト効率の高い大規模研究と分子診断の機会をもたらすことが示唆された。

Molecular phenotyping by gene expression profiling is common in contemporary cancer research and in molecular diagnostics. However, molecular profiling remains costly and resource intense to implement, and is just starting to be introduced into clinical diagnostics. Molecular changes, including genetic alterations and gene expression changes, occuring in tumors cause morphological changes in tissue, which can be observed on the microscopic level. The relationship between morphological patterns and some of the molecular phenotypes can be exploited to predict molecular phenotypes directly from routine haematoxylin and eosin (H&E) stained whole slide images (WSIs) using deep convolutional neural networks (CNNs). In this study, we propose a new, computationally efficient approach for disease specific modelling of relationships between morphology and gene expression, and we conducted the first transcriptome-wide analysis in prostate cancer, using CNNs to predict bulk RNA-sequencing estimates from WSIs of H&E stained tissue. The work is based on the TCGA PRAD study and includes both WSIs and RNA-seq data for 370 patients. Out of 15586 protein coding and sufficiently frequently expressed transcripts, 6618 had predicted expression significantly associated with RNA-seq estimates (FDR-adjusted p-value < 1*10-4) in a cross-validation. 5419 (81.9%) of these were subsequently validated in a held-out test set. We also demonstrate the ability to predict a prostate cancer specific cell cycle progression score directly from WSIs. These findings suggest that contemporary computer vision models offer an inexpensive and scalable solution for prediction of gene expression phenotypes directly from WSIs, providing opportunity for cost-effective large-scale research studies and molecular diagnostics.
翻訳日:2021-04-20 13:48:07 公開日:2021-04-19
# SoccerNet-v2におけるカメラキャリブレーションとプレイヤーのローカライゼーションとアクションスポッティング表現の検討

Camera Calibration and Player Localization in SoccerNet-v2 and Investigation of their Representations for Action Spotting ( http://arxiv.org/abs/2104.09333v1 )

ライセンス: Link先を確認
Anthony Cioppa, Adrien Deli\`ege, Floriane Magera, Silvio Giancola, Olivier Barnich, Bernard Ghanem, Marc Van Droogenbroeck(参考訳) サッカーの放送ビデオ理解は近年、データサイエンティストや工業企業の間で注目を集めている。 これは主に、コンピュータビジョンの分野で開発された効果的な深層学習技術によって解錠される有益性によるものである。 本研究は,カメラキャリブレーションの話題と,現在の科学コミュニティの限界に焦点をあてたものである。 より正確には、大規模なキャリブレーションデータセットと、そのようなデータセットでトレーニングされた公開キャリブレーションネットワークの欠如に対処する。 具体的には,500試合の生中継ビデオからなる大規模サッカーネットデータセット上で,最近のニューラルネットワークアーキテクチャにおいて,強力な商業キャリブレーションツールを蒸留する。 さらに, 蒸留ネットワークを開放し, キャリブレーション結果の3つの表現方法とプレーヤのローカライゼーションを提供する。 最後に,サッカーネットv2のアクションスポッティングタスクにおいて,これらの表現を現在のベストアーキテクチャ内で活用し,新しい最先端パフォーマンスを実現する。

Soccer broadcast video understanding has been drawing a lot of attention in recent years within data scientists and industrial companies. This is mainly due to the lucrative potential unlocked by effective deep learning techniques developed in the field of computer vision. In this work, we focus on the topic of camera calibration and on its current limitations for the scientific community. More precisely, we tackle the absence of a large-scale calibration dataset and of a public calibration network trained on such a dataset. Specifically, we distill a powerful commercial calibration tool in a recent neural network architecture on the large-scale SoccerNet dataset, composed of untrimmed broadcast videos of 500 soccer games. We further release our distilled network, and leverage it to provide 3 ways of representing the calibration results along with player localization. Finally, we exploit those representations within the current best architecture for the action spotting task of SoccerNet-v2, and achieve new state-of-the-art performances.
翻訳日:2021-04-20 13:47:38 公開日:2021-04-19
# 実世界の光場のスケーラブルハイブリッド層表現に基づくガラスフリー3次元ディスプレイの階層符号化方式

A Hierarchical Coding Scheme for Glasses-free 3D Displays Based on Scalable Hybrid Layered Representation of Real-World Light Fields ( http://arxiv.org/abs/2104.09378v1 )

ライセンス: Link先を確認
Joshitha R and Mansi Sharma(参考訳) 本稿では,低位乗算層とフーリエ分散層の透過パターンに基づく光場の新しい階層的符号化方式を提案する。 提案手法は、異なる走査順序から決定される光界ビューのサブセットから積み重ねた乗法層を学習する。 乗算層は高速データ駆動畳み込みニューラルネットワーク(cnn)を用いて最適化される。 層状パターンの空間的相関は、クリロフ部分空間上の特異値分解から導かれる係数化の低い階数で悪用される。 さらに、HEVCを用いた符号化は、低ランク近似層におけるビュー内およびビュー間相関を効率的に除去する。 乗法表現からの近似復号化ビューの初期部分集合を用いてフーリエ分散層(FDL)表現を構築する。 FDLモデルは、事前に定義された階層的予測順序によって識別されるビューの第2サブセットを合成する。 残差信号の符号化により、合成されたビューの予測残差間の相関をさらに排除する。 残差を復号して得られるビューの集合を用いて、FDLモデルを洗練し、次のサブセットのビューを精度良く予測する。 この階層的な手順はすべてのライトフィールドビューがエンコードされるまで繰り返される。 提案手法の利点は,空間的および時間的冗長性だけでなく,異なる述語順序で指定された水平方向と垂直方向の隣接するサブアパーチャ画像の強い内在的類似性を効果的に活用することにある。 さらに、このスキームは単一の統合システム内のデコーダで複数のビットレートの範囲を実現するのに柔軟である。 実光場を用いて解析した圧縮性能は、かなりのビットレートの節約を示し、良好な復元品質を維持している。

This paper presents a novel hierarchical coding scheme for light fields based on transmittance patterns of low-rank multiplicative layers and Fourier disparity layers. The proposed scheme learns stacked multiplicative layers from subsets of light field views determined from different scanning orders. The multiplicative layers are optimized using a fast data-driven convolutional neural network (CNN). The spatial correlation in layer patterns is exploited with varying low ranks in factorization derived from singular value decomposition on a Krylov subspace. Further, encoding with HEVC efficiently removes intra-view and inter-view correlation in low-rank approximated layers. The initial subset of approximated decoded views from multiplicative representation is used to construct Fourier disparity layer (FDL) representation. The FDL model synthesizes second subset of views which is identified by a pre-defined hierarchical prediction order. The correlations between the prediction residue of synthesized views is further eliminated by encoding the residual signal. The set of views obtained from decoding the residual is employed in order to refine the FDL model and predict the next subset of views with improved accuracy. This hierarchical procedure is repeated until all light field views are encoded. The critical advantage of proposed hybrid layered representation and coding scheme is that it utilizes not just spatial and temporal redundancies, but efficiently exploits the strong intrinsic similarities among neighboring sub-aperture images in both horizontal and vertical directions as specified by different predication orders. Besides, the scheme is flexible to realize a range of multiple bitrates at the decoder within a single integrated system. The compression performance analyzed with real light field shows substantial bitrate savings, maintaining good reconstruction quality.
翻訳日:2021-04-20 13:47:21 公開日:2021-04-19
# 半スーパービジョン領域適応のためのクロスドメイン適応クラスタリング

Cross-Domain Adaptive Clustering for Semi-Supervised Domain Adaptation ( http://arxiv.org/abs/2104.09415v1 )

ライセンス: Link先を確認
Jichang Li, Guanbin Li, Yemin Shi, Yizhou Yu(参考訳) 半教師付きドメイン適応では、ターゲットドメイン内のクラスごとにいくつかのラベル付きサンプルが、残りのターゲットサンプルを集約するためのガイド機能として提供される。 しかし、トレーニングされたモデルは、トレーニングデータがソースドメインからのラベル付きサンプルに支配されているため、ターゲットドメインに対して高度に識別可能な特徴表現を生成できない。 これにより、ラベル付きおよびラベルなしのターゲットサンプル間の切断と、ラベルなしのターゲットサンプルとソースドメイン間の不一致につながる可能性がある。 本稿では,クロスドメイン適応クラスタリングという新しい手法を提案し,この問題に対処する。 ドメイン間適応とドメイン内適応の両方を達成するために、まず、ラベルなしのターゲットデータのグループ特徴に対する逆適応型クラスタリング損失を導入し、ソースドメインとターゲットドメインをまたいだクラスタ毎の機能アライメントを行う。 さらに,対象領域のラベルなしサンプルに対して擬似ラベルを適用し,信頼度の高い擬似ラベルを保持する。 擬似ラベリングは、ターゲットドメインの各クラスにおける ``labeled" サンプル数を拡大するので、敵学習を容易にするために、各クラスに対してより堅牢で強力なクラスタコアを生成する。 DomainNet, Office-Home, Office などのベンチマークデータセットに対する大規模な実験により,提案手法が半教師付きドメイン適応における最先端性能を実現することを示す。

In semi-supervised domain adaptation, a few labeled samples per class in the target domain guide features of the remaining target samples to aggregate around them. However, the trained model cannot produce a highly discriminative feature representation for the target domain because the training data is dominated by labeled samples from the source domain. This could lead to disconnection between the labeled and unlabeled target samples as well as misalignment between unlabeled target samples and the source domain. In this paper, we propose a novel approach called Cross-domain Adaptive Clustering to address this problem. To achieve both inter-domain and intra-domain adaptation, we first introduce an adversarial adaptive clustering loss to group features of unlabeled target data into clusters and perform cluster-wise feature alignment across the source and target domains. We further apply pseudo labeling to unlabeled samples in the target domain and retain pseudo-labels with high confidence. Pseudo labeling expands the number of ``labeled" samples in each class in the target domain, and thus produces a more robust and powerful cluster core for each class to facilitate adversarial learning. Extensive experiments on benchmark datasets, including DomainNet, Office-Home and Office, demonstrate that our proposed approach achieves the state-of-the-art performance in semi-supervised domain adaptation.
翻訳日:2021-04-20 13:46:57 公開日:2021-04-19
# もう1つのチェック:"fake background"を再び追跡する

One More Check: Making "Fake Background" Be Tracked Again ( http://arxiv.org/abs/2104.09441v1 )

ライセンス: Link先を確認
Chao Liang and Zhipeng Zhang and Xue Zhou and Bing Li and Yi Lu and Weiming Hu(参考訳) オブジェクト検出とID埋め込み抽出を統合ネットワークに統合したワンショットマルチオブジェクトトラッキングは,近年,画期的な成果を上げている。 しかし、現在のワンショットトラッカーは単一のフレーム検出にのみ依存しており、例えばモーションボケやオクルージョンといった破壊的な視覚的劣化に直面した場合には信頼性が低い。 ターゲット境界ボックスが検出器によって誤って背景として分類されると、フィグに示すように、対応するトラックレットの時間的一貫性はもはや維持されなくなる。 1. 本稿では,誤分類された境界ボックス,すなわち偽の背景を,再チェックネットワークを提案することで復元する。 再チェックネットワークは、修正された相互相関層を用いて、フレーム間時間キューと現在の候補との関係を探索することにより、前のトラックレットを現在のフレームに伝搬する。 伝播の結果、"fake background"を再ロードし、最終的に壊れたトラックレットを修復するのに役立つ。 この再チェックネットワークを強力なベースライントラッカーCSTrack(JDEの派生版)に挿入することで、MOT16とMOT17でそれぞれ70.7ドル、76.7ドル、70.6ドル、76.3ドル、MOTA17で好適な利得が得られる。 コードはhttps://github.com/J udasDie/SOTSで公開されている。

The one-shot multi-object tracking, which integrates object detection and ID embedding extraction into a unified network, has achieved groundbreaking results in recent years. However, current one-shot trackers solely rely on single-frame detections to predict candidate bounding boxes, which may be unreliable when facing disastrous visual degradation, e.g., motion blur, occlusions. Once a target bounding box is mistakenly classified as background by the detector, the temporal consistency of its corresponding tracklet will be no longer maintained, as shown in Fig. 1. In this paper, we set out to restore the misclassified bounding boxes, i.e., fake background, by proposing a re-check network. The re-check network propagates previous tracklets to the current frame by exploring the relation between cross-frame temporal cues and current candidates using the modified cross-correlation layer. The propagation results help to reload the "fake background" and eventually repair the broken tracklets. By inserting the re-check network to a strong baseline tracker CSTrack (a variant of JDE), our model achieves favorable gains by $70.7 \rightarrow 76.7$, $70.6 \rightarrow 76.3$ MOTA on MOT16 and MOT17, respectively. Code is publicly available at https://github.com/J udasDie/SOTS.
翻訳日:2021-04-20 13:46:34 公開日:2021-04-19
# 不調和地域化

Inharmonious Region Localization ( http://arxiv.org/abs/2104.09453v1 )

ライセンス: Link先を確認
Jing Liang, Li Niu, Liqing Zhang(参考訳) 画像編集技術の進歩により、ユーザーは芸術作品を作成することができるが、操作された領域は背景と互換性がない可能性がある。 不調和な地域をローカライズすることは魅力的だが難しい課題だ。 このタスクには, マルチスケールのコンテキスト情報の効果的な集約と冗長情報の抑制が必要であることを認識し, エンコーダとデコーダのマルチスケール機能を融合させるために, 双方向特徴統合(BFI)ブロックとグローバルコンテキストガイドデコーダ(GGD)ブロックを設計する。 また、エンコーダとデコーダの間にマスク誘導デュアルアテンション(MDA)ブロックを用いて冗長情報を抑圧する。 画像調和データセットの実験により,不調和領域の局所化に対する競合性能が得られた。 ソースコードはhttps://github.com/b cmi/DIRL.comで入手できる。

The advance of image editing techniques allows users to create artistic works, but the manipulated regions may be incompatible with the background. Localizing the inharmonious region is an appealing yet challenging task. Realizing that this task requires effective aggregation of multi-scale contextual information and suppression of redundant information, we design novel Bi-directional Feature Integration (BFI) block and Global-context Guided Decoder (GGD) block to fuse multi-scale features in the encoder and decoder respectively. We also employ Mask-guided Dual Attention (MDA) block between the encoder and decoder to suppress the redundant information. Experiments on the image harmonization dataset demonstrate that our method achieves competitive performance for inharmonious region localization. The source code is available at https://github.com/b cmi/DIRL.
翻訳日:2021-04-20 13:46:08 公開日:2021-04-19
# 顔のランドマーク検出、セグメンテーション、スタイライゼーション、シャドー除去をカスタマイズしたマイナショットモデル適応

Few-Shot Model Adaptation for Customized Facial Landmark Detection, Segmentation, Stylization and Shadow Removal ( http://arxiv.org/abs/2104.09457v1 )

ライセンス: Link先を確認
Zhen Wei, Bingkun Liu, Weinong Wang, Yu-Wing Tai(参考訳) 優れた進歩にもかかわらず、ディープラーニングベースのアルゴリズムのパフォーマンスは、労働集約的なラベル付けのために拡張が難しい特定のデータセットに大きく依存している。 さらに、新しいアプリケーションの発展により、データアノテーションの初期定義は必ずしも新しい機能要件を満たすとは限らない。 したがって、カスタマイズされたデータアノテーションには、常に大きな需要があります。 上記の問題に対処するため、Few-Shot Model Adaptation (FSMA)フレームワークを提案し、Faces上のいくつかの重要なタスクにおいてその可能性を示す。 FSMAは、まず、大規模な未ラベルデータを用いて敵の自己エンコーダを訓練することにより、堅牢な顔画像埋め込みを取得する。 そして、モデルに特徴適応層と融合層を設け、最小限のアノテート画像を用いて目標タスクに効率的に適応する。 fsmaフレームワークは、幅広い顔画像アプリケーションにわたる汎用性において際立っている。 FSMAは最先端の数発のランドマーク検出性能を達成し、数発の顔のセグメンテーション、スタイリゼーション、顔の影除去タスクを初めて満足できるソリューションを提供する。

Despite excellent progress has been made, the performance of deep learning based algorithms still heavily rely on specific datasets, which are difficult to extend due to labor-intensive labeling. Moreover, because of the advancement of new applications, initial definition of data annotations might not always meet the requirements of new functionalities. Thus, there is always a great demand in customized data annotations. To address the above issues, we propose the Few-Shot Model Adaptation (FSMA) framework and demonstrate its potential on several important tasks on Faces. The FSMA first acquires robust facial image embeddings by training an adversarial auto-encoder using large-scale unlabeled data. Then the model is equipped with feature adaptation and fusion layers, and adapts to the target task efficiently using a minimal amount of annotated images. The FSMA framework is prominent in its versatility across a wide range of facial image applications. The FSMA achieves state-of-the-art few-shot landmark detection performance and it offers satisfying solutions for few-shot face segmentation, stylization and facial shadow removal tasks for the first time.
翻訳日:2021-04-20 13:45:52 公開日:2021-04-19
# テンソル幻覚による少数ショット学習

Few-shot learning via tensor hallucination ( http://arxiv.org/abs/2104.09467v1 )

ライセンス: Link先を確認
Michalis Lazarou, Yannis Avrithis, Tania Stathaki(参考訳) 限定されたラベルデータのみを与えられた例を分類するという課題に対処する。 強力なアプローチは、データ拡張を超えて、データ合成に向かうことだ。 しかし、少ないショット分類のためのデータ拡張/合成手法のほとんどは複雑で洗練されたものである。 複数の正規化子でwGANをトレーニングするか、ネットワークをトレーニングして、潜伏する多様性を既知のクラスから新しいクラスに転送する。 すなわち,(1) 単純な損失関数を用いることで,数ショット設定で特徴生成器を訓練するのに十分である,(2) ベクトル特徴の代わりにテンソル特徴を生成する学習が優れている,という2つのコントリビューションを提示する。 miniimagenet、cub、cifar-fsデータセットに関する広範囲な実験により、この手法が最先端のデータ拡張手法よりも優れていることを示す。

Few-shot classification addresses the challenge of classifying examples given only limited labeled data. A powerful approach is to go beyond data augmentation, towards data synthesis. However, most of data augmentation/synthes is methods for few-shot classification are overly complex and sophisticated, e.g. training a wGAN with multiple regularizers or training a network to transfer latent diversities from known to novel classes. We make two contributions, namely we show that: (1) using a simple loss function is more than enough for training a feature generator in the few-shot setting; and (2) learning to generate tensor features instead of vector features is superior. Extensive experiments on miniImagenet, CUB and CIFAR-FS datasets show that our method sets a new state of the art, outperforming more sophisticated few-shot data augmentation methods.
翻訳日:2021-04-20 13:45:33 公開日:2021-04-19
# 微細映像理解のための時間問合せネットワーク

Temporal Query Networks for Fine-grained Video Understanding ( http://arxiv.org/abs/2104.09496v1 )

ライセンス: Link先を確認
Chuhan Zhang, Ankush Gupta, Andrew Zisserman(参考訳) この研究の目標は、アクションが一時的に拡張されたり、ビデオのフレーム数フレームにしか及ばないような、未トリミングビデオにおけるアクションのきめ細かい分類です。 我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。 以下に示す4つのコントリビューションについて述べる。 (I) クエリ応答機能ときめ細かいアクションの構造的理解を可能にする新しいモデル、テンポラルクエリネットワークを提案する。 クエリ毎の関連セグメントに時間的アテンション機構を持ち,クエリ毎のラベルのみを使用してトレーニングすることができる。 (II)細粒度クエリに応答するのに必要となる高密度サンプリングを用いて,様々な長さのビデオ上でネットワークをトレーニングする新しい方法(確率的機能バンク更新)を提案する。 3)TQNを他のアーキテクチャやテキスト管理手法と比較し,その長所と短所を解析する。 最後に,(iv)細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークの手法を広範囲に評価し,rgb機能のみを用いて最先端技術を超えている。

Our objective in this work is fine-grained classification of actions in untrimmed videos, where the actions may be temporally extended or may span only a few frames of the video. We cast this into a query-response mechanism, where each query addresses a particular question, and has its own response label set. We make the following four contributions: (I) We propose a new model - a Temporal Query Network - which enables the query-response functionality, and a structural understanding of fine-grained actions. It attends to relevant segments for each query with a temporal attention mechanism, and can be trained using only the labels for each query. (ii) We propose a new way - stochastic feature bank update - to train a network on videos of various lengths with the dense sampling required to respond to fine-grained queries. (iii) We compare the TQN to other architectures and text supervision methods, and analyze their pros and cons. Finally, (iv) we evaluate the method extensively on the FineGym and Diving48 benchmarks for fine-grained action classification and surpass the state-of-the-art using only RGB features.
翻訳日:2021-04-20 13:45:21 公開日:2021-04-19
# 画像超解像に対する注意ネットワークの注意

Attention in Attention Network for Image Super-Resolution ( http://arxiv.org/abs/2104.09497v1 )

ライセンス: Link先を確認
Haoyu Chen, Jinjin Gu, Zhi Zhang(参考訳) 畳み込みニューラルネットワークは、過去10年間でシングルイメージスーパーレゾリューション(sisr)の著しい進歩をもたらした。 SISRの最近の進歩の中で、高性能SRモデルには注意機構が不可欠である。 しかし、注意がなぜ機能するのか、どのように機能するのかを真に議論する作品はほとんどない。 本研究では,静的注意機構の定量化と可視化を行い,すべての注意モジュールが等しく有益ではないことを示す。 次に,高精細画像srに対して注意注意ネットワーク (a$^2$n) を提案する。 具体的には、A$^2$Nは非注意枝と結合注意枝からなる。 意図しない注意調整を抑えることができる入力特徴に基づいて、これらの2つの分岐に対して動的注意重みを生成するために、注意降下モジュールを提案する。 これにより、アテンションモジュールはペナルティを伴わずに有益な例に特化でき、パラメータのオーバーヘッドが少ないアテンションネットワークの容量を大幅に改善できる。 実験により、我々のモデルは最先端の軽量ネットワークと比較して優れたトレードオフ性能が得られることが示された。 局所帰属写像の実験も注意を惹きつける(A$^2$)構造はより広い範囲から特徴を引き出すことができる。

Convolutional neural networks have allowed remarkable advances in single image super-resolution (SISR) over the last decade. Among recent advances in SISR, attention mechanisms are crucial for high performance SR models. However, few works really discuss why attention works and how it works. In this work, we attempt to quantify and visualize the static attention mechanisms and show that not all attention modules are equally beneficial. We then propose attention in attention network (A$^2$N) for highly accurate image SR. Specifically, our A$^2$N consists of a non-attention branch and a coupling attention branch. Attention dropout module is proposed to generate dynamic attention weights for these two branches based on input features that can suppress unwanted attention adjustments. This allows attention modules to specialize to beneficial examples without otherwise penalties and thus greatly improve the capacity of the attention network with little parameter overhead. Experiments have demonstrated that our model could achieve superior trade-off performances comparing with state-of-the-art lightweight networks. Experiments on local attribution maps also prove attention in attention (A$^2$) structure can extract features from a wider range.
翻訳日:2021-04-20 13:45:02 公開日:2021-04-19
# 分散因子普遍性 -- 残りの力

Scattered Factor Universality -- The Power of the Remainder ( http://arxiv.org/abs/2104.09063v1 )

ライセンス: Link先を確認
Pamela Fleischmann, Sebastian Bernhard Germann, and Dirk Nowotka(参考訳) 散乱因子(円周)の普遍性は、まずBarkerらによって導入された。 2020年。 w$ という単語は、ある自然数 $k$ に対して $k$-universal と呼ばれるが、w$ のアルファベットの長さのすべての単語が $w$ の散乱係数として発生する場合、$k$-universal は、$w$ の共役が $k$-universal であるときに円$k$-universal と呼ばれる。 ここで、$u=u_1\cdots u_n$という単語は、$w$を削除して$w$から$u$を得る場合、$w$の分散係数と呼ばれる。 v_1,\dots,v_{n+1}$と$w=v_1u_1v_2\cdots v_nu_nv_{n+1}$がある。 上記の論文では、主定理の1つを任意のアルファベットに一般化し、また別の定理を少し修正することで、普遍性によって円周普遍性を特徴づける、という2つの問題を証明している。 一方, ヘブラルドによる「アーチ因数分解」と呼ばれる, 単語の繰り返しを考慮した場合の挙動について, 深い知見を提示する。

Scattered factor (circular) universality was firstly introduced by Barker et al. in 2020. A word $w$ is called $k$-universal for some natural number $k$, if every word of length $k$ of $w$'s alphabet occurs as a scattered factor in $w$; it is called circular $k$-universal if a conjugate of $w$ is $k$-universal. Here, a word $u=u_1\cdots u_n$ is called a scattered factor of $w$ if $u$ is obtained from $w$ by deleting parts of $w$, i.e. there exists (possibly empty) words $v_1,\dots,v_{n+1}$ with $w=v_1u_1v_2\cdots v_nu_nv_{n+1}$. In this work, we prove two problems, left open in the aforementioned paper, namely a generalisation of one of their main theorems to arbitrary alphabets and a slight modification of another theorem such that we characterise the circular universality by the universality. On the way, we present deep insights into the behaviour of the remainder of the so called arch factorisation by Hebrard when repetitions of words are considered.
翻訳日:2021-04-20 13:44:23 公開日:2021-04-19
# 単発連続学習:脳にインスパイアされたアプローチ

Few-shot Continual Learning: a Brain-inspired Approach ( http://arxiv.org/abs/2104.09034v1 )

ライセンス: Link先を確認
Liyuan Wang, Qian Li, Yi Zhong and Jun Zhu(参考訳) いくつか例から新しいタスクを継続的に学ぶことは、重要な一方で難しい設定です。 連発学習や連発学習に多くの努力が注がれているが、この新たな連発学習(FSCL)は、過去のタスクに対する破滅的な忘れを最小化し、連発一般化の能力を徐々に向上させる必要があると考える研究はほとんどない。 本稿では,fsclに関する最初の体系的研究を行い,ディープニューラルネットワークを用いた効果的な解法を提案する。 私たちのソリューションは、タスクシーケンスの継続的な学習が必然的に少数ショットの一般化を妨げるという観察に基づいています。 本研究はロバストな脳システムから着想を得て,(1)メタ可塑性と高速/遅いシナプスの生物学的モデルに触発された,連続学習と少数ショット学習のための2対の高速/遅い重みを相互に更新し,(2)速い重みを忘れることなくタスクシーケンスを学習するために脳にインスパイアされた2段階の統合戦略を適用し,遅い重みを満たさずに一般化を改善する手法を開発した。 様々なベンチマークの結果から,本手法は今までに見てきた全てのタスクの協調訓練よりも優れた性能を発揮することが示された。 少数ショットの一般化の能力も、入ってくるタスクや例から大幅に改善されている。

It is an important yet challenging setting to continually learn new tasks from a few examples. Although numerous efforts have been devoted to either continual learning or few-shot learning, little work has considered this new setting of few-shot continual learning (FSCL), which needs to minimize the catastrophic forgetting to the old tasks and gradually improve the ability of few-shot generalization. In this paper, we provide a first systematic study on FSCL and present an effective solution with deep neural networks. Our solution is based on the observation that continual learning of a task sequence inevitably interferes few-shot generalization, which makes it highly nontrivial to extend few-shot learning strategies to continual learning scenarios. We draw inspirations from the robust brain system and develop a method that (1) interdependently updates a pair of fast / slow weights for continual learning and few-shot learning to disentangle their divergent objectives, inspired by the biological model of meta-plasticity and fast / slow synapse; and (2) applies a brain-inspired two-step consolidation strategy to learn a task sequence without forgetting in the fast weights while improve generalization without overfitting in the slow weights. Extensive results on various benchmarks show that our method achieves a better performance than joint training of all the tasks ever seen. The ability of few-shot generalization is also substantially improved from incoming tasks and examples.
翻訳日:2021-04-20 13:43:03 公開日:2021-04-19
# ドメイン制約下における結合ネットワークの学習解釈モデル

Learning Interpretable Models for Coupled Networks Under Domain Constraints ( http://arxiv.org/abs/2104.09069v1 )

ライセンス: Link先を確認
Hongyuan You, Sikun Lin, Ambuj K. Singh(参考訳) 結合ネットワークの挙動のモデリングは、複雑なダイナミクスのために難しい。 例えば神経科学では、機能的神経過程と解剖学的結合性の関係を理解することが重要である。 近年の神経イメージング技術により, fmriイメージングと拡散イメージングによる白質配線による機能的結合度を別々に測定できる。 これまでの研究では、脳ネットワークの構造的エッジが機能的エッジの推論を改善し、その逆が示されている。 本稿では,脳ネットワークの構造的エッジと機能的エッジの相互作用に着目し,最適化フレームワークによる結合ネットワークの考え方を検討する。 我々は両種類のエッジを、異なる基盤となるネットワークプロセスを表す確率変数の観測インスタンスと考える。 提案するフレームワークはガウスの仮定に依存せず,既存の手法と比較して一般的なデータに対してより堅牢な性能を実現する。 このような研究に既存のドメイン知識を組み込むために,相互作用を推定しながらノイズ項にハードネットワーク制約を配置する新しい定式化を提案する。 これは、ネットワーク制約を適用するよりクリーンな方法をもたらすだけでなく、ネットワーク接続が疎い場合に、よりスケーラブルなソリューションを提供する。 本研究では,ヒューマンコネクトームプロジェクトによるマルチシェル拡散法とタスク誘発型fmriデータセットの検証を行い,様々なタイプのタスクアクティビティをサポートする構造的バックボーンと結合ネットワークの研究に対する一般的な解法について重要な知見を得た。

Modeling the behavior of coupled networks is challenging due to their intricate dynamics. For example in neuroscience, it is of critical importance to understand the relationship between the functional neural processes and anatomical connectivities. Modern neuroimaging techniques allow us to separately measure functional connectivity through fMRI imaging and the underlying white matter wiring through diffusion imaging. Previous studies have shown that structural edges in brain networks improve the inference of functional edges and vice versa. In this paper, we investigate the idea of coupled networks through an optimization framework by focusing on interactions between structural edges and functional edges of brain networks. We consider both types of edges as observed instances of random variables that represent different underlying network processes. The proposed framework does not depend on Gaussian assumptions and achieves a more robust performance on general data compared with existing approaches. To incorporate existing domain knowledge into such studies, we propose a novel formulation to place hard network constraints on the noise term while estimating interactions. This not only leads to a cleaner way of applying network constraints but also provides a more scalable solution when network connectivity is sparse. We validate our method on multishell diffusion and task-evoked fMRI datasets from the Human Connectome Project, leading to both important insights on structural backbones that support various types of task activities as well as general solutions to the study of coupled networks.
翻訳日:2021-04-20 13:42:34 公開日:2021-04-19
# SAS: シンプルで正確でスケーラブルなノード分類アルゴリズム

SAS: A Simple, Accurate and Scalable Node Classification Algorithm ( http://arxiv.org/abs/2104.09120v1 )

ライセンス: Link先を確認
Ziyuan Wang, Feiming Yang, Rui Fan(参考訳) グラフニューラルネットワークはグラフノード分類における最先端の精度を達成した。 しかし、gnnは大きなグラフにスケールするのは難しく、例えば中程度のサイズのグラフでもメモリ外のエラーに頻繁に遭遇する。 最近の研究は、まずグラフエッジに沿ってデータを集約し、次にグラフ情報を使用しずに分類器を訓練する2段階アプローチを用いてこの問題に対処しようとしている。 これらの手法はより大きなグラフ上で動作し、GNNよりも桁違いに高速であるが、分類精度は低い。 そこで我々は,まず分類器を学習し,次に集約する2段階のアルゴリズムを提案する。 我々のアルゴリズムは既存の2段階アルゴリズムよりも高速で大きなグラフを処理でき、一般的なGNNと同等あるいは高い精度で処理可能であることを示す。 また,アルゴリズムの精度向上を理論的根拠として,分類よりも分類前のアグリゲーションが実際に精度を低下させるような合成非線形データセットを与えるとともに,アグリゲーションアプローチは分類単独と比較して精度を大幅に向上させる。

Graph neural networks have achieved state-of-the-art accuracy for graph node classification. However, GNNs are difficult to scale to large graphs, for example frequently encountering out-of-memory errors on even moderate size graphs. Recent works have sought to address this problem using a two-stage approach, which first aggregates data along graph edges, then trains a classifier without using additional graph information. These methods can run on much larger graphs and are orders of magnitude faster than GNNs, but achieve lower classification accuracy. We propose a novel two-stage algorithm based on a simple but effective observation: we should first train a classifier then aggregate, rather than the other way around. We show our algorithm is faster and can handle larger graphs than existing two-stage algorithms, while achieving comparable or higher accuracy than popular GNNs. We also present a theoretical basis to explain our algorithm's improved accuracy, by giving a synthetic nonlinear dataset in which performing aggregation before classification actually decreases accuracy compared to doing classification alone, while our classify then aggregate approach substantially improves accuracy compared to classification alone.
翻訳日:2021-04-20 13:42:11 公開日:2021-04-19
# クラスアクティベーション特徴空間における敵対的ノイズの除去

Removing Adversarial Noise in Class Activation Feature Space ( http://arxiv.org/abs/2104.09197v1 )

ライセンス: Link先を確認
Dawei Zhou, Nannan Wang, Chunlei Peng, Xinbo Gao, Xiaoyu Wang, Jun Yu, Tongliang Liu(参考訳) ディープニューラルネットワーク(DNN)は敵の雑音に弱い。 前処理に基づく防御は、入力を処理することによって敵のノイズを大幅に除去できる。 しかし、それらは通常、エラー増幅効果、特に連続的な攻撃の前面で影響を受ける。 そこで本稿では,クラスアクティベーション特徴空間に自己教師付き対向学習機構を実装することにより,対向雑音を除去する手法を提案する。 具体的には,まず,自然例のクラスアクティベーション機能の破壊を最大化し,逆例を作成する。 そこで我々は,クラスアクティベーション特徴空間における逆例と自然例との距離を最小化するために,デノナイジングモデルを訓練する。 経験的評価により,本手法は,従来の最先端手法と比較して,特に注意深い敵の攻撃や適応攻撃に対して有意に頑健性が向上することが示された。

Deep neural networks (DNNs) are vulnerable to adversarial noise. Preprocessing based defenses could largely remove adversarial noise by processing inputs. However, they are typically affected by the error amplification effect, especially in the front of continuously evolving attacks. To solve this problem, in this paper, we propose to remove adversarial noise by implementing a self-supervised adversarial training mechanism in a class activation feature space. To be specific, we first maximize the disruptions to class activation features of natural examples to craft adversarial examples. Then, we train a denoising model to minimize the distances between the adversarial examples and the natural examples in the class activation feature space. Empirical evaluations demonstrate that our method could significantly enhance adversarial robustness in comparison to previous state-of-the-art approaches, especially against unseen adversarial attacks and adaptive attacks.
翻訳日:2021-04-20 13:41:53 公開日:2021-04-19
# ガウス混合リプレイによる破滅的フォーミングの克服

Overcoming Catastrophic Forgetting with Gaussian Mixture Replay ( http://arxiv.org/abs/2104.09220v1 )

ライセンス: Link先を確認
Benedikt Pf\"ulb, Alexander Gepperth(参考訳) 本稿では,ガウス混合モデル(GMM)に基づく連続学習(CL)のためのリハーサルベースアプローチであるガウス混合再生(GMR)を提案する。 CLアプローチは、連続したサブタスクでそれらを逐次訓練する際、ディープニューラルネットワーク(DNN)で発生する破滅的な忘れ(CF)問題に対処することを目的としている。 gmrは以前のタスクからサンプルを生成し、現在のトレーニングデータとマージすることでcfを緩和する。 GMMは、サンプル生成、密度推定(例えば、外れ値の検出やタスク境界の認識)、そして分類のための高レベルの特徴表現を提供する。 GMRは既存のリプレイベースのCLアプローチに対していくつかの概念上の利点がある。 まず、GMRは、メモリ要求を強く低減した単一ネットワーク構造におけるサンプル生成、分類、密度推定を実現する。 第二に、一定時間の複雑さw.r.tで訓練することができる。 サブタスクの数が多く、生涯学習に特に適しています。 さらにgmrは微分可能損失関数を最小化し、モードの崩壊を回避しているように見える。 さらに、gmm密度推定を適用してタスク境界を検出することもできる。 最後に、GMRは、ハイパーパラメータチューニングのために将来横たわるサブタスクへのアクセスを必要とせず、CLを現実世界の制約下に置くことができる。 我々は,複数の画像データセット上でGMRを評価し,クラス分離サブタスクに分割する。

We present Gaussian Mixture Replay (GMR), a rehearsal-based approach for continual learning (CL) based on Gaussian Mixture Models (GMM). CL approaches are intended to tackle the problem of catastrophic forgetting (CF), which occurs for Deep Neural Networks (DNNs) when sequentially training them on successive sub-tasks. GMR mitigates CF by generating samples from previous tasks and merging them with current training data. GMMs serve several purposes here: sample generation, density estimation (e.g., for detecting outliers or recognizing task boundaries) and providing a high-level feature representation for classification. GMR has several conceptual advantages over existing replay-based CL approaches. First of all, GMR achieves sample generation, classification and density estimation in a single network structure with strongly reduced memory requirements. Secondly, it can be trained at constant time complexity w.r.t. the number of sub-tasks, making it particularly suitable for life-long learning. Furthermore, GMR minimizes a differentiable loss function and seems to avoid mode collapse. In addition, task boundaries can be detected by applying GMM density estimation. Lastly, GMR does not require access to sub-tasks lying in the future for hyper-parameter tuning, allowing CL under real-world constraints. We evaluate GMR on multiple image datasets, which are divided into class-disjoint sub-tasks.
翻訳日:2021-04-20 13:41:38 公開日:2021-04-19
# 自己ペーシングマルチビュークラスタリングのための非線形融合

Non-Linear Fusion for Self-Paced Multi-View Clustering ( http://arxiv.org/abs/2104.09255v1 )

ライセンス: Link先を確認
Zongmo Huang, Yazhou Ren, Xiaorong Pu, Lifang He(参考訳) 近年,マルチメディアおよびマルチモーダルデータの進歩に伴い,マルチビュークラスタリング(MVC)が注目されている。 この分野で最も重要な課題の1つは、異なる視点の特徴と性質が通常大きく異なることである。 したがって、MVCメソッドは複数のビューの多様性を適切に扱う効果的なアプローチを見つけることが不可欠である。 この目的のために、各ビューからの損失を統合するための一連のMVCメソッドがここ数年間提案されてきた。 これらの方法のうち、主流のアイデアは、各ビューに重みを割り当て、それらを線形に結合することである。 本稿では,インスタンス学習における非線形組み合わせの有効性と自己重み付け手法に着想を得て,従来の線形重み付けアルゴリズムとは全く異なる自己ペーシングマルチビュークラスタリング(nsmvc)に対する非線形融合を提案する。 NSMVCでは、異なる指数をそれぞれの性質に応じて異なる視点に割り当てる。 このように、腐敗したビューからのネガティブな影響は大幅に低減できる。 一方、mvcモデルの非凸問題に対処するために、提案する非線形モデルに完全に適合する、新しい正規化なし自己ペース学習モダリティ(spl)をさらに定義する。 実世界の各種データセットにおける実験結果から,提案手法の有効性が示された。

With the advance of the multi-media and multi-modal data, multi-view clustering (MVC) has drawn increasing attentions recently. In this field, one of the most crucial challenges is that the characteristics and qualities of different views usually vary extensively. Therefore, it is essential for MVC methods to find an effective approach that handles the diversity of multiple views appropriately. To this end, a series of MVC methods focusing on how to integrate the loss from each view have been proposed in the past few years. Among these methods, the mainstream idea is assigning weights to each view and then combining them linearly. In this paper, inspired by the effectiveness of non-linear combination in instance learning and the auto-weighted approaches, we propose Non-Linear Fusion for Self-Paced Multi-View Clustering (NSMVC), which is totally different from the the conventional linear-weighting algorithms. In NSMVC, we directly assign different exponents to different views according to their qualities. By this way, the negative impact from the corrupt views can be significantly reduced. Meanwhile, to address the non-convex issue of the MVC model, we further define a novel regularizer-free modality of Self-Paced Learning (SPL), which fits the proposed non-linear model perfectly. Experimental results on various real-world data sets demonstrate the effectiveness of the proposed method.
翻訳日:2021-04-20 13:41:17 公開日:2021-04-19
# あなたが誰であるか:アンカーリンク予測のためのテキストとジオロケーションのマッチング

Locate Who You Are: Matching Geo-location to Text for Anchor Link Prediction ( http://arxiv.org/abs/2104.09119v1 )

ライセンス: Link先を確認
Jiangli Shao, Yongqing Wang, Hao Gao, Huawei Shen, Xueqi Cheng(参考訳) 現在、ユーザーは複数のオンラインソーシャルネットワークで同時にアクティベートすることが奨励されている。 同一ユーザの異なるアカウント間のネットワーク間の対応を明らかにすることを目的としたアンカーリンク予測は、ユーザプロファイリング、マーケティング、サイバーセキュリティ、レコメンデーションの基本的な問題とみなされている。 既存手法は主に、ユーザのプロファイル、コンテンツ、構造的特徴を対称的に利用することで予測問題に対処する。 しかし、オンラインサービスによって奨励され、ユーザーは位置情報やテキストなどのネットワーク間で非対称な情報を投稿する。 ネットワーク横断で非対称な情報とユーザーを結びつけるという課題が表面化している。 先行研究における類似性評価に代えて,位置情報とテキストの相関関係を定式化し,ネットワーク間でユーザをマッチングするための新しいアンカーリンク予測フレームワークを提案する。 さらに,外部データの導入によりラベル不足の問題を軽減することができる。 実世界のデータセットによる実験結果から,我々の手法は既存の手法より優れ,最先端の結果が得られることが示された。

Nowadays, users are encouraged to activate across multiple online social networks simultaneously. Anchor link prediction, which aims to reveal the correspondence among different accounts of the same user across networks, has been regarded as a fundamental problem for user profiling, marketing, cybersecurity, and recommendation. Existing methods mainly address the prediction problem by utilizing profile, content, or structural features of users in symmetric ways. However, encouraged by online services, users would also post asymmetric information across networks, such as geo-locations and texts. It leads to an emerged challenge in aligning users with asymmetric information across networks. Instead of similarity evaluation applied in previous works, we formalize correlation between geo-locations and texts and propose a novel anchor link prediction framework for matching users across networks. Moreover, our model can alleviate the label scarcity problem by introducing external data. Experimental results on real-world datasets show that our approach outperforms existing methods and achieves state-of-the-art results.
翻訳日:2021-04-20 13:39:37 公開日:2021-04-19
# 候補者成功の指標としての贈賄:承認型マルチウィンナールールの複雑度結果

Bribery as a Measure of Candidate Success: Complexity Results for Approval-Based Multiwinner Rules ( http://arxiv.org/abs/2104.09130v1 )

ライセンス: Link先を確認
Piotr Faliszewski and Piotr Skowron and Nimrod Talmon(参考訳) 複数人の選挙における贈収賄の問題について検討する。投票者が承認票(すなわち、承認した候補者の集合)を投じた場合と、贈収賄行動は、投票に承認を加えること、投票から承認を取り消すこと、または、ある候補者から別の候補者に承認を移すことである。 承認ベースマルチウィンナルール(AV, SAV, GAV, RAV, 承認ベースCurberlin-Courant, PAV)について検討する。 多項式時間アルゴリズムから定数係数近似によるNPハードネスから、完全不近似まで、複雑性の展望は非常にリッチである。 さらに、一般には、勝利した委員会に指名したい候補者の承認数を増やすための贈収賄行為を制限した場合、我々の問題はより容易になる傾向がある(すなわち、この望ましい候補者にのみ承認を加えるか、あるいは承認を彼または彼女だけに移す)。 また,問題のパラメータ化複雑性についても検討し,投票者数や候補者数によるパラメータ化に着目した。

We study the problem of bribery in multiwinner elections, for the case where the voters cast approval ballots (i.e., sets of candidates they approve) and the bribery actions are limited to: adding an approval to a vote, deleting an approval from a vote, or moving an approval within a vote from one candidate to the other. We consider a number of approval-based multiwinner rules (AV, SAV, GAV, RAV, approval-based Chamberlin--Courant, and PAV). We find the landscape of complexity results quite rich, going from polynomial-time algorithms through NP-hardness with constant-factor approximations, to outright inapproximability. Moreover, in general, our problems tend to be easier when we limit out bribery actions on increasing the number of approvals of the candidate that we want to be in a winning committee (i.e., adding approvals only for this preferred candidate, or moving approvals only to him or her). We also study parameterized complexity of our problems, with a focus on parameterizations by the numbers of voters or candidates.
翻訳日:2021-04-20 13:39:20 公開日:2021-04-19
# 残差畳み込みニューラルネットワークに基づくSARスペックルフィルタ

A SAR speckle filter based on Residual Convolutional Neural Networks ( http://arxiv.org/abs/2104.09350v1 )

ライセンス: Link先を確認
Alessandro Sebastianelli, Maria Pia Del Rosso, Silvia Liberata Ullo(参考訳) 近年、機械学習(ML)アルゴリズムは、リモートセンシング(RS)と地球観測(EO)のあらゆる分野に広まっている。 これにより、これらのセクターに影響を及ぼす問題を解決する新しい手順を迅速に開発することができた。 本研究では,畳み込みニューラルネットワーク(CNN)に基づく深層学習(DL)アルゴリズムを適用し,Sentinel-1データからスペックルノイズをフィルタリングする新しい手法を提案する。 その結果, 提案手法の有効性を実証することにより, ピーク信号対雑音比 (psnr) と構造類似度指数 ({ssim}) で明らかに改善した。 さらに、生成されたオープンソースコードとデータセットは、興味のある研究者によるさらなる開発と調査のために利用可能になっている。

In recent years, Machine Learning (ML) algorithms have become widespread in all fields of Remote Sensing (RS) and Earth Observation (EO). This has allowed a rapid development of new procedures to solve problems affecting these sectors. In this context, the authors of this work aim to present a novel method for filtering the speckle noise from Sentinel-1 data by applying Deep Learning (DL) algorithms, based on Convolutional Neural Networks (CNNs). The obtained results, if compared with the state of the art, show a clear improvement in terms of Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity Index ({SSIM}), by proving the effectiveness of the proposed architecture. Moreover, the generated open-source code and dataset have been made available for further developments and investigation by interested researchers.
翻訳日:2021-04-20 13:38:57 公開日:2021-04-19
# ロバスト局在のための赤外ビーコン

Infrared Beacons for Robust Localization ( http://arxiv.org/abs/2104.09335v1 )

ライセンス: Link先を確認
Alexandru Kampmann, Michael Lamberti, Nikola Petrovic, Stefan Kowalewski, Bassam Alrifaee(参考訳) 本稿では、赤外ビーコンと光帯域通過フィルタを備えたカメラを用いたローカライズシステムを提案する。 本システムは,照明条件にかかわらず,100m距離の個々のビーコンを確実に検出し識別することができる。 本稿では,カメラとビーコンの設計と画像処理パイプラインの詳細について述べる。 実験では、昼と夜の両方の条件において、システムのビーコンを認識する能力を調査し、実証する。 高精度なローカライゼーションは自動走行車にとって重要な手段であるが、最近の進歩にもかかわらず未解決のままである。 ローコストでインフラベースのアプローチは、ローカライズ問題を解決するのに役立ちます。 すべてのデータセットが利用可能だ。

This paper presents a localization system that uses infrared beacons and a camera equipped with an optical band-pass filter. Our system can reliably detect and identify individual beacons at 100m distance regardless of lighting conditions. We describe the camera and beacon design as well as the image processing pipeline in detail. In our experiments, we investigate and demonstrate the ability of the system to recognize our beacons in both daytime and nighttime conditions. High precision localization is a key enabler for automated vehicles but remains unsolved, despite strong recent improvements. Our low-cost, infrastructure-based approach helps solve the localization problem. All datasets are made available.
翻訳日:2021-04-20 13:34:44 公開日:2021-04-19
# レンダリングと比較による単視点ロボットポーズと関節角度推定

Single-view robot pose and joint angle estimation via render & compare ( http://arxiv.org/abs/2104.09359v1 )

ライセンス: Link先を確認
Yann Labb\'e, Justin Carpentier, Mathieu Aubry, Josef Sivic(参考訳) 本稿では,1枚のRGB画像から関節角度と6Dカメラとロボットのポーズを推定する手法であるRoboPoseを紹介する。 これは、非装備環境、特に協調ロボット工学の文脈において、他のロボットと視覚情報のみを使用して対話する能力をモバイルおよび反復自律システムに与える上で重要な問題である。 ロボットには多くの自由度と可能な構成の無限の空間があり、単一のカメラで撮影するとしばしば自己完結と深さの曖昧さが生じるため、これは難しい。 この作品の貢献は3倍である。 まず,合成データから学習可能な関節ロボットの6次元ポーズと関節角度を推定し,テスト時に未知のロボット構成に一般化し,様々なロボットに適用できる新しいレンダリング・アンド・コントラスト手法を提案する。 第2に,反復的なポーズ更新におけるロボットパラメトリゼーションの重要性を実験的に実証し,ロボット構造に依存しないパラメトリゼーション戦略を設計する。 最後に、4つの異なるロボットの既存のベンチマークデータセットに対して実験結果を示し、本手法が技量を著しく上回ることを示す。 コードと事前トレーニングされたモデルは、プロジェクトwebページhttps://www.di.ens.f r/willow/research/ro bopose/で入手できる。

We introduce RoboPose, a method to estimate the joint angles and the 6D camera-to-robot pose of a known articulated robot from a single RGB image. This is an important problem to grant mobile and itinerant autonomous systems the ability to interact with other robots using only visual information in non-instrumented environments, especially in the context of collaborative robotics. It is also challenging because robots have many degrees of freedom and an infinite space of possible configurations that often result in self-occlusions and depth ambiguities when imaged by a single camera. The contributions of this work are three-fold. First, we introduce a new render & compare approach for estimating the 6D pose and joint angles of an articulated robot that can be trained from synthetic data, generalizes to new unseen robot configurations at test time, and can be applied to a variety of robots. Second, we experimentally demonstrate the importance of the robot parametrization for the iterative pose updates and design a parametrization strategy that is independent of the robot structure. Finally, we show experimental results on existing benchmark datasets for four different robots and demonstrate that our method significantly outperforms the state of the art. Code and pre-trained models are available on the project webpage https://www.di.ens.f r/willow/research/ro bopose/.
翻訳日:2021-04-20 13:34:36 公開日:2021-04-19
# DANICE:ニューラルイメージ圧縮を忘れずにドメイン適応

DANICE: Domain adaptation without forgetting in neural image compression ( http://arxiv.org/abs/2104.09370v1 )

ライセンス: Link先を確認
Sudeep Katakol, Luis Herranz, Fei Yang and Marta Mrak(参考訳) ニューラル画像圧縮(NIC)は、データから学習したディープモデルによって符号化能力をキャプチャする新しいコーディングパラダイムである。 このデータ駆動の性質は、新しい潜在的な機能を可能にする。 本稿では,コーデックのカスタムドメインへの適応性について検討する。 NICコーデックは転送可能であり,比較的少数のターゲット領域画像で適用可能であることを示す。 しかし、ナイーブ適応は元のソースドメインに最適化されたソリューションに干渉し、結果としてそのドメインの元のコーディング能力を忘れ、以前エンコードされたビットストリームとの互換性を損なう可能性がある。 このような問題に対処するため,我々は,ソースコードが組み込まれ,適応プロセス中に変化しない,少数のカスタムパラメータを追加することで,これらの問題を回避するためのフレームワークであるCodec Adaptation without Forgetting (CAwF)を提案する。 実験は、その効果を示し、NICにおける破滅的干渉の特性に関する有用な洞察を提供する。

Neural image compression (NIC) is a new coding paradigm where coding capabilities are captured by deep models learned from data. This data-driven nature enables new potential functionalities. In this paper, we study the adaptability of codecs to custom domains of interest. We show that NIC codecs are transferable and that they can be adapted with relatively few target domain images. However, naive adaptation interferes with the solution optimized for the original source domain, resulting in forgetting the original coding capabilities in that domain, and may even break the compatibility with previously encoded bitstreams. Addressing these problems, we propose Codec Adaptation without Forgetting (CAwF), a framework that can avoid these problems by adding a small amount of custom parameters, where the source codec remains embedded and unchanged during the adaptation process. Experiments demonstrate its effectiveness and provide useful insights on the characteristics of catastrophic interference in NIC.
翻訳日:2021-04-20 13:34:14 公開日:2021-04-19
# 高エネルギー物理における教師なし異常検出のためのオートエンコーダ

Autoencoders for unsupervised anomaly detection in high energy physics ( http://arxiv.org/abs/2104.09051v1 )

ライセンス: Link先を確認
Thorben Finke, Michael Kr\"amer, Alessandro Morandini, Alexander M\"uck, Ivan Oleksiyuk(参考訳) オートエンコーダは機械学習アプリケーション、特に異常検出に広く使われている。 したがって、これらはモデルに依存しない新しい物理探索のための有望なツールとして高エネルギー物理学で導入された。 再構成損失に基づく教師なし異常検出におけるオートエンコーダの利用について検討し,その性能と限界について検討した。 粒子物理ベンチマークのシナリオとして,QCDジェット画像の背景におけるトップジェット画像のタグ付けについて検討する。 文献から正の結果を再現するが、タスクを反転させることで、標準オートエンコーダ設定をモデル非依存のアノマリータガーとはみなせないことを示す: ジェット画像のスパーシティと特定の構造のため、半教師付き設定でもトップジェットで訓練された場合、オートエンコーダはqcdジェットをタグ付けできない。 同一のオートエンコーダアーキテクチャは異常の特定の例には良いタグであり,異なる例には悪いタグでありうるので,モデルに依存しない異常検出のタスクには,性能改善策を提案する。 また、ジェット画像の非自明な特徴を学習するオートエンコーダの能力も向上し、同じ設定でトップジェットタグ付けとqcdジェットタグ付けの逆タスクの両方を実現できる。 しかし、真にモデル非依存で強力なautoencoderベースの教師なしのjet taggerの開発が必要であることを強調したい。

Autoencoders are widely used in machine learning applications, in particular for anomaly detection. Hence, they have been introduced in high energy physics as a promising tool for model-independent new physics searches. We scrutinize the usage of autoencoders for unsupervised anomaly detection based on reconstruction loss to show their capabilities, but also their limitations. As a particle physics benchmark scenario, we study the tagging of top jet images in a background of QCD jet images. Although we reproduce the positive results from the literature, we show that the standard autoencoder setup cannot be considered as a model-independent anomaly tagger by inverting the task: due to the sparsity and the specific structure of the jet images, the autoencoder fails to tag QCD jets if it is trained on top jets even in a semi-supervised setup. Since the same autoencoder architecture can be a good tagger for a specific example of an anomaly and a bad tagger for a different example, we suggest improved performance measures for the task of model-independent anomaly detection. We also improve the capability of the autoencoder to learn non-trivial features of the jet images, such that it is able to achieve both top jet tagging and the inverse task of QCD jet tagging with the same setup. However, we want to stress that a truly model-independent and powerful autoencoder-based unsupervised jet tagger still needs to be developed.
翻訳日:2021-04-20 13:33:58 公開日:2021-04-19
# 金融モデルにおける深層強化学習

Deep Reinforcement Learning in a Monetary Model ( http://arxiv.org/abs/2104.09368v1 )

ライセンス: Link先を確認
Mingli Chen, Andreas Joseph, Michael Kumhof, Xinlei Pan, Rui Shi, Xuan Zhou(参考訳) 動的確率的一般均衡モデルの解法として深部強化学習を提案する。 エージェントはディープな人工知能ニューラルネットワークによって表現され、モデル環境と相互作用することで、彼らの動的最適化問題の解決を学ぶ。 深層強化学習は、この一般的なモデルのクラス内で有界な合理性をモデル化する柔軟な、原則化された方法を提供する。 本稿では,金融政策と財政政策の相互作用を考察したマクロ経済学における適応学習文学の古典モデルに適用する。 適応学習とは対照的に、人工的な知性のある家庭はあらゆる政策体制においてモデルを解くことができる。

We propose using deep reinforcement learning to solve dynamic stochastic general equilibrium models. Agents are represented by deep artificial neural networks and learn to solve their dynamic optimisation problem by interacting with the model environment, of which they have no a priori knowledge. Deep reinforcement learning offers a flexible yet principled way to model bounded rationality within this general class of models. We apply our proposed approach to a classical model from the adaptive learning literature in macroeconomics which looks at the interaction of monetary and fiscal policy. We find that, contrary to adaptive learning, the artificially intelligent household can solve the model in all policy regimes.
翻訳日:2021-04-20 13:33:34 公開日:2021-04-19
# オプショントレーシング:知識トレーシングにおける正確性分析を超えて

Option Tracing: Beyond Correctness Analysis in Knowledge Tracing ( http://arxiv.org/abs/2104.09043v1 )

ライセンス: Link先を確認
Aritra Ghosh, Jay Raspat, Andrew Lan(参考訳) 知識追跡とは、過去の質問に対する回答から各学生の知識構成要素/スキル習得レベルを推定する手法のファミリーを指す。 既存の知識追跡手法の鍵となる制限の1つは、生徒の応答の(通常バイナリ値の)正しさのみを解析するため、知識コンポーネント/スキルごとに生徒の知識レベルを計算できることである。 そのため、特定の学生の誤りの診断に使用するのは難しい。 本稿では,既存の知識追跡手法を,正当性予測を超えて,複数の選択質問で選択した正確な選択肢を予測するタスクに拡張する。 2つの大規模学生応答データセットにおけるオプション追跡手法の性能を定量的に評価した。 また,同じ誤りに対応する様々な質問にまたがる誤った選択肢のクラスタの形で,一般的な学生の誤りを識別する能力についても質的に評価した。

Knowledge tracing refers to a family of methods that estimate each student's knowledge component/skill mastery level from their past responses to questions. One key limitation of most existing knowledge tracing methods is that they can only estimate an \emph{overall} knowledge level of a student per knowledge component/skill since they analyze only the (usually binary-valued) correctness of student responses. Therefore, it is hard to use them to diagnose specific student errors. In this paper, we extend existing knowledge tracing methods beyond correctness prediction to the task of predicting the exact option students select in multiple choice questions. We quantitatively evaluate the performance of our option tracing methods on two large-scale student response datasets. We also qualitatively evaluate their ability in identifying common student errors in the form of clusters of incorrect options across different questions that correspond to the same error.
翻訳日:2021-04-20 13:30:38 公開日:2021-04-19
# RingCNN:エネルギー効率の良いCNNベースの計算イメージングのための代数的にスパースなリングテンソルの爆発

RingCNN: Exploiting Algebraically-Sparse Ring Tensors for Energy-Efficient CNN-Based Computational Imaging ( http://arxiv.org/abs/2104.09056v1 )

ライセンス: Link先を確認
Chao-Tsung Huang(参考訳) 人工知能の時代には、畳み込みニューラルネットワーク(CNN)が計算画像の強力な技術として出現している。 彼らは、劣化した画像から細かいテクスチャを再構築する上で優れた品質を示しており、次世代カメラやディスプレイを私たちの日常生活にもたらす可能性がある。 しかし、CNNは高精細度の細部をレンダリングする際に、高精細度ビデオの生成と従来の疎度テクニックの欠如に強い計算力を要求する。 したがって、CNNベースの大規模画像化を実現するためには、通常の空間で新たな可能性を見つけることが不可欠である。 本稿では,エネルギー効率のよいCNN加速のための基本的だが十分に探索されたアプローチである代数的空間性を考える。 我々は、n-タプルの乗法、加法、非線形性を適切に定義する環代数に基づくcnnモデルを構築することを提案する。 すると、本質的な空間がすぐに続く。 n-times reduction for the number of real-valued weights. 我々は、リング代数のいくつかの変種をモデリングフレームワークringcnnとして定義し、画像品質とハードウェアの複雑さの観点から比較する。 さらに, 成分的積との複雑性を最小化し, 方向性ReLUによる最適品質を実現する新しい環代数を考案する。 最後に、eRingCNNというアクセラレータを、n=2と4(50%と75%の間隔)の2つの設定で実装し、40nm技術で4K UHD 30 fpsの高分解能と高分解能をサポートする。 レイアウトの結果、それぞれ3.76Wと2.22Wで同等の41TOPSを供給できることが示されている。 実数値と比較すると, n=2のリング畳み込みエンジンは, 類似あるいはそれ以上の画質で, エネルギー効率2.00x, 面積効率2.08xを実現している。 n=4ではエネルギーと面積の効率がさらに3.84xと3.77xに増加し、PSNRは0.11dB低下する。

In the era of artificial intelligence, convolutional neural networks (CNNs) are emerging as a powerful technique for computational imaging. They have shown superior quality for reconstructing fine textures from badly-distorted images and have potential to bring next-generation cameras and displays to our daily life. However, CNNs demand intensive computing power for generating high-resolution videos and defy conventional sparsity techniques when rendering dense details. Therefore, finding new possibilities in regular sparsity is crucial to enable large-scale deployment of CNN-based computational imaging. In this paper, we consider a fundamental but yet well-explored approach -- algebraic sparsity -- for energy-efficient CNN acceleration. We propose to build CNN models based on ring algebra that defines multiplication, addition, and non-linearity for n-tuples properly. Then the essential sparsity will immediately follow, e.g. n-times reduction for the number of real-valued weights. We define and unify several variants of ring algebras into a modeling framework, RingCNN, and make comparisons in terms of image quality and hardware complexity. On top of that, we further devise a novel ring algebra which minimizes complexity with component-wise product and achieves the best quality using directional ReLU. Finally, we implement an accelerator, eRingCNN, in two settings, n=2 and 4 (50% and 75% sparsity), with 40 nm technology to support advanced denoising and super-resolution at up to 4K UHD 30 fps. Layout results show that they can deliver equivalent 41 TOPS using 3.76 W and 2.22 W, respectively. Compared to the real-valued counterpart, our ring convolution engines for n=2 achieve 2.00x energy efficiency and 2.08x area efficiency with similar or even better image quality. With n=4, the efficiency gains of energy and area are further increased to 3.84x and 3.77x with 0.11 dB drop of PSNR.
翻訳日:2021-04-20 13:30:24 公開日:2021-04-19
# 移動可能な攻撃例に対する方向集約攻撃

Direction-Aggregated Attack for Transferable Adversarial Examples ( http://arxiv.org/abs/2104.09172v1 )

ライセンス: Link先を確認
Tianjin Huang, Vlado Menkovski, Yulong Pei, YuHao Wang and Mykola Pechenizkiy(参考訳) ディープニューラルネットワークは、入力に知覚できない変更を課すことによって作られる敵の例に弱い。 しかしながら、これらの逆例は、モデルとそのパラメータが利用可能なホワイトボックス設定で最も成功した。 他のモデルに転送可能な、あるいはブラックボックス設定で開発された敵の例を見つけることは、はるかに難しい。 本稿では,移動可能な攻撃事例を提供する方向集約型攻撃を提案する。 本手法は,攻撃過程における集約方向を利用して,ホワイトボックスモデルに過剰に適合する攻撃例を回避する。 ImageNetにおける大規模な実験により, 提案手法は, 対向例の転送可能性を大幅に向上し, 特に対向ロバストモデルに対して, 最先端攻撃よりも優れていた。 提案手法の平均攻撃成功率は,3つの敵訓練モデルに対して94.6\%,5つの防御法に対して94.8\%に達した。 また、現在の防御アプローチは、転送可能な敵の攻撃を防げないことも明らかにしている。

Deep neural networks are vulnerable to adversarial examples that are crafted by imposing imperceptible changes to the inputs. However, these adversarial examples are most successful in white-box settings where the model and its parameters are available. Finding adversarial examples that are transferable to other models or developed in a black-box setting is significantly more difficult. In this paper, we propose the Direction-Aggregated adversarial attacks that deliver transferable adversarial examples. Our method utilizes aggregated direction during the attack process for avoiding the generated adversarial examples overfitting to the white-box model. Extensive experiments on ImageNet show that our proposed method improves the transferability of adversarial examples significantly and outperforms state-of-the-art attacks, especially against adversarial robust models. The best averaged attack success rates of our proposed method reaches 94.6\% against three adversarial trained models and 94.8\% against five defense methods. It also reveals that current defense approaches do not prevent transferable adversarial attacks.
翻訳日:2021-04-20 13:29:51 公開日:2021-04-19
# 5G産業エッジネットワーク上での移動学習のための合同エネルギー・レイテンシフレームワーク

A Joint Energy and Latency Framework for Transfer Learning over 5G Industrial Edge Networks ( http://arxiv.org/abs/2104.09382v1 )

ライセンス: Link先を確認
Bo Yang, Omobayode Fagbohungbe, Xuelin Cao, Chau Yuen, Lijun Qian, Dusit Niyato, and Yan Zhang(参考訳) 本稿では,プライバシー保護特性を有する5G産業エッジネットワークのための転送学習(TL)対応エッジCNNフレームワークを提案する。 特に、エッジサーバは、既存の画像データセットを使用してcnnを事前トレーニングすることができ、デバイスからアップロードされた限られたデータセットに基づいてさらに微調整される。 TLの助けを借りて、トレーニングに参加していないデバイスは、訓練されたエッジCNNモデルをスクラッチからトレーニングせずに微調整するだけです。 デバイスのエネルギー予算と限られた通信帯域幅のため、結合エネルギーと遅延問題を定式化し、元の問題をアップロード決定サブプロブレムと無線帯域割り当てサブプロブレムに分解して解決する。 imagenetを用いた実験により、tl対応エッジcnnフレームワークは、オートエンコーダの32の圧縮比で、約1%のモデルパラメータをアップロードすることで、ベースラインの約85%の予測精度を達成できることが示されている。

In this paper, we propose a transfer learning (TL)-enabled edge-CNN framework for 5G industrial edge networks with privacy-preserving characteristic. In particular, the edge server can use the existing image dataset to train the CNN in advance, which is further fine-tuned based on the limited datasets uploaded from the devices. With the aid of TL, the devices that are not participating in the training only need to fine-tune the trained edge-CNN model without training from scratch. Due to the energy budget of the devices and the limited communication bandwidth, a joint energy and latency problem is formulated, which is solved by decomposing the original problem into an uploading decision subproblem and a wireless bandwidth allocation subproblem. Experiments using ImageNet demonstrate that the proposed TL-enabled edge-CNN framework can achieve almost 85% prediction accuracy of the baseline by uploading only about 1% model parameters, for a compression ratio of 32 of the autoencoder.
翻訳日:2021-04-20 13:29:35 公開日:2021-04-19
# GPU上のニューラルネットワーク推論のための算術的強度誘導型フォールトトレランス

Arithmetic-Intensity -Guided Fault Tolerance for Neural Network Inference on GPUs ( http://arxiv.org/abs/2104.09455v1 )

ライセンス: Link先を確認
Jack Kosaian, K. V. Rashmi(参考訳) ニューラルネットワーク(nns)は、科学計算や安全クリティカルシステムなどの高い信頼性を必要とする分野や、宇宙船のような信頼性の低い(ソフトエラーのような)環境において、ますます採用されている。 最近の研究が示すように、NN推論の欠陥は誤予測や安全性の危険をもたらす可能性があるため、NN推論にフォールトトレランスを与えることが重要である。 アルゴリズムに基づく耐障害性 (ABFT) は, NNにおける効率的な耐障害性に対する魅力的なアプローチとして浮上している。 そこで本研究では,NN推論のための低オーバヘッドABFTの新たな機会を特定する。現在の推論最適化GPUは高い演算/メモリ/バンド幅比を持ち,現在のNNと新興NNの多くの層は演算強度が低い。 これはnnsメモリバンド幅バウンドの多くの畳み込み層と完全接続層を残している。 したがって、これらの層は冗長な実行で満たされる計算のストールを示すが、現在のNN推論におけるABFTへのアプローチは利用できない。 このようなメモリ帯域幅境界層の実行時間オーバーヘッドを低減するため、まず、この微細な計算過小利用を利用する推論最適化GPUのスレッドレベルABFTスキームについて検討する。 次に,ABFTに対する適応的,算術的インテンシティ誘導型アプローチであるインテンシティ誘導型ABFTを提案し,各層に最適なABFTスキームを,計算バウンド層に適したABFTと,メモリバンド幅境界層に適したスレッドレベルABFTの2つのアプローチの間で選択する。 この適応アプローチにより、インテンシティ誘導abftは、様々なnnに対して実行時のオーバーヘッドを1.09--5.3$\times$削減し、現在および将来のnn推論ワークロードに対するフォールトトレランスのコストを下げる。

Neural networks (NNs) are increasingly employed in domains that require high reliability, such as scientific computing and safety-critical systems, as well as in environments more prone to unreliability (e.g., soft errors), such as on spacecraft. As recent work has shown that faults in NN inference can lead to mispredictions and safety hazards, it is critical to impart fault tolerance to NN inference. Algorithm-based fault tolerance (ABFT) is emerging as an appealing approach for efficient fault tolerance in NNs. In this work, we identify new, unexploited opportunities for low-overhead ABFT for NN inference: current inference-optimized GPUs have high compute-to-memory-ba ndwidth ratios, while many layers of current and emerging NNs have low arithmetic intensity. This leaves many convolutional and fully-connected layers in NNs memory-bandwidth-bou nd. These layers thus exhibit stalls in computation that could be filled by redundant execution, but that current approaches to ABFT for NN inference cannot exploit. To reduce execution-time overhead for such memory-bandwidth-bou nd layers, we first investigate thread-level ABFT schemes for inference-optimized GPUs that exploit this fine-grained compute underutilization. We then propose intensity-guided ABFT, an adaptive, arithmetic-intensity -guided approach to ABFT that selects the best ABFT scheme for each individual layer between traditional approaches to ABFT, which are suitable for compute-bound layers, and thread-level ABFT, which is suitable for memory-bandwidth-bou nd layers. Through this adaptive approach, intensity-guided ABFT reduces execution-time overhead by 1.09--5.3$\times$ across a variety of NNs, lowering the cost of fault tolerance for current and future NN inference workloads.
翻訳日:2021-04-20 13:29:19 公開日:2021-04-19
# 金融のための深層学習における解釈可能性--ヘストンモデルの場合

Interpretability in deep learning for finance: a case study for the Heston model ( http://arxiv.org/abs/2104.09476v1 )

ライセンス: Link先を確認
Damiano Brigo, Xiaoshan Huang, Andrea Pallavicini, Haitz Saez de Ocariz Borde(参考訳) ディープラーニングは、量的金融の応用が毎日増えている強力なツールです。 しかし、ニューラルネットワークはブラックボックスのように振る舞うため、検証や説明責任のプロセスを妨げる。 これらのネットワークの内部機能と入出力関係を解釈できることが、そのようなツールの受容の鍵となっている。 本稿では,最近深層学習アルゴリズムが取り組んだ確率的ボラティリティモデルのキャリブレーションプロセスに注目した。 このモデルの性質がよく知られているため、特にヘストンモデルを分析し、理想的なベンチマークケースを生み出した。 学習したニューラルネットワークを説明するために,協調ゲーム理論から得られる局所戦略とグローバル戦略の能力について検討し,shapley値などのグローバル戦略を効果的に活用できることを見いだした。 私たちの分析では、完全連結ニューラルネットワークが畳み込みニューラルネットワークよりも優れた性能を発揮すること、ヘストンモデルの価格をパラメータ関係に予測し解釈すること、などにより、shapley値がネットワークアーキテクチャを選択する上で有効であることも示しています。

Deep learning is a powerful tool whose applications in quantitative finance are growing every day. Yet, artificial neural networks behave as black boxes and this hinders validation and accountability processes. Being able to interpret the inner functioning and the input-output relationship of these networks has become key for the acceptance of such tools. In this paper we focus on the calibration process of a stochastic volatility model, a subject recently tackled by deep learning algorithms. We analyze the Heston model in particular, as this model's properties are well known, resulting in an ideal benchmark case. We investigate the capability of local strategies and global strategies coming from cooperative game theory to explain the trained neural networks, and we find that global strategies such as Shapley values can be effectively used in practice. Our analysis also highlights that Shapley values may help choose the network architecture, as we find that fully-connected neural networks perform better than convolutional neural networks in predicting and interpreting the Heston model prices to parameters relationship.
翻訳日:2021-04-20 13:28:47 公開日:2021-04-19
# マルチメディアレコメンデーションのためのマイニング潜在構造

Mining Latent Structures for Multimedia Recommendation ( http://arxiv.org/abs/2104.09036v1 )

ライセンス: Link先を確認
Jinghao Zhang, Yanqiao Zhu, Qiang Liu, Shu Wu, Shuhui Wang, Liang Wang(参考訳) マルチメディアコンテンツは現代ウェブ時代において優位である。 ユーザがマルチモーダルアイテムとどのように相互作用するかを調べることは、リコメンダシステムの迅速な開発における継続的な懸念である。 以前の作業の大部分は、サイド情報を含むマルチモーダル機能によるユーザ-テーマインタラクションのモデリングに重点を置いている。 しかし、この方式はマルチメディアレコメンデーションには適していない。 具体的には、コラボレーティブなアイテム-アイテム間関係のみが、高次アイテム-ユーザ-アイテム間関係を通じて暗黙的にモデル化される。 複数のモダリティのリッチなコンテンツに関連付けられていることを考えると、これらのマルチモーダルコンテンツを支える潜在アイテムイテム構造は、よりよいアイテム表現を学習し、さらに推奨を高めるのに役立つと論じる。 そこで本研究では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。 具体的には,提案する格子モデルにおいて,各モダリティの項目構造を学習し,複数のモダリティを集約して潜在項目グラフを得る新しいモダリティ認識構造学習層を考案する。 学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。 これらの強化されたアイテム表現は、より正確な推奨を行うために既存のコラボレーティブフィルタリングメソッドにプラグインすることができる。 3つの実世界のデータセットに関する広範囲な実験により、最先端マルチメディア勧告手法よりも優れた方法が示され、マルチモーダル特徴から潜在項目-項目関係をマイニングする効果が検証された。

Multimedia content is of predominance in the modern Web era. Investigating how users interact with multimodal items is a continuing concern within the rapid development of recommender systems. The majority of previous work focuses on modeling user-item interactions with multimodal features included as side information. However, this scheme is not well-designed for multimedia recommendation. Specifically, only collaborative item-item relationships are implicitly modeled through high-order item-user-item relations. Considering that items are associated with rich contents in multiple modalities, we argue that the latent item-item structures underlying these multimodal contents could be beneficial for learning better item representations and further boosting recommendation. To this end, we propose a LATent sTructure mining method for multImodal reCommEndation, which we term LATTICE for brevity. To be specific, in the proposed LATTICE model, we devise a novel modality-aware structure learning layer, which learns item-item structures for each modality and aggregates multiple modalities to obtain latent item graphs. Based on the learned latent graphs, we perform graph convolutions to explicitly inject high-order item affinities into item representations. These enriched item representations can then be plugged into existing collaborative filtering methods to make more accurate recommendations. Extensive experiments on three real-world datasets demonstrate the superiority of our method over state-of-the-art multimedia recommendation methods and validate the efficacy of mining latent item-item relationships from multimodal features.
翻訳日:2021-04-20 13:27:38 公開日:2021-04-19
# ハードウェアに関する学習:ニューラルネットワークアクセラレータとコプロセッサのチュートリアル

Learning on Hardware: A Tutorial on Neural Network Accelerators and Co-Processors ( http://arxiv.org/abs/2104.09252v1 )

ライセンス: Link先を確認
Lukas Baischer, Matthias Wess, Nima TaheriNejad(参考訳) ディープニューラルネットワーク(dnn)は、複雑なタスクを解決可能にするために、多くのパラメータを考慮に入れることができるという利点がある。 コンピュータビジョンや音声認識では、一般的なアルゴリズムよりも精度が高く、タスクによっては人間の専門家よりも精度が高いものもあります。 近年のDNNの進展に伴い、病気の診断や自動運転など、多くの応用分野が活用されている。 DNNの傾向は明らかである: ネットワークサイズは指数関数的に増加しており、計算労力と必要なメモリサイズが指数関数的に増加する。 このため、最適化されたハードウェアアクセラレータは、神経ネットワークの推論の性能を高めるために使用される。 しかしながら、グラフィックス処理ユニット(GPU)、アプリケーション固有の集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)など、さまざまなニューラルネットワークハードウェアアクセラレータプラットフォームが存在する。 それぞれのプラットフォームには、何らかのメリットとデメリットがあります。 また、ハードウェアアクセラレーションごとに異なるDNNの計算労力を削減する様々な方法がある。 本稿では,既存のニューラルネットワークハードウェアアクセラレータとアクセラレーション手法の概要を紹介する。 彼らの強みと弱点が示され、適切な応用の推奨が与えられる。 特に,画像認識タスクに使用される畳み込みニューラルネットワーク(cnns)の推論の高速化に注目する。 多くの異なるハードウェアアーキテクチャが存在する。 FPGAベースの実装はDNN最適化手法が精度とスループットに与える影響を示すのに適している。 このため、この研究はFPGAベースの実装に重点を置いている。

Deep neural networks (DNNs) have the advantage that they can take into account a large number of parameters, which enables them to solve complex tasks. In computer vision and speech recognition, they have a better accuracy than common algorithms, and in some tasks, they boast an even higher accuracy than human experts. With the progress of DNNs in recent years, many other fields of application such as diagnosis of diseases and autonomous driving are taking advantage of them. The trend at DNNs is clear: The network size is growing exponentially, which leads to an exponential increase in computational effort and required memory size. For this reason, optimized hardware accelerators are used to increase the performance of the inference of neuronal networks. However, there are various neural network hardware accelerator platforms, such as graphics processing units (GPUs), application specific integrated circuits (ASICs) and field programmable gate arrays (FPGAs). Each of these platforms offer certain advantages and disadvantages. Also, there are various methods for reducing the computational effort of DNNs, which are differently suitable for each hardware accelerator. In this article an overview of existing neural network hardware accelerators and acceleration methods is given. Their strengths and weaknesses are shown and a recommendation of suitable applications is given. In particular, we focus on acceleration of the inference of convolutional neural networks (CNNs) used for image recognition tasks. Given that there exist many different hardware architectures. FPGA-based implementations are well-suited to show the effect of DNN optimization methods on accuracy and throughput. For this reason, the focus of this work is more on FPGA-based implementations.
翻訳日:2021-04-20 13:27:11 公開日:2021-04-19
# fitbeat:リストバンド心拍数に基づく新型コロナウイルスの推計

Fitbeat: COVID-19 Estimation based on Wristband Heart Rate ( http://arxiv.org/abs/2104.09263v1 )

ライセンス: Link先を確認
Shuo Liu, Jing Han, Estela Laporta Puyal, Spyridon Kontaxis, Shaoxiong Sun, Patrick Locatelli, Judith Dineley, Florian B. Pokorny, Gloria Dalla Costa, Letizia Leocan, Ana Isabel Guerrero, Carlos Nos, Ana Zabalza, Per Soelberg S{\o}rensen, Mathias Buron, Melinda Magyari, Yatharth Ranjan, Zulqarnain Rashid, Pauline Conde, Callum Stewart, Amos A Folarin, Richard JB Dobson, Raquel Bail\'on, Srinivasan Vairavan, Nicholas Cummins, Vaibhav A Narayan, Matthew Hotopf, Giancarlo Comi, Bj\"orn Schuller(参考訳) 本研究では、遠隔で収集した心拍データを用いて、新型コロナウイルスの疑いのある個人を同定する深層学習手法の可能性について検討した。 この研究は、現在進行中のEU IMI RADAR-CNS研究プロジェクトのデータを利用して、複数の硬化症(MS)、うつ病、てんかんの患者を監視するウェアラブルデバイスとスマートフォンの実現可能性を調査している。 プロジェクトプロトコルの一部として、Fitbitリストバンドを使用して参加者から心拍データを収集した。 この研究におけるcohortにおけるcovid-19の存在は、陽性のswabテストを通じて確認するか、発熱、呼吸器症状、匂いや味の喪失、疲労、消化管症状などの症状の組み合わせを自己報告することによって推測された。 実験結果から,従来の畳み込みニューラルネットワーク(CNN)と,コントラスト的損失を使わずに畳み込み自己エンコーダ(CAE)とを併用したコントラスト的自己エンコーダ(コントラスト的CAE)が,従来の畳み込みニューラルネットワーク(CNN)より優れていたことが示唆された。 最終コントラストのCAEは95.3%の非重み付き平均リコール、86.4%の精度、aF1の88.2%、100%の感度、90.6%の特異性を達成した。 参加者はそれぞれ、新型コロナウイルスの症状のないMSの参加者とペアを組んだ。

This study investigates the potential of deep learning methods to identify individuals with suspected COVID-19 infection using remotely collected heart-rate data. The study utilises data from the ongoing EU IMI RADAR-CNS research project that is investigating the feasibility of wearable devices and smart phones to monitor individuals with multiple sclerosis (MS), depression or epilepsy. Aspart of the project protocol, heart-rate data was collected from participants using a Fitbit wristband. The presence of COVID-19 in the cohort in this work was either confirmed through a positive swab test, or inferred through the self-reporting of a combination of symptoms including fever, respiratory symptoms, loss of smell or taste, tiredness and gastrointestinal symptoms. Experimental results indicate that our proposed contrastive convolutional auto-encoder (contrastive CAE), i. e., a combined architecture of an auto-encoder and contrastive loss, outperforms a conventional convolutional neural network (CNN), as well as a convolutional auto-encoder (CAE) without using contrastive loss. Our final contrastive CAE achieves 95.3% unweighted average recall, 86.4% precision, anF1 measure of 88.2%, a sensitivity of 100% and a specificity of 90.6% on a testset of 19 participants with MS who reported symptoms of COVID-19. Each of these participants was paired with a participant with MS with no COVID-19 symptoms.
翻訳日:2021-04-20 13:26:50 公開日:2021-04-19
# 近似マルチエージェント対応qイテレーション

Approximate Multi-Agent Fitted Q Iteration ( http://arxiv.org/abs/2104.09343v1 )

ライセンス: Link先を確認
Antoine Lesage-Landry and Duncan S. Callaway(参考訳) 近似多エージェント適応Qイテレーション (AMAFQI) を用いて, 多エージェントバッチ強化学習のための効率的な近似式を定式化する。 我々はこのアプローチの詳細な導出を示す。 本稿では,反復的な方針探索を提案し,中央集権型標準q関数の複数の近似に関して欲望的な方針を与えることを示す。 各イテレーションとポリシーの評価において、amafqiはエージェントの数と線形にスケールする多くの計算を必要とし、一方、類似の計算数はバッチ強化学習でよく使われるアプローチである適合qイテレーション(fqi)に対して指数関数的に増加する。 AMAFQIのこの性質は、トラクタブルなマルチエージェントアプローチの設計に基本的である。 AMAFQIの性能を評価し,数値シミュレーションでFQIと比較した。 数値的な例は、FQIの代わりにAMAFQIを使用する場合の計算時間を大幅に削減し、両者の同様の意思決定性能を裏付けるものである。

We formulate an efficient approximation for multi-agent batch reinforcement learning, the approximate multi-agent fitted Q iteration (AMAFQI). We present a detailed derivation of our approach. We propose an iterative policy search and show that it yields a greedy policy with respect to multiple approximations of the centralized, standard Q-function. In each iteration and policy evaluation, AMAFQI requires a number of computations that scales linearly with the number of agents whereas the analogous number of computations increase exponentially for the fitted Q iteration (FQI), one of the most commonly used approaches in batch reinforcement learning. This property of AMAFQI is fundamental for the design of a tractable multi-agent approach. We evaluate the performance of AMAFQI and compare it to FQI in numerical simulations. Numerical examples illustrate the significant computation time reduction when using AMAFQI instead of FQI in multi-agent problems and corroborate the similar decision-making performance of both approaches.
翻訳日:2021-04-20 13:26:03 公開日:2021-04-19