このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210324となっている論文です。

PDF登録状況(公開日: 20210324)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) DDAUnet (Dilated Dense Attention Unet) を用いたCT画像の食道腫瘍切開 [全文訳有]

Esophageal Tumor Segmentation in CT Images using Dilated Dense Attention Unet (DDAUnet) ( http://arxiv.org/abs/2012.03242v3 )

ライセンス: CC BY 4.0
Sahar Yousefi, Hessam Sokooti, Mohamed S. Elmahdy, Irene M. Lips, Mohammad T. Manzuri Shalmani, Roel T. Zinkstok, Frank J.W.M. Dankers, Marius Staring(参考訳) ct画像中の食道腫瘍の手動または自動切除は非常に困難であることが知られている。 これは、腫瘍と隣接組織とのコントラストの低さ、食道の解剖学的変異、異物の存在(例:異物の存在)によるものである。 給餌管)。 したがって、医師は通常、内視鏡所見、臨床歴、PETスキャンのような画像の付加的なモダリティなどの追加的な知識を利用する。 追加情報を取得するのに時間がかかり、結果がエラーを起こし、非決定論的結果につながる可能性がある。 本稿では,CTのみに基づく簡易な臨床ワークフローが,食道腫瘍を十分な品質で自動的に分類できるかどうかを検討することを目的とする。 そこで本研究では,convolutional neural networks (cnns) を用いた完全自動食道腫瘍分割法を提案する。 提案ネットワークはDilated Dense Attention Unet (DDAUnet) と呼ばれ、各密ブロック内の空間的およびチャネル的アテンションゲートを利用して、決定的特徴マップや領域に選択的に集中する。 拡張畳み込み層はGPUメモリの管理とネットワーク受容領域の増大に使用される。 当科では, 各種解剖学, 尿管, 近位腫瘍などを含む288名の患者から, 792個の検体を採取した。 再現性と再現性の研究は3つの異なるトレーニングと検証セットに対して行われた。 提案されたネットワークは$0.79 \pm 0.20$で、平均表面距離は$5.4 \pm 20.2mm$と$95\%$ hausdorff距離は$14.7 \pm 25.0mm$ 287テストスキャンで達成され、ctのみに基づいた簡易な臨床ワークフローで有望な結果が得られた。 我々のコードは \url{https://github.com/y ousefis/DenseUnet_Es ophagus_Segmentation } で公開されている。

Manual or automatic delineation of the esophageal tumor in CT images is known to be very challenging. This is due to the low contrast between the tumor and adjacent tissues, the anatomical variation of the esophagus, as well as the occasional presence of foreign bodies (e.g. feeding tubes). Physicians therefore usually exploit additional knowledge such as endoscopic findings, clinical history, additional imaging modalities like PET scans. Achieving his additional information is time-consuming, while the results are error-prone and might lead to non-deterministic results. In this paper we aim to investigate if and to what extent a simplified clinical workflow based on CT alone, allows one to automatically segment the esophageal tumor with sufficient quality. For this purpose, we present a fully automatic end-to-end esophageal tumor segmentation method based on convolutional neural networks (CNNs). The proposed network, called Dilated Dense Attention Unet (DDAUnet), leverages spatial and channel attention gates in each dense block to selectively concentrate on determinant feature maps and regions. Dilated convolutional layers are used to manage GPU memory and increase the network receptive field. We collected a dataset of 792 scans from 288 distinct patients including varying anatomies with \mbox{air pockets}, feeding tubes and proximal tumors. Repeatability and reproducibility studies were conducted for three distinct splits of training and validation sets. The proposed network achieved a $\mathrm{DSC}$ value of $0.79 \pm 0.20$, a mean surface distance of $5.4 \pm 20.2mm$ and $95\%$ Hausdorff distance of $14.7 \pm 25.0mm$ for 287 test scans, demonstrating promising results with a simplified clinical workflow based on CT alone. Our code is publicly available via \url{https://github.com/y ousefis/DenseUnet_Es ophagus_Segmentation }.
翻訳日:2021-05-22 06:42:38 公開日:2021-03-24
# (参考訳) 分散学習のためのデータの量子化

Quantizing data for distributed learning ( http://arxiv.org/abs/2012.07913v2 )

ライセンス: CC0 1.0
Osama A. Hanna, Yahya H. Ezzeldin, Christina Fragouli, Suhas Diggavi(参考訳) ネットワーク上に分散したデータを利用してモデルをトレーニングする機械学習アプリケーションについて検討する。 最近の多くのアプローチでは、勾配更新の圧縮によってこのボトルネックを克服することを提案している。 しかし、モデルが大きくなるにつれて、勾配の更新のサイズも大きくなる。 本稿では,勾配ではなくデータを定量化し,勾配更新のサイズが禁止されるアプリケーション上での学習を支援する手法を提案する。 提案手法は,(1)サンプル選択,(2)データセットの量子化,(3)勾配補正といった側面を組み合わせる。 本研究では,滑らかな凸および非凸対象関数に対する提案手法の収束を解析し,モデル(次数)次元よりもデータに依存する通信により,最適な収束率が得られることを示す。 我々は提案アルゴリズムを用いて,CIFAR-10およびImageNetデータセット上でResNetモデルをトレーニングし,勾配圧縮法よりも桁違いの節約が可能であることを示す。

We consider machine learning applications that train a model by leveraging data distributed over a network, where communication constraints can create a performance bottleneck. A number of recent approaches propose to overcome this bottleneck through compression of gradient updates. However, as models become larger, so does the size of the gradient updates. In this paper, we propose an alternate approach, that quantizes data instead of gradients, and can support learning over applications where the size of gradient updates is prohibitive. Our approach combines aspects of: (1) sample selection; (2) dataset quantization; and (3) gradient compensation. We analyze the convergence of the proposed approach for smooth convex and non-convex objective functions and show that we can achieve order optimal convergence rates with communication that mostly depends on the data rather than the model (gradient) dimension. We use our proposed algorithm to train ResNet models on the CIFAR-10 and ImageNet datasets, and show that we can achieve an order of magnitude savings over gradient compression methods.
翻訳日:2021-05-08 18:45:18 公開日:2021-03-24
# 医用画像における局所判別表現の教師なし学習

Unsupervised Learning of Local Discriminative Representation for Medical Images ( http://arxiv.org/abs/2012.09333v2 )

ライセンス: Link先を確認
Huai Chen, Jieyu Li, Renzhen Wang, Yijie Huang, Fanrui Meng, Deyu Meng, Qing Peng, Lisheng Wang(参考訳) 局所的な識別的表現は、病変のサブタイプの同定や解剖学的構造の詳細な構成要素の分節化など、多くの医療画像解析タスクにおいて必要である。 しかし, 一般に適用されている表現学習法では, 大量の注釈付きデータを必要とするため, 局所的な医用画像解析には適さないグローバルな特徴を学習することで, 異なる画像の識別を行う。 この2つの手法の限界を回避するため,本稿では教師なし表現学習に局所的差別を導入する。 モデルには2つのブランチが含まれている: 1つは、低次元の超球上に異種画素を分散させる埋め込み関数を学習する埋め込みブランチ、もう1つはクラスタリング関数を学習し、類似画素を同じクラスタに分類するクラスタリングブランチである。 これら2つの枝は相互に有益なパターンで同時に訓練され、学習された局所判別表現は局所画像領域の類似性を適切に測定することができる。 これらの表現は、様々な下流タスクを強化するために転送できる。 また, シミュレーションや同様のトポロジカルな特徴を持つ他の構造から, トポロジカル先行の指導の下で, 無ラベルの医用画像から解剖学的構造をクラスタリングすることも可能である。 提案手法の有効性と有用性は,網膜画像および胸部X線画像における様々な下流タスクの強化と解剖学的構造のクラスタリングによって示される。

Local discriminative representation is needed in many medical image analysis tasks such as identifying sub-types of lesion or segmenting detailed components of anatomical structures. However, the commonly applied supervised representation learning methods require a large amount of annotated data, and unsupervised discriminative representation learning distinguishes different images by learning a global feature, both of which are not suitable for localized medical image analysis tasks. In order to avoid the limitations of these two methods, we introduce local discrimination into unsupervised representation learning in this work. The model contains two branches: one is an embedding branch which learns an embedding function to disperse dissimilar pixels over a low-dimensional hypersphere; and the other is a clustering branch which learns a clustering function to classify similar pixels into the same cluster. These two branches are trained simultaneously in a mutually beneficial pattern, and the learnt local discriminative representations are able to well measure the similarity of local image regions. These representations can be transferred to enhance various downstream tasks. Meanwhile, they can also be applied to cluster anatomical structures from unlabeled medical images under the guidance of topological priors from simulation or other structures with similar topological characteristics. The effectiveness and usefulness of the proposed method are demonstrated by enhancing various downstream tasks and clustering anatomical structures in retinal images and chest X-ray images.
翻訳日:2021-05-02 07:29:48 公開日:2021-03-24
# $\mathbb{X}$Resolution Cor correspondingence Networks

$\mathbb{X}$Resolution Correspondence Networks ( http://arxiv.org/abs/2012.09842v2 )

ライセンス: Link先を確認
Georgi Tinchev, Shuda Li, Kai Han, David Mitchell, Rigas Kouskouridas(参考訳) 本稿では,照明変化や視点変化,スタイルの違いに挑戦しながら,重なり合う視野を持つ対の像間の正確な密接な対応を確立することを目的とする。 最先端の通信網の広範囲にわたるアブレーション研究により, 広く採用されている4次元相関テンソルとその関連学習・処理モジュールが, 最終的な一致精度よりもわずかに小さな影響で, トレーニングから切り離され, 除去されることがわかった。 これらの計算コストの高いモジュールを無効にすることで、トレーニング手順を劇的にスピードアップし、バッチサイズを4倍に拡大することが可能になります。 提案手法は,マルチGPU推論の段階とともに,1280~4Kのネイティブテスト画像のマッチング精度とアップサンプリング解像度の関係を系統的に検討する。 これにより、提案したネットワークの公開ベンチマークにおいて、特に低いエラー帯域を超越した最先端の手法よりも正確なマッチング性能を実現する最適解像度$\mathbb{X}$の存在が発見された。

In this paper, we aim at establishing accurate dense correspondences between a pair of images with overlapping field of view under challenging illumination variation, viewpoint changes, and style differences. Through an extensive ablation study of the state-of-the-art correspondence networks, we surprisingly discovered that the widely adopted 4D correlation tensor and its related learning and processing modules could be de-parameterised and removed from training with merely a minor impact over the final matching accuracy. Disabling these computational expensive modules dramatically speeds up the training procedure and allows to use 4 times bigger batch size, which in turn compensates for the accuracy drop. Together with a multi-GPU inference stage, our method facilitates the systematic investigation of the relationship between matching accuracy and up-sampling resolution of the native testing images from 1280 to 4K. This leads to discovery of the existence of an optimal resolution $\mathbb{X}$ that produces accurate matching performance surpassing the state-of-the-art methods particularly over the lower error band on public benchmarks for the proposed network.
翻訳日:2021-05-02 07:22:50 公開日:2021-03-24
# 乱流学習のための自動エンコード型貯留層計算

Auto-Encoded Reservoir Computing for Turbulence Learning ( http://arxiv.org/abs/2012.10968v2 )

ライセンス: Link先を確認
Nguyen Anh Khoa Doan, Wolfgang Polifke, Luca Magri(参考訳) 本稿では, 自動エンコード型貯留層計算(AE-RC)手法を用いて, 2次元乱流の力学を学習する。 AE-RCは、フロー状態の効率的な多様体表現を発見するオートエンコーダと、多様体内のフローの時間進化を学習するエコー状態ネットワークで構成される。 AE-RCは流れの時間精度のダイナミクスを学習し、その1次統計モーメントを予測できる。 AE-RCアプローチは、機械学習による乱流の時空間予測の新しい可能性を開く。

We present an Auto-Encoded Reservoir-Computing (AE-RC) approach to learn the dynamics of a 2D turbulent flow. The AE-RC consists of an Autoencoder, which discovers an efficient manifold representation of the flow state, and an Echo State Network, which learns the time evolution of the flow in the manifold. The AE-RC is able to both learn the time-accurate dynamics of the flow and predict its first-order statistical moments. The AE-RC approach opens up new possibilities for the spatio-temporal prediction of turbulence with machine learning.
翻訳日:2021-05-01 04:37:53 公開日:2021-03-24
# ニューラルサロゲートモデルの3次元高速化のための非圧縮性ナビエ-ストークス方程式の指導

Teaching the Incompressible Navier-Stokes Equations to Fast Neural Surrogate Models in 3D ( http://arxiv.org/abs/2012.11893v2 )

ライセンス: Link先を確認
Nils Wandel, Michael Weinmann, Reinhard Klein(参考訳) 物理的に妥当な流体シミュレーションは、現代のコンピュータグラフィックスと工学において重要な役割を果たす。 しかし、リアルタイム性能を達成するためには、計算速度を物理的精度でトレードオフする必要がある。 ニューラルネットワークに基づく代理流体モデルは、高速流体シミュレーションと高い物理精度の両方を達成することができる。 しかし、これらのアプローチは大量のトレーニングデータに依存し、トレーニングと推論のために複雑なパイプラインを必要とするか、あるいは新しい流体ドメインに一般化しない。 本稿では,最近提案された2Dの課題に対処する深層学習フレームワークの大幅な拡張について述べる。 2Dから3Dへ移行し、メモリと計算の複雑さの観点から3Dグリッドの高要求に対応する効率的なアーキテクチャを提案する。 さらに, 流体の粘度と密度に関する付加的な情報にニューラル流体モデルを適用し, 同一の代理モデルに基づく乱流だけでなく, 層流のシミュレーションも可能とした。 本手法は流体シミュレーションデータを事前に必要とせずに流体モデルを訓練できる。 流体モデルは、t の流体状態と境界条件を直接 t+dt の流体状態にマッピングするので、推論は高速で単純である。 マグヌス効果やカルマン渦など様々な流体現象を含む128x64x64グリッド上での実時間流体シミュレーションを行い、訓練中に考慮されない領域ジオメトリに一般化する。 提案手法は,現行の3次元NN流体モデルよりも精度,速度,一般化能力が向上したことを示す。

Physically plausible fluid simulations play an important role in modern computer graphics and engineering. However, in order to achieve real-time performance, computational speed needs to be traded-off with physical accuracy. Surrogate fluid models based on neural networks have the potential to achieve both, fast fluid simulations and high physical accuracy. However, these approaches rely on massive amounts of training data, require complex pipelines for training and inference or do not generalize to new fluid domains. In this work, we present significant extensions to a recently proposed deep learning framework, which addresses the aforementioned challenges in 2D. We go from 2D to 3D and propose an efficient architecture to cope with the high demands of 3D grids in terms of memory and computational complexity. Furthermore, we condition the neural fluid model on additional information about the fluid's viscosity and density which allows simulating laminar as well as turbulent flows based on the same surrogate model. Our method allows to train fluid models without requiring fluid simulation data beforehand. Inference is fast and simple, as the fluid model directly maps a fluid state and boundary conditions at a moment t to a subsequent fluid state at t+dt. We obtain real-time fluid simulations on a 128x64x64 grid that include various fluid phenomena such as the Magnus effect or Karman vortex streets and generalize to domain geometries not considered during training. Our method indicates strong improvements in terms of accuracy, speed and generalization capabilities over current 3D NN-based fluid models.
翻訳日:2021-04-26 07:19:09 公開日:2021-03-24
# 機械学習による患者の支援の必要性の検出

Detecting the patient's need for help with machine learning ( http://arxiv.org/abs/2012.13626v2 )

ライセンス: Link先を確認
Lauri Lahti(参考訳) 健康分析をサポートする機械学習モデルの開発には、自己評価式ステートメントの統計的特性に関する理解を深める必要がある。 新型コロナウイルスの流行に関する自己評価式を解析し、回答者のグループ間で統計的に有意な差異を識別し、機械学習による支援の必要性を検出する。 調査では、新型コロナウイルスの流行に関する20の健康関連表現の「助けを求める」評価と、健康・幸福・性・年齢に関する9つの回答を収集した。 2020年5月30日から8月3日までのオンライン回答者は、フィンランドの患者および障害者団体、他の健康関連組織、専門家、教育機関から採用した(n=673)。 本研究では,kendallランク相関とコサイン類似度による評価の違いと,wilcoxon rank-sum, kruskal-wallis, one-way analysis of variance (anova) のテストを行い,畳み込みニューラルネットワークアルゴリズムの基本的な実装を用いて機械学習実験を行った。 その結果、「助けを求める」評価と背景質問対について、様々な健康関連表現文ペア間の統計的に有意な相関とコサイン類似度が高いことが判明した。 また、新型コロナウイルスの感染を疑う人の回答値や、推定された健康状態、生活の質、性別によって異なるなど、背景質問の回答値に基づいて、グループ化に関するいくつかの健康関連表現の統計的に有意な評価差を見出した。 畳み込みニューラルネットワークアルゴリズムを用いて行った実験は、患者の表情の助けを求めることを支援する機械学習の適用性を示した。

Developing machine learning models to support health analytics requires increased understanding about statistical properties of self-rated expression statements. We analyzed self-rated expression statements concerning the coronavirus COVID-19 epidemic to identify statistically significant differences between groups of respondents and to detect the patient's need for help with machine learning. Our quantitative study gathered the "need for help" ratings for twenty health-related expression statements concerning the coronavirus epidemic on a 11-point Likert scale, and nine answers about the person's health and wellbeing, sex and age. Online respondents between 30 May and 3 August 2020 were recruited from Finnish patient and disabled people's organizations, other health-related organizations and professionals, and educational institutions (n=673). We analyzed rating differences and dependencies with Kendall rank-correlation and cosine similarity measures and tests of Wilcoxon rank-sum, Kruskal-Wallis and one-way analysis of variance (ANOVA) between groups, and carried out machine learning experiments with a basic implementation of a convolutional neural network algorithm. We found statistically significant correlations and high cosine similarity values between various health-related expression statement pairs concerning the "need for help" ratings and a background question pair. We also identified statistically significant rating differences for several health-related expression statements in respect to groupings based on the answer values of background questions, such as the ratings of suspecting to have the coronavirus infection and having it depending on the estimated health condition, quality of life and sex. Our experiments with a convolutional neural network algorithm showed the applicability of machine learning to support detecting the need for help in the patient's expressions.
翻訳日:2021-04-25 04:30:00 公開日:2021-03-24
# 自動微分物理学インフォームドエコー状態ネットワーク(API-ESN)

Automatic-differenti ated Physics-Informed Echo State Network (API-ESN) ( http://arxiv.org/abs/2101.00002v2 )

ライセンス: Link先を確認
Alberto Racca and Luca Magri(参考訳) 本稿では,自動微分物理学変換エコー状態ネットワーク(API-ESN)を提案する。 ネットワークは、貯水池の正確な時間導出を通じて物理方程式によって制約され、自動微分によって計算される。 オリジナルの物理式エコー状態ネットワークと比較して、時間導出の精度は最大7桁増加する。 この精度の向上はカオス力学システムにおいて重要であり、誤差が指数関数的に増加する。 このネットワークは、カオスシステムの未測定(隠された)状態の再構築で展示される。 API-ESNは、時間微分の計算において、既存の物理インフォームドエコー状態ネットワークに存在するエラーの源を除去する。 これはカオス力学状態を正確に再構築する新しい可能性を開く。

We propose the Automatic-differenti ated Physics-Informed Echo State Network (API-ESN). The network is constrained by the physical equations through the reservoir's exact time-derivative, which is computed by automatic differentiation. As compared to the original Physics-Informed Echo State Network, the accuracy of the time-derivative is increased by up to seven orders of magnitude. This increased accuracy is key in chaotic dynamical systems, where errors grows exponentially in time. The network is showcased in the reconstruction of unmeasured (hidden) states of a chaotic system. The API-ESN eliminates a source of error, which is present in existing physics-informed echo state networks, in the computation of the time-derivative. This opens up new possibilities for an accurate reconstruction of chaotic dynamical states.
翻訳日:2021-04-19 10:54:24 公開日:2021-03-24
# 悪意のある誤記と毒殺攻撃によるアクティブラーニング

Active Learning Under Malicious Mislabeling and Poisoning Attacks ( http://arxiv.org/abs/2101.00157v2 )

ライセンス: Link先を確認
Jing Lin, Ryan Luley, and Kaiqi Xiong(参考訳) ディープニューラルネットワークは通常、画像分類や自然言語処理など、多くのタスクで最先端のパフォーマンスを達成するために、トレーニングのために大きなラベル付きデータセットを必要とする。 世界中のさまざまな分散システムを通じて、アクティブなインターネットユーザによって毎日多くのデータが生成されるが、これらのデータはラベルがなく、データ中毒攻撃に弱い。 本稿では,ラベル付きインスタンスの少ない効率的なアクティブラーニング手法を開発し,ラベル付け予算を増加させることなく,ラベル付き人工データを付加的に生成する逆リトレーニング手法を取り入れる。 生成された逆の例は、モデルの脆弱性を測定する手段も提供します。 提案手法の性能を確認するため,大学構内のプライベートクラウドを用いて,cifar-10データセットの2つのクラス,すなわち「飛行機」と「フラッグ」のみを含む。 実験結果から,提案手法は悪意ある誤記やデータ中毒に対する防御に有効であることが示唆された。 具体的には、ランダムサンプリング戦略に基づくベースラインアクティブラーニング手法は、悪意のあるラベル付け攻撃下では性能が悪く(約50%)、提案手法は平均してデータセットの3分の1しか使用せず、望ましくは89%の精度を達成できる。

Deep neural networks usually require large labeled datasets for training to achieve the start-of-the-art performance in many tasks, such as image classification and natural language processing. Though a lot of data is created each day by active Internet users through various distributed systems across the world, most of these data are unlabeled and are vulnerable to data poisoning attacks. In this paper, we develop an efficient active learning method that requires fewer labeled instances and incorporates the technique of adversarial retraining in which additional labeled artificial data are generated without increasing the labeling budget. The generated adversarial examples also provide a way to measure the vulnerability of the model. To check the performance of the proposed method under an adversarial setting, i.e., malicious mislabeling and data poisoning attacks, we perform an extensive evaluation on the reduced CIFAR-10 dataset, which contains only two classes: 'airplane' and 'frog' by using the private cloud on campus. Our experimental results demonstrate that the proposed active learning method is efficient for defending against malicious mislabeling and data poisoning attacks. Specifically, whereas the baseline active learning method based on the random sampling strategy performs poorly (about 50%) under a malicious mislabeling attack, the proposed active learning method can achieve the desired accuracy of 89% using only one-third of the dataset on average.
翻訳日:2021-04-16 11:13:55 公開日:2021-03-24
# (参考訳) 弱教師付き時間行動定位のためのハイブリッドアテンション機構 [全文訳有]

A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action Localization ( http://arxiv.org/abs/2101.00545v3 )

ライセンス: CC BY 4.0
Ashraful Islam, Chengjiang Long, Richard Radke(参考訳) 弱教師付き時間的行動定位は,訓練映像における動作の接地的位置の欠如による難解な視覚課題である。 トレーニング中のビデオレベルの監視だけで、既存のほとんどのメソッドは、ビデオ内の各アクションカテゴリの開始と終了フレームを予測するためにMIL(Multiple Instance Learning)フレームワークに依存しています。 しかし、既存のMILベースのアプローチは、アクションの最も差別的なフレームのみをキャプチャし、アクティビティの全範囲を無視するという大きな制限がある。 また,前景活動の局所化において重要な役割を担っている背景活動を効果的にモデル化することはできない。 本稿では,これらの問題に対処するための時間的ソフト,セミソフト,ハードアテンションを含むハイブリッドアテンション機構を備えた,HAM-Netという新しいフレームワークを提案する。 我々の時間的ソフトアテンションモジュールは、分類モジュールの補助的バックグラウンドクラスによってガイドされ、各ビデオスニペットに「アクションネス」スコアを導入して背景活動をモデル化する。 さらに,ビデオスニペット毎に2点の注意スコアを算出した時間的半ソフト・ハードアテンションモジュールは,アクションの識別の少ないフレームに焦点を合わせ,フルアクション境界を捉えるのに役立つ。 提案手法は,THUMOS14データセットのIoUしきい値0.5で少なくとも2.2% mAP,ActivityNet1.2データセットのIoUしきい値0.75で少なくとも1.3% mAP,最新の最先端手法よりも優れている。 コードは、https://github.com/a srafulashiq/hamnet.c omで参照できる。

Weakly supervised temporal action localization is a challenging vision task due to the absence of ground-truth temporal locations of actions in the training videos. With only video-level supervision during training, most existing methods rely on a Multiple Instance Learning (MIL) framework to predict the start and end frame of each action category in a video. However, the existing MIL-based approach has a major limitation of only capturing the most discriminative frames of an action, ignoring the full extent of an activity. Moreover, these methods cannot model background activity effectively, which plays an important role in localizing foreground activities. In this paper, we present a novel framework named HAM-Net with a hybrid attention mechanism which includes temporal soft, semi-soft and hard attentions to address these issues. Our temporal soft attention module, guided by an auxiliary background class in the classification module, models the background activity by introducing an "action-ness" score for each video snippet. Moreover, our temporal semi-soft and hard attention modules, calculating two attention scores for each video snippet, help to focus on the less discriminative frames of an action to capture the full action boundary. Our proposed approach outperforms recent state-of-the-art methods by at least 2.2% mAP at IoU threshold 0.5 on the THUMOS14 dataset, and by at least 1.3% mAP at IoU threshold 0.75 on the ActivityNet1.2 dataset. Code can be found at: https://github.com/a srafulashiq/hamnet.
翻訳日:2021-04-13 06:03:08 公開日:2021-03-24
# がん予測のための個人的フェデレーション学習

Differentially Private Federated Learning for Cancer Prediction ( http://arxiv.org/abs/2101.02997v2 )

ライセンス: Link先を確認
Constance Beguier, Jean Ogier du Terrail, Iqraa Meah, Mathieu Andreux, Eric W. Tramel(参考訳) 2014年以降、NIHはiDASH (Data for Analysis, Anonymization, SHaring) National Center for Biomedical Computingに出資し、ゲノムデータのプライベートコンピューティングに関する年次大会を開催している。 このコンペの2020年イテレーションの1つのトラックでは、参加者は差分プライバシー(dp)を用いたゲノムがん予測モデルのフェデレーション学習(fl)トレーニングに挑戦され、所定のdp予算の保留テスト精度に応じて応募がランク付けされた。 より正確には、我々は2つの仮想センター間で分割されたゲノムデータから乳がんの発生を予測するための教師付きモデルを訓練し、DPによるモデル転送に関してデータのプライバシーを確保する。 本稿では,このコンペティションへの3位提案について述べる。 コンペでは,プライバシ予算評価の正しさの確保と,予測性能とプライバシ予算とのトレードオフを許容できるものにすること,という2つの課題に遭遇した。

Since 2014, the NIH funded iDASH (integrating Data for Analysis, Anonymization, SHaring) National Center for Biomedical Computing has hosted yearly competitions on the topic of private computing for genomic data. For one track of the 2020 iteration of this competition, participants were challenged to produce an approach to federated learning (FL) training of genomic cancer prediction models using differential privacy (DP), with submissions ranked according to held-out test accuracy for a given set of DP budgets. More precisely, in this track, we are tasked with training a supervised model for the prediction of breast cancer occurrence from genomic data split between two virtual centers while ensuring data privacy with respect to model transfer via DP. In this article, we present our 3rd place submission to this competition. During the competition, we encountered two main challenges discussed in this article: i) ensuring correctness of the privacy budget evaluation and ii) achieving an acceptable trade-off between prediction performance and privacy budget.
翻訳日:2021-04-10 05:08:59 公開日:2021-03-24
# (参考訳) Pyfectious:疫病の予防に最適な封じ込め警察を見つけるための個人レベルのシミュレータ

Pyfectious: An individual-level simulator to discover optimal containment polices for epidemic diseases ( http://arxiv.org/abs/2103.15561v1 )

ライセンス: CC BY 4.0
Arash Mehrjou, Ashkan Soleymani, Amin Abyaneh, Bernhard Sch\"olkopf, Stefan Bauer(参考訳) ヒトのコミュニティにおける感染症の拡散のシミュレーションは、流行の軌跡を予測し、流行の壊滅的な影響を制御するための様々な政策を検証するために重要である。 多くの既存のシミュレータは、人をいくつかのサブセットに分割し、仮説化された微分方程式を用いてそれらのサブセット間の力学をシミュレートするコンパートメントモデルに基づいている。 しかし、これらのモデルは、個々の個人に特定の方法で影響を与えるインテリジェントな政策の効果を研究するための必要な粒度を欠いている。 本研究では,個体群構造をモデル化し,疾患の伝播を個別性レベルで制御できるシミュレータソフトウェアを提案する。 シミュレーションから得られた結論の信頼度を推定するために,集団全体を階層的確率変数として構成する包括的確率論的アプローチを採用する。 このアプローチにより、推定された結論はサンプリングされたアーティファクトに対してより強固になり、シミュレーション結果に基づいて決定に自信を与える。 潜在的な応用例を示すために,covid-19パンデミックの形式統計に基づいてシミュレータパラメータを設定し,幅広い対策の結果について検討する。 さらに,このシミュレータを強化学習問題の環境として活用し,パンデミック対策の最適方針を見いだす。 得られた実験結果から,シミュレータの適応性と音響予測能力,実世界データに基づく方針導出事例が得られた。 事例として,本研究の結果から,本手法は,人口が有意に減少し,健康系が飽和から保護されるような対策に繋がる可能性が示唆された。

Simulating the spread of infectious diseases in human communities is critical for predicting the trajectory of an epidemic and verifying various policies to control the devastating impacts of the outbreak. Many existing simulators are based on compartment models that divide people into a few subsets and simulate the dynamics among those subsets using hypothesized differential equations. However, these models lack the requisite granularity to study the effect of intelligent policies that influence every individual in a particular way. In this work, we introduce a simulator software capable of modeling a population structure and controlling the disease's propagation at an individualistic level. In order to estimate the confidence of the conclusions drawn from the simulator, we employ a comprehensive probabilistic approach where the entire population is constructed as a hierarchical random variable. This approach makes the inferred conclusions more robust against sampling artifacts and gives confidence bounds for decisions based on the simulation results. To showcase potential applications, the simulator parameters are set based on the formal statistics of the COVID-19 pandemic, and the outcome of a wide range of control measures is investigated. Furthermore, the simulator is used as the environment of a reinforcement learning problem to find the optimal policies to control the pandemic. The obtained experimental results indicate the simulator's adaptability and capacity in making sound predictions and a successful policy derivation example based on real-world data. As an exemplary application, our results show that the proposed policy discovery method can lead to control measures that produce significantly fewer infected individuals in the population and protect the health system against saturation.
翻訳日:2021-04-05 01:34:47 公開日:2021-03-24
# 科学発見マシンの構築に向けて

Toward Building Science Discovery Machines ( http://arxiv.org/abs/2103.15551v1 )

ライセンス: Link先を確認
Abdullah Khalili and Abdelhamid Bouchachia(参考訳) 科学ができる機械を作るという夢は、何十年も科学者に影響を与えてきた。 注目すべき進歩が最近行われたが、まだこの目標を達成するには程遠い。 本稿では,高レベルの推論と顕著な問題解決能力を必要とする科学的発見プロセスに焦点を当てる。 我々は、科学的発見で使用される様々な機械学習技術とその限界についてレビューする。 我々は、科学的発見過程を導く主要な原則を調査し、議論する。 これらの原理は異なる分野や異なる科学者によって問題解決や新しい知識の発見に使われている。 これらの原理を物理学、数学、生物学など様々な分野に応用する例を数多く紹介する。 また、これらの原則の実装を試みるAIシステムについてもレビューしています。 我々は、科学発見機械を構築し、科学発見プロセスを高速化するために、これらの原理をカプセル化する理論的および計算的枠組みを構築するべきであると論じている。 これらの原則を完全に自動で組み込むマシンは、多くの進歩のために扉を開くかもしれない。

The dream of building machines that can do science has inspired scientists for decades. Remarkable advances have been made recently; however, we are still far from achieving this goal. In this paper, we focus on the scientific discovery process where a high level of reasoning and remarkable problem-solving ability are required. We review different machine learning techniques used in scientific discovery with their limitations. We survey and discuss the main principles driving the scientific discovery process. These principles are used in different fields and by different scientists to solve problems and discover new knowledge. We provide many examples of the use of these principles in different fields such as physics, mathematics, and biology. We also review AI systems that attempt to implement some of these principles. We argue that in order to build science discovery machines and speed up the scientific discovery process, we should build theoretical and computational frameworks that encapsulate these principles. Building machines that fully incorporate these principles in an automated way might open the doors for many advancements.
翻訳日:2021-04-05 01:08:52 公開日:2021-03-24
# (参考訳) 量子力学と機械学習のシナジー:化学反応性を予測するグラフ注意ニューラルネットワーク [全文訳有]

Quantum Mechanics and Machine Learning Synergies: Graph Attention Neural Networks to Predict Chemical Reactivity ( http://arxiv.org/abs/2103.14536v1 )

ライセンス: CC BY 4.0
Mohammadamin Tavakoli, Aaron Mood, David Van Vranken, Pierre Baldi(参考訳) 有機化学における官能基の反応性のスケーラブルな定量的測定が欠如している。 反応性を実験的に測定することは費用がかかり、時間がかかるため、化学空間の天文学的な大きさにはスケールしない。 従来の量子化学研究では, メチルカチオン親和性 (mca*) とメチルアニオン親和性 (maa*) を溶媒和モデルを用いて導入し, 最も広い範囲の有機官能基に対する反応性の定量的測定を行った。 MCA*とMAA*は反応パラメータの優れた推定値を提供するが、密度汎関数理論(DFT)シミュレーションによる計算には時間がかかる。 この問題を回避するために、我々はまずDFTを用いて2400以上の有機分子のMCA*とMAA*を計算し、化学反応性スコアの大規模なデータセットを確立する。 次に、分子構造の反応性を予測し、このキュレートされたデータセットと異なる分子構造の表現の組み合わせを用いて学習する深層学習法を設計する。 10倍のクロスバリデーションを用いて,情報入力指紋に適用したグラフ注意ニューラルネットワークが,最も正確な反応性推定値を生成し,50桁以上のmca* plus-minus 3.0あるいはmaa* plus-minus 3.0を91%以上の精度で予測できることを示した。 最後に,これらの反応性スコアを,(1)化学反応予測,(2)反応機構の組合せ生成という2つのタスクに適用することを示す。 mca* と maa* のデータセットは chemdb chemoinformatics web portal at www.cdb.ics.uci.edu で入手できる。

There is a lack of scalable quantitative measures of reactivity for functional groups in organic chemistry. Measuring reactivity experimentally is costly and time-consuming and does not scale to the astronomical size of chemical space. In previous quantum chemistry studies, we have introduced Methyl Cation Affinities (MCA*) and Methyl Anion Affinities (MAA*), using a solvation model, as quantitative measures of reactivity for organic functional groups over the broadest range. Although MCA* and MAA* offer good estimates of reactivity parameters, their calculation through Density Functional Theory (DFT) simulations is time-consuming. To circumvent this problem, we first use DFT to calculate MCA* and MAA* for more than 2,400 organic molecules thereby establishing a large dataset of chemical reactivity scores. We then design deep learning methods to predict the reactivity of molecular structures and train them using this curated dataset in combination with different representations of molecular structures. Using ten-fold cross-validation, we show that graph attention neural networks applied to informative input fingerprints produce the most accurate estimates of reactivity, achieving over 91% test accuracy for predicting the MCA* plus-minus 3.0 or MAA* plus-minus 3.0, over 50 orders of magnitude. Finally, we demonstrate the application of these reactivity scores to two tasks: (1) chemical reaction prediction; (2) combinatorial generation of reaction mechanisms. The curated dataset of MCA* and MAA* scores is available through the ChemDB chemoinformatics web portal at www.cdb.ics.uci.edu.
翻訳日:2021-03-30 05:11:49 公開日:2021-03-24
# (参考訳) 画像ベースマルウェア分類のためのCNN vs ELM [全文訳有]

CNN vs ELM for Image-Based Malware Classification ( http://arxiv.org/abs/2103.13820v1 )

ライセンス: CC BY 4.0
Mugdha Jain and William Andreopoulos and Mark Stamp(参考訳) マルウェア分類の分野での研究は、オプコード、関数呼び出し、制御フローグラフなどの高レベルな機能に基づいて訓練された機械学習モデルに依存することが多い。 このような機能の抽出にはコストがかかる。 本稿では,コードの分解や実行を伴わない特徴に基づいて,マルウェア分類のための機械学習モデルを訓練し,評価する実験を行う。 具体的には,マルウェアのサンプルを画像として可視化し,画像解析を行う。 この文脈では、CNN(Convolutional Neural Networks)とELM(Extreme Learning Machines)という、2つの機械学習モデルに焦点を当てる。 驚くべきことに、EMMはCNNと同等の精度を達成できるが、EMMトレーニングは同等のCNNをトレーニングするのに要する時間のうち、約2倍の時間を要する。

Research in the field of malware classification often relies on machine learning models that are trained on high-level features, such as opcodes, function calls, and control flow graphs. Extracting such features is costly, since disassembly or code execution is generally required. In this paper, we conduct experiments to train and evaluate machine learning models for malware classification, based on features that can be obtained without disassembly or execution of code. Specifically, we visualize malware samples as images and employ image analysis techniques. In this context, we focus on two machine learning models, namely, Convolutional Neural Networks (CNN) and Extreme Learning Machines (ELM). Surprisingly, we find that ELMs can achieve accuracies on par with CNNs, yet ELM training requires less than~2\%\ of the time needed to train a comparable CNN.
翻訳日:2021-03-27 04:22:24 公開日:2021-03-24
# (参考訳) マルウェア分類のための画像ベース学習技術の実証分析 [全文訳有]

An Empirical Analysis of Image-Based Learning Techniques for Malware Classification ( http://arxiv.org/abs/2103.13827v1 )

ライセンス: CC BY 4.0
Pratikkumar Prajapati and Mark Stamp(参考訳) 本稿では,ディープラーニング技術と画像に基づく特徴を用いたマルウェア分類について検討する。 我々は多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)、ゲートリカレントユニット(GRU)など多種多様なディープラーニング技術を採用している。 CNN実験の中では、転送学習が特に重要な役割を担い、VGG-19とResNet152モデルをテストする。 これまでの研究と比較して,本論文で提示された結果は,より大きく,より多様なマルウェアデータセットに基づいており,より広範な機能を検討し,より多様な学習手法を実験している。 その結果、我々の成果は、まだ公表されていない最も包括的で完全なものである。

In this paper, we consider malware classification using deep learning techniques and image-based features. We employ a wide variety of deep learning techniques, including multilayer perceptrons (MLP), convolutional neural networks (CNN), long short-term memory (LSTM), and gated recurrent units (GRU). Amongst our CNN experiments, transfer learning plays a prominent role specifically, we test the VGG-19 and ResNet152 models. As compared to previous work, the results presented in this paper are based on a larger and more diverse malware dataset, we consider a wider array of features, and we experiment with a much greater variety of learning techniques. Consequently, our results are the most comprehensive and complete that have yet been published.
翻訳日:2021-03-27 04:08:22 公開日:2021-03-24
# (参考訳) 離散学習サンプルを用いた連続変数最大確率の混合密度ネットワーク推定 [全文訳有]

Mixture Density Network Estimation of Continuous Variable Maximum Likelihood Using Discrete Training Samples ( http://arxiv.org/abs/2103.13416v1 )

ライセンス: CC BY 4.0
Charles Burton, Spencer Stubbs, Peter Onyisi(参考訳) 混合密度ネットワーク (mdns) はモデルパラメータの確率密度関数 $\boldsymbol{\theta}$ を生成するのに使うことができる。 一部のアプリケーションでは、トレーニングデータは連続パラメータ $\boldsymbol{\theta}$ の離散値に対してのみ利用可能である。 このような状況では、多くのパフォーマンス制限問題が発生し、バイアスのある見積もりが生じる。 パラメータ推定におけるmdnsの利用を実証し,バイアスの起源を議論し,各問題に対する修正手法を提案する。

Mixture Density Networks (MDNs) can be used to generate probability density functions of model parameters $\boldsymbol{\theta}$ given a set of observables $\mathbf{x}$. In some applications, training data are available only for discrete values of a continuous parameter $\boldsymbol{\theta}$. In such situations a number of performance-limiting issues arise which can result in biased estimates. We demonstrate the usage of MDNs for parameter estimation, discuss the origins of the biases, and propose a corrective method for each issue.
翻訳日:2021-03-27 03:55:21 公開日:2021-03-24
# (参考訳) TagMe:ビデオにおけるGPSによる自動オブジェクトアノテーション [全文訳有]

TagMe: GPS-Assisted Automatic Object Annotation in Videos ( http://arxiv.org/abs/2103.13428v1 )

ライセンス: CC BY 4.0
Songtao He, Favyen Bastani, Mohammad Alizadeh, Hari Balakrishnan, Michael Cafarella, Tim Kraska, Sam Madden(参考訳) 高精度なオブジェクト検出モデルのトレーニングには、大きくて多様な注釈付きデータセットが必要です。 しかし、人間のアノテーションに依存するため、これらのデータセットの作成には時間と費用がかかる。 gpsデータを用いたビデオの自動オブジェクトアノテーションのための新しいアプローチであるtagmeを設計し,実装し,評価する。 オブジェクトのgpsトレースが利用可能であれば、tagmeは、gpsトレースからのオブジェクトの動きとビデオ内のピクセルの動きとをマッチングして、ビデオ内のオブジェクトに属するピクセルを見つけ、オブジェクトのバウンディングボックスアノテーションを作成する。 TagMeは受動的データ収集を使用しており、人間のアノテーションなしで屋外のビデオストリームから新しいオブジェクトアノテーションを連続的に生成することができる。 我々は100本のビデオクリップのデータセット上でTagMeを評価する。 TagMeが完全自動で低コストで高品質なオブジェクトアノテーションを作成できることを示す。 従来のHuman-in-the-loopソリューションと比較して、TagMeは110倍のコストで同じ量のアノテーションを作成できる。

Training high-accuracy object detection models requires large and diverse annotated datasets. However, creating these data-sets is time-consuming and expensive since it relies on human annotators. We design, implement, and evaluate TagMe, a new approach for automatic object annotation in videos that uses GPS data. When the GPS trace of an object is available, TagMe matches the object's motion from GPS trace and the pixels' motions in the video to find the pixels belonging to the object in the video and creates the bounding box annotations of the object. TagMe works using passive data collection and can continuously generate new object annotations from outdoor video streams without any human annotators. We evaluate TagMe on a dataset of 100 video clips. We show TagMe can produce high-quality object annotations in a fully-automatic and low-cost way. Compared with the traditional human-in-the-loop solution, TagMe can produce the same amount of annotations at a much lower cost, e.g., up to 110x.
翻訳日:2021-03-27 03:45:06 公開日:2021-03-24
# (参考訳) stylekqc: 韓国語質問とコマンドのためのスタイル可変パラフレーズコーパス [全文訳有]

StyleKQC: A Style-Variant Paraphrase Corpus for Korean Questions and Commands ( http://arxiv.org/abs/2103.13439v1 )

ライセンス: CC BY-SA 4.0
Won Ik Cho, Sangwhan Moon, Jong In Kim, Seok Min Kim, Nam Soo Kim(参考訳) パラフレーズ化はしばしば、制御されたスタイル変換に対する関心を減らして行われる。 特に質問やコマンドの場合、スタイル不変のパラフレーズはトーンや方法において重要であり、ダイアログシステムのような産業的応用においても重要である。 本稿では,韓国語における指示文の中核的内容とスタイル,すなわち意図と形式を同時に検討するコーパス構築方式を用いて,この問題に対処する。 人手による6つのトピックの自然言語クエリを用いて,人間の書き直しと変換によってコーパスを形式的文と形式的文に拡張する。 本手法の妥当性と工業的適用性を検証するために, 微調整手法に適合する適切な分類と推論性能の検証と同時に, 教師あり形式変換タスクを提案する。

Paraphrasing is often performed with less concern for controlled style conversion. Especially for questions and commands, style-variant paraphrasing can be crucial in tone and manner, which also matters with industrial applications such as dialog system. In this paper, we attack this issue with a corpus construction scheme that simultaneously considers the core content and style of directives, namely intent and formality, for the Korean language. Utilizing manually generated natural language queries on six daily topics, we expand the corpus to formal and informal sentences by human rewriting and transferring. We verify the validity and industrial applicability of our approach by checking the adequate classification and inference performance that fit with the fine-tuning approaches, at the same time proposing a supervised formality transfer task.
翻訳日:2021-03-27 03:28:50 公開日:2021-03-24
# (参考訳) ニューラルビームフォーミングを用いたブラインド音声分離とデバーベレーション [全文訳有]

Blind Speech Separation and Dereverberation using Neural Beamforming ( http://arxiv.org/abs/2103.13443v1 )

ライセンス: CC BY 4.0
Lukas Pfeifenberger and Franz Pernkopf(参考訳) 本稿では,単一ニューラルネットワークにおける話者分離と話者識別を同時に行うbssd(blind speech separation and dereverberation)ネットワークを提案する。 話者分離は予め定義された空間的手がかりによって導かれる。 残響は神経ビームフォーミングを用いて行われ、話者識別は埋め込みベクトルと三重項マイニングによって支援される。 本稿では,ニューラルネットワークを用いた周波数領域モデルと,潜在空間でビームフォーミングを行う時間領域変種を提案する。 さらに,会議シナリオで発生する長大な音声録音を処理するブロックオンラインモードを提案する。 本研究では,si-sdr(scale independent signal to distortion ratio),wer(word error rate)およびeer(equal error rate)を用いて評価を行った。

In this paper, we present the Blind Speech Separation and Dereverberation (BSSD) network, which performs simultaneous speaker separation, dereverberation and speaker identification in a single neural network. Speaker separation is guided by a set of predefined spatial cues. Dereverberation is performed by using neural beamforming, and speaker identification is aided by embedding vectors and triplet mining. We introduce a frequency-domain model which uses complex-valued neural networks, and a time-domain variant which performs beamforming in latent space. Further, we propose a block-online mode to process longer audio recordings, as they occur in meeting scenarios. We evaluate our system in terms of Scale Independent Signal to Distortion Ratio (SI-SDR), Word Error Rate (WER) and Equal Error Rate (EER).
翻訳日:2021-03-27 03:21:10 公開日:2021-03-24
# (参考訳) 属性結合化のためのganとのマッチングサンプル選択 [全文訳有]

Matched sample selection with GANs for mitigating attribute confounding ( http://arxiv.org/abs/2103.13455v1 )

ライセンス: CC BY 4.0
Chandan Singh, Guha Balakrishnan, Pietro Perona(参考訳) 性別や年齢といった保護された属性に対する視覚システムのバイアスを測定することは、これらのシステムが社会で広く使われるようになるために重要である。 しかし、ベンチマークデータセットの属性間の有意な相関は、アルゴリズムバイアスとデータセットバイアスの分離を難しくする。 バイアス解析において,そのような属性の共起を緩和するために,保護属性間のバランスの取れた属性分布を持つ全データセットから,画像のサブセットを選択するマッチング手法を提案する。 我々のマッチング手法は,まず実画像からGAN(Generative Adversarial Network)の潜在空間に,意味的属性を保存する方法で投影する。 次に、選択された保護属性をまたいでこの潜在空間で画像マッチングを見つけ、セマンティクスと知覚属性が保護属性間でバランスをとるデータセットを生成する。 予測とマッチング戦略を質的,定量的,人間のアノテーション実験で検証する。 私たちは、複数のオープンソース顔認識分類器におけるジェンダーバイアスの文脈で、私たちの仕事の成果を実証し、マッチングによって重要な共同創設者を取り除いた後、バイアスが持続することを見出します。 ここで結果を再現し、メソッドを新しいデータに適用するためのコードとドキュメントはhttps://github.com/c sinva/matching-with- gans.orgで公開されている。

Measuring biases of vision systems with respect to protected attributes like gender and age is critical as these systems gain widespread use in society. However, significant correlations between attributes in benchmark datasets make it difficult to separate algorithmic bias from dataset bias. To mitigate such attribute confounding during bias analysis, we propose a matching approach that selects a subset of images from the full dataset with balanced attribute distributions across protected attributes. Our matching approach first projects real images onto a generative adversarial network (GAN)'s latent space in a manner that preserves semantic attributes. It then finds image matches in this latent space across a chosen protected attribute, yielding a dataset where semantic and perceptual attributes are balanced across the protected attribute. We validate projection and matching strategies with qualitative, quantitative, and human annotation experiments. We demonstrate our work in the context of gender bias in multiple open-source facial-recognition classifiers and find that bias persists after removing key confounders via matching. Code and documentation to reproduce the results here and apply the methods to new data is available at https://github.com/c sinva/matching-with- gans .
翻訳日:2021-03-27 02:55:03 公開日:2021-03-24
# (参考訳) 圧力下:バロメトリック触覚センサによる滑り検出の学習 [全文訳有]

Under Pressure: Learning to Detect Slip with Barometric Tactile Sensors ( http://arxiv.org/abs/2103.13460v1 )

ライセンス: CC BY 4.0
Abhinav Grover, Christopher Grebe, Philippe Nadeau, Jonathan Kelly(参考訳) 触覚フィードバックを通じて物体のすべりを知覚する能力により、人間は安定した把握の維持を含む複雑な操作を達成できる。 多くのロボティクスアプリケーションに触覚情報の有用性があるにもかかわらず、触覚センサーは産業環境では広く展開されていない。 本稿では,バロメトリック・触覚センサを用いてスリップを検出する学習手法を提案する。 これらのセンサーは高い信頼性と耐久性を含む多くの望ましい特性を持ち、非常に安価な部品で構築されている。 我々はスリップ運動の速度と方向に頑健さを示しながら、91%以上のスリップ検出精度を達成することができる。 さらに,多種多様な共通物体を含む2つのロボット操作タスク上で検出装置を試験し,訓練中に見えない実世界のシナリオへの一般化を実証した。 データ駆動学習と組み合わせたバロメトリック触覚センシング技術は,スリップ補償などの複雑な操作に適している可能性が示唆された。

The ability to perceive object slip through tactile feedback allows humans to accomplish complex manipulation tasks including maintaining a stable grasp. Despite the utility of tactile information for many robotics applications, tactile sensors have yet to be widely deployed in industrial settings -- part of the challenge lies in identifying slip and other key events from the tactile data stream. In this paper, we present a learning-based method to detect slip using barometric tactile sensors. These sensors have many desirable properties including high reliability and durability, and are built from very inexpensive components. We are able to achieve slip detection accuracies of greater than 91% while displaying robustness to the speed and direction of the slip motion. Further, we test our detector on two robot manipulation tasks involving a variety of common objects and demonstrate successful generalization to real-world scenarios not seen during training. We show that barometric tactile sensing technology, combined with data-driven learning, is potentially suitable for many complex manipulation tasks such as slip compensation.
翻訳日:2021-03-27 02:38:39 公開日:2021-03-24
# (参考訳) ヒップX線画像における骨密度推定のための半教師付き学習 [全文訳有]

Semi-Supervised Learning for Bone Mineral Density Estimation in Hip X-ray Images ( http://arxiv.org/abs/2103.13482v1 )

ライセンス: CC BY 4.0
Kang Zheng, Yirui Wang, Xiaoyun Zhou, Fakai Wang, Le Lu, Chihung Lin, Lingyun Huang, Guotong Xie, Jing Xiao, Chang-Fu Kuo, Shun Miao(参考訳) 骨密度(BMD)は骨粗しょう症の臨床的に重要な指標であり、通常は二重エネルギーX線吸収率(DEXA)によって測定される。 DEXAマシンのアクセシビリティの制限と検査のため、骨粗しょう症はしばしば診断が不十分で治療が不十分であり、不安定性骨折のリスクが増大する。 したがって,X線プレーンフィルムなどの医用画像検査に代えて,コスト効率が高く,よりアクセスしやすいBMDを得るのが望ましい。 そこで本研究では, 股関節X線像からのBMD推定を回帰問題として定式化する。 具体的には、DEXA測定されたBMDとラベルなし画像と擬似BMDとを組み合わせた画像を用いて、BMD回帰モデルを訓練する半教師付き自己学習アルゴリズムを提案する。 自己学習中にラベルのない画像に対して擬似BMDを生成・洗練する。 また,モデルの回帰精度を向上させるために,新しい適応三重項損失を提案する。 1,090画像(819名)の社内データセットにおいて,bmd推定法は,0.8805対地面bmdと高いピアソン相関係数を達成する。 よりアクセシブルで安価なX線画像を用いて骨粗しょう症のスクリーニングを行うことが可能である。

Bone mineral density (BMD) is a clinically critical indicator of osteoporosis, usually measured by dual-energy X-ray absorptiometry (DEXA). Due to the limited accessibility of DEXA machines and examinations, osteoporosis is often under-diagnosed and under-treated, leading to increased fragility fracture risks. Thus it is highly desirable to obtain BMDs with alternative cost-effective and more accessible medical imaging examinations such as X-ray plain films. In this work, we formulate the BMD estimation from plain hip X-ray images as a regression problem. Specifically, we propose a new semi-supervised self-training algorithm to train the BMD regression model using images coupled with DEXA measured BMDs and unlabeled images with pseudo BMDs. Pseudo BMDs are generated and refined iteratively for unlabeled images during self-training. We also present a novel adaptive triplet loss to improve the model's regression accuracy. On an in-house dataset of 1,090 images (819 unique patients), our BMD estimation method achieves a high Pearson correlation coefficient of 0.8805 to ground-truth BMDs. It offers good feasibility to use the more accessible and cheaper X-ray imaging for opportunistic osteoporosis screening.
翻訳日:2021-03-27 02:22:56 公開日:2021-03-24
# (参考訳) 色補正による機械学習による光学顕微鏡画像の自動グラフェン検出 [全文訳有]

Machine Learning-based Automatic Graphene Detection with Color Correction for Optical Microscope Images ( http://arxiv.org/abs/2103.13495v1 )

ライセンス: CC0 1.0
Hui-Ying Siao, Siyu Qi, Zhi Ding, Chia-Yu Lin, Yu-Chiang Hsieh, and Tse-Ming Chen(参考訳) グラフェンは様々な分野で重要な応用と研究の目的を担っている。 しかし、高品質で大量のグラフェンを製造するのに時間がかかり、人的資源の負担がかかる。 本稿では,カラー補正(MLA-GDCC)を用いた機械学習による自動グラフェン検出手法を提案する。 MLA−GDCCは、画像上の色不均衡を補正するホワイトバランス(WB)と、グラフェンフレークを分割する修正されたU-Netとサポートベクターマシン(SVM)とを含む。 異なるカメラによる画像の色変化を考慮すると、色画素の不均衡を補正するためにWB補正を適用する。 高速かつ高精度な画像セグメンテーションのための畳み込みニューラルネットワーク(CNN)アーキテクチャである修正U-Netモデルを導入し、グラフェンフレークを背景からセグメント化する。 画素レベルの精度を向上させるため,修正されたU-Netモデルの後,SVMを実装し,単層および二層グラフェンフレークを分離する。 MLA-GDCCは単層グラフェンの87.09%、二層グラフェンの90.41%、単層グラフェンの99.27%、複層グラフェンの98.92%の画素レベルの精度を達成している。 MLA-GDCCはグラフェンフレークの高検出率を達成するだけでなく、グラフェン検出プロセスの遅延を数時間から数秒に短縮する。

Graphene serves critical application and research purposes in various fields. However, fabricating high-quality and large quantities of graphene is time-consuming and it requires heavy human resource labor costs. In this paper, we propose a Machine Learning-based Automatic Graphene Detection Method with Color Correction (MLA-GDCC), a reliable and autonomous graphene detection from microscopic images. The MLA-GDCC includes a white balance (WB) to correct the color imbalance on the images, a modified U-Net and a support vector machine (SVM) to segment the graphene flakes. Considering the color shifts of the images caused by different cameras, we apply WB correction to correct the imbalance of the color pixels. A modified U-Net model, a convolutional neural network (CNN) architecture for fast and precise image segmentation, is introduced to segment the graphene flakes from the background. In order to improve the pixel-level accuracy, we implement a SVM after the modified U-Net model to separate the monolayer and bilayer graphene flakes. The MLA-GDCC achieves flake-level detection rates of 87.09% for monolayer and 90.41% for bilayer graphene, and the pixel-level accuracy of 99.27% for monolayer and 98.92% for bilayer graphene. MLA-GDCC not only achieves high detection rates of the graphene flakes but also speeds up the latency for the graphene detection process from hours to seconds.
翻訳日:2021-03-27 02:15:25 公開日:2021-03-24
# (参考訳) 小児WbMRIにおける教師なし異常検出のための3次元推論 [全文訳有]

3D Reasoning for Unsupervised Anomaly Detection in Pediatric WbMRI ( http://arxiv.org/abs/2103.13497v1 )

ライセンス: CC BY 4.0
Alex Chang, Vinith Suriyakumar, Abhishek Moturu, James Tu, Nipaporn Tewattanarat, Sayali Joshi, Andrea Doria and Anna Goldenberg(参考訳) 現代の深層教師なし学習法は、様々な医用イメージングモードにまたがる疾患の検出に非常に有望である。 従来の生成モデルでは,正常な2次元画像スライス分布を学習して異常検出に成功していたが,これらスライスを独立に処理し,それらが相関しているという事実を無視し,すべて3次元ボリュームからサンプリングした。 3Dコンテキストを取り入れて全身MRIのボリュームを処理することは,異常を良質のものと区別する上で有益であることを示す。 本研究は,全身MRI(wbMRI)における病変検出を行うための多チャンネルスライディングウインドウ生成モデルを提案する。 実験の結果,提案手法は個々の画像の分離処理において著しく優れており,また3次元推論の重要性が明らかとなった。 さらに,本研究は,小児検診における異常検出をさらに改善するために,追加の患者固有の機能を含めることも有益であることを示す。

Modern deep unsupervised learning methods have shown great promise for detecting diseases across a variety of medical imaging modalities. While previous generative modeling approaches successfully perform anomaly detection by learning the distribution of healthy 2D image slices, they process such slices independently and ignore the fact that they are correlated, all being sampled from a 3D volume. We show that incorporating the 3D context and processing whole-body MRI volumes is beneficial to distinguishing anomalies from their benign counterparts. In our work, we introduce a multi-channel sliding window generative model to perform lesion detection in whole-body MRI (wbMRI). Our experiments demonstrate that our proposed method significantly outperforms processing individual images in isolation and our ablations clearly show the importance of 3D reasoning. Moreover, our work also shows that it is beneficial to include additional patient-specific features to further improve anomaly detection in pediatric scans.
翻訳日:2021-03-27 02:06:18 公開日:2021-03-24
# (参考訳) 投影:人工知能における人間ライクな推論のメカニズム [全文訳有]

Projection: A Mechanism for Human-like Reasoning in Artificial Intelligence ( http://arxiv.org/abs/2103.13512v1 )

ライセンス: CC BY-SA 4.0
Frank Guerin(参考訳) 人工知能システムは、プログラムされたものや訓練されたものとは異なる状況に知識を適用する人間の能力とはまだ一致しない。 トップダウン情報を利用した視覚的物体認識法では,難易度の高い物体の認識に有効であることが示されている。 ここで、このような推論は「プロジェクション」と呼ばれ、ビジョン、ロボティクス、言語など、さまざまなai領域にまたがる様々な状況に知識を適用するという問題を解決するための重要なメカニズムであることが示されている。 最後に,コモンセンス知識問題に対する予測の関連について論じる。

Artificial Intelligence systems cannot yet match human abilities to apply knowledge to situations that vary from what they have been programmed for, or trained for. In visual object recognition methods of inference exploiting top-down information (from a model) have been shown to be effective for recognising entities in difficult conditions. Here this type of inference, called `projection', is shown to be a key mechanism to solve the problem of applying knowledge to varied or challenging situations, across a range of AI domains, such as vision, robotics, or language. Finally the relevance of projection to tackling the commonsense knowledge problem is discussed.
翻訳日:2021-03-27 01:57:55 公開日:2021-03-24
# (参考訳) 群衆の歩行者の頭部追跡 [全文訳有]

Tracking Pedestrian Heads in Dense Crowd ( http://arxiv.org/abs/2103.13516v1 )

ライセンス: CC BY 4.0
Ramana Sundararaman, Cedric De Almeida Braga, Eric Marchand, Julien Pettre(参考訳) 混み合ったビデオシーケンスで人間を追跡することは、視覚的シーン理解の重要な構成要素である。 人口密度の増大は、人間の可視性に挑戦し、既存の歩行者追跡装置のスケーラビリティを高い群衆密度に制限する。 そこで我々は,11,463フレームの9つのシーケンスと2,276,838以上のヘッド,5,230トラックからなる,クラウド・オブ・ヘッドス・データセット(CroHD)によるヘッドトラッキングの活性化を提案する。 評価のために,画像座標空間の長い距離における一意的なアイデンティティを保持するアルゴリズムの有効性を測定するための新しい指標 IDEucl を提案し,歩行者の群集の動きと追跡アルゴリズムの性能との対応性を構築した。 また,混み合ったシーンで小さな頭部検出を行うために,新しいヘッド検出器HeadHunterを提案する。 HeadHunterをパーティクルフィルタとカラーヒストグラムに基づくヘッドトラッキングのための再識別モジュールで拡張する。 これを強力なベースラインとして確立するために、我々はCroHD上の既存の歩行者トラッカーと比較し、特にアイデンティティ保存追跡指標において優位性を示す。 身元維持に効率的な軽量頭部検出装置と追跡装置を備えることで、我々の貢献は密集した群衆における歩行者追跡の進歩に役立つと信じている。

Tracking humans in crowded video sequences is an important constituent of visual scene understanding. Increasing crowd density challenges visibility of humans, limiting the scalability of existing pedestrian trackers to higher crowd densities. For that reason, we propose to revitalize head tracking with Crowd of Heads Dataset (CroHD), consisting of 9 sequences of 11,463 frames with over 2,276,838 heads and 5,230 tracks annotated in diverse scenes. For evaluation, we proposed a new metric, IDEucl, to measure an algorithm's efficacy in preserving a unique identity for the longest stretch in image coordinate space, thus building a correspondence between pedestrian crowd motion and the performance of a tracking algorithm. Moreover, we also propose a new head detector, HeadHunter, which is designed for small head detection in crowded scenes. We extend HeadHunter with a Particle Filter and a color histogram based re-identification module for head tracking. To establish this as a strong baseline, we compare our tracker with existing state-of-the-art pedestrian trackers on CroHD and demonstrate superiority, especially in identity preserving tracking metrics. With a light-weight head detector and a tracker which is efficient at identity preservation, we believe our contributions will serve useful in advancement of pedestrian tracking in dense crowds.
翻訳日:2021-03-27 01:30:37 公開日:2021-03-24
# (参考訳) コントラスト学習による視覚表現の伝達可能性に関する広域研究 [全文訳有]

A Broad Study on the Transferability of Visual Representations with Contrastive Learning ( http://arxiv.org/abs/2103.13517v1 )

ライセンス: CC BY 4.0
Ashraful Islam, Chun-Fu Chen, Rameswar Panda, Leonid Karlinsky, Richard Radke, Rogerio Feris(参考訳) 視覚表現学習の進歩は、特に近年の自己指導型コントラスト学習法の成功において顕著である。 教師付きコントラスト学習は、ラベルを利用してコントラストの場所を選択することで、クロスエントロピー学習よりも優れていることが示されている。 しかし、異なる領域へのコントラスト学習の伝達能力を検討する研究はほとんど行われていない。 本稿では,リニア評価,フルネットワーク転送,および12のダウンストリームデータセットにおける少数ショット認識,およびmscocoおよびvoc0712におけるオブジェクト検出タスクに対する,異なるコントラストアプローチの学習表現の転送可能性に関する包括的研究を行う。 その結果、コントラスト的アプローチは、異なる下流タスクに簡単に移行できる表現を学習できることが示される。 さらに,自己監督型コントラスト損失とクロスエントロピー/教師型コントラスト損失の併用が,教師型コントラスト損失よりも優れた転送可能性をもたらすことを観察した。 分析の結果, コントラスト的アプローチから得られた表現は, クロスエントロピーモデルよりも低・中程度のセマンティクスを含んでおり, 新たなタスクに迅速に適応できることがわかった。 私たちのコードとモデルは、視覚表現の転送可能性に関する将来の研究を促進するために公開されます。

Tremendous progress has been made in visual representation learning, notably with the recent success of self-supervised contrastive learning methods. Supervised contrastive learning has also been shown to outperform its cross-entropy counterparts by leveraging labels for choosing where to contrast. However, there has been little work to explore the transfer capability of contrastive learning to a different domain. In this paper, we conduct a comprehensive study on the transferability of learned representations of different contrastive approaches for linear evaluation, full-network transfer, and few-shot recognition on 12 downstream datasets from different domains, and object detection tasks on MSCOCO and VOC0712. The results show that the contrastive approaches learn representations that are easily transferable to a different downstream task. We further observe that the joint objective of self-supervised contrastive loss with cross-entropy/superv ised-contrastive loss leads to better transferability of these models over their supervised counterparts. Our analysis reveals that the representations learned from the contrastive approaches contain more low/mid-level semantics than cross-entropy models, which enables them to quickly adapt to a new task. Our codes and models will be publicly available to facilitate future research on transferability of visual representations.
翻訳日:2021-03-27 01:07:34 公開日:2021-03-24
# (参考訳) オントロジーに基づく編集製品の勧告 [全文訳有]

Ontology-Based Recommendation of Editorial Products ( http://arxiv.org/abs/2103.13526v1 )

ライセンス: CC BY 4.0
Thiviyan Thanapalasingam, Francesco Osborne, Aliaksandr Birukou and Enrico Motta(参考訳) 大手学術出版社は、膨大な製品のカタログを分析し、科学的な場所で販売される最高のアイテムを選択する必要がある。 これは、何千もの本のトピックを高い精度で特徴付け、関連するコミュニティの利益とマッチングすることを必要とする複雑なエクササイズである。 Springer Natureでは、このタスクは伝統的に編集者が手作業で処理してきた。 しかし、科学出版物の数が急速に増加し、コンピュータ科学のランドスケープのダイナミックな性質により、このソリューションはますます非効率になってきた。 我々は,オープン大学(OU)がSpringer Natureと共同で開発した,オントロジーに基づく推薦システムであるSmart Book Recommender(SBR)を作成してこの問題に対処した。 SBRは、約27Kの編集製品のセマンティックに強化された表現を活用することにより、会議に関連する書籍、雑誌、会議の手続きを推奨している。 これは、非常に大規模で自動生成される研究領域の分類であるComputer Science Ontologyに基づいている。 sbrはまた、ユーザがなぜ特定の出版物がシステムによって提案されたのかを調査できる。 これは、推奨編集製品のトピック分類を表示し、入力カンファレンスのトピック中心の特徴付けと比較するインタラクティブグラフビューによって実現されている。 7人のspringer nature editorと7人のou研究者による評価によって、このソリューションの有効性が確認された。

Major academic publishers need to be able to analyse their vast catalogue of products and select the best items to be marketed in scientific venues. This is a complex exercise that requires characterising with a high precision the topics of thousands of books and matching them with the interests of the relevant communities. In Springer Nature, this task has been traditionally handled manually by publishing editors. However, the rapid growth in the number of scientific publications and the dynamic nature of the Computer Science landscape has made this solution increasingly inefficient. We have addressed this issue by creating Smart Book Recommender (SBR), an ontology-based recommender system developed by The Open University (OU) in collaboration with Springer Nature, which supports their Computer Science editorial team in selecting the products to market at specific venues. SBR recommends books, journals, and conference proceedings relevant to a conference by taking advantage of a semantically enhanced representation of about 27K editorial products. This is based on the Computer Science Ontology, a very large-scale, automatically generated taxonomy of research areas. SBR also allows users to investigate why a certain publication was suggested by the system. It does so by means of an interactive graph view that displays the topic taxonomy of the recommended editorial product and compares it with the topic-centric characterization of the input conference. An evaluation carried out with seven Springer Nature editors and seven OU researchers has confirmed the effectiveness of the solution.
翻訳日:2021-03-27 00:44:38 公開日:2021-03-24
# (参考訳) Springer Natureにおける編集ワークフローとメタデータ品質の改善 [全文訳有]

Improving Editorial Workflow and Metadata Quality at Springer Nature ( http://arxiv.org/abs/2103.13527v1 )

ライセンス: CC BY 4.0
Angelo A. Salatino, Francesco Osborne, Aliaksandr Birukou and Enrico Motta(参考訳) 学術出版のスコープを最もよく記述した研究トピックの特定は編集者にとって重要な課題であり、特に、これらのアノテーションの品質が、オンライン図書館における適切なコンテンツを効果的に発見できるかどうかを決定するためである。 このため、世界最大の学術書出版社であるSpringer Natureは伝統的に、このタスクを最も専門的な編集者に委ねてきた。 これらの編集者は、おそらく数百の章を含む全ての新しい本を手作業で分析し、最も関連するトピックのリストを作成する。 そのため、このプロセスは伝統的に非常に高価で時間がかかり、数人の上級編集者に限られていた。 これらの理由から、2016年に私たちは、Springer Natureの編集チームを支援するオントロジー駆動のアプリケーションであるSmart Topic Miner(STM)を開発しました。 それ以来、STMはドイツ、中国、ブラジル、インド、日本の編集者によって年間約800巻にわたって定期的に使用されている。 過去3年間、最初のプロトタイプはユーザからのフィードバックと要件の進化に応じて反復的に進化してきた。 本稿では,このツールの最新バージョンについて述べるとともに,長年にわたるシステムの進化,学んだ重要な教訓,そして springer の自然ワークフローへの影響について述べる。 特に私たちのソリューションは、アノテートに必要な時間を劇的に削減し、発見可能性を大幅に改善しました。 また,ユーザビリティの面で優れた結果を得た9名の編集者を対象としたユーザ調査を行い,stmが使用するトピック分類器の評価を報告する。

Identifying the research topics that best describe the scope of a scientific publication is a crucial task for editors, in particular because the quality of these annotations determine how effectively users are able to discover the right content in online libraries. For this reason, Springer Nature, the world's largest academic book publisher, has traditionally entrusted this task to their most expert editors. These editors manually analyse all new books, possibly including hundreds of chapters, and produce a list of the most relevant topics. Hence, this process has traditionally been very expensive, time-consuming, and confined to a few senior editors. For these reasons, back in 2016 we developed Smart Topic Miner (STM), an ontology-driven application that assists the Springer Nature editorial team in annotating the volumes of all books covering conference proceedings in Computer Science. Since then STM has been regularly used by editors in Germany, China, Brazil, India, and Japan, for a total of about 800 volumes per year. Over the past three years the initial prototype has iteratively evolved in response to feedback from the users and evolving requirements. In this paper we present the most recent version of the tool and describe the evolution of the system over the years, the key lessons learnt, and the impact on the Springer Nature workflow. In particular, our solution has drastically reduced the time needed to annotate proceedings and significantly improved their discoverability, resulting in 9.3 million additional downloads. We also present a user study involving 9 editors, which yielded excellent results in term of usability, and report an evaluation of the new topic classifier used by STM, which outperforms previous versions in recall and F-measure.
翻訳日:2021-03-27 00:32:07 公開日:2021-03-24
# Diverse Branch Block: インセプションのようなユニットとしてコンボリューションを構築する

Diverse Branch Block: Building a Convolution as an Inception-like Unit ( http://arxiv.org/abs/2103.13425v1 )

ライセンス: Link先を確認
Xiaohan Ding, Xiangyu Zhang, Jungong Han, Guiguang Ding(参考訳) 本稿では,畳み込みニューラルネットワーク(convolutional neural network, convnet)の普遍的な構築ブロックを提案する。 ブロックはDiverse Branch Block (DBB) と呼ばれ、異なるスケールと複雑さの多様な分岐を組み合わせて、畳み込み、マルチスケールの畳み込み、平均プールなどを含む特徴空間を強化することで、単一の畳み込みの表現能力を高める。 トレーニング後、DBBを単一のConv層に等価に変換してデプロイすることができる。 新規なConvNetアーキテクチャの進歩とは異なり、DBBはマクロアーキテクチャを維持しながらトレーニング時のマイクロ構造を複雑にし、任意のアーキテクチャの通常のConvレイヤのドロップイン置換として使用できる。 このように、モデルはより高いレベルのパフォーマンスに達するように訓練され、その後推論のために元の推論時間構造に変換される。 DBBは画像分類、オブジェクト検出、セマンティックセグメンテーションにおけるConvNetsの改善(ImageNetにおけるトップ1の精度は最大1.9%)。 PyTorchのコードとモデルはhttps://github.com/D ingXiaoH/DiverseBran chBlock.comで公開されている。

We propose a universal building block of Convolutional Neural Network (ConvNet) to improve the performance without any inference-time costs. The block is named Diverse Branch Block (DBB), which enhances the representational capacity of a single convolution by combining diverse branches of different scales and complexities to enrich the feature space, including sequences of convolutions, multi-scale convolutions, and average pooling. After training, a DBB can be equivalently converted into a single conv layer for deployment. Unlike the advancements of novel ConvNet architectures, DBB complicates the training-time microstructure while maintaining the macro architecture, so that it can be used as a drop-in replacement for regular conv layers of any architecture. In this way, the model can be trained to reach a higher level of performance and then transformed into the original inference-time structure for inference. DBB improves ConvNets on image classification (up to 1.9% higher top-1 accuracy on ImageNet), object detection and semantic segmentation. The PyTorch code and models are released at https://github.com/D ingXiaoH/DiverseBran chBlock.
翻訳日:2021-03-26 13:56:36 公開日:2021-03-24
# 医療領域拡大のための破滅的忘れへの取り組み

Addressing catastrophic forgetting for medical domain expansion ( http://arxiv.org/abs/2103.13511v1 )

ライセンス: Link先を確認
Sharut Gupta, Praveer Singh, Ken Chang, Liangqiong Qu, Mehak Aggarwal, Nishanth Arun, Ashwin Vaswani, Shruti Raghavan, Vibha Agarwal, Mishka Gidwani, Katharina Hoebel, Jay Patel, Charles Lu, Christopher P. Bridge, Daniel L. Rubin, Jayashree Kalpathy-Cramer(参考訳) モデル脆性は、現実世界の医療環境でディープラーニングモデルをデプロイする際の重要な関心事である。 ある機関で高い性能を持つモデルは、他の機関での試験で性能が著しく低下する可能性がある。 複数の機関からデータセットをプールし、再トレーニングすることは簡単な解決策になるかもしれないが、しばしば実現不可能であり、患者のプライバシーを侵害する可能性がある。 別のアプローチは、元の機関で訓練した後、後の機関でモデルを微調整することである。 特に、この手法は、破滅的な忘れ物として知られる元の施設でのモデル性能を低下させる。 本稿では,1つの画像システムから別の画像システムへ領域を拡大する手法と,2つのシナリオにおいて,弾性的重み統合とバッチ正規化統計の変調を組み合わせることで,大容量の多施設データセットから別の単一機関データセットへ領域を拡大する手法を提案する。 本手法は他の手法よりも優れていることを示し,バッチ正規化変調の有効性を理論的に正当化する。 本研究の成果は、ドメイン拡張を必要とする任意の臨床ディープラーニングモデルの展開に適用できる。

Model brittleness is a key concern when deploying deep learning models in real-world medical settings. A model that has high performance at one institution may suffer a significant decline in performance when tested at other institutions. While pooling datasets from multiple institutions and retraining may provide a straightforward solution, it is often infeasible and may compromise patient privacy. An alternative approach is to fine-tune the model on subsequent institutions after training on the original institution. Notably, this approach degrades model performance at the original institution, a phenomenon known as catastrophic forgetting. In this paper, we develop an approach to address catastrophic forget-ting based on elastic weight consolidation combined with modulation of batch normalization statistics under two scenarios: first, for expanding the domain from one imaging system's data to another imaging system's, and second, for expanding the domain from a large multi-institutional dataset to another single institution dataset. We show that our approach outperforms several other state-of-the-art approaches and provide theoretical justification for the efficacy of batch normalization modulation. The results of this study are generally applicable to the deployment of any clinical deep learning model which requires domain expansion.
翻訳日:2021-03-26 13:56:15 公開日:2021-03-24
# 委員会によるアクティブマルチタスク学習

Active Multitask Learning with Committees ( http://arxiv.org/abs/2103.13420v1 )

ライセンス: Link先を確認
Jingxi Xu, Da Tang, Tony Jebara(参考訳) 従来のトレーニングデータのアノテートコストは、教師付き学習アプローチのボトルネックでした。 ラベルの量はタスク数に応じてスケールする必要があるため、教師付き学習が複数の関連タスクに同時に適用されるとさらに悪化する。 そこで本研究では,タスク間の知識伝達を実現するアクティブマルチタスク学習アルゴリズムを提案する。 このアプローチは、各タスクのいわゆる委員会を形成し、共同で意思決定を行い、同様のタスク間でデータを直接共有する。 提案手法は,テストデータの精度を維持しつつ,トレーニングに必要なクエリ数を削減する。 ベンチマークデータセットの実証結果は、正確性とクエリリクエスト数の両方で大幅に改善されている。

The cost of annotating training data has traditionally been a bottleneck for supervised learning approaches. The problem is further exacerbated when supervised learning is applied to a number of correlated tasks simultaneously since the amount of labels required scales with the number of tasks. To mitigate this concern, we propose an active multitask learning algorithm that achieves knowledge transfer between tasks. The approach forms a so-called committee for each task that jointly makes decisions and directly shares data across similar tasks. Our approach reduces the number of queries needed during training while maintaining high accuracy on test data. Empirical results on benchmark datasets show significant improvements on both accuracy and number of query requests.
翻訳日:2021-03-26 13:54:20 公開日:2021-03-24
# 難しい論理制約を持つマルチラベル分類ニューラルネットワーク

Multi-Label Classification Neural Networks with Hard Logical Constraints ( http://arxiv.org/abs/2103.13427v1 )

ライセンス: Link先を確認
Eleonora Giunchiglia and Thomas Lukasiewicz(参考訳) マルチラベル分類(MC、Multi-label classification)は、データポイントをクラスに関連付けることができる標準的な機械学習問題である。 より困難なシナリオは階層的マルチラベル分類(英語版)(hmc)の問題によって与えられ、全ての予測はクラス間のサブクラス関係を表現するハード制約のセットを満たさなければならない。 本稿では,HMC問題にネットワークhを付与した新しい手法であるC-HMCNN(h)を提案する。 さらに、クラス間のより複雑な関係を指定できるように、HMC制約を表現するために使用されるロジックを拡張し、C-HMCNN(h)を拡張して、その制約を満足して活用して性能を向上させる新しいモデルCCN(h)を提案する。 本研究では,c-hmcnn(h) と ccn(h) の両方の性能を,hmc と一般mc の厳密な論理制約下での最先端モデルと比較し,広範な実験解析を行った。

Multi-label classification (MC) is a standard machine learning problem in which a data point can be associated with a set of classes. A more challenging scenario is given by hierarchical multi-label classification (HMC) problems, in which every prediction must satisfy a given set of hard constraints expressing subclass relationships between classes. In this paper, we propose C-HMCNN(h), a novel approach for solving HMC problems, which, given a network h for the underlying MC problem, exploits the hierarchy information in order to produce predictions coherent with the constraints and to improve performance. Furthermore, we extend the logic used to express HMC constraints in order to be able to specify more complex relations among the classes and propose a new model CCN(h), which extends C-HMCNN(h) and is again able to satisfy and exploit the constraints to improve performance. We conduct an extensive experimental analysis showing the superior performance of both C-HMCNN(h) and CCN(h) when compared to state-of-the-art models in both the HMC and the general MC setting with hard logical constraints.
翻訳日:2021-03-26 13:54:11 公開日:2021-03-24
# データ不均衡シナリオの分類改善のための適応的マイノリティオーバーサンプリング手法

A Novel Adaptive Minority Oversampling Technique for Improved Classification in Data Imbalanced Scenarios ( http://arxiv.org/abs/2103.13823v1 )

ライセンス: Link先を確認
Ayush Triapthi and Rupayan Chakraborty and Sunil Kumar Kopparapu(参考訳) 異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。 これは主に、不均衡なデータセットの多数クラスに対して分類器がバイアスを受ける傾向があるためである。 本稿では,不均衡なデータに対処する新しい3ステップ手法を提案する。 最初のステップとして、マイノリティクラスサンプルの近傍を用いて従来のSMOTE(Synthetic Minority OverSampling Technique)アルゴリズムを用いて、マイノリティクラス分布を著しくオーバーサンプリングし、次にガウス・ミクチャーモデルに基づくクラスタリングアルゴリズムを用いて生成されたサンプルを分割する。 最終ステップでは、クラスタに関連する重みに基づいて合成データサンプルを選択し、その重みそのものは、多数派サンプルの分布によって決定される。 様々な領域の標準データセットに関する広範囲な実験は、提案手法がオリジナルのsmoteや最先端の変種アルゴリズムと比較して有用であることを示している。

Imbalance in the proportion of training samples belonging to different classes often poses performance degradation of conventional classifiers. This is primarily due to the tendency of the classifier to be biased towards the majority classes in the imbalanced dataset. In this paper, we propose a novel three step technique to address imbalanced data. As a first step we significantly oversample the minority class distribution by employing the traditional Synthetic Minority OverSampling Technique (SMOTE) algorithm using the neighborhood of the minority class samples and in the next step we partition the generated samples using a Gaussian-Mixture Model based clustering algorithm. In the final step synthetic data samples are chosen based on the weight associated with the cluster, the weight itself being determined by the distribution of the majority class samples. Extensive experiments on several standard datasets from diverse domains shows the usefulness of the proposed technique in comparison with the original SMOTE and its state-of-the-art variants algorithms.
翻訳日:2021-03-26 13:53:05 公開日:2021-03-24
# クラス階層からコードコメントを生成するための学習

Learning to Generate Code Comments from Class Hierarchies ( http://arxiv.org/abs/2103.13426v1 )

ライセンス: Link先を確認
Jiyang Zhang, Sheena Panthaplackel, Pengyu Nie, Raymond J. Mooney, Junyi Jessy Li, Milos Gligoric(参考訳) コード理解とメンテナンスをサポートするには、記述的なコードコメントが不可欠だ。 オーバーライド手法のコメントを自動的に生成するタスクを提案する。 我々は、このタスクの実行に必要な一意な文脈的および言語的推論に対応する新しい枠組みを定式化する。 提案手法は,(1)クラス階層からの文脈の取り込み,(2)オーバーライドメソッドのより専門的な振る舞いを捉えたコメントを生成するための,学習された,潜在的な特異性表現の条件付け,(3)オーバーライドメソッドに対応するコメントの不変性に適合しない予測を回避するための不規則なトレーニング,である。 提案手法は,従来のコメント生成手法に比べて高い品質のオーバーライド手法でコメントを生成することができることを示す。

Descriptive code comments are essential for supporting code comprehension and maintenance. We propose the task of automatically generating comments for overriding methods. We formulate a novel framework which accommodates the unique contextual and linguistic reasoning that is required for performing this task. Our approach features: (1) incorporating context from the class hierarchy; (2) conditioning on learned, latent representations of specificity to generate comments that capture the more specialized behavior of the overriding method; and (3) unlikelihood training to discourage predictions which do not conform to invariant characteristics of the comment corresponding to the overridden method. Our experiments show that the proposed approach is able to generate comments for overriding methods of higher quality compared to prevailing comment generation techniques.
翻訳日:2021-03-26 13:47:35 公開日:2021-03-24
# なぜ局所メソッドは非凸問題を解くのか?

Why Do Local Methods Solve Nonconvex Problems? ( http://arxiv.org/abs/2103.13462v1 )

ライセンス: Link先を確認
Tengyu Ma(参考訳) 非凸最適化は現代の機械学習においてユビキタスである。 研究者は非凸目的関数を考案し、確率勾配降下やその変種などの既製の最適化器を用いて最適化し、局所幾何学を活用して反復的に更新する。 非凸関数の解決は最悪の場合にはnp-hardであるが、実際には最適化の品質は問題ではない。 研究者らは、この興味深い現象の統一的な説明を仮説化している。 機械学習問題の具体例を厳格に定式化する。

Non-convex optimization is ubiquitous in modern machine learning. Researchers devise non-convex objective functions and optimize them using off-the-shelf optimizers such as stochastic gradient descent and its variants, which leverage the local geometry and update iteratively. Even though solving non-convex functions is NP-hard in the worst case, the optimization quality in practice is often not an issue -- optimizers are largely believed to find approximate global minima. Researchers hypothesize a unified explanation for this intriguing phenomenon: most of the local minima of the practically-used objectives are approximately global minima. We rigorously formalize it for concrete instances of machine learning problems.
翻訳日:2021-03-26 13:47:20 公開日:2021-03-24
# 多層パーセプトロンの不変性による層状ヤコビアンの漸近的自由度:ハール直交の場合

Asymptotic Freeness of Layerwise Jacobians Caused by Invariance of Multilayer Perceptron: The Haar Orthogonal Case ( http://arxiv.org/abs/2103.13466v1 )

ライセンス: Link先を確認
Benoit Collins, Tomohiro Hayase(参考訳) 自由確率理論(fpt)は、dnn(dynamical isometry, fisher information matrix, training dynamics)のようなディープニューラルネットワークの研究に現れるランダム行列によって引き起こされる数学的困難に対処するための豊富な知識を提供する。 FPTは、DNNのパラメータ-ヤコビアンと入力-ヤコビアンが層状ジャコビアン多項式であるため、これらの研究に適合する。 しかしながら、レイヤーワイズ・ジャコビアンの漸近自由性という批判的な仮定は、今のところ完全には証明されていない。 漸近自由性仮定は、これらの研究において、層を通してスペクトル分布を伝播するための基礎的な役割を持つ。 本研究では,多層パーセプトロンの層状ジャコビアンとハール分布直交行列との漸近自由性を証明する。

Free Probability Theory (FPT) provides rich knowledge for handling mathematical difficulties caused by random matrices that appear in researches of deep neural networks (DNNs), such as the dynamical isometry, Fisher information matrix, and training dynamics. FPT suits these researches because the DNN's parameter-Jacobian and input-Jacobian are polynomials of layerwise Jacobians. However, the critical assumption, that is, the layerwise Jacobian's asymptotic freeness, has not been proven completely so far. The asymptotic freeness assumption has foundamental roles in these researches to propagate spectral distributions through the layers. In the present work, we prove the asymptotic freeness of layerwise Jacobian of multilayer perceptrons with Haar distributed orthogonal matrices, which are essential for achieving dynamical isometry.
翻訳日:2021-03-26 13:44:05 公開日:2021-03-24
# 制約に基づく因果構造学習の条件と前提

Conditions and Assumptions for Constraint-based Causal Structure Learning ( http://arxiv.org/abs/2103.13521v1 )

ライセンス: Link先を確認
Kayvan Sadeghi and Terry Soo(参考訳) この論文は、観測されていない変数が存在する場合の観測データから「真の」因果グラフの制約に基づく構造学習を定式化する。 我々は「遺伝的」構造学習アルゴリズムを定義し、忠実性仮定の下で文学における既知のすべての正確なアルゴリズムの出力を満たさなければならない条件を提供し、因果グラフと同値なマルコフグラフを出力する。 さらに重要なことに、同じ汎用アルゴリズムがマルコフ等価グラフを因果グラフに出力する、忠実性よりも弱い明確な仮定を提供する。 我々は、分布が真の因果グラフへのマルコフ的であることを仮定して、モデルの一般クラスの理論を提供し、構造因果モデルの定義と結果を専門化する。

The paper formalizes constraint-based structure learning of the "true" causal graph from observed data when unobserved variables are also existent. We define a "generic" structure learning algorithm, which provides conditions that, under the faithfulness assumption, the output of all known exact algorithms in the literature must satisfy, and which outputs graphs that are Markov equivalent to the causal graph. More importantly, we provide clear assumptions, weaker than faithfulness, under which the same generic algorithm outputs Markov equivalent graphs to the causal graph. We provide the theory for the general class of models under the assumption that the distribution is Markovian to the true causal graph, and we specialize the definitions and results for structural causal models.
翻訳日:2021-03-26 13:43:45 公開日:2021-03-24
# 物理における類似性に基づく等式推論

Similarity-Based Equational Inference in Physics ( http://arxiv.org/abs/2103.13496v1 )

ライセンス: Link先を確認
Jordan Meadows, Andr\'e Freitas(参考訳) 物理学における導出は、公表された結果の導出再構成の形で、物理学者による数学の使用が数学者のそれよりも形式的でないため、高価で自動化が難しい。 非公式な数学的データセットの需要に従えば、導出エージェントを文字列で表される方程式状態に存在する有限状態機械とみなし、数学を模倣した文字列操作とコンピュータ代数演算の組み合わせによって遷移を生じ得るようなデータセット作成法を述べる。 本稿では,コンピュータ代数システムを用いて再構成された現代凝縮物質物理学結果のキュレーション導出からなる,この手法によって生成された新しいデータセットphysai-ds1を提案する。 導出セグメントを非自明な状態列の基本単位として定式化した方程式再構成タスクを定義し,マルチホップの場合に拡張可能な1ホップ推論に相当する未知の中間状態の再構成を目標とした。 本稿では,PhysAI-DS1データセット上で,一連の動作,シンボルと方程式の知識ベース,および計算機代数システムを用いて,3つの方程式状態の列の中で未知の中間状態を再構築し,導出単位としてグループ化する,記号類似性に基づくヒューリスティック手法を提案する。 現代の結果のインフォーマルな導出理解は、現代の物理学的推論者の理解と自動化に向けた重要なステップである。

Derivation in physics, in the form of derivation reconstruction of published results, is expensive and difficult to automate, not least because the use of mathematics by physicists is less formal than that of mathematicians. Following demand for informal mathematical datasets, we describe a dataset creation method where we consider a derivation agent as a finite state machine which exists in equational states represented by strings, where transitions can occur through a combination of string operations that mimic mathematics, and defined computer algebra operations. We present the novel dataset PhysAI-DS1 generated by this method, which consists of a curated derivation of a contemporary condensed matter physics result reconstructed using a computer algebra system. We define an equation reconstruction task based on formulating derivation segments as basic units of non-trivial state sequences, with the goal of reconstructing an unknown intermediate state equivalent to one-hop inference, extensible to the multi-hop case. We present a symbolic similarity-based heuristic approach to solve an equation reconstruction task on the PhysAI-DS1 dataset, which employs a set of actions, a knowledge base of symbols and equations, and a computer algebra system, to reconstruct an unknown intermediate state within a sequence of three equational states, grouped together as a derivation unit. Informal derivation comprehension of contemporary results is an important step towards the comprehension and automation of modern physics reasoners.
翻訳日:2021-03-26 13:41:57 公開日:2021-03-24
# データと知識の不可避な二重性

The Inescapable Duality of Data and Knowledge ( http://arxiv.org/abs/2103.13520v1 )

ライセンス: Link先を確認
Amit Sheth and Krishnaprasad Thirunarayan(参考訳) 我々は、過去30年から50年の間に、データのみに焦点を当てたシステムが、狭義のタスクに焦点を絞った成功に障害を負い、知識がより賢く、インテリジェントで効果的なシステムを開発する上で重要であることを論じる。 我々は,認知科学に基づく人間の知能における知識と経験の役割とを対比する。 そして、私たちは、知識がデータ集約型統計AIシステムと、より人間的な知性をサポートするより有能なAIシステムとを結合するための重要な有効要因である、ニューロシンボリックまたはハイブリッドAIシステムに対する最近の関心に終止符を打つ。

We will discuss how over the last 30 to 50 years, systems that focused only on data have been handicapped with success focused on narrowly focused tasks, and knowledge has been critical in developing smarter, intelligent, more effective systems. We will draw a parallel with the role of knowledge and experience in human intelligence based on cognitive science. And we will end with the recent interest in neuro-symbolic or hybrid AI systems in which knowledge is the critical enabler for combining data-intensive statistical AI systems with symbolic AI systems which results in more capable AI systems that support more human-like intelligence.
翻訳日:2021-03-26 13:41:33 公開日:2021-03-24
# ディエンス予測のための視覚変換器

Vision Transformers for Dense Prediction ( http://arxiv.org/abs/2103.13413v1 )

ライセンス: Link先を確認
Ren\'e Ranftl, Alexey Bochkovskiy, Vladlen Koltun(参考訳) 高密度予測タスクのバックボーンとして,畳み込みネットワークに代えて視覚トランスフォーマーを利用するアーキテクチャである。 視覚変換器の様々な段階のトークンを様々な解像度で画像ライクな表現に分解し、畳み込みデコーダを用いて徐々に全解像度の予測に組み合わせる。 変換器のバックボーンは、一定かつ比較的高解像度で表現を処理し、各段階で大域的受容場を持つ。 これらの特性により、高密度な視覚変換器は、完全な畳み込みネットワークと比較して、より微細でよりグローバルなコヒーレントな予測を提供することができる。 実験の結果、このアーキテクチャは、特に大量のトレーニングデータが利用可能である場合、高密度な予測タスクを大幅に改善することがわかった。 単分子深度推定では,最先端の完全畳み込みネットワークと比較して,相対的性能が最大28%向上した。 セマンティックセグメンテーションに適用すると、密度の高い視覚変換器は ADE20K に49.02% mIoU で新しい状態を設定した。 さらに、アーキテクチャがNYUv2、KITTI、Pascal Contextといった小さなデータセットで微調整可能であることも示しています。 私たちのモデルはhttps://github.com/i ntel-isl/DPTで利用可能です。

We introduce dense vision transformers, an architecture that leverages vision transformers in place of convolutional networks as a backbone for dense prediction tasks. We assemble tokens from various stages of the vision transformer into image-like representations at various resolutions and progressively combine them into full-resolution predictions using a convolutional decoder. The transformer backbone processes representations at a constant and relatively high resolution and has a global receptive field at every stage. These properties allow the dense vision transformer to provide finer-grained and more globally coherent predictions when compared to fully-convolutional networks. Our experiments show that this architecture yields substantial improvements on dense prediction tasks, especially when a large amount of training data is available. For monocular depth estimation, we observe an improvement of up to 28% in relative performance when compared to a state-of-the-art fully-convolutional network. When applied to semantic segmentation, dense vision transformers set a new state of the art on ADE20K with 49.02% mIoU. We further show that the architecture can be fine-tuned on smaller datasets such as NYUv2, KITTI, and Pascal Context where it also sets the new state of the art. Our models are available at https://github.com/i ntel-isl/DPT.
翻訳日:2021-03-26 13:41:21 公開日:2021-03-24
# 逆合成による前景色予測

Foreground color prediction through inverse compositing ( http://arxiv.org/abs/2103.13423v1 )

ライセンス: Link先を確認
Sebastian Lutz, Aljosa Smolic(参考訳) 自然な画像マッチングでは、画像中の前景オブジェクトの不透明度を推定することが目的である。 この不透明さは、前景と背景を透明な領域でブレンドする方法を制御する。 近年、ディープラーニングの進歩は、完全に自動で優れたパフォーマンスを達成した多くの自然な画像マッチングアルゴリズムを生み出している。 しかし、これらのアルゴリズムのほとんどは画像からアルファマットのみを予測しており、高品質な構成を作るには不十分である。 さらに、入力や出力を直接変更すること以外は、手作業でこれらのアルゴリズムを操作することはできない。 本稿では,画像の前景色と背景色を初期アルファ推定値から復元する処理後手法として,新しいリカレントニューラルネットワークを提案する。 提案手法は,自然画像マッティングにおける色推定の最先端を上回っており,本手法の反復性により,より優れた色推定につながる候補ソリューションを容易に変更できることを示す。

In natural image matting, the goal is to estimate the opacity of the foreground object in the image. This opacity controls the way the foreground and background is blended in transparent regions. In recent years, advances in deep learning have led to many natural image matting algorithms that have achieved outstanding performance in a fully automatic manner. However, most of these algorithms only predict the alpha matte from the image, which is not sufficient to create high-quality compositions. Further, it is not possible to manually interact with these algorithms in any way except by directly changing their input or output. We propose a novel recurrent neural network that can be used as a post-processing method to recover the foreground and background colors of an image, given an initial alpha estimation. Our method outperforms the state-of-the-art in color estimation for natural image matting and show that the recurrent nature of our method allows users to easily change candidate solutions that lead to superior color estimations.
翻訳日:2021-03-26 13:40:59 公開日:2021-03-24
# dranet: 教師なしクロスドメイン適応のための分散表現と適応ネットワーク

DRANet: Disentangling Representation and Adaptation Networks for Unsupervised Cross-Domain Adaptation ( http://arxiv.org/abs/2103.13447v1 )

ライセンス: Link先を確認
Seunghun Lee, Sunghyun Cho, Sunghoon Im(参考訳) 本稿では,非教師付きクロスドメイン適応のための潜在空間における画像表現と視覚属性の転送を分離するネットワークアーキテクチャであるdranetを提案する。 ドメインを共有する関連する特徴を学ぶ既存のドメイン適応手法とは異なり、dranetは各ドメインの特性の識別性を保持する。 本モデルは,ソース画像とターゲット画像の両方から,コンテンツ(シーン構造)とスタイル(芸術的外観)の個々の表現を符号化する。 そして、転送されたスタイルファクタを、各ドメインに指定された学習可能なウェイトと共にコンテンツファクタに組み込むことで、ドメインに適応する。 この学習フレームワークは、単一エンコーダ/デコーダネットワークによる双方向/複数方向のドメイン適応を可能にし、ドメインシフトを調整する。 さらに,スタイル変換時のシーン構造保持を支援するコンテンツ適応型ドメイン転送モジュールを提案する。 広範な実験により,本モデルがコンテンツスタイル因子を分離し,視覚的に整域移動像を合成することを示す。 提案手法は,標準桁分類タスクと意味セグメンテーションタスクにおける最先端の性能を示す。

In this paper, we present DRANet, a network architecture that disentangles image representations and transfers the visual attributes in a latent space for unsupervised cross-domain adaptation. Unlike the existing domain adaptation methods that learn associated features sharing a domain, DRANet preserves the distinctiveness of each domain's characteristics. Our model encodes individual representations of content (scene structure) and style (artistic appearance) from both source and target images. Then, it adapts the domain by incorporating the transferred style factor into the content factor along with learnable weights specified for each domain. This learning framework allows bi-/multi-directiona l domain adaptation with a single encoder-decoder network and aligns their domain shift. Additionally, we propose a content-adaptive domain transfer module that helps retain scene structure while transferring style. Extensive experiments show our model successfully separates content-style factors and synthesizes visually pleasing domain-transferred images. The proposed method demonstrates state-of-the-art performance on standard digit classification tasks as well as semantic segmentation tasks.
翻訳日:2021-03-26 13:40:43 公開日:2021-03-24
# ディープラーニングのための効率的な多目的最適化

Efficient Multi-Objective Optimization for Deep Learning ( http://arxiv.org/abs/2103.13392v1 )

ライセンス: Link先を確認
Michael Ruchte and Josif Grabocka(参考訳) マルチオブジェクト最適化(MOO)はディープラーニングにとって一般的な課題だが、真のディープニューラルネットワークのためのスケーラブルなMOOソリューションは存在しない。 事前の作業では、パレートフロントの各点で新しいネットワークを最適化するか、変更可能な好みに基づいて条件づけされたハイパーネットワークを使用することで、トレーニング可能なパラメータの数に大きなオーバーヘッドを課すかのどちらかである。 本稿では,特徴空間に拡張することで,これらの嗜好を直接ネットワークに適応させることを提案する。 さらに, 解をペナルティ化し, 選好ベクトルに対する角度を小さく保つことで, 読みやすいパレート面を確保する。 実験では, 計算速度が大幅に向上したにもかかわらず, パレートフロントが最先端の品質を達成できることを実証した。 さらに,提案手法がcelebaデータセットのparetoフロントに近似し,単純な単一目的最適化と比較して,学習時間のオーバーヘッドがわずか7%で効率的なネットワークを実現することでスケーラビリティを示す。 コードをhttps://github.com/r uchtem/cosmos.comで公開しています。

Multi-objective optimization (MOO) is a prevalent challenge for Deep Learning, however, there exists no scalable MOO solution for truly deep neural networks. Prior work either demand optimizing a new network for every point on the Pareto front, or induce a large overhead to the number of trainable parameters by using hyper-networks conditioned on modifiable preferences. In this paper, we propose to condition the network directly on these preferences by augmenting them to the feature space. Furthermore, we ensure a well-spread Pareto front by penalizing the solutions to maintain a small angle to the preference vector. In a series of experiments, we demonstrate that our Pareto fronts achieve state-of-the-art quality despite being computed significantly faster. Furthermore, we showcase the scalability as our method approximates the full Pareto front on the CelebA dataset with an EfficientNet network at a tiny training time overhead of 7% compared to a simple single-objective optimization. We make our code publicly available at https://github.com/r uchtem/cosmos.
翻訳日:2021-03-26 13:33:35 公開日:2021-03-24
# 低精度ニューラルネットワーク学習のための簡易かつ効率的な確率的ラウンドリング法

A Simple and Efficient Stochastic Rounding Method for Training Neural Networks in Low Precision ( http://arxiv.org/abs/2103.13445v1 )

ライセンス: Link先を確認
Lu Xia, Martijn Anthonissen, Michiel Hochstenbach and Barry Koren(参考訳) 従来の確率ラウンドリング(CSR)はニューラルネットワーク(NN)のトレーニングに広く用いられ、低精度計算においても有望なトレーニング結果を示す。 よりシンプルで効率的な確率的ラウンドリング法を提案する。 提案手法は16ビットの固定点数を持つNNのトレーニングに成功し,CSRおよび決定論的ラウンドリング・トゥ・ザ・アレスト法よりも高速な収束と高い分類精度を提供する。

Conventional stochastic rounding (CSR) is widely employed in the training of neural networks (NNs), showing promising training results even in low-precision computations. We introduce an improved stochastic rounding method, that is simple and efficient. The proposed method succeeds in training NNs with 16-bit fixed-point numbers and provides faster convergence and higher classification accuracy than both CSR and deterministic rounding-to-the-near est method.
翻訳日:2021-03-26 13:33:17 公開日:2021-03-24
# 深層学習に基づく指制御による携帯型自己完結型義手

A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control ( http://arxiv.org/abs/2103.13452v1 )

ライセンス: Link先を確認
Anh Tuan Nguyen, Markus W. Drealan, Diu Khue Luu, Ming Jiang, Jian Xu, Jonathan Cheng, Qi Zhao, Edward W. Keefer, Zhi Yang(参考訳) 目的: 深層学習に基づくニューラルデコーダは、神経補綴の巧妙で直感的な制御を可能にする顕著なアプローチとして登場した。 しかし,高い計算量を必要とするため,臨床現場での深層学習の利用を実現した研究は少ない。 方法:エッジコンピューティングデバイスの最近の進歩は、この問題を軽減する可能性をもたらす。 本稿では、深層学習に基づく制御を組み込んだ神経補綴ハンドの実装について述べる。 neural decoderはrecurrent neural network (rnn)アーキテクチャに基づいて設計され、ディープラーニング推論のためのコンパクトでパワフルなエッジコンピューティングプラットフォームであるnvidia jetson nanoにデプロイされる。 これにより、個々の指の動きをリアルタイムに制御するポータブルで自己完結型ユニットとして、神経義手の実装が可能になる。 結果: 末梢神経信号 (ENG) を用いた経皮的切断術において, 血管内微小電極を移植した。 実験結果は,様々な実験室および実環境における個々の指の動きをロバストで高精度 (95-99%) かつ低遅延 (50-120 msec) で制御できることを示す。 結論: 現代のエッジコンピューティングプラットフォームは、ディープラーニングベースのニューラルデコーダを自律システムとして神経補綴制御に効果的に活用することができる。 意義:この研究は、組み込み人工知能を備えた新しいタイプのウェアラブルバイオメディカルデバイスの基礎となる臨床応用におけるディープニューラルネットワークの展開の先駆けとなる。

Objective: Deep learning-based neural decoders have emerged as the prominent approach to enable dexterous and intuitive control of neuroprosthetic hands. Yet few studies have materialized the use of deep learning in clinical settings due to its high computational requirements. Methods: Recent advancements of edge computing devices bring the potential to alleviate this problem. Here we present the implementation of a neuroprosthetic hand with embedded deep learning-based control. The neural decoder is designed based on the recurrent neural network (RNN) architecture and deployed on the NVIDIA Jetson Nano - a compacted yet powerful edge computing platform for deep learning inference. This enables the implementation of the neuroprosthetic hand as a portable and self-contained unit with real-time control of individual finger movements. Results: The proposed system is evaluated on a transradial amputee using peripheral nerve signals (ENG) with implanted intrafascicular microelectrodes. The experiment results demonstrate the system's capabilities of providing robust, high-accuracy (95-99%) and low-latency (50-120 msec) control of individual finger movements in various laboratory and real-world environments. Conclusion: Modern edge computing platforms enable the effective use of deep learning-based neural decoders for neuroprosthesis control as an autonomous system. Significance: This work helps pioneer the deployment of deep neural networks in clinical applications underlying a new class of wearable biomedical devices with embedded artificial intelligence.
翻訳日:2021-03-26 13:28:35 公開日:2021-03-24
# mip-nerf: アンチエイリアシング神経放射場のためのマルチスケール表現

Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields ( http://arxiv.org/abs/2103.13415v1 )

ライセンス: Link先を確認
Jonathan T. Barron, Ben Mildenhall, Matthew Tancik, Peter Hedman, Ricardo Martin-Brualla, Pratul P. Srinivasan(参考訳) neural radiance fields(nerf)が使用するレンダリング手順は、ピクセル当たりの1光線でシーンをサンプリングするので、画像のトレーニングやテストで異なる解像度でシーンコンテンツを観察する場合、過度にぼやけやエイリアスを生じる可能性がある。 ピクセル毎に複数の光線をレンダリングすることでスーパーサンプリングするという簡単な解決策は、nrfでは実用的ではない。 我々のソリューションは"mip-NeRF"("mipmap")と呼ばれ、NeRFを拡張して連続的に評価されたスケールでシーンを表現する。 Mip-NeRFは、放射線の代わりに抗エイリアス化円錐体を効率よくレンダリングすることで、異種エイリアス化アーティファクトを減らし、NeRFの細部を表現できる能力を大幅に改善し、NeRFよりも7%速くなる。 NeRFと比較して、mip-NeRFはNeRFで提示されたデータセットでは平均誤差率を16%削減し、そのデータセットでは60%削減する。 Mip-NeRFはまた、我々のマルチスケールデータセット上で、ブルートフォースのスーパーサンプリングされたNeRFの精度を22倍速くすることができる。

The rendering procedure used by neural radiance fields (NeRF) samples a scene with a single ray per pixel and may therefore produce renderings that are excessively blurred or aliased when training or testing images observe scene content at different resolutions. The straightforward solution of supersampling by rendering with multiple rays per pixel is impractical for NeRF, because rendering each ray requires querying a multilayer perceptron hundreds of times. Our solution, which we call "mip-NeRF" (a la "mipmap"), extends NeRF to represent the scene at a continuously-valued scale. By efficiently rendering anti-aliased conical frustums instead of rays, mip-NeRF reduces objectionable aliasing artifacts and significantly improves NeRF's ability to represent fine details, while also being 7% faster than NeRF and half the size. Compared to NeRF, mip-NeRF reduces average error rates by 16% on the dataset presented with NeRF and by 60% on a challenging multiscale variant of that dataset that we present. Mip-NeRF is also able to match the accuracy of a brute-force supersampled NeRF on our multiscale dataset while being 22x faster.
翻訳日:2021-03-26 13:28:14 公開日:2021-03-24
# マルチメディア技術とロバストアルゴリズムに関する調査

A Survey of Multimedia Technologies and Robust Algorithms ( http://arxiv.org/abs/2103.13477v1 )

ライセンス: Link先を確認
Zijian Kuang and Xinran Tie(参考訳) マルチメディア技術は現在、現実の世界でより実用的でデプロイ可能であり、アルゴリズムはディープラーニング、信号処理、触覚、コンピュータビジョン、ロボティクス、医療マルチメディア処理といった様々な研究領域で広く使われている。 本調査は,マルチメディアデータ処理,医療マルチメディア処理,顔表情追跡とポーズ認識,教育と教育におけるマルチメディアにおけるマルチメディア技術と頑健なアルゴリズムの概要を提供する。 この調査はまた、現在のロバストアルゴリズムとマルチメディア技術の概要に基づいて、今後の研究方向性を分析・提案する。 我々は、将来の研究の着想と出発点であるアルバータ大学のマルチメディア研究センター(mrc)が行った研究とこれまでの研究に感謝したい。

Multimedia technologies are now more practical and deployable in real life, and the algorithms are widely used in various researching areas such as deep learning, signal processing, haptics, computer vision, robotics, and medical multimedia processing. This survey provides an overview of multimedia technologies and robust algorithms in multimedia data processing, medical multimedia processing, human facial expression tracking and pose recognition, and multimedia in education and training. This survey will also analyze and propose a future research direction based on the overview of current robust algorithms and multimedia technologies. We want to thank the research and previous work done by the Multimedia Research Centre (MRC), the University of Alberta, which is the inspiration and starting point for future research.
翻訳日:2021-03-26 13:27:48 公開日:2021-03-24
# エントロピー最小化行列分解

Entropy Minimizing Matrix Factorization ( http://arxiv.org/abs/2103.13487v1 )

ライセンス: Link先を確認
Mulin Chen and Xuelong Li(参考訳) 非負行列因子化(NMF)は、広く使われているデータ解析手法であり、多くの実世界のタスクにおいて印象的な結果をもたらした。 一般に、既存のNMF法は、各試料を複数のセントロイドで表現し、近似誤差の和を最小化して最適なセントロイドを求める。 しかし、通常のデータ分布から逸脱する外れ値には大きな残基があり、目的値が真に支配される。 本研究では,この問題に対処するために,エントロピー最小化行列因子化フレームワーク(EMMF)を開発した。 異常値が通常のサンプルよりもはるかに小さいことを考えると、行列分解のために新しいエントロピー損失関数が確立され、残余分布のエントロピーが最小化され、少数のサンプルが近似誤差が大きい。 このようにして、外れ値が通常のサンプルの近似に影響を与えない。 EMMFの乗法的更新ルールも設計され、理論的および実験的に収束が証明される。 さらに、複雑なデータ構造を扱うために、EMMF(G-EMMF)のグラフ正規化バージョンも提示される。 様々な合成データと実世界のデータセット上でのクラスタリングの結果から,提案モデルの妥当性が示され,最新データとの比較により有効性が検証された。

Nonnegative Matrix Factorization (NMF) is a widely-used data analysis technique, and has yielded impressive results in many real-world tasks. Generally, existing NMF methods represent each sample with several centroids, and find the optimal centroids by minimizing the sum of the approximation errors. However, the outliers deviating from the normal data distribution may have large residues, and then dominate the objective value seriously. In this study, an Entropy Minimizing Matrix Factorization framework (EMMF) is developed to tackle the above problem. Considering that the outliers are usually much less than the normal samples, a new entropy loss function is established for matrix factorization, which minimizes the entropy of the residue distribution and allows a few samples to have large approximation errors. In this way, the outliers do not affect the approximation of the normal samples. The multiplicative updating rules for EMMF are also designed, and the convergence is proved both theoretically and experimentally. In addition, a Graph regularized version of EMMF (G-EMMF) is also presented to deal with the complex data structure. Clustering results on various synthetic and real-world datasets demonstrate the reasonableness of the proposed models, and the effectiveness is also verified through the comparison with the state-of-the-arts.
翻訳日:2021-03-26 13:24:24 公開日:2021-03-24
# 特徴量非負行列因子化

Feature Weighted Non-negative Matrix Factorization ( http://arxiv.org/abs/2103.13491v1 )

ライセンス: Link先を確認
Mulin Chen, Maoguo Gong, and Xuelong Li(参考訳) 非負行列因子化(NMF)は、データ表現とクラスタリングの最も一般的な手法の1つであり、機械学習やデータ分析で広く使われている。 NMF は各標本の特徴をベクトルに集中させ、低次元表現が達成されるような基底ベクトルの線形結合によって近似する。 しかし、現実世界のアプリケーションでは、機能は通常異なる重要性を持つ。 識別的特徴を利用するために、いくつかのメソッドは、サンプルを変換マトリックスでサブスペースに投影し、元の特徴属性を乱し、サンプルの多様性を無視する。 上記の問題を緩和するため,本稿では特徴量非負行列因子化(FNMF)を提案する。 1) 特徴の重みを重要度に応じて適応的に学習する; 2) 多様性を保つために複数の特徴重み成分を利用する; 3) 提案する最適化アルゴリズムで効率的に解くことができる。 合成および実世界のデータセットの性能は,提案手法が最先端の性能を得ることを示す。

Non-negative Matrix Factorization (NMF) is one of the most popular techniques for data representation and clustering, and has been widely used in machine learning and data analysis. NMF concentrates the features of each sample into a vector, and approximates it by the linear combination of basis vectors, such that the low-dimensional representations are achieved. However, in real-world applications, the features are usually with different importances. To exploit the discriminative features, some methods project the samples into the subspace with a transformation matrix, which disturbs the original feature attributes and neglects the diversity of samples. To alleviate the above problems, we propose the Feature weighted Non-negative Matrix Factorization (FNMF) in this paper. The salient properties of FNMF can be summarized as threefold: 1) it learns the weights of features adaptively according to their importances; 2) it utilizes multiple feature weighting components to preserve the diversity; 3) it can be solved efficiently with the suggested optimization algorithm. Performance on synthetic and real-world datasets demonstrate that the proposed method obtains the state-of-the-art performance.
翻訳日:2021-03-26 13:24:03 公開日:2021-03-24
# ベイズ回帰ゲームに対する変分不等式アプローチ

A Variational Inequality Approach to Bayesian Regression Games ( http://arxiv.org/abs/2103.13509v1 )

ライセンス: Link先を確認
Wenshuo Guo, Michael I. Jordan, Tianyi Lin(参考訳) ベイズ回帰ゲーム(英: bayesian regression games)は、2人プレイの一般サムベイズゲーム(英語版)の特殊クラスであり、学習者がベイズ前駆者を通じて敵の目的を部分的に知らされる。 この定式化は、敵意に関する不確実性を捉え、学習者と敵意が相反するかもしれない問題において有用であるが、必ずしも完全に敵対的な目的ではない。 ベイジアン・アプローチは標準的なミニマックスの定式化の代替となるが、ベイジアン回帰ゲームの適用は計算困難のために制限されており、ベイジアン均衡の存在と特異性は二次コスト関数でのみ知られている。 まず、ヒルベルト空間における無限次元変分不等式 (VI) の解として、凸と滑らかなベイズゲームのクラスに対するベイズ均衡の存在と特異性を証明する。 無限次元 VI が高次元 VI あるいは非凸確率最適化に還元される2つの特別な場合を考え、強い収束を保証する2つの簡単なアルゴリズムを提供する。 実データセットの数値結果は、このアプローチの可能性を実証している。

Bayesian regression games are a special class of two-player general-sum Bayesian games in which the learner is partially informed about the adversary's objective through a Bayesian prior. This formulation captures the uncertainty in regard to the adversary, and is useful in problems where the learner and adversary may have conflicting, but not necessarily perfectly antagonistic objectives. Although the Bayesian approach is a more general alternative to the standard minimax formulation, the applications of Bayesian regression games have been limited due to computational difficulties, and the existence and uniqueness of a Bayesian equilibrium are only known for quadratic cost functions. First, we prove the existence and uniqueness of a Bayesian equilibrium for a class of convex and smooth Bayesian games by regarding it as a solution of an infinite-dimensional variational inequality (VI) in Hilbert space. We consider two special cases in which the infinite-dimensional VI reduces to a high-dimensional VI or a nonconvex stochastic optimization, and provide two simple algorithms of solving them with strong convergence guarantees. Numerical results on real datasets demonstrate the promise of this approach.
翻訳日:2021-03-26 13:23:45 公開日:2021-03-24
# fedgp:ヘテロジニアスフェデレート学習のための相関ベースアクティブクライアント選択

FedGP: Correlation-Based Active Client Selection for Heterogeneous Federated Learning ( http://arxiv.org/abs/2103.13822v1 )

ライセンス: Link先を確認
Minxue Tang, Xuefei Ning, Yitu Wang, Yu Wang and Yiran Chen(参考訳) クライアントサイドの不均一性は、連合学習(fl)における効果的なトレーニングを妨げる主要な問題の1つである。 各クライアント上のデータ分布は劇的に異なる可能性があるため、クライアント選択戦略はFLプロセスの収束率に大きな影響を与える。 最近のいくつかの研究はアクティブクライアント選択戦略を採用している。 しかし,クライアント間の損失相関を無視し,一様選択戦略に比べて限界改善を実現している。 本稿では、FLの収束率を高めるために、相関ベースのクライアント選択戦略に基づくフェデレート学習フレームワークであるFedGPを提案する。 具体的には、まずクライアント間の損失相関をガウス過程(GP)でモデル化する。 通信境界FLプロセスにおいてGPトレーニングを実現するため,歴史的サンプルを効率的に利用して通信コストを削減するGPトレーニング手法を開発した。 最後に、我々が学んだ相関関係に基づいて、各ラウンドで予想されるグローバル損失の減少を拡大してクライアントの選択を導出する。 我々の実験結果によると、最新のアクティブクライアント選択戦略と比較して、FedGPはFMNISTとCIFAR-10でそれぞれ1.3\sim2.3\times$と1.2\sim1.4\times$の収束率を改善することができる。

Client-wise heterogeneity is one of the major issues that hinder effective training in federated learning (FL). Since the data distribution on each client may differ dramatically, the client selection strategy can largely influence the convergence rate of the FL process. Several recent studies adopt active client selection strategies. However, they neglect the loss correlations between the clients and achieve marginal improvement compared to the uniform selection strategy. In this work, we propose FedGP -- a federated learning framework built on a correlation-based client selection strategy, to boost the convergence rate of FL. Specifically, we first model the loss correlations between the clients with a Gaussian Process (GP). To make the GP training feasible in the communication-bounde d FL process, we develop a GP training method utilizing the historical samples efficiently to reduce the communication cost. Finally, based on the correlations we learned, we derive the client selection with an enlarged reduction of expected global loss in each round. Our experimental results show that compared to the latest active client selection strategy, FedGP can improve the convergence rates by $1.3\sim2.3\times$ and $1.2\sim1.4\times$ on FMNIST and CIFAR-10, respectively.
翻訳日:2021-03-26 13:23:08 公開日:2021-03-24
# 自律走行車における前方動的物体の3次元追跡フレームワーク

A Framework for 3D Tracking of Frontal Dynamic Objects in Autonomous Cars ( http://arxiv.org/abs/2103.13430v1 )

ライセンス: Link先を確認
Faraz Lotfi, Hamid D. Taghirad(参考訳) 前方動態物体の認識と3次元追跡は、自律走行車において重要な問題である一方、深度推定は単眼カメラによる課題となっている。 カメラとオブジェクトの両方が動いているため、この問題はモーション(SFM)問題から構造として形成することができる。 本稿では,画像から特徴を抽出するために,OpenCVトラッカーの横にYOLOv3アプローチを利用する。 その後、横距離と縦距離を得るため、状態依存リッカティ式(sdre)フィルタと新しく開発された観測モデルと並行して非線形sfmモデルを検討する。 また,sdreフィルタのロバスト性能を向上させるため,スイッチング推定誤差共分散方式のスイッチング方式を提案する。 提案フィルタの安定性解析は, 離散非線形系のクラスで行った。 さらに,モデル不確実性に起因する推定誤差の究極境界を解析的に求め,スイッチングの意義について検討する。 スイッチングされたSDREフィルタの性能を検証するシミュレーションが報告されている。 最後に,jetson tx2基板上に実装したマルチスレッドフレームワークを用いてリアルタイム実験を行い,レーダデータを用いて評価を行う。

Both recognition and 3D tracking of frontal dynamic objects are crucial problems in an autonomous vehicle, while depth estimation as an essential issue becomes a challenging problem using a monocular camera. Since both camera and objects are moving, the issue can be formed as a structure from motion (SFM) problem. In this paper, to elicit features from an image, the YOLOv3 approach is utilized beside an OpenCV tracker. Subsequently, to obtain the lateral and longitudinal distances, a nonlinear SFM model is considered alongside a state-dependent Riccati equation (SDRE) filter and a newly developed observation model. Additionally, a switching method in the form of switching estimation error covariance is proposed to enhance the robust performance of the SDRE filter. The stability analysis of the presented filter is conducted on a class of discrete nonlinear systems. Furthermore, the ultimate bound of estimation error caused by model uncertainties is analytically obtained to investigate the switching significance. Simulations are reported to validate the performance of the switched SDRE filter. Finally, real-time experiments are performed through a multi-thread framework implemented on a Jetson TX2 board, while radar data is used for the evaluation.
翻訳日:2021-03-26 13:22:07 公開日:2021-03-24
# ModGNN: Modular Graph Neural Network Architectureを用いたマルチエージェントシステムにおけるエキスパートポリシー近似

ModGNN: Expert Policy Approximation in Multi-Agent Systems with a Modular Graph Neural Network Architecture ( http://arxiv.org/abs/2103.13446v1 )

ライセンス: Link先を確認
Ryan Kortvelesy and Amanda Prorok(参考訳) マルチエージェント領域における最近の研究は、複雑なコーディネーション戦略を学ぶためのグラフニューラルネットワーク(GNN)の約束を示している。 しかし、現在のほとんどのアプローチでは、マルチエージェントシステムによって形成された通信グラフに畳み込みを適用したグラフ畳み込みネットワーク(GCN)の小さな変種を用いる。 本稿では,gcnの性能と一般化が向上できるかどうかについて検討する。 我々は、GCNの一般化に役立つ分散フレームワークであるModGNNを導入し、より柔軟性を提供します。 本仮説を検証するために,マルチエージェント・フロッキング問題におけるいくつかのベースラインに対するModGNNの実装を評価した。 我々のフレームワークの最も重要なコンポーネントがgcnに存在しないコンポーネントであることを示すために、アブレーション分析を実施します。 エージェント数を変化させることで、ModGNNのアプリケーションに依存しない実装では、新しい環境に一般化する能力が改善されていることを示す。

Recent work in the multi-agent domain has shown the promise of Graph Neural Networks (GNNs) to learn complex coordination strategies. However, most current approaches use minor variants of a Graph Convolutional Network (GCN), which applies a convolution to the communication graph formed by the multi-agent system. In this paper, we investigate whether the performance and generalization of GCNs can be improved upon. We introduce ModGNN, a decentralized framework which serves as a generalization of GCNs, providing more flexibility. To test our hypothesis, we evaluate an implementation of ModGNN against several baselines in the multi-agent flocking problem. We perform an ablation analysis to show that the most important component of our framework is one that does not exist in a GCN. By varying the number of agents, we also demonstrate that an application-agnostic implementation of ModGNN possesses an improved ability to generalize to new environments.
翻訳日:2021-03-26 13:21:43 公開日:2021-03-24
# スパース固有ベクトル問題に対するTrncated Orthogonal Iterationの解析

Analysis of Truncated Orthogonal Iteration for Sparse Eigenvector Problems ( http://arxiv.org/abs/2103.13523v1 )

ライセンス: Link先を確認
Hexuan Liu and Aleksandr Aravkin(参考訳) 計算科学と工学における幅広い問題には、高次元システムに対するスパース固有ベクトルの推定が必要である。 そこで本研究では,複数の先行固有ベクトルを同時に計算するTrncated Orthogonal Iterationの2つの変種を提案する。 摂動フレームワークを用いて提案アルゴリズムの数値収束結果を確立し,スパース固有ベクトル推定のための他の代替手法に解析を拡張した。 次に,本アルゴリズムを適用して,単純なシミュレーションからmnist,海面温度,20のニュースグループを含む実世界のデータセットまで,幅広いテストデータセットのスパース原理成分分析問題を解く。 これらすべてのケースにおいて,新しい手法は,パラメータチューニングを最小限に抑えつつ,成果を迅速に得ることを示す。

A wide range of problems in computational science and engineering require estimation of sparse eigenvectors for high dimensional systems. Here, we propose two variants of the Truncated Orthogonal Iteration to compute multiple leading eigenvectors with sparsity constraints simultaneously. We establish numerical convergence results for the proposed algorithms using a perturbation framework, and extend our analysis to other existing alternatives for sparse eigenvector estimation. We then apply our algorithms to solve the sparse principle component analysis problem for a wide range of test datasets, from simple simulations to real-world datasets including MNIST, sea surface temperature and 20 newsgroups. In all these cases, we show that the new methods get state of the art results quickly and with minimal parameter tuning.
翻訳日:2021-03-26 13:21:26 公開日:2021-03-24
# (参考訳) mogface: 顔検出器のスケール拡張を再考する [全文訳有]

MogFace: Rethinking Scale Augmentation on the Face Detector ( http://arxiv.org/abs/2103.11139v2 )

ライセンス: CC BY 4.0
Yang Liu, Fei Wang, Baigui Sun, Hao Li(参考訳) 顔検出器は、しばしば極端なスケールのばらつきに直面する。 有名なソリューションは、マルチスケールトレーニング、データアンカーサンプリング、ランダムな作物戦略である。 本稿では,画像の前景情報や背景情報,スケール情報など,過去のソリューションとの違いを調べることで,超大規模分散問題を解決するための2つの重要な要素を示す。 しかし、現在の優れた解は、後者を効果的に吸収することを怠りながら、以前の情報のみを活用できる。 計測器がスケール情報を効率的に利用するのを助けるために,検出器の性能とトレーニングデータのスケール分布の関係を分析する。 そこで本研究では,これらの2つの情報を効率的に同時に同化できるSSE(Selective Scale Enhancement)戦略を提案する。 最後に,AFW,PASCALフェイス,FDDB,Wider Faceデータセットなど,すべての一般的な顔検出ベンチマークにおける最先端検出性能を実現する。 我々の結果は、Wider Faceデータセットで6つのチャンピオンを達成したことに注意してください。

Face detector frequently confronts extreme scale variance challenge. The famous solutions are Multi-scale training, Data-anchor-sampling and Random crop strategy. In this paper, we indicate 2 significant elements to resolve extreme scale variance problem by investigating the difference among the previous solutions, including the fore-ground and back-ground information of an image and the scale information. However, current excellent solutions can only utilize the former information while neglecting to absorb the latter one effectively. In order to help the detector utilize the scale information efficiently, we analyze the relationship between the detector performance and the scale distribution of the training data. Based on this analysis, we propose a Selective Scale Enhancement (SSE) strategy which can assimilate these two information efficiently and simultaneously. Finally, our method achieves state-of-the-art detection performance on all common face detection benchmarks, including AFW, PASCAL face, FDDB and Wider Face datasets. Note that our result achieves six champions on the Wider Face dataset.
翻訳日:2021-03-26 03:46:30 公開日:2021-03-24
# (参考訳) 目標探索2次非拘束二元最適化 [全文訳有]

Goal Seeking Quadratic Unconstrained Binary Optimization ( http://arxiv.org/abs/2103.12951v1 )

ライセンス: CC BY 4.0
Amit Verma and Mark Lewis(参考訳) quabo(quadratic unconstrained binary optimization)モデリングと解フレームワークは、明確に定義された計量、目的関数の最適化を目標とする量子およびデジタルアニーラに対して必要である。 しかし、厳密な最適解を実装するよりも、多様な準最適解の方が好まれる。 加えて、意思決定者は通常、許容範囲、間隔、範囲値などの最適化モデルに常に効率的に変換されない洞察を持つ。 マルチ基準意思決定は、ユーザの意思決定プロセスへの関与の一例である。 本稿では,目標からの偏差を最小限に抑える2種類の目標探索QUBOを提案する。 実験結果から,制約プログラミングに対する提案手法の有効性が示唆された。

The Quadratic Unconstrained Binary Optimization (QUBO) modeling and solution framework is required for quantum and digital annealers whose goal is the optimization of a well defined metric, the objective function. However, diverse suboptimal solutions may be preferred over harder to implement strict optimal ones. In addition, the decision-maker usually has insights that are not always efficiently translated into the optimization model, such as acceptable target, interval or range values. Multi-criteria decision making is an example of involving the user in the decision process. In this paper, we present two variants of goal-seeking QUBO that minimize the deviation from the goal through a tabu-search based greedy one-flip heuristic. Experimental results illustrate the efficacy of the proposed approach over Constraint Programming for quickly finding a satisficing set of solutions.
翻訳日:2021-03-25 22:32:51 公開日:2021-03-24
# (参考訳) 非凸分散確率零次座標法の収束解析 [全文訳有]

Convergence Analysis of Nonconvex Distributed Stochastic Zeroth-order Coordinate Method ( http://arxiv.org/abs/2103.12954v1 )

ライセンス: CC BY 4.0
Shengjun Zhang, Yunlong Dong, Dong Xie, Lisha Yao, Colleen P. Bailey, Shengli Fu(参考訳) 本稿では,局所的コスト関数の和によるグローバルコスト関数を最小化する確率的分散非凸最適化問題について検討する。 ゼロオーダー(ZO)情報交換を伴ってこの問題を解決する。 本稿では,確率最適化問題の解法としてZO分散原始双対座標法(ZODIAC)を提案する。 エージェントは、適応的滑らか化パラメータを持つ座標とともに、自身の局所確率的ZOオラクルを近似する。 提案アルゴリズムは一般の非凸コスト関数に対して$\mathcal{O}(\sqrt{p}/\sqrt{T})$の収束率を達成することを示す。 本研究では,既存の集中型分散zoアルゴリズムと比較し,数値例を用いて提案アルゴリズムの効率性を示す。

This paper investigates the stochastic distributed nonconvex optimization problem of minimizing a global cost function formed by the summation of $n$ local cost functions. We solve such a problem by involving zeroth-order (ZO) information exchange. In this paper, we propose a ZO distributed primal-dual coordinate method (ZODIAC) to solve the stochastic optimization problem. Agents approximate their own local stochastic ZO oracle along with coordinates with an adaptive smoothing parameter. We show that the proposed algorithm achieves the convergence rate of $\mathcal{O}(\sqrt{p}/\sqrt{T})$ for general nonconvex cost functions. We demonstrate the efficiency of proposed algorithms through a numerical example in comparison with the existing state-of-the-art centralized and distributed ZO algorithms.
翻訳日:2021-03-25 22:23:59 公開日:2021-03-24
# (参考訳) 単一奥行き超解像のためのクロスタスク知識伝達による学習シーン構造指導 [全文訳有]

Learning Scene Structure Guidance via Cross-Task Knowledge Transfer for Single Depth Super-Resolution ( http://arxiv.org/abs/2103.12955v1 )

ライセンス: CC BY 4.0
Baoli Sun, Xinchen Ye, Baopu Li, Haojie Li, Zhihui Wang, Rui Xu(参考訳) 既存の色誘導深度超解法(DSR)アプローチでは、幾何学的類似性により劣化した深度マップを復元するために、RGBイメージを構造ガイダンスとして使用するトレーニングサンプルとしてペアRGB-Dデータが必要である。 しかし、ペアのデータを実際のテスト環境で収集するには、制限やコストがかかる可能性がある。 そこで本研究では,RGBと深度モダリティの両方が利用できる訓練段階において,単一の深度モダリティのみが存在するターゲットデータセット上で実験を行い,モダリティ間の知識を初めて学習する。 我々のキーとなる考え方は、RGBのモダリティから単一のDSRタスクへのシーン構造ガイダンスの知識を、ネットワークアーキテクチャを変更することなく抽出することである。 具体的には、RGBイメージを入力として深度マップを推定する補助深度推定(DE)タスクを構築し、DSRタスクとDSRタスクの両方を協調的にトレーニングし、DSRの性能を高める。 タスク間の知識伝達を実現するために,クロスタスクインタラクションモジュールが提案されている。 まず,DSR と DE ネットワークの相互学習を促すクロスタスク蒸留方式を,教師が指導する役割交換方式で設計する。 次に,dsrとdeネットワークの両方が奥行き回復のためにより情報的な構造表現を学ぶのに役立つ構造正規化を提供する構造予測(sp)タスクを前進させる。 大規模な実験により,本手法は他のDSR法と比較して優れた性能を示した。

Existing color-guided depth super-resolution (DSR) approaches require paired RGB-D data as training samples where the RGB image is used as structural guidance to recover the degraded depth map due to their geometrical similarity. However, the paired data may be limited or expensive to be collected in actual testing environment. Therefore, we explore for the first time to learn the cross-modality knowledge at training stage, where both RGB and depth modalities are available, but test on the target dataset, where only single depth modality exists. Our key idea is to distill the knowledge of scene structural guidance from RGB modality to the single DSR task without changing its network architecture. Specifically, we construct an auxiliary depth estimation (DE) task that takes an RGB image as input to estimate a depth map, and train both DSR task and DE task collaboratively to boost the performance of DSR. Upon this, a cross-task interaction module is proposed to realize bilateral cross task knowledge transfer. First, we design a cross-task distillation scheme that encourages DSR and DE networks to learn from each other in a teacher-student role-exchanging fashion. Then, we advance a structure prediction (SP) task that provides extra structure regularization to help both DSR and DE networks learn more informative structure representations for depth recovery. Extensive experiments demonstrate that our scheme achieves superior performance in comparison with other DSR methods.
翻訳日:2021-03-25 21:28:18 公開日:2021-03-24
# (参考訳) 再生可能エネルギー予測のためのVAEベースのベイズ双方向LSTM [全文訳有]

A VAE-Based Bayesian Bidirectional LSTM for Renewable Energy Forecasting ( http://arxiv.org/abs/2103.12969v1 )

ライセンス: CC BY 4.0
Devinder Kaur, Shama Naz Islam, and Md. Apel Mahmud(参考訳) 現代の電力システムにおける分散型発電技術の進歩は、顧客側で再生可能発電の広範な統合につながった。 しかし、再生可能エネルギーの断続的な性質は、基盤となる不確実性を伴うネットワーク運用計画に新たな課題をもたらす。 本稿では,両方向長短期記憶(BiLSTM)ニューラルネットワークを統合し,変動オートエンコーダ(VAE)を用いて重みパラメータを圧縮し,データとモデルの不確かさに対処し,再生可能電力発生を予測する新しいベイズ確率的手法を提案する。 既存のベイズ深層学習法は、確率分布の形で表現された重みパラメータから大量のサンプルを引き出す必要があるため、計算の複雑さが高い。 提案手法は,モデルパラメータの次元性を低減することにより,モデルやデータに存在する不確かさをより計算効率良く扱うことができる。 提案手法は,ピンボール損失,再構成誤差,その他の予測評価指標を用いて評価する。 VAE-Bayesian BiLSTMは、データセットの異なるサイズに対する予測精度と計算効率において、他の確率的深層学習法よりも優れていると推定された。

The advancement in distributed generation technologies in modern power systems has led to a widespread integration of renewable power generation at customer side. However, the intermittent nature of renewable energy pose new challenges to the network operational planning with underlying uncertainties. This paper proposes a novel Bayesian probabilistic technique for forecasting renewable power generation by addressing data and model uncertainties by integrating bidirectional long short-term memory (BiLSTM) neural networks while compressing the weight parameters using variational autoencoder (VAE). Existing Bayesian deep learning methods suffer from high computational complexities as they require to draw a large number of samples from weight parameters expressed in the form of probability distributions. The proposed method can deal with uncertainty present in model and data in a more computationally efficient manner by reducing the dimensionality of model parameters. The proposed method is evaluated using pinball loss, reconstruction error, and other forecasting evaluation metrics. It is inferred from the numerical results that VAE-Bayesian BiLSTM outperforms other probabilistic deep learning methods in terms of forecasting accuracy and computational efficiency for different sizes of the dataset.
翻訳日:2021-03-25 21:14:07 公開日:2021-03-24
# (参考訳) セマンティック検索からペアワイズランキングへ:eコマース検索にディープラーニングを適用する [全文訳有]

From Semantic Retrieval to Pairwise Ranking: Applying Deep Learning in E-commerce Search ( http://arxiv.org/abs/2103.12982v1 )

ライセンス: CC BY 4.0
Rui Li, Yunjiang Jiang, Wenyun Yang, Guoyu Tang, Songlin Wang, Chaoyi Ma, Wei He, Xi Xiong, Yun Xiao, Eric Yihong Zhao(参考訳) 我々は、世界最大のeコマースプラットフォームであるJD.comで、製品検索において最も重要な2つの段階にディープラーニングモデルを導入します。 具体的には,ミリ秒以内のクエリに意味的関連項目を検索する深層学習システムと,微妙なユーザの嗜好を学習する一対の深層学習システムの設計について概説する。 従来の検索システムと比較して,提案手法は意味検索やパーソナライズされたランキングに優れ,大幅な改善を達成している。

We introduce deep learning models to the two most important stages in product search at JD.com, one of the largest e-commerce platforms in the world. Specifically, we outline the design of a deep learning system that retrieves semantically relevant items to a query within milliseconds, and a pairwise deep re-ranking system, which learns subtle user preferences. Compared to traditional search systems, the proposed approaches are better at semantic retrieval and personalized ranking, achieving significant improvements.
翻訳日:2021-03-25 21:00:28 公開日:2021-03-24
# (参考訳) 薬物標的予測のためのマルチエージェント強化学習による実例説明 [全文訳有]

Counterfactual Explanation with Multi-Agent Reinforcement Learning for Drug Target Prediction ( http://arxiv.org/abs/2103.12983v1 )

ライセンス: CC BY 4.0
Tri Minh Nguyen, Thomas P Quinn, Thin Nguyen, Truyen Tran(参考訳) 動機: 薬物標的親和性(dta)を予測するために、いくつかの正確なディープラーニングモデルが提案されている。 しかしながら、これらのモデルはすべてブラックボックスであるため、結果の解釈と検証が難しいため、受け入れのリスクがある。 DTAモデルの信頼性を高めるには説明が必要だ。 反事実による説明は、人間の理解可能な例を提供する。 ほとんどの反事実的説明法は、表形式または連続形式の単一の入力データでのみ動作する。 対照的に、DTAモデルは2つの離散入力を持つ。 対物生成フレームワークでは、両方の個別入力を同時に最適化することは困難である。 結果: 薬物・タンパク質複合体の非現実的説明を生成するために, 多エージェントの強化学習フレームワークであるMulti-Agent Counterfactual Drug-target binding Affinity (MACDA)を提案する。 提案フレームワークは,入力薬物と標的薬の両方を同時に最適化しながら,人間に解釈可能な反事実インスタンスを提供する。 Davisデータセットの結果は、提案されたMACDAフレームワークの利点を以前の研究と比較したものである。

Motivation: Several accurate deep learning models have been proposed to predict drug-target affinity (DTA). However, all of these models are black box hence are difficult to interpret and verify its result, and thus risking acceptance. Explanation is necessary to allow the DTA model more trustworthy. Explanation with counterfactual provides human-understandable examples. Most counterfactual explanation methods only operate on single input data, which are in tabular or continuous forms. In contrast, the DTA model has two discrete inputs. It is challenging for the counterfactual generation framework to optimize both discrete inputs at the same time. Results: We propose a multi-agent reinforcement learning framework, Multi-Agent Counterfactual Drug-target binding Affinity (MACDA), to generate counterfactual explanations for the drug-protein complex. Our proposed framework provides human-interpretable counterfactual instances while optimizing both the input drug and target for counterfactual generation at the same time. The result on the Davis dataset shows the advantages of the proposed MACDA framework compared with previous works.
翻訳日:2021-03-25 20:56:34 公開日:2021-03-24
# (参考訳) 弱教師付き視覚接地におけるリレーション・アウェア・インスタンスの精密化 [全文訳有]

Relation-aware Instance Refinement for Weakly Supervised Visual Grounding ( http://arxiv.org/abs/2103.12989v1 )

ライセンス: CC BY 4.0
Yongfei Liu, Bo Wan, Lin Ma, Xuming He(参考訳) 視覚オブジェクトとその言語エンティティ間の対応を構築することを目的としたビジュアルグラウンドは、クロスモーダルなシーン理解において重要な役割を果たす。 視覚的接地学習のための有望でスケーラブルな戦略の1つは、イメージキャプションペアのみから弱い監視を活用することである。 従来の手法では、クエリフレーズのマッチングを事前に計算された固定されたオブジェクト候補プールに直接依存しており、意味的関係制約の欠如による不正確なローカライゼーションと曖昧なマッチングにつながる。 本稿では,より正確なオブジェクト表現とマッチングを実現できる2段階のディープネットワークに,粗大なオブジェクトの精細化とエンティティ関係モデリングを組み込んだ,コンテキスト対応弱教師付き学習手法を提案する。 ネットワークを効果的にトレーニングするために,提案場所に対する自己学習回帰損失と,解析されたエンティティ関係に基づく分類損失を提案する。 Flickr30K EntitiesとReferItGameの2つの公開ベンチマークに関する大規模な実験は、我々の弱い基盤フレームワークの有効性を実証している。 その結果、flickr30kエンティティでは59.27\%top-1精度を、リファレンスゲームデータセットでは37.68\%で達成した(コードはhttps://github.com/y oungfly11/reir-weakl ygrounding.pytorch.g itで利用可能)。

Visual grounding, which aims to build a correspondence between visual objects and their language entities, plays a key role in cross-modal scene understanding. One promising and scalable strategy for learning visual grounding is to utilize weak supervision from only image-caption pairs. Previous methods typically rely on matching query phrases directly to a precomputed, fixed object candidate pool, which leads to inaccurate localization and ambiguous matching due to lack of semantic relation constraints. In our paper, we propose a novel context-aware weakly-supervised learning method that incorporates coarse-to-fine object refinement and entity relation modeling into a two-stage deep network, capable of producing more accurate object representation and matching. To effectively train our network, we introduce a self-taught regression loss for the proposal locations and a classification loss based on parsed entity relations. Extensive experiments on two public benchmarks Flickr30K Entities and ReferItGame demonstrate the efficacy of our weakly grounding framework. The results show that we outperform the previous methods by a considerable margin, achieving 59.27\% top-1 accuracy in Flickr30K Entities and 37.68\% in the ReferItGame dataset respectively (Code is available at https://github.com/y oungfly11/ReIR-Weakl yGrounding.pytorch.g it).
翻訳日:2021-03-25 20:44:36 公開日:2021-03-24
# (参考訳) manas: 低線量ctにおけるマルチスケール・マルチレベルニューラルネットワーク探索 [全文訳有]

MANAS: Multi-Scale and Multi-Level Neural Architecture Search for Low-Dose CT Denoising ( http://arxiv.org/abs/2103.12995v1 )

ライセンス: CC BY 4.0
Zexin Lu, Wenjun Xia, Yongqiang Huang, Hongming Shan, Hu Chen, Jiliu Zhou, Yi Zhang(参考訳) CT(Computed tomography)における放射線線量低下は公衆衛生のリスクを大幅に低減させる。 しかし,低用量CTまたは低用量CT(LDCT)から再構成した画像は,重音に悩まされ,その後の診断と解析が困難となった。 近年、畳み込みニューラルネットワークはLDCT画像からノイズを取り除くという有望な結果を達成している。 ニューラルネットワークアーキテクチャ探索(NAS)の最近の進歩は、ネットワークアーキテクチャがモデル性能に劇的な影響を与え、LDCTの現在のネットワークアーキテクチャが準最適であることを示している。 そこで本研究では,LDCTにNASを適用した最初の試みとして,MANASと呼ばれるLDCTのマルチスケール・マルチレベルNASを提案する。 一方,提案されたmanasは,異なるスケールセルから抽出された特徴を融合し,マルチスケール画像構造の詳細をキャプチャする。 一方,提案手法では,ハイブリッドセルとネットワークレベルの構造を探索し,性能を向上させることができる。 3つの異なる線量レベルの大規模な実験結果から,提案したMANASは,いくつかの最先端手法よりも画像構造の詳細を保存できる可能性が示唆された。 また,LDCTのマルチスケールおよびマルチレベルアーキテクチャの有効性も検証した。

Lowering the radiation dose in computed tomography (CT) can greatly reduce the potential risk to public health. However, the reconstructed images from the dose-reduced CT or low-dose CT (LDCT) suffer from severe noise, compromising the subsequent diagnosis and analysis. Recently, convolutional neural networks have achieved promising results in removing noise from LDCT images; the network architectures used are either handcrafted or built on top of conventional networks such as ResNet and U-Net. Recent advance on neural network architecture search (NAS) has proved that the network architecture has a dramatic effect on the model performance, which indicates that current network architectures for LDCT may be sub-optimal. Therefore, in this paper, we make the first attempt to apply NAS to LDCT and propose a multi-scale and multi-level NAS for LDCT denoising, termed MANAS. On the one hand, the proposed MANAS fuses features extracted by different scale cells to capture multi-scale image structural details. On the other hand, the proposed MANAS can search a hybrid cell- and network-level structure for better performance. Extensively experimental results on three different dose levels demonstrate that the proposed MANAS can achieve better performance in terms of preserving image structural details than several state-of-the-art methods. In addition, we also validate the effectiveness of the multi-scale and multi-level architecture for LDCT denoising.
翻訳日:2021-03-25 20:29:29 公開日:2021-03-24
# (参考訳) 産業機械工具部品表面欠陥データセット [全文訳有]

Industrial Machine Tool Component Surface Defect Dataset ( http://arxiv.org/abs/2103.13003v1 )

ライセンス: CC BY-SA 4.0
Tobias Schlagenhauf, Magnus Landwehr, Juergen Fleischer(参考訳) 機械学習(ML)のテクニックを一般的に使用し、ディープラーニングのテクニックを特定のニーズで使用すると、技術的な領域で大量のデータが利用できないことが多い。 機械工具部品の手動検査と製品の手作業による検査は、企業が自動化したいと考えている産業アプリケーションにおける労働集約的な作業である。 分類プロセスの自動化と、信頼性が高く堅牢な機械学習ベースの分類と予測モデルの開発には、モデルのトレーニングとテストのために、実世界のデータセットが必要である。 データセットはhttps://doi.org/10.5 445/IR/1000129520で利用できる。

Using machine learning (ML) techniques in general and deep learning techniques in specific needs a certain amount of data often not available in large quantities in technical domains. The manual inspection of machine tool components and the manual end-of-line check of products are labor-intensive tasks in industrial applications that companies often want to automate. To automate classification processes and develop reliable and robust machine learning-based classification and wear prognostics models, one needs real-world datasets to train and test the models. The dataset is available under https://doi.org/10.5 445/IR/1000129520.
翻訳日:2021-03-25 20:10:38 公開日:2021-03-24
# (参考訳) Topic Modeling Genre: フランスの古典・啓蒙ドラマの探索 [全文訳有]

Topic Modeling Genre: An Exploration of French Classical and Enlightenment Drama ( http://arxiv.org/abs/2103.13019v1 )

ライセンス: CC BY 4.0
Christof Sch\"och(参考訳) 文学的ジャンルの概念は極めて複雑なものであり、様々なジャンルでしばしば定義されるだけでなく、必ずしも同じレベルの記述であるとは限らない。 この貢献は、トピックモデリングという定量的アプローチによるジャンルの主題的側面に焦点を当てている。 トピックモデリングは、主要なテーマに基づいてクラスを見たり閲覧したりすることで、テキストの大規模なコレクションでテーマパターンやトレンドを発見するのに有用であることが証明されている。 しかし、劇的なテキストのコレクションに適用されることは稀である。 この貢献では、古典時代と啓蒙期のフランス演劇の集大成を分析するためにトピック・モデリングが用いられる。 この貢献の一般的な目的は、このコレクションにどのような意味的トピックが存在するか、異なるドラマティックサブジャンルが特徴的な支配的なトピックとプロット関連のトピックパターンを持っているか、そして逆に、プレイ毎のトピックスコアに基づくクラスタリング手法が、より伝統的なジャンルの区別に合致したテキストのグループを形成するかを明らかにすることである。 この貢献は、フランス演劇の主題的・サブジャンル的構造と、古典時代・啓蒙期のフランス劇の歴史に新たな洞察を与える興味深い話題パターンが検出できることを示している。

The concept of literary genre is a highly complex one: not only are different genres frequently defined on several, but not necessarily the same levels of description, but consideration of genres as cognitive, social, or scholarly constructs with a rich history further complicate the matter. This contribution focuses on thematic aspects of genre with a quantitative approach, namely Topic Modeling. Topic Modeling has proven to be useful to discover thematic patterns and trends in large collections of texts, with a view to class or browse them on the basis of their dominant themes. It has rarely if ever, however, been applied to collections of dramatic texts. In this contribution, Topic Modeling is used to analyze a collection of French Drama of the Classical Age and the Enlightenment. The general aim of this contribution is to discover what semantic types of topics are found in this collection, whether different dramatic subgenres have distinctive dominant topics and plot-related topic patterns, and inversely, to what extent clustering methods based on topic scores per play produce groupings of texts which agree with more conventional genre distinctions. This contribution shows that interesting topic patterns can be detected which provide new insights into the thematic, subgenre-related structure of French drama as well as into the history of French drama of the Classical Age and the Enlightenment.
翻訳日:2021-03-25 20:01:50 公開日:2021-03-24
# (参考訳) deGraphCS: ニューラルネットワーク検索のための変数ベースのフローグラフの埋め込み [全文訳有]

deGraphCS: Embedding Variable-based Flow Graph for Neural Code Search ( http://arxiv.org/abs/2103.13020v1 )

ライセンス: CC BY 4.0
Chen Zeng, Yue Yu, Shanshan Li, Xin Xia, Zhiming Wang, Mingyang Geng, Bailin Xiao, Wei Dong, Xiangke Liao(参考訳) パブリックコードリポジトリの量が急速に増加する中、開発者は自然言語を使って正確なコードスニペットを取得することを非常に望んでいます。 既存のディープラーニングベースのアプローチ(例えば、DeepCSやMMAN)は、自然言語をクエリとして受け入れ、関連するコードフラグメントをコードコーパスから直接取得するなど、エンドツーエンドのソリューションを提供してきたが、大規模なリポジトリでのコード検索の精度は、コード表現(AST)とモデリング(例えば、アテンションステージの機能を直接融合させる)によって制限されている。 本稿では,中間表現法に基づいてソースコードを変数ベースのフローグラフに転送する,コード探索のための新しい学習可能な深層グラフ(degraphcs)を提案する。 さらに,コード表現を洗練するよく設計されたグラフ最適化機構を提案し,改良されたゲートグラフニューラルネットワークを可変フローグラフのモデル化に適用する。 deGraphCSの有効性を評価するために、C言語で記述された41,152のコードスニペットを含むGitHubから大規模なデータセットを収集し、比較のためにいくつかの典型的なディープコード検索方法を再現した。 さらに,本手法の実用的価値を検証するための定性的なユーザスタディを設計する。 実験の結果,deGraphCSは最先端のパフォーマンスを実現し,ユーザのニーズを満たすコードスニペットを正確に検索できることがわかった。

With the rapid increase in the amount of public code repositories, developers maintain a great desire to retrieve precise code snippets by using natural language. Despite existing deep learning based approaches(e.g., DeepCS and MMAN) have provided the end-to-end solutions (i.e., accepts natural language as queries and shows related code fragments retrieved directly from code corpus), the accuracy of code search in the large-scale repositories is still limited by the code representation (e.g., AST) and modeling (e.g., directly fusing the features in the attention stage). In this paper, we propose a novel learnable deep Graph for Code Search (calleddeGraphCS), to transfer source code into variable-based flow graphs based on the intermediate representation technique, which can model code semantics more precisely compared to process the code as text directly or use the syntactic tree representation. Furthermore, we propose a well-designed graph optimization mechanism to refine the code representation, and apply an improved gated graph neural network to model variable-based flow graphs. To evaluate the effectiveness of deGraphCS, we collect a large-scale dataset from GitHub containing 41,152 code snippets written in C language, and reproduce several typical deep code search methods for comparison. Besides, we design a qualitative user study to verify the practical value of our approach. The experimental results have shown that deGraphCS can achieve state-of-the-art performances, and accurately retrieve code snippets satisfying the needs of the users.
翻訳日:2021-03-25 19:38:12 公開日:2021-03-24
# (参考訳) 複数の基準を用いたconvex online video frame subset selection for data efficient autonomous driving [全文訳有]

Convex Online Video Frame Subset Selection using Multiple Criteria for Data Efficient Autonomous Driving ( http://arxiv.org/abs/2103.13021v1 )

ライセンス: CC BY 4.0
Soumi Das, Harikrishna Patibandla, Suparna Bhattacharya, Kshounis Bera, Niloy Ganguly, Sourangshu Bhattacharya(参考訳) ビジョンに基づく都市自律運転モデルの訓練は,近年,高度に研究されている課題である。 このようなモデルのトレーニングは、大量の(おそらく冗長な)動画データのストレージと処理を必要とするデータ集約的なタスクである。 本稿では,データ効率の高い自動運転システムの開発に関する課題について検討する。 本稿では,複数基準のオンラインビデオフレームサブセット選択の問題について検討する。 凸最適化に基づくソリューションについて検討し、選択したビデオフレームの損失に対して高い重み付けのソリューションを提供できないことを示す。 我々は,選択変数のしきい値付き凹関数を用いた,新しい凸最適化に基づく複数基準オンラインサブセット選択アルゴリズムを設計する。 また,部分モジュラ最適化に基づくアルゴリズムを提案する。 運転シミュレーターのcarlaを用いた大規模な実験では、フレームの80%を落とせると同時に、エピソードの100%を完了させることができた。 モデルは100%のデータに基づいてトレーニングされ、順番を取るのが最も難しいタスクです。 これにより、データセット全体のトレーニングと比較してトレーニング時間が30%未満になります。 また,条件付きアフォーアンス学習(cal)モデルが使用する様々なアフォーアンスの予測性能に関する詳細な実験を行い,各部分集合の選択が交互に重要なアフォーアンス「相対角」の性能を向上させることを示した。

Training vision-based Urban Autonomous driving models is a challenging problem, which is highly researched in recent times. Training such models is a data-intensive task requiring the storage and processing of vast volumes of (possibly redundant) driving video data. In this paper, we study the problem of developing data-efficient autonomous driving systems. In this context, we study the problem of multi-criteria online video frame subset selection. We study convex optimization-based solutions and show that they are unable to provide solutions with high weightage to the loss of selected video frames. We design a novel convex optimization-based multi-criteria online subset selection algorithm that uses a thresholded concave function of selection variables. We also propose and study a submodular optimization-based algorithm. Extensive experiments using the driving simulator CARLA show that we are able to drop 80% of the frames while succeeding to complete 100% of the episodes w.r.t. the model trained on 100% data, in the most difficult task of taking turns. This results in a training time of less than 30% compared to training on the whole dataset. We also perform detailed experiments on prediction performances of various affordances used by the Conditional Affordance Learning (CAL) model and show that our subset selection improves performance on the crucial affordance "Relative Angle" during turns.
翻訳日:2021-03-25 19:15:19 公開日:2021-03-24
# (参考訳) AutoMix: ミックスアップのパワーを解放する [全文訳有]

AutoMix: Unveiling the Power of Mixup ( http://arxiv.org/abs/2103.13027v1 )

ライセンス: CC BY 4.0
Zicheng Liu, Siyuan Li, Di Wu, Zhiyuan Chen, Lirong Wu, Jianzhu Guo, Stan Z. Li(参考訳) ミックスアップベースのデータ拡張は、ディープニューラルネットワークのレギュレータとして大きな成功を収めた。 しかし、既存のmixupメソッドは明確に設計されたmixupポリシーを必要とする。 本稿では,識別的特徴を利用してサンプル混合ポリシーを適応的に学習するフレキシブルで汎用的な自動混合(automix)フレームワークを提案する。 mixup をプリテキストタスクとして捉え,ミックスサンプル生成とミックスアップ分類という2つのサブプロブレムに分割した。 そこで我々は,特徴マップと混合ラベルに基づく合成サンプルを生成する軽量な混合ブロックを設計した。 この2つのサブプロブレムは期待最大化(em)の性質にあるため,混合過程と混合分類プロセスをエンドツーエンドで代替的に最適化する運動量トレーニングパイプラインも提案する。 6つの人気のある分類ベンチマークの大規模な実験は、AutoMixが他の主要な混合手法を一貫して上回り、下流タスクの一般化能力を改善することを示している。 automixは、表現学習におけるmixupの役割を、コミュニティが再考する動機になることを願っている。 コードはまもなくリリースされる。

Mixup-based data augmentation has achieved great success as regularizer for deep neural networks. However, existing mixup methods require explicitly designed mixup policies. In this paper, we present a flexible, general Automatic Mixup (AutoMix) framework which utilizes discriminative features to learn a sample mixing policy adaptively. We regard mixup as a pretext task and split it into two sub-problems: mixed samples generation and mixup classification. To this end, we design a lightweight mix block to generate synthetic samples based on feature maps and mix labels. Since the two sub-problems are in the nature of Expectation-Maximiza tion (EM), we also propose a momentum training pipeline to optimize the mixup process and mixup classification process alternatively in an end-to-end fashion. Extensive experiments on six popular classification benchmarks show that AutoMix consistently outperforms other leading mixup methods and improves generalization abilities to downstream tasks. We hope AutoMix will motivate the community to rethink the role of mixup in representation learning. The code will be released soon.
翻訳日:2021-03-25 19:13:51 公開日:2021-03-24
# (参考訳) 動的コンテキスト生成によるGPT-2のゼロショット推論性能の向上 [全文訳有]

Thinking Aloud: Dynamic Context Generation Improves Zero-Shot Reasoning Performance of GPT-2 ( http://arxiv.org/abs/2103.13033v1 )

ライセンス: CC BY-SA 4.0
Gregor Betz and Kyle Richardson and Christian Voigt(参考訳) 声を出して考えることは、人間の推論者が難しい問題を解決するための効果的なメタ認知戦略である。 本稿では,言語モデル自体が動的に生成する問題情報を用いてタスクのコンテキストを拡張することにより,学習済みのニューラル言語モデルの推論能力を向上させることを提案する。 本モデルでは,解答の予測に構文的ヒューリスティックを用いるが,そのヒューリスティックな適用を成功させるような推論付き追加コンテキストを生成できる(ある程度)。 少人数学習を含む多元化の生成方法について検討し,それらの相対的性能が,特定の問題特性(問題難易度など)によって異なることを見出した。 さらに, 詳細化の有効性は, 意味的に対応する問題と一致する程度で説明できる。 特に、元の問題記述に最も忠実な説明は、精度を最大24%向上させる可能性がある。

Thinking aloud is an effective meta-cognitive strategy human reasoners apply to solve difficult problems. We suggest to improve the reasoning ability of pre-trained neural language models in a similar way, namely by expanding a task's context with problem elaborations that are dynamically generated by the language model itself. Our main result is that dynamic problem elaboration significantly improves the zero-shot performance of GPT-2 in a deductive reasoning and natural language inference task: While the model uses a syntactic heuristic for predicting an answer, it is capable (to some degree) of generating reasoned additional context which facilitates the successful application of its heuristic. We explore different ways of generating elaborations, including fewshot learning, and find that their relative performance varies with the specific problem characteristics (such as problem difficulty). Moreover, the effectiveness of an elaboration can be explained in terms of the degree to which the elaboration semantically coheres with the corresponding problem. In particular, elaborations that are most faithful to the original problem description may boost accuracy by up to 24%.
翻訳日:2021-03-25 18:58:00 公開日:2021-03-24
# (参考訳) 知識認識型コントラスト分子グラフ学習 [全文訳有]

Knowledge-aware Contrastive Molecular Graph Learning ( http://arxiv.org/abs/2103.13047v1 )

ライセンス: CC BY 4.0
Yin Fang, Haihong Yang, Xiang Zhuang, Xin Shao, Xiaohui Fan and Huajun Chen(参考訳) 分子表現学習における指紋や官能基を含むドメイン知識の活用は、化学的性質予測と薬物発見に不可欠である。 グラフ構造と分子特性の関係を暗黙的にモデル化する際、既存の研究は構造や性質の変化や複雑な構造をほとんど捉えず、原子の語彙ははるかに小さく、非常に頻繁である。 本稿では、ドメイン知識を分子グラフ表現に融合させる自己教師型分子表現学習のためのコントラシティブ知識認識GNN(CKGNN)を提案する。 我々は, コントラスト学習の枠組みの下で, 知識認識分子エンコーダを介して, ドメイン知識を明示的にエンコードし, 化学ドメイン知識を組み込んだ分子埋め込みにより, 類似した化学式と類似する機能を持つ分子を識別することを保証する。 8つの公開データセットに対する大規模な実験は、強力な競合相手に対する平均6倍の絶対的な改善で、我々のモデルの有効性を示す。 アブレーション研究とさらなる調査は、両方の世界の長所を検証している: 化学ドメイン知識を自己教師付き学習に取り入れること。

Leveraging domain knowledge including fingerprints and functional groups in molecular representation learning is crucial for chemical property prediction and drug discovery. When modeling the relation between graph structure and molecular properties implicitly, existing works can hardly capture structural or property changes and complex structure, with much smaller atom vocabulary and highly frequent atoms. In this paper, we propose the Contrastive Knowledge-aware GNN (CKGNN) for self-supervised molecular representation learning to fuse domain knowledge into molecular graph representation. We explicitly encode domain knowledge via knowledge-aware molecular encoder under the contrastive learning framework, ensuring that the generated molecular embeddings equipped with chemical domain knowledge to distinguish molecules with similar chemical formula but dissimilar functions. Extensive experiments on 8 public datasets demonstrate the effectiveness of our model with a 6\% absolute improvement on average against strong competitors. Ablation study and further investigation also verify the best of both worlds: incorporation of chemical domain knowledge into self-supervised learning.
翻訳日:2021-03-25 18:36:29 公開日:2021-03-24
# (参考訳) rnn変換器の微調整 [全文訳有]

Finetuning Pretrained Transformers into RNNs ( http://arxiv.org/abs/2103.13076v1 )

ライセンス: CC BY 4.0
Jungo Kasai, Hao Peng, Yizhe Zhang, Dani Yogatama, Gabriel Ilharco, Nikolaos Pappas, Yi Mao, Weizhu Chen, Noah A. Smith(参考訳) トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(rnn)よりも優れています。 これは、アテンション機構がシーケンス長の2次複雑さでスケールするため、計算オーバーヘッドがかなり大きい。 効率的な変圧器は近年の業績から関心を集めている。 それらのうち、線形複雑度リカレント変種は自己回帰生成に適していることが証明されている。 ランダム化またはヒューリスティックな特徴マップでソフトマックスの注意を近似するが、訓練や最適でない精度を得るのが困難である。 本研究の目的は、事前学習した変圧器を効率よく再帰的に変換し、精度を保ちながら効率を向上させることである。 具体的にはswap-then-finetune法を提案する。既成の事前学習トランスフォーマーでは、softmaxの注意をリニア・コンプレクシティー・リカレントに置き換え、その後細粒度に置き換える。 学習した特徴マップにより、標準変圧器と他の繰り返し変動器との効率性と精度のトレードオフが改善される。 また,再帰型をスクラッチからトレーニングするよりも,微調整プロセスに訓練コストの低減が必要であることを示した。 近年の自然言語タスクのモデルの多くが大規模事前学習型トランスフォーマーに依存しているため、この研究は高価な事前学習プロセスを繰り返すことなく推論効率を向上させるための実行可能なアプローチを示す。

Transformers have outperformed recurrent neural networks (RNNs) in natural language generation. This comes with a significant computational overhead, as the attention mechanism scales with a quadratic complexity in sequence length. Efficient transformer variants have received increasing interest from recent works. Among them, a linear-complexity recurrent variant has proven well suited for autoregressive generation. It approximates the softmax attention with randomized or heuristic feature maps, but can be difficult to train or yield suboptimal accuracy. This work aims to convert a pretrained transformer into its efficient recurrent counterpart, improving the efficiency while retaining the accuracy. Specifically, we propose a swap-then-finetune procedure: in an off-the-shelf pretrained transformer, we replace the softmax attention with its linear-complexity recurrent alternative and then finetune. With a learned feature map, our approach provides an improved tradeoff between efficiency and accuracy over the standard transformer and other recurrent variants. We also show that the finetuning process needs lower training cost than training these recurrent variants from scratch. As many recent models for natural language tasks are increasingly dependent on large-scale pretrained transformers, this work presents a viable approach to improving inference efficiency without repeating the expensive pretraining process.
翻訳日:2021-03-25 18:26:26 公開日:2021-03-24
# (参考訳) 正規化による段落単位の合理的抽出--欧州人権裁判所を事例として [全文訳有]

Paragraph-level Rationale Extraction through Regularization: A case study on European Court of Human Rights Cases ( http://arxiv.org/abs/2103.13084v1 )

ライセンス: CC BY-SA 4.0
Ilias Chalkidis, Manos Fergadiotis, Dimitrios Tsarapatsanis, Nikolaos Aletras, Ion Androutsopoulos and Prodromos Malakasiotis(参考訳) 解釈可能性(英: Interpretability)または説明可能性(英: explainability)は、NLPにおける新たな研究分野である。 ユーザ中心の観点では、目標は、モデルに追加の制約を満たすように要求することで、人間と同じような意思決定の正当な正当化を提供するモデルを構築することです。 そこで本稿では,単語レベルの論理を主軸とする主流文献とは対照的に,多項構造裁判所における選択項として有理性を考察する。 また、段落レベルの合理性に関する注釈を含む欧州人権裁判所事件を含む新たなデータセットを公表する。 このデータセットを用いて、すでに提案されている合理性制約、すなわち正規化子として定式化されたスパース性、連続性、包括性の効果を研究する。 以上の結果から,これらの制約の一部は段落レベルの合理性抽出において有益ではないことが示唆された。 また, 有理性の質をさらに向上させる新たな制約である特異性(singularity)を導入する。 実験結果から,新たに導入した課題は非常に困難であり,さらなる研究の範囲が広いことが示唆された。

Interpretability or explainability is an emerging research field in NLP. From a user-centric point of view, the goal is to build models that provide proper justification for their decisions, similar to those of humans, by requiring the models to satisfy additional constraints. To this end, we introduce a new application on legal text where, contrary to mainstream literature targeting word-level rationales, we conceive rationales as selected paragraphs in multi-paragraph structured court cases. We also release a new dataset comprising European Court of Human Rights cases, including annotations for paragraph-level rationales. We use this dataset to study the effect of already proposed rationale constraints, i.e., sparsity, continuity, and comprehensiveness, formulated as regularizers. Our findings indicate that some of these constraints are not beneficial in paragraph-level rationale extraction, while others need re-formulation to better handle the multi-label nature of the task we consider. We also introduce a new constraint, singularity, which further improves the quality of rationales, even compared with noisy rationale supervision. Experimental results indicate that the newly introduced task is very challenging and there is a large scope for further research.
翻訳日:2021-03-25 18:02:29 公開日:2021-03-24
# (参考訳) 視線と音による反復活動計数 [全文訳有]

Repetitive Activity Counting by Sight and Sound ( http://arxiv.org/abs/2103.13096v1 )

ライセンス: CC BY 4.0
Yunhua Zhang, Ling Shao, Cees G.M. Snoek(参考訳) 本稿では,ビデオにおける反復的活動カウントについて検討する。 映像コンテンツのみを分析する既存の作品と異なり、対応する音を繰り返しカウントするプロセスに初めて組み込む。 これにより、オクルージョン、劇的なカメラビューの変更、解像度の低下など、難しい視覚条件の精度が向上する。 視覚と音のストリームを別々に分析することから始まるモデルを提案する。 そして、モーダルな時間的相互作用を利用するために、オーディオ視覚的時間的ストライド決定モジュールと信頼性推定モジュールを導入する。 学習と評価のために、既存のデータセットを再利用して再構成し、視覚と音の繰り返しカウントを可能にする。 また,挑戦的な視覚条件下での繰り返しカウントを行うために,このデータセットの変種を導入する。 実験は、繰り返しカウントする他の導入モジュールと同様に、音の利点を実証する。 我々の視力のみのモデルは、音を加えると、特に厳しい視力条件下では、既に最先端技術よりも優れています。

This paper strives for repetitive activity counting in videos. Different from existing works, which all analyze the visual video content only, we incorporate for the first time the corresponding sound into the repetition counting process. This benefits accuracy in challenging vision conditions such as occlusion, dramatic camera view changes, low resolution, etc. We propose a model that starts with analyzing the sight and sound streams separately. Then an audiovisual temporal stride decision module and a reliability estimation module are introduced to exploit cross-modal temporal interaction. For learning and evaluation, an existing dataset is repurposed and reorganized to allow for repetition counting with sight and sound. We also introduce a variant of this dataset for repetition counting under challenging vision conditions. Experiments demonstrate the benefit of sound, as well as the other introduced modules, for repetition counting. Our sight-only model already outperforms the state-of-the-art by itself, when we add sound, results improve notably, especially under harsh vision conditions.
翻訳日:2021-03-25 17:41:53 公開日:2021-03-24
# (参考訳) フィンランド語paraphraseコーパス [全文訳有]

Finnish Paraphrase Corpus ( http://arxiv.org/abs/2103.13103v1 )

ライセンス: CC BY-SA 4.0
Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri Skantsi, Jemina Kilpel\"ainen, Hanna-Mari Kupari, Jenna Saarni, Maija Sev\'on, Otto Tarkka(参考訳) 本稿では,代替字幕とニュース見出しから抽出した53,572のパラフレーズ対を含むフィンランド語用完全手書きのパラフレーズコーパスについて紹介する。 コーパス内のすべてのパラフレーズペアのうち98%は、少なくともそれぞれの文脈において、少なくとも全ての文脈において、手動でパラフレーズに分類される。 さらに,手作業による候補選択手法を確立し,コストと品質の両面で高品質なパラフレーズ選択の実現可能性を示す。

In this paper, we introduce the first fully manually annotated paraphrase corpus for Finnish containing 53,572 paraphrase pairs harvested from alternative subtitles and news headings. Out of all paraphrase pairs in our corpus 98% are manually classified to be paraphrases at least in their given context, if not in all contexts. Additionally, we establish a manual candidate selection method and demonstrate its feasibility in high quality paraphrase selection in terms of both cost and quality.
翻訳日:2021-03-25 17:24:48 公開日:2021-03-24
# (参考訳) W2WNet: 組込みデータ浄化機能を備えた2モジュール確率畳み込みニューラルネットワーク [全文訳有]

W2WNet: a two-module probabilistic Convolutional Neural Network with embedded data cleansing functionality ( http://arxiv.org/abs/2103.13107v1 )

ライセンス: CC BY 4.0
Francesco Ponzio, Enrico Macii, Elisa Ficarra, Santa Di Cataldo(参考訳) 畳み込みニューラルネットワーク(CNN)は、高品質な注釈付きデータセットのみをフィードする。 それでも、多くの実世界のシナリオでは、そのような高品質の取得は非常に困難であり、データセットは、あらゆる種類の画像劣化と誤認の問題に影響される可能性がある。 これはトレーニングと推論フェーズの両方において、標準的なCNNのパフォーマンスに悪影響を及ぼす。 この問題を解決するために、Wise2WipedNet (W2WNet) という新しい2モジュール畳み込みニューラルネットワークを提案し、そこでは、Wiseモジュールがベイズ推論を利用してトレーニング中にスプリアス画像を特定し、破棄し、Wipedモジュールが推論時の予測信頼度情報を放送しながら最終分類を行う。 本ソリューションの良さは,様々な画像分類課題に対する多くの公開ベンチマークや,組織学的画像解析に関する実世界のケーススタディで実証された。 全体として、W2WNetは、トレーニング時と推論時の両方で画像劣化と誤認識の問題を識別でき、最終分類精度に肯定的な影響を及ぼすことを示した。

Convolutional Neural Networks (CNNs) are supposed to be fed with only high-quality annotated datasets. Nonetheless, in many real-world scenarios, such high quality is very hard to obtain, and datasets may be affected by any sort of image degradation and mislabelling issues. This negatively impacts the performance of standard CNNs, both during the training and the inference phase. To address this issue we propose Wise2WipedNet (W2WNet), a new two-module Convolutional Neural Network, where a Wise module exploits Bayesian inference to identify and discard spurious images during the training, and a Wiped module takes care of the final classification while broadcasting information on the prediction confidence at inference time. The goodness of our solution is demonstrated on a number of public benchmarks addressing different image classification tasks, as well as on a real-world case study on histological image analysis. Overall, our experiments demonstrate that W2WNet is able to identify image degradation and mislabelling issues both at training and at inference time, with a positive impact on the final classification accuracy.
翻訳日:2021-03-25 17:14:58 公開日:2021-03-24
# (参考訳) 制約を用いた自己適応型ロボットの行動調整 [全文訳有]

Behavior coordination for self-adaptive robots using constraint-based configuration ( http://arxiv.org/abs/2103.13128v1 )

ライセンス: CC BY 4.0
Martin Molina, Pablo Santamaria(参考訳) 自律ロボットは環境の変化に応じて行動に適応できるかもしれない。 これは例えば、限られたリソースを効率的に処理したり、障害などの予期せぬ事象に適切に応答するために有用である。 自己適応型ロボットのアーキテクチャは、ロボットの動作を制御する要素を動的に構成する自動機構を含む必要があるため複雑である。 この種のアーキテクチャの構築を容易にするために、様々なロボットシステムに適用可能なソフトウェアツールという形で一般的なソリューションを持つことは有用である。 本稿では,自己適応型自律ロボットの開発に適用可能な制御アーキテクチャを動的に構成するアルゴリズムを提案する。 このアルゴリズムは制約に基づく構成手法を用いて、反応イベントと熟考イベントの両方に対応して、どの基本的なロボット動作を活性化すべきかを決定する。 このアルゴリズムは、ロボットシステムに必要な性能を達成するために、特定の探索ヒューリスティックと初期化手順を使用する。 このソリューションは、動作コーディネータCBC(Constraint-Based Configuration)と呼ばれるソフトウェア開発ツールとして実装されている。 このツールは、自律型空中ロボットの複数の応用に成功している。

Autonomous robots may be able to adapt their behavior in response to changes in the environment. This is useful, for example, to efficiently handle limited resources or to respond appropriately to unexpected events such as faults. The architecture of a self-adaptive robot is complex because it should include automatic mechanisms to dynamically configure the elements that control robot behaviors. To facilitate the construction of this type of architectures, it is useful to have general solutions in the form of software tools that may be applicable to different robotic systems. This paper presents an original algorithm to dynamically configure the control architecture, which is applicable to the development of self-adaptive autonomous robots. This algorithm uses a constraint-based configuration approach to decide which basic robot behaviors should be activated in response to both reactive and deliberative events. The algorithm uses specific search heuristics and initialization procedures to achieve the performance required by robotic systems. The solution has been implemented as a software development tool called Behavior Coordinator CBC (Constraint-Based Configuration), which is based on ROS and open source, available to the general public. This tool has been successfully used for building multiple applications of autonomous aerial robots.
翻訳日:2021-03-25 16:59:18 公開日:2021-03-24
# (参考訳) アンカーフリー時間行動定位のための学習サルエント境界特徴 [全文訳有]

Learning Salient Boundary Feature for Anchor-free Temporal Action Localization ( http://arxiv.org/abs/2103.13137v1 )

ライセンス: CC BY 4.0
Chuming Lin, Chengming Xu, Donghao Luo, Yabiao Wang, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, Yanwei Fu(参考訳) 時間的行動のローカライゼーションはビデオ理解において重要な課題である。 通常、このようなタスクは、アクションインスタンスごとのアクションカテゴリと開始フレームのローカライズの両方を、長い、トリミングされていないビデオで推定することを目的としており、現在のほとんどのモデルでは、事前定義されたアンカーと多数のアクションネスを用いて良い結果を得るが、そのような方法は、多数の出力と異なるアンカーに対応する位置とサイズの重み調整の両方で悩まされる可能性がある。 代わりにアンカーフリーメソッドはより軽量であり、冗長なハイパーパラメータを取り除くが、ほとんど注目されない。 本稿では, 効率と有効性を両立する, 完全アンカーフリーの時間的局所化法を提案する。 このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)新たなバウンダリプールによる各提案のより価値のあるバウンダリ機能を収集するサリエンシベースのリファインメントモジュール,(iii)モデルが任意の提案で与えられた正確なバウンダリを見出すためのいくつかの一貫性制約が含まれている。 大規模な実験により,我々の手法は,THUMOS14に顕著なマージンを持つアンカーベースおよびアクションネス誘導手法をすべて打ち負かし,最先端の結果とActivityNet v1.3に匹敵する結果を得た。 コードはhttps://github.com/T encentYoutuResearch/ ActionDetection-AFSD で入手できる。

Temporal action localization is an important yet challenging task in video understanding. Typically, such a task aims at inferring both the action category and localization of the start and end frame for each action instance in a long, untrimmed video.While most current models achieve good results by using pre-defined anchors and numerous actionness, such methods could be bothered with both large number of outputs and heavy tuning of locations and sizes corresponding to different anchors. Instead, anchor-free methods is lighter, getting rid of redundant hyper-parameters, but gains few attention. In this paper, we propose the first purely anchor-free temporal localization method, which is both efficient and effective. Our model includes (i) an end-to-end trainable basic predictor, (ii) a saliency-based refinement module to gather more valuable boundary features for each proposal with a novel boundary pooling, and (iii) several consistency constraints to make sure our model can find the accurate boundary given arbitrary proposals. Extensive experiments show that our method beats all anchor-based and actionness-guided methods with a remarkable margin on THUMOS14, achieving state-of-the-art results, and comparable ones on ActivityNet v1.3. Code is available at https://github.com/T encentYoutuResearch/ ActionDetection-AFSD .
翻訳日:2021-03-25 16:38:25 公開日:2021-03-24
# (参考訳) 特権情報を用いた教師なし協調学習 [全文訳有]

Unsupervised collaborative learning using privileged information ( http://arxiv.org/abs/2103.13145v1 )

ライセンス: CC BY 4.0
Yohan Foucade and Youn\`es Bennani(参考訳) 協調的なクラスタリングフレームワークでは、複数のクラスタリングソリューションを組み合わせることで、それぞれに独自のバイアスと欠陥があり、全体的なソリューションがより良くなることを期待しています。 目標は、各ローカル計算が、おそらく異なるデータセットに適用され、他の協力者による作業の恩恵を受けることである。 本稿では,Privileged Informationパラダイムを用いた学習に基づく協調クラスタリングについて述べる。 局所アルゴリズムは、観測の分類の信頼性レベルに応じて、各観測のレベルで入ってくる情報を重み付けする。 本手法と技術実装の現状を比較すると,提案手法によるコラボレーションプロセスの改善が示されている。

In the collaborative clustering framework, the hope is that by combining several clustering solutions, each one with its own bias and imperfections, one will get a better overall solution. The goal is that each local computation, quite possibly applied to distinct data sets, benefits from the work done by the other collaborators. This article is dedicated to collaborative clustering based on the Learning Using Privileged Information paradigm. Local algorithms weight incoming information at the level of each observation, depending on the confidence level of the classification of that observation. A comparison between our algorithm and state of the art implementations shows improvement of the collaboration process using the proposed approach.
翻訳日:2021-03-25 16:21:24 公開日:2021-03-24
# (参考訳) SAR画像における任意方向船体検出のための極性符号化の学習 [全文訳有]

Learning Polar Encodings for Arbitrary-Oriented Ship Detection in SAR Images ( http://arxiv.org/abs/2103.13151v1 )

ライセンス: CC BY 4.0
Yishan He, Fei Gao, Jun Wang, Amir Hussain, Erfu Yang, Huiyu Zhou(参考訳) 共通水平バウンディングボックス(HBB)ベースの手法は、合成開口レーダ(SAR)画像において、任意の向きで細い船のターゲットを正確に特定することができない。 そのため,近年,オブジェクト指向境界ボックス(OBB)に基づく手法が研究者から徐々に注目されている。 しかし、最近提案された深層学習に基づくOBB検出手法のほとんどは、角度やキーポイント回帰における境界不連続問題に遭遇する。 この問題を緩和するために、研究者は境界ケースを区別するために手動で設定したパラメータや追加のネットワークブランチを導入することを提案する。 本稿では,OBB回帰における境界不連続問題を解決するために,極性符号化を学習してSAR船を検出することを提案する。 符号化方式は、船の目標の中心から境界点へ向けられたベクトル群を用いて、OBBを表す。 境界不連続問題は、極性符号化に従って直接トレーニングおよび推論によって回避される。 さらに、IOUメトリックによる極性符号化のトレーニングをさらに指導し、検出性能を向上させるIntersect over Union (IOU)-weighted regression lossを提案する。 RSSDD(Rotating SAR Ship Detection Dataset)実験により,提案手法は,他の比較アルゴリズムやOBB符号化方式よりも優れた検出性能を実現し,本手法の有効性を示す。

Common horizontal bounding box (HBB)-based methods are not capable of accurately locating slender ship targets with arbitrary orientations in synthetic aperture radar (SAR) images. Therefore, in recent years, methods based on oriented bounding box (OBB) have gradually received attention from researchers. However, most of the recently proposed deep learning-based methods for OBB detection encounter the boundary discontinuity problem in angle or key point regression. In order to alleviate this problem, researchers propose to introduce some manually set parameters or extra network branches for distinguishing the boundary cases, which make training more diffcult and lead to performance degradation. In this paper, in order to solve the boundary discontinuity problem in OBB regression, we propose to detect SAR ships by learning polar encodings. The encoding scheme uses a group of vectors pointing from the center of the ship target to the boundary points to represent an OBB. The boundary discontinuity problem is avoided by training and inference directly according to the polar encodings. In addition, we propose an Intersect over Union (IOU) -weighted regression loss, which further guides the training of polar encodings through the IOU metric and improves the detection performance. Experiments on the Rotating SAR Ship Detection Dataset (RSSDD) show that the proposed method can achieve better detection performance over other comparison algorithms and other OBB encoding schemes, demonstrating the effectiveness of our method.
翻訳日:2021-03-25 16:13:18 公開日:2021-03-24
# (参考訳) opportunistic federated learning: a exploration of egocentric collaboration for pervasive computing applications (英語) [全文訳有]

Opportunistic Federated Learning: An Exploration of Egocentric Collaboration for Pervasive Computing Applications ( http://arxiv.org/abs/2103.13266v1 )

ライセンス: CC BY 4.0
Sangsu Lee, Xi Zheng, Jie Hua, Haris Vikalo, Christine Julien(参考訳) 広範コンピューティングアプリケーションは通常、ユーザの個人スマートフォンがアプリケーションの振る舞いに影響を与えるためにデータを収集する。 アプリケーションは多くの場合、パーソナライズされたレスポンシブな振る舞いを提供するために、ユーザの経験から学ぶモデルによって裏付けられる。 モデルは大量のデータセットで事前トレーニングされることが多いが、フェデレーション学習は、ユーザが直接データを共有する必要なしに、ユーザのプライベートデータ上でグローバルに共有されたモデルをトレーニングできる能力によって注目を集めている。 しかし、連合学習では、すべてのユーザが同じモデルを学習したいという仮定の下で、中央サーバを介してデバイスが協調する必要がある。 異なるユーザに属する個々のデバイスが,ユーザ自身の経験にパーソナライズされた堅牢なモデルを学習しようとする,日和見的連合学習という新たなアプローチを定義した。 しかし、これらのモデルは単独で学習する代わりに、機会的に遭遇する他の機器の学習経験を機会的に取り入れている。 本稿では,このようなアプローチの実現可能性と限界を考察し,出会い型ペアワイド協調学習を支援する枠組みを策定する。 機会論的出会いに基づく学習の使用は、遭遇したデータへの過度な適合に抵抗しながら、パーソナライズされた学習のパフォーマンスを増幅する。

Pervasive computing applications commonly involve user's personal smartphones collecting data to influence application behavior. Applications are often backed by models that learn from the user's experiences to provide personalized and responsive behavior. While models are often pre-trained on massive datasets, federated learning has gained attention for its ability to train globally shared models on users' private data without requiring the users to share their data directly. However, federated learning requires devices to collaborate via a central server, under the assumption that all users desire to learn the same model. We define a new approach, opportunistic federated learning, in which individual devices belonging to different users seek to learn robust models that are personalized to their user's own experiences. However, instead of learning in isolation, these models opportunistically incorporate the learned experiences of other devices they encounter opportunistically. In this paper, we explore the feasibility and limits of such an approach, culminating in a framework that supports encounter-based pairwise collaborative learning. The use of our opportunistic encounter-based learning amplifies the performance of personalized learning while resisting overfitting to encountered data.
翻訳日:2021-03-25 15:47:21 公開日:2021-03-24
# (参考訳) 言葉の埋め込みが危険にさらされると [全文訳有]

When Word Embeddings Become Endangered ( http://arxiv.org/abs/2103.13275v1 )

ライセンス: CC BY 4.0
Khalid Alnajjar(参考訳) 英語やフィンランド語のような大きな言語は、多くの自然言語処理(NLP)リソースとモデルを持っているが、そのようなリソースが言語コミュニティにもたらす大きな利点にもかかわらず、低リソースで絶滅危惧言語にはそうではない。 低リソースおよび絶滅危惧言語で利用可能なリソースの最も一般的なタイプは、翻訳辞書と普遍的な依存関係である。 本稿では,異なる資源豊富な言語の単語埋め込みと資源不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。 その後、埋め込みは、普遍的な依存関係の文を用いて微調整され、大きな言語の意味空間と一致するように整列される。 私たちがここで働いている絶滅危惧言語は、Erzya、Moksha、Komi-Zyrian、Skolt Samiです。 さらに,言語間単語の埋め込みを利用して,この研究に含まれるすべての言語に対する普遍的な感情分析モデルを構築した。 評価の結果,絶滅危惧言語の単語埋め込みは資源豊富な言語とよく一致しており,高精度な感情分析モデルによるタスク固有モデルの訓練に適していることがわかった。 言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。

Big languages such as English and Finnish have many natural language processing (NLP) resources and models, but this is not the case for low-resourced and endangered languages as such resources are so scarce despite the great advantages they would provide for the language communities. The most common types of resources available for low-resourced and endangered languages are translation dictionaries and universal dependencies. In this paper, we present a method for constructing word embeddings for endangered languages using existing word embeddings of different resource-rich languages and the translation dictionaries of resource-poor languages. Thereafter, the embeddings are fine-tuned using the sentences in the universal dependencies and aligned to match the semantic spaces of the big languages; resulting in cross-lingual embeddings. The endangered languages we work with here are Erzya, Moksha, Komi-Zyrian and Skolt Sami. Furthermore, we build a universal sentiment analysis model for all the languages that are part of this study, whether endangered or not, by utilizing cross-lingual word embeddings. The evaluation conducted shows that our word embeddings for endangered languages are well-aligned with the resource-rich languages, and they are suitable for training task-specific models as demonstrated by our sentiment analysis model which achieved a high accuracy. All our cross-lingual word embeddings and the sentiment analysis model have been released openly via an easy-to-use Python library.
翻訳日:2021-03-25 15:34:09 公開日:2021-03-24
# (参考訳) 未知線形ガウスシステムのオンラインLQRの非エポゾディック学習 [全文訳有]

Non-Episodic Learning for Online LQR of Unknown Linear Gaussian System ( http://arxiv.org/abs/2103.13278v1 )

ライセンス: CC BY 4.0
Yiwen Lu and Yilin Mo(参考訳) 本稿では,システムパラメータが未知であり,オンラインで識別する必要があるデータ駆動線形量子制御(lqr)問題について考察する。 特に、システムオペレータは、システム識別とデータ駆動制御文学における一般的なアプローチである初期状態にリセットすることで、複数の実験を行うことができない。 その代わりに,1つの軌道からシステムに関する知識を得て,この軌道における識別誤差と制御性能の準最適性の両方を確率1で収束させるアルゴリズムを提案する。 さらに,識別と制御のほぼ確実に収束する割合を特徴とし,探索と搾取の最適なトレードオフを明らかにする。 提案手法の有効性を示す数値的な例を示す。

This paper considers the data-driven linear-quadratic regulation (LQR) problem where the system parameters are unknown and need to be identified online. In particular, the system operator is not allowed to perform multiple experiments by resetting the system to an initial state, a common approach in system identification and data-driven control literature. Instead, we propose an algorithm that gains knowledge about the system from a single trajectory, and guarantee that both the identification error and the suboptimality of control performance in this trajectory converge \emph{simultaneously} with probability one. Furthermore, we characterize the almost sure convergence rates of identification and control, and reveal an optimal trade-off between exploration and exploitation. A numerical example is provided to illustrate the effectiveness of our proposed strategy.
翻訳日:2021-03-25 15:19:10 公開日:2021-03-24
# (参考訳) 変数の連立の共有価値はより良い説明を提供する [全文訳有]

The Shapley Value of coalition of variables provides better explanations ( http://arxiv.org/abs/2103.13342v1 )

ライセンス: CC BY 4.0
Salim Amoukou, Nicolas J-B. Brunel, Tangui Saluan(参考訳) 共有値(SV)は、機械学習モデルを解釈するための金の標準の1つであるが、特に分類変数の存在や重要性の低い変数の存在において、まだ理解されていないことを示す。 例えば、ダミー変数のSVを和らげるという一般的な慣行は、モデル内のすべてのSVの間違った推定を提供し、刺激的な解釈を示唆するので、偽であることを示す。 nullとアクティブな連立の識別とsvの連立バージョンに基づいて、重要な変数の正しい計算と推論を提供する。 さらに、pythonライブラリ(すべての実験とシミュレーションは、公開ライブラリ \emph{active coalition of variables} https://github.com/a cvicml/acv)で再現でき、ツリーベースのモデルで確実に条件付き期待値とsvを計算する。

While Shapley Values (SV) are one of the gold standard for interpreting machine learning models, we show that they are still poorly understood, in particular in the presence of categorical variables or of variables of low importance. For instance, we show that the popular practice that consists in summing the SV of dummy variables is false as it provides wrong estimates of all the SV in the model and implies spurious interpretations. Based on the identification of null and active coalitions, and a coalitional version of the SV, we provide a correct computation and inference of important variables. Moreover, a Python library (All the experiments and simulations can be reproduced with the publicly available library \emph{Active Coalition of Variables} https://github.com/a cvicml/ACV) that computes reliably conditional expectations and SV for tree-based models, is implemented and compared with state-of-the-art algorithms on toy models and real data sets.
翻訳日:2021-03-25 15:04:45 公開日:2021-03-24
# (参考訳) ビデオグラウンデッド対話における構造化コリファレンスグラフの注意 [全文訳有]

Structured Co-reference Graph Attention for Video-grounded Dialogue ( http://arxiv.org/abs/2103.13361v1 )

ライセンス: CC BY 4.0
Junyeong Kim and Sunjae Yoon and Dahyun Kim and Chang D. Yoo(参考訳) 対話コンテキストの追跡を維持しつつ、所定のビデオに関する質問に対して、応答シーケンスを復号化するための構造化共参照グラフ注意(SCGA)と呼ばれるビデオ地上対話システムを示す。 最近の取り組みはレスポンスの品質向上に大きく貢献していますが、パフォーマンスはまだ十分ではありません。 主な課題は,(1)複数のモダリティ間のコレファレンスを推定する方法,(2)複雑な空間的・時間的ダイナミクスを持つビデオの豊富な意味構造を推論する方法である。 この目的のためにSCGAは,(1)複数のモダリティにまたがる構造化グラフ構築によるデレファレンスを行う構造化コレファレンスリゾルバ,(2)徐々に隣接するグラフアテンションを介してビデオの局所的-グローバル的ダイナミクスをキャプチャする時空間ビデオレゾナに基づいている。 SCGAはポインタネットワークを用いて質問の一部を動的に複製し、回答シーケンスを復号する。 AVSD@DSTC7およびAVSD@DSTC8データセット、挑戦的なビデオ地上対話ベンチマーク、大規模ビデオQAベンチマークであるTVQAデータセットにSCGAの有効性を示す。 実験結果から,scgaは両ベンチマークの最先端対話システムよりも優れており,また,広範なアブレーション研究と質的分析により,性能向上と解釈性の向上が示された。

A video-grounded dialogue system referred to as the Structured Co-reference Graph Attention (SCGA) is presented for decoding the answer sequence to a question regarding a given video while keeping track of the dialogue context. Although recent efforts have made great strides in improving the quality of the response, performance is still far from satisfactory. The two main challenging issues are as follows: (1) how to deduce co-reference among multiple modalities and (2) how to reason on the rich underlying semantic structure of video with complex spatial and temporal dynamics. To this end, SCGA is based on (1) Structured Co-reference Resolver that performs dereferencing via building a structured graph over multiple modalities, (2) Spatio-temporal Video Reasoner that captures local-to-global dynamics of video via gradually neighboring graph attention. SCGA makes use of pointer network to dynamically replicate parts of the question for decoding the answer sequence. The validity of the proposed SCGA is demonstrated on AVSD@DSTC7 and AVSD@DSTC8 datasets, a challenging video-grounded dialogue benchmarks, and TVQA dataset, a large-scale videoQA benchmark. Our empirical results show that SCGA outperforms other state-of-the-art dialogue systems on both benchmarks, while extensive ablation study and qualitative analysis reveal performance gain and improved interpretability.
翻訳日:2021-03-25 14:48:57 公開日:2021-03-24
# (参考訳) グラフニューラルネットワークを用いた半教師付き分類のトリックのバグ [全文訳有]

Bag of Tricks of Semi-Supervised Classification with Graph Neural Networks ( http://arxiv.org/abs/2103.13355v1 )

ライセンス: CC BY-SA 4.0
Yangkun Wang(参考訳) グラフ上のノード分類における最近の進歩の多くは、グラフニューラルネットワーク(GNN)とラベル伝搬アルゴリズムの注意深い設計に寄与する。 しかし、文献では、モデルアーキテクチャの改善に加えて、実装の詳細として簡単に言及されるか、ソースコードでのみ見えるように、多くの改善がなされており、これらの見落としているテクニックは、実用上重要な役割を果たす可能性がある。 本稿では,まず既存の改良品のコレクションを要約し,これらのモデル設計とラベル使用に関する新しい手法を提案する。 アブレーション研究を通じて,最終モデル精度への影響を実証的に評価し,モデルアーキテクチャの改善による利益を上回る程度まで,様々なgnnモデルを大幅に改善できることを示した。 特に、Open Graph Benchmarkの上位モデルの多くは、私たちの技術から恩恵を受けています。

Much of the recent progress made in node classification on graphs can be credited to the careful design on graph neural networks (GNN) and label propagation algorithms. However, in the literature, in addition to improvements to the model architecture, there are a number of improvements either briefly mentioned as implementation details or visible only in source code, and these overlooked techniques may play a pivotal role in their practical use. In this paper, we first summarize a collection of existing refinements, and then propose several novel techniques regarding these model designs and label usage. We empirically evaluate their impacts on the final model accuracy through ablation studies, and show that we are able to significantly improve various GNN models to the extent that they outweigh the gains from model architecture improvement. Notably, many of the top-ranked models on Open Graph Benchmark benefit from our techniques.
翻訳日:2021-03-25 14:23:37 公開日:2021-03-24
# VLGrammar: 視覚と言語のグラマー誘導

VLGrammar: Grounded Grammar Induction of Vision and Language ( http://arxiv.org/abs/2103.12975v1 )

ライセンス: Link先を確認
Yining Hong, Qing Li, Song-Chun Zhu, Siyuan Huang(参考訳) 認知文法は言語文法の獲得が視覚構造に基礎を置いていることを示唆する。 文法は自然言語の本質的な表現であるが、階層的な部分全体構造を表現するために視覚的にもユビキタスに存在する。 本研究では,共同学習の枠組みにおいて,視覚と言語の文法的帰納を基礎的に検討する。 具体的には,複合確率文脈自由文法(pcfgs)を用いて言語文法と画像文法を同時に誘導する手法であるvlgrammarを提案する。 両モジュールの協調学習を導くための,新しいコントラスト学習フレームワークを提案する。 本研究では,3次元オブジェクトに対する部分レベルの意味論を記述した人文を含む大規模データセット \textsc{PartIt} を収集する。 textsc{PartIt}データセットの実験では、VLGrammarは画像文法の帰納や言語文法の帰属において、すべてのベースラインを上回ります。 学習したVLGrammarは、下流タスクに自然に利益をもたらす。 具体的には、教師なしクラスタリングの精度を30\%向上させ、画像検索やテキスト検索において良好に機能する。 特に、誘導文法は、目に見えないカテゴリに容易に一般化することで、より優れた一般化性を示す。

Cognitive grammar suggests that the acquisition of language grammar is grounded within visual structures. While grammar is an essential representation of natural language, it also exists ubiquitously in vision to represent the hierarchical part-whole structure. In this work, we study grounded grammar induction of vision and language in a joint learning framework. Specifically, we present VLGrammar, a method that uses compound probabilistic context-free grammars (compound PCFGs) to induce the language grammar and the image grammar simultaneously. We propose a novel contrastive learning framework to guide the joint learning of both modules. To provide a benchmark for the grounded grammar induction task, we collect a large-scale dataset, \textsc{PartIt}, which contains human-written sentences that describe part-level semantics for 3D objects. Experiments on the \textsc{PartIt} dataset show that VLGrammar outperforms all baselines in image grammar induction and language grammar induction. The learned VLGrammar naturally benefits related downstream tasks. Specifically, it improves the image unsupervised clustering accuracy by 30\%, and performs well in image retrieval and text retrieval. Notably, the induced grammar shows superior generalizability by easily generalizing to unseen categories.
翻訳日:2021-03-25 14:15:11 公開日:2021-03-24
# NLPにおける数値表現 : 調査と展望

Representing Numbers in NLP: a Survey and a Vision ( http://arxiv.org/abs/2103.13136v1 )

ライセンス: Link先を確認
Avijit Thawani, Jay Pujara, Pedro A. Szekely, Filip Ilievski(参考訳) NLPシステムは、テキスト中の数字に特別な考慮を与えることは滅多にない。 これは神経科学のコンセンサスとは全く対照的で、脳では数字は単語とは異なる表現である。 我々は,最近のNLPの数値化に関する研究を,タスクとメソッドの包括的分類に整理する。 数値の主観的な概念を7つのサブタスクに分解し、粒度(実数対近似)と単位(抽象対接地)の2次元に沿って配置した。 我々は以前に発行された18個の数値エンコーダとデコーダによる無数の表現選択を解析する。 我々は,テキストで数を表すためのベストプラクティスを合成し,設計トレードオフと統一評価からなる NLP の全体的数性に対するビジョンを明確にする。

NLP systems rarely give special consideration to numbers found in text. This starkly contrasts with the consensus in neuroscience that, in the brain, numbers are represented differently from words. We arrange recent NLP work on numeracy into a comprehensive taxonomy of tasks and methods. We break down the subjective notion of numeracy into 7 subtasks, arranged along two dimensions: granularity (exact vs approximate) and units (abstract vs grounded). We analyze the myriad representational choices made by 18 previously published number encoders and decoders. We synthesize best practices for representing numbers in text and articulate a vision for holistic numeracy in NLP, comprised of design trade-offs and a unified evaluation.
翻訳日:2021-03-25 14:14:35 公開日:2021-03-24
# 限られた情報とデータを用いたバックドア攻撃のブラックボックス検出

Black-box Detection of Backdoor Attacks with Limited Information and Data ( http://arxiv.org/abs/2103.13127v1 )

ライセンス: Link先を確認
Yinpeng Dong, Xiao Yang, Zhijie Deng, Tianyu Pang, Zihao Xiao, Hang Su, Jun Zhu(参考訳) 近年、ディープニューラルネットワーク(DNN)は急速に進歩しているが、敵の環境では脆弱である。 悪意のあるバックドアは、トレーニングデータセットに毒を盛ることで、モデルに埋め込まれる可能性がある。 バックドア攻撃の潜在的な脅威を軽減するため、様々なバックドア検出と防御方法が提案されている。 しかし、既存の技術は通常、有毒なトレーニングデータやホワイトボックスモデルへのアクセスを必要とするが、実際には利用できない。 本稿では,モデルへのクエリアクセスのみを用いて,バックドア攻撃を特定するブラックボックスバックドア検出(B3D)手法を提案する。 各クラスの潜在的なトリガをリバースエンジニアリングする勾配なし最適化アルゴリズムを導入し,バックドア攻撃の存在を明らかにする。 バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。 複数のデータセットでトレーニングされた数百のDNNモデルに対する大規模な実験は、さまざまなバックドア攻撃に対するブラックボックス設定下での手法の有効性を裏付けるものである。

Although deep neural networks (DNNs) have made rapid progress in recent years, they are vulnerable in adversarial environments. A malicious backdoor could be embedded in a model by poisoning the training dataset, whose intention is to make the infected model give wrong predictions during inference when the specific trigger appears. To mitigate the potential threats of backdoor attacks, various backdoor detection and defense methods have been proposed. However, the existing techniques usually require the poisoned training data or access to the white-box model, which is commonly unavailable in practice. In this paper, we propose a black-box backdoor detection (B3D) method to identify backdoor attacks with only query access to the model. We introduce a gradient-free optimization algorithm to reverse-engineer the potential trigger for each class, which helps to reveal the existence of backdoor attacks. In addition to backdoor detection, we also propose a simple strategy for reliable predictions using the identified backdoored models. Extensive experiments on hundreds of DNN models trained on several datasets corroborate the effectiveness of our method under the black-box setting against various backdoor attacks.
翻訳日:2021-03-25 14:14:23 公開日:2021-03-24
# ペアワイズ比較による逐次ベイズ最適化について

On Sequential Bayesian Optimization with Pairwise Comparison ( http://arxiv.org/abs/2103.13192v1 )

ライセンス: Link先を確認
Tanya Ignatenko, Kirill Kondrashov, Marco Cox, Bert de Vries(参考訳) 本研究では,補聴器のパラメータ設定(ha)の例として,ユーザの嗜好学習の問題点について検討する。 本提案では,haユーザと対話するエージェントを用いて,最も有益なデータを収集し,それらのデータに基づいてhaパラメータ設定のユーザ嗜好を学習する。 我々はhaシステムを2つの相互作用するサブシステムとしてモデル化する。1つはユーザを好み、もう1つはエージェントを表す。 本システムでは,エージェントが提案するha設定に対するユーザ応答を行う。 ユーザモデルでは、応答はパラメトリックなユーザ嗜好関数によって駆動されます。 エージェントは、ユーザモデル推論およびhaパラメータ提案生成のためのシーケンシャルなメカニズムを含む。 ユーザモデル(参照関数)を推定するために、エージェントにベイズ近似推論を用いる。 本稿では,学習嗜好の質を評価する指標として,正規化重み付きKullback-Leibler(KL) の真とエージェント指定の予測的ユーザ応答分布の偏差を提案する。 さらに,haパラメータプロポーザル生成のためのエージェント戦略は,ユーザ応答の予測に関する不確実性を解決するための応答であるha設定を生成することである。 結果として得られるデータは、効率的なユーザモデル学習を可能にする。 正規化重み付きKL分割もまた、ユーザを探索するために使用するデータの情報性が特徴付けられるので、重要な役割を果たす。 この手法の効率は数値シミュレーションによって検証される。

In this work, we study the problem of user preference learning on the example of parameter setting for a hearing aid (HA). We propose to use an agent that interacts with a HA user, in order to collect the most informative data, and learns user preferences for HA parameter settings, based on these data. We model the HA system as two interacting sub-systems, one representing a user with his/her preferences and another one representing an agent. In this system, the user responses to HA settings, proposed by the agent. In our user model, the responses are driven by a parametric user preference function. The agent comprises the sequential mechanisms for user model inference and HA parameter proposal generation. To infer the user model (preference function), Bayesian approximate inference is used in the agent. Here we propose the normalized weighted Kullback-Leibler (KL) divergence between true and agent-assigned predictive user response distributions as a metric to assess the quality of learned preferences. Moreover, our agent strategy for generating HA parameter proposals is to generate HA settings, responses to which help resolving uncertainty associated with prediction of the user responses the most. The resulting data, consequently, allows for efficient user model learning. The normalized weighted KL-divergence plays an important role here as well, since it characterizes the informativeness of the data to be used for probing the user. The efficiency of our approach is validated by numerical simulations.
翻訳日:2021-03-25 14:14:06 公開日:2021-03-24
# コントラスト学習によるクラスタリング支援

Supporting Clustering with Contrastive Learning ( http://arxiv.org/abs/2103.12953v1 )

ライセンス: Link先を確認
Dejiao Zhang, Feng Nan, Xiaokai Wei, Shangwen Li, Henghui Zhu, Kathleen McKeown, Ramesh Nallapati, Andrew Arnold, Bing Xiang(参考訳) 教師なしクラスタリングは、表現空間で測定された距離に応じてデータのセマンティックなカテゴリを見つけることを目的としている。 しかし、異なるカテゴリは学習プロセスの始めの表現空間において重複することが多く、異なるカテゴリを適切に分離する上で、距離ベースのクラスタリングにおいて大きな課題となる。 そこで本研究では,コントラスト学習(sccl)を用いたクラスタリングを支援することを提案する。 短いテキストクラスタリングにおけるscclの性能を評価し,多くのベンチマークデータセットにおいて,3%-11%の精度向上と4%-15%の正規化相互情報改善により,scclは最先端の結果を著しく向上していることを示した。 さらに,本定量分析では,ボトムアップインスタンス識別とトップダウンクラスタリングの両方の長所を利用して,地上の真理クラスタラベルを用いて評価すると,クラスタ内およびクラスタ間距離が向上することを示す。

Unsupervised clustering aims at discovering the semantic categories of data according to some distance measured in the representation space. However, different categories often overlap with each other in the representation space at the beginning of the learning process, which poses a significant challenge for distance-based clustering in achieving good separation between different categories. To this end, we propose Supporting Clustering with Contrastive Learning (SCCL) -- a novel framework to leverage contrastive learning to promote better separation. We assess the performance of SCCL on short text clustering and show that SCCL significantly advances the state-of-the-art results on most benchmark datasets with 3%-11% improvement on Accuracy and 4%-15% improvement on Normalized Mutual Information. Furthermore, our quantitative analysis demonstrates the effectiveness of SCCL in leveraging the strengths of both bottom-up instance discrimination and top-down clustering to achieve better intra-cluster and inter-cluster distances when evaluated with the ground truth cluster labels
翻訳日:2021-03-25 14:13:26 公開日:2021-03-24
# 多言語モデルはコードスイッチングに有効か?

Are Multilingual Models Effective in Code-Switching? ( http://arxiv.org/abs/2103.13309v1 )

ライセンス: Link先を確認
Genta Indra Winata, Samuel Cahyawijaya, Zihan Liu, Zhaojiang Lin, Andrea Madotto, Pascale Fung(参考訳) 多言語言語モデルは、多言語および多言語間自然言語理解タスクにおいて良好な性能を示している。 しかし、コードスイッチングタスクにおける多言語モデルの能力は十分に検討されていない。 本稿では,多言語モデルの有効性について検討し,その実用性を評価するための推論速度,性能,パラメータ数を考慮した混合言語設定への適応性について検討する。 名前付きエンティティ認識とpart-of-speech taggingの3つの言語ペアで実験を行い,バイリンガル埋め込みや多言語メタ埋め込みなど既存の手法と比較した。 この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことがわかった。

Multilingual language models have shown decent performance in multilingual and cross-lingual natural language understanding tasks. However, the power of these multilingual models in code-switching tasks has not been fully explored. In this paper, we study the effectiveness of multilingual language models to understand their capability and adaptability to the mixed-language setting by considering the inference speed, performance, and number of parameters to measure their practicality. We conduct experiments in three language pairs on named entity recognition and part-of-speech tagging and compare them with existing methods, such as using bilingual embeddings and multilingual meta-embeddings. Our findings suggest that pre-trained multilingual models do not necessarily guarantee high-quality representations on code-switching, while using meta-embeddings achieves similar results with significantly fewer parameters.
翻訳日:2021-03-25 14:13:12 公開日:2021-03-24
# メタ学習型不変リスク最小化

Meta-Learned Invariant Risk Minimization ( http://arxiv.org/abs/2103.12947v1 )

ライセンス: Link先を確認
Jun-Hyun Bae, Inchul Choi, Minho Lee(参考訳) 経験的リスク最小化(ERM)ベースの機械学習アルゴリズムは、アウト・オブ・ディストリビューション(OOD)から得られるデータに対する一般化性能の低下に悩まされている。 この問題に対処するため,不変リスク最小化(invariant risk minimization, irm)の目的は,データ分布の変化の影響が少ない不変最適予測器を見つけることである。 しかし, IRM の実践的な定式化である IRMv1 は, 十分なトレーニングデータがない場合にも性能劣化を示し, 素因相関の数が環境数よりも大きい場合, OOD への一般化に失敗する。 本稿では,そのような問題に対処するために,新しいメタラーニング手法を提案する。 本手法では,最適化を容易にするために分類器の線形性を仮定せず,モデル非依存型メタラーニング(MAML)フレームワークを用いて理想的双方向ITM目標を解く。 本手法は,散発的な相関を持つデータに対してより頑健であり,各分布のデータが不足しても不変最適分類器を提供できる。 実験では、我々のアルゴリズムは、IRMv1およびすべてのIRM変種よりも優れたOOD一般化性能を持つだけでなく、安定性を向上したIRMv1の弱点にも対処できることを示した。

Empirical Risk Minimization (ERM) based machine learning algorithms have suffered from weak generalization performance on data obtained from out-of-distribution (OOD). To address this problem, Invariant Risk Minimization (IRM) objective was suggested to find invariant optimal predictor which is less affected by the changes in data distribution. However, even with such progress, IRMv1, the practical formulation of IRM, still shows performance degradation when there are not enough training data, and even fails to generalize to OOD, if the number of spurious correlations is larger than the number of environments. In this paper, to address such problems, we propose a novel meta-learning based approach for IRM. In this method, we do not assume the linearity of classifier for the ease of optimization, and solve ideal bi-level IRM objective with Model-Agnostic Meta-Learning (MAML) framework. Our method is more robust to the data with spurious correlations and can provide an invariant optimal classifier even when data from each distribution are scarce. In experiments, we demonstrate that our algorithm not only has better OOD generalization performance than IRMv1 and all IRM variants, but also addresses the weakness of IRMv1 with improved stability.
翻訳日:2021-03-25 14:12:58 公開日:2021-03-24
# 変分オートエンコーダへのスパース生産知識の導入による異常検出信頼性の向上

Including Sparse Production Knowledge into Variational Autoencoders to Increase Anomaly Detection Reliability ( http://arxiv.org/abs/2103.12998v1 )

ライセンス: Link先を確認
Tom Hammerbacher, Markus Lange-Hegermann, Gorden Platz(参考訳) ディジタル化は、ニューラルネットワークのようなデータ駆動分析手法によって恩恵を受ける実運用システムのデータ透過性につながる。 例えば、自動異常検出はリソースの節約と生産の最適化を可能にする。 本研究では,ラベル付き異常に関する情報を変分オートエンコーダニューラルネットワーク構造に組み込むことにより,教師なしおよび教師なしのアプローチの情報不足を克服する。 この方法は、精度、正確さ、リコールの点で他の全てのモデルを上回る。 本研究では,7つの時系列データセットにおける主成分分析,分離フォレスト,ニューラルネットワークの分類,変分オートエンコーダの評価を行い,最適な検出法について検討した。 このアイデアを拡張して、生産プロセスに関するメタ情報が頻繁に発生するようにします。 異常や製品データの両方のスパースラベルを使用することで、異常検出性能を向上させるために利用可能な追加情報を活用することができる。

Digitalization leads to data transparency for production systems that we can benefit from with data-driven analysis methods like neural networks. For example, automated anomaly detection enables saving resources and optimizing the production. We study using rarely occurring information about labeled anomalies into Variational Autoencoder neural network structures to overcome information deficits of supervised and unsupervised approaches. This method outperforms all other models in terms of accuracy, precision, and recall. We evaluate the following methods: Principal Component Analysis, Isolation Forest, Classifying Neural Networks, and Variational Autoencoders on seven time series datasets to find the best performing detection methods. We extend this idea to include more infrequently occurring meta information about production processes. This use of sparse labels, both of anomalies or production data, allows to harness any additional information available for increasing anomaly detection performance.
翻訳日:2021-03-25 14:12:35 公開日:2021-03-24
# 識別器強化モデルに基づく強化学習

Discriminator Augmented Model-Based Reinforcement Learning ( http://arxiv.org/abs/2103.12999v1 )

ライセンス: Link先を確認
Behzad Haghgoo, Allan Zhou, Archit Sharma, Chelsea Finn(参考訳) 学習力学モデルを通じて計画することで、モデルベース強化学習(MBRL)は、環境相互作用の少ない優れたパフォーマンスの見通しを提供する。 しかし、実際には、学習モデルが不正確であり、計画が損なわれ、パフォーマンスが低下するのが普通である。 本稿では,真と学習力学の相違を考慮し,修正する重要なサンプリングフレームワークを用いて,計画を改善することを目的とする。 このフレームワークはまた、計画中の価値推定のばらつきを最小限にするために、ダイナミックスモデルを適合させる別の目的も動機付けている。 我々は、この目的を導出し、実装し、より大きなリターンを持つ軌道上のより良い予測を促進する。 本研究では,2つの確率的制御問題に対する現行のMBRLアルゴリズムの性能向上を実証的に観察し,提案手法の理論的基礎を提供する。

By planning through a learned dynamics model, model-based reinforcement learning (MBRL) offers the prospect of good performance with little environment interaction. However, it is common in practice for the learned model to be inaccurate, impairing planning and leading to poor performance. This paper aims to improve planning with an importance sampling framework that accounts and corrects for discrepancy between the true and learned dynamics. This framework also motivates an alternative objective for fitting the dynamics model: to minimize the variance of value estimation during planning. We derive and implement this objective, which encourages better prediction on trajectories with larger returns. We observe empirically that our approach improves the performance of current MBRL algorithms on two stochastic control problems, and provide a theoretical basis for our method.
翻訳日:2021-03-25 14:12:22 公開日:2021-03-24
# 半空間を用いた$\ell_p$-norm距離測定による濃度推定の改善

Improved Estimation of Concentration Under $\ell_p$-Norm Distance Metrics Using Half Spaces ( http://arxiv.org/abs/2103.12913v1 )

ライセンス: Link先を確認
Jack Prescott, Xiao Zhang, David Evans(参考訳) 測定の集中は、敵の脆弱性の根本的な原因であると主張している。 mahlojifarとal。 サンプルを使ってデータ分布の集中度を測定する実験的な方法を示し、いくつかのベンチマークデータセットで本質的ロバスト性に関する低い境界を見つけるためにそれを用いた。 しかし、これらの下限がデータセットの固有ロバスト性に有用な近似を与えるのに十分であるかどうかは不明である。 測度現象の濃度をより深く理解するために、まずガウス等度不等式を非球面的ガウス測度と任意の$\ell_p$-norms (p \geq 2$) に拡張する。 これらの理論的知見を活かして,半空間を用いて任意の経験的データセットの濃度を$\ell_p$-norm距離メトリクスで推定する手法を設計する。 提案アルゴリズムはmahloujifarらよりも効率的である。 合成データセットと画像ベンチマークの実験は、より厳密な内在的堅牢性境界を見つけることができることを示した。 これらのより厳密な見積もりは、最先端の分類器の敵対的脆弱性の説明として本質的なデータセットの濃度を規定するさらなる証拠を提供する。

Concentration of measure has been argued to be the fundamental cause of adversarial vulnerability. Mahloujifar et al. presented an empirical way to measure the concentration of a data distribution using samples, and employed it to find lower bounds on intrinsic robustness for several benchmark datasets. However, it remains unclear whether these lower bounds are tight enough to provide a useful approximation for the intrinsic robustness of a dataset. To gain a deeper understanding of the concentration of measure phenomenon, we first extend the Gaussian Isoperimetric Inequality to non-spherical Gaussian measures and arbitrary $\ell_p$-norms ($p \geq 2$). We leverage these theoretical insights to design a method that uses half-spaces to estimate the concentration of any empirical dataset under $\ell_p$-norm distance metrics. Our proposed algorithm is more efficient than Mahloujifar et al.'s, and our experiments on synthetic datasets and image benchmarks demonstrate that it is able to find much tighter intrinsic robustness bounds. These tighter estimates provide further evidence that rules out intrinsic dataset concentration as a possible explanation for the adversarial vulnerability of state-of-the-art classifiers.
翻訳日:2021-03-25 14:12:10 公開日:2021-03-24
# 衝突センシング情報のないマルチプレイヤーバンディットの最適アルゴリズム

Towards Optimal Algorithms for Multi-Player Bandits without Collision Sensing Information ( http://arxiv.org/abs/2103.13059v1 )

ライセンス: Link先を確認
Wei Huang and Richard Combes and Cindy Trinh(参考訳) 衝突センシング情報のないマルチプレイヤーマルチアームバンディットのための新しいアルゴリズムを提案する。 本アルゴリズムは,最先端アルゴリズムで共有される2つの問題を回避している。アームの最小期待報酬を入力として下限として必要とせず,その性能は最小期待報酬に逆比例してスケールしない。 これらの主張を正当化するための理論的後悔を証明します。 理論的結果と数値実験を補完し,提案アルゴリズムが実用上最先端のアルゴリズムよりも優れていることを示す。

We propose a novel algorithm for multi-player multi-armed bandits without collision sensing information. Our algorithm circumvents two problems shared by all state-of-the-art algorithms: it does not need as an input a lower bound on the minimal expected reward of an arm, and its performance does not scale inversely proportionally to the minimal expected reward. We prove a theoretical regret upper bound to justify these claims. We complement our theoretical results with numerical experiments, showing that the proposed algorithm outperforms state-of-the-art in practice as well.
翻訳日:2021-03-25 14:11:49 公開日:2021-03-24
# 感情過程:感情と表情認識のための時間的文脈の確率的モデリング

Affective Processes: stochastic modelling of temporal context for emotion and facial expression recognition ( http://arxiv.org/abs/2103.13372v1 )

ライセンス: Link先を確認
Enrique Sanchez and Mani Kumar Tellamekala and Michel Valstar and Georgios Tzimiropoulos(参考訳) 時間的文脈は感情の表現を認識する鍵となる。 既存のメソッドは、時間的一貫性を強制するためにリカレントあるいは自己アテンションモデルに依存し、機能レベルで作業し、タスク固有の時間的依存性を無視し、コンテキストの不確実性をモデル化しない。 これらの問題を緩和するために、ニューラル・プロセスの枠組みを構築し、(a)グローバル潜在変数モデルによる確率的文脈表現、(b)機能に加えてタスク固有の予測を用いた時間的文脈モデリング、(c)スマート時間的文脈選択の3つの重要な要素を用いた感情認識手法を提案する。 提案手法は,valence と arousal estimation (sewa と affwild2) と action unit intensity estimation (disfa と bp4d) の4つのデータベースで検証した。 その結果、一連の強いベースラインや最先端の手法よりも一貫した改善が見られた。

Temporal context is key to the recognition of expressions of emotion. Existing methods, that rely on recurrent or self-attention models to enforce temporal consistency, work on the feature level, ignoring the task-specific temporal dependencies, and fail to model context uncertainty. To alleviate these issues, we build upon the framework of Neural Processes to propose a method for apparent emotion recognition with three key novel components: (a) probabilistic contextual representation with a global latent variable model; (b) temporal context modelling using task-specific predictions in addition to features; and (c) smart temporal context selection. We validate our approach on four databases, two for Valence and Arousal estimation (SEWA and AffWild2), and two for Action Unit intensity estimation (DISFA and BP4D). Results show a consistent improvement over a series of strong baselines as well as over state-of-the-art methods.
翻訳日:2021-03-25 14:11:21 公開日:2021-03-24
# One-Shot GAN: 単一画像とビデオからサンプルを生成する学習

One-Shot GAN: Learning to Generate Samples from Single Images and Videos ( http://arxiv.org/abs/2103.13389v1 )

ライセンス: Link先を確認
Vadim Sushko, Juergen Gall, Anna Khoreva(参考訳) 多数のトレーニングサンプルが与えられた場合、ganは画像合成タスクにおいて顕著な性能を達成できる。 しかし、極めて低いデータ体制下でのGANのトレーニングは、過度に適合することが多く、記憶や訓練のばらつきにつながるため、依然として課題である。 本研究では,1つのトレーニング画像や1つのビデオクリップからサンプルを生成することを学習できる無条件生成モデルであるOne-Shot GANを紹介する。 本稿では、内部コンテンツとシーンレイアウトのリアリズムを別々に判断するために、コンテンツとレイアウトの分岐を持つ2分岐判別器アーキテクチャを提案する。 これにより、元のサンプルのコンテキストを保ちながら、内容やレイアウトの異なる、視覚的に可視で斬新なシーンの合成が可能になる。 以前のシングルイメージのGANモデルと比較すると、One-Shot GANはより多彩で高品質な画像を生成する一方で、単一の画像設定に制限されない。 このモデルが他のワンショットレジームとうまく対応できることを示し,1つのビデオから生成モデルを学ぶ新しいタスクを導入する。

Given a large number of training samples, GANs can achieve remarkable performance for the image synthesis task. However, training GANs in extremely low-data regimes remains a challenge, as overfitting often occurs, leading to memorization or training divergence. In this work, we introduce One-Shot GAN, an unconditional generative model that can learn to generate samples from a single training image or a single video clip. We propose a two-branch discriminator architecture, with content and layout branches designed to judge internal content and scene layout realism separately from each other. This allows synthesis of visually plausible, novel compositions of a scene, with varying content and layout, while preserving the context of the original sample. Compared to previous single-image GAN models, One-Shot GAN generates more diverse, higher quality images, while also not being restricted to a single image setting. We show that our model successfully deals with other one-shot regimes, and introduce a new task of learning generative models from a single video.
翻訳日:2021-03-25 14:11:02 公開日:2021-03-24
# FastMoE: 高速ミキサー・オブ・エクササイズトレーニングシステム

FastMoE: A Fast Mixture-of-Expert Training System ( http://arxiv.org/abs/2103.13262v1 )

ライセンス: Link先を確認
Jiaao He, Jiezhong Qiu, Aohan Zeng, Zhilin Yang, Jidong Zhai, Jie Tang(参考訳) Mixture-of-Expert (MoE)は言語モデルのサイズを数兆のパラメータに拡大する強力な可能性を示す。 しかし、訓練にはアルゴリズムとシステムの共同設計が必要であり、高度に調整された高性能分散トレーニングシステムである。 残念ながら、この要件を満たす唯一のプラットフォームは、Googleのハードウェア(TPU)とソフトウェア(Mesh Tensorflow)スタックに強く依存しており、特にGPUやPyTorchのコミュニティでは公開されていない。 本稿では,PyTorchをベースとした分散MoEトレーニングシステムであるFastMoEについて紹介する。 このシステムは、フレキシブルなモデル設計とTransformer-XLやMegatron-LMといった様々なアプリケーションへの容易に適応のための階層的なインタフェースを提供する。 PyTorchを用いたMoEモデルの直接実装とは異なり、訓練速度は高度な高性能加速技術によりFastMoEで高度に最適化されている。 このシステムは、複数のノードにわたる複数のGPUに異なる専門家を配置することをサポートし、GPUの数に対して、専門家の数を線形に増やすことができる。 FastMoEのソースはApache-2ライセンス下でhttps://github.com/l aekov/fastmoeで公開されている。

Mixture-of-Expert (MoE) presents a strong potential in enlarging the size of language model to trillions of parameters. However, training trillion-scale MoE requires algorithm and system co-design for a well-tuned high performance distributed training system. Unfortunately, the only existing platform that meets the requirements strongly depends on Google's hardware (TPU) and software (Mesh Tensorflow) stack, and is not open and available to the public, especially GPU and PyTorch communities. In this paper, we present FastMoE, a distributed MoE training system based on PyTorch with common accelerators. The system provides a hierarchical interface for both flexible model design and easy adaption to different applications, such as Transformer-XL and Megatron-LM. Different from direct implementation of MoE models using PyTorch, the training speed is highly optimized in FastMoE by sophisticated high-performance acceleration skills. The system supports placing different experts on multiple GPUs across multiple nodes, enabling enlarging the number of experts linearly against the number of GPUs. The source of FastMoE is available at https://github.com/l aekov/fastmoe under Apache-2 license.
翻訳日:2021-03-25 14:10:21 公開日:2021-03-24
# 効率的なコミュニケーションによる多エージェント強化学習の勾配収束境界

The Gradient Convergence Bound of Federated Multi-Agent Reinforcement Learning with Efficient Communication ( http://arxiv.org/abs/2103.13026v1 )

ライセンス: Link先を確認
Xing Xu and Rongpeng Li and Zhifeng Zhao and Honggang Zhang(参考訳) 本稿では,多エージェント意思決定プロセスのための深層強化学習(DRL)の分散バージョンを,連合学習のパラダイムとして検討する。 連合学習における深層ニューラルネットワークモデルは、中央サーバを通じて局所的に訓練され、反復的に集約されるため、頻繁な情報交換は大量の通信オーバーヘッドを引き起こす。 さらに、エージェントの不均一性のため、異なるエージェントからのマルコフ状態遷移軌跡は、通常同じ時間間隔で非同期化され、集約されたディープニューラルネットワークモデルの収束境界にさらに影響を及ぼす。 したがって、異なる最適化手法の有効性を合理的に評価することが重要である。 そこで本稿では,通信オーバーヘッドの低減と収束性能の向上のバランスを検討するユーティリティ関数を提案する。 本稿では, 局所的更新の進行過程において, モデル局所勾配の重みを徐々に減少させる減衰法と, モデル局所勾配の交換のためのフェデレート学習にコンセンサスアルゴリズムを導入するコンセンサスに基づく手法の2つの新しい最適化手法を提案する。 また, 両手法の新たな収束保証を提供し, 理論解析と数値シミュレーションの結果を通じて, その有効性と効率を実証する。

The paper considers a distributed version of deep reinforcement learning (DRL) for multi-agent decision-making process in the paradigm of federated learning. Since the deep neural network models in federated learning are trained locally and aggregated iteratively through a central server, frequent information exchange incurs a large amount of communication overheads. Besides, due to the heterogeneity of agents, Markov state transition trajectories from different agents are usually unsynchronized within the same time interval, which will further influence the convergence bound of the aggregated deep neural network models. Therefore, it is of vital importance to reasonably evaluate the effectiveness of different optimization methods. Accordingly, this paper proposes a utility function to consider the balance between reducing communication overheads and improving convergence performance. Meanwhile, this paper develops two new optimization methods on top of variation-aware periodic averaging methods: 1) the decay-based method which gradually decreases the weight of the model's local gradients within the progress of local updating, and 2) the consensus-based method which introduces the consensus algorithm into federated learning for the exchange of the model's local gradients. This paper also provides novel convergence guarantees for both developed methods and demonstrates their effectiveness and efficiency through theoretical analysis and numerical simulation results.
翻訳日:2021-03-25 14:10:01 公開日:2021-03-24
# Shift-and-Balanceアテンション

Shift-and-Balance Attention ( http://arxiv.org/abs/2103.13080v1 )

ライセンス: Link先を確認
Chunjie Luo, Jianfeng Zhan, Tianshu Hao, Lei Wang, Wanling Gao(参考訳) 注意力は、深いモデル能力を改善する効果的なメカニズムである。 squeeze-and-excite (se) はネットワークの表現力を高めるために軽量な注意ブランチを導入した。 注意ブランチはsgmoid関数を使用してゲートされ、フィーチャーマップのトランクブランチに乗算される。 トランクと注意枝の貢献を調整しバランスをとるには敏感すぎる。 注意ブランチの影響を制御するために,シフト・アンド・バランス(sb)と呼ばれる新しい注意手法を提案する。 Squeeze-and-Exciteとは異なり、アテンションブランチは学習したコントロールファクタによって制御され、バランスを制御し、フィーチャーマップのトランクブランチに追加される。 実験により、シフト・アンド・バランス・アテンションは、より多くの層に適用される場合のスクイーズ・アンド・エクスチクトよりも精度が著しく向上し、ネットワークのサイズとキャパシティが増大することが示された。 さらに、Shift-and-Balanceのアテンションは、最先端のDynamic Convolutionと比較して精度が良いか近い。

Attention is an effective mechanism to improve the deep model capability. Squeeze-and-Excite (SE) introduces a light-weight attention branch to enhance the network's representational power. The attention branch is gated using the Sigmoid function and multiplied by the feature map's trunk branch. It is too sensitive to coordinate and balance the trunk and attention branches' contributions. To control the attention branch's influence, we propose a new attention method, called Shift-and-Balance (SB). Different from Squeeze-and-Excite, the attention branch is regulated by the learned control factor to control the balance, then added into the feature map's trunk branch. Experiments show that Shift-and-Balance attention significantly improves the accuracy compared to Squeeze-and-Excite when applied in more layers, increasing more size and capacity of a network. Moreover, Shift-and-Balance attention achieves better or close accuracy compared to the state-of-art Dynamic Convolution.
翻訳日:2021-03-25 14:09:19 公開日:2021-03-24
# 教師なしMRハーモニゼーションのための情報に基づく分散表現学習

Information-based Disentangled Representation Learning for Unsupervised MR Harmonization ( http://arxiv.org/abs/2103.13283v1 )

ライセンス: Link先を確認
Lianrui Zuo, Blake E. Dewey, Aaron Carass, Yihao Liu, Yufan He, Peter A. Calabresi, Jerry L. Prince(参考訳) 精度と一貫性は、コンピュータ支援磁気共鳴(MR)画像解析における2つの重要な要素である。 しかし、MR取得における標準化の欠如によるサイトからサイトへのコントラストの変化は、一貫した測定を妨げている。 近年,mr画像のコントラスト変動を補正するための画像調和手法が提案されている。 現在のハーモニゼーションアプローチでは、教師付きトレーニングのためにクロスサイト旅行者を必要とするか、ハーモニゼーションの精度を高めるためにサイト固有のハーモニゼーションモデルに強く依存する。 これらの要件は、大規模マルチサイト研究における現在の調和法の適用を制限する可能性がある。 本稿では,情報ボトルネック理論に基づく教師なしMR調和フレームワークであるCALAMITI(Contrast Anatomy Learning and Analysis for MR Intensity Translation and Integration)を提案する。 CALAMITIは、移動対象を必要とせず、多地点調和のための統一構造を用いて、非絡み合いの潜在空間を学習する。 我々のモデルは、新しいサイトからのMR画像の調和にも適応でき、新しいサイトからの画像のみを微調整できる。 定性的および定量的な結果から,提案手法は他の教師なし調和法と比較して優れた性能が得られることが示された。

Accuracy and consistency are two key factors in computer-assisted magnetic resonance (MR) image analysis. However, contrast variation from site to site caused by lack of standardization in MR acquisition impedes consistent measurements. In recent years, image harmonization approaches have been proposed to compensate for contrast variation in MR images. Current harmonization approaches either require cross-site traveling subjects for supervised training or heavily rely on site-specific harmonization models to encourage harmonization accuracy. These requirements potentially limit the application of current harmonization methods in large-scale multi-site studies. In this work, we propose an unsupervised MR harmonization framework, CALAMITI (Contrast Anatomy Learning and Analysis for MR Intensity Translation and Integration), based on information bottleneck theory. CALAMITI learns a disentangled latent space using a unified structure for multi-site harmonization without the need for traveling subjects. Our model is also able to adapt itself to harmonize MR images from a new site with fine tuning solely on images from the new site. Both qualitative and quantitative results show that the proposed method achieves superior performance compared with other unsupervised harmonization approaches.
翻訳日:2021-03-25 14:09:04 公開日:2021-03-24
# UNICORN on RAINBOW: 新しいマルチタスクベンチマークに基づくユニバーサルコモンセンス推論モデル

UNICORN on RAINBOW: A Universal Commonsense Reasoning Model on a New Multitask Benchmark ( http://arxiv.org/abs/2103.13009v1 )

ライセンス: Link先を確認
Nicholas Lourie, Ronan Le Bras, Chandra Bhagavatula, Yejin Choi(参考訳) Commonsense AIは、最近まで、ほぼ不可能な目標と見なされてきた。 現在、新しいベンチマークやモデルが流入し、研究の関心が激増している。 我々は、共通意味モデルを評価する2つの新しい方法を提案し、新しいタスクの汎用性を強調し、最近導入された様々なベンチマークに基づいて構築する。 まず,複数のタスクやデータセットにまたがる共通認識モデルの研究を促進するために,新しいマルチタスクベンチマークであるレインボーを提案する。 第2に,新しい評価法であるコスト等価曲線を提案し,ソースデータセットの選択,事前学習された言語モデル,トランスファー学習手法がパフォーマンスとデータ効率にどのような影響を及ぼすか,新たな知見を与える。 例えば、転送が特定のレシピに従うと、QAベースのコモンセンスデータセットが互いにうまく転送されるのに対して、コモンセンスの知識グラフはそうではないし、もっと大きなモデルの方が小さなものよりも転送の恩恵を受ける、というように。 最後に、UNICORNという新しいユニバーサルコモンセンス推論モデルを導入し、一般的なコモンセンスベンチマーク8つのベンチマーク、aNLI (87.3%)、CosmosQA (91.8%)、HellaSWAG (93.9%)、PIQA (90.1%)、SocialIQa (83.2%)、WinoGrande (86.6%)、CycIC (94.0%)、CommonsenseQA (79.3%)にまたがる新しい最先端パフォーマンスを確立する。

Commonsense AI has long been seen as a near impossible goal -- until recently. Now, research interest has sharply increased with an influx of new benchmarks and models. We propose two new ways to evaluate commonsense models, emphasizing their generality on new tasks and building on diverse, recently introduced benchmarks. First, we propose a new multitask benchmark, RAINBOW, to promote research on commonsense models that generalize well over multiple tasks and datasets. Second, we propose a novel evaluation, the cost equivalent curve, that sheds new insight on how the choice of source datasets, pretrained language models, and transfer learning methods impacts performance and data efficiency. We perform extensive experiments -- over 200 experiments encompassing 4800 models -- and report multiple valuable and sometimes surprising findings, e.g., that transfer almost always leads to better or equivalent performance if following a particular recipe, that QA-based commonsense datasets transfer well with each other, while commonsense knowledge graphs do not, and that perhaps counter-intuitively, larger models benefit more from transfer than smaller ones. Last but not least, we introduce a new universal commonsense reasoning model, UNICORN, that establishes new state-of-the-art performance across 8 popular commonsense benchmarks, aNLI (87.3%), CosmosQA (91.8%), HellaSWAG (93.9%), PIQA (90.1%), SocialIQa (83.2%), WinoGrande (86.6%), CycIC (94.0%) and CommonsenseQA (79.3%).
翻訳日:2021-03-25 14:07:46 公開日:2021-03-24
# czert - チェコのbertライクな言語表現モデル

Czert -- Czech BERT-like Model for Language Representation ( http://arxiv.org/abs/2103.13031v1 )

ライセンス: Link先を確認
Jakub Sido, Ond\v{r}ej Pra\v{z}\'ak, Pavel P\v{r}ib\'a\v{n}, Jan Pa\v{s}ek, Michal Sej\'ak, Miloslav Konop\'ik(参考訳) 本稿では, BERT と ALBERT アーキテクチャに基づく最初のチェコ語単言語表現モデルの学習過程について述べる。 チェコ語データを含む多言語モデルの50倍の340k以上の文に対して,事前学習を行いました。 私たちは10のデータセットのうち7つで多言語モデルより優れています。 さらに,7つのデータセットで最新の結果が得られた。 最後に,結果に基づく単言語モデルと多言語モデルの性質について考察する。 研究コミュニティのために、事前訓練されたモデルと微調整されたモデルをすべて自由に公開します。

This paper describes the training process of the first Czech monolingual language representation models based on BERT and ALBERT architectures. We pre-train our models on more than 340K of sentences, which is 50 times more than multilingual models that include Czech data. We outperform the multilingual models on 7 out of 10 datasets. In addition, we establish the new state-of-the-art results on seven datasets. At the end, we discuss properties of monolingual and multilingual models based upon our results. We publish all the pre-trained and fine-tuned models freely for the research community.
翻訳日:2021-03-25 14:07:11 公開日:2021-03-24
# 低リソース言語のための低リソース機械翻訳:同等のデータ、コードスイッチ、計算リソースを活用する

Low-Resource Machine Translation for Low-Resource Languages: Leveraging Comparable Data, Code-Switching and Compute Resources ( http://arxiv.org/abs/2103.13272v1 )

ライセンス: Link先を確認
Garry Kuwanto, Afra Feyza Aky\"urek, Isidora Chara Tourni, Siyang Li, Derry Wijaya(参考訳) 我々は、真の低リソース言語のための教師なしニューラルマシン翻訳(nmt)に関する実証研究を行い、並列トレーニングデータと計算リソースが欠如している場合を考察し、世界のほとんどの言語とこれらの言語に取り組んでいる研究者の現実を反映した。 教師なしNMTを改善するための単純でスケーラブルな手法を提案し、バイリンガル辞書を用いてマイニングされた同等のデータと、モデルを訓練するための控えめな計算資源をどのように追加するかを示す。 また, 辞書を用いて単言語データをコードスイッチし, より同等のデータを生成することにより, 性能がさらに向上することを示す。 この弱い監督によって、我々の最良の方法はBLEUスコアを達成し、英語$\rightarrow$Gujarat i (+18.88), English$\rightarrow$ Kazakh (+5.84), English$\rightarrow$ Somali (+1.16) の教師付き結果よりも優れたBLEUスコアを得る。 我々の知る限り、我々の研究は、低リソースNMTにおける様々な控えめな計算リソースの影響を定量的に示す最初のものである。

We conduct an empirical study of unsupervised neural machine translation (NMT) for truly low resource languages, exploring the case when both parallel training data and compute resource are lacking, reflecting the reality of most of the world's languages and the researchers working on these languages. We propose a simple and scalable method to improve unsupervised NMT, showing how adding comparable data mined using a bilingual dictionary along with modest additional compute resource to train the model can significantly improve its performance. We also demonstrate how the use of the dictionary to code-switch monolingual data to create more comparable data can further improve performance. With this weak supervision, our best method achieves BLEU scores that improve over supervised results for English$\rightarrow$ Gujarati (+18.88), English$\rightarrow$ Kazakh (+5.84), and English$\rightarrow$ Somali (+1.16), showing the promise of weakly-supervised NMT for many low resource languages with modest compute resource in the world. To the best of our knowledge, our work is the first to quantitatively showcase the impact of different modest compute resource in low resource NMT.
翻訳日:2021-03-25 14:07:05 公開日:2021-03-24
# 地域類似性表現学習

Region Similarity Representation Learning ( http://arxiv.org/abs/2103.12902v1 )

ライセンス: Link先を確認
Tete Xiao, Colorado J Reed, Xiaolong Wang, Kurt Keutzer, Trevor Darrell(参考訳) 本稿では,オブジェクト検出やセグメンテーションといったローカライゼーションに基づくタスクに対する自己教師型表現学習の新しいアプローチであるReSimを提案する。 既存の研究は、画像全体のグローバル表現のみを学習することに重点を置いているが、ReSimはローカライゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学ぶ。 ReSimは、2つのビュー(例えば、画像の収穫物)の間に重なり合う領域にわたって固定サイズのウィンドウをスライドさせ、これらの領域を対応する畳み込み特徴写像領域と整列させ、ビュー間の特徴類似性を最大化する。 その結果、ReSimはニューラルネットワークの畳み込み特徴マップ全体を通して空間的かつ意味的に一貫した特徴表現を学習する。 画像領域のシフトまたはスケール(例えば、オブジェクトのシフトまたはスケール)は、特徴マップに対応する変化を持ち、下流のタスクはこれらの表現をローカライゼーションに活用することができる。 オブジェクト検出、インスタンスセグメンテーション、高密度ポーズ推定実験を通じて、ReSimは、競合するMoCo-v2ベースラインと比較して、ローカライゼーションと分類性能を著しく向上させる表現を学習する方法を説明している: $+2.7$ AP$^{\text{bb}}_{75}$ VOC, $+1.1$ AP$^{\text{bb}}_{75}$ COCO, $+1.9$ AP$^{\text{mk}}$ Cityscapes。 コードと事前訓練されたモデルは以下の通りリリースされている。

We present Region Similarity Representation Learning (ReSim), a new approach to self-supervised representation learning for localization-based tasks such as object detection and segmentation. While existing work has largely focused on solely learning global representations for an entire image, ReSim learns both regional representations for localization as well as semantic image-level representations. ReSim operates by sliding a fixed-sized window across the overlapping area between two views (e.g., image crops), aligning these areas with their corresponding convolutional feature map regions, and then maximizing the feature similarity across views. As a result, ReSim learns spatially and semantically consistent feature representation throughout the convolutional feature maps of a neural network. A shift or scale of an image region, e.g., a shift or scale of an object, has a corresponding change in the feature maps; this allows downstream tasks to leverage these representations for localization. Through object detection, instance segmentation, and dense pose estimation experiments, we illustrate how ReSim learns representations which significantly improve the localization and classification performance compared to a competitive MoCo-v2 baseline: $+2.7$ AP$^{\text{bb}}_{75}$ VOC, $+1.1$ AP$^{\text{bb}}_{75}$ COCO, and $+1.9$ AP$^{\text{mk}}$ Cityscapes. Code and pre-trained models are released at: \url{https://github.com/T ete-Xiao/ReSim}
翻訳日:2021-03-25 14:05:37 公開日:2021-03-24
# 空中ビデオのディープトラッカのベンチマーク

Benchmarking Deep Trackers on Aerial Videos ( http://arxiv.org/abs/2103.12924v1 )

ライセンス: Link先を確認
Abu Md Niamul Taufique, Breton Minnehan, Andreas Savakis(参考訳) 近年、ディープラーニングに基づくビジュアルオブジェクトトラッカーは、いくつかのビジュアルオブジェクトトラッキングベンチマークで最先端のパフォーマンスを達成した。 しかし、ほとんどのトラッキングベンチマークは地上ビデオに焦点を当てているが、空中トラッキングは新しい課題を呈している。 本稿では,4つの航空データセットの深層学習手法に基づく10個のトラッカーを比較する。 我々は,検出による追跡,識別相関フィルタ,シャムネットワーク,強化学習など,さまざまなアプローチを用いた上位パフォーマンストラッカを選択する。 実験では,航空スタイルのビデオを含むTB2015データセットのサブセット,合成シーケンスを持たないUAV123データセット,20の長いシーケンスを含むUAV20Lデータセット,ベンチマークデータセットとしてDTB70データセットを使用しました。 航空データに遭遇する異なる追跡状況における異なるトラッカーの利点とデメリットを比較した。 本研究は, 地上の標準映像と比較して, 観測装置の性能が著しく低下することが示唆された。 この効果は, ターゲットサイズ, カメラの動き, ターゲットに対するカメラの回転, 視界外の動き, 追跡対象近傍の咬合や類似の注意注意喚起の形でのクラッタなどにより特徴づけられる。

In recent years, deep learning-based visual object trackers have achieved state-of-the-art performance on several visual object tracking benchmarks. However, most tracking benchmarks are focused on ground level videos, whereas aerial tracking presents a new set of challenges. In this paper, we compare ten trackers based on deep learning techniques on four aerial datasets. We choose top performing trackers utilizing different approaches, specifically tracking by detection, discriminative correlation filters, Siamese networks and reinforcement learning. In our experiments, we use a subset of OTB2015 dataset with aerial style videos; the UAV123 dataset without synthetic sequences; the UAV20L dataset, which contains 20 long sequences; and DTB70 dataset as our benchmark datasets. We compare the advantages and disadvantages of different trackers in different tracking situations encountered in aerial data. Our findings indicate that the trackers perform significantly worse in aerial datasets compared to standard ground level videos. We attribute this effect to smaller target size, camera motion, significant camera rotation with respect to the target, out of view movement, and clutter in the form of occlusions or similar looking distractors near tracked object.
翻訳日:2021-03-25 14:05:07 公開日:2021-03-24
# ビデオオブジェクトセグメンテーションのための効率的な地域メモリネットワーク

Efficient Regional Memory Network for Video Object Segmentation ( http://arxiv.org/abs/2103.12934v1 )

ライセンス: Link先を確認
Haozhe Xie, Hongxun Yao, Shangchen Zhou, Shengping Zhang, Wenxiu Sun(参考訳) 最近、いくつかの時空メモリベースのネットワークが、オブジェクトのキュー(例)を示している。 従来のフレームからのビデオフレームとセグメンテーションされたオブジェクトマスクは、現在のフレーム内のオブジェクトをセグメンテーションするのに役立ちます。 しかし、これらの手法は、現在のフレームと過去のフレーム間のグローバル・グローバルマッチングによってメモリからの情報を利用するため、類似したオブジェクトとミスマッチし、計算の複雑さが高い。 このような問題に対処するため,我々は,半教師付きVOS(Regional Memory Network (RMNet))のための新しいローカル-ローカルマッチングソリューションを提案する。 rmnetでは、ターゲットオブジェクトが過去のフレームに現れるローカル領域を記憶することにより、正確な地域記憶を構築する。 現在のクエリフレームでは、前フレームから推定した光フローに基づいてクエリ領域を追跡予測する。 提案したローカル-ローカルマッチングは、メモリとクエリフレームの両方において類似したオブジェクトのあいまいさを効果的に軽減し、ローカルメモリからクエリ領域に効率的に情報を渡すことができる。 実験結果から,提案したRMNetは,DAVISおよびYouTube-VOSデータセットの最先端手法に対して良好に動作することが示された。

Recently, several Space-Time Memory based networks have shown that the object cues (e.g. video frames as well as the segmented object masks) from the past frames are useful for segmenting objects in the current frame. However, these methods exploit the information from the memory by global-to-global matching between the current and past frames, which lead to mismatching to similar objects and high computational complexity. To address these problems, we propose a novel local-to-local matching solution for semi-supervised VOS, namely Regional Memory Network (RMNet). In RMNet, the precise regional memory is constructed by memorizing local regions where the target objects appear in the past frames. For the current query frame, the query regions are tracked and predicted based on the optical flow estimated from the previous frame. The proposed local-to-local matching effectively alleviates the ambiguity of similar objects in both memory and query frames, which allows the information to be passed from the regional memory to the query region efficiently and effectively. Experimental results indicate that the proposed RMNet performs favorably against state-of-the-art methods on the DAVIS and YouTube-VOS datasets.
翻訳日:2021-03-25 14:04:46 公開日:2021-03-24
# 遠隔型視覚接地のためのシーン直感エージェント

Scene-Intuitive Agent for Remote Embodied Visual Grounding ( http://arxiv.org/abs/2103.12944v1 )

ライセンス: Link先を確認
Xiangru Lin, Guanbin Li, Yizhou Yu(参考訳) 人間は生命の出来事から学び、視覚環境や言語を理解するための直感を形成する。 主寝室のトイレに行き、左壁の青いタオルを交換する」というハイレベルな指示で指示されることを想像してください。 直感的には,バスルームがどこにあるのか,ブルータオルが何を念頭に置いているのかという概観を形成するための指示の意味を把握し,バスルームの外観と現在のシーンを一貫して一致させることで,目標の場所へナビゲートする。 本稿では,このような人間の行動を模倣するエージェントについて述べる。 具体的には、Remote Embodied Visual Referring Expression in Real Indoor Environments task(REVERIE)に着目し、エージェントに、簡潔な高レベル自然言語命令で指定されたリモートターゲットオブジェクトを正しくローカライズするよう依頼し、2段階のトレーニングパイプラインを提案する。 第1段階では,2つのクロスモーダルアライメントサブタスク,すなわちScene GroundingタスクとObject Groundingタスクでエージェントを事前訓練する。 エージェントは、各シーンの接地タスクで立ち止まる場所と、対象の接地タスクで何に参加するかを学ぶ。 そして,動作シーケンスを生成するために,学習前の視覚と言語表現をエージェントの過去の記憶体験とスムーズに融合させるメモリ拡張型注意動作デコーダを提案する。 ベルやホイッスルがなければ,従来の最先端(sota)をはるかに上回って,提案手法の有効性を実証する実験結果が得られた。

Humans learn from life events to form intuitions towards the understanding of visual environments and languages. Envision that you are instructed by a high-level instruction, "Go to the bathroom in the master bedroom and replace the blue towel on the left wall", what would you possibly do to carry out the task? Intuitively, we comprehend the semantics of the instruction to form an overview of where a bathroom is and what a blue towel is in mind; then, we navigate to the target location by consistently matching the bathroom appearance in mind with the current scene. In this paper, we present an agent that mimics such human behaviors. Specifically, we focus on the Remote Embodied Visual Referring Expression in Real Indoor Environments task, called REVERIE, where an agent is asked to correctly localize a remote target object specified by a concise high-level natural language instruction, and propose a two-stage training pipeline. In the first stage, we pretrain the agent with two cross-modal alignment sub-tasks, namely the Scene Grounding task and the Object Grounding task. The agent learns where to stop in the Scene Grounding task and what to attend to in the Object Grounding task respectively. Then, to generate action sequences, we propose a memory-augmented attentive action decoder to smoothly fuse the pre-trained vision and language representations with the agent's past memory experiences. Without bells and whistles, experimental results show that our method outperforms previous state-of-the-art(SOT A) significantly, demonstrating the effectiveness of our method.
翻訳日:2021-03-25 14:04:27 公開日:2021-03-24
# トランスフォーマによる多視点3次元再構成

Multi-view 3D Reconstruction with Transformer ( http://arxiv.org/abs/2103.12957v1 )

ライセンス: Link先を確認
Dan Wang, Xinrui Cui, Xun Chen, Zhengxia Zou, Tianyang Shi, Septimiu Salcudean, Z. Jane Wang, Rabab Ward(参考訳) 深層CNNに基づく手法は, マルチビュー3次元オブジェクト再構成において, 最先端の成果を達成している。 かなりの進歩にもかかわらず、これらの方法の2つのコアモジュール(マルチビュー特徴抽出と融合)は通常別々に調査され、異なるビューのオブジェクト関係はめったに探求されない。 本稿では,近年の自己注意型トランスフォーマーモデルの成功に触発されて,シーケンス・ツー・シーケンス予測問題として多視点3D再構成を再構成し,その課題に対する新しい3Dボリュームトランスフォーマー(VolT)を提案する。 異なる設計を用いた従来のCNN方式とは異なり、単一トランスフォーマーネットワークにおける特徴抽出とビュー融合を統一する。 我々の設計の自然な利点は、複数の非順序入力間の自己注意を用いたビュー・ツー・ビュー関係の探索である。 大規模な3次元再構成ベンチマークデータセットであるShapeNetでは,他のCNN手法よりも少ないパラメータ (70 %$) のマルチビュー再構成において,新しい最先端の精度を実現する。 また,本手法のスケーリング能力も実験的に示唆された。 私たちのコードは公開されます。

Deep CNN-based methods have so far achieved the state of the art results in multi-view 3D object reconstruction. Despite the considerable progress, the two core modules of these methods - multi-view feature extraction and fusion, are usually investigated separately, and the object relations in different views are rarely explored. In this paper, inspired by the recent great success in self-attention-based Transformer models, we reformulate the multi-view 3D reconstruction as a sequence-to-sequence prediction problem and propose a new framework named 3D Volume Transformer (VolT) for such a task. Unlike previous CNN-based methods using a separate design, we unify the feature extraction and view fusion in a single Transformer network. A natural advantage of our design lies in the exploration of view-to-view relationships using self-attention among multiple unordered inputs. On ShapeNet - a large-scale 3D reconstruction benchmark dataset, our method achieves a new state-of-the-art accuracy in multi-view reconstruction with fewer parameters ($70\%$ less) than other CNN-based methods. Experimental results also suggest the strong scaling capability of our method. Our code will be made publicly available.
翻訳日:2021-03-25 14:03:58 公開日:2021-03-24
# 体積伝播ネットワーク:長距離深度推定のためのステレオライダー融合

Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth Estimation ( http://arxiv.org/abs/2103.12964v1 )

ライセンス: Link先を確認
Jaesung Choe, Kyungdon Joo, Tooba Imtiaz, In So Kweon(参考訳) Stereo-LiDAR融合は,高密度3D情報(ステレオカメラ)と高精度スパース点雲(LiDAR)という,2種類の3D知覚を実用的に活用できるという,有望な課題である。 しかし,その形態や構造の違いから,センサデータの整合がセンサ融合の鍵となる。 そこで本研究では,体積伝搬ネットワークと呼ばれる長距離深度推定のための幾何対応ステレオLiDAR融合ネットワークを提案する。 ネットワークの重要な考え方は,3次元ボリューム空間におけるステレオ画像の対応を導出するための手掛かりとして,スパースかつ正確な点雲を活用することである。 既存の融合戦略とは異なり、我々は点雲を直接ボリュームに埋め込むことで、有効情報をボリューム内の近傍のボクセルに伝播させ、対応の不確かさを低減することができる。 これにより、2つの異なる入力モードをシームレスに融合し、長距離深度マップを回帰することができる。 また,新たに提案する特徴抽出層により,画像案内による点雲の融合をさらに強化した。 fusionconvは、意味的(2d画像領域)と幾何学的(3d領域)の関係を考えるポイントクラウドの特徴を抽出し、ボリュームでの融合を支援する。 我々のネットワークは,最近のステレオLiDAR融合法において,KITTIとVirtual-KITTIデータセットの最先端性能を実現する。

Stereo-LiDAR fusion is a promising task in that we can utilize two different types of 3D perceptions for practical usage -- dense 3D information (stereo cameras) and highly-accurate sparse point clouds (LiDAR). However, due to their different modalities and structures, the method of aligning sensor data is the key for successful sensor fusion. To this end, we propose a geometry-aware stereo-LiDAR fusion network for long-range depth estimation, called volumetric propagation network. The key idea of our network is to exploit sparse and accurate point clouds as a cue for guiding correspondences of stereo images in a unified 3D volume space. Unlike existing fusion strategies, we directly embed point clouds into the volume, which enables us to propagate valid information into nearby voxels in the volume, and to reduce the uncertainty of correspondences. Thus, it allows us to fuse two different input modalities seamlessly and regress a long-range depth map. Our fusion is further enhanced by a newly proposed feature extraction layer for point clouds guided by images: FusionConv. FusionConv extracts point cloud features that consider both semantic (2D image domain) and geometric (3D domain) relations and aid fusion at the volume. Our network achieves state-of-the-art performance on the KITTI and the Virtual-KITTI datasets among recent stereo-LiDAR fusion methods.
翻訳日:2021-03-25 14:03:39 公開日:2021-03-24
# 多系列データからの半教師付き検出のためのヘテロモーダル学習と拡張一貫性制約

Hetero-Modal Learning and Expansive Consistency Constraints for Semi-Supervised Detection from Multi-Sequence Data ( http://arxiv.org/abs/2103.12972v1 )

ライセンス: Link先を確認
Bolin Lai, Yuhsuan Wu, Xiao-Yun Zhou, Peng Wang, Le Lu, Lingyun Huang, Mei Han, Jing Xiao, Heping Hu, Adam P. Harrison(参考訳) 病変検出は早期診断において重要な役割を担い、近年は方法論の進歩とデータ可用性の向上によりよく研究されている。 しかし、アノテーションのコストが高いため、大きなデータセットと完全にラベル付きデータセットの収集が妨げられ、半教師付き検出アプローチが動機となる。 本稿では,現在の半教師検出における2つの重要なギャップに対処する平均教師ヘテロモーダル検出(MTHD)を提案する。 第一に、様々な検出器の全く異なる出力に対してラベルなしの一貫性の制約を強制する方法は明確ではない。 MTHDはアンカーフリーのフレームワークを使用して、そのような妥協なしに平均的な教師のアプローチを定式化し、オブジェクト中心とサイズのソフトアウトプットに一貫性を強制する。 第2に,腹部病変検出などでは多列データが重要視されることが多いが,ラベルなしのデータでは欠落することが多い。 これに対応するため、MTHDはヘテロモーダル学習をそのフレームワークに組み込んでいる。 先行技術とは異なり、mthdは幾何学的変換とランダムシーケンスの組み合わせを含む拡張的な一貫性制約セットを組み込むことができる。 肝病変検出におけるMTHDの訓練と評価には,これまでで最大のMR病変データセット(1099例)が有用であった。 mthdは、平均感度で10.1%、半監督の競争相手をそれぞれ3.5%上回っている。

Lesion detection serves a critical role in early diagnosis and has been well explored in recent years due to methodological advancesand increased data availability. However, the high costs of annotations hinder the collection of large and completely labeled datasets, motivating semi-supervised detection approaches. In this paper, we introduce mean teacher hetero-modal detection (MTHD), which addresses two important gaps in current semi-supervised detection. First, it is not obvious how to enforce unlabeled consistency constraints across the very different outputs of various detectors, which has resulted in various compromises being used in the state of the art. Using an anchor-free framework, MTHD formulates a mean teacher approach without such compromises, enforcing consistency on the soft-output of object centers and size. Second, multi-sequence data is often critical, e.g., for abdominal lesion detection, but unlabeled data is often missing sequences. To deal with this, MTHD incorporates hetero-modal learning in its framework. Unlike prior art, MTHD is able to incorporate an expansive set of consistency constraints that include geometric transforms and random sequence combinations. We train and evaluate MTHD on liver lesion detection using the largest MR lesion dataset to date (1099 patients with >5000 volumes). MTHD surpasses the best fully-supervised and semi-supervised competitors by 10.1% and 3.5%, respectively, in average sensitivity.
翻訳日:2021-03-25 14:03:17 公開日:2021-03-24
# RPVNet:LiDARポイントクラウドセグメンテーションのための深部および高効率レンジポイント-ボクセル核融合ネットワーク

RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR Point Cloud Segmentation ( http://arxiv.org/abs/2103.12978v1 )

ライセンス: Link先を確認
Jianyun Xu, Ruixiang Zhang, Jian Dou, Yushi Zhu, Jie Sun, Shiliang Pu(参考訳) 点雲は、多くの形式(ビュー)、典型的には点ベースの集合、ボクセルベースのセル、範囲ベースのイメージ(パノラマビュー)で表現できる。 点ベースビューは幾何学的に正確であるが、乱れているため、近隣住民を効率的に見つけることは困難である。 voxelベースのビューはレギュラーだがスパースであり、voxelの解像度が上がると計算はキュービック的に増加する。 射程に基づくビューは規則的で一般に密度が高いが、球面射影は物理的次元を歪ませる。 ボクセルとレンジベースの両方のビューは量子化損失に悩まされる。 異なるビューの利点を生かし、細粒度のセグメンテーションタスクにおける欠点を緩和するために、新しいレンジポイント-ボクセル融合ネットワーク、すなわちRPVNetを提案する。 本ネットワークでは,これら3つのビュー間での相互・複数情報相互作用を持つ深層融合フレームワークを考案し,同時入力に基づいて3つの特徴を適応的にマージ可能なゲート融合モジュール(GFM)を提案する。 さらに,提案するRPV相互作用機構は非常に効率的であり,より一般的な定式化にまとめる。 この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。 最後に、提案したモデルをSemanticKITTIとnuScenesという2つの大規模データセット上で評価し、両者の最先端性能を示す。 なお,本手法はSemanticKITTIのリーダーボードにおいて,余分なトリックを伴わずに第1位にランクされている。

Point clouds can be represented in many forms (views), typically, point-based sets, voxel-based cells or range-based images(i.e., panoramic view). The point-based view is geometrically accurate, but it is disordered, which makes it difficult to find local neighbors efficiently. The voxel-based view is regular, but sparse, and computation grows cubically when voxel resolution increases. The range-based view is regular and generally dense, however spherical projection makes physical dimensions distorted. Both voxel- and range-based views suffer from quantization loss, especially for voxels when facing large-scale scenes. In order to utilize different view's advantages and alleviate their own shortcomings in fine-grained segmentation task, we propose a novel range-point-voxel fusion network, namely RPVNet. In this network, we devise a deep fusion framework with multiple and mutual information interactions among these three views and propose a gated fusion module (termed as GFM), which can adaptively merge the three features based on concurrent inputs. Moreover, the proposed RPV interaction mechanism is highly efficient, and we summarize it into a more general formulation. By leveraging this efficient interaction and relatively lower voxel resolution, our method is also proved to be more efficient. Finally, we evaluated the proposed model on two large-scale datasets, i.e., SemanticKITTI and nuScenes, and it shows state-of-the-art performance on both of them. Note that, our method currently ranks 1st on SemanticKITTI leaderboard without any extra tricks.
翻訳日:2021-03-25 14:02:55 公開日:2021-03-24
# saccadecam:単眼深度センシングのための適応的視覚注意

SaccadeCam: Adaptive Visual Attention for Monocular Depth Sensing ( http://arxiv.org/abs/2103.12981v1 )

ライセンス: Link先を確認
Brevin Tilmon and Sanjeev J. Koppal(参考訳) ほとんどの単眼深度検出法は、シーンの内容を考慮することなく生成される従来の撮像画像を使用する。 対照的に、動物の目は、サッケードと呼ばれる速い機械的動きを持ち、解像度が高いフォビアによってどのように撮影されるかを制御する。 本稿では,シーンに興味のある領域に適応的に解像度を分配するsaccadecamフレームワークを提案する。 適応解像アルゴリズムは自己教師付きネットワークであり,単眼深度推定のためのエンドツーエンド学習の結果を示す。 また、実際のSaccadeCamハードウェアのプロトタイプで予備結果を示す。

Most monocular depth sensing methods use conventionally captured images that are created without considering scene content. In contrast, animal eyes have fast mechanical motions, called saccades, that control how the scene is imaged by the fovea, where resolution is highest. In this paper, we present the SaccadeCam framework for adaptively distributing resolution onto regions of interest in the scene. Our algorithm for adaptive resolution is a self-supervised network and we demonstrate results for end-to-end learning for monocular depth estimation. We also show preliminary results with a real SaccadeCam hardware prototype.
翻訳日:2021-03-25 14:02:24 公開日:2021-03-24
# 1対多:ロボット手術ビデオにおけるメタラーニングと動的オンライン適応による適応型機器セグメンテーション

One to Many: Adaptive Instrument Segmentation via Meta Learning and Dynamic Online Adaptation in Robotic Surgical Video ( http://arxiv.org/abs/2103.12988v1 )

ライセンス: Link先を確認
Zixu Zhao, Yueming Jin, Bo Lu, Chi-Fai Ng, Qi Dou, Yun-Hui Liu, and Pheng-Ann Heng(参考訳) ロボット支援手術(RAS)における手術器具のセグメンテーション(特に学習モデルを用いた場合)は、トレーニングとテストビデオが同じドメインからサンプリングされるという仮定に依存している。 しかし、新しいドメインごとに十分なデータを収集し注釈を付けるのは非現実的で高価である。 ラベル効率を著しく向上させるため, 1つの音源モデルを複数の対象領域の新たなロボット手術ビデオに効果的に適用する, アノテーテッド・インスツルメンテーション(adaptive instrument segmentation)という新たな問題を検討した。 本研究では,2段階フレームワークを用いたメタラーニングに基づく動的オンライン適応学習方式であるmdalを提案する。 MDALは、ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。 グラデーションゲートは、ターゲットビデオに対する動的オンライン適応のために、偽のマスクからノイズの多い監視を除外する。 我々はMDALが2つのデータセット(実世界のRASデータセットを含む)で他の最先端手法よりも優れていることを実証的に示す。 元vivoシーンでの有望なパフォーマンスは、ロボット支援の縫合やカメラ制御といった下流のタスクにもメリットがある。

Surgical instrument segmentation in robot-assisted surgery (RAS) - especially that using learning-based models - relies on the assumption that training and testing videos are sampled from the same domain. However, it is impractical and expensive to collect and annotate sufficient data from every new domain. To greatly increase the label efficiency, we explore a new problem, i.e., adaptive instrument segmentation, which is to effectively adapt one source model to new robotic surgical videos from multiple target domains, only given the annotated instruments in the first frame. We propose MDAL, a meta-learning based dynamic online adaptive learning scheme with a two-stage framework to fast adapt the model parameters on the first frame and partial subsequent frames while predicting the results. MDAL learns the general knowledge of instruments and the fast adaptation ability through the video-specific meta-learning paradigm. The added gradient gate excludes the noisy supervision from pseudo masks for dynamic online adaptation on target videos. We demonstrate empirically that MDAL outperforms other state-of-the-art methods on two datasets (including a real-world RAS dataset). The promising performance on ex-vivo scenes also benefits the downstream tasks such as robot-assisted suturing and camera control.
翻訳日:2021-03-25 14:02:14 公開日:2021-03-24
# mlan: ドメイン適応意味セグメンテーションのための多レベル逆ネットワーク

MLAN: Multi-Level Adversarial Network for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2103.12991v1 )

ライセンス: Link先を確認
Jiaxing Huang, Dayan Guan, Shijian Lu, Aoran Xiao(参考訳) ドメイン適応意味セグメンテーションの最近の進歩は、教師なしドメイン適応における逆学習(al)の有効性を示している。 しかし、ほとんどの逆学習に基づく手法は、ソースとターゲットの分布をグローバルな画像レベルで調整するが、局所的な画像領域に関する矛盾は無視する。 本稿では,領域間不整合を大域画像レベルと局所領域レベルで最適に扱うことを目的とした,MLAN(Multi-level adversarial Network)を提案する。 MLANには、RL-ALとCR-ALという2つの新しい設計がある。 具体的には、RL-ALはラベル付きソースドメインの特徴空間において、プロトタイプな地域コンテキスト関係を明示的にモデル化し、敵の学習を通じて非競合対象ドメインに転送する。 CR-ALは、相互正規化により、領域レベルALと画像レベルALを最適に融合する。 さらに、入力空間(画像から画像への変換)と出力空間(自己学習)の両方においてドメイン適応を効果的に導くマルチレベル一貫性マップを設計する。 大規模な実験により、MLANは複数のデータセットで一貫して大きなマージンを持つ最先端技術よりも優れていた。

Recent progresses in domain adaptive semantic segmentation demonstrate the effectiveness of adversarial learning (AL) in unsupervised domain adaptation. However, most adversarial learning based methods align source and target distributions at a global image level but neglect the inconsistency around local image regions. This paper presents a novel multi-level adversarial network (MLAN) that aims to address inter-domain inconsistency at both global image level and local region level optimally. MLAN has two novel designs, namely, region-level adversarial learning (RL-AL) and co-regularized adversarial learning (CR-AL). Specifically, RL-AL models prototypical regional context-relations explicitly in the feature space of a labelled source domain and transfers them to an unlabelled target domain via adversarial learning. CR-AL fuses region-level AL and image-level AL optimally via mutual regularization. In addition, we design a multi-level consistency map that can guide domain adaptation in both input space ($i.e.$, image-to-image translation) and output space ($i.e.$, self-training) effectively. Extensive experiments show that MLAN outperforms the state-of-the-art with a large margin consistently across multiple datasets.
翻訳日:2021-03-25 14:01:52 公開日:2021-03-24
# 自動車走行騒音による路面異常検出のための非圧縮オートエンコーダ

Non-Compression Auto-Encoder for Detecting Road Surface Abnormality via Vehicle Driving Noise ( http://arxiv.org/abs/2103.12992v1 )

ライセンス: Link先を確認
YeongHyeon Park and JongHee Jung(参考訳) 道路事故は湿った道路によって引き起こされることがある。 道路事故を防止するため、路面無作為性の検出が有効である。 本稿では,非圧縮オートエンコーダ(NCAE)を用いたディープラーニングに基づくコスト効率の高いリアルタイム異常検出アーキテクチャを提案する。 提案するアーキテクチャは畳み込み操作による時系列情報の前方および後方因果関係を反映する。 さらに,上記のアーキテクチャは,公開異常検出モデルの実験による高い異常検出性能を示す。 NCAEは道路表面異常検出のための最先端モデルである。

Road accident can be triggered by wet road because it decreases skid resistance. To prevent the road accident, detecting road surface abnomality can be helpful. In this paper, we propose the deep learning based cost-effective real-time anomaly detection architecture, naming with non-compression auto-encoder (NCAE). The proposed architecture can reflect forward and backward causality of time series information via convolution operation. Moreover, the above architecture shows higher anomaly detection performance of published anomaly detection model via experiments. We conclude that NCAE is a cutting-edge model for road surface anomaly detection.
翻訳日:2021-03-25 14:01:29 公開日:2021-03-24
# シャドウ生成からシャドウ除去へ

From Shadow Generation to Shadow Removal ( http://arxiv.org/abs/2103.12997v1 )

ライセンス: Link先を確認
Zhihao Liu, Hui Yin, Xinyi Wu, Zhenyao Wu, Yang Mi, Song Wang(参考訳) シャドー削除は、シャドー領域のイメージコンテンツを復元することを目的としたコンピュータビジョンタスクである。 最近のシャドウ除去法のほとんどは訓練のためにシャドウフリーの画像を必要とするが、ECCV 2020ではLe and Samaras氏が、シャドウイメージからシャドウを採取して、この要件を満たさない革新的なアプローチを導入している。 しかし、そのような未完成のパッチを大量に構築するのには、依然として努力と時間を要する。 本稿では,シャドウ画像の集合とそれに対応するシャドウマスクのみを用いて,シャドウ生成を弱教師付きシャドウ除去に活用する新しいG2R-シャドウネットを提案する。 提案したG2R-ShadowNetは,それぞれシャドー生成,シャドー除去,精細化の3つのサブネットワークで構成され,エンドツーエンドで共同で訓練されている。 特に、シャドウ生成サブネットは非シャドウ領域をシャドウ領域とスタイリングし、シャドウ除去サブネットをトレーニングするためのペアデータを生成する。 istdデータセットとビデオシャドウ削除データセットに関する広範囲な実験により、提案されたg2r-shadownetが現在の芸術と競合するパフォーマンスを達成し、leとsamarsのパッチベースのシャドウ削除法を上回った。

Shadow removal is a computer-vision task that aims to restore the image content in shadow regions. While almost all recent shadow-removal methods require shadow-free images for training, in ECCV 2020 Le and Samaras introduces an innovative approach without this requirement by cropping patches with and without shadows from shadow images as training samples. However, it is still laborious and time-consuming to construct a large amount of such unpaired patches. In this paper, we propose a new G2R-ShadowNet which leverages shadow generation for weakly-supervised shadow removal by only using a set of shadow images and their corresponding shadow masks for training. The proposed G2R-ShadowNet consists of three sub-networks for shadow generation, shadow removal and refinement, respectively and they are jointly trained in an end-to-end fashion. In particular, the shadow generation sub-net stylises non-shadow regions to be shadow ones, leading to paired data for training the shadow-removal sub-net. Extensive experiments on the ISTD dataset and the Video Shadow Removal dataset show that the proposed G2R-ShadowNet achieves competitive performances against the current state of the arts and outperforms Le and Samaras' patch-based shadow-removal method.
翻訳日:2021-03-25 14:01:23 公開日:2021-03-24
# Xビュー:非エゴセントリックなマルチビュー3Dオブジェクト検出器

X-view: Non-egocentric Multi-View 3D Object Detector ( http://arxiv.org/abs/2103.13001v1 )

ライセンス: Link先を確認
Liang Xie, Guodong Xu, Deng Cai, Xiaofei He(参考訳) 自律運転のための3D物体検出アルゴリズムは、3D鳥眼ビューか視点ビューか両方から3D障害物を判断する。 最近の研究は、複数のエゴセントリックビューからのマイニングとfusingによる検出性能の向上を試みている。 エゴセントリック・パースペクティブ・ビューは鳥眼ビューの弱点を緩和するが、セクター化されたグリッド・パーティションは距離が粗くなり、ターゲットと周囲のコンテキストが混在し、特徴を識別しにくくする。 本稿では,3次元マルチビュー学習の研究を一般化し,マルチビュー手法の欠点を克服するために,x-viewと呼ばれる新しいマルチビューベース3次元検出手法を提案する。 具体的には、x-ビューは、元の点が3次元デカルト座標と一致するはずのパースペクティブビューに関する従来の制限を破る。 X-viewは、Voxel/gridベースや生点ベースであっても、ランニングタイムの少ないLiDARに基づくほぼすべての3D検出器に適用可能な一般的なパラダイムとして設計されている。 我々は,KITTIおよびNuScenesデータセットを用いて,提案したX-viewの堅牢性と有効性を示す実験を行った。 その結果、X-viewは、SECOND、PointRCNN、Part-A^2、PV-RCNNの4つの主流3D手法と組み合わせて一貫した改善が得られた。

3D object detection algorithms for autonomous driving reason about 3D obstacles either from 3D birds-eye view or perspective view or both. Recent works attempt to improve the detection performance via mining and fusing from multiple egocentric views. Although the egocentric perspective view alleviates some weaknesses of the birds-eye view, the sectored grid partition becomes so coarse in the distance that the targets and surrounding context mix together, which makes the features less discriminative. In this paper, we generalize the research on 3D multi-view learning and propose a novel multi-view-based 3D detection method, named X-view, to overcome the drawbacks of the multi-view methods. Specifically, X-view breaks through the traditional limitation about the perspective view whose original point must be consistent with the 3D Cartesian coordinate. X-view is designed as a general paradigm that can be applied on almost any 3D detectors based on LiDAR with only little increment of running time, no matter it is voxel/grid-based or raw-point-based. We conduct experiments on KITTI and NuScenes datasets to demonstrate the robustness and effectiveness of our proposed X-view. The results show that X-view obtains consistent improvements when combined with four mainstream state-of-the-art 3D methods: SECOND, PointRCNN, Part-A^2, and PV-RCNN.
翻訳日:2021-03-25 14:00:56 公開日:2021-03-24
# 視覚トランスフォーマーは自然画像なしで学習できるのか?

Can Vision Transformers Learn without Natural Images? ( http://arxiv.org/abs/2103.13023v1 )

ライセンス: Link先を確認
Kodai Nakashima, Hirokatsu Kataoka, Asato Matsumoto, Kenji Iwata and Nakamasa Inoue(参考訳) 視覚変換器(ViT)の自然画像と人名ラベルなしで事前学習を完了できるか? 事前トレーニングされたViTは、大規模なデータセットと人間による注釈付きラベルに大きく依存しているように見えるが、最近の大規模なデータセットには、プライバシ違反、不適切な公正保護、労働集約アノテーションといったいくつかの問題が含まれている。 本稿では,画像の収集やアノテーションを使わずにViTを事前訓練する。 提案手法は,SimCLRv2 や MoCov2 のような高度な自己監督学習(SSL)手法を,事前学習フェーズにおいて自然画像を用いることなく部分的に上回っていることを実験的に検証した。 さらに、自然画像なしで事前トレーニングされたViTは、ImageNetで事前トレーニングされたViTからいくつかの異なる視覚化を生成するが、自然画像データセットを広範囲に解釈することができる。 例えば、CIFAR-10データセットのパフォーマンスは以下の通りである。

Can we complete pre-training of Vision Transformers (ViT) without natural images and human-annotated labels? Although a pre-trained ViT seems to heavily rely on a large-scale dataset and human-annotated labels, recent large-scale datasets contain several problems in terms of privacy violations, inadequate fairness protection, and labor-intensive annotation. In the present paper, we pre-train ViT without any image collections and annotation labor. We experimentally verify that our proposed framework partially outperforms sophisticated Self-Supervised Learning (SSL) methods like SimCLRv2 and MoCov2 without using any natural images in the pre-training phase. Moreover, although the ViT pre-trained without natural images produces some different visualizations from ImageNet pre-trained ViT, it can interpret natural image datasets to a large extent. For example, the performance rates on the CIFAR-10 dataset are as follows: our proposal 97.6 vs. SimCLRv2 97.4 vs. ImageNet 98.0.
翻訳日:2021-03-25 14:00:28 公開日:2021-03-24
# jo-src: ノイズラベルと戦うための対比的アプローチ

Jo-SRC: A Contrastive Approach for Combating Noisy Labels ( http://arxiv.org/abs/2103.13029v1 )

ライセンス: Link先を確認
Yazhou Yao, Zeren Sun, Chuanyi Zhang, Fumin Shen, Qi Wu, Jian Zhang, and Zhenmin Tang(参考訳) ディープニューラルネットワーク(DNN)の記憶効果のため、ノイズラベルによるトレーニングは通常、モデルの性能が劣る。 既存の最先端手法は、主にサンプル選択戦略を採用しており、後続のトレーニングのために小さなサンプルを選択する。 しかしながら、以前の文献では、各ミニバッチ内でサンプル選択を行い、異なるミニバッチにおけるノイズ比の不均衡を無視する傾向がある。 また、高損失サンプルの貴重な知識は無駄にされる。 そこで本稿では,Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。 具体的には、対照的な学習方法でネットワークをトレーニングする。 各サンプルの2つの異なるビューからの予測は、クリーンまたはアウト・オブ・ディストリビューションの"いいね! さらに、整合正則化を導入してモデル一般化性能を向上させるための共同損失を提案する。 広範な実験により,既存の最先端手法に対するアプローチの優位性が検証された。

Due to the memorization effect in Deep Neural Networks (DNNs), training with noisy labels usually results in inferior model performance. Existing state-of-the-art methods primarily adopt a sample selection strategy, which selects small-loss samples for subsequent training. However, prior literature tends to perform sample selection within each mini-batch, neglecting the imbalance of noise ratios in different mini-batches. Moreover, valuable knowledge within high-loss samples is wasted. To this end, we propose a noise-robust approach named Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency). Specifically, we train the network in a contrastive learning manner. Predictions from two different views of each sample are used to estimate its "likelihood" of being clean or out-of-distribution. Furthermore, we propose a joint loss to advance the model generalization performance by introducing consistency regularization. Extensive experiments have validated the superiority of our approach over existing state-of-the-art methods.
翻訳日:2021-03-25 14:00:13 公開日:2021-03-24
# 部品ラベルのない3次元形状の微粒化学習

Learning Fine-Grained Segmentation of 3D Shapes without Part Labels ( http://arxiv.org/abs/2103.13030v1 )

ライセンス: Link先を確認
Xiaogang Wang, Xun Sun, Xinyu Cao, Kai Xu, Bin Zhou(参考訳) 学習に基づく3d形状セグメンテーションは、通常、トレーニング形状のすべての部分が所定のタグセットでアノテートされていると仮定して、意味的なラベリング問題として定式化される。 しかし、この仮定はきめ細かいセグメンテーションを学ぶには実用的ではない。 市販のCADモデルの多くは、構成上は細かな部分で構成されているが、通常はセマンティックタグを見逃し、細かな部分をラベル付けするのは非常に面倒である。 深層クラスタリング(deep clustering)の問題にアプローチする。ここでは,粒度の細かいセグメンテーションを持つ形状データセットから,部分ラベルを持たない部分先行を学習する。 与えられた点が3次元形状をサンプリングし,類似度行列を持つ点のクラスタリング前後をモデル化し,新しい低ランク損失を最小化することで部分分割を実現する。 高度にサンプリングされた点集合を扱うために、分割・対数戦略を採用する。 我々は大きな点をいくつかのブロックに分割する。 各ブロックは、カテゴリに依存しない方法でトレーニングされたディープクラスタベースの事前ネットワークを使用してセグメント化される。 次に、グラフ畳み込みネットワークをトレーニングし、すべてのブロックのセグメントをマージして最終的なセグメンテーション結果を生成する。 提案手法は,最先端性能を示す細粒度セグメンテーションの挑戦的なベンチマークを用いて評価する。

Learning-based 3D shape segmentation is usually formulated as a semantic labeling problem, assuming that all parts of training shapes are annotated with a given set of tags. This assumption, however, is impractical for learning fine-grained segmentation. Although most off-the-shelf CAD models are, by construction, composed of fine-grained parts, they usually miss semantic tags and labeling those fine-grained parts is extremely tedious. We approach the problem with deep clustering, where the key idea is to learn part priors from a shape dataset with fine-grained segmentation but no part labels. Given point sampled 3D shapes, we model the clustering priors of points with a similarity matrix and achieve part segmentation through minimizing a novel low rank loss. To handle highly densely sampled point sets, we adopt a divide-and-conquer strategy. We partition the large point set into a number of blocks. Each block is segmented using a deep-clustering-base d part prior network trained in a category-agnostic manner. We then train a graph convolution network to merge the segments of all blocks to form the final segmentation result. Our method is evaluated with a challenging benchmark of fine-grained segmentation, showing state-of-the-art performance.
翻訳日:2021-03-25 13:59:57 公開日:2021-03-24
# 測光アライメントとカテゴリ中心正則化を用いた粗細領域適応意味セグメンテーション

Coarse-to-Fine Domain Adaptive Semantic Segmentation with Photometric Alignment and Category-Center Regularization ( http://arxiv.org/abs/2103.13041v1 )

ライセンス: Link先を確認
Haoyu Ma, Xiangru Lin, Zifeng Wu, Yizhou Yu(参考訳) セマンティックセグメンテーションにおける教師なしドメイン適応(UDA)は、退屈なアノテーション作業の必要性を緩和する基本的かつ有望なタスクである。 しかし、このタスクにおけるドメインシフト/分散問題は、最終的なセグメンテーション性能を損なう。 以上より,領域シフトの主な原因は,画像レベルの領域シフトと呼ばれる画像条件の違いと,カテゴリレベルの領域シフトと呼ばれるオブジェクトカテゴリ構成の違いである。 本稿では,画像レベルのアライメントとカテゴリレベルの特徴分布の正規化を粗い方法で統一する新しいUDAパイプラインを提案する。 具体的には、粗い側では、画像レベルの演算子を用いて、ソースドメイン内の画像と対象ドメインからの参照画像とを整列する測光アライメントモジュールを提案し、細部では、ソースドメイン内のカテゴリ中心を正則化するためのソフト制約を課すカテゴリ指向の三重項損失と、ターゲットドメイン内の自己監督整合正則化法を提案する。 実験の結果,提案パイプラインは最終セグメンテーションモデルの一般化能力が向上し,従来よりも大幅に向上することがわかった。

Unsupervised domain adaptation (UDA) in semantic segmentation is a fundamental yet promising task relieving the need for laborious annotation works. However, the domain shifts/discrepancies problem in this task compromise the final segmentation performance. Based on our observation, the main causes of the domain shifts are differences in imaging conditions, called image-level domain shifts, and differences in object category configurations called category-level domain shifts. In this paper, we propose a novel UDA pipeline that unifies image-level alignment and category-level feature distribution regularization in a coarse-to-fine manner. Specifically, on the coarse side, we propose a photometric alignment module that aligns an image in the source domain with a reference image from the target domain using a set of image-level operators; on the fine side, we propose a category-oriented triplet loss that imposes a soft constraint to regularize category centers in the source domain and a self-supervised consistency regularization method in the target domain. Experimental results show that our proposed pipeline improves the generalization capability of the final segmentation model and significantly outperforms all previous state-of-the-arts.
翻訳日:2021-03-25 13:59:36 公開日:2021-03-24
# MSCFNet: リアルタイムセマンティックセグメンテーションのためのマルチスケールコンテキストフュージョンを用いた軽量ネットワーク

MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for Real-Time Semantic Segmentation ( http://arxiv.org/abs/2103.13044v1 )

ライセンス: Link先を確認
Guangwei Gao, Guoan Xu, Yi Yu, Jin Xie, Jian Yang, Dong Yue(参考訳) 近年,自律走行システムやドローンなどの現実のシナリオにおいて重要な役割を果たすリアルタイムセマンティックセグメンテーションアプリケーションにおいて,精度と推論速度の良好なトレードオフを実現する方法が課題となっている。 本研究では,非対称エンコーダ・デコーダアーキテクチャを探索し,マルチスケールコンテキスト融合(MSCFNet)方式を用いた新しい軽量ネットワークを提案する。 より具体的には、エンコーダは分解の深さ方向の畳み込みと拡張畳み込みからなる効率の良い非対称残差(ear)モジュールを採用する。 一方、複雑な計算の代わりにデコーダに単純なデコンボリューションを適用し、高いセグメンテーション精度を維持しながらパラメータの量をさらに削減する。 また、MSCFNetはネットワークの異なるステージからの効率的な注意モジュールを持つブランチを持ち、マルチスケールのコンテキスト情報をうまくキャプチャする。 そして、これらを最終分類の前に組み合わせて特徴の表現を高め、セグメンテーション効率を向上させる。 挑戦的なデータセットに関する総合的な実験によると、提案されているMSCFNetは、たった1.15Mパラメータしか含んでおらず、Cityscapesのテストデータセットで71.9\%のMean IoUを達成し、1つのTitan XP GPU構成で50FPS以上で実行できる。

In recent years, how to strike a good trade-off between accuracy and inference speed has become the core issue for real-time semantic segmentation applications, which plays a vital role in real-world scenarios such as autonomous driving systems and drones. In this study, we devise a novel lightweight network using a multi-scale context fusion (MSCFNet) scheme, which explores an asymmetric encoder-decoder architecture to dispose this problem. More specifically, the encoder adopts some developed efficient asymmetric residual (EAR) modules, which are composed of factorization depth-wise convolution and dilation convolution. Meanwhile, instead of complicated computation, simple deconvolution is applied in the decoder to further reduce the amount of parameters while still maintaining high segmentation accuracy. Also, MSCFNet has branches with efficient attention modules from different stages of the network to well capture multi-scale contextual information. Then we combine them before the final classification to enhance the expression of the features and improve the segmentation efficiency. Comprehensive experiments on challenging datasets have demonstrated that the proposed MSCFNet, which contains only 1.15M parameters, achieves 71.9\% Mean IoU on the Cityscapes testing dataset and can run at over 50 FPS on a single Titan XP GPU configuration.
翻訳日:2021-03-25 13:59:15 公開日:2021-03-24
# 階層型トランスフォーマーと自己教師付き学習によるクロスモーダルレシピ検索の改良

Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning ( http://arxiv.org/abs/2103.13061v1 )

ライセンス: Link先を確認
Amaia Salvador, Erhan Gundogdu, Loris Bazzani, Michael Donoser(参考訳) クロスモーダルレシピ検索は最近、人々の生活における食品の重要性と、機械学習モデルのトレーニングに膨大な量のデジタル料理レシピと食品イメージが利用可能であることから、大きな注目を集めている。 本稿では,既存のクロスモーダルレシピ検索手法を再考し,テキストや画像のエンコーダの確立・高性能化に基づく,エンド・ツー・エンドの簡易モデルを提案する。 本稿では,個々のレシピ要素(タイトル,材料,指示)を注意深くエンコードする階層的レシピトランスフォーマを提案する。 さらに,レシピ内の意味的関係を活用でき,イメージレシピとレシピのみのサンプルを併用したトレーニングを可能にする,個別のレシピコンポーネントのペア上で計算された自己教師付き損失関数を提案する。 デザインの選択を検証するために、徹底的な分析とアブレーション研究を行います。 その結果,提案手法はRecipe1Mデータセット上でのクロスモーダルレシピ検索タスクにおける最先端性能を実現する。 コードとモデルを公開しています。

Cross-modal recipe retrieval has recently gained substantial attention due to the importance of food in people's lives, as well as the availability of vast amounts of digital cooking recipes and food images to train machine learning models. In this work, we revisit existing approaches for cross-modal recipe retrieval and propose a simplified end-to-end model based on well established and high performing encoders for text and images. We introduce a hierarchical recipe Transformer which attentively encodes individual recipe components (titles, ingredients and instructions). Further, we propose a self-supervised loss function computed on top of pairs of individual recipe components, which is able to leverage semantic relationships within recipes, and enables training using both image-recipe and recipe-only samples. We conduct a thorough analysis and ablation studies to validate our design choices. As a result, our proposed method achieves state-of-the-art performance in the cross-modal recipe retrieval task on the Recipe1M dataset. We make code and models publicly available.
翻訳日:2021-03-25 13:58:50 公開日:2021-03-24
# 非構造化運転シナリオのための細粒度データセットとその効率的なセマンティクスセグメンテーション

A Fine-Grained Dataset and its Efficient Semantic Segmentation for Unstructured Driving Scenarios ( http://arxiv.org/abs/2103.13109v1 )

ライセンス: Link先を確認
Kai A. Metzger, Peter Mortimer, Hans-Joachim Wuensche(参考訳) 非構造化環境における自動運転の研究は、都市と比べ意味的にラベル付けされたデータセットの欠如に苦しむ。 都市や非構造な屋外環境は、日や季節によって照明や天候が変化するため、困難である。 本稿では,非構造環境における自律運転のためのセマンティックセグメンテーションデータセットであるTAS500を紹介する。 TAS500は、屋外のシーンで乾燥可能な表面と自然の障害物を効果的に学習するために、きめ細かい植生と地形のクラスを提供する。 我々は,現代セマンティックセグメンテーションモデルの性能評価を行い,その効率性に着目した。 本実験は,特にクラス境界に沿った全体的な予測精度を向上させるための,きめ細かな意味クラスの利点を実証する。 データセットと事前訓練されたモデルはmucar3.de/icpr2020-t as500で利用可能である。

Research in autonomous driving for unstructured environments suffers from a lack of semantically labeled datasets compared to its urban counterpart. Urban and unstructured outdoor environments are challenging due to the varying lighting and weather conditions during a day and across seasons. In this paper, we introduce TAS500, a novel semantic segmentation dataset for autonomous driving in unstructured environments. TAS500 offers fine-grained vegetation and terrain classes to learn drivable surfaces and natural obstacles in outdoor scenes effectively. We evaluate the performance of modern semantic segmentation models with an additional focus on their efficiency. Our experiments demonstrate the advantages of fine-grained semantic classes to improve the overall prediction accuracy, especially along the class boundaries. The dataset and pretrained model are available at mucar3.de/icpr2020-t as500.
翻訳日:2021-03-25 13:58:34 公開日:2021-03-24
# 精度・ロバスト予測のための逆特徴重み付け

Adversarial Feature Stacking for Accurate and Robust Predictions ( http://arxiv.org/abs/2103.13124v1 )

ライセンス: Link先を確認
Faqiang Liu, Rong Zhao, Luping Shi(参考訳) ディープニューラルネットワーク(DNN)は、様々なアプリケーションで顕著な性能を達成したが、敵の摂動に対して非常に脆弱である。 この問題に対処するため,モデルロバスト性を高めるために,様々な防御手法が提案されている。 残念なことに、最も代表的で有望な方法、例えば敵対的なトレーニングやその変種は、通常、実効性を制限し、良質なサンプルのモデルの精度を低下させる。 これは、限られたトレーニングデータなど、特定の条件下で単一のネットワークを使用してロバストかつ正確な特徴を抽出することが困難であり、その結果、正確性とロバスト性の間のトレードオフが生じることを示している。 この問題に対処するため,我々は,ロバスト性と精度のレベルが異なる特徴を協調的に活用し,上記のトレードオフを大幅に緩和できるadversarial feature stacking (afs)モデルを提案する。 具体的には、異なる摂動予算で敵対的に訓練された複数のネットワークを採用し、より堅牢な特徴やより正確な特徴を抽出する。 これらの特徴は、最終的な予測をするために学習可能な合併によって融合される。 我々は,CIFAR-10およびCIFAR-100データセットのAFSモデルに対して,強い適応攻撃手法を用いて評価を行い,トレードオフの観点から最先端の手法を著しく向上させる。 余分なトレーニングデータがないと、afsモデルはcifar-10では6%、cifar-100では9%の精度向上を達成でき、最先端の対向訓練法と同等あるいはそれ以上の堅牢性が得られる。 本研究は,限られたトレーニングデータを用いて,正確かつ堅牢なモデルを得ることが可能であることを示す。

Deep Neural Networks (DNNs) have achieved remarkable performance on a variety of applications but are extremely vulnerable to adversarial perturbation. To address this issue, various defense methods have been proposed to enhance model robustness. Unfortunately, the most representative and promising methods, such as adversarial training and its variants, usually degrade model accuracy on benign samples, limiting practical utility. This indicates that it is difficult to extract both robust and accurate features using a single network under certain conditions, such as limited training data, resulting in a trade-off between accuracy and robustness. To tackle this problem, we propose an Adversarial Feature Stacking (AFS) model that can jointly take advantage of features with varied levels of robustness and accuracy, thus significantly alleviating the aforementioned trade-off. Specifically, we adopt multiple networks adversarially trained with different perturbation budgets to extract either more robust features or more accurate features. These features are then fused by a learnable merger to give final predictions. We evaluate the AFS model on CIFAR-10 and CIFAR-100 datasets with strong adaptive attack methods, which significantly advances the state-of-the-art in terms of the trade-off. Without extra training data, the AFS model achieves a benign accuracy improvement of 6% on CIFAR-10 and 9% on CIFAR-100 with comparable or even stronger robustness than the state-of-the-art adversarial training methods. This work demonstrates the feasibility to obtain both accurate and robust models under the circumstances of limited training data.
翻訳日:2021-03-25 13:58:24 公開日:2021-03-24
# 外観に基づく視線推定の脆弱性

Vulnerability of Appearance-based Gaze Estimation ( http://arxiv.org/abs/2103.13134v1 )

ライセンス: Link先を確認
Mingjie Xu, Haofei Wang, Yunfei Liu, Feng Lu(参考訳) 外観に基づく視線推定はディープラーニングを用いて大幅に改善されている。 しかし、多くの深層学習に基づく手法は脆弱性特性、すなわちノイズを用いた生画像の摂動に悩まされ、視線推定モデルが混乱する。 摂動画像は元の画像と視覚的に似ているが、視線推定モデルは間違った視線方向を出力する。 本稿では,外観に基づく視線推定の脆弱性について検討する。 我々の知る限りでは、視線推定の脆弱性が見つかったのはこれが初めてである。 我々は,複数の側面,画素ベースの対向攻撃,パッチベースの対向攻撃,防衛戦略から,脆弱性特性を体系的に特徴づけた。 実験の結果,CA-Netは外見に基づく視線推定ネットワークであるFull-Face, Gaze-Net, CA-Net, RT-GENEにおいて,攻撃に対する優れた性能を示すことがわかった。 本研究では,外見に基づく視線推定コミュニティの研究者の注意を敵攻撃からの防御に向ける。

Appearance-based gaze estimation has achieved significant improvement by using deep learning. However, many deep learning-based methods suffer from the vulnerability property, i.e., perturbing the raw image using noise confuses the gaze estimation models. Although the perturbed image visually looks similar to the original image, the gaze estimation models output the wrong gaze direction. In this paper, we investigate the vulnerability of appearance-based gaze estimation. To our knowledge, this is the first time that the vulnerability of gaze estimation to be found. We systematically characterized the vulnerability property from multiple aspects, the pixel-based adversarial attack, the patch-based adversarial attack and the defense strategy. Our experimental results demonstrate that the CA-Net shows superior performance against attack among the four popular appearance-based gaze estimation networks, Full-Face, Gaze-Net, CA-Net and RT-GENE. This study draws the attention of researchers in the appearance-based gaze estimation community to defense from adversarial attacks.
翻訳日:2021-03-25 13:57:56 公開日:2021-03-24
# 時間的行動提案リファインメントのための時間的文脈集約ネットワーク

Temporal Context Aggregation Network for Temporal Action Proposal Refinement ( http://arxiv.org/abs/2103.13141v1 )

ライセンス: Link先を確認
Zhiwu Qing, Haisheng Su, Weihao Gan, Dongliang Wang, Wei Wu, Xiang Wang, Yu Qiao, Junjie Yan, Changxin Gao, Nong Sang(参考訳) 時間的行動提案生成は、ビデオ理解分野では難しいが重要な課題である未編集ビデオにおける時間的行動間隔を推定することを目的としている。 現在の手法による提案は、効率的な時間的モデリングと効果的な境界コンテキスト利用の欠如により、いまだに不正確な時間的境界と検索に使用される不確かさに悩まされている。 本稿では,「局所的かつ大域的」な時間的コンテキストアグリゲーションと相補的および漸進的境界改善による高品質な行動提案を生成するための時間的コンテキストアグリゲーションネットワーク(tcanet)を提案する。 具体的には、まずローカル・グローバル・テンポラル・エンコーダ(LGTE)を設計し、チャネルグループ化戦略を用いて「ローカル・グローバル」時間的相互依存を効率的に符号化する。 さらに,提案手法の境界と内部コンテキストをそれぞれフレームレベルとセグメントレベルの境界回帰に適用した。 時間境界回帰器(TBR)は、これら2つの回帰粒度をエンドツーエンドに組み合わせて設計されており、プロポーザルの正確な境界と信頼性を実現する。 大規模な実験は、HACS、ActivityNet-v1.3、THUMOS-14の3つの挑戦的なデータセットで実施されている。 既存の動作分類器と組み合わせることで、TCANetは他の方法と比較して顕著な時間的動作検出性能を得ることができる。 当然のことながら、提案されたTCANetはCVPR 2020の1$^{st}$で、時間的行動ローカライゼーションタスクにおけるHACSのリーダーボードに挑戦した。

Temporal action proposal generation aims to estimate temporal intervals of actions in untrimmed videos, which is a challenging yet important task in the video understanding field. The proposals generated by current methods still suffer from inaccurate temporal boundaries and inferior confidence used for retrieval owing to the lack of efficient temporal modeling and effective boundary context utilization. In this paper, we propose Temporal Context Aggregation Network (TCANet) to generate high-quality action proposals through "local and global" temporal context aggregation and complementary as well as progressive boundary refinement. Specifically, we first design a Local-Global Temporal Encoder (LGTE), which adopts the channel grouping strategy to efficiently encode both "local and global" temporal inter-dependencies. Furthermore, both the boundary and internal context of proposals are adopted for frame-level and segment-level boundary regressions, respectively. Temporal Boundary Regressor (TBR) is designed to combine these two regression granularities in an end-to-end fashion, which achieves the precise boundaries and reliable confidence of proposals through progressive refinement. Extensive experiments are conducted on three challenging datasets: HACS, ActivityNet-v1.3, and THUMOS-14, where TCANet can generate proposals with high precision and recall. By combining with the existing action classifier, TCANet can obtain remarkable temporal action detection performance compared with other methods. Not surprisingly, the proposed TCANet won the 1$^{st}$ place in the CVPR 2020 - HACS challenge leaderboard on temporal action localization task.
翻訳日:2021-03-25 13:57:41 公開日:2021-03-24
# m3dssd:単眼3d単段物体検出器

M3DSSD: Monocular 3D Single Stage Object Detector ( http://arxiv.org/abs/2103.13164v1 )

ライセンス: Link先を確認
Shujie Luo, Hang Dai, Ling Shao, Yong Ding(参考訳) 本稿では,特徴アライメントと非対称非局所的注意を有する単分子3次元単段物体検出器(M3DSSD)を提案する。 現状のアンカー型モノクロ3次元物体検出法は, 特徴ミスマッチに悩まされている。 これを解決するために,2段階の機能アライメント手法を提案する。 第1ステップでは、形状アライメントを行い、高信頼度で予め定義されたアンカーに特徴マップの受容場を集中させることができる。 第2のステップでは、センターアライメントを使用して、2D/3Dセンターで機能をアライメントする。 さらに、オブジェクトの深度予測において重要な、グローバルな情報を学び、長距離関係を捉えることはしばしば困難である。 そこで本研究では,多スケールサンプリングによる非対称非局所アテンションブロックを提案する。 提案したM3DSSDは,KITTIデータセット上の単眼の3Dオブジェクト検出手法よりも,鳥の目視と3Dオブジェクト検出の両方において,はるかに優れた性能を実現する。

In this paper, we propose a Monocular 3D Single Stage object Detector (M3DSSD) with feature alignment and asymmetric non-local attention. Current anchor-based monocular 3D object detection methods suffer from feature mismatching. To overcome this, we propose a two-step feature alignment approach. In the first step, the shape alignment is performed to enable the receptive field of the feature map to focus on the pre-defined anchors with high confidence scores. In the second step, the center alignment is used to align the features at 2D/3D centers. Further, it is often difficult to learn global information and capture long-range relationships, which are important for the depth prediction of objects. Therefore, we propose a novel asymmetric non-local attention block with multi-scale sampling to extract depth-wise features. The proposed M3DSSD achieves significantly better performance than the monocular 3D object detection methods on the KITTI dataset, in both 3D object detection and bird's eye view tasks.
翻訳日:2021-03-25 13:57:15 公開日:2021-03-24
# PureGaze: 一般化可能な Gaze 推定のための Gaze 機能

PureGaze: Purifying Gaze Feature for Generalizable Gaze Estimation ( http://arxiv.org/abs/2103.13173v1 )

ライセンス: Link先を確認
Yihua Cheng, Yiwei Bao, Feng Lu(参考訳) 視線推定法は顔の特徴から視線を学習する。 しかし、顔画像の豊かな情報のうち、実際の視線関連特徴は目領域の微妙な変化にのみ対応し、照明、個人的外観、さらには表情など他の視線関連特徴は予期せぬ方法で学習に影響を与える可能性がある。 これは、既存メソッドがクロスドメイン/データセット評価において大幅なパフォーマンス劣化を示す大きな理由である。 本稿では,未知対象領域に対するクロスドメイン視線推定における領域一般化問題に取り組む。 具体的には,視線特徴の浄化による領域一般化を実現する。 照度やアイデンティティといった視線関係の要因を取り除き、対象のデータセットを知らずにクロスデータセットのパフォーマンスを向上させる。 我々は視線特徴浄化のためのプラグ・アンド・プレイ・セルフ・アドバーサル・フレームワークを設計した。 本フレームワークは,我々の基準線だけでなく,既存の視線推定手法を直接的かつ著しく拡張する。 提案手法は,異なるベンチマークにおける最先端性能を実現する。 一方、精製は可視化により容易に説明できる。

Gaze estimation methods learn eye gaze from facial features. However, among rich information in the facial image, real gaze-relevant features only correspond to subtle changes in eye region, while other gaze-irrelevant features like illumination, personal appearance and even facial expression may affect the learning in an unexpected way. This is a major reason why existing methods show significant performance degradation in cross-domain/dataset evaluation. In this paper, we tackle the domain generalization problem in cross-domain gaze estimation for unknown target domains. To be specific, we realize the domain generalization by gaze feature purification. We eliminate gaze-irrelevant factors such as illumination and identity to improve the cross-dataset performance without knowing the target dataset. We design a plug-and-play self-adversarial framework for the gaze feature purification. The framework enhances not only our baseline but also existing gaze estimation methods directly and significantly. Our method achieves the state-of-the-art performance in different benchmarks. Meanwhile, the purification is easily explainable via visualization.
翻訳日:2021-03-25 13:56:59 公開日:2021-03-24
# 未公開映像における未収録背景の祝福

The Blessings of Unlabeled Background in Untrimmed Videos ( http://arxiv.org/abs/2103.13183v1 )

ライセンス: Link先を確認
Yuan Liu, Jingyuan Chen, Zhenfang Chen, Bing Deng, Jianqiang Huang, Hanwang Zhang(参考訳) WTAL(Weakly-supervis ed Temporal Action Localization)は、トレーニング中に利用可能なビデオレベルのアクションラベルのみを使用して、アクションインスタンスの間隔を検出することを目的としている。 重要な課題は、ビデオレベルにおいても、バックグラウンドセグメントと関心セグメントを区別する方法だ。 以前の作品では背景を"curses"として扱っていたが、私たちはそれを"blessings"と捉えている。 具体的には、まず因果解析を用いて、一般的なローカライゼーションエラーは、視覚認識においてユビキタスに存在する、観測されていない、列挙されていない共同創設者によるものである、と指摘する。 そこで,提案する時間的平滑化pca-based (ts-pca) デコンビネータは,既定の背景を利用してコンビネータの代替をモデル化し,コンビネータのコンビネータ効果を除去している。 提案したデコンファウンダはモデルに依存しない非侵襲的であり、従って任意のWTAL法に適用できる。 最先端の4つのwtalメソッドに関する広範な実験を通じて、deconfounderが公開データセットであるthums-14とactivitynet-1.3でこれらすべてを改善できることを実証する。

Weakly-supervised Temporal Action Localization (WTAL) aims to detect the intervals of action instances with only video-level action labels available during training. The key challenge is how to distinguish the segments of interest from the background segments, which are unlabelled even on the video-level. While previous works treat the background as "curses", we consider it as "blessings". Specifically, we first use causal analysis to point out that the common localization errors are due to the unobserved and un-enumerated confounder that resides ubiquitously in visual recognition. Then, we propose a Temporal Smoothing PCA-based (TS-PCA) deconfounder, which exploits the unlabelled background to model an observed substitute for the confounder, to remove the confounding effect. Note that the proposed deconfounder is model-agnostic and non-intrusive, and hence can be applied in any WTAL method without modification. Through extensive experiments on four state-of-the-art WTAL methods, we show that the deconfounder can improve all of them on the public datasets: THUMOS-14 and ActivityNet-1.3.
翻訳日:2021-03-25 13:56:45 公開日:2021-03-24
# DRO:Structure-from-M otionのためのディープリカレント最適化

DRO: Deep Recurrent Optimizer for Structure-from-Motio n ( http://arxiv.org/abs/2103.13201v1 )

ライセンス: Link先を確認
Xiaodong Gu, Weihao Yuan, Zuozhuo Dai, Siyu Zhu, Chengzhou Tang, Ping Tan(参考訳) sfm(structure-from-m otion)問題を機械学習技術で研究する関心が高まっている。 より最近の研究では、画像から深度マップやカメラポーズへのマッピングを直接学習する一方で、学習フレームワークに最適化を組み込んだマルチビュー幾何が適用されている。 本稿では、SfMにおけるニューラルネットワークの可能性をさらに活用するために、リカレントニューラルネットワークに基づく新しい最適化手法を提案する。 私たちのニューラルオプティマイザは奥行きを更新し、カメラはイテレーションを通じて機能測定コストを最小化します。 2つのゲートリカレントユニットは、イテレーション中に履歴情報を追跡するように設計されている。 我々のネットワークはゼロ階最適化として機能し、計算とメモリコストのかかるボリュームや勾配を避ける。 実験により, 繰り返しオプティマイザは, 深度とポーズを改良しながら, 機能測定コストを効果的に低減できることを示した。 提案手法は従来の手法より優れており,コストボリューム法よりも計算とメモリ消費が効率的である。 私たちのメソッドのコードは公開されます。

There are increasing interests of studying the structure-from-motio n (SfM) problem with machine learning techniques. While earlier methods directly learn a mapping from images to depth maps and camera poses, more recent works enforce multi-view geometry through optimization embed in the learning framework. This paper presents a novel optimization method based on recurrent neural networks to further exploit the potential of neural networks in SfM. Our neural optimizer alternatively updates the depth and camera poses through iterations to minimize a feature-metric cost. Two gated recurrent units are designed to trace the historical information during the iterations. Our network works as a zeroth-order optimizer, where the computation and memory expensive cost volume or gradients are avoided. Experiments demonstrate that our recurrent optimizer effectively reduces the feature-metric cost while refining the depth and poses. Our method outperforms previous methods and is more efficient in computation and memory consumption than cost-volume-based methods. The code of our method will be made public.
翻訳日:2021-03-25 13:56:25 公開日:2021-03-24
# Nodes$\bf{10^{7}}を持つ大規模グラフ上の構造を考慮した顔クラスタリング

Structure-Aware Face Clustering on a Large-Scale Graph with $\bf{10^{7}}$ Nodes ( http://arxiv.org/abs/2103.13225v1 )

ライセンス: Link先を確認
Shuai Shen, Wanhua Li, Zheng Zhu, Guan Huang, Dalong Du, Jiwen Lu, Jie Zhou(参考訳) 顔クラスタリングは、ラベルのない顔画像に注釈を付ける有望な方法である。 最近の教師付きアプローチは、顔クラスタリングの精度を大幅に向上させたが、その性能はまだ十分ではない。 これらの手法は、大まかにグローバルベースとローカルベースに分けられる。 グローバルベースの手法は、トレーニングデータスケールの制限に苦しむ一方で、ローカルベースの手法では、グラフ構造情報全体の把握が難しく、通常は推論に時間がかかります。 以前のアプローチでは,これら2つの課題を同時に取り組まなかった。 大規模トレーニングと効率的な推論のジレンマに対処するために,STructure-AwaRe Face Clustering (STAR-FC)法を提案する。 具体的には、大規模トレーニングデータのパワーを探索するために、構造保存されたサブグラフサンプリング戦略を設計し、トレーニングデータスケールを${10^{5}}$から${10^{7}}$に拡大する。 推論中、star-fcはグラフ解析とグラフリファインメントの2ステップで効率的なフルグラフクラスタリングを実行する。 ノード親密性の概念は、局所構造情報をマイニングする第2ステップで導入される。 STAR-FCは310秒以内に部分的なMS1Mで91.97Fスコアを得る。 さらに,我々は,2000万ノードからなる大規模グラフのトレーニングを初めて行い,12Mテストデータに対して優れた推測結果を得た。 全体として、シンプルで効果的な方法として、提案したSTAR-FCは大規模な顔クラスタリングのための強力なベースラインを提供する。 コードは \url{https://sstzal.githu b.io/STAR-FC/} で入手できる。

Face clustering is a promising method for annotating unlabeled face images. Recent supervised approaches have boosted the face clustering accuracy greatly, however their performance is still far from satisfactory. These methods can be roughly divided into global-based and local-based ones. Global-based methods suffer from the limitation of training data scale, while local-based ones are difficult to grasp the whole graph structure information and usually take a long time for inference. Previous approaches fail to tackle these two challenges simultaneously. To address the dilemma of large-scale training and efficient inference, we propose the STructure-AwaRe Face Clustering (STAR-FC) method. Specifically, we design a structure-preserved subgraph sampling strategy to explore the power of large-scale training data, which can increase the training data scale from ${10^{5}}$ to ${10^{7}}$. During inference, the STAR-FC performs efficient full-graph clustering with two steps: graph parsing and graph refinement. And the concept of node intimacy is introduced in the second step to mine the local structural information. The STAR-FC gets 91.97 pairwise F-score on partial MS1M within 310s which surpasses the state-of-the-arts. Furthermore, we are the first to train on very large-scale graph with 20M nodes, and achieve superior inference results on 12M testing data. Overall, as a simple and effective method, the proposed STAR-FC provides a strong baseline for large-scale face clustering. Code is available at \url{https://sstzal.githu b.io/STAR-FC/}.
翻訳日:2021-03-25 13:56:11 公開日:2021-03-24
# ネットワークコード伝達による多用途ニューラルネットワークの学習

Learning Versatile Neural Architectures by Propagating Network Codes ( http://arxiv.org/abs/2103.13253v1 )

ライセンス: Link先を確認
Mingyu Ding, Yuqi Huo, Haoyu Lu, Linjie Yang, Zhe Wang, Zhiwu Lu, Jingdong Wang, Ping Luo(参考訳) 本研究は,画像分割,3次元検出,映像認識など,コンピュータビジョンの複数の異種タスクに適応可能な単一ニューラルネットワークの設計方法について検討する。 異なるタスクにおけるネットワークアーキテクチャ設計が矛盾するため、この目標は難しい。 我々は、アーキテクチャの性能を複数のデータセットやタスクで予測できる新しい「神経予測器」であるNetwork Coding Propagation (NCP)を提案することで、この課題を解決する。 通常1つのタスクにフォーカスする従来のニューラルネットワークサーチ(NAS)とは異なり、NCPにはいくつかのユニークな利点がある。 1) ncpはnas-bench-201やnas-bench-mrといった様々なnasベンチマークでトレーニングすることができる。 2) ncpは、ネットワークコードから学習するが、オリジナルデータではないため、データセットをまたいで効率的にアーキテクチャを更新することができる。 3) 対象分類, 検出, セグメンテーション, ビデオ認識におけるNCPの評価を行った。 例えば、17\%のFLOPでは、NCPが返却した単一のアーキテクチャは、ImageNet-50-1000とCityscapesでそれぞれ86\%と77.16\%を達成した。 さらに興味深いことに、NCPは画像のセグメンテーションとビデオ認識の両方に適用可能な単一のアーキテクチャを実現し、単一のアーキテクチャと比較してHMDB51とADE20Kの競合性能を実現している。 コードはhttps://github.com/d ingmyu/NCP}{https://github.com/d ingmyu/NCPで入手できる。

This work explores how to design a single neural network that is capable of adapting to multiple heterogeneous tasks of computer vision, such as image segmentation, 3D detection, and video recognition. This goal is challenging because network architecture designs in different tasks are inconsistent. We solve this challenge by proposing Network Coding Propagation (NCP), a novel "neural predictor", which is able to predict an architecture's performance in multiple datasets and tasks. Unlike prior arts of neural architecture search (NAS) that typically focus on a single task, NCP has several unique benefits. (1) NCP can be trained on different NAS benchmarks, such as NAS-Bench-201 and NAS-Bench-MR, which contains a novel network space designed by us for jointly searching an architecture among multiple tasks, including ImageNet, Cityscapes, KITTI, and HMDB51. (2) NCP learns from network codes but not original data, enabling it to update the architecture efficiently across datasets. (3) Extensive experiments evaluate NCP on object classification, detection, segmentation, and video recognition. For example, with 17\% fewer FLOPs, a single architecture returned by NCP achieves 86\% and 77.16\% on ImageNet-50-1000 and Cityscapes respectively, outperforming its counterparts. More interestingly, NCP enables a single architecture applicable to both image segmentation and video recognition, which achieves competitive performance on both HMDB51 and ADE20K compared to the singular counterparts. Code is available at https://github.com/d ingmyu/NCP}{https://github.com/d ingmyu/NCP.
翻訳日:2021-03-25 13:55:46 公開日:2021-03-24
# 動的スリム化ネットワーク

Dynamic Slimmable Network ( http://arxiv.org/abs/2103.13258v1 )

ライセンス: Link先を確認
Changlin Li, Guangrun Wang, Bing Wang, Xiaodan Liang, Zhihui Li and Xiaojun Chang(参考訳) 現在の動的ネットワークと動的プルーニング手法は、理論計算の複雑さを減らす上で有望な能力を示している。 しかし、畳み込みフィルタの動的スパースパターンは、インデックス付け、重み付け、ゼロマスクの余計な負担のため、実世界の実装で実際の加速を達成することができない。 そこで我々は,動的スリム化システムであるDynamic Slimmable Network (DS-Net)について検討する。これは,異なる入力に対して,テスト時のネットワークのフィルタ数を動的に調整し,ハードウェアに静的かつ連続的に保存し,余分な負担を回避することにより,優れたハードウェア効率を実現することを目的としている。 ds-netは,注意ヘッドとスリム化ヘッドからなる,提案するダブルヘッド動的ゲートによる動的推論能力により,ネットワーク幅を予測的に調整し,余分な計算コストを無視できる。 各候補アーキテクチャの汎用性とゲートの公平性を確保するため,単発nasに触発された2段階のトレーニング方式を提案する。 第1段階では、スーパーネットトレーニングの有効性を改善するために、In-place Ensemble Bootstrappingと呼ばれる新しいウェイトシェアリングネットワークのトレーニング手法を提案する。 第2段階では、簡単でハードなサンプルをオンラインで識別することでゲートトレーニングを支援するため、サンドイッチゲートスパーシフィケーションが提案されている。 大規模な実験では、DS-Netは静的圧縮法と最先端の静的および動的モデル圧縮法を、大きなマージン(最大5.9%)で一貫して上回っている。 通常、DS-NetはResNet-50とMobileNetで2-4倍の計算削減と1.62倍のリアルタイム加速を実現している。 コードリリース: https://github.com/c hanglin31/DS-Net

Current dynamic networks and dynamic pruning methods have shown their promising capability in reducing theoretical computation complexity. However, dynamic sparse patterns on convolutional filters fail to achieve actual acceleration in real-world implementation, due to the extra burden of indexing, weight-copying, or zero-masking. Here, we explore a dynamic network slimming regime, named Dynamic Slimmable Network (DS-Net), which aims to achieve good hardware-efficiency via dynamically adjusting filter numbers of networks at test time with respect to different inputs, while keeping filters stored statically and contiguously in hardware to prevent the extra burden. Our DS-Net is empowered with the ability of dynamic inference by the proposed double-headed dynamic gate that comprises an attention head and a slimming head to predictively adjust network width with negligible extra computation cost. To ensure generality of each candidate architecture and the fairness of gate, we propose a disentangled two-stage training scheme inspired by one-shot NAS. In the first stage, a novel training technique for weight-sharing networks named In-place Ensemble Bootstrapping is proposed to improve the supernet training efficacy. In the second stage, Sandwich Gate Sparsification is proposed to assist the gate training by identifying easy and hard samples in an online way. Extensive experiments demonstrate our DS-Net consistently outperforms its static counterparts as well as state-of-the-art static and dynamic model compression methods by a large margin (up to 5.9%). Typically, DS-Net achieves 2-4x computation reduction and 1.62x real-world acceleration over ResNet-50 and MobileNet with minimal accuracy drops on ImageNet. Code release: https://github.com/c hanglin31/DS-Net .
翻訳日:2021-03-25 13:55:18 公開日:2021-03-24
# FakeMixによる透明物体検出の改善

FakeMix Augmentation Improves Transparent Object Detection ( http://arxiv.org/abs/2103.13279v1 )

ライセンス: Link先を確認
Yang Cao, Zhengqiang Zhang, Enze Xie, Qibin Hou, Kai Zhao, Xiangui Luo, Jian Tuo(参考訳) 自然界における透明な物体の検出は、テクスチャ、明るさ、色彩のコントラストが低いため困難である。 近年のディープラーニングに基づく研究は、透明物体検出(TOD)における境界の活用が効果的であることを示している。 しかし、これらの手法は通常境界関連の不均衡問題に遭遇し、生成能力が制限される。 背景のバウンダリは、透明なオブジェクトの境界と同じ特徴を持っているが、それよりもはるかに少ない量であり、通常はパフォーマンスを損なう。 境界関連不均衡問題を解決するために,フェイクミックスと呼ばれる新しいコンテンツ依存データ拡張手法を提案する。 背景にあるこれらのトラブルメーカー境界をアノテーションなしで収集することは難しいので、トレーニング中に他のサンプルから透明なオブジェクトの境界を現在の画像に付加することで、データ空間を調整し、モデルの一般化を改善することで、精巧に生成する。 さらに,マルチスケールおよびクロスモダリティ機能を動的にキャプチャ可能なasppの拡張版であるadaptiveasppを提案する。 広範な実験により,我々の手法が最先端の手法よりも明らかに優れていることが証明された。 また, 鏡面検出, ガラス検出, 迷彩物体検出など, モデルが類似した問題点を満たしているタスクに対して, 提案手法がうまく対応できることを示す。 コードは公開される予定だ。

Detecting transparent objects in natural scenes is challenging due to the low contrast in texture, brightness and colors. Recent deep-learning-based works reveal that it is effective to leverage boundaries for transparent object detection (TOD). However, these methods usually encounter boundary-related imbalance problem, leading to limited generation capability. Detailly, a kind of boundaries in the background, which share the same characteristics with boundaries of transparent objects but have much smaller amounts, usually hurt the performance. To conquer the boundary-related imbalance problem, we propose a novel content-dependent data augmentation method termed FakeMix. Considering collecting these trouble-maker boundaries in the background is hard without corresponding annotations, we elaborately generate them by appending the boundaries of transparent objects from other samples into the current image during training, which adjusts the data space and improves the generalization of the models. Further, we present AdaptiveASPP, an enhanced version of ASPP, that can capture multi-scale and cross-modality features dynamically. Extensive experiments demonstrate that our methods clearly outperform the state-of-the-art methods. We also show that our approach can also transfer well on related tasks, in which the model meets similar troubles, such as mirror detection, glass detection, and camouflaged object detection. Code will be made publicly available.
翻訳日:2021-03-25 13:54:49 公開日:2021-03-24
# 多様な外観領域と課題タイプにおける転校学習に影響する要因

Factors of Influence for Transfer Learning across Diverse Appearance Domains and Task Types ( http://arxiv.org/abs/2103.13318v1 )

ライセンス: Link先を確認
Thomas Mensink, Jasper Uijlings, Alina Kuznetsova, Michael Gygli, Vittorio Ferrari(参考訳) 転送学習は、ソースタスクで学習された知識を再利用して、ターゲットタスクの学習を支援する。 転送学習の単純な形式は、現在の最先端のコンピュータビジョンモデル、すなわち、一般的なものである。 ilsvrcデータセットで画像分類のためのモデルを事前トレーニングし、任意のターゲットタスクで微調整する。 しかし,従来の転帰学習の体系的な研究は限られており,その実施が期待される状況は完全には理解されていない。 本稿では,多種多様な画像領域(消費者写真,自律運転,航空画像,水中,屋内シーン,合成,クローズアップ)とタスクタイプ(セグメンテーション,物体検出,深度推定,キーポイント検出)にまたがる伝達学習の広範な実験を行う。 これらはすべて、現代のコンピュータビジョンアプリケーションに関連する複雑で構造化された出力タスクタイプです。 ソースとターゲットがそれぞれ異なるイメージドメイン、タスクタイプ、あるいはその両方から来ている場合を含む、合計で1200以上の転送実験を実施しました。 画像領域,タスクタイプ,データセットサイズが伝達学習性能に与える影響を理解するために,これらの実験を系統的に解析する。 本研究は,実践者に対するいくつかの洞察と具体的な勧告につながる。

Transfer learning enables to re-use knowledge learned on a source task to help learning a target task. A simple form of transfer learning is common in current state-of-the-art computer vision models, i.e. pre-training a model for image classification on the ILSVRC dataset, and then fine-tune on any target task. However, previous systematic studies of transfer learning have been limited and the circumstances in which it is expected to work are not fully understood. In this paper we carry out an extensive experimental exploration of transfer learning across vastly different image domains (consumer photos, autonomous driving, aerial imagery, underwater, indoor scenes, synthetic, close-ups) and task types (semantic segmentation, object detection, depth estimation, keypoint detection). Importantly, these are all complex, structured output tasks types relevant to modern computer vision applications. In total we carry out over 1200 transfer experiments, including many where the source and target come from different image domains, task types, or both. We systematically analyze these experiments to understand the impact of image domain, task type, and dataset size on transfer learning performance. Our study leads to several insights and concrete recommendations for practitioners.
翻訳日:2021-03-25 13:54:26 公開日:2021-03-24
# 特定の学習手法を用いた複数モデル畳み込みニューラルネットワークによる物体位置決め

Object Localization Through a Single Multiple-Model Convolutional Neural Network with a Specific Training Approach ( http://arxiv.org/abs/2103.13339v1 )

ライセンス: Link先を確認
Faraz Lotfi, Farnoosh Faraji, Hamid D. Taghirad(参考訳) 物体の局在はあらゆる物体検出器において重要な役割を担っており、多くの研究者が注目している。 本稿では,画像中の関心領域(ROI)を決定するために,光畳み込みニューラルネットワーク(CNN)のための特別なトレーニング手法を提案する。 ほぼ全てのCNNベースの検出器は、固定された入力サイズ画像を使用し、様々なオブジェクトサイズを扱う場合、性能が低下する可能性がある。 本稿では,3つの異なる入力サイズを持つ異なるCNN構造を提案し,性能を向上する。 提案手法の有効性を実証するために, ローカライズアプリケーションによる追跡を行いながら, トレーニングに2つの共通データセットを用いて最終性能を実証する。 有望な結果は,提案構造の適用可能性と実践上の訓練方法を示している。

Object localization has a vital role in any object detector, and therefore, has been the focus of attention by many researchers. In this article, a special training approach is proposed for a light convolutional neural network (CNN) to determine the region of interest (ROI) in an image while effectively reducing the number of probable anchor boxes. Almost all CNN-based detectors utilize a fixed input size image, which may yield poor performance when dealing with various object sizes. In this paper, a different CNN structure is proposed taking three different input sizes, to enhance the performance. In order to demonstrate the effectiveness of the proposed method, two common data set are used for training while tracking by localization application is considered to demonstrate its final performance. The promising results indicate the applicability of the presented structure and the training method in practice.
翻訳日:2021-03-25 13:54:07 公開日:2021-03-24
# csfcube - ファセットクエリのためのコンピュータサイエンス研究論文のサンプルによるテストコレクション

CSFCube -- A Test Collection of Computer Science Research Articles for Faceted Query by Example ( http://arxiv.org/abs/2103.12906v1 )

ライセンス: Link先を確認
Sheshera Mysore, Tim O'Gorman, Andrew McCallum, Hamed Zamani(参考訳) Query by Exampleは、ユーザが検索クエリとしてドキュメントを選択し、大きなコレクションから関連ドキュメントを検索する、よく知られた情報検索タスクである。 しかしながら、文書はトピックの複数の側面をカバーすることが多い。 このシナリオに対処するために、ユーザが入力クエリドキュメントに加えて、よりきめ細かいアスペクトを指定できる、例による顔付きクエリのタスクを導入します。 我々は,この課題を科学文献検索に応用することに注力する。 本稿では,この問題の解法として,クエリ科学論文に類似した科学的論文を,特に選択された修辞構造要素とともに検索できるモデルを提案する。 この研究において、私たちがファセット(facets)と呼ぶ修辞構造要素は、科学論文の「背景」(background)、「メソッド」(method)、または「再帰」(result)の側面を示す。 我々は、このタスクを実行するために訓練されたモデルを評価するために、エキスパートアノテートテストコレクションを導入し、記述する。 我々のテストコレクションは、計算言語学と機械学習の会場から抽出された50のクエリドキュメントからなる。 TRECが深度kプーリングに用いたアノテーションガイドライン(k = 100 または 250)を慎重に追従し,得られたデータ収集は,高いアノテーションの一致による評価値から成っている。 そのデータは研究目的で自由に利用できる。

Query by Example is a well-known information retrieval task in which a document is chosen by the user as the search query and the goal is to retrieve relevant documents from a large collection. However, a document often covers multiple aspects of a topic. To address this scenario we introduce the task of faceted Query by Example in which users can also specify a finer grained aspect in addition to the input query document. We focus on the application of this task in scientific literature search. We envision models which are able to retrieve scientific papers analogous to a query scientific paper along specifically chosen rhetorical structure elements as one solution to this problem. In this work, the rhetorical structure elements, which we refer to as facets, indicate "background", "method", or "result" aspects of a scientific paper. We introduce and describe an expert annotated test collection to evaluate models trained to perform this task. Our test collection consists of a diverse set of 50 query documents, drawn from computational linguistics and machine learning venues. We carefully followed the annotation guideline used by TREC for depth-k pooling (k = 100 or 250) and the resulting data collection consists of graded relevance scores with high annotation agreement. The data is freely available for research purposes.
翻訳日:2021-03-25 13:53:51 公開日:2021-03-24
# 一般測度限界における言語学習可能性:ゴールドアングルイン結果

Language learnability in the limit for general metrics: a Gold-Angluin result ( http://arxiv.org/abs/2103.13166v1 )

ライセンス: Link先を確認
Fernando C. Alves(参考訳) 帰納的推論の分野における先駆的な研究の中で、ゴールド (1967) はすべての有限言語と同じ固定アルファベット上の少なくとも1つの無限言語を含む集合が正確な意味では学べないことを証明した。 同じ枠組みの中で、Angluin (1980) は言語家族の学習性を完全に評価した。 数学的には、古典的設定における厳密な学習の概念は、極限における学習のための特定の種類の計量の使用と見なすことができる。 この短い研究ノートでは、Blum and Blum (1975) によるニヨギの定理の拡張版を使ってロックデータセットの存在を証明し、任意の計量の任意の言語の族に限って学習可能な条件を証明している。 これは特別の場合としてゴールドの定理を回復させる。 さらに、言語族が全ての有限言語を含むと仮定すると、同じ条件が極限における学習可能性にも十分である。

In his pioneering work in the field of Inductive Inference, Gold (1967) proved that a set containing all finite languages and at least one infinite language over the same fixed alphabet is not learnable in the exact sense. Within the same framework, Angluin (1980) provided a complete characterization for the learnability of language families. Mathematically, the concept of exact learning in that classical setting can be seen as the use of a particular type of metric for learning in the limit. In this short research note we use Niyogi's extended version of a theorem by Blum and Blum (1975) on the existence of locking data sets to prove a necessary condition for learnability in the limit of any family of languages in any given metric. This recovers Gold's theorem as a special case. Moreover, when the language family is further assumed to contain all finite languages, the same condition also becomes sufficient for learnability in the limit.
翻訳日:2021-03-25 13:53:29 公開日:2021-03-24
# 線形関数近似を用いた慎重な最適化と探索

Cautiously Optimistic Policy Optimization and Exploration with Linear Function Approximation ( http://arxiv.org/abs/2103.12923v1 )

ライセンス: Link先を確認
Andrea Zanette, Ching-An Cheng, Alekh Agarwal(参考訳) 政策最適化手法は、その漸進的かつ政治的性質が価値に基づくアルゴリズムよりも安定しているため、一般的な強化学習アルゴリズムである。 しかし、同じ特性のため収束やサンプルの非効率は遅く、オンポリシー要件はデータの再利用を妨げ、インクリメンタルアップデートはサンプルの複雑さに大きなイテレーションの複雑さを組み込む。 これらの特徴は, ほぼ線形マルコフ決定過程において, ほぼ最適な警察を確実に見つけることができるが, 値に基づく手法と比較して非常に低いサンプル複雑性に悩まされる, 政策最適化手法である PCPG を提供する ~\citet{agarwal 2020pc} の最近の研究で, 理論上も観察されている。 本稿では,PCPGのサンプル複雑性問題を克服しつつ,モデルの誤識別に対する堅牢性を維持した新しいアルゴリズムCOPOEを提案する。 PCPGと比較して、COPOEはデータの再利用を可能にし、より洗練された分析技術を用いて、新しい強化学習アルゴリズムの設計に広く適用できると期待している。 その結果,PCPGの$\widetilde{O}(1/\epsilon^{11})$からPCPGの$\widetilde{O}(1/\epsilon^3)$へのサンプル複雑性が向上し,値ベースのテクニックとのギャップを埋めることができた。

Policy optimization methods are popular reinforcement learning algorithms, because their incremental and on-policy nature makes them more stable than the value-based counterparts. However, the same properties also make them slow to converge and sample inefficient, as the on-policy requirement precludes data reuse and the incremental updates couple large iteration complexity into the sample complexity. These characteristics have been observed in experiments as well as in theory in the recent work of~\citet{agarwal2020pc}, which provides a policy optimization method PCPG that can robustly find near optimal polices for approximately linear Markov decision processes but suffers from an extremely poor sample complexity compared with value-based techniques. In this paper, we propose a new algorithm, COPOE, that overcomes the sample complexity issue of PCPG while retaining its robustness to model misspecification. Compared with PCPG, COPOE makes several important algorithmic enhancements, such as enabling data reuse, and uses more refined analysis techniques, which we expect to be more broadly applicable to designing new reinforcement learning algorithms. The result is an improvement in sample complexity from $\widetilde{O}(1/\epsilon^{11})$ for PCPG to $\widetilde{O}(1/\epsilon^3)$ for PCPG, nearly bridging the gap with value-based techniques.
翻訳日:2021-03-25 13:53:14 公開日:2021-03-24
# 確率的最短経路に対する Minimax Regret

Minimax Regret for Stochastic Shortest Path ( http://arxiv.org/abs/2103.13056v1 )

ライセンス: Link先を確認
Alon Cohen, Yonathan Efroni, Yishay Mansour and Aviv Rosenberg(参考訳) 本稿では,エージェントが目標状態に到達しなければならない確率的短経路(SSP)問題を,最小総コストで検討する。 問題の学習定式化において、エージェントはモデルのコストとダイナミクスについて事前の知識を持っていない。 彼女は繰り返しこのモデルと$K$のエピソードをやりとりし、可能な限り最適なポリシーを近似することを学ぶ必要がある。 この研究において、この設定に対するミニマックスの後悔は、$\widetilde O(B_\star \sqrt{|S| |A| K})$ ここで、$B_\star$は任意の状態からの最適ポリシーの期待コストに縛られ、$S$は状態空間、$A$は行動空間であることを示す。 これはローゼンバーグらの下限と一致する。 (2020) 対数的因子まで到達し、その後悔を $\sqrt{|S|}$ の係数によって改善する。 本アルゴリズムは,有限ホライゾンmdpにおける強化学習に対する新しい還元法に基づいて,エピソード毎の多項式時間で動作する。 この目的を達成するために, 有限ホライズン設定に対するアルゴリズムを提案し, 後悔の先頭項は水平方向に対数的にのみ依存し, SSP に対して同じ後悔の保証を与える。

We study the Stochastic Shortest Path (SSP) problem in which an agent has to reach a goal state in minimum total expected cost. In the learning formulation of the problem, the agent has no prior knowledge about the costs and dynamics of the model. She repeatedly interacts with the model for $K$ episodes, and has to learn to approximate the optimal policy as closely as possible. In this work we show that the minimax regret for this setting is $\widetilde O(B_\star \sqrt{|S| |A| K})$ where $B_\star$ is a bound on the expected cost of the optimal policy from any state, $S$ is the state space, and $A$ is the action space. This matches the lower bound of Rosenberg et al. (2020) up to logarithmic factors, and improves their regret bound by a factor of $\sqrt{|S|}$. Our algorithm runs in polynomial-time per episode, and is based on a novel reduction to reinforcement learning in finite-horizon MDPs. To that end, we provide an algorithm for the finite-horizon setting whose leading term in the regret depends only logarithmically on the horizon, yielding the same regret guarantees for SSP.
翻訳日:2021-03-25 13:52:45 公開日:2021-03-24
# ロボット行動における脅威の新たなパラダイム

A New Paradigm of Threats in Robotics Behaviors ( http://arxiv.org/abs/2103.13268v1 )

ライセンス: Link先を確認
Michele Colledanchise(参考訳) ロボットの日常利用は前例のないペースで増加している。 ロボットがすぐに“野放し”するので、私たちは彼らが直面する安全とセキュリティの脆弱性を特定する必要があります。 ロボット研究者やメーカーは、新しく、安く、より信頼性の高いアプリケーションに焦点を当てている。 それでも、信頼できないユーザーや信頼できないユーザーがロボットのタスクを危険に晒したり、変更したりできる敵の環境での操作性を無視することが多い。 本稿では,次世代ロボットにおけるセキュリティ脅威の新しいパラダイムを明らかにする。 これらの脅威は、既知のハードウェアやネットワークベースのものを超えており、対処する新たなソリューションを見つけなければなりません。 これらの新たな脅威には、ロボットの特権アクセスの悪意のある利用、ロボットセンサーシステムへの改ざん、ロボットの意図を有害な行動に騙すことが含まれる。 我々は,これらの脆弱性を現実的な例で活用する攻撃の分類法を提供し,より良く,検出し,軽減するための効果的な対策を概説する。

Robots applications in our daily life increase at an unprecedented pace. As robots will soon operate "out in the wild", we must identify the safety and security vulnerabilities they will face. Robotics researchers and manufacturers focus their attention on new, cheaper, and more reliable applications. Still, they often disregard the operability in adversarial environments where a trusted or untrusted user can jeopardize or even alter the robot's task. In this paper, we identify a new paradigm of security threats in the next generation of robots. These threats fall beyond the known hardware or network-based ones, and we must find new solutions to address them. These new threats include malicious use of the robot's privileged access, tampering with the robot sensors system, and tricking the robot's deliberation into harmful behaviors. We provide a taxonomy of attacks that exploit these vulnerabilities with realistic examples, and we outline effective countermeasures to prevent better, detect, and mitigate them.
翻訳日:2021-03-25 13:52:25 公開日:2021-03-24
# 真理とサブジャンクティブな知識理論:幸運ではない?

Truth and Subjunctive Theories of Knowledge: No Luck? ( http://arxiv.org/abs/2103.13332v1 )

ライセンス: Link先を確認
Johannes Stern(参考訳) 本稿は、クリプキの真理理論を反ラック認識論の意味論、すなわち知識の亜分岐理論に応用するものである。 従属理論は、真の信念を正当化する知識の分析に対するゲティエスタイルの反例に見られるように、単に幸運によって知識を除外するために、様相的あるいは従属的条件を推し進めた。 これらの条件の部分的性質のため、強クリーネやFDEのような非古典的な評価スキームに基づいているとしても、結果のセマンティクスは非単調であることが判明した。 これにより、これらの意味論におけるクリプキの真理理論の固定点結果への通常の道が塞がれ、この論文は主に非単調意味論におけるクリプキの真理理論の固定点結果の探索である。 準帰納的定義の理論を用いることで、知識の亜共役理論の場合、いわゆるクリプキジャンプは意味論の非単調性にもかかわらず固定点を持つことを示す: クリプキの真理理論は知識の亜共役理論の枠組みにうまく適用できる。

The paper explores applications of Kripke's theory of truth to semantics for anti-luck epistemology, that is, to subjunctive theories of knowledge. Subjunctive theories put forward modal or subjunctive conditions to rule out knowledge by mere luck as to be found in Gettier-style counterexamples to the analysis of knowledge as justified true belief. Because of the subjunctive nature of these conditions the resulting semantics turns out to be non-monotone, even if it is based on non-classical evaluation schemes such as strong Kleene or FDE. This blocks the usual road to fixed-point results for Kripke's theory of truth within these semantics and consequently the paper is predominantly an exploration of fixed point results for Kripke's theory of truth within non-monotone semantics. Using the theory of quasi-inductive definitions we show that in case of the subjunctive theories of knowledge the so-called Kripke jump will have fixed points despite the non-monotonicity of the semantics: Kripke's theory of truth can be successfully applied in the framework of subjunctive theories of knowledge.
翻訳日:2021-03-25 13:52:10 公開日:2021-03-24
# 球状パノラマに対する物理的に可視な単一像HDR再構成

Beyond Visual Attractiveness: Physically Plausible Single Image HDR Reconstruction for Spherical Panoramas ( http://arxiv.org/abs/2103.12926v1 )

ライセンス: Link先を確認
Wei Wei, Li Guan, Yue Liu, Hao Kang, Haoxiang Li, Ying Wu, Gang Hua(参考訳) HDR再構成は多くの産業的ニーズを持つコンピュータビジョンにおいて重要な課題である。 従来のアプローチでは、複数の露出ショットをマージして、シーンの物理的輝度に対応するHDRを生成する。 しかし、退屈な捕獲プロセスは、そのようなマルチショットアプローチを実際には不便にする。 対照的に、最近のシングルショット法は、深層学習を通して単一のLDR画像から視覚的に魅力的なHDRを予測する。 しかし、前述の物理的プロパティが、ネットワークを明示的にモデル化することなく、保持されるかどうかは不明だ。 本稿では,球状パノラマに着目した単一ショットHDR再構成フレームワークに物理照度制約を導入する。 提案した物理正則化により,本手法は視覚的に魅力的であるだけでなく,物理的に妥当なHDRを生成することができる。 評価のために,地上の真理照度測定によるLDRおよびHDR画像の大規模なデータセットを収集する。 広範な実験により,我々のhdr画像は高い視覚品質を維持するだけでなく,照度予測精度において全ベースライン法を上回った。

HDR reconstruction is an important task in computer vision with many industrial needs. The traditional approaches merge multiple exposure shots to generate HDRs that correspond to the physical quantity of illuminance of the scene. However, the tedious capturing process makes such multi-shot approaches inconvenient in practice. In contrast, recent single-shot methods predict a visually appealing HDR from a single LDR image through deep learning. But it is not clear whether the previously mentioned physical properties would still hold, without training the network to explicitly model them. In this paper, we introduce the physical illuminance constraints to our single-shot HDR reconstruction framework, with a focus on spherical panoramas. By the proposed physical regularization, our method can generate HDRs which are not only visually appealing but also physically plausible. For evaluation, we collect a large dataset of LDR and HDR images with ground truth illuminance measures. Extensive experiments show that our HDR images not only maintain high visual quality but also top all baseline methods in illuminance prediction accuracy.
翻訳日:2021-03-25 13:51:14 公開日:2021-03-24
# マルチスケール特徴対話ネットワークを用いた軽量画像超解像

Lightweight Image Super-Resolution with Multi-scale Feature Interaction Network ( http://arxiv.org/abs/2103.13028v1 )

ライセンス: Link先を確認
Zhengxue Wang, Guangwei Gao, Juncheng Li, Yi Yu, Huimin Lu(参考訳) 近年、深部および複雑な畳み込みニューラルネットワーク構造を用いた単一画像超解像(SISR)アプローチは、有望な性能を達成した。 しかし,ストレージや計算資源が限られている一部のモバイルデバイスには適用が難しいため,メモリ消費の増大による性能向上が期待できる。 この問題を解決するために,軽量なマルチスケール機能インタラクションネットワーク(MSFIN)を提案する。 軽量SISRでは、MSFINは受容領域を拡張し、様々なスケールと対話的な接続から低解像度の観測画像の情報的特徴を適切に活用する。 さらに,ネットワークが十分に軽量でありながらチャネルアテンション機構の恩恵を受けられるように,リカレント残チャンネルアテンションブロック(RRCAB)を設計する。 いくつかのベンチマークに関する広範な実験により、提案するmsfinがより軽量なモデルで最先端のシステムと同等の性能を達成できることが確認された。

Recently, the single image super-resolution (SISR) approaches with deep and complex convolutional neural network structures have achieved promising performance. However, those methods improve the performance at the cost of higher memory consumption, which is difficult to be applied for some mobile devices with limited storage and computing resources. To solve this problem, we present a lightweight multi-scale feature interaction network (MSFIN). For lightweight SISR, MSFIN expands the receptive field and adequately exploits the informative features of the low-resolution observed images from various scales and interactive connections. In addition, we design a lightweight recurrent residual channel attention block (RRCAB) so that the network can benefit from the channel attention mechanism while being sufficiently lightweight. Extensive experiments on some benchmarks have confirmed that our proposed MSFIN can achieve comparable performance against the state-of-the-arts with a more lightweight model.
翻訳日:2021-03-25 13:50:57 公開日:2021-03-24
# EPI上の畳み込みネットワークを用いた光電界再構成と拡張応用

Light Field Reconstruction Using Convolutional Network on EPI and Extended Applications ( http://arxiv.org/abs/2103.13043v1 )

ライセンス: Link先を確認
Gaochang Wu, Yebin Liu, Lu Fang, Qionghai Dai, Tianyou Chai(参考訳) 本稿では,光場再構成のための新しい畳み込みニューラルネットワーク(CNN)を用いたフレームワークについて述べる。 エピポーラ平面画像(EPI)の角再生を効率的にモデル化できることが示唆された。 EPIの直接再構成の主な問題は、空間次元と角次元の間の情報非対称性であり、角次元の詳細な部分がアンダーサンプリングによって損傷される。 角次元の光場を直接上降させるか超解くとゴースト効果が生じる。 これらのゴースト効果を抑制するため,我々は新しい「ブラインド修復-デブラル」フレームワークを提案する。 まず、各EPIスライスを選択されたぼかしカーネルで連結することにより、空間次元における光場の低周波成分を抽出する「青」ステップを適用する。 次に、"修復"ステップはcnnによって実装され、epiの角の詳細を復元するように訓練される。 最後に,EPIのぼかしによって抑制された空間的高周波数を回復するために,非盲検の"deblur"操作を用いる。 本研究では,合成シーン,実世界シーン,挑戦的な顕微鏡光フィールドデータなど,いくつかのデータセットに対するアプローチを評価した。 本稿では,最先端アルゴリズムと比較して,提案フレームワークの性能と頑健性を示す。 さらに,非構造入力に対する深度向上と補間を含む拡張された応用を示す。 さらに重要なことに,提案手法と奥行き情報を組み合わせた新しいレンダリング手法が提案されている。

In this paper, a novel convolutional neural network (CNN)-based framework is developed for light field reconstruction from a sparse set of views. We indicate that the reconstruction can be efficiently modeled as angular restoration on an epipolar plane image (EPI). The main problem in direct reconstruction on the EPI involves an information asymmetry between the spatial and angular dimensions, where the detailed portion in the angular dimensions is damaged by undersampling. Directly upsampling or super-resolving the light field in the angular dimensions causes ghosting effects. To suppress these ghosting effects, we contribute a novel "blur-restoration-deb lur" framework. First, the "blur" step is applied to extract the low-frequency components of the light field in the spatial dimensions by convolving each EPI slice with a selected blur kernel. Then, the "restoration" step is implemented by a CNN, which is trained to restore the angular details of the EPI. Finally, we use a non-blind "deblur" operation to recover the spatial high frequencies suppressed by the EPI blur. We evaluate our approach on several datasets, including synthetic scenes, real-world scenes and challenging microscope light field data. We demonstrate the high performance and robustness of the proposed framework compared with state-of-the-art algorithms. We further show extended applications, including depth enhancement and interpolation for unstructured input. More importantly, a novel rendering approach is presented by combining the proposed framework and depth information to handle large disparities.
翻訳日:2021-03-25 13:50:45 公開日:2021-03-24
# 効率的なLiDARSLAMのためのグレディベース特徴選択

Greedy-Based Feature Selection for Efficient LiDAR SLAM ( http://arxiv.org/abs/2103.13090v1 )

ライセンス: Link先を確認
Jianhao Jiao and Yilong Zhu and Haoyang Ye and Huaiyang Huang and Peng Yun and Linxin Jiang and Lujia Wang and Ming Liu(参考訳) 現代のLiDAR-SLAM (L-SLAM) システムは、大規模で現実的なシナリオにおいて優れた結果を示している。 しかし、高価なデータアソシエーションと非線形最適化のため、一般的にはレイテンシが高い。 本稿では,L-SLAMシステムの精度と効率を両立させ,特徴のサブセットを積極的に選択できることを実証する。 我々は,情報行列のスペクトル属性を保存するために,濃度制約の下で機能選択を組合せ最適化問題として定式化する。 確率グレーディアルゴリズムを用いて,最適結果をリアルタイムに近似する。 また,不調な推定を避けるため,環境の優劣を評価し,特徴数をオンラインで修正するための一般的な戦略を提案する。 提案する特徴セレクタはマルチLiDAR SLAMシステムに統合される。 2つのセンサと計算プラットフォーム上で,様々なシナリオをカバーする広範な実験によって,この拡張システムを検証した。 提案手法は,最先端のL-SLAMシステムと比較して,ローカライズ誤差と高速化が低いことを示す。 コミュニティの利益を得るために、私たちはソースコードをリリースした。

Modern LiDAR-SLAM (L-SLAM) systems have shown excellent results in large-scale, real-world scenarios. However, they commonly have a high latency due to the expensive data association and nonlinear optimization. This paper demonstrates that actively selecting a subset of features significantly improves both the accuracy and efficiency of an L-SLAM system. We formulate the feature selection as a combinatorial optimization problem under a cardinality constraint to preserve the information matrix's spectral attributes. The stochastic-greedy algorithm is applied to approximate the optimal results in real-time. To avoid ill-conditioned estimation, we also propose a general strategy to evaluate the environment's degeneracy and modify the feature number online. The proposed feature selector is integrated into a multi-LiDAR SLAM system. We validate this enhanced system with extensive experiments covering various scenarios on two sensor setups and computation platforms. We show that our approach exhibits low localization error and speedup compared to the state-of-the-art L-SLAM systems. To benefit the community, we have released the source code: https://ram-lab.com/ file/site/m-loam.
翻訳日:2021-03-25 13:50:25 公開日:2021-03-24
# 低メモリフットプリントを持つモーションマップからの構造の汎用的マージ

Generic Merging of Structure from Motion Maps with a Low Memory Footprint ( http://arxiv.org/abs/2103.13246v1 )

ライセンス: Link先を確認
Gabrielle Flood, David Gillsj\"o, Patrik Persson, Anders Heyden, Kalle \r{A}str\"om(参考訳) 安価な画像センサの開発に伴い、利用可能な画像データの量が大幅に増加し、クラウドソースによる収集手法が利用できるようになった。 これにより、これらのデータを扱う方法の開発が求められる。 本稿では,効率的な,柔軟な,堅牢なマップマージを可能にする新しいツールを提案する。 個々のマップに対して個別の最適化がなされたと仮定すると、関連するデータのみを低メモリフットプリント表現に格納できることを示す。 これらの表現を用いてマップマージを行い、アルゴリズムはマージ順序に不変であり、座標系の選択とは独立である。 その結果、複数の地図に同時に適用できるロバストなアルゴリズムとなる。 マージの結果は、同じタイプの低メモリフットプリントフォーマットで表現することもできるため、階層的な方法でマップのさらなるマージと更新が可能になる。 さらに、ループクローズを行い、異なる画像シーケンスのキャプチャ間におけるシーンの変化を検出する。 手持ちの携帯電話とドローンの両方から、シミュレーションデータと実データの両方を使用して、提案手法の性能を検証する。

With the development of cheap image sensors, the amount of available image data have increased enormously, and the possibility of using crowdsourced collection methods has emerged. This calls for development of ways to handle all these data. In this paper, we present new tools that will enable efficient, flexible and robust map merging. Assuming that separate optimisations have been performed for the individual maps, we show how only relevant data can be stored in a low memory footprint representation. We use these representations to perform map merging so that the algorithm is invariant to the merging order and independent of the choice of coordinate system. The result is a robust algorithm that can be applied to several maps simultaneously. The result of a merge can also be represented with the same type of low-memory footprint format, which enables further merging and updating of the map in a hierarchical way. Furthermore, the method can perform loop closing and also detect changes in the scene between the capture of the different image sequences. Using both simulated and real data - from both a hand held mobile phone and from a drone - we verify the performance of the proposed method.
翻訳日:2021-03-25 13:50:11 公開日:2021-03-24
# 注意を伴うDNN量子化

DNN Quantization with Attention ( http://arxiv.org/abs/2103.13322v1 )

ライセンス: Link先を確認
Ghouthi Boukli Hacene, Lukas Mauch, Stefan Uhlich, Fabien Cardinaux(参考訳) ネットワークウェイトとアクティベーションの低ビット量子化は、ディープニューラルネットワーク(DNN)のメモリフットプリント、複雑性、エネルギー消費、レイテンシを大幅に削減する。 しかし、特に複雑な学習タスクや軽量なdnnアーキテクチャに適用する場合、低ビット量子化は精度をかなり低下させる可能性がある。 本稿では,低ビット量子化を緩和するトレーニング手順を提案する。 我々はこの手順をDQA (textit{DNN Quantization with Attention}) と呼ぶ。 この緩和は、高、中、低ビット量子化の学習可能な線形結合を用いて達成される。 学習手順は、温度スケジューリングを伴う注意機構を用いて、ステップバイステップで低ビット量子化に収束する。 実験では、CIFAR10, CIFAR100, ImageNet ILSVRC 2012などの様々なオブジェクト認識ベンチマークにおいて、他の低ビット量子化手法よりも精度が良く、軽量DNNアーキテクチャの量子化における精度低下を大幅に低減する。

Low-bit quantization of network weights and activations can drastically reduce the memory footprint, complexity, energy consumption and latency of Deep Neural Networks (DNNs). However, low-bit quantization can also cause a considerable drop in accuracy, in particular when we apply it to complex learning tasks or lightweight DNN architectures. In this paper, we propose a training procedure that relaxes the low-bit quantization. We call this procedure \textit{DNN Quantization with Attention} (DQA). The relaxation is achieved by using a learnable linear combination of high, medium and low-bit quantizations. Our learning procedure converges step by step to a low-bit quantization using an attention mechanism with temperature scheduling. In experiments, our approach outperforms other low-bit quantization techniques on various object recognition benchmarks such as CIFAR10, CIFAR100 and ImageNet ILSVRC 2012, achieves almost the same accuracy as a full precision DNN, and considerably reduces the accuracy drop when quantizing lightweight DNN architectures.
翻訳日:2021-03-25 13:49:56 公開日:2021-03-24
# MIcro-Surgical Anastomose Workflow Recognition Challenge Report

MIcro-Surgical Anastomose Workflow recognition challenge report ( http://arxiv.org/abs/2103.13111v1 )

ライセンス: Link先を確認
Arnaud Huaulm\'e, Duygu Sarikaya, K\'evin Le Mut, Fabien Despinoy, Yonghao Long, Qi Dou, Chin-Boon Chng, Wenjun Lin, Satoshi Kondo, Laura Bravo-S\'anchez, Pablo Arbel\'aez, Wolfgang Reiter, Manoru Mitsuishi, Kanako Harada, Pierre Jannin(参考訳) MISAW(Micro-Surgical Anastomose Workflow Recognition on Training session)の課題は、人工血管に対する27の微小外科的解剖のデータセットを提供することであった。 このデータセットは、フェーズ、ステップ、アクティビティという3つの異なる粒度レベルで記述されたビデオ、キネマティクス、ワークフローアノテーションで構成されています。 参加者には、キネマティックデータとビデオを使用してワークフロー認識モデルを開発するオプションが与えられた。 4つの課題が提案され、そのうち3つは3つの異なる粒度レベルでの手術ワークフローの認識に関連し、もう1つは同じモデルにおける全ての粒度レベルの認識に対処した。 各タスクごとに1つのランク付けが行われた。 平均アプリケーション依存バランス精度(AD-Accuracy)を評価指標として用いた。 これは不均衡なクラスを考慮に入れ、フレーム毎のスコアよりも臨床的に適切である。 非競合チームを含む6チームが少なくとも1つのタスクに参加した。 全てのモデルはCNNやRNNのようなディープラーニングモデルを採用した。 最高のモデルでは、位相認識に95%以上のAD精度、ステップ認識に80%、アクティビティ認識に60%、粒度レベルに75%が達成された。 高レベルの粒度(フェーズとステップ)では、最高のモデルでは、残っている手術時間やリソース管理の予測のような応用に十分な認識率を持っていた。 しかし, 臨床で使用可能な用途では, 認識率が低かった。 MISAWデータセットは、外科的ワークフロー認識のさらなる研究を促進するために公開されている。 www.synapse.org/MISA Wで見ることができる。

The "MIcro-Surgical Anastomose Workflow recognition on training sessions" (MISAW) challenge provided a data set of 27 sequences of micro-surgical anastomosis on artificial blood vessels. This data set was composed of videos, kinematics, and workflow annotations described at three different granularity levels: phase, step, and activity. The participants were given the option to use kinematic data and videos to develop workflow recognition models. Four tasks were proposed to the participants: three of them were related to the recognition of surgical workflow at three different granularity levels, while the last one addressed the recognition of all granularity levels in the same model. One ranking was made for each task. We used the average application-dependen t balanced accuracy (AD-Accuracy) as the evaluation metric. This takes unbalanced classes into account and it is more clinically relevant than a frame-by-frame score. Six teams, including a non-competing team, participated in at least one task. All models employed deep learning models, such as CNN or RNN. The best models achieved more than 95% AD-Accuracy for phase recognition, 80% for step recognition, 60% for activity recognition, and 75% for all granularity levels. For high levels of granularity (i.e., phases and steps), the best models had a recognition rate that may be sufficient for applications such as prediction of remaining surgical time or resource management. However, for activities, the recognition rate was still low for applications that can be employed clinically. The MISAW data set is publicly available to encourage further research in surgical workflow recognition. It can be found at www.synapse.org/MISA W
翻訳日:2021-03-25 13:48:57 公開日:2021-03-24
# CLAMGen:マルチビュービジョンベースRLによるクローズドループアームモーション生成

CLAMGen: Closed-Loop Arm Motion Generation via Multi-view Vision-Based RL ( http://arxiv.org/abs/2103.13267v1 )

ライセンス: Link先を確認
Iretiayo Akinola, Zizhao Wang, and Peter Allen(参考訳) 腕到達問題における閉ループ軌道生成のための視覚に基づく強化学習(RL)手法を提案する。 アーム軌道生成(Arm trajectory generation)は、ロボットの体を動かす衝突のない経路を見つけることを必要とする基本的なロボット工学の問題である。 腕) 目標(例)を満たすために エンドエフェクタをポイントに配置する)。 古典的な手法は通常、計画、探索、最適化の問題を解決するために環境のモデルを必要とするが、学習に基づくアプローチは観察からロボットのアクションへ直接マッピングすることを約束する。 しかしながら、rlを用いた衝突回避ポリシーの学習は、部分的可観測性、貧弱な探索、サンプル効率の低下、学習不安定性など、さまざまな理由から課題となっている。 これらの課題に対処するために,探索改善の基盤として,欲求的な目標達成RLポリシーを活用する残差RL法を提案し,その基本方針は,障害物回避のために画像から学んだ残差値と残差値で拡張される。 さらに,複数の画像ビューからの3次元理解と,アルゴリズムのサンプル効率を向上させるために,新たな学習目標と手法を導入する。 RLベースラインと比較して,本手法は成功率において優れた性能を発揮する。

We propose a vision-based reinforcement learning (RL) approach for closed-loop trajectory generation in an arm reaching problem. Arm trajectory generation is a fundamental robotics problem which entails finding collision-free paths to move the robot's body (e.g. arm) in order to satisfy a goal (e.g. place end-effector at a point). While classical methods typically require the model of the environment to solve a planning, search or optimization problem, learning-based approaches hold the promise of directly mapping from observations to robot actions. However, learning a collision-avoidance policy using RL remains a challenge for various reasons, including, but not limited to, partial observability, poor exploration, low sample efficiency, and learning instabilities. To address these challenges, we present a residual-RL method that leverages a greedy goal-reaching RL policy as the base to improve exploration, and the base policy is augmented with residual state-action values and residual actions learned from images to avoid obstacles. Further more, we introduce novel learning objectives and techniques to improve 3D understanding from multiple image views and sample efficiency of our algorithm. Compared to RL baselines, our method achieves superior performance in terms of success rate.
翻訳日:2021-03-25 13:48:34 公開日:2021-03-24
# ガウス過程を用いた非線形PDEの解法と学習

Solving and Learning Nonlinear PDEs with Gaussian Processes ( http://arxiv.org/abs/2103.12959v1 )

ライセンス: Link先を確認
Yifan Chen and Bamdad Hosseini and Houman Owhadi and Andrew M Stuart(参考訳) 非線形偏微分方程式(pdes)を解くための単純で厳密で統一された枠組みを導入し、ガウス過程の枠組みを用いてpdesにおけるパラメータの同定を含む逆問題(ips)を解く。 提案手法は,(1)非線型PDEおよびIPに対するコロケーションカーネル手法の自然な一般化,(2)PDE設定における誤差境界の計算経路との収束を保証し,(3)高密度カーネル行列に対する線形解の最先端の計算複雑性を継承する。 本手法の主な考え方は、有限個の座標点におけるPDEの観測から、与えられたPDEの解をガウス過程のMAP推定器で近似することである。 この最適化問題は無限次元であるが、コロケーション点における解の微分の値に対応する追加変数を導入することで有限次元に還元することができ、ガウス過程の回帰から生じる表現定理を一般化する。 削減された最適化問題には2次損失と非線形制約があり、ガウス・ニュートン法の変種で解かれる。 結果のアルゴリズム (a) は非線形PDEの逐次線形化を解くものとして解釈することができ、(b) は実際には、様々なPDEで実施された実験において、少数の反復(2から10) に収束する。 IP では,PDE におけるパラメータの同定と解の数値近似を反復的に行う手法が提案されているが,アルゴリズムは両手法を同時に扱う。 非線形楕円型PDE, バーガーズ方程式, 正規化アイコン方程式, ダーシー流中における透過性同定のためのIP実験は, 本フレームワークの有効性と適用範囲を示している。

We introduce a simple, rigorous, and unified framework for solving nonlinear partial differential equations (PDEs), and for solving inverse problems (IPs) involving the identification of parameters in PDEs, using the framework of Gaussian processes. The proposed approach (1) provides a natural generalization of collocation kernel methods to nonlinear PDEs and IPs, (2) has guaranteed convergence with a path to compute error bounds in the PDE setting, and (3) inherits the state-of-the-art computational complexity of linear solvers for dense kernel matrices. The main idea of our method is to approximate the solution of a given PDE with a MAP estimator of a Gaussian process given the observation of the PDE at a finite number of collocation points. Although this optimization problem is infinite-dimensional , it can be reduced to a finite-dimensional one by introducing additional variables corresponding to the values of the derivatives of the solution at collocation points; this generalizes the representer theorem arising in Gaussian process regression. The reduced optimization problem has a quadratic loss and nonlinear constraints, and it is in turn solved with a variant of the Gauss-Newton method. The resulting algorithm (a) can be interpreted as solving successive linearizations of the nonlinear PDE, and (b) is found in practice to converge in a small number (two to ten) of iterations in experiments conducted on a range of PDEs. For IPs, while the traditional approach has been to iterate between the identifications of parameters in the PDE and the numerical approximation of its solution, our algorithm tackles both simultaneously. Experiments on nonlinear elliptic PDEs, Burgers' equation, a regularized Eikonal equation, and an IP for permeability identification in Darcy flow illustrate the efficacy and scope of our framework.
翻訳日:2021-03-25 13:47:53 公開日:2021-03-24
# 相関型高次元予測器の2段階可変選択法

A Two-Stage Variable Selection Approach for Correlated High Dimensional Predictors ( http://arxiv.org/abs/2103.13357v1 )

ライセンス: Link先を確認
Zhiyuan Li(参考訳) 統計モデルに適合する場合、いくつかの予測器は互いに関連付けられ、一緒に機能することがしばしば見出される。 多くの群変数選択法は、連続的あるいはカテゴリー的応答と密接な関係を持つ予測者のグループを選択するために開発されている。 これらの既存の方法は通常群構造がよく知られていると仮定する。 例えば、同様の実践的な意味を持つ変数や、分類データによって生成されるダミー変数などです。 しかし、実際には、厳密な群構造、特に変数次元が大きいときを知ることは現実的ではない。 その結果、グループ変数選択結果を選択することができる。 この課題を解決するために,グループ変数選択問題に対して,可変クラスタリングステージとグループ変数ステージを組み合わせた2段階アプローチを提案する。 変数クラスタリングステージは、データからの情報を使用してグループ構造を見つけ、既存のグループ変数選択メソッドのパフォーマンスを向上させる。 予測器が観測値よりもはるかに大きい超高次元データに対して,我々は第1段階に可変スクリーニング手法を導入し,そのような手法の利点を示した。 本稿では,既存の4つのグループ変数選択手法の性能を,変数クラスタリングステージの有無に関わらず,異なるシミュレーションモデルで比較検討した。 この2段階法は, 予測精度, アクティブな予測器の選択精度において, より優れた性能を示す。 アスリートのデータは、提案手法の利点を示すためにも用いられる。

When fitting statistical models, some predictors are often found to be correlated with each other, and functioning together. Many group variable selection methods are developed to select the groups of predictors that are closely related to the continuous or categorical response. These existing methods usually assume the group structures are well known. For example, variables with similar practical meaning, or dummy variables created by categorical data. However, in practice, it is impractical to know the exact group structure, especially when the variable dimensional is large. As a result, the group variable selection results may be selected. To solve the challenge, we propose a two-stage approach that combines a variable clustering stage and a group variable stage for the group variable selection problem. The variable clustering stage uses information from the data to find a group structure, which improves the performance of the existing group variable selection methods. For ultrahigh dimensional data, where the predictors are much larger than observations, we incorporated a variable screening method in the first stage and shows the advantages of such an approach. In this article, we compared and discussed the performance of four existing group variable selection methods under different simulation models, with and without the variable clustering stage. The two-stage method shows a better performance, in terms of the prediction accuracy, as well as in the accuracy to select active predictors. An athlete's data is also used to show the advantages of the proposed method.
翻訳日:2021-03-25 13:47:22 公開日:2021-03-24
# a realization of motion and similarity group equivalence class of labeled points in $\mathbb r^k$とそのコンピュータビジョンへの応用について

On a realization of motion and similarity group equivalence classes of labeled points in $\mathbb R^k$ with applications to computer vision ( http://arxiv.org/abs/2103.12980v1 )

ライセンス: Link先を確認
Steven B. Damelin, David L. Ragozin and Michael Werman(参考訳) n\geq 1$ラベル付き点の運動同値類と類似性群同値類を、計算可能な計量を持つ計量空間として、$\mathbb r^k,\,k\geq 1$ で実現する。 我々の研究はコンピュータビジョンの応用に動機づけられている。

We study a realization of motion and similarity group equivalence classes of $n\geq 1$ labeled points in $\mathbb R^k,\, k\geq 1$ as a metric space with a computable metric. Our study is motivated by applications in computer vision.
翻訳日:2021-03-25 13:47:03 公開日:2021-03-24
# 数学的形態の多パラメータ永続化フレームワーク

A Multi-parameter Persistence Framework for Mathematical Morphology ( http://arxiv.org/abs/2103.13013v1 )

ライセンス: Link先を確認
Yu-Min Chung, Sarah Day, Chuan-Shen Hu(参考訳) 数学的形態学の分野は画像処理によく研究された技術を提供する。 本研究では,位相データ解析の分野の中心にあるツールである持続的ホモロジーのレンズを通して形態学的操作を考察する。 形態的操作が自然にマルチパラメータフィルタを形成し,画像中のトポロジと幾何学の両方に関する情報の抽出や,画像の構造の最適化と描画の自動化に,永続的ホモロジーが使用できることを示す。 例えば、このフレームワークを雑音の多いバイナリ、グレースケール、カラー画像の解析に応用する。

The field of mathematical morphology offers well-studied techniques for image processing. In this work, we view morphological operations through the lens of persistent homology, a tool at the heart of the field of topological data analysis. We demonstrate that morphological operations naturally form a multiparameter filtration and that persistent homology can then be used to extract information about both topology and geometry in the images as well as to automate methods for optimizing the study and rendering of structure in images. For illustration, we apply this framework to analyze noisy binary, grayscale, and color images.
翻訳日:2021-03-25 13:46:52 公開日:2021-03-24
# acinoset:野生のチーターのための3次元ポーズ推定データセットとベースラインモデル

AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs in the Wild ( http://arxiv.org/abs/2103.13282v1 )

ライセンス: Link先を確認
Daniel Joska and Liam Clark and Naoya Muramatsu and Ricardo Jericevich and Fred Nicolls and Alexander Mathis and Mackenzie W. Mathis and Amir Patel(参考訳) 動物は極度の俊敏性を持つが、生態学的、生体力学的、進化的意味を持つ複雑なダイナミクスを理解することは依然として困難である。 この驚くべき俊敏性を研究することは、次世代の自律足ロボットの開発に不可欠だろう。 特に、cheetah(acinonyx jubatus)は極めて高速で操作性があるが、野生の移動中に全身の3dキネマティックデータを定量化することは、新しいディープラーニングベースの方法でも課題である。 本研究では,マルチビュー同期高速ビデオ映像,カメラキャリブレーションファイル,および7,588フレームの119,490フレームを含む,AcinoSetと呼ばれる野生のフリーランニングチーターのデータセットを提案する。 我々はマーカーレス動物ポーズ推定を用いて2Dキーポイントを提供する。 次に, 3次元ポーズ推定ツールの開発において, 従来のスパースバンドル調整, 拡張カルマンフィルタ, 完全軌道推定と呼ばれる軌道最適化に基づく3つの手法を用いた。 また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。 このデータセットは、エコロジー、神経科学、ロボティクス、バイオメカニクス、コンピュータビジョンなど、さまざまな分野に有用であると考えています。

Animals are capable of extreme agility, yet understanding their complex dynamics, which have ecological, biomechanical and evolutionary implications, remains challenging. Being able to study this incredible agility will be critical for the development of next-generation autonomous legged robots. In particular, the cheetah (acinonyx jubatus) is supremely fast and maneuverable, yet quantifying its whole-body 3D kinematic data during locomotion in the wild remains a challenge, even with new deep learning-based methods. In this work we present an extensive dataset of free-running cheetahs in the wild, called AcinoSet, that contains 119,490 frames of multi-view synchronized high-speed video footage, camera calibration files and 7,588 human-annotated frames. We utilize markerless animal pose estimation to provide 2D keypoints. Then, we use three methods that serve as strong baselines for 3D pose estimation tool development: traditional sparse bundle adjustment, an Extended Kalman Filter, and a trajectory optimization-based method we call Full Trajectory Estimation. The resulting 3D trajectories, human-checked 3D ground truth, and an interactive tool to inspect the data is also provided. We believe this dataset will be useful for a diverse range of fields such as ecology, neuroscience, robotics, biomechanics as well as computer vision.
翻訳日:2021-03-25 13:46:44 公開日:2021-03-24
# 線形制御ポリシの模倣学習について:LMI条件による安定性とロバスト性制約の強化

On Imitation Learning of Linear Control Policies: Enforcing Stability and Robustness Constraints via LMI Conditions ( http://arxiv.org/abs/2103.12945v1 )

ライセンス: Link先を確認
Aaron Havens and Bin Hu(参考訳) 専門家の実証からポリシーに適合させるために模倣学習技術を適用する場合、専門家の方針に対する事前の安定性/損耗性の仮定を活用でき、そのような制御理論的な事前知識を学習プロセスに明示的に組み込むことができる。 本稿では,線形ポリシーの模倣学習を制約付き最適化問題として定式化し,学習過程における安定性と頑健さの制約を強制する効率的な手法を提案する。 具体的には, 線形行列不等式 (LMI) 制約を適合ポリシーに課すことにより, 閉ループ安定性とロバスト性を保証できることを示す。 次に, 予測勾配降下法と乗算器法(ADMM)の交互方向法の両方を適用し, 結果として生じる制約付きポリシー適合問題を解く。 最後に, 種々の安定性と堅牢性を保証する線形警察の製作における手法の有効性を示す数値的な結果を提供する。

When applying imitation learning techniques to fit a policy from expert demonstrations, one can take advantage of prior stability/robustness assumptions on the expert's policy and incorporate such control-theoretic prior knowledge explicitly into the learning process. In this paper, we formulate the imitation learning of linear policies as a constrained optimization problem, and present efficient methods which can be used to enforce stability and robustness constraints during the learning processes. Specifically, we show that one can guarantee the closed-loop stability and robustness by posing linear matrix inequality (LMI) constraints on the fitted policy. Then both the projected gradient descent method and the alternating direction method of multipliers (ADMM) method can be applied to solve the resulting constrained policy fitting problem. Finally, we provide numerical results to demonstrate the effectiveness of our methods in producing linear polices with various stability and robustness guarantees.
翻訳日:2021-03-25 13:46:19 公開日:2021-03-24
# パターン認識によるプロセス監視を支援する機械学習に基づく指標

Machine Learning based Indicators to Enhance Process Monitoring by Pattern Recognition ( http://arxiv.org/abs/2103.13058v1 )

ライセンス: Link先を確認
Stefan Schrunner, Michael Scheiber, Anna Jenul, Anja Zernig, Andre K\"astner, Roman Kern(参考訳) 工業生産において、現代のハイテク機器は、人間の観測能力を超える量のデータを提供する。 画像のような複雑なデータフォーマットは、重要なイベントの検出を難しくし、最先端のプロセス監視システムの範囲を超えているパターン認識を必要とする。 従来の統計ツールと新しい機械学習(ML)アルゴリズムのギャップを埋めるアプローチが必要であるが、十分に研究されていない。 パターンタイプと強度という2つの概念を組み合わせたMLベースの指標のための新しいフレームワークを提案する。 従来のツールはインテンシティコンポーネントを実装し、パターンタイプはエラーモードを管理し、プロダクション環境へのインジケータを調整します。 半導体産業のケーススタディでは,従来のプロセス制御を越え,高品質な実験結果を得る。 したがって、提案する概念は、実世界のプロセス監視問題におけるMLの統合に寄与し、製造における自動意思決定支援の道を開く。

In industrial manufacturing, modern high-tech equipment delivers an increasing volume of data, which exceeds the capacities of human observers. Complex data formats like images make the detection of critical events difficult and require pattern recognition, which is beyond the scope of state-of-the-art process monitoring systems. Approaches that bridge the gap between conventional statistical tools and novel machine learning (ML) algorithms are required, but insufficiently studied. We propose a novel framework for ML based indicators combining both concepts by two components: pattern type and intensity. Conventional tools implement the intensity component, while the pattern type accounts for error modes and tailors the indicator to the production environment. In a case-study from semiconductor industry, our framework goes beyond conventional process control and achieves high quality experimental results. Thus, the suggested concept contributes to the integration of ML in real-world process monitoring problems and paves the way to automated decision support in manufacturing.
翻訳日:2021-03-25 13:46:03 公開日:2021-03-24
# 相互情報最大化による部分グラフの集合化によるグラフ表現学習

Graph Representation Learning by Ensemble Aggregating Subgraphs via Mutual Information Maximization ( http://arxiv.org/abs/2103.13125v1 )

ライセンス: Link先を確認
Chenguang Wang and Ziwen Liu(参考訳) グラフニューラルネットワークは、ガーフデータを扱う上で大きな可能性を示し、近年は優れた成果を上げている。 一部の研究領域では、グラフ上での教師なしおよび半超越学習の研究を必要とする技術的理由からラベル付けデータを得るのは難しい。 したがって、学習した表現が元のグラフの本質的な特徴を捉えることができるかどうかがこの領域で問題となる。 本稿では,グラフニューラルネットワークが学習したグラフレベルの表現を強化するための自己教師付き学習手法を提案する。 グラフの本来の属性をフルに把握するために、属性-conv、レイヤ-conv、サブグラフ-convという3つの情報アグリゲータを使用して異なる側面から情報を集める。 グラフ構造を網羅的に理解するために,サブグラフ法のようなアンサンブル学習を提案する。 また,効率的かつ効果的な対位学習を実現するために,より豊富な負のサンプルを提供するために,ヘッドテールコントラスト型サンプル構築法を提案する。 任意のグラフニューラルネットワークに一般化可能なすべてのコンポーネントにより、教師なしの場合、いくつかのベンチマークで新たな最先端の成果が得られる。 また, 半教師付き学習課題におけるモデルの評価を行い, 半教師付き手法の状況と比較した。

Graph Neural Networks have shown tremendous potential on dealing with garph data and achieved outstanding results in recent years. In some research areas, labelling data are hard to obtain for technical reasons, which necessitates the study of unsupervised and semi-superivsed learning on graphs. Therefore, whether the learned representations can capture the intrinsic feature of the original graphs will be the issue in this area. In this paper, we introduce a self-supervised learning method to enhance the representations of graph-level learned by Graph Neural Networks. To fully capture the original attributes of the graph, we use three information aggregators: attribute-conv, layer-conv and subgraph-conv to gather information from different aspects. To get a comprehensive understanding of the graph structure, we propose an ensemble-learning like subgraph method. And to achieve efficient and effective contrasive learning, a Head-Tail contrastive samples construction method is proposed to provide more abundant negative samples. By virtue of all proposed components which can be generalized to any Graph Neural Networks, in unsupervised case, we achieve new state of the art results in several benchmarks. We also evaluate our model on semi-supervised learning tasks and make a fair comparison to state of the art semi-supervised methods.
翻訳日:2021-03-25 13:45:48 公開日:2021-03-24
# マルチエージェントオフポリティTD学習:準最適サンプル複雑度と通信複雑度を用いた有限時間解析

Multi-Agent Off-Policy TD Learning: Finite-Time Analysis with Near-Optimal Sample Complexity and Communication Complexity ( http://arxiv.org/abs/2103.13147v1 )

ライセンス: Link先を確認
Ziyi Chen, Yi Zhou, Rongrong Chen(参考訳) オフポリシーtd学習の有限時間収束は,近年,包括的に研究されている。 しかし、このような収束は、より広範なアプリケーションをカバーするマルチエージェント環境での非政治的なTD学習には十分に確立されていない。 本研究はマルコフアンサンプリング下でのマルチエージェントオフポリシーTD学習のための修正付きTDCアルゴリズムを2つの分散TDで開発する。 特に,本アルゴリズムはエージェントの行動,ポリシー,報酬の完全なプライバシを保ち,サンプリングのばらつきと通信頻度を低減するためにミニバッチサンプリングを採用する。 マルコフのサンプリングと線形関数近似の下で、$\epsilon$-accurate 解を達成するための両方のアルゴリズムの有限時間サンプル複雑性は$\mathcal{o}(\epsilon^{-1}\ln \epsilon^{-1})$ の順であり、集中型td(0) と tdc の最適に近いサンプル複雑性と一致することを証明した。 重要なことに、アルゴリズムの通信複雑性は$\mathcal{o}(\ln \epsilon^{-1})$の順であり、既存の分散td(0)の通信複雑性$\mathcal{o}(\epsilon^{-1}\ln \epsilon^{-1})$よりもかなり低い。 実験は理論的な結果を裏付ける。

The finite-time convergence of off-policy TD learning has been comprehensively studied recently. However, such a type of convergence has not been well established for off-policy TD learning in the multi-agent setting, which covers broader applications and is fundamentally more challenging. This work develops two decentralized TD with correction (TDC) algorithms for multi-agent off-policy TD learning under Markovian sampling. In particular, our algorithms preserve full privacy of the actions, policies and rewards of the agents, and adopt mini-batch sampling to reduce the sampling variance and communication frequency. Under Markovian sampling and linear function approximation, we proved that the finite-time sample complexity of both algorithms for achieving an $\epsilon$-accurate solution is in the order of $\mathcal{O}(\epsilon^{-1}\ln \epsilon^{-1})$, matching the near-optimal sample complexity of centralized TD(0) and TDC. Importantly, the communication complexity of our algorithms is in the order of $\mathcal{O}(\ln \epsilon^{-1})$, which is significantly lower than the communication complexity $\mathcal{O}(\epsilon^{-1}\ln \epsilon^{-1})$ of the existing decentralized TD(0). Experiments corroborate our theoretical findings.
翻訳日:2021-03-25 13:45:26 公開日:2021-03-24
# オープンソースリポジトリの修正コミットへの脆弱性アドバイザリの自動マッピング

Automated Mapping of Vulnerability Advisories onto their Fix Commits in Open Source Repositories ( http://arxiv.org/abs/2103.13375v1 )

ライセンス: Link先を確認
Daan Hommersom, Antonino Sabetta, Bonaventura Coppola, Damian A. Tamburri(参考訳) 正確な脆弱性データソースの欠如は、ソフトウェアの脆弱性(とその修正)を調査および理解するための重要な障害である。 本稿では,実践経験から生じるヒューリスティックスと,機械学習(ML)特有の自然言語処理(NLP)を組み合わせることで,この問題に対処する手法を提案する。 本手法は3段階からなる。 まず、脆弱性に関する重要な情報を含むアドバイザリ記録をアドバイザリ(自然言語で表現)から抽出する。 第二に、ヒューリスティックスを用いることで、影響を受けるプロジェクトのソースコードリポジトリから、そのタスクに関係のないコミットをフィルタリングすることで、候補となる修正コミットのサブセットを取得する。 最後に, 提案手法は, 各候補コミットに対して, それぞれのコミットの特徴を反映した数値的特徴ベクトルを構築する。 フィーチャーベクターは、最終ランク付けされたコミット修正候補リストを構築するために利用される。 MLモデルによって各機能に属性付けられたスコアは、ユーザによって表示され、予測の解釈を可能にする。 我々は,1,248の公開脆弱性アドバイザリーに対応する2,391の既知の修正コミットを手動でキュレートしたデータセット上で,Prospectorというプロトタイプ実装を用いてアプローチを評価した。 ランク付けされた結果の上位10のコミットを考慮すると、我々の実装では、脆弱性の84.03%(脆弱性の65.06%が修正コミットである)に対して、少なくとも1つの修正コミットを特定できた。 結論として,既知の脆弱性を修正するコミットのOSSレポジトリの検索に要する労力を大幅に削減する。

The lack of comprehensive sources of accurate vulnerability data represents a critical obstacle to studying and understanding software vulnerabilities (and their corrections). In this paper, we present an approach that combines heuristics stemming from practical experience and machine-learning (ML) - specifically, natural language processing (NLP) - to address this problem. Our method consists of three phases. First, an advisory record containing key information about a vulnerability is extracted from an advisory (expressed in natural language). Second, using heuristics, a subset of candidate fix commits is obtained from the source code repository of the affected project by filtering out commits that are known to be irrelevant for the task at hand. Finally, for each such candidate commit, our method builds a numerical feature vector reflecting the characteristics of the commit that are relevant to predicting its match with the advisory at hand. The feature vectors are then exploited for building a final ranked list of candidate fixing commits. The score attributed by the ML model to each feature is kept visible to the users, allowing them to interpret of the predictions. We evaluated our approach using a prototype implementation named Prospector on a manually curated data set that comprises 2,391 known fix commits corresponding to 1,248 public vulnerability advisories. When considering the top-10 commits in the ranked results, our implementation could successfully identify at least one fix commit for up to 84.03% of the vulnerabilities (with a fix commit on the first position for 65.06% of the vulnerabilities). In conclusion, our method reduces considerably the effort needed to search OSS repositories for the commits that fix known vulnerabilities.
翻訳日:2021-03-25 13:44:56 公開日:2021-03-24
# (参考訳) 移動カメラからの物体検出のためのUAV画像データセット [全文訳有]

UAV Images Dataset for Moving Object Detection from Moving Cameras ( http://arxiv.org/abs/2103.11460v2 )

ライセンス: CC BY 4.0
Ibrahim Delibasoglu(参考訳) 本稿では,移動物体を手動でラベル付けする高解像度空中画像データセットを提案する。 移動カメラの移動物体検出手法の評価に寄与することを目的としている。 物体を空中画像から認識する問題は、コンピュータビジョンにおいて重要な問題の一つである。 UAVが撮影した画像の最大の問題は、背景がカメラの動きによって常に変化することだ。 文献には様々なデータセットがあり, 動き検出のための提案手法が評価されている。 準備されたデータセットは、他のデータセットと比較して小さなターゲットを含む挑戦的なイメージで構成されている。 用意されたデータセットに対して,文献中の2つの方法がテストされている。 また, 対象オブジェクトの移動に関して, これらの手法と比較してより簡単な方法が提案されている。

This paper presents a new high resolution aerial images dataset in which moving objects are labelled manually. It aims to contribute to the evaluation of the moving object detection methods for moving cameras. The problem of recognizing moving objects from aerial images is one of the important issues in computer vision. The biggest problem in the images taken by UAV is that the background is constantly variable due to camera movement. There are various datasets in the literature in which proposed methods for motion detection are evaluated. Prepared dataset consists of challenging images containing small targets compared to other datasets. Two methods in the literature have been tested for the prepared dataset. In addition, a simpler method compared to these methods has been proposed for moving object object in this paper.
翻訳日:2021-03-25 12:34:44 公開日:2021-03-24
# (参考訳) 深層学習による酵母顕微鏡画像の生成とシミュレーション

Generation and Simulation of Yeast Microscopy Imagery with Deep Learning ( http://arxiv.org/abs/2103.11834v3 )

ライセンス: CC BY-SA 4.0
Christoph Reich(参考訳) 時間経過蛍光顕微鏡(tlfm)は、合成生物学研究において重要かつ強力なツールである。 実データに基づくtlfm実験のモデリングにより、研究者はわずかな労力で実験を繰り返すことができる。 この論文は、画像レベルでのTLFM実験の深層学習に基づくモデリングに関する研究である。 TLFM実験のモデル化は、酵母細胞を捕獲した例によって、2つのタスクに分けられる。 最初の課題は、実画像データに基づいて合成画像データを生成することである。 この問題を解決するために,条件付きおよび無条件画像生成のための新しい生成型逆ネットワークを提案する。 第2の課題は、複数の離散時間ステップにおけるブライトフィールド顕微鏡画像のシミュレーションである。 このシミュレーションタスクに取り組むために、高度な将来のフレーム予測モデルが導入される。 提案したモデルは、この論文で提示された新しいデータセットでトレーニングされ、テストされる。 その結果,深層学習によるtlfm実験のモデル化は適切なアプローチであるが,実世界の実験を効果的にモデル化するには今後の研究が必要であることがわかった。

Time-lapse fluorescence microscopy (TLFM) is an important and powerful tool in synthetic biological research. Modeling TLFM experiments based on real data may enable researchers to repeat certain experiments with minor effort. This thesis is a study towards deep learning-based modeling of TLFM experiments on the image level. The modeling of TLFM experiments, by way of the example of trapped yeast cells, is split into two tasks. The first task is to generate synthetic image data based on real image data. To approach this problem, a novel generative adversarial network, for conditionalized and unconditionalized image generation, is proposed. The second task is the simulation of brightfield microscopy images over multiple discrete time-steps. To tackle this simulation task an advanced future frame prediction model is introduced. The proposed models are trained and tested on a novel dataset that is presented in this thesis. The obtained results showed that the modeling of TLFM experiments, with deep learning, is a proper approach, but requires future research to effectively model real-world experiments.
翻訳日:2021-03-25 12:28:22 公開日:2021-03-24
# (参考訳) 一方向辺縁からの合同確率分布の回復:低ランクテンソルとランダム射影 [全文訳有]

Recovery of Joint Probability Distribution from one-way marginals: Low rank Tensors and Random Projections ( http://arxiv.org/abs/2103.11864v2 )

ライセンス: CC BY 4.0
Jian Vora, Karthik S. Gurumoorthy, Ajit Rajwade(参考訳) 統合確率質量関数(PMF)推定は基本的な機械学習問題である。 自由パラメータの数は、確率変数の数に関して指数関数的にスケールする。 したがって、非パラメトリックpmf推定に関するほとんどの作業は、確率的グラフィカルモデルで採用されたクランク分解、結合確率テンソルへの低ランクの付与、および3方向または2方向の辺縁からの再構成など、いくつかの構造的仮定に基づいている。 本研究では,データのランダムな投影と,トモグラフィからのアイデアを用いたpmf推定問題とをリンクする。 このアイデアを低ランクテンソル分解のアイデアと統合し、変換空間内の片方向の辺縁だけから結合密度を推定できることを示す。 本研究では,一方の辺縁からテンソルの因子を復元するアルゴリズムを提案し,それを様々な合成および実世界のデータセットで検証するとともに,推定された分類モデル上でMAP推論を行う。

Joint probability mass function (PMF) estimation is a fundamental machine learning problem. The number of free parameters scales exponentially with respect to the number of random variables. Hence, most work on nonparametric PMF estimation is based on some structural assumptions such as clique factorization adopted by probabilistic graphical models, imposition of low rank on the joint probability tensor and reconstruction from 3-way or 2-way marginals, etc. In the present work, we link random projections of data to the problem of PMF estimation using ideas from tomography. We integrate this idea with the idea of low-rank tensor decomposition to show that we can estimate the joint density from just one-way marginals in a transformed space. We provide a novel algorithm for recovering factors of the tensor from one-way marginals, test it across a variety of synthetic and real-world datasets, and also perform MAP inference on the estimated model for classification.
翻訳日:2021-03-25 12:26:30 公開日:2021-03-24
# (参考訳) 交通アクターの将来予測における長尺道路の設置について [全文訳有]

On Exposing the Challenging Long Tail in Future Prediction of Traffic Actors ( http://arxiv.org/abs/2103.12474v2 )

ライセンス: CC BY-SA 4.0
Osama Makansi, \"Ozg\"un Cicek, Yassine Marrakchi, and Thomas Brox(参考訳) 自律システムにとって、ダイナミックな交通機関の状態を未来に予測することは、安全かつ効率的に運用することが重要である。 驚くべきことに、最も重要なシナリオは、非クリティカルシナリオよりもあまり頻繁で複雑ではない。 したがって、不クリティカルなケースが予測を支配している。 本稿では,データセット分布の長い部分における難解なシナリオを具体的に取り上げる。 解析の結果, 共通損失は, 埋め込み空間に最適に問題のあるケースを配置する傾向が見られた。 そこで,本研究では,難易度の高いケースを互いに近接させて,損失を補うことを提案する。 これにより、困難なケース間で情報を共有し、特定の予測機能を学習する。 4つの公開データセットから、全体的なパフォーマンスが安定している間に、困難なシナリオのパフォーマンスが向上することを示す。 アプローチは agnostic w.r.t. である。 使用済みのネットワークアーキテクチャは、入力モダリティまたは視点であり、既存のソリューションに容易に統合できる。

Predicting the states of dynamic traffic actors into the future is important for autonomous systems to operate safelyand efficiently. Remarkably, the most critical scenarios aremuch less frequent and more complex than the uncriticalones. Therefore, uncritical cases dominate the prediction. In this paper, we address specifically the challenging scenarios at the long tail of the dataset distribution. Our analysis shows that the common losses tend to place challenging cases suboptimally in the embedding space. As a consequence, we propose to supplement the usual loss with aloss that places challenging cases closer to each other. This triggers sharing information among challenging cases andlearning specific predictive features. We show on four public datasets that this leads to improved performance on the challenging scenarios while the overall performance stays stable. The approach is agnostic w.r.t. the used network architecture, input modality or viewpoint, and can be integrated into existing solutions easily.
翻訳日:2021-03-25 12:16:46 公開日:2021-03-24
# (参考訳) マルチパラメトリック磁気共鳴画像における前立腺癌の完全自動検出, 分節, グリーソングレード推定のためのディープラーニング [全文訳有]

Deep Learning for fully automatic detection, segmentation, and Gleason Grade estimation of prostate cancer in multiparametric Magnetic Resonance Images ( http://arxiv.org/abs/2103.12650v2 )

ライセンス: CC BY 4.0
Oscar J. Pellicer-Valero, Jos\'e L. Marenco Jim\'enez, Victor Gonzalez-Perez, Juan Luis Casanova Ram\'on-Borja, Isabel Mart\'in Garc\'ia, Mar\'ia Barrios Benito, Paula Pelechano G\'omez, Jos\'e Rubio-Briones, Mar\'ia Jos\'e Rup\'erez, Jos\'e D. Mart\'in-Guerrero(参考訳) 多核磁気共鳴画像(MPMRI)の出現は前立腺癌(PCa)の診断に大きな影響を与えており、これは西欧の男性において最も多い悪性腫瘍である。 しかし,これらの画像解析は専門家にとっても複雑であり,コンピュータ支援診断システムによる把握の機会が開けることになる。 本稿では,PCa-suspect 患者から前立腺 mpMRI を抽出し,網膜 U-Net 検出フレームワークを活用することにより,PCa 病変の特定とセグメント化を行い,最も可能性の高い Gleason グレードグループ (GGG) を予測する,Deep Learning に基づく完全自動システムを提案する。 トレーニング/バリデーションには490mpMRIを使用し、ProstateXとIVO(Valencia Oncology Institute Foundation)という2つの異なるデータセットから75人の患者を検査する。 テストセットでは、GGG$\geq$2の重要基準であるProstateXデータセットは0.96/1.00/0.79、IVOデータセットは0.95/1.00/0.80に優れた病変レベルAUC/感度/特異性を達成している。 患者レベルでの評価では、ProstateXは0.87/1.00/0.375、IVOは0.91/1.00/0.762である。 さらに、オンラインのprostatex grand challengeにおいて、モデルは0.85(prostatexデータのみに基づいてトレーニングされた場合0.87)のaucを取得した。 IVO放射線技師のPI-RADS 4の感度/特異性は病変レベル0.88/0.56、患者レベル0.85/0.58であった。 自動前立腺領域分割とmpMRIの非剛性配列登録のための追加サブシステムも、最終完全自動システムを生成するために使用された。 ProstateXでトレーニングされたシステムのコードはhttps://github.com/O scarPellicer/prostat e_lesion_detectionで公開されている。 これは将来の研究が利用し、比較し、改善するためのランドマークになることを期待しています。

The emergence of multi-parametric magnetic resonance imaging (mpMRI) has had a profound impact on the diagnosis of prostate cancers (PCa), which is the most prevalent malignancy in males in the western world, enabling a better selection of patients for confirmation biopsy. However, analyzing these images is complex even for experts, hence opening an opportunity for computer-aided diagnosis systems to seize. This paper proposes a fully automatic system based on Deep Learning that takes a prostate mpMRI from a PCa-suspect patient and, by leveraging the Retina U-Net detection framework, locates PCa lesions, segments them, and predicts their most likely Gleason grade group (GGG). It uses 490 mpMRIs for training/validation, and 75 patients for testing from two different datasets: ProstateX and IVO (Valencia Oncology Institute Foundation). In the test set, it achieves an excellent lesion-level AUC/sensitivity/spec ificity for the GGG$\geq$2 significance criterion of 0.96/1.00/0.79 for the ProstateX dataset, and 0.95/1.00/0.80 for the IVO dataset. Evaluated at a patient level, the results are 0.87/1.00/0.375 in ProstateX, and 0.91/1.00/0.762 in IVO. Furthermore, on the online ProstateX grand challenge, the model obtained an AUC of 0.85 (0.87 when trained only on the ProstateX data, tying up with the original winner of the challenge). For expert comparison, IVO radiologist's PI-RADS 4 sensitivity/specific ity were 0.88/0.56 at a lesion level, and 0.85/0.58 at a patient level. Additional subsystems for automatic prostate zonal segmentation and mpMRI non-rigid sequence registration were also employed to produce the final fully automated system. The code for the ProstateX-trained system has been made openly available at https://github.com/O scarPellicer/prostat e_lesion_detection. We hope that this will represent a landmark for future research to use, compare and improve upon.
翻訳日:2021-03-25 11:57:42 公開日:2021-03-24
# 積層トランスを用いたマルチモーダル動作予測

Multimodal Motion Prediction with Stacked Transformers ( http://arxiv.org/abs/2103.11624v2 )

ライセンス: Link先を確認
Yicheng Liu, Jinghuai Zhang, Liangji Fang, Qinhong Jiang, Bolei Zhou(参考訳) 自動走行の安全性には、近隣の車両の複数の将来的な軌道を予測することが不可欠である。 最近の動き予測手法は、特徴を暗黙的に正規化したり、複数の候補提案を明示的に生成することで、そのようなマルチモーダルな動き予測を実現する。 しかしながら,提案手法は提案手法の生成と選択に先立つ知識に大きく依存するのに対して,遅延機能はデータの最も頻繁なモードに集中する可能性があるため,依然として困難である。 本研究では,mmTransformerと呼ばれるマルチモーダル動作予測のためのトランスフォーマフレームワークを提案する。 スタックドトランスフォーマーに基づく新しいネットワークアーキテクチャは、固定された独立した提案のセットで機能レベルでマルチモダリティをモデル化するように設計されている。 次に、地域ベースのトレーニング戦略を開発し、生成された提案のマルチモーダリティを誘導する。 Argoverseデータセットの実験から,提案モデルが動作予測における最先端性能を実現し,予測された軌道の多様性と精度を大幅に向上させることが示された。 デモビデオとコードはhttps://decisionforc e.github.io/mmtransf ormerで入手できる。

Predicting multiple plausible future trajectories of the nearby vehicles is crucial for the safety of autonomous driving. Recent motion prediction approaches attempt to achieve such multimodal motion prediction by implicitly regularizing the feature or explicitly generating multiple candidate proposals. However, it remains challenging since the latent features may concentrate on the most frequent mode of the data while the proposal-based methods depend largely on the prior knowledge to generate and select the proposals. In this work, we propose a novel transformer framework for multimodal motion prediction, termed as mmTransformer. A novel network architecture based on stacked transformers is designed to model the multimodality at feature level with a set of fixed independent proposals. A region-based training strategy is then developed to induce the multimodality of the generated proposals. Experiments on Argoverse dataset show that the proposed model achieves the state-of-the-art performance on motion prediction, substantially improving the diversity and the accuracy of the predicted trajectories. Demo video and code are available at https://decisionforc e.github.io/mmTransf ormer.
翻訳日:2021-03-25 11:22:58 公開日:2021-03-24
# 不均衡データセットにおける皮膚癌分類のための深層ニューラルネットワークを用いた移動学習

Transfer Learning with Ensembles of Deep Neural Networks for Skin Cancer Classification in Imbalanced Data Sets ( http://arxiv.org/abs/2103.12068v2 )

ライセンス: Link先を確認
Aqsa Saeed Qureshi and Teemu Roos(参考訳) 早期診断は皮膚がんの予防と治療において重要な役割を担っており、医療画像から正確に皮膚がんを分類するための機械学習技術が報告されている。 これらの技術の多くは、訓練済みの畳み込みニューラルネットワーク(CNN)に基づいており、限られたトレーニングデータに基づいてモデルをトレーニングすることができる。 しかし,これらのモデルの分類精度は悪性腫瘍の代表像の不足により著しく制限される傾向にある。 本稿では,複数のcnnモデルが事前学習され,一部は手元のデータのみにトレーニングされ,患者情報(メタデータ)はメタリーナーを用いて結合される,新しいアンサンブルベースのcnnアーキテクチャを提案する。 提案手法は,不足した不均衡なデータを扱うモデルの能力を向上させる。 提案手法の利点として,2000症例の33126個の皮膚内視鏡画像を用いたデータセットを用いて,提案手法の性能を,F1測定値,ROC曲線下面積,PR曲線下面積(AUC-PR)で評価し,最近のCNNに基づく2つの手法を含む7種類のベンチマーク手法と比較した。 提案手法は,すべての評価指標(F1-measure $0.53$, AUC-PR $0.58$, AUC-ROC $0.97$)において優れた性能を実現する。

Early diagnosis plays a key role in prevention and treatment of skin cancer.Several machine learning techniques for accurate classification of skin cancer from medical images have been reported. Many of these techniques are based on pre-trained convolutional neural networks (CNNs), which enable training the models based on limited amounts of training data. However, the classification accuracy of these models still tends to be severely limited by the scarcity of representative images from malignant tumours. We propose a novel ensemble-based CNN architecture where multiple CNN models, some of which are pre-trained and some are trained only on the data at hand, along with patient information (meta-data) are combined using a meta-learner. The proposed approach improves the model's ability to handle scarce, imbalanced data. We demonstrate the benefits of the proposed technique using a dataset with 33126 dermoscopic images from 2000 patients.We evaluate the performance of the proposed technique in terms of the F1-measure, area under the ROC curve (AUC-ROC), and area under the PR curve (AUC-PR), and compare it with that of seven different benchmark methods, including two recent CNN-based techniques. The proposed technique achieves superior performance in terms of all the evaluation metrics (F1-measure $0.53$, AUC-PR $0.58$, AUC-ROC $0.97$).
翻訳日:2021-03-25 11:22:38 公開日:2021-03-24
# bossnas:block-wisely self-supervised neural architectureによるハイブリッドcnn-transformerの探索

BossNAS: Exploring Hybrid CNN-transformers with Block-wisely Self-supervised Neural Architecture Search ( http://arxiv.org/abs/2103.12424v2 )

ライセンス: Link先を確認
Changlin Li, Tao Tang, Guangrun Wang, Jiefeng Peng, Bing Wang, Xiaodan Liang and Xiaojun Chang(参考訳) 視覚認識のための手作りのニューラルアーキテクチャのブレークスルーは、多様化したビルディングブロックで構成されるハイブリッドアーキテクチャを調査する緊急の必要性を強調している。 一方、ニューラルアーキテクチャーの探索手法は、人間の努力を減らすことを期待して急増している。 しかし、NAS法が異なる候補を持つ多種多様な検索空間を効率的に効果的に扱えるかどうか(例えば、等)。 CNNとトランスフォーマー)はまだオープンな質問だ。 本研究では,大重量共有空間による不正確なアーキテクチャ評価の問題に対処し,従来の手法における偏りのある監視手法であるBlock-wise Self-supervised Neural Architecture Search (BossNAS)を提案する。 より具体的には、探索空間をブロックに分類し、アンサンブルブートストラッピング(enmble bootstrapping)と呼ばれる新しい自己教師型トレーニングスキームを用いて、各ブロックを集団中心に向けて検索する前に個別に訓練する。 また,ファブリックのようなハイブリッドCNN変換器検索空間であるHyTra検索空間について述べる。 この挑戦的な検索空間において、我々の検索モデルであるBossNet-Tは、ImageNet上で82.2%の精度を達成し、EfficientNetを2.1%上回った。 さらに,imagenet を用いた正準 mbconv 探索空間と cifar-100 による nats-bench サイズ探索空間では 0.78 と 0.76 のスピアマン相関が,最先端の nas 法を上回っている。 コードと事前トレーニングされたモデルはhttps://github.com/c hanglin31/BossNAS で入手できる。

A myriad of recent breakthroughs in hand-crafted neural architectures for visual recognition have highlighted the urgent need to explore hybrid architectures consisting of diversified building blocks. Meanwhile, neural architecture search methods are surging with an expectation to reduce human efforts. However, whether NAS methods can efficiently and effectively handle diversified search spaces with disparate candidates (e.g. CNNs and transformers) is still an open question. In this work, we present Block-wisely Self-supervised Neural Architecture Search (BossNAS), an unsupervised NAS method that addresses the problem of inaccurate architecture rating caused by large weight-sharing space and biased supervision in previous methods. More specifically, we factorize the search space into blocks and utilize a novel self-supervised training scheme, named ensemble bootstrapping, to train each block separately before searching them as a whole towards the population center. Additionally, we present HyTra search space, a fabric-like hybrid CNN-transformer search space with searchable down-sampling positions. On this challenging search space, our searched model, BossNet-T, achieves up to 82.2% accuracy on ImageNet, surpassing EfficientNet by 2.1% with comparable compute time. Moreover, our method achieves superior architecture rating accuracy with 0.78 and 0.76 Spearman correlation on the canonical MBConv search space with ImageNet and on NATS-Bench size search space with CIFAR-100, respectively, surpassing state-of-the-art NAS methods. Code and pretrained models are available at https://github.com/c hanglin31/BossNAS .
翻訳日:2021-03-25 11:22:13 公開日:2021-03-24
# Masked Memory Network と Transformer を用いた多人数会話における感情の発見とフリップの推論

Discovering Emotion and Reasoning its Flip in Multi-Party Conversations using Masked Memory Network and Transformer ( http://arxiv.org/abs/2103.12360v2 )

ライセンス: Link先を確認
Shivani Kumar, Anubhav Shrimal, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) 多人数会話における話者の感情状態の効率的な発見は、人間のような会話エージェントを設計する上で非常に重要である。 会話中、話者の認知状態はしばしば過去の発話によって変化し、それが彼女の感情状態のフリップにつながる可能性がある。 したがって、会話中の感情のフリップの背後にある理由(トリガー)を発見することは、個々の発話の感情ラベルを説明する上で重要である。 本稿では,会話における感情認識(ERC)の課題に対処すると共に,感情状態が一定時間反転した過去の発話を識別することを目的とした,感情フリップ推論(EFR)という新たなタスクを導入する。 本稿では,前者に対応するマスク付きメモリネットワークと後者のタスクのためのトランスフォーマーベースネットワークを提案する。 この目的のために,マルチパーティ会話における感情認識のベンチマークデータセットであるMELDについて検討し,ERFのための新たな基盤構造ラベルを付加した。 4つの最先端モデルとの比較により,両タスクのモデルの性能改善が示唆された。 さらに,ベースラインと比較してモデルの優越性を支持するために,逸話的証拠と定性的および定量的な誤り解析を提示する。

Efficient discovery of emotion states of speakers in a multi-party conversation is highly important to design human-like conversational agents. During the conversation, the cognitive state of a speaker often alters due to certain past utterances, which may lead to a flip in her emotion state. Therefore, discovering the reasons (triggers) behind one's emotion flip during conversation is important to explain the emotion labels of individual utterances. In this paper, along with addressing the task of emotion recognition in conversations (ERC), we introduce a novel task -- Emotion Flip Reasoning (EFR) that aims to identify past utterances which have triggered one's emotion state to flip at a certain time. We propose a masked memory network to address the former and a Transformer-based network for the latter task. To this end, we consider MELD, a benchmark emotion recognition dataset in multi-party conversations for the task of ERC and augment it with new ground-truth labels for EFR. An extensive comparison with four state-of-the-art models suggests improved performances of our models for both the tasks. We further present anecdotal evidences and both qualitative and quantitative error analyses to support the superiority of our models compared to the baselines.
翻訳日:2021-03-25 11:21:43 公開日:2021-03-24
# transformer meets tracker: 時間的コンテキストを堅牢なビジュアルトラッキングに活用する

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking ( http://arxiv.org/abs/2103.11681v2 )

ライセンス: Link先を確認
Ning Wang and Wengang Zhou and Jie Wang and Houqaing Li(参考訳) ビデオオブジェクトトラッキングでは、逐次的なフレーム間に豊富な時間的コンテキストが存在し、既存のトラッカーではほとんど見落とされている。 本研究では,個々の映像フレームを橋渡しし,ロバストな物体追跡のためのトランスフォーマーアーキテクチャを用いて時間的文脈を探索する。 自然言語処理タスクにおけるトランスフォーマーの古典的な使用とは異なり、エンコーダとデコーダを2つの並列ブランチに分離し、シームズのような追跡パイプライン内で慎重に設計する。 トランスエンコーダは、注目に基づく特徴強化を通じてターゲットテンプレートを促進し、高品質なトラッキングモデル生成に有効である。 トランスデコーダは、トラッキングキューを以前のテンプレートから現在のフレームに伝播させ、オブジェクト検索プロセスを容易にする。 我々のトランスフォーマー支援トラッキングフレームワークは、エンドツーエンドできちんとトレーニングされています。 提案したトランスでは、単純なシームズマッチングアプローチが現在のトップパフォーマンストラッカーより優れている。 我々のトランスフォーマーと最近の識別追跡パイプラインを組み合わせることで,本手法では,先行追跡ベンチマークにおいて新たな最新記録を複数設定した。

In video object tracking, there exist rich temporal contexts among successive frames, which have been largely overlooked in existing trackers. In this work, we bridge the individual video frames and explore the temporal contexts across them via a transformer architecture for robust object tracking. Different from classic usage of the transformer in natural language processing tasks, we separate its encoder and decoder into two parallel branches and carefully design them within the Siamese-like tracking pipelines. The transformer encoder promotes the target templates via attention-based feature reinforcement, which benefits the high-quality tracking model generation. The transformer decoder propagates the tracking cues from previous templates to the current frame, which facilitates the object searching process. Our transformer-assisted tracking framework is neat and trained in an end-to-end manner. With the proposed transformer, a simple Siamese matching approach is able to outperform the current top-performing trackers. By combining our transformer with the recent discriminative tracking pipeline, our method sets several new state-of-the-art records on prevalent tracking benchmarks.
翻訳日:2021-03-25 11:21:23 公開日:2021-03-24
# MonoRUn: 再構成と不確実性伝播による単眼3次元物体検出

MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation ( http://arxiv.org/abs/2103.12605v2 )

ライセンス: Link先を確認
Hansheng Chen, Yuyao Huang, Wei Tian, Zhong Gao, Lu Xiong(参考訳) 3次元空間における物体の局在化は、単眼的3次元物体検出において難しい側面である。 6dofポーズ推定の最近の進歩は、画像と物体の3dモデル間の密接な2d-3d対応マップの予測と、遠近法(pnp)アルゴリズムによる物体ポーズの推定により、顕著な位置推定精度が得られることを示している。 しかし、これらの手法は、実際の屋外シーンでは取得が難しいオブジェクト幾何の基底的真理を用いたトレーニングに依存している。 この問題に対処するために,単純な3次元バウンディングボックスアノテーションを用いて,高密度対応と幾何を自己教師付きで学習する新しい検出フレームワークMonoRUnを提案する。 画素関連3Dオブジェクト座標の回帰には,不確実性を考慮した地域再構成ネットワークを用いる。 自己監督訓練では、予測された3D座標が画像平面に投影される。 不確実性重み付き再射誤差を最小限に抑えるためにロバストKL損失を提案する。 テストフェーズでは、ネットワークの不確実性を利用して、すべての下流モジュールを伝播する。 具体的には、不確実性駆動型PnPアルゴリズムを利用して、オブジェクトのポーズとその共分散を推定する。 広範な実験により,提案手法がkittiベンチマークの最先端手法を上回ることを実証した。

Object localization in 3D space is a challenging aspect in monocular 3D object detection. Recent advances in 6DoF pose estimation have shown that predicting dense 2D-3D correspondence maps between image and object 3D model and then estimating object pose via Perspective-n-Point (PnP) algorithm can achieve remarkable localization accuracy. Yet these methods rely on training with ground truth of object geometry, which is difficult to acquire in real outdoor scenes. To address this issue, we propose MonoRUn, a novel detection framework that learns dense correspondences and geometry in a self-supervised manner, with simple 3D bounding box annotations. To regress the pixel-related 3D object coordinates, we employ a regional reconstruction network with uncertainty awareness. For self-supervised training, the predicted 3D coordinates are projected back to the image plane. A Robust KL loss is proposed to minimize the uncertainty-weighted reprojection error. During testing phase, we exploit the network uncertainty by propagating it through all downstream modules. More specifically, the uncertainty-driven PnP algorithm is leveraged to estimate object pose and its covariance. Extensive experiments demonstrate that our proposed approach outperforms current state-of-the-art methods on KITTI benchmark.
翻訳日:2021-03-25 11:21:05 公開日:2021-03-24