このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210325となっている論文です。

PDF登録状況(公開日: 20210325)

TitleAuthorsAbstract論文公表日・翻訳日
# 半空間のロバストでプライベートな学習

Robust and Private Learning of Halfspaces ( http://arxiv.org/abs/2011.14580v2 )

ライセンス: Link先を確認
Badih Ghazi, Ravi Kumar, Pasin Manurangsi, Thao Nguyen(参考訳) 本研究では,L2摂動下での差分プライバシーと対向ロバスト性とのトレードオフを,学習ハーフスペースの文脈で検討する。 ハーフスペースのロバストなプライベートラーニングのサンプル複雑性のほぼ厳密な境界をパラメータの大規模な構成で証明する。 私たちの結果のハイライトは、堅牢でプライベートな学習は、堅牢でプライベートな学習よりも難しい、ということです。 MNISTおよびUSPSデータセットの実験結果と理論解析を補完し、差分プライベートかつ対角ロバストな学習アルゴリズムを提案する。

In this work, we study the trade-off between differential privacy and adversarial robustness under L2-perturbations in the context of learning halfspaces. We prove nearly tight bounds on the sample complexity of robust private learning of halfspaces for a large regime of parameters. A highlight of our results is that robust and private learning is harder than robust or private learning alone. We complement our theoretical analysis with experimental results on the MNIST and USPS datasets, for a learning algorithm that is both differentially private and adversarially robust.
翻訳日:2021-06-06 14:55:37 公開日:2021-03-25
# 3次元ポーズ推定のための単眼映像の教師なし学習

Unsupervised Learning on Monocular Videos for 3D Human Pose Estimation ( http://arxiv.org/abs/2012.01511v2 )

ライセンス: Link先を確認
Sina Honari, Victor Constantin, Helge Rhodin, Mathieu Salzmann, Pascal Fua(参考訳) 注釈付きデータが存在する場合、深い人間のポーズ推定ネットワークは印象的なパフォーマンスをもたらす。 それでも、特に現実世界の環境では、新しいデータを注釈付けるのは非常に時間がかかる。 ここでは,コントラスト的自己教師付き(css)学習を利用して,シングルビュービデオからリッチな潜在ベクトルを抽出する。 他のcssアプローチのように、近傍のフレームの潜性特徴を単に正のペアとして扱う代わりに、各潜性ベクトルを時間変化成分と時間不変の要素に明示的に分離する。 次に,cssを時間変化特性のみに適用すると同時に,入力を再構成し,近傍特徴と離れた特徴の段階的な遷移を促すことにより,人間のポーズ推定に適した,豊かな潜在空間が得られることを示す。 提案手法は他の教師なし単一ビュー手法よりも優れており,マルチビュー手法の性能に適合する。

In the presence of annotated data, deep human pose estimation networks yield impressive performance. Nevertheless, annotating new data is extremely time-consuming, particularly in real-world conditions. Here, we address this by leveraging contrastive self-supervised (CSS) learning to extract rich latent vectors from single-view videos. Instead of simply treating the latent features of nearby frames as positive pairs and those of temporally-distant ones as negative pairs as in other CSS approaches, we explicitly disentangle each latent vector into a time-variant component and a time-invariant one. We then show that applying CSS only to the time-variant features, while also reconstructing the input and encouraging a gradual transition between nearby and away features, yields a rich latent space, well-suited for human pose estimation. Our approach outperforms other unsupervised single-view methods and matches the performance of multi-view techniques.
翻訳日:2021-05-25 04:09:13 公開日:2021-03-25
# Graph-SIM:歩行者行動予測のためのグラフベース時空間相互作用モデリング

Graph-SIM: A Graph-based Spatiotemporal Interaction Modelling for Pedestrian Action Prediction ( http://arxiv.org/abs/2012.02148v3 )

ライセンス: Link先を確認
Tiffany Yau, Saber Malekmohammadi, Amir Rasouli, Peter Lakner, Mohsen Rohani, Jun Luo(参考訳) 都市環境における自動運転車にとって最も重要かつ困難な課題の1つは、特に交差点での歩行者の将来の行動を予測することである。 予測行動は多くの社会的・環境要因、特に道路利用者間の相互作用に依存する。 このようなインタラクションをキャプチャするには,3次元空間における道路利用者の状況と動態をグローバルに把握する必要がある。 しかし、この情報は現在の歩行者行動ベンチマークデータセットからは欠落している。 これらの課題により,1)歩行者横断行動を予測する新しいグラフベースモデルを提案する。 本手法は,群集化による歩行者の道路利用者とのインタラクションのモデル化と,鳥眼ビューから得られた特徴を用いた対話の相対的重み付けを行う。 2)既存のnuscenesデータセットに3dバウンディングボックスと歩行者行動アノテーションを提供する新しいデータセットを導入する。 新たなデータでは,既存の手法と比較して,さまざまな指標を15%以上改善することで,最先端のパフォーマンスを実現する。 データセットはhttps://github.com/h uawei-noah/datasets/ PePScenesで公開されている。

One of the most crucial yet challenging tasks for autonomous vehicles in urban environments is predicting the future behaviour of nearby pedestrians, especially at points of crossing. Predicting behaviour depends on many social and environmental factors, particularly interactions between road users. Capturing such interactions requires a global view of the scene and dynamics of the road users in three-dimensional space. This information, however, is missing from the current pedestrian behaviour benchmark datasets. Motivated by these challenges, we propose 1) a novel graph-based model for predicting pedestrian crossing action. Our method models pedestrians' interactions with nearby road users through clustering and relative importance weighting of interactions using features obtained from the bird's-eye-view. 2) We introduce a new dataset that provides 3D bounding box and pedestrian behavioural annotations for the existing nuScenes dataset. On the new data, our approach achieves state-of-the-art performance by improving on various metrics by more than 15% in comparison to existing methods. The dataset is available at https://github.com/h uawei-noah/datasets/ PePScenes.
翻訳日:2021-05-23 14:43:43 公開日:2021-03-25
# (参考訳) 不確実性定量化のためのベイズニューラルネットワークの潜在後部符号化 [全文訳有]

Encoding the latent posterior of Bayesian Neural Networks for uncertainty quantification ( http://arxiv.org/abs/2012.02818v2 )

ライセンス: CC BY 4.0
Gianni Franchi, Andrei Bursuc, Emanuel Aldea, Severine Dubuisson, Isabelle Bloch(参考訳) ベイズニューラルネットワーク(BNN)は、ディープニューラルネットワークの堅牢性と予測の不確実性を改善するために、長年、理想的な、しかしスケールできないソリューションと考えられてきた。 ネットワークパラメータの後方分布をより正確に捉えることができるが、ほとんどのBNNアプローチは小さなネットワークに限定されるか、パラメータ独立のような制約のある仮定に依存している。 これらの欠点により、Deep Ensemblesのような単純だが計算的に重いアプローチが普及し、トレーニングとテストのコストはネットワークの数とともに線形に増加する。 本研究では,複雑なコンピュータビジョンアーキテクチャに適用可能な効率的な深部BNNの実現を目指す。 ResNet50 DeepLabV3+、タスク、例えば。 パラメータの仮定が少ないセマンティックセグメンテーション。 可変オートエンコーダ(VAE)を利用して、各ネットワーク層におけるパラメータの相互作用と潜在分布を学習する。 我々のアプローチであるLatent-Posterior BNN(LP-BNN)は、最近のBatchEnsemble法と互換性があり、高い効率(トレーニングとテストの両方における計算量とメモリ量)のアンサンブルにつながる。 lp-bnn sは、画像分類、意味セグメンテーション、分散検出など、いくつかの困難なベンチマークにおいて、複数のメトリクスで競合結果を得る。

Bayesian neural networks (BNNs) have been long considered an ideal, yet unscalable solution for improving the robustness and the predictive uncertainty of deep neural networks. While they could capture more accurately the posterior distribution of the network parameters, most BNN approaches are either limited to small networks or rely on constraining assumptions such as parameter independence. These drawbacks have enabled prominence of simple, but computationally heavy approaches such as Deep Ensembles, whose training and testing costs increase linearly with the number of networks. In this work we aim for efficient deep BNNs amenable to complex computer vision architectures, e.g. ResNet50 DeepLabV3+, and tasks, e.g. semantic segmentation, with fewer assumptions on the parameters. We achieve this by leveraging variational autoencoders (VAEs) to learn the interaction and the latent distribution of the parameters at each network layer. Our approach, Latent-Posterior BNN (LP-BNN), is compatible with the recent BatchEnsemble method, leading to highly efficient ({in terms of computation and} memory during both training and testing) ensembles. LP-BNN s attain competitive results across multiple metrics in several challenging benchmarks for image classification, semantic segmentation and out-of-distribution detection.
翻訳日:2021-05-22 23:45:58 公開日:2021-03-25
# (参考訳) クラスインクリメンタルセマンティクスセグメンテーションのための自己学習 [全文訳有]

Self-Training for Class-Incremental Semantic Segmentation ( http://arxiv.org/abs/2012.03362v2 )

ライセンス: CC BY 4.0
Lu Yu, Xialei Liu, Joost van de Weijer(参考訳) class-incremental semantic segmentationでは、以前のタスクのラベル付きデータにアクセスできません。 したがって、新しいクラスを徐々に学ぶと、ディープニューラルネットワークは過去の学習した知識を壊滅的に忘れてしまう。 この問題に対処するために,従来の知識のリハーサルに使用されるラベルなしデータを活用した自己学習手法を提案する。 さらに、古いモデルと新しいモデルの両方から生成された擬似ラベルの競合を解決するために競合低減が提案されている。 自己エントロピーの最大化は、過信予測を円滑にすることで、結果をさらに改善できることを示す。 興味深いことに、実験では、補助データがトレーニングデータと異なる可能性があり、汎用的で多様な補助データでさえ大きなパフォーマンス向上をもたらすことが示されている。 実験は最先端の結果を示しており、Pascal-VOC 2012では114%、ADE20Kでは8.5%と、従来の最先端の手法に比べて高い。

In class-incremental semantic segmentation we have no access to the labeled data of previous tasks. Therefore, when incrementally learning new classes, deep neural networks suffer from catastrophic forgetting of previously learned knowledge. To address this problem, we propose to apply a self-training approach that leverages unlabeled data, which is used for rehearsal of previous knowledge. Additionally, conflict reduction is proposed to resolve the conflicts of pseudo labels generated from both the old and new models. We show that maximizing self-entropy can further improve results by smoothing the overconfident predictions. Interestingly, in the experiments we show that the auxiliary data can be different from the training data and that even general-purpose but diverse auxiliary data can lead to large performance gains. The experiments demonstrate state-of-the-art results: obtaining a relative gain of up to 114% on Pascal-VOC 2012 and 8.5% on the more challenging ADE20K compared to previous state-of-the-art methods.
翻訳日:2021-05-22 03:49:22 公開日:2021-03-25
# (参考訳) Adaptive Submodular Meta-Learning [全文訳有]

Adaptive Submodular Meta-Learning ( http://arxiv.org/abs/2012.06070v2 )

ライセンス: CC BY 4.0
Shaojie Tang, Jing Yuan(参考訳) メタラーニングは機械学習と人工知能のコミュニティで注目を集めている。 本稿では,適応型サブモジュールメタ学習問題を紹介し,研究する。 問題の入力はアイテムの集合であり、各アイテムは最初は未知のランダムな状態を持つ。 アイテムの状態を見る唯一の方法は、そのアイテムを選択することです。 我々の目標は、タスク群上で最高のパフォーマンスを達成する項目群を適応的に選択することであり、各タスクは、アイテムの集合とその状態を実数にマップする適応サブモジュラー関数として表現される。 今後のタスク毎にパーソナライズしたソリューションを維持しつつ計算コストを削減すべく,まず,先述したタスクに基づいて初期ソリューションセットを選択した上で,新たなタスクが到着した時点で,残りのアイテムを初期ソリューションセットに適応的に追加する。 新しいタスクごとに新しいソリューションが計算されるソリューションと比較して、メタラーニングベースのアプローチは、初期ソリューションセットがトレーニング段階で事前計算されているため、テスト時の計算オーバーヘッドを低減します。 この問題を解決するために,二相欲政策を提案し,単調の場合の近似比が1/2$であることを示す。 非単調の場合、二相ランダム化グリーディポリシーを開発し、1/32$近似比を達成する。

Meta-Learning has gained increasing attention in the machine learning and artificial intelligence communities. In this paper, we introduce and study an adaptive submodular meta-learning problem. The input of our problem is a set of items, where each item has a random state which is initially unknown. The only way to observe an item's state is to select that item. Our objective is to adaptively select a group of items that achieve the best performance over a set of tasks, where each task is represented as an adaptive submodular function that maps sets of items and their states to a real number. To reduce the computational cost while maintaining a personalized solution for each future task, we first select an initial solution set based on previously observed tasks, then adaptively add the remaining items to the initial solution set when a new task arrives. As compared to the solution where a brand new solution is computed for each new task, our meta-learning based approach leads to lower computational overhead at test time since the initial solution set is pre-computed in the training stage. To solve this problem, we propose a two-phase greedy policy and show that it achieves a $1/2$ approximation ratio for the monotone case. For the non-monotone case, we develop a two-phase randomized greedy policy that achieves a $1/32$ approximation ratio.
翻訳日:2021-05-14 10:36:36 公開日:2021-03-25
# FSOCO:コンテキストデータセットにおけるフォーミュラ学生オブジェクト

FSOCO: The Formula Student Objects in Context Dataset ( http://arxiv.org/abs/2012.07139v2 )

ライセンス: Link先を確認
David Dodel, Michael Sch\"otz, Niclas V\"odisch(参考訳) 本稿では,フォーミュラ・スケーラレス競技における視覚に基づくコーン検出システムのための協調的データセットであるFSOCOデータセットを提案する。 それは、境界ボックスとインスタンスワイドセグメンテーションマスクの両方のための人間の注釈付き真実ラベルを含んでいる。 fsocoのデータ購入哲学は、継続的な成長を保証するアクセスが与えられる前に、まず学生チームにデータベースへの貢献を依頼する。 洗練された生画像選択のための明確なラベリングガイドラインとツールを提供することで、新しいアノテーションは望ましい品質を満たすことが保証される。 提案手法の有効性は,FSOCOとその非規制前のネットワークの予測結果を比較することで示される。 FSOCOデータセットはfsoco-dataset.comで見ることができる。

This paper presents the FSOCO dataset, a collaborative dataset for vision-based cone detection systems in Formula Student Driverless competitions. It contains human annotated ground truth labels for both bounding boxes and instance-wise segmentation masks. The data buy-in philosophy of FSOCO asks student teams to contribute to the database first before being granted access ensuring continuous growth. By providing clear labeling guidelines and tools for a sophisticated raw image selection, new annotations are guaranteed to meet the desired quality. The effectiveness of the approach is shown by comparing prediction results of a network trained on FSOCO and its unregulated predecessor. The FSOCO dataset can be found at fsoco-dataset.com.
翻訳日:2021-05-09 12:47:46 公開日:2021-03-25
# 限定サンプルからの自己教師付き特徴学習

Aggregative Self-Supervised Feature Learning from a Limited Sample ( http://arxiv.org/abs/2012.07477v3 )

ライセンス: Link先を確認
Jiuwen Zhu, Yuexiang Li, S. Kevin Zhou(参考訳) 自己教師付き学習(SSL)は、限られたトレーニングデータとアノテーション不足の問題に対処する効率的なアプローチである。 sslの重要な部分は、監視信号を定義し、効果的な特徴表現に向けて学習を駆動するプロキシタスクである。 しかし、ほとんどのSSLアプローチは単一のプロキシタスクに重点を置いており、学習した機能の表現力を大幅に制限しているため、ネットワークの一般化能力は低下する。 そこで本研究では,様々な形態の相補性の観点から,自己教師付き学習特徴の頑健性を高める2つの集約戦略を提案する。 まず,複数タスク間の特徴相補性を活用することを目的とした,限定的なサンプルからの多タスク集約型自己教師型学習の原則的枠組みを提案する。 そして,自己集約型SSLにおいて,線形中心のカーネルアライメントメトリックに基づいて,既存のプロキシタスクを補助的損失関数で自己補完することを提案する。 2次元自然画像および3次元医用画像分類タスクを限定データおよびアノテーションシナリオで広範囲に実験した結果,提案手法が分類精度を向上できることが確認された。

Self-supervised learning (SSL) is an efficient approach that addresses the issue of limited training data and annotation shortage. The key part in SSL is its proxy task that defines the supervisory signals and drives the learning toward effective feature representations. However, most SSL approaches usually focus on a single proxy task, which greatly limits the expressive power of the learned features and therefore deteriorates the network generalization capacity. In this regard, we hereby propose two strategies of aggregation in terms of complementarity of various forms to boost the robustness of self-supervised learned features. We firstly propose a principled framework of multi-task aggregative self-supervised learning from a limited sample to form a unified representation, with an intent of exploiting feature complementarity among different tasks. Then, in self-aggregative SSL, we propose to self-complement an existing proxy task with an auxiliary loss function based on a linear centered kernel alignment metric, which explicitly promotes the exploring of where are uncovered by the features learned from a proxy task at hand to further boost the modeling capability. Our extensive experiments on 2D natural image and 3D medical image classification tasks under limited data and annotation scenarios confirm that the proposed aggregation strategies successfully boost the classification accuracy.
翻訳日:2021-05-08 14:30:39 公開日:2021-03-25
# サロゲートラグランジアン緩和を用いたリトレインフリーディープニューラルネットワークプルーニングの実現

Enabling Retrain-free Deep Neural Network Pruning using Surrogate Lagrangian Relaxation ( http://arxiv.org/abs/2012.10079v2 )

ライセンス: Link先を確認
Deniz Gurevin, Shanglin Zhou, Lynn Pepin, Bingbing Li, Mikhail Bragin, Caiwen Ding, Fei Miao(参考訳) ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。 しかし、典型的な3段階パイプライン、すなわち、訓練、刈り取り、再訓練(微調整)は、トレーニング全体のパスを著しく増加させる。 本稿では,高速収束を確保しつつ,重み付き問題の離散的性質に起因する困難を克服するために調整されたslr(surrogate lagrangian relaxation)に基づく体系的重み付き最適化手法を提案する。 我々はさらに2次罰則を用いてSLRの収束を加速する。 訓練期間中にSLRが取得したモデルパラメータは、他の最先端手法と比較すると、その最適値にかなり近い。 我々は,イメージネットを用いたResNet-18,ResNet-50, CIFAR-10を用いたResNet-50,ResNet-50, VGG-16,COCO 2014を用いたYOLOv3およびYOLOv3-tiny,TuSimple レーン検出データセットを用いたUltra-Fast-Lane-Dete ctionなどの画像分類タスクについて評価を行った。 実験結果から,SLRに基づく重み付け最適化手法は,同じ精度で,最先端技術よりも高い圧縮率を実現することが示された。 また、再訓練せずにハードプルーニング段階においても高いモデル精度を達成する(従来の3段プルーニングを2段に還元する)。 再学習の予算が限られているため,本手法はモデル精度を迅速に回復する。

Network pruning is a widely used technique to reduce computation cost and model size for deep neural networks. However, the typical three-stage pipeline, i.e., training, pruning and retraining (fine-tuning) significantly increases the overall training trails. In this paper, we develop a systematic weight-pruning optimization approach based on Surrogate Lagrangian relaxation (SLR), which is tailored to overcome difficulties caused by the discrete nature of the weight-pruning problem while ensuring fast convergence. We further accelerate the convergence of the SLR by using quadratic penalties. Model parameters obtained by SLR during the training phase are much closer to their optimal values as compared to those obtained by other state-of-the-art methods. We evaluate the proposed method on image classification tasks, i.e., ResNet-18 and ResNet-50 using ImageNet, and ResNet-18, ResNet-50 and VGG-16 using CIFAR-10, as well as object detection tasks, i.e., YOLOv3 and YOLOv3-tiny using COCO 2014 and Ultra-Fast-Lane-Dete ction using TuSimple lane detection dataset. Experimental results demonstrate that our SLR-based weight-pruning optimization approach achieves higher compression rate than state-of-the-arts under the same accuracy requirement. It also achieves a high model accuracy even at the hard-pruning stage without retraining (reduces the traditional three-stage pruning to two-stage). Given a limited budget of retraining epochs, our approach quickly recovers the model accuracy.
翻訳日:2021-05-01 18:22:43 公開日:2021-03-25
# 形式的検証ニューラルネットワークの複雑さの境界:幾何学的アプローチ

Bounding the Complexity of Formally Verifying Neural Networks: A Geometric Approach ( http://arxiv.org/abs/2012.11761v2 )

ライセンス: Link先を確認
James Ferlez and Yasser Shoukry(参考訳) 本稿では,Rectified Linear Unit (ReLU) Neural Networks (NN) の動作を正式に検証する計算複雑性について考察する。 具体的には、浅いNNとTLL(Two-Level Lattice)という2つの異なるNNアーキテクチャに対して、(凸)ポリトピック制約の検証問題は、その検証問題の他の全ての側面が固定されている場合、NN内のニューロン数の多項式であることを示す。 各タイプのアーキテクチャに対して明示的な(しかし類似した)検証アルゴリズムを提示することで、これらの複雑さの成果を達成します。 どちらのアルゴリズムもnnパラメータをハイパープレーンによってnnの入力空間の分割に効率的に変換し、元の検証問題をニューロンの幾何から得られる多項式的に多くのサブ検証問題に分割する効果を持つ。 これらのサブプロブレムはNNが純粋にアフィンであるように選択でき、したがって各サブプロブレムは線形プログラム(LP)を用いて多項式時間で解けることを示す。 これにより、超平面配置領域を列挙する既知のアルゴリズムを用いて、元の検証問題に対する多項式時間アルゴリズムを得ることができる。 最後に、提案アルゴリズムを動的システムの検証に適用し、特にこれらのNNアーキテクチャがLTIシステムの状態フィードバックコントローラとして使用される場合について述べる。 さらに,本手法の有効性を数値的に評価する。

In this paper, we consider the computational complexity of formally verifying the behavior of Rectified Linear Unit (ReLU) Neural Networks (NNs), where verification entails determining whether the NN satisfies convex polytopic specifications. Specifically, we show that for two different NN architectures -- shallow NNs and Two-Level Lattice (TLL) NNs -- the verification problem with (convex) polytopic constraints is polynomial in the number of neurons in the NN to be verified, when all other aspects of the verification problem held fixed. We achieve these complexity results by exhibiting explicit (but similar) verification algorithms for each type of architecture. Both algorithms efficiently translate the NN parameters into a partitioning of the NN's input space by means of hyperplanes; this has the effect of partitioning the original verification problem into polynomially many sub-verification problems derived from the geometry of the neurons. We show that these sub-problems may be chosen so that the NN is purely affine within each, and hence each sub-problem is solvable in polynomial time by means of a Linear Program (LP). Thus, a polynomial-time algorithm for the original verification problem can be obtained using known algorithms for enumerating the regions in a hyperplane arrangement. Finally, we adapt our proposed algorithms to the verification of dynamical systems, specifically when these NN architectures are used as state-feedback controllers for LTI systems. We further evaluate the viability of this approach numerically.
翻訳日:2021-04-26 07:26:58 公開日:2021-03-25
# 物理メール上のプライバシー攻撃に基づくディープラーニングのモデリング

Modeling Deep Learning Based Privacy Attacks on Physical Mail ( http://arxiv.org/abs/2012.11803v2 )

ライセンス: Link先を確認
Bingyao Huang and Ruyi Lian and Dimitris Samaras and Haibin Ling(参考訳) メールのプライバシー保護は、通常の紙封筒ほど安全ではないため、封筒内の隠されたコンテンツへの不正アクセスを防止することを目的としている。 本稿では,高度に設計された深層学習モデルを用いて,エンベロープを開くことなく,隠れたコンテンツを大々的に復元できることを初めて示す。 まず,物理的メールコンテンツに対する深層学習に基づくプライバシー攻撃を,カメラでキャプチャされた表層画像から隠れたコンテンツへのマッピングを学習し,そのマッピングを,ニューラルネットワークneural-ste(see-throu gh-envelope)と呼ばれる深層畳み込みニューラルネットワークを用いた遠近変換,画像デハジング,デノイジングの組み合わせとして明示的にモデル化する。 本研究では,テクスチャや画像構造などの隠された内容の詳細を明らかに復元できることを実験的に示す。 最後に、私たちの定式化とモデルにより、物理的なメールに対するディープラーニングベースのプライバシー攻撃に対抗するエンベロープを設計できます。

Mail privacy protection aims to prevent unauthorized access to hidden content within an envelope since normal paper envelopes are not as safe as we think. In this paper, for the first time, we show that with a well designed deep learning model, the hidden content may be largely recovered without opening the envelope. We start by modeling deep learning-based privacy attacks on physical mail content as learning the mapping from the camera-captured envelope front face image to the hidden content, then we explicitly model the mapping as a combination of perspective transformation, image dehazing and denoising using a deep convolutional neural network, named Neural-STE (See-Through-Envelop e). We show experimentally that hidden content details, such as texture and image structure, can be clearly recovered. Finally, our formulation and model allow us to design envelopes that can counter deep learning-based privacy attacks on physical mail.
翻訳日:2021-04-26 07:17:13 公開日:2021-03-25
# soft-introvae:intros pective variational autoencoderの分析と改善

Soft-IntroVAE: Analyzing and Improving the Introspective Variational Autoencoder ( http://arxiv.org/abs/2012.13253v2 )

ライセンス: Link先を確認
Tal Daniel and Aviv Tamar(参考訳) 最近導入された IntroVAE (IntroVAE) は、優れた画像生成を示し、画像エンコーダを用いた償却推論を可能にする。 IntroVAEの主なアイデアは、VAEエンコーダを使用して、生成されたデータと実際のデータサンプルを識別して、VAEを逆さまにトレーニングすることだ。 しかし、元々のIntroVAE損失関数は、実際に安定することが非常に難しい特定のヒンジロス定式化に依存し、その理論的収束解析は損失の重要な項を無視した。 本研究では, 導入モデル, 実践的実装, 応用についてより深く理解するための一歩を踏み出す。 我々は,ヒンジロス項をスムーズな指数損失で置き換える改良型IntroVAEであるSoft-IntroVAEを提案する。 この変更はトレーニングの安定性を大幅に改善し、完全なアルゴリズムの理論解析を可能にする。 興味深いことに、IntroVAEはデータ分布とエントロピー項とのKL距離の和を最小化する分布に収束する。 この結果の意義を考察し,競合画像の生成と再構成を誘導することを示す。 最後に,非教師なし画像翻訳と分布外検出に対するsoft-introvaeの2つの応用について述べ,説得力のある結果を示す。 コードと追加情報はプロジェクトのwebサイト -https://taldatech.g ithub.io/soft-intro- vae-webで入手できる。

The recently introduced introspective variational autoencoder (IntroVAE) exhibits outstanding image generations, and allows for amortized inference using an image encoder. The main idea in IntroVAE is to train a VAE adversarially, using the VAE encoder to discriminate between generated and real data samples. However, the original IntroVAE loss function relied on a particular hinge-loss formulation that is very hard to stabilize in practice, and its theoretical convergence analysis ignored important terms in the loss. In this work, we take a step towards better understanding of the IntroVAE model, its practical implementation, and its applications. We propose the Soft-IntroVAE, a modified IntroVAE that replaces the hinge-loss terms with a smooth exponential loss on generated samples. This change significantly improves training stability, and also enables theoretical analysis of the complete algorithm. Interestingly, we show that the IntroVAE converges to a distribution that minimizes a sum of KL distance from the data distribution and an entropy term. We discuss the implications of this result, and demonstrate that it induces competitive image generation and reconstruction. Finally, we describe two applications of Soft-IntroVAE to unsupervised image translation and out-of-distribution detection, and demonstrate compelling results. Code and additional information is available on the project website -- https://taldatech.gi thub.io/soft-intro-v ae-web
翻訳日:2021-04-25 08:27:07 公開日:2021-03-25
# REM-Net:Recursive Erasure Memory Network for Commonsense Evidence Refinement

REM-Net: Recursive Erasure Memory Network for Commonsense Evidence Refinement ( http://arxiv.org/abs/2012.13185v3 )

ライセンス: Link先を確認
Yinya Huang, Meng Fang, Xunlin Zhan, Qingxing Cao, Xiaodan Liang, Liang Lin(参考訳) 質問に答えるとき、人々は特定の文脈に加えて、自分の豊かな世界知識を引き出すことが多い。 近年の研究では、共通知識ベースから支援事実・証拠を回収し、各質問に追加情報を提供する一方で、証拠の質を向上する機会は十分にある。 証拠の質は常識的な質問に答える鍵であり、qaシステムのパフォーマンスの上限も決定するので、これは非常に重要です。 本稿では,エビデンスの品質向上に対応するための再帰的消去メモリネットワーク(rem-net)を提案する。 これを解決するため、REM-Netは、質問に答えない低品質な証拠を再帰的に消去することで証拠を洗練するためのモジュールを備えている。 さらに、REM-Netは既存の知識ベースから証拠を取得する代わりに、事前訓練された生成モデルを活用して、質問用にカスタマイズされた候補証拠を生成する。 WIQAとCosmosQAの2つの共通性質問応答データセットについて実験を行った。 その結果、REM-Netの性能を実証し、洗練された証拠が説明可能であることを示した。

When answering a question, people often draw upon their rich world knowledge in addition to the particular context. While recent works retrieve supporting facts/evidence from commonsense knowledge bases to supply additional information to each question, there is still ample opportunity to advance it on the quality of the evidence. It is crucial since the quality of the evidence is the key to answering commonsense questions, and even determines the upper bound on the QA systems performance. In this paper, we propose a recursive erasure memory network (REM-Net) to cope with the quality improvement of evidence. To address this, REM-Net is equipped with a module to refine the evidence by recursively erasing the low-quality evidence that does not explain the question answering. Besides, instead of retrieving evidence from existing knowledge bases, REM-Net leverages a pre-trained generative model to generate candidate evidence customized for the question. We conduct experiments on two commonsense question answering datasets, WIQA and CosmosQA. The results demonstrate the performance of REM-Net and show that the refined evidence is explainable.
翻訳日:2021-04-25 08:26:26 公開日:2021-03-25
# (参考訳) ボトムアップ姿勢推定のためのヒートマップ回帰の再検討 [全文訳有]

Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation ( http://arxiv.org/abs/2012.15175v4 )

ライセンス: CC BY 4.0
Zhengxiong Luo, Zhicheng Wang, Yan Huang, Tieniu Tan, Erjin Zhou(参考訳) ヒートマップ回帰は、現在人間のポーズ推定法において最も一般的な選択となっている。 基底トラスヒートマップは通常、2Dガウス核によって全ての骨格キーポイントをカバーして構築される。 これらのカーネルの標準偏差は固定されている。 しかし、人間のスケールの大きな分散や曖昧さのラベル付けが必要なボトムアップ手法では、現在のプラクティスは理にかなっているように思える。 これらの問題に対処するために、各キーポイントの標準偏差を適応的に調整できるスケール適応型ヒートマップ回帰法(SAHR)を提案する。 このように、SAHRは様々な人間のスケールに寛容であり、曖昧さをラベル付けする。 しかし、SAHRは背景サンプル間の不均衡を悪化させ、SAHRの改善を損なう可能性がある。 そこで,本研究では,重量適応型ヒートマップ回帰法(WAHR)を導入して,背景試料のバランスをとる。 広汎な実験により,SAHRとWAHRはボトムアップヒトのポーズ推定の精度を大幅に向上させることが示された。 その結果,ほとんどのトップダウン手法の性能と組み合わせたCOCO test-dev2017において,技術モデルの性能を+1.5APで上回り,72.0APを達成した。 ソースコードはhttps://github.com/g reatlog/SWAHR-HumanP oseで入手できる。

Heatmap regression has become the most prevalent choice for nowadays human pose estimation methods. The ground-truth heatmaps are usually constructed via covering all skeletal keypoints by 2D gaussian kernels. The standard deviations of these kernels are fixed. However, for bottom-up methods, which need to handle a large variance of human scales and labeling ambiguities, the current practice seems unreasonable. To better cope with these problems, we propose the scale-adaptive heatmap regression (SAHR) method, which can adaptively adjust the standard deviation for each keypoint. In this way, SAHR is more tolerant of various human scales and labeling ambiguities. However, SAHR may aggravate the imbalance between fore-background samples, which potentially hurts the improvement of SAHR. Thus, we further introduce the weight-adaptive heatmap regression (WAHR) to help balance the fore-background samples. Extensive experiments show that SAHR together with WAHR largely improves the accuracy of bottom-up human pose estimation. As a result, we finally outperform the state-of-the-art model by +1.5AP and achieve 72.0AP on COCO test-dev2017, which is com-arable with the performances of most top-down methods. Source codes are available at https://github.com/g reatlog/SWAHR-HumanP ose.
翻訳日:2021-04-18 13:23:58 公開日:2021-03-25
# グラフニューラルネットワークの説明可能性:分類学的調査

Explainability in Graph Neural Networks: A Taxonomic Survey ( http://arxiv.org/abs/2012.15445v2 )

ライセンス: Link先を確認
Hao Yuan, Haiyang Yu, Shurui Gui, and Shuiwang Ji(参考訳) ディープラーニングの手法は多くの人工知能タスクでますます高いパフォーマンスを達成しています。 深層モデルの大きな制限は、それらが解釈可能でないことである。 この制限は、予測を説明するポストホック技術を開発し、説明可能性の領域を生じさせることによって回避できる。 近年,画像やテキストの深層モデルの説明可能性が大きく進歩している。 グラフデータ領域では、グラフニューラルネットワーク(GNN)とその説明可能性が急速に発展している。 しかし、GNN説明可能性手法の統一的な処理や標準ベンチマークや評価のためのテストベッドは存在しない。 本調査では,現在のGNN説明可能性手法の統一的・分類学的考察を行う。 本研究の統一的・分類学的処理は,既存の方法の共通点と相違点に光を当て,さらなる方法論的発展の舞台を整えた。 評価を容易にするため,GNN説明可能性のためのベンチマークグラフデータセットを作成した。 GNN説明可能性を評価するための現在のデータセットとメトリクスを要約する。 この研究は、GNN説明可能性の統一的な方法論的処理と、評価のための標準化されたテストベッドを提供する。

Deep learning methods are achieving ever-increasing performance on many artificial intelligence tasks. A major limitation of deep models is that they are not amenable to interpretability. This limitation can be circumvented by developing post hoc techniques to explain the predictions, giving rise to the area of explainability. Recently, explainability of deep models on images and texts has achieved significant progress. In the area of graph data, graph neural networks (GNNs) and their explainability are experiencing rapid developments. However, there is neither a unified treatment of GNN explainability methods, nor a standard benchmark and testbed for evaluations. In this survey, we provide a unified and taxonomic view of current GNN explainability methods. Our unified and taxonomic treatments of this subject shed lights on the commonalities and differences of existing methods and set the stage for further methodological developments. To facilitate evaluations, we generate a set of benchmark graph datasets specifically for GNN explainability. We summarize current datasets and metrics for evaluating GNN explainability. Altogether, this work provides a unified methodological treatment of GNN explainability and a standardized testbed for evaluations.
翻訳日:2021-04-17 17:25:00 公開日:2021-03-25
# プロトタイプベースパーソナライズプルーニング

Prototype-based Personalized Pruning ( http://arxiv.org/abs/2103.15564v1 )

ライセンス: Link先を確認
Jangho Kim, Simyung Chang, Sungrack Yun, Nojun Kwak(参考訳) 近年、スマートフォンなどのエッジデバイスの普及に伴い、パーソナライズされたサービスへの需要が高まっている。 しかしながら、従来のパーソナライズ手法は、限られた個人データで再トレーニングや微調整を必要とするため、エッジデバイスには適さない。 また、完全なモデルは限られたリソースを持つエッジデバイスには重すぎるかもしれない。 残念ながら、モデルの複雑さの問題を扱うモデル圧縮メソッドは、再トレーニングフェーズも必要です。 これらの複数のトレーニングフェーズは、デバイス上での学習において大きな計算コストを必要とする。 本研究では,プロトタイプベースパーソナライズプルーニング(PPP)と呼ばれる動的パーソナライズ手法を提案する。 PPPはパーソナライズとモデル効率の両端を考慮する。 ネットワークをトレーニングした後、PPPは個人データの特徴を表すプロトタイプで容易にネットワークを訓練でき、再トレーニングや微調整をすることなく、うまく機能する。 コンピュータビジョンとキーワードスポッティングにおける2つのタスクにおけるPPPの有用性を検証する。

Nowadays, as edge devices such as smartphones become prevalent, there are increasing demands for personalized services. However, traditional personalization methods are not suitable for edge devices because retraining or finetuning is needed with limited personal data. Also, a full model might be too heavy for edge devices with limited resources. Unfortunately, model compression methods which can handle the model complexity issue also require the retraining phase. These multiple training phases generally need huge computational cost during on-device learning which can be a burden to edge devices. In this work, we propose a dynamic personalization method called prototype-based personalized pruning (PPP). PPP considers both ends of personalization and model efficiency. After training a network, PPP can easily prune the network with a prototype representing the characteristics of personal data and it performs well without retraining or finetuning. We verify the usefulness of PPP on a couple of tasks in computer vision and Keyword spotting.
翻訳日:2021-03-30 14:47:37 公開日:2021-03-25
# Edge AIの設計方法論と将来動向:特殊化と共同設計

Enabling Design Methodologies and Future Trends forEdge AI: Specialization and Co-design ( http://arxiv.org/abs/2103.15750v1 )

ライセンス: Link先を確認
Cong Hao, Jordan Dotzel, Jinjun Xiong, Luca Benini, Zhiru Zhang, Deming Chen(参考訳) 近年、人工知能(AI)技術は劇的に進歩し、人々の生活に革命的な変化をもたらした。 エッジコンピューティングを活用して、AIワークロードは、中央集権的なクラウドアーキテクチャから分散エッジシステムへと移行し、エッジAIと呼ばれる新しいパラダイムを導入している。 edge aiは、共通エッジデバイスを通じて日常生活に自律性と知性を大幅に増やすことを約束しているが、特にアルゴリズムの開発や、これらのユニークな課題に対応する新しいデザイン方法論を求めるサービスの展開において、新たな課題を提起している。 本稿では、エッジai開発スタック全体にまたがる最新の設計方法論に関する総合的な調査を行う。 効率的なエッジAI開発のための重要な手法は、単層特殊化とクロス層共同設計である。 オンデバイストレーニング手法,専用ソフトウェア設計,専用ハードウェア設計,ベンチマークと設計自動化,ソフトウェア/ハードウェア共同設計,ソフトウェア/コンパイラ共同設計,コンパイラ/ハードウェア共同設計など,各カテゴリの代表的な方法論について詳細に論じる。 さらに、将来のエッジaiのソリューション品質をさらに向上させ、研究の焦点を増す必要がある将来の方向性や新興分野への洞察を提供する、隠れたクロスレイヤー設計の機会を明らかにすることを試みる。

Artificial intelligence (AI) technologies have dramatically advanced in recent years, resulting in revolutionary changes in people's lives. Empowered by edge computing, AI workloads are migrating from centralized cloud architectures to distributed edge systems, introducing a new paradigm called edge AI. While edge AI has the promise of bringing significant increases in autonomy and intelligence into everyday lives through common edge devices, it also raises new challenges, especially for the development of its algorithms and the deployment of its services, which call for novel design methodologies catered to these unique challenges. In this paper, we provide a comprehensive survey of the latest enabling design methodologies that span the entire edge AI development stack. We suggest that the key methodologies for effective edge AI development are single-layer specialization and cross-layer co-design. We discuss representative methodologies in each category in detail, including on-device training methods, specialized software design, dedicated hardware design, benchmarking and design automation, software/hardware co-design, software/compiler co-design, and compiler/hardware co-design. Moreover, we attempt to reveal hidden cross-layer design opportunities that can further boost the solution quality of future edge AI and provide insights into future directions and emerging areas that require increased research focus.
翻訳日:2021-03-30 14:45:04 公開日:2021-03-25
# (参考訳) 長時間特徴集約による圧縮映像のリアルタイム・高精度物体検出 [全文訳有]

Real-Time and Accurate Object Detection in Compressed Video by Long Short-term Feature Aggregation ( http://arxiv.org/abs/2103.14529v1 )

ライセンス: CC BY 4.0
Xinggang Wang, Zhaojin Huang, Bencheng Liao, Lichao Huang, Yongchao Gong, Chang Huang(参考訳) ビデオ物体検出はコンピュータビジョンにおける根本的な問題であり、幅広い応用範囲がある。 ディープネットワークに基づいて,検出速度と精度の限界を押し上げるために,映像物体検出が積極的に研究されている。 計算コストを低減させるため,キーフレームをビデオでサンプリングし,残りフレームを非キーフレームとして扱い,大きなディープネットワークをキーフレームの特徴抽出に,小さなネットワークを非キーフレームに使用する。 非鍵フレームの特徴を高めるために、キーフレームの特徴の豊富な情報を高速に非鍵フレームの特徴に伝達する、新しい短期的特徴集約法を提案する。 高速機能アグリゲーションは、圧縮ビデオで自由に利用可能なモーションキューによって実現される。 さらに、光フローに基づいてキーフレームの特徴を集約する。 伝播した深い特徴は、オブジェクト検出のために直接抽出された特徴と統合される。 特徴抽出と機能統合パラメータはエンドツーエンドで最適化される。 提案するビデオオブジェクト検出ネットワークは、大規模なImageNet VIDベンチマークに基づいて評価され、Titan X GPUを用いた30FPSの速度で77.2\% mAPを達成する。 ソースコードは \url{https://github.com/h ustvl/LSFA} で入手できる。

Video object detection is a fundamental problem in computer vision and has a wide spectrum of applications. Based on deep networks, video object detection is actively studied for pushing the limits of detection speed and accuracy. To reduce the computation cost, we sparsely sample key frames in video and treat the rest frames are non-key frames; a large and deep network is used to extract features for key frames and a tiny network is used for non-key frames. To enhance the features of non-key frames, we propose a novel short-term feature aggregation method to propagate the rich information in key frame features to non-key frame features in a fast way. The fast feature aggregation is enabled by the freely available motion cues in compressed videos. Further, key frame features are also aggregated based on optical flow. The propagated deep features are then integrated with the directly extracted features for object detection. The feature extraction and feature integration parameters are optimized in an end-to-end manner. The proposed video object detection network is evaluated on the large-scale ImageNet VID benchmark and achieves 77.2\% mAP, which is on-par with state-of-the-art accuracy, at the speed of 30 FPS using a Titan X GPU. The source codes are available at \url{https://github.com/h ustvl/LSFA}.
翻訳日:2021-03-30 04:57:06 公開日:2021-03-25
# (参考訳) 因果推論に基づくユーザ指向スマート汎用AIシステム [全文訳有]

User-Oriented Smart General AI System under Causal Inference ( http://arxiv.org/abs/2103.14561v1 )

ライセンス: CC BY 4.0
Huimin Peng(参考訳) 一般的なaiシステムは、自動化された方法でハイパフォーマンスで幅広いタスクを解決します。 ある個人が設計した最も一般的なaiアルゴリズムは、他の個人が考案したものとは異なる。 異なるユーザーによって達成される最高のパフォーマンス記録も異なる。 一般的なAIの必然的な構成要素は、ユーザ固有のタスク情報の理解と、ユーザ技術経験に関連する個々のモデル設計の好みに依存する暗黙の知識である。 暗黙の知識はモデルの性能に影響を与えるが、一般的なAIアルゴリズムで自動的に最適化することはできない。 本稿では,UOGASがユーザ指向汎用AIシステムを表し,uCIが因果推論の枠組みの下で意味するUOGASuCIと略される,因果推論に基づくユーザ指向スマート汎用AIシステムを提案する。 外部メモリモジュールにおける多くのユーザのモデルトレーニング経験から,暗黙的知識に大きな影響を与えるユーザ特性を抽出することができる。 因果推論の枠組みの下では,ユーザによって設計された最良のモデル性能と結びついたユーザ特性の最適値を特定することができる。 ユーザ特性の違いがユーザによって達成された最良のモデルパフォーマンスをいかに改善できるか,ユーザに提案する。 個別化された暗黙的知識理解と技術的嗜好に関連するユーザ特性の更新を推奨することにより、UOGASは、より優れたパフォーマンスを持つモデルの設計を支援する。

General AI system solves a wide range of tasks with high performance in an automated fashion. The best general AI algorithm designed by one individual is different from that devised by another. The best performance records achieved by different users are also different. An inevitable component of general AI is tacit knowledge that depends upon user-specific comprehension of task information and individual model design preferences that are related to user technical experiences. Tacit knowledge affects model performance but cannot be automatically optimized in general AI algorithms. In this paper, we propose User-Oriented Smart General AI System under Causal Inference, abbreviated as UOGASuCI, where UOGAS represents User-Oriented General AI System and uCI means under the framework of causal inference. User characteristics that have a significant influence upon tacit knowledge can be extracted from observed model training experiences of many users in external memory modules. Under the framework of causal inference, we manage to identify the optimal value of user characteristics that are connected with the best model performance designed by users. We make suggestions to users about how different user characteristics can improve the best model performance achieved by users. By recommending updating user characteristics associated with individualized tacit knowledge comprehension and technical preferences, UOGAS helps users design models with better performance.
翻訳日:2021-03-30 04:40:43 公開日:2021-03-25
# (参考訳) カルマンアンサンブルを用いたランドマーク測地学の学習 [全文訳有]

Learning landmark geodesics using Kalman ensembles ( http://arxiv.org/abs/2103.14076v1 )

ライセンス: CC BY 4.0
Andreas Bock, Colin J. Cotter(参考訳) 本研究では, 2 組のランドマーク間の群作用写像を通して微分同相を見つけることを目的とした微分同形測地線ランドマークマッチングの問題について検討する。 ランドマークの運動、すなわち微分同相は、そのようなモーメント上の最適化問題としてランドマークマッチング問題を解けるような定式化につながる初期運動量によって符号化できることはよく知られている。 我々の研究の新規性は、テンプレートとターゲットの間の微分同相写像をコードする最適運動量を学ぶための微分自由ベイズ逆法の適用にある。 私たちが適用する手法は、非線形観測演算子へのカルマンフィルタの拡張であるアンサンブルカルマンフィルタである。 本稿では,アルゴリズムの効率的な実装について述べるとともに,様々な形状の数値的な結果を示す。

We study the problem of diffeomorphometric geodesic landmark matching where the objective is to find a diffeomorphism that via its group action maps between two sets of landmarks. It is well-known that the motion of the landmarks, and thereby the diffeomorphism, can be encoded by an initial momentum leading to a formulation where the landmark matching problem can be solved as an optimisation problem over such momenta. The novelty of our work lies in the application of a derivative-free Bayesian inverse method for learning the optimal momentum encoding the diffeomorphic mapping between the template and the target. The method we apply is the ensemble Kalman filter, an extension of the Kalman filter to nonlinear observation operators. We describe an efficient implementation of the algorithm and show several numerical results for various target shapes.
翻訳日:2021-03-30 04:01:40 公開日:2021-03-25
# (参考訳) 機械学習システムにおけるミスマッチのキャラクタリゼーションと検出 [全文訳有]

Characterizing and Detecting Mismatch in Machine-Learning-Ena bled Systems ( http://arxiv.org/abs/2103.14101v1 )

ライセンス: CC BY 4.0
Grace A. Lewis, Stephany Bellomo, Ipek Ozkaya(参考訳) 機械学習(ML)フレームワークとツールの可用性の向上と、データ駆動による意思決定問題に対するソリューション改善の約束により、ソフトウェアシステムでMLテクニックの使用が人気になった。 しかし、ML対応システムのエンドツーエンド開発と、シームレスなデプロイメントと運用は依然として課題である。 1つの理由は、ML対応システムの開発とデプロイには、データサイエンス、ソフトウェアエンジニアリング、オペレーションを含む3つの異なるワークフロー、視点、役割が含まれるからである。 これら3つの異なる視点は、誤った仮定のために一致しなかった場合、MLミスマッチを引き起こす。 そこで我々は,ML対応システムのエンドツーエンド開発において発生する一般的なミスマッチを収集し,検証した。 我々の分析は、各役割がどのように関連するミスマッチの重要性を優先するかが異なり、これらのミスマッチした仮定に寄与する可能性があることを示している。 さらに、私たちが特定したミスマッチカテゴリは、ML対応システム開発の改善に寄与するマシン可読記述子として指定することができる。 本稿では,エンド・ツー・エンドのML対応システム開発を改善するための知見とその意義について報告する。

Increasing availability of machine learning (ML) frameworks and tools, as well as their promise to improve solutions to data-driven decision problems, has resulted in popularity of using ML techniques in software systems. However, end-to-end development of ML-enabled systems, as well as their seamless deployment and operations, remain a challenge. One reason is that development and deployment of ML-enabled systems involves three distinct workflows, perspectives, and roles, which include data science, software engineering, and operations. These three distinct perspectives, when misaligned due to incorrect assumptions, cause ML mismatches which can result in failed systems. We conducted an interview and survey study where we collected and validated common types of mismatches that occur in end-to-end development of ML-enabled systems. Our analysis shows that how each role prioritizes the importance of relevant mismatches varies, potentially contributing to these mismatched assumptions. In addition, the mismatch categories we identified can be specified as machine readable descriptors contributing to improved ML-enabled system development. In this paper, we report our findings and their implications for improving end-to-end ML-enabled system development.
翻訳日:2021-03-30 03:06:44 公開日:2021-03-25
# (参考訳) クロスモーダル学習のための識別的意味的推移的一貫性 [全文訳有]

Discriminative Semantic Transitive Consistency for Cross-Modal Learning ( http://arxiv.org/abs/2103.14103v1 )

ライセンス: CC BY 4.0
Kranti Kumar Parida, Gaurav Sharma(参考訳) クロスモーダル検索は通常、2つの異なるモダリティから共有表現空間にデータを投影して整列することによって行われる。 この共有空間は、しばしばモダリティを翻訳するブリッジとしても機能する。 識別的意味的推移的一貫性の特性を提案・活用することで、このような表現空間を学習する問題に対処し、他のモダリティに転送された後もデータポイントが正しく分類されるようにする。 意味的推移的一貫性とともに、表現空間に近付くモダリティから対応するデータポイントの投影を行う従来の距離最小化制約も実施する。 我々は、タスクに対する損失項とそれらの相互作用の両方の寄与を分析し比較する。 さらに,各モダリティに対する意味的サイクル一貫性も取り入れている。 明確なアブレーション研究により,異なるコンポーネントによる性能向上を実証的に実証した。 提案を支持するための質的な結果も提供します。

Cross-modal retrieval is generally performed by projecting and aligning the data from two different modalities onto a shared representation space. This shared space often also acts as a bridge for translating the modalities. We address the problem of learning such representation space by proposing and exploiting the property of Discriminative Semantic Transitive Consistency -- ensuring that the data points are correctly classified even after being transferred to the other modality. Along with semantic transitive consistency, we also enforce the traditional distance minimizing constraint which makes the projections of the corresponding data points from both the modalities to come closer in the representation space. We analyze and compare the contribution of both the loss terms and their interaction, for the task. In addition, we incorporate semantic cycle-consistency for each of the modality. We empirically demonstrate better performance owing to the different components with clear ablation studies. We also provide qualitative results to support the proposals.
翻訳日:2021-03-30 02:53:54 公開日:2021-03-25
# (参考訳) 過パラメータ回帰と対向摂動の幾何学 [全文訳有]

The Geometry of Over-parameterized Regression and Adversarial Perturbations ( http://arxiv.org/abs/2103.14108v1 )

ライセンス: CC BY 4.0
Jason W. Rocks and Pankaj Mehta(参考訳) 古典的な回帰は、トレーニングラベルをデザイン行列の列空間に投影するという観点で単純な幾何学的記述を持つ。 しかし、適合パラメータの数がトレーニングデータに完全に適合するほど大きい過剰パラメータモデルの場合、この図は非形式的になる。 ここでは,過小パラメータモデルと過大パラメータモデルの両方に適用可能な回帰の幾何学的解釈を提案する。 トレーニングラベルの空間で発生する古典的な絵とは異なり、私たちの新しい絵は入力特徴の空間に存在する。 この新しい特徴に基づく視点は、バイアスと分散の文脈における二重発振現象の自然な幾何学的解釈を提供し、なぜラベルノイズがなくても起こりうるのかを説明する。 さらに,ラベル値に大きな変化をもたらす入力特徴に対する小さな摂動は,下層の幾何学から生じる偏りのあるモデルの一般的な特徴であることを示す。 線形・非線形基底関数(線形・非線形アクティベーション関数を持つ2層ニューラルネットワーク)を非基底関数(入力特性が等しい)と非線形基底関数(入力特性が等しい)の3つの最小モデルの解析により,これらのアイデアを実証する。

Classical regression has a simple geometric description in terms of a projection of the training labels onto the column space of the design matrix. However, for over-parameterized models -- where the number of fit parameters is large enough to perfectly fit the training data -- this picture becomes uninformative. Here, we present an alternative geometric interpretation of regression that applies to both under- and over-parameterized models. Unlike the classical picture which takes place in the space of training labels, our new picture resides in the space of input features. This new feature-based perspective provides a natural geometric interpretation of the double-descent phenomenon in the context of bias and variance, explaining why it can occur even in the absence of label noise. Furthermore, we show that adversarial perturbations -- small perturbations to the input features that result in large changes in label values -- are a generic feature of biased models, arising from the underlying geometry. We demonstrate these ideas by analyzing three minimal models for over-parameterized linear least squares regression: without basis functions (input features equal model features) and with linear or nonlinear basis functions (two-layer neural networks with linear or nonlinear activation functions, respectively).
翻訳日:2021-03-30 02:33:57 公開日:2021-03-25
# (参考訳) gprar: グラフ畳み込みネットワークによるポーズ再構成と行動認識による人間の軌道予測 [全文訳有]

GPRAR: Graph Convolutional Network based Pose Reconstruction and Action Recognition for Human Trajectory Prediction ( http://arxiv.org/abs/2103.14113v1 )

ライセンス: CC BY 4.0
Manh Huynh, Gita Alaghband(参考訳) 精度の高い予測は、自動運転のような様々な用途に不可欠である。 既存の予測モデルは、観測(例:観測)を行う現実世界の設定でエラーを起こしやすい。 人間のポーズや場所)は騒がしいことが多い。 この問題に対処するために,人間軌道予測のためのポーズ再構成と行動認識に基づくグラフ畳み込みネットワークであるgprarを提案する。 GPRARのキーとなるアイデアは、ノイズの多いシナリオの下で、人間のポーズとアクションという堅牢な機能を生成することだ。 そこで我々は,2つの新しいサブネットワークであるPRAR(Pose Reconstruction and Action Recognition)とFA(Feature Aggregator)を用いてGPRARを設計する。 PRARは人間の骨格の一貫性と構造的特性から人間のポーズと行動の特徴を同時に再構築することを目的としている。 エンコーダと2つのデコーダのネットワークであり、それぞれが時空間グラフ畳み込みネットワークの複数の層で構成されている。 さらに,エンコーダ・デコーダに基づく時間畳み込みニューラルネットワークを用いて,人間のポーズ,行動,位置,カメラの動きをチャネル的に集約し,将来の位置を予測する機能アグリゲータ(FA)を提案する。 一般的なデータセットであるjaad [13]とtitan [19]の広範な実験では、最先端モデルよりもgprarの精度が向上している。 特に、gprarはjaadデータセットとtitanデータセットのノイズ観測において、予測精度を22%と50%向上させる。

Prediction with high accuracy is essential for various applications such as autonomous driving. Existing prediction models are easily prone to errors in real-world settings where observations (e.g. human poses and locations) are often noisy. To address this problem, we introduce GPRAR, a graph convolutional network based pose reconstruction and action recognition for human trajectory prediction. The key idea of GPRAR is to generate robust features: human poses and actions, under noisy scenarios. To this end, we design GPRAR using two novel sub-networks: PRAR (Pose Reconstruction and Action Recognition) and FA (Feature Aggregator). PRAR aims to simultaneously reconstruct human poses and action features from the coherent and structural properties of human skeletons. It is a network of an encoder and two decoders, each of which comprises multiple layers of spatiotemporal graph convolutional networks. Moreover, we propose a Feature Aggregator (FA) to channel-wise aggregate the learned features: human poses, actions, locations, and camera motion using encoder-decoder based temporal convolutional neural networks to predict future locations. Extensive experiments on the commonly used datasets: JAAD [13] and TITAN [19] show accuracy improvements of GPRAR over state-of-theart models. Specifically, GPRAR improves the prediction accuracy up to 22% and 50% under noisy observations on JAAD and TITAN datasets, respectively
翻訳日:2021-03-30 01:51:34 公開日:2021-03-25
# (参考訳) 逆関数に対する負フィードバック特性を用いたニューラルネットワークの学習 [全文訳有]

Training Neural Networks Using the Property of Negative Feedback to Inverse a Function ( http://arxiv.org/abs/2103.14115v1 )

ライセンス: CC BY 4.0
Md Munir Hasan and Jeremy Holleman(参考訳) 高フォワードゲインでは、負のフィードバックシステムは、フィードバックパスにある線形または非線型関数の逆を実行することができる。 この負のフィードバックシステムの特性は、正確な閉ループ関数を構築するためにアナログ回路で広く用いられている。 本稿では,関数の逆解析を行う負のフィードバックシステムの特性をニューラルネットワークのトレーニングに利用する方法について述べる。 この方法は、コストやアクティベーション関数が微分可能である必要はない。 したがって、微分不可能な関数のクラスを学ぶことができ、勾配降下に基づく手法が失敗する。 また,提案手法の特別な場合として勾配降下が出現することを示した。 本手法をmnistデータセットに適用し,ニューラルネットワークの学習に有効であることを示す結果を得た。 この方法は、私たちの知る限り、機械学習において新しいものです。

With high forward gain, a negative feedback system has the ability to perform the inverse of a linear or non linear function that is in the feedback path. This property of negative feedback systems has been widely used in analog circuits to construct precise closed-loop functions. This paper describes how the property of a negative feedback system to perform inverse of a function can be used for training neural networks. This method does not require that the cost or activation functions be differentiable. Hence, it is able to learn a class of non-differentiable functions as well where a gradient descent-based method fails. We also show that gradient descent emerges as a special case of the proposed method. We have applied this method to the MNIST dataset and obtained results that shows the method is viable for neural network training. This method, to the best of our knowledge, is novel in machine learning.
翻訳日:2021-03-30 01:37:54 公開日:2021-03-25
# (参考訳) 接触グラフネット: クラッタシーンにおける効率的な6-DoFグラフ生成 [全文訳有]

Contact-GraspNet: Efficient 6-DoF Grasp Generation in Cluttered Scenes ( http://arxiv.org/abs/2103.14127v1 )

ライセンス: CC BY 4.0
Martin Sundermeyer, Arsalan Mousavian, Rudolph Triebel, Dieter Fox(参考訳) 無拘束で乱雑な環境で目に見えない物体をつかむことは、自律的なロボット操作に欠かせないスキルである。 完全6自由度学習の最近の進歩にもかかわらず、既存のアプローチは、いくつかの潜在的な障害点と、クローズドループ把握に不適な実行時間を持つ複雑なシーケンシャルパイプラインで構成されることが多い。 そこで本研究では,シーンの深さ記録から直接,6-DoF並列ジャウグリップの分布を効率よく生成するエンドツーエンドネットワークを提案する。 この新しい把握表現は,記録された点雲の3次元点を潜在的な把握接点として扱う。 観測点雲に6-DoFのグリップポーズと幅を根づけることで、グリップ表現の次元を4-DoFに減らし、学習プロセスを大幅に促進することができる。 クラス非依存のアプローチは、1700万のシミュレーションによる把握を訓練し、現実世界のセンサーデータにうまく一般化します。 構造クラッタにおける未知物体のロボット把持実験では, 90%以上の成功率を達成し, 最近の最先端手法と比較して, 故障率を半分に削減した。

Grasping unseen objects in unconstrained, cluttered environments is an essential skill for autonomous robotic manipulation. Despite recent progress in full 6-DoF grasp learning, existing approaches often consist of complex sequential pipelines that possess several potential failure points and run-times unsuitable for closed-loop grasping. Therefore, we propose an end-to-end network that efficiently generates a distribution of 6-DoF parallel-jaw grasps directly from a depth recording of a scene. Our novel grasp representation treats 3D points of the recorded point cloud as potential grasp contacts. By rooting the full 6-DoF grasp pose and width in the observed point cloud, we can reduce the dimensionality of our grasp representation to 4-DoF which greatly facilitates the learning process. Our class-agnostic approach is trained on 17 million simulated grasps and generalizes well to real world sensor data. In a robotic grasping study of unseen objects in structured clutter we achieve over 90% success rate, cutting the failure rate in half compared to a recent state-of-the-art method.
翻訳日:2021-03-30 01:29:43 公開日:2021-03-25
# (参考訳) 3次元点雲解析のための等変点ネットワーク [全文訳有]

Equivariant Point Network for 3D Point Cloud Analysis ( http://arxiv.org/abs/2103.14147v1 )

ライセンス: CC BY 4.0
Haiwei Chen and Shichen Liu and Weikai Chen and Hao Li and Randall Hill(参考訳) より大きな対称性群に等しい特徴は、近年の研究においてより差別的で強力であることが示されている。 しかし、高階同値な特徴はしばしば指数関数的に増加する計算コストを伴う。 さらに,3次元形状アライメントタスクに対処するために,回転同変特性をどのように活用できるかは,まだ明らかになっていない。 過去の多くのアプローチは3次元形状を整列する非不変あるいは不変の記述子に基づいているが、そのようなタスクは同変フレームワークから大きな恩恵を受けるかもしれない。 本稿では,両問題に対処するポイントクラウド解析のための有効かつ実用的なse(3)(3次元変換および回転)同変ネットワークを提案する。 まず、6次元畳み込みを2つの分離可能な畳み込み作用素に分解し、3次元ユークリッド空間とso(3)空間で交互に行う新しい枠組みであるse(3) separable point convolutionを提案する。 これにより、性能を損なうことなく計算コストを大幅に削減できる。 第2に,同変特徴の表現性を効果的に活用するアテンション層を導入する。 注意層はネットワークと共同で訓練しながら、特徴空間の固有の局所フレームを暗黙的に導き出し、異なるアライメントタスクに統合可能な注意ベクトルを生成する。 我々は幅広い研究と視覚的解釈を通してアプローチを評価する。 実験結果から,提案モデルが様々なベンチマークにおいて強いベースラインを上回ることを示す。

Features that are equivariant to a larger group of symmetries have been shown to be more discriminative and powerful in recent studies. However, higher-order equivariant features often come with an exponentially-growin g computational cost. Furthermore, it remains relatively less explored how rotation-equivariant features can be leveraged to tackle 3D shape alignment tasks. While many past approaches have been based on either non-equivariant or invariant descriptors to align 3D shapes, we argue that such tasks may benefit greatly from an equivariant framework. In this paper, we propose an effective and practical SE(3) (3D translation and rotation) equivariant network for point cloud analysis that addresses both problems. First, we present SE(3) separable point convolution, a novel framework that breaks down the 6D convolution into two separable convolutional operators alternatively performed in the 3D Euclidean and SO(3) spaces. This significantly reduces the computational cost without compromising the performance. Second, we introduce an attention layer to effectively harness the expressiveness of the equivariant features. While jointly trained with the network, the attention layer implicitly derives the intrinsic local frame in the feature space and generates attention vectors that can be integrated into different alignment tasks. We evaluate our approach through extensive studies and visual interpretations. The empirical results demonstrate that our proposed model outperforms strong baselines in a variety of benchmarks
翻訳日:2021-03-30 01:14:34 公開日:2021-03-25
# (参考訳) InversionNet3D:3次元フルウェーブフォームインバージョンのための効率的かつスケーラブルな学習 [全文訳有]

InversionNet3D: Efficient and Scalable Learning for 3D Full Waveform Inversion ( http://arxiv.org/abs/2103.14158v1 )

ライセンス: CC BY 4.0
Qili Zeng, Shihang Feng, Brendt Wohlberg, Youzuo Lin(参考訳) FWI(Full Waveform Inversion)におけるディープラーニングの利用の最近の進歩は、復元精度と計算効率の観点から、従来の物理に基づくアプローチよりもデータ駆動手法の利点を実証している。 しかし,高い計算複雑性とメモリ消費のため,深層ネットワークによる3次元高分解能速度マップの再構成は依然として大きな課題である。 本稿では,3次元FWIのための効率よくスケーラブルなエンコーダデコーダネットワークInversionNet3Dを提案する。 提案手法では,エンコーダ内のグループ畳み込みを利用して,不要なパラメータや操作を同時に削減しつつ,複数のソースから情報を学ぶための効果的な階層を構築する。 非可逆層の導入は、トレーニング中の中間機能のメモリ消費をさらに減らし、異なるアプリケーションシナリオで要求されるより多くの層と高いキャパシティを持つより深いネットワークの開発を可能にする。 3d kimberlinaデータセットの実験では、inversionnet3dは計算コストとメモリフットプリントをベースラインよりも低くして、最先端の再構築性能を実現している。

Recent progress in the use of deep learning for Full Waveform Inversion (FWI) has demonstrated the advantage of data-driven methods over traditional physics-based approaches in terms of reconstruction accuracy and computational efficiency. However, due to high computational complexity and large memory consumption, the reconstruction of 3D high-resolution velocity maps via deep networks is still a great challenge. In this paper, we present InversionNet3D, an efficient and scalable encoder-decoder network for 3D FWI. The proposed method employs group convolution in the encoder to establish an effective hierarchy for learning information from multiple sources while cutting down unnecessary parameters and operations at the same time. The introduction of invertible layers further reduces the memory consumption of intermediate features during training and thus enables the development of deeper networks with more layers and higher capacity as required by different application scenarios. Experiments on the 3D Kimberlina dataset demonstrate that InversionNet3D achieves state-of-the-art reconstruction performance with lower computational cost and lower memory footprint compared to the baseline.
翻訳日:2021-03-30 00:58:39 公開日:2021-03-25
# (参考訳) 方向統計による微弱監視対象検出 [全文訳有]

Few-shot Weakly-Supervised Object Detection via Directional Statistics ( http://arxiv.org/abs/2103.14162v1 )

ライセンス: CC BY 4.0
Amirreza Shaban, Amir Rahimi, Thalaiyasingam Ajanthan, Byron Boots, Richard Hartley(参考訳) 少数の例から新しい物体を検出することは、近年コンピュータビジョンにおける新しい話題となっている。 しかし、これらの方法は、フィールドロボティクスのような現実世界のシナリオで適用性を制限する新しいオブジェクトカテゴリを学ぶために、完全に注釈付きトレーニングイメージを必要とする。 本研究では,少数の共通オブジェクトローカライゼーション (COL) と少数のWeakly Supervised Object Detection (WSOD) のための確率論的マルチインスタンス学習手法を提案する。 これらのタスクでは、より安価に取得できる画像レベルのラベルのみが利用可能である。 我々は,事前学習したfaster-rcnnの最終層から抽出した特徴の操作が,前回より効果的であることを示す。 本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。 確率モデルとして,事前学習した埋め込み空間に適用した場合に,ガウス分布よりも意味情報をよりよくキャプチャするvon Mises-Fisher(vMF)分布を用いる。 新たなオブジェクトがローカライズされると、新しいイメージの新しいクラスを検出するリニアな外観モデルを学ぶためにそれらを利用する。 提案手法は, 単純であるにもかかわらず, 少数のCOLやWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。

Detecting novel objects from few examples has become an emerging topic in computer vision recently. However, these methods need fully annotated training images to learn new object categories which limits their applicability in real world scenarios such as field robotics. In this work, we propose a probabilistic multiple instance learning approach for few-shot Common Object Localization (COL) and few-shot Weakly Supervised Object Detection (WSOD). In these tasks, only image-level labels, which are much cheaper to acquire, are available. We find that operating on features extracted from the last layer of a pre-trained Faster-RCNN is more effective compared to previous episodic learning based few-shot COL methods. Our model simultaneously learns the distribution of the novel objects and localizes them via expectation-maximiza tion steps. As a probabilistic model, we employ von Mises-Fisher (vMF) distribution which captures the semantic information better than Gaussian distribution when applied to the pre-trained embedding space. When the novel objects are localized, we utilize them to learn a linear appearance model to detect novel classes in new images. Our extensive experiments show that the proposed method, despite being simple, outperforms strong baselines in few-shot COL and WSOD, as well as large-scale WSOD tasks.
翻訳日:2021-03-30 00:32:15 公開日:2021-03-25
# TCE(Tilted Cross Entropy) : セマンティックセグメンテーションにおけるフェアネスの促進

Tilted Cross Entropy (TCE): Promoting Fairness in Semantic Segmentation ( http://arxiv.org/abs/2103.14051v1 )

ライセンス: Link先を確認
Attila Szabo, Hadi Jamali-Rad, Siva-Datta Mannava(参考訳) セマンティックセグメンテーションのための従来の経験的リスク最小化(erm)は、(不公平だが)全体的なパフォーマンスを改善するために、不釣り合いに有利あるいは特定のターゲットクラスを不利にする可能性がある。 最近導入された傾斜ERM(Tinted ERM)に触発されて、傾斜したクロスエントロピー(TCE)損失を提案し、それをセマンティックセグメンテーション設定に適応させ、ターゲットクラス間の性能格差を最小化し、公平性を促進する。 意味的セグメンテーションのためのStochastic TCEは,定量的かつ定性的な性能解析により,マルチクラスクロスエントロピー(MCCE)で訓練したCityscapesとADE20kデータセットの低パフォーマンスクラスを効率的に改善し,全体的な公平性を向上させることを実証した。

Traditional empirical risk minimization (ERM) for semantic segmentation can disproportionately advantage or disadvantage certain target classes in favor of an (unfair but) improved overall performance. Inspired by the recently introduced tilted ERM (TERM), we propose tilted cross-entropy (TCE) loss and adapt it to the semantic segmentation setting to minimize performance disparity among target classes and promote fairness. Through quantitative and qualitative performance analyses, we demonstrate that the proposed Stochastic TCE for semantic segmentation can efficiently improve the low-performing classes of Cityscapes and ADE20k datasets trained with multi-class cross-entropy (MCCE), and also results in improved overall fairness.
翻訳日:2021-03-29 13:00:43 公開日:2021-03-25
# プライバシー保持密度推定のための微分プライベート正規化フロー

Differentially Private Normalizing Flows for Privacy-Preserving Density Estimation ( http://arxiv.org/abs/2103.14068v1 )

ライセンス: Link先を確認
Chris Waites and Rachel Cummings(参考訳) 正規化フローモデルは密度推定問題に対する一般的な解として上昇し、高品質な合成データ生成と正確な確率密度評価を可能にした。 しかし、個人がトレーニングデータに直接関連している状況では、そのようなモデルのリリースはプライバシの懸念を引き起こす。 本稿では,プライバシ保存密度推定問題に対する新しいアプローチとして,明示的な微分プライバシー保証を提供する正規化フローモデルの利用を提案する。 ベンチマークデータを用いて,提案手法の有効性を実証的に評価し,提案手法が従来の手法よりも優れていることを示す。 さらに,我々のアルゴリズムが,差分プライベートな異常検出にどのように適用できるかを示す。

Normalizing flow models have risen as a popular solution to the problem of density estimation, enabling high-quality synthetic data generation as well as exact probability density evaluation. However, in contexts where individuals are directly associated with the training data, releasing such a model raises privacy concerns. In this work, we propose the use of normalizing flow models that provide explicit differential privacy guarantees as a novel approach to the problem of privacy-preserving density estimation. We evaluate the efficacy of our approach empirically using benchmark datasets, and we demonstrate that our method substantially outperforms previous state-of-the-art approaches. We additionally show how our algorithm can be applied to the task of differentially private anomaly detection.
翻訳日:2021-03-29 12:59:24 公開日:2021-03-25
# 完全エンコーダ:オートエンコーダはPCAのように学習できる

Full Encoder: Make Autoencoders Learn Like PCA ( http://arxiv.org/abs/2103.14082v1 )

ライセンス: Link先を確認
Zhouzheng Li and Kun Feng(参考訳) β-vaeファミリーは,線形領域においてicaが行うことのように,絡み合った表現を見つけ,人間の解釈可能な生成因子を得ることを目標としているが,非線形領域におけるpcaに対応する新しい統一オートエンコーダフレームワークであるフルエンコーダを提案する。 この考え方は、まず1つの潜伏変数でオートエンコーダを訓練し、さらに潜伏変数を徐々に巻き込んで再構成結果を洗練させることである。 完全エンコーダで獲得した潜在変数は、ネットワークの初期状態に関係なく常に同じ表現を学習するため、安定かつ堅牢である。 フルエンコーダは非線形システムの自由度を決定するために使用することができ、データ圧縮や異常検出に有用である。 Full Encoderは、beta-VAEフレームワークと組み合わせて、生成要因の重要性を分類し、非線形システム分析のための洞察を提供することもできる。 我々は、Full Encoderをテストするための非線形システムを備えたおもちゃデータセットを作成し、その結果をVAEとβ-VAEの結果と比較した。

While the beta-VAE family is aiming to find disentangled representations and acquire human-interpretable generative factors, like what an ICA does in the linear domain, we propose Full Encoder: a novel unified autoencoder framework as a correspondence to PCA in the non-linear domain. The idea is to train an autoencoder with one latent variable first, then involve more latent variables progressively to refine the reconstruction results. The latent variables acquired with Full Encoder is stable and robust, as they always learn the same representation regardless the network initial states. Full Encoder can be used to determine the degrees of freedom in a non-linear system, and is useful for data compression or anomaly detection. Full Encoder can also be combined with beta-VAE framework to sort out the importance of the generative factors, providing more insights for non-linear system analysis. We created a toy dataset with a non-linear system to test the Full Encoder and compare its results to VAE and beta-VAE's results.
翻訳日:2021-03-29 12:58:03 公開日:2021-03-25
# deep ehrspotlight: 説明可能な予測のための電子健康記録のイベントをハイライトするフレームワークとメカニズム

Deep EHR Spotlight: a Framework and Mechanism to Highlight Events in Electronic Health Records for Explainable Predictions ( http://arxiv.org/abs/2103.14161v1 )

ライセンス: Link先を確認
Thanh Nguyen-Duc, Natasha Mulligan, Gurdeep S. Mannu, Joao H. Bettencourt-Silva(参考訳) 電子健康記録(ehr)の広範な普及により、大量の臨床データが利用可能になり、サービス提供と臨床情報学研究の推進を約束している。 ディープラーニング技術は、EHRを用いた予測分析タスクのパフォーマンスを示してきたが、一般的にはモデル結果の透明性や説明可能性機能が欠如しており、面倒な前処理タスクを必要としている。 さらに、eersにはテキスト、数字、時系列といった不均一でマルチモーダルなデータポイントが含まれており、さらに可視化や解釈を妨げている。 本稿では,1) EHR から画像への患者経路のエンコード,2) 経路画像内の重要な事象の強調,3) より複雑な予測を可能にするためのディープラーニングフレームワークを提案する。 提案手法は,予測を可視化するための深い注意機構に依存し,複数の逐次結果の予測を可能にする。

The wide adoption of Electronic Health Records (EHR) has resulted in large amounts of clinical data becoming available, which promises to support service delivery and advance clinical and informatics research. Deep learning techniques have demonstrated performance in predictive analytic tasks using EHRs yet they typically lack model result transparency or explainability functionalities and require cumbersome pre-processing tasks. Moreover, EHRs contain heterogeneous and multi-modal data points such as text, numbers and time series which further hinder visualisation and interpretability. This paper proposes a deep learning framework to: 1) encode patient pathways from EHRs into images, 2) highlight important events within pathway images, and 3) enable more complex predictions with additional intelligibility. The proposed method relies on a deep attention mechanism for visualisation of the predictions and allows predicting multiple sequential outcomes.
翻訳日:2021-03-29 12:57:44 公開日:2021-03-25
# 自動車のサイバー物理システムにおける異常検出のためのディープRBFネットワーク

Deep-RBF Networks for Anomaly Detection in Automotive Cyber-Physical Systems ( http://arxiv.org/abs/2103.14172v1 )

ライセンス: Link先を確認
Matthew Burruss, Shreyas Ramakrishna and Abhishek Dubey(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、自動車用サイバー物理システム(CPS)における自律性関連タスクの実装に広く使われている。 しかし、これらのネットワークは異常な入力に対して誤った予測をすることを示しており、これはアウト・オブ・ディストリビューション(OOD)データや敵攻撃によるものである。 これらの異常を検出するために、Asurance Monitorと呼ばれる別のDNNがしばしば訓練され、コントローラDNNと並行して使用される。 リソース要求の削減には,コントローラの予測と異常検出が可能な単一のネットワークが必要であると仮定する。 Deep-Radial Basis Function (RBF)ネットワークは、クラス予測と並行して拒否クラスを提供し、実行時に異常を検出するために使用できる。 しかし、RBFアクティベーション関数の使用は、これらのネットワークの適用性を分類タスクのみに制限する。 本稿では,連続ステアリング予測などのcps回帰タスクにおける異常検出にdeep-rbfネットワークをどのように利用できるかを示す。 さらに,NVIDIA DAVE-II や ResNet20 などの一般的な DNN を用いて深部RBF ネットワークを設計し,物理攻撃やデータ中毒攻撃などの敵攻撃を検出するための拒否クラスを用いた。 最後に、DeepNNCarと呼ばれるハードウェアCPSテストベッドと実際のドイツ交通信号ベンチマーク(GTSB)データセットを用いて、これらの攻撃と訓練されたディープRBFネットワークを評価する。 以上の結果から,深部RBFネットワークは,これらの攻撃を短時間で検出できることがわかった。

Deep Neural Networks (DNNs) are popularly used for implementing autonomy related tasks in automotive Cyber-Physical Systems (CPSs). However, these networks have been shown to make erroneous predictions to anomalous inputs, which manifests either due to Out-of-Distribution (OOD) data or adversarial attacks. To detect these anomalies, a separate DNN called assurance monitor is often trained and used in parallel to the controller DNN, increasing the resource burden and latency. We hypothesize that a single network that can perform controller predictions and anomaly detection is necessary to reduce the resource requirements. Deep-Radial Basis Function (RBF) networks provide a rejection class alongside the class predictions, which can be utilized for detecting anomalies at runtime. However, the use of RBF activation functions limits the applicability of these networks to only classification tasks. In this paper, we show how the deep-RBF network can be used for detecting anomalies in CPS regression tasks such as continuous steering predictions. Further, we design deep-RBF networks using popular DNNs such as NVIDIA DAVE-II, and ResNet20, and then use the resulting rejection class for detecting adversarial attacks such as a physical attack and data poison attack. Finally, we evaluate these attacks and the trained deep-RBF networks using a hardware CPS testbed called DeepNNCar and a real-world German Traffic Sign Benchmark (GTSB) dataset. Our results show that the deep-RBF networks can robustly detect these attacks in a short time without additional resource requirements.
翻訳日:2021-03-29 12:57:29 公開日:2021-03-25
# ほぼ水平自由なオフライン強化学習

Nearly Horizon-Free Offline Reinforcement Learning ( http://arxiv.org/abs/2103.14077v1 )

ライセンス: Link先を確認
Tongzheng Ren, Jialian Li, Bo Dai, Simon S. Du, Sujay Sanghavi(参考訳) S$状態、$A$アクション、計画的地平$H$で、時間的均質な表形式マルコフ決定プロセスのオフライン強化学習を再考する。 Given the collected $N$ episodes data with minimum cumulative reaching probability $d_m$, we obtain the first set of nearly $H$-free sample complexity bounds for evaluation and planning using the empirical MDPs: 1.For the offline evaluation, we obtain an $\tilde{O}\left(\sqrt{\frac{1}{Nd_m}} \right)$ error rate, which matches the lower bound and does not have additional dependency on $\poly\left(S,A\righ t)$ in higher-order term, that is different from previous works~\citep{yin2020near,yin2020a symptotically}. 2.オフラインポリシー最適化のために、$\tilde{o}\left(\sqrt{\frac{1}{nd_m}} + \frac{s}{nd_m}\right)$ エラーレートを求め、主項に$h$と$s$要素を追加する \cite{cui2020plug} によって最もよく知られた結果を改善する。 さらに、この境界は$\Omega\left(\sqrt {\frac{1}{Nd_m}}\right)$ 対数因子への下界と高次項に近づく。 私たちの知る限りでは、これらはオフライン強化学習における、ほぼ地平線のない境界の最初のセットです。

We revisit offline reinforcement learning on episodic time-homogeneous tabular Markov Decision Processes with $S$ states, $A$ actions and planning horizon $H$. Given the collected $N$ episodes data with minimum cumulative reaching probability $d_m$, we obtain the first set of nearly $H$-free sample complexity bounds for evaluation and planning using the empirical MDPs: 1.For the offline evaluation, we obtain an $\tilde{O}\left(\sqrt{\frac{1}{Nd_m}} \right)$ error rate, which matches the lower bound and does not have additional dependency on $\poly\left(S,A\righ t)$ in higher-order term, that is different from previous works~\citep{yin2020near,yin2020a symptotically}. 2.For the offline policy optimization, we obtain an $\tilde{O}\left(\sqrt{\frac{1}{Nd_m}} + \frac{S}{Nd_m}\right)$ error rate, improving upon the best known result by \cite{cui2020plug}, which has additional $H$ and $S$ factors in the main term. Furthermore, this bound approaches the $\Omega\left(\sqrt{\frac{1}{Nd_m}}\right)$ lower bound up to logarithmic factors and a high-order term. To the best of our knowledge, these are the first set of nearly horizon-free bounds in offline reinforcement learning.
翻訳日:2021-03-29 12:56:18 公開日:2021-03-25
# エンド・ツー・エンド音声認識のための残エネルギーモデル

Residual Energy-Based Models for End-to-End Speech Recognition ( http://arxiv.org/abs/2103.14152v1 )

ライセンス: Link先を確認
Qiujia Li, Yu Zhang, Bo Li, Liangliang Cao, Philip C. Woodland(参考訳) 自動回帰デコーダを用いたエンドツーエンドモデルでは,自動音声認識(ASR)の優れた結果が得られた。 これらのモデルは、全てのトークンの条件付き確率の積としてシーケンスレベル確率を定式化する。 しかし, 局所正規化モデルの性能は, 露光バイアスなどの要因により準最適である。 その結果、モデル分布は基礎となるデータ分布と異なる。 本稿では, 余剰エネルギーベースモデル(R-EBM)を提案し, 自己回帰型ASRモデルを補完し, 2つの分布間のギャップを埋める。 一方、R-EBMは発話レベルの信頼度推定器とみなすこともできる。 100hr LibriSpeechデータセットの実験では、R-EBMsは単語エラー率(WERs)を8.2%/6.7%削減でき、信頼性スコアの精度-リコール曲線の領域を12.6%/28.4%改善できる。 さらに、自己教師付き学習(wav2vec 2.0)を用いた最先端モデルでは、R-EBMはWERと信頼性推定性能の両方を著しく改善する。

End-to-end models with auto-regressive decoders have shown impressive results for automatic speech recognition (ASR). These models formulate the sequence-level probability as a product of the conditional probabilities of all individual tokens given their histories. However, the performance of locally normalised models can be sub-optimal because of factors such as exposure bias. Consequently, the model distribution differs from the underlying data distribution. In this paper, the residual energy-based model (R-EBM) is proposed to complement the auto-regressive ASR model to close the gap between the two distributions. Meanwhile, R-EBMs can also be regarded as utterance-level confidence estimators, which may benefit many downstream tasks. Experiments on a 100hr LibriSpeech dataset show that R-EBMs can reduce the word error rates (WERs) by 8.2%/6.7% while improving areas under precision-recall curves of confidence scores by 12.6%/28.4% on test-clean/test-othe r sets. Furthermore, on a state-of-the-art model using self-supervised learning (wav2vec 2.0), R-EBMs still significantly improves both the WER and confidence estimation performance.
翻訳日:2021-03-29 12:53:09 公開日:2021-03-25
# CGPart:3次元コンピュータグラフィックスモデルに基づく部分分割データセット

CGPart: A Part Segmentation Dataset Based on 3D Computer Graphics Models ( http://arxiv.org/abs/2103.14098v1 )

ライセンス: Link先を確認
Qing Liu, Adam Kortylewski, Zhishuai Zhang, Zizhang Li, Mengqi Guo, Qihao Liu, Xiaoding Yuan, Jiteng Mu, Weichao Qiu, Alan Yuille(参考訳) 部分セグメンテーションは、オブジェクトのリッチで詳細な部分レベルの記述を提供するが、アノテーションには膨大な作業が必要である。 本稿では,3次元CADモデル,合成画像,実画像の詳細なアノテーションを提供する包括的部分分割データセットであるCGPartを紹介する。 CGPartには5ドル(約5,800円)の車種をカバーする21ドルのCADモデルが含まれている。 カテゴリーごとの部品数の平均は24ドルであり、車載オブジェクトの部品セグメンテーションのための既存のデータセットよりも大きい。 レンダリングパラメータを変化させることで,これらのCADモデルから168,000ドルの合成画像を生成する。 また、評価目的で200ドルの実画像に部分セグメンテーションをアノテートします。 cgpart の値を説明するために,unsupervised domain adaptation (uda) による画像部分セグメンテーションに適用する。 関連タスクから部分セグメンテーションへのトップパフォーマンスUDAアルゴリズムの適用により,いくつかのベースライン手法を評価する。 さらに、空間オブジェクト構造を利用して、合成画像から実画像への知識伝達をガイドする、Geometric-Matching Guided Domain adaptation (GMG)と呼ばれる新しい手法を導入する。 実験結果は,新しいアルゴリズムの利点を示し,今後の改善に向けた知見を明らかにする。 データとコードをリリースします。

Part segmentations provide a rich and detailed part-level description of objects, but their annotation requires an enormous amount of work. In this paper, we introduce CGPart, a comprehensive part segmentation dataset that provides detailed annotations on 3D CAD models, synthetic images, and real test images. CGPart includes $21$ 3D CAD models covering $5$ vehicle categories, each with detailed per-mesh part labeling. The average number of parts per category is $24$, which is larger than any existing datasets for part segmentation on vehicle objects. By varying the rendering parameters, we make $168,000$ synthetic images from these CAD models, each with automatically generated part segmentation ground-truth. We also annotate part segmentations on $200$ real images for evaluation purposes. To illustrate the value of CGPart, we apply it to image part segmentation through unsupervised domain adaptation (UDA). We evaluate several baseline methods by adapting top-performing UDA algorithms from related tasks to part segmentation. Moreover, we introduce a new method called Geometric-Matching Guided domain adaptation (GMG), which leverages the spatial object structure to guide the knowledge transfer from the synthetic to the real images. Experimental results demonstrate the advantage of our new algorithm and reveal insights for future improvement. We will release our data and code.
翻訳日:2021-03-29 12:48:55 公開日:2021-03-25
# 軌道予測のためのステップワイズゴール駆動ネットワーク

Stepwise Goal-Driven Networks for Trajectory Prediction ( http://arxiv.org/abs/2103.14107v1 )

ライセンス: Link先を確認
Chuhua Wang, Yuchen Wang, Mingze Xu, David J. Crandall(参考訳) 本稿では,複数の時間スケールで目標を推定,利用することにより,観測対象(歩行者や車両など)の今後の軌跡を予測することを提案する。 移動エージェントのゴールは時間とともに変化し、モデリングのゴールは将来の軌道推定のためにより正確で詳細な情報を提供し続ける。 本稿では,stepwise goal-driven network (sgnet) という,軌道予測のための新しいリカレントネットワークを提案する。 単一の長期的な目標のみをモデル化する以前の作業とは異なり、SGNetは複数の時間スケールで目標を見積もり、使用する。 特に、歴史的情報をキャプチャするエンコーダモジュール、未来への連続的な目標を予測する段階的な目標推定器、将来の軌道を予測するデコーダモジュールが組み込まれている。 我々は,HEV-I,JAAD,PIEの3つの1対1のトラフィックデータセットと2つの鳥の目視データセット(ETH,UCY)を用いて評価を行い,そのモデルが全データセットにおける平均および最終変位誤差の両面で最先端の手法より優れていることを示す。 コードはhttps://github.com/c huhuaw/sgnet.pytorch で利用可能である。

We propose to predict the future trajectories of observed agents (e.g., pedestrians or vehicles) by estimating and using their goals at multiple time scales. We argue that the goal of a moving agent may change over time, and modeling goals continuously provides more accurate and detailed information for future trajectory estimation. In this paper, we present a novel recurrent network for trajectory prediction, called Stepwise Goal-Driven Network (SGNet). Unlike prior work that models only a single, long-term goal, SGNet estimates and uses goals at multiple temporal scales. In particular, the framework incorporates an encoder module that captures historical information, a stepwise goal estimator that predicts successive goals into the future, and a decoder module that predicts future trajectory. We evaluate our model on three first-person traffic datasets (HEV-I, JAAD, and PIE) as well as on two bird's eye view datasets (ETH and UCY), and show that our model outperforms the state-of-the-art methods in terms of both average and final displacement errors on all datasets. Code has been made available at: https://github.com/C huhuaW/SGNet.pytorch .
翻訳日:2021-03-29 12:48:33 公開日:2021-03-25
# 変圧器による複数変化の記述と位置決め

Describing and Localizing Multiple Changes with Transformers ( http://arxiv.org/abs/2103.14146v1 )

ライセンス: Link先を確認
Yue Qiu and Shintaro Yamamoto and Kodai Nakashima and Ryota Suzuki and Kenji Iwata and Hirokatsu Kataoka and Yutaka Satoh(参考訳) 変更キャプションタスクは、シーン変更前後で観察された画像ペアの変化を検出し、変更の自然言語記述を生成することを目的としている。 現存する変更キャプション研究は主に1つの変更のあるシーンに焦点を当てている。 しかし、複雑なシナリオへの適応性を高めるためには、画像ペアの複数の変更部分の検出と記述が不可欠である。 以上の課題を3つの側面から解決する: (i) CGベースのマルチチェンジキャプションデータセットを提案する; (ii) 複数チェンジキャプションに基づく単一チェンジキャプションの既存手法をベンチマークする; (iii) さらに、画像ペア内の異なる領域を密に関連付け、関連する変更領域を文中の単語で動的に決定するマルチチェンジキャプション変換器(MCCFormers)を提案する。 提案手法は,従来の4つの変更キャプション評価指標の最高スコアを得た。 さらに、既存の方法は複数の変更に対して単一の注意マップを生成し、変更領域を識別する能力がない。 対照的に,提案手法は各変更に対する注意マップを分離し,変化の局所化に関して良好に機能する。 さらに,既存の変更キャプションベンチマークであるclevr-change(bleu-4では+6.1,ciderスコアでは+9.7)では,従来の最先端手法を上回っていた。

Change captioning tasks aim to detect changes in image pairs observed before and after a scene change and generate a natural language description of the changes. Existing change captioning studies have mainly focused on scenes with a single change. However, detecting and describing multiple changed parts in image pairs is essential for enhancing adaptability to complex scenarios. We solve the above issues from three aspects: (i) We propose a CG-based multi-change captioning dataset; (ii) We benchmark existing state-of-the-art methods of single change captioning on multi-change captioning; (iii) We further propose Multi-Change Captioning transformers (MCCFormers) that identify change regions by densely correlating different regions in image pairs and dynamically determines the related change regions with words in sentences. The proposed method obtained the highest scores on four conventional change captioning evaluation metrics for multi-change captioning. In addition, existing methods generate a single attention map for multiple changes and lack the ability to distinguish change regions. In contrast, our proposed method can separate attention maps for each change and performs well with respect to change localization. Moreover, the proposed framework outperformed the previous state-of-the-art methods on an existing change captioning benchmark, CLEVR-Change, by a large margin (+6.1 on BLEU-4 and +9.7 on CIDEr scores), indicating its general ability in change captioning tasks.
翻訳日:2021-03-29 12:48:11 公開日:2021-03-25
# COTR:画像間のマッチングのための対応変換器

COTR: Correspondence Transformer for Matching Across Images ( http://arxiv.org/abs/2103.14167v1 )

ライセンス: Link先を確認
Wei Jiang, Eduard Trulls, Jan Hosang, Andrea Tagliasacchi, Kwang Moo Yi(参考訳) 本研究では,2つの画像と1つの問合せ点が与えられ,他方でその対応を見出す,深層ニューラルネットワークに基づく画像の対応関係を探索する新しい枠組みを提案する。 そうすることで、興味のある点のみをクエリし、スパース対応を取り出すか、画像中のすべての点をクエリし、密接なマッピングを得ることができる。 重要なのは、ローカルとグローバルの両方のプリエントをキャプチャし、そのプリエントの中で最も関連性の高い画像領域間をモデルで関連付けるために、トランスフォーマを用いてネットワークを実現することである。 推定時に,推定値の周囲を再帰的にズームインし,高精度な対応性を提供できるマルチスケールパイプラインを生成する。 提案手法は,複数のデータセットやタスクにおいて,特定のデータセットに対する再トレーニングを伴わずに,広いベースラインステレオから光学的フローまで,スパースおよび密度の高い対応問題において,技術の現状を著しく上回る。 私たちは、スクラッチからトレーニングし再現性を確保するために必要なデータ、コード、およびすべてのツールをリリースすることを約束します。

We propose a novel framework for finding correspondences in images based on a deep neural network that, given two images and a query point in one of them, finds its correspondence in the other. By doing so, one has the option to query only the points of interest and retrieve sparse correspondences, or to query all points in an image and obtain dense mappings. Importantly, in order to capture both local and global priors, and to let our model relate between image regions using the most relevant among said priors, we realize our network using a transformer. At inference time, we apply our correspondence network by recursively zooming in around the estimates, yielding a multiscale pipeline able to provide highly-accurate correspondences. Our method significantly outperforms the state of the art on both sparse and dense correspondence problems on multiple datasets and tasks, ranging from wide-baseline stereo to optical flow, without any retraining for a specific dataset. We commit to releasing data, code, and all the tools necessary to train from scratch and ensure reproducibility.
翻訳日:2021-03-29 12:47:39 公開日:2021-03-25
# プロセス制御のためのメタ強化学習アプローチ

A Meta-Reinforcement Learning Approach to Process Control ( http://arxiv.org/abs/2103.14060v1 )

ライセンス: Link先を確認
Daniel G. McClement, Nathan P. Lawrence, Philip D. Loewen, Michael G. Forbes, Johan U. Backstr\"om, R. Bhushan Gopaluni(参考訳) メタラーニング(Meta-learning)は、ニューラルネットワークなどのモデルに迅速に適応して、関連するタスク間の基盤構造を学習することで、新しいタスクを実行することを目的とした機械学習の分野である。 本質的に、モデルは単一のタスクをマスターするのではなく、新しいタスクを効果的に学習するように訓練されています。 メタラーニングは、AIコントローラのトレーニングに必要なプロセスに対する摂動は、コストが高く、安全ではないため、プロセス制御アプリケーションにアピールする。 さらに、ダイナミクスと制御の目的は多くの異なるプロセスで類似しているため、メタラーニングによって様々なシステムに迅速に適応できる一般化可能なコントローラを作成することが可能である。 本研究では,drl(deep reinforcement learning)ベースのコントローラを構築し,ニューラルネットワークを分離した潜在コンテキスト変数を用いてコントローラをメタトレーニングする。 我々は、新しいプロセスのダイナミクスに適応する能力と、同じプロセス上の異なる制御目標について、メタアルゴリズムをテストする。 どちらの場合も、私たちのメタ学習アルゴリズムは新しいタスクに非常に早く適応し、スクラッチから訓練された通常のDRLコントローラよりも優れています。 メタラーニングは、よりインテリジェントでサンプル効率の良いコントローラを構築するための有望なアプローチのようだ。

Meta-learning is a branch of machine learning which aims to quickly adapt models, such as neural networks, to perform new tasks by learning an underlying structure across related tasks. In essence, models are being trained to learn new tasks effectively rather than master a single task. Meta-learning is appealing for process control applications because the perturbations to a process required to train an AI controller can be costly and unsafe. Additionally, the dynamics and control objectives are similar across many different processes, so it is feasible to create a generalizable controller through meta-learning capable of quickly adapting to different systems. In this work, we construct a deep reinforcement learning (DRL) based controller and meta-train the controller using a latent context variable through a separate embedding neural network. We test our meta-algorithm on its ability to adapt to new process dynamics as well as different control objectives on the same process. In both cases, our meta-learning algorithm adapts very quickly to new tasks, outperforming a regular DRL controller trained from scratch. Meta-learning appears to be a promising approach for constructing more intelligent and sample-efficient controllers.
翻訳日:2021-03-29 12:38:43 公開日:2021-03-25
# グラフネットワークにおける置換同値の超越

Beyond permutation equivariance in graph networks ( http://arxiv.org/abs/2103.14066v1 )

ライセンス: Link先を確認
Emma Slade, Francesco Farina(参考訳) 我々は,n$-dimensions におけるユークリッド群に同値であり,さらにアフィン変換を扱うことができるグラフネットワークのための新しいアーキテクチャを導入する。 我々のモデルはグラフネットワークを最も一般的な形で扱うように設計されており、特殊ケースとして特定の変種を含む。 その同値性により、提案したモデルは古典的なグラフアーキテクチャに関してよりデータ効率が良くなり、本質的にはより優れた帰納バイアスを持つものと期待する。 予備的な例として、ユークリッド群とアフィン変換の両方の等価性を持つアーキテクチャが、グラフニューラルネットワークの標準データセット上で最良であることを示す。

We introduce a novel architecture for graph networks which is equivariant to the Euclidean group in $n$-dimensions, and is additionally able to deal with affine transformations. Our model is designed to work with graph networks in their most general form, thus including particular variants as special cases. Thanks to its equivariance properties, we expect the proposed model to be more data efficient with respect to classical graph architectures and also intrinsically equipped with a better inductive bias. As a preliminary example, we show that the architecture with both equivariance under the Euclidean group, as well as the affine transformations, performs best on a standard dataset for graph neural networks.
翻訳日:2021-03-29 12:38:24 公開日:2021-03-25
# TEDtalkの永続ホモロジー: 意味埋め込みはトポロジカルな形状を持つか?

Persistence Homology of TEDtalk: Do Sentence Embeddings Have a Topological Shape? ( http://arxiv.org/abs/2103.14131v1 )

ライセンス: Link先を確認
Shouman Das, Syed A. Haque, Md. Iftekhar Tanveer(参考訳) emph{topological data analysis} (tda) は高次元データから有意義な識別特徴を抽出する新しい手法として最近登場した。 本稿では,公衆発話評価の分類精度を向上させるためにTDAを適用する可能性を検討する。 tedtalkデータの文埋め込みに対して \emph{persistence image vectors} を計算し,このベクトルを機械学習モデルへの追加入力として与えた。 この位相情報はモデル精度を著しく改善しないという負の結果が得られた。 場合によっては、元のものよりわずかに精度が悪くなることもある。 以上の結果から,文章埋め込みのトポロジカルな形状が,公用語評価のためのより良いモデルトレーニングに役立つと結論付けることはできなかった。

\emph{Topological data analysis} (TDA) has recently emerged as a new technique to extract meaningful discriminitve features from high dimensional data. In this paper, we investigate the possibility of applying TDA to improve the classification accuracy of public speaking rating. We calculated \emph{persistence image vectors} for the sentence embeddings of TEDtalk data and feed this vectors as additional inputs to our machine learning models. We have found a negative result that this topological information does not improve the model accuracy significantly. In some cases, it makes the accuracy slightly worse than the original one. From our results, we could not conclude that the topological shapes of the sentence embeddings can help us train a better model for public speaking rating.
翻訳日:2021-03-29 12:38:13 公開日:2021-03-25
# グラフアライメントによる完全媒介表現の自己ラベル化

Self-Labeling of Fully Mediating Representations by Graph Alignment ( http://arxiv.org/abs/2103.14133v1 )

ライセンス: Link先を確認
Martijn Oldenhof, Adam Arany, Yves Moreau and Jaak Simm(参考訳) 化合物の2次元画像(U$)が与えられた場合、分子グラフ構造(W$)を予測することは、機械学習において難しい問題である。 u \rightarrow w$ ここで、$f$が$u \rightarrow v \rightarrow w$となるような完全な仲介表現$v$があります。 しかしながら、Vを観察するには詳細なラベルと高価なラベルが必要である。 正規ラベルが$W$のリッチラベルや詳細ラベルを生成するグラフ整合手法を提案する。 本稿では,通常のラベルWのみが利用可能なターゲットドメインに対して,高価なラベル$V$をアクセス可能なソースドメインからのドメイン適応のシナリオについて検討する。 2次元画像から化合物グラフを予測する問題に焦点をあてて, 予測する化学グラフ構造の平面埋め込みを用いて, 完全な中間層を表現する。 完全な仲介層の使用は、基盤となるプロセスのメカニズムに関するいくつかの仮定を意味する。 しかし、仮定が正しければ、機械学習モデルはより解釈可能になり、より一般化され、トレーニング時にデータ効率が向上するはずだ。 実験の結果,4000個のデータポイントのみを用いて,対象領域へのドメイン適応後の性能が,ソース領域のみの事前学習モデルと比較して最大4倍向上したことがわかった。 ドメイン適応後、モデルは元のソースドメインで見たことのない原子タイプを検出できる。 最後に、maybridgeデータセットでは、提案された自己ラベルアプローチは、現在の技術よりも高いパフォーマンスに達した。

To be able to predict a molecular graph structure ($W$) given a 2D image of a chemical compound ($U$) is a challenging problem in machine learning. We are interested to learn $f: U \rightarrow W$ where we have a fully mediating representation $V$ such that $f$ factors into $U \rightarrow V \rightarrow W$. However, observing V requires detailed and expensive labels. We propose graph aligning approach that generates rich or detailed labels given normal labels $W$. In this paper we investigate the scenario of domain adaptation from the source domain where we have access to the expensive labels $V$ to the target domain where only normal labels W are available. Focusing on the problem of predicting chemical compound graphs from 2D images the fully mediating layer is represented using the planar embedding of the chemical graph structure we are predicting. The use of a fully mediating layer implies some assumptions on the mechanism of the underlying process. However if the assumptions are correct it should allow the machine learning model to be more interpretable, generalize better and be more data efficient at training time. The empirical results show that, using only 4000 data points, we obtain up to 4x improvement of performance after domain adaptation to target domain compared to pretrained model only on the source domain. After domain adaptation, the model is even able to detect atom types that were never seen in the original source domain. Finally, on the Maybridge data set the proposed self-labeling approach reached higher performance than the current state of the art.
翻訳日:2021-03-29 12:37:59 公開日:2021-03-25
# 紫外線表面消毒の最適カバレッジ計画

Optimized Coverage Planning for UV Surface Disinfection ( http://arxiv.org/abs/2103.14137v1 )

ライセンス: Link先を確認
Joao Marcos Correia Marques, Ramya Ramalingam, Zherong Pan, and Kris Hauser(参考訳) 紫外線は、広範囲の病原体を消毒する消毒戦略として用いられてきたが、既存の照射戦略は、すべての環境表面の十分な曝露を保証せず、長期間の消毒を必要としている。 移動型紫外線消毒ロボットのための準最適カバープランナを提案する。 この定式化は照射時間効率を最適化し、各表面から十分な放射線量を受け取ることを保証している。 軌道と投薬計画は衝突と光閉塞の制約を考慮して最適化されている。 本稿では,NPハード最適化の解を近似する2段階の手法を提案し,効率よくGPU上で鍵照射および閉塞計算を行う。 実験の結果,既存のUVロボットと同等の露光時間で,UVロボットの設計を比較し,ほぼ最適計画を作成することができることがわかった。 これは元々ICRA2021に寄贈された論文の拡張版である。

UV radiation has been used as a disinfection strategy to deactivate a wide range of pathogens, but existing irradiation strategies do not ensure sufficient exposure of all environmental surfaces and/or require long disinfection times. We present a near-optimal coverage planner for mobile UV disinfection robots. The formulation optimizes the irradiation time efficiency, while ensuring that a sufficient dosage of radiation is received by each surface. The trajectory and dosage plan are optimized taking collision and light occlusion constraints into account. We propose a two-stage scheme to approximate the solution of the induced NP-hard optimization, and, for efficiency, perform key irradiance and occlusion calculations on a GPU. Empirical results show that our technique achieves more coverage for the same exposure time as strategies for existing UV robots, can be used to compare UV robot designs, and produces near-optimal plans. This is an extended version of the paper originally contributed to ICRA2021.
翻訳日:2021-03-29 12:36:26 公開日:2021-03-25
# 実効的差動送電電力フローデータリリース

Realistic Differentially-Priva te Transmission Power Flow Data Release ( http://arxiv.org/abs/2103.14036v1 )

ライセンス: Link先を確認
David Smith, Frederik Geth, Elliott Vercoe, Andrew Feutrill, Ming Ding, Jonathan Chan, James Foster and Thierry Rakotoarivelo(参考訳) 将来のエネルギー伝達ネットワークのモデリング、設計、計画には、サービス提供者のビジネス機密性のプライバシーを確実に維持しつつ、忠実で有用な電力フローデータにアクセスすることが不可欠である。 この重要な課題は、最近[1]で対処されました。 本論文は既存の研究を大きく拡張する。 まず,プライバシ保護のレベルが向上する電力ディスパッチではなく,グリッド損失の公開情報を用いて,後処理の基本的な方法を提案することにより,潜在的漏洩情報を低減する。 第二に、直列インピーダンス(完全πモデル)に加えて、より敏感なパラメータ、すなわち分岐シャント感受性を保護する。 これは送信高電圧ネットワークの電力フローデータを保護し、最適な電力フローを期待されたモデル動作に整合し、忠実に維持する微分プライベート変換を使用する。 第3に,pglib-opf テストケース [10] を用いて,従来の作業よりも大規模にアプローチをテストした。 この結果、最大4700バスまでの難読化が成功し、パラメータの忠実さとデータアナリストに優れた有用性で解決することができた。 我々のアプローチは、より実現可能で現実的なシナリオに対処し、システムの可解性、忠実性、実現可能性を維持しながら、最先端のプライバシー保証よりも高いものを提供します。

For the modeling, design and planning of future energy transmission networks, it is vital for stakeholders to access faithful and useful power flow data, while provably maintaining the privacy of business confidentiality of service providers. This critical challenge has recently been somewhat addressed in [1]. This paper significantly extends this existing work. First, we reduce the potential leakage information by proposing a fundamentally different post-processing method, using public information of grid losses rather than power dispatch, which achieve a higher level of privacy protection. Second, we protect more sensitive parameters, i.e., branch shunt susceptance in addition to series impedance (complete pi-model). This protects power flow data for the transmission high-voltage networks, using differentially private transformations that maintain the optimal power flow consistent with, and faithful to, expected model behaviour. Third, we tested our approach at a larger scale than previous work, using the PGLib-OPF test cases [10]. This resulted in the successful obfuscation of up to a 4700-bus system, which can be successfully solved with faithfulness of parameters and good utility to data analysts. Our approach addresses a more feasible and realistic scenario, and provides higher than state-of-the-art privacy guarantees, while maintaining solvability, fidelity and feasibility of the system.
翻訳日:2021-03-29 12:35:24 公開日:2021-03-25
# 無線ネットワークにおける反応型ジャマーを欺くための強化学習

Reinforcement Learning for Deceiving Reactive Jammers in Wireless Networks ( http://arxiv.org/abs/2103.14056v1 )

ライセンス: Link先を確認
Ali Pourranjbar, Georges Kaddoum, Aidin Ferdowsi, and Walid Saad(参考訳) 従来のジャミング法は主に周波数ホッピングに頼り、ジャミングから隠れたり逃げたりする。 これらの手法は帯域幅使用率の面では効率的ではなく、妨害の可能性も高い。 既存の作品と異なり,本論文では,ジャンマーを騙して被害者チャネルを攻撃させながら,正当なユーザのコミュニケーションを安全チャネルで維持するという,新たなアンチジャミング戦略を提案する。 ジャマーのチャネル情報はユーザには知られていないため、強化学習(RL)を用いて最適なチャネル選択方式とサブ最適電力割り当てを提案する。 提案手法の性能評価は,全受信電力(TRP)の統計的下限を導出することにより行う。 解析の結果,あるアクセスポイントにおいて,最大到達可能なtrpの50%以上,すなわち50%以上の値が得られた。 ジャマーがない場合は、1人のユーザーと3つの周波数チャネルの場合に達成される。 さらに、この値はユーザ数と利用可能なチャネル数によって増加する。 その結果、既存の2つのRLベースのアンチジャミング手法と、ジャミング攻撃を伴わないランダムチャネル割り当て戦略を比較した。 シミュレーションの結果,提案手法は, 比較したRL法とランダム探索法より優れ, 達成可能なTRPに近い値が得られることがわかった。

Conventional anti-jamming method mostly rely on frequency hopping to hide or escape from jammer. These approaches are not efficient in terms of bandwidth usage and can also result in a high probability of jamming. Different from existing works, in this paper, a novel anti-jamming strategy is proposed based on the idea of deceiving the jammer into attacking a victim channel while maintaining the communications of legitimate users in safe channels. Since the jammer's channel information is not known to the users, an optimal channel selection scheme and a sub optimal power allocation are proposed using reinforcement learning (RL). The performance of the proposed anti-jamming technique is evaluated by deriving the statistical lower bound of the total received power (TRP). Analytical results show that, for a given access point, over 50 % of the highest achievable TRP, i.e. in the absence of jammers, is achieved for the case of a single user and three frequency channels. Moreover, this value increases with the number of users and available channels. The obtained results are compared with two existing RL based anti-jamming techniques, and random channel allocation strategy without any jamming attacks. Simulation results show that the proposed anti-jamming method outperforms the compared RL based anti-jamming methods and random search method, and yields near optimal achievable TRP.
翻訳日:2021-03-29 12:31:15 公開日:2021-03-25
# マルチタスク深層ニューラルネットワークを用いた共重合インフォマティクス

Copolymer Informatics with Multi-Task Deep Neural Networks ( http://arxiv.org/abs/2103.14174v1 )

ライセンス: Link先を確認
Christopher Kuenneth, William Schertzer, Rampi Ramprasad(参考訳) ポリマーインフォマティクスツールは最近、特定のアプリケーションのニーズを満たす新しいポリマーを効率的かつ効果的に開発、設計、発見するための基盤を築いている。 しかしこれまでのところ、これらのデータ駆動の取り組みはホモポリマーに重点を置いている。 本稿では,共重合体の特性予測問題に対処し,高分子情報化フレームワークをホモポリマーを超えて拡張する。 マルチタスク学習とメタ学習を取り入れた高度なポリマーフィンガープリントと深層学習手法を提案する。 2つのモノマーのホモポリマーと共重合体のガラス転移、融解、分解温度の18,000以上のデータを含む大きなデータセットを用いて、共重合予測の有効性を示す。 開発されたモデルは、適切なデータが利用可能になると正確で、高速で、柔軟で、スケーラブルで、より多くの共重合体の性質を持つ。

Polymer informatics tools have been recently gaining ground to efficiently and effectively develop, design, and discover new polymers that meet specific application needs. So far, however, these data-driven efforts have largely focused on homopolymers. Here, we address the property prediction challenge for copolymers, extending the polymer informatics framework beyond homopolymers. Advanced polymer fingerprinting and deep-learning schemes that incorporate multi-task learning and meta-learning are proposed. A large data set containing over 18,000 data points of glass transition, melting, and degradation temperature of homopolymers and copolymers of up to two monomers is used to demonstrate the copolymer prediction efficacy. The developed models are accurate, fast, flexible, and scalable to more copolymer properties when suitable data become available.
翻訳日:2021-03-29 12:30:56 公開日:2021-03-25
# 胸部X線からの肺炎と結核の分類

Classification of Pneumonia and Tuberculosis from Chest X-rays ( http://arxiv.org/abs/2103.14562v1 )

ライセンス: Link先を確認
M. Abubakar, I. Shah, W. Ali, F. bashir(参考訳) 人工知能(AI)、特に機械学習は、多くの分野に進出している。 機械学習は、システムがより効率的に独立してタスクを実行するように、人間をある種のドメインで置き換えたり補完したりする。 ヘルスケアはAIと機械学習を融合して、物事をよりスムーズかつ効率的に働かせるための価値のある分野だ。 X線による胸部関連疾患の検出と分類は, 高品質な放射線技師の少ない現代において必要とされている。 この論文は、胸部X線から肺炎と結核の2つの主要な胸部疾患の分類に焦点を当てている。 このシステムは、患者が病気を患っているかどうかをユーザに意見として提供し、医師や医療スタッフが病気の有無について迅速かつインフォームドな判断を行えるようにする。 これまでの研究と比較して、我々のモデルは2つのタイプの異常を検出できる。 モデルでは、x線が正常か、肺炎や結核の92.97%に異常があるかを正確に検出できる。

Artificial intelligence (AI) and specifically machine learning is making inroads into number of fields. Machine learning is replacing and/or complementing humans in a certain type of domain to make systems perform tasks more efficiently and independently. Healthcare is a worthy domain to merge with AI and Machine learning to get things to work smoother and efficiently. The X-ray based detection and classification of diseases related to chest is much needed in this modern era due to the low number of quality radiologists. This thesis focuses on the classification of Pneumonia and Tuberculosis two major chest diseases from the chest X-rays. This system provides an opinion to the user whether one is having a disease or not, thereby helping doctors and medical staff to make a quick and informed decision about the presence of disease. As compared to previous work our model can detect two types of abnormality. Our model can detect whether X-ray is normal or having abnormality which can be pneumonia and tuberculosis 92.97% accurately.
翻訳日:2021-03-29 12:29:56 公開日:2021-03-25
# Deep-AIR:大都市における大気質モデリングのためのハイブリッドCNN-LSTMフレームワーク

Deep-AIR: A Hybrid CNN-LSTM Framework for Air Quality Modeling in Metropolitan Cities ( http://arxiv.org/abs/2103.14587v1 )

ライセンス: Link先を確認
Yang Han, Qi Zhang, Victor O.K. Li, Jacqueline C.K. Lam(参考訳) 大気汚染は長年にわたって深刻な環境問題であり、特に都市では大気汚染物質濃度が街路キャニオン効果と高い建物密度によって悪化している。 大気汚染の正確な監視と予測は極めて重要であるが、既存のデータ駆動モデルでは、大気汚染と都市ダイナミクスの複雑な相互作用に完全に対処できていない。 畳み込みニューラルネットワークと長期の短期記憶ネットワークを組み合わせた、新しいハイブリッドディープラーニングフレームワークであるour deep-airは、このギャップに対処し、都市全体の大気汚染推定とステーション全体の予測を提供する。 提案手法は,1×1畳み込み層を作成し,大気汚染と都市特性,特に道路密度,建物密度/高層,街路キャニオン効果との空間的相互作用の学習を強化する。 香港と北京をケーススタディとして、Deep-AIRはベースラインモデルよりも高い精度を実現しています。 このモデルは、香港の1時間当たりの微粒度推定では67.6%、77.2%、66.1%、大気汚染予測では1-hr、24-hr、北京では65.0%、75.3%、63.5%の精度を達成している。 香港では, 道路キャニオンと道路密度がNO2の最適推定値であり, 気象はPM2.5の最適推定値であることがわかった。

Air pollution has long been a serious environmental health challenge, especially in metropolitan cities, where air pollutant concentrations are exacerbated by the street canyon effect and high building density. Whilst accurately monitoring and forecasting air pollution are highly crucial, existing data-driven models fail to fully address the complex interaction between air pollution and urban dynamics. Our Deep-AIR, a novel hybrid deep learning framework that combines a convolutional neural network with a long short-term memory network, aims to address this gap to provide fine-grained city-wide air pollution estimation and station-wide forecast. Our proposed framework creates 1x1 convolution layers to strengthen the learning of cross-feature spatial interaction between air pollution and important urban dynamic features, particularly road density, building density/height, and street canyon effect. Using Hong Kong and Beijing as case studies, Deep-AIR achieves a higher accuracy than our baseline models. Our model attains an accuracy of 67.6%, 77.2%, and 66.1% in fine-grained hourly estimation, 1-hr, and 24-hr air pollution forecast for Hong Kong, and an accuracy of 65.0%, 75.3%, and 63.5% for Beijing. Our saliency analysis has revealed that for Hong Kong, street canyon and road density are the best estimators for NO2, while meteorology is the best estimator for PM2.5.
翻訳日:2021-03-29 12:29:43 公開日:2021-03-25
# 全形状に基づく複数のキラルヨードアレンのエナンチオ選択性に関する定量的予測

Quantitative Prediction on the Enantioselectivity of Multiple Chiral Iodoarene Scaffolds Based on Whole Geometry ( http://arxiv.org/abs/2103.14065v1 )

ライセンス: Link先を確認
Prema Dhorma Lama, Surendra Kumar, Kang Kim, Sangjin Ahn, Mi-hyun Kim(参考訳) 原子レベルでの非対称触媒の力学的基盤は、現在の最先端を超えるキラル触媒の潜在的な価値を開発するためのショートカットを提供する。 エナンチオ選択的レドックス変換において、現在の直観的研究は直観的アイデアを支持する体系的なアプローチを必要とする。 おそらく最も体系的なアプローチは、反応に普遍的に適用される最適な特徴空間において、多様で異種なキラルな足場の信頼できる定量的構造-選択性関係に基づいているだろう。 本稿では, 名前反応におけるキラル触媒の反応範囲を拡張するための予測ワークフローを紹介する。 この目的のために、DFT最適化された複数の触媒足場113個の触媒からなる3次元構造から、全幾何学記述子を符号化した。 分子ディスクリプタはキラルヨードアレンの各ディスクリプタから構築されたエナンチオ選択的予測分類モデルの統計的比較により検証された。 さらに、分割された3次元分子指紋の1つのホットエンコーディングを通して分子構造全体を捉えることで、3つの異なる名前反応に対する信頼できるエナンチオ選択的予測回帰モデルが得られた。 このワークフローの潜在的な使用価値とリサイクル性、互換性、一般性の利点は、上記の名前反応以外の名前反応にワークフローを適用することができることを示した(サンプルから)。 さらに、アンサンブルモデルのコンセンサス予測では、この大域的記述子は、ステリモールパラメータや非共有相互作用ベクトルと比較することができる。 本研究は, 有機反応, 特に非対称触媒反応における実験データの疎さを克服する方法を示す一例である。

The mechanistic underpinnings of asymmetric catalysis at atomic levels provide shortcuts for developing the potential value of chiral catalysts beyond the current state-of-the-art. In the enantioselective redox transformations, the present intuition-driven studies require a systematic approach to support their intuitive idea. Arguably, the most systematic approach would be based on the reliable quantitative structure-selectivit y relationship of diverse and dissimilar chiral scaffolds in an optimal feature space that is universally applied to reactions. Here, we introduce a predictive workflow for the extension of the reaction scope of chiral catalysts across name reactions. For this purpose, whole geometry descriptors were encoded from DFT optimized 3D structures of multiple catalyst scaffolds, 113 catalysts in 9 clusters. The molecular descriptors were verified by the statistical comparison of the enantioselective predictive classification models built from each descriptors of chiral iodoarenes. More notably, capturing the whole molecular geometry through one hot encoding of split three-dimensional molecular fingerprints presented reliable enantioselective predictive regression models for three different name reactions by recycling the data and metadata obtained across reactions. The potential use value of this workflow and the advantages of recyclability, compatibility, and generality proved that the workflow can be applied for name reactions other than the aforementioned name reactions (out of samples). Furthermore, for the consensus prediction of ensemble models, this global descriptor can be compared with sterimol parameters and noncovalent interaction vectors. This study is one case showing how to overcome the sparsity of experimental data in organic reactions, especially asymmetric catalysis.
翻訳日:2021-03-29 12:28:23 公開日:2021-03-25
# 到達可能性解析を用いたロバストデータ駆動予測制御

Robust Data-Driven Predictive Control using Reachability Analysis ( http://arxiv.org/abs/2103.14110v1 )

ライセンス: Link先を確認
Amr Alanwar and Yvonne St\"urz and Karl Henrik Johansson(参考訳) 有界なプロセスと測定ノイズを有する未知線形システムのロバストなデータ駆動制御方式を提案する。 従来の予測制御のようにシステムモデルに依存する代わりに,データ駆動型リーチブル領域を利用した制御器を提案する。 データ駆動到達可能領域は、行列zonotope再帰に基づいて、システムの軌道のノイズの多い入出力データのみに基づいて算出される。 測定とプロセスノイズが有界集合に含まれると仮定する。 これらの境界について知識を仮定するが、ノイズの統計的性質に関する知識は想定されない。 ノイズフリーの場合、提示された純粋データ駆動制御スキームが、名目モデル予測制御スキームに等価な閉ループ挙動をもたらすことを示す。 測定とプロセスノイズの場合,提案手法は安全クリティカルなアプリケーションにおいて必須となる制約満足度を保証している。 数値実験により,提案するデータ駆動制御系の有効性をモデルベース制御系と比較した。

We present a robust data-driven control scheme for unknown linear systems with a bounded process and measurement noise. Instead of depending on a system model as in traditional predictive control, a controller utilizing data-driven reachable regions is proposed. The data-driven reachable regions are based on a matrix zonotope recursion and are computed based on only noisy input-output data of a trajectory of the system. We assume that measurement and process noise are contained in bounded sets. While we assume knowledge of these bounds, no knowledge about the statistical properties of the noise is assumed. In the noise-free case, we prove that the presented purely data-driven control scheme results in an equivalent closed-loop behavior to a nominal model predictive control scheme. In the case of measurement and process noise, our proposed scheme guarantees robust constraint satisfaction, which is essential in safety-critical applications. Numerical experiments show the effectiveness of the proposed data-driven controller in comparison to model-based control schemes.
翻訳日:2021-03-29 12:28:02 公開日:2021-03-25
# (参考訳) ブラインドフォールディング中の読書と演技--テキストゲームエージェントにおける意味論の必要性 [全文訳有]

Reading and Acting while Blindfolded: The Need for Semantics in Text Game Agents ( http://arxiv.org/abs/2103.13552v1 )

ライセンス: CC BY 4.0
Shunyu Yao, Karthik Narasimhan, Matthew Hausknecht(参考訳) テキストベースのゲームは世界をシミュレートし、自然言語を使ってプレイヤーと対話する。 言葉や意味論の意味を理解することは、人間がこれらの世界でどのように理解し、理性し、行動するかを理解する上で重要な要素である。 しかし、人工エージェントがテキストの意味的理解をどのように利用するかは、まだ不明である。 そこで本研究では,学習エージェントが利用可能な意味情報量を体系的に削減する実験を行う。 驚いたことに、エージェントは言語意味論の完全な欠如にもかかわらず高いスコアを達成することができ、現在人気のある実験的なセットアップとモデルはゲームテキストを理解して活用するために設計が不十分である可能性がある。 この欠陥を補うために,表現空間の正規化と探索の促進を目的とした逆ダイナミクスデコーダを提案し,Zork Iを含むいくつかのゲームの性能向上を示す。 我々は,より強い意味理解を持つ将来のエージェントを設計するための知見の意義について論じる。

Text-based games simulate worlds and interact with players using natural language. Recent work has used them as a testbed for autonomous language-understandi ng agents, with the motivation being that understanding the meanings of words or semantics is a key component of how humans understand, reason, and act in these worlds. However, it remains unclear to what extent artificial agents utilize semantic understanding of the text. To this end, we perform experiments to systematically reduce the amount of semantic information available to a learning agent. Surprisingly, we find that an agent is capable of achieving high scores even in the complete absence of language semantics, indicating that the currently popular experimental setup and models may be poorly designed to understand and leverage game texts. To remedy this deficiency, we propose an inverse dynamics decoder to regularize the representation space and encourage exploration, which shows improved performance on several games including Zork I. We discuss the implications of our findings for designing future agents with stronger semantic understanding.
翻訳日:2021-03-27 00:15:57 公開日:2021-03-25
# (参考訳) 識別的および生成的連続学習のための効率的な特徴変換 [全文訳有]

Efficient Feature Transformations for Discriminative and Generative Continual Learning ( http://arxiv.org/abs/2103.13558v1 )

ライセンス: CC BY 4.0
Vinay Kumar Verma, Kevin J Liang, Nikhil Mehta, Piyush Rai, Lawrence Carin(参考訳) ニューラルネットワークが現実世界のアプリケーションにますます応用されるにつれて、分散シフトとシーケンシャルなタスク学習に、忘れずに対処するメカニズムが重要である。 ネットワーク拡張を組み込んだ手法では,新しいタスクを学習するためのモデルキャパシティを自然に加えながら,破滅的な放棄を回避できることが示されている。 しかし、これらの方法の多くの追加パラメータの数の増加は、大規模で計算的にコストがかかる場合がある。 その代わりに、連続学習のための単純なタスク固有の特徴マップ変換戦略を提案し、これを効率的な特徴変換(EFT)と呼ぶ。 これらのeftは、ベースアーキテクチャに最小限のパラメータを追加することで、新しいタスクを学習するための強力な柔軟性を提供します。 さらに,高コストな生成モデルを必要とすることなく,クラスインクリメンタル設定におけるタスク予測を大幅に改善する特徴距離最大化戦略を提案する。 本手法の有効性と有効性は,識別的(CIFAR-100およびImageNet-1K)および生成的(LSUN,CUB-200,Cats)タスクにおける広範囲な実験によって実証する。 シングル桁パラメータの成長率が低いにもかかわらず、ETFは幅広い設定で他の連続的な学習方法よりも優れている。

As neural networks are increasingly being applied to real-world applications, mechanisms to address distributional shift and sequential task learning without forgetting are critical. Methods incorporating network expansion have shown promise by naturally adding model capacity for learning new tasks while simultaneously avoiding catastrophic forgetting. However, the growth in the number of additional parameters of many of these types of methods can be computationally expensive at larger scales, at times prohibitively so. Instead, we propose a simple task-specific feature map transformation strategy for continual learning, which we call Efficient Feature Transformations (EFTs). These EFTs provide powerful flexibility for learning new tasks, achieved with minimal parameters added to the base architecture. We further propose a feature distance maximization strategy, which significantly improves task prediction in class incremental settings, without needing expensive generative models. We demonstrate the efficacy and efficiency of our method with an extensive set of experiments in discriminative (CIFAR-100 and ImageNet-1K) and generative (LSUN, CUB-200, Cats) sequences of tasks. Even with low single-digit parameter growth rates, EFTs can outperform many other continual learning methods in a wide range of settings.
翻訳日:2021-03-27 00:07:30 公開日:2021-03-25
# (参考訳) ドメイン適応への注目の進展について [全文訳有]

On Evolving Attention Towards Domain Adaptation ( http://arxiv.org/abs/2103.13561v1 )

ライセンス: CC0 1.0
Kekai Sheng, Ke Li, Xiawu Zheng, Jian Liang, Weiming Dong, Feiyue Huang, Rongrong Ji, Xing Sun(参考訳) より良い教師なしドメイン適応(UDA)を目指す。 近年,様々なドメイン条件の注意モジュールが提案され,将来性がある。 しかし,注目モジュールの種類や位置が性能に大きく影響を与えることを考えると,任意のUDAシナリオに特化するように自動的に注意設定を最適化することがより一般化されている。 本稿では,人間の介入なしに与えられたUDAタスクの注意設定を進化させる新しいフレームワークであるEvoADAを提案する。 特に,様々な注意配置を含む新しい探索空間を提案する。 そして,注意構成を評価し,UDA指向の探索手順(伝達可能性と識別)を適用するため,1)既成領域適応法を用いて2つの領域にネットワーク重みをトレーニングし,2)対象領域における識別能力のガイドの下で注意構成を進化させるという,シンプルかつ効果的な評価戦略を適用した。 様々なクロスドメインベンチマーク、すなわちoffice-31、office-home、cub-paintings、duke-market-1510の実験では、提案されているevoadaは一貫して複数の最先端のドメイン適応アプローチを促進しており、最適な注意設定はより優れたパフォーマンスを達成するのに役立つ。

Towards better unsupervised domain adaptation (UDA). Recently, researchers propose various domain-conditioned attention modules and make promising progresses. However, considering that the configuration of attention, i.e., the type and the position of attention module, affects the performance significantly, it is more generalized to optimize the attention configuration automatically to be specialized for arbitrary UDA scenario. For the first time, this paper proposes EvoADA: a novel framework to evolve the attention configuration for a given UDA task without human intervention. In particular, we propose a novel search space containing diverse attention configurations. Then, to evaluate the attention configurations and make search procedure UDA-oriented (transferability + discrimination), we apply a simple and effective evaluation strategy: 1) training the network weights on two domains with off-the-shelf domain adaptation methods; 2) evolving the attention configurations under the guide of the discriminative ability on the target domain. Experiments on various kinds of cross-domain benchmarks, i.e., Office-31, Office-Home, CUB-Paintings, and Duke-Market-1510, reveal that the proposed EvoADA consistently boosts multiple state-of-the-art domain adaptation approaches, and the optimal attention configurations help them achieve better performance.
翻訳日:2021-03-26 23:49:37 公開日:2021-03-25
# (参考訳) MetaAlign: 教師なしドメイン適応のためのドメインアライメントと分類の調整 [全文訳有]

MetaAlign: Coordinating Domain Alignment and Classification for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2103.13575v1 )

ライセンス: CC BY 4.0
Guoqiang Wei, Cuiling Lan, Wenjun Zeng, Zhibo Chen(参考訳) 非教師なしドメイン適応 (unsupervised domain adaptation, uda) では、ドメインシフトの効果を緩和するために、多くのアプローチが機能空間のソースとターゲットドメインを敵の学習や統計を明示的に整列させることで一致させる。 しかし、そのようなドメインアライメントの最適化の目的は通常、最適化のための降下方向が矛盾する可能性があるように、オブジェクト分類タスク自体と協調しない。 これにより、UDAの性能向上におけるドメインアライメントの有効性が低下する。 本稿では,ドメインアライメントと分類タスクの最適化の不整合問題を研究・軽減することを目的とする。 そこで我々はメタアライメント目標と分類目標をメタトレーニングおよびメタテストタスクとして扱うメタアラインと呼ばれる効果的なメタ最適化ベースの戦略を提案する。 metaalignは、トレーニング中の2つのタスクの勾配の内積を最大化する協調的な方法で、両方のタスクを最適化することを推奨する。 提案手法は,物体分類と物体検出のタスクにおいて,様々なアライメントに基づくベースラインアプローチ上で有効であることを示す。 MetaAlignは最先端のパフォーマンスを達成するのに役立ちます。

For unsupervised domain adaptation (UDA), to alleviate the effect of domain shift, many approaches align the source and target domains in the feature space by adversarial learning or by explicitly aligning their statistics. However, the optimization objective of such domain alignment is generally not coordinated with that of the object classification task itself such that their descent directions for optimization may be inconsistent. This will reduce the effectiveness of domain alignment in improving the performance of UDA. In this paper, we aim to study and alleviate the optimization inconsistency problem between the domain alignment and classification tasks. We address this by proposing an effective meta-optimization based strategy dubbed MetaAlign, where we treat the domain alignment objective and the classification objective as the meta-train and meta-test tasks in a meta-learning scheme. MetaAlign encourages both tasks to be optimized in a coordinated way, which maximizes the inner product of the gradients of the two tasks during training. Experimental results demonstrate the effectiveness of our proposed method on top of various alignment-based baseline approaches, for tasks of object classification and object detection. MetaAlign helps achieve the state-of-the-art performance.
翻訳日:2021-03-26 23:30:50 公開日:2021-03-25
# (参考訳) 変形可能なマルチスケール画像登録のためのテスト時間トレーニング [全文訳有]

Test-Time Training for Deformable Multi-Scale Image Registration ( http://arxiv.org/abs/2103.13578v1 )

ライセンス: CC BY 4.0
Wentao Zhu and Yufang Huang and Daguang Xu and Zhen Qian and Wei Fan and Xiaohui Xie(参考訳) 登録は医療ロボットの基本的なタスクであり、動作分析、術中追跡、画像分割など多くの下流タスクにとって重要なステップである。 ANTsやNiftyRegなどの一般的な登録方法は、複雑な変形を伴う3Dおよびシーケンシャルな画像に要する時間である、スクラッチから各画像の目的関数を最適化する。 近年,VoxelMorphのようなディープラーニングベースの登録手法が登場し,競争性能が向上している。 本研究では,従来の学習ベース登録モデルの一般化能力を向上させるために,深い変形可能な画像登録のためのテストタイムトレーニングを構築する。 残留変形を連続的にモデル化するマルチスケールディープネットワークを設計し,高変動変形に有効である。 画像分割と平均二乗誤差(mse, normalized local cross-correlation, nlcc)による組織濃密な追跡課題に対する, dice係数に基づくテストタイムトレーニングによる多スケール深層登録の有効性を検証した。 https://www.youtube. com/watch?v=NvLrCaqCiAE と https://www.youtube. com/watch?v=pEA6ZmtTNuQ

Registration is a fundamental task in medical robotics and is often a crucial step for many downstream tasks such as motion analysis, intra-operative tracking and image segmentation. Popular registration methods such as ANTs and NiftyReg optimize objective functions for each pair of images from scratch, which are time-consuming for 3D and sequential images with complex deformations. Recently, deep learning-based registration approaches such as VoxelMorph have been emerging and achieve competitive performance. In this work, we construct a test-time training for deep deformable image registration to improve the generalization ability of conventional learning-based registration model. We design multi-scale deep networks to consecutively model the residual deformations, which is effective for high variational deformations. Extensive experiments validate the effectiveness of multi-scale deep registration with test-time training based on Dice coefficient for image segmentation and mean square error (MSE), normalized local cross-correlation (NLCC) for tissue dense tracking tasks. Two videos are in https://www.youtube. com/watch?v=NvLrCaqCiAE and https://www.youtube. com/watch?v=pEA6ZmtTNuQ
翻訳日:2021-03-26 23:12:28 公開日:2021-03-25
# (参考訳) ファウショット学習のためのメタフィルタによる動的アライメントの学習 [全文訳有]

Learning Dynamic Alignment via Meta-filter for Few-shot Learning ( http://arxiv.org/abs/2103.13582v1 )

ライセンス: CC BY 4.0
Chengming Xu, Chen Liu, Li Zhang, Chengjie Wang, Jilin Li, Feiyue Huang, Xiangyang Xue, Yanwei Fu(参考訳) FSL(Few-shot Learning)は、学習知識を極めて限定的な(サポートされた)例で適用することで、新しいクラスを認識することを目的としている。 少数ショット学習における機能アライメントの既存の方法のほとんどは、画像レベルのアライメントや空間レベルのアライメントのみを考慮しつつ、チャネルの差異を省略している。 我々の考えでは、これらの手法は冗長なマッチングによる適応が不十分になり、学習した知識を新しいクラスに適切に適応させる鍵となる。 そこで本稿では,異なるローカルサポート情報に基づいて,クエリ領域とチャネルの両方を効果的にハイライトできる動的アライメントの学習を提案する。 具体的には、まず入力数ショットで条件付けられた特徴位置の近傍を動的にサンプリングし、それに基づいて位置依存とチャネル依存の両方の動的メタフィルタを予測する。 このフィルタは、クエリ機能と位置特化およびチャネル特化知識の整合に使用される。 さらに、より正確なアライメント制御を可能にするために、ニューラル正規微分方程式(ODE)を採用する。 このような意味で、我々のモデルは、少数ショット例のきめ細かいセマンティックコンテキストをより正確に把握することができ、したがって、数ショット学習のための動的知識適応を容易にする。 結果として得られたフレームワークは、miniimagenetやtieredimagenetなど、主要な数少ないビジュアル認識ベンチマークで最新技術を確立している。

Few-shot learning (FSL), which aims to recognise new classes by adapting the learned knowledge with extremely limited few-shot (support) examples, remains an important open problem in computer vision. Most of the existing methods for feature alignment in few-shot learning only consider image-level or spatial-level alignment while omitting the channel disparity. Our insight is that these methods would lead to poor adaptation with redundant matching, and leveraging channel-wise adjustment is the key to well adapting the learned knowledge to new classes. Therefore, in this paper, we propose to learn a dynamic alignment, which can effectively highlight both query regions and channels according to different local support information. Specifically, this is achieved by first dynamically sampling the neighbourhood of the feature position conditioned on the input few shot, based on which we further predict a both position-dependent and channel-dependent Dynamic Meta-filter. The filter is used to align the query feature with position-specific and channel-specific knowledge. Moreover, we adopt Neural Ordinary Differential Equation (ODE) to enable a more accurate control of the alignment. In such a sense our model is able to better capture fine-grained semantic context of the few-shot example and thus facilitates dynamical knowledge adaptation for few-shot learning. The resulting framework establishes the new state-of-the-arts on major few-shot visual recognition benchmarks, including miniImageNet and tieredImageNet.
翻訳日:2021-03-26 22:54:15 公開日:2021-03-25
# (参考訳) 階層型注意ネットワークと畳み込みニューラルネットワークの統合によるオンラインフォーラム要約の改善 [全文訳有]

Improving Online Forums Summarization via Unifying Hierarchical Attention Networks with Convolutional Neural Networks ( http://arxiv.org/abs/2103.13587v1 )

ライセンス: CC BY 4.0
Sansiri Tarnpradab, Fereshteh Jafariakinabad and Kien A. Hua(参考訳) オンラインディスカッションフォーラムは広く普及しており、簡単にアクセスできるので、議論スレッドにメッセージを投稿することでアイデアや意見を共有できる。 フォーラムスレッドは、参加者にとって、新参者も既存者も、主要なアイデアをつかむことが困難になる可能性がある。 本研究は,この問題を軽減するために,オンラインフォーラム用テキスト要約の自動作成を目的とする。 本稿では,2方向長短期記憶(Bi-LSTM)と畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)を結合した階層型注目ネットワークに基づくフレームワークを提案する。 このスキームでは、Bi-LSTMは文全体とスレッド全体の情報を含む表現を導出するが、CNNは文とスレッドコンテキストに関して支配的な単位の高レベルなパターンを認識する。 注意機構はcnnの上に適用され、望ましい要約に寄与する重要なユニットをキャプチャするハイレベルな表現をさらに強調する。 3つのデータセットに基づく広範なパフォーマンス評価、そのうちの2つは実生活オンラインフォーラム、もう1つはニュースデータセットであり、提案モデルがいくつかの競合ベースラインを上回ることを示している。

Online discussion forums are prevalent and easily accessible, thus allowing people to share ideas and opinions by posting messages in the discussion threads. Forum threads that significantly grow in length can become difficult for participants, both newcomers and existing, to grasp main ideas. This study aims to create an automatic text summarizer for online forums to mitigate this problem. We present a framework based on hierarchical attention networks, unifying Bidirectional Long Short-Term Memory (Bi-LSTM) and Convolutional Neural Network (CNN) to build sentence and thread representations for the forum summarization. In this scheme, Bi-LSTM derives a representation that comprises information of the whole sentence and whole thread; whereas, CNN recognizes high-level patterns of dominant units with respect to the sentence and thread context. The attention mechanism is applied on top of CNN to further highlight the high-level representations that capture any important units contributing to a desirable summary. Extensive performance evaluation based on three datasets, two of which are real-life online forums and one is news dataset, reveals that the proposed model outperforms several competitive baselines.
翻訳日:2021-03-26 22:39:43 公開日:2021-03-25
# (参考訳) Mask Attention Networks: Rethinking and Strengthen Transformer [全文訳有]

Mask Attention Networks: Rethinking and Strengthen Transformer ( http://arxiv.org/abs/2103.13597v1 )

ライセンス: CC BY 4.0
Zhihao Fan, Yeyun Gong, Dayiheng Liu, Zhongyu Wei, Siyuan Wang, Jian Jiao, Nan Duan, Ruofei Zhang, Xuanjing Huang(参考訳) Transformerは注目に基づくニューラルネットワークで、SAN(Self-Attention Network)とFFN(Feed-Forward Network)という2つのサブレイヤで構成される。 既存の研究は、テキスト表現におけるトランスフォーマーの能力を改善するために、2つのサブレイヤーを別々に拡張することを検討している。 本稿では,san と ffn をマスクアテンションネットワーク (mans) として新たに理解し,静的マスクマトリクスを持つ男の2つの特別なケースであることを示す。 しかし、静的マスク行列は、テキスト表現学習における局所性モデリングの能力を制限する。 そこで我々は,局所性を適応的にモデル化できる学習可能なマスク行列を備えた動的マスキングアテンションネットワーク(DMAN)を導入する。 DMAN, SAN, FFNの利点を取り入れ, 3種類の層を組み合わせるシーケンシャルな層構造を提案する。 ニューラルネットワーク翻訳やテキスト要約など,さまざまなタスクに対する大規模な実験により,我々のモデルがオリジナルのトランスフォーマーより優れていることが示された。

Transformer is an attention-based neural network, which consists of two sublayers, namely, Self-Attention Network (SAN) and Feed-Forward Network (FFN). Existing research explores to enhance the two sublayers separately to improve the capability of Transformer for text representation. In this paper, we present a novel understanding of SAN and FFN as Mask Attention Networks (MANs) and show that they are two special cases of MANs with static mask matrices. However, their static mask matrices limit the capability for localness modeling in text representation learning. We therefore introduce a new layer named dynamic mask attention network (DMAN) with a learnable mask matrix which is able to model localness adaptively. To incorporate advantages of DMAN, SAN, and FFN, we propose a sequential layered structure to combine the three types of layers. Extensive experiments on various tasks, including neural machine translation and text summarization demonstrate that our model outperforms the original Transformer.
翻訳日:2021-03-26 22:18:55 公開日:2021-03-25
# (参考訳) テキストにおける因果関係の方向予測 [全文訳有]

Predicting Directionality in Causal Relations in Text ( http://arxiv.org/abs/2103.13606v1 )

ライセンス: CC BY 4.0
Pedram Hosseini, David A. Broniatowski, Mona Diab(参考訳) 本研究では,2つの双方向トランスフォーマーベース言語モデルであるBERTとSpanBERTの性能試験を行い,テキストコンテンツ中の因果対の方向性を予測する。 予備的な結果は,相互関係と暗黙的因果関係の方向予測がより困難であることを示している。 また、SpanBERTは長さが長い因果検体ではBERTより優れている。 また,因果関係の散在したデータセットの集合を統一するフレームワークである crest についても紹介する。

In this work, we test the performance of two bidirectional transformer-based language models, BERT and SpanBERT, on predicting directionality in causal pairs in the textual content. Our preliminary results show that predicting direction for inter-sentence and implicit causal relations is more challenging. And, SpanBERT performs better than BERT on causal samples with longer span length. We also introduce CREST which is a framework for unifying a collection of scattered datasets of causal relations.
翻訳日:2021-03-26 22:05:44 公開日:2021-03-25
# (参考訳) THAT: 大規模ロバストネス向上のための2つの頭部対向訓練 [全文訳有]

THAT: Two Head Adversarial Training for Improving Robustness at Scale ( http://arxiv.org/abs/2103.13612v1 )

ライセンス: CC BY 4.0
Zuxuan Wu, Tom Goldstein, Larry S. Davis, Ser-Nam Lim(参考訳) 逆行訓練の多くの変種が提案されており、ほとんどの研究は比較的少数のクラスの問題に焦点を当てている。 本稿では,大規模な多クラス画像Netデータセットを扱うために設計された2ストリーム逆学習ネットワークであるTwo Head Adversarial Training (THAT)を提案する。 提案手法では,2つのヘッドと2つの損失関数を持つネットワークを訓練する。1つは自然画像と逆画像間の特徴空間領域シフトを最小化し,もう1つは高い分類精度を促進する。 この組み合わせは、ImageNet上で高い自然な精度を維持しながら、最先端の精度を実現する、強化されたネットワークを提供する。 広範にわたる実験により,提案手法は,標準および「自由」な学習条件下での代替手法よりも優れていることを示した。

Many variants of adversarial training have been proposed, with most research focusing on problems with relatively few classes. In this paper, we propose Two Head Adversarial Training (THAT), a two-stream adversarial learning network that is designed to handle the large-scale many-class ImageNet dataset. The proposed method trains a network with two heads and two loss functions; one to minimize feature-space domain shift between natural and adversarial images, and one to promote high classification accuracy. This combination delivers a hardened network that achieves state of the art robust accuracy while maintaining high natural accuracy on ImageNet. Through extensive experiments, we demonstrate that the proposed framework outperforms alternative methods under both standard and "free" adversarial training settings.
翻訳日:2021-03-26 21:49:48 公開日:2021-03-25
# (参考訳) カラーファンドス画像における網膜血管セグメンテーションのためのコンテキスト情報強化畳み込みニューラルネットワーク [全文訳有]

Contextual Information Enhanced Convolutional Neural Networks for Retinal Vessel Segmentation in Color Fundus Images ( http://arxiv.org/abs/2103.13622v1 )

ライセンス: CC BY 4.0
Muyi Sun, Guanhong Zhang(参考訳) 正確な網膜血管セグメンテーションは、色眼底画像解析において難しい問題である。 自動網膜血管セグメンテーションシステムは、臨床診断及び眼科研究を効果的に促進することができる。 技術的には、この問題は様々な容器の厚さ、詳細の知覚、文脈的特徴の融合に苦しむ。 これらの課題に対処するため、深層学習に基づく手法が提案され、広く知られたエンコーダ・デコーダアーキテクチャであるu-netにいくつかのカスタマイズされたモジュールが組み込まれている。 構造的には、カスケード拡張畳み込みモジュールが中間層に統合され、より大きな受容場を獲得し、より密に符号化された特徴写像を生成する。 また, 空間連続性を持つピラミッドモジュールの利点として, マルチタイクネス知覚, 詳細精細化, 文脈的特徴融合があげられる。 さらに、特定の特性を持つ異なるデータセットに対するネットワークトレーニングにおいて、異なる正規化アプローチの有効性が議論されている。 実験的に、十分な比較実験が3つの網膜血管セグメンテーションデータセット、drive、 chasedb1、および不健全データセット stareで実施されている。 その結果,提案手法は先行技術よりも優れ,感性/リコール,F1スコア,MCCの最先端性能を実現している。

Accurate retinal vessel segmentation is a challenging problem in color fundus image analysis. An automatic retinal vessel segmentation system can effectively facilitate clinical diagnosis and ophthalmological research. Technically, this problem suffers from various degrees of vessel thickness, perception of details, and contextual feature fusion. For addressing these challenges, a deep learning based method has been proposed and several customized modules have been integrated into the well-known encoder-decoder architecture U-net, which is mainly employed in medical image segmentation. Structurally, cascaded dilated convolutional modules have been integrated into the intermediate layers, for obtaining larger receptive field and generating denser encoded feature maps. Also, the advantages of the pyramid module with spatial continuity have been taken, for multi-thickness perception, detail refinement, and contextual feature fusion. Additionally, the effectiveness of different normalization approaches has been discussed in network training for different datasets with specific properties. Experimentally, sufficient comparative experiments have been enforced on three retinal vessel segmentation datasets, DRIVE, CHASEDB1, and the unhealthy dataset STARE. As a result, the proposed method outperforms the work of predecessors and achieves state-of-the-art performance in Sensitivity/Recall, F1-score and MCC.
翻訳日:2021-03-26 21:36:42 公開日:2021-03-25
# (参考訳) ループを閉じる:不連続画像翻訳による共同雨の発生と除去 [全文訳有]

Closing the Loop: Joint Rain Generation and Removal via Disentangled Image Translation ( http://arxiv.org/abs/2103.13660v1 )

ライセンス: CC BY 4.0
Yuntong Ye, Yi Chang, Hanyu Zhou, Luxin Yan(参考訳) 既存のディープラーニングに基づく画像デライニング手法は、合成雨画像に対して有望な性能を達成しており、通常は鋭い画像と模擬雨画像のペアに依存している。 しかし, 簡易合成雨と複雑な実雨との間には大きなギャップがあるため, 実際の雨に面した際の性能低下に悩まされている。 本研究では,雨の発生と除去は同じ硬貨の両側面であり,密結合すべきであると主張する。 このループを閉じるために, 統一された画像翻訳フレームワークにおいて, 雨の発生・除去手順を共同学習することを提案する。 具体的には, 実雨画像と合成雨画像の両方に対して, 各一方向ネットワークが2つの共同雨発生ループと除去ループを含む双方向不等角化翻訳ネットワークを提案する。 一方,雨像をクリーンな背景層とレイン層(レイン除去層)に分解し,サイクル整合性損失と対向性損失を両立させ,実際の雨像と合成雨像の間を通した雨層を緩和するため,雨像をクリーンな背景層とレイン除去層に分解する。 この絡み合い戦略と相反する組成物は、雨の発生に対称的に適用される。 人工雨と実世界の降雨データセットに関する広範な実験は、最先端雨と比較して提案手法が優れていることを示している。

Existing deep learning-based image deraining methods have achieved promising performance for synthetic rainy images, typically rely on the pairs of sharp images and simulated rainy counterparts. However, these methods suffer from significant performance drop when facing the real rain, because of the huge gap between the simplified synthetic rain and the complex real rain. In this work, we argue that the rain generation and removal are the two sides of the same coin and should be tightly coupled. To close the loop, we propose to jointly learn real rain generation and removal procedure within a unified disentangled image translation framework. Specifically, we propose a bidirectional disentangled translation network, in which each unidirectional network contains two loops of joint rain generation and removal for both the real and synthetic rain image, respectively. Meanwhile, we enforce the disentanglement strategy by decomposing the rainy image into a clean background and rain layer (rain removal), in order to better preserve the identity background via both the cycle-consistency loss and adversarial loss, and ease the rain layer translating between the real and synthetic rainy image. A counterpart composition with the entanglement strategy is symmetrically applied for rain generation. Extensive experiments on synthetic and real-world rain datasets show the superiority of proposed method compared to state-of-the-arts.
翻訳日:2021-03-26 21:20:03 公開日:2021-03-25
# (参考訳) ニューラルネットワーク翻訳の領域適応のためのpruning-then-expandi ngモデル [全文訳有]

Pruning-then-Expandi ng Model for Domain Adaptation of Neural Machine Translation ( http://arxiv.org/abs/2103.13678v1 )

ライセンス: CC BY 4.0
Shuhao Gu, Yang Feng, Wanying Xie(参考訳) ドメイン適応は、一般ドメインとインドメインの両方で優れたパフォーマンスを達成することを目的として、ニューラルマシン翻訳の実用的な応用で広く使われている。 しかし、既存のドメイン適応法は通常、破滅的な忘れ、ドメインのばらつき、モデル爆発に悩まされる。 これら3つの問題に対処するために、翻訳モデルにおけるニューロンやパラメータの重要性に基づく「分割と征服」の手法を提案する。 提案手法では,まずモデルをpruneし,重要なニューロンやパラメータのみを保持し,一般ドメインおよびドメイン内翻訳の責任を負う。 次に, 知識蒸留法を用いて, 原型未熟モデルに監督されたプルーンモデルをさらに訓練する。 最後に、モデルを元のサイズに拡張し、ドメイン内翻訳のための追加パラメータを微調整します。 我々は,異なる言語とドメインについて実験を行い,本手法がいくつかの強力なベースラインと比較して有意な改善を得られることを示した。

Domain Adaptation is widely used in practical applications of neural machine translation, which aims to achieve good performance on both the general-domain and in-domain. However, the existing methods for domain adaptation usually suffer from catastrophic forgetting, domain divergence, and model explosion. To address these three problems, we propose a method of "divide and conquer" which is based on the importance of neurons or parameters in the translation model. In our method, we first prune the model and only keep the important neurons or parameters, making them responsible for both general-domain and in-domain translation. Then we further train the pruned model supervised by the original unpruned model with the knowledge distillation method. Last we expand the model to the original size and fine-tune the added parameters for the in-domain translation. We conduct experiments on different languages and domains and the results show that our method can achieve significant improvements compared with several strong baselines.
翻訳日:2021-03-26 21:05:35 公開日:2021-03-25
# (参考訳) MBA-VO:視覚オドメトリーを意識したモーションブラインド [全文訳有]

MBA-VO: Motion Blur Aware Visual Odometry ( http://arxiv.org/abs/2103.13684v1 )

ライセンス: CC BY 4.0
Peidong Liu, Xingxing Zuo, Viktor Larsson and Marc Pollefeys(参考訳) 運動のぼかしは視覚計測法に残る主要な課題の1つである。 長時間露光が必要な低照度環境では、比較的遅いカメラの動きであっても動きのぼかしが現れる。 本稿では,露光時間内にカメラの局所軌跡を明示的にモデル化し,推定する,直接的アプローチのハイブリッドなビジュアルオドメトリーパイプラインを提案する。 これにより、カメラの動きによって生じる動きのぼやけを積極的に補うことができます。 また,動きのぼかしを意識した視覚計測のための新しいベンチマークデータセットも提案する。 実験では、画像形成過程を直接モデル化することにより、動きのぼやけのない画像と同等の精度を保ちながら、視覚計測の堅牢性を向上させることができることを示す。

Motion blur is one of the major challenges remaining for visual odometry methods. In low-light conditions where longer exposure times are necessary, motion blur can appear even for relatively slow camera motions. In this paper we present a novel hybrid visual odometry pipeline with direct approach that explicitly models and estimates the camera's local trajectory within the exposure time. This allows us to actively compensate for any motion blur that occurs due to the camera motion. In addition, we also contribute a novel benchmarking dataset for motion blur aware visual odometry. In experiments we show that by directly modeling the image formation process, we are able to improve robustness of the visual odometry, while keeping comparable accuracy as that for images without motion blur.
翻訳日:2021-03-26 20:51:10 公開日:2021-03-25
# (参考訳) 記述論理オントロジー学習の複雑さについて [全文訳有]

On the Complexity of Learning Description Logic Ontologies ( http://arxiv.org/abs/2103.13694v1 )

ライセンス: CC BY 4.0
Ana Ozaki(参考訳) オントロジーはドメイン知識、特に生命科学に関連する領域における知識を表現する一般的な方法である。 (半)オントロジーを構築する過程の自動化は、異なるコミュニティの研究者を「オントロジー学習」という分野に引き寄せている。 計算学習理論から得られた正確かつほぼ正しい学習モデルの正式な仕様を提供する。 そして、これらのモデルにおける軽量記述論理(DL)オントロジーを学習するための文献複雑性結果から記憶する。 最後に,DLオントロジーの学習における文献的アプローチについて述べる。

Ontologies are a popular way of representing domain knowledge, in particular, knowledge in domains related to life sciences. (Semi-)automating the process of building an ontology has attracted researchers from different communities into a field called "Ontology Learning". We provide a formal specification of the exact and the probably approximately correct learning models from computational learning theory. Then, we recall from the literature complexity results for learning lightweight description logic (DL) ontologies in these models. Finally, we highlight other approaches proposed in the literature for learning DL ontologies.
翻訳日:2021-03-26 20:37:56 公開日:2021-03-25
# (参考訳) ベクトル化とラスタ化: スケッチと手書きのための自己監督学習 [全文訳有]

Vectorization and Rasterization: Self-Supervised Learning for Sketch and Handwriting ( http://arxiv.org/abs/2103.13716v1 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Yongxin Yang, Timothy M. Hospedales, Tao Xiang, Yi-Zhe Song(参考訳) 自己教師付き学習は、多くの困難な下流タスクにおいて優れたパフォーマンスを達成する未学習データから強力な表現を学習する効果により、注目を集めている。 しかし、監督不要のプレテキストタスクは設計が困難であり、通常はモダリティに特化している。 空間的(画像など)または時間的データ(音やテキスト)のモダリティについては、自己管理手法の豊富な文献があるが、両方のモダリティの恩恵を受ける共通のプレテキストタスクが欠落している。 本稿では、スケッチと手書きデータのための自己教師付き事前テキストタスクの定義に興味がある。 このデータはラスタ化画像とベクトル座標列の双対モダリティの存在によって一意的に特徴付けられる。 我々は,この二重表現を,自己教師付き特徴学習のための2つの新しいクロスモーダル翻訳プリテキストタスクであるベクトル化とラスタライズを提案することで解決し,活用する。 ベクトル化は画像空間をベクトル座標にマッピングすることを学び、ラスタ化はベクトル座標を画像空間にマッピングする。 学習したエンコーダモジュールはラスタベースとベクトルベースの両方の下流アプローチによる手書きデータの解析に有用であることを示す。 実験的な証拠は、我々の新しいプレテキストタスクが既存の単一およびマルチモーダルなセルフスーパービジョンメソッドを超えていることを示している。

Self-supervised learning has gained prominence due to its efficacy at learning powerful representations from unlabelled data that achieve excellent performance on many challenging downstream tasks. However supervision-free pre-text tasks are challenging to design and usually modality specific. Although there is a rich literature of self-supervised methods for either spatial (such as images) or temporal data (sound or text) modalities, a common pre-text task that benefits both modalities is largely missing. In this paper, we are interested in defining a self-supervised pre-text task for sketches and handwriting data. This data is uniquely characterised by its existence in dual modalities of rasterized images and vector coordinate sequences. We address and exploit this dual representation by proposing two novel cross-modal translation pre-text tasks for self-supervised feature learning: Vectorization and Rasterization. Vectorization learns to map image space to vector coordinates and rasterization maps vector coordinates to image space. We show that the our learned encoder modules benefit both raster-based and vector-based downstream approaches to analysing hand-drawn data. Empirical evidence shows that our novel pre-text tasks surpass existing single and multi-modal self-supervision methods.
翻訳日:2021-03-26 20:20:19 公開日:2021-03-25
# (参考訳) スポーツチームランキングにおける深い類似性学習 [全文訳有]

Deep Similarity Learning for Sports Team Ranking ( http://arxiv.org/abs/2103.13736v1 )

ライセンス: CC BY-SA 4.0
Daniel Yazbek, Jonathan Sandile Sibindi, Terence L. Van Zyl(参考訳) スポーツデータはより容易に入手でき、その結果、文学におけるスポーツ分析、予測、ランキングの量が増加している。 スポーツはそれぞれの確率的性質においてユニークであり、分析を行い、スポーツに関わる人々にとって価値のある正確な予測を行う。 そこで本研究では,LightGBMモデルとXGBoostモデルとを併用したSiamese Neural Networks(SNN)に着目し,試合の重要性を予測し,ラグビーとバスケットボールのチームをランク付けする。 6つのモデル、LightGBM、XGBoost、LightGBM(Contrastive Loss)、LightGBM(Triplet Loss)、XGBoost(Contrastive Loss)、XGBoost(Triplet Loss)が開発された。 Triplet損失関数を利用するモデルは、Contrastive lossを使用するモデルよりも優れている。 LightGBM (Triplet Los) はNBAのランキングにおいて最も効果的なモデルであり、それぞれ、最先端(SOTA) mAP (0.867) と NDCG (0.98) を生成する。 SNNは最も効果的にスーパー15ラグビーを予測し、SOTA mAP (0.921)、NDCG (0.983)、および$r_s$ (0.793)を得た。 トリプレットロスは、スポーツの予測とランキングのための学習表現/エンベディングの価値を示す最高の総合結果を生成する。 総合的には、他のランキングモデルが将来検討されるべきであることを示す2つのスポーツ全体で一貫した最高のパフォーマンスモデルはない。

Sports data is more readily available and consequently, there has been an increase in the amount of sports analysis, predictions and rankings in the literature. Sports are unique in their respective stochastic nature, making analysis, and accurate predictions valuable to those involved in the sport. In response, we focus on Siamese Neural Networks (SNN) in unison with LightGBM and XGBoost models, to predict the importance of matches and to rank teams in Rugby and Basketball. Six models were developed and compared, a LightGBM, a XGBoost, a LightGBM (Contrastive Loss), LightGBM (Triplet Loss), a XGBoost (Contrastive Loss), XGBoost (Triplet Loss). The models that utilise a Triplet loss function perform better than those using Contrastive loss. It is clear LightGBM (Triplet loss) is the most effective model in ranking the NBA, producing a state of the art (SOTA) mAP (0.867) and NDCG (0.98) respectively. The SNN (Triplet loss) most effectively predicted the Super 15 Rugby, yielding the SOTA mAP (0.921), NDCG (0.983), and $r_s$ (0.793). Triplet loss produces the best overall results displaying the value of learning representations/embe ddings for prediction and ranking of sports. Overall there is not a single consistent best performing model across the two sports indicating that other Ranking models should be considered in the future.
翻訳日:2021-03-26 20:03:44 公開日:2021-03-25
# (参考訳) KiloNeRF:何千ものティニーMLPによるニューラルラジアンスフィールドの高速化 [全文訳有]

KiloNeRF: Speeding up Neural Radiance Fields with Thousands of Tiny MLPs ( http://arxiv.org/abs/2103.13744v1 )

ライセンス: CC BY-SA 4.0
Christian Reiser and Songyou Peng and Yiyi Liao and Andreas Geiger(参考訳) NeRFは、RGB画像にニューラルラディアンス場を合わせることにより、前例のない品質のシーンの新たなビューを合成する。 しかし、nerfは数百万回ものmlp(deep multi-layer perceptron)クエリを必要とするため、現在のgpuでもレンダリング時間が遅くなる。 本稿では,1つの大きなMLPではなく,何千もの小さなMLPを活用することで,大幅な高速化が可能であることを実証する。 我々の設定では、個々のMLPはシーンの一部だけを表現する必要があるため、より小さく、より高速にMDPを使用できる。 この分割・対数戦略とさらなる最適化を組み合わせることで、高ストレージコストを伴わずに、元のNeRFモデルと比較して2桁のレンダリングを高速化する。 さらに, 教師・生徒の蒸留を訓練に利用することで, このスピードアップが視覚品質を犠牲にすることなく実現できることを示す。

NeRF synthesizes novel views of a scene with unprecedented quality by fitting a neural radiance field to RGB images. However, NeRF requires querying a deep Multi-Layer Perceptron (MLP) millions of times, leading to slow rendering times, even on modern GPUs. In this paper, we demonstrate that significant speed-ups are possible by utilizing thousands of tiny MLPs instead of one single large MLP. In our setting, each individual MLP only needs to represent parts of the scene, thus smaller and faster-to-evaluate MLPs can be used. By combining this divide-and-conquer strategy with further optimizations, rendering is accelerated by two orders of magnitude compared to the original NeRF model without incurring high storage costs. Further, using teacher-student distillation for training, we show that this speed-up can be achieved without sacrificing visual quality.
翻訳日:2021-03-26 19:51:40 公開日:2021-03-25
# (参考訳) 非線形力学系に対するクープマン作用素の推定:非パラメトリックアプローチ [全文訳有]

Estimating Koopman operators for nonlinear dynamical systems: a nonparametric approach ( http://arxiv.org/abs/2103.13752v1 )

ライセンス: CC BY 4.0
Francesco Zanini and Alessandro Chiuso(参考訳) クープマン作用素(koopman operator)は、非線形系の線型記述を可能にする数学的ツールであるが、無限次元空間で動作する。 動的モード分解と拡張動的モード分解は最も人気のある有限次元近似の一つである。 本稿では,その核となる部分を同一フレームワークのデュアルバージョンとして捉え,それらをカーネルフレームワークに組み込む。 そのために、RKHSは、データによって形成される本質的な有限次元の性質のおかげで、クープマン力学を学ぶのに適した空間として活用する。 最終的にカーネルメソッドとクープマン演算子との強いリンクを確立し、カーネル関数を通して後者を推定する。 また,標準手順との比較のためのシミュレーションも提供する。

The Koopman operator is a mathematical tool that allows for a linear description of non-linear systems, but working in infinite dimensional spaces. Dynamic Mode Decomposition and Extended Dynamic Mode Decomposition are amongst the most popular finite dimensional approximation. In this paper we capture their core essence as a dual version of the same framework, incorporating them into the Kernel framework. To do so, we leverage the RKHS as a suitable space for learning the Koopman dynamics, thanks to its intrinsic finite-dimensional nature, shaped by data. We finally establish a strong link between kernel methods and Koopman operators, leading to the estimation of the latter through Kernel functions. We provide also simulations for comparison with standard procedures.
翻訳日:2021-03-26 19:37:41 公開日:2021-03-25
# (参考訳) 雑音データによるマルチフレーム超解像 [全文訳有]

Multi-frame Super-resolution from Noisy Data ( http://arxiv.org/abs/2103.13778v1 )

ライセンス: CC BY 4.0
Kireeti Bodduna and Joachim Weickert(参考訳) 低解像度データからクリッピングノイズで高解像度画像を取得することは、問題の性質の悪さからアルゴリズム的に困難である。 これまでのところこのような問題はほとんど解決されておらず、既存のアプローチでは単純正則法がほとんど使われていない。 異方性拡散の概念に基づく2つの適応正規化器の有用性を示す: 古典的エッジエンハンス異方性拡散正規化器を別として, 片面差と優れた性能を有する新しい非局所拡散正規化器を提案する。 セクタ拡散と呼ばれる。 従来のスーパーレゾリューション観測モデルの6つの変種すべてと組み合わせることで、3つの演算子が乱れ、ぼやけ、ダウンサンプリングのために置換される。 意外なことに、実際に関係のあるノイズシナリオの評価は、これまでの作業(SSVM 2017)のノイズフリー設定と異なるランキングを生み出します。

Obtaining high resolution images from low resolution data with clipped noise is algorithmically challenging due to the ill-posed nature of the problem. So far such problems have hardly been tackled, and the few existing approaches use simplistic regularisers. We show the usefulness of two adaptive regularisers based on anisotropic diffusion ideas: Apart from evaluating the classical edge-enhancing anisotropic diffusion regulariser, we introduce a novel non-local one with one-sided differences and superior performance. It is termed sector diffusion. We combine it with all six variants of the classical super-resolution observational model that arise from permutations of its three operators for warping, blurring, and downsampling. Surprisingly, the evaluation in a practically relevant noisy scenario produces a different ranking than the one in the noise-free setting in our previous work (SSVM 2017).
翻訳日:2021-03-26 19:27:25 公開日:2021-03-25
# (参考訳) モデル予測アクター批判:深層強化学習によるロボットスキル獲得の加速 [全文訳有]

Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning ( http://arxiv.org/abs/2103.13842v1 )

ライセンス: CC BY 4.0
Andrew S. Morgan, Daljeet Nandha, Georgia Chalvatzaki, Carlo D'Eramo, Aaron M. Dollar, and Jan Peters(参考訳) モデルに基づく強化学習アルゴリズムの実質的な進歩は、収集されたデータによって誘導されるモデルバイアスによって妨げられ、一般にパフォーマンスを損なう。 一方、本質的なサンプル効率は、ほとんどのロボットアプリケーションに実用性を保証し、トレーニング中のロボットとその環境への潜在的なダメージを制限する。 情報理論モデル予測制御と深層強化学習の進歩にインスパイアされたモデル予測アクタ批判(MoPAC)は,モデル予測ロールアウトとモデルバイアスを軽減するためのポリシー最適化を組み合わせたハイブリッドモデルベース/モデルフリー手法である。 mopacは、ポリシー学習のガイドに最適な軌道を利用するが、そのモデルフリーな手法で探索し、より表現力のあるダイナミクスモデルを学ぶことができる。 この組み合わせは、近似誤差まで最適なスキル学習を保証し、環境との必要な物理的相互作用を低減し、実際のロボットの訓練に適している。 提案手法が現在最先端の手法よりも優れており,バルブ回転と指の出動を行う物理ロボットハンドで学習するためのMoPACを評価することで,物体の把握,操作,再認識を必要とするタスクを評価できることを示す。

Substantial advancements to model-based reinforcement learning algorithms have been impeded by the model-bias induced by the collected data, which generally hurts performance. Meanwhile, their inherent sample efficiency warrants utility for most robot applications, limiting potential damage to the robot and its environment during training. Inspired by information theoretic model predictive control and advances in deep reinforcement learning, we introduce Model Predictive Actor-Critic (MoPAC), a hybrid model-based/model-fr ee method that combines model predictive rollouts with policy optimization as to mitigate model bias. MoPAC leverages optimal trajectories to guide policy learning, but explores via its model-free method, allowing the algorithm to learn more expressive dynamics models. This combination guarantees optimal skill learning up to an approximation error and reduces necessary physical interaction with the environment, making it suitable for real-robot training. We provide extensive results showcasing how our proposed method generally outperforms current state-of-the-art and conclude by evaluating MoPAC for learning on a physical robotic hand performing valve rotation and finger gaiting--a task that requires grasping, manipulation, and then regrasping of an object.
翻訳日:2021-03-26 19:18:30 公開日:2021-03-25
# (参考訳) 識別的脳サブネットワークを用いた自閉症スペクトラム障害スクリーニング : エントロピーアプローチ [全文訳有]

Autism Spectrum Disorder Screening Using Discriminative Brain Sub-Networks: An Entropic Approach ( http://arxiv.org/abs/2103.13850v1 )

ライセンス: CC BY 4.0
Mohammad Amin, Farshad Safaei(参考訳) 自閉症は、人の社会的相互作用に問題を引き起こす最も重要な神経障害の1つである。 脳のイメージング技術と技術の改善は、脳の構造的および機能的ネットワークの構築に役立つ。 各グループ(自閉症と健康管理)におけるネットワークトポロジーパターンの発見は、自閉症障害スクリーニングモデルの実現に役立つ。 本研究では,遺伝的アルゴリズムを用いて2つのグループ間の差異をよりよく表現する識別サブネットワークを抽出した。 適合度評価フェーズでは、サブネットワーク毎に、サブネットワークの様々なエントロピー特性を用いて機械学習モデルを訓練し、その性能を測定した。 優れたモデル性能は、優れた識別サブネットワークの抽出を意味する。 ネットワークエントロピーはネットワークトポロジカル記述子として使用できる。 評価結果は,抽出した識別サブネットワークに基づくスクリーニング手法の許容性能と,UCLAデータセットの構造ネットワークの最大精度73.1%,UCLAデータセットの関数ネットワークの82.2%,ABIDEデータセットの関数ネットワークの66.1%を達成できた機械学習モデルを示す。

Autism is one of the most important neurological disorders which leads to problems in a person's social interactions. Improvement of brain imaging technologies and techniques help us to build brain structural and functional networks. Finding networks topology pattern in each of the groups (autism and healthy control) can aid us to achieve an autism disorder screening model. In the present study, we have utilized the genetic algorithm to extract a discriminative sub-network that represents differences between two groups better. In the fitness evaluation phase, for each sub-network, a machine learning model was trained using various entropy features of the sub-network and its performance was measured. Proper model performance implies extracting a good discriminative sub-network. Network entropies can be used as network topological descriptors. The evaluation results indicate the acceptable performance of the proposed screening method based on extracted discriminative sub-networks and the machine learning models succeeded in obtaining a maximum accuracy of 73.1% in structural networks of the UCLA dataset, 82.2% in functional networks of the UCLA dataset, and 66.1% in functional networks of ABIDE datasets.
翻訳日:2021-03-26 18:58:50 公開日:2021-03-25
# (参考訳) ジェネレーティブ・ディバイサル・ネットワークスに基づくゴースト認識 [全文訳有]

Generative-Adversari al-Networks-based Ghost Recognition ( http://arxiv.org/abs/2103.13858v1 )

ライセンス: CC BY 4.0
Yuchen He, Yibing Chen, Hui Chen, Huaibin Zheng, Jianbin Liu, Shitao Zhu and Zhuo Xu(参考訳) 近年,多くの分野においてターゲット認識技術が重要な役割を担っている。 しかし,既存の画像情報に基づく手法は,画像品質の影響を受けやすい。 さらに、いくつかのメソッドには画像再構成が必要で、追加の時間コストがかかる。 本稿では,ゴーストイメージング(GI)とGAN(Generative Adversarial Network)を組み合わせた新しい同時認識手法を提案する。 GIのメカニズムに基づいて、ターゲットを照らすために一連のランダムスペックルシーケンスを使用し、解像度のないバケット検出器を用いてエコー信号を受信する。 連続検出後に形成されたバケット信号シーケンスは、GANのサンプルと見なされるバケット信号アレイに構成される。 次に、条件付きGANを使用して、バケット信号アレイとターゲットカテゴリをマッピングする。 実際の応用では、目標を照らすために訓練段階のスペックルシーケンスを使用し、認識のためにバケット信号アレイを入力GANとする。 提案手法は,画像情報に基づく既存の認識手法による問題を改善し,一定の乱れのない能力を提供する。 実験により,提案手法が有望な性能を達成することを示す。

Nowadays, target recognition technique plays an important role in many fields. However, the existing image information based methods suffer from the influence of target image quality. In addition, some methods also need image reconstruction, which will bring additional time cost. In this paper, we propose a novel coincidence recognition method combining ghost imaging (GI) and generative adversarial networks (GAN). Based on the mechanism of GI, a set of random speckles sequence is employed to illuminate target, and a bucket detector without resolution is utilized to receive echo signal. The bucket signal sequence formed after continuous detections is constructed into a bucket signal array, which is regarded as the sample of GAN. Then, conditional GAN is used to map bucket signal array and target category. In practical application, the speckles sequence in training step is still employed to illuminate target, and the bucket signal array is input GAN for recognition. The proposed method can improve the problems caused by existing recognition methods that based on image information, and provide a certain turbulence-free ability. Extensive experiments are show that the proposed method achieves promising performance.
翻訳日:2021-03-26 18:47:20 公開日:2021-03-25
# (参考訳) Group-CAM:Deep Convolutional Networksのためのグループスコア重み付きビジュアル説明 [全文訳有]

Group-CAM: Group Score-Weighted Visual Explanations for Deep Convolutional Networks ( http://arxiv.org/abs/2103.13859v1 )

ライセンス: CC BY 4.0
Qinglong Zhang and Yubin Yang(参考訳) 本稿では,グループスコア強調型クラス活性化マッピング (group-cam) と呼ばれる,"split-transform-merg e" 戦略を応用して塩分マップを生成する効率的な塩分マップ生成手法を提案する。 具体的には、入力画像の場合、クラスアクティベーションはまずグループに分割される。 各グループでは、サブアクティベーションは初期マスクとしてまとめてデノーズされる。 その後、最初のマスクは意味のある摂動で変換され、入力のサブピクセル(つまりマスクされた入力)を保存するために適用される。 最後に、初期マスクを重み付けして最終サリエンシマップを形成し、重み付けはマスク入力によって生成される信頼スコアである。 Group-CAMは効率的だが有効であり、ターゲット関連サリエンシマップを作成しながら、ネットワークに数十のクエリしか必要としない。 その結果、Group-CAMはネットワークを微調整するための効果的なデータ拡張トリックとして機能する。 我々は、imagenet-1kの削除と挿入テスト、coco2017でのゲームテストの指摘を含む、共通使用ベンチマークにおけるグループカメラの性能を総合的に評価する。 広汎な実験結果から,Group-CAMは現在の最先端の説明手法よりも視覚性能が向上することが示された。 コードはhttps://github.com/w ofmanaf/Group-CAMで公開されている。

In this paper, we propose an efficient saliency map generation method, called Group score-weighted Class Activation Mapping (Group-CAM), which adopts the "split-transform-merg e" strategy to generate saliency maps. Specifically, for an input image, the class activations are firstly split into groups. In each group, the sub-activations are summed and de-noised as an initial mask. After that, the initial masks are transformed with meaningful perturbations and then applied to preserve sub-pixels of the input (i.e., masked inputs), which are then fed into the network to calculate the confidence scores. Finally, the initial masks are weighted summed to form the final saliency map, where the weights are confidence scores produced by the masked inputs. Group-CAM is efficient yet effective, which only requires dozens of queries to the network while producing target-related saliency maps. As a result, Group-CAM can be served as an effective data augment trick for fine-tuning the networks. We comprehensively evaluate the performance of Group-CAM on common-used benchmarks, including deletion and insertion tests on ImageNet-1k, and pointing game tests on COCO2017. Extensive experimental results demonstrate that Group-CAM achieves better visual performance than the current state-of-the-art explanation approaches. The code is available at https://github.com/w ofmanaf/Group-CAM.
翻訳日:2021-03-26 18:33:40 公開日:2021-03-25
# (参考訳) 大型PMDPにおけるアクティブツリー探索

Active Tree Search in Large POMDPs ( http://arxiv.org/abs/2103.13860v1 )

ライセンス: CC BY 4.0
Domenico Maisto, Francesco Gregoretti, Karl Friston, Giovanni Pezzulo(参考訳) モデルに基づく計画と展望は認知神経科学と人工知能(ai)の両方で広く研究されているが、異なる視点から、和解が困難である異なるデシデラタ(生物学的リアリズムとスケーラビリティ)を念頭に置いている。 本稿では,脳神経科学(Active Inference)における主要な計画理論の規範的性格と生物学的リアリズムと,AIにおけるモンテカルロ法の拡張性を組み合わせた,大規模POMDP(Active Tree Search)の計画手法を提案する。 この統一はどちらのアプローチにも有益である。 一方、モンテカルロ計画を用いることで、大規模問題に対する活性推論の生物学的基盤的なアプローチのスケールアップが可能になる。 一方、アクティブ推論の理論は、モンテカルロ法でしばしばヒューリスティックに扱われる探索と搾取のバランスの原理的な解を提供する。 シミュレーションの結果,アクティブツリー探索は,サンプリングベース手法や適応的探索を必要とする問題,大規模pomdp問題に挑戦する二分木をうまくナビゲートできることが判明した。 さらに,大規模計画問題を含むヒトおよび他の動物の神経生理学的反応(海馬および前頭前皮質など)をシミュレートするために,活性樹探索をどのように利用できるかを示す。 これらのシミュレーションは、アクティブツリーサーチが、生物学的リアリズムと拡張性の両方を提供する計画の神経科学およびAI理論の原則的実現であることを示している。

Model-based planning and prospection are widely studied in both cognitive neuroscience and artificial intelligence (AI), but from different perspectives - and with different desiderata in mind (biological realism versus scalability) that are difficult to reconcile. Here, we introduce a novel method to plan in large POMDPs - Active Tree Search - that combines the normative character and biological realism of a leading planning theory in neuroscience (Active Inference) and the scalability of Monte-Carlo methods in AI. This unification is beneficial for both approaches. On the one hand, using Monte-Carlo planning permits scaling up the biologically grounded approach of Active Inference to large-scale problems. On the other hand, the theory of Active Inference provides a principled solution to the balance of exploration and exploitation, which is often addressed heuristically in Monte-Carlo methods. Our simulations show that Active Tree Search successfully navigates binary trees that are challenging for sampling-based methods, problems that require adaptive exploration, and the large POMDP problem Rocksample. Furthermore, we illustrate how Active Tree Search can be used to simulate neurophysiological responses (e.g., in the hippocampus and prefrontal cortex) of humans and other animals that contain large planning problems. These simulations show that Active Tree Search is a principled realisation of neuroscientific and AI theories of planning, which offers both biological realism and scalability.
翻訳日:2021-03-26 18:19:30 公開日:2021-03-25
# (参考訳) 自動運転のための階層型プログラムトリガー強化学習エージェント [全文訳有]

Hierarchical Program-Triggered Reinforcement Learning Agents For Automated Driving ( http://arxiv.org/abs/2103.13861v1 )

ライセンス: CC BY 4.0
Briti Gangopadhyay, Harshit Soora, Pallab Dasgupta(参考訳) 近年の強化学習 (RL) とディープラーニング (DL) の併用により, 自律運転を含む複雑なタスクにおいて, 顕著な性能が示された。 自律運転におけるRLエージェントの使用は、スムーズな人間のような運転経験をもたらすが、Deep Reinforcement Learning(DRL)の限定的な解釈可能性によって、検証と認定のボトルネックが生じる。 複雑なタスクを学習するためにRLエージェントに頼る代わりに、複数のRLエージェントとともに構造化プログラムからなる階層構造を用いて、比較的単純なタスクを実行するように訓練されたHPRL-hierarchical Program-Triggered Reinforcement Learningを提案する。 検証の焦点はRLエージェントからの単純な保証の下でマスタープログラムにシフトし、複雑なRLエージェントよりも解釈可能で検証可能な実装となる。 このフレームワークの評価は、オープンソースの動的都市シミュレーション環境carlaを用いて、異なる運転タスクとnhtsaプリクラッシュシナリオで実証されている。

Recent advances in Reinforcement Learning (RL) combined with Deep Learning (DL) have demonstrated impressive performance in complex tasks, including autonomous driving. The use of RL agents in autonomous driving leads to a smooth human-like driving experience, but the limited interpretability of Deep Reinforcement Learning (DRL) creates a verification and certification bottleneck. Instead of relying on RL agents to learn complex tasks, we propose HPRL - Hierarchical Program-triggered Reinforcement Learning, which uses a hierarchy consisting of a structured program along with multiple RL agents, each trained to perform a relatively simple task. The focus of verification shifts to the master program under simple guarantees from the RL agents, leading to a significantly more interpretable and verifiable implementation as compared to a complex RL agent. The evaluation of the framework is demonstrated on different driving tasks, and NHTSA precrash scenarios using CARLA, an open-source dynamic urban simulation environment.
翻訳日:2021-03-26 18:18:19 公開日:2021-03-25
# (参考訳) 小売商品分類データセット [全文訳有]

A Retail Product Categorisation Dataset ( http://arxiv.org/abs/2103.13864v1 )

ライセンス: CC0 1.0
Febin Sebastian Elayanithottathil and Janis Keuper(参考訳) ウェブショップのようなほとんどのeコマースアプリケーションには何百万もの製品がある。 この文脈では、類似商品の識別は一般的なサブタスクであり、レコメンデーションシステム、製品検索エンジン、内部供給物流の実装に利用することができる。 このデータセットを提供することで、画像と説明のタプルから小売商品のカテゴリーを予測するための機械学習手法の評価を促進することを目指している。

Most eCommerce applications, like web-shops have millions of products. In this context, the identification of similar products is a common sub-task, which can be utilized in the implementation of recommendation systems, product search engines and internal supply logistics. Providing this data set, our goal is to boost the evaluation of machine learning methods for the prediction of the category of the retail products from tuples of images and descriptions.
翻訳日:2021-03-26 17:58:51 公開日:2021-03-25
# (参考訳) 雑音ラベルを用いた学習のための変換整合性 [全文訳有]

Transform consistency for learning with noisy labels ( http://arxiv.org/abs/2103.13872v1 )

ライセンス: CC BY 4.0
Rumeng Yi, Yaping Huang(参考訳) 騒がしいラベルを扱うために誤記されたサンプルを区別することが重要である。 CoteachingやJoCoRといった従来の手法では、2つの異なるネットワークを導入して、ノイズの多いものからクリーンなサンプルを選択し、これらクリーンなものを使って深層モデルのトレーニングを行っている。 2つのネットワークを同時に訓練するこれらの方法とは違って、1つのネットワークのみを用いてクリーンサンプルを識別する簡易かつ効率的な手法を提案する。 清潔なサンプルは元の画像と変換された画像の一貫した予測に到達するのが好ましいが、ノイズの多いサンプルは通常一貫性のない予測に苦しむ。 本研究の目的は,ネットワークトレーニングにおいて,元の画像と変換された画像との変換一貫性を制約し,ネットワークのパラメータを更新するために小さなサンプルを選択することである。 さらに,ノイズラベルの悪影響を軽減するために,オフラインハードラベルとオンラインソフトラベルを用いて分類損失を設計し,ロバストモデルをトレーニングするためのより信頼性の高い監督を提供する。 CIFAR-10, CIFAR-100, Clothing1Mデータセットに関する総合的な実験を行った。 ベースラインと比較して、最先端のパフォーマンスを実現します。 特に,ほとんどの場合,提案手法はベースラインよりも大きなマージンで性能が向上する。

It is crucial to distinguish mislabeled samples for dealing with noisy labels. Previous methods such as Coteaching and JoCoR introduce two different networks to select clean samples out of the noisy ones and only use these clean ones to train the deep models. Different from these methods which require to train two networks simultaneously, we propose a simple and effective method to identify clean samples only using one single network. We discover that the clean samples prefer to reach consistent predictions for the original images and the transformed images while noisy samples usually suffer from inconsistent predictions. Motivated by this observation, we introduce to constrain the transform consistency between the original images and the transformed images for network training, and then select small-loss samples to update the parameters of the network. Furthermore, in order to mitigate the negative influence of noisy labels, we design a classification loss by using the off-line hard labels and on-line soft labels to provide more reliable supervisions for training a robust model. We conduct comprehensive experiments on CIFAR-10, CIFAR-100 and Clothing1M datasets. Compared with the baselines, we achieve the state-of-the-art performance. Especially, in most cases, our proposed method outperforms the baselines by a large margin.
翻訳日:2021-03-26 17:56:38 公開日:2021-03-25
# (参考訳) Progressive-X+: Consensus Spaceにおけるクラスタリング [全文訳有]

Progressive-X+: Clustering in the Consensus Space ( http://arxiv.org/abs/2103.13875v1 )

ライセンス: CC BY 4.0
Daniel Barath, Denys Rozumny, Ivan Eichhardt, Levente Hajder, Jiri Matas(参考訳) 本稿では,未知数の幾何モデル,例えばホモグラフを求める新しいアルゴリズムであるprogressive-x+を提案する。 この問題は、spash point-to-model代入を形成することなく、支配的なモデルインスタンスを段階的に見つけることで形式化される。 支配的なインスタンスは、前述したインスタンスを考慮したモデル品質関数によって駆動されるransacライクなサンプリングと統合プロセスを通じて見つかる。 新しいものは、コンセンサス空間におけるクラスタリングによって見つかる。 この新たな定式化は、多くの視覚問題に対してリアルタイムに実行しながら、最先端の精度で単純な反復アルゴリズムをもたらす。 また,実世界のデータが空間的コヒーレントな構造を形成する傾向があることを反映したサンプル手法を提案する。 サンプルは、徐々に成長する近傍グラフで接続されたコンポーネントを返す。 複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。 これには、グローバルなSfMに対する相対的なポーズを推定するための複数のホモグラフの使用、一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。

We propose Progressive-X+, a new algorithm for finding an unknown number of geometric models, e.g., homographies. The problem is formalized as finding dominant model instances progressively without forming crisp point-to-model assignments. Dominant instances are found via RANSAC-like sampling and a consolidation process driven by a model quality function considering previously proposed instances. New ones are found by clustering in the consensus space. This new formulation leads to a simple iterative algorithm with state-of-the-art accuracy while running in real-time on a number of vision problems. Also, we propose a sampler reflecting the fact that real-world data tend to form spatially coherent structures. The sampler returns connected components in a progressively growing neighborhood-graph. We present a number of applications where the use of multiple geometric models improves accuracy. These include using multiple homographies to estimate relative poses for global SfM; pose estimation from generalized homographies; and trajectory estimation of fast-moving objects.
翻訳日:2021-03-26 17:42:35 公開日:2021-03-25
# (参考訳) 軌道拡大と補正による対向的模倣学習 [全文訳有]

Adversarial Imitation Learning with Trajectorial Augmentation and Correction ( http://arxiv.org/abs/2103.13887v1 )

ライセンス: CC BY 4.0
Dafni Antotsiou, Carlo Ciliberto and Tae-Kyun Kim(参考訳) 深い模倣学習は、多くの専門家によるデモンストレーションを必要とするが、特に複雑なタスクでは、必ずしも取得が容易ではない。 このラベル不足を克服する方法は、データ拡張である。 しかし,問題の本質が逐次的であるため,制御タスクには容易に適用できない。 本研究では,拡張軌道の成功を保った新しい拡張手法を提案する。 そこで本研究では,歪んだ専門家行動の修正を目的とした半教師付き補正ネットワークを提案する。 補正ネットワークの能力を適切にテストするために, 合成専門家を用いて模倣エージェントを訓練するための逆データ拡張模倣アーキテクチャを開発した。 さらに,トラジェクトリデータセットの多様性を測定する指標も導入する。 実験の結果,データ拡張戦略は,生成した軌跡と実際の軌跡の多様性を保ちながら,逆模倣の精度と収束時間を向上できることがわかった。

Deep Imitation Learning requires a large number of expert demonstrations, which are not always easy to obtain, especially for complex tasks. A way to overcome this shortage of labels is through data augmentation. However, this cannot be easily applied to control tasks due to the sequential nature of the problem. In this work, we introduce a novel augmentation method which preserves the success of the augmented trajectories. To achieve this, we introduce a semi-supervised correction network that aims to correct distorted expert actions. To adequately test the abilities of the correction network, we develop an adversarial data augmented imitation architecture to train an imitation agent using synthetic experts. Additionally, we introduce a metric to measure diversity in trajectory datasets. Experiments show that our data augmentation strategy can improve accuracy and convergence time of adversarial imitation while preserving the diversity between the generated and real trajectories.
翻訳日:2021-03-26 17:25:33 公開日:2021-03-25
# (参考訳) 理論的重み付きモデル統合の測定 [全文訳有]

Measure Theoretic Weighted Model Integration ( http://arxiv.org/abs/2103.13901v1 )

ライセンス: CC BY 4.0
Ivan Miosic, Pedro Zuidberg Dos Martires(参考訳) 重み付きモデルカウント(WMC)は、離散確率変数を用いて確率的推論を行う一般的なフレームワークである。 近年、WMCは連続変数の追加処理のために重み付けモデル統合(WMI)に拡張されている。 中心となるWMI問題は計算積分と重み付き論理式上の和からなる。 理論的な観点から WMI は、既に WMC に存在している重み付き公式の和にリーマン積分を加えて定式化されている。 測度理論に根ざした積分に対するより原理的なアプローチはルベーグ積分である。 ルベーグ積分(Lebesgue integration)は、離散変数と連続変数を原理的に同じ足場で扱うことを可能にする。 本稿では,重み付きモデル積分の理論的定式化を提案し,連続変数が存在しない場合の重み付きモデル数に自然に還元する。 重み付きモデル積分を重み付きモデルカウントの拡張として扱う代わりに、WMCは我々の定式化におけるWMIの特別な場合として現れる。

Weighted model counting (WMC) is a popular framework to perform probabilistic inference with discrete random variables. Recently, WMC has been extended to weighted model integration (WMI) in order to additionally handle continuous variables. At their core, WMI problems consist of computing integrals and sums over weighted logical formulas. From a theoretical standpoint, WMI has been formulated by patching the sum over weighted formulas, which is already present in WMC, with Riemann integration. A more principled approach to integration, which is rooted in measure theory, is Lebesgue integration. Lebesgue integration allows one to treat discrete and continuous variables on equal footing in a principled fashion. We propose a theoretically sound measure theoretic formulation of weighted model integration, which naturally reduces to weighted model counting in the absence of continuous variables. Instead of regarding weighted model integration as an extension of weighted model counting, WMC emerges as a special case of WMI in our formulation.
翻訳日:2021-03-26 17:12:28 公開日:2021-03-25
# (参考訳) 条件付きWGANにおける判別器の正則性について [全文訳有]

About the regularity of the discriminator in conditional WGANs ( http://arxiv.org/abs/2103.13906v1 )

ライセンス: CC BY 4.0
J\"org Martin(参考訳) 条件付きWGANの訓練は通常、条件上の損失を平均化することによって行われる。 この方法によって、判別器のリプシッツ連続性に対する異なる制約が生じる。 しかし、正規性に対するより弱い要求に対して、使用済み損失関数の数学的に完全な正当化は存在しない。 この短い数学的ノートは、このギャップを埋めようとしており、このアプローチが適切または成功した場合に対して部分的にリプシッツ-1のみである判別者に対して数学的根拠を提供する。

Training of conditional WGANs is usually done by averaging the underlying loss over the condition. Depending on the way this is motivated different constraints on the Lipschitz continuity of the discriminator arise. For the weaker requirement on the regularity there is however so far no mathematically complete justification for the used loss function. This short mathematical note intends to fill this gap and provides the mathematical rationale for discriminators that are only partially Lipschitz-1 for cases where this approach is more appropriate or successful.
翻訳日:2021-03-26 16:53:51 公開日:2021-03-25
# (参考訳) 効果的な教師なしドメイン適応型人物再識別のためのアンタングルメントに基づくクロスドメイン機能拡張 [全文訳有]

Disentanglement-base d Cross-Domain Feature Augmentation for Effective Unsupervised Domain Adaptive Person Re-identification ( http://arxiv.org/abs/2103.13917v1 )

ライセンス: CC BY 4.0
Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Quanzeng You, Zicheng Liu, Kecheng Zheng, Zhibo Chen(参考訳) Unsupervised Domain Adaptive (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインからラベル付きターゲットドメインへ知識を転送することを目的としている。 ひとつの課題は、トレーニング用に信頼できるラベルでターゲットドメインサンプルを生成する方法だ。 この問題を解決するために,DCDFA(Disentangleme nt-based Cross-Domain Feature Augmentation)戦略を提案する。 特に,各サンプル特徴を頑健なドメイン不変/共有特徴とドメイン固有特徴に分割し,クロスドメイン特徴の再構成を行い,クロスドメインレイド損失とドメイン分類損失の制約を伴い,トレーニングで使用するサンプルの多様性を高める。 ドメイン不変性(アイデンティティの信頼性の高い継承を可能にする)とドメイン固有性(実際の分布の近似を可能にする)の強化に基づいて得られた各再合成機能は、"理想的な"拡張である。 その結果,本手法の有効性が実証され,最新性能が得られた。

Unsupervised domain adaptive (UDA) person re-identification (ReID) aims to transfer the knowledge from the labeled source domain to the unlabeled target domain for person matching. One challenge is how to generate target domain samples with reliable labels for training. To address this problem, we propose a Disentanglement-base d Cross-Domain Feature Augmentation (DCDFA) strategy, where the augmented features characterize well the target and source domain data distributions while inheriting reliable identity labels. Particularly, we disentangle each sample feature into a robust domain-invariant/sha red feature and a domain-specific feature, and perform cross-domain feature recomposition to enhance the diversity of samples used in the training, with the constraints of cross-domain ReID loss and domain classification loss. Each recomposed feature, obtained based on the domain-invariant feature (which enables a reliable inheritance of identity) and an enhancement from a domain specific feature (which enables the approximation of real distributions), is thus an "ideal" augmentation. Extensive experimental results demonstrate the effectiveness of our method, which achieves the state-of-the-art performance.
翻訳日:2021-03-26 16:48:49 公開日:2021-03-25
# (参考訳) 保存、促進、または攻撃? 位相摂動によるGNN説明 [全文訳有]

Preserve, Promote, or Attack? GNN Explanation via Topology Perturbation ( http://arxiv.org/abs/2103.13944v1 )

ライセンス: CC BY 4.0
Yi Sun, Abel Valente, Sijia Liu, Dakuo Wang(参考訳) グラフニューラルネットワーク(gnn)の説明を形式化する作業は、重要なエッジとノードを特定することによって予測結果を保存するために、1つのユースケースに焦点を当てている。 本稿では,入力グラフのトポロジ摂動を示すマスクを取得することで,多目的解釈フレームワークを開発する。 フレームワークを対話型可視化システム(GNNViz)に詰め込み、保存、プロモテ、アタックGNNの予測といった複数の目的を達成する。 We illustrate our approach's novelty and effectiveness with three case studies: First, GNNViz can assist non expert users to easily explore the relationship between graph topology and GNN's decision (Preserve), or to manipulate the prediction (Promote or Attack) for an image classification task on MS-COCO; Second, on the Pokec social network dataset, our framework can uncover unfairness and demographic biases; Lastly, it compares with state-of-the-art GNN explainer baseline on a synthetic dataset.

Prior works on formalizing explanations of a graph neural network (GNN) focus on a single use case - to preserve the prediction results through identifying important edges and nodes. In this paper, we develop a multi-purpose interpretation framework by acquiring a mask that indicates topology perturbations of the input graphs. We pack the framework into an interactive visualization system (GNNViz) which can fulfill multiple purposes: Preserve,Promote, or Attack GNN's predictions. We illustrate our approach's novelty and effectiveness with three case studies: First, GNNViz can assist non expert users to easily explore the relationship between graph topology and GNN's decision (Preserve), or to manipulate the prediction (Promote or Attack) for an image classification task on MS-COCO; Second, on the Pokec social network dataset, our framework can uncover unfairness and demographic biases; Lastly, it compares with state-of-the-art GNN explainer baseline on a synthetic dataset.
翻訳日:2021-03-26 16:34:33 公開日:2021-03-25
# (参考訳) 美しいスケッチをベースとした画像検索のための半教師付き学習 [全文訳有]

More Photos are All You Need: Semi-Supervised Learning for Fine-Grained Sketch Based Image Retrieval ( http://arxiv.org/abs/2103.13990v1 )

ライセンス: CC BY 4.0
Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Aneeshan Sain, Yongxin Yang, Tao Xiang, Yi-Zhe Song(参考訳) 既存のFIN-Grained Sketch-Based Image Retrieval(FG-SBIR)モデルが直面している根本的な課題は、データの不足である。 写真の数は簡単にスケールできるが、それぞれのスケッチは個別に作成する必要がある。 本稿では,このようなスケッチデータに対する上限を緩和し,ラベルなしの写真のみ(枚数が多い)がパフォーマンス向上のために栽培可能かどうかを検討する。 特に,データ不足を考慮に入れた大規模アンラベリング画像を利用したクロスモーダル検索のための新しい半教師付きフレームワークを提案する。 半スーパービジョンデザインの中心にあるのは、連続した写真からスケッチを生成するモデルです。 さらに, 不適切な生成を誘導する判別器誘導機構と, 蒸留損失に基づく正則化器を導入して, 騒音トレーニング試料に対する耐性を提供する。 最後に,2つの共役問題として生成と検索を扱い,各モジュールが相互に利益を得るための共同学習手順を考案する。 FG-SBIRの非標識写真を利用する既存の手法と同様に、我々の半教師付きモデルは最先端の教師付き代替品よりも大幅に性能が向上することを示した。

A fundamental challenge faced by existing Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) models is the data scarcity -- model performances are largely bottlenecked by the lack of sketch-photo pairs. Whilst the number of photos can be easily scaled, each corresponding sketch still needs to be individually produced. In this paper, we aim to mitigate such an upper-bound on sketch data, and study whether unlabelled photos alone (of which they are many) can be cultivated for performances gain. In particular, we introduce a novel semi-supervised framework for cross-modal retrieval that can additionally leverage large-scale unlabelled photos to account for data scarcity. At the centre of our semi-supervision design is a sequential photo-to-sketch generation model that aims to generate paired sketches for unlabelled photos. Importantly, we further introduce a discriminator guided mechanism to guide against unfaithful generation, together with a distillation loss based regularizer to provide tolerance against noisy training samples. Last but not least, we treat generation and retrieval as two conjugate problems, where a joint learning procedure is devised for each module to mutually benefit from each other. Extensive experiments show that our semi-supervised model yields significant performance boost over the state-of-the-art supervised alternatives, as well as existing methods that can exploit unlabelled photos for FG-SBIR.
翻訳日:2021-03-26 16:13:49 公開日:2021-03-25
# (参考訳) エッジデバイスにおける実時間低リソース音素認識 [全文訳有]

Real-time low-resource phoneme recognition on edge devices ( http://arxiv.org/abs/2103.13997v1 )

ライセンス: CC BY 4.0
Yonatan Alon(参考訳) 音声認識は過去10年間で関心や研究が急増しているが、音声認識のための機械学習モデルは、大規模なトレーニングデータセットか、大量のストレージとメモリを必要とする。 音声データが利用できる第1の言語としての英語の隆盛と相まって、現在ほとんどの言語は優れた音声認識モデルを持っていない。 本稿では, 従来のモデルと比較して, 精度が高いだけでなく, 記憶量, 記憶量, 訓練データをほとんど必要としない言語において, 音声認識のためのモデルを作成し, 訓練する方法を示す。 これにより、トレーニングモデルが任意の言語を認識し、携帯電話や車載ディスプレイなどのエッジデバイスにデプロイすることで、高速なリアルタイム音声認識が可能になる。

While speech recognition has seen a surge in interest and research over the last decade, most machine learning models for speech recognition either require large training datasets or lots of storage and memory. Combined with the prominence of English as the number one language in which audio data is available, this means most other languages currently lack good speech recognition models. The method presented in this paper shows how to create and train models for speech recognition in any language which are not only highly accurate, but also require very little storage, memory and training data when compared with traditional models. This allows training models to recognize any language and deploying them on edge devices such as mobile phones or car displays for fast real-time speech recognition.
翻訳日:2021-03-26 15:54:37 公開日:2021-03-25
# (参考訳) 直交射影損失 [全文訳有]

Orthogonal Projection Loss ( http://arxiv.org/abs/2103.14021v1 )

ライセンス: CC BY 4.0
Kanchana Ranasinghe, Muzammal Naseer, Munawar Hayat, Salman Khan, Fahad Shahbaz Khan(参考訳) ディープニューラルネットワークは、デファクト目的関数としてソフトマックスクロスエントロピー(CE)損失が出現し、様々な分類タスクにおいて顕著なパフォーマンスを達成した。 CE損失は、負のクラスに比べて真のクラスベクターのプロジェクションスコアが高いクラスの特徴を奨励する。 しかし、これは相対的な制約であり、明確に異なるクラス機能を適切に分離させません。 CE損失の基底構造クラス表現が直交(一ホット符号化ベクトル)であることに感銘を受けて,特徴空間に直交性を与える「直交射影損失(Orthogonal Projection Loss)」と呼ばれる新しい損失関数を開発した。 OPLはCE損失の特性を強化し、ミニバッチレベルの直交制約を通じて、機能空間内のクラス内クラスタリングと並行してクラス間分離を直接実施する。 CEの他の代替品と比較して、OPLは独自の利点、例えば、学習可能なパラメータを追加せず、慎重な負のマイニングを必要とせず、バッチサイズに敏感ではない。 OPLのプラグ・アンド・プレイの性質から,画像認識(CIFAR-100),大規模分類(イメージネット),ドメイン一般化(PACS),少数ショット学習(mini ImageNet, CIFAR-FS, tiered-ImageNet, Meta-dataset)など,さまざまなタスクで評価を行い,その有効性を示した。 さらに、OPLは、敵攻撃やラベルノイズなどの実用上の問題に対して、より堅牢性を提供する。 コードはhttps://github.com/k ahnchana/opl。

Deep neural networks have achieved remarkable performance on a range of classification tasks, with softmax cross-entropy (CE) loss emerging as the de-facto objective function. The CE loss encourages features of a class to have a higher projection score on the true class-vector compared to the negative classes. However, this is a relative constraint and does not explicitly force different class features to be well-separated. Motivated by the observation that ground-truth class representations in CE loss are orthogonal (one-hot encoded vectors), we develop a novel loss function termed `Orthogonal Projection Loss' (OPL) which imposes orthogonality in the feature space. OPL augments the properties of CE loss and directly enforces inter-class separation alongside intra-class clustering in the feature space through orthogonality constraints on the mini-batch level. As compared to other alternatives of CE, OPL offers unique advantages e.g., no additional learnable parameters, does not require careful negative mining and is not sensitive to the batch size. Given the plug-and-play nature of OPL, we evaluate it on a diverse range of tasks including image recognition (CIFAR-100), large-scale classification (ImageNet), domain generalization (PACS) and few-shot learning (miniImageNet, CIFAR-FS, tiered-ImageNet and Meta-dataset) and demonstrate its effectiveness across the board. Furthermore, OPL offers better robustness against practical nuisances such as adversarial attacks and label noise. Code is available at: https://github.com/k ahnchana/opl.
翻訳日:2021-03-26 15:41:57 公開日:2021-03-25
# (参考訳) ニューラルネットワークのリアルタイムレンダリングのためのPlenOctrees [全文訳有]

PlenOctrees for Real-time Rendering of Neural Radiance Fields ( http://arxiv.org/abs/2103.14024v1 )

ライセンス: CC BY 4.0
Alex Yu, Ruilong Li, Matthew Tancik, Hao Li, Ren Ng, Angjoo Kanazawa(参考訳) ビュー依存効果をサポートするオクツリーベースの3D表現であるPlenOctreesを用いて,NeRFをリアルタイムに描画する手法を提案する。 提案手法では,従来のNeRFの3000倍以上の速度で,150FPS以上の800×800画像をレンダリングすることができる。 我々は、任意の幾何学とビュー依存効果を持つシーンの自由視点レンダリングを行うNeRFの能力を保ちながら、品質を犠牲にすることなく行う。 リアルタイム性能は、NeRFをPlenOctreeにプリタブすることで達成される。 スペキュラリティなどのビュー依存効果を保存するため、閉じた形状の球面基底関数によって外観を分解する。 具体的には、NeRFをトレーニングして放射率の球面調和表現を予測できることを示し、ニューラルネットワークへの入力として観測方向を除去する。 さらに, plenoctrees は, コンストラクション損失を最小化するために, 直接的に最適化できることを示した。 さらに、このオクツリー最適化ステップは、NeRFトレーニングが完全に収束するまで待つ必要がなくなるため、トレーニング時間を短縮するために使用することができます。 当社のリアルタイムニューラルネットワークレンダリングアプローチは、6-DOF産業用や製品視覚化、次世代のAR/VRシステムといった新しいアプリケーションを可能にする可能性がある。 PlenOctreesはブラウザ内レンダリングにも適しており、インタラクティブなオンラインデモやビデオやコードのプロジェクトページを参照してほしい。

We introduce a method to render Neural Radiance Fields (NeRFs) in real time using PlenOctrees, an octree-based 3D representation which supports view-dependent effects. Our method can render 800x800 images at more than 150 FPS, which is over 3000 times faster than conventional NeRFs. We do so without sacrificing quality while preserving the ability of NeRFs to perform free-viewpoint rendering of scenes with arbitrary geometry and view-dependent effects. Real-time performance is achieved by pre-tabulating the NeRF into a PlenOctree. In order to preserve view-dependent effects such as specularities, we factorize the appearance via closed-form spherical basis functions. Specifically, we show that it is possible to train NeRFs to predict a spherical harmonic representation of radiance, removing the viewing direction as an input to the neural network. Furthermore, we show that PlenOctrees can be directly optimized to further minimize the reconstruction loss, which leads to equal or better quality compared to competing methods. Moreover, this octree optimization step can be used to reduce the training time, as we no longer need to wait for the NeRF training to converge fully. Our real-time neural rendering approach may potentially enable new applications such as 6-DOF industrial and product visualizations, as well as next generation AR/VR systems. PlenOctrees are amenable to in-browser rendering as well; please visit the project page for the interactive online demo, as well as video and code: https://alexyu.net/p lenoctrees
翻訳日:2021-03-26 15:21:33 公開日:2021-03-25
# (参考訳) 3DWorld Transport Challenge: 物理的に現実的な身体的AIのための視覚ガイド付きタスク・アンド・モビリティ・プランニングベンチマーク [全文訳有]

The ThreeDWorld Transport Challenge: A Visually Guided Task-and-Motion Planning Benchmark for Physically Realistic Embodied AI ( http://arxiv.org/abs/2103.14025v1 )

ライセンス: CC BY 4.0
Chuang Gan, Siyuan Zhou, Jeremy Schwartz, Seth Alter, Abhishek Bhandwaldar, Dan Gutfreund, Daniel L.K. Yamins, James J DiCarlo, Josh McDermott, Antonio Torralba, Joshua B. Tenenbaum(参考訳) 本稿では,3DWorld Transport Challengeと呼ばれる,視覚誘導・物理駆動型タスク・アンド・モーション計画ベンチマークを紹介する。 この課題では、シミュレーションされた実家環境において、2つの9-DOF関節アームを備えたエンボディエージェントをランダムに生成する。 エージェントは、家の周りに散らばっている小さな物体を見つけ、それらを拾い上げ、望ましい最終場所に運ぶ必要がある。 また,オブジェクトを効率的に輸送するためのツールとして使用できるコンテナを家の周りに配置する。 タスクを完了させるために、具体化エージェントは、現実的な物理的制約に直面して多数のオブジェクトの状態を変更するための一連のアクションを計画しなければならない。 我々は3DWorldシミュレーションを用いて、全ての物体が物理に反応し、物理駆動のナビゲーションとインタラクションAPIで制御できる仮想3D環境を用いて、このベンチマーク課題を構築した。 このベンチマークでいくつかの既存エージェントを評価した。 1) 純粋なrlモデルはこの課題に苦慮している。2) 階層的計画に基づくエージェントはいくつかのオブジェクトを輸送できるが、この課題の解決には程遠い。 このベンチマークによって、物理世界のためのよりインテリジェントな物理駆動ロボットの開発が期待できる。

We introduce a visually-guided and physics-driven task-and-motion planning benchmark, which we call the ThreeDWorld Transport Challenge. In this challenge, an embodied agent equipped with two 9-DOF articulated arms is spawned randomly in a simulated physical home environment. The agent is required to find a small set of objects scattered around the house, pick them up, and transport them to a desired final location. We also position containers around the house that can be used as tools to assist with transporting objects efficiently. To complete the task, an embodied agent must plan a sequence of actions to change the state of a large number of objects in the face of realistic physical constraints. We build this benchmark challenge using the ThreeDWorld simulation: a virtual 3D environment where all objects respond to physics, and where can be controlled using fully physics-driven navigation and interaction API. We evaluate several existing agents on this benchmark. Experimental results suggest that: 1) a pure RL model struggles on this challenge; 2) hierarchical planning-based agents can transport some objects but still far from solving this task. We anticipate that this benchmark will empower researchers to develop more intelligent physics-driven robots for the physical world.
翻訳日:2021-03-26 15:02:09 公開日:2021-03-25
# (参考訳) Swin Transformer: シフトWindowsを使った階層型ビジョントランス [全文訳有]

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows ( http://arxiv.org/abs/2103.14030v1 )

ライセンス: CC BY 4.0
Ze Liu and Yutong Lin and Yue Cao and Han Hu and Yixuan Wei and Zheng Zhang and Stephen Lin and Baining Guo(参考訳) 本稿では,コンピュータビジョンの汎用バックボーンとして機能する,Swin Transformerと呼ばれる新しいビジョントランスを提案する。 言語から視覚へのトランスフォーマーの適応の課題は、視覚的実体のスケールの大きな変化や、テキストの単語と比較して画像中のピクセルの高解像度化といった2つの領域の違いから生じる。 これらの違いに対処するため、シフトウィンドウを用いて表現を計算した階層変換器を提案する。 シフトウィンドウ方式は、オーバーラップしないローカルウィンドウに自己アテンション計算を制限し、クロスウィンドウ接続を可能にすることにより、より効率が向上する。 この階層アーキテクチャは様々なスケールでモデル化する柔軟性があり、画像サイズに関して線形計算の複雑さがある。 Swin Transformerのこれらの特性は、画像分類(ImageNet-1Kの86.4トップ-1精度)やオブジェクト検出(COCOテストデブの58.7ボックスAPと51.1マスクAP)やセマンティックセグメンテーション(ADE20K valの53.5 mIoU)といった密集した予測タスクを含む幅広い視覚タスクと互換性がある。 その性能は、COCOの+2.7ボックスAPと+2.6マスクAP、ADE20Kの+3.2 mIoUで、トランスフォーマーベースのモデルがビジョンバックボーンとしての可能性を示している。 コードとモデルは、~\url{https://github.com/m icrosoft/Swin-Transf ormer}で公開される。

This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as large variations in the scale of visual entities and the high resolution of pixels in images compared to words in text. To address these differences, we propose a hierarchical Transformer whose representation is computed with shifted windows. The shifted windowing scheme brings greater efficiency by limiting self-attention computation to non-overlapping local windows while also allowing for cross-window connection. This hierarchical architecture has the flexibility to model at various scales and has linear computational complexity with respect to image size. These qualities of Swin Transformer make it compatible with a broad range of vision tasks, including image classification (86.4 top-1 accuracy on ImageNet-1K) and dense prediction tasks such as object detection (58.7 box AP and 51.1 mask AP on COCO test-dev) and semantic segmentation (53.5 mIoU on ADE20K val). Its performance surpasses the previous state-of-the-art by a large margin of +2.7 box AP and +2.6 mask AP on COCO, and +3.2 mIoU on ADE20K, demonstrating the potential of Transformer-based models as vision backbones. The code and models will be made publicly available at~\url{https://github.com/m icrosoft/Swin-Transf ormer}.
翻訳日:2021-03-26 14:43:42 公開日:2021-03-25
# 信頼ラベルと射影損失関数を用いた機械学習におけるクラス類似性の利用

Exploiting Class Similarity for Machine Learning with Confidence Labels and Projective Loss Functions ( http://arxiv.org/abs/2103.13607v1 )

ライセンス: Link先を確認
Gautam Rajendrakumar Gare and John Michael Galeotti(参考訳) 機械学習に使用されるクラスラベルは相互に関連付けられており、特定のクラスラベルは他と類似している(例)。 猫と犬のイメージは、猫と車の画像よりも似ています)。 このようなクラス間の類似性は、モデル間の混乱によるモデルパフォーマンスの低下の原因となることが多い。 現在のラベリング技術では、このような類似情報を明示的に捉えられていない。 本稿では,クラス間の類似性を利用して,新たな信頼ラベルとの類似性情報を取得する。 信頼ラベルは、クラス間の類似性または信頼可能性を示す確率的ラベルである。 モデルが特徴空間のクラスを区別するように訓練されても、同様のクラスの潜在空間は依然としてクラスタ化されている。 この種のクラスタリングを貴重な情報と考え,新しい投影損失関数を用いて活用する。 我々の射影損失関数は、類似のクラスを混乱させるエラーに対して損失ペナルティを緩和する機能を持つ信頼ラベルと連携するように設計されている。 ノイズラベルは、クラス類似性から生じる難易度の結果であると考えるので、ノイズラベルを用いたニューラルネットワークのトレーニングに使用しています。 標準損失関数と比較して性能が向上することを示す。 CIFAR-10データセットを用いて詳細な分析を行い、ImageNetやFood-101Nといった大規模データセットに提案手法の適用性を示す。

Class labels used for machine learning are relatable to each other, with certain class labels being more similar to each other than others (e.g. images of cats and dogs are more similar to each other than those of cats and cars). Such similarity among classes is often the cause of poor model performance due to the models confusing between them. Current labeling techniques fail to explicitly capture such similarity information. In this paper, we instead exploit the similarity between classes by capturing the similarity information with our novel confidence labels. Confidence labels are probabilistic labels denoting the likelihood of similarity, or confusability, between the classes. Often even after models are trained to differentiate between classes in the feature space, the similar classes' latent space still remains clustered. We view this type of clustering as valuable information and exploit it with our novel projective loss functions. Our projective loss functions are designed to work with confidence labels with an ability to relax the loss penalty for errors that confuse similar classes. We use our approach to train neural networks with noisy labels, as we believe noisy labels are partly a result of confusability arising from class similarity. We show improved performance compared to the use of standard loss functions. We conduct a detailed analysis using the CIFAR-10 dataset and show our proposed methods' applicability to larger datasets, such as ImageNet and Food-101N.
翻訳日:2021-03-26 13:59:04 公開日:2021-03-25
# 法前の平等--公正のための法的判断整合性分析

Equality before the Law: Legal Judgment Consistency Analysis for Fairness ( http://arxiv.org/abs/2103.13868v1 )

ライセンス: Link先を確認
Yuzhong Wang, Chaojun Xiao, Shirong Ma, Haoxi Zhong, Cunchao Tu, Tianyang Zhang, Zhiyuan Liu, Maosong Sun(参考訳) 法体系では、判断の一貫性は公平さの最も重要な顕現の1つと見なされる。 しかしながら、実世界のシナリオにおける感性に影響を与える事実的要素の複雑さのため、実世界のデータに対する判断一貫性を定量的に測定する研究はほとんど行われていない。 本稿では, 特定の特徴(性別, 地域, 人種など)によって分割されたデータ群間の不整合を評価することを目的とした, 不整合判断のための評価指標LInCoを提案する。 本稿では,異なる集団の裁判官を法的な判断予測(LJP)モデルでシミュレートし,異なる集団で訓練されたLJPモデルによる判断結果の不一致を判断する。 合成データの実験的結果はLInCoの有効性を検証した。 我々はさらに,リンコを用いて実例の不整合を探究し,(1)法体系には男女不一致が存在しているが,男女不一致は地域不一致よりもはるかに少ない,(2)地域不一貫性のレベルは時代によって異なる,(3)司法不一貫性は刑事訴追の重大度と負の相関がある,といった観察を行った。 さらに,lincoを用いて逆行学習など複数のデバイアス法の性能評価を行い,これらのメカニズムがljpモデルにデータバイアスの回避を効果的に支援できることを見出した。

In a legal system, judgment consistency is regarded as one of the most important manifestations of fairness. However, due to the complexity of factual elements that impact sentencing in real-world scenarios, few works have been done on quantitatively measuring judgment consistency towards real-world data. In this paper, we propose an evaluation metric for judgment inconsistency, Legal Inconsistency Coefficient (LInCo), which aims to evaluate inconsistency between data groups divided by specific features (e.g., gender, region, race). We propose to simulate judges from different groups with legal judgment prediction (LJP) models and measure the judicial inconsistency with the disagreement of the judgment results given by LJP models trained on different groups. Experimental results on the synthetic data verify the effectiveness of LInCo. We further employ LInCo to explore the inconsistency in real cases and come to the following observations: (1) Both regional and gender inconsistency exist in the legal system, but gender inconsistency is much less than regional inconsistency; (2) The level of regional inconsistency varies little across different time periods; (3) In general, judicial inconsistency is negatively correlated with the severity of the criminal charges. Besides, we use LInCo to evaluate the performance of several de-bias methods, such as adversarial learning, and find that these mechanisms can effectively help LJP models to avoid suffering from data bias.
翻訳日:2021-03-26 13:58:45 公開日:2021-03-25
# 複数の予測課題における異種学生の行動と相互作用の連成モデル

Jointly Modeling Heterogeneous Student Behaviors and Interactions Among Multiple Prediction Tasks ( http://arxiv.org/abs/2103.13565v1 )

ライセンス: Link先を確認
Haobing Liu, Yanmin Zhu, Tianzi Zang, Yanan Xu, Jiadi Yu, Feilong Tang(参考訳) 学生の予測課題は学生と大学生の両方にとって実用的な意味を持つ。 学生について複数の予測を行うことは、スマートキャンパスの重要な部分だ。 例えば、学生が卒業に失敗した場合の予測は、生徒の学業成績を改善するための予測措置を取るよう学生事務室に警告することができる。 大学における情報技術の発展により,不均質な行動を連続的にエンコードするデジタルフットプリントを収集できる。 本稿では,不均質な振る舞いをモデル化し,複数の予測を一緒に行うことに焦点を当てる。 そこで我々はLSTMの変種とソフトアテンション機構を提案する。 提案したLSTMは異種行動系列から学生のプロファイル認識表現を学習することができる。 提案するソフトアテンション機構は,生徒毎に異なる日数の重要性を動的に学習することができる。 このように、不均一な振る舞いをうまくモデル化することができる。 複数の予測タスク間のインタラクションをモデル化するために,コアテンション機構に基づくユニットを提案する。 積み重ねられたユニットの助けを借りて、複数のタスク間の知識伝達を明示的に制御できる。 大学から収集した実世界のデータセットに基づいて,モチベーション行動予測タスクを3つ設計する。 3つの予測課題に関する定性的および定量的実験により,本モデルの有効性を実証した。

Prediction tasks about students have practical significance for both student and college. Making multiple predictions about students is an important part of a smart campus. For instance, predicting whether a student will fail to graduate can alert the student affairs office to take predictive measures to help the student improve his/her academic performance. With the development of information technology in colleges, we can collect digital footprints which encode heterogeneous behaviors continuously. In this paper, we focus on modeling heterogeneous behaviors and making multiple predictions together, since some prediction tasks are related and learning the model for a specific task may have the data sparsity problem. To this end, we propose a variant of LSTM and a soft-attention mechanism. The proposed LSTM is able to learn the student profile-aware representation from heterogeneous behavior sequences. The proposed soft-attention mechanism can dynamically learn different importance degrees of different days for every student. In this way, heterogeneous behaviors can be well modeled. In order to model interactions among multiple prediction tasks, we propose a co-attention mechanism based unit. With the help of the stacked units, we can explicitly control the knowledge transfer among multiple tasks. We design three motivating behavior prediction tasks based on a real-world dataset collected from a college. Qualitative and quantitative experiments on the three prediction tasks have demonstrated the effectiveness of our model.
翻訳日:2021-03-26 13:58:20 公開日:2021-03-25
# ロバスト部分群発見

Robust subgroup discovery ( http://arxiv.org/abs/2103.13686v1 )

ライセンス: Link先を確認
Hugo Manuel Proen\c{c}a, Thomas B\"ack, Matthijs van Leeuwen(参考訳) 本稿では, 1 つ以上の対象属性について,1) が統計的にロバストである,3) が冗長でない部分群の解釈可能な記述の集合を見つけるという,ロバスト部分群発見の問題を紹介する。 局所的にロバストなサブグループを採掘するか、パターン爆発に取り組むために多くの試みがなされてきたが、我々は、グローバルな視点から両方の課題に同時に対処する最初の試みである。 まず、単変量および多変量ターゲットの順序付き部分群リストの広いモデルクラス、すなわち、名目変数または数値変数からなることができる順序付き部分群を定式化する。 この新しいモデルクラスにより、最小記述長(MDL)原理を用いて最適なロバストな部分群発見の問題を定式化することができる。 特に,問題定義は情報理論的品質尺度と複雑性のペナルティでトップ1サブグループをマイニングするのと同等であることを示す。 第二に、最適部分群リストの発見はNP-hardであるとして、良い部分群リストを見つけ、MDL基準に従って発見された最も重要な部分群が各イテレーションに付加されることを保証する、強欲なヒューリスティックであるRSDを提案する。 我々は,rsdが従来のサブグループ集合発見法を上回っている54のデータセットを,品質とサブグループリストサイズの観点から実証的に示す。

We introduce the problem of robust subgroup discovery, i.e., finding a set of interpretable descriptions of subsets that 1) stand out with respect to one or more target attributes, 2) are statistically robust, and 3) non-redundant. Many attempts have been made to mine either locally robust subgroups or to tackle the pattern explosion, but we are the first to address both challenges at the same time from a global perspective. First, we formulate a broad model class of subgroup lists, i.e., ordered sets of subgroups, for univariate and multivariate targets that can consist of nominal or numeric variables. This novel model class allows us to formalize the problem of optimal robust subgroup discovery using the Minimum Description Length (MDL) principle, where we resort to optimal Normalized Maximum Likelihood and Bayesian encodings for nominal and numeric targets, respectively. Notably, we show that our problem definition is equal to mining the top-1 subgroup with an information-theoreti c quality measure plus a penalty for complexity. Second, as finding optimal subgroup lists is NP-hard, we propose RSD, a greedy heuristic that finds good subgroup lists and guarantees that the most significant subgroup found according to the MDL criterion is added in each iteration, which is shown to be equivalent to a Bayesian one-sample proportions, multinomial, or t-test between the subgroup and dataset marginal target distributions plus a multiple hypothesis testing penalty. We empirically show on 54 datasets that RSD outperforms previous subgroup set discovery methods in terms of quality and subgroup list size.
翻訳日:2021-03-26 13:58:03 公開日:2021-03-25
# バッチ強化学習におけるリスク境界とラデマッハ複雑性

Risk Bounds and Rademacher Complexity in Batch Reinforcement Learning ( http://arxiv.org/abs/2103.13883v1 )

ライセンス: Link先を確認
Yaqi Duan, Chi Jin, Zhiyuan Li(参考訳) 本稿では,一般値関数近似を用いたバッチ強化学習(RL)について考察する。 本研究では,ベルマン誤差を確実に推定・最小化するための最小仮定について検討し,一般関数クラスの(局所)ラデマッハ複素量による一般化性能を特徴付けるとともに,統計的学習理論とバッチRLのギャップを埋める最初のステップとなる。 具体的には,ベルマン誤差を最適性ギャップのサロゲート損失とみなし,(1)二重サンプリング方式では,経験的リスク最小化器(ERM)の過剰リスクは関数クラスのラドマチャー複雑性によって制限される。 2) 単一サンプリング方式では, アルゴリズムによらず, さらなる仮定がなければ, サンプル効率のよいリスク最小化は不可能である。 しかし完全性仮定では、FQI の余剰リスクとミニマックススタイルのアルゴリズムは、対応する関数クラスのラデマッハ複雑性によって再び有界となる。 (3) 局所ラデマッハ複雑性のツールを用いて, 高速な統計率が得られる。 私たちの分析では、有限クラス、線形空間、カーネル空間、疎線型特徴など、幅広い関数クラスをカバーしています。

This paper considers batch Reinforcement Learning (RL) with general value function approximation. Our study investigates the minimal assumptions to reliably estimate/minimize Bellman error, and characterizes the generalization performance by (local) Rademacher complexities of general function classes, which makes initial steps in bridging the gap between statistical learning theory and batch RL. Concretely, we view the Bellman error as a surrogate loss for the optimality gap, and prove the followings: (1) In double sampling regime, the excess risk of Empirical Risk Minimizer (ERM) is bounded by the Rademacher complexity of the function class. (2) In the single sampling regime, sample-efficient risk minimization is not possible without further assumptions, regardless of algorithms. However, with completeness assumptions, the excess risk of FQI and a minimax style algorithm can be again bounded by the Rademacher complexity of the corresponding function classes. (3) Fast statistical rates can be achieved by using tools of local Rademacher complexity. Our analysis covers a wide range of function classes, including finite classes, linear spaces, kernel spaces, sparse linear features, etc.
翻訳日:2021-03-26 13:56:56 公開日:2021-03-25
# スピリット蒸留:不十分なデータによる高精度リアルタイム予測

Spirit Distillation: Precise Real-time Prediction with Insufficient Data ( http://arxiv.org/abs/2103.13733v1 )

ライセンス: Link先を確認
Zhiyuan Wu, Hong Qi, Yu Jiang, Chupeng Cui, Zongmin Yang, Xinhui Xue(参考訳) 最近の傾向は、自律運転システムにおける環境認識におけるディープニューラルネットワーク(DNN)の有効性を示している。 大規模で完全なデータは優れたDNNをトレーニングすることができるが、収集は常に困難で高価で時間を要する。 また,リアルタイム認識の必要性から,精度と効率の両面での重要性を強調できない。 DNNの弱いデータと高い計算消費の対立を軽減するため、我々はスピリット蒸留(SD)と呼ばれる新しいトレーニングフレームワークを提案する。 微細チューニングに基づく伝達学習(FTT)と特徴に基づく知識蒸留の考え方を拡張している。 教師に特徴抽出を模倣させることにより、教師と生徒のネットワーク間の一般的な特徴のギャップを橋渡しする。 様々な領域から画像をシャッフルし,ランダムに数個をミニバッチとして選択するイメージパーティ蒸留促進法(ip法)も提案されている。 このアプローチにより、教師ネットワークの一般的な特徴に対する学生ネットワークの過度な適合を回避できる。 CityScapesではCOCO2017とKITTIの推進による説得的な実験と議論が行われている。 その結果、セグメンテーションにおける高速化性能(mIOUと高精度精度)は、それぞれ1.4%と8.2%向上し、78.2%の出力分散が得られた。 1). 本稿では,少人数学習に応用する知識蒸留の先駆的研究である。 提案手法は,DNNのトレーニングデータへの依存を著しく低減し,DNNが稀な状況に直面した際の堅牢性を向上させる。 自動運転のためのシーン認識技術の進歩に重要な技術支援を提供する。

Recent trend demonstrates the effectiveness of deep neural networks (DNNs) apply on the task of environment perception in autonomous driving system. While large-scale and complete data can train out fine DNNs, collecting it is always difficult, expensive, and time-consuming. Also, the significance of both accuracy and efficiency cannot be over-emphasized due to the requirement of real-time recognition. To alleviate the conflicts between weak data and high computational consumption of DNNs, we propose a new training framework named Spirit Distillation(SD). It extends the ideas of fine-tuning-based transfer learning(FTT) and feature-based knowledge distillation. By allowing the student to mimic its teacher in feature extraction, the gap of general features between the teacher-student networks is bridged. The Image Party distillation enhancement method(IP) is also proposed, which shuffling images from various domains, and randomly selecting a few as mini-batch. With this approach, the overfitting that the student network to the general features of the teacher network can be easily avoided. Persuasive experiments and discussions are conducted on CityScapes with the prompt of COCO2017 and KITTI. Results demonstrate the boosting performance in segmentation(mIOU and high-precision accuracy boost by 1.4% and 8.2% respectively, with 78.2% output variance), and can gain a precise compact network with only 41.8\% FLOPs(see Fig. 1). This paper is a pioneering work on knowledge distillation applied to few-shot learning. The proposed methods significantly reduce the dependence on data of DNNs training, and improves the robustness of DNNs when facing rare situations, with real-time requirement satisfied. We provide important technical support for the advancement of scene perception technology for autonomous driving.
翻訳日:2021-03-26 13:55:54 公開日:2021-03-25
# otce: クロスドメインクロスタスク表現のための転送可能性メトリクス

OTCE: A Transferability Metric for Cross-Domain Cross-Task Representations ( http://arxiv.org/abs/2103.13843v1 )

ライセンス: Link先を確認
Yang Tan, Yang Li, Shao-Lun Huang(参考訳) 異種データ分布間の転送学習(a.k.a.) ドメイン)と異なるタスクは、ドメインまたはタスクが同じと仮定される従来の転送学習よりも一般的で難しい問題である。 ニューラルネットワークに基づく機能伝達は、転送学習アプリケーションで広く使われているが、最適な転送戦略を見つけるには、依然として時間を要する実験とドメイン知識が必要である。 クロスドメインおよびクロスタスクの特徴伝達設定における教師付き分類タスクの転送性能を解析的に予測する,OTCE(Optimal Transport Based Conditional Entropy)と呼ばれる転送可能性指標を提案する。 我々のOTCEスコアは、ドメイン差とタスク差の組み合わせとしてトランスファービリティを特徴付け、それらを統一されたフレームワークでデータから明確に評価する。 具体的には,対象タスクの条件エントロピー(タスク差)を導出するために,領域差とソース分布とターゲット分布の最適結合を推定するために最適なトランスポートを用いる。 最大のクロスドメインデータセットであるDomainNetとOffice31の実験では、OTCEは最先端の手法と比較して、地上の真実転送精度と相関して平均21%の利得を示している。 また、ソースモデル選択とマルチソース特徴融合を含むOTCEスコアの2つの応用についても検討する。

Transfer learning across heterogeneous data distributions (a.k.a. domains) and distinct tasks is a more general and challenging problem than conventional transfer learning, where either domains or tasks are assumed to be the same. While neural network based feature transfer is widely used in transfer learning applications, finding the optimal transfer strategy still requires time-consuming experiments and domain knowledge. We propose a transferability metric called Optimal Transport based Conditional Entropy (OTCE), to analytically predict the transfer performance for supervised classification tasks in such cross-domain and cross-task feature transfer settings. Our OTCE score characterizes transferability as a combination of domain difference and task difference, and explicitly evaluates them from data in a unified framework. Specifically, we use optimal transport to estimate domain difference and the optimal coupling between source and target distributions, which is then used to derive the conditional entropy of the target task (task difference). Experiments on the largest cross-domain dataset DomainNet and Office31 demonstrate that OTCE shows an average of 21% gain in the correlation with the ground truth transfer accuracy compared to state-of-the-art methods. We also investigate two applications of the OTCE score including source model selection and multi-source feature fusion.
翻訳日:2021-03-26 13:55:27 公開日:2021-03-25
# AgentFormer: ソシオテンポラルマルチエージェント予測のためのエージェント認識変換器

AgentFormer: Agent-Aware Transformers for Socio-Temporal Multi-Agent Forecasting ( http://arxiv.org/abs/2103.14023v1 )

ライセンス: Link先を確認
Ye Yuan, Xinshuo Weng, Yanglan Ou, Kris Kitani(参考訳) 複数のエージェントの正確な将来の軌跡を予測することは自律システムには不可欠であるが、複雑なエージェントの相互作用と各エージェントの将来の行動の不確実性のために困難である。 マルチエージェントトラジェクタの予測には,(1)過去のエージェント状態が将来の状態に与える影響をモデル化する時間次元,(2)各エージェントの状態が他人にどう影響するかをモデル化する社会的次元,の2つの重要な次元のモデル化が必要である。 例えば、まず、時間的モデルを使って各エージェントの時間的特徴を個別に要約し、次に、要約された特徴と社会モデルとの相互作用をモデル化する。 このアプローチは、時間または社会的次元にまたがる独立した特徴符号化が情報の損失をもたらすため、準最適である。 代わりに、ある時点におけるエージェントの状態が、他のエージェントの状態に直接影響を与えることを、将来的に可能にする方法を好む。 そこで我々は,時間と社会的次元を共同でモデル化する新しいトランスフォーマー,AgentFormerを提案する。 このモデルは、時間とエージェント間の軌道特徴をフラットにすることで、マルチエージェント軌道のシーケンス表現を利用する。 標準的なアテンション操作はシーケンス内の各要素のエージェントアイデンティティを無視するため、AgentFormerはエージェントの同一性を保持する新しいエージェント対応アテンション機構を使用して、同じエージェントの要素に他のエージェントの要素とは異なる形で参加する。 エージェントフォーマに基づいて,エージェントの将来の位置を推測する際に,任意のエージェントの特徴に任意の時間ステップで対応できる確率的マルチエージェント軌道予測モデルを提案する。 すべてのエージェントの潜在意図も共同でモデル化され、あるエージェントの振る舞いの確率性は他のエージェントに影響を与える。 提案手法は,歩行者および自律運転用データセットにおける技術状況を大幅に改善する。

Predicting accurate future trajectories of multiple agents is essential for autonomous systems, but is challenging due to the complex agent interaction and the uncertainty in each agent's future behavior. Forecasting multi-agent trajectories requires modeling two key dimensions: (1) time dimension, where we model the influence of past agent states over future states; (2) social dimension, where we model how the state of each agent affects others. Most prior methods model these two dimensions separately; e.g., first using a temporal model to summarize features over time for each agent independently and then modeling the interaction of the summarized features with a social model. This approach is suboptimal since independent feature encoding over either the time or social dimension can result in a loss of information. Instead, we would prefer a method that allows an agent's state at one time to directly affect another agent's state at a future time. To this end, we propose a new Transformer, AgentFormer, that jointly models the time and social dimensions. The model leverages a sequence representation of multi-agent trajectories by flattening trajectory features across time and agents. Since standard attention operations disregard the agent identity of each element in the sequence, AgentFormer uses a novel agent-aware attention mechanism that preserves agent identities by attending to elements of the same agent differently than elements of other agents. Based on AgentFormer, we propose a stochastic multi-agent trajectory prediction model that can attend to features of any agent at any previous timestep when inferring an agent's future position. The latent intent of all agents is also jointly modeled, allowing the stochasticity in one agent's behavior to affect other agents. Our method significantly improves the state of the art on well-established pedestrian and autonomous driving datasets.
翻訳日:2021-03-26 13:55:07 公開日:2021-03-25
# セマンティックセグメンテーションのためのエビデンシャル完全畳み込みネットワーク

Evidential fully convolutional network for semantic segmentation ( http://arxiv.org/abs/2103.13544v1 )

ライセンス: Link先を確認
Zheng Tong, Philippe Xu, Thierry Den{\oe}ux(参考訳) 本稿では,完全畳み込みネットワーク(fcn)と,イメージセマンティクスセグメンテーションのためのデンプスターシェーファー層からなるハイブリッドアーキテクチャを提案する。 いわゆる顕在的FCN(E-FCN)では、エンコーダデコーダアーキテクチャがまず入力画像から画素単位の特徴写像を抽出する。 Dempster-Shafer層は、プロトタイプまでの距離に基づいて各ピクセル位置の質量関数を計算する。 最後に、ユーティリティ層がマス関数からセマンティックセグメンテーションを行い、不明瞭な画素と外れ値の不正確な分類を可能にする。 本稿では,ソフト(不正確な)ラベルを活用できるネットワークパラメータを共同で更新するためのエンドツーエンド学習戦略を提案する。 3つのデータベース(pascal voc 2011, mit-scene parsing, sift flow)を用いた実験により,提案手法は,混乱する画素を多クラス集合に割り当てることで,意味セグメンテーションの精度とキャリブレーションを改善した。

We propose a hybrid architecture composed of a fully convolutional network (FCN) and a Dempster-Shafer layer for image semantic segmentation. In the so-called evidential FCN (E-FCN), an encoder-decoder architecture first extracts pixel-wise feature maps from an input image. A Dempster-Shafer layer then computes mass functions at each pixel location based on distances to prototypes. Finally, a utility layer performs semantic segmentation from mass functions and allows for imprecise classification of ambiguous pixels and outliers. We propose an end-to-end learning strategy for jointly updating the network parameters, which can make use of soft (imprecise) labels. Experiments using three databases (Pascal VOC 2011, MIT-scene Parsing and SIFT Flow) show that the proposed combination improves the accuracy and calibration of semantic segmentation by assigning confusing pixels to multi-class sets.
翻訳日:2021-03-26 13:54:37 公開日:2021-03-25
# 統合勾配における対称性保存経路

Symmetry-Preserving Paths in Integrated Gradients ( http://arxiv.org/abs/2103.13533v1 )

ライセンス: Link先を確認
Miguel Lerma and Mirtha Lucas(参考訳) 深層ネットワークに対する統合勾配(ig)帰属法が完全性と対称性保存特性を満たすことを厳密に証明する。 また、対称性を保つ経路法としてIGの特異性についても検討する。

We provide rigorous proofs that the Integrated Gradients (IG) attribution method for deep networks satisfies completeness and symmetry-preserving properties. We also study the uniqueness of IG as a path method preserving symmetry.
翻訳日:2021-03-26 13:53:54 公開日:2021-03-25
# Dempster-Shafer理論とディープラーニングに基づく明確な分類器

An evidential classifier based on Dempster-Shafer theory and deep learning ( http://arxiv.org/abs/2103.13549v1 )

ライセンス: Link先を確認
Zheng Tong, Philippe Xu, Thierry Den{\oe}ux(参考訳) 本稿では,Dempster-Shafer(DS) 理論に基づく新しい分類器と,集合値分類のための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 この分類器は明快なディープラーニング分類器と呼ばれ、畳み込み層とプール層はまず入力データから高次元の特徴を抽出する。 これらの特徴は質量関数に変換され、DS層にデンプスターの規則によって集約される。 最後に、期待されるユーティリティ層は、質量関数に基づくセット値分類を行う。 ネットワークパラメータを協調的に更新するためのエンドツーエンド学習戦略を提案する。 さらに,部分的多クラス行為を選択する手法を提案する。 画像認識, 信号処理, 意味関係分類タスクの実験により, 深層cnn, ds層, 期待されるユーティリティ層の組み合わせにより, 分類精度の向上と, 混乱するパターンを多クラス集合に割り当てることによる慎重な判断が可能となった。

We propose a new classifier based on Dempster-Shafer (DS) theory and a convolutional neural network (CNN) architecture for set-valued classification. In this classifier, called the evidential deep-learning classifier, convolutional and pooling layers first extract high-dimensional features from input data. The features are then converted into mass functions and aggregated by Dempster's rule in a DS layer. Finally, an expected utility layer performs set-valued classification based on mass functions. We propose an end-to-end learning strategy for jointly updating the network parameters. Additionally, an approach for selecting partial multi-class acts is proposed. Experiments on image recognition, signal processing, and semantic-relationshi p classification tasks demonstrate that the proposed combination of deep CNN, DS layer, and expected utility layer makes it possible to improve classification accuracy and to make cautious decisions by assigning confusing patterns to multi-class sets.
翻訳日:2021-03-26 13:53:49 公開日:2021-03-25
# ECG-TCN : 経時的畳み込みネットワークを用いたウェアラブル心不整脈検出

ECG-TCN: Wearable Cardiac Arrhythmia Detection with a Temporal Convolutional Network ( http://arxiv.org/abs/2103.13740v1 )

ライセンス: Link先を確認
Thorir Mar Ingolfsson, Xiaying Wang, Michael Hersche, Alessio Burrello, Lukas Cavigelli, Luca Benini(参考訳) パーソナライズされたユビキタス医療ソリューションは、バイオシグナルの正確な分類を提供するエネルギー効率の高いウェアラブルプラットフォームを必要とする。 シングルリード心電図(ECG)信号は、心不整脈を検出し、分類し、予測する能力を提供する。 本稿では,ウェアラブルプラットフォームでの利用が可能でありながら,高い精度を実現する新しい時間畳み込みネットワーク(TCN)を提案する。 ECG5000データセットの実験結果から、TCNは最新技術(SoA)ネットワークと同等の精度(94.2%)を示し、バランスの取れた精度スコアは16.5%向上した。 この正確な分類は、27倍のパラメータと37倍の累積演算で行われる。 我々は、ARM Cortex M4FをベースとしたSTM32L475と、1+8 RISC-V CV32E40PコアをベースとしたGAPuinoボード上のGreenWaves Technologies GAP8という2つの公開プラットフォーム上で実装をテストした。 測定によると、GAP8の実装はリアルタイムの制約を尊重し、推論毎に0.10mJを消費している。 9.91 GMAC/s/Wでは、ARM Cortex M4F (0.43 GMAC/s/W)の実装よりも23.0倍エネルギー効率が良く46.85倍速い。 全体としては、以前のsoa組み込み実装に比べて19.6倍のエネルギー消費と35.1倍の速さで、8.1%の精度が得られる。

Personalized ubiquitous healthcare solutions require energy-efficient wearable platforms that provide an accurate classification of bio-signals while consuming low average power for long-term battery-operated use. Single lead electrocardiogram (ECG) signals provide the ability to detect, classify, and even predict cardiac arrhythmia. In this paper, we propose a novel temporal convolutional network (TCN) that achieves high accuracy while still being feasible for wearable platform use. Experimental results on the ECG5000 dataset show that the TCN has a similar accuracy (94.2%) score as the state-of-the-art (SoA) network while achieving an improvement of 16.5% in the balanced accuracy score. This accurate classification is done with 27 times fewer parameters and 37 times less multiply-accumulate operations. We test our implementation on two publicly available platforms, the STM32L475, which is based on ARM Cortex M4F, and the GreenWaves Technologies GAP8 on the GAPuino board, based on 1+8 RISC-V CV32E40P cores. Measurements show that the GAP8 implementation respects the real-time constraints while consuming 0.10 mJ per inference. With 9.91 GMAC/s/W, it is 23.0 times more energy-efficient and 46.85 times faster than an implementation on the ARM Cortex M4F (0.43 GMAC/s/W). Overall, we obtain 8.1% higher accuracy while consuming 19.6 times less energy and being 35.1 times faster compared to a previous SoA embedded implementation.
翻訳日:2021-03-26 13:53:34 公開日:2021-03-25
# 応答依存的欠落ラベルの存在下での予測

Prediction in the presence of response-dependent missing labels ( http://arxiv.org/abs/2103.13555v1 )

ライセンス: Link先を確認
Hyebin Song, Garvesh Raskutti, Rebecca Willett(参考訳) 様々な設定において、センシング技術やその他のサンプリング機構の制限は、トレーニングセットに欠落しているラベルがデータの未知の機能である可能性のあるラベルを欠落させる結果となる。 例えば、森林火災を検出するために使用される衛星は、一定の大きさの閾値以下では火災を感知できない。 このような場合、トレーニングデータセットは、偽陰性観測が真の負か、小さな大きさの未検出正のどちらかである、正と偽の負の観測からなる。 我々は,検出機構の事前知識を利用して,正試料の発生と検出の可能性を共同で推定する手法と非凸アルゴリズムP(ositive) U(nlabeled) - O(ccurrence) M(ixture)を開発した。 提案手法では,事象の規模と発生を共同で推定する正の未ラベル学習(PU)モデルとゼロインフレモデルを用いている。 モデルが同定可能な条件を提供し、我々のアプローチが凸でない目的をもたらすとしても、任意の局所最小化器は最適統計誤差(対数項まで)を持ち、投影勾配降下は幾何収束率を持つことを示す。 合成データとカリフォルニアの山火事データセットの両方で、我々の手法は既存の最先端のアプローチよりも優れています。

In a variety of settings, limitations of sensing technologies or other sampling mechanisms result in missing labels, where the likelihood of a missing label in the training set is an unknown function of the data. For example, satellites used to detect forest fires cannot sense fires below a certain size threshold. In such cases, training datasets consist of positive and pseudo-negative observations where pseudo-negative observations can be either true negatives or undetected positives with small magnitudes. We develop a new methodology and non-convex algorithm P(ositive) U(nlabeled) - O(ccurrence) M(agnitude) M(ixture) which jointly estimates the occurrence and detection likelihood of positive samples, utilizing prior knowledge of the detection mechanism. Our approach uses ideas from positive-unlabeled (PU)-learning and zero-inflated models that jointly estimate the magnitude and occurrence of events. We provide conditions under which our model is identifiable and prove that even though our approach leads to a non-convex objective, any local minimizer has optimal statistical error (up to a log term) and projected gradient descent has geometric convergence rates. We demonstrate on both synthetic data and a California wildfire dataset that our method out-performs existing state-of-the-art approaches.
翻訳日:2021-03-26 13:52:49 公開日:2021-03-25
# インスタンス信頼埋め込みによるインスタンス依存ノイズの近似

Approximating Instance-Dependent Noise via Instance-Confidence Embedding ( http://arxiv.org/abs/2103.13569v1 )

ライセンス: Link先を確認
Yivan Zhang, Masashi Sugiyama(参考訳) 多クラス分類におけるラベルノイズは,学習システムの展開において大きな障害となる。 しかし、実世界のデータセットのラベルノイズは個々のインスタンスに大きく依存するので、広く使われているクラス条件ノイズ(CCN)の仮定とは異なり、ノイズラベルは真のラベルが与えられた入力特徴とは独立である。 本稿では,インスタンス依存ノイズ(idn)モデルを調査し,インスタンス固有のラベル破壊を捉えるためのidnの効率的な近似を提案する。 具体的には,idn遷移行列のほとんどの列がクラス後推定に限られた影響しか与えていないことを指摘し,単一スカラー信頼度パラメータを用いた変分近似を提案する。 隣接する2つのインスタンスに対して、各インスタンスからその信頼性値へのマッピングが著しく異なる状況に対処するため、各インスタンスにトレーニング可能なパラメータを割り当てるインスタンス埋め込みを提案する。 結果として生じるインスタンス信頼埋め込み(ICE)法はラベルノイズ下では良好に機能するだけでなく、あいまいなインスタンスや誤ラベルされたインスタンスを効果的に検出することができる。 様々な画像やテキストの分類タスクで有効性を検証する。

Label noise in multiclass classification is a major obstacle to the deployment of learning systems. However, unlike the widely used class-conditional noise (CCN) assumption that the noisy label is independent of the input feature given the true label, label noise in real-world datasets can be aleatory and heavily dependent on individual instances. In this work, we investigate the instance-dependent noise (IDN) model and propose an efficient approximation of IDN to capture the instance-specific label corruption. Concretely, noting the fact that most columns of the IDN transition matrix have only limited influence on the class-posterior estimation, we propose a variational approximation that uses a single-scalar confidence parameter. To cope with the situation where the mapping from the instance to its confidence value could vary significantly for two adjacent instances, we suggest using instance embedding that assigns a trainable parameter to each instance. The resulting instance-confidence embedding (ICE) method not only performs well under label noise but also can effectively detect ambiguous or mislabeled instances. We validate its utility on various image and text classification tasks.
翻訳日:2021-03-26 13:52:26 公開日:2021-03-25
# マニフォールドサンプリングと幾何学的VAEを用いた低サンプルサイズデータ生成

Data Generation in Low Sample Size Setting Using Manifold Sampling and a Geometry-Aware VAE ( http://arxiv.org/abs/2103.13751v1 )

ライセンス: Link先を確認
Cl\'ement Chadebec and St\'ephanie Allassonni\`ere(参考訳) よりリッチな後方分布と事前分布による変分オートコーダの改善に多くの努力が注がれているが、データ生成の仕方を改善することにはほとんど関心が示されていない。 本稿では、リーマン多様体として見なされる潜在空間の幾何に基づく2つの非非emph{prior-dependent}生成手順を考案する。 1つ目は潜在空間を探索する自然な方法である測地路に沿ってサンプリングすること、もう1つは実際の使用が容易な計量体積要素の逆からサンプリングすることである。 どちらの手法も様々なデータセット上の \emph{prior-based} メソッドと比較され、限られたデータレジームに適しているように見える。 最後に、後者の方法は、小さなサンプルサイズ設定でデータ拡張を実行するために使われ、様々な標準および \emph{real-life}データセットで検証される。 特に,本手法では,本手法で生成した合成データのみを用いて学習した場合,平均精度が80.7%から89.1%に向上したoasisデータベースの分類結果を大幅に改善することができる。 この結果は4つの標準データセットでも観測された。

While much efforts have been focused on improving Variational Autoencoders through richer posterior and prior distributions, little interest was shown in amending the way we generate the data. In this paper, we develop two non \emph{prior-dependent} generation procedures based on the geometry of the latent space seen as a Riemannian manifold. The first one consists in sampling along geodesic paths which is a natural way to explore the latent space while the second one consists in sampling from the inverse of the metric volume element which is easier to use in practice. Both methods are then compared to \emph{prior-based} methods on various data sets and appear well suited for a limited data regime. Finally, the latter method is used to perform data augmentation in a small sample size setting and is validated across various standard and \emph{real-life} data sets. In particular, this scheme allows to greatly improve classification results on the OASIS database where balanced accuracy jumps from 80.7% for a classifier trained with the raw data to 89.1% when trained only with the synthetic data generated by our method. Such results were also observed on 4 standard data sets.
翻訳日:2021-03-26 13:52:07 公開日:2021-03-25
# ベイズネットワークの観測環境におけるアクティブな構造学習

Active Structure Learning of Bayesian Networks in an Observational Setting ( http://arxiv.org/abs/2103.13796v1 )

ライセンス: Link先を確認
Noa Ben-David and Sivan Sabato(参考訳) 本研究では,同一試料から観測できる可変値の数に外部制約がある観測条件下でのベイズネットワークの能動的構造学習について検討する。 ランダムサンプルはネットワーク変数のジョイント分布から引き出され、アルゴリズムは次のサンプルで観察すべき変数を反復的に選択する。 そこで本研究では, 最適なスコアに近い$\epsilon$のスコアを持つ構造を高い確率で求める, 新たなアクティブラーニングアルゴリズムを提案する。 安定と呼ぶ分布のクラスに対して、$d$ がネットワーク変数の数であるような$\widetilde{\omega}(d^3)$ までのサンプル複雑性の低減が得られることを示す。 さらに, 最悪の場合, アクティブアルゴリズムのサンプル複雑性は, 平均ベースラインアルゴリズムとほぼ同一であることが保証されることを示した。 理論的な結果を補うため,新しい能動アルゴリズムの性能とナイーブなベースラインを比較し,サンプルの複雑さの改善を実証する実験を報告する。 アルゴリズムと実験のためのコードはhttps://github.com/n oabdavid/activeBNSLで提供されている。

We study active structure learning of Bayesian networks in an observational setting, in which there are external limitations on the number of variable values that can be observed from the same sample. Random samples are drawn from the joint distribution of the network variables, and the algorithm iteratively selects which variables to observe in the next sample. We propose a new active learning algorithm for this setting, that finds with a high probability a structure with a score that is $\epsilon$-close to the optimal score. We show that for a class of distributions that we term stable, a sample complexity reduction of up to a factor of $\widetilde{\Omega}(d^3)$ can be obtained, where $d$ is the number of network variables. We further show that in the worst case, the sample complexity of the active algorithm is guaranteed to be almost the same as that of a naive baseline algorithm. To supplement the theoretical results, we report experiments that compare the performance of the new active algorithm to the naive baseline and demonstrate the sample complexity improvements. Code for the algorithm and for the experiments is provided at https://github.com/n oabdavid/activeBNSL.
翻訳日:2021-03-26 13:51:47 公開日:2021-03-25
# 多項ロジットコンテキスト帯域:確率的最適性と実用性

Multinomial Logit Contextual Bandits: Provable Optimality and Practicality ( http://arxiv.org/abs/2103.13929v1 )

ライセンス: Link先を確認
Min-hwan Oh, Garud Iyengar(参考訳) パラメータが不明なマルチノードロジット選択モデル(MNL)によってユーザ選択が与えられる逐次アソート選択問題を考える。 各期間において、学習エージェントは、ユーザに関する$d$−dのコンテキスト情報と、利用可能な$n$のアイテムを観察し、ユーザに対して、サイズ$k$のソートを提供し、ソートから選択したアイテムのバンディットフィードバックを観察する。 本稿では,このMNLコンテキスト帯域に対する高信頼境界ベースアルゴリズムを提案する。 最初のアルゴリズムは単純で実用的な手法で、$t$のラウンドに対して$\tilde{\mathcal{o}}(d\sqrt{t})$を後悔する。 次に, $\tilde{\mathcal{O}}(\sqrt{dT})$ regret を達成する2番目のアルゴリズムを提案する。 これはMNLのバンドイト問題に対する下界と対数項まで一致し、最もよく知られた結果は$\sqrt{d}$ factorによって改善される。 このよりシャープな後悔境界を確立するために、MNLモデルの最大極大推定値に対する漸近的でない信頼度を示す。 次に、より単純でより実用的な第1のアルゴリズムを再検討し、アルゴリズムの単純な変種が、幅広い重要なアプリケーションに最適な後悔をもたらすことを示す。

We consider a sequential assortment selection problem where the user choice is given by a multinomial logit (MNL) choice model whose parameters are unknown. In each period, the learning agent observes a $d$-dimensional contextual information about the user and the $N$ available items, and offers an assortment of size $K$ to the user, and observes the bandit feedback of the item chosen from the assortment. We propose upper confidence bound based algorithms for this MNL contextual bandit. The first algorithm is a simple and practical method which achieves an $\tilde{\mathcal{O}}(d\sqrt{T})$ regret over $T$ rounds. Next, we propose a second algorithm which achieves a $\tilde{\mathcal{O}}(\sqrt{dT})$ regret. This matches the lower bound for the MNL bandit problem, up to logarithmic terms, and improves on the best known result by a $\sqrt{d}$ factor. To establish this sharper regret bound, we present a non-asymptotic confidence bound for the maximum likelihood estimator of the MNL model that may be of independent interest as its own theoretical contribution. We then revisit the simpler, significantly more practical, first algorithm and show that a simple variant of the algorithm achieves the optimal regret for a broad class of important applications.
翻訳日:2021-03-26 13:51:28 公開日:2021-03-25
# 自己監督型学習を再考する: 小さくて美しい

Rethinking Self-Supervised Learning: Small is Beautiful ( http://arxiv.org/abs/2103.13559v1 )

ライセンス: Link先を確認
Yun-Hao Cao and Jianxin Wu(参考訳) 自己教師付き学習(SSL)、特に対照的な学習は近年大きな進歩を遂げている。 しかし,これらの手法の共通のテーマは,教師付きディープラーニングシナリオから学習パラダイムを継承することである。 現在のSSLメソッドは、高解像度の画像を使用して大規模なデータセット上で多くのエポックに対して事前訓練されることが多い。 本稿では,ssl の学習パラダイムが教師あり学習と異なることを実証し,クロスエントロピー損失による教師あり学習においてラベルにエンコードされる情報よりも,コントラスト的損失で符号化された情報の方がはるかに少ないことを期待する。 そこで我々は,小型化,小型化,小型化,小型化という3つの部分を含む,スケールダウン型自己教師学習(S3L)を提案する。 さまざまなデータセット、SSLメソッド、バックボーンアーキテクチャに基づいて、S3Lは、以前のSSL学習パラダイムと比較して、トレーニングコストを大幅に削減して、一貫性の高い精度を実現している。 さらに,大規模な事前学習データセットがなくても,s3lは小さなデータだけで素晴らしい結果が得られることを示す。 私たちのコードはhttps://github.com/C upidJay/Scaled-down- down-supervised-lear ningで公開されています。

Self-supervised learning (SSL), in particular contrastive learning, has made great progress in recent years. However, a common theme in these methods is that they inherit the learning paradigm from the supervised deep learning scenario. Current SSL methods are often pretrained for many epochs on large-scale datasets using high resolution images, which brings heavy computational cost and lacks flexibility. In this paper, we demonstrate that the learning paradigm for SSL should be different from supervised learning and the information encoded by the contrastive loss is expected to be much less than that encoded in the labels in supervised learning via the cross entropy loss. Hence, we propose scaled-down self-supervised learning (S3L), which include 3 parts: small resolution, small architecture and small data. On a diverse set of datasets, SSL methods and backbone architectures, S3L achieves higher accuracy consistently with much less training cost when compared to previous SSL learning paradigm. Furthermore, we show that even without a large pretraining dataset, S3L can achieve impressive results on small data alone. Our code has been made publically available at https://github.com/C upidJay/Scaled-down- self-supervised-lear ning.
翻訳日:2021-03-26 13:51:03 公開日:2021-03-25
# 不確実性認識回帰のための確率的順序付け学習

Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware Regression ( http://arxiv.org/abs/2103.13629v1 )

ライセンス: Link先を確認
Wanhua Li, Xiaoke Huang, Jiwen Lu, Jianjiang Feng, Jie Zhou(参考訳) 不確かさが唯一の確実性である。 データの不確かさのモデリングは回帰、特に制約のない設定には不可欠である。 伝統的に、直接回帰定式化は考慮され、不確実性は出力空間をある確率分布の族に変更することでモデル化される。 一方,直接回帰法は性能の制限に苦しむ一方で,分類に基づく回帰とランキングに基づく解は実際より一般的である。 現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。 本稿では,各データを潜在空間における決定論的点ではなく,多変量ガウス分布として表現する確率的順序埋め込みを学習する。 回帰の順序性を利用するために順序分布制約が提案されている。 我々の確率的順序埋め込みは、一般的な回帰アプローチに統合され、不確実性推定の能力でそれらを強化することができる。 実験の結果,本手法は競争性能を発揮できることがわかった。 コードはhttps://github.com/L i-Wanhua/POEsで入手できる。

Uncertainty is the only certainty there is. Modeling data uncertainty is essential for regression, especially in unconstrained settings. Traditionally the direct regression formulation is considered and the uncertainty is modeled by modifying the output space to a certain family of probabilistic distributions. On the other hand, classification based regression and ranking based solutions are more popular in practice while the direct regression methods suffer from the limited performance. How to model the uncertainty within the present-day technologies for regression remains an open issue. In this paper, we propose to learn probabilistic ordinal embeddings which represent each data as a multivariate Gaussian distribution rather than a deterministic point in the latent space. An ordinal distribution constraint is proposed to exploit the ordinal nature of regression. Our probabilistic ordinal embeddings can be integrated into popular regression approaches and empower them with the ability of uncertainty estimation. Experimental results show that our approach achieves competitive performance. Code is available at https://github.com/L i-Wanhua/POEs.
翻訳日:2021-03-26 13:50:42 公開日:2021-03-25
# contrast to divide: self-supervised pre-training for learning with noise labels

Contrast to Divide: Self-Supervised Pre-Training for Learning with Noisy Labels ( http://arxiv.org/abs/2103.13646v1 )

ライセンス: Link先を確認
Evgenii Zheltonozhskii, Chaim Baskin, Avi Mendelson, Alex M. Bronstein, Or Litany(参考訳) ノイズラベル(LNL)法による学習の成功は、標準的な教師付きトレーニングがフル(ノイズ)トレーニングセットを使用して実行されるウォームアップステージの成功に大きく依存する。 本稿では,高品質な特徴抽出器を訓練するための標準的なウォームアップステージの欠如と,ノイズラベルの暗記を回避する「ウォームアップ障害」を特定する。 本稿では,特徴抽出器を自己指導型で事前学習することで,この問題を解決するためのシンプルなフレームワークである"Contrast to Divide"(C2D)を提案する。 自己教師付き事前学習を用いることで、ウォームアップステージのノイズレベルへの感受性を大幅に低減し、その持続時間を短縮し、抽出された特徴量を増やすことで、既存のLNLアプローチの性能を高めることができる。 c2dは既存の手法で最初から動作し、特に高ノイズ環境ではパフォーマンスが著しく向上しており、cifar-100では27%以上向上し、以前の技術では90%のノイズが発生している。 実生活のノイズ設定では、mini-WebVisionでトレーニングされたC2Dは、WebVisionとImageNetバリデーションセットの両方において、3%のトップ1精度で過去の作業より優れています。 このフレームワークの詳細な分析を行い、様々な事前学習手法の性能を調査し、半教師付き学習を用いてLNL性能の有効上限を推定する。 実験を再現するためのコードはhttps://github.com/C ontrastToDivide/C2Dで公開されている。

The success of learning with noisy labels (LNL) methods relies heavily on the success of a warm-up stage where standard supervised training is performed using the full (noisy) training set. In this paper, we identify a "warm-up obstacle": the inability of standard warm-up stages to train high quality feature extractors and avert memorization of noisy labels. We propose "Contrast to Divide" (C2D), a simple framework that solves this problem by pre-training the feature extractor in a self-supervised fashion. Using self-supervised pre-training boosts the performance of existing LNL approaches by drastically reducing the warm-up stage's susceptibility to noise level, shortening its duration, and increasing extracted feature quality. C2D works out of the box with existing methods and demonstrates markedly improved performance, especially in the high noise regime, where we get a boost of more than 27% for CIFAR-100 with 90% noise over the previous state of the art. In real-life noise settings, C2D trained on mini-WebVision outperforms previous works both in WebVision and ImageNet validation sets by 3% top-1 accuracy. We perform an in-depth analysis of the framework, including investigating the performance of different pre-training approaches and estimating the effective upper bound of the LNL performance with semi-supervised learning. Code for reproducing our experiments is available at https://github.com/C ontrastToDivide/C2D
翻訳日:2021-03-26 13:50:28 公開日:2021-03-25
# SSLayout360: 360$^{\circ}$ Panoramaによる半監督屋内レイアウト推定

SSLayout360: Semi-Supervised Indoor Layout Estimation from 360$^{\circ}$ Panorama ( http://arxiv.org/abs/2103.13696v1 )

ライセンス: Link先を確認
Phi Vu Tran(参考訳) 近年,半教師付き学習と3次元部屋レイアウト再構築の研究が盛んに行われている。 本研究では,より少ないラベルデータでより正確な3次元室内シーンモデリングを実現するための研究目標を進めるために,これらの2分野の交点を探索する。 360$^{\circ}$パノラマシーンにおけるレイアウト推定を改善するためにラベル付きデータとラベルなしデータの組み合わせを用いて、部屋の隅と境界の表現を学ぶための最初のアプローチを提案する。 大規模な比較実験を通じて,20個のラベル付き例を用いて,複雑な屋内シーンのレイアウト推定を推し進めることができることを示す。 合成データに事前学習したレイアウト予測器と組み合わせると, ラベルの12%のみを用いて, 半教師付き手法が完全に教師付き手法に適合する。 私たちの研究は、制限されたラベル付きデータで3d知覚の多くのアプリケーションを可能にする、ロバストな半教師付きレイアウト推定に向けて、重要な第一歩を踏み出しています。

Recent years have seen flourishing research on both semi-supervised learning and 3D room layout reconstruction. In this work, we explore the intersection of these two fields to advance the research objective of enabling more accurate 3D indoor scene modeling with less labeled data. We propose the first approach to learn representations of room corners and boundaries by using a combination of labeled and unlabeled data for improved layout estimation in a 360$^{\circ}$ panoramic scene. Through extensive comparative experiments, we demonstrate that our approach can advance layout estimation of complex indoor scenes using as few as 20 labeled examples. When coupled with a layout predictor pre-trained on synthetic data, our semi-supervised method matches the fully supervised counterpart using only 12% of the labels. Our work takes an important first step towards robust semi-supervised layout estimation that can enable many applications in 3D perception with limited labeled data.
翻訳日:2021-03-26 13:50:03 公開日:2021-03-25
# ECINN: 倒立型ニューラルネットワークの効率的対効果

ECINN: Efficient Counterfactuals from Invertible Neural Networks ( http://arxiv.org/abs/2103.13701v1 )

ライセンス: Link先を確認
Frederik Hvilsh{\o}j, Alexandros Iosifidis, and Ira Assent(参考訳) 対実例では、入力をどのように変更して分類器の予測クラスを変更するかを特定し、例えばディープニューラルネットワークのブラックボックスの性質を開放する。 本稿では, 画像分類における可逆ニューラルネットワークの生成能力を利用して, 対実例を効率的に生成する手法ECINNを提案する。 数千以上の評価を必要とする競合する手法とは対照的に、ECINNはクローズドフォーム表現を持ち、たった2つの評価の時点で反事実を生成する。 反実例を生成する主な課題は、予測結果、すなわちクラス依存的な特徴に影響を及ぼす入力特徴だけを変更することである。 実験では,ECINNがクラス依存の画像領域を変更して,その知覚的・予測的クラスを変更する方法を示した。 さらに、ECINNを拡張してヒートマップ(ECINNh)を生成し、例えば、生成した反ファクト例のペア単位のクラス依存的な変更を簡単に検査する。 実験により,ECINNhは熱マップに基づく説明を生成する手法よりも優れていることがわかった。

Counterfactual examples identify how inputs can be altered to change the predicted class of a classifier, thus opening up the black-box nature of, e.g., deep neural networks. We propose a method, ECINN, that utilizes the generative capacities of invertible neural networks for image classification to generate counterfactual examples efficiently. In contrast to competing methods that sometimes need a thousand evaluations or more of the classifier, ECINN has a closed-form expression and generates a counterfactual in the time of only two evaluations. Arguably, the main challenge of generating counterfactual examples is to alter only input features that affect the predicted outcome, i.e., class-dependent features. Our experiments demonstrate how ECINN alters class-dependent image regions to change the perceptual and predicted class of the counterfactuals. Additionally, we extend ECINN to also produce heatmaps (ECINNh) for easy inspection of, e.g., pairwise class-dependent changes in the generated counterfactual examples. Experimentally, we find that ECINNh outperforms established methods that generate heatmap-based explanations.
翻訳日:2021-03-26 13:49:45 公開日:2021-03-25
# ディープニューラルネットワークを用いた無人航空機の視覚検出と追跡:性能ベンチマーク

Unmanned Aerial Vehicle Visual Detection and Tracking using Deep Neural Networks: A Performance Benchmark ( http://arxiv.org/abs/2103.13933v1 )

ライセンス: Link先を確認
Brian K. S. Isaac-Medina, Matt Poyser, Daniel Organisciak, Chris G. Willcocks, Toby P. Breckon, Hubert P. H. Shum(参考訳) 無人航空機(UAV)は、悪用と悪用の両方により、航空安全に大きなリスクをもたらす可能性がある。 このため、uavの自動検出と追跡は、航空セキュリティシステムにおける基本的なタスクである。 uav検出の一般的な技術は可視帯および熱赤外イメージング、電波、レーダーである。 画像に基づく物体検出のためのディープニューラルネットワーク(DNN)の最近の進歩は、この検出と追跡タスクに視覚情報を使用する可能性を開く。 さらに、これらの検出アーキテクチャは、視覚追跡システムのバックボーンとして実装することができ、UAV侵入の永続的な追跡を可能にする。 現在、UAV検出と追跡のための可視帯域画像にDNNを適用する包括的なパフォーマンスベンチマークは存在しない。 この目的のために、4つの検知アーキテクチャと3つのトラッキングフレームワークを用いて、合計241の動画(331,486画像)を含む、UAV検知および追跡のための環境条件の異なる3つのデータセットを評価した。 最高の動作検出アーキテクチャは98.6%のmAPを取得し、最高の動作追跡フレームワークは96.3%のMOTAを取得する。 可視スペクトルと赤外線スペクトルの相互モダリティ評価を行い、赤外線モダリティのトレーニング時に可視画像の最大82.8%の地図を作成する。 これらの結果は、最先端のディープラーニングベースの手法のための最初の公開マルチアパッチベンチマークを提供し、UAVドメインにおける検出および追跡アーキテクチャの有効性に関する洞察を与える。

Unmanned Aerial Vehicles (UAV) can pose a major risk for aviation safety, due to both negligent and malicious use. For this reason, the automated detection and tracking of UAV is a fundamental task in aerial security systems. Common technologies for UAV detection include visible-band and thermal infrared imaging, radio frequency and radar. Recent advances in deep neural networks (DNNs) for image-based object detection open the possibility to use visual information for this detection and tracking task. Furthermore, these detection architectures can be implemented as backbones for visual tracking systems, thereby enabling persistent tracking of UAV incursions. To date, no comprehensive performance benchmark exists that applies DNNs to visible-band imagery for UAV detection and tracking. To this end, three datasets with varied environmental conditions for UAV detection and tracking, comprising a total of 241 videos (331,486 images), are assessed using four detection architectures and three tracking frameworks. The best performing detector architecture obtains an mAP of 98.6% and the best performing tracking framework obtains a MOTA of 96.3%. Cross-modality evaluation is carried out between visible and infrared spectrums, achieving a maximal 82.8% mAP on visible images when training in the infrared modality. These results provide the first public multi-approach benchmark for state-of-the-art deep learning-based methods and give insight into which detection and tracking architectures are effective in the UAV domain.
翻訳日:2021-03-26 13:49:06 公開日:2021-03-25
# 対照的な自己監督型表現学習モデル

Contrasting Contrastive Self-Supervised Representation Learning Models ( http://arxiv.org/abs/2103.14005v1 )

ライセンス: Link先を確認
Klemen Kotar, Gabriel Ilharco, Ludwig Schmidt, Kiana Ehsani, Roozbeh Mottaghi(参考訳) ここ数年,自己指導型表現学習の目覚ましいブレークスルーを目の当たりにしてきた。 このパラダイムを通じて学んだ表現の成功と採用にもかかわらず、異なるトレーニング方法とデータセットが下流タスクのパフォーマンスにどのように影響するかについては、まだ分かっていない。 本稿では,自己指導型表現学習の最も成功し,普及している変種の一つであるコントラッシブアプローチを分析する。 我々は、トレーニングアルゴリズム、データセットの事前トレーニング、およびエンドタスクの観点から、この分析を行う。 エンコーダ30台,プリトレーニングデータセット4台,ダウンストリームタスク20台を含む,700以上のトレーニング実験を行った。 実験では,自己教師付きモデルの性能について,教師付きモデルとの比較,評価に用いる現在のベンチマーク,最終タスク性能に対する事前学習データの影響について,様々な疑問を呈する。 この研究によって得られた洞察と実証的な証拠が、将来の視覚的表現の学習に役立つことを期待している。

In the past few years, we have witnessed remarkable breakthroughs in self-supervised representation learning. Despite the success and adoption of representations learned through this paradigm, much is yet to be understood about how different training methods and datasets influence performance on downstream tasks. In this paper, we analyze contrastive approaches as one of the most successful and popular variants of self-supervised representation learning. We perform this analysis from the perspective of the training algorithms, pre-training datasets and end tasks. We examine over 700 training experiments including 30 encoders, 4 pre-training datasets and 20 diverse downstream tasks. Our experiments address various questions regarding the performance of self-supervised models compared to their supervised counterparts, current benchmarks used for evaluation, and the effect of the pre-training data on end task performance. We hope the insights and empirical evidence provided by this work will help future research in learning better visual representations.
翻訳日:2021-03-26 13:48:41 公開日:2021-03-25
# 画像翻訳のためのスケールアップ・アンタングルメント

Scaling-up Disentanglement for Image Translation ( http://arxiv.org/abs/2103.14017v1 )

ライセンス: Link先を確認
Aviv Gabbay and Yedid Hoshen(参考訳) 画像翻訳手法は通常、ラベル付き属性のセット(例えばトレーニング時間に監督として登録される)を操作することを目的としている。 ドメインラベル) ラベルのない属性をそのまま残しながら。 現在の方法では: (i)不等角性(disentanglement)は低い視覚的忠実度を示し、属性が完全に無関係な場合にのみ満足できる。 (ii)視認可能な翻訳は、明らかに乱れていない。 本稿では,ラベル付き属性とラベル付き属性を分離する単一フレームワークであるoverlordと,2段階からなる高忠実度画像の合成を提案する。 以前のアプローチとは異なり、私たちは敵のトレーニングやアーキテクチャ上の偏見に依存していません。 (ii)合成:学習属性を推論し、知覚品質を高めるために逆向きに生成器を調整するためのフィードフォワードエンコーダを訓練する。 ラベル付き属性とラベルなし属性が相関している場合、相関属性を考慮し、歪みを改善する追加表現をモデル化する。 当社のフレキシブルフレームワークでは,複数の画像翻訳設定を対象としています。 属性操作、ポーズ-外観変換、セグメント化誘導合成、形状-テクスチャ転送。 大規模な評価では,最先端手法よりも翻訳品質が高く,出力の多様性も優れている。

Image translation methods typically aim to manipulate a set of labeled attributes (given as supervision at training time e.g. domain label) while leaving the unlabeled attributes intact. Current methods achieve either: (i) disentanglement, which exhibits low visual fidelity and can only be satisfied where the attributes are perfectly uncorrelated. (ii) visually-plausible translations, which are clearly not disentangled. In this work, we propose OverLORD, a single framework for disentangling labeled and unlabeled attributes as well as synthesizing high-fidelity images, which is composed of two stages; (i) Disentanglement: Learning disentangled representations with latent optimization. Differently from previous approaches, we do not rely on adversarial training or any architectural biases. (ii) Synthesis: Training feed-forward encoders for inferring the learned attributes and tuning the generator in an adversarial manner to increase the perceptual quality. When the labeled and unlabeled attributes are correlated, we model an additional representation that accounts for the correlated attributes and improves disentanglement. We highlight that our flexible framework covers multiple image translation settings e.g. attribute manipulation, pose-appearance translation, segmentation-guided synthesis and shape-texture transfer. In an extensive evaluation, we present significantly better disentanglement with higher translation quality and greater output diversity than state-of-the-art methods.
翻訳日:2021-03-26 13:48:28 公開日:2021-03-25
# 時空間特徴学習のための畳み込みニューラルネットワークを用いたフレームレートアップコンバージョン検出

Frame-rate Up-conversion Detection Based on Convolutional Neural Network for Learning Spatiotemporal Features ( http://arxiv.org/abs/2103.13674v1 )

ライセンス: Link先を確認
Minseok Yoon, Seung-Hun Nam, In-Jae Yu, Wonhyuk Ahn, Myung-Joon Kwon, Heung-Kyu Lee(参考訳) ユーザーフレンドリーで強力なビデオ編集ツールの進歩により、誰でも目立った視覚的痕跡を残すことなく簡単にビデオを操作できる。 フレームレートアップ・コンバージョン(FRUC)は、時間領域の代表的な操作であり、低フレームレートでの動画の動作継続性を高め、偽フレームレートビデオの生成などのビデオ改ざんに悪意のある偽造者によって使用される。 FRUCはフレーム補間スキームに基づいており、補間フレームに残る微妙なアーティファクトは区別が難しいことが多い。 したがって、このような偽造跡の検出は、ビデオ鑑識において重大な問題である。 本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。 提案するネットワークは,連続するフレームのスタックを入力とし,ネットワークブロックを用いて補間アーティファクトを効果的に学習し,時空間の特徴を学習する。 この研究は、FRUCの検出にニューラルネットワークを適用する最初の試みである。 さらに、近接補間、双線形補間、動き補償補間という3種類のフレーム補間スキームをカバーできる。 完全性を検証するためにすべてのフレームを利用する既存の手法とは対照的に,提案手法は6フレームしか観測できないため,高い検出速度を実現する。 従来の法医学的手法とニューラルネットワークを用いて大規模な実験を行い,本研究の検証を行った。 提案したネットワークは、FRUCの補間されたアーティファクトを検出することで最先端の性能を達成した。 実験結果は、トレーニングされたモデルが、未知のデータセット、未学習のフレームレート、未学習の品質ファクターに対して堅牢であることを示す。

With the advance in user-friendly and powerful video editing tools, anyone can easily manipulate videos without leaving prominent visual traces. Frame-rate up-conversion (FRUC), a representative temporal-domain operation, increases the motion continuity of videos with a lower frame-rate and is used by malicious counterfeiters in video tampering such as generating fake frame-rate video without improving the quality or mixing temporally spliced videos. FRUC is based on frame interpolation schemes and subtle artifacts that remain in interpolated frames are often difficult to distinguish. Hence, detecting such forgery traces is a critical issue in video forensics. This paper proposes a frame-rate conversion detection network (FCDNet) that learns forensic features caused by FRUC in an end-to-end fashion. The proposed network uses a stack of consecutive frames as the input and effectively learns interpolation artifacts using network blocks to learn spatiotemporal features. This study is the first attempt to apply a neural network to the detection of FRUC. Moreover, it can cover the following three types of frame interpolation schemes: nearest neighbor interpolation, bilinear interpolation, and motion-compensated interpolation. In contrast to existing methods that exploit all frames to verify integrity, the proposed approach achieves a high detection speed because it observes only six frames to test its authenticity. Extensive experiments were conducted with conventional forensic methods and neural networks for video forensic tasks to validate our research. The proposed network achieved state-of-the-art performance in terms of detecting the interpolated artifacts of FRUC. The experimental results also demonstrate that our trained model is robust for an unseen dataset, unlearned frame-rate, and unlearned quality factor.
翻訳日:2021-03-26 13:48:07 公開日:2021-03-25
# 高次元データの解釈可能な近似

Interpretable Approximation of High-Dimensional Data ( http://arxiv.org/abs/2103.13787v1 )

ライセンス: Link先を確認
Daniel Potts and Michael Schmischke(参考訳) 本稿では,前述したanova分解と群変換に基づく近似法を合成データおよび実データに適用する。 この方法の利点は近似の解釈可能性、すなわち属性相互作用や変数結合の重要性をランク付けする能力である。 さらに、重要でない変数を識別し、問題の次元を減少させる属性ランキングを生成することができる。 この手法を,公開ベンチマークデータセットにおける他の手法と比較する。

In this paper we apply the previously introduced approximation method based on the ANOVA (analysis of variance) decomposition and Grouped Transformations to synthetic and real data. The advantage of this method is the interpretability of the approximation, i.e., the ability to rank the importance of the attribute interactions or the variable couplings. Moreover, we are able to generate an attribute ranking to identify unimportant variables and reduce the dimensionality of the problem. We compare the method to other approaches on publicly available benchmark datasets.
翻訳日:2021-03-26 13:47:09 公開日:2021-03-25
# 深層学習による5G以上のミリ波ビーム予測の逆攻撃

Adversarial Attacks on Deep Learning Based mmWave Beam Prediction in 5G and Beyond ( http://arxiv.org/abs/2103.13989v1 )

ライセンス: Link先を確認
Brian Kim and Yalin E. Sagduyu and Tugba Erpek and Sennur Ulukus(参考訳) ディープラーニングは、スペクトルデータから学習し、mWave通信における初期アクセスのためのビーム選択(IA)のような5Gおよびそれ以上の複雑なタスクを解決する強力な手段を提供する。 指向性伝送のための基地局(例えばgNodeB)とユーザ機器(UE)との間のIAを確立するため、ディープニューラルネットワーク(DNN)は、受信信号強度(RSS)を用いて各UEに最も傾斜したビームを、可能な狭いビームのサブセットから予測することができる。 全てのビームを網羅する従来のIAと比較して、ビーム選択のレイテンシと信頼性は向上するが、DNN自身は敵攻撃の影響を受けやすい。 DNNの入力として、対向的摂動を発生させ、対向的攻撃を行い、対向的攻撃を行う。 この攻撃によりIA性能は大幅に低下し、DNNはガウスノイズや均一ノイズによる妨害攻撃と比較して、小さなRSSでビームを選択する。

Deep learning provides powerful means to learn from spectrum data and solve complex tasks in 5G and beyond such as beam selection for initial access (IA) in mmWave communications. To establish the IA between the base station (e.g., gNodeB) and user equipment (UE) for directional transmissions, a deep neural network (DNN) can predict the beam that is best slanted to each UE by using the received signal strengths (RSSs) from a subset of possible narrow beams. While improving the latency and reliability of beam selection compared to the conventional IA that sweeps all beams, the DNN itself is susceptible to adversarial attacks. We present an adversarial attack by generating adversarial perturbations to manipulate the over-the-air captured RSSs as the input to the DNN. This attack reduces the IA performance significantly and fools the DNN into choosing the beams with small RSSs compared to jamming attacks with Gaussian or uniform noise.
翻訳日:2021-03-26 13:47:02 公開日:2021-03-25
# 負の制御による不測値の因果推論:ミニマックス学習アプローチ

Causal Inference Under Unmeasured Confounding With Negative Controls: A Minimax Learning Approach ( http://arxiv.org/abs/2103.14029v1 )

ライセンス: Link先を確認
Nathan Kallus, Xiaojie Mao, Masatoshi Uehara(参考訳) 我々は,すべての共同創設者が観察されるのではなく,負の制御が利用できる場合に,因果パラメータの推定を行う。 最近の研究は、2つのいわゆるブリッジ関数による同定と効率的な推定を可能にする方法を示している。 本稿では,これらの橋梁関数の同定と推定という,負の制御を用いた因果推論における主な課題に取り組む。 それまでの研究は、これらの関数の特異性と完全性の仮定に頼っていたが、実際は理解できないかもしれないし、パラメトリック推定にも焦点が当てられている。 代わりに、ユニークさと完全性の両方を避ける新しい識別戦略を提供する。 そして,ミニマックス学習の定式化に基づくこれらの関数の新しい推定器を提案する。 これらの推定器はヒルベルト空間やニューラルネットワークの再現のような一般関数クラスに対応している。 橋梁関数自体の推定と因果パラメータの最終的な推定について有限サンプル収束結果について検討した。 我々はこれを、ミニマックス推定器で用いられる仮説と批判クラスにおける実現可能性や閉化条件を含む様々な仮定の組み合わせの下で行う。 どれだけの確率を想定するかによって異なる収束率が得られる。 いくつかのケースでは、橋梁関数推定器が有効な橋梁関数に収束しない場合でも、因果パラメータの推定値が収束する可能性がある。 また,他の場合においても半パラメトリック効率が得られることを示す。

We study the estimation of causal parameters when not all confounders are observed and instead negative controls are available. Recent work has shown how these can enable identification and efficient estimation via two so-called bridge functions. In this paper, we tackle the primary challenge to causal inference using negative controls: the identification and estimation of these bridge functions. Previous work has relied on uniqueness and completeness assumptions on these functions that may be implausible in practice and also focused on their parametric estimation. Instead, we provide a new identification strategy that avoids both uniqueness and completeness. And, we provide a new estimators for these functions based on minimax learning formulations. These estimators accommodate general function classes such as reproducing Hilbert spaces and neural networks. We study finite-sample convergence results both for estimating bridge function themselves and for the final estimation of the causal parameter. We do this under a variety of combinations of assumptions that include realizability and closedness conditions on the hypothesis and critic classes employed in the minimax estimator. Depending on how much we are willing to assume, we obtain different convergence rates. In some cases, we show the estimate for the causal parameter may converge even when our bridge function estimators do not converge to any valid bridge function. And, in other cases, we show we can obtain semiparametric efficiency.
翻訳日:2021-03-26 13:46:44 公開日:2021-03-25
# 逆ゲームによるディープフェイク鑑定

Deepfake Forensics via An Adversarial Game ( http://arxiv.org/abs/2103.13567v1 )

ライセンス: Link先を確認
Zhi Wang, Yiwen Guo, Wangmeng Zuo(参考訳) AIベースの顔偽造(ディープフェイク)の進展に伴い、人々はその虐待をますます心配している。 このような偽造品を認識するための訓練分類(ディープフェイク検出)モデルの努力が続けられているが、既存のモデルは、目に見えない偽造品技術への一般化が貧弱で、画像や映像の品質の変化に対する感度が高い。 本稿では,顔偽造と画像・映像品質の両面での一般化能力向上のための対人訓練を提唱する。 分類モデルに逆らうように作られたサンプルによるトレーニングは、一般化能力を大幅に向上させると信じている。 AIベースの顔操作は、しばしば、一般化が難しいモデルで容易に発見できる高周波アーティファクトにつながることを考慮し、画素ワイドガウスのぼかしモデルを導入して、これらの特定のアーティファクトを曖昧にしようとする新たな逆トレーニング手法を提案する。 敵対的訓練では,分類モデルはより識別的かつ一般化可能な特徴を学習せざるを得ず,その効果は数多くの実証的証拠によって検証できる。 私たちのコードは公開されます。

With the progress in AI-based facial forgery (i.e., deepfake), people are increasingly concerned about its abuse. Albeit effort has been made for training classification (also known as deepfake detection) models to recognize such forgeries, existing models suffer from poor generalization to unseen forgery technologies and high sensitivity to changes in image/video quality. In this paper, we advocate adversarial training for improving the generalization ability to both unseen facial forgeries and unseen image/video qualities. We believe training with samples that are adversarially crafted to attack the classification models improves the generalization ability considerably. Considering that AI-based face manipulation often leads to high-frequency artifacts that can be easily spotted by models yet difficult to generalize, we further propose a new adversarial training method that attempts to blur out these specific artifacts, by introducing pixel-wise Gaussian blurring models. With adversarial training, the classification models are forced to learn more discriminative and generalizable features, and the effectiveness of our method can be verified by plenty of empirical evidence. Our code will be made publicly available.
翻訳日:2021-03-26 13:46:23 公開日:2021-03-25
# 大規模マージン学習の最近の進歩

Recent Advances in Large Margin Learning ( http://arxiv.org/abs/2103.13598v1 )

ライセンス: Link先を確認
Yiwen Guo, Changshui Zhang(参考訳) この論文は、大規模なマージントレーニングの最近の進歩とその理論的基盤に関する調査であり、主に(非線形)ディープニューラルネットワーク(DNN)のためのものであり、おそらくこの10年でコミュニティで大規模データのための最も顕著な機械学習モデルである。 古典研究から最新のDNNへの分類マージンの定式化を一般化し、マージン、ネットワークの一般化、ロバストネスの理論的関係を要約し、DNNのマージンを包括的に拡大する最近の取り組みを紹介する。 異なる手法の視点は相違するので,本論文では,比較や議論の容易さのためにグループに分類する。 今後,DNNの性能向上をめざしたコミュニティにおける新たな研究成果が期待でき,また,DNNの一定の正規化が実際にどのように機能するかを理論的根拠として,大きなマージン原理を検証できる方向も指している。 我々は、大きなマージン学習と関連する手法の重要精神がより強調されるように、論文の短縮に成功しました。

This paper serves as a survey of recent advances in large margin training and its theoretical foundations, mostly for (nonlinear) deep neural networks (DNNs) that are probably the most prominent machine learning models for large-scale data in the community over the past decade. We generalize the formulation of classification margins from classical research to latest DNNs, summarize theoretical connections between the margin, network generalization, and robustness, and introduce recent efforts in enlarging the margins for DNNs comprehensively. Since the viewpoint of different methods is discrepant, we categorize them into groups for ease of comparison and discussion in the paper. Hopefully, our discussions and overview inspire new research work in the community that aim to improve the performance of DNNs, and we also point to directions where the large margin principle can be verified to provide theoretical evidence why certain regularizations for DNNs function well in practice. We managed to shorten the paper such that the crucial spirit of large margin learning and related methods are better emphasized.
翻訳日:2021-03-26 13:46:02 公開日:2021-03-25
# 説明可能性誘導型多地点型covid-19ct分類

Explainability Guided Multi-Site COVID-19 CT Classification ( http://arxiv.org/abs/2103.13677v1 )

ライセンス: Link先を確認
Ameen Ali, Tal Shaharabany, Lior Wolf(参考訳) 胸部CTの放射線検査は、新型コロナウイルス患者のスクリーニングに有効な方法である。 本研究は,このプロセスの自動化における3つの課題を克服する。 (i) 監督された陽性事例の限られた数, (ii) 地域ベースの監督の欠如, (iii) 買収サイト間の多様性。 これらの課題は、SnapMixと呼ばれる最近の拡張ソリューション、新しいパッチ埋め込み技術、テスト時の安定性分析の実行によって解決される。 これら3つの手法は相補的であり,CAM(Class Activation Mapping)説明可能性法によって生成されたヒートマップを利用する。 現状と比較すると,比較的多くの症例を抱えるサイトにおいてF1スコアが5%増加し,訓練画像が少ないサイトでは2倍の差がみられた。

Radiologist examination of chest CT is an effective way for screening COVID-19 cases. In this work, we overcome three challenges in the automation of this process: (i) the limited number of supervised positive cases, (ii) the lack of region-based supervision, and (iii) the variability across acquisition sites. These challenges are met by incorporating a recent augmentation solution called SnapMix, by a new patch embedding technique, and by performing a test-time stability analysis. The three techniques are complementary and are all based on utilizing the heatmaps produced by the Class Activation Mapping (CAM) explainability method. Compared to the current state of the art, we obtain an increase of five percent in the F1 score on a site with a relatively high number of cases, and a gap twice as large for a site with much fewer training images.
翻訳日:2021-03-26 13:45:43 公開日:2021-03-25
# MCTSteg: モンテカルロ木探索に基づく非付加的ステレオグラフィのための強化学習フレームワーク

MCTSteg: A Monte Carlo Tree Search-based Reinforcement Learning Framework for Universal Non-additive Steganography ( http://arxiv.org/abs/2103.13689v1 )

ライセンス: Link先を確認
Xianbo Mo and Shunquan Tan and Bin Li and Jiwu Huang(参考訳) 近年の研究では、非加法的な画像ステガノグラフィーフレームワークが歪み分布の調整により、セキュリティ性能を効果的に向上することが示されている。 しかし、我々が知る限り、既存の非加法的提案はすべて手作りのポリシーに基づいており、特定の画像ドメインにのみ適用することができ、非加法的ステガノグラフィーが完全な可能性を解放することを防ぐことができる。 本稿では,mctsteg と呼ばれる非加法的歪み学習フレームワークを提案し,上記の制約を解消する。 強化学習パラダイムに導かれ,モンテカルロ木探索 (mcts) とステガナライザー環境モデルを組み合わせたmctstegを構築する。 mctsは、人間の介入なしに歪み分布を調整するために順次決定する。 提案する環境モデルを用いて,各意思決定からフィードバックを得る。 自己学習の特徴とドメインに依存しない報酬関数のため、mctstegは空間領域とjpeg領域の両方で機能する初の普遍的非加法ステガノグラフィーフレームワークとなった。 MCTStegは手作りの特徴ベースと深層学習ベースの両方のステガナライザーの検出に効果的であることを示す。 空間領域とJPEG領域の両方において、MCTStegのセキュリティ性能は、異なるシナリオ下で明確なマージンで、着実に向上している。

Recent research has shown that non-additive image steganographic frameworks effectively improve security performance through adjusting distortion distribution. However, as far as we know, all of the existing non-additive proposals are based on handcrafted policies, and can only be applied to a specific image domain, which heavily prevent non-additive steganography from releasing its full potentiality. In this paper, we propose an automatic non-additive steganographic distortion learning framework called MCTSteg to remove the above restrictions. Guided by the reinforcement learning paradigm, we combine Monte Carlo Tree Search (MCTS) and steganalyzer-based environmental model to build MCTSteg. MCTS makes sequential decisions to adjust distortion distribution without human intervention. Our proposed environmental model is used to obtain feedbacks from each decision. Due to its self-learning characteristic and domain-independent reward function, MCTSteg has become the first reported universal non-additive steganographic framework which can work in both spatial and JPEG domains. Extensive experimental results show that MCTSteg can effectively withstand the detection of both hand-crafted feature-based and deep-learning-based steganalyzers. In both spatial and JPEG domains, the security performance of MCTSteg steadily outperforms the state of the art by a clear margin under different scenarios.
翻訳日:2021-03-26 13:45:29 公開日:2021-03-25
# 内視鏡用ダウンサンプリングカーネルを用いたゼロショット超解像

Zero-shot super-resolution with a physically-motivated downsampling kernel for endomicroscopy ( http://arxiv.org/abs/2103.14015v1 )

ライセンス: Link先を確認
Agnieszka Barbara Szczotka, Dzhoshkun Ismail Shakir, Matthew J. Clarkson, Stephen P. Pereira, Tom Vercauteren(参考訳) 超解像(SR)法は畳み込みニューラルネットワーク(CNN)の開発によって大きな進歩を遂げている。 CNNは内視鏡画像の品質向上に成功している。 しかし、内視鏡検査におけるSR研究の固有の限界は、教師付きトレーニングと参照ベース画像品質評価(IQA)の両方に一般的に使用される、基底真理高解像度画像の欠如である。 そのため、教師なしSRのような代替手法が検討されている。 非参照画像品質改善の必要性に対処するため,我々は,ゼロショット・スーパーレゾリューション(zssr, zero-shot super- resolution)アプローチを考案した。 提案したパイプラインを,内視鏡の不規則な繊維を用いたサンプリングパターンと現実的なノイズパターンを考慮した物理的に動機付けられたボロノイダウンスケーリングカーネルの導入により,内視鏡の慣用性に合わせた。 また,ビデオシーケンスを利用して,自己教師付きゼロショット画像品質改善のための画像列を活用した。 我々は,ダウンスケーリングカーネルとノイズシミュレーションにおける貢献度を評価するため,アブレーション研究を行っている。 我々は合成データと原データの両方で方法論を検証する。 比較実験はIQAを用いて行ったが,本研究は専門家と非専門家の両方で実施したユーザスタディで評価した。 その結果,ZSSR再構成画像の画質はベースライン法と比較して優れていた。 ZSSRは、監督された単一像SRと比較しても競争力があり、特に専門家が好む復元技術である。

Super-resolution (SR) methods have seen significant advances thanks to the development of convolutional neural networks (CNNs). CNNs have been successfully employed to improve the quality of endomicroscopy imaging. Yet, the inherent limitation of research on SR in endomicroscopy remains the lack of ground truth high-resolution (HR) images, commonly used for both supervised training and reference-based image quality assessment (IQA). Therefore, alternative methods, such as unsupervised SR are being explored. To address the need for non-reference image quality improvement, we designed a novel zero-shot super-resolution (ZSSR) approach that relies only on the endomicroscopy data to be processed in a self-supervised manner without the need for ground-truth HR images. We tailored the proposed pipeline to the idiosyncrasies of endomicroscopy by introducing both: a physically-motivated Voronoi downscaling kernel accounting for the endomicroscope's irregular fibre-based sampling pattern, and realistic noise patterns. We also took advantage of video sequences to exploit a sequence of images for self-supervised zero-shot image quality improvement. We run ablation studies to assess our contribution in regards to the downscaling kernel and noise simulation. We validate our methodology on both synthetic and original data. Synthetic experiments were assessed with reference-based IQA, while our results for original images were evaluated in a user study conducted with both expert and non-expert observers. The results demonstrated superior performance in image quality of ZSSR reconstructions in comparison to the baseline method. The ZSSR is also competitive when compared to supervised single-image SR, especially being the preferred reconstruction technique by experts.
翻訳日:2021-03-26 13:44:33 公開日:2021-03-25
# フリーテキスト健康記録識別のための最新のエンティティ認識手法のベンチマーク

Benchmarking Modern Named Entity Recognition Techniques for Free-text Health Record De-identification ( http://arxiv.org/abs/2103.13546v1 )

ライセンス: Link先を確認
Abdullah Ahmed, Adeel Abbasi, Carsten Eickhoff(参考訳) 電子健康記録(ehrs)は、アメリカ合衆国における医療データ保存の主要な形態となっている。 連邦法は、保護された健康情報(PHI)を含むEHRデータの共有を制限する。 すべてのPHIを識別し、除去するプロセスである脱同定は、科学研究のためにEHRデータを公開するために重要である。 本研究は, 深層学習に基づく名前付きエンティティ認識(NER)手法を探索し, 識別タスクにおいてどの手法が優れているかを決定する。 i2b2トレーニングデータセットでモデルをトレーニング,テストし,局所病院から収集したEHRデータを用いて定性的に評価した。 1) BiLSTM-CRFは, 最適なエンコーダ/デコーダの組み合わせであり, 2) 文字埋め込みとCRFはリコール価格で精度を向上する傾向があり, 3) コンテクストエンコーダとしての性能が低いトランスフォーマーのみであることがわかった。 医用テキストの構造化に焦点をあてた今後の研究は、EHRの特定のために意味情報や構文情報の抽出を改善する可能性がある。

Electronic Health Records (EHRs) have become the primary form of medical data-keeping across the United States. Federal law restricts the sharing of any EHR data that contains protected health information (PHI). De-identification, the process of identifying and removing all PHI, is crucial for making EHR data publicly available for scientific research. This project explores several deep learning-based named entity recognition (NER) methods to determine which method(s) perform better on the de-identification task. We trained and tested our models on the i2b2 training dataset, and qualitatively assessed their performance using EHR data collected from a local hospital. We found that 1) BiLSTM-CRF represents the best-performing encoder/decoder combination, 2) character-embeddings and CRFs tend to improve precision at the price of recall, and 3) transformers alone under-perform as context encoders. Future work focused on structuring medical text may improve the extraction of semantic and syntactic information for the purposes of EHR de-identification.
翻訳日:2021-03-26 13:43:34 公開日:2021-03-25
# 可変分解能を用いた用語コミュニティに基づく話題検出

Term-community-based topic detection with variable resolution ( http://arxiv.org/abs/2103.13550v1 )

ライセンス: Link先を確認
Andreas Hamm and Simon Odrowski (German Aerospace Center DLR)(参考訳) 巨大なテキストコレクションにおけるトピック検出のためのネットワークベースの手順は、確率的トピックモデルの直感的な代替手段を提供する。 我々は、特にドメインエキスパートの要求を念頭に置いて設計された手法を詳細に提示する。 類似の手法と同様に、項共起グラフにおけるコミュニティ検出を用いるが、対象トピックの粒度を変更するために使用できる解決パラメータを含むことで拡張される。 また, 用語ランキングを確立し, 意味的単語埋め込みを用いて, 用語コミュニティの解釈を容易にする手法を提案する。 本手法を一般ニュース記事のコーパスとして広く活用し,様々な解像度で検出された話題の詳細な社会科学専門家による評価結果を示す。 Latent Dirichlet Allocationによって検出されたトピックとの比較も含んでいる。 最後に,話題の解釈に影響を与える要因について論じる。

Network-based procedures for topic detection in huge text collections offer an intuitive alternative to probabilistic topic models. We present in detail a method that is especially designed with the requirements of domain experts in mind. Like similar methods, it employs community detection in term co-occurrence graphs, but it is enhanced by including a resolution parameter that can be used for changing the targeted topic granularity. We also establish a term ranking and use semantic word-embedding for presenting term communities in a way that facilitates their interpretation. We demonstrate the application of our method with a widely used corpus of general news articles and show the results of detailed social-sciences expert evaluations of detected topics at various resolutions. A comparison with topics detected by Latent Dirichlet Allocation is also included. Finally, we discuss factors that influence topic interpretation.
翻訳日:2021-03-26 13:43:14 公開日:2021-03-25
# BERT4SO:微調整BERTによるニューラル文順序付け

BERT4SO: Neural Sentence Ordering by Fine-tuning BERT ( http://arxiv.org/abs/2103.13584v1 )

ライセンス: Link先を確認
Yutao Zhu, Jian-Yun Nie, Kun Zhou, Shengchao Liu, Pan Du(参考訳) 文順序付けは、与えられたテキストの文を正しい順序で並べることを目的としている。 最近の研究は、それをランキング問題として位置づけ、ディープニューラルネットワークを適用している。 本研究では,文の順序付けを微調整することで,BERT4SOという新しい手法を提案する。 すべての文を結合し、それらの表現を複数の特別なトークンと注意深く設計されたセグメント(インターバル)埋め込みを使って計算します。 複数の文にまたがるトークンは互いに参加でき、相互作用を大幅に強化する。 また,最適化プロセスを容易にするために,listmleに基づくマージンベースのリストワイズランキングロスを提案する。 5つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。

Sentence ordering aims to arrange the sentences of a given text in the correct order. Recent work frames it as a ranking problem and applies deep neural networks to it. In this work, we propose a new method, named BERT4SO, by fine-tuning BERT for sentence ordering. We concatenate all sentences and compute their representations by using multiple special tokens and carefully designed segment (interval) embeddings. The tokens across multiple sentences can attend to each other which greatly enhances their interactions. We also propose a margin-based listwise ranking loss based on ListMLE to facilitate the optimization process. Experimental results on five benchmark datasets demonstrate the effectiveness of our proposed method.
翻訳日:2021-03-26 13:43:02 公開日:2021-03-25
# ASRエラーに対するNLPシステムのロバスト性向上の一手法

An Approach to Improve Robustness of NLP Systems against ASR Errors ( http://arxiv.org/abs/2103.13610v1 )

ライセンス: Link先を確認
Tong Cui, Jinghui Xiao, Liangyou Li, Xin Jiang, Qun Liu(参考訳) 音声対応システムは、まず自動音声認識(asr)モデルを通じて音声をテキストに変換し、次に下流自然言語処理(nlp)モジュールにテキストを供給する。 ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。 したがって、これらをASRエラーに対して堅牢にすることが不可欠である。 これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。 本稿では,ASR-plausible noiseを用いたトレーニングサンプルを生成するために,事前学習言語モデルを利用する。 従来の手法と比較して,本手法は実世界の誤差分布に適合するASRノイズを生成する。 音声言語翻訳(SLT)と音声言語理解(SLU)に関する実験結果から,本手法はASRの誤りに対するシステムの堅牢性を効果的に向上し,両課題における最先端の結果が得られた。

Speech-enabled systems typically first convert audio to text through an automatic speech recognition (ASR) model and then feed the text to downstream natural language processing (NLP) modules. The errors of the ASR system can seriously downgrade the performance of the NLP modules. Therefore, it is essential to make them robust to the ASR errors. Previous work has shown it is effective to employ data augmentation methods to solve this problem by injecting ASR noise during the training process. In this paper, we utilize the prevalent pre-trained language model to generate training samples with ASR-plausible noise. Compare to the previous methods, our approach generates ASR noise that better fits the real-world error distribution. Experimental results on spoken language translation(SLT) and spoken language understanding (SLU) show that our approach effectively improves the system robustness against the ASR errors and achieves state-of-the-art results on both tasks.
翻訳日:2021-03-26 13:42:53 公開日:2021-03-25
# Bertinho: Galician BERT の表現

Bertinho: Galician BERT Representations ( http://arxiv.org/abs/2103.13799v1 )

ライセンス: Link先を確認
David Vilares and Marcos Garcia and Carlos G\'omez-Rodr\'iguez(参考訳) 本稿ではガリシア語に対する単言語BERTモデルを提案する。 比較的低リソースな言語であっても、堅牢なモノリンガルBERTモデルを構築することは可能であり、また、よく知られた公式のマルチリンガルBERT(mBERT)よりも高性能であることを示す最近の傾向に従う。 さらに、我々は6層と12層からなる2つの単言語alician bertモデルをリリースし、限られたリソース(24gbのシングルgpu上で約4500万トークン)でトレーニングしました。 次に,posタグ,依存性解析,名前付きエンティティ認識などのタスクを徹底的に評価する。 この目的のために、これらのタスクはすべて、BERTを実行するために純粋なシーケンスラベリング設定でキャストされ、その上に追加のレイヤを含める必要がない(予測されたラベルにコンテキスト化された表現をマッピングするために出力分類層のみを使用する)。 実験の結果,我々のモデル,特に12層モデルでは,ほとんどのタスクにおいてmBERTよりも優れていた。

This paper presents a monolingual BERT model for Galician. We follow the recent trend that shows that it is feasible to build robust monolingual BERT models even for relatively low-resource languages, while performing better than the well-known official multilingual BERT (mBERT). More particularly, we release two monolingual Galician BERT models, built using 6 and 12 transformer layers, respectively; trained with limited resources (~45 million tokens on a single GPU of 24GB). We then provide an exhaustive evaluation on a number of tasks such as POS-tagging, dependency parsing and named entity recognition. For this purpose, all these tasks are cast in a pure sequence labeling setup in order to run BERT without the need to include any additional layers on top of it (we only use an output classification layer to map the contextualized representations into the predicted label). The experiments show that our models, especially the 12-layer one, outperform the results of mBERT in most tasks.
翻訳日:2021-03-26 13:42:35 公開日:2021-03-25
# テキストのみの自然言語処理のための視覚的接地戦略

Visual Grounding Strategies for Text-Only Natural Language Processing ( http://arxiv.org/abs/2103.13942v1 )

ライセンス: Link先を確認
Damien Sileo(参考訳) ビジュアルグラウンドティングは、より堅牢で正確な自然言語処理(NLP)モデルへの有望な道である。 BERTの多くのマルチモーダル拡張(例えば、VideoBERT、LXMERT、VL-BERT)は、ビジュアル質問回答のようなマルチモーダルタスクにおける最先端の結果につながるテキストと画像の合同モデリングを可能にする。 本稿では,マルチモーダル事前学習がテキスト処理精度を向上させる基礎となることを期待して,純粋にテキストタスク(言語モデリングと分類)にマルチモーダルモデリングを利用する。 我々はこの点で可能な戦略を提案する。 最初のタイプの戦略は {\it transfer grounding} と呼ばれ、テキストのみのタスクにマルチモーダルモデルを適用し、プレースホルダーを使って画像入力を置き換える。 2つ目は、画像検索を利用して、事前学習とテキストのみの下流タスクの両方で、関連する画像とテキストをマッチングする。 両戦略をさらに区別し、言語モデリングとコモンセンス関連下流タスクへの影響に基づいて比較し、テキストのみのベースラインよりも改善したことを示す。

Visual grounding is a promising path toward more robust and accurate Natural Language Processing (NLP) models. Many multimodal extensions of BERT (e.g., VideoBERT, LXMERT, VL-BERT) allow a joint modeling of texts and images that lead to state-of-the-art results on multimodal tasks such as Visual Question Answering. Here, we leverage multimodal modeling for purely textual tasks (language modeling and classification) with the expectation that the multimodal pretraining provides a grounding that can improve text processing accuracy. We propose possible strategies in this respect. A first type of strategy, referred to as {\it transferred grounding} consists in applying multimodal models to text-only tasks using a placeholder to replace image input. The second one, which we call {\it associative grounding}, harnesses image retrieval to match texts with related images during both pretraining and text-only downstream tasks. We draw further distinctions into both strategies and then compare them according to their impact on language modeling and commonsense-related downstream tasks, showing improvement over text-only baselines.
翻訳日:2021-03-26 13:42:17 公開日:2021-03-25
# 階層的プロキシに基づく深層学習の損失

Hierarchical Proxy-based Loss for Deep Metric Learning ( http://arxiv.org/abs/2103.13538v1 )

ライセンス: Link先を確認
Zhibo Yang, Muhammet Bastan, Xinliang Zhu, Doug Gray, Dimitris Samaras(参考訳) プロキシベースのメトリック学習損失は、高速収束と低トレーニングの複雑さのため、ペアベースの損失よりも優れている。 しかし、既存のプロキシベースの損失は、クラス識別機能を学習し、クラス間で共有される共通性を見落としながら、サンプルの記述とマッチングに有用である。 さらに、同様の従属クラスをグループ化できる実世界のデータセットにおけるカテゴリの暗黙的な階層を無視する。 本稿では,この暗黙の階層を,プロキシに階層構造を課すことで活用し,既存のプロキシベースの損失に対して使用可能なフレームワークを提案する。 これにより、暗黙のデータ階層を壊すことなく、クラス識別特徴とクラス共有特徴の両方をキャプチャできる。 本手法は,in-shop や sop などの確立した5つの画像検索データセットについて評価する。 その結果、階層型プロキシベースの損失フレームワークは、既存のプロキシベースの損失、特に強力な階層構造を示す大規模データセットのパフォーマンスを向上させることが示されました。

Proxy-based metric learning losses are superior to pair-based losses due to their fast convergence and low training complexity. However, existing proxy-based losses focus on learning class-discriminative features while overlooking the commonalities shared across classes which are potentially useful in describing and matching samples. Moreover, they ignore the implicit hierarchy of categories in real-world datasets, where similar subordinate classes can be grouped together. In this paper, we present a framework that leverages this implicit hierarchy by imposing a hierarchical structure on the proxies and can be used with any existing proxy-based loss. This allows our model to capture both class-discriminative features and class-shared characteristics without breaking the implicit data hierarchy. We evaluate our method on five established image retrieval datasets such as In-Shop and SOP. Results demonstrate that our hierarchical proxy-based loss framework improves the performance of existing proxy-based losses, especially on large datasets which exhibit strong hierarchical structure.
翻訳日:2021-03-26 13:40:27 公開日:2021-03-25
# Gaussian Guided IoU: オブジェクト検出におけるバランス学習のためのより良いメトリクス

Gaussian Guided IoU: A Better Metric for Balanced Learning on Object Detection ( http://arxiv.org/abs/2103.13613v1 )

ライセンス: Link先を確認
Shengkai Wu, Jinrong Yang, Hangcheng Yu, Lijun Gou, Xiaoping Li(参考訳) 多くのアンカーベースの検出器では、IoU(Intersection over Union)が訓練中にアンカーの目標を割り当てるために広く利用されている。 しかし、イオウは真理箱の中央へのアンカーの中央の近さに十分注意を払っている。 その結果,(1) 訓練中の細い物体の監視情報不足につながる細い物体のほとんどに1つのアンカーが割り当てられること,(2) 細い物体の性能が損なわれること,(2) IoU は、アンカーの中心にある特徴の受容場と物体とのアライメント度を正確に表現できないこと,の2つの問題が発生した。 したがって、トレーニング中は、受容野がオブジェクトに合致するいくつかの特徴が欠落し、受容野がオブジェクトに合致するいくつかの特徴が採用される。 これはモデルのローカライズ精度を損なう。 これらの問題を解決するため,まずガウシアンガイドiou(ggiou)をデザインし,アンカーの中心と真理箱の中心との密接性に着目した。 そして,GIoU誘導型代入戦略とGIoU誘導型局所化損失を含むGIoUバランス学習手法を提案する。 このメソッドは、各細いオブジェクトに複数のアンカーを割り当て、トレーニングプロセスをオブジェクトに適切に整合した機能に偏らせることができる。 PASCAL VOCやMS COCOのような一般的なベンチマークでの大規模な実験により、GGIoUバランス学習は上記の問題を解くことができ、特に局所化精度においてオブジェクト検出モデルの性能を大幅に向上させることができる。

For most of the anchor-based detectors, Intersection over Union(IoU) is widely utilized to assign targets for the anchors during training. However, IoU pays insufficient attention to the closeness of the anchor's center to the truth box's center. This results in two problems: (1) only one anchor is assigned to most of the slender objects which leads to insufficient supervision information for the slender objects during training and the performance on the slender objects is hurt; (2) IoU can not accurately represent the alignment degree between the receptive field of the feature at the anchor's center and the object. Thus during training, some features whose receptive field aligns better with objects are missing while some features whose receptive field aligns worse with objects are adopted. This hurts the localization accuracy of models. To solve these problems, we firstly design Gaussian Guided IoU(GGIoU) which focuses more attention on the closeness of the anchor's center to the truth box's center. Then we propose GGIoU-balanced learning method including GGIoU-guided assignment strategy and GGIoU-balanced localization loss. The method can assign multiple anchors for each slender object and bias the training process to the features well-aligned with objects. Extensive experiments on the popular benchmarks such as PASCAL VOC and MS COCO demonstrate GGIoU-balanced learning can solve the above problems and substantially improve the performance of the object detection model, especially in the localization accuracy.
翻訳日:2021-03-26 13:40:13 公開日:2021-03-25
# 効率的なニューラルネットワーク推論のための量子化法の検討

A Survey of Quantization Methods for Efficient Neural Network Inference ( http://arxiv.org/abs/2103.13630v1 )

ライセンス: Link先を確認
Amir Gholami, Sehoon Kim, Zhen Dong, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer(参考訳) デジタルコンピュータ上での計算に抽象数学的計算が適応されると、それらの計算における数値の効率的な表現、操作、およびコミュニケーションの問題が生じた。 数値表現の問題は量子化の問題である:どんな方法で連続実数値数の集合を固定離散数の集合上に分散させ、必要なビット数を最小化し、それに付随する計算の精度を最大化するべきか。 量子化のこの長年の問題は、メモリや計算資源が厳しく制限されるたびに特に重要であり、コンピュータビジョン、自然言語処理、および関連分野におけるニューラルネットワークモデルの顕著な性能により、近年は最前線に現れている。 浮動小数点表現から4ビット以下で表される低精度の整数値への移行は、メモリフットプリントとレイテンシを16倍に削減する可能性を秘めている。 このように量子化が近年、ニューラルネットワークに関連する計算の効率的な実装において重要かつ非常に活発な研究領域として出現したことは驚くにあたらない。 本稿では,ディープニューラルネット計算における数値の定量化の問題に対して,現在の手法の長所・短所を概説する。 この調査とその組織は、ニューラルネットワークの量子化における現在の研究の有用なスナップショットを提示し、この分野における将来の研究評価を容易にするインテリジェントな組織を提供したいと思っています。

As soon as abstract mathematical computations were adapted to computation on digital computers, the problem of efficient representation, manipulation, and communication of the numerical values in those computations arose. Strongly related to the problem of numerical representation is the problem of quantization: in what manner should a set of continuous real-valued numbers be distributed over a fixed discrete set of numbers to minimize the number of bits required and also to maximize the accuracy of the attendant computations? This perennial problem of quantization is particularly relevant whenever memory and/or computational resources are severely restricted, and it has come to the forefront in recent years due to the remarkable performance of Neural Network models in computer vision, natural language processing, and related areas. Moving from floating-point representations to low-precision fixed integer values represented in four bits or less holds the potential to reduce the memory footprint and latency by a factor of 16x; and, in fact, reductions of 4x to 8x are often realized in practice in these applications. Thus, it is not surprising that quantization has emerged recently as an important and very active sub-area of research in the efficient implementation of computations associated with Neural Networks. In this article, we survey approaches to the problem of quantizing the numerical values in deep Neural Network computations, covering the advantages/disadvant ages of current methods. With this survey and its organization, we hope to have presented a useful snapshot of the current research in quantization for Neural Networks and to have given an intelligent organization to ease the evaluation of future research in this area.
翻訳日:2021-03-26 13:39:44 公開日:2021-03-25
# 画像超解像のための非対称CNN

Asymmetric CNN for image super-resolution ( http://arxiv.org/abs/2103.13634v1 )

ライセンス: Link先を確認
Chunwei Tian, Yong Xu, Wangmeng Zuo, Chia-Wen Lin and David Zhang(参考訳) 深層畳み込みニューラルネットワーク(cnns)は、過去5年間、低レベルのビジョンに広く適用されてきた。 異なるアプリケーションの性質に従って、適切なcnnアーキテクチャを設計する。 しかし、カスタマイズされたアーキテクチャは、任意のアプリケーションの性能を向上させるために、すべてのピクセルポイントを平等に扱うことで異なる特徴を収集し、ローカルパワーピクセルポイントの影響を無視し、トレーニング効率を低下させる。 本稿では,非対称ブロック(ab),mem/ory拡張ブロック(meb),高周波特徴強調ブロック(hffeb)からなる画像超解像のための非対称cnn(acnet)を提案する。 ABは1次元の非対称畳み込みを利用して正方形の畳み込み核を水平方向と垂直方向に強化し、SISRの局所的な塩分特性の影響を促進する。 MEBは、長期依存問題を解決するために残差学習(RL)技術を介して、ABの階層的な低周波特徴をすべて融合し、低周波特性を高周波特徴に変換する。 HFFEBは低周波・高周波特性を利用して、より堅牢な超解像特性と過剰な特徴強調問題に対処する。 また、高解像度(hr)画像を再構築する役割も担っている。 広範な実験により,我々のacnetは単一画像スーパーレゾリューション(sisr),ブラインドsisr,ブラインドノイズ問題のブラインドsisrに対して効果的に対処できることを示した。 ACNetのコードはhttps://github.com/h ellloxiaotian/ACNetで示されている。

Deep convolutional neural networks (CNNs) have been widely applied for low-level vision over the past five years. According to nature of different applications, designing appropriate CNN architectures is developed. However, customized architectures gather different features via treating all pixel points as equal to improve the performance of given application, which ignores the effects of local power pixel points and results in low training efficiency. In this paper, we propose an asymmetric CNN (ACNet) comprising an asymmetric block (AB), a mem?ory enhancement block (MEB) and a high-frequency feature enhancement block (HFFEB) for image super-resolution. The AB utilizes one-dimensional asymmetric convolutions to intensify the square convolution kernels in horizontal and vertical directions for promoting the influences of local salient features for SISR. The MEB fuses all hierarchical low-frequency features from the AB via residual learning (RL) technique to resolve the long-term dependency problem and transforms obtained low-frequency fea?tures into high-frequency features. The HFFEB exploits low- and high-frequency features to obtain more robust super-resolution features and address excessive feature enhancement problem. Ad?ditionally, it also takes charge of reconstructing a high-resolution (HR) image. Extensive experiments show that our ACNet can effectively address single image super-resolution (SISR), blind SISR and blind SISR of blind noise problems. The code of the ACNet is shown at https://github.com/h ellloxiaotian/ACNet.
翻訳日:2021-03-26 13:39:18 公開日:2021-03-25
# マルチランダムアンカーグラフアンサンブル学習による空間スペクトル超スペクトル画像分類

Spatial-spectral Hyperspectral Image Classification via Multiple Random Anchor Graphs Ensemble Learning ( http://arxiv.org/abs/2103.13710v1 )

ライセンス: Link先を確認
Yanling Miao, Qi Wang, Mulin Chen, Xuelong Li(参考訳) ラベル付きデータの限られた状況に対処するグラフベースの半教師付き学習手法は,実用的応用において優位な性能を示している。 しかし、ハイパースペクトル画像(HSI)の高次元性は、ペアの隣接グラフの構築を困難にしている。 さらに、モデルの識別性を改善するための細かな空間的特徴はしばしば見過ごされる。 本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。 まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。 次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。 最後に、複数のアンカーグラフを利用してアンサンブルモデルを構築し、HSIの多様性を学習する。 大規模な実験により、RAGEは最先端のアプローチと競合していることが示された。

Graph-based semi-supervised learning methods, which deal well with the situation of limited labeled data, have shown dominant performance in practical applications. However, the high dimensionality of hyperspectral images (HSI) makes it hard to construct the pairwise adjacent graph. Besides, the fine spatial features that help improve the discriminability of the model are often overlooked. To handle the problems, this paper proposes a novel spatial-spectral HSI classification method via multiple random anchor graphs ensemble learning (RAGE). Firstly, the local binary pattern is adopted to extract the more descriptive features on each selected band, which preserves local structures and subtle changes of a region. Secondly, the adaptive neighbors assignment is introduced in the construction of anchor graph, to reduce the computational complexity. Finally, an ensemble model is built by utilizing multiple anchor graphs, such that the diversity of HSI is learned. Extensive experiments show that RAGE is competitive against the state-of-the-art approaches.
翻訳日:2021-03-26 13:38:53 公開日:2021-03-25
# AttrLostGAN:再構成可能なレイアウトとスタイルからの属性制御画像合成

AttrLostGAN: Attribute Controlled Image Synthesis from Reconfigurable Layout and Style ( http://arxiv.org/abs/2103.13722v1 )

ライセンス: Link先を確認
Stanislav Frolov, Avneesh Sharma, J\"orn Hees, Tushar Karayil, Federico Raue, Andreas Dengel(参考訳) 近年,レイアウトからの条件付き画像合成が注目されている。 以前のアプローチでは、ジェネレータはオブジェクトの位置とクラスラベルを条件にしていたが、個々のオブジェクトの様々な外観の側面をきめ細かい制御ができない。 ユーザフレンドリーなインターフェースで実用的なアプリケーションを構築するためには、画像生成プロセスのゲイン制御が不可欠である。 本稿では,画像の他の部分に影響を与えることなく,個々のオブジェクトの出現を指定できるレイアウトからの属性制御画像合成手法を提案する。 レイアウト・ツー・イメージ生成のための最先端のアプローチを拡張し、属性に個々のオブジェクトを条件付けする。 私たちは、視覚ゲノムデータセットだけでなく、合成も実験しています。 質的・定量的な結果から,複雑なシーンを複数のオブジェクトでモデリングする場合,個々のオブジェクトの細粒度を制御できることがわかった。

Conditional image synthesis from layout has recently attracted much interest. Previous approaches condition the generator on object locations as well as class labels but lack fine-grained control over the diverse appearance aspects of individual objects. Gaining control over the image generation process is fundamental to build practical applications with a user-friendly interface. In this paper, we propose a method for attribute controlled image synthesis from layout which allows to specify the appearance of individual objects without affecting the rest of the image. We extend a state-of-the-art approach for layout-to-image generation to additionally condition individual objects on attributes. We create and experiment on a synthetic, as well as the challenging Visual Genome dataset. Our qualitative and quantitative results show that our method can successfully control the fine-grained details of individual objects when modelling complex scenes with multiple objects.
翻訳日:2021-03-26 13:38:38 公開日:2021-03-25
# GyroFlow:ジャイロスコープによる教師なし光学フロー学習

GyroFlow: Gyroscope-Guided Unsupervised Optical Flow Learning ( http://arxiv.org/abs/2103.13725v1 )

ライセンス: Link先を確認
Haipeng Li and Kunming Luo and Shuaicheng Liu(参考訳) 既存の光学フロー法は、明るさや勾配定数などの基本的な光学フローの仮定が壊れているため、霧、雨、夜などの困難な場面では誤りである。 そこで本研究では,ジャイロスコープを光学フロー学習に融合させる教師なし学習手法を提案する。 具体的には、まずジャイロスコープの読みをジャイロフィールドと呼ばれる動き場に変換する。 そして,ジャイロ場から抽出した背景運動と光流を融合させる自己誘導核融合モジュールを設計し,移動の詳細に集中するようネットワークに誘導する。 私たちの知る限りでは、光フロー学習のためのジャイロスコープデータと画像コンテンツを融合する初めてのディープラーニングベースのフレームワークである。 提案手法を検証するために,規則的かつ困難な場面をカバーする新しいデータセットを提案する。 実験により,本手法は,通常シーンと挑戦シーンの両方において,最先端の手法よりも優れていた。

Existing optical flow methods are erroneous in challenging scenes, such as fog, rain, and night because the basic optical flow assumptions such as brightness and gradient constancy are broken. To address this problem, we present an unsupervised learning approach that fuses gyroscope into optical flow learning. Specifically, we first convert gyroscope readings into motion fields named gyro field. Then, we design a self-guided fusion module to fuse the background motion extracted from the gyro field with the optical flow and guide the network to focus on motion details. To the best of our knowledge, this is the first deep learning-based framework that fuses gyroscope data and image content for optical flow learning. To validate our method, we propose a new dataset that covers regular and challenging scenes. Experiments show that our method outperforms the state-of-art methods in both regular and challenging scenes.
翻訳日:2021-03-26 13:38:24 公開日:2021-03-25
# Propose-Reduce Paradigmを用いたビデオインスタンスセグメンテーション

Video Instance Segmentation with a Propose-Reduce Paradigm ( http://arxiv.org/abs/2103.13746v1 )

ライセンス: Link先を確認
Huaijia Lin, Ruizheng Wu, Shu Liu, Jiangbo Lu, Jiaya Jia(参考訳) ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的としている。 従来の方法は、まずフレームやクリップのセグメンテーションを取得し、その後追跡やマッチングによって不完全な結果をマージする。 これらのメソッドはマージステップでエラー蓄積を引き起こす可能性がある。 本稿では,入力ビデオの完全なシーケンスを生成するための新しいパラダイムであるPropose-Reduceを提案する。 さらに,画像レベルのインスタンス分割ネットワーク上に,長期的伝搬のためのシーケンス伝搬ヘッドを構築する。 提案するフレームワークの堅牢性と高いリコールを保証するため,同じインスタンスの冗長なシーケンスを減らした複数のシーケンスを提案する。 DAVIS-UVOS検証セットでは、YouTube-VIS検証セットではAPが47.6%、J&Fは70.4%である。

Video instance segmentation (VIS) aims to segment and associate all instances of predefined classes for each frame in videos. Prior methods usually obtain segmentation for a frame or clip first, and then merge the incomplete results by tracking or matching. These methods may cause error accumulation in the merging step. Contrarily, we propose a new paradigm -- Propose-Reduce, to generate complete sequences for input videos by a single step. We further build a sequence propagation head on the existing image-level instance segmentation network for long-term propagation. To ensure robustness and high recall of our proposed framework, multiple sequences are proposed where redundant sequences of the same instance are reduced. We achieve state-of-the-art performance on two representative benchmark datasets -- we obtain 47.6% in terms of AP on YouTube-VIS validation set and 70.4% for J&F on DAVIS-UVOS validation set.
翻訳日:2021-03-26 13:38:08 公開日:2021-03-25
# I^3Net: 1段階オブジェクト検出器適応のためのインスタンス不変ネットワーク

I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage Object Detectors ( http://arxiv.org/abs/2103.13757v1 )

ライセンス: Link先を確認
Chaoqi Chen, Zebiao Zheng, Yue Huang, Xinghao Ding, Yizhou Yu(参考訳) 2段階クロスドメイン検出に関する最近の研究は、より正確な適応結果を得るために、局所的な特徴パターンを広く研究している。 これらのメソッドは、フォアグラウンドオブジェクトに対してきめ細かい機能アライメントモジュールを設計するために、リージョンの提案機構とROIベースのインスタンスレベル機能に大きく依存しています。 しかし、一段階の検出器では、検出パイプラインで明示的なインスタンスレベルの特徴を得ることは困難または不可能である。 そこで本研究では,各層における深部特徴の自然特性を利用して,一段検出器の適応に適したインプリシットインスタンス不変ネットワーク(I^3Net)を提案する。 Specifically, we facilitate the adaptation from three aspects: (1) Dynamic and Class-Balanced Reweighting (DCBR) strategy, which considers the coexistence of intra-domain and intra-class variations to assign larger weights to those sample-scarce categories and easy-to-adapt samples; (2) Category-aware Object Pattern Matching (COPM) module, which boosts the cross-domain foreground objects matching guided by the categorical information and suppresses the uninformative background features; (3) Regularized Joint Category Alignment (RJCA) module, which jointly enforces the category alignment at different domain-specific layers with a consistency regularization. 実験の結果、I^3Netはベンチマークデータセットの最先端のパフォーマンスを上回ることがわかった。

Recent works on two-stage cross-domain detection have widely explored the local feature patterns to achieve more accurate adaptation results. These methods heavily rely on the region proposal mechanisms and ROI-based instance-level features to design fine-grained feature alignment modules with respect to the foreground objects. However, for one-stage detectors, it is hard or even impossible to obtain explicit instance-level features in the detection pipelines. Motivated by this, we propose an Implicit Instance-Invariant Network (I^3Net), which is tailored for adapting one-stage detectors and implicitly learns instance-invariant features via exploiting the natural characteristics of deep features in different layers. Specifically, we facilitate the adaptation from three aspects: (1) Dynamic and Class-Balanced Reweighting (DCBR) strategy, which considers the coexistence of intra-domain and intra-class variations to assign larger weights to those sample-scarce categories and easy-to-adapt samples; (2) Category-aware Object Pattern Matching (COPM) module, which boosts the cross-domain foreground objects matching guided by the categorical information and suppresses the uninformative background features; (3) Regularized Joint Category Alignment (RJCA) module, which jointly enforces the category alignment at different domain-specific layers with a consistency regularization. Experiments reveal that I^3Net exceeds the state-of-the-art performance on benchmark datasets.
翻訳日:2021-03-26 13:37:52 公開日:2021-03-25
# patch craft: 深いモデリングとパッチマッチングによるビデオデノイジング

Patch Craft: Video Denoising by Deep Modeling and Patch Matching ( http://arxiv.org/abs/2103.13767v1 )

ライセンス: Link先を確認
Gregory Vaksman, Michael Elad and Peyman Milanfar(参考訳) 自然画像の非局所的自己相似性は、様々な画像処理問題を解決するために広く利用されている。 ビデオのシーケンスに関しては、時間的冗長性により、この力を利用する方がさらに有益である。 画像とビデオのデノイジングでは、多くの古典的指向のアルゴリズムが自己相似性を採用し、データを重複するパッチに分割する。 畳み込みニューラルネットワーク(CNN)の出現により、パッチベースのフレームワークは放棄された。 ほとんどのcnnデノイザーはイメージ全体を操作し、非局所的な関係を暗黙的にのみ活用する。 本研究は,通常の畳み込み型アーキテクチャにも依存しながら,映像デノイジングの文脈で自己相似性を活用するための新しいアプローチを提案する。 我々はパッチクラフトフレームの概念 - 実際のフレームと類似した人工フレーム - を紹介し、マッチしたパッチをタイル化することで構築する。 当社のアルゴリズムは,パッチクラフトフレームで映像シーケンスを拡大し,CNNに配信する。 提案手法により得られたノイズ除去性能の大幅な向上を示す。

The non-local self-similarity property of natural images has been exploited extensively for solving various image processing problems. When it comes to video sequences, harnessing this force is even more beneficial due to the temporal redundancy. In the context of image and video denoising, many classically-oriented algorithms employ self-similarity, splitting the data into overlapping patches, gathering groups of similar ones and processing these together somehow. With the emergence of convolutional neural networks (CNN), the patch-based framework has been abandoned. Most CNN denoisers operate on the whole image, leveraging non-local relations only implicitly by using a large receptive field. This work proposes a novel approach for leveraging self-similarity in the context of video denoising, while still relying on a regular convolutional architecture. We introduce a concept of patch-craft frames - artificial frames that are similar to the real ones, built by tiling matched patches. Our algorithm augments video sequences with patch-craft frames and feeds them to a CNN. We demonstrate the substantial boost in denoising performance obtained with the proposed approach.
翻訳日:2021-03-26 13:37:30 公開日:2021-03-25
# ファウショット分類のための複数領域からの普遍表現学習

Universal Representation Learning from Multiple Domains for Few-shot Classification ( http://arxiv.org/abs/2103.13841v1 )

ライセンス: Link先を確認
Wei-Hong Li, Xialei Liu, Hakan Bilen(参考訳) 本稿では,ラベル付きサンプルから未発見のクラスとドメインの分類法を学ぶことを目的とした,マイトショット分類の問題点について考察する。 近年の手法では,特徴を新しいドメインにアライメントしたり,複数のドメイン固有の特徴抽出器から関連する特徴を選択できる。 本研究では,アダプタとカーネルアライメントの助けを借りて,複数の個別に訓練されたネットワークの知識を抽出し,一組の普遍的な深層表現を学習することを提案する。 距離学習法に類似した手法を用いて, 従来見ていなかった領域に対する普遍表現をさらに洗練することができることを示す。 最近のMeta-Datasetベンチマークで、我々のモデルを厳格に評価し、より効率的でありながら、以前の手法よりも大幅に優れていることを示した。 私たちのコードはhttps://github.com/V ICO-UoE/URLで公開されます。

In this paper, we look at the problem of few-shot classification that aims to learn a classifier for previously unseen classes and domains from few labeled samples. Recent methods use adaptation networks for aligning their features to new domains or select the relevant features from multiple domain-specific feature extractors. In this work, we propose to learn a single set of universal deep representations by distilling knowledge of multiple separately trained networks after co-aligning their features with the help of adapters and centered kernel alignment. We show that the universal representations can be further refined for previously unseen domains by an efficient adaptation step in a similar spirit to distance learning methods. We rigorously evaluate our model in the recent Meta-Dataset benchmark and demonstrate that it significantly outperforms the previous methods while being more efficient. Our code will be available at https://github.com/V ICO-UoE/URL.
翻訳日:2021-03-26 13:37:12 公開日:2021-03-25
# 階層型深部CNN特徴量ベース表現学習によるロバストなクロスリゾリューション顔認識

Hierarchical Deep CNN Feature Set-Based Representation Learning for Robust Cross-Resolution Face Recognition ( http://arxiv.org/abs/2103.13851v1 )

ライセンス: Link先を確認
Guangwei Gao, Yi Yu, Jian Yang, Guo-Jun Qi, Meng Yang(参考訳) クロスレゾリューション顔認識(CRFR)は、インテリジェントな監視と生体法医学において重要であり、低解像度(LR)プローブ顔画像と高解像度(HR)ギャラリー顔画像とのマッチングの問題を指す。 既存の浅層学習と深層学習に基づく手法は、HR-LRの対を、解像度の差が緩和された共同特徴空間にマッピングすることに焦点を当てている。 しかし、ノイズの多いLRクエリー面から中間的識別特徴を抽出し、利用して、分解能制限による分解能の差を緩和する方法はほとんど検討されていない。 本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。 特に、私たちの貢献は3倍です。 (i)より堅牢で識別的な特徴を学ぶために、異なる層から文脈的特徴を適応的に融合させたい。 (II)これらの文脈的特徴を完全に活用するために、より正確な認識のために階層的特徴を協調的に表現する特徴集合ベース表現学習(FSRL)を設計する。 さらに、FSRLは特徴写像の原始的な形式を利用して、特に雑音の場合に潜伏構造情報を保持している。 (iii) 認識性能をさらに高めるため、異なる段階の階層認識出力を融合させたい。 一方、異なるスケールからの判別可能性も完全に統合できる。 これらの利点を活用することで,提案手法の効率性を実現することができる。 複数の顔データセットにおける実験結果から,提案アルゴリズムの他の競合crfr手法に対する優位性が検証された。

Cross-resolution face recognition (CRFR), which is important in intelligent surveillance and biometric forensics, refers to the problem of matching a low-resolution (LR) probe face image against high-resolution (HR) gallery face images. Existing shallow learning-based and deep learning-based methods focus on mapping the HR-LR face pairs into a joint feature space where the resolution discrepancy is mitigated. However, little works consider how to extract and utilize the intermediate discriminative features from the noisy LR query faces to further mitigate the resolution discrepancy due to the resolution limitations. In this study, we desire to fully exploit the multi-level deep convolutional neural network (CNN) feature set for robust CRFR. In particular, our contributions are threefold. (i) To learn more robust and discriminative features, we desire to adaptively fuse the contextual features from different layers. (ii) To fully exploit these contextual features, we design a feature set-based representation learning (FSRL) scheme to collaboratively represent the hierarchical features for more accurate recognition. Moreover, FSRL utilizes the primitive form of feature maps to keep the latent structural information, especially in noisy cases. (iii) To further promote the recognition performance, we desire to fuse the hierarchical recognition outputs from different stages. Meanwhile, the discriminability from different scales can also be fully integrated. By exploiting these advantages, the efficiency of the proposed method can be delivered. Experimental results on several face datasets have verified the superiority of the presented algorithm to the other competitive CRFR approaches.
翻訳日:2021-03-26 13:36:58 公開日:2021-03-25
# 教師なし深部ドメイン適応のための潜在ドメインの推論

Inferring Latent Domains for Unsupervised Deep Domain Adaptation ( http://arxiv.org/abs/2103.13873v1 )

ライセンス: Link先を確認
Massimiliano Mancini, Lorenzo Porzi, Samuel Rota Bul\`o, Barbara Caputo and Elisa Ricci(参考訳) Unsupervised Domain Adaptation (UDA)は、ソースドメインのアノテーション付きデータからの情報を活用することでラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。 ほとんどの深いUDAアプローチは、単一ソースの単一ターゲットシナリオ、すなわち、運用されている。 ソースとターゲットのサンプルは 単一の分布から生じると仮定します しかし実際には、ほとんどのデータセットは複数のドメインの混合と見なすことができる。 このような場合、分類モデルを学習するために従来の単一ソースの単一ターゲット手法を利用すると、結果が低下する可能性がある。 さらに、すべてのデータポイント、すなわち、ドメインラベルを提供することは、しばしば困難である。 潜伏ドメインは 自動的に発見される 本稿では,視覚データセット内の潜在ドメインを自動的に発見し,この情報を利用してロバストな対象分類器を学習することにより,udaの問題を解決する新しい深層アーキテクチャを提案する。 具体的には、アーキテクチャは2つの主要なコンポーネントに基づいている。 CNNの内部特徴表現の分布を参照分布に適切に整合させるために、各サンプルの潜在ドメインへの割り当てを自動的に計算するサイドブランチと、ドメインメンバーシップ情報を利用する新しいレイヤ。 提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。

Unsupervised Domain Adaptation (UDA) refers to the problem of learning a model in a target domain where labeled data are not available by leveraging information from annotated data in a source domain. Most deep UDA approaches operate in a single-source, single-target scenario, i.e. they assume that the source and the target samples arise from a single distribution. However, in practice most datasets can be regarded as mixtures of multiple domains. In these cases, exploiting traditional single-source, single-target methods for learning classification models may lead to poor results. Furthermore, it is often difficult to provide the domain labels for all data points, i.e. latent domains should be automatically discovered. This paper introduces a novel deep architecture which addresses the problem of UDA by automatically discovering latent domains in visual datasets and exploiting this information to learn robust target classifiers. Specifically, our architecture is based on two main components, i.e. a side branch that automatically computes the assignment of each sample to its latent domain and novel layers that exploit domain membership information to appropriately align the distribution of the CNN internal feature representations to a reference distribution. We evaluate our approach on publicly available benchmarks, showing that it outperforms state-of-the-art domain adaptation methods.
翻訳日:2021-03-26 13:36:29 公開日:2021-03-25
# アフィン変換によるマルチドメイン学習のための二項マスクの強化

Boosting Binary Masks for Multi-Domain Learning through Affine Transformations ( http://arxiv.org/abs/2103.13894v1 )

ライセンス: Link先を確認
Massimiliano Mancini, Elisa Ricci, Barbara Caputo and Samuel Rota Bul\'o(参考訳) 本研究では,マルチドメイン学習のための新しいアルゴリズムを提案する。 事前学習されたアーキテクチャと一連の視覚ドメインが順次受け取られると、マルチドメイン学習の目標は、すべてのドメインでタスクを実行する単一のモデルを作ることである。 最近の研究は、学習されたバイナリ変数を通して、与えられた元のconv-netの内部重みをマスキングすることでこの問題に対処できることを示した。 本研究では、元のネットワークパラメータのアフィン変換によるマルチドメイン学習のためのバイナリマスクベースモデルの一般化を提供する。 提案方式では,新たなドメインへの適応レベルが大幅に向上し,ネットワークパラメータ1個につき1ビット以上必要としつつ,ドメイン固有のモデルに匹敵する性能を実現する。 2つの人気のあるベンチマークの実験は、私たちのアプローチのパワーを示し、Visual Decathlon Challengeの最先端メソッドに近いパフォーマンスを実現しています。

In this work, we present a new, algorithm for multi-domain learning. Given a pretrained architecture and a set of visual domains received sequentially, the goal of multi-domain learning is to produce a single model performing a task in all the domains together. Recent works showed how we can address this problem by masking the internal weights of a given original conv-net through learned binary variables. In this work, we provide a general formulation of binary mask based models for multi-domain learning by affine transformations of the original network parameters. Our formulation obtains significantly higher levels of adaptation to new domains, achieving performances comparable to domain-specific models while requiring slightly more than 1 bit per network parameter per additional domain. Experiments on two popular benchmarks showcase the power of our approach, achieving performances close to state-of-the-art methods on the Visual Decathlon Challenge.
翻訳日:2021-03-26 13:36:09 公開日:2021-03-25
# StyleLessレイヤ: 現実の運転における堅牢性向上

StyleLess layer: Improving robustness for real-world driving ( http://arxiv.org/abs/2103.13905v1 )

ライセンス: Link先を確認
Julien Rebut, Andrei Bursuc, and Patrick P\'erez(参考訳) ディープニューラルネットワーク(DNN)は、自動運転車にとって重要なコンポーネントである。 大量のラベル付きデータから情報を取得することで、印象的なパフォーマンスを実現する。 しかし、データセットがどれだけ大きくても、現実世界の完全な複雑さをトレーニングデータにカプセル化することはできず、dnnは目に見えない条件に一般化することがほとんどない。 気象条件の変化やセンサーの劣化や老朽化によって引き起こされる様々な画像破損に対する堅牢性は、現実世界に車両を配備する場合の安全性に不可欠である。 この問題はStyleLessと呼ばれる新しいタイプのレイヤによって解決され、DNNは様々な外部条件に対処できる堅牢で情報的な特徴を学習することができる。 我々は、この層を多くのアーキテクチャに統合し、メインタスクと共同でトレーニングできる複数のバリエーションを提案する。 我々は、典型的な自律走行タスク(検出、セマンティックセグメンテーション)への貢献を検証し、ほとんどの場合、この手法は目に見えない状況(霧、雨)における予測性能を向上し、観察された状況や対象に対する性能を保っていることを示す。

Deep Neural Networks (DNNs) are a critical component for self-driving vehicles. They achieve impressive performance by reaping information from high amounts of labeled data. Yet, the full complexity of the real world cannot be encapsulated in the training data, no matter how big the dataset, and DNNs can hardly generalize to unseen conditions. Robustness to various image corruptions, caused by changing weather conditions or sensor degradation and aging, is crucial for safety when such vehicles are deployed in the real world. We address this problem through a novel type of layer, dubbed StyleLess, which enables DNNs to learn robust and informative features that can cope with varying external conditions. We propose multiple variations of this layer that can be integrated in most of the architectures and trained jointly with the main task. We validate our contribution on typical autonomous-driving tasks (detection, semantic segmentation), showing that in most cases, this approach improves predictive performance on unseen conditions (fog, rain), while preserving performance on seen conditions and objects.
翻訳日:2021-03-26 13:35:55 公開日:2021-03-25
# 画像は16×16ワード、ビデオの価値は?

An Image is Worth 16x16 Words, What is a Video Worth? ( http://arxiv.org/abs/2103.13915v1 )

ライセンス: Link先を確認
Gilad Sharir, Asaf Noy, Lihi Zelnik-Manor(参考訳) 動作認識領域におけるリード手法は、入力ビデオの空間的次元と時間的次元の両方から情報を抽出しようとする。 State of the Art (SotA) の精度に達する方法は通常、ビデオフレームから時間情報を抽象化する手段として3D畳み込み層を利用する。 このような畳み込みを利用するには、入力されたビデオから短いクリップをサンプリングする必要がある。 各ショートクリップは入力ビデオのごく一部をカバーするため、ビデオの全時間長をカバーするために複数のクリップを推論時にサンプリングする。 これにより計算負荷が増大し、実世界のアプリケーションでは実用的でない。 推論に必要なフレーム数を著しく削減することで計算ボトルネックに対処する。 提案手法は,ビデオフレームにグローバルな注意を向けた時間変換器に頼り,各フレームの健全な情報をよりよく活用する。 したがって、このアプローチは非常に入力効率が高く、データ(ビデオあたりのフレーム)、計算、レイテンシーのごく一部でsoma結果(kinetics dataset上で)を実現できるのです。 特にkinetics-400では、78.8のtop-1精度に達し、1ビデオにつき$\times 30$のフレーム数と$\times 40$の予測が現在のリードメソッドより速い。 コードは、https://github.com/A libaba-MIIL/STAMで入手できる。

Leading methods in the domain of action recognition try to distill information from both the spatial and temporal dimensions of an input video. Methods that reach State of the Art (SotA) accuracy, usually make use of 3D convolution layers as a way to abstract the temporal information from video frames. The use of such convolutions requires sampling short clips from the input video, where each clip is a collection of closely sampled frames. Since each short clip covers a small fraction of an input video, multiple clips are sampled at inference in order to cover the whole temporal length of the video. This leads to increased computational load and is impractical for real-world applications. We address the computational bottleneck by significantly reducing the number of frames required for inference. Our approach relies on a temporal transformer that applies global attention over video frames, and thus better exploits the salient information in each frame. Therefore our approach is very input efficient, and can achieve SotA results (on Kinetics dataset) with a fraction of the data (frames per video), computation and latency. Specifically on Kinetics-400, we reach 78.8 top-1 accuracy with $\times 30$ less frames per video, and $\times 40$ faster inference than the current leading method. Code is available at: https://github.com/A libaba-MIIL/STAM
翻訳日:2021-03-26 13:35:35 公開日:2021-03-25
# 気象不変物体検出のための教師なし領域分類によるマルチターゲット領域適応

Multi-Target Domain Adaptation via Unsupervised Domain Classification for Weather Invariant Object Detection ( http://arxiv.org/abs/2103.13970v1 )

ライセンス: Link先を確認
Ting Sun and Jinlin Chen and Francis Ng(参考訳) 物体検出は自動運転に不可欠な技術である。 被検体検出器の性能は、訓練画像の天候が試験画像と異なる場合、著しく低下する。 ドメイン適応は、オブジェクト検出器のロバスト性を改善するために、ドメインシフト問題に対処するために使用できる。 しかし、既存のドメイン適応メソッドのほとんどは単一のターゲットドメインを扱うか、ドメインラベルを必要とする。 本稿では,マルチターゲットドメインへの単一ターゲットドメイン適応手法の一般化と,それに基づく気象不変物体検出訓練フレームワークの設計に使用可能な,教師なし領域分類手法を提案する。 本研究では,Cityscapesデータセットとその合成変種について実験を行った。 霧、雨、夜。 実験の結果,提案手法で学習した物体検出器は,異なる気象条件下で頑健な物体検出を実現することがわかった。

Object detection is an essential technique for autonomous driving. The performance of an object detector significantly degrades if the weather of the training images is different from that of test images. Domain adaptation can be used to address the domain shift problem so as to improve the robustness of an object detector. However, most existing domain adaptation methods either handle single target domain or require domain labels. We propose a novel unsupervised domain classification method which can be used to generalize single-target domain adaptation methods to multi-target domains, and design a weather-invariant object detector training framework based on it. We conduct the experiments on Cityscapes dataset and its synthetic variants, i.e. foggy, rainy, and night. The experimental results show that the object detector trained by our proposed method realizes robust object detection under different weather conditions.
翻訳日:2021-03-26 13:35:11 公開日:2021-03-25
# GridDehazeNet+:シングルイメージデハジングのためのタスク内知識伝達機能を備えたマルチスケールネットワーク

GridDehazeNet+: An Enhanced Multi-Scale Network with Intra-Task Knowledge Transfer for Single Image Dehazing ( http://arxiv.org/abs/2103.13998v1 )

ライセンス: Link先を確認
Xiaohong Liu, Zhihao Shi, Zijun Wu, Jun Chen(参考訳) 本稿では,GridDehazeNet+と呼ばれる拡張マルチスケールネットワークを提案する。 プリプロセス、バックボーン、後処理の3つのモジュールで構成されている。 学習可能な事前処理モジュールは、手選択前処理によって生成された派生入力と比較して、より多様性と関連する特徴を持つ学習入力を生成することができる。 バックボーンモジュールは,1)異なるスケールにわたる密接な接続によるボトルネック問題を効果的に緩和する新しいグリッド構造,2)デハジング関連機能の統合による適応的融合を促進する空間チャネルアテンションブロック,の2つの拡張により,マルチスケール推定を実装した。 後処理モジュールは、最終出力のアーティファクトを減らすのに役立つ。 ネットワークトレーニングとテストのドメインシフトを軽減するため,合成データを,実際のデータと一致する形状の分布を持ついわゆる翻訳データに変換する。 さらに,実世界のシナリオにおけるデハージング性能をさらに向上するために,合成データから抽出した知識を活用して学習プロセスを支援する,新しいタスク内知識伝達機構を提案する。 実験の結果,提案したGridDehazeNet+は,いくつかのデハジングベンチマークにおいて最先端の手法よりも優れていた。 提案手法は, 大気散乱モデルに依存せず, 合成画像のデハジング結果のみを考慮に置きながら, 本モデルが提供する次元縮小を利用した方が必ずしも有益でない理由を説明することができる。

We propose an enhanced multi-scale network, dubbed GridDehazeNet+, for single image dehazing. It consists of three modules: pre-processing, backbone, and post-processing. The trainable pre-processing module can generate learned inputs with better diversity and more pertinent features as compared to those derived inputs produced by hand-selected pre-processing methods. The backbone module implements multi-scale estimation with two major enhancements: 1) a novel grid structure that effectively alleviates the bottleneck issue via dense connections across different scales; 2) a spatial-channel attention block that can facilitate adaptive fusion by consolidating dehazing-relevant features. The post-processing module helps to reduce the artifacts in the final output. To alleviate domain shift between network training and testing, we convert synthetic data to so-called translated data with the distribution shaped to match that of real data. Moreover, to further improve the dehazing performance in real-world scenarios, we propose a novel intra-task knowledge transfer mechanism that leverages the distilled knowledge from synthetic data to assist the learning process on translated data. Experimental results indicate that the proposed GridDehazeNet+ outperforms the state-of-the-art methods on several dehazing benchmarks. The proposed dehazing method does not rely on the atmosphere scattering model, and we provide a possible explanation as to why it is not necessarily beneficial to take advantage of the dimension reduction offered by this model, even if only the dehazing results on synthetic images are concerned.
翻訳日:2021-03-26 13:34:57 公開日:2021-03-25
# 自己監督型トレーニングはオンライン継続的学習を促進する

Self-Supervised Training Enhances Online Continual Learning ( http://arxiv.org/abs/2103.14010v1 )

ライセンス: Link先を確認
Jhair Gallardo, Tyler L. Hayes, Christopher Kanan(参考訳) 連続学習では、システムは破滅的な忘れをせずに、非定常データストリームから漸進的に学習する必要がある。 近年,画像ネットなどの大規模画像分類タスクにおいて,段階的に学習する複数の手法が考案されている。 最先端の継続学習手法は、初期教師付き事前学習フェーズを使用し、データセットの最初の10%から50%は、新しいクラスの連続学習が始まる前にオフラインで表現を学習するために使用される。 自己指導型事前学習は、特に事前学習に使用するサンプルの数が少なければ、教師付き学習よりもより一般化した特徴をもたらす可能性があると仮定する。 この仮説をmoco-v2アルゴリズムとswavアルゴリズムを用いて検証する。 ImageNetでは、オンライン連続学習において、教師付き事前学習がかなり優れており、サンプルが少ないと利益が大きくなる。 この結果は3つの連続学習アルゴリズムで一致している。 我々の最善のシステムは、オンライン連続学習の最先端技術よりも、クラスインクリメンタルイメージネットにおいて、トップ1の精度を14.95%向上させる。

In continual learning, a system must incrementally learn from a non-stationary data stream without catastrophic forgetting. Recently, multiple methods have been devised for incrementally learning classes on large-scale image classification tasks, such as ImageNet. State-of-the-art continual learning methods use an initial supervised pre-training phase, in which the first 10% - 50% of the classes in a dataset are used to learn representations in an offline manner before continual learning of new classes begins. We hypothesize that self-supervised pre-training could yield features that generalize better than supervised learning, especially when the number of samples used for pre-training is small. We test this hypothesis using the self-supervised MoCo-V2 and SwAV algorithms. On ImageNet, we find that both outperform supervised pre-training considerably for online continual learning, and the gains are larger when fewer samples are available. Our findings are consistent across three continual learning algorithms. Our best system achieves a 14.95% relative increase in top-1 accuracy on class incremental ImageNet over the prior state of the art for online continual learning.
翻訳日:2021-03-26 13:34:32 公開日:2021-03-25
# AutoLoss-Zero: ジェネリックタスクのスクラッチからロス関数を探す

AutoLoss-Zero: Searching Loss Functions from Scratch for Generic Tasks ( http://arxiv.org/abs/2103.14026v1 )

ライセンス: Link先を確認
Hao Li, Tianwen Fu, Jifeng Dai, Hongsheng Li, Gao Huang, Xizhou Zhu(参考訳) ディープネットワークにおける様々なコンポーネント設計の自動化において、重要な進歩が達成されている。 しかし,様々な評価指標を用いた汎用タスクの損失関数の自動設計は未検討のままである。 ハンドクラフトの損失機能に関する以前の研究は、人間の専門知識に大きく依存しており、拡張性に制限がある。 一方、損失関数を検索する既存の取り組みは、タスク固有のヒューリスティックを持つ特定のタスクと特定のメトリクスに重点を置いている。 そのような作業がジェネリックタスクに拡張できるかどうかは検証されておらず、疑わしい。 本稿では,一般的なタスクのスクラッチから損失関数を探索する最初の汎用フレームワークであるAutoLoss-Zeroを提案する。 具体的には,不均質なタスクと評価指標に対応するために,原始数学的演算子のみからなる基本探索空間を設計する。 基本探索空間における損失関数を発見するために進化アルゴリズムの変種が用いられる。 一般的なタスクに適用可能な探索効率を向上させるために、損失低減プロトコルと勾配等価性チェック戦略を開発する。 様々なコンピュータビジョンタスクに関する広範囲な実験により、検索された損失関数は、既存の損失関数と同等かそれ以上であるかが証明された。 コードは解放される。

Significant progress has been achieved in automating the design of various components in deep networks. However, the automatic design of loss functions for generic tasks with various evaluation metrics remains under-investigated. Previous works on handcrafting loss functions heavily rely on human expertise, which limits their extendibility. Meanwhile, existing efforts on searching loss functions mainly focus on specific tasks and particular metrics, with task-specific heuristics. Whether such works can be extended to generic tasks is not verified and questionable. In this paper, we propose AutoLoss-Zero, the first general framework for searching loss functions from scratch for generic tasks. Specifically, we design an elementary search space composed only of primitive mathematical operators to accommodate the heterogeneous tasks and evaluation metrics. A variant of the evolutionary algorithm is employed to discover loss functions in the elementary search space. A loss-rejection protocol and a gradient-equivalence -check strategy are developed so as to improve the search efficiency, which are applicable to generic tasks. Extensive experiments on various computer vision tasks demonstrate that our searched loss functions are on par with or superior to existing loss functions, which generalize well to different datasets and networks. Code shall be released.
翻訳日:2021-03-26 13:34:14 公開日:2021-03-25
# USB: ユニバーサルスケールオブジェクト検出ベンチマーク

USB: Universal-Scale Object Detection Benchmark ( http://arxiv.org/abs/2103.14027v1 )

ライセンス: Link先を確認
Yosuke Shinya(参考訳) COCOなどのベンチマークは、オブジェクト検出において重要な役割を果たす。 しかし、既存のベンチマークはスケールのばらつきに乏しく、それらのプロトコルは公正な比較には不十分である。 本稿では,Universal-Scale Object Detection Benchmark (USB)を紹介する。 USBは、最近提案されたWaymo Open DatasetとManga109-sデータセットにCOCOを組み込むことによって、オブジェクトスケールとイメージドメインのバリエーションがある。 公平な比較を可能にするために,複数のしきい値を定義し,画像の解像度を評価することで,USBプロトコルを提案する。 提案するベンチマークの手法を解析することにより,USB上のすべてのベースラインを超越し,既存のベンチマークの最先端結果を達成した,高速かつ正確なオブジェクト検出器であるUniverseNetsを設計した。 具体的には、UniverseNetsはCOCOテストデブで54.1%のAPを達成し、20のエポックトレーニング、Waymo Open Dataset Challenge 2020 2D検出における単一ステージ検出器の最高結果、NightOwls Detection Challenge 2020の初回で全てのオブジェクトが追跡された。 コードはhttps://github.com/s hinya7y/UniverseNetで入手できる。

Benchmarks, such as COCO, play a crucial role in object detection. However, existing benchmarks are insufficient in scale variation, and their protocols are inadequate for fair comparison. In this paper, we introduce the Universal-Scale object detection Benchmark (USB). USB has variations in object scales and image domains by incorporating COCO with the recently proposed Waymo Open Dataset and Manga109-s dataset. To enable fair comparison, we propose USB protocols by defining multiple thresholds for training epochs and evaluation image resolutions. By analyzing methods on the proposed benchmark, we designed fast and accurate object detectors called UniverseNets, which surpassed all baselines on USB and achieved state-of-the-art results on existing benchmarks. Specifically, UniverseNets achieved 54.1% AP on COCO test-dev with 20 epochs training, the top result among single-stage detectors on the Waymo Open Dataset Challenge 2020 2D detection, and the first place in the NightOwls Detection Challenge 2020 all objects track. The code is available at https://github.com/s hinya7y/UniverseNet .
翻訳日:2021-03-26 13:33:56 公開日:2021-03-25
# 可変遅延空間を用いた変分オートエンコーダに基づく車両軌道予測

Variational Autoencoder-Based Vehicle Trajectory Prediction with an Interpretable Latent Space ( http://arxiv.org/abs/2103.13726v1 )

ライセンス: Link先を確認
Marion Neumeier, Andreas Tollk\"uhn, Thomas Berberich and Michael Botsch(参考訳) 本稿では,車両軌道予測のための教師なし・エンドツーエンド学習可能なニューラルネットワークであるdescriptive variational autoencoder (dvae)について述べる。 この新しいアプローチは、共通の変分オートエンコーダのアーキテクチャと目的に基づいている。 オートエンコーダのデコーダ部に専門家の知識を導入することにより、エンコーダは人間の言葉で把握可能な意味を提供する潜在パラメータを抽出する。 このような解釈可能な潜在空間は、専門家定義規則セットによる検証を可能にする。 DVAEの評価は、ハイウェイ交通シナリオのための公開高Dデータセットを用いて行われる。 従来の変分オートエンコーダと同等の複雑性を比較すれば、提案モデルは同様の予測精度を提供するが、解釈可能な潜在空間を持つことの利点がある。 重要な意思決定と予測の信頼性を評価するためには、この性質が非常に望ましい。

This paper introduces the Descriptive Variational Autoencoder (DVAE), an unsupervised and end-to-end trainable neural network for predicting vehicle trajectories that provides partial interpretability. The novel approach is based on the architecture and objective of common variational autoencoders. By introducing expert knowledge within the decoder part of the autoencoder, the encoder learns to extract latent parameters that provide a graspable meaning in human terms. Such an interpretable latent space enables the validation by expert defined rule sets. The evaluation of the DVAE is performed using the publicly available highD dataset for highway traffic scenarios. In comparison to a conventional variational autoencoder with equivalent complexity, the proposed model provides a similar prediction accuracy but with the great advantage of having an interpretable latent space. For crucial decision making and assessing trustworthiness of a prediction this property is highly desirable.
翻訳日:2021-03-26 13:33:07 公開日:2021-03-25
# 好奇心駆動強化学習エージェントによるプレイテストカバレッジの改善

Improving Playtesting Coverage via Curiosity Driven Reinforcement Learning Agents ( http://arxiv.org/abs/2103.13798v1 )

ライセンス: Link先を確認
Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar, Linus Gissl\'en(参考訳) 現代ゲームはサイズと複雑さの両方で成長を続けており、関連するすべてのコンテンツがテストされ、潜在的な問題が適切に特定され、修正されることを保証することはより困難になっている。 しかし、人間の参加者だけを使ってテストカバレッジを最大化しようとすると、通常は開発サイクルを遅くするプロセスを調整するのが面倒で難しくなります。 自律的なエージェントによるプレイテストの補完は、このプロセスを加速し、単純化する大きな約束を示している。 本稿では,ゲーム状態カバレッジを最大化するためにトレーニングされた強化学習エージェントを用いて,与えられたシナリオを自動的に探索し,テストする問題に対処する。 それぞれのエージェントは、その行動の新規性に基づいて報酬を受け、これまで提案された探索手法が不十分であった複雑な3Dシナリオにおいて、好奇的で探索的な振る舞いを奨励する。 好奇心をそそるエージェントは、地図の異なる領域に到達するのに必要な複雑なナビゲーションメカニズムを学習することができ、潜在的な問題を特定するために必要なデータを提供することができる。 さらに、さまざまな視覚化戦略を探求し、収集したデータをよりよく活用して設計決定を推し進め、考えられる問題や見落としを認識させる方法について評価する。

As modern games continue growing both in size and complexity, it has become more challenging to ensure that all the relevant content is tested and that any potential issue is properly identified and fixed. Attempting to maximize testing coverage using only human participants, however, results in a tedious and hard to orchestrate process which normally slows down the development cycle. Complementing playtesting via autonomous agents has shown great promise accelerating and simplifying this process. This paper addresses the problem of automatically exploring and testing a given scenario using reinforcement learning agents trained to maximize game state coverage. Each of these agents is rewarded based on the novelty of its actions, thus encouraging a curious and exploratory behaviour on a complex 3D scenario where previously proposed exploration techniques perform poorly. The curious agents are able to learn the complex navigation mechanics required to reach the different areas around the map, thus providing the necessary data to identify potential issues. Moreover, the paper also explores different visualization strategies and evaluates how to make better use of the collected data to drive design decisions and to recognize possible problems and oversights.
翻訳日:2021-03-26 13:32:53 公開日:2021-03-25
# 異なるアーキテクチャ探索による人間の情報処理の定量的モデル復元

Recovering Quantitative Models of Human Information Processing with Differentiable Architecture Search ( http://arxiv.org/abs/2103.13939v1 )

ライセンス: Link先を確認
Sebastian Musslick(参考訳) 認知機能の力学モデルへの行動現象の統合は認知科学の基本的な基礎である。 しかし研究者たちは、これらのデータを科学的理論に統合するための時間的資源や金銭的資源を必要とせずに、大量のデータを蓄積し始めている。 我々は、既存の機械学習技術をオープンソースのパイプラインに組み込むことで、これらの制限を克服し、定量的モデルの自動構築を目指している。 このパイプラインは、解釈可能なモデルアーキテクチャの発見を自動化し、モデルパラメータをデータに適合させる自動微分を自動化するために、ニューラルネットワーク検索を利用する。 合成データから人間の情報処理の定量的モデルを復元する能力に基づいて,これらの手法の有用性を評価する。 これらの手法は、心理物理学、学習、意思決定のモデルから基本的な定量的モチーフを回復することができる。 また,このフレームワークの弱点を浮き彫りにして,今後の方向性について論じる。

The integration of behavioral phenomena into mechanistic models of cognitive function is a fundamental staple of cognitive science. Yet, researchers are beginning to accumulate increasing amounts of data without having the temporal or monetary resources to integrate these data into scientific theories. We seek to overcome these limitations by incorporating existing machine learning techniques into an open-source pipeline for the automated construction of quantitative models. This pipeline leverages the use of neural architecture search to automate the discovery of interpretable model architectures, and automatic differentiation to automate the fitting of model parameters to data. We evaluate the utility of these methods based on their ability to recover quantitative models of human information processing from synthetic data. We find that these methods are capable of recovering basic quantitative motifs from models of psychophysics, learning and decision making. We also highlight weaknesses of this framework, and discuss future directions for their mitigation.
翻訳日:2021-03-26 13:31:47 公開日:2021-03-25
# SMILE: 効率的なトランスファーリーニングのための自己蒸留ミキサップ

SMILE: Self-Distilled MIxup for Efficient Transfer LEarning ( http://arxiv.org/abs/2103.13941v1 )

ライセンス: Link先を確認
Xingjian Li, Haoyi Xiong, Chengzhong Xu, Dejing Dou(参考訳) ディープラーニングの性能を向上させるために、トレーニングサンプル間の単純な線形動作を好むニューラルネットワークを強制するためにmixupが提案されている。 しかし、事前訓練されたモデルによるトランスファーラーニングのミックスアップはそれほど単純ではなく、大規模な完全連結(FC)層を持つ高容量事前訓練モデルでは、サンプルとラベルを混合しても、ターゲットデータセットに容易に適合する。 本研究では, SMILE-Self-Distilled Mixup for Efficient Transfer LEarningを提案する。 混合画像を入力として、SMILEはCNN特徴抽出器の出力を正規化し、混合ラベルに加えて入力の混合特徴ベクトル(サンプル-機能混合)から学習する。 具体的には、事前学習されたモデルから受け継いだ平均教師を取り入れ、自己蒸留方式で入力サンプルの特徴ベクトルを提供し、新規な三重項正則化器を介して特徴ベクトルを混合する。 トリプル正則化器は特徴空間とラベル空間の両方における混合効果をバランスさせ、事前学習タスクのサンプル間の線形性を制限する。 SMILE が行った性能改善を,微調整,L2-SP,DELTA,RIFLE など,多種多様な移動学習アルゴリズムと比較し,総合的に検証した。 アブレーション研究では、バニラサンプル-ラベル混合戦略はトレーニングサンプル間の線形性をわずかに向上するが、一般化性の欠如が示され、SMILEはトレーニングデータセットとテストデータセットの両方でラベル空間と特徴空間の混合効果を著しく改善する。 経験的な観察はデザインの直感と目的をバックアップします。

To improve the performance of deep learning, mixup has been proposed to force the neural networks favoring simple linear behaviors in-between training samples. Performing mixup for transfer learning with pre-trained models however is not that simple, a high capacity pre-trained model with a large fully-connected (FC) layer could easily overfit to the target dataset even with samples-to-labels mixed up. In this work, we propose SMILE - Self-Distilled Mixup for EffIcient Transfer LEarning. With mixed images as inputs, SMILE regularizes the outputs of CNN feature extractors to learn from the mixed feature vectors of inputs (sample-to-feature mixup), in addition to the mixed labels. Specifically, SMILE incorporates a mean teacher, inherited from the pre-trained model, to provide the feature vectors of input samples in a self-distilling fashion, and mixes up the feature vectors accordingly via a novel triplet regularizer. The triple regularizer balances the mixup effects in both feature and label spaces while bounding the linearity in-between samples for pre-training tasks. Extensive experiments have been done to verify the performance improvement made by SMILE, in comparisons with a wide spectrum of transfer learning algorithms, including fine-tuning, L2-SP, DELTA, and RIFLE, even with mixup strategies combined. Ablation studies show that the vanilla sample-to-label mixup strategies could marginally increase the linearity in-between training samples but lack of generalizability, while SMILE significantly improve the mixup effects in both label and feature spaces with both training and testing datasets. The empirical observations backup our design intuition and purposes.
翻訳日:2021-03-26 13:31:35 公開日:2021-03-25
# efficienttdnn: 野生の話者認識のための効率的なアーキテクチャ探索

EfficientTDNN: Efficient Architecture Search for Speaker Recognition in the Wild ( http://arxiv.org/abs/2103.13581v1 )

ライセンス: Link先を確認
Rui Wang, Zhihua Wei, Shouling Ji, and Zhen Hong(参考訳) 話者認識は、自動話者認識に音響特性を利用するオーディオバイオメトリックスを指す。 これらのシステムは、スマートホーム、一般的なビジネスインタラクション、eコマースアプリケーション、法医学など、さまざまなシナリオにおけるアイデンティティを検証する重要な手段として現れています。 しかし、トレーニングと実世界のデータとのミスマッチは話者埋め込み空間のシフトを引き起こし、認識性能を著しく低下させる。 様々な複雑なニューラルネットワークアーキテクチャは、野生の話者認識に対処するが、記憶と計算の要求を無視する。 本稿では,認識精度を維持しつつ推論効率を向上させるために,効率的な時間遅延ニューラルネットワーク(efficianttdnn)を提案する。 提案するEfficientTDNNは3つのフェーズを含む。 第一に、スーパーネットの設計は、シーケンシャルセルで構成され、ネットワークプルーニングを可能にする動的ニューラルネットワークアーキテクチャを構築することである。 第二に、プログレッシブトレーニングは、スーパーネットの重みを継承するランダムサンプリングサブネットを最適化することである。 第3に,手動グリッド探索,ランダム探索,モデル予測進化探索という3つの探索手法を導入し,精度と効率のトレードオフを見いだした。 VoxCelebデータセットの実験の結果、EfficientTDNNは、約10^{13}$サブネットを含む巨大な検索スペースを提供し、1.66% EERと0.156 DCF$_{0.01}$を565MMACで達成している。 総合的な調査により、訓練されたスーパーネットは、訓練中の細胞を一般化し、正確性と効率の許容可能なバランスを得ることが示唆される。

Speaker recognition refers to audio biometrics that utilizes acoustic characteristics for automatic speaker recognition. These systems have emerged as an essential means of verifying identity in various scenarios, such as smart homes, general business interactions, e-commerce applications, and forensics. However, the mismatch between training and real-world data causes a shift of speaker embedding space and severely degrades the recognition performance. Various complicated neural architectures are presented to address speaker recognition in the wild but neglect the requirements of storage and computation. To address this issue, we propose a neural architecture search-based efficient time-delay neural network (EfficientTDNN) to improve inference efficiency while maintaining recognition accuracy. The proposed EfficientTDNN contains three phases. First, supernet design is to construct a dynamic neural architecture that consists of sequential cells and enables network pruning. Second, progressive training is to optimize randomly sampled subnets that inherit the weights of the supernet. Third, three search methods, including manual grid search, random search, and model predictive evolutionary search, are introduced to find a trade-off between accuracy and efficiency. Results of experiments on the VoxCeleb dataset show EfficientTDNN provides a huge search space including approximately $10^{13}$ subnets and achieves 1.66% EER and 0.156 DCF$_{0.01}$ with 565M MACs. Comprehensive investigation suggests that the trained supernet generalizes cells unseen during training and obtains an acceptable balance between accuracy and efficiency.
翻訳日:2021-03-26 13:31:03 公開日:2021-03-25
# ニューラルオーディオデータ処理のためのサブスペクトル正規化

SubSpectral Normalization for Neural Audio Data Processing ( http://arxiv.org/abs/2103.13620v1 )

ライセンス: Link先を確認
Simyung Chang, Hyoungwoo Park, Janghoon Cho, Hyunsin Park, Sungrack Yun, Kyuwoong Hwang(参考訳) 畳み込みニューラルネットワークは様々な機械学習領域で広く使われている。 画像処理では、入力のすべての空間次元に2次元畳み込みを適用することで特徴を得ることができる。 しかし、音声の場合、Mel-Spectrogramのような周波数領域入力は周波数次元の異なるユニークな特性を持つ。 したがって、2次元畳み込み層が周波数次元を異なる方法で扱うことができる方法が必要となる。 本研究では,入力周波数次元を複数のグループ(サブバンド)に分割し,各グループに対して異なる正規化を行うサブスペクトル正規化(SSN)を提案する。 SSNはまた、各群に適用できるアフィン変換を含む。 本手法は周波数認識特性を学習中に周波数間偏向を除去する。 音声データを用いた実験では,SSNがネットワークの性能を効率的に向上できることがわかった。

Convolutional Neural Networks are widely used in various machine learning domains. In image processing, the features can be obtained by applying 2D convolution to all spatial dimensions of the input. However, in the audio case, frequency domain input like Mel-Spectrogram has different and unique characteristics in the frequency dimension. Thus, there is a need for a method that allows the 2D convolution layer to handle the frequency dimension differently. In this work, we introduce SubSpectral Normalization (SSN), which splits the input frequency dimension into several groups (sub-bands) and performs a different normalization for each group. SSN also includes an affine transformation that can be applied to each group. Our method removes the inter-frequency deflection while the network learns a frequency-aware characteristic. In the experiments with audio data, we observed that SSN can efficiently improve the network's performance.
翻訳日:2021-03-26 13:30:34 公開日:2021-03-25
# hufunet: 左側を透かしとして埋め込み、所有権確認のための正しいピースをディープニューラルネットワークに保持する

HufuNet: Embedding the Left Piece as Watermark and Keeping the Right Piece for Ownership Verification in Deep Neural Networks ( http://arxiv.org/abs/2103.13628v1 )

ライセンス: Link先を確認
Peizhuo Lv, Pan Li, Shengzhi Zhang, Kai Chen, Ruigang Liang, Yue Zhao, Yingjiu Li(参考訳) 高価値かつ大規模のディープニューラルネットワーク(DNN)の普及により、紛争や盗まれたDNNの所有権を検証できるように、DNNの知的財産権を保護することが重要となる。 既存のソリューションのほとんどは、DNNモデルのトレーニングにバックドアを埋め込んでおり、DNNのオーナシップは、秘密の入力セットで識別可能なモデル動作をトリガーすることで検証することができる。 しかし、そのようなソリューションは微調整や刈り取りのモデル化に弱い。 彼らはまた、攻撃者が敵のサンプルを発見し、それらを秘密の入力として使用して、盗まれたモデルから識別可能な行動を引き起こすという不正な所有権主張に悩まされている。 そこで本研究では,DNNモデルのオーナシップを保護するために,HufuNetという新しいDNN透かし方式を提案する。 我々は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を含む5つのDNNモデルを用いた4つのベンチマークデータセットを厳格に評価した。 実験では、HufuNetがモデルファインチューニング/プルーニング、カーネルのカットオフ/サプリメント、機能等価アタック、不正なオーナシップのクレームに対して非常に堅牢であることを示し、現実世界の大規模なDNNモデルを保護することを約束している。

Due to the wide use of highly-valuable and large-scale deep neural networks (DNNs), it becomes crucial to protect the intellectual property of DNNs so that the ownership of disputed or stolen DNNs can be verified. Most existing solutions embed backdoors in DNN model training such that DNN ownership can be verified by triggering distinguishable model behaviors with a set of secret inputs. However, such solutions are vulnerable to model fine-tuning and pruning. They also suffer from fraudulent ownership claim as attackers can discover adversarial samples and use them as secret inputs to trigger distinguishable behaviors from stolen models. To address these problems, we propose a novel DNN watermarking solution, named HufuNet, for protecting the ownership of DNN models. We evaluate HufuNet rigorously on four benchmark datasets with five popular DNN models, including convolutional neural network (CNN) and recurrent neural network (RNN). The experiments demonstrate HufuNet is highly robust against model fine-tuning/pruning, kernels cutoff/supplement, functionality-equiva lent attack, and fraudulent ownership claims, thus highly promising to protect large-scale DNN models in the real-world.
翻訳日:2021-03-26 13:30:23 公開日:2021-03-25
# 計画による自発的学習

Self-Imitation Learning by Planning ( http://arxiv.org/abs/2103.13834v1 )

ライセンス: Link先を確認
Sha Luo, Hamidreza Kasaei, Lambert Schomaker(参考訳) イミテーションラーニング(IL)は、ロボットが専門家の知識を伝達することで、素早くスキルを習得することを可能にする。 しかし、長期移動計画タスクでは、IL法とRL法をデプロイする際の課題は、これらの手法が効果的に一般化できるように、大規模に分散したデータを生成・収集する方法である。 本研究では,提案手法であるSILP(Self-imitation Learning by Planning)を用いて,現在の政策から訪問した状態を計画することで,実演データを自動的に収集する手法を提案する。 SILPは,初期の強化学習段階の来訪状態がグラフ検索に基づく運動プランナの衝突のないノードであることから着想を得たものであり,政策学習の実証として,ロボット自身の試行を計画・実行することができる。 これらの自己生成デモにより、複雑な動作計画タスクの解決において、IL法やRL法が必要とする手間のかかるデータ準備プロセスから人間のオペレーターを解放する。 評価の結果,silp法は選択したベースラインよりも高い成功率を達成でき,サンプル効率が向上し,シミュレーションで学習したポリシーは,目標や障害が変化する実世界の配置課題において良好に機能することが示された。

Imitation learning (IL) enables robots to acquire skills quickly by transferring expert knowledge, which is widely adopted in reinforcement learning (RL) to initialize exploration. However, in long-horizon motion planning tasks, a challenging problem in deploying IL and RL methods is how to generate and collect massive, broadly distributed data such that these methods can generalize effectively. In this work, we solve this problem using our proposed approach called {self-imitation learning by planning (SILP)}, where demonstration data are collected automatically by planning on the visited states from the current policy. SILP is inspired by the observation that successfully visited states in the early reinforcement learning stage are collision-free nodes in the graph-search based motion planner, so we can plan and relabel robot's own trials as demonstrations for policy learning. Due to these self-generated demonstrations, we relieve the human operator from the laborious data preparation process required by IL and RL methods in solving complex motion planning tasks. The evaluation results show that our SILP method achieves higher success rates and enhances sample efficiency compared to selected baselines, and the policy learned in simulation performs well in a real-world placement task with changing goals and obstacles.
翻訳日:2021-03-26 13:29:21 公開日:2021-03-25
# 精神病コミュニティ治療の効果の計算機構 : 神経生物学から社会的相互作用へ

Computational Mechanism for the Effect of Psychosis Community Treatment: A Conceptual Review from Neurobiology to Social Interaction ( http://arxiv.org/abs/2103.13924v1 )

ライセンス: Link先を確認
David Benrimoh, Ely Sibarium, Andrew Sheldon, Albert Powers(参考訳) ポジティブな精神病症状の計算基盤が近年注目されている。 候補機構には、不適応優先のいくつかの組み合わせと、知覚中のこれらの先行の更新の削減が含まれる。 このようなメカニズムを持つモデルの潜在的な利点は、複数のレベルの説明をリンクする能力である。 これは精神病の経験を理解する方法を改善するための鍵です。 さらに, 第一原理からの新たな治療法の創出を可能にするメカニズムを提供することにより, より包括的な治療研究への道筋を示唆する。 これを実証するために,本稿では,従来の計算モデルから得られた知見を,早期精神病の専門病院やアサーティブ・コミュニティ治療など,強力な社会的要素を持つ重要かつ複雑なエビデンスベースの臨床介入に応用することについて論じる。 これらの介入は精神薬理学だけでなく、精神病を患う患者に構造と予測可能性を提供することも含んでいる。 この構造と予測可能性は、精神病の感覚情報に与えられる比較的低い精度と直接的に対応し、また、患者が提供者やプログラム自体の構造の形で外部認知リソースにアクセスできるようにする。 本稿では,患者の症状の減少を計算モデルがどのように説明するか,また,患者の症状に対する潜在的な反応や異なる介入に対する予測について論じる。 また,計算モデルの枠組み,患者の経験,神経生物学への介入に対する反応を結びつけた。

The computational underpinnings of positive psychotic symptoms have recently received significant attention. Candidate mechanisms include some combination of maladaptive priors and reduced updating of these priors during perception. A potential benefit of models with such mechanisms is their ability to link multiple levels of explanation. This is key to improving how we understand the experience of psychosis. Moreover, it points us towards more comprehensive avenues for therapeutic research by providing a putative mechanism that could allow for the generation of new treatments from first principles. In order to demonstrate this, our conceptual paper will discuss the application of the insights from previous computational models to an important and complex set of evidence-based clinical interventions with strong social elements, such as coordinated specialty care clinics in early psychosis and assertive community treatment. These interventions may include but also go beyond psychopharmacology, providing, we argue, structure and predictability for patients experiencing psychosis. We develop the argument that this structure and predictability directly counteract the relatively low precision afforded to sensory information in psychosis, while also providing the patient more access to external cognitive resources in the form of providers and the structure of the programs themselves. We discuss how computational models explain the resulting reduction in symptoms, as well as the predictions these models make about potential responses of patients to modifications or to different variations of these interventions. We also link, via the framework of computational models, the experiences of patients and response to interventions to putative neurobiology.
翻訳日:2021-03-26 13:29:00 公開日:2021-03-25
# タスク指向低線量ct画像のデノージング

Task-Oriented Low-Dose CT Image Denoising ( http://arxiv.org/abs/2103.13557v1 )

ライセンス: Link先を確認
Jiajin Zhang, Hanqing Chao, Xuanang Xu, Chuang Niu, Ge Wang and Pingkun Yan(参考訳) 医療用CTの広範な使用は、患者への放射線線量に対する一般の関心を高めている。 放射線線量を減らすことでCT画像のノイズやアーティファクトが増加し、放射線技師の判断だけでなく、下流の医療画像解析タスクのパフォーマンスにも悪影響を及ぼす可能性がある。 様々な低用量CT法、特に最近のディープラーニングに基づくアプローチは、驚くべき結果をもたらしている。 しかし、既存のdenoisingメソッドはすべてダウンストリームタスクに依存しず、ダウンストリームアプリケーションのさまざまなニーズを無視している。 本稿では,下流タスクの知識を活かしたタスク指向のネットワーク(TOD-Net)を提案する。 総合的な実証分析により、タスク指向の損失は他のタスク非依存の損失を補完し、興味のあるタスク関連領域の画質を高めるためにデノイザを操ることが示される。 このような強化は、ダウンストリームタスクの様々なメソッドのパフォーマンスを全般的に向上させる。 提示された研究は、コンテキスト認識画像のデノイジング手法の将来の発展に光を当てるかもしれない。

The extensive use of medical CT has raised a public concern over the radiation dose to the patient. Reducing the radiation dose leads to increased CT image noise and artifacts, which can adversely affect not only the radiologists judgement but also the performance of downstream medical image analysis tasks. Various low-dose CT denoising methods, especially the recent deep learning based approaches, have produced impressive results. However, the existing denoising methods are all downstream-task-agno stic and neglect the diverse needs of the downstream applications. In this paper, we introduce a novel Task-Oriented Denoising Network (TOD-Net) with a task-oriented loss leveraging knowledge from the downstream tasks. Comprehensive empirical analysis shows that the task-oriented loss complements other task agnostic losses by steering the denoiser to enhance the image quality in the task related regions of interest. Such enhancement in turn brings general boosts on the performance of various methods for the downstream task. The presented work may shed light on the future development of context-aware image denoising methods.
翻訳日:2021-03-26 13:27:36 公開日:2021-03-25
# STA-VPR:視覚的位置認識のための時空間アライメント

STA-VPR: Spatio-temporal Alignment for Visual Place Recognition ( http://arxiv.org/abs/2103.13580v1 )

ライセンス: Link先を確認
Feng Lu, Baifan Chen, Xiang-Dong Zhou and Dezhen Song(参考訳) 近年,視覚的位置認識(VPR)分野において,畳み込みニューラルネットワーク(CNN)に基づく手法が普及している。 特に、cnnの中間層からの機能は、手作りの特徴や高層特徴よりも、劇的な外観変化に対してより堅牢である。 残念ながら、全体的な中間層機能は大きな視点の変更に対する堅牢性に欠ける。 そこで本研究では,局所的な特徴を局所的特徴に分割し,空間領域からの局所的特徴を2つの画像間の距離を計測し,適応動的時間ワープ(DTW)アルゴリズムを提案する。 これにより、視点不変および条件不変の場所認識を実現する。 一方、時間的アライメントに基づく画像シーケンスマッチングを行うために、局所マッチングDTW(LM-DTW)アルゴリズムを適用し、さらなる改善と線形時間複雑性を保証する。 5つの代表的なVPRデータセットについて広範な実験を行った。 その結果,提案手法はcnnに基づく手法を大幅に改善した。 さらに,本手法は,実行時の性能を維持しつつ,いくつかの最先端メソッドよりも優れている。 この作業は、VPRの再トレーニングなしでCNNメソッドのパフォーマンスを向上させる新しい方法を提供する。 コードはhttps://github.com/L u-Feng/STA-VPRで公開されている。

Recently, the methods based on Convolutional Neural Networks (CNNs) have gained popularity in the field of visual place recognition (VPR). In particular, the features from the middle layers of CNNs are more robust to drastic appearance changes than handcrafted features and high-layer features. Unfortunately, the holistic mid-layer features lack robustness to large viewpoint changes. Here we split the holistic mid-layer features into local features, and propose an adaptive dynamic time warping (DTW) algorithm to align local features from the spatial domain while measuring the distance between two images. This realizes viewpoint-invariant and condition-invariant place recognition. Meanwhile, a local matching DTW (LM-DTW) algorithm is applied to perform image sequence matching based on temporal alignment, which achieves further improvements and ensures linear time complexity. We perform extensive experiments on five representative VPR datasets. The results show that the proposed method significantly improves the CNN-based methods. Moreover, our method outperforms several state-of-the-art methods while maintaining good run-time performance. This work provides a novel way to boost the performance of CNN methods without any re-training for VPR. The code is available at https://github.com/L u-Feng/STA-VPR.
翻訳日:2021-03-26 13:27:19 公開日:2021-03-25
# JDSR-GAN:仮面超解法のための共同協調学習ネットワークの構築

JDSR-GAN: Constructing A Joint and Collaborative Learning Network for Masked Face Super-Resolution ( http://arxiv.org/abs/2103.13676v1 )

ライセンス: Link先を確認
Guangwei Gao, Lei Tang, Yi Yu, Fei Wu, Huimin Lu, Jian Yang(参考訳) 新型コロナウイルス(covid-19)の予防の重要性が高まる中、ほとんどのビデオ監視シナリオで得られた顔画像は、同時にマスクで解像度が低い。 しかし、これまでのスーパーレゾリューションソリューションのほとんどは、1つのモデルで両方のタスクを処理できない。 本研究では,マスク閉塞を画像ノイズとして扱うとともに,マスク付き顔超解像処理のための共同学習ネットワークJDSR-GANを構築する。 マスクを入力とする低品質の顔画像が与えられると、デノイジングモジュールとスーパーレゾリューションモジュールとからなるジェネレータの役割は、高品質の高解像度顔画像を取得することである。 判別器は、回収された顔画像の品質を確保するために注意深く設計された損失機能を利用する。 さらに,このアイデンティティ情報と注意機構をネットワークに組み込んで,特徴表現と情報的特徴学習を可能とした。 認知と超解像を共同で行うことにより、2つのタスクは互いに補完し、有望なパフォーマンスを達成することができる。 JDSR-GANは,従来の2つのタスクを別々に実行する手法よりも優れていることを示す。

With the growing importance of preventing the COVID-19 virus, face images obtained in most video surveillance scenarios are low resolution with mask simultaneously. However, most of the previous face super-resolution solutions can not handle both tasks in one model. In this work, we treat the mask occlusion as image noise and construct a joint and collaborative learning network, called JDSR-GAN, for the masked face super-resolution task. Given a low-quality face image with the mask as input, the role of the generator composed of a denoising module and super-resolution module is to acquire a high-quality high-resolution face image. The discriminator utilizes some carefully designed loss functions to ensure the quality of the recovered face images. Moreover, we incorporate the identity information and attention mechanism into our network for feasible correlated feature expression and informative feature learning. By jointly performing denoising and face super-resolution, the two tasks can complement each other and attain promising performance. Extensive qualitative and quantitative results show the superiority of our proposed JDSR-GAN over some comparable methods which perform the previous two tasks separately.
翻訳日:2021-03-26 13:27:03 公開日:2021-03-25
# 3D3L:LiDARの深層学習によるキーポイント検出と記述

3D3L: Deep Learned 3D Keypoint Detection and Description for LiDARs ( http://arxiv.org/abs/2103.13808v1 )

ライセンス: Link先を確認
Dominc Streiff, Lukas Bernreiter, Florian Tschopp, Marius Fehr, Roland Siegwart(参考訳) 強力で軽量な3D LiDARが登場し、様々な自律システムにおける多くのナビゲーションとSLAMアルゴリズムの好機となった。 ICPのような非構造化のポイントクラウドを扱うポイントクラウド登録手法は、しばしば計算コストがかかる。 さらに、3D特徴量に基づく登録手法は、視覚SLAMにおける2D手法の堅牢性には達していない。 LiDARレンジ画像の解像度が継続的に高められているため、これらの2D手法は適用できるだけでなく、奥行きや強度など、それに伴う照明に依存しないモダリティを活用すべきである。 ビジュアルSLAMでは、ディープラーニングの2D特徴と記述子は従来の手法に比べて非常によく機能する。 本稿では,3d3lの基盤として最先端の2d特徴ネットワークを用い,lidarレンジ画像の強度と深さを活用し,強力な3d特徴を抽出する。 以上の結果から,LiDARスキャン画像から抽出したこれらのキーポイントとディスクリプタは,異なるベンチマーク指標で精度良く動作し,ロバストなスキャン・スキャンアライメントとグローバルなローカライゼーションを可能にした。

With the advent of powerful, light-weight 3D LiDARs, they have become the hearth of many navigation and SLAM algorithms on various autonomous systems. Pointcloud registration methods working with unstructured pointclouds such as ICP are often computationally expensive or require a good initial guess. Furthermore, 3D feature-based registration methods have never quite reached the robustness of 2D methods in visual SLAM. With the continuously increasing resolution of LiDAR range images, these 2D methods not only become applicable but should exploit the illumination-indepen dent modalities that come with it, such as depth and intensity. In visual SLAM, deep learned 2D features and descriptors perform exceptionally well compared to traditional methods. In this publication, we use a state-of-the-art 2D feature network as a basis for 3D3L, exploiting both intensity and depth of LiDAR range images to extract powerful 3D features. Our results show that these keypoints and descriptors extracted from LiDAR scan images outperform state-of-the-art on different benchmark metrics and allow for robust scan-to-scan alignment as well as global localization.
翻訳日:2021-03-26 13:26:47 公開日:2021-03-25
# 欠落データに対する堅牢性を備えたディープラーニング: 新型コロナウイルス検出のための新しいアプローチ

Deep Learning with robustness to missing data: A novel approach to the detection of COVID-19 ( http://arxiv.org/abs/2103.13833v1 )

ライセンス: Link先を確認
Erdi \c{C}all{\i}, Keelin Murphy, Steef Kurstjens, Tijs Samson, Robert Herpers, Henk Smits, Matthieu Rutten and Bram van Ginneken(参考訳) 近年の世界的なパンデミックとRT-PCR検査の限界の中で、実験室と胸部X線を用いた新型コロナウイルス検出のための新しいディープラーニングアーキテクチャDFCN(Denoising Fully Connected Network)を提案する。 世界中の医療施設は実験室検査や胸部画像撮影で大きく異なるため、DFCNは入力データの欠落に対して堅牢であるように設計されている。 アブレーション研究は、DFCNアーキテクチャの性能上の利点と、欠落した入力に対する堅牢性を広く評価する。 RT-PCR結果が確認された1088例のデータは2つの独立した医療施設から得られた。 収集されたデータは、27の実験実験結果と、深層学習ネットワークによって記録された胸部x線とを含む。 トレーニングとテストデータセットは、ソース医療施設に基づいて定義される。 データは公開されている。 RT-PCR結果の予測におけるDFCNの性能は,Random Forestベースラインと関連する3つのアーキテクチャと比較した。 すべてのモデルは、不足した入力に対する堅牢性を促進するために、さまざまなレベルのマスキング入力データでトレーニングされる。 ミスデータはランダムに入力をマスキングすることでテスト時にシミュレートされる。 受信操作曲線(AUC)の下の領域をメートル法として、DFCNは2-27個の入力を持つランダムな入力データのサブセットを用いて、統計的に有意な他のモデルよりも優れている。 28個の入力がすべて利用可能である場合、DFCNは他のモデルよりも高い0.924のAUCが得られる。 さらに、DFCNは、それぞれ6と7の入力からなるパラメータの臨床的に有意なサブセットで、他のどのモデルよりも高いAUCを達成し、0.909と0.919の値である。

In the context of the current global pandemic and the limitations of the RT-PCR test, we propose a novel deep learning architecture, DFCN, (Denoising Fully Connected Network) for the detection of COVID-19 using laboratory tests and chest x-rays. Since medical facilities around the world differ enormously in what laboratory tests or chest imaging may be available, DFCN is designed to be robust to missing input data. An ablation study extensively evaluates the performance benefits of the DFCN architecture as well as its robustness to missing inputs. Data from 1088 patients with confirmed RT-PCR results are obtained from two independent medical facilities. The data collected includes results from 27 laboratory tests and a chest x-ray scored by a deep learning network. Training and test datasets are defined based on the source medical facility. Data is made publicly available. The performance of DFCN in predicting the RT-PCR result is compared with 3 related architectures as well as a Random Forest baseline. All models are trained with varying levels of masked input data to encourage robustness to missing inputs. Missing data is simulated at test time by masking inputs randomly. Using area under the receiver operating curve (AUC) as a metric, DFCN outperforms all other models with statistical significance using random subsets of input data with 2-27 available inputs. When all 28 inputs are available DFCN obtains an AUC of 0.924, higher than achieved by any other model. Furthermore, with clinically meaningful subsets of parameters consisting of just 6 and 7 inputs respectively, DFCN also achieves higher AUCs than any other model, with values of 0.909 and 0.919.
翻訳日:2021-03-26 13:26:25 公開日:2021-03-25
# ScanGAN360: 360$^{\circ}$画像のための実写Scanpathの生成モデル

ScanGAN360: A Generative Model of Realistic Scanpaths for 360$^{\circ}$ Images ( http://arxiv.org/abs/2103.13922v1 )

ライセンス: Link先を確認
Daniel Martin, Ana Serrano, Alexander W. Bergman, Gordon Wetzstein, Belen Masia(参考訳) 360$^\circ$環境における人間の視線行動のダイナミクスの理解とモデリングは、コンピュータビジョンと仮想現実において重要な課題である。 生成的敵対的アプローチは、見えない画像のスキャンパスを多数生成することで、この課題を軽減することができる。 しかし、既存のスキャンパス生成法は、360$^\circ$画像の現実的なスキャンパスを適切に予測していない。 ScanGAN360は、この課題に対処するための新たな生成的対逆アプローチである。 私たちのネットワークジェネレータは没入環境を表す360$^\circ$イメージの仕様に合わせて調整されています。 具体的には,動的時間ゆがみの球面適応を損失関数として利用し,360$^\circ$スカンパスの新しいパラメータ化を提案する。 私たちのスキャンパスの品質は、競合するアプローチを大きなマージンで上回り、人間のベースラインとほぼ同等です。 ScanGAN360は、実際のユーザを模倣する多数の仮想オブザーバの高速なシミュレーションを可能にし、仮想シーン設計における視線行動と新しい応用の理解を深める。

Understanding and modeling the dynamics of human gaze behavior in 360$^\circ$ environments is a key challenge in computer vision and virtual reality. Generative adversarial approaches could alleviate this challenge by generating a large number of possible scanpaths for unseen images. Existing methods for scanpath generation, however, do not adequately predict realistic scanpaths for 360$^\circ$ images. We present ScanGAN360, a new generative adversarial approach to address this challenging problem. Our network generator is tailored to the specifics of 360$^\circ$ images representing immersive environments. Specifically, we accomplish this by leveraging the use of a spherical adaptation of dynamic-time warping as a loss function and proposing a novel parameterization of 360$^\circ$ scanpaths. The quality of our scanpaths outperforms competing approaches by a large margin and is almost on par with the human baseline. ScanGAN360 thus allows fast simulation of large numbers of virtual observers, whose behavior mimics real users, enabling a better understanding of gaze behavior and novel applications in virtual scene design.
翻訳日:2021-03-26 13:25:58 公開日:2021-03-25
# メモリ埋め込みによる深層コントラスト学習の再考

Rethinking Deep Contrastive Learning with Embedding Memory ( http://arxiv.org/abs/2103.14003v1 )

ライセンス: Link先を確認
Haozhi Zhang, Xun Wang, Weilin Huang, Matthew R. Scott(参考訳) ペアワイズ損失関数は広く研究され、dml(deep metric learning)のパフォーマンスを継続的に改善することが示されている。 しかし、それらは主に単純なおもちゃの例に基づく直感で設計されており、実世界の複雑なケースでは、真に効果的なデザインを実験的に識別することは困難である。 本稿では,様々な対方向損失関数の重み付け戦略を体系的に研究する新しい手法を提案し,埋め込みメモリを用いた重み付けを再考する。 重み付け機構をペアワイズ関数を分解して検討し,直接重み割り当てを用いて正負の重み付けを分離して検討する。 これにより、様々な重み付け関数を、重み曲線を通じて深く体系的に研究することができ、メモリベースのdmlにおける重要な観察結果となった、有意義で包括的で洞察に富んだ事実を多数特定できます。 これにより、重み付け方式を設計するための効率的だが驚くほど単純な規則となり、様々な高度な損失関数を設計して重み付けを慎重に設計する既存のミニバッチ方式とは大きく異なる。 最後に,3つの大規模ビジュアル検索ベンチマークについて広範な実験を行い,近年のミニバッチ方式よりもメモリベースDMLの方が優れていることを示す。

Pair-wise loss functions have been extensively studied and shown to continuously improve the performance of deep metric learning (DML). However, they are primarily designed with intuition based on simple toy examples, and experimentally identifying the truly effective design is difficult in complicated, real-world cases. In this paper, we provide a new methodology for systematically studying weighting strategies of various pair-wise loss functions, and rethink pair weighting with an embedding memory. We delve into the weighting mechanisms by decomposing the pair-wise functions, and study positive and negative weights separately using direct weight assignment. This allows us to study various weighting functions deeply and systematically via weight curves, and identify a number of meaningful, comprehensive and insightful facts, which come up with our key observation on memory-based DML: it is critical to mine hard negatives and discard easy negatives which are less informative and redundant, but weighting on positive pairs is not helpful. This results in an efficient but surprisingly simple rule to design the weighting scheme, making it significantly different from existing mini-batch based methods which design various sophisticated loss functions to weight pairs carefully. Finally, we conduct extensive experiments on three large-scale visual retrieval benchmarks, and demonstrate the superiority of memory-based DML over recent mini-batch based approaches, by using a simple contrastive loss with momentum-updated memory.
翻訳日:2021-03-26 13:25:40 公開日:2021-03-25
# 深ブラインド画像超解像のための実用的劣化モデルの設計

Designing a Practical Degradation Model for Deep Blind Image Super-Resolution ( http://arxiv.org/abs/2103.14006v1 )

ライセンス: Link先を確認
Kai Zhang, Jingyun Liang, Luc Van Gool, Radu Timofte(参考訳) 単一画像のスーパーレゾリューション (sisr) 法は, 推定劣化モデルが実画像から逸脱した場合はうまく機能しないと広く認識されている。 いくつかの劣化モデルは、ぼやけなどの追加要因を考慮に入れているが、実際の画像の多様な劣化をカバーできるほど効果がない。 そこで本稿では, ランダムにシャッフルされたボウ, ダウンサンプリング, ノイズ劣化からなる, より複雑で実用的な劣化モデルを提案する。 具体的には、ボウを等方性と異方性のあるガウス核を持つ2つの畳み込みにより近似し、最寄り、双線形及びバイキュビック補間からランダムにサンプリングし、ノイズを異なるノイズレベルのガウスノイズを加え、異なる品質要因でJPEG圧縮を適用し、逆向きカメラ画像信号処理(ISP)パイプラインモデルとRAW画像ノイズモデルにより処理されたカメラセンサノイズを生成する。 新しい劣化モデルの有効性を検証するため,我々は深部ブラインドESRGANスーパーリゾルバを訓練し,様々な劣化を伴う合成画像と実画像の両方の超リゾルバに応用した。 実験結果から, 新しい劣化モデルにより, ディープ・スーパーリゾルバの実用性を大幅に向上させることができることがわかった。

It is widely acknowledged that single image super-resolution (SISR) methods would not perform well if the assumed degradation model deviates from those in real images. Although several degradation models take additional factors into consideration, such as blur, they are still not effective enough to cover the diverse degradations of real images. To address this issue, this paper proposes to design a more complex but practical degradation model that consists of randomly shuffled blur, downsampling and noise degradations. Specifically, the blur is approximated by two convolutions with isotropic and anisotropic Gaussian kernels; the downsampling is randomly chosen from nearest, bilinear and bicubic interpolations; the noise is synthesized by adding Gaussian noise with different noise levels, adopting JPEG compression with different quality factors, and generating processed camera sensor noise via reverse-forward camera image signal processing (ISP) pipeline model and RAW image noise model. To verify the effectiveness of the new degradation model, we have trained a deep blind ESRGAN super-resolver and then applied it to super-resolve both synthetic and real images with diverse degradations. The experimental results demonstrate that the new degradation model can help to significantly improve the practicability of deep super-resolvers, thus providing a powerful alternative solution for real SISR applications.
翻訳日:2021-03-26 13:25:16 公開日:2021-03-25
# トランスフォーマーを用いた高忠実度多元性画像補完

High-Fidelity Pluralistic Image Completion with Transformers ( http://arxiv.org/abs/2103.14031v1 )

ライセンス: Link先を確認
Ziyu Wan and Jingbo Zhang and Dongdong Chen and Jing Liao(参考訳) 画像補完は、強力なテクスチャモデリング能力のため、畳み込みニューラルネットワーク(CNN)で大幅に進歩した。 しかし、いくつかの固有の性質(例えば、局所帰納前、空間不変カーネルなど)のため、CNNはグローバル構造を理解したり、多元的完備化を自然にサポートしない。 近年、変換器は長期的な関係をモデル化し、様々な結果を生成する能力を示しているが、計算の複雑さは入力長に2次的であるため、高解像度画像処理の応用を妨げている。 本稿では, トランスフォーマーによる外観先行復元とcnnによるテクスチャ補足という多元的画像補完に, 両世界のベストをもたらす。 前者は粗いテクスチャとともに多元的コヒーレント構造を復元し、後者のCNNは高分解能マスク画像によって導かれる粗い前の局所的なテクスチャの詳細を強化する。 提案手法は,(1)決定論的補完法と比較して画像忠実度が大幅に向上する,2)多元的補完に対する多様性と高い忠実度,3)大規模マスクと汎用データセットに対する例外的な一般化能力,の3つの点で最先端手法を大きく上回っている。

Image completion has made tremendous progress with convolutional neural networks (CNNs), because of their powerful texture modeling capacity. However, due to some inherent properties (e.g., local inductive prior, spatial-invariant kernels), CNNs do not perform well in understanding global structures or naturally support pluralistic completion. Recently, transformers demonstrate their power in modeling the long-term relationship and generating diverse results, but their computation complexity is quadratic to input length, thus hampering the application in processing high-resolution images. This paper brings the best of both worlds to pluralistic image completion: appearance prior reconstruction with transformer and texture replenishment with CNN. The former transformer recovers pluralistic coherent structures together with some coarse textures, while the latter CNN enhances the local texture details of coarse priors guided by the high-resolution masked images. The proposed method vastly outperforms state-of-the-art methods in terms of three aspects: 1) large performance boost on image fidelity even compared to deterministic completion methods; 2) better diversity and higher fidelity for pluralistic completion; 3) exceptional generalization ability on large masks and generic dataset, like ImageNet.
翻訳日:2021-03-26 13:24:48 公開日:2021-03-25
# 知的エッセイスコアリングとフィードバックシステムに関するエンジニアリング--経験報告

Engineering an Intelligent Essay Scoring and Feedback System: An Experience Report ( http://arxiv.org/abs/2103.13590v1 )

ライセンス: Link先を確認
Akriti Chadda, Kelly Song, Raman Chandrasekar, Ian Gorton(参考訳) 人工知能(AI) / 機械学習(ML)ベースのシステムは、コアビジネスサービスの自動化と拡張を可能にする商用ソリューションとして広く求められている。 インテリジェントシステムは提供されたサービスの品質を改善し、自動化によるスケーラビリティをサポートする。 本稿では,特別採用支援サービスの顧客から提供されたエッセイの品質評価のための探索システムの設計経験について述べる。 問題領域は、オープンエンドの顧客供給のソーステキストが曖昧さとエラーに対してかなりのスコープを持っているため、分析のモデルの構築が難しいため、困難である。 また、インテリジェントな処理システムに専門的なビジネスドメインの知識を組み込む必要もあります。 これらの課題に対処するため、クラウドベースの機械学習モデルを試行し、それらをアプリケーション固有の処理パイプラインに構成しました。 この設計により、より多くのデータと改良された技術が利用可能になると、基礎となるアルゴリズムの変更が可能になる。 すなわち、モデルの品質管理を確認し、ソフトウェアをテストし、計算に高価なMLモデルをクラウドにデプロイすることです。

Artificial Intelligence (AI) / Machine Learning (ML)-based systems are widely sought-after commercial solutions that can automate and augment core business services. Intelligent systems can improve the quality of services offered and support scalability through automation. In this paper we describe our experience in engineering an exploratory system for assessing the quality of essays supplied by customers of a specialized recruitment support service. The problem domain is challenging because the open-ended customer-supplied source text has considerable scope for ambiguity and error, making models for analysis hard to build. There is also a need to incorporate specialized business domain knowledge into the intelligent processing systems. To address these challenges, we experimented with and exploited a number of cloud-based machine learning models and composed them into an application-specific processing pipeline. This design allows for modification of the underlying algorithms as more data and improved techniques become available. We describe our design, and the main challenges we faced, namely keeping a check on the quality control of the models, testing the software and deploying the computationally expensive ML models on the cloud.
翻訳日:2021-03-26 13:23:24 公開日:2021-03-25
# 空間フィルタ型てんかん性ECoGにおける波形の探索

Searching for waveforms on spatially-filtered epileptic ECoG ( http://arxiv.org/abs/2103.13853v1 )

ライセンス: Link先を確認
Carlos H. Mendoza-Cardenas and Austin J. Brockmeier(参考訳) シーズーレはてんかん患者において決定的な症状の1つであり、未発表の症状のため、患者に深刻な危険を及ぼす可能性がある。 新しい研究は差し迫った発作の予測と先延ばしに有望な未来を示しており、これらの取り組みにより、発作予測アルゴリズムに広範囲で多様な機能セットが提案されている。 しかし、発作予測のための非正弦波波形のデータ駆動による発見は、神経振動の波形形態と脳の生理・病態との密接な関係を示す最近の研究と対照的に、特にてんかん患者のてんかん患者の脳電図(ECoG)記録における正常な振動と異常な振動とを効果的に識別するために用いられる文献に欠けている。 本稿では,空間計画型連続マルチデイECoGデータセットにおける拡張性,エネルギー誘導型波形探索手法について検討する。 我々の研究は、データ駆動波形学習法が、発作予測の予測力に寄与するだけでなく、発作の病態や病因の理解に寄与する振動パターンの発見を促進する可能性があることを示唆している。

Seizures are one of the defining symptoms in patients with epilepsy, and due to their unannounced occurrence, they can pose a severe risk for the individual that suffers it. New research efforts are showing a promising future for the prediction and preemption of imminent seizures, and with those efforts, a vast and diverse set of features have been proposed for seizure prediction algorithms. However, the data-driven discovery of nonsinusoidal waveforms for seizure prediction is lacking in the literature, which is in stark contrast with recent works that show the close connection between the waveform morphology of neural oscillations and the physiology and pathophysiology of the brain, and especially its use in effectively discriminating between normal and abnormal oscillations in electrocorticographi c (ECoG) recordings of epileptic patients. Here, we explore a scalable, energy-guided waveform search strategy on spatially-projected continuous multi-day ECoG data sets. Our work shows that data-driven waveform learning methods have the potential to not only contribute features with predictive power for seizure prediction, but also to facilitate the discovery of oscillatory patterns that could contribute to our understanding of the pathophysiology and etiology of seizures.
翻訳日:2021-03-26 13:22:48 公開日:2021-03-25
# エッジデバイスのためのフォワードパスによるインクリメンタルトレーニング

Enabling Incremental Training with Forward Pass for Edge Devices ( http://arxiv.org/abs/2103.14007v1 )

ライセンス: Link先を確認
Dana AbdulQader, Shoba Krishnan, Claudionor N. Coelho Jr(参考訳) ディープニューラルネットワーク(DNN)は、常に変化する環境に存在するエンドデバイスに一般的にデプロイされる。 システムの精度を維持するためには、ネットワークの一部を再トレーニングすることで変更に適応し、回復できることが重要である。 しかし、エンドデバイスはリソースが限られており、同じデバイスでトレーニングすることは困難である。 さらに、深層ニューラルネットワークのトレーニングは、バックプロパゲーションアルゴリズムによるメモリと計算集約の両方である。 本稿では,進化戦略(ES)を用いてネットワークを部分的に再トレーニングし,エラー発生後に変更に適応し,回復できるようにする手法を提案する。 この技術は、バックプロパゲーションを必要とせず、最小限のリソースオーバーヘッドで推論専用ハードウェアのトレーニングを可能にする。 我々は,入力にノイズを注入した後,量子化されたMNISTニューラルネットワークを再学習する手法を実証する。 さらに,HLS4ML(推論ハードウェアアーキテクチャ)のトレーニングを可能とし,Verilogで実装するために必要なマイクロアーキテクチャを提案する。 我々は,xilinx kintex ultrascale field programmable gate array (fpga)の実装を合成し,インクリメンタルトレーニングを実現するために必要なリソース利用率を1%以下に抑えた。

Deep Neural Networks (DNNs) are commonly deployed on end devices that exist in constantly changing environments. In order for the system to maintain it's accuracy, it is critical that it is able to adapt to changes and recover by retraining parts of the network. However, end devices have limited resources making it challenging to train on the same device. Moreover, training deep neural networks is both memory and compute intensive due to the backpropagation algorithm. In this paper we introduce a method using evolutionary strategy (ES) that can partially retrain the network enabling it to adapt to changes and recover after an error has occurred. This technique enables training on an inference-only hardware without the need to use backpropagation and with minimal resource overhead. We demonstrate the ability of our technique to retrain a quantized MNIST neural network after injecting noise to the input. Furthermore, we present the micro-architecture required to enable training on HLS4ML (an inference hardware architecture) and implement it in Verilog. We synthesize our implementation for a Xilinx Kintex Ultrascale Field Programmable Gate Array (FPGA) resulting in less than 1% resource utilization required to implement the incremental training.
翻訳日:2021-03-26 13:22:24 公開日:2021-03-25
# 医用画像を用いた腫瘍部分領域解析における人工知能

Artificial Intelligence in Tumor Subregion Analysis Based on Medical Imaging: A Review ( http://arxiv.org/abs/2103.13588v1 )

ライセンス: Link先を確認
Mingquan Lin, Jacob Wynne, Yang Lei, Tonghe Wang, Walter J. Curran, Tian Liu, Xiaofeng Yang(参考訳) 医用画像はがんの診断や治療に広く使われており、人工知能(AI)は医療画像解析の様々なタスクで大きな成功を収めている。 本稿では,医療画像におけるAIを用いた腫瘍サブリージョン解析についてレビューする。 腫瘍領域解析のための最新のAIベースの手法とその応用について要約する。 具体的には、AIベースの手法をトレーニング戦略によって分類する。 各カテゴリの詳細なレビューが提示され、重要な貢献と成果が強調されている。 腫瘍亜領域解析における具体的な課題と潜在的なAI応用について論じる。

Medical imaging is widely used in cancer diagnosis and treatment, and artificial intelligence (AI) has achieved tremendous success in various tasks of medical image analysis. This paper reviews AI-based tumor subregion analysis in medical imaging. We summarize the latest AI-based methods for tumor subregion analysis and their applications. Specifically, we categorize the AI-based methods by training strategy: supervised and unsupervised. A detailed review of each category is presented, highlighting important contributions and achievements. Specific challenges and potential AI applications in tumor subregion analysis are discussed.
翻訳日:2021-03-26 13:21:49 公開日:2021-03-25
# 乱流のデータ駆動閉包のための構造的ディープカーネルネットワーク

Structured Deep Kernel Networks for Data-Driven Closure Terms of Turbulent Flows ( http://arxiv.org/abs/2103.13655v1 )

ライセンス: Link先を確認
Tizian Wenzel, Marius Kurz, Andrea Beck, Gabriele Santin, Bernard Haasdonk(参考訳) 機械学習の標準的なカーネルメソッドは通常、大規模なデータセットを扱う際に苦労する。 本稿では,高次元および大規模データセットを処理可能な構造的深層カーネルネットワーク(sdkn)アプローチについて検討し,一般的な機械学習近似特性を享受する。 SDKNを拡張して、標準的な機械学習モジュールと組み合わせて、乱流のクロージャ項のデータ駆動予測の科学的課題について、ニューラルネットワークと比較する。 実験により、SDKNは大きなデータセットを処理でき、与えられたアプリケーションに対してほぼ完璧な精度を達成できることを示した。

Standard kernel methods for machine learning usually struggle when dealing with large datasets. We review a recently introduced Structured Deep Kernel Network (SDKN) approach that is capable of dealing with high-dimensional and huge datasets - and enjoys typical standard machine learning approximation properties. We extend the SDKN to combine it with standard machine learning modules and compare it with Neural Networks on the scientific challenge of data-driven prediction of closure terms of turbulent flows. We show experimentally that the SDKNs are capable of dealing with large datasets and achieve near-perfect accuracy on the given application.
翻訳日:2021-03-26 13:21:13 公開日:2021-03-25
# runge-kuttaニューラルネットワークによるモデルオーダーの削減

Model Order Reduction based on Runge-Kutta Neural Network ( http://arxiv.org/abs/2103.13805v1 )

ライセンス: Link先を確認
Qinyu Zhuang, Juan Manuel Lorenzi, Hans-Joachim Bungartz, Dirk Hartmann(参考訳) モデルオーダリダクション(mor)メソッドは、リアルタイム対応可能なデジタルツインの生成を可能にし、業界におけるさまざまな新しいバリューストリームを可能にする。 従来のプロジェクションベースの手法は線形問題に対して堅牢で正確であるが、非線形性に機械学習を組み込むことは、複雑な問題を減らすための新しい選択肢となっている。 通常は2つの段階からなる。 第1段階は投影法により次元を縮小し,第2段階はニューラルネットワークによるモデル再構成である。 本研究は,両ステップの修正をそれぞれ適用し,3つのシミュレーションモデルによるテストによってどのように影響を受けるかを検討する。 いずれの場合も、適切な直交分解(POD)は次元の減少に使用される。 このステップでは、一定の入力パラメータで入力スナップショットデータベースを生成する効果を、時間依存の入力パラメータと比較する。 モデル再構成ステップでは,多層パーセプトロン (mlp) とrunge-kuttaニューラルネットワーク (rknn) の2種類のニューラルネットワークアーキテクチャを比較した。 MLPはシステム状態を直接学習し、RKNNはシステム状態の微分を学習し、新しい状態をRunge-Kutta積分器として予測する。

Model Order Reduction (MOR) methods enable the generation of real-time-capable digital twins, which can enable various novel value streams in industry. While traditional projection-based methods are robust and accurate for linear problems, incorporating Machine Learning to deal with nonlinearity becomes a new choice for reducing complex problems. Such methods usually consist of two steps. The first step is dimension reduction by projection-based method, and the second is the model reconstruction by Neural Network. In this work, we apply some modifications for both steps respectively and investigate how they are impacted by testing with three simulation models. In all cases Proper Orthogonal Decomposition (POD) is used for dimension reduction. For this step, the effects of generating the input snapshot database with constant input parameters is compared with time-dependent input parameters. For the model reconstruction step, two types of neural network architectures are compared: Multilayer Perceptron (MLP) and Runge-Kutta Neural Network (RKNN). The MLP learns the system state directly while RKNN learns the derivative of system state and predicts the new state as a Runge-Kutta integrator.
翻訳日:2021-03-26 13:21:03 公開日:2021-03-25
# スペクトルCT多元分解のためのサブサンプリングニュートン法による正則化

Regularization by Denoising Sub-sampled Newton Method for Spectral CT Multi-Material Decomposition ( http://arxiv.org/abs/2103.13909v1 )

ライセンス: Link先を確認
Alessandro Perelli, Martin S. Andersen(参考訳) 分光CT(Spectral Computed Tomography)は、異なる光子エネルギースペクトルを利用して走査対象物中の基底物質の濃度を推定できる新興技術である。 本研究では,マルチマテリアル画像の再構成とスペクトルCTへの応用をモデルベースで効率的に行うことを目的とする。 特に,ランダム化二階法を用いて,プラグインイメージデオライズ関数に基づく正則化最適化問題を解くことを提案する。 確率関数のヘシアンのスケッチを用いてニュートンステップを近似することにより、データ駆動正規化器によって与えられる複雑な事前構造を維持しながら複雑さを低減できる。 我々は,非一様ブロックのヘッセン部分サンプリングを,ジャコビアンベクトル積のみを必要とする非コンパクトだが効率的な共役勾配更新で活用する。 最後に,スペクトルct材料の分解に関する数値的および実験的結果を示す。

Spectral Computed Tomography (CT) is an emerging technology that enables to estimate the concentration of basis materials within a scanned object by exploiting different photon energy spectra. In this work, we aim at efficiently solving a model-based maximum-a-posterior problem to reconstruct multi-materials images with application to spectral CT. In particular, we propose to solve a regularized optimization problem based on a plug-in image-denoising function using a randomized second order method. By approximating the Newton step using a sketching of the Hessian of the likelihood function, it is possible to reduce the complexity while retaining the complex prior structure given by the data-driven regularizer. We exploit a non-uniform block sub-sampling of the Hessian with inexact but efficient Conjugate gradient updates that require only Jacobian-vector products for denoising term. Finally, we show numerical and experimental results for spectral CT materials decomposition.
翻訳日:2021-03-26 13:20:44 公開日:2021-03-25
# 時間量子トモグラフィーの学習

Learning Temporal Quantum Tomography ( http://arxiv.org/abs/2103.13973v1 )

ライセンス: Link先を確認
Quoc Hoan Tran and Kohei Nakajima(参考訳) 量子状態の準備における制御レベルの定量化と検証は、量子デバイス構築における中心的な課題である。 量子状態は実験的な測定によって特徴づけられ、トモグラフィーと呼ばれる手順で大量の資源を必要とする。 さらに,時間処理を施した量子デバイスのトモグラフィは標準トモグラフィと根本的に異なるが,定式化されていない。 そこで本稿では,この興味深い状況に対する機械学習フレームワークを用いた実用的および近似トモグラフィー手法を提案する。 この方法は、量子状態の流れを持つ量子貯水池と呼ばれるシステム間の繰り返し量子相互作用に基づいている。 貯留層からの計測データは線形読み出しに接続され、入力ストリームに適用された量子チャネル間の繰り返し関係を訓練する。 量子学習タスクのためのアルゴリズムを実証し、その後、量子短期記憶容量を提案して、短期量子デバイスの時間的処理能力を評価する。

Quantifying and verifying the control level in preparing a quantum state are central challenges in building quantum devices. The quantum state is characterized from experimental measurements, using a procedure known as tomography, which requires a vast number of resources. Furthermore, the tomography for a quantum device with temporal processing, which is fundamentally different from the standard tomography, has not been formulated. We develop a practical and approximate tomography method using a recurrent machine learning framework for this intriguing situation. The method is based on repeated quantum interactions between a system called quantum reservoir with a stream of quantum states. Measurement data from the reservoir are connected to a linear readout to train a recurrent relation between quantum channels applied to the input stream. We demonstrate our algorithms for quantum learning tasks followed by the proposal of a quantum short-term memory capacity to evaluate the temporal processing ability of near-term quantum devices.
翻訳日:2021-03-26 13:20:29 公開日:2021-03-25
# Wasserstein 終端コストを考慮した確率線形系の離散時間共分散ステアリングの凸性について

On the Convexity of Discrete Time Covariance Steering in Stochastic Linear Systems with Wasserstein Terminal Cost ( http://arxiv.org/abs/2103.13579v1 )

ライセンス: Link先を確認
Isin M. Balci, Abhishek Halder, Efstathios Bakolas(参考訳) 本研究では,二乗ワッサースタイン距離端末コストを持つ離散時間ガウス線形系の共分散ステアリング問題に対する解の性質を分析する。 本稿では,状態フィードバック制御ポリシのパラメータ化を利用して,この確率的最適制御問題を凸関数プログラムの差に関連付けることができることを示した。 ここでは,同じ共分散制御問題を再検討するが,今回は問題の解析に注目する。 具体的には、最適化問題に対する解の存在を確立し、最適性の第一および第二次条件を導出する。 本稿では,行列計算の特殊ツールを用いて,性能指標の勾配とヘシアンの解析式を提供する。 その後、最適化問題は常に大域最小化を許容し、最後に、性能指標が厳密な凸関数となる十分な条件を提供する(後者の条件では、問題は一意の大域最小化を許容する)。 特に、l\"{o}wner部分順序に関して端末状態共分散が上界である場合、所望の端末正規分布の共分散行列により、この問題は一意な大域的最小化状態フィードバックゲインを与える。 本研究は, 共分散ステアリング問題に対する解の構造を二乗ワッサーシュタイン距離終端コストで利用した, 特殊制御設計ツールの開発に向けての段階を定めている。

In this work, we analyze the properties of the solution to the covariance steering problem for discrete time Gaussian linear systems with a squared Wasserstein distance terminal cost. In our previous work, we have shown that by utilizing the state feedback control policy parametrization, this stochastic optimal control problem can be associated with a difference of convex functions program. Here, we revisit the same covariance control problem but this time we focus on the analysis of the problem. Specifically, we establish the existence of solutions to the optimization problem and derive the first and second order conditions for optimality. We provide analytic expressions for the gradient and the Hessian of the performance index by utilizing specialized tools from matrix calculus. Subsequently, we prove that the optimization problem always admits a global minimizer, and finally, we provide a sufficient condition for the performance index to be a strictly convex function (under the latter condition, the problem admits a unique global minimizer). In particular, we show that when the terminal state covariance is upper bounded, with respect to the L\"{o}wner partial order, by the covariance matrix of the desired terminal normal distribution, then our problem admits a unique global minimizing state feedback gain. The results of this paper set the stage for the development of specialized control design tools that exploit the structure of the solution to the covariance steering problem with a squared Wasserstein distance terminal cost.
翻訳日:2021-03-26 13:20:16 公開日:2021-03-25
# (参考訳) Meta-DETR:Unified Image-Level Meta-LearningによるFew-Shotオブジェクト検出 [全文訳有]

Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning ( http://arxiv.org/abs/2103.11731v2 )

ライセンス: CC BY-SA 4.0
Gongjie Zhang, Zhipeng Luo, Kaiwen Cui, Shijian Lu(参考訳) 少数の注釈付き例でのみ、新規な物体を検出することを目的としている。 従来の研究は、メタラーニングが有望な解決策であることを証明しており、そのほとんどは、分類と位置の微調整のために、地域にわたってメタラーニングによる検出に対処している。 しかし、これらの手法は、初期よく配置された地域の提案に実質的に依存しており、これは通常、少数の設定では入手が困難である。 本稿では,領域的予測を排除し,画像レベルでのメタ学習オブジェクトの局所化と分類を統一的かつ補完的に行うメタ検出フレームワークMeta-DETRを提案する。 具体的には、まずサポートとクエリの両方をカテゴリ固有の機能にエンコードし、次にカテゴリに依存しないデコーダに入力して、特定のカテゴリの予測を直接生成する。 ディープネットワークを用いたメタ学習を容易にするために,高レベルかつ低レベルの特徴意味論を整合させ,メタ学習表現の一般化を改善する,単純かつ効果的な意味的アライメント機構(sam)を設計した。 複数の数ショットのオブジェクト検出ベンチマーク実験により、Meta-DETRは最先端の手法よりも大きなマージンで優れていることが示された。

Few-shot object detection aims at detecting novel objects with only a few annotated examples. Prior works have proved meta-learning a promising solution, and most of them essentially address detection by meta-learning over regions for their classification and location fine-tuning. However, these methods substantially rely on initially well-located region proposals, which are usually hard to obtain under the few-shot settings. This paper presents a novel meta-detector framework, namely Meta-DETR, which eliminates region-wise prediction and instead meta-learns object localization and classification at image level in a unified and complementary manner. Specifically, it first encodes both support and query images into category-specific features and then feeds them into a category-agnostic decoder to directly generate predictions for specific categories. To facilitate meta-learning with deep networks, we design a simple but effective Semantic Alignment Mechanism (SAM), which aligns high-level and low-level feature semantics to improve the generalization of meta-learned representations. Experiments over multiple few-shot object detection benchmarks show that Meta-DETR outperforms state-of-the-art methods by large margins.
翻訳日:2021-03-26 12:43:53 公開日:2021-03-25
# (参考訳) セルフ・スーパーバイザード・プレトレーニングは自己スーパーバイザード・プレトレーニングを改善する [全文訳有]

Self-Supervised Pretraining Improves Self-Supervised Pretraining ( http://arxiv.org/abs/2103.12718v2 )

ライセンス: CC BY 4.0
Colorado J. Reed and Xiangyu Yue and Ani Nrusimha and Sayna Ebrahimi and Vivek Vijaykumar and Richard Mao and Bo Li and Shanghang Zhang and Devin Guillory and Sean Metzger and Kurt Keutzer and Trevor Darrell(参考訳) 自己教師付き事前訓練は多くのコンピュータビジョンタスクに有益であることが証明されているが、高価で長い計算と大量のデータを必要とし、データ拡張に敏感である。 以前の研究では、imagenetでトレーニングされた胸部x線モデルやスクラッチからトレーニングされたアンダーパーフォームモデルなど、ターゲットデータと異なるデータセットで事前トレーニングされたモデルが示されている。 事前トレーニングするリソースを持たないユーザは、パフォーマンスの低い既存のモデルを使用する必要がある。 本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。 16種類の視覚データセットを実験することにより、HPTは最大80倍の速度で収束し、タスク間の精度を向上し、自己教師付き事前学習プロセスの堅牢性を改善し、画像強化ポリシーや事前学習データの量を変更する。 HPTは計算資源の少ないより優れた事前訓練された表現を得るためのシンプルなフレームワークを提供する。

While self-supervised pretraining has proven beneficial for many computer vision tasks, it requires expensive and lengthy computation, large amounts of data, and is sensitive to data augmentation. Prior work demonstrates that models pretrained on datasets dissimilar to their target data, such as chest X-ray models trained on ImageNet, underperform models trained from scratch. Users that lack the resources to pretrain must use existing models with lower performance. This paper explores Hierarchical PreTraining (HPT), which decreases convergence time and improves accuracy by initializing the pretraining process with an existing pretrained model. Through experimentation on 16 diverse vision datasets, we show HPT converges up to 80x faster, improves accuracy across tasks, and improves the robustness of the self-supervised pretraining process to changes in the image augmentation policy or amount of pretraining data. Taken together, HPT provides a simple framework for obtaining better pretrained representations with less computational resources.
翻訳日:2021-03-26 12:25:13 公開日:2021-03-25
# (参考訳) 変数の連立の共有価値はより良い説明を提供する [全文訳有]

The Shapley Value of coalition of variables provides better explanations ( http://arxiv.org/abs/2103.13342v2 )

ライセンス: CC BY 4.0
Salim I. Amoukou, Nicolas J-B. Brunel, Tangi Sala\"un(参考訳) 共有値(SV)は、機械学習モデルを解釈するための金の標準の1つであるが、特に分類変数の存在や重要性の低い変数の存在において、まだ理解されていないことを示す。 例えば、ダミー変数のSVを和らげるという一般的な慣行は、モデル内のすべてのSVの間違った推定を提供し、刺激的な解釈を示唆するので、偽であることを示す。 nullとアクティブな連立の識別とsvの連立バージョンに基づいて、重要な変数の正しい計算と推論を提供する。 さらに、pythonライブラリ(すべての実験とシミュレーションは、公開ライブラリ \emph{active coalition of variables} https://github.com/a cvicml/acv)で再現でき、ツリーベースのモデルで確実に条件付き期待値とsvを計算する。

While Shapley Values (SV) are one of the gold standard for interpreting machine learning models, we show that they are still poorly understood, in particular in the presence of categorical variables or of variables of low importance. For instance, we show that the popular practice that consists in summing the SV of dummy variables is false as it provides wrong estimates of all the SV in the model and implies spurious interpretations. Based on the identification of null and active coalitions, and a coalitional version of the SV, we provide a correct computation and inference of important variables. Moreover, a Python library (All the experiments and simulations can be reproduced with the publicly available library \emph{Active Coalition of Variables} https://github.com/a cvicml/ACV) that computes reliably conditional expectations and SV for tree-based models, is implemented and compared with state-of-the-art algorithms on toy models and real data sets.
翻訳日:2021-03-26 11:59:46 公開日:2021-03-25
# (参考訳) Fr'echetタスク距離によるニューラルアーキテクチャ検索 [全文訳有]

Neural Architecture Search From Fr\'echet Task Distance ( http://arxiv.org/abs/2103.12827v2 )

ライセンス: CC BY 4.0
Cat P. Le, Mohammadreza Soltani, Robert Ravier, Trevor Standley, Silvio Savarese, Vahid Tarokh(参考訳) 我々はFr'echet型非対称距離をフィッシャー情報行列に基づいて定式化する。 対象タスクと与えられたベースラインタスクの集合における各タスク間の距離が、対象タスクのニューラルアーキテクチャ探索スペースを減らすためにどのように使用できるかを示す。 タスク固有のアーキテクチャに対する検索空間の複雑さの低減は、このサイド情報を用いることなく完全な検索を行う代わりに、類似したタスクのために最適化されたアーキテクチャ上に構築することで達成される。 実験の結果,提案手法の有効性と最新手法の改善が示された。

We formulate a Fr\'echet-type asymmetric distance between tasks based on Fisher Information Matrices. We show how the distance between a target task and each task in a given set of baseline tasks can be used to reduce the neural architecture search space for the target task. The complexity reduction in search space for task-specific architectures is achieved by building on the optimized architectures for similar tasks instead of doing a full search without using this side information. Experimental results demonstrate the efficacy of the proposed approach and its improvements over the state-of-the-art methods.
翻訳日:2021-03-26 11:27:13 公開日:2021-03-25
# BERT-based Post-Editing による代名詞の修復

Repairing Pronouns in Translation with BERT-Based Post-Editing ( http://arxiv.org/abs/2103.12838v2 )

ライセンス: Link先を確認
Reid Pryzant, Melvin Johnson, Hideto Kazawa(参考訳) 名詞はテキストの意味の重要な決定要因であるが、翻訳が難しい。 これは、代名詞の選択が前の文で記述されたエンティティに依存することができ、一部の言語では、参照が文脈から推測できないときに代名詞をドロップできるためである。 これらの問題は、神経機械翻訳(NMT)システムに、不明瞭さを損なうこと、さらには性バイアスを補強する代名詞に重大なエラーを与える可能性がある。 本稿では,(1)一部の領域において,代名詞選択がnmtシステムの誤差の半分以上を占めること,(2)代名詞が認識される翻訳品質に不釣り合いに大きな影響を与えること,など,代名詞問題の重大性について検討する。 提案手法は,情報源側文のチャンクを用いて代名詞予測タスクを微調整し,その結果の分類器を用いて既存のNMTモデルの翻訳を修復する。 日本語と英語のペアに対して,この手法の最初の事例研究を行い,人間の評価値によって少数の翻訳が著しく改善されていることを観察した。

Pronouns are important determinants of a text's meaning but difficult to translate. This is because pronoun choice can depend on entities described in previous sentences, and in some languages pronouns may be dropped when the referent is inferrable from the context. These issues can lead Neural Machine Translation (NMT) systems to make critical errors on pronouns that impair intelligibility and even reinforce gender bias. We investigate the severity of this pronoun issue, showing that (1) in some domains, pronoun choice can account for more than half of a NMT systems' errors, and (2) pronouns have a disproportionately large impact on perceived translation quality. We then investigate a possible solution: fine-tuning BERT on a pronoun prediction task using chunks of source-side sentences, then using the resulting classifier to repair the translations of an existing NMT model. We offer an initial case study of this approach for the Japanese-English language pair, observing that a small number of translations are significantly improved according to human evaluators.
翻訳日:2021-03-26 11:02:44 公開日:2021-03-25
# MetaSAug: 長期視覚認識のためのメタセマンティック拡張

MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2103.12579v2 )

ライセンス: Link先を確認
Shuang Li, Kaixiong Gong, Chi Harold Liu, Yulin Wang, Feng Qiao, Xinjing Cheng(参考訳) 実世界のトレーニングデータは、通常、多くのクラスが残りのマイノリティクラスよりもかなり多くのサンプルを持つロングテール分布を示す。 この不均衡は、バランスの取れたトレーニングセット用に設計された典型的な教師付き学習アルゴリズムの性能を劣化させる。 本稿では,最近提案された暗黙的意味データ拡張 (ISDA) アルゴリズムを用いてマイノリティクラスを拡大することでこの問題に対処する。 さらに,isdaが意味的指示を得るためにクラス条件統計を推定していることを考えると,訓練データ不足のためマイノリティクラスでこれを行うのに効果がないことがわかった。 そこで本稿では,メタ学習で意味の変換を自動学習する手法を提案する。 具体的には、トレーニング中の強化戦略を動的に最適化し、メタ更新ステップによって近似される小さなバランスの取れた検証セットの損失を最小限に抑える。 CIFAR-LT-10/100, ImageNet-LT, iNaturalist 2017/2018の広範な実験結果から, 本手法の有効性が検証された。

Real-world training data usually exhibits long-tailed distribution, where several majority classes have a significantly larger number of samples than the remaining minority classes. This imbalance degrades the performance of typical supervised learning algorithms designed for balanced training sets. In this paper, we address this issue by augmenting minority classes with a recently proposed implicit semantic data augmentation (ISDA) algorithm, which produces diversified augmented samples by translating deep features along many semantically meaningful directions. Importantly, given that ISDA estimates the class-conditional statistics to obtain semantic directions, we find it ineffective to do this on minority classes due to the insufficient training data. To this end, we propose a novel approach to learn transformed semantic directions with meta-learning automatically. In specific, the augmentation strategy during training is dynamically optimized, aiming to minimize the loss on a small balanced validation set, which is approximated via a meta update step. Extensive empirical results on CIFAR-LT-10/100, ImageNet-LT, and iNaturalist 2017/2018 validate the effectiveness of our method.
翻訳日:2021-03-26 11:02:26 公開日:2021-03-25
# DRO:Structure-from-M otionのためのディープリカレント最適化

DRO: Deep Recurrent Optimizer for Structure-from-Motio n ( http://arxiv.org/abs/2103.13201v2 )

ライセンス: Link先を確認
Xiaodong Gu, Weihao Yuan, Zuozhuo Dai, Siyu Zhu, Chengzhou Tang, Ping Tan(参考訳) sfm(structure-from-m otion)問題を機械学習技術で研究する関心が高まっている。 より最近の研究では、画像から深度マップやカメラポーズへのマッピングを直接学習する一方で、学習フレームワークに最適化を組み込んだマルチビュー幾何が適用されている。 本稿では、SfMにおけるニューラルネットワークの可能性をさらに活用するために、リカレントニューラルネットワークに基づく新しい最適化手法を提案する。 私たちのニューラルオプティマイザは奥行きを更新し、カメラはイテレーションを通じて機能測定コストを最小化します。 2つのゲートリカレントユニットは、イテレーション中に履歴情報を追跡するように設計されている。 我々のネットワークはゼロ階最適化として機能し、計算とメモリコストのかかるボリュームや勾配を避ける。 実験により, 繰り返しオプティマイザは, 深度とポーズを改良しながら, 機能測定コストを効果的に低減できることを示した。 提案手法は従来の手法より優れており,コストボリューム法よりも計算とメモリ消費が効率的である。 私たちのメソッドのコードは公開されます。

There are increasing interests of studying the structure-from-motio n (SfM) problem with machine learning techniques. While earlier methods directly learn a mapping from images to depth maps and camera poses, more recent works enforce multi-view geometry through optimization embed in the learning framework. This paper presents a novel optimization method based on recurrent neural networks to further exploit the potential of neural networks in SfM. Our neural optimizer alternatively updates the depth and camera poses through iterations to minimize a feature-metric cost. Two gated recurrent units are designed to trace the historical information during the iterations. Our network works as a zeroth-order optimizer, where the computation and memory expensive cost volume or gradients are avoided. Experiments demonstrate that our recurrent optimizer effectively reduces the feature-metric cost while refining the depth and poses. Our method outperforms previous methods and is more efficient in computation and memory consumption than cost-volume-based methods. The code of our method will be made public.
翻訳日:2021-03-26 11:02:06 公開日:2021-03-25
# シーケンス学習による音声認識誤りの幻覚

Hallucination of speech recognition errors with sequence to sequence learning ( http://arxiv.org/abs/2103.12258v2 )

ライセンス: Link先を確認
Prashant Serai and Vishal Sunder and Eric Fosler-Lussier(参考訳) 自動音声認識 (Automatic Speech Recognition, ASR) は、プレーンテキストや文字起こしと比較して、ASR出力テキストのミスマッチを生じる不完全なプロセスである。 平易なテキストデータが音声言語理解システム(ASR)の訓練に使用される場合、そのミスマッチを減らし劣化を防ぐための実証された戦略は、ASRの出力に金の転写を与えることを幻覚させることである。 このドメインでの以前の作業は、音韻レベルでのエラーのモデル化に重点を置いており、レキシコンを使用して携帯電話を単語に変換する。 本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。 これにより、ドメイン内ASRシステムの未確認データの書き起こしによるエラーのリコールや、非関連タスクからのドメイン外ASRシステムのオーディオの書き起こしから、さらにテストASRシステムからの限られた特徴データが取得可能な場合の中間シナリオを探索する。 また,本手法の非本質的妥当性を検証するため,音声質問分類器の訓練に幻覚的ASR誤りを用いることで,列車時間帯にタスク固有の音声が不足あるいはゼロであった場合に,下流タスクにおける実際のASR誤りに対してロバスト性を実現することを確認した。

Automatic Speech Recognition (ASR) is an imperfect process that results in certain mismatches in ASR output text when compared to plain written text or transcriptions. When plain text data is to be used to train systems for spoken language understanding or ASR, a proven strategy to reduce said mismatch and prevent degradations, is to hallucinate what the ASR outputs would be given a gold transcription. Prior work in this domain has focused on modeling errors at the phonetic level, while using a lexicon to convert the phones to words, usually accompanied by an FST Language model. We present novel end-to-end models to directly predict hallucinated ASR word sequence outputs, conditioning on an input word sequence as well as a corresponding phoneme sequence. This improves prior published results for recall of errors from an in-domain ASR system's transcription of unseen data, as well as an out-of-domain ASR system's transcriptions of audio from an unrelated task, while additionally exploring an in-between scenario when limited characterization data from the test ASR system is obtainable. To verify the extrinsic validity of the method, we also use our hallucinated ASR errors to augment training for a spoken question classifier, finding that they enable robustness to real ASR errors in a downstream task, when scarce or even zero task-specific audio was available at train-time.
翻訳日:2021-03-26 11:01:51 公開日:2021-03-25
# 3次元変換群のタンジェント空間バックプロパゲーション

Tangent Space Backpropagation for 3D Transformation Groups ( http://arxiv.org/abs/2103.12032v2 )

ライセンス: Link先を確認
Zachary Teed and Jia Deng(参考訳) 本稿では,3次元変換群so(3),se(3),sim(3)を含む計算グラフに対してバックプロパゲーションを行う問題に対処する。 3d変換群は3dビジョンやロボティクスで広く使われているが、ベクトル空間を形成しず滑らかな多様体の上に横たわっている。 ユークリッド空間に3d変換を組み込む標準的なバックプロパゲーションアプローチは、数値的な困難に苦しむ。 3次元変換の群構造を利用し、多様体の接空間においてバックプロパゲーションを行う新しいライブラリを紹介する。 我々のアプローチは数値的に安定しており、実装が容易であり、様々なタスクに有益であることを示している。 私たちのPyTorchライブラリはhttps://github.com/p rinceton-vl/lietorch .comで利用可能です。

We address the problem of performing backpropagation for computation graphs involving 3D transformation groups SO(3), SE(3), and Sim(3). 3D transformation groups are widely used in 3D vision and robotics, but they do not form vector spaces and instead lie on smooth manifolds. The standard backpropagation approach, which embeds 3D transformations in Euclidean spaces, suffers from numerical difficulties. We introduce a new library, which exploits the group structure of 3D transformations and performs backpropagation in the tangent spaces of manifolds. We show that our approach is numerically more stable, easier to implement, and beneficial to a diverse set of tasks. Our plug-and-play PyTorch library is available at https://github.com/p rinceton-vl/lietorch .
翻訳日:2021-03-26 11:01:25 公開日:2021-03-25