このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210329となっている論文です。

PDF登録状況(公開日: 20210329)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) RealCause: リアルな因果推論ベンチマーク

RealCause: Realistic Causal Inference Benchmarking ( http://arxiv.org/abs/2011.15007v2 )

ライセンス: CC BY 4.0
Brady Neal, Chin-Wei Huang, Sunand Raghupathi(参考訳) 因果推論には多くの異なる因果効果推定器がある。 しかし、因果効果の根拠がないため、これらの推定器のどちらを選択するかは定かではない。 一般的に用いられる選択肢は、地上構造が知られている合成データをシミュレートすることである。 しかし、合成データに対する最良の因果推定器は、実際のデータに対する最良の因果推定器にはならない。 因果推定器の理想的なベンチマークは、(a)因果効果の基底真理値と(b)実データを表すものである。 フレキシブル・ジェネレーティブ・モデルを用いて、地道と現実性の両方をもたらすベンチマークを提供する。 このベンチマークを用いて,1500以上の因果推定値を評価し,予測指標を用いて因果推定値のハイパーパラメータを選択することが合理的であることを示す。

There are many different causal effect estimators in causal inference. However, it is unclear how to choose between these estimators because there is no ground-truth for causal effects. A commonly used option is to simulate synthetic data, where the ground-truth is known. However, the best causal estimators on synthetic data are unlikely to be the best causal estimators on real data. An ideal benchmark for causal estimators would both (a) yield ground-truth values of the causal effects and (b) be representative of real data. Using flexible generative models, we provide a benchmark that both yields ground-truth and is realistic. Using this benchmark, we evaluate over 1500 different causal estimators and provide evidence that it is rational to choose hyperparameters for causal estimators using predictive metrics.
翻訳日:2021-06-07 00:00:38 公開日:2021-03-29
# (参考訳) 身近な物体検出を自己改善するMove [全文訳有]

Move to See Better: Self-Improving Embodied Object Detection ( http://arxiv.org/abs/2012.00057v2 )

ライセンス: CC BY 4.0
Zhaoyuan Fang, Ayush Jain, Gabriel Sarch, Adam W. Harley, Katerina Fragkiadaki(参考訳) オブジェクト検出とセグメンテーションのためのパッシブメソッドは、個々のサンプルと同じシーンの画像を扱い、複数のビューにまたがるオブジェクトの永続性を活用しない。 したがって、新しい視点や難しい視点への一般化には、多くのアノテーションによる追加のトレーニングが必要である。 対照的に、人間は単に動き回ることで物体を認識し、より情報的な視点を得る。 本稿では,事前学習した2次元物体検出装置を組み込んだ組込み剤を前提として,テスト環境における物体検出の改善手法を提案する。 エージェントはマルチビューデータを収集し、2dおよび3dの擬似ラベルを生成し、その検出器を自己教師付きで微調整する。 多視点RGB-Dデータから高品質な2Dと3Dの擬似ラベルを得る実験,(2)擬似ラベルを用いた微調整はテスト環境において著しく改善し,(3)擬似ラベルを用いた3D検出器のトレーニングは従来よりも大きなマージンで,(4)弱監督下では新規オブジェクトに対してより良い擬似ラベルを生成することができた。

Passive methods for object detection and segmentation treat images of the same scene as individual samples and do not exploit object permanence across multiple views. Generalization to novel or difficult viewpoints thus requires additional training with lots of annotations. In contrast, humans often recognize objects by simply moving around, to get more informative viewpoints. In this paper, we propose a method for improving object detection in testing environments, assuming nothing but an embodied agent with a pre-trained 2D object detector. Our agent collects multi-view data, generates 2D and 3D pseudo-labels, and fine-tunes its detector in a self-supervised manner. Experiments on both indoor and outdoor datasets show that (1) our method obtains high-quality 2D and 3D pseudo-labels from multi-view RGB-D data; (2) fine-tuning with these pseudo-labels improves the 2D detector significantly in the test environment; (3) training a 3D detector with our pseudo-labels outperforms a prior self-supervised method by a large margin; (4) given weak supervision, our method can generate better pseudo-labels for novel objects.
翻訳日:2021-06-06 20:18:26 公開日:2021-03-29
# クロスMPI:マルチプレーン画像を用いた画像超解像のためのクロススケールステレオ

Cross-MPI: Cross-scale Stereo for Image Super-Resolution using Multiplane Images ( http://arxiv.org/abs/2011.14631v2 )

ライセンス: Link先を確認
Yuemei Zhou, Gaochang Wu, Ying Fu, Kun Li, Yebin Liu(参考訳) 様々なカメラの組み合わせは、参照ベースのスーパーレゾリューション(refsr)がマルチスケールイメージングシステムにおいて重要な役割を果たす計算写真を強化する。 しかし、既存のRefSRアプローチは、例えば8倍のアップスケーリングのような大きな解像度ギャップの下で高忠実度超解を達成できない。 本稿では,マルチプレーン画像(MPI)表現にインスパイアされた実際のマルチスケールカメラシステムにおけるRefSR問題を解決することを目的とする。 具体的には、新しい平面認識型MPI機構、マルチスケールガイドアップサンプリングモジュール、超高分解能(SR)合成および融合モジュールからなるエンドツーエンドのRefSRネットワークであるCross-MPIを提案する。 平面認識型アテンション機構は,クロススケールステレオ間の直接的かつ徹底的なマッチングを利用する代わりに,隠れたシーン構造を有効活用し,効率的なアテンションベース対応検索を行う。 さらに, 粗さから細かな誘導アップサンプリング戦略と組み合わせることで, 提案するクロスmpiはロバストで高精度なディテール伝送を実現することができる。 デジタル合成および光ズームクロススケールデータによる実験結果から,Cross-MPIフレームワークは既存のRefSR方式よりも優れた性能を達成でき,大規模な差があっても実際のマルチスケールカメラシステムに適していることが示された。

Various combinations of cameras enrich computational photography, among which reference-based superresolution (RefSR) plays a critical role in multiscale imaging systems. However, existing RefSR approaches fail to accomplish high-fidelity super-resolution under a large resolution gap, e.g., 8x upscaling, due to the lower consideration of the underlying scene structure. In this paper, we aim to solve the RefSR problem in actual multiscale camera systems inspired by multiplane image (MPI) representation. Specifically, we propose Cross-MPI, an end-to-end RefSR network composed of a novel plane-aware attention-based MPI mechanism, a multiscale guided upsampling module as well as a super-resolution (SR) synthesis and fusion module. Instead of using a direct and exhaustive matching between the cross-scale stereo, the proposed plane-aware attention mechanism fully utilizes the concealed scene structure for efficient attention-based correspondence searching. Further combined with a gentle coarse-to-fine guided upsampling strategy, the proposed Cross-MPI can achieve a robust and accurate detail transmission. Experimental results on both digitally synthesized and optical zoom cross-scale data show that the Cross-MPI framework can achieve superior performance against the existing RefSR methods and is a real fit for actual multiscale camera systems even with large-scale differences.
翻訳日:2021-06-06 14:48:00 公開日:2021-03-29
# 深い意味的テンプレートマッピングを用いた車両の再構築とテクスチャ推定

Vehicle Reconstruction and Texture Estimation Using Deep Implicit Semantic Template Mapping ( http://arxiv.org/abs/2011.14642v2 )

ライセンス: Link先を確認
Xiaochen Zhao, Zerong Zheng, Chaonan Ji, Zhenyi Liu, Siyou Lin, Tao Yu, Jinli Suo, Yebin Liu(参考訳) 実世界の街路環境において,無条件単眼入力から車両の3次元形状とテクスチャを復元する有効なソリューションであるvertexを紹介する。 車両に先立つテンプレートを十分に活用するために,暗黙的な意味的テンプレートマッピングに基づく新しい幾何とテクスチャのジョイント表現を提案する。 3次元テクスチャ分布を推定する既存の表現と比較して,テンプレートの2次元面上のテクスチャ分布を明示的に制限し,固定解像度やトポロジーの制限を回避する。 さらに、グローバルとローカルの機能を組み合わせることで、可視領域と不可視領域の両方において、一貫性と詳細なテクスチャを生成することができる。 また,シャープなキーポイントでラベル付けされた830個の精巧なテクスチャカーモデルを含む新しい合成データセットを,HDRIスカイマップを用いた物理ベースレンダリング(PBRT)システムで作成し,高リアルな画像を得る。 実験は、我々のアプローチの優れた性能を、テストデータセットと地中画像の両方で実証した。 さらに, 3次元車両のテクスチャ伝達や材料同定などの付加的な応用が可能となった。

We introduce VERTEX, an effective solution to recover 3D shape and intrinsic texture of vehicles from uncalibrated monocular input in real-world street environments. To fully utilize the template prior of vehicles, we propose a novel geometry and texture joint representation, based on implicit semantic template mapping. Compared to existing representations which infer 3D texture distribution, our method explicitly constrains the texture distribution on the 2D surface of the template as well as avoids limitations of fixed resolution and topology. Moreover, by fusing the global and local features together, our approach is capable to generate consistent and detailed texture in both visible and invisible areas. We also contribute a new synthetic dataset containing 830 elaborate textured car models labeled with sparse key points and rendered using Physically Based Rendering (PBRT) system with measured HDRI skymaps to obtain highly realistic images. Experiments demonstrate the superior performance of our approach on both testing dataset and in-the-wild images. Furthermore, the presented technique enables additional applications such as 3D vehicle texture transfer and material identification.
翻訳日:2021-06-06 14:47:34 公開日:2021-03-29
# 一般化可能な人物再同定のためのメタバッチインスタンス正規化

Meta Batch-Instance Normalization for Generalizable Person Re-Identification ( http://arxiv.org/abs/2011.14670v2 )

ライセンス: Link先を確認
Seokeon Choi, Taekyung Kim, Minki Jeong, Hyoungseob Park, Changick Kim(参考訳) 監視された人物再同定法(re-id法)は印象的な性能を示したが、見当たらない領域での一般化能力に乏しい。 そのため、一般化可能なRe-IDは近年注目を集めている。 多くの既存手法では、スタイルのバリエーションを減らすためにインスタンス正規化技術を採用しているが、識別情報の喪失は避けられなかった。 本稿ではメタバッチインスタンス正規化(MetaBIN)と呼ばれる新しい一般化可能なRe-IDフレームワークを提案する。 我々の主な考えは、メタラーニングパイプラインにおいて、前もって失敗した一般化シナリオをシミュレートすることで正規化レイヤを一般化することである。 この目的のために、学習可能なバッチインスタンス正規化層とメタラーニングを組み合わせることで、バッチおよびインスタンス正規化層の両方によって引き起こされる困難なケースを調査する。 さらに,我々のメタトレイン損失による仮想シミュレーションを,一般化能力を高めるために,周期的内部更新方式で多様化する。 結局のところ、MetaBINフレームワークは、我々のモデルが与えられたソーススタイルに過度に適合することを防ぎ、追加のデータ拡張や複雑なネットワーク設計なしに、ドメインを見えないように一般化能力を向上させる。 大規模なドメイン一般化Re-IDベンチマークとクロスドメインRe-ID問題において,本モデルが最先端の手法より優れていることを示す。 ソースコードはhttps://github.com/b ismex/metabin.com/。

Although supervised person re-identification (Re-ID) methods have shown impressive performance, they suffer from a poor generalization capability on unseen domains. Therefore, generalizable Re-ID has recently attracted growing attention. Many existing methods have employed an instance normalization technique to reduce style variations, but the loss of discriminative information could not be avoided. In this paper, we propose a novel generalizable Re-ID framework, named Meta Batch-Instance Normalization (MetaBIN). Our main idea is to generalize normalization layers by simulating unsuccessful generalization scenarios beforehand in the meta-learning pipeline. To this end, we combine learnable batch-instance normalization layers with meta-learning and investigate the challenging cases caused by both batch and instance normalization layers. Moreover, we diversify the virtual simulations via our meta-train loss accompanied by a cyclic inner-updating manner to boost generalization capability. After all, the MetaBIN framework prevents our model from overfitting to the given source styles and improves the generalization capability to unseen domains without additional data augmentation or complicated network design. Extensive experimental results show that our model outperforms the state-of-the-art methods on the large-scale domain generalization Re-ID benchmark and the cross-domain Re-ID problem. The source code is available at: https://github.com/b ismex/MetaBIN.
翻訳日:2021-06-06 14:46:16 公開日:2021-03-29
# 変分量子計算のための自然進化戦略

Natural Evolutionary Strategies for Variational Quantum Computation ( http://arxiv.org/abs/2012.00101v2 )

ライセンス: Link先を確認
Abhinav Anand, Matthias Degroote, and Al\'an Aspuru-Guzik(参考訳) 自然進化戦略 (NES) は勾配のないブラックボックス最適化アルゴリズムの一群である。 本研究は、無作為初期化パラメトリ化量子回路(pqcs)の消失勾配領域における最適化への応用を示す。 nes勾配推定器を用いて, 分散の指数的減少を緩和できることを示す。 pqcのパラメータ最適化のために指数的および分離可能な自然進化戦略を実装し、それらを標準勾配降下と比較する。 変分量子固有ソルバ(vqe)を用いた基底状態エネルギー推定と、深さと長さの異なる回路による状態形成の2つの異なる問題に適用する。 また、より深度の高い回路に対するバッチ最適化を導入し、より多くのパラメータへの進化戦略の利用を拡大する。 回路評価の少ない全てのケースにおいて、最先端の最適化手法に匹敵する精度を実現する。 実験結果から,nes を他の勾配に基づく手法と組み合わせたハイブリッドツールとして用いることができ,勾配が消失する領域における深い量子回路の最適化が可能となった。

Natural evolutionary strategies (NES) are a family of gradient-free black-box optimization algorithms. This study illustrates their use for the optimization of randomly-initialized parametrized quantum circuits (PQCs) in the region of vanishing gradients. We show that using the NES gradient estimator the exponential decrease in variance can be alleviated. We implement two specific approaches, the exponential and separable natural evolutionary strategies, for parameter optimization of PQCs and compare them against standard gradient descent. We apply them to two different problems of ground state energy estimation using variational quantum eigensolver (VQE) and state preparation with circuits of varying depth and length. We also introduce batch optimization for circuits with larger depth to extend the use of evolutionary strategies to a larger number of parameters. We achieve accuracy comparable to state-of-the-art optimization techniques in all the above cases with a lower number of circuit evaluations. Our empirical results indicate that one can use NES as a hybrid tool in tandem with other gradient-based methods for optimization of deep quantum circuits in regions with vanishing gradients.
翻訳日:2021-06-06 14:28:03 公開日:2021-03-29
# max-deeplab:マスクトランスフォーマーによるエンドツーエンドのパンオプティカルセグメンテーション

MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers ( http://arxiv.org/abs/2012.00759v2 )

ライセンス: Link先を確認
Huiyu Wang, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen(参考訳) パン光学セグメンテーションのための最初のエンドツーエンドモデルであるMaX-DeepLabを提案する。 当社のアプローチは,サブタスクのサロゲートや,ボックス検出や非最大抑制,モノスタフマージなど,手設計のコンポーネントに大きく依存する現在のパイプラインを単純化する。 これらのサブタスクは、エリアの専門家によって取り組まれているが、ターゲットタスクを包括的に解決することができない。 対照的に、max-deeplabは、マスクトランスフォーマーでクラスラベルのマスクを直接予測し、二部マッチングによってパンオプティカル品質にインスパイアされた損失をトレーニングします。 マスクトランスでは,CNNパスに加えてグローバルメモリパスを導入し,任意のCNNレイヤとの直接通信を可能にするデュアルパスアーキテクチャを採用している。 結果として、MaX-DeepLabは、挑戦的なCOCOデータセット上で、ボックスベースとボックスフリーメソッド間のギャップを初めて埋める、ボックスフリーなレシエーションにおいて、重要な7.1%のPQゲインを示している。 MaX-DeepLabの小さなバージョンでは、同じようなパラメータとM-AddsでDETR上のPQが3.0%向上している。 さらに、MaX-DeepLabはテスト時間を増やすことなく、COCOテストデブセット上で新しい最先端の51.3% PQを達成する。

We present MaX-DeepLab, the first end-to-end model for panoptic segmentation. Our approach simplifies the current pipeline that depends heavily on surrogate sub-tasks and hand-designed components, such as box detection, non-maximum suppression, thing-stuff merging, etc. Although these sub-tasks are tackled by area experts, they fail to comprehensively solve the target task. By contrast, our MaX-DeepLab directly predicts class-labeled masks with a mask transformer, and is trained with a panoptic quality inspired loss via bipartite matching. Our mask transformer employs a dual-path architecture that introduces a global memory path in addition to a CNN path, allowing direct communication with any CNN layers. As a result, MaX-DeepLab shows a significant 7.1% PQ gain in the box-free regime on the challenging COCO dataset, closing the gap between box-based and box-free methods for the first time. A small variant of MaX-DeepLab improves 3.0% PQ over DETR with similar parameters and M-Adds. Furthermore, MaX-DeepLab, without test time augmentation, achieves new state-of-the-art 51.3% PQ on COCO test-dev set.
翻訳日:2021-05-30 19:44:31 公開日:2021-03-29
# (参考訳) $DA^3$:Dep Additive Attention Adaption for Memory-Efficient On-Device Multi-Domain Learning [全文訳有]

$DA^3$: Deep Additive Attention Adaption for Memory-Efficient On-Device Multi-Domain Learning ( http://arxiv.org/abs/2012.01362v2 )

ライセンス: CC BY 4.0
Li Yang, Adnan Siraj Rakin and Deliang Fan(参考訳) 現在、ディープニューラルネットワーク(DNN)の実用的な制限の一つは、単一のタスクまたはドメイン(例えば1つの視覚領域)への高度な特殊化である。 これは、研究者がdnnモデルを複数のドメインに順次適用できるアルゴリズムを開発する動機付けであり、また、マルチドメイン学習として知られる過去のドメインでもうまく機能する。 ほとんどすべての従来の手法は、最小限のパラメータ更新による精度の向上にのみフォーカスするが、トレーニング中に高いコンピューティングとメモリコストを無視しているため、携帯電話やIoT、組み込みシステムなど、より広く使用されているリソース制限エッジデバイスにマルチドメイン学習をデプロイすることは不可能である。 マルチドメイントレーニングにおいて、アクティベーションストレージに使用される大きなメモリが、エッジデバイスのトレーニング時間とコストを大幅に制限するボトルネックであることを観察した。 本研究では、領域適応精度を維持しつつ、トレーニングメモリ使用量を削減するため、メモリ制限エッジデバイスへのドメイン適応の実現を目的とした、新しいメモリ効率のオンデバイス学習手法であるDeep Additive Attention Adaptionを提案する。 デバイス上でのトレーニング中のメモリ消費を減らすため、$DA^3$はトレーニング済みのバックボーンモデルの重量を凍結する(つまり、後方伝播中にアクティベーション機能を格納する必要がない)。 さらに,メモリ効率を向上させるために,アクティベーションメモリバッファリングを回避するために設計された新しいアテンションアテンション・アダプタモジュールを学習することにより,適応精度の向上を図る。 複数のデータセット上で$da^3$を検証することにより,精度とトレーニング時間の両方において優れた改善が得られた。

Nowadays, one practical limitation of deep neural network (DNN) is its high degree of specialization to a single task or domain (e.g., one visual domain). It motivates researchers to develop algorithms that can adapt DNN model to multiple domains sequentially, meanwhile still performing well on the past domains, which is known as multi-domain learning. Almost all conventional methods only focus on improving accuracy with minimal parameter update, while ignoring high computing and memory cost during training, which makes it impossible to deploy multi-domain learning into more and more widely used resource-limited edge devices, like mobile phone, IoT, embedded system, etc. During our study in multi-domain training, we observe that large memory used for activation storage is the bottleneck that largely limits the training time and cost on edge devices. To reduce training memory usage, while keeping the domain adaption accuracy performance, in this work, we propose Deep Additive Attention Adaption, a novel memory-efficient on-device multi-domain learning method, aiming to achieve domain adaption on memory-limited edge devices. To reduce the training memory consumption during on-device training, $DA^3$ freezes the weights of the pre-trained backbone model (i.e., no need to store activation features during backward propagation). Furthermore, to improve the adaption accuracy performance, we propose to improve the model capacity by learning a novel additive attention adaptor module, which is also designed to avoid activation memory buffering for improving memory efficiency. We validate $DA^3$ on multiple datasets against state-of-the-art methods, which shows good improvement in both accuracy and training time.
翻訳日:2021-05-30 05:23:36 公開日:2021-03-29
# TediGAN: テキストガイドによる横顔画像生成と操作

TediGAN: Text-Guided Diverse Face Image Generation and Manipulation ( http://arxiv.org/abs/2012.03308v3 )

ライセンス: Link先を確認
Weihao Xia and Yujiu Yang and Jing-Hao Xue and Baoyuan Wu(参考訳) 本研究では,マルチモーダル画像生成とテキスト記述による操作のための新しいフレームワークであるTediGANを提案する。 提案手法は,StyleGANインバージョンモジュール,視覚言語的類似性学習,インスタンスレベルの最適化の3つのコンポーネントから構成される。 反転モジュールは、よく訓練されたStyleGANの潜在空間に実画像をマッピングする。 視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。 インスタンスレベルの最適化は、操作におけるアイデンティティの保存である。 われわれのモデルは、1024で前例のない解像度で、多様で高品質な画像を生成できる。 スタイルミキシングに基づく制御機構を用いて、私たちのTediGANは本質的に、スケッチやセマンティックラベルなどのマルチモーダル入力による画像合成をインスタンスガイダンスの有無でサポートしています。 テキスト誘導型マルチモーダル合成を容易にするために,実顔画像と対応する意味セグメンテーションマップ,スケッチ,テキスト記述からなる大規模データセットであるマルチモーダルceleba-hqを提案する。 導入したデータセットに関する広範囲な実験により,提案手法の優れた性能を示す。 コードとデータはhttps://github.com/w eihaox/tedigan.comで入手できる。

In this work, we propose TediGAN, a novel framework for multi-modal image generation and manipulation with textual descriptions. The proposed method consists of three components: StyleGAN inversion module, visual-linguistic similarity learning, and instance-level optimization. The inversion module maps real images to the latent space of a well-trained StyleGAN. The visual-linguistic similarity learns the text-image matching by mapping the image and text into a common embedding space. The instance-level optimization is for identity preservation in manipulation. Our model can produce diverse and high-quality images with an unprecedented resolution at 1024. Using a control mechanism based on style-mixing, our TediGAN inherently supports image synthesis with multi-modal inputs, such as sketches or semantic labels, with or without instance guidance. To facilitate text-guided multi-modal synthesis, we propose the Multi-Modal CelebA-HQ, a large-scale dataset consisting of real face images and corresponding semantic segmentation map, sketch, and textual descriptions. Extensive experiments on the introduced dataset demonstrate the superior performance of our proposed method. Code and data are available at https://github.com/w eihaox/TediGAN.
翻訳日:2021-05-21 14:01:16 公開日:2021-03-29
# 神経力学:深層学習力学における対称性と破壊保存則

Neural Mechanics: Symmetry and Broken Conservation Laws in Deep Learning Dynamics ( http://arxiv.org/abs/2012.04728v2 )

ライセンス: Link先を確認
Daniel Kunin, Javier Sagastuy-Brena, Surya Ganguli, Daniel L.K. Yamins, Hidenori Tanaka(参考訳) トレーニング中のニューラルネットワークパラメータのダイナミクスを理解することは、ディープラーニングの理論基盤を構築する上で重要な課題のひとつだ。 中心的な障害は、高次元パラメータ空間におけるネットワークの運動が、実世界のデータセットから導かれる複素確率勾配に沿って離散有限ステップを成すことである。 我々は、任意のデータセットに存在しているネットワークアーキテクチャに埋め込まれた本質的な対称性に基づく統一理論フレームワークによって、この障害を回避する。 そのような対称性が勾配とヘッセンに厳密な幾何学的制約を課すことを示し、ネーターの物理学の定理に類似した確率勾配降下(SGD)の連続時間極限における関連する保存則を導いた。 さらに, 有限学習速度は, この対称性誘導保存則を破ることができることを示した。 有限差分法を用いて,有限学習速度でのsgdによる数値軌道を近似する微分方程式である修正勾配流の導出を行う。 修正勾配流と対称性の枠組みを組み合わせることで、特定のパラメータの組み合わせの力学に対する正確な積分式を導出する。 我々は,Tiny ImageNetで訓練したVGG-16の動的学習のための解析式を実証的に検証した。 全体として、対称性を活用することで、任意のデータセットでトレーニングされたアートアーキテクチャの状態に対して、有限学習率とバッチサイズで様々なパラメータの組み合わせの学習ダイナミクスを解析的に記述できることを示す。

Understanding the dynamics of neural network parameters during training is one of the key challenges in building a theoretical foundation for deep learning. A central obstacle is that the motion of a network in high-dimensional parameter space undergoes discrete finite steps along complex stochastic gradients derived from real-world datasets. We circumvent this obstacle through a unifying theoretical framework based on intrinsic symmetries embedded in a network's architecture that are present for any dataset. We show that any such symmetry imposes stringent geometric constraints on gradients and Hessians, leading to an associated conservation law in the continuous-time limit of stochastic gradient descent (SGD), akin to Noether's theorem in physics. We further show that finite learning rates used in practice can actually break these symmetry induced conservation laws. We apply tools from finite difference methods to derive modified gradient flow, a differential equation that better approximates the numerical trajectory taken by SGD at finite learning rates. We combine modified gradient flow with our framework of symmetries to derive exact integral expressions for the dynamics of certain parameter combinations. We empirically validate our analytic expressions for learning dynamics on VGG-16 trained on Tiny ImageNet. Overall, by exploiting symmetry, our work demonstrates that we can analytically describe the learning dynamics of various parameter combinations at finite learning rates and batch sizes for state of the art architectures trained on any dataset.
翻訳日:2021-05-16 21:33:08 公開日:2021-03-29
# 訓練を伴わない深部生成モデルの公正性向上

Improving the Fairness of Deep Generative Models without Retraining ( http://arxiv.org/abs/2012.04842v2 )

ライセンス: Link先を確認
Shuhan Tan, Yujun Shen, Bolei Zhou(参考訳) GAN(Generative Adversarial Networks)は、観測データの基盤となる分布を学習して顔合成を進める。 高品質な生成顔にもかかわらず、一部の少数グループはバイアス画像生成プロセスのために訓練されたモデルから生成されることはほとんどない。 本研究は,まず,事前学習した顔合成モデルに関する実証的研究を行う。 我々は、GANモデルをトレーニングした後、トレーニングデータにバイアスを持つだけでなく、画像生成プロセスのある程度の増幅も行うことを観察した。 画像生成の公平性をさらに高めるために,出力された顔属性を再訓練することなくバランスをとるための解釈可能なベースライン手法を提案する。 提案手法は, サンプルの多様性を維持しつつ, よりバランスの取れた画像生成のために, 潜在空間における解釈可能な意味分布をシフトする。 特定の属性(例えば、人種、性別など)に関するよりバランスのとれたデータを生成すること。 本手法は,複数の属性を一度に処理し,細粒度サブグループのサンプルを合成できる。 さらに,ganからサンプリングしたバランスデータの正適用性を示し,商用顔属性分類器や顔超解像アルゴリズムなど,他の顔認識システムにおけるバイアスを定量化する。

Generative Adversarial Networks (GANs) advance face synthesis through learning the underlying distribution of observed data. Despite the high-quality generated faces, some minority groups can be rarely generated from the trained models due to a biased image generation process. To study the issue, we first conduct an empirical study on a pre-trained face synthesis model. We observe that after training the GAN model not only carries the biases in the training data but also amplifies them to some degree in the image generation process. To further improve the fairness of image generation, we propose an interpretable baseline method to balance the output facial attributes without retraining. The proposed method shifts the interpretable semantic distribution in the latent space for a more balanced image generation while preserving the sample diversity. Besides producing more balanced data regarding a particular attribute (e.g., race, gender, etc.), our method is generalizable to handle more than one attribute at a time and synthesize samples of fine-grained subgroups. We further show the positive applicability of the balanced data sampled from GANs to quantify the biases in other face recognition systems, like commercial face attribute classifiers and face super-resolution algorithms.
翻訳日:2021-05-16 02:15:58 公開日:2021-03-29
# 話す前に見る:視覚的にコンテキスト化された発話

Look Before you Speak: Visually Contextualized Utterances ( http://arxiv.org/abs/2012.05710v2 )

ライセンス: Link先を確認
Paul Hongsuck Seo, Arsha Nagrani, Cordelia Schmid(参考訳) ほとんどの会話型AIシステムはテキスト対話のみに重点を置いているが、視覚的コンテキスト(利用可能であれば)に条件付けする発話は、より現実的な会話につながる可能性がある。 残念ながら、会話の対話に視覚的なコンテキストを組み込む大きな課題は、大規模なラベル付きデータセットの欠如である。 我々は、新しい視覚条件付きFuture Utterance Predictionタスクの形でソリューションを提供する。 我々の課題は、ビデオの次の発話を予測することであり、視覚的フレームと書き起こされた音声を文脈として使用する。 オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。 近年のマルチモーダル学習の進歩を生かして,本モデルは,新しいマルチモーダルビデオトランスフォーマーによって構成され,テキストと視覚の両方でトレーニングされた場合,テキスト入力のみを使用するベースラインよりも優れる。 さらに,本稿では,MSRVTT-QA,MSVD-QA,A ctivityNet-QA,How2QA など,多数のダウンストリームビデオQAベンチマークにおいて,この課題に対するトレーニングを行った。

While most conversational AI systems focus on textual dialogue only, conditioning utterances on visual context (when it's available) can lead to more realistic conversations. Unfortunately, a major challenge for incorporating visual context into conversational dialogue is the lack of large-scale labeled datasets. We provide a solution in the form of a new visually conditioned Future Utterance Prediction task. Our task involves predicting the next utterance in a video, using both visual frames and transcribed speech as context. By exploiting the large number of instructional videos online, we train a model to solve this task at scale, without the need for manual annotations. Leveraging recent advances in multimodal learning, our model consists of a novel co-attentional multimodal video transformer, and when trained on both textual and visual context, outperforms baselines that use textual inputs alone. Further, we demonstrate that our model trained for this task on unlabelled videos achieves state-of-the-art performance on a number of downstream VideoQA benchmarks such as MSRVTT-QA, MSVD-QA, ActivityNet-QA and How2QA.
翻訳日:2021-05-15 06:12:36 公開日:2021-03-29
# メタ学習なしのセグメンテーション:良いトランスダクティブ推論は必要か?

Few-Shot Segmentation Without Meta-Learning: A Good Transductive Inference Is All You Need? ( http://arxiv.org/abs/2012.06166v2 )

ライセンス: Link先を確認
Malik Boudiaf, Hoel Kervadec, Ziko Imtiaz Masud, Pablo Piantanida, Ismail Ben Ayed, Jose Dolz(参考訳) 数ショットのセグメンテーションタスクにおける推論の実行方法がパフォーマンスに重大な影響を与えていることが、メタラーニングパラダイムを支持する文献でしばしば見過ごされる側面であることを示している。 与えられたクエリ画像に対するトランスダクティブ推論を導入し、ラベル付きサポート画素のクロスエントロピー(i)ラベル付きクエリイメージ画素の後方のシャノンエントロピー(i)予測されたフォアグラウンドの比率に基づくグローバルKL分割正規化器(iii)という3つの補完的な用語を含む新たな損失を最適化する。 我々の推論では抽出した特徴の単純な線形分類器を用いており、その計算負荷は帰納的推論に匹敵するものであり、どんなベーストレーニングでも利用できる。 基礎クラスでの標準クロスエントロピートレーニングのみを使用して,エピソディックトレーニングを前倒ししにすることで,1-shotシナリオにおける標準ベンチマークの競争力が向上する。 PASCAL-5iでは,5ショットシナリオと10ショットシナリオにおいて,現状よりも5%,6%向上した。 さらに、異なるデータセットからベースクラスと新しいクラスを描画するドメインシフトを含む新しい設定を導入する。 提案手法は,このより現実的な環境で最高の性能を実現する。 私たちのコードはオンラインで無料で利用可能です。

We show that the way inference is performed in few-shot segmentation tasks has a substantial effect on performances -- an aspect often overlooked in the literature in favor of the meta-learning paradigm. We introduce a transductive inference for a given query image, leveraging the statistics of its unlabeled pixels, by optimizing a new loss containing three complementary terms: i) the cross-entropy on the labeled support pixels; ii) the Shannon entropy of the posteriors on the unlabeled query-image pixels; and iii) a global KL-divergence regularizer based on the proportion of the predicted foreground. As our inference uses a simple linear classifier of the extracted features, its computational load is comparable to inductive inference and can be used on top of any base training. Foregoing episodic training and using only standard cross-entropy training on the base classes, our inference yields competitive performances on standard benchmarks in the 1-shot scenarios. As the number of available shots increases, the gap in performances widens: on PASCAL-5i, our method brings about 5% and 6% improvements over the state-of-the-art, in the 5- and 10-shot scenarios, respectively. Furthermore, we introduce a new setting that includes domain shifts, where the base and novel classes are drawn from different datasets. Our method achieves the best performances in this more realistic setting. Our code is freely available online: https://github.com/m boudiaf/RePRI-for-Fe w-Shot-Segmentation.
翻訳日:2021-05-11 03:01:12 公開日:2021-03-29
# コンピュータビジョンモデルにおける教師付き自己指導型事前学習のためのロッキーティケット仮説

The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models ( http://arxiv.org/abs/2012.06908v2 )

ライセンス: Link先を確認
Tianlong Chen, Jonathan Frankle, Shiyu Chang, Sijia Liu, Yang Zhang, Michael Carbin, Zhangyang Wang(参考訳) コンピュータビジョンの世界は、古典的なImageNetによる事前トレーニングや、simCLRやMoCoといった自己教師型事前トレーニングなど、様々な事前訓練モデルに再び熱中している。 事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。 最近の研究では、トレーニング前の利点は巨大モデルの能力にあることが示唆されている。 事前トレーニングの後、トレーニング済みのモデルは、下流の転送可能性のために本当に大きく保たなければならないのでしょうか? 本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。 lthは、(ほぼ)スクラッチから分離してトレーニングできるが、それでもフルモデルのパフォーマンスに到達可能な、非常にスパースなサブネットワークを識別する。 我々は、LTHの範囲を広げ、同じ下流転送性能のコンピュータビジョンモデルにマッチングサブネットがまだ存在するかどうかを問う。 ImageNetの分類、simCLR、MoCoによって得られた全ての事前トレーニングされた重みから、マッチングされたサブネットワークを59.04%から96.48%の範囲で、複数の下流タスクに普遍的に転送することができ、完全な事前トレーニングされた重みよりもパフォーマンスが劣化しない。 さらに分析したところ、異なる事前学習から発見されたサブネットは、多様なマスク構造と摂動感度をもたらす傾向があることが明らかになった。 lthの中核的な観測はコンピュータビジョンの事前学習パラダイムに一般的に関係していると結論づけるが、場合によってはより繊細な議論が必要である。 コードと事前トレーニングされたモデルは、https://github.com/V ITA-Group/CV_LTH_Pre -trainingで利用可能になる。

The computer vision world has been re-gaining enthusiasm in various pre-trained models, including both classical ImageNet supervised pre-training and recently emerged self-supervised pre-training such as simCLR and MoCo. Pre-trained weights often boost a wide range of downstream tasks including classification, detection, and segmentation. Latest studies suggest that pre-training benefits from gigantic model capacity. We are hereby curious and ask: after pre-training, does a pre-trained model indeed have to stay large for its downstream transferability? In this paper, we examine supervised and self-supervised pre-trained models through the lens of the lottery ticket hypothesis (LTH). LTH identifies highly sparse matching subnetworks that can be trained in isolation from (nearly) scratch yet still reach the full models' performance. We extend the scope of LTH and question whether matching subnetworks still exist in pre-trained computer vision models, that enjoy the same downstream transfer performance. Our extensive experiments convey an overall positive message: from all pre-trained weights obtained by ImageNet classification, simCLR, and MoCo, we are consistently able to locate such matching subnetworks at 59.04% to 96.48% sparsity that transfer universally to multiple downstream tasks, whose performance see no degradation compared to using full pre-trained weights. Further analyses reveal that subnetworks found from different pre-training tend to yield diverse mask structures and perturbation sensitivities. We conclude that the core LTH observations remain generally relevant in the pre-training paradigm of computer vision, but more delicate discussions are needed in some cases. Codes and pre-trained models will be made available at: https://github.com/V ITA-Group/CV_LTH_Pre -training.
翻訳日:2021-05-10 05:21:23 公開日:2021-03-29
# Alpha-Refine:精密バウンディングボックス推定によるトラッキング性能の向上

Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation ( http://arxiv.org/abs/2012.06815v2 )

ライセンス: Link先を確認
Bin Yan, Xinyu Zhang, Dong Wang, Huchuan Lu, Xiaoyun Yang(参考訳) 視覚的物体追跡は, 対象物に対する境界ボックスを正確に推定することを目的としており, 変形や閉塞などの要因により難しい問題である。 最近の多くのトラッカーは、境界ボックス推定の質を改善するために多段階追跡戦略を採用している。 これらの手法はまずターゲットを粗く見つけ、次に次の段階で初期予測を洗練させる。 しかし、既存のアプローチは依然として精度が限られており、異なる段階のカップリングはメソッドの転送可能性を大幅に制限する。 本研究は,alpha-refine(ar)と呼ばれる新しい,フレキシブルで高精度な改良モジュールを提案し,ベーストラッカのボックス推定品質を大幅に向上させる。 一連の設計オプションを検討することで、改良を成功させる鍵は、詳細な空間情報を可能な限り抽出し、維持することにあると結論づける。 この原理に従い、Alpha-Refineは画素ワイド相関、コーナー予測ヘッド、補助マスクヘッドをコアコンポーネントとして採用する。 複数のベーストラッカーを用いたTrackingNet, LaSOT, GOT-10K, VOT2020ベンチマークの総合的な実験により, 提案手法は低レイテンシでベーストラッカーの性能を著しく向上させることが示された。 提案手法は、ARSiamRPN(AR強化SiamRPNpp)とARDiMP50(AR強化DiMP50)が良好な効率・精度のトレードオフを実現する一方、AR強化DiMPsuper(AR強化DiMP-super)はリアルタイムの速度で非常に競争力のある性能を発揮する。 コードと事前訓練されたモデルはhttps://github.com/M asterBin-IIAU/AlphaR efine.comで入手できる。

Visual object tracking aims to precisely estimate the bounding box for the given target, which is a challenging problem due to factors such as deformation and occlusion. Many recent trackers adopt the multiple-stage tracking strategy to improve the quality of bounding box estimation. These methods first coarsely locate the target and then refine the initial prediction in the following stages. However, existing approaches still suffer from limited precision, and the coupling of different stages severely restricts the method's transferability. This work proposes a novel, flexible, and accurate refinement module called Alpha-Refine (AR), which can significantly improve the base trackers' box estimation quality. By exploring a series of design options, we conclude that the key to successful refinement is extracting and maintaining detailed spatial information as much as possible. Following this principle, Alpha-Refine adopts a pixel-wise correlation, a corner prediction head, and an auxiliary mask head as the core components. Comprehensive experiments on TrackingNet, LaSOT, GOT-10K, and VOT2020 benchmarks with multiple base trackers show that our approach significantly improves the base trackers' performance with little extra latency. The proposed Alpha-Refine method leads to a series of strengthened trackers, among which the ARSiamRPN (AR strengthened SiamRPNpp) and the ARDiMP50 (ARstrengthened DiMP50) achieve good efficiency-precision trade-off, while the ARDiMPsuper (AR strengthened DiMP-super) achieves very competitive performance at a real-time speed. Code and pretrained models are available at https://github.com/M asterBin-IIAU/AlphaR efine.
翻訳日:2021-05-10 05:17:15 公開日:2021-03-29
# (参考訳) 大規模マルチエージェントロボット協調学習のためのオープンかつ拡張可能なコグニティブaiアーキテクチャ [全文訳有]

Towards open and expandable cognitive AI architectures for large-scale multi-agent human-robot collaborative learning ( http://arxiv.org/abs/2012.08174v2 )

ライセンス: CC BY 4.0
Georgios Th. Papadopoulos, Margherita Antona, Constantine Stephanidis(参考訳) Demonstration (LfD) からの学習は、効率的な認知ロボットシステムを構築するための最も堅牢な方法論の1つである。 すでに多くの研究成果が報告されているにもかかわらず、現在の技術課題には、マルチエージェント学習と長期的な自律性が含まれる。 この方向に向けて,オープンでスケーラブルで拡張可能なロボットシステムを大規模かつ複雑な環境に,信頼性の高い展開を可能にすることを目的とした,マルチエージェント型lfdロボット学習のための新しい認知アーキテクチャが導入された。 特に、設計されたアーキテクチャは、多人数のマルチロボット協調学習環境を実現するためのフェデレートラーニング(FL)ベースのフレームワークを確立することで、人工知能(AI)分野の最近の進歩を生かしている。 基本的な概念化は、ロボットプラットフォームのネットワークのエッジノードで動作する複数のAIを活用した認知プロセス(さまざまなロボットタスクの実装)を採用することに依存し、グローバルAIモデル(前述のロボットタスクの基盤)は、多数の人間とロボットのインタラクションインスタンスから情報をエレガントに組み合わせて、ネットワーク間でまとめて共有される。 Regarding pivotal novelties, the designed cognitive architecture a) introduces a new FL-based formalism that extends the conventional LfD learning paradigm to support large-scale multi-agent operational settings, b) elaborates previous FL-based self-learning robotic schemes so as to incorporate the human in the learning loop and c) consolidates the fundamental principles of FL with additional sophisticated AI-enabled learning methodologies for modelling the multi-level inter-dependencies among the robotic tasks. 提案フレームワークの適用性は,アジャイル生産ベースの臨界原料(crm)回収に関する実世界の産業ケーススタディの例を用いて説明されている。

Learning from Demonstration (LfD) constitutes one of the most robust methodologies for constructing efficient cognitive robotic systems. Despite the large body of research works already reported, current key technological challenges include those of multi-agent learning and long-term autonomy. Towards this direction, a novel cognitive architecture for multi-agent LfD robotic learning is introduced, targeting to enable the reliable deployment of open, scalable and expandable robotic systems in large-scale and complex environments. In particular, the designed architecture capitalizes on the recent advances in the Artificial Intelligence (AI) field, by establishing a Federated Learning (FL)-based framework for incarnating a multi-human multi-robot collaborative learning environment. The fundamental conceptualization relies on employing multiple AI-empowered cognitive processes (implementing various robotic tasks) that operate at the edge nodes of a network of robotic platforms, while global AI models (underpinning the aforementioned robotic tasks) are collectively created and shared among the network, by elegantly combining information from a large number of human-robot interaction instances. Regarding pivotal novelties, the designed cognitive architecture a) introduces a new FL-based formalism that extends the conventional LfD learning paradigm to support large-scale multi-agent operational settings, b) elaborates previous FL-based self-learning robotic schemes so as to incorporate the human in the learning loop and c) consolidates the fundamental principles of FL with additional sophisticated AI-enabled learning methodologies for modelling the multi-level inter-dependencies among the robotic tasks. The applicability of the proposed framework is explained using an example of a real-world industrial case study for agile production-based Critical Raw Materials (CRM) recovery.
翻訳日:2021-05-08 08:35:29 公開日:2021-03-29
# (参考訳) Wasserstein Contrastive Representation Distillation [全文訳有]

Wasserstein Contrastive Representation Distillation ( http://arxiv.org/abs/2012.08674v2 )

ライセンス: CC0 1.0
Liqun Chen, Dong Wang, Zhe Gan, Jingjing Liu, Ricardo Henao, Lawrence Carin(参考訳) 知識蒸留(KD)の主な目的は、教師ネットワークから学習したモデルの情報を学生ネットワークにカプセル化することであり、後者は前者よりもコンパクトである。 既存の作業、例えば蒸留にKulback-Leiblerの発散を用いると、教師ネットワークにおける重要な構造的知識を捉えることができず、特に教師と学生が異なる分類課題に対処するために構築されている状況において、特徴一般化の能力に欠けることが多い。 我々は,kd に対するwasserstein 距離の原型と双対型の両方を利用するwasserstein contrastive representation distillation (wcord) を提案する。 二重形式はグローバルな知識伝達に使われ、教師と学生ネットワークの間の相互情報の低境界を最大化する対照的な学習目標をもたらす。 初等形はミニバッチ内の局所的なコントラスト的知識伝達に使用され、教師と学生ネットワーク間の特徴の分布を効果的にマッチングする。 実験により,wcord法が特権的情報蒸留,モデル圧縮,クロスモーダル転送の最先端手法に勝ることを実証した。

The primary goal of knowledge distillation (KD) is to encapsulate the information of a model learned from a teacher network into a student network, with the latter being more compact than the former. Existing work, e.g., using Kullback-Leibler divergence for distillation, may fail to capture important structural knowledge in the teacher network and often lacks the ability for feature generalization, particularly in situations when teacher and student are built to address different classification tasks. We propose Wasserstein Contrastive Representation Distillation (WCoRD), which leverages both primal and dual forms of Wasserstein distance for KD. The dual form is used for global knowledge transfer, yielding a contrastive learning objective that maximizes the lower bound of mutual information between the teacher and the student networks. The primal form is used for local contrastive knowledge transfer within a mini-batch, effectively matching the distributions of features between the teacher and the student networks. Experiments demonstrate that the proposed WCoRD method outperforms state-of-the-art approaches on privileged information distillation, model compression and cross-modal transfer.
翻訳日:2021-05-07 06:18:58 公開日:2021-03-29
# LiteMuL:マルチタスク学習を用いた軽量オンデバイスシーケンスタガー

LiteMuL: A Lightweight On-Device Sequence Tagger using Multi-task Learning ( http://arxiv.org/abs/2101.03024v2 )

ライセンス: Link先を確認
Sonal Kumari, Vibhav Agarwal, Bharath Challa, Kranti Chalamalasetti, Sourav Ghosh, Harshavardhana, Barath Raj Kandur Raja(参考訳) 名前付きエンティティ検出と音声タグ付けは多くのNLPアプリケーションにおいて重要なタスクである。 技術手法の現在の状態は、長いフォーマルな構造化されたテキストに対してほぼ完璧に達成されているが、携帯電話などのメモリ制限されたデバイスにこれらのモデルをデプロイする際の障害がある。 さらに、これらのモデルの性能は、短い、非公式、カジュアルな会話に遭遇したときに劣化する。 これらの課題を克服するために、マルチタスク学習(MTL)アプローチを用いてユーザ会話を効率的に処理できる軽量オンデバイスシーケンスタグであるLiteMuLを提案する。 我々の知る限り、提案モデルは、シーケンスタグ付けのための最初のデバイス上でのMTLニューラルモデルである。 我々の LiteMuL モデルは、約 2.39 MB の大きさで、精度は 0.9433 (NER) であり、CoNLL 2003 データセットでは 0.9090 (POS) である。 提案したLiteMuLは,技術結果の現況を上回るだけでなく,提案したオンデバイスタスク固有モデルの精度を最大11%向上し,モデルサイズを50%-56%削減した。 我々のモデルは、NERやPOSタスクの他のMTLアプローチと競合する一方で、メモリフットプリントも低い。 また,カスタマイズされたユーザ会話のモデルも評価し,印象的な結果を得た。

Named entity detection and Parts-of-speech tagging are the key tasks for many NLP applications. Although the current state of the art methods achieved near perfection for long, formal, structured text there are hindrances in deploying these models on memory-constrained devices such as mobile phones. Furthermore, the performance of these models is degraded when they encounter short, informal, and casual conversations. To overcome these difficulties, we present LiteMuL - a lightweight on-device sequence tagger that can efficiently process the user conversations using a Multi-Task Learning (MTL) approach. To the best of our knowledge, the proposed model is the first on-device MTL neural model for sequence tagging. Our LiteMuL model is about 2.39 MB in size and achieved an accuracy of 0.9433 (for NER), 0.9090 (for POS) on the CoNLL 2003 dataset. The proposed LiteMuL not only outperforms the current state of the art results but also surpasses the results of our proposed on-device task-specific models, with accuracy gains of up to 11% and model-size reduction by 50%-56%. Our model is competitive with other MTL approaches for NER and POS tasks while outshines them with a low memory footprint. We also evaluated our model on custom-curated user conversations and observed impressive results.
翻訳日:2021-05-07 05:37:30 公開日:2021-03-29
# HeadGAN: ワンショットニューラルヘッド合成と編集

HeadGAN: One-shot Neural Head Synthesis and Editing ( http://arxiv.org/abs/2012.08261v2 )

ライセンス: Link先を確認
Michail Christos Doukas, Stefanos Zafeiriou, Viktoriia Sharmanska(参考訳) 単一参照画像を用いた頭部再現問題に対する最近の試みは有望な結果を示している。 しかし、それらの多くは写真リアリズムの面では不十分であるか、アイデンティティの保存問題を満たしていないか、あるいは駆動のポーズと表現を完全に転送していないかのいずれかである。 そこで本研究では,任意の駆動映像から抽出し,任意の参照画像の表情形状に適合する3次元顔表現の合成を条件とした新しいシステムであるheadganを提案する。 音声特徴を補足入力として活用し、口の動きをさらに改善する。 3D顔表現により、HeadGANは、圧縮と再構成の効率的な方法として、また、表現とポーズの編集のためのツールとして、さらに利用できる。

Recent attempts to solve the problem of head reenactment using a single reference image have shown promising results. However, most of them either perform poorly in terms of photo-realism, or fail to meet the identity preservation problem, or do not fully transfer the driving pose and expression. We propose HeadGAN, a novel system that conditions synthesis on 3D face representations, which can be extracted from any driving video and adapted to the facial geometry of any reference image, disentangling identity from expression. We further improve mouth movements, by utilising audio features as a complementary input. The 3D face representation enables HeadGAN to be further used as an efficient method for compression and reconstruction and a tool for expression and pose editing.
翻訳日:2021-05-07 05:22:38 公開日:2021-03-29
# DECOR-GAN:条件付きリファインメントによる3次元形状詳細化

DECOR-GAN: 3D Shape Detailization by Conditional Refinement ( http://arxiv.org/abs/2012.09159v2 )

ライセンス: Link先を確認
Zhiqin Chen, Vladimir G. Kim, Matthew Fisher, Noam Aigerman, Hao Zhang, Siddhartha Chaudhuri(参考訳) 本稿では,3次元形状詳細化のための深層生成ネットワークについて紹介する。 本研究は,高分解能かつ詳細な3次元幾何を,幾何学的詳細移動として扱うことで,小さな例から作成するという課題に対処する。 我々のネットワークは、低解像度の粗いボクセル形状を与えられた場合、ボクセルのアップサンプリングにより、幾何学的詳細で富んだ高解像度の形状に精製する。 出力形状は入力の全体構造(または内容)を保持し、その詳細生成は詳細な例に対応する入力「スタイルコード」で条件付けされる。 コンディショナル・リファインメントによる3次元明細化は、DECOR-GANと呼ばれる生成逆ネットワークによって実現される。 このネットワークは、3D CNNジェネレータを用いて粗いボクセルと3D PatchGAN識別器をアップサンプリングし、生成されたモデルの局所パッチをトレーニングの詳細形状に類似させる。 テスト中、スタイルコードがジェネレータに送られて、リファインメントが条件付けされる。 提案手法は, 粗い形状を様々な形状の細かな形状に洗練することができることを示す。 得られた結果は,コンテンツ保存,妥当性,多様性の観点から評価される。 ネットワーク設計を検証するため,包括的アブレーション研究を行った。 コードはhttps://github.com/c zq142857/DECOR-GANで公開されている。

We introduce a deep generative network for 3D shape detailization, akin to stylization with the style being geometric details. We address the challenge of creating large varieties of high-resolution and detailed 3D geometry from a small set of exemplars by treating the problem as that of geometric detail transfer. Given a low-resolution coarse voxel shape, our network refines it, via voxel upsampling, into a higher-resolution shape enriched with geometric details. The output shape preserves the overall structure (or content) of the input, while its detail generation is conditioned on an input "style code" corresponding to a detailed exemplar. Our 3D detailization via conditional refinement is realized by a generative adversarial network, coined DECOR-GAN. The network utilizes a 3D CNN generator for upsampling coarse voxels and a 3D PatchGAN discriminator to enforce local patches of the generated model to be similar to those in the training detailed shapes. During testing, a style code is fed into the generator to condition the refinement. We demonstrate that our method can refine a coarse shape into a variety of detailed shapes with different styles. The generated results are evaluated in terms of content preservation, plausibility, and diversity. Comprehensive ablation studies are conducted to validate our network designs. Code is available at https://github.com/c zq142857/DECOR-GAN.
翻訳日:2021-05-03 03:03:25 公開日:2021-03-29
# 低ランクテンソルオンテンソル回帰と分散のテンソル変量解析

Reduced-Rank Tensor-on-Tensor Regression and Tensor-variate Analysis of Variance ( http://arxiv.org/abs/2012.10249v2 )

ライセンス: Link先を確認
Carlos Llosa-Vite and Ranjan Maitra(参考訳) 多くの多変量応答と共変量を持つ回帰モデルを満たすことは困難であるが、そのような応答と共変量はしばしばテンソル変量構造を持つ。 まず、回帰係数に4種類の低ランクテンソル形式を課す。 第2に、共分散行列上にクロネッカー分離形式を課すテンソル変量正規分布を用いて誤差をモデル化する。 ブロック緩和アルゴリズムを用いて最大確率推定を行い,その漸近分布を導出する。 回帰フレームワークにより、分散(tanova)方法論のテンソル変量解析を定式化できる。 本手法を片方向TANOVAレイアウトに適用することにより,自殺未遂者や非攻撃者,肯定的,否定的,あるいは死を示唆する単語の相互作用に大きく関連する脳領域を同定することができる。 異なるアプリケーションがWild画像データベースのラベル付き顔に3方向のTANOVAを実行し、民族的起源、年齢グループ、性別に関連する顔の特徴を識別する。

Fitting regression models with many multivariate responses and covariates can be challenging, but such responses and covariates sometimes have tensor-variate structure. We extend the classical multivariate regression model to exploit such structure in two ways: first, we impose four types of low-rank tensor formats on the regression coefficients. Second, we model the errors using the tensor-variate normal distribution that imposes a Kronecker separable format on the covariance matrix. We obtain maximum likelihood estimators via block-relaxation algorithms and derive their asymptotic distributions. Our regression framework enables us to formulate tensor-variate analysis of variance (TANOVA) methodology. Application of our methodology in a one-way TANOVA layout enables us to identify cerebral regions significantly associated with the interaction of suicide attempters or non-attemptor ideators and positive-, negative- or death-connoting words. A separate application performs three-way TANOVA on the Labeled Faces in the Wild image database to distinguish facial characteristics related to ethnic origin, age group and gender.
翻訳日:2021-05-01 17:57:08 公開日:2021-03-29
# ロバスト学習による教師なし画像クラスタリングの改善

Improving Unsupervised Image Clustering With Robust Learning ( http://arxiv.org/abs/2012.11150v2 )

ライセンス: Link先を確認
Sungwon Park, Sungwon Han, Sundong Kim, Danu Kim, Sungkyu Park, Seunghoon Hong and Meeyoung Cha(参考訳) 教師なしのイメージクラスタリング手法は、しばしば間接的にモデルを訓練するための代替の目的を導入し、欠陥予測や過信的な結果を受ける。 これらの課題を克服するため,本研究では,堅牢な学習に触発された革新的なモデル ruc を提案する。 RUCの新規性は、既存のイメージクラスタリングモデルの擬似ラベルを、誤分類されたサンプルを含むうるノイズの多いデータセットとして利用することにある。 その再訓練プロセスは、誤った知識を改訂し、予測における過信問題を緩和することができる。 モデルの柔軟な構造は、他のクラスタリングメソッドへのアドオンモジュールとしての使用を可能にし、複数のデータセットのパフォーマンス向上を支援する。 実験結果から,提案モデルではキャリブレーションの精度が向上し,対向雑音に対するさらなる頑健性が得られることがわかった。

Unsupervised image clustering methods often introduce alternative objectives to indirectly train the model and are subject to faulty predictions and overconfident results. To overcome these challenges, the current research proposes an innovative model RUC that is inspired by robust learning. RUC's novelty is at utilizing pseudo-labels of existing image clustering models as a noisy dataset that may include misclassified samples. Its retraining process can revise misaligned knowledge and alleviate the overconfidence problem in predictions. The model's flexible structure makes it possible to be used as an add-on module to other clustering methods and helps them achieve better performance on multiple datasets. Extensive experiments show that the proposed model can adjust the model confidence with better calibration and gain additional robustness against adversarial noise.
翻訳日:2021-04-27 06:47:16 公開日:2021-03-29
# 自己教師付きマルチモーダルドミノ:アルツハイマー病におけるバイオマーカーの探索

Self-Supervised Multimodal Domino: in Search of Biomarkers for Alzheimer's Disease ( http://arxiv.org/abs/2012.13623v3 )

ライセンス: Link先を確認
Alex Fedorov, Tristan Sylvain, Eloy Geenjaar, Margaux Luck, Lei Wu, Thomas P. DeRamus, Alex Kirilin, Dmitry Bleklov, Vince D. Calhoun, Sergey M. Plis(参考訳) 複数のソースからの感覚入力は、堅牢で一貫性のある人間の知覚に不可欠である。 異なる情報源は相補的な説明要因に寄与する。 同様に、研究はしばしばマルチモーダルイメージングデータを収集し、それぞれが共有情報とユニークな情報を提供できる。 この観察は、強力なマルチモーダル自己教師付き表現学習アルゴリズムの設計を動機づけた。 本稿では,マルチモーダル自己教師付き学習に関する最近の研究を,一つの枠組みで統一する。 モデルコンポーネントのセット間の類似度メトリクスを最適化するほとんどの自己教師あり手法を観察し、このプロセスを整理するためのすべての合理的な方法の分類法を提案する。 まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。 1) マルチモーダル・コントラッシブ・ラーニングは,(1) マルチモーダル・コントラッシブ・ラーニングに対して大きなメリットがあり,(2) マルチモーダル・ターゲットの具体的構成は下流タスクにおけるパフォーマンスに重要であり,(3) 表現間の類似性の最大化はニューラルネットワークに正規化効果を持ち,ダウンストリーム性能の低下につながることがあるが,同時にマルチモーダル・リレーションを明らかにする。 提案手法は,正規相関解析 (cca) や多モード変分オートエンコーダ (mmvae) を用いた線形評価プロトコルを用いて, 従来の自己教師付きエンコーダ-デコーダ法よりも優れていた。 重要なことに、我々は、ニューロイメージングバイオマーカーの探索において、共同で共有されたサブスペースを通じて、モダリティ間の接続を明らかにするための有望な解決策を見つける。

Sensory input from multiple sources is crucial for robust and coherent human perception. Different sources contribute complementary explanatory factors. Similarly, research studies often collect multimodal imaging data, each of which can provide shared and unique information. This observation motivated the design of powerful multimodal self-supervised representation-learn ing algorithms. In this paper, we unify recent work on multimodal self-supervised learning under a single framework. Observing that most self-supervised methods optimize similarity metrics between a set of model components, we propose a taxonomy of all reasonable ways to organize this process. We first evaluate models on toy multimodal MNIST datasets and then apply them to a multimodal neuroimaging dataset with Alzheimer's disease patients. We find that (1) multimodal contrastive learning has significant benefits over its unimodal counterpart, (2) the specific composition of multiple contrastive objectives is critical to performance on a downstream task, (3) maximization of the similarity between representations has a regularizing effect on a neural network, which can sometimes lead to reduced downstream performance but still reveal multimodal relations. Results show that the proposed approach outperforms previous self-supervised encoder-decoder methods based on canonical correlation analysis (CCA) or the mixture-of-experts multimodal variational autoEncoder (MMVAE) on various datasets with a linear evaluation protocol. Importantly, we find a promising solution to uncover connections between modalities through a jointly shared subspace that can help advance work in our search for neuroimaging biomarkers.
翻訳日:2021-04-25 04:37:04 公開日:2021-03-29
# 複数の文書データセットの事前学習によるディープニューラルネットワークによるテキスト行検出の改善

Multiple Document Datasets Pre-training Improves Text Line Detection With Deep Neural Networks ( http://arxiv.org/abs/2012.14163v2 )

ライセンス: Link先を確認
M\'elodie Boillet, Christopher Kermorvant, Thierry Paquet(参考訳) 本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。 最先端の手法では自然風景画像に事前学習したモデルを用いているが, doc-ufcnでは, 過去の文書から物体を検出するために, スクラッチから訓練したu字型モデルに依存している。 我々は,線分分割タスクと,より一般的にレイアウト解析問題を画素単位の分類タスクと考え,入力画像の画素ラベル出力を行う。 Doc-UFCNは,様々なデータセット上で最先端の手法よりも優れており,自然シーン画像の事前学習部が良好な結果を得るためには必要ではないことを示す。 さらに,複数の文書データセットの事前学習により,性能が向上することを示す。 様々な指標を用いてモデルの評価を行い,各手法の公正かつ完全な比較を行った。

In this paper, we introduce a fully convolutional network for the document layout analysis task. While state-of-the-art methods are using models pre-trained on natural scene images, our method Doc-UFCN relies on a U-shaped model trained from scratch for detecting objects from historical documents. We consider the line segmentation task and more generally the layout analysis problem as a pixel-wise classification task then our model outputs a pixel-labeling of the input images. We show that Doc-UFCN outperforms state-of-the-art methods on various datasets and also demonstrate that the pre-trained parts on natural scene images are not required to reach good results. In addition, we show that pre-training on multiple document datasets can improve the performances. We evaluate the models using various metrics to have a fair and complete comparison between the methods.
翻訳日:2021-04-19 11:03:05 公開日:2021-03-29
# (参考訳) 二元グラフニューラルネットワーク [全文訳有]

Binary Graph Neural Networks ( http://arxiv.org/abs/2012.15823v2 )

ライセンス: CC BY 4.0
Mehdi Bahri, Ga\'etan Bahl, Stefanos Zafeiriou(参考訳) グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。 グリッド上の古典的CNNの操作を任意のトポロジに一般化するにつれ、GNNはユークリッド対応の多くの実装課題ももたらした。 モデルサイズ、メモリフットプリント、エネルギー消費は、多くの現実世界のアプリケーションにとって共通の関心事である。 ネットワークバイナライゼーションはパラメータとアクティベーションに単一ビットを割り当て、メモリ要求を劇的に削減し(単一精度浮動小数点数と比較して最大32倍)、現代のハードウェアにおける高速SIMD命令の利点を最大化する。 しかしながら、古典的cnnの双対化に関する膨大な研究にもかかわらず、この領域は幾何的深層学習においてほとんど未調査のままである。 本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。 モデルの慎重な設計とトレーニングプロセスの制御により、バイナリグラフニューラルネットワークは、挑戦的なベンチマークにおいて、ある程度の精度でトレーニングできることが示される。 特に,ハミング空間における最初の動的グラフニューラルネットワークを提示し,動的グラフの構築を高速化するために,バイナリベクトルの効率的なk-nn探索を可能にする。 さらに、バイナリモデルが組み込みデバイスに大幅な節約をもたらすことを検証します。 私たちのコードはgithubで公開されている。

Graph Neural Networks (GNNs) have emerged as a powerful and flexible framework for representation learning on irregular data. As they generalize the operations of classical CNNs on grids to arbitrary topologies, GNNs also bring much of the implementation challenges of their Euclidean counterparts. Model size, memory footprint, and energy consumption are common concerns for many real-world applications. Network binarization allocates a single bit to parameters and activations, thus dramatically reducing the memory requirements (up to 32x compared to single-precision floating-point numbers) and maximizing the benefits of fast SIMD instructions on modern hardware for measurable speedups. However, in spite of the large body of work on binarization for classical CNNs, this area remains largely unexplored in geometric deep learning. In this paper, we present and evaluate different strategies for the binarization of graph neural networks. We show that through careful design of the models, and control of the training process, binary graph neural networks can be trained at only a moderate cost in accuracy on challenging benchmarks. In particular, we present the first dynamic graph neural network in Hamming space, able to leverage efficient k-NN search on binary vectors to speed-up the construction of the dynamic graph. We further verify that the binary models offer significant savings on embedded devices. Our code is publicly available on Github.
翻訳日:2021-04-17 20:58:20 公開日:2021-03-29
# 低コストFPGA上でのODEベースニューラルネットワークの高速化

Accelerating ODE-Based Neural Networks on Low-Cost FPGAs ( http://arxiv.org/abs/2012.15465v3 )

ライセンス: Link先を確認
Hirohisa Watanabe, Hiroki Matsutani(参考訳) ODENetは、ResNetの積み重ね構造を通常の微分方程式(ODE)解決器で実装したディープニューラルネットワークアーキテクチャである。 適切な解法を選択することで、パラメータの数を減らし、精度と性能のバランスを取ることができる。 また、リソース制限エッジデバイス上で同じ数のパラメータを保持しながら精度を向上させることもできる。 本稿では、Euler法をODEソルバとして使用し、PYNQ-Z2基板などの低コストFPGA基板上でODENetの一部を専用ロジックとして実装する。 ODENet の変種として,ODENet の層の一部を多用し,異なる層を多用する ODENet (rODENets) の削減が提案され,低コストのFPGA 実装のために解析された。 これらはパラメータサイズ、精度、実行時間、fpga上のリソース使用率の観点から評価される。 その結果、RODENetの変種全体の実行時間は、純粋なソフトウェア実行に比べて最大2.66倍改善され、元のODENetに匹敵する精度を維持していることがわかった。

ODENet is a deep neural network architecture in which a stacking structure of ResNet is implemented with an ordinary differential equation (ODE) solver. It can reduce the number of parameters and strike a balance between accuracy and performance by selecting a proper solver. It is also possible to improve the accuracy while keeping the same number of parameters on resource-limited edge devices. In this paper, using Euler method as an ODE solver, a part of ODENet is implemented as a dedicated logic on a low-cost FPGA (Field-Programmable Gate Array) board, such as PYNQ-Z2 board. As ODENet variants, reduced ODENets (rODENets) each of which heavily uses a part of ODENet layers and reduces/eliminates some layers differently are proposed and analyzed for low-cost FPGA implementation. They are evaluated in terms of parameter size, accuracy, execution time, and resource utilization on the FPGA. The results show that an overall execution time of an rODENet variant is improved by up to 2.66 times compared to a pure software execution while keeping a comparable accuracy to the original ODENet.
翻訳日:2021-04-17 17:24:44 公開日:2021-03-29
# ニューラルボディ:動的人間の新しい視点合成のための構造化潜在符号を用いた暗黙のニューラル表現

Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans ( http://arxiv.org/abs/2012.15838v2 )

ライセンス: Link先を確認
Sida Peng, Yuanqing Zhang, Yinghao Xu, Qianqian Wang, Qing Shuai, Hujun Bao, Xiaowei Zhou(参考訳) 本論文は, カメラビューの細かな集合から, 人間のパフォーマーのための新しいビュー合成の課題に対処する。 最近の研究により、3dシーンの暗黙的な神経表現の学習は、深い入力ビューによって顕著なビュー合成品質を達成することが示されている。 しかし、ビューが極めてスパースであれば、表現学習は不適切になる。 この不正な問題を解くため、我々はビデオフレーム上の観察を統合することを目的としている。 この目的のために我々は,異なるフレームにおける学習されたニューラルネットワーク表現が,変形可能なメッシュに固定された潜在コードと同じセットを共有することを前提とした,新しい人体表現であるNeural Bodyを提案する。 変形可能なメッシュはまた、ネットワークがより効率的に3d表現を学ぶための幾何学的ガイダンスを提供する。 このアプローチを評価するために、複雑な動きを持つパフォーマーをキャプチャするZJU-MoCapというマルチビューデータセットを作成しました。 ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。 また,本手法では,人撮りデータセット上の単眼映像から移動人物を再構築する能力を示す。 コードとデータセットはhttps://zju3dv.githu b.io/neuralbody/で入手できる。

This paper addresses the challenge of novel view synthesis for a human performer from a very sparse set of camera views. Some recent works have shown that learning implicit neural representations of 3D scenes achieves remarkable view synthesis quality given dense input views. However, the representation learning will be ill-posed if the views are highly sparse. To solve this ill-posed problem, our key idea is to integrate observations over video frames. To this end, we propose Neural Body, a new human body representation which assumes that the learned neural representations at different frames share the same set of latent codes anchored to a deformable mesh, so that the observations across frames can be naturally integrated. The deformable mesh also provides geometric guidance for the network to learn 3D representations more efficiently. To evaluate our approach, we create a multi-view dataset named ZJU-MoCap that captures performers with complex motions. Experiments on ZJU-MoCap show that our approach outperforms prior works by a large margin in terms of novel view synthesis quality. We also demonstrate the capability of our approach to reconstruct a moving person from a monocular video on the People-Snapshot dataset. The code and dataset are available at https://zju3dv.githu b.io/neuralbody/.
翻訳日:2021-04-17 17:05:46 公開日:2021-03-29
# 条件付き可逆変換からの非可逆的mcmc:収束保証付き完全レシピ

Nonreversible MCMC from conditional invertible transforms: a complete recipe with convergence guarantees ( http://arxiv.org/abs/2012.15550v2 )

ライセンス: Link先を確認
Achille Thin, Nikita Kotelevskii, Christophe Andrieu, Alain Durmus, Eric Moulines, Maxim Panov(参考訳) マルコフ・チェイン・モンテカルロ (MCMC) は複素および高次元確率分布をサンプリングするアルゴリズムのクラスである。 MCMCのワークホースであるMetropolis-Hastings (MH)アルゴリズムは、可逆的なマルコフカーネルを構築するための簡単なレシピを提供する。 可逆性は扱いやすい性質であり、ここでは扱いにくいが本質的な性質、不変性を意味する。 しかし、性能を考えるとき、可逆性は必ずしも必要ではない。 このことが最近のカーネル設計への関心を呼び起こした。 同時に、アクティブな研究の流れは、複雑な可逆決定論的変換の使用に依存するいくつかの可逆的でないmhカーネルの新しいバージョンの設計に焦点を当てている。 MHカーネルの標準実装はよく理解されているが、上記の開発はそれらの妥当性を保証するため、同じ体系的な処理を受けていない。 本稿では,可逆なマルコフカーネルのクラスが,おそらく複素変換に依存し,所望の不変性を持ち,収束アルゴリズムにつながることを確実にするために,汎用ツールを開発することでギャップを埋める。 これは単純で実際に検証可能な条件の集合につながる。

Markov Chain Monte Carlo (MCMC) is a class of algorithms to sample complex and high-dimensional probability distributions. The Metropolis-Hastings (MH) algorithm, the workhorse of MCMC, provides a simple recipe to construct reversible Markov kernels. Reversibility is a tractable property that implies a less tractable but essential property here, invariance. Reversibility is however not necessarily desirable when considering performance. This has prompted recent interest in designing kernels breaking this property. At the same time, an active stream of research has focused on the design of novel versions of the MH kernel, some nonreversible, relying on the use of complex invertible deterministic transforms. While standard implementations of the MH kernel are well understood, the aforementioned developments have not received the same systematic treatment to ensure their validity. This paper fills the gap by developing general tools to ensure that a class of nonreversible Markov kernels, possibly relying on complex transforms, has the desired invariance property and leads to convergent algorithms. This leads to a set of simple and practically verifiable conditions.
翻訳日:2021-04-17 17:01:11 公開日:2021-03-29
# ステレオマッチングネットワークのためのバイラテラルグリッド学習

Bilateral Grid Learning for Stereo Matching Networks ( http://arxiv.org/abs/2101.01601v2 )

ライセンス: Link先を確認
Bin Xu, Yuhua Xu, Xiaoli Yang, Wei Jia, Yulan Guo(参考訳) ステレオマッチングネットワークのリアルタイム性能は、自動走行、ロボットナビゲーション、拡張現実(AR)など多くのアプリケーションにとって重要である。 近年,ステレオマッチングネットワークは大きな進歩を遂げているが,リアルタイム性能と精度のバランスをとることは依然として困難である。 本稿では,学習用二元格子におけるスライシング操作に基づく,エッジ保存型コストアップサンプリングモジュールを提案する。 スライシング層はパラメータフリーであり、学習ガイドマップのガイドの下、低解像度のコストボリュームから高分解能の高品質なコストボリュームを効率的に得ることができる。 提案するボリュームアップサンプリングモジュールは,GCNet, PSMNet, GANetなどの既存のステレオマッチングネットワークにシームレスに組み込むことができる。 結果として得られるネットワークは、同等の精度を維持しながら、数回加速される。 さらに,本モジュールをベースとしたリアルタイムネットワーク(BGNet)を設計し,既存のリアルタイムステレオマッチングネットワークや,KITTIステレオデータセット上の複雑なネットワークより優れていることを示す。 コードはhttps://github.com/Y uhuaXu/BGNetで入手できる。

Real-time performance of stereo matching networks is important for many applications, such as automatic driving, robot navigation and augmented reality (AR). Although significant progress has been made in stereo matching networks in recent years, it is still challenging to balance real-time performance and accuracy. In this paper, we present a novel edge-preserving cost volume upsampling module based on the slicing operation in the learned bilateral grid. The slicing layer is parameter-free, which allows us to obtain a high quality cost volume of high resolution from a low-resolution cost volume under the guide of the learned guidance map efficiently. The proposed cost volume upsampling module can be seamlessly embedded into many existing stereo matching networks, such as GCNet, PSMNet, and GANet. The resulting networks are accelerated several times while maintaining comparable accuracy. Furthermore, we design a real-time network (named BGNet) based on this module, which outperforms existing published real-time deep stereo matching networks, as well as some complex networks on the KITTI stereo datasets. The code is available at https://github.com/Y uhuaXu/BGNet.
翻訳日:2021-04-16 11:08:41 公開日:2021-03-29
# (参考訳) 深層学習における対人ロバストネスの局所的競合と確率性 [全文訳有]

Local Competition and Stochasticity for Adversarial Robustness in Deep Learning ( http://arxiv.org/abs/2101.01121v2 )

ライセンス: CC BY 4.0
Konstantinos P. Panousis and Sotirios Chatzis and Antonios Alexos and Sergios Theodoridis(参考訳) 本研究は, 確率的局所入賞者オール(LWTA)アクティベートを伴うディープネットワークを考慮し, 深層学習における対角的ロバスト性に対処する。 このタイプのネットワークユニットは、各モデル層からスパース表現を生じさせ、ユニットは1つのユニットだけがゼロでない出力を生成するブロックに編成される。 導入されたユニットの主な運用原理は確率的な議論であり、ネットワークは勝者を選ぶために競合ユニットに対して後方サンプリングを行う。 これらのLWTA引数をベイズ非パラメトリック、特にインド・バフェット・プロセスの突破構成のツールと組み合わせることで、手元にあるデータモデリングに不可欠な各レイヤのサブ部分の推測を可能にします。 そして、確率的変動ベイズを用いて推論を行う。 ベンチマークデータセットを用いて,本モデルの徹底的な実験評価を行う。 提案手法は, 対向的摂動に対して高い堅牢性を実現し, 対向的攻撃方式の最先端性能を実現する。

This work addresses adversarial robustness in deep learning by considering deep networks with stochastic local winner-takes-all (LWTA) activations. This type of network units result in sparse representations from each model layer, as the units are organized in blocks where only one unit generates a non-zero output. The main operating principle of the introduced units lies on stochastic arguments, as the network performs posterior sampling over competing units to select the winner. We combine these LWTA arguments with tools from the field of Bayesian non-parametrics, specifically the stick-breaking construction of the Indian Buffet Process, to allow for inferring the sub-part of each layer that is essential for modeling the data at hand. Then, inference is performed by means of stochastic variational Bayes. We perform a thorough experimental evaluation of our model using benchmark datasets. As we show, our method achieves high robustness to adversarial perturbations, with state-of-the-art performance in powerful adversarial attack schemes.
翻訳日:2021-04-12 03:21:03 公開日:2021-03-29
# edATLAS: Abugidaスクリプトを持つ言語におけるテキストの効率的な曖昧化アルゴリズム

edATLAS: An Efficient Disambiguation Algorithm for Texting in Languages with Abugida Scripts ( http://arxiv.org/abs/2101.03916v2 )

ライセンス: Link先を確認
Sourav Ghosh, Sourabh Vasant Gothe, Chandramouli Sanchi, Barath Raj Kandur Raja(参考訳) アブティダは、それぞれの音節が1つの子音またはタイポグラフィーのリガチュアで表され、他の母音を表すためにデフォルト母音または任意のダイアクリット(s)と共に表される音韻表記体系を指す。 しかし、これらの言語でのテキスト入力は、ソフトキーボードがカスタムキーレイアウトをサポートするデバイスの出現にもかかわらず、いくつかのユニークな課題を抱えている。 これらの言語の文字数は、レイアウト内の複数のビューにまたがるキャラクタを必要とするほどである。 一つの単語をタイプするためにビューを何度も切り替えなければならないことは、自然な思考プロセスを妨げる。 これにより、ネイティブキーボードレイアウトの一般的な使用が防止される。 一方で、言語モデルに基づく提案によるローマ字化スクリプト(ラテン文字で書き起こされるネイティブな単語)のサポートも、一様ローマ字化規則の欠如によって実現されている。 そこで本研究では,アビギダ文字の曖昧な入力の曖昧化と,(b)ローマ字の単語変形の曖昧化という,アビギダ文字体系を母語とする2つの新しい非排他的入力法において,その有用性を示す。 我々は、これらのアプローチを公開データセットを用いてベンチマークし、ヒンディー語、ベンガル語、タイ語でそれぞれ19.49%、25.13%、14.89%のタイ語の入力速度の改善を示す。 我々の単語可変不明瞭度(WDA)は、以前Out-of-Vocabとして扱われていたロマン語を100k語の語彙に高精度にマッピングし、誤り訂正F1のスコアが10.03%増加し、Next Word Prediction(NWP)は平均62.50%上昇した。

Abugida refers to a phonogram writing system where each syllable is represented using a single consonant or typographic ligature, along with a default vowel or optional diacritic(s) to denote other vowels. However, texting in these languages has some unique challenges in spite of the advent of devices with soft keyboard supporting custom key layouts. The number of characters in these languages is large enough to require characters to be spread over multiple views in the layout. Having to switch between views many times to type a single word hinders the natural thought process. This prevents popular usage of native keyboard layouts. On the other hand, supporting romanized scripts (native words transcribed using Latin characters) with language model based suggestions is also set back by the lack of uniform romanization rules. To this end, we propose a disambiguation algorithm and showcase its usefulness in two novel mutually non-exclusive input methods for languages natively using the abugida writing system: (a) disambiguation of ambiguous input for abugida scripts, and (b) disambiguation of word variants in romanized scripts. We benchmark these approaches using public datasets, and show an improvement in typing speed by 19.49%, 25.13%, and 14.89%, in Hindi, Bengali, and Thai, respectively, using Ambiguous Input, owing to the human ease of locating keys combined with the efficiency of our inference method. Our Word Variant Disambiguation (WDA) maps valid variants of romanized words, previously treated as Out-of-Vocab, to a vocabulary of 100k words with high accuracy, leading to an increase in Error Correction F1 score by 10.03% and Next Word Prediction (NWP) by 62.50% on average.
翻訳日:2021-04-11 11:37:14 公開日:2021-03-29
# MANETのためのマルチエージェントディープ強化学習によるロバストかつスケーラブルなルーティング

Robust and Scalable Routing with Multi-Agent Deep Reinforcement Learning for MANETs ( http://arxiv.org/abs/2101.03273v2 )

ライセンス: Link先を確認
Saeed Kaviani, Bo Ryu, Ejaz Ahmed, Kevin A. Larson, Anh Le, Alex Yahja, Jae H. Kim(参考訳) 高ダイナミックなモバイルアドホックネットワーク(MANET)は、堅牢で効率的でスケーラブルなルーティングプロトコルを開発し、デプロイする上で最も困難な環境の1つであり続けている。 本稿では,新たなマルチエージェント深層強化学習(madrl,multi-agent deep reinforcement learning)手法を既存のq-learningベースのルーティングプロトコルとその変種に統合したdeepcq+ルーティングを提案する。 定量的に見ると、DeepCQ+は、Qラーニングベースの処理に比べて、オーバーヘッドの少ないエンドツーエンドのスループットが一貫して高く、全体的な効率は10~15%向上している。 deepcq+は、ネットワークサイズ、モビリティ条件、およびトラフィックダイナミクスに関して訓練されていない多くのシナリオにおいて、非常に類似したパフォーマンス向上を維持している。 私たちの知る限り、これはMANETルーティング問題に対するMADRLの最初の成功例であり、訓練されたシナリオの範囲外の環境でも高いスケーラビリティと堅牢性を実現し、維持します。 これは、MADRLとQ-learningを組み合わせたDeepCQ+のハイブリッド設計アプローチが、実世界のMANET環境が訓練された様々なMANETシナリオの外で異なるため、実用性と説明可能性を大幅に向上させることを意味する。

Highly dynamic mobile ad-hoc networks (MANETs) are continuing to serve as one of the most challenging environments to develop and deploy robust, efficient, and scalable routing protocols. In this paper, we present DeepCQ+ routing which, in a novel manner, integrates emerging multi-agent deep reinforcement learning (MADRL) techniques into existing Q-learning-based routing protocols and their variants, and achieves persistently higher performance across a wide range of MANET configurations while training only on a limited range of network parameters and conditions. Quantitatively, DeepCQ+ shows consistently higher end-to-end throughput with lower overhead compared to its Q-learning-based counterparts with the overall gain of 10-15% in its efficiency. Qualitatively and more significantly, DeepCQ+ maintains remarkably similar performance gains under many scenarios that it was not trained for in terms of network sizes, mobility conditions, and traffic dynamics. To the best of our knowledge, this is the first successful demonstration of MADRL for the MANET routing problem that achieves and maintains a high degree of scalability and robustness even in the environments that are outside the trained range of scenarios. This implies that the proposed hybrid design approach of DeepCQ+ that combines MADRL and Q-learning significantly increases its practicality and explainability because the real-world MANET environment will likely vary outside the trained range of MANET scenarios.
翻訳日:2021-04-09 07:25:41 公開日:2021-03-29
# RepVGG:VGGスタイルのConvNetを再び素晴らしいものに

RepVGG: Making VGG-style ConvNets Great Again ( http://arxiv.org/abs/2101.03697v3 )

ライセンス: Link先を確認
Xiaohan Ding, Xiangyu Zhang, Ningning Ma, Jungong Han, Guiguang Ding, Jian Sun(参考訳) 本稿では3x3畳み込みとReLUのスタックのみで構成されたVGGのような推論時間体を持つ畳み込みニューラルネットワークの単純かつ強力なアーキテクチャを提案する。 このようなトレーニング時間と推論時間の分離は構造的再パラメータ化技術により実現され、モデルがRepVGGと命名される。 ImageNetでは、RepVGGが80%以上のトップ1精度に達しています。 NVIDIA 1080Ti GPUでは、RepVGGモデルはResNet-50より83%高速、ResNet-101より101%高速で動作し、EfficientNetやRegNetのような最先端のモデルと比較して精度と速度のトレードオフが良好である。 コードとトレーニングされたモデルはhttps://github.com/m egvii-model/RepVGGで入手できる。

We present a simple but powerful architecture of convolutional neural network, which has a VGG-like inference-time body composed of nothing but a stack of 3x3 convolution and ReLU, while the training-time model has a multi-branch topology. Such decoupling of the training-time and inference-time architecture is realized by a structural re-parameterization technique so that the model is named RepVGG. On ImageNet, RepVGG reaches over 80% top-1 accuracy, which is the first time for a plain model, to the best of our knowledge. On NVIDIA 1080Ti GPU, RepVGG models run 83% faster than ResNet-50 or 101% faster than ResNet-101 with higher accuracy and show favorable accuracy-speed trade-off compared to the state-of-the-art models like EfficientNet and RegNet. The code and trained models are available at https://github.com/m egvii-model/RepVGG.
翻訳日:2021-04-04 14:51:56 公開日:2021-03-29
# (参考訳) ビジネスプロセスにおける資源配分のための深層強化学習 [全文訳有]

Deep Reinforcement Learning for Resource Allocation in Business Processes ( http://arxiv.org/abs/2104.00541v1 )

ライセンス: CC BY 4.0
Kamil \.Zbikowski, Micha{\l} Ostapowicz, Piotr Gawrysiak(参考訳) ビジネスプロセスの実行にリソースを割り当てることは、効果的に自動化できる反復的なタスクです。 しかし、異なる自動化手法は最適でないかもしれない様々な結果をもたらすかもしれない。 適切なリソース割り当ては、大幅なコスト削減や、収益の増加につながる効果の増大につながる可能性があるため、非常に重要である。 本稿では,まず,プロセスに基づく報酬の異なるマルチプロセス環境のモデリングを可能にする新しい表現法を提案する。 これらのプロセスは、その適性が異なるリソースを共有することができる。 次に,2重強化学習を用いて最適資源配分政策を提案する。 これらの結果と業界で広く使われている2つの一般的な戦略を比較します。 強化学習による最適政策の学習には環境との頻繁な相互作用が必要であり,実世界のプロセスを模倣できるシミュレーションエンジンの設計・開発も行った。 得られた結果は有望です。 深層強化学習に基づくリソース割り当ては,一般的な2つのテクニックと比較して有意に優れた結果を得た。

Assigning resources in business processes execution is a repetitive task that can be effectively automated. However, different automation methods may give varying results that may not be optimal. Proper resource allocation is crucial as it may lead to significant cost reductions or increased effectiveness that results in increased revenues. In this work, we first propose a novel representation that allows modeling of a multi-process environment with different process-based rewards. These processes can share resources that differ in their eligibility. Then, we use double deep reinforcement learning to look for optimal resource allocation policy. We compare those results with two popular strategies that are widely used in the industry. Learning optimal policy through reinforcement learning requires frequent interactions with the environment, so we also designed and developed a simulation engine that can mimic real-world processes. The results obtained are promising. Deep reinforcement learning based resource allocation achieved significantly better results compared to two commonly used techniques.
翻訳日:2021-04-03 11:52:18 公開日:2021-03-29
# (参考訳) 期待を超えた強化学習 [全文訳有]

Reinforcement Learning Beyond Expectation ( http://arxiv.org/abs/2104.00540v1 )

ライセンス: CC BY 4.0
Bhaskar Ramasubramanian, Luyao Niu, Andrew Clark, Radha Poovendran(参考訳) ユーザの入力と好みは、これらのユーザが自律的なサイバーシステムやサイバーフィジカルシステムと対話する状況において重要な考慮事項である。 これらのシナリオでは、システムの振る舞いを1人以上のユーザの好みに合わせることにしばしば関心がある。 累積予測理論 (cumulative prospect theory, cpt) は、人間が利益と損失を異なる視点で見る傾向をモデル化することが実証的に示されているパラダイムである。 本稿では,自律エージェントが未知の環境で行動を学ぶ必要がある環境について考察する。 従来の強化学習では、これらの行動は期待されたユーティリティを最適化することで環境との繰り返しの相互作用を通じて学習される。 エージェントに人間の動作を忠実に模倣する能力を与えるため、我々はCPTベースのコストを最適化する。 本稿では,ある状態における行動のCPT値の概念を導入し,この量を推定するために反復的動的プログラミングに基づくアプローチの収束を確立する。 エージェントがCPT値を最適化するためのポリシーを学習するための2つのアルゴリズムを開発し、障害物を避けながら目標状態に到達する必要がある環境でこれらのアルゴリズムを評価する。 これらのアルゴリズムを用いて学習したエージェントの挙動は、同じ環境に置かれるかもしれない人間の行動とよく一致し、期待されるユーティリティを最適化するベースラインよりも大幅に改善されていることを示す。

The inputs and preferences of human users are important considerations in situations where these users interact with autonomous cyber or cyber-physical systems. In these scenarios, one is often interested in aligning behaviors of the system with the preferences of one or more human users. Cumulative prospect theory (CPT) is a paradigm that has been empirically shown to model a tendency of humans to view gains and losses differently. In this paper, we consider a setting where an autonomous agent has to learn behaviors in an unknown environment. In traditional reinforcement learning, these behaviors are learned through repeated interactions with the environment by optimizing an expected utility. In order to endow the agent with the ability to closely mimic the behavior of human users, we optimize a CPT-based cost. We introduce the notion of the CPT-value of an action taken in a state, and establish the convergence of an iterative dynamic programming-based approach to estimate this quantity. We develop two algorithms to enable agents to learn policies to optimize the CPT-vale, and evaluate these algorithms in environments where a target state has to be reached while avoiding obstacles. We demonstrate that behaviors of the agent learned using these algorithms are better aligned with that of a human user who might be placed in the same environment, and is significantly improved over a baseline that optimizes an expected utility.
翻訳日:2021-04-03 11:30:29 公開日:2021-03-29
# ニューラルネットワークとanfis法を用いた風速予測(観測ブイ例)

Prediction of Wind Speed Using Artificial Neural Networks and ANFIS Methods (Observation Buoy Example) ( http://arxiv.org/abs/2104.00538v1 )

ライセンス: Link先を確認
Inan Timur, Baba Ahmet Fevzi(参考訳) 風速の推定は、船舶の経路決定、風のバラの効率的な利用、農業活動の正しい計画といった多くの問題において重要な役割を果たす。 本研究では,ニューラルネットワーク(ANN)と適応型ニューラルネットワークファジィ推論システム(ANFIS)を用いて風速推定を行う。 推定に必要なデータは、ポセドンフロートシステム内のフロートであるE1M3Aというフロートから得られた。 提案するanは,外部入力(narx)型人工ニューラルネットワークの非線形オートレグレッシブであり,3層,50ニューロン,6入力,1出力を有する。 ANFISシステムは、入力毎に6つの入力、1つの出力、3つのメンバシップ関数(MF)を持つファジィ推論システムである。 提案手法は, 3時間後に風速推定を行うように訓練され, 得られたデータと実測値を比較し, システムの成功を明らかにした。 平均赤道誤差(MSE)と予測値と予測値との回帰(R)を用いて,システムから得られた推定値の成功を評価する。 評価結果によると、ANNはトレーニングで2.19MSEと0.897R、バリデーションで2.88MSEと0.866R、テストで2.93MSEと0.857Rを達成した。 ANFIS法は0.31634 MSEと0.99 R値を得た

Estimation of the wind speed plays an important role in many issues such as route determination of ships, efficient use of wind roses, and correct planning of agricultural activities. In this study, wind velocity estimation is calculated using artificial neural networks (ANN) and adaptive artificial neural fuzzy inference system (ANFIS) methods. The data required for estimation was obtained from the float named E1M3A, which is a float inside the POSEIDON float system. The proposed ANN is a Nonlinear Auto Regressive with External Input (NARX) type of artificial neural network with 3 layers, 50 neurons, 6 inputs and 1 output. The ANFIS system introduced is a fuzzy inference system with 6 inputs, 1 output, and 3 membership functions (MF) per input. The proposed systems were trained to make wind speed estimates after 3 hours and the data obtained were obtained and the successes of the systems were revealed by comparing the obtained values with real measurements. Mean Squarred Error (MSE) and the regression between the predictions and expected values (R) were used to evaluate the success of the estimation values obtained from the systems. According to estimation results, ANN achieved 2.19 MSE and 0.897 R values in training, 2.88 MSE and 0.866 R values in validation, and 2.93 MSE and 0.857 R values in testing. ANFIS method has obtained 0.31634 MSE and 0.99 R values
翻訳日:2021-04-02 13:18:25 公開日:2021-03-29
# (参考訳) アフリカ低資源言語のためのテキスト正規化 [全文訳有]

Text Normalization for Low-Resource Languages of Africa ( http://arxiv.org/abs/2103.15845v1 )

ライセンス: CC BY 4.0
Andrew Zupon, Evan Crew, Sandy Ritchie(参考訳) 機械学習モデルのトレーニングデータは、疑わしい品質のさまざまなソースから得ることができる。 英語のようなリソース豊富な言語では、多くのデータが利用できるので、疑わしいデータを捨てる余裕があります。 利用可能なデータがはるかに少ない低リソースの言語では、モデルをトレーニングするには小さすぎるトレーニングセットで終わる場合に備えて、必ずしも疑わしいデータを捨てる余裕はありません。 本研究では,アフリカアフリカーンス語,アムハラ語,ハウサ語,イグボ語,マラガシ語,ソマリ語,スワヒリ語,ズールー語などの低資源言語に対するテキスト正規化とデータセット品質の影響について検討した。 我々は、有限状態トランスデューサのためのPythonライブラリであるPyniniフレームワークで構築したテキスト正規化器と、NLP用のオープンソースのPythonライブラリであるNatural Language Toolkit(NLTK)を使用してアフリカ言語の言語モデルをトレーニングする実験について説明する。

Training data for machine learning models can come from many different sources, which can be of dubious quality. For resource-rich languages like English, there is a lot of data available, so we can afford to throw out the dubious data. For low-resource languages where there is much less data available, we can't necessarily afford to throw out the dubious data, in case we end up with a training set which is too small to train a model. In this study, we examine the effects of text normalization and data set quality for a set of low-resource languages of Africa -- Afrikaans, Amharic, Hausa, Igbo, Malagasy, Somali, Swahili, and Zulu. We describe our text normalizer which we built in the Pynini framework, a Python library for finite state transducers, and our experiments in training language models for African languages using the Natural Language Toolkit (NLTK), an open-source Python library for NLP.
翻訳日:2021-04-01 08:50:54 公開日:2021-03-29
# (参考訳) 蒸留リプレイ:合成サンプルによる忘れを克服する [全文訳有]

Distilled Replay: Overcoming Forgetting through Synthetic Samples ( http://arxiv.org/abs/2103.15851v1 )

ライセンス: CC BY 4.0
Andrea Rosasco, Antonio Carta, Andrea Cossu, Vincenzo Lomonaco, Davide Bacciu(参考訳) リプレイ戦略は、トレーニング中に新しいデータにインターリーブされた以前の経験からパターンのバッファを保持することで、破滅的な忘れを緩和する継続的学習技術である。 バッファに格納されるパターンの量は、最終的なパフォーマンスとアプローチのメモリフットプリントに大きな影響を与える重要なパラメータである。 これは、非常に有益なサンプルの非常に小さなバッファ(1クラスあたり最大1ドルまでのパターン)を保持することで、忘れを緩和できる、継続的な学習のための新しいリプレイ戦略である。 Distilled Replayは、大きなデータセットを小さな情報的な例に圧縮する蒸留プロセスを通じてバッファを構築する。 データセットからランダムにパターンを抽出したnaive replayに対する蒸留リプレイの有効性を,4つの一般的な連続学習ベンチマークで示す。

Replay strategies are Continual Learning techniques which mitigate catastrophic forgetting by keeping a buffer of patterns from previous experience, which are interleaved with new data during training. The amount of patterns stored in the buffer is a critical parameter which largely influences the final performance and the memory footprint of the approach. This work introduces Distilled Replay, a novel replay strategy for Continual Learning which is able to mitigate forgetting by keeping a very small buffer (up to $1$ pattern per class) of highly informative samples. Distilled Replay builds the buffer through a distillation process which compresses a large dataset into a tiny set of informative examples. We show the effectiveness of our Distilled Replay against naive replay, which randomly samples patterns from the dataset, on four popular Continual Learning benchmarks.
翻訳日:2021-04-01 08:40:24 公開日:2021-03-29
# (参考訳) 自然言語理解のための産業規模半監督学習 [全文訳有]

Industry Scale Semi-Supervised Learning for Natural Language Understanding ( http://arxiv.org/abs/2103.15871v1 )

ライセンス: CC BY 4.0
Luoxin Chen, Francisco Garcia, Varun Kumar, He Xie, Jianhua Lu(参考訳) 本稿では,NLU(Natural Language Understanding, 自然言語理解)タスクを改善するために, 数百万の未ラベル例を活用し, 学生-教師フレームワークに基づく実運用用セミ・スーパーバイザード・ラーニング(SSL)パイプラインを提案する。 1)SSLトレーニングに有用な巨大な未ラベルデータプールからサンプルをどうやって選択するか,2) 選択したデータは,異なる最先端SSL技術の性能にどのように影響するか,という2つの質問について検討する。 我々は, Pseudo-Label (PL), Knowledge Distillation (KD), Virtual Adversarial Training (VAT), Cross-View Training (CVT) の4つのSSL技術と, 委員会ベース選択とサブモジュール最適化に基づく選択を含む2つのデータ選択手法を比較した。 さらに、意図分類(IC)および名前付きエンティティ認識(NER)タスクに適用した場合のこれらの手法の利点と欠点について検討し、これらの手法が大規模NLUシステムの改善に有効であるかどうかを示すガイドラインを提供する。

This paper presents a production Semi-Supervised Learning (SSL) pipeline based on the student-teacher framework, which leverages millions of unlabeled examples to improve Natural Language Understanding (NLU) tasks. We investigate two questions related to the use of unlabeled data in production SSL context: 1) how to select samples from a huge unlabeled data pool that are beneficial for SSL training, and 2) how do the selected data affect the performance of different state-of-the-art SSL techniques. We compare four widely used SSL techniques, Pseudo-Label (PL), Knowledge Distillation (KD), Virtual Adversarial Training (VAT) and Cross-View Training (CVT) in conjunction with two data selection methods including committee-based selection and submodular optimization based selection. We further examine the benefits and drawbacks of these techniques when applied to intent classification (IC) and named entity recognition (NER) tasks, and provide guidelines specifying when each of these methods might be beneficial to improve large scale NLU systems.
翻訳日:2021-04-01 08:26:58 公開日:2021-03-29
# (参考訳) ドラヴィダ言語における教師なし機械翻訳 [全文訳有]

Unsupervised Machine Translation On Dravidian Languages ( http://arxiv.org/abs/2103.15877v1 )

ライセンス: CC BY 4.0
Sai Koneru, Danni Liu and Jan Niehues(参考訳) unmt(unsupervised neural machine translation)は、特にドラヴィダ語族のような低リソース言語にとって有益である。 しかし、UNMTシステムは実際の低リソース言語を含む現実的なシナリオでは失敗する傾向がある。 近年,補助並列データの利用が提案され,最先端の成果が得られた。 本研究では,低資源のドラビダ語であるkannadaと英語の教師なし翻訳に注目した。 さらに,英語と関連するドラビダ語間の補助データも限定的に活用する。 ドラヴィダ語間の教師なし翻訳において,文章体系の統一が不可欠であることを示す。 我々は,知識共有を最大化し,遠方の言語ペアに対してunmtを実現するため,補助データを用いたモデルアーキテクチャをいくつか検討する。 我々の実験は、我々の焦点言語であるkannadaに類似した補助言語を含めることが重要であることを示している。 さらに,言語類似度を測定するための指標を提案し,補助言語選択の指標として有効であることを示す。

Unsupervised neural machine translation (UNMT) is beneficial especially for low resource languages such as those from the Dravidian family. However, UNMT systems tend to fail in realistic scenarios involving actual low resource languages. Recent works propose to utilize auxiliary parallel data and have achieved state-of-the-art results. In this work, we focus on unsupervised translation between English and Kannada, a low resource Dravidian language. We additionally utilize a limited amount of auxiliary data between English and other related Dravidian languages. We show that unifying the writing systems is essential in unsupervised translation between the Dravidian languages. We explore several model architectures that use the auxiliary data in order to maximize knowledge sharing and enable UNMT for distant language pairs. Our experiments demonstrate that it is crucial to include auxiliary languages that are similar to our focal language, Kannada. Furthermore, we propose a metric to measure language similarity and show that it serves as a good indicator for selecting the auxiliary languages.
翻訳日:2021-04-01 08:17:17 公開日:2021-03-29
# (参考訳) 敵攻撃に対する防御の自動化:脆弱性の発見と多点画像の展開モデル保護への応用 [全文訳有]

Automating Defense Against Adversarial Attacks: Discovery of Vulnerabilities and Application of Multi-INT Imagery to Protect Deployed Models ( http://arxiv.org/abs/2103.15897v1 )

ライセンス: CC BY 4.0
Josh Kalin, David Noever, Matthew Ciolino, Dominick Hambrick, Gerry Dozier(参考訳) 画像分類は、オーバーヘッドアプリケーションにおける機械学習のための画像認識の一般的なステップである。 MobileNetV2のような一般的なモデルアーキテクチャを適用する場合、既知の脆弱性は、既知のクラスを誤ってラベル付けしたり、ボックスの位置を変更したりして、モデルに反撃する。 この研究は、これらのモデルを守るための自動化アプローチを提案する。 我々は,マルチスペクトル画像アレイとアンサンブル学習器を用いて,敵対的攻撃と戦うことを評価する。 オリジナルのコントリビューションは攻撃を実証し、治療を提案し、敵に対するモデルの予測を保護するためにいくつかの重要な結果を自動化する。 サイバーネットワークの防衛と大まかに類似した方法では、攻撃的(赤チーム)と防御的(青チーム)の両方の手法を組み合わせて、ハイブリッドな保護結果(緑チーム)を生成します。 機械学習では、これらの手法を車載用3色チャネルと赤外線で実演する。 その結果脆弱性を発見し、特にオーバーヘッドケースでよく見られる補足的なデータ入力で修正する。

Image classification is a common step in image recognition for machine learning in overhead applications. When applying popular model architectures like MobileNetV2, known vulnerabilities expose the model to counter-attacks, either mislabeling a known class or altering box location. This work proposes an automated approach to defend these models. We evaluate the use of multi-spectral image arrays and ensemble learners to combat adversarial attacks. The original contribution demonstrates the attack, proposes a remedy, and automates some key outcomes for protecting the model's predictions against adversaries. In rough analogy to defending cyber-networks, we combine techniques from both offensive ("red team") and defensive ("blue team") approaches, thus generating a hybrid protective outcome ("green team"). For machine learning, we demonstrate these methods with 3-color channels plus infrared for vehicles. The outcome uncovers vulnerabilities and corrects them with supplemental data inputs commonly found in overhead cases particularly.
翻訳日:2021-04-01 08:05:40 公開日:2021-03-29
# (参考訳) 異なる畳み込み型ニューラルネットワークアクティベーション機能とアンサンブル構築方法の比較 [全文訳有]

Comparison of different convolutional neural network activa-tion functions and methods for building ensembles ( http://arxiv.org/abs/2103.15898v1 )

ライセンス: CC BY 4.0
Loris Nanni, Gianluca Maguolo, Sheryl Brahnam, Michelangelo Paci(参考訳) 近年,CNN層に対する高効率かつ強力な活性化関数の発見に注目が集まっている。 活性化関数は、性能に影響を与える層間で異なる非線形性を注入するため、CNNの堅牢なアンサンブルを構築するための1つの方法である。 本研究の目的は,2D Mexican ReLU, TanELU, MeLU+GaLU, Symmetric MeLU, Symmetric GaLU, Flexible MeLUの6種類の異なるアクティベーション機能を持つCNNアンサンブルの性能について検討することである。 最高パフォーマンスのアンサンブルは、標準のReLUをランダムに置き換える異なるアクティベーション層を持つCNNで構築された。 様々な分類課題を表す15のバイオメディカルデータセットを対象に,提案手法の総合評価を行った。 提案手法はvgg16とresnet50の2つの基本的なcnnアーキテクチャ上でテストされた。 結果は、このアプローチのパフォーマンスにおける優位性を示している。 この研究のMATLABソースコードはhttps://github.com/L orisNanni.comで入手できる。

Recently, much attention has been devoted to finding highly efficient and powerful activation functions for CNN layers. Because activation functions inject different nonlinearities between layers that affect performance, varying them is one method for building robust ensembles of CNNs. The objective of this study is to examine the performance of CNN ensembles made with different activation functions, including six new ones presented here: 2D Mexican ReLU, TanELU, MeLU+GaLU, Symmetric MeLU, Symmetric GaLU, and Flexible MeLU. The highest performing ensemble was built with CNNs having different activation layers that randomly replaced the standard ReLU. A comprehensive evaluation of the proposed approach was conducted across fifteen biomedical data sets representing various classification tasks. The proposed method was tested on two basic CNN architectures: Vgg16 and ResNet50. Results demonstrate the superiority in performance of this approach. The MATLAB source code for this study will be available at https://github.com/L orisNanni.
翻訳日:2021-04-01 08:00:09 公開日:2021-03-29
# (参考訳) コグニティブネットワークは、covid-19ワクチンに関する英語とイタリア語の人気のある投稿の内容:期待、物流、共謀、信頼の喪失 [全文訳有]

Cognitive networks identify the content of English and Italian popular posts about COVID-19 vaccines: Anticipation, logistics, conspiracy and loss of trust ( http://arxiv.org/abs/2103.15909v1 )

ライセンス: CC BY 4.0
Massimo Stella, Michael S. Vitevitch and Federico Botta(参考訳) 新型コロナウイルスワクチンに関する社会談話のモニタリングは、多くの人々が予防接種キャンペーンをどう受け止めるかを理解する鍵となる。 われわれは、2020年12月から2021年にかけての新型コロナウイルスワクチンについて、英語やイタリア語で4765のユニークな人気ツイートに焦点を当てている。 英語の人気ツイートは最大49万5000回も好まれ、認知的な大集団に人気ツイートが与えた影響を強調した。 ツイート中のテキストとマルチメディアの両方を調査し、視覚的特徴を含むメッセージにおける構文・意味関係の知識グラフを構築し、オンラインユーザーがワクチン配布のロジスティクスを中心にソーシャルな談話をどのように構成しているかを示す。 英語の「ワクチン」のセマンティック・フレームは、信頼と予測(ワクチンを科学的な資源として保存する)と怒りとサドネス(服用管理に関する重大な問題を含む)の間に非常に分極された。 セマンティック・アソシエーションと"vaccine"、"hoax"、"conspiratorial jargon"との結びつきは、陰謀論とワクチンの持続性を示している。 画像分析の結果、マスクを着用している人の画像を含む人気ツイートは、マスクを着けていない人を示すツイートに見られる信頼と喜びの欠如した言語を使用していたことが判明した。 行動分析では、ユーザーは喜び、悲しみ、嫌悪感を訴えるコンテンツを共有し、悲しみの少ないメッセージを好む傾向を示し、感情と感情以外のコンテンツ拡散との相互作用を強調した。 2021年3月半ばにアストラゼネカワクチンが中止され、「アストラゼネカ」は専門家が推進する信頼できる言語と結びついたが、イタリアで人気のツイートは、初期の信頼レベルを深い悲しみに置き換えることで「ワクチン」の枠を組んだ。 以上の結果から,認知ネットワークと革新的マルチメディア処理が,ワクチンや信頼に関するオンライン認識を再構築する新たな方法を開くことを強調した。

Monitoring social discourse about COVID-19 vaccines is key to understanding how large populations perceive vaccination campaigns. We focus on 4765 unique popular tweets in English or Italian about COVID-19 vaccines between 12/2020 and 03/2021. One popular English tweet was liked up to 495,000 times, stressing how popular tweets affected cognitively massive populations. We investigate both text and multimedia in tweets, building a knowledge graph of syntactic/semantic associations in messages including visual features and indicating how online users framed social discourse mostly around the logistics of vaccine distribution. The English semantic frame of "vaccine" was highly polarised between trust/anticipation (towards the vaccine as a scientific asset saving lives) and anger/sadness (mentioning critical issues with dose administering). Semantic associations with "vaccine," "hoax" and conspiratorial jargon indicated the persistence of conspiracy theories and vaccines in massively read English posts (absent in Italian messages). The image analysis found that popular tweets with images of people wearing face masks used language lacking the trust and joy found in tweets showing people with no masks, indicating a negative affect attributed to face covering in social discourse. A behavioural analysis revealed a tendency for users to share content eliciting joy, sadness and disgust and to like less sad messages, highlighting an interplay between emotions and content diffusion beyond sentiment. With the AstraZeneca vaccine being suspended in mid March 2021, "Astrazeneca" was associated with trustful language driven by experts, but popular Italian tweets framed "vaccine" by crucially replacing earlier levels of trust with deep sadness. Our results stress how cognitive networks and innovative multimedia processing open new ways for reconstructing online perceptions about vaccines and trust.
翻訳日:2021-04-01 07:39:39 公開日:2021-03-29
# (参考訳) 敵対的・介入的変遷下での学習 [全文訳有]

Learning Under Adversarial and Interventional Shifts ( http://arxiv.org/abs/2103.15933v1 )

ライセンス: CC BY 4.0
Harvineet Singh, Shalmali Joshi, Finale Doshi-Velez, Himabindu Lakkaraju(参考訳) 機械学習モデルは、しばしばあるディストリビューションのデータに基づいて訓練され、他のディストリビューションにデプロイされる。 したがって、分散シフトにロバストなモデルを設計することが重要になります。 既存の作業の多くは、敵のシフトや介入のシフトの最適化に重点を置いている。 adversarial methodsは、データ内のジョイント分布へのシフトを考えるときに、妥当なシフトを表す表現性に欠ける。 インターベンショナル手法はより表現性を高めるが、非有界なシフトに対して堅牢性を与え、過度に保守的なモデルをもたらす。 本研究では,この2つのアプローチの強みを相補的に結合し,敵と介入の交点にある分布シフトに対してロバストモデルを設計するための新しい定式化であるriseを提案する。 我々は,教師付き学習と強化学習の両方において,結果として得られる目標を最適化するために,分散的ロバストな最適化フレームワークを用いる。 医療からの合成および実世界のデータセットによる大規模な実験は、提案手法の有効性を実証する。

Machine learning models are often trained on data from one distribution and deployed on others. So it becomes important to design models that are robust to distribution shifts. Most of the existing work focuses on optimizing for either adversarial shifts or interventional shifts. Adversarial methods lack expressivity in representing plausible shifts as they consider shifts to joint distributions in the data. Interventional methods allow more expressivity but provide robustness to unbounded shifts, resulting in overly conservative models. In this work, we combine the complementary strengths of the two approaches and propose a new formulation, RISe, for designing robust models against a set of distribution shifts that are at the intersection of adversarial and interventional shifts. We employ the distributionally robust optimization framework to optimize the resulting objective in both supervised and reinforcement learning settings. Extensive experimentation with synthetic and real world datasets from healthcare demonstrate the efficacy of the proposed approach.
翻訳日:2021-04-01 07:20:13 公開日:2021-03-29
# (参考訳) 三重項分布埋め込みに基づくゼロショット学習の簡易化 [全文訳有]

A Simple Approach for Zero-Shot Learning based on Triplet Distribution Embeddings ( http://arxiv.org/abs/2103.15939v1 )

ライセンス: CC BY 4.0
Vivek Chalumuri, Bac Nguyen(参考訳) Zero-Shot Learning (ZSL) は、クラスの意味的記述を考慮し、目に見えるクラスと目見えないクラスの間の知識を含む意味情報を活用することによって、ラベル付けされたトレーニングデータなしで、目に見えないクラスを認識することを目的としている。 既存のZSL法は主にベクトルを用いて意味空間への埋め込みを表現する。 人気にもかかわらず、そのようなベクトル表現はクラスごとのクラス内変数のモデリングにおいて表現性を制限する。 分散埋め込みの利用を利用してこの問題に対処する。 具体的には、画像埋め込みとクラス埋め込みの両方をガウス分布としてモデル化し、その類似性関係は三重項制約を用いて保存される。 私たちのアプローチを導く重要な直感は、各イメージに対して、正しいクラスラベルの埋め込みは他のどのクラスラベルよりも近いべきであるということです。 複数のベンチマークデータセットに対する大規模な実験により、提案手法は従来のZSLとより困難な汎用ゼロショット学習(GZSL)設定の両方に対して高い競争力を発揮することが示された。

Given the semantic descriptions of classes, Zero-Shot Learning (ZSL) aims to recognize unseen classes without labeled training data by exploiting semantic information, which contains knowledge between seen and unseen classes. Existing ZSL methods mainly use vectors to represent the embeddings to the semantic space. Despite the popularity, such vector representation limits the expressivity in terms of modeling the intra-class variability for each class. We address this issue by leveraging the use of distribution embeddings. More specifically, both image embeddings and class embeddings are modeled as Gaussian distributions, where their similarity relationships are preserved through the use of triplet constraints. The key intuition which guides our approach is that for each image, the embedding of the correct class label should be closer than that of any other class label. Extensive experiments on multiple benchmark data sets show that the proposed method achieves highly competitive results for both traditional ZSL and more challenging Generalized Zero-Shot Learning (GZSL) settings.
翻訳日:2021-04-01 06:57:18 公開日:2021-03-29
# (参考訳) 16ビットニューラルネットワークトレーニングのための表現範囲の必要性 [全文訳有]

Representation range needs for 16-bit neural network training ( http://arxiv.org/abs/2103.15940v1 )

ライセンス: CC BY 4.0
Valentina Popescu and Abhinav Venigalla and Di Wu and Robert Schreiber(参考訳) ディープラーニングは、さまざまな現実世界のアプリケーションにまたがる最先端のパフォーマンスのおかげで、急速に成長している。 ニューラルネットワークはIEEE-754 binary32演算を用いてトレーニングされているが、ディープラーニングにおける計算要求の急速な増加は、高速で高精度なトレーニングへの関心を高めている。 IEEE-754 binary16とIEEE-754 binary32を組み合わせた混合精度トレーニングが試みられ、Googleのbfloat16のような16ドルビットフォーマットが人気を集めている。 浮動小数点算術では、指数ビットの数が変化するにつれて、精度と表現範囲の間にトレードオフがあり、非正規数は表現範囲を拡張する。 これは、バイナリ16(5指数ビット)とbfloat16(8指数ビット)の間にフォーマットが存在し、どちらよりもうまく機能するか、あるいは非正規化が必要かどうかという、指数範囲がどの程度必要かという疑問を提起する。 本稿では,混合精度トレーニングにおける非正規数の必要性について検討し,6ビット指数と9ビット明示マンティッサという1/6/9形式を提案する。 1/6/9混合精度トレーニングは,非正規演算の性能低下を招いたハードウェア上でのトレーニングを高速化したり,非正規演算の必要性を完全に排除できることを示す。 そして、コンピュータビジョンと自然言語処理における多くの完全連結および畳み込みニューラルネットワークに対して、1/6/9は標準的な混合精度と数値パリティを達成する。

Deep learning has grown rapidly thanks to its state-of-the-art performance across a wide range of real-world applications. While neural networks have been trained using IEEE-754 binary32 arithmetic, the rapid growth of computational demands in deep learning has boosted interest in faster, low precision training. Mixed-precision training that combines IEEE-754 binary16 with IEEE-754 binary32 has been tried, and other $16$-bit formats, for example Google's bfloat16, have become popular. In floating-point arithmetic there is a tradeoff between precision and representation range as the number of exponent bits changes; denormal numbers extend the representation range. This raises questions of how much exponent range is needed, of whether there is a format between binary16 (5 exponent bits) and bfloat16 (8 exponent bits) that works better than either of them, and whether or not denormals are necessary. In the current paper we study the need for denormal numbers for mixed-precision training, and we propose a 1/6/9 format, i.e., 6-bit exponent and 9-bit explicit mantissa, that offers a better range-precision tradeoff. We show that 1/6/9 mixed-precision training is able to speed up training on hardware that incurs a performance slowdown on denormal operations or eliminates the need for denormal numbers altogether. And, for a number of fully connected and convolutional neural networks in computer vision and natural language processing, 1/6/9 achieves numerical parity to standard mixed-precision.
翻訳日:2021-04-01 06:41:46 公開日:2021-03-29
# (参考訳) 深層マルチエージェント強化学習におけるシェーピングアドバイス [全文訳有]

Shaping Advice in Deep Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2103.15941v1 )

ライセンス: CC BY 4.0
Baicen Xiao, Bhaskar Ramasubramanian, Radha Poovendran(参考訳) マルチエージェント強化学習は、複数のエージェントが相互に相互作用し、タスクを完了させる共有環境を含む。 環境が与える報酬が少なすぎると、エージェントは行動の質について即座にフィードバックを受けられなくなり、ポリシーの学習に影響を及ぼす。 本稿では,深いマルチエージェント強化学習(SAM)におけるシェーピングアドバイスと呼ばれる手法を提案する。 シェーピングアドバイスは、連続した時間ステップにおけるポテンシャル関数の差によって与えられる。 それぞれのポテンシャル関数は、エージェントの観察と行動の関数である。 シェーピングアドバイスはトレーニングの開始時に一度だけ指定する必要があり、専門家でない人でも簡単に提供できる。 本研究では,SAMが提案する形状アドバイスが,環境報酬によって指定されたタスクの完了を妨げないことを示す。 理論的には、SAM を用いた場合のポリシー勾配と値関数の収束は、SAM が存在しない場合のこれらの量の収束を意味する。 実験により,スパース報酬を有する多エージェント粒子世界環境における3つの課題についてSAMを評価した。 samを利用することで、エージェントがより早くタスクを完了できるようにポリシーを学習し、より高い報酬を得るようになるのを観察する。

Multi-agent reinforcement learning involves multiple agents interacting with each other and a shared environment to complete tasks. When rewards provided by the environment are sparse, agents may not receive immediate feedback on the quality of actions that they take, thereby affecting learning of policies. In this paper, we propose a method called Shaping Advice in deep Multi-agent reinforcement learning (SAM) to augment the reward signal from the environment with an additional reward termed shaping advice. The shaping advice is given by a difference of potential functions at consecutive time-steps. Each potential function is a function of observations and actions of the agents. The shaping advice needs to be specified only once at the start of training, and can be easily provided by non-experts. We show through theoretical analyses and experimental validation that shaping advice provided by SAM does not distract agents from completing tasks specified by the environment reward. Theoretically, we prove that convergence of policy gradients and value functions when using SAM implies convergence of these quantities in the absence of SAM. Experimentally, we evaluate SAM on three tasks in the multi-agent Particle World environment that have sparse rewards. We observe that using SAM results in agents learning policies to complete tasks faster, and obtain higher rewards than: i) using sparse rewards alone; ii) a state-of-the-art reward redistribution method.
翻訳日:2021-04-01 06:29:16 公開日:2021-03-29
# (参考訳) 近傍混合モデルによるグラフノード相関のモデル化 [全文訳有]

Modeling Graph Node Correlations with Neighbor Mixture Models ( http://arxiv.org/abs/2103.15966v1 )

ライセンス: CC BY 4.0
Linfeng Liu, Michael Hughes, Li-Ping Liu(参考訳) 本稿では,グラフ内のノードラベルをモデル化するための新しいモデルであるneighne mixture model (nmm)を提案する。 このモデルは,周辺地域のノードのラベル間の相関を捉えることを目的としている。 私たちはモデルを慎重に設計し、マルコフ確率場の代わりに、より手頃な計算で代替できるようにしました。 特に、サンプルの描画と単一ラベルの限界確率の評価は線形時間で行うことができる。 計算を大きなグラフにスケールするために、余分なパラメータを導入することなく変動近似を考案する。 さらに、グラフニューラルネットワーク(GNN)を用いてNMMのパラメータ化を行い、表現表現学習を可能にしながら学習可能なパラメータの数を減らす。 提案したモデルは、大きな観測グラフに直接適合するか、あるいは、深い生成グラフモデルのような他の分布の相関を保存するスケーラブルな推論を可能にするために使用できる。 ノード分類,画像デノイング,リンク予測タスクの多種多様なセットにおいて,提案したNMMは,実世界のラベル付きグラフのモデリングにおける最先端の進歩を示す。

We propose a new model, the Neighbor Mixture Model (NMM), for modeling node labels in a graph. This model aims to capture correlations between the labels of nodes in a local neighborhood. We carefully design the model so it could be an alternative to a Markov Random Field but with more affordable computations. In particular, drawing samples and evaluating marginal probabilities of single labels can be done in linear time. To scale computations to large graphs, we devise a variational approximation without introducing extra parameters. We further use graph neural networks (GNNs) to parameterize the NMM, which reduces the number of learnable parameters while allowing expressive representation learning. The proposed model can be either fit directly to large observed graphs or used to enable scalable inference that preserves correlations for other distributions such as deep generative graph models. Across a diverse set of node classification, image denoising, and link prediction tasks, we show our proposed NMM advances the state-of-the-art in modeling real-world labeled graphs.
翻訳日:2021-04-01 06:11:31 公開日:2021-03-29
# (参考訳) ステレオカメラと擬似ライダーを用いた非構造環境木の検出とマッピング [全文訳有]

Detecting and Mapping Trees in Unstructured Environments with a Stereo Camera and Pseudo-Lidar ( http://arxiv.org/abs/2103.15967v1 )

ライセンス: CC BY 4.0
Brian H. Wang, Carlos Diaz-Ruiz, Jacopo Banfi, and Mark Campbell(参考訳) 本研究では,3次元物体検出装置を用いて,ノイズの多いステレオカメラ点群における木の検出とマッピングを行う。 ステレオデータに擬似ライダー表現を用いた3次元物体検出の最近の進歩に触発されて,森林のような環境下で木を認識するためにPointRCNN検出器を訓練した。 我々は、融合したグローバルポイントクラウドをクラスタリングする新しい自動ラベリングプロセスを用いて、検出器トレーニングデータを生成する。 このプロセスは、ユーザー監督を最小限にした大規模なステレオポイントクラウドトレーニングデータセットに注釈を付け、従来の擬似ライダー検出パイプラインとは異なり、ライダーのような他のセンサーから3次元の真実を要求されない。 我々のマッピングシステムは、カルマンフィルタを用いて検出を関連付け、木の位置と大きさを一貫して推定する。 8680個のステレオ点雲からなる木検出用データセットを収集し,屋外試験シーケンスで検証した。 本研究では,ステレオラブzed 2カメラの720p解像度画像から,最大7mの範囲のノイズステレオデータにおいてロバストなツリー認識を示す。 コードとデータはhttps://github.com/b rian-h-wang/pseudoli dar-tree-detectionで入手できる。

We present a method for detecting and mapping trees in noisy stereo camera point clouds, using a learned 3-D object detector. Inspired by recent advancements in 3-D object detection using a pseudo-lidar representation for stereo data, we train a PointRCNN detector to recognize trees in forest-like environments. We generate detector training data with a novel automatic labeling process that clusters a fused global point cloud. This process annotates large stereo point cloud training data sets with minimal user supervision, and unlike previous pseudo-lidar detection pipelines, requires no 3-D ground truth from other sensors such as lidar. Our mapping system additionally uses a Kalman filter to associate detections and consistently estimate the positions and sizes of trees. We collect a data set for tree detection consisting of 8680 stereo point clouds, and validate our method on an outdoors test sequence. Our results demonstrate robust tree recognition in noisy stereo data at ranges of up to 7 meters, on 720p resolution images from a Stereolabs ZED 2 camera. Code and data are available at https://github.com/b rian-h-wang/pseudoli dar-tree-detection.
翻訳日:2021-04-01 05:52:12 公開日:2021-03-29
# (参考訳) このベンチマークの外で動作しますか? Rigid Depth Constructorツールの導入, 大衆のための厳密なシーンにおける深度検証データセット構築 [全文訳有]

Does it work outside this benchmark? Introducing the Rigid Depth Constructor tool, depth validation dataset construction in rigid scenes for the masses ( http://arxiv.org/abs/2103.15970v1 )

ライセンス: CC BY-SA 4.0
Cl\'ement Pinard, Antoine Manzanera(参考訳) 我々は,ナビゲーションのための奥行き検証データセットを構築するプロトコルを提案する。 rdc for rigid depth constructorと呼ばれるこのプロトコルは、既存の技術よりもアクセスしやすく、安価で、カメラとlidarセンサーだけで始めることを目指している。 また,評価アルゴリズムから洞察力のある情報を得るためのテストスイートも開発した。 最後に、UAVビデオの例を取り、KITTIで最初にテストされた2つの深度アルゴリズムをテストし、ドローンのコンテキストが車内ビデオと劇的に異なることを示す。 これは、単一のコンテキストベンチマークは信頼性を考慮すべきではなく、深さ推定アルゴリズムを開発する際には、特定のニーズに最も適したデータセットでそれをベンチマークする必要があることを示している。 本稿では,このツールにオープンソース実装を提供し,可能な限りユーザフレンドリにすることで,小規模なチームでも詳細なデータセット作成を可能にする。 我々は、様々な画像、ビデオ、範囲のデータに適応し、密に注釈された深さの検証データセットを作成するための、完全で、オープンソースでほぼ完全に自動化されたソフトウェアアプリケーションを提案する。 特定の検証ニーズにデータセットを適用するための選択ツールと、他のデータセットフォーマットへの変換ツールが含まれている。 このアプリケーションを用いて,UAVナビゲーションのコンテキストで容易に使用可能な,屋外と屋内の2つの新しいデータセットを提案する。 最後に、包括的(例えば、)の集合を用いて、2つの深さ予測アルゴリズムの評価を示す。 分布に基づく)メトリクス。

We present a protocol to construct your own depth validation dataset for navigation. This protocol, called RDC for Rigid Depth Constructor, aims at being more accessible and cheaper than already existing techniques, requiring only a camera and a Lidar sensor to get started. We also develop a test suite to get insightful information from the evaluated algorithm. Finally, we take the example of UAV videos, on which we test two depth algorithms that were initially tested on KITTI and show that the drone context is dramatically different from in-car videos. This shows that a single context benchmark should not be considered reliable, and when developing a depth estimation algorithm, one should benchmark it on a dataset that best fits one's particular needs, which often means creating a brand new one. Along with this paper we provide the tool with an open source implementation and plan to make it as user-friendly as possible, to make depth dataset creation possible even for small teams. Our key contributions are the following: We propose a complete, open-source and almost fully automatic software application for creating validation datasets with densely annotated depth, adaptable to a wide variety of image, video and range data. It includes selection tools to adapt the dataset to specific validation needs, and conversion tools to other dataset formats. Using this application, we propose two new real datasets, outdoor and indoor, readily usable in UAV navigation context. Finally as examples, we show an evaluation of two depth prediction algorithms, using a collection of comprehensive (e.g. distribution based) metrics.
翻訳日:2021-04-01 05:38:42 公開日:2021-03-29
# (参考訳) マイクロコントローラへのPyTorchモデル展開のための深部圧縮 [全文訳有]

Deep Compression for PyTorch Model Deployment on Microcontrollers ( http://arxiv.org/abs/2103.15972v1 )

ライセンス: CC BY 4.0
Eren Dogan, H. Fatih Ugurdag, Hasan Unlu(参考訳) 低コストな組み込みシステム、すなわちマイクロコントローラ(mcu)上でのニューラルネットワークのデプロイメントは、最近はこれまで以上に注目を集めている。 MCUはメモリ容量に制限があり、計算速度に制限があるため、我々はメモリと計算速度の両方の要求を減らすモデル圧縮を採用することが重要である。 本稿では、モデル圧縮、特にDeep Compressionを追加し、MCUにPyTorchモデルを効率的にデプロイするarXivに関するUnluの初期の作業を最適化する。 まず、重みを畳み込み層と完全連結層に重み付けする。 次に、残りの重みとアクティベーションを32ビット浮動小数点から8ビット整数に量子化する。 最後に、フォワードパス関数はスパース行列のための特別なデータ構造を使用して圧縮される。 LeNet-5モデルの場合、メモリフットプリントは12.45倍に削減され、推論速度は2.57倍に向上した。

Neural network deployment on low-cost embedded systems, hence on microcontrollers (MCUs), has recently been attracting more attention than ever. Since MCUs have limited memory capacity as well as limited compute-speed, it is critical that we employ model compression, which reduces both memory and compute-speed requirements. In this paper, we add model compression, specifically Deep Compression, and further optimize Unlu's earlier work on arXiv, which efficiently deploys PyTorch models on MCUs. First, we prune the weights in convolutional and fully connected layers. Secondly, the remaining weights and activations are quantized to 8-bit integers from 32-bit floating-point. Finally, forward pass functions are compressed using special data structures for sparse matrices, which store only nonzero weights (without impacting performance and accuracy). In the case of the LeNet-5 model, the memory footprint was reduced by 12.45x, and the inference speed was boosted by 2.57x.
翻訳日:2021-04-01 05:22:12 公開日:2021-03-29
# (参考訳) TransFill:複数色と空間変換を組み合わせた参照誘導画像の描画 [全文訳有]

TransFill: Reference-guided Image Inpainting by Merging Multiple Color and Spatial Transformations ( http://arxiv.org/abs/2103.15982v1 )

ライセンス: CC BY 4.0
Yuqian Zhou, Connelly Barnes, Eli Shechtman, Sohrab Amirghodsi(参考訳) 画像インペインティングは、対象画像から削除されるホール領域内の欠落画素を適切に復元するタスクである。 既存の技術のほとんどは、イメージ内のパッチの類似性を利用するか、大規模トレーニングデータを利用して学習したセマンティック情報とテクスチャ情報を使用して穴を埋める。 しかし、塗装作業が不適切であることから、複雑なシーンを含む大きな穴を埋めるのに苦労している。 本稿では,対象画像とシーン内容を共有する別のソース画像を参照して,穴を埋めるマルチホモグラフィ変換核融合法であるtransfillを提案する。 まず,異なる深さレベルに導かれた複数のホモグラフィを推定することにより,対象画像と対象画像とを整合させる。 次に、色を調整し、各ホモグラフィ処理したソース画像に画素レベルのワープを適用し、ターゲットとより整合性を持たせる。 最後に、ピクセルレベルの融合モジュールが学習され、異なる提案を選択的にマージする。 本手法は,多種多様なベースラインと色差にまたがる画像対の最先端性能を実現し,ユーザ提供画像対に一般化する。

Image inpainting is the task of plausibly restoring missing pixels within a hole region that is to be removed from a target image. Most existing technologies exploit patch similarities within the image, or leverage large-scale training data to fill the hole using learned semantic and texture information. However, due to the ill-posed nature of the inpainting task, such methods struggle to complete larger holes containing complicated scenes. In this paper, we propose TransFill, a multi-homography transformed fusion method to fill the hole by referring to another source image that shares scene contents with the target image. We first align the source image to the target image by estimating multiple homographies guided by different depth levels. We then learn to adjust the color and apply a pixel-level warping to each homography-warped source image to make it more consistent with the target. Finally, a pixel-level fusion module is learned to selectively merge the different proposals. Our method achieves state-of-the-art performance on pairs of images across a variety of wide baselines and color differences, and generalizes to user-provided image pairs.
翻訳日:2021-04-01 05:15:19 公開日:2021-03-29
# Twiのためのコンテキストテキスト埋め込み

Contextual Text Embeddings for Twi ( http://arxiv.org/abs/2103.15963v1 )

ライセンス: Link先を確認
Paul Azunre, Salomey Osei, Salomey Addo, Lawrence Asamoah Adu-Gyamfi, Stephen Moore, Bernard Adabankah, Bernard Opoku, Clara Asare-Nyarko, Samuel Nyarko, Cynthia Amoaba, Esther Dansoa Appiah, Felix Akwerh, Richard Nii Lante Lawson, Joel Budu, Emmanuel Debrah, Nana Boateng, Wisdom Ofori, Edwin Buabeng-Munkoh, Franklin Adjei, Isaac Kojo Essel Ampomah, Joseph Otoo, Reindorf Borkor, Standylove Birago Mensah, Lucien Mensah, Mark Amoako Marcel, Anokye Acheampong Amponsah, James Ben Hayfron-Acquah(参考訳) トランスフォーマーベースの言語モデルは、英語、中国語、ロシア語などの高ソース言語に対する現代の自然言語処理(NLP)の状況を変えつつある。 しかし、この技術はガーナ語ではまだ存在していない。 本稿では、最も広く話されているガーナ語であるtwiまたはakanの最初のモデルを紹介する。 この研究の具体的な貢献は、Twiのアクアペム方言とアサンテ方言のための事前訓練されたトランスフォーマー言語モデルの開発であり、名前付きエンティティ認識(NER)、ニューラル機械翻訳(NMT)、感性分析(SA)、部分音声タグ付け(POS)といった応用分野における進歩の道を開くものである。 具体的には、Akan corporaのセットを微調整したAkanのBERTモデルと、AkanナレッジのみをスクラッチからトレーニングしたBAKO-BERTの4つの異なる風味を紹介する。 我々はHugging Faceモデルハブを通じてモデルをオープンソース化し、単純な感情分類の例を通してその使用を実証する。

Transformer-based language models have been changing the modern Natural Language Processing (NLP) landscape for high-resource languages such as English, Chinese, Russian, etc. However, this technology does not yet exist for any Ghanaian language. In this paper, we introduce the first of such models for Twi or Akan, the most widely spoken Ghanaian language. The specific contribution of this research work is the development of several pretrained transformer language models for the Akuapem and Asante dialects of Twi, paving the way for advances in application areas such as Named Entity Recognition (NER), Neural Machine Translation (NMT), Sentiment Analysis (SA) and Part-of-Speech (POS) tagging. Specifically, we introduce four different flavours of ABENA -- A BERT model Now in Akan that is fine-tuned on a set of Akan corpora, and BAKO - BERT with Akan Knowledge only, which is trained from scratch. We open-source the model through the Hugging Face model hub and demonstrate its use via a simple sentiment classification example.
翻訳日:2021-03-31 15:15:55 公開日:2021-03-29
# 辞書学習による変圧器の可視化:変圧器因子の線形重ね合わせとしての文脈的埋め込み

Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors ( http://arxiv.org/abs/2103.15949v1 )

ライセンス: Link先を確認
Zeyu Yun, Yubei Chen, Bruno A Olshausen, Yann LeCun(参考訳) トランスフォーマーネットワークは、導入以来、NLP表現学習に革命をもたらした。 変圧器の表現を説明するために多大な努力がなされているが、我々の理解は不十分であると広く認識されている。 重要な理由は、詳細な分析に十分な視覚化ツールがないことである。 本稿では,これらの「ブラックボックス」を変換因子の線形重ね合わせとして辞書学習を利用することを提案する。 可視化を通して、変換因子によってキャプチャされた階層的意味構造を実証する。 単語レベルのポリセミーの曖昧さ、文レベルのパターン形成、長距離依存。 これらのパターンの中には、従来の言語知識を裏付けるものもあるが、残りは比較的予期せず、新たな洞察を与える可能性がある。 この視覚化ツールによって、トランスフォーマーネットワークの動作に関するさらなる知識と理解が深まることを願っています。

Transformer networks have revolutionized NLP representation learning since they were introduced. Though a great effort has been made to explain the representation in transformers, it is widely recognized that our understanding is not sufficient. One important reason is that there lack enough visualization tools for detailed analysis. In this paper, we propose to use dictionary learning to open up these `black boxes' as linear superpositions of transformer factors. Through visualization, we demonstrate the hierarchical semantic structures captured by the transformer factors, e.g. word-level polysemy disambiguation, sentence-level pattern formation, and long-range dependency. While some of these patterns confirm the conventional prior linguistic knowledge, the rest are relatively unexpected, which may provide new insights. We hope this visualization tool can bring further knowledge and a better understanding of how transformer networks work.
翻訳日:2021-03-31 15:13:50 公開日:2021-03-29
# 深層強化学習による自動ゲームテストの強化

Augmenting Automated Game Testing with Deep Reinforcement Learning ( http://arxiv.org/abs/2103.15819v1 )

ライセンス: Link先を確認
Joakim Bergdahl, Camilo Gordillo, Konrad Tollmar, Linus Gissl\'en(参考訳) 一般的なゲームテストは、人間プレイテスターの使用、テストスクリプティングのプレイ、関連するテストデータを生成するための関心領域の事前知識に依存している。 深層強化学習(DRL)を用いて,ゲームテストフレームワークに自己学習機構を導入する。 DRLにより、このフレームワークは、ユーザーが定義した報酬信号に基づいてゲームメカニクスを探索および/または活用することができる。 その結果、テストカバレッジが増加し、意図しないゲームプレイメカニズム、エクスプロイト、バグが多数のゲームタイプで発見される。 本稿では,テストカバレッジの向上,エクスプロイトの発見,テストマップの難易度,およびfps(first-person shooter)ゲームのテストで発生する一般的な問題の検出に,drlが利用できることを示す。

General game testing relies on the use of human play testers, play test scripting, and prior knowledge of areas of interest to produce relevant test data. Using deep reinforcement learning (DRL), we introduce a self-learning mechanism to the game testing framework. With DRL, the framework is capable of exploring and/or exploiting the game mechanics based on a user-defined, reinforcing reward signal. As a result, test coverage is increased and unintended game play mechanics, exploits and bugs are discovered in a multitude of game types. In this paper, we show that DRL can be used to increase test coverage, find exploits, test map difficulty, and to detect common problems that arise in the testing of first-person shooter (FPS) games.
翻訳日:2021-03-31 15:13:14 公開日:2021-03-29
# 一般化可能な人物再同定のための領域不変表現の学習

Learning Domain Invariant Representations for Generalizable Person Re-Identification ( http://arxiv.org/abs/2103.15890v1 )

ライセンス: Link先を確認
Yi-Fan Zhang, Hanlin Zhang, Zhang Zhang, Da Li, Zhen Jia, Liang Wang, Tieniu Tan(参考訳) ReID(Generalizable person Re-Identification)は、新しい環境でモデルの再トレーニングを必要とせず、利用可能なReIDモデルを提供するため、最近のコンピュータビジョンコミュニティで注目を集めている。 本研究では,ReIDに因果性を導入し,一般化可能なReID(DIR-ReID)のためのドメイン不変表現(Domain Invariant Representations)という新しい一般化可能なフレームワークを提案する。 データ生成プロセスは2つの要因、すなわち2つの要因によって制御されていると仮定する。 アイデンティティに関連する手がかりを含むアイデンティティ固有の要因と、ドメイン間の分散シフトを引き起こす他のシーン関連情報を記述するドメイン固有の要因。 上記の仮定により、MDDAN(Multi-Domain Disentangled Adversarial Network)はこれらの2つの要因を解き放つように設計されている。 さらに、因果学習の観点から潜在因子の介入として説明できる、ドメイン不変表現の改善のための特徴レベルのデータ拡張を行うために、因果データ拡張(CDA)ブロックを提案する。 DIR-ReIDは大規模ドメイン一般化(DG)のReIDベンチマークにおいて最先端の手法よりも優れていることを示す大規模な実験が実施されている。 さらに,本手法をよりよく理解するための理論的解析を行った。

Generalizable person Re-Identification (ReID) has attracted growing attention in recent computer vision community, as it offers ready-to-use ReID models without the need for model retraining in new environments. In this work, we introduce causality into person ReID and propose a novel generalizable framework, named Domain Invariant Representations for generalizable person Re-Identification (DIR-ReID). We assume the data generation process is controlled by two sets of factors, i.e. identity-specific factors containing identity related cues, and domain-specific factors describing other scene-related information which cause distribution shifts across domains. With the assumption above, a novel Multi-Domain Disentangled Adversarial Network (MDDAN) is designed to disentangle these two sets of factors. Furthermore, a Causal Data Augmentation (CDA) block is proposed to perform feature-level data augmentation for better domain-invariant representations, which can be explained as interventions on latent factors from a causal learning perspective. Extensive experiments have been conducted, showing that DIR-ReID outperforms state-of-the-art methods on large-scale domain generalization (DG) ReID benchmarks. Moreover, a theoretical analysis is provided for a better understanding of our method.
翻訳日:2021-03-31 15:11:26 公開日:2021-03-29
# Entity Context Graph:Web上のSemi-Structuredテキストソースからエンティティ表現を学ぶ

Entity Context Graph: Learning Entity Representations fromSemi-Structured Textual Sources on the Web ( http://arxiv.org/abs/2103.15950v1 )

ライセンス: Link先を確認
Kalpa Gunaratna, Yu Wang, Hongxia Jin(参考訳) 知識はエンティティとその関係の形でキャプチャされ、知識グラフに格納される。 知識グラフは、Web検索、レコメンデーション、自然言語理解など、さまざまな分野のアプリケーションの能力を高める。 これは主に、エンティティが機械に単純なトークン以上のことを理解できるようにするためである。 多くの現代のアルゴリズムは、これらの構造化表現から学習されたエンティティ埋め込みを使用する。 しかし、知識グラフの構築には時間と労力がかかります。 一方で、多くのWebソースが構造化形式のエンティティを記述しているため、有用なエンティティ知識を得る方法を見つけることは有利である。 本稿では,エンティティ中心のテキスト知識ソースを処理してエンティティ埋め込みを学習し,従来の知識グラフの必要性を回避するアプローチを提案する。 まず、あらかじめ決定された関係ラベルによって定義される従来の複雑な三重項抽出法を使用しない新しい表現形式に三重項を抽出する。 次に、この新しいタイプのトリプルを通じてエンティティ埋め込みを学ぶ。 i) 高品質で既知の知識グラフベースの埋め込みに匹敵し、それらをさらに改善するために使用できること、(ii) 文脈言語モデルベースのエンティティ埋め込みよりも優れたこと、(iii) 知識グラフが手軽に利用できないドメイン固有アプリケーションにおいて、計算が容易で汎用性の高いこと、である。

Knowledge is captured in the form of entities and their relationships and stored in knowledge graphs. Knowledge graphs enhance the capabilities of applications in many different areas including Web search, recommendation, and natural language understanding. This is mainly because, entities enable machines to understand things that go beyond simple tokens. Many modern algorithms use learned entity embeddings from these structured representations. However, building a knowledge graph takes time and effort, hence very costly and nontrivial. On the other hand, many Web sources describe entities in some structured format and therefore, finding ways to get them into useful entity knowledge is advantageous. We propose an approach that processes entity centric textual knowledge sources to learn entity embeddings and in turn avoids the need for a traditional knowledge graph. We first extract triples into the new representation format that does not use traditional complex triple extraction methods defined by pre-determined relationship labels. Then we learn entity embeddings through this new type of triples. We show that the embeddings learned from our approach are: (i) high quality and comparable to a known knowledge graph-based embeddings and can be used to improve them further, (ii) better than a contextual language model-based entity embeddings, and (iii) easy to compute and versatile in domain-specific applications where a knowledge graph is not readily available
翻訳日:2021-03-31 15:08:43 公開日:2021-03-29
# ミストリビューションを用いたトロイの木馬モデルのオンライン防御

Online Defense of Trojaned Models using Misattributions ( http://arxiv.org/abs/2103.15918v1 )

ライセンス: Link先を確認
Panagiota Kiourti, Wenchao Li, Anirban Roy, Karan Sikka, and Susmit Jha(参考訳) 本稿では,推論中にディープニューラルネットワーク上でニューラルトロイの木馬を検出する新しい手法を提案する。 このアプローチは、機械学習モデルの推論を監視し、入力の異なる特徴に対するモデルの決定の属性を計算し、これらの属性を統計的に分析して、入力サンプルがトロイの木馬トリガを含むかどうかを検出する。 異常帰属、いわゆる誤帰帰属はトリガーのリバースエンジニアリングを伴い、インプットサンプルが本当にトロイジャントリガーで毒されているかどうかを評価する。 我々はMNIST, Fashion MNIST, German Traffic Sign Recognition Benchmarkで訓練されたモデルを含む,いくつかのベンチマークに対するアプローチを評価し, 検出精度の検証を行った。

This paper proposes a new approach to detecting neural Trojans on Deep Neural Networks during inference. This approach is based on monitoring the inference of a machine learning model, computing the attribution of the model's decision on different features of the input, and then statistically analyzing these attributions to detect whether an input sample contains the Trojan trigger. The anomalous attributions, aka misattributions, are then accompanied by reverse-engineering of the trigger to evaluate whether the input sample is truly poisoned with a Trojan trigger. We evaluate our approach on several benchmarks, including models trained on MNIST, Fashion MNIST, and German Traffic Sign Recognition Benchmark, and demonstrate the state of the art detection accuracy.
翻訳日:2021-03-31 15:07:55 公開日:2021-03-29
# 非凸強凹ミニマックス最適化の複雑さ

The Complexity of Nonconvex-Strongly-C oncave Minimax Optimization ( http://arxiv.org/abs/2103.15888v1 )

ライセンス: Link先を確認
Siqi Zhang, Junchi Yang, Crist\'obal Guzm\'an, Negar Kiyavash, Niao He(参考訳) 本稿では,非凸強凸(nc-sc)滑らかなミニマックス問題の近似定常点を求めるための複雑性について検討する。 非自明な低複雑性境界である$\omega(\sqrt{\kappa}\delta l\epsilon^{-2})$と$\omega(n+\sqrt{n\kappa}\delta l\epsilon^{-2})$を2つの設定で定め、ここで$\kappa$は条件数、$l$は滑らか性定数、$\delta$は初期ギャップである。 以上の結果から,これらの限界と文献上の最もよく知られた上限との間に有意なギャップが明らかとなった。 これらのギャップを埋めるために,既存の勾配に基づく手法を展開し,強凸強凸部分問題を解く汎用的な加速度法を提案する。 一般的な設定では、提案アルゴリズムの複雑さは下界とほぼ一致し、特に、以前の研究における精度に対する追加の多対数依存を除去する。 平均的な平滑な有限サム設定では,提案アルゴリズムは条件数にほぼ強く依存することで,従来のアルゴリズムよりも改善する。

This paper studies the complexity for finding approximate stationary points of nonconvex-strongly-c oncave (NC-SC) smooth minimax problems, in both general and averaged smooth finite-sum settings. We establish nontrivial lower complexity bounds of $\Omega(\sqrt{\kappa}\Delta L\epsilon^{-2})$ and $\Omega(n+\sqrt{n\kappa}\Delta L\epsilon^{-2})$ for the two settings, respectively, where $\kappa$ is the condition number, $L$ is the smoothness constant, and $\Delta$ is the initial gap. Our result reveals substantial gaps between these limits and best-known upper bounds in the literature. To close these gaps, we introduce a generic acceleration scheme that deploys existing gradient-based methods to solve a sequence of crafted strongly-convex-stro ngly-concave subproblems. In the general setting, the complexity of our proposed algorithm nearly matches the lower bound; in particular, it removes an additional poly-logarithmic dependence on accuracy present in previous works. In the averaged smooth finite-sum setting, our proposed algorithm improves over previous algorithms by providing a nearly-tight dependence on the condition number.
翻訳日:2021-03-31 15:07:42 公開日:2021-03-29
# 相互作用変数のモデルとしての制限ボルツマンマシン

Restricted Boltzmann Machines as Models of Interacting Variables ( http://arxiv.org/abs/2103.15917v1 )

ライセンス: Link先を確認
Nicola Bulso, Yasser Roudi(参考訳) 本研究では,リミテッド・ボルツマン・マシン(RBM)と異なるアクティベーション関数を持つ分布のタイプについて,隠れたノードのアクティベーション関数が観測されたバイナリノードに課す限界分布に与える影響を調べた。 隠れノードのアクティベーション関数に依存する相互作用の明示的な形式と相互作用するバイナリ変数のモデルとして,これらの辺りの正確な表現を報告する。 我々はこれらの相互作用の性質を詳細に研究し、RBMがバイナリ変数上の分布を近似する精度が隠れノード活性化関数と隠れノード数に依存するかを評価する。 推定されたRBMパラメータが弱い場合には、アクティベーション関数間の差を大幅に低減する相互作用項の表現に対して直感的なパターンが見つかる。 弱パラメータ近似は,MNISTデータセット上で訓練された異なるRBMに対してよい近似であることを示す。 興味深いことに、これらの場合のマッピングにより、推論されたモデルは本質的に低次相互作用モデルであることが分かる。

We study the type of distributions that Restricted Boltzmann Machines (RBMs) with different activation functions can express by investigating the effect of the activation function of the hidden nodes on the marginal distribution they impose on observed binary nodes. We report an exact expression for these marginals in the form of a model of interacting binary variables with the explicit form of the interactions depending on the hidden node activation function. We study the properties of these interactions in detail and evaluate how the accuracy with which the RBM approximates distributions over binary variables depends on the hidden node activation function and on the number of hidden nodes. When the inferred RBM parameters are weak, an intuitive pattern is found for the expression of the interaction terms which reduces substantially the differences across activation functions. We show that the weak parameter approximation is a good approximation for different RBMs trained on the MNIST dataset. Interestingly, in these cases, the mapping reveals that the inferred models are essentially low order interaction models.
翻訳日:2021-03-31 15:07:14 公開日:2021-03-29
# Aspect-based Sentiment Analysisのためのハイブリッドアプローチにおけるデータ拡張

Data Augmentation in a Hybrid Approach for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2103.15912v1 )

ライセンス: Link先を確認
Tomas Liesting, Flavius Frasincar, Maria Mihaela Trusca(参考訳) データ拡張は、元のデータに制約付き変換を適用することで、利用可能なデータの多様性を高める方法である。 この戦略は画像分類において広く用いられてきたが,アスペクトベース感情分析(ABSA)では,私たちの知る限りでは十分である。 ABSAは、意見テキストにおける側面とその関連する感情を決定するテキスト分析技術である。 本稿では、アスペクトベース感情分析(HAABSA)のための最先端ハイブリッドアプローチにおけるデータ拡張の効果について検討する。 簡単なデータ拡張(EDA)、バックトランスレーション、単語ミックスアップの修正版を適用した。 提案手法をSemEval 2015とSemEval 2016データセットで評価した。 最良の結果は、調整されたedaのバージョンで得られ、semeval 2016データセットでは0.5ポイント改善され、semeval 2015データセットではオリジナルのhaabsaモデルと比較して1ポイント向上する。

Data augmentation is a way to increase the diversity of available data by applying constrained transformations on the original data. This strategy has been widely used in image classification but has to the best of our knowledge not yet been used in aspect-based sentiment analysis (ABSA). ABSA is a text analysis technique that determines aspects and their associated sentiment in opinionated text. In this paper, we investigate the effect of data augmentation on a state-of-the-art hybrid approach for aspect-based sentiment analysis (HAABSA). We apply modified versions of easy data augmentation (EDA), backtranslation, and word mixup. We evaluate the proposed techniques on the SemEval 2015 and SemEval 2016 datasets. The best result is obtained with the adjusted version of EDA, which yields a 0.5 percentage point improvement on the SemEval 2016 dataset and 1 percentage point increase on the SemEval 2015 dataset compared to the original HAABSA model.
翻訳日:2021-03-31 15:04:10 公開日:2021-03-29
# 診断分類を用いたアスペクトベース感情分類のための神経的注意モデルの説明

Explaining a Neural Attention Model for Aspect-Based Sentiment Classification Using Diagnostic Classification ( http://arxiv.org/abs/2103.15927v1 )

ライセンス: Link先を確認
Lisa Meijer, Flavius Frasincar, Maria Mihaela Trusca(参考訳) Aspect-Based Sentiment Classification (ABSC) のための高性能機械学習モデルの多くはブラックボックスモデルを生成するため、特定の感情値をアスペクトに対してどのように分類するかはほとんど説明できない。 本稿では、診断分類と呼ばれる手法を用いて、最先端のニューラルアテンションモデルであるLCR-Rot-hopの内部ダイナミクスを検査する説明モデルを提案する。 診断分類器は,lcr-rot-hopモデルの内部層が,音声の一部,感情値,アスペクト関係の有無,単語のアスペクト関連感情値などの分類に有用な単語情報を符号化しているかを評価する,単純なニューラルネットワークである。 結論として,lcr-rot-hopモデルの下位層は音声の一部と感情値を符号化し,上位層は単語のアスペクトとアスペクト関連感情値との関係を表現している。

Many high performance machine learning models for Aspect-Based Sentiment Classification (ABSC) produce black box models, and therefore barely explain how they classify a certain sentiment value towards an aspect. In this paper, we propose explanation models, that inspect the internal dynamics of a state-of-the-art neural attention model, the LCR-Rot-hop, by using a technique called Diagnostic Classification. Our diagnostic classifier is a simple neural network, which evaluates whether the internal layers of the LCR-Rot-hop model encode useful word information for classification, i.e., the part of speech, the sentiment value, the presence of aspect relation, and the aspect-related sentiment value of words. We conclude that the lower layers in the LCR-Rot-hop model encode the part of speech and the sentiment value, whereas the higher layers represent the presence of a relation with the aspect and the aspect-related sentiment value of words.
翻訳日:2021-03-31 15:03:57 公開日:2021-03-29
# 位置インテリジェンスのためのプラットフォーム

Platform for Situated Intelligence ( http://arxiv.org/abs/2103.15975v1 )

ライセンス: Link先を確認
Dan Bohus, Sean Andrist, Ashley Feniello, Nick Saw, Mihai Jalobeanu, Patrick Sweeney, Anne Loomis Thompson, Eric Horvitz(参考訳) マルチモーダル統合AIシステムの迅速な開発と研究を支援するオープンソースフレームワークであるPlatform for Situated Intelligenceを紹介する。 このフレームワークは、異なるモダリティにまたがるデータの時間的ストリームからの推論、可視化とデバッグを可能にする一連のツール、様々な知覚と処理技術をカプセル化するコンポーネントのエコシステムを検知、融合、および作成するためのインフラストラクチャを提供する。 これらの資産は、オープンワールド環境でのデプロイメントに必要な効率性と性能特性を維持しつつ、マルチモーダルな統合AIシステムを迅速に構築、精製する手段を共同で提供する。

We introduce Platform for Situated Intelligence, an open-source framework created to support the rapid development and study of multimodal, integrative-AI systems. The framework provides infrastructure for sensing, fusing, and making inferences from temporal streams of data across different modalities, a set of tools that enable visualization and debugging, and an ecosystem of components that encapsulate a variety of perception and processing technologies. These assets jointly provide the means for rapidly constructing and refining multimodal, integrative-AI systems, while retaining the efficiency and performance characteristics required for deployment in open-world settings.
翻訳日:2021-03-31 15:03:40 公開日:2021-03-29
# In-Place Scene Labelling and Understanding with Implicit Scene Representation

In-Place Scene Labelling and Understanding with Implicit Scene Representation ( http://arxiv.org/abs/2103.15875v1 )

ライセンス: Link先を確認
Shuaifeng Zhi, Tristan Laidlow, Stefan Leutenegger, Andrew J. Davison(参考訳) セマンティックなラベリングは幾何学や放射率再構成と強く相関しており、類似の形状や外観を持つシーンの実体は類似のクラスから来る可能性が高い。 最近の暗黙的な神経再構築技術は、事前のトレーニングデータを必要としないため、魅力的であるが、ラベルが人間定義プロパティであるため、意味論では、同じ完全に自己管理的なアプローチは不可能である。 ニューラル・ラジアンス・フィールド(nerf)を拡張してセマンティクスと外観と幾何学を共同でエンコードすることで,シーン特有の少量のインプレースアノテーションを用いて,完全かつ正確な2dセマンティクスラベルを実現する。 スパースラベルを効率よく伝播させることにより、NeRF利益セマンティクスの本質的な多視点一貫性と滑らか性を実現する。 このアプローチの利点は、ルームスケールのシーンでラベルがばらばらか、あるいは非常に騒がしい場合に示します。 視覚意味マッピングシステムにおいて,効率的なシーンラベリングツール,新しい意味ビュー合成,ラベルデノイジング,超解像,ラベル補間,マルチビュー意味ラベラル融合など,様々な興味深いアプリケーションでその利点を示す。

Semantic labelling is highly correlated with geometry and radiance reconstruction, as scene entities with similar shape and appearance are more likely to come from similar classes. Recent implicit neural reconstruction techniques are appealing as they do not require prior training data, but the same fully self-supervised approach is not possible for semantics because labels are human-defined properties. We extend neural radiance fields (NeRF) to jointly encode semantics with appearance and geometry, so that complete and accurate 2D semantic labels can be achieved using a small amount of in-place annotations specific to the scene. The intrinsic multi-view consistency and smoothness of NeRF benefit semantics by enabling sparse labels to efficiently propagate. We show the benefit of this approach when labels are either sparse or very noisy in room-scale scenes. We demonstrate its advantageous properties in various interesting applications such as an efficient scene labelling tool, novel semantic view synthesis, label denoising, super-resolution, label interpolation and multi-view semantic label fusion in visual semantic mapping systems.
翻訳日:2021-03-31 15:03:24 公開日:2021-03-29
# Sign Language Production: レビュー

Sign Language Production: A Review ( http://arxiv.org/abs/2103.15910v1 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera, Mohammad Sabokrou(参考訳) 手話 (Sign Language) は、聴覚障害と聴覚障害のコミュニティで使われるコミュニケーション言語である。 難聴者と難聴者コミュニティとのコミュニケーションが容易かつ相互に行えるようにし、音声言語を手話に翻訳できるロバストなシステムを構築することが基本である。 この目的のために、手話認識と生産は、このような双方向システムを作るのに必要な2つの部分である。 言語認識と生産はいくつかの重要な課題に対処する必要がある。 本稿では,手話生成(SLP)とその関連分野の最近の進歩を,ディープラーニングを用いて概観する。 本調査は, SLPにおける最近の成果を要約し, そのメリット, 限界, 今後の研究方向性について議論することを目的とする。

Sign Language is the dominant yet non-primary form of communication language used in the deaf and hearing-impaired community. To make an easy and mutual communication between the hearing-impaired and the hearing communities, building a robust system capable of translating the spoken language into sign language and vice versa is fundamental. To this end, sign language recognition and production are two necessary parts for making such a two-way system. Sign language recognition and production need to cope with some critical challenges. In this survey, we review recent advances in Sign Language Production (SLP) and related areas using deep learning. This survey aims to briefly summarize recent achievements in SLP, discussing their advantages, limitations, and future directions of research.
翻訳日:2021-03-31 15:03:02 公開日:2021-03-29
# tasting the cake: out-of-distribution multimodal mriデータにおける自己教師あり一般化の評価

Tasting the cake: evaluating self-supervised generalization on out-of-distribution multimodal MRI data ( http://arxiv.org/abs/2103.15914v1 )

ライセンス: Link先を確認
Alex Fedorov, Eloy Geenjaar, Lei Wu, Thomas P. DeRamus, Vince D. Calhoun, Sergey M. Plis(参考訳) 自己教師付き学習は、自然画像ベンチマークを大幅に改善した。 しかし、この領域では医療画像領域での作業は少ない。 最適モデルはまだ様々な選択肢の中で決定されていない。 さらに、新しい自己管理手法の適用可能性の限界を評価する研究はほとんどない。 本稿では, 医用画像への適用性を評価するため, 分散一般化におけるコントラスト的自己教師あり手法の応用範囲について検討する。 自然画像のベンチマークの結果から,自己教師付きモデルは期待したほど堅牢ではなく,ドロップアウトによる教師付き学習により性能が向上することを示した。 また, この行動は, 広範囲な増大に対処できることを示す。 本研究は, 医療画像コミュニティにおける自己管理手法を採用するための, 分布外一般化標準とベンチマークの必要性を浮き彫りにした。

Self-supervised learning has enabled significant improvements on natural image benchmarks. However, there is less work in the medical imaging domain in this area. The optimal models have not yet been determined among the various options. Moreover, little work has evaluated the current applicability limits of novel self-supervised methods. In this paper, we evaluate a range of current contrastive self-supervised methods on out-of-distribution generalization in order to evaluate their applicability to medical imaging. We show that self-supervised models are not as robust as expected based on their results in natural imaging benchmarks and can be outperformed by supervised learning with dropout. We also show that this behavior can be countered with extensive augmentation. Our results highlight the need for out-of-distribution generalization standards and benchmarks to adopt the self-supervised methods in the medical imaging community.
翻訳日:2021-03-31 15:02:52 公開日:2021-03-29
# ロバスト・オーディオ・ビジュアル・インスタンスの識別

Robust Audio-Visual Instance Discrimination ( http://arxiv.org/abs/2103.15916v1 )

ライセンス: Link先を確認
Pedro Morgado, Ishan Misra, Nuno Vasconcelos(参考訳) 音声とビデオの表現を学習するための自己教師付き学習法を提案する。 先行作業では、音声とビデオの自然な対応を使用して、標準的なクロスモーダルインスタンス識別タスクを定義し、モデルが2つのモダリティからの表現にマッチするように訓練される。 しかし、この標準的アプローチは2つのトレーニングノイズをもたらす。 第一に、音声と映像の信号が互いに非形式的であるため、音声と視覚の対応はしばしば欠陥を生じる。 欠陥陽性の有害な影響を抑えるため、重み付けされた対照的な学習損失を最適化し、全体の損失に対する貢献度を下げる。 第二に、自己教師付きコントラスト学習は負のインスタンスのランダムサンプリングに依存しているため、ベースインスタンスと意味的に類似したインスタンスは誤り負として使用できる。 不良な負の影響を軽減するために,インスタンス間の関係を推定するソフトターゲット分布を用いて,インスタンス識別損失の最適化を提案する。 我々は,行動認識タスクに関する広範囲な実験を行い,音声と視覚のインスタンス識別の問題に対処し,トランスファー学習性能を向上させることを実証した。

We present a self-supervised learning method to learn audio and video representations. Prior work uses the natural correspondence between audio and video to define a standard cross-modal instance discrimination task, where a model is trained to match representations from the two modalities. However, the standard approach introduces two sources of training noise. First, audio-visual correspondences often produce faulty positives since the audio and video signals can be uninformative of each other. To limit the detrimental impact of faulty positives, we optimize a weighted contrastive learning loss, which down-weighs their contribution to the overall loss. Second, since self-supervised contrastive learning relies on random sampling of negative instances, instances that are semantically similar to the base instance can be used as faulty negatives. To alleviate the impact of faulty negatives, we propose to optimize an instance discrimination loss with a soft target distribution that estimates relationships between instances. We validate our contributions through extensive experiments on action recognition tasks and show that they address the problems of audio-visual instance discrimination and improve transfer learning performance.
翻訳日:2021-03-31 15:02:41 公開日:2021-03-29
# DiNTS: 3次元医用画像セグメンテーションのための微分ニューラルネットワークトポロジー検索

DiNTS: Differentiable Neural Network Topology Search for 3D Medical Image Segmentation ( http://arxiv.org/abs/2103.15954v1 )

ライセンス: Link先を確認
Yufan He, Dong Yang, Holger Roth, Can Zhao, Daguang Xu(参考訳) 近年,医療画像セグメンテーションのための高性能ネットワークの自動検索にニューラルネットワーク検索(nas)が適用されている。 NASサーチスペースは通常、ネットワークトポロジーレベル(空間スケールの異なるセル間の接続を制御する)とセルレベル(各セル内での操作)を含む。 既存の方法は、大規模な3D画像データセットの長い検索時間を必要とするか、事前に定義されたトポロジー(U字型やシングルパスなど)に限定されている。 本研究では,3次元医用画像セグメンテーションにおけるNASの3つの重要な側面,フレキシブルなマルチパスネットワークトポロジ,高い探索効率,予算化されたGPUメモリ使用率に着目した。 高度に柔軟なネットワークトポロジ探索空間内での高速勾配に基づく探索を支援するために,新しい微分可能な探索フレームワークを提案する。 微分可能なスキームにおける探索された最適連続モデルの離散化は、準最適最終離散モデル(離散化ギャップ)を生成する。 そこで本稿では,この問題を軽減するためにトポロジ損失を提案する。 さらに、検索された3DモデルのGPUメモリ使用量は、検索中の予算制約に制限されている。 我々のネットワークトポロジ探索スキーム(DiNTS)は,10の課題を含むMSD(Medicial Segmentation Decathlon)課題に基づいて評価される。 本手法は,MSDチャレンジリーダーボードの最先端性能と上位ランキングを達成する。

Recently, neural architecture search (NAS) has been applied to automatically search high-performance networks for medical image segmentation. The NAS search space usually contains a network topology level (controlling connections among cells with different spatial scales) and a cell level (operations within each cell). Existing methods either require long searching time for large-scale 3D image datasets, or are limited to pre-defined topologies (such as U-shaped or single-path). In this work, we focus on three important aspects of NAS in 3D medical image segmentation: flexible multi-path network topology, high search efficiency, and budgeted GPU memory usage. A novel differentiable search framework is proposed to support fast gradient-based search within a highly flexible network topology search space. The discretization of the searched optimal continuous model in differentiable scheme may produce a sub-optimal final discrete model (discretization gap). Therefore, we propose a topology loss to alleviate this problem. In addition, the GPU memory usage for the searched 3D model is limited with budget constraints during search. Our Differentiable Network Topology Search scheme (DiNTS) is evaluated on the Medical Segmentation Decathlon (MSD) challenge, which contains ten challenging segmentation tasks. Our method achieves the state-of-the-art performance and the top ranking on the MSD challenge leaderboard.
翻訳日:2021-03-31 15:02:22 公開日:2021-03-29
# 非教師なし領域適応のための負アンサンブル学習による適応的擬似ラベル再構成

Adaptive Pseudo-Label Refinement by Negative Ensemble Learning for Source-Free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2103.15973v1 )

ライセンス: Link先を確認
Waqar Ahmed, Pietro Morerio and Vittorio Murino(参考訳) 既存のUnsupervised Domain Adaptation(UDA)メソッドの大部分は、トレーニング中にソースとターゲットのドメインデータを同時に利用できると仮定している。 このような仮定は、ソースデータがしばしばアクセスできない(例えば、プライバシー上の理由から)ため、実際には成立しない。 それとは対照的に、よく知られたドメインシフト問題によりターゲットが不適切な場合でも、事前訓練されたソースモデルが常に利用可能であると考えられる。 これはかなりの量の誤分類となり、推定されたターゲットの擬似ラベルに影響を与える構造的ノイズと解釈できる。 本研究では, 未解決のシナリオにおいて, uda を疑似ラベル精製問題として位置づけた。 適応雑音フィルタリングと擬似ラベル改善に対処する統一手法を提案する。 異なる確率的(i)入力増強と(ii)フィードバックを持つアンサンブルメンバーの多様性を高めることにより、擬似ラベルのノイズに特異的に対処する新しい負アンサンブル学習手法が考案された。 特に後者は、異なるメンバーに多様な情報を供給できる、新しい概念である Disjoint Residual Labels を活用することで実現されている。 単一のターゲットモデルは、最終的に洗練された擬似ラベルで訓練され、ターゲットドメインで堅牢なパフォーマンスをもたらす。 拡張実験により,Adaptive Pseudo-Label Refinement と呼ばれる提案手法は,ソースデータを全く使わずに,Digit5,PACS,Visda-C ,DomainNet などの主要な UDA ベンチマーク上で最先端のパフォーマンスを実現することがわかった。

The majority of existing Unsupervised Domain Adaptation (UDA) methods presumes source and target domain data to be simultaneously available during training. Such an assumption may not hold in practice, as source data is often inaccessible (e.g., due to privacy reasons). On the contrary, a pre-trained source model is always considered to be available, even though performing poorly on target due to the well-known domain shift problem. This translates into a significant amount of misclassifications, which can be interpreted as structured noise affecting the inferred target pseudo-labels. In this work, we cast UDA as a pseudo-label refinery problem in the challenging source-free scenario. We propose a unified method to tackle adaptive noise filtering and pseudo-label refinement. A novel Negative Ensemble Learning technique is devised to specifically address noise in pseudo-labels, by enhancing diversity in ensemble members with different stochastic (i) input augmentation and (ii) feedback. In particular, the latter is achieved by leveraging the novel concept of Disjoint Residual Labels, which allow diverse information to be fed to the different members. A single target model is eventually trained with the refined pseudo-labels, which leads to a robust performance on the target domain. Extensive experiments show that the proposed method, named Adaptive Pseudo-Label Refinement, achieves state-of-the-art performance on major UDA benchmarks, such as Digit5, PACS, Visda-C, and DomainNet, without using source data at all.
翻訳日:2021-03-31 15:01:59 公開日:2021-03-29
# 多様なデータセットとメソッドを持つがターゲットラベルがないドメインロバストvqa

Domain-robust VQA with diverse datasets and methods but no target labels ( http://arxiv.org/abs/2103.15974v1 )

ライセンス: Link先を確認
Mingda Zhang, Tristan Maidment, Ahmad Diab, Adriana Kovashka, Rebecca Hwa(参考訳) コンピュータビジョンの手法がデータセット仕様に過剰に適合するという観測は、オブジェクト認識モデルをドメインシフトに堅牢にしようとする様々な試みに影響を与えている。 しかし、ドメインロバストな視覚的質問応答メソッドに関する同様の作業は非常に限られている。 VQAモデルはマルチモーダル入力を処理し、メソッドは複雑な最適化をもたらす多様なモジュールを持つ複数のステップを含み、異なるデータセットの応答空間は大幅に異なる。 これらの課題に対処するために、私たちはまず、視覚空間とテキスト空間の両方において、人気のあるVQAデータセット間のドメインシフトを定量化する。 異なるモダリティから生じるデータセット間のシフトを解消するために、画像と質問領域の合成シフトを別々に構築する。 第2に、これらのシフトに対するVQA法(古典的二流法、トランスフォーマー法、ニューロシンボリック法)の異なるファミリーの堅牢性をテストする。 第3に、既存のドメイン適応手法の適用性を検証し、特定のVQAモデルに適応したVQAドメインギャップをブリッジする新しい手法を考案する。 実世界の一般化の設定をエミュレートするために,教師なし領域適応とオープンエンド分類タスクの定式化に着目した。

The observation that computer vision methods overfit to dataset specifics has inspired diverse attempts to make object recognition models robust to domain shifts. However, similar work on domain-robust visual question answering methods is very limited. Domain adaptation for VQA differs from adaptation for object recognition due to additional complexity: VQA models handle multimodal inputs, methods contain multiple steps with diverse modules resulting in complex optimization, and answer spaces in different datasets are vastly different. To tackle these challenges, we first quantify domain shifts between popular VQA datasets, in both visual and textual space. To disentangle shifts between datasets arising from different modalities, we also construct synthetic shifts in the image and question domains separately. Second, we test the robustness of different families of VQA methods (classic two-stream, transformer, and neuro-symbolic methods) to these shifts. Third, we test the applicability of existing domain adaptation methods and devise a new one to bridge VQA domain gaps, adjusted to specific VQA models. To emulate the setting of real-world generalization, we focus on unsupervised domain adaptation and the open-ended classification task formulation.
翻訳日:2021-03-31 15:01:32 公開日:2021-03-29
# エンドツーエンド多言語OCRのための多重ネットワーク

A Multiplexed Network for End-to-End, Multilingual OCR ( http://arxiv.org/abs/2103.15992v1 )

ライセンス: Link先を確認
Jing Huang, Guan Pang, Rama Kovvuri, Mandy Toh, Kevin J Liang, Praveen Krishnan, Xi Yin, Tal Hassner(参考訳) OCRの最近の進歩は、検出と認識の両方を含むエンドツーエンド(E2E)トレーニングパイプラインが最良の結果をもたらすことを示している。 しかし、既存の多くの方法は主にラテン・アルファベットの言語に焦点を合わせており、ケースに敏感な英語の文字だけを指すことが多い。 本稿では,文字識別と複数認識ヘッドを同時に最適化する統一的損失を維持しつつ,単語レベルでスクリプト識別を行い,異なる認識ヘッドを持つ異なるスクリプトを処理するe2eアプローチであるmultiplexed multilingual mask textspotterを提案する。 実験の結果,本手法は終端認識タスクにおけるパラメータ数に類似したシングルヘッドモデルよりも優れており,MLT17とMLT19の共同テキスト検出とスクリプト識別のベンチマークで最先端の結果が得られた。 私たちは、エンドツーエンドのトレーニング可能でスケーラブルな多言語多目的OCRシステムへの一歩だと信じています。 私たちのコードとモデルはリリースされます。

Recent advances in OCR have shown that an end-to-end (E2E) training pipeline that includes both detection and recognition leads to the best results. However, many existing methods focus primarily on Latin-alphabet languages, often even only case-insensitive English characters. In this paper, we propose an E2E approach, Multiplexed Multilingual Mask TextSpotter, that performs script identification at the word level and handles different scripts with different recognition heads, all while maintaining a unified loss that simultaneously optimizes script identification and multiple recognition heads. Experiments show that our method outperforms the single-head model with similar number of parameters in end-to-end recognition tasks, and achieves state-of-the-art results on MLT17 and MLT19 joint text detection and script identification benchmarks. We believe that our work is a step towards the end-to-end trainable and scalable multilingual multi-purpose OCR system. Our code and model will be released.
翻訳日:2021-03-31 15:01:11 公開日:2021-03-29
# 相補的コントラスト蒸留

Complementary Relation Contrastive Distillation ( http://arxiv.org/abs/2103.16367v1 )

ライセンス: Link先を確認
Jinguo Zhu and Shixiang Tang and Dapeng Chen and Shijie Yu and Yakun Liu and Aijun Yang and Mingzhe Rong and Xiaohua Wang(参考訳) 知識蒸留は教師モデルから生徒モデルへの表現能力の移転を目標としている。 以前のアプローチでは、個々の表現蒸留またはサンプル間の類似性保存に重点を置いている。 サンプル間の関係は豊富な情報を伝達し、より効果的な方法で蒸留する必要があると論じる。 本稿では,教師から学生へ構造的知識を伝達するための新しい知識蒸留法,すなわち,補完関係比較蒸留(CRCD)を提案する。 具体的には,アンカーベースで相互関係を推定し,アンカー-教師関係の監督下でアンカー-学生関係を蒸留する。 より堅牢にするために、相互関係は2つの相補的な要素、すなわち特徴と勾配によってモデル化される。 さらに、アンカー-教師関係分布とアンカー-学生関係分布との間の相互情報のローバウンドは、サンプル表現とサンプル間関係の両方を蒸留できる関係コントラスト損失により最大化される。 異なるベンチマーク実験により,提案したCRCDの有効性が示された。

Knowledge distillation aims to transfer representation ability from a teacher model to a student model. Previous approaches focus on either individual representation distillation or inter-sample similarity preservation. While we argue that the inter-sample relation conveys abundant information and needs to be distilled in a more effective way. In this paper, we propose a novel knowledge distillation method, namely Complementary Relation Contrastive Distillation (CRCD), to transfer the structural knowledge from the teacher to the student. Specifically, we estimate the mutual relation in an anchor-based way and distill the anchor-student relation under the supervision of its corresponding anchor-teacher relation. To make it more robust, mutual relations are modeled by two complementary elements: the feature and its gradient. Furthermore, the low bound of mutual information between the anchor-teacher relation distribution and the anchor-student relation distribution is maximized via relation contrastive loss, which can distill both the sample representation and the inter-sample relations. Experiments on different benchmarks demonstrate the effectiveness of our proposed CRCD.
翻訳日:2021-03-31 14:53:26 公開日:2021-03-29
# 半教師付き物体検出のためのデータ未確認多相学習

Data-Uncertainty Guided Multi-Phase Learning for Semi-Supervised Object Detection ( http://arxiv.org/abs/2103.16368v1 )

ライセンス: Link先を確認
Zhenyu Wang, Yali Li, Ye Guo, Lu Fang, Shengjin Wang(参考訳) 本稿では,未ラベル画像を利用した半教師対象検出手法を探索し,全教師対象検出モデルの上限を突破する。 疑似ラベルに基づく従来の半教師あり手法はノイズによってひどく劣化し、ノイズラベルに過度に適合しがちであるため、異なるラベルなしの知識をうまく学習できない。 そこで本研究では,半教師付き物体検出のための多相学習法を提案する。 我々は,その難易度に応じてラベルなし画像の発散型を包括的に検討し,異なるフェーズでそれらを活用し,異なるフェーズのアンサンブルモデルを用いて最終的な結果を生成する。 画像の不確実性誘導 容易データ選択と領域不確実性誘導 RoI 再重み付けは多相学習に関与し、検出器がより特定の知識に集中できるようにする。 PASCAL VOCとMS COCOの広範な実験を通じて,本手法はベースラインアプローチと比較して異常に動作し,VOCでは3%以上,COCOでは2%以上,大きなマージンで優れていた。

In this paper, we delve into semi-supervised object detection where unlabeled images are leveraged to break through the upper bound of fully-supervised object detection models. Previous semi-supervised methods based on pseudo labels are severely degenerated by noise and prone to overfit to noisy labels, thus are deficient in learning different unlabeled knowledge well. To address this issue, we propose a data-uncertainty guided multi-phase learning method for semi-supervised object detection. We comprehensively consider divergent types of unlabeled images according to their difficulty levels, utilize them in different phases and ensemble models from different phases together to generate ultimate results. Image uncertainty guided easy data selection and region uncertainty guided RoI Re-weighting are involved in multi-phase learning and enable the detector to concentrate on more certain knowledge. Through extensive experiments on PASCAL VOC and MS COCO, we demonstrate that our method behaves extraordinarily compared to baseline approaches and outperforms them by a large margin, more than 3% on VOC and 2% on COCO.
翻訳日:2021-03-31 14:53:10 公開日:2021-03-29
# TREC 2020 Podcastsのトラックオーバービュー

TREC 2020 Podcasts Track Overview ( http://arxiv.org/abs/2103.15953v1 )

ライセンス: Link先を確認
Rosie Jones, Ben Carterette, Ann Clifton, Maria Eskevich, Gareth J. F. Jones, Jussi Karlgren, Aasish Pappu, Sravana Reddy, Yongze Yu(参考訳) Podcast Trackは、2020年のText Retrieval Conference (TREC)で発表された。 ポッドキャストトラックは、情報検索とNLP研究コミュニティにおけるポッドキャストの研究を促進するために設計された。 トラックは2つの共有タスク、セグメント検索と要約で構成されており、どちらもトラックと同時にリリースされた10万以上のポッドキャストエピソード(メタデータ、オーディオ、自動書き起こし)のデータセットに基づいている。 このトラックは興味を惹き、TRECに数百の新規登録を惹きつけ、15のチームは探索と要約をほぼ切り離し、最終的な評価を提出した。 深層学習は検索実験と要約の両方において主要な実験的アプローチであった。 本稿では,課題の概要と参加者の実験結果について述べる。 トラックは同じ2つのタスクでTREC 2021に戻り、参加者からのフィードバックに応じて若干の変更を加える。

The Podcast Track is new at the Text Retrieval Conference (TREC) in 2020. The podcast track was designed to encourage research into podcasts in the information retrieval and NLP research communities. The track consisted of two shared tasks: segment retrieval and summarization, both based on a dataset of over 100,000 podcast episodes (metadata, audio, and automatic transcripts) which was released concurrently with the track. The track generated considerable interest, attracted hundreds of new registrations to TREC and fifteen teams, mostly disjoint between search and summarization, made final submissions for assessment. Deep learning was the dominant experimental approach for both search experiments and summarization. This paper gives an overview of the tasks and the results of the participants' experiments. The track will return to TREC 2021 with the same two tasks, incorporating slight modifications in response to participant feedback.
翻訳日:2021-03-31 14:47:07 公開日:2021-03-29
# PLAN-B:アクション予測のための新たなベストシーケンスを予測

PLAN-B: Predicting Likely Alternative Next Best Sequences for Action Prediction ( http://arxiv.org/abs/2103.15987v1 )

ライセンス: Link先を確認
Dan Scarafoni, Irfan Essa, and Thomas Ploetz(参考訳) 行動予測は、発生前に行動を予測することに焦点を当てる。 最近の研究は、将来の不確実性と将来の行動のサンプルを記述するための確率論的アプローチを活用している。 しかし、将来の予測不可能性を考えると、これらの手法は全ての代替予測を容易に見つけることができず、現在の評価プロトコルはそのような代替予測を見つけるシステムの能力を測定することができない。 我々は、上位の予測だけでなく、精度@kメトリックの上位の代替品を予測する能力の観点から、アクション予測を再検討する。 さらに,予測システムの予測能力を評価するf1スコアにインスパイアされた指標である選択f1を提案する。 この問題を評価するために,提案手法であるplan-bを用いて,最も可能性の高い選択肢のセットを自動的に発見するアクション予測手法を提案する。 PLAN-Bは2つの新しいコンポーネントから構成される: (i) 全ての可能な未来が見つかることを保証するChoice Table、(ii)アクションシーケンスと特徴情報を組み合わせた「協調的」RNNシステム。 我々のシステムはベンチマークデータセットで最先端の結果より優れていることを示す。

Action prediction focuses on anticipating actions before they happen. Recent works leverage probabilistic approaches to describe future uncertainties and sample future actions. However, these methods cannot easily find all alternative predictions, which are essential given the inherent unpredictability of the future, and current evaluation protocols do not measure a system's ability to find such alternatives. We re-examine action prediction in terms of its ability to predict not only the top predictions, but also top alternatives with the accuracy@k metric. In addition, we propose Choice F1: a metric inspired by F1 score which evaluates a prediction system's ability to find all plausible futures while keeping only the most probable ones. To evaluate this problem, we present a novel method, Predicting the Likely Alternative Next Best, or PLAN-B, for action prediction which automatically finds the set of most likely alternative futures. PLAN-B consists of two novel components: (i) a Choice Table which ensures that all possible futures are found, and (ii) a "Collaborative" RNN system which combines both action sequence and feature information. We demonstrate that our system outperforms state-of-the-art results on benchmark datasets.
翻訳日:2021-03-31 14:46:46 公開日:2021-03-29
# pH-RL:健康実践に強化学習をもたらすパーソナライズアーキテクチャ

pH-RL: A personalization architecture to bringreinforcement learning to health practice ( http://arxiv.org/abs/2103.15908v1 )

ライセンス: Link先を確認
Ali el Hassouni, Mark Hoogendoorn, Marketa Ciharova, Annet Kleiboer, Khadicha Amarti, Vesa Muhonen, Heleen Riper, A. E. Eiben(参考訳) 強化学習(RL)は多くの複雑な問題に対処するために選択されたアプローチであることが証明されているが、現実のシナリオでRLエージェントの開発とデプロイを成功させるのは難しい。 本稿では,pH-RL(e-Health with RL)を個人化するための一般的なRLアーキテクチャを提案する。 pH-RLは、健康アプリケーションにおける様々なレベルのパーソナライズを可能にし、オンラインおよびバッチ学習を可能にする。 さらに、様々な医療アプリケーションと統合可能な汎用的な実装フレームワークを提供する。 モバイルアプリケーションにおけるRLポリシーの展開を成功させるためのステップバイステップのガイドラインについて述べる。 われわれはオープンソースのRLアーキテクチャを実装し、メンタルヘルスのためのMoodBusterモバイルアプリケーションと統合し、オンライン治療モジュールへの日々のコンプライアンスを高めるメッセージを提供した。 その後,持続的な期間にヒトの参加者と総合的な研究を行った。 実験結果から, 開発方針は, わずか数日のデータを連続的に利用して適切な行動を選択できることが示唆された。 さらに,本研究における学習方針の安定性を実証的に示す。

While reinforcement learning (RL) has proven to be the approach of choice for tackling many complex problems, it remains challenging to develop and deploy RL agents in real-life scenarios successfully. This paper presents pH-RL (personalization in e-Health with RL) a general RL architecture for personalization to bring RL to health practice. pH-RL allows for various levels of personalization in health applications and allows for online and batch learning. Furthermore, we provide a general-purpose implementation framework that can be integrated with various healthcare applications. We describe a step-by-step guideline for the successful deployment of RL policies in a mobile application. We implemented our open-source RL architecture and integrated it with the MoodBuster mobile application for mental health to provide messages to increase daily adherence to the online therapeutic modules. We then performed a comprehensive study with human participants over a sustained period. Our experimental results show that the developed policies learn to select appropriate actions consistently using only a few days' worth of data. Furthermore, we empirically demonstrate the stability of the learned policies during the study.
翻訳日:2021-03-31 14:44:31 公開日:2021-03-29
# 動的自律表面車両制御と環境モニタリングへの応用

Dynamic Autonomous Surface Vehicle Control and Applications in Environmental Monitoring ( http://arxiv.org/abs/2103.15951v1 )

ライセンス: Link先を確認
Nare Karapetyan, Jason Moulton, and Ioannis Rekleitis(参考訳) 本稿では,敵対力の存在下でのロボット操作の問題に対処する。 サーベイ操作のための完全なフレームワークであるwaypoint生成、力のモデリング、制御のチューニングについて紹介する。 環境モニタリング、探索と探索、および水量計マッピングの多くの応用において、車両は互いに平行な直線を横切る必要があり、ギャップがなく、冗長なカバレッジがないことが保証される。 しかし、オートマチック・サーフェス・ビークル (ASV) との運用中、風力や電流の存在は車両に作用する外部力を生み出し、しばしば意図した経路から逸脱する。 同様の問題は航空機や水中での運用でも発生している。 これらの現象、風と電流を計測し、その船への影響をモデル化することで、それらの効果を緩和し、正しい軌道をたどることを確実にすることができる。

This paper addresses the problem of robotic operations in the presence of adversarial forces. We presents a complete framework for survey operations: waypoint generation,modelling of forces and tuning the control. In many applications of environmental monitoring, search and exploration, and bathymetric mapping, the vehicle has to traverse in straight lines parallel to each other, ensuring there are no gaps and no redundant coverage. During operations with an Autonomous Surface Vehicle (ASV) however, the presence of wind and/or currents produces external forces acting on the vehicle which quite often divert it from its intended path. Similar issues have been encountered during aerial or underwater operations. By measuring these phenomena, wind and current, and modelling their impact on the vessel, actions can be taken to alleviate their effect and ensure the correct trajectory is followed.
翻訳日:2021-03-31 14:44:15 公開日:2021-03-29
# ガウストモグラフィのプロセス

Gaussian Process for Tomography ( http://arxiv.org/abs/2103.15864v1 )

ライセンス: Link先を確認
Agnimitra Dasgupta and Carlo Graziani and Zichao Wendy Di(参考訳) トモグラフィーの再構成は、広範囲の応用に革命的な影響があるにもかかわらず、限られた騒音測定のためにユニークな解が存在しないという、その不適切な性質に悩まされている。 従来の最適化に基づく再構成は、この問題に対処するために正規化に依存するが、正則化のタイプと正規化パラメータの選択は重要だが難しい決定であるため、独自の課題に直面している。 さらに, 従来の復元法では, 解決策の品質をこれ以上示さずに, 復元のポイント推定を行うことができる。 本研究では、ガウス過程(GP)を探索することでこれらの課題に対処する。 提案するgpアプローチは, 後方平均による再構成対象だけでなく, 後方共分散による解の不確かさの定量化も行う。 さらに、GPフレームワークの柔軟性について検討し、オブジェクト内の様々な長さスケールにわたる情報の堅牢なモデルと、測定における複雑なノイズについて考察する。 提案手法を合成トモグラフィ画像と実画像画像の両方に適用し,様々な雑音の存在下での不確実性定量化の特異性を示し,既存手法との比較を行った。

Tomographic reconstruction, despite its revolutionary impact on a wide range of applications, suffers from its ill-posed nature in that there is no unique solution because of limited and noisy measurements. Traditional optimization-based reconstruction relies on regularization to address this issue; however, it faces its own challenge because the type of regularizer and choice of regularization parameter are a critical but difficult decision. Moreover, traditional reconstruction yields point estimates for the reconstruction with no further indication of the quality of the solution. In this work we address these challenges by exploring Gaussian processes (GPs). Our proposed GP approach yields not only the reconstructed object through the posterior mean but also a quantification of the solution uncertainties through the posterior covariance. Furthermore, we explore the flexibility of the GP framework to provide a robust model of the information across various length scales in the object, as well as the complex noise in the measurements. We illustrate the proposed approach on both synthetic and real tomography images and show its unique capability of uncertainty quantification in the presence of various types of noise, as well as reconstruction comparison with existing methods.
翻訳日:2021-03-31 14:43:29 公開日:2021-03-29
# DualNorm-UNet:ロバストな医用画像セグメンテーションのためのグローバルおよびローカル統計を組み込む

DualNorm-UNet: Incorporating Global and Local Statistics for Robust Medical Image Segmentation ( http://arxiv.org/abs/2103.15858v1 )

ライセンス: Link先を確認
Junfei Xiao, Lequan Yu, Lei Xing, Alan Yuille, Yuyin Zhou(参考訳) バッチ正規化(BN)は,ネットワークトレーニングを加速する鍵となる要素の一つであり,医用画像解析分野で広く採用されている。 しかし、BNはバッチレベルでのグローバル統計のみを計算し、全ての空間座標に対して同じアフィン変換を適用し、異なる意味構造のイメージコントラストを抑制する。 本稿では,意味クラス情報を正規化層に組み込むことにより,異なる領域(クラス)に対応するアクティベーションを異なる方法で変調できるようにする。 そこで我々はDualNorm-UNetを新たに開発し,グローバル画像レベル統計と局所領域値統計を併用してネットワーク正規化を行う。 具体的には、正規化層における学習意味マスクを介して、異なるクラス領域に沿ってアクティベーションを適応的に変調して局所統計を統合する。 従来の手法と比較して,正規化における意味的知識を活用し,ロバストなセグメンテーション結果に対してより識別的特徴を与える。 さらに重要なことは、医療データの複数の領域(施設)からドメイン不変情報を捕捉する優れた能力を示す。 広範な実験により,提案するデュアルノルムunetは,より複雑で可変なデータ分散に対しても,様々なセグメンテーションタスクの性能を一貫して向上させることが示された。 コードはhttps://github.com/l ambert-x/DualNorm-Un et.comで入手できる。

Batch Normalization (BN) is one of the key components for accelerating network training, and has been widely adopted in the medical image analysis field. However, BN only calculates the global statistics at the batch level, and applies the same affine transformation uniformly across all spatial coordinates, which would suppress the image contrast of different semantic structures. In this paper, we propose to incorporate the semantic class information into normalization layers, so that the activations corresponding to different regions (i.e., classes) can be modulated differently. We thus develop a novel DualNorm-UNet, to concurrently incorporate both global image-level statistics and local region-wise statistics for network normalization. Specifically, the local statistics are integrated by adaptively modulating the activations along different class regions via the learned semantic masks in the normalization layer. Compared with existing methods, our approach exploits semantic knowledge at normalization and yields more discriminative features for robust segmentation results. More importantly, our network demonstrates superior abilities in capturing domain-invariant information from multiple domains (institutions) of medical data. Extensive experiments show that our proposed DualNorm-UNet consistently improves the performance on various segmentation tasks, even in the face of more complex and variable data distributions. Code is available at https://github.com/l ambert-x/DualNorm-Un et.
翻訳日:2021-03-31 14:43:13 公開日:2021-03-29
# 深部照明適応によるar/vrの高精度顔追跡

High-fidelity Face Tracking for AR/VR via Deep Lighting Adaptation ( http://arxiv.org/abs/2103.15876v1 )

ライセンス: Link先を確認
Lele Chen, Chen Cao, Fernando De la Torre, Jason Saragih, Chenliang Xu, Yaser Sheikh(参考訳) 3Dビデオアバターは、圧縮、プライバシー、エンターテイメント、AR/VRにおける存在感を提供することで、仮想コミュニケーションを強化することができる。 3DフォトリアリスティックなAR/VRアバターは、人固有のモデルに頼って、不気味な効果を最小限に抑えることができる。 しかし、既存の人物固有の写真リアリスティックな3Dモデルは照明に強くないため、その結果は微妙な顔の振る舞いを見逃し、アバターに人工物をもたらすのが普通である。 これは、コミュニケーションシステム(例えば、Messenger、Skype、FaceTime)やAR/VRにおけるこれらのモデルのスケーラビリティの大きな欠点である。 本稿では,高品質な3次元顔追跡アルゴリズムと組み合わせて,通常の映像から3次元写真リアリスティックアバターへの微妙で頑健な顔の動き伝達を行う深層学習照明モデルについて述べる。 提案手法は, 実世界のシナリオにおいて, ポーズ, 表現, 照明の変動を伴う場合において, 提案手法の有効性を示す。 詳細はhttps://www.youtube. com/watch?v=dtz1lgzr8ccを参照。 私たちのプロジェクトページはhttps://www.cs.roche ster.edu/u/lchen63.o rgにある。

3D video avatars can empower virtual communications by providing compression, privacy, entertainment, and a sense of presence in AR/VR. Best 3D photo-realistic AR/VR avatars driven by video, that can minimize uncanny effects, rely on person-specific models. However, existing person-specific photo-realistic 3D models are not robust to lighting, hence their results typically miss subtle facial behaviors and cause artifacts in the avatar. This is a major drawback for the scalability of these models in communication systems (e.g., Messenger, Skype, FaceTime) and AR/VR. This paper addresses previous limitations by learning a deep learning lighting model, that in combination with a high-quality 3D face tracking algorithm, provides a method for subtle and robust facial motion transfer from a regular video to a 3D photo-realistic avatar. Extensive experimental validation and comparisons to other state-of-the-art methods demonstrate the effectiveness of the proposed framework in real-world scenarios with variability in pose, expression, and illumination. Please visit https://www.youtube. com/watch?v=dtz1LgZR8cc for more results. Our project page can be found at https://www.cs.roche ster.edu/u/lchen63.
翻訳日:2021-03-31 14:42:49 公開日:2021-03-29
# 単一画像反射除去のための特徴共起損失を伴う反復勾配符号化ネットワーク

Iterative Gradient Encoding Network with Feature Co-Occurrence Loss for Single Image Reflection Removal ( http://arxiv.org/abs/2103.15903v1 )

ライセンス: Link先を確認
Sutanu Bera, Prabir Kumar Biswas(参考訳) ガラスの前で撮影した写真から望ましくない反射を除去することは、視覚コンピューティングシステムの効率を高める上で非常に重要である。 従来の学習に基づくアプローチでは、いくつかの反射型に対して視覚的に妥当な結果が得られたが、他の反射型に対して一般化できなかった。 単一画像反射除去に関する効率的な手法には文献が多数存在し,大規模な反射型を一般化することができる。 本研究では,単一画像反射除去のための反復勾配符号化ネットワークを提案する。 次に,伝送層の特徴の相関関係を学習するために,ネットワークのさらなる監視を行うため,特徴的共起損失を提案する。 SIR$^2$の公開ベンチマークデータセットに対する大規模な実験により、多様な背景を含むすべての画像設定における既存の最先端手法に対する反射を良好に除去できることが実証された。 さらに,反射強度が増大するにつれて,他の手法が失敗した場合でも反射を除去することができる。

Removing undesired reflections from a photo taken in front of glass is of great importance for enhancing visual computing systems' efficiency. Previous learning-based approaches have produced visually plausible results for some reflections type, however, failed to generalize against other reflection types. There is a dearth of literature for efficient methods concerning single image reflection removal, which can generalize well in large-scale reflection types. In this study, we proposed an iterative gradient encoding network for single image reflection removal. Next, to further supervise the network in learning the correlation between the transmission layer features, we proposed a feature co-occurrence loss. Extensive experiments on the public benchmark dataset of SIR$^2$ demonstrated that our method can remove reflection favorably against the existing state-of-the-art method on all imaging settings, including diverse backgrounds. Moreover, as the reflection strength increases, our method can still remove reflection even where other state of the art methods failed.
翻訳日:2021-03-31 14:42:28 公開日:2021-03-29
# Blind Super-Resolution に先立つフローベースカーネル

Flow-based Kernel Prior with Application to Blind Super-Resolution ( http://arxiv.org/abs/2103.15977v1 )

ライセンス: Link先を確認
Jingyun Liang, Kai Zhang, Shuhang Gu, Luc Van Gool, Radu Timofte(参考訳) カーネル推定は一般に、ブラインド画像スーパーレゾリューション(sr)の重要な問題の1つである。 近年、double-dip はネットワークアーキテクチャによってカーネルをモデル化することを提案しているが、kernelgan は深い線形ネットワークといくつかの正規化損失を用いてカーネル空間を制約している。 しかし、画像srに異方性ガウスカーネルが十分であるという一般的なsrカーネルの仮定を十分に活用できないため、本稿では、カーネルモデリングのための正規化フローベースカーネルプリエント(fkp)を提案する。 異方性ガウス核分布とトラクタブル潜在分布との非可逆写像を学習することにより、FKPはDouble-DIPとKernelGANのカーネルモデリングモジュールを置き換えるのに容易に使用できる。 具体的には、FKPはネットワークパラメータ空間ではなく潜在空間のカーネルを最適化し、合理的なカーネル初期化を生成し、学習されたカーネル多様体を横断し、最適化安定性を向上させる。 合成および実世界の画像に対する大規模な実験により、提案されたFKPは、パラメータ、実行時、メモリ使用量を減らすことでカーネル推定精度を大幅に向上し、最先端のブラインドSR結果をもたらすことが示されている。

Kernel estimation is generally one of the key problems for blind image super-resolution (SR). Recently, Double-DIP proposes to model the kernel via a network architecture prior, while KernelGAN employs the deep linear network and several regularization losses to constrain the kernel space. However, they fail to fully exploit the general SR kernel assumption that anisotropic Gaussian kernels are sufficient for image SR. To address this issue, this paper proposes a normalizing flow-based kernel prior (FKP) for kernel modeling. By learning an invertible mapping between the anisotropic Gaussian kernel distribution and a tractable latent distribution, FKP can be easily used to replace the kernel modeling modules of Double-DIP and KernelGAN. Specifically, FKP optimizes the kernel in the latent space rather than the network parameter space, which allows it to generate reasonable kernel initialization, traverse the learned kernel manifold and improve the optimization stability. Extensive experiments on synthetic and real-world images demonstrate that the proposed FKP can significantly improve the kernel estimation accuracy with less parameters, runtime and memory usage, leading to state-of-the-art blind SR results.
翻訳日:2021-03-31 14:42:14 公開日:2021-03-29
# a tutorial on $\mathbf{se}(3)$ transformation parameterizations and on-manifold optimization (特集 情報通信)

A tutorial on $\mathbf{SE}(3)$ transformation parameterizations and on-manifold optimization ( http://arxiv.org/abs/2103.15980v1 )

ライセンス: Link先を確認
Jos\'e Luis Blanco-Claraco(参考訳) {\mathbf{se}(3)$ の任意の剛性変換は、変換と剛性回転の2つの部分に分けられる。 この技術的報告は、統一的な視点の下で、回転部分を表す3つの一般的な選択肢として、3つのユーラー角の集合、$\mathbf{SO}(3)$の直交回転行列、四元数がある。 i) これらの表現と互いに変換する公式の同値性(すべての場合において、翻訳的部分と回転的部分全体を考慮して)、(ii)各表現の点でポーズとポーズを合成する方法、(iii)ポーズの不確実性(ガウス分布としてモデル化された場合)がこれらの変換や構成にどのように影響するかを記述する。 多様体上の最小二乗最適化を実装するのに必要なヤコビアンについて、いくつかの短い注記も与えられており、これは最近の工学文献において非常に有望なアプローチである。 このテキストは、MRPT C++ライブラリ関数が記述されたアルゴリズムをそれぞれ実装していることを反映している。 すべての公式とその実装は、単体テストとジャコビアンの数値推定によって徹底的に検証されている

An arbitrary rigid transformation in $\mathbf{SE}(3)$ can be separated into two parts, namely, a translation and a rigid rotation. This technical report reviews, under a unifying viewpoint, three common alternatives to representing the rotation part: sets of three (yaw-pitch-roll) Euler angles, orthogonal rotation matrices from $\mathbf{SO}(3)$ and quaternions. It will be described: (i) the equivalence between these representations and the formulas for transforming one to each other (in all cases considering the translational and rotational parts as a whole), (ii) how to compose poses with poses and poses with points in each representation and (iii) how the uncertainty of the poses (when modeled as Gaussian distributions) is affected by these transformations and compositions. Some brief notes are also given about the Jacobians required to implement least-squares optimization on manifolds, an very promising approach in recent engineering literature. The text reflects which MRPT C++ library functions implement each of the described algorithms. All formulas and their implementation have been thoroughly validated by means of unit testing and numerical estimation of the Jacobians
翻訳日:2021-03-31 14:41:52 公開日:2021-03-29
# 非IIDデータのためのタスクノミーによるフェデレーション学習

Federated Learning with Taskonomy for Non-IID Data ( http://arxiv.org/abs/2103.15947v1 )

ライセンス: Link先を確認
Hadi Jamali-Rad, Mohammad Abdizadeh, Attila Szabo(参考訳) 古典的フェデレーション学習アプローチは,非IIDクライアントデータの存在下で,大幅な性能劣化をもたらす。 この問題に対処するための可能な方向は、およそIDデータでクライアントのクラスタを形成することです。 この方向に続くほとんどの解は反復的で比較的遅いが、下層のクラスター形成を発見する際の収束の問題も生じやすい。 異種データのより効率的なフェデレーションアグリゲーションのために、クライアント間のタスク関連性を学習することで、この方向を一般化するタスクノミー付きフェデレーションラーニング(FLT)を導入する。 ワンオフプロセスでは、サーバはクライアントに事前訓練された(そして微調整可能な)エンコーダを提供し、データを潜在表現に圧縮し、そのデータの署名をサーバに送信する。 次に、サーバは、多様体学習によりクライアント間のタスク関連性を学習し、連合平均化の一般化を行う。 fltは、クライアントの明示的なクラスタが存在しない場合に、汎用的なクライアント関連グラフを柔軟に処理でき、クラスタ化された連合学習のための(分離された)クラスタに効率的に分解することができる。 FLTは、非IIDシナリオにおいて既存の最先端ベースラインを上回るだけでなく、クライアント間の公正性も向上することを示した。

Classical federated learning approaches incur significant performance degradation in the presence of non-IID client data. A possible direction to address this issue is forming clusters of clients with roughly IID data. Most solutions following this direction are iterative and relatively slow, also prone to convergence issues in discovering underlying cluster formations. We introduce federated learning with taskonomy (FLT) that generalizes this direction by learning the task-relatedness between clients for more efficient federated aggregation of heterogeneous data. In a one-off process, the server provides the clients with a pretrained (and fine-tunable) encoder to compress their data into a latent representation, and transmit the signature of their data back to the server. The server then learns the task-relatedness among clients via manifold learning, and performs a generalization of federated averaging. FLT can flexibly handle a generic client relatedness graph, when there are no explicit clusters of clients, as well as efficiently decompose it into (disjoint) clusters for clustered federated learning. We demonstrate that FLT not only outperforms the existing state-of-the-art baselines in non-IID scenarios but also offers improved fairness across clients.
翻訳日:2021-03-31 14:37:34 公開日:2021-03-29
# 強最適分類木

Strong Optimal Classification Trees ( http://arxiv.org/abs/2103.15965v1 )

ライセンス: Link先を確認
Sina Aghaei, Andr\'es G\'omez, Phebe Vayanos(参考訳) 決定木は最も人気のある機械学習モデルの一つであり、収益管理や医療、バイオインフォマティクスといった応用で日常的に使われている。 本稿では,最適二分分類木を学習する問題を考える。 この話題に関する文献は、ヒューリスティックアプローチの経験的部分最適化性と、mio(mixed-integer optimization)テクノロジの大幅な改善の両方に動機づけられて、近年急増している。 しかし、文献からの既存のMIOベースのアプローチは、MIOのパワーを最大限に活用していない。 本稿では,このギャップを埋めるために,最適二分分類木を学習するための直感的なフローベースのmio定式化を提案する。 我々の定式化は、解釈可能かつ公正な決定木の設計を可能にするために、側面制約を満たすことができる。 さらに,我々の定式化は既存手法よりも強い線形最適化緩和を有することを示す。 計算速度を上げるために,本定式化とmax-flow/min-cut双対性を用いてベンダー分解法を導出する。 本稿では,MIOの実行可能な集合のファセットを,主問題に加える制約として確実に生成する,分解サブプロブレムの解法を提案する。 標準ベンチマークデータセットに関する広範な計算実験を行い,提案手法が最先端のmio技術よりも31倍高速であることを示し,サンプル性能を最大8%向上することを示した。

Decision trees are among the most popular machine learning models and are used routinely in applications ranging from revenue management and medicine to bioinformatics. In this paper, we consider the problem of learning optimal binary classification trees. Literature on the topic has burgeoned in recent years, motivated both by the empirical suboptimality of heuristic approaches and the tremendous improvements in mixed-integer optimization (MIO) technology. Yet, existing MIO-based approaches from the literature do not leverage the power of MIO to its full extent: they rely on weak formulations, resulting in slow convergence and large optimality gaps. To fill this gap in the literature, we propose an intuitive flow-based MIO formulation for learning optimal binary classification trees. Our formulation can accommodate side constraints to enable the design of interpretable and fair decision trees. Moreover, we show that our formulation has a stronger linear optimization relaxation than existing methods. We exploit the decomposable structure of our formulation and max-flow/min-cut duality to derive a Benders' decomposition method to speed-up computation. We propose a tailored procedure for solving each decomposed subproblem that provably generates facets of the feasible set of the MIO as constraints to add to the main problem. We conduct extensive computational experiments on standard benchmark datasets on which we show that our proposed approaches are 31 times faster than state-of-the art MIO-based techniques and improve out of sample performance by up to 8%.
翻訳日:2021-03-31 14:37:09 公開日:2021-03-29
# ウェアラブルセンサを用いた人間の活動認識の概観:医療と人工知能

An Overview of Human Activity Recognition Using Wearable Sensors: Healthcare and Artificial Intelligence ( http://arxiv.org/abs/2103.15990v1 )

ライセンス: Link先を確認
Rex Liu, Albara Ah Ramli, Huanle Zhang, Esha Datta, Xin Liu(参考訳) モノのインターネット(IoT)と人工知能(AI)技術の急速な発展に伴い、ヒューマンアクティビティ認識(HAR)は、セキュリティや監視、人間とロボットのインタラクション、エンターテイメントなど、さまざまな分野に適用されている。 多くの調査やレビュー論文が公表されているが、ウェアラブルセンサーを使用する医療アプリケーションに焦点を当てたhar概要論文が不足している。 そこで,本論文の概要を述べることにより,そのギャップを埋める。 特に,集中治療室 (ICU) 患者とデュシェンヌ型筋ジストロフィー (DMD) 患者に対するヒト活動の同定を行った。 我々のHARシステムには、ICU患者やDMD患者からセンサデータを収集するハードウェア設計と、患者の活動を認識するための正確なAIモデルが含まれています。 本稿では,センサファクタ,aiモデル比較,システム課題など,har医療システム構築のための考慮事項と設定について概説する。

With the rapid development of the internet of things (IoT) and artificial intelligence (AI) technologies, human activity recognition (HAR) has been applied in a variety of domains such as security and surveillance, human-robot interaction, and entertainment. Even though a number of surveys and review papers have been published, there is a lack of HAR overview paper focusing on healthcare applications that use wearable sensors. Therefore, we fill in the gap by presenting this overview paper. In particular, we present our emerging HAR projects for healthcare: identification of human activities for intensive care unit (ICU) patients and Duchenne muscular dystrophy (DMD) patients. Our HAR systems include hardware design to collect sensor data from ICU patients and DMD patients and accurate AI models to recognize patients' activities. This overview paper covers considerations and settings for building a HAR healthcare system, including sensor factors, AI model comparison, and system challenges.
翻訳日:2021-03-31 14:36:44 公開日:2021-03-29
# ベイズ構造スパルシティを用いた不均質性モデリング

Modelling Heterogeneity Using Bayesian Structured Sparsity ( http://arxiv.org/abs/2103.15919v1 )

ライセンス: Link先を確認
Max Goplerud(参考訳) 異質性をどのように見積もるか、例えば 観察によって異なる変数の効果は 政治科学において重要な問題です そうする方法は、不均一性の基礎となる性質に関する仮定を単純化し、信頼できる推論を引き出す。 本稿では,複雑な現象(同様の現象を離散群に展開する観測)を回帰分析に組み込む共通の方法を提案する。 この枠組みにより、研究者は(i)どのグループが許容可能か、(ii)不確実性を適切に定量化するために、事前の知識を利用することができる。 論文は、従来のペナル化可能性アプローチからベイズ的アプローチへの「構造化された空間性」の研究を、新しい理論的結果と推論技術から導出した。 本手法は, 基礎となる異種性がグループ化されている場合の異種効果を推定するための最先端手法よりも優れており, 観測データに異なる効果を持つ観測群をより効果的に同定できることを示す。

How to estimate heterogeneity, e.g. the effect of some variable differing across observations, is a key question in political science. Methods for doing so make simplifying assumptions about the underlying nature of the heterogeneity to draw reliable inferences. This paper allows a common way of simplifying complex phenomenon (placing observations with similar effects into discrete groups) to be integrated into regression analysis. The framework allows researchers to (i) use their prior knowledge to guide which groups are permissible and (ii) appropriately quantify uncertainty. The paper does this by extending work on "structured sparsity" from a traditional penalized likelihood approach to a Bayesian one by deriving new theoretical results and inferential techniques. It shows that this method outperforms state-of-the-art methods for estimating heterogeneous effects when the underlying heterogeneity is grouped and more effectively identifies groups of observations with different effects in observational data.
翻訳日:2021-03-31 14:33:56 公開日:2021-03-29
# リカレントニューラルネットワークを用いた信号時間論理仕様からのモデルベース安全ポリシー探索

Model-Based Safe Policy Search from Signal Temporal Logic Specifications Using Recurrent Neural Networks ( http://arxiv.org/abs/2103.15938v1 )

ライセンス: Link先を確認
Wenliang Liu and Calin Belta(参考訳) 本稿では,STL(Signal Temporal Logic)の仕様からコントローラを学習するためのポリシー探索手法を提案する。 システムモデルは未知であり、制御ポリシとともに学習される。 このモデルはfeedforward neural network (fnn)として実装されている。 STL仕様の履歴依存性を捉えるために、リカレントニューラルネットワーク(RNN)を使用して制御ポリシーを実装します。 一般的なモデルフリー手法とは対照的に、ここで提案する学習アプローチは学習モデルを利用しており、より効率的である。 制御障壁関数(CBF)と学習モデルを用いてシステムの安全性を向上させる。 シミュレーションによるアルゴリズムの検証を行う。 その結果,本手法は非常に少ないシステム実行で所定の仕様を満たせることが明らかとなり,オンライン制御に活用できる可能性が示唆された。

We propose a policy search approach to learn controllers from specifications given as Signal Temporal Logic (STL) formulae. The system model is unknown, and it is learned together with the control policy. The model is implemented as a feedforward neural network (FNN). To capture the history dependency of the STL specification, we use a recurrent neural network (RNN) to implement the control policy. In contrast to prevalent model-free methods, the learning approach proposed here takes advantage of the learned model and is more efficient. We use control barrier functions (CBFs) with the learned model to improve the safety of the system. We validate our algorithm via simulations. The results show that our approach can satisfy the given specification within very few system runs, and therefore it has the potential to be used for on-line control.
翻訳日:2021-03-31 14:32:50 公開日:2021-03-29
# BrainScaleS-2モバイルシステムにおけるアナログ推論の実証

Demonstrating Analog Inference on the BrainScaleS-2 Mobile System ( http://arxiv.org/abs/2103.15960v1 )

ライセンス: Link先を確認
Yannik Stradmann, Sebastian Billaudelle, Oliver Breitwieser, Falk Leonard Ebert, Arne Emmel, Dan Husmann, Joscha Ilmberger, Eric M\"uller, Philipp Spilger, Johannes Weis, Johannes Schemmel(参考訳) 我々は,brainscales-2モバイルシステムを,brainscales-2 asicに基づくコンパクトなアナログ推論エンジンとして提示し,医療用心電図データセットの分類能力を示す。 ASICのアナログネットワークコアを用いて畳み込みディープニューラルネットワークの乗算累積演算を行う。 ASICの総エネルギー消費量は192uJであり,心電図標本あたりの分類時間は276usである。 心房細動患者は14.0(10)%偽陽性で93.7(7)%検出率で正確に同定される。 このシステムは、小さなサイズ、パワーエンベロープ、柔軟なI/O機能のために、エッジ推論アプリケーションに直接適用できる。 将来的には、1つのBrainScaleS-2 ASIC上のスパイクニューラルネットワークにおいて、従来の機械学習レイヤとオンライン学習を組み合わせることが可能になる。 このシステムは、ドイツ連邦教育研究省(BMBF)の独立に審査された「Plotinnovationswettb ewerb 'Energieeffizientes KI-System'」で確実に運用されていることが証明された。

We present the BrainScaleS-2 mobile system as a compact analog inference engine based on the BrainScaleS-2 ASIC and demonstrate its capabilities at classifying a medical electrocardiogram dataset. The analog network core of the ASIC is utilized to perform the multiply-accumulate operations of a convolutional deep neural network. We measure a total energy consumption of 192uJ for the ASIC and achieve a classification time of 276us per electrocardiographic patient sample. Patients with atrial fibrillation are correctly identified with a detection rate of 93.7(7)% at 14.0(10)% false positives. The system is directly applicable to edge inference applications due to its small size, power envelope and flexible I/O capabilities. Possible future applications can furthermore combine conventional machine learning layers with online-learning in spiking neural networks on a single BrainScaleS-2 ASIC. The system has successfully participated and proven to operate reliably in the independently judged competition "Pilotinnovationswett bewerb 'Energieeffizientes KI-System'" of the German Federal Ministry of Education and Research (BMBF).
翻訳日:2021-03-31 14:32:36 公開日:2021-03-29
# 強化学習による誘導体の深部ヒージング

Deep Hedging of Derivatives Using Reinforcement Learning ( http://arxiv.org/abs/2103.16409v1 )

ライセンス: Link先を確認
Jay Cao, Jacky Chen, John Hull, Zissis Poulos(参考訳) 本稿では,トランザクションコストが存在する場合のデリバティブに対する最適ヘッジ戦略の導出に強化学習を用いる方法を示す。 本稿では,平均ヘッジコストに等しい関数を最小化することと、ヘッジコストの標準偏差の一定倍にすることを目的とした場合,コールオプションにおけるデルタヘッジと最短位置の最適ヘッジの違いを示す。 2つの状況が考慮される。 第一に、資産価格は幾何学的ブラウン運動に従う。 第二に、資産価格は確率的変動過程に従う。 本論文は, 基本強化学習アプローチを, 様々な方法で拡張する。 まず、コストの期待値とコストの2乗の期待値の両方が異なる状態と動作の組み合わせで追跡されるように、2つの異なるq関数を使用する。 このアプローチは、使用可能な目的関数の範囲を増加させる。 第二に、連続状態とアクション空間を可能にする学習アルゴリズムを使用する。 第3に、会計P&Lアプローチ(ヘッジポジションが各ステップで評価される)とキャッシュフローアプローチ(キャッシュインフローとアウトフローが使用される)を比較します。 私たちは、比較的単純な評価モデルを取り入れた会計p&lアプローチの利用を含むハイブリッドアプローチがうまく機能することを見出します。 評価モデルは、基礎となる資産価格について想定されるプロセスと一致しない。

This paper shows how reinforcement learning can be used to derive optimal hedging strategies for derivatives when there are transaction costs. The paper illustrates the approach by showing the difference between using delta hedging and optimal hedging for a short position in a call option when the objective is to minimize a function equal to the mean hedging cost plus a constant times the standard deviation of the hedging cost. Two situations are considered. In the first, the asset price follows a geometric Brownian motion. In the second, the asset price follows a stochastic volatility process. The paper extends the basic reinforcement learning approach in a number of ways. First, it uses two different Q-functions so that both the expected value of the cost and the expected value of the square of the cost are tracked for different state/action combinations. This approach increases the range of objective functions that can be used. Second, it uses a learning algorithm that allows for continuous state and action space. Third, it compares the accounting P&L approach (where the hedged position is valued at each step) and the cash flow approach (where cash inflows and outflows are used). We find that a hybrid approach involving the use of an accounting P&L approach that incorporates a relatively simple valuation model works well. The valuation model does not have to correspond to the process assumed for the underlying asset price.
翻訳日:2021-03-31 14:31:18 公開日:2021-03-29
# 海洋除雪ベンチマークデータセット

Marine Snow Removal Benchmarking Dataset ( http://arxiv.org/abs/2103.14249v2 )

ライセンス: Link先を確認
Yuya Sato, Takumi Ueda, Yuichi Tanaka(参考訳) 本稿では,水中画像の海洋除雪のための新しいベンチマークデータセットを提案する。 海洋性雪は、水中のシーンと光センサーの間の小さな粒子、例えば有機物や砂によって引き起こされる水中画像の主要な劣化源の1つである。 実際の水中画像から2種類の海洋性雪を数学的にモデル化する。 モデル化されたアーティファクトを水中画像で合成し、大規模に一対の地上構造と劣化した画像を構築し、海洋性除雪の目標品質を計算し、深層ニューラルネットワークを訓練する。 本研究では,このデータを用いて2つの海中除雪タスクを提案し,海中除雪のベンチマーク結果を示す。 Marine Snow removal Benchmarking Datasetはオンラインで公開されている。

This paper introduces a new benchmarking dataset for marine snow removal of underwater images. Marine snow is one of the main degradation sources of underwater images that are caused by small particles, e.g., organic matter and sand, between the underwater scene and photosensors. We mathematically model two typical types of marine snow from the observations of real underwater images. The modeled artifacts are synthesized with underwater images to construct large-scale pairs of ground-truth and degraded images to calculate objective qualities for marine snow removal and to train a deep neural network. We propose two marine snow removal tasks using the dataset and show the first benchmarking results of marine snow removal. The Marine Snow Removal Benchmarking Dataset is publicly available online.
翻訳日:2021-03-31 11:58:32 公開日:2021-03-29
# (参考訳) 不確かさを伴う深度補修のためのベイジアンディープベイジフィッティング [全文訳有]

Bayesian Deep Basis Fitting for Depth Completion with Uncertainty ( http://arxiv.org/abs/2103.15254v1 )

ライセンス: CC BY 4.0
Chao Qu, Wenxin Liu, Camillo J. Taylor(参考訳) 本研究では,画像誘導深度補正における不確実性推定の問題について検討する。 ベイジアンエビデンスフレームワーク内での深度補完のための深度基底フィッティング(DBF)を拡張して,画素毎の偏差を校正する。 DBFアプローチは、低次元深度基底の集合を生成するネットワークと、スパース深度を用いて基底重みを計算する微分可能最小二乗整合モジュールという観点で、深さ完了問題をフレーム化する。 bdbf(bayesian deep basis fit)アプローチは,ベイズ処理を適用することで,1)高品質の不確実性推定を予測し,2)わずかな測定値で奥行き完了を可能にする。 様々なシナリオにおける不確実性推定手法とbdbfを比較するための制御実験を行った。 その結果, 精度の高い深度予測を行い, 精度の高い不確実性推定が得られた。

In this work we investigate the problem of uncertainty estimation for image-guided depth completion. We extend Deep Basis Fitting (DBF) for depth completion within a Bayesian evidence framework to provide calibrated per-pixel variance. The DBF approach frames the depth completion problem in terms of a network that produces a set of low-dimensional depth bases and a differentiable least squares fitting module that computes the basis weights using the sparse depths. By adopting a Bayesian treatment, our Bayesian Deep Basis Fitting (BDBF) approach is able to 1) predict high-quality uncertainty estimates and 2) enable depth completion with few or no sparse measurements. We conduct controlled experiments to compare BDBF against commonly used techniques for uncertainty estimation under various scenarios. Results show that our method produces better uncertainty estimates with accurate depth prediction.
翻訳日:2021-03-31 06:38:23 公開日:2021-03-29
# (参考訳) 1つのネットワークがすべてか? ニューラルネットワークにおけるモジュラー対モノリシックタスク定式化 [全文訳有]

One Network Fits All? Modular versus Monolithic Task Formulations in Neural Networks ( http://arxiv.org/abs/2103.15261v1 )

ライセンス: CC BY 4.0
Atish Agarwala, Abhimanyu Das, Brendan Juba, Rina Panigrahy, Vatsal Sharan, Xin Wang, Qiuyi Zhang(参考訳) ディープラーニングは、無関係で非常に異なる場合でも、複数のタスクを同時に解決できますか? 基礎となるタスクの表現が単一のニューラルネットワークの学習能力にどのように影響するかを検討する。 例えば、特定のタスクコード属性に対して、明確に分離されたクラスタや決定木によって異なるタスクがエンコードされる場合など、さまざまなタスクを表現する方法において、単一のニューラルネットワークが複合データセットから複数のタスクを同時に学習できることを理論的および実証的に示す。 より具体的には、タスクを符号化するコードのための単純なプログラミングライクな構成のファミリーが、標準的なトレーニングを伴う2層ニューラルネットワークによって学習可能であることを示す。 このような統合されたタスクの学習の複雑さは、タスクコードの複雑さとともにどのように成長するかを、より一般的に研究する。 クラスタ上のネットワーク,決定木,SQLスタイルの集約をトレーニングすることで,学習境界の有用性を実証的に支援する。

Can deep learning solve multiple tasks simultaneously, even when they are unrelated and very different? We investigate how the representations of the underlying tasks affect the ability of a single neural network to learn them jointly. We present theoretical and empirical findings that a single neural network is capable of simultaneously learning multiple tasks from a combined data set, for a variety of methods for representing tasks -- for example, when the distinct tasks are encoded by well-separated clusters or decision trees over certain task-code attributes. More concretely, we present a novel analysis that shows that families of simple programming-like constructs for the codes encoding the tasks are learnable by two-layer neural networks with standard training. We study more generally how the complexity of learning such combined tasks grows with the complexity of the task codes; we find that combining many tasks may incur a sample complexity penalty, even though the individual tasks are easy to learn. We provide empirical support for the usefulness of the learning bounds by training networks on clusters, decision trees, and SQL-style aggregation.
翻訳日:2021-03-31 06:17:38 公開日:2021-03-29
# (参考訳) ホログラフィーによる非校正交通カメラによる単眼3次元車両検出 [全文訳有]

Monocular 3D Vehicle Detection Using Uncalibrated Traffic Cameras through Homography ( http://arxiv.org/abs/2103.15293v1 )

ライセンス: CC BY 4.0
Minghan Zhu, Songan Zhang, Yuanxin Zhong, Pingping Lu, Huei Peng and John Lenneman(参考訳) 本論文では,1台のトラヒックカメラから3次元空間における車両の位置と姿勢を抽出する手法を提案する。 これまでのモノラルな3D車両検出アルゴリズムは、ドライバーの視点から車両のカメラに焦点を合わせ、本質的および外生的なキャリブレーションを仮定していた。 反対に,本論文では,非対応単眼トラヒックカメラを用いて同じ課題に注目する。 本研究では,道路面と画像面のホモグラフィーが3次元車両検出とデータ合成に不可欠であることを観察し,カメラの内在性や外在性を持たずにホモグラフィーを推定できることを示した。 我々は,鳥の視線(BEV)画像中の回転する有界箱(rボックス)を逆視点マッピングから推定して3次元車両検出を行う。 本稿では,新しい回帰ターゲットである「textit{tailed~r-box}」と「textit{dual-view}」ネットワークアーキテクチャを提案する。 実験の結果,提案手法はトレーニング中に画像が見えない場合でも,新しいカメラや環境設定に一般化可能であることがわかった。

This paper proposes a method to extract the position and pose of vehicles in the 3D world from a single traffic camera. Most previous monocular 3D vehicle detection algorithms focused on cameras on vehicles from the perspective of a driver, and assumed known intrinsic and extrinsic calibration. On the contrary, this paper focuses on the same task using uncalibrated monocular traffic cameras. We observe that the homography between the road plane and the image plane is essential to 3D vehicle detection and the data synthesis for this task, and the homography can be estimated without the camera intrinsics and extrinsics. We conduct 3D vehicle detection by estimating the rotated bounding boxes (r-boxes) in the bird's eye view (BEV) images generated from inverse perspective mapping. We propose a new regression target called \textit{tailed~r-box} and a \textit{dual-view} network architecture which boosts the detection accuracy on warped BEV images. Experiments show that the proposed method can generalize to new camera and environment setups despite not seeing imaged from them during training.
翻訳日:2021-03-31 05:42:04 公開日:2021-03-29
# (参考訳) LiDAR R-CNN: 効率的で汎用的な3Dオブジェクト検出器 [全文訳有]

LiDAR R-CNN: An Efficient and Universal 3D Object Detector ( http://arxiv.org/abs/2103.15297v1 )

ライセンス: CC BY 4.0
Zhichao Li, Feng Wang, Naiyan Wang(参考訳) ポイントクラウドにおけるLiDARに基づく3D検出は、自律運転の知覚システムにおいて不可欠である。 本稿では,既存の3D検出器を改良可能な第2ステージ検出器LiDAR R-CNNを提案する。 実のところ、リアルタイムかつ高精度な要求を満たすために、一般的なボクセルベースのアプローチ以外の点ベースアプローチを採用する。 ポイントネットのようなポイントベースのメソッドを積極的に適用することで、学習した機能は提案のサイズを無視することができる。 そこで本研究では,この問題を詳細に分析し,その対策方法をいくつか提案する。 Waymo Open Dataset (WOD) やKITTIデータセットなどの実世界のデータセットに関する総合的な実験結果は、LiDAR R-CNNの普遍性と優位性を示している。 特に,pointpillarsの1つの変種に基づいて,小額なコストで新たな最先端結果を得ることができた。 コードはhttps://github.com/t usimple/LiDAR_RCNNでリリースされる。

LiDAR-based 3D detection in point cloud is essential in the perception system of autonomous driving. In this paper, we present LiDAR R-CNN, a second stage detector that can generally improve any existing 3D detector. To fulfill the real-time and high precision requirement in practice, we resort to point-based approach other than the popular voxel-based approach. However, we find an overlooked issue in previous work: Naively applying point-based methods like PointNet could make the learned features ignore the size of proposals. To this end, we analyze this problem in detail and propose several methods to remedy it, which bring significant performance improvement. Comprehensive experimental results on real-world datasets like Waymo Open Dataset (WOD) and KITTI dataset with various popular detectors demonstrate the universality and superiority of our LiDAR R-CNN. In particular, based on one variant of PointPillars, our method could achieve new state-of-the-art results with minor cost. Codes will be released at https://github.com/t usimple/LiDAR_RCNN .
翻訳日:2021-03-31 05:27:02 公開日:2021-03-29
# (参考訳) onfocus detection: 無拘束画像から個々のカメラのアイコンタクトを識別する [全文訳有]

Onfocus Detection: Identifying Individual-Camera Eye Contact from Unconstrained Images ( http://arxiv.org/abs/2103.15307v1 )

ライセンス: CC BY 4.0
Dingwen Zhang, Bo Wang, Gerong Wang, Qiang Zhang, Jiajia Zhang, Jungong Han, Zheng You(参考訳) Onfocus Detectionは、カメラが捉えた個人の焦点がカメラにあるかどうかを特定することを目的としている。 行動研究に基づいて、対面カメラコミュニケーション中の個人の焦点は、特別なタイプのアイコンタクト、すなわち、社会的コミュニケーションにおいて強力なシグナルであり、不規則な個人状態(例えば、嘘や精神疾患)と特別な目的(例えば、助けを求めるか、ファンを引き付けること)を認識する上で重要な役割を果たす個々のカメラアイコンタクトにつながる。 したがって, 効果的なオンフォーカス検出アルゴリズムの開発は, 刑事捜査, 疾病発見, 社会行動分析の補助に重要である。 しかし,本論文のレビューでは,大規模データセットの欠如や課題的な課題により,オンフォーカス検出器の開発に向けた取り組みがほとんど行われていないことが示されている。 そこで本稿では,上記の2つの課題に対処して,オンフォーカス検出研究を行う。 まず,OFDIW(OnFocus Detection In the Wild)と呼ばれる大規模オンフォーカス検出データセットを構築した。 20,623枚の画像からなり、周囲の感情、年齢、顔の特徴、周囲の物体や背景のシーンとの豊かな相互作用を含む。 さらに, 動的カプセルルーティングによる視線-コンテキストインタラクションを探索するオンフォーカス検出のための, エンド・ツー・エンドの深層モデルであるeciin(eye-context interaction inferring network)を提案する。 最後に,提案するofdiwデータセットを用いて,既存の学習モデルのベンチマークを行い,eciinの有効性を実証する総合実験を行った。 プロジェクト(データセットとコードの両方を含む)はhttps://github.com/w intercho/focusにある。

Onfocus detection aims at identifying whether the focus of the individual captured by a camera is on the camera or not. Based on the behavioral research, the focus of an individual during face-to-camera communication leads to a special type of eye contact, i.e., the individual-camera eye contact, which is a powerful signal in social communication and plays a crucial role in recognizing irregular individual status (e.g., lying or suffering mental disease) and special purposes (e.g., seeking help or attracting fans). Thus, developing effective onfocus detection algorithms is of significance for assisting the criminal investigation, disease discovery, and social behavior analysis. However, the review of the literature shows that very few efforts have been made toward the development of onfocus detector due to the lack of large-scale public available datasets as well as the challenging nature of this task. To this end, this paper engages in the onfocus detection research by addressing the above two issues. Firstly, we build a large-scale onfocus detection dataset, named as the OnFocus Detection In the Wild (OFDIW). It consists of 20,623 images in unconstrained capture conditions (thus called ``in the wild'') and contains individuals with diverse emotions, ages, facial characteristics, and rich interactions with surrounding objects and background scenes. On top of that, we propose a novel end-to-end deep model, i.e., the eye-context interaction inferring network (ECIIN), for onfocus detection, which explores eye-context interaction via dynamic capsule routing. Finally, comprehensive experiments are conducted on the proposed OFDIW dataset to benchmark the existing learning models and demonstrate the effectiveness of the proposed ECIIN. The project (containing both datasets and codes) is at https://github.com/w intercho/focus.
翻訳日:2021-03-31 05:14:08 公開日:2021-03-29
# (参考訳) 教師なしセマンティック・アプリケーションのためのフレーズ・文への多義語埋め込みの拡張 [全文訳有]

Extending Multi-Sense Word Embedding to Phrases and Sentences for Unsupervised Semantic Applications ( http://arxiv.org/abs/2103.15330v1 )

ライセンス: CC BY 4.0
Haw-Shiuan Chang, Amol Agrawal, Andrew McCallum(参考訳) ほとんどの教師なしNLPモデルは、意味空間内の1つの点または1つの領域を持つ各単語を表すが、既存の多義語埋め込みはフレーズや文のような長い単語列を表現できない。 本稿では,テキストシーケンス(句や文)に対する新しい埋め込み手法を提案する。各シーケンスは,複数のモードのコードブックの埋め込みによって表現され,意味の異なるセマンティックな面をキャプチャする。 コードブック埋め込みは、事前訓練された単語埋め込み空間における、おそらく共起する単語の分布をまとめるクラスタセンターと見なすことができる。 テスト期間中に入力テキストシーケンスからクラスタセンターの集合を直接予測するエンドツーエンドのトレーニング可能なニューラルモデルを導入する。 提案手法は,教師なし文の類似性と抽出要約ベンチマークの性能を大幅に改善することを示す。 句類似性実験では,多面体埋め込みは解釈可能な意味表現を提供するが,単面体ベースラインよりは優れないことがわかった。

Most unsupervised NLP models represent each word with a single point or single region in semantic space, while the existing multi-sense word embeddings cannot represent longer word sequences like phrases or sentences. We propose a novel embedding method for a text sequence (a phrase or a sentence) where each sequence is represented by a distinct set of multi-mode codebook embeddings to capture different semantic facets of its meaning. The codebook embeddings can be viewed as the cluster centers which summarize the distribution of possibly co-occurring words in a pre-trained word embedding space. We introduce an end-to-end trainable neural model that directly predicts the set of cluster centers from the input text sequence during test time. Our experiments show that the per-sentence codebook embeddings significantly improve the performances in unsupervised sentence similarity and extractive summarization benchmarks. In phrase similarity experiments, we discover that the multi-facet embeddings provide an interpretable semantic representation but do not outperform the single-facet baseline.
翻訳日:2021-03-31 05:00:12 公開日:2021-03-29
# (参考訳) 強化学習ベンチマークにおけるサンプル効率と一般化の測定:NeurIPS 2020 Procgen Benchmark [全文訳有]

Measuring Sample Efficiency and Generalization in Reinforcement Learning Benchmarks: NeurIPS 2020 Procgen Benchmark ( http://arxiv.org/abs/2103.15332v1 )

ライセンス: CC BY 4.0
Sharada Mohanty, Jyotish Poonganam, Adrien Gaidon, Andrey Kolobov, Blake Wulfe, Dipam Chakraborty, Gra\v{z}vydas \v{S}emetulskis, Jo\~ao Schapke, Jonas Kubilius, Jurgis Pa\v{s}ukonis, Linas Klimas, Matthew Hausknecht, Patrick MacAlpine, Quang Nhat Tran, Thomas Tumiel, Xiaocheng Tang, Xinwei Chen, Christopher Hesse, Jacob Hilton, William Hebgen Guss, Sahika Genc, John Schulman, Karl Cobbe(参考訳) NeurIPS 2020 Procgen Competitionは、強化学習におけるサンプル効率と一般化を測定するための明確に定義されたタスクを備えた集中型ベンチマークとして設計された。 一般化は、深い強化学習における最も基本的な課題の1つだが、強化学習における一般化に関するコミュニティの進捗を測る十分なベンチマークはない。 本稿では,何千ものユーザ投稿コードベースのトレーニングとロールアウトフェーズの終末評価を行うことで,強化学習におけるサンプル効率と一般化の計測を支援する,強化学習のための集中型ベンチマークの設計を提案する。 私たちは、明確なタスクを定義し、エンドツーエンドの評価設定を標準化することで、既存のProcgen Benchmarkの上にベンチマークを設計しました。 この設計は、このようなベンチマークの将来のイテレーションを設計したい研究者にとって利用可能な柔軟性を最大化することを目的としている。 本稿では,2020年のneuripsコンペティションにおいて,このコンペティションによって特定された最上位ソリューションのコンペティション設定と詳細と分析について述べる。

The NeurIPS 2020 Procgen Competition was designed as a centralized benchmark with clearly defined tasks for measuring Sample Efficiency and Generalization in Reinforcement Learning. Generalization remains one of the most fundamental challenges in deep reinforcement learning, and yet we do not have enough benchmarks to measure the progress of the community on Generalization in Reinforcement Learning. We present the design of a centralized benchmark for Reinforcement Learning which can help measure Sample Efficiency and Generalization in Reinforcement Learning by doing end to end evaluation of the training and rollout phases of thousands of user submitted code bases in a scalable way. We designed the benchmark on top of the already existing Procgen Benchmark by defining clear tasks and standardizing the end to end evaluation setups. The design aims to maximize the flexibility available for researchers who wish to design future iterations of such benchmarks, and yet imposes necessary practical constraints to allow for a system like this to scale. This paper presents the competition setup and the details and analysis of the top solutions identified through this setup in context of 2020 iteration of the competition at NeurIPS.
翻訳日:2021-03-31 04:23:27 公開日:2021-03-29
# (参考訳) トポロジカルな言語生成のためのトランスフォーマーの心を変える [全文訳有]

Changing the Mind of Transformers for Topically-Controllab le Language Generation ( http://arxiv.org/abs/2103.15335v1 )

ライセンス: CC BY 4.0
Haw-Shiuan Chang, Jiaming Yuan, Mohit Iyyer, Andrew McCallum(参考訳) 大規模なトランスフォーマーベースの言語モデルは、これまで書かれたテキストの妥当な継続を提案することで、人間の著者を助けることができる。 しかし、現在の対話型文字アシスタントは、著者が所望の話題順にテキスト生成をガイドすることができない。 この制限に対処するために、私たちは、ユーザが生成を導くサブセットを選択することができる複数の候補となるトピックを表示するフレームワークを設計します。 本フレームワークは,(1)継続可能な単語クラスタの中央を予測して候補トピックのセットを生成する方法,(2)選択されたトピックに出力が従うテキスト生成モデル,の2つの構成要素からなる。 両方のコンポーネントのトレーニングは、ラベルのないテキストのみを使用して、自己監督される。 私たちの実験は、私たちのトピックの選択肢が標準的なクラスタリングアプローチよりも優れていることを示し、自動化メトリクスやクラウドソースワーカーによって判断されるように、フレームワークが選択したトピックに関連するフルーレントな文を生成することが少なくありません。

Large Transformer-based language models can aid human authors by suggesting plausible continuations of text written so far. However, current interactive writing assistants do not allow authors to guide text generation in desired topical directions. To address this limitation, we design a framework that displays multiple candidate upcoming topics, of which a user can select a subset to guide the generation. Our framework consists of two components: (1) a method that produces a set of candidate topics by predicting the centers of word clusters in the possible continuations, and (2) a text generation model whose output adheres to the chosen topics. The training of both components is self-supervised, using only unlabeled text. Our experiments demonstrate that our topic options are better than those of standard clustering approaches, and our framework often generates fluent sentences related to the chosen topics, as judged by automated metrics and crowdsourced workers.
翻訳日:2021-03-31 04:09:39 公開日:2021-03-29
# (参考訳) 多面型ユニバーサルスキーマ [全文訳有]

Multi-facet Universal Schema ( http://arxiv.org/abs/2103.15339v1 )

ライセンス: CC BY 4.0
Rohan Paul, Haw-Shiuan Chang, Andrew McCallum(参考訳) 普遍スキーマ(USchema)は、同じエンティティペアを共有する2つの文パターンが互いに似ていると仮定する。 この仮定は、様々な種類の関係抽出(RE)タスクを解決するために広く採用されている。 それでも、各文パターンは複数のファセットを含むことができ、全てのファセットが同じエンティティペアと共起する他の文パターンのすべてのファセットと似ているわけではない。 そこで,uschemaの仮定の違反に対処するために,ニューラルネットワークを用いて各文パターンを複数のファセット埋め込みとして表現する多面型ユニバーサルスキーマを提案し,同一のエンティティペアと共用する場合には,これらファセット埋め込みの1つを他の文パターンのそれに近いものにするよう促す。 実験では, 複数面埋め込みは, 遠隔教師付き関係抽出タスクにおいて, 単一面埋め込み方式である構成普遍スキーマ(CUSchema, Verga et al., 2016)よりも有意に優れていることを示した。 また,手動ラベルが存在しない場合,複数の埋め込みを用いて2つの文パターン間の関係を検出することもできる。

Universal schema (USchema) assumes that two sentence patterns that share the same entity pairs are similar to each other. This assumption is widely adopted for solving various types of relation extraction (RE) tasks. Nevertheless, each sentence pattern could contain multiple facets, and not every facet is similar to all the facets of another sentence pattern co-occurring with the same entity pair. To address the violation of the USchema assumption, we propose multi-facet universal schema that uses a neural model to represent each sentence pattern as multiple facet embeddings and encourage one of these facet embeddings to be close to that of another sentence pattern if they co-occur with the same entity pair. In our experiments, we demonstrate that multi-facet embeddings significantly outperform their single-facet embedding counterpart, compositional universal schema (CUSchema) (Verga et al., 2016), in distantly supervised relation extraction tasks. Moreover, we can also use multiple embeddings to detect the entailment relation between two sentence patterns when no manual label is available.
翻訳日:2021-03-31 03:45:02 公開日:2021-03-29
# (参考訳) MC-NOMAの共同資源管理 : 深層強化学習アプローチ [全文訳有]

Joint Resource Management for MC-NOMA: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2103.15371v1 )

ライセンス: CC BY 4.0
Shaoyang Wang and Tiejun Lv and Wei Ni and Norman C. Beaulieu and Y. Jay Guo(参考訳) 本稿では,ハードウェアの感度と不完全連続干渉キャンセラ(sic)を考慮した,実用的なマルチキャリア非直交多重アクセス(mc-noma)システムにおいて,協調資源管理(jrm)に取り組むための,新規かつ効果的な深層強化学習(drl)に基づくアプローチを提案する。 まず、重み付きシステムスループットを最大化するためにJRM問題を定式化する。 次に、JRM問題をサブキャリア割り当て(SA、ユーザグループ化を含む)とパワーアロケーション(PA)の2つの反復サブタスクに分割する。 各サブタスクはシーケンシャルな決定プロセスである。 提案したDRL-JRM(DRL-JRM)アプローチは,提案手法を用いて2つのサブタスクを共同で実行し,各サブタスクの最適化目標と制約を新たな共同報酬機構と内部報酬機構によって対処する。 PAサブタスクの複雑さを低減するために、マルチエージェント構造と畳み込みニューラルネットワークを採用する。 また、DRL-JRMの安定性と収束性のためにニューラルネットワーク構造を調整する。 DRL-JRM方式は,システムスループットや干渉耐性,特に多くのユーザの存在とセル間干渉の強い点で,既存の代替手法よりも優れている。 DRL-JRMはユーザの個々のサービス要件を柔軟に満たすことができる。

This paper presents a novel and effective deep reinforcement learning (DRL)-based approach to addressing joint resource management (JRM) in a practical multi-carrier non-orthogonal multiple access (MC-NOMA) system, where hardware sensitivity and imperfect successive interference cancellation (SIC) are considered. We first formulate the JRM problem to maximize the weighted-sum system throughput. Then, the JRM problem is decoupled into two iterative subtasks: subcarrier assignment (SA, including user grouping) and power allocation (PA). Each subtask is a sequential decision process. Invoking a deep deterministic policy gradient algorithm, our proposed DRL-based JRM (DRL-JRM) approach jointly performs the two subtasks, where the optimization objective and constraints of the subtasks are addressed by a new joint reward and internal reward mechanism. A multi-agent structure and a convolutional neural network are adopted to reduce the complexity of the PA subtask. We also tailor the neural network structure for the stability and convergence of DRL-JRM. Corroborated by extensive experiments, the proposed DRL-JRM scheme is superior to existing alternatives in terms of system throughput and resistance to interference, especially in the presence of many users and strong inter-cell interference. DRL-JRM can flexibly meet individual service requirements of users.
翻訳日:2021-03-31 03:24:30 公開日:2021-03-29
# (参考訳) alignmix:アライメント機能間の補間による表現の改善 [全文訳有]

AlignMix: Improving representation by interpolating aligned features ( http://arxiv.org/abs/2103.15375v1 )

ライセンス: CC BY 4.0
Shashanka Venkataramanan, Yannis Avrithis, Ewa Kijak, Laurent Amsaleg(参考訳) Mixupは、入力または特徴空間における2つ以上の例と対応するターゲットラベルの間に補間する強力なデータ拡張手法である。 最近のミックスアップ手法の多くは、2つ以上のオブジェクトを1つのイメージにカット・ペーストすることに焦点を当てている。 しかし、画像の最良の補間方法は明確に定義されていない。 この意味では、mixupはオートエンコーダと接続されている、なぜならオートエンコーダが"うまく補間"するためである。 本研究では,補間の観点からミキサアップを再考し,特徴空間に2つの画像を幾何学的にアライメントするAlignMixを紹介する。 対応によって、ある集合の位置を維持しながら、2つの特徴セット間の補間が可能となる。 興味深いことに、mixupが1つのイメージの形状やポーズ、もう1つのイメージのテクスチャをほとんど保持し、それをスタイル転送に結びつける状況が発生する。 さらに、自動エンコーダは、デコードされた画像を見ることなく、mixup下での表現学習を改善できることを示した。 AlignMixは5つのベンチマークで最先端のミックスアップメソッドを上回っている。

Mixup is a powerful data augmentation method that interpolates between two or more examples in the input or feature space and between the corresponding target labels. Many recent mixup methods focus on cutting and pasting two or more objects into one image, which is more about efficient processing than interpolation. However, how to best interpolate images is not well defined. In this sense, mixup has been connected to autoencoders, because often autoencoders "interpolate well", for instance generating an image that continuously deforms into another. In this work, we revisit mixup from the interpolation perspective and introduce AlignMix, where we geometrically align two images in the feature space. The correspondences allow us to interpolate between two sets of features, while keeping the locations of one set. Interestingly, this gives rise to a situation where mixup retains mostly the geometry or pose of one image and the texture of the other, connecting it to style transfer. More than that, we show that an autoencoder can still improve representation learning under mixup, without the classifier ever seeing decoded images. AlignMix outperforms state-of-the-art mixup methods on five different benchmarks.
翻訳日:2021-03-31 02:54:26 公開日:2021-03-29
# (参考訳) ラグランジアン目的関数は、対人訓練における予期せぬ攻撃一般化の改善につながる [全文訳有]

Lagrangian Objective Function Leads to Improved Unforeseen Attack Generalization in Adversarial Training ( http://arxiv.org/abs/2103.15385v1 )

ライセンス: CC BY 4.0
Mohammad Azizmalayeri, Mohammad Hossein Rohban(参考訳) ディープラーニングモデルの最近の改善とその実用的応用は、これらのモデルの敵対的な例に対する堅牢性に関する懸念を提起している。 対人訓練(AT)は、訓練中に使用される攻撃に対して堅牢なモデルに到達するのに有効であることが示されている。 しかし、通常は他の攻撃、すなわち攻撃に失敗する。 モデルは、トレーニングアタックスキームにオーバーフィットします。 本稿では,上記の問題を緩和する at の簡単な修正を提案する。 具体的には、ラグランジュ形式の分類損失を最大化しながら、摂動$\ell_p$ノルムを最小化する。 このスキームに基づく対角的例の製作は、学習モデルにおける攻撃一般化の強化をもたらすと論じる。 最終モデルのロバストな精度を,トレーニング中に使用しなかった攻撃と,関連する最先端のメソッドと比較した。 この比較の結果,cifar-10データセットでは平均的ロバスト精度が5.9%,imagenet-100データセットでは3.2%であった。 また,我々の攻撃は,未発見の攻撃一般化のために設計された他の攻撃スキームよりも高速であることを示し,大規模データセットでは実現可能であると結論付ける。

Recent improvements in deep learning models and their practical applications have raised concerns about the robustness of these models against adversarial examples. Adversarial training (AT) has been shown effective to reach a robust model against the attack that is used during training. However, it usually fails against other attacks, i.e. the model overfits to the training attack scheme. In this paper, we propose a simple modification to the AT that mitigates the mentioned issue. More specifically, we minimize the perturbation $\ell_p$ norm while maximizing the classification loss in the Lagrangian form. We argue that crafting adversarial examples based on this scheme results in enhanced attack generalization in the learned model. We compare our final model robust accuracy against attacks that were not used during training to closely related state-of-the-art AT methods. This comparison demonstrates that our average robust accuracy against unseen attacks is 5.9% higher in the CIFAR-10 dataset and is 3.2% higher in the ImageNet-100 dataset than corresponding state-of-the-art methods. We also demonstrate that our attack is faster than other attack schemes that are designed for unseen attack generalization, and conclude that it is feasible for large-scale datasets.
翻訳日:2021-03-31 02:32:33 公開日:2021-03-29
# (参考訳) 残っていないフレーム:フルビデオアクション認識 [全文訳有]

No frame left behind: Full Video Action Recognition ( http://arxiv.org/abs/2103.15395v1 )

ライセンス: CC BY 4.0
Xin Liu, Silvia L. Pintea, Fatemeh Karimi Nejadasl, Olaf Booij, Jan C. van Gemert(参考訳) すべてのビデオフレームがアクションを認識するのに等しく役に立つわけではない。 アクションが数百フレームを超えると、すべてのビデオフレームでディープネットワークをトレーニングすることは不可能である。 一般的なヒューリスティックは、少数のビデオフレームを一様にサンプリングし、それらを使用してアクションを認識する。 代わりに、ビデオのフルアクション認識を提案し、すべてのビデオフレームについて検討する。 この計算を扱いやすくするために,まず,分類タスクの類似性に基づいて時間次元に沿ってすべてのフレームアクティベーションをクラスタ化し,その後,クラスタ内のフレームをより少ない数の表現に時間的に集約する。 本手法は,時間的局所化クラスタリングと特徴空間内の高速ハミング距離の組み合わせに依存するため,エンドツーエンドでトレーニング可能であり,計算効率が高い。 我々は,UCF101,HMDB51,Break fast,Something V1,V2の評価を行い,既存のヒューリスティックフレームサンプリング法と比較した。

Not all video frames are equally informative for recognizing an action. It is computationally infeasible to train deep networks on all video frames when actions develop over hundreds of frames. A common heuristic is uniformly sampling a small number of video frames and using these to recognize the action. Instead, here we propose full video action recognition and consider all video frames. To make this computational tractable, we first cluster all frame activations along the temporal dimension based on their similarity with respect to the classification task, and then temporally aggregate the frames in the clusters into a smaller number of representations. Our method is end-to-end trainable and computationally efficient as it relies on temporally localized clustering in combination with fast Hamming distances in feature space. We evaluate on UCF101, HMDB51, Breakfast, and Something-Something V1 and V2, where we compare favorably to existing heuristic frame sampling methods.
翻訳日:2021-03-31 02:14:43 公開日:2021-03-29
# (参考訳) 新しい視点合成のための自己監督型可視性学習 [全文訳有]

Self-Supervised Visibility Learning for Novel View Synthesis ( http://arxiv.org/abs/2103.15407v1 )

ライセンス: CC0 1.0
Yujiao Shi, Hongdong Li, Xin Yu(参考訳) 本稿では,いくつかのスパースソース画像からの新規ビュー合成(NVS)の問題に対処する。 従来のイメージベースレンダリング手法はシーン形状を推定し、2つの異なるステップで新しいビューを合成する。 しかし、ビュー合成が推定シーンジオメトリの品質に大きく依存するため、誤った幾何推定はnvs性能を低下させる。 本稿では,エラー伝搬問題を解消するエンドツーエンドNVSフレームワークを提案する。 具体的には、ターゲットビューの下にボリュームを構築し、ソースビュー内のターゲットビューボクセルの可視性を決定するために、ソースビュー可視性推定(SVE)モジュールを設計する。 次に、すべてのソースビューの可視性を統合し、コンセンサスボリュームを達成する。 コンセンサスボリュームの各ボクセルは、表面存在確率を示す。 そこで,本研究では,対象視界における最前線を見つけるためのソフトレイキャスティング(SRC)機構を提案する。 深さ)。 具体的には、SRCは、視線に沿ってコンセンサス体積を横切り、深さ確率分布を推定する。 次に、ソースビューピクセルをワープして集約し、推定したソースビュー可視性とターゲットビュー深度に基づいて新しいビューを合成する。 最終的に、我々のネットワークはエンドツーエンドのセルフ教師方式で訓練され、ビュー合成におけるエラーの蓄積を著しく軽減する。 実験の結果,本手法は最新技術と比較して高い品質で新たなビューを生成することがわかった。

We address the problem of novel view synthesis (NVS) from a few sparse source view images. Conventional image-based rendering methods estimate scene geometry and synthesize novel views in two separate steps. However, erroneous geometry estimation will decrease NVS performance as view synthesis highly depends on the quality of estimated scene geometry. In this paper, we propose an end-to-end NVS framework to eliminate the error propagation issue. To be specific, we construct a volume under the target view and design a source-view visibility estimation (SVE) module to determine the visibility of the target-view voxels in each source view. Next, we aggregate the visibility of all source views to achieve a consensus volume. Each voxel in the consensus volume indicates a surface existence probability. Then, we present a soft ray-casting (SRC) mechanism to find the most front surface in the target view (i.e. depth). Specifically, our SRC traverses the consensus volume along viewing rays and then estimates a depth probability distribution. We then warp and aggregate source view pixels to synthesize a novel view based on the estimated source-view visibility and target-view depth. At last, our network is trained in an end-to-end self-supervised fashion, thus significantly alleviating error accumulation in view synthesis. Experimental results demonstrate that our method generates novel views in higher quality compared to the state-of-the-art.
翻訳日:2021-03-31 01:57:36 公開日:2021-03-29
# (参考訳) planesegnet:単段インスタンスセグメンテーションcnnを用いた高速かつロバストな平面推定 [全文訳有]

PlaneSegNet: Fast and Robust Plane Estimation Using a Single-stage Instance Segmentation CNN ( http://arxiv.org/abs/2103.15428v1 )

ライセンス: CC BY 4.0
Yaxu Xie, Jason Rambach, Fangwen Shu, Didier Stricker(参考訳) 屋内シーンにおける平面領域のセグメンテーションは、視覚SLAMやシーン理解が必要な拡張現実(AR)などのアプリケーションに有効である。 既存の2段階フレームワーク上に構築された手法は精度は良好だが、フレームレートは低い。 本研究では,単一のrgb画像から分割平面領域を推定する,リアルタイム深層ニューラルネットワークアーキテクチャを提案する。 我々のモデルは高速単段CNNアーキテクチャの変種を用いて平面インスタンスを分割する。 検出対象の特異性を考慮した高速特徴量非最大抑圧(FF-NMS)を提案し,平面の重なり合う境界ボックスによる抑制誤差を低減する。 また,特徴ピラミッドネットワーク(fpn)における特徴拡張モジュールも活用する。 提案手法は,2段階法に対してフレームレートと同等のセグメンテーション精度を実現する。 我々はStanford 2D-3D-Semanticsデータセットから7万枚以上の画像を自動的に真実とラベル付けします。 さらに,提案手法を最先端の平面SLAMに組み込んで,その利点を検証した。

Instance segmentation of planar regions in indoor scenes benefits visual SLAM and other applications such as augmented reality (AR) where scene understanding is required. Existing methods built upon two-stage frameworks show satisfactory accuracy but are limited by low frame rates. In this work, we propose a real-time deep neural architecture that estimates piece-wise planar regions from a single RGB image. Our model employs a variant of a fast single-stage CNN architecture to segment plane instances. Considering the particularity of the target detected, we propose Fast Feature Non-maximum Suppression (FF-NMS) to reduce the suppression errors resulted from overlapping bounding boxes of planes. We also utilize a Residual Feature Augmentation module in the Feature Pyramid Network (FPN). Our method achieves significantly higher frame-rates and comparable segmentation accuracy against two-stage methods. We automatically label over 70,000 images as ground truth from the Stanford 2D-3D-Semantics dataset. Moreover, we incorporate our method with a state-of-the-art planar SLAM and validate its benefits.
翻訳日:2021-03-31 01:40:54 公開日:2021-03-29
# (参考訳) 経験的説明者からの効率的な説明 [全文訳有]

Efficient Explanations from Empirical Explainers ( http://arxiv.org/abs/2103.15429v1 )

ライセンス: CC BY 4.0
Robert Schwarzenberg, Nils Feldhus, Sebastian M\"oller(参考訳) 説明可能性を無視したグリーンAIに関する議論の中で,計算コストの高い説明器を効率的に近似する可能性を探る。 そこで本稿では,経験的説明者による特徴属性モデリングの課題を提案する。 経験的説明者はデータから学び、高価な説明者の帰属マップを予測する。 言語領域における経験的説明器をトレーニングし、テストし、コストのごく一部で、彼らが高価な説明器をうまくモデル化していることに気付きます。 これにより、近似誤差を許容する応用において、神経説明の計算負荷を著しく軽減することができる。

Amid a discussion about Green AI in which we see explainability neglected, we explore the possibility to efficiently approximate computationally expensive explainers. To this end, we propose the task of feature attribution modelling that we address with Empirical Explainers. Empirical Explainers learn from data to predict the attribution maps of expensive explainers. We train and test Empirical Explainers in the language domain and find that they model their expensive counterparts well, at a fraction of the cost. They could thus mitigate the computational burden of neural explanations significantly, in applications that tolerate an approximation error.
翻訳日:2021-03-31 01:28:43 公開日:2021-03-29
# (参考訳) 深部画像合成 [全文訳有]

Deep Image Compositing ( http://arxiv.org/abs/2103.15446v1 )

ライセンス: CC0 1.0
Shivangi Aneja and Soham Mazumder(参考訳) 画像編集において、最も一般的なタスクは、ある画像から別の画像へオブジェクトを貼り付け、その後、背景オブジェクトで前景オブジェクトの表示を調整することである。 このタスクはイメージ合成と呼ばれる。 しかし、画像合成は、プロの編集スキルとかなりの時間を要する難しい問題である。 これらのプロフェッショナルは雇うのに費用がかかるだけでなく、そのようなタスクに使用するツール(Adobe Photoshopなど)も、このスキルを身に着けていない人には画像合成の全般的な作業が困難になるような購入に費用がかかる。 本研究では,合成画像をリアルに見せることでこの問題に対処することを目的とする。 これを実現するために、GANS(Generative Adversarial Networks)を使用している。 画像や特別な損失関数に適用した多様なフィルタを用いてネットワークをトレーニングすることにより、画像の前景と背景部分の色ヒストグラムをデコードでき、また、前景オブジェクトと背景をブレンドすることを学ぶことができる。 本論文では,画像の色調と彩度が重要な役割を担っている。 我々の知る限りでは、画像合成のタスクにGANを使用する最初の作品である。 現在、画像合成のためのベンチマークデータセットは存在しない。 そこで私たちはデータセットを作成し、ベンチマーク用にデータセットを公開します。 実験結果から,本手法は現在の最先端手法よりも優れていることがわかった。

In image editing, the most common task is pasting objects from one image to the other and then eventually adjusting the manifestation of the foreground object with the background object. This task is called image compositing. But image compositing is a challenging problem that requires professional editing skills and a considerable amount of time. Not only these professionals are expensive to hire, but the tools (like Adobe Photoshop) used for doing such tasks are also expensive to purchase making the overall task of image compositing difficult for people without this skillset. In this work, we aim to cater to this problem by making composite images look realistic. To achieve this, we are using Generative Adversarial Networks (GANS). By training the network with a diverse range of filters applied to the images and special loss functions, the model is able to decode the color histogram of the foreground and background part of the image and also learns to blend the foreground object with the background. The hue and saturation values of the image play an important role as discussed in this paper. To the best of our knowledge, this is the first work that uses GANs for the task of image compositing. Currently, there is no benchmark dataset available for image compositing. So we created the dataset and will also make the dataset publicly available for benchmarking. Experimental results on this dataset show that our method outperforms all current state-of-the-art methods.
翻訳日:2021-03-31 01:19:31 公開日:2021-03-29
# (参考訳) 高エネルギー物理におけるデュアルパラメータ量子回路GANモデル [全文訳有]

Dual-Parameterized Quantum Circuit GAN Model in High Energy Physics ( http://arxiv.org/abs/2103.15470v1 )

ライセンス: CC BY 4.0
Su Yeon Chang, Steven Herbert, Sofia Vallecorsa, El\'ias F. Combarro, Ross Duncan(参考訳) 生成モデル、特にGAN(Generative Adversarial Networks)はモンテカルロシミュレーションの代替として研究されている。 特定の状況下では、量子GAN(qGAN)を用いて、GANを用いたシミュレーションを行うことができることが提案されている。 我々は、古典的判別器とPQCの形式をとる2つの量子発生器からなる二重パラメータ化量子回路(PQC)であるqGANの新たな設計を提案する。 第1のPQCはN画素画像上の確率分布を学習し、第2のPQC入力毎に個々の画像の正規化画素強度を生成する。 我々は,HEP の応用を視野に入れ,両PQC アーキテクチャを,温度計出力を模倣して画素画像に変換する作業で評価した。 その結果, モデルでは, 画像のサイズを小さくして, 確率分布を再現できることを示すとともに, 実際のカロリー出力までスケールアップできることを期待できることがわかった。

Generative models, and Generative Adversarial Networks (GAN) in particular, are being studied as possible alternatives to Monte Carlo simulations. It has been proposed that, in certain circumstances, simulation using GANs can be sped-up by using quantum GANs (qGANs). We present a new design of qGAN, the dual-Parameterized Quantum Circuit(PQC) GAN, which consists of a classical discriminator and two quantum generators which take the form of PQCs. The first PQC learns a probability distribution over N-pixel images, while the second generates normalized pixel intensities of an individual image for each PQC input. With a view to HEP applications, we evaluated the dual-PQC architecture on the task of imitating calorimeter outputs, translated into pixelated images. The results demonstrate that the model can reproduce a fixed number of images with a reduced size as well as their probability distribution and we anticipate it should allow us to scale up to real calorimeter outputs.
翻訳日:2021-03-31 01:13:45 公開日:2021-03-29
# (参考訳) ZeroGrad : FGSM逆行訓練における破壊的オーバーフィッティングの緩和と説明 [全文訳有]

ZeroGrad : Mitigating and Explaining Catastrophic Overfitting in FGSM Adversarial Training ( http://arxiv.org/abs/2103.15476v1 )

ライセンス: CC BY 4.0
Zeinab Golgooni, Mehrdad Saberi, Masih Eskandar, Mohammad Hossein Rohban(参考訳) 深層ニューラルネットワークを小さな雑音に頑健にすることは、近年多くのアプリケーションで求められている。 反復射影勾配降下(PGD)による逆行訓練はこの目標を達成するための主流のアイデアの1つとして確立されている。 しかし、pgdは計算上必要であり、大規模なデータセットやモデルの場合、しばしば禁止される。 このため、FGSMとしても知られるシングルステップPGDが最近この分野に関心を寄せている。 残念ながら、fgsm訓練は「破滅的な過剰フィッティング」と呼ばれる現象につながり、pgd攻撃による敵の正確さが突然低下する。 本稿では,この現象において,小さな入力勾配が重要な役割を果たすという考えを支持するとともに,fgsm攻撃に対して小さい入力勾配要素をゼロにすることを提案する。 提案手法は, 単純かつ効率的ながら, 各種データセット上での競合精度を実現する。

Making deep neural networks robust to small adversarial noises has recently been sought in many applications. Adversarial training through iterative projected gradient descent (PGD) has been established as one of the mainstream ideas to achieve this goal. However, PGD is computationally demanding and often prohibitive in case of large datasets and models. For this reason, single-step PGD, also known as FGSM, has recently gained interest in the field. Unfortunately, FGSM-training leads to a phenomenon called ``catastrophic overfitting," which is a sudden drop in the adversarial accuracy under the PGD attack. In this paper, we support the idea that small input gradients play a key role in this phenomenon, and hence propose to zero the input gradient elements that are small for crafting FGSM attacks. Our proposed idea, while being simple and efficient, achieves competitive adversarial accuracy on various datasets.
翻訳日:2021-03-31 01:01:56 公開日:2021-03-29
# (参考訳) 自然文読みによる事象関連脳動態の検索 [全文訳有]

Retrieving Event-related Human Brain Dynamics from Natural Sentence Reading ( http://arxiv.org/abs/2103.15500v1 )

ライセンス: CC BY 4.0
Xinping Liu, Zehong Cao(参考訳) 脳波(eeg)は、自然言語を読む人が神経科学や精神言語学における人間の言語理解を解釈するための認知的手法として一般的に使用されるときに記録される信号である。 これまでの研究では、一部の脳領域に関連する単語読解における人間の固定と活性化が示されているが、時間領域と周波数領域にわたる脳の動態をいつどのように測定するかは明らかではない。 本研究では,ヒトの自然読取実験から得られた文レベルの同時脳波と関連する視線追跡からなるベンチマークデータセット上で,事象関連脳電位(ERP)と事象関連スペクトル摂動(ERSP)を初めて解析する。 後頭葉領域の刺激(各文の読み出し開始)から約162msでピークが誘発され,文開始から200msに近づいた脳の語彙的・意味的視覚情報処理が示唆された。 さらに、200ms前後の後頭葉ERPは、短い反応時間と長い反応時間において負のパワーと正のパワーを示す。 さらに, 200ms前後の陰茎erspは, 高ガンマ度の増加と低ベータ, 低ガンマパワーの低下を示した。 その結果,脳波信号のα,β,ガンマ帯で200ms前後にセマンティック・パーセプション反応が生じたことが示唆された。 また,脳波力学による認知自然言語処理モデル評価の促進にも影響する可能性が示唆された。

Electroencephalograp hy (EEG) signals recordings when people reading natural languages are commonly used as a cognitive method to interpret human language understanding in neuroscience and psycholinguistics. Previous studies have demonstrated that the human fixation and activation in word reading associated with some brain regions, but it is not clear when and how to measure the brain dynamics across time and frequency domains. In this study, we propose the first analysis of event-related brain potentials (ERPs), and event-related spectral perturbations (ERSPs) on benchmark datasets which consist of sentence-level simultaneous EEG and related eye-tracking recorded from human natural reading experiment tasks. Our results showed peaks evoked at around 162 ms after the stimulus (starting to read each sentence) in the occipital area, indicating the brain retriving lexical and semantic visual information processing approaching 200 ms from the sentence onset. Furthermore, the occipital ERP around 200ms presents negative power and positive power in short and long reaction times. In addition, the occipital ERSP around 200ms demonstrated increased high gamma and decreased low beta and low gamma power, relative to the baseline. Our results implied that most of the semantic-perception responses occurred around the 200ms in alpha, beta and gamma bands of EEG signals. Our findings also provide potential impacts on promoting cognitive natural language processing models evaluation from EEG dynamics.
翻訳日:2021-03-31 00:42:55 公開日:2021-03-29
# (参考訳) スタイルベース校正モジュールと改良型スタイル判別器によるリモートセンシング画像変換 [全文訳有]

Remote Sensing Image Translation via Style-Based Recalibration Module and Improved Style Discriminator ( http://arxiv.org/abs/2103.15502v1 )

ライセンス: CC BY 4.0
Tiange Zhang, Feng Gao, Junyu Dong, Qian Du(参考訳) 既存のリモートセンシング変化検出手法は季節変動の影響を強く受けている。 冬と夏は植生の色が異なるため、変化として誤って検出される傾向にある。 本稿では,この問題を解決するための画像翻訳手法を提案する。 季節的特徴を効果的に捉えるために、スタイルベースのリカレーションモジュールが導入された。 そして、翻訳性能を向上させるために新しいスタイル判別器を設計する。 判別器は、偽または実サンプルの判定を生成できるだけでなく、チャネルワイドの相関に基づいてスタイルベクトルを返す。 季節変動データセットで広範な実験が行われている。 実験の結果,提案手法は画像変換を効果的に行うことができ,季節変動画像変化検出性能を一貫して向上できることがわかった。 私たちのコードとデータはhttps://github.com/s ummitgao/rsit_srm_is dで入手できます。

Existing remote sensing change detection methods are heavily affected by seasonal variation. Since vegetation colors are different between winter and summer, such variations are inclined to be falsely detected as changes. In this letter, we proposed an image translation method to solve the problem. A style-based recalibration module is introduced to capture seasonal features effectively. Then, a new style discriminator is designed to improve the translation performance. The discriminator can not only produce a decision for the fake or real sample, but also return a style vector according to the channel-wise correlations. Extensive experiments are conducted on season-varying dataset. The experimental results show that the proposed method can effectively perform image translation, thereby consistently improving the season-varying image change detection performance. Our codes and data are available at https://github.com/s ummitgao/RSIT_SRM_IS D.
翻訳日:2021-03-31 00:35:43 公開日:2021-03-29
# (参考訳) グラフ構造を注入した対向的人物ポーズ推定ネットワーク [全文訳有]

An Adversarial Human Pose Estimation Network Injected with Graph Structure ( http://arxiv.org/abs/2103.15534v1 )

ライセンス: CC BY 4.0
Lei Tian, Guoqiang Liang, Peng Wang, Chunhua Shen(参考訳) 照明やオクルージョン、重なり合いによる画像の人間のキーポイントが見えないため、現在の人間のポーズ推定手法のほとんどに対して不合理な人間のポーズ予測が生じる可能性が高い。 本稿では,いくつかの関節が見えない場合に,可視関節の局所化精度を向上させるために,新しいGAN(Generative Adversarial Network)を設計する。 このネットワークは2つの単純だが効率的なモジュール、カスケード特徴ネットワーク(CFN)とグラフ構造ネットワーク(GSN)で構成されている。 まず、cfnは、前段からの予測マップを使用して、次の段の予測マップをガイドし、正確な人間のポーズを生成する。 第2に、GSNは異なる関節間でメッセージを送ることによって、見えない関節の局所化に寄与するように設計されている。 GANによると、ジェネレータGが生成した予測ポーズを判別器Dで区別できない場合、ジェネレータネットワークGは、人間の関節の基盤となる依存性を正常に取得する。 提案手法の有効性を示すlsp,mpii,cocoの3つの人格推定ベンチマークデータセットについて実験を行った。

Because of the invisible human keypoints in images caused by illumination, occlusion and overlap, it is likely to produce unreasonable human pose prediction for most of the current human pose estimation methods. In this paper, we design a novel generative adversarial network (GAN) to improve the localization accuracy of visible joints when some joints are invisible. The network consists of two simple but efficient modules, Cascade Feature Network (CFN) and Graph Structure Network (GSN). First, the CFN utilizes the prediction maps from the previous stages to guide the prediction maps in the next stage to produce accurate human pose. Second, the GSN is designed to contribute to the localization of invisible joints by passing message among different joints. According to GAN, if the prediction pose produced by the generator G cannot be distinguished by the discriminator D, the generator network G has successfully obtained the underlying dependence of human joints. We conduct experiments on three widely used human pose estimation benchmark datasets, LSP, MPII and COCO, whose results show the effectiveness of our proposed framework.
翻訳日:2021-03-31 00:26:18 公開日:2021-03-29
# (参考訳) 歩行予測と正規化を伴う単一画像からの衣服交換者再識別 [全文訳有]

Cloth-Changing Person Re-identification from A Single Image with Gait Prediction and Regularization ( http://arxiv.org/abs/2103.15537v1 )

ライセンス: CC0 1.0
Xin Jin, Tianyu He, Kecheng Zheng, Zhiheng Yin, Xu Shen, Zhen Huang, Ruoyu Feng, Jianqiang Huang, Xian-Sheng Hua, Zhibo Chen(参考訳) 衣服交換者再識別(cc-reid)は、例えば、日時など、長期間にわたって異なる場所で同じ人物とマッチングすることを目的としており、必然的に衣料変更の課題を満たしている。 本稿では,cc-reid問題を1枚の画像のみからより困難な状況,すなわちリアルタイム監視アプリケーションにおいて高効率かつレイテンシフリーな歩行者識別を実現することに焦点を当てる。 具体的には,個人の独自かつ布に依存しない歩行情報を活用し,画像レイドモデルを用いて布非依存表現を学習する補助タスクとして,この枠組みをgi-reidと命名する。 GI-ReIDはイメージReID-Streamと補助歩行認識ストリーム(Gait-Stream)で構成される2ストリームアーキテクチャを採用している。 ゲイトストリームは高い計算効率の推論で破棄され、トレーニング中にreidストリームが布不変の生体運動の特徴を捉えるよう促すレギュレータとして機能する。 一つの画像から時間的連続的な動きの手がかりを得るため、Gait-Stream のための Gait Sequence Prediction (GSP) モジュールを設計し、歩行情報を強化する。 最後に、2つのストリーム上の高レベルのセマンティクス一貫性を、効果的な知識正規化のために実施する。 複数の画像ベースのClos-Changing ReIDベンチマーク(例えば、LTCC、PRCC、Real28、VC-Clothes)の実験は、GI-ReIDが最先端技術に対して良好に動作することを示した。 コードはhttps://github.com/j inx-USTC/GI-ReIDで入手できる。

Cloth-Changing person re-identification (CC-ReID) aims at matching the same person across different locations over a long-duration, e.g., over days, and therefore inevitably meets challenge of changing clothing. In this paper, we focus on handling well the CC-ReID problem under a more challenging setting, i.e., just from a single image, which enables high-efficiency and latency-free pedestrian identify for real-time surveillance applications. Specifically, we introduce Gait recognition as an auxiliary task to drive the Image ReID model to learn cloth-agnostic representations by leveraging personal unique and cloth-independent gait information, we name this framework as GI-ReID. GI-ReID adopts a two-stream architecture that consists of a image ReID-Stream and an auxiliary gait recognition stream (Gait-Stream). The Gait-Stream, that is discarded in the inference for high computational efficiency, acts as a regulator to encourage the ReID-Stream to capture cloth-invariant biometric motion features during the training. To get temporal continuous motion cues from a single image, we design a Gait Sequence Prediction (GSP) module for Gait-Stream to enrich gait information. Finally, a high-level semantics consistency over two streams is enforced for effective knowledge regularization. Experiments on multiple image-based Cloth-Changing ReID benchmarks, e.g., LTCC, PRCC, Real28, and VC-Clothes, demonstrate that GI-ReID performs favorably against the state-of-the-arts. Codes are available at https://github.com/j inx-USTC/GI-ReID.
翻訳日:2021-03-31 00:09:13 公開日:2021-03-29
# (参考訳) 毒言葉の埋め込みに気をつけて - NLPモデルにおける埋め込み層の脆弱性を探る [全文訳有]

Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability of the Embedding Layers in NLP Models ( http://arxiv.org/abs/2103.15543v1 )

ライセンス: CC BY 4.0
Wenkai Yang, Lei Li, Zhiyuan Zhang, Xuancheng Ren, Xu Sun, Bin He(参考訳) 最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティ上の脅威が明らかにされている。 Victimモデルは、特定のトリガーワードを挿入したサンプルに対して異常に振る舞いながら、クリーンサンプル上での競合性能を維持することができる。 以前のバックドア攻撃手法は通常、攻撃者がデータ中毒手順を実装するために、ユーザーが使用するデータセットまたは同様のタスクのためにプロキシデータセットのいずれかのある程度のデータ知識を持っていると仮定する。 しかし,本論文では,単一単語埋め込みベクトルを1つ変更することで,クリーンサンプルの精度をほとんど犠牲にすることなく,データフリーな方法でモデルをハックすることが可能であることを示す。 感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。 この研究が、NLPモデルの埋め込み層に隠されたこのような重要なセキュリティリスクの認識を高めることを願っている。 私たちのコードはhttps://github.com/l ancopku/embedding-po isoningで利用可能です。

Recent studies have revealed a security threat to natural language processing (NLP) models, called the Backdoor Attack. Victim models can maintain competitive performance on clean samples while behaving abnormally on samples with a specific trigger word inserted. Previous backdoor attacking methods usually assume that attackers have a certain degree of data knowledge, either the dataset which users would use or proxy datasets for a similar task, for implementing the data poisoning procedure. However, in this paper, we find that it is possible to hack the model in a data-free way by modifying one single word embedding vector, with almost no accuracy sacrificed on clean samples. Experimental results on sentiment analysis and sentence-pair classification tasks show that our method is more efficient and stealthier. We hope this work can raise the awareness of such a critical security risk hidden in the embedding layers of NLP models. Our code is available at https://github.com/l ancopku/Embedding-Po isoning.
翻訳日:2021-03-30 23:38:57 公開日:2021-03-29
# (参考訳) ganをドロップする: 最寄りのパッチを単一の画像生成モデルとして防御する [全文訳有]

Drop the GAN: In Defense of Patches Nearest Neighbors as Single Image Generative Models ( http://arxiv.org/abs/2103.15545v1 )

ライセンス: CC BY 4.0
Niv Granot, Assaf Shocher, Ben Feinstein, Shai Bagon and Michal Irani(参考訳) 単一画像生成モデルは、単一画像内のパッチの分布をキャプチャして合成および操作タスクを実行する。 これらのタスクに対する古典的な(事前ディープラーニング)アプローチは、入力と生成された出力のパッチ類似性を最大化する最適化プロセスに基づいている。 しかし、近年では、このような操作タスクの優れたソリューションとしてだけでなく、目覚ましい新規生成タスクにも、単一の画像ganが導入されている。 その印象的さにもかかわらず、単一の画像ganは各画像と各タスクに対して長いトレーニング時間(通常数時間)を必要とする。 それらはしばしばアーティファクトに悩まされ、モード崩壊のような最適化の問題に悩まされる。 本稿では,これらのタスクはすべて,数秒以内に,統一的で驚くほどシンプルなフレームワークで,トレーニングなしで実行できることを示す。 我々は、"良い古い"パッチベースのメソッドを再検討し、新しい最適化不要のフレームワークにキャストする。 最初は粗い推測から始まり、その後、パッチアレスト近傍のサーチを使って細かな細かな細部を精査する。 これにより、GANよりもはるかに高速でランダムな新規画像を生成することができる。 さらに,画像編集やリシャフリング,異なるサイズへの再ターゲティング,構造的アナロジー,画像コラージュ,新たに導入された条件付きインパインタスクなど,幅広い応用例を示す。 我々の手法はより高速であるだけでなく(GANよりも10^3$-\times 10^4$)、優れた結果(定量的かつ質的な評価によって確認される)、アーティファクトが少なく、より現実的なグローバル構造(GANベースでも古典的パッチベースでも)を生成する。

Single image generative models perform synthesis and manipulation tasks by capturing the distribution of patches within a single image. The classical (pre Deep Learning) prevailing approaches for these tasks are based on an optimization process that maximizes patch similarity between the input and generated output. Recently, however, Single Image GANs were introduced both as a superior solution for such manipulation tasks, but also for remarkable novel generative tasks. Despite their impressiveness, single image GANs require long training time (usually hours) for each image and each task. They often suffer from artifacts and are prone to optimization issues such as mode collapse. In this paper, we show that all of these tasks can be performed without any training, within several seconds, in a unified, surprisingly simple framework. We revisit and cast the "good-old" patch-based methods into a novel optimization-free framework. We start with an initial coarse guess, and then simply refine the details coarse-to-fine using patch-nearest-neighb or search. This allows generating random novel images better and much faster than GANs. We further demonstrate a wide range of applications, such as image editing and reshuffling, retargeting to different sizes, structural analogies, image collage and a newly introduced task of conditional inpainting. Not only is our method faster ($\times 10^3$-$\times 10^4$ than a GAN), it produces superior results (confirmed by quantitative and qualitative evaluation), less artifacts and more realistic global structure than any of the previous approaches (whether GAN-based or classical patch-based).
翻訳日:2021-03-30 23:24:15 公開日:2021-03-29
# (参考訳) RAN-GNN:グラフニューラルネットワークの容量限界を破る [全文訳有]

RAN-GNNs: breaking the capacity limits of graph neural networks ( http://arxiv.org/abs/2103.15565v1 )

ライセンス: CC BY 4.0
Diego Valsesia, Giulia Fracastoro, Enrico Magli(参考訳) グラフニューラルネットワークは、グラフ上で定義されたデータの学習と分析に対処する問題の中心となっている。 しかし,いくつかの結果から,層数の増加による性能向上の難しさが示唆された。 最近の研究は、グラフベースのタスクにおけるノードの特徴の抽出、すなわち複数の近傍サイズを同時に考慮し、それらを適応的に調整する必要があるという現象に特化している。 本稿では,最近提案されたグラフニューラルネットワークのコンテキストにおけるランダム配線アーキテクチャについて検討する。 多くの層を積み重ねてより深いネットワークを構築する代わりに、ランダムに配線されたアーキテクチャを使うことが、ネットワークの容量を増やし、よりリッチな表現を得るためのより効果的な方法であることを示す。 このようなアーキテクチャはパスのアンサンブルのように振舞い、様々な大きさの受容的フィールドからコントリビューションをマージできることを示す。 さらに、これらの受容場は、経路上のトレーニング可能な重みを通してより広く、より狭く変調することもできる。 また、従来のテスト手法の信頼性に対処する最近のベンチマークフレームワークを用いて、複数のタスクと4つのグラフ畳み込み定義に対してランダムに配線されたアーキテクチャの優れた性能を示す広範な実験的証拠を提供する。

Graph neural networks have become a staple in problems addressing learning and analysis of data defined over graphs. However, several results suggest an inherent difficulty in extracting better performance by increasing the number of layers. Recent works attribute this to a phenomenon peculiar to the extraction of node features in graph-based tasks, i.e., the need to consider multiple neighborhood sizes at the same time and adaptively tune them. In this paper, we investigate the recently proposed randomly wired architectures in the context of graph neural networks. Instead of building deeper networks by stacking many layers, we prove that employing a randomly-wired architecture can be a more effective way to increase the capacity of the network and obtain richer representations. We show that such architectures behave like an ensemble of paths, which are able to merge contributions from receptive fields of varied size. Moreover, these receptive fields can also be modulated to be wider or narrower through the trainable weights over the paths. We also provide extensive experimental evidence of the superior performance of randomly wired architectures over multiple tasks and four graph convolution definitions, using recent benchmarking frameworks that addresses the reliability of previous testing methodologies.
翻訳日:2021-03-30 23:10:30 公開日:2021-03-29
# (参考訳) Hilbert Coresetsによる学習のリスク境界 [全文訳有]

Risk Bounds for Learning via Hilbert Coresets ( http://arxiv.org/abs/2103.15569v1 )

ライセンス: CC BY 4.0
Spencer Douglas, Piyush Kumar, R.K. Prasanth(参考訳) 変換的枠組みにおけるヒルベルト・コアセットのアプローチにより,教師付き分類タスクに期待される全サンプルリスクの確率的上限を構築する形式的手法を開発した。 我々は、複雑なデータセットと最先端のディープニューラルネットワークアーキテクチャのような複雑な仮説クラスに対して、厳密で有意義な境界を明示的に計算する。 i) 境界は仮説空間において一様でない、ii) 多くの実例において、事前および訓練データに依存した仮説空間の後方分布の適切な選択により、境界は効果的に決定論的になり、iii) 訓練集合の大きさが大きくなると、境界は著しく良くなる。 今後の研究のために、いくつかのアイデアも並べています。

We develop a formalism for constructing stochastic upper bounds on the expected full sample risk for supervised classification tasks via the Hilbert coresets approach within a transductive framework. We explicitly compute tight and meaningful bounds for complex datasets and complex hypothesis classes such as state-of-the-art deep neural network architectures. The bounds we develop exhibit nice properties: i) the bounds are non-uniform in the hypothesis space, ii) in many practical examples, the bounds become effectively deterministic by appropriate choice of prior and training data-dependent posterior distributions on the hypothesis space, and iii) the bounds become significantly better with increase in the size of the training set. We also lay out some ideas to explore for future research.
翻訳日:2021-03-30 22:53:22 公開日:2021-03-29
# (参考訳) 自己教師付き学習フレームワークにおけるドメインランダム化による種子の分類 [全文訳有]

Classification of Seeds using Domain Randomization on Self-Supervised Learning Frameworks ( http://arxiv.org/abs/2103.15578v1 )

ライセンス: CC BY 4.0
Venkat Margapuri and Mitchell Neilsen(参考訳) Seed Phenotyping への第一歩。 成長、発達、耐性、抵抗性、生態、収量などの複雑な種子形質の包括的評価と、より複雑な形質を形成するパラメータの測定は、種型の同定である。 一般的に、植物再調査者は、種子の種類を識別するために、種子のサイズ、形状、面積、色、テクスチャなどの視覚特性を検査する。 コンピュータビジョンとディープラーニングの分野での進歩は、画像を用いた分類を支援する畳み込みニューラルネットワーク(CNN)の開発につながった。 それらは効率的に分類されるが、鍵となるボトルネックは、分類のタスクに投入する前にcnnを訓練するための大量のラベル付きデータが必要であることである。 この仕事は、これを達成するために、コントラスト学習とドメインランダム化の概念を活用する。 簡単に言えば、ドメインランダム化は、シミュレーション対象を含むイメージに基づいて訓練されたモデルを現実世界のオブジェクトに適用するテクニックである。 実世界の画像の表象的サンプル作物から生成された合成画像の使用は、大量のテスト対象の必要性を軽減する。 この研究の一環として、シムclr、運動量コントラスト(moco)、およびresnet-50をネットワークのバックボーンとして使用する独自の潜在性(byol)という3つの異なる自己教師付き学習フレームワークに、カノーラ、荒米、ソルガム、大豆、小麦の5種類の種画像合成画像データセットを適用する。 自己教師型モデルが合成データセットからラベルのわずか5%で微調整された場合、その結果、自己教師型学習フレームワークの最高のパフォーマンスをもたらすモデルであるMoCoは、テストデータセット上で77%の精度を達成し、その精度は、100%のラベルでトレーニングされたResNet-50が達成した90%の精度よりわずか13%低い。

The first step toward Seed Phenotyping i.e. the comprehensive assessment of complex seed traits such as growth, development, tolerance, resistance, ecology, yield, and the measurement of pa-rameters that form more complex traits is the identification of seed type. Generally, a plant re-searcher inspects the visual attributes of a seed such as size, shape, area, color and texture to identify the seed type, a process that is tedious and labor-intensive. Advances in the areas of computer vision and deep learning have led to the development of convolutional neural networks (CNN) that aid in classification using images. While they classify efficiently, a key bottleneck is the need for an extensive amount of labelled data to train the CNN before it can be put to the task of classification. The work leverages the concepts of Contrastive Learning and Domain Randomi-zation in order to achieve the same. Briefly, domain randomization is the technique of applying models trained on images containing simulated objects to real-world objects. The use of synthetic images generated from a representational sample crop of real-world images alleviates the need for a large volume of test subjects. As part of the work, synthetic image datasets of five different types of seed images namely, canola, rough rice, sorghum, soy and wheat are applied to three different self-supervised learning frameworks namely, SimCLR, Momentum Contrast (MoCo) and Build Your Own Latent (BYOL) where ResNet-50 is used as the backbone in each of the networks. When the self-supervised models are fine-tuned with only 5% of the labels from the synthetic dataset, results show that MoCo, the model that yields the best performance of the self-supervised learning frameworks in question, achieves an accuracy of 77% on the test dataset which is only ~13% less than the accuracy of 90% achieved by ResNet-50 trained on 100% of the labels.
翻訳日:2021-03-30 22:26:26 公開日:2021-03-29
# (参考訳) 各種訓練ニューラルネットワークにおける分布外検出の性能解析 [全文訳有]

Performance Analysis of Out-of-Distribution Detection on Various Trained Neural Networks ( http://arxiv.org/abs/2103.15580v1 )

ライセンス: CC BY 4.0
Jens Henriksson, Christian Berger, Markus Borg, Lars Tornberg, Sankar Raman Sathyamoorthy, Cristofer Englund(参考訳) 近年、Deep Learningによっていくつかの領域が改善されている。 非安全関連製品では、AIとMLの採用は問題にならないが、安全クリティカルなアプリケーションでは、そのようなアプローチの堅牢性は依然として問題である。 ディープニューラルネットワーク(dnn)に対する一般的な課題は、以前には認識されていなかった分散サンプルに露出した場合に発生し、dnnは入力の事前知識がなくても高い信頼度を予測できる。 本稿では,トレーニング設定の異なる2つの有名なdnnにおける2つのスーパーバイザの分析を行い,トレーニング手順の品質によって異常検出性能が向上することを示す。 トレーニングサイクル中の各エポック後のスーパーバイザーのパフォーマンスを分析し、精度が収束するにつれてスーパーバイザーのパフォーマンスを調査する。 トレーニング結果と監視性能の関係を理解することはモデルの堅牢性向上に有用であり、安全クリティカルなアプリケーションのための一般化されたモデルを作成するために、より多くの作業を行う必要があることを示す。

Several areas have been improved with Deep Learning during the past years. For non-safety related products adoption of AI and ML is not an issue, whereas in safety critical applications, robustness of such approaches is still an issue. A common challenge for Deep Neural Networks (DNN) occur when exposed to out-of-distribution samples that are previously unseen, where DNNs can yield high confidence predictions despite no prior knowledge of the input. In this paper we analyse two supervisors on two well-known DNNs with varied setups of training and find that the outlier detection performance improves with the quality of the training procedure. We analyse the performance of the supervisor after each epoch during the training cycle, to investigate supervisor performance as the accuracy converges. Understanding the relationship between training results and supervisor performance is valuable to improve robustness of the model and indicates where more work has to be done to create generalized models for safety critical applications.
翻訳日:2021-03-30 22:15:39 公開日:2021-03-29
# (参考訳) 意味的類似記事の自動検索によるニュース記事の検証支援 [全文訳有]

Supporting verification of news articles with automated search for semantically similar articles ( http://arxiv.org/abs/2103.15581v1 )

ライセンス: CC BY 4.0
Vishwani Gupta and Katharina Beckh and Sven Giesselbach and Dennis Wegener and Tim Wirtz(参考訳) 偽の情報は21世紀の社会にとって大きな脅威の1つだ。 偽情報の特定は、毎日発行される偽ニュースの量のために重要な課題となっている。 しかし、偽ニュース編集のダイナミクスと汎用性に対処するアプローチは確立されていない。 コンテンツを分類する代わりに,偽ニュースを扱う証拠検索手法を提案する。 学習課題は教師なし機械学習問題として定式化される。 検証の目的のために,質問中のニュース記事の仮説を支持する信頼性のあるニュースソースからのニュース記事のセットをユーザに提供し,最終決定をユーザに委ねる。 技術的には、2段階のプロセスを提案する: (i) 集約ステップ: 与えられたテキストから抽出された情報を用いて、信頼できるニュースソースから類似したコンテンツを問い合わせる。 (II) 精錬工程: 文の意味的距離をステップ(i)からの収集で測定することにより, 支持証拠を絞り込む。 距離は Word2Vec と Word Mover's Distance に基づいて計算される。 実験では,一定の距離しきい値未満のコンテンツのみを根拠として検討した。 われわれのアプローチは、コンセプトドリフトとは無関係である。 機械学習タスクはテキスト内の仮説とは独立している。 これは、フェイクニュースがクラシックニュースと同じくらい多様である場合に非常に適応できる。 当社のパイプラインは,バイアスの調査やニュースレポーティングの相違など,今後さらに分析を行う可能性を提供します。

Fake information poses one of the major threats for society in the 21st century. Identifying misinformation has become a key challenge due to the amount of fake news that is published daily. Yet, no approach is established that addresses the dynamics and versatility of fake news editorials. Instead of classifying content, we propose an evidence retrieval approach to handle fake news. The learning task is formulated as an unsupervised machine learning problem. For validation purpose, we provide the user with a set of news articles from reliable news sources supporting the hypothesis of the news article in query and the final decision is left to the user. Technically we propose a two-step process: (i) Aggregation-step: With information extracted from the given text we query for similar content from reliable news sources. (ii) Refining-step: We narrow the supporting evidence down by measuring the semantic distance of the text with the collection from step (i). The distance is calculated based on Word2Vec and the Word Mover's Distance. In our experiments, only content that is below a certain distance threshold is considered as supporting evidence. We find that our approach is agnostic to concept drifts, i.e. the machine learning task is independent of the hypotheses in a text. This makes it highly adaptable in times where fake news is as diverse as classical news is. Our pipeline offers the possibility for further analysis in the future, such as investigating bias and differences in news reporting.
翻訳日:2021-03-30 21:56:12 公開日:2021-03-29
# (参考訳) RobustNet: インスタンス選択白化による都市シーンセグメンテーションにおけるドメイン一般化の改善 [全文訳有]

RobustNet: Improving Domain Generalization in Urban-Scene Segmentation via Instance Selective Whitening ( http://arxiv.org/abs/2103.15597v1 )

ライセンス: CC BY 4.0
Sungha Choi, Sanghun Jung, Huiwon Yun, Joanne Kim, Seungryong Kim and Jaegul Choo(参考訳) ディープニューラルネットワークの現実世界における一般化性能の強化(すなわち、見えない領域)は、自律運転のような安全クリティカルなアプリケーションに不可欠である。 そこで本研究では,未確認領域に対するセグメンテーションネットワークの堅牢性を改善するために,新しいインスタンス選択白化損失を提案する。 提案手法は,特徴表現の高次統計量(特徴共分散)に符号化されたドメイン固有スタイルとドメイン不変コンテンツを切り離し,ドメインシフトを引き起こすスタイル情報のみを選択的に除去する。 図に示すように。 提案手法は, (a) 低照度, (b) 雨量, (c) 予期せぬ新しいシーン画像に対して妥当な予測を行う。 このようなイメージはトレーニングデータセットには含まれておらず、ベースラインは我々のものと対照的に、大幅なパフォーマンス低下を示している。 提案手法は単純だが有効であり,計算コストを増大させることなく,様々なバックボーンネットワークの堅牢性を向上させる。 我々は,都市間セグメンテーションにおける広範囲な実験を行い,既存の作業に対するアプローチの優越性を示す。 私たちのコードはhttps://github.com/s hachoi/robustnetで利用可能です。

Enhancing the generalization performance of deep neural networks in the real world (i.e., unseen domains) is crucial for safety-critical applications such as autonomous driving. To address this issue, this paper proposes a novel instance selective whitening loss to improve the robustness of the segmentation networks for unseen domains. Our approach disentangles the domain-specific style and domain-invariant content encoded in higher-order statistics (i.e., feature covariance) of the feature representations and selectively removes only the style information causing domain shift. As shown in Fig. 1, our method provides reasonable predictions for (a) low-illuminated, (b) rainy, and (c) unexpected new scene images. These types of images are not included in the training dataset that the baseline shows a significant performance drop, contrary to ours. Being simple but effective, our approach improves the robustness of various backbone networks without additional computational cost. We conduct extensive experiments in urban-scene segmentation and show the superiority of our approach over existing work. Our code is available at https://github.com/s hachoi/RobustNet.
翻訳日:2021-03-30 21:43:21 公開日:2021-03-29
# (参考訳) グラフベースの顔影響分析:方法,応用,課題の概観 [全文訳有]

Graph-based Facial Affect Analysis: A Review of Methods, Applications and Challenges ( http://arxiv.org/abs/2103.15599v1 )

ライセンス: CC BY 4.0
Yang Liu, Jinzhao Zhou, Xin Li, Xingming Zhang and Guoying Zhao(参考訳) 視覚信号を用いた顔影響分析(FAA)は、人間とコンピュータの相互作用において重要なステップである。 従来の手法は主に、人間の影響に関連する外観や幾何学的特徴の抽出に重点を置いていた。 しかし、個々の顔の変化ごとに潜伏する意味情報を考慮せず、パフォーマンスと一般化が制限される。 最近のトレンドは、これらの意味関係をモデル化するためのグラフベースの表現を確立し、異なるfaaタスクにそれを活用するための学習フレームワークの開発を試みる。 本稿では,アルゴリズムの進化とその応用を含む,グラフに基づくFAAの包括的なレビューを行う。 まず,影響分析の背景知識,特にグラフの役割について紹介する。 次に、文学におけるグラフに基づく感情表現に広く使われるアプローチについて論じ、グラフ構築への傾向を示す。 グラフベースfaaにおける関係推論について,従来の手法や深層モデルを用いて既存の研究を分類し,最新のグラフニューラルネットワークに注目した。 FAAの標準的な問題に対する最先端の試験的な比較も要約される。 最後に、レビューを現在の課題と潜在的な方向性に拡張します。 私たちが知る限り、この調査はグラフベースのFAAの手法に関する最初の調査であり、この分野での今後の研究の基準となる。

Facial affect analysis (FAA) using visual signals is a key step in human-computer interactions. Previous methods mainly focus on extracting appearance and geometry features associated with human affects. However, they do not consider the latent semantic information among each individual facial change, leading to limited performance and generalization. Recent trends attempt to establish a graph-based representation to model these semantic relationships and develop learning framework to leverage it for different FAA tasks. In this paper, we provide a comprehensive review of graph-based FAA, including the evolution of algorithms and their applications. First, we introduce the background knowledge of affect analysis, especially on the role of graph. We then discuss approaches that are widely used for graph-based affective representation in literatures and show a trend towards graph construction. For the relational reasoning in graph-based FAA, we classify existing studies according to their usage of traditional methods or deep models, with a special emphasis on latest graph neural networks. Experimental comparisons of the state-of-the-art on standard FAA problems are also summarized. Finally, we extend the review to the current challenges and potential directions. As far as we know, this is the first survey of graph-based FAA methods, and our findings can serve as a reference point for future research in this field.
翻訳日:2021-03-30 21:22:58 公開日:2021-03-29
# (参考訳) バイモーダル・エンコーダ・デコーダ変換器のジェネリックアテンションモデル記述可能性 [全文訳有]

Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers ( http://arxiv.org/abs/2103.15679v1 )

ライセンス: CC BY 4.0
Hila Chefer, Shir Gur, and Lior Wolf(参考訳) トランスフォーマーは,視覚質問応答や最先端結果の達成といったマルチモーダル推論タスクを,自己着脱機構とコアテンション機構を使ってコンテキスト化する能力によって,ますます支配的になっています。 これらの注目モジュールは、オブジェクト検出やイメージセグメンテーションを含む他のコンピュータビジョンタスクでも役割を果たす。 セルフアテンションのみを使用するトランスフォーマーとは異なり、コアテンションを持つトランスフォーマーはモデル入力の予測に関連する情報を強調するために、複数のアテンションマップを並列に考慮する必要がある。 本研究では,バイモーダルトランスフォーマーやコアテンションを持つトランスフォーマーを含む,トランスフォーマーベースのアーキテクチャによる予測を記述するための最初の手法を提案する。 汎用的なソリューションを提供し,これらを,(i)純粋な自己注意,(ii)コアテンションと組み合わせた自己意識,(iii)エンコーダ・デコーダの注意という,これらのアーキテクチャで最も一般的な3つのアーキテクチャに適用する。 本手法は,単一モード説明可能性から適応した既存手法よりも優れていることを示す。

Transformers are increasingly dominating multi-modal reasoning tasks, such as visual question answering, achieving state-of-the-art results thanks to their ability to contextualize information using the self-attention and co-attention mechanisms. These attention modules also play a role in other computer vision tasks including object detection and image segmentation. Unlike Transformers that only use self-attention, Transformers with co-attention require to consider multiple attention maps in parallel in order to highlight the information that is relevant to the prediction in the model's input. In this work, we propose the first method to explain prediction by any Transformer-based architecture, including bi-modal Transformers and Transformers with co-attentions. We provide generic solutions and apply these to the three most commonly used of these architectures: (i) pure self-attention, (ii) self-attention combined with co-attention, and (iii) encoder-decoder attention. We show that our method is superior to all existing methods which are adapted from single modality explainability.
翻訳日:2021-03-30 20:25:25 公開日:2021-03-29
# (参考訳) モデルに基づく患者-換気器波形の合成データセット生成の機械学習と教育への応用 [全文訳有]

A Model-Based Approach to Synthetic Data Set Generation for Patient-Ventilator Waveforms for Machine Learning and Educational Use ( http://arxiv.org/abs/2103.15684v1 )

ライセンス: CC BY 4.0
A. van Diepen, T. H. G. F. Bakkes, A. J. R. De Bie, S. Turco, R. A. Bouwman, P. H. Woerlee, M. Mischi(参考訳) 機械的換気はICUの救命介入であるが、バロトラウマやフォルトラウマのような有害な副作用がある。 これらの危害は、非同期性によって起こりうる。 非同期ロニーは人工呼吸器のタイミングと患者の呼吸努力のミスマッチとして定義される。 これらの非同期性の自動検出とその後のフィードバックは、肺換気を改善し、肺損傷の可能性を減少させる。 非同期性を検出するニューラルネットワークは、有望な新しいアプローチを提供するが、大きな注釈付きデータセットを必要とする。 本研究では,既存の肺モデルを一階換気器モデルで拡張することにより,機械学習と教育用のための合成データセットを生成するためのモデルベースアプローチを提案する。 肺モデルの生理学的性質は、様々な疾患の古型への適応を可能にし、様々なデータセットをもたらす。 文献上の測定結果から得られた9種類の患者アーチタイプを用いた合成データセットを作成した。 モデルと合成データの品質は、臨床データとの比較、臨床専門家によるレビュー、実験データに基づいて訓練された人工知能モデルによって検証されている。 評価の結果, 患者換気波形の最も重要な特徴を有する気管支を含む患者換気波形の生成が可能であった。

Although mechanical ventilation is a lifesaving intervention in the ICU, it has harmful side-effects, such as barotrauma and volutrauma. These harms can occur due to asynchronies. Asynchronies are defined as a mismatch between the ventilator timing and patient respiratory effort. Automatic detection of these asynchronies, and subsequent feedback, would improve lung ventilation and reduce the probability of lung damage. Neural networks to detect asynchronies provide a promising new approach but require large annotated data sets, which are difficult to obtain and require complex monitoring of inspiratory effort. In this work, we propose a model-based approach to generate a synthetic data set for machine learning and educational use by extending an existing lung model with a first-order ventilator model. The physiological nature of the derived lung model allows adaptation to various disease archetypes, resulting in a diverse data set. We generated a synthetic data set using 9 different patient archetypes, which are derived from measurements in the literature. The model and synthetic data quality have been verified by comparison with clinical data, review by a clinical expert, and an artificial intelligence model that was trained on experimental data. The evaluation showed it was possible to generate patient-ventilator waveforms including asynchronies that have the most important features of experimental patient-ventilator waveforms.
翻訳日:2021-03-30 20:05:41 公開日:2021-03-29
# (参考訳) クロスモーダルビデオテキスト検索のためのメモリ強化埋め込み学習 [全文訳有]

Memory Enhanced Embedding Learning for Cross-Modal Video-Text Retrieval ( http://arxiv.org/abs/2103.15686v1 )

ライセンス: CC BY 4.0
Rui Zhao, Kecheng Zheng, Zheng-Jun Zha, Hongtao Xie and Jiebo Luo(参考訳) 視覚・言語分野における課題であるクロスモーダルビデオテキスト検索は、どちらのモダリティからも対応するインスタンスのサンプルを取得することを目的としている。 このタスクに対する既存のアプローチはすべて、ハードネガティブなランキングの損失を通じてエンコーディングモデルを設計する方法に重点を置いている。 まず、トレーニング段階では、各イテレーションで利用できるのはインスタンスペアのミニバッチのみである。 したがって、この種のハードネガティブはミニバッチ内でローカルに採掘され、データセット内のグローバルネガティブなサンプルは無視される。 第二に、ビデオには多くのテキスト記述があり、各テキストはビデオの特定のローカルな特徴のみを記述する。 このタスクの以前の作業は、トレーニング中にビデオに対応する乗算テキストを融合することを考慮していなかった。 本稿では,この2つの問題を解決するために,ビデオテキスト検索のための新しいメモリ強化埋め込み学習(meel)手法を提案する。 具体的には,クロスモーダルメモリモジュールとテキストセンターメモリモジュールの2種類のメモリバンクを構築する。 クロスモーダルメモリモジュールは、グローバルな負のマイニングのためにすべてのデータセットのインスタンス埋め込みを記録するために使用される。 学習中のメモリバンクへの埋め込みが急速に進展することを避けるため,運動量エンコーダを用いて移動平均戦略により特徴を更新できる。 テキストセンターメモリモジュールは、ビデオに対応する複数のテキストインスタンスの中心情報を記録するように設計され、これらのテキストインスタンスを一緒にブリッジすることを目的としている。 msr-vttとvatexの2つの難解なベンチマーク実験の結果から,提案手法の有効性が示された。

Cross-modal video-text retrieval, a challenging task in the field of vision and language, aims at retrieving corresponding instance giving sample from either modality. Existing approaches for this task all focus on how to design encoding model through a hard negative ranking loss, leaving two key problems unaddressed during this procedure. First, in the training stage, only a mini-batch of instance pairs is available in each iteration. Therefore, this kind of hard negatives is locally mined inside a mini-batch while ignoring the global negative samples among the dataset. Second, there are many text descriptions for one video and each text only describes certain local features of a video. Previous works for this task did not consider to fuse the multiply texts corresponding to a video during the training. In this paper, to solve the above two problems, we propose a novel memory enhanced embedding learning (MEEL) method for videotext retrieval. To be specific, we construct two kinds of memory banks respectively: cross-modal memory module and text center memory module. The cross-modal memory module is employed to record the instance embeddings of all the datasets for global negative mining. To avoid the fast evolving of the embedding in the memory bank during training, we utilize a momentum encoder to update the features by a moving-averaging strategy. The text center memory module is designed to record the center information of the multiple textual instances corresponding to a video, and aims at bridging these textual instances together. Extensive experimental results on two challenging benchmarks, i.e., MSR-VTT and VATEX, demonstrate the effectiveness of the proposed method.
翻訳日:2021-03-30 19:49:51 公開日:2021-03-29
# (参考訳) ロバストシャッフルモデルにおける分布自由パリティ学習のサンプル複雑性 [全文訳有]

The Sample Complexity of Distribution-Free Parity Learning in the Robust Shuffle Model ( http://arxiv.org/abs/2103.15690v1 )

ライセンス: CC BY 4.0
Kobbi Nissim and Chao Yan(参考訳) 微分プライバシーのシャッフルモデルにおいて実現可能な場合において,分布自由パリティ学習のサンプル複雑性を低く評価する。 すなわち、$d$-bitパリティ関数を学習する際のサンプルの複雑さは$\Omega(2^{d/2})$である。 その結果、cheu と ullman によるシャッフルモデルにおけるパリティ関数のプライベート非依存学習のサンプル複雑性について、最近の類似した下限が拡張された。 また、単純なシャッフルモデルプロトコルをスケッチし、その結果が$poly(d)$ factorにきついことを示す。

We provide a lowerbound on the sample complexity of distribution-free parity learning in the realizable case in the shuffle model of differential privacy. Namely, we show that the sample complexity of learning $d$-bit parity functions is $\Omega(2^{d/2})$. Our result extends a recent similar lowerbound on the sample complexity of private agnostic learning of parity functions in the shuffle model by Cheu and Ullman. We also sketch a simple shuffle model protocol demonstrating that our results are tight up to $poly(d)$ factors.
翻訳日:2021-03-30 19:36:53 公開日:2021-03-29
# (参考訳) ランダム変異による自己構築型ニューラルネットワーク [全文訳有]

Self-Constructing Neural Networks Through Random Mutation ( http://arxiv.org/abs/2103.15692v1 )

ライセンス: CC BY 4.0
Samuel Schmidgall(参考訳) ニューラルネットワークの検索は、人工知能における最もエキサイティングな結果を生み出している。 タスク固有のニューラルアーキテクチャが課題を効果的に解決する上で重要な役割を担っていることが明らかになった。 本稿では,ランダム変異によるニューラルネットワークの学習方法を提案する。 この手法は,1) 神経アーキテクチャはエージェントの生存中に学習され,2) 神経アーキテクチャは初期接続やニューロンなしで一生にわたって構築され,3) 動的および新規なタスクシナリオへの迅速な適応を可能にする。 ニューロンや接続がなければ、この手法は複数のタスクで高性能なニューラルアーキテクチャを構築することができる。 本手法の生涯学習能力はエピソディックリセットのない環境で実証され, 形態, 四肢障害, タスク目標の変更など, 運動能力を失うことなく常に学習することさえ可能である。

The search for neural architecture is producing many of the most exciting results in artificial intelligence. It has increasingly become apparent that task-specific neural architecture plays a crucial role for effectively solving problems. This paper presents a simple method for learning neural architecture through random mutation. This method demonstrates 1) neural architecture may be learned during the agent's lifetime, 2) neural architecture may be constructed over a single lifetime without any initial connections or neurons, and 3) architectural modifications enable rapid adaptation to dynamic and novel task scenarios. Starting without any neurons or connections, this method constructs a neural architecture capable of high-performance on several tasks. The lifelong learning capabilities of this method are demonstrated in an environment without episodic resets, even learning with constantly changing morphology, limb disablement, and changing task goals all without losing locomotion capabilities.
翻訳日:2021-03-30 19:24:02 公開日:2021-03-29
# (参考訳) stylemeup: スタイル非依存なスケッチベースの画像検索 [全文訳有]

StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval ( http://arxiv.org/abs/2103.15706v1 )

ライセンス: CC BY 4.0
Aneeshan Sain, Ayan Kumar Bhunia, Yongxin Yang and, Tao Xiang, Yi-Zhe Song(参考訳) スケッチベースの画像検索(SBIR)は、一般的に写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決されるクロスモーダルマッチング問題である。 しかし、SBIRの基本的な課題は、人間によってスケッチが描かれ、異なるユーザ間でかなりのスタイルのバリエーションが存在するという点で、これまでほとんど無視されてきた。 効果的なSBIRモデルは、目に見えないユーザスタイルを一般化するために、このスタイルの多様性を明確に説明する必要がある。 この目的のために,新しいスタイル非依存sbirモデルを提案する。 既存のモデルと異なり、クロスモーダル変分オートエンコーダ(VAE)を用いて、各スケッチを、対応する写真と共有されるセマンティックコンテンツ部と、スケッチヤ固有のスタイル部とに明示的に分離する。 重要なことは、我々のモデルを目に見えないユーザスタイルに動的に適応させるため、エンコーダに特徴変換レイヤのセットと、非絡み合ったセマンティックコンテンツラテントコードに正規化層という2つのスタイル適応型コンポーネントを追加することで、クロスモーダルVAEをメタトレーニングすることを提案する。 このメタラーニングフレームワークにより、我々のモデルはSBIRのクロスモーダルな共有セマンティックコンテンツだけでなく、見知らぬユーザスタイルにも適応できるため、SBIRモデルは本当にスタイルに依存しない。 拡張実験により,我々のスタイルに依存しないモデルでは,カテゴリレベルのSBIRとインスタンスレベルのSBIRの両方で最先端の性能が得られることが示された。

Sketch-based image retrieval (SBIR) is a cross-modal matching problem which is typically solved by learning a joint embedding space where the semantic content shared between photo and sketch modalities are preserved. However, a fundamental challenge in SBIR has been largely ignored so far, that is, sketches are drawn by humans and considerable style variations exist amongst different users. An effective SBIR model needs to explicitly account for this style diversity, crucially, to generalise to unseen user styles. To this end, a novel style-agnostic SBIR model is proposed. Different from existing models, a cross-modal variational autoencoder (VAE) is employed to explicitly disentangle each sketch into a semantic content part shared with the corresponding photo, and a style part unique to the sketcher. Importantly, to make our model dynamically adaptable to any unseen user styles, we propose to meta-train our cross-modal VAE by adding two style-adaptive components: a set of feature transformation layers to its encoder and a regulariser to the disentangled semantic content latent code. With this meta-learning framework, our model can not only disentangle the cross-modal shared semantic content for SBIR, but can adapt the disentanglement to any unseen user style as well, making the SBIR model truly style-agnostic. Extensive experiments show that our style-agnostic model yields state-of-the-art performance for both category-level and instance-level SBIR.
翻訳日:2021-03-30 19:14:41 公開日:2021-03-29
# (参考訳) カジノ:自動交渉システムのためのキャンプ場交渉対話コーパス [全文訳有]

CaSiNo: A Corpus of Campsite Negotiation Dialogues for Automatic Negotiation Systems ( http://arxiv.org/abs/2103.15721v1 )

ライセンス: CC BY 4.0
Kushal Chawla, Jaysa Ramirez, Rene Clever, Gale Lucas, Jonathan May, Jonathan Gratch(参考訳) 人間と交渉する自動化システムは、教育と会話AIに幅広い応用がある。 実践的な交渉システムの開発を進めるために、英語で1000以上の交渉対話を行う新しいコーパスであるCaSiNoを提案する。 参加者はキャンプ場の隣人の役割を担い、来るべき旅行のために食料、水、firewoodパッケージを交渉します。 我々の設計は、拡張可能な閉領域環境を維持しながら、多様で言語的に豊かな交渉をもたらす。 ヒューマン・ヒューマン・ネゴシエーションの文献に触発され,説得戦略と相関分析を行い,対話行動とネゴシエーションのパフォーマンスとの関連性を理解する。 さらに,与えられた発話の中でこれらの戦略を認識するマルチタスクフレームワークを提案し,評価する。 マルチタスク学習がすべての戦略ラベル,特に最も歪んだもののパフォーマンスを大幅に向上させることがわかった。 私たちは、人間と機械の交渉で将来の作業を促進するためのデータセット、アノテーション、コードをリリースします。

Automated systems that negotiate with humans have broad applications in pedagogy and conversational AI. To advance the development of practical negotiation systems, we present CaSiNo: a novel corpus of over a thousand negotiation dialogues in English. Participants take the role of campsite neighbors and negotiate for food, water, and firewood packages for their upcoming trip. Our design results in diverse and linguistically rich negotiations while maintaining a tractable, closed-domain environment. Inspired by the literature in human-human negotiations, we annotate persuasion strategies and perform correlation analysis to understand how the dialogue behaviors are associated with the negotiation performance. We further propose and evaluate a multi-task framework to recognize these strategies in a given utterance. We find that multi-task learning substantially improves the performance for all strategy labels, especially for the ones that are the most skewed. We release the dataset, annotations, and the code to propel future work in human-machine negotiations: https://github.com/k ushalchawla/CaSiNo
翻訳日:2021-03-30 18:55:32 公開日:2021-03-29
# (参考訳) 教師なし多対多画像翻訳における正確性の評価 [全文訳有]

Evaluation of Correctness in Unsupervised Many-to-Many Image Translation ( http://arxiv.org/abs/2103.15727v1 )

ライセンス: CC BY 4.0
Dina Bashkirova, Ben Usman and Kate Saenko(参考訳) 対象領域からの入力画像と、対象領域からの「誘導」画像とが与えられた場合、教師なし多対多画像変換法は、入力されたソース画像のドメイン不変情報を保存し、誘導画像からドメイン固有情報を継承する対象領域からの可視例を生成する。 例えば、女性顔を男性の顔に翻訳する場合、生成した男性の顔は、入力された女性像と同じ表情、ポーズ、髪色、およびガイダンス男性像と同じ顔髪型および他の男性特有の属性を持つべきである。 現在最先端のUMMI2I手法は視覚的に快く画像を生成するが、実際のデータセットではどの属性がドメイン固有であり、どの属性がドメイン不変かを知らないため、既存のアプローチの意味的正当性はまだ定量的に評価されていない。 本稿では,UMMI2I法における意味的正当性評価のためのベンチマークと指標を提案する。 本稿では,従来のUMMI2I翻訳手法がドメイン不変性を保ち,ドメイン固有属性を操作し,すべてのメソッドが共有するトレードオフについて論じるとともに,異なるアーキテクチャ選択が意味的正当性の様々な側面にどのように影響するかを論じる。

Given an input image from a source domain and a "guidance" image from a target domain, unsupervised many-to-many image-to-image (UMMI2I) translation methods seek to generate a plausible example from the target domain that preserves domain-invariant information of the input source image and inherits the domain-specific information from the guidance image. For example, when translating female faces to male faces, the generated male face should have the same expression, pose and hair color as the input female image, and the same facial hairstyle and other male-specific attributes as the guidance male image. Current state-of-the art UMMI2I methods generate visually pleasing images, but, since for most pairs of real datasets we do not know which attributes are domain-specific and which are domain-invariant, the semantic correctness of existing approaches has not been quantitatively evaluated yet. In this paper, we propose a set of benchmarks and metrics for the evaluation of semantic correctness of UMMI2I methods. We provide an extensive study how well the existing state-of-the-art UMMI2I translation methods preserve domain-invariant and manipulate domain-specific attributes, and discuss the trade-offs shared by all methods, as well as how different architectural choices affect various aspects of semantic correctness.
翻訳日:2021-03-30 18:38:15 公開日:2021-03-29
# (参考訳) ガラス状物体分割のための拡張境界学習 [全文訳有]

Enhanced Boundary Learning for Glass-like Object Segmentation ( http://arxiv.org/abs/2103.15734v1 )

ライセンス: CC BY-SA 4.0
Hao He, Xiangtai Li, Guangliang Cheng, Jianping Shi, Yunhai Tong, Gaofeng Meng, V\'eronique Prinet, Lubin Weng(参考訳) 窓、ボトル、鏡などのガラスのような物体は現実世界に広く存在している。 これらのオブジェクトのセンシングには、ロボットナビゲーションや把握など、多くの応用がある。 しかし、ガラスのような物体の背後にある任意のシーンのため、この作業は非常に難しい。 本稿では,拡張境界学習によるガラス状物体分割問題を解くことを目的とする。 特に,より微細な境界キューを生成するための改良された微分モジュールを最初に提案する。 次に,境界に沿った大域的な形状表現をモデル化するために,エッジ対応のグラフ畳み込みネットワークモジュールを提案する。 どちらのモジュールも軽量かつ効果的であり、様々なセグメンテーションモデルに組み込むことができる。 さらに,これら2つのモジュールをデコーダの設計に用いて,特に境界において,正確なセグメンテーション結果を得る。 Trans10k, MSD, GDDを含む最近の3つのガラスのようなオブジェクトセグメンテーションデータセットに対する大規模な実験により、我々のアプローチが新しい最先端のパフォーマンスを確立することを示す。 また、Cityscapes、BDD、COCO Stuffを含む3つの一般的なセグメンテーションデータセットの最近の手法と比較して、このアプローチの汎用性と優位性も提供します。 コードとモデルは (\url{https://github.com/h ehao13/eblnet}) で利用可能である。

Glass-like objects such as windows, bottles, and mirrors exist widely in the real world. Sensing these objects has many applications, including robot navigation and grasping. However, this task is very challenging due to the arbitrary scenes behind glass-like objects. This paper aims to solve the glass-like object segmentation problem via enhanced boundary learning. In particular, we first propose a novel refined differential module for generating finer boundary cues. Then an edge-aware point-based graph convolution network module is proposed to model the global shape representation along the boundary. Both modules are lightweight and effective, which can be embedded into various segmentation models. Moreover, we use these two modules to design a decoder to get accurate segmentation results, especially on the boundary. Extensive experiments on three recent glass-like object segmentation datasets, including Trans10k, MSD, and GDD, show that our approach establishes new state-of-the-art performances. We also offer the generality and superiority of our approach compared with recent methods on three general segmentation datasets, including Cityscapes, BDD, and COCO Stuff. Code and models will be available at (\url{https://github.com/h ehao13/EBLNet})
翻訳日:2021-03-30 18:21:39 公開日:2021-03-29
# (参考訳) フェデレーション機械学習におけるプライバシと信頼の再定義 [全文訳有]

Privacy and Trust Redefined in Federated Machine Learning ( http://arxiv.org/abs/2103.15753v1 )

ライセンス: CC BY 4.0
Pavlos Papadopoulos, Will Abramson, Adam J. Hall, Nikolaos Pitropakis and William J. Buchanan(参考訳) 従来の機械学習における一般的なプライバシー問題は、トレーニング手順のためにデータが開示される必要があることである。 医療記録などの機密性の高いデータを持つ状況では、この情報にアクセスすることは困難であり、しばしば禁止される。 幸いにも、トレーニングの計算を分散し、データプライバシを所有者に保証することで、このハードルを克服するために、プライバシ保護技術が開発されている。 複数の参加するエンティティへの計算の分散は、新しいプライバシーの複雑さとリスクをもたらす。 本稿では、参加者間の信頼された連携学習を容易にするプライバシー保護型分散ワークフローを提案する。 我々の概念実証は、hyperledgerプロジェクトaries/indy/ursaの下で開発された分散id技術を使用してインスタンス化された信頼フレームワークを定義する。 適切な当局から発行された検証済みクレデンシャルを所有するエンティティのみが、メンタルヘルスデータに関連する統合学習ワークフローに参加することが認可された、セキュアで認証された通信チャネルを確立することができる。

A common privacy issue in traditional machine learning is that data needs to be disclosed for the training procedures. In situations with highly sensitive data such as healthcare records, accessing this information is challenging and often prohibited. Luckily, privacy-preserving technologies have been developed to overcome this hurdle by distributing the computation of the training and ensuring the data privacy to their owners. The distribution of the computation to multiple participating entities introduces new privacy complications and risks. In this paper, we present a privacy-preserving decentralised workflow that facilitates trusted federated learning among participants. Our proof-of-concept defines a trust framework instantiated using decentralised identity technologies being developed under Hyperledger projects Aries/Indy/Ursa. Only entities in possession of Verifiable Credentials issued from the appropriate authorities are able to establish secure, authenticated communication channels authorised to participate in a federated learning workflow related to mental health data.
翻訳日:2021-03-30 18:02:20 公開日:2021-03-29
# (参考訳) Bigfootの縮小 - wav2vec 2.0フットプリント削減 [全文訳有]

Shrinking Bigfoot: Reducing wav2vec 2.0 footprint ( http://arxiv.org/abs/2103.15760v1 )

ライセンス: CC BY 4.0
Zilun Peng, Akshay Budhkar, Ilana Tuil, Jason Levy, Parinaz Sobhani, Raphael Cohen, Jumana Nassour(参考訳) Wav2vec 2.0は、音声波形を潜在表現にマッピングする音声認識(ASR)のための最先端のエンドツーエンド(E2E)システムである。 wav2vec 2.0の最大のバージョンは、3億1700万のパラメータを含んでいる。 したがって、wav2vec 2.0の推論遅延はプロダクションにおけるボトルネックとなり、高いコストと環境のフットプリントにつながる。 wav2vecのプロダクション環境への適用性を改善するため、大規模言語モデルのドメインから借用した複数のモデル圧縮手法について検討する。 教師と教師のアプローチを用いて,wav2vec 2.0モデルの知識を2倍高速で4.8倍小さい学生モデルに抽出した。 この性能向上は、ワードエラー率(WER)の7%の低下で達成される。 我々の量子化モデルは元のモデルより3.6倍小さく、WERの0.1%しか劣化しない。 私たちの知る限りでは、wav2vec 2.0を圧縮した最初の作品です。

Wav2vec 2.0 is a state-of-the-art End-to-end (E2E) system for automatic speech recognition (ASR) which maps speech audio waveforms into latent representations. The largest version of wav2vec 2.0 contains 317 million parameters. Hence, the inference latency of wav2vec 2.0 will be a bottleneck in production, leading to high costs and a significant environmental footprint. To improve wav2vec's applicability to a production setting, we explore multiple model compression methods borrowed from the domain of large language models. Using a teacher-student approach, we distilled the knowledge from the original wav2vec 2.0 model into a student model, which is 2 times faster and 4.8 times smaller than the original model. This increase in performance is accomplished with only a 7% degradation in word error rate (WER). Our quantized model is 3.6 times smaller than the original model, with only a 0.1% degradation in WER. To the best of our knowledge, this is the first work that compresses wav2vec 2.0.
翻訳日:2021-03-30 17:36:22 公開日:2021-03-29
# (参考訳) 物理モデルシミュレータ学習ニューラルネットワークによる複数散乱試料の3次元位相イメージング [全文訳有]

Physical model simulator-trained neural network for computational 3D phase imaging of multiple-scattering samples ( http://arxiv.org/abs/2103.15795v1 )

ライセンス: CC BY 4.0
Alex Matlock and Lei Tian(参考訳) 複雑な多重散乱生物試料の3次元位相特性の復元は、伝統的に物理モデル精度と再構成品質の計算効率と処理時間を犠牲にしている。 このトレードオフは、しばしば生物研究に最も興味を持つ生物、動的生物学的サンプルの迅速な分析を妨げる。 本稿では,AIDT(Annular intensity diffraction tomography)と近似誘導ディープラーニングフレームワークを組み合わせることで,このボトルネックを克服する。 自然画像データセットに基づく新しい物理モデルに基づく学習戦略を用いて、ネットワークは任意の大きさと構造の複雑な3次元生物学的サンプルを頑健に再構築できることを示す。 このアプローチは、大規模なマルチ散乱モデルを実験データセットの取得の代わりに活用して、高度に一般化可能なディープラーニングモデルを実現することを強調している。 我々は,サンプルコントラストを均質化し,散乱強度に関係なく均一な予測品質を実現するためのモデルベースデータ正規化前処理手法を考案した。 高精度なトレーニングと予測を実現するために,アキシャル情報を符号化するためのマルチチャネル入力を利用する軽量な2次元ネットワーク構造を実装した。 上皮性真菌細胞および線虫Caenorhabditis elegans wormの実験的測定におけるこの枠組みの機能を示す。 我々は,生きたワームビデオ上で動的サンプルを評価することによって,このアプローチの堅牢性を強調し,異なる実験装置で評価された藻サンプルを回収することで,アプローチの一般化性を強調する。 予測精度を評価するため,新しい定量的評価尺度を開発し,実験値と複数散乱物理値とが一致していることを示す。

Recovering 3D phase features of complex, multiple-scattering biological samples traditionally sacrifices computational efficiency and processing time for physical model accuracy and reconstruction quality. This trade-off hinders the rapid analysis of living, dynamic biological samples that are often of greatest interest to biological research. Here, we overcome this bottleneck by combining annular intensity diffraction tomography (aIDT) with an approximant-guided deep learning framework. Using a novel physics model simulator-based learning strategy trained entirely on natural image datasets, we show our network can robustly reconstruct complex 3D biological samples of arbitrary size and structure. This approach highlights that large-scale multiple-scattering models can be leveraged in place of acquiring experimental datasets for achieving highly generalizable deep learning models. We devise a new model-based data normalization pre-processing procedure for homogenizing the sample contrast and achieving uniform prediction quality regardless of scattering strength. To achieve highly efficient training and prediction, we implement a lightweight 2D network structure that utilizes a multi-channel input for encoding the axial information. We demonstrate this framework's capabilities on experimental measurements of epithelial buccal cells and Caenorhabditis elegans worms. We highlight the robustness of this approach by evaluating dynamic samples on a living worm video, and we emphasize our approach's generalizability by recovering algae samples evaluated with different experimental setups. To assess the prediction quality, we develop a novel quantitative evaluation metric and show that our predictions are consistent with our experimental measurements and multiple-scattering physics.
翻訳日:2021-03-30 17:24:50 公開日:2021-03-29
# (参考訳) CvT: ビジョントランスフォーマーへの畳み込みの導入 [全文訳有]

CvT: Introducing Convolutions to Vision Transformers ( http://arxiv.org/abs/2103.15808v1 )

ライセンス: CC BY 4.0
Haiping Wu and Bin Xiao and Noel Codella and Mengchen Liu and Xiyang Dai and Lu Yuan and Lei Zhang(参考訳) 本稿では,ViTに畳み込みを導入して両設計の長所を得ることにより,視覚変換器(ViT)の性能と効率を向上する,CvT(Convolutional Vision Transformer)という新しいアーキテクチャを提案する。 これは、新しい畳み込みトークンの埋め込みを含むトランスフォーマーの階層と、畳み込みプロジェクションを利用する畳み込みトランスフォーマーブロックの2つの主要な修正によって達成される。 これらの変更は、畳み込みニューラルネットワーク(CNN)の望ましい性質をViTアーキテクチャ(偏移、スケール、歪み不変性)に導入し、トランスフォーマーの利点(動的注意、グローバルコンテキスト、より優れた一般化)を維持している。 我々はCvTを広範囲な実験により検証し、この手法がImageNet-1k上の他のビジョントランスフォーマーやResNetに対して、より少ないパラメータと低いFLOPで最先端の性能を達成することを示す。 さらに、より大きなデータセット(\eg ImageNet-22k)で事前トレーニングされた場合のパフォーマンス向上が維持され、下流タスクに微調整される。 ImageNet-22kで事前トレーニングしたCvT-W24は、ImageNet-1k val集合上で、トップ1の精度87.7\%を得る。 最後に,既存のビジョン変換器において重要な部分である位置符号化を安全に除去できることを示し,高解像度ビジョンタスクの設計を簡素化した。 コードは \url{https://github.com/l eoxiaobin/CvT} でリリースされる。

We present in this paper a new architecture, named Convolutional vision Transformer (CvT), that improves Vision Transformer (ViT) in performance and efficiency by introducing convolutions into ViT to yield the best of both designs. This is accomplished through two primary modifications: a hierarchy of Transformers containing a new convolutional token embedding, and a convolutional Transformer block leveraging a convolutional projection. These changes introduce desirable properties of convolutional neural networks (CNNs) to the ViT architecture (\ie shift, scale, and distortion invariance) while maintaining the merits of Transformers (\ie dynamic attention, global context, and better generalization). We validate CvT by conducting extensive experiments, showing that this approach achieves state-of-the-art performance over other Vision Transformers and ResNets on ImageNet-1k, with fewer parameters and lower FLOPs. In addition, performance gains are maintained when pretrained on larger datasets (\eg ImageNet-22k) and fine-tuned to downstream tasks. Pre-trained on ImageNet-22k, our CvT-W24 obtains a top-1 accuracy of 87.7\% on the ImageNet-1k val set. Finally, our results show that the positional encoding, a crucial component in existing Vision Transformers, can be safely removed in our model, simplifying the design for higher resolution vision tasks. Code will be released at \url{https://github.com/l eoxiaobin/CvT}.
翻訳日:2021-03-30 17:04:10 公開日:2021-03-29
# (参考訳) LatentKeypointGAN: Latent KeypointsによるGAN制御 [全文訳有]

LatentKeypointGAN: Controlling GANs via Latent Keypoints ( http://arxiv.org/abs/2103.15812v1 )

ライセンス: CC0 1.0
Xingzhe He, Bastian Wandt, Helge Rhodin(参考訳) generative adversarial networks (gans) はフォトリアリスティックな品質を達成している。 しかし、画像コンテンツのベストコントロールについては、まだ未解決の課題である。 この2段階のGANは、古典的なGANの目的に基づいてエンドツーエンドに訓練されるが、各オブジェクトとその部分の位置とスタイルをそれぞれ制御する、関連した外観埋め込みを持つスパースキーポイントのセットで内部的に条件付けされている。 適切なネットワークアーキテクチャとトレーニングスキームに対処する大きな難しさは、イメージを空間的および外観的要素に切り離すことであり、ドメイン知識の監視信号や知識は不要である。 latentkeypointganは、異なる画像から目、鼻、口を組み合わせてポートレートを生成するようなキーポイント埋め込みを再配置し交換することで、生成された画像の再配置に使用できる解釈可能な潜在空間を提供する。 さらに、キーポイントとマッチング画像の明示的な生成により、教師なしキーポイント検出のための新しいGANベースの方法論が実現される。

Generative adversarial networks (GANs) have attained photo-realistic quality. However, it remains an open challenge of how to best control the image content. We introduce LatentKeypointGAN, a two-stage GAN that is trained end-to-end on the classical GAN objective yet internally conditioned on a set of sparse keypoints with associated appearance embeddings that respectively control the position and style of the generated objects and their parts. A major difficulty that we address with suitable network architectures and training schemes is disentangling the image into spatial and appearance factors without any supervision signals of either nor domain knowledge. We demonstrate that LatentKeypointGAN provides an interpretable latent space that can be used to re-arrange the generated images by re-positioning and exchanging keypoint embeddings, such as combining the eyes, nose, and mouth from different images for generating portraits. In addition, the explicit generation of keypoints and matching images enables a new, GAN-based methodology for unsupervised keypoint detection.
翻訳日:2021-03-30 16:49:04 公開日:2021-03-29
# (参考訳) 高忠実・任意顔編集 [全文訳有]

High-Fidelity and Arbitrary Face Editing ( http://arxiv.org/abs/2103.15814v1 )

ライセンス: CC BY 4.0
Yue Gao, Fangyun Wei, Jianmin Bao, Shuyang Gu, Dong Chen, Fang Wen, Zhouhui Lian(参考訳) サイクル一貫性は顔編集に広く使われている。 しかしながら、生成元は、サイクル一貫性の制約を満たすために元の画像から情報を隠蔽するトリッキーな方法を見つける傾向にあり、非編集領域のリッチな詳細(例えば、しわやほこり)を維持することは不可能である。 本研究では,2つの視点から,上述の問題に対処するシンプルで効果的なHifaFaceを提案する。 まず,入力画像の高周波情報を直接生成器の端部に供給することにより,生成器の圧力を和らげてリッチな細部を合成する。 第2に、生成元がリッチな詳細を合成するように促すために、追加の識別器を採用する。 具体的には、ウェーブレット変換を適用して、画像を多周波数領域に変換する。 また,その属性の細粒度で広い範囲の制御が顔編集において非常に重要であることも認識した。 この目標を達成するために,新しい属性回帰損失を提案する。 提案するフレームワークにより,高忠実度で任意の顔編集を実現し,他の最先端のアプローチよりも優れています。

Cycle consistency is widely used for face editing. However, we observe that the generator tends to find a tricky way to hide information from the original image to satisfy the constraint of cycle consistency, making it impossible to maintain the rich details (e.g., wrinkles and moles) of non-editing areas. In this work, we propose a simple yet effective method named HifaFace to address the above-mentioned problem from two perspectives. First, we relieve the pressure of the generator to synthesize rich details by directly feeding the high-frequency information of the input image into the end of the generator. Second, we adopt an additional discriminator to encourage the generator to synthesize rich details. Specifically, we apply wavelet transformation to transform the image into multi-frequency domains, among which the high-frequency parts can be used to recover the rich details. We also notice that a fine-grained and wider-range control for the attribute is of great importance for face editing. To achieve this goal, we propose a novel attribute regression loss. Powered by the proposed framework, we achieve high-fidelity and arbitrary face editing, outperforming other state-of-the-art approaches.
翻訳日:2021-03-30 16:32:20 公開日:2021-03-29
# (参考訳) ユニバーサル依存性を利用した音声ショッピングアシスタントにおける DistilBERT のリトレーニング [全文訳有]

Retraining DistilBERT for a Voice Shopping Assistant by Using Universal Dependencies ( http://arxiv.org/abs/2103.15737v1 )

ライセンス: CC BY 4.0
Pratik Jayarao and Arpit Sharma(参考訳) 本研究では,walmartの音声ショッピングアシスタントのための蒸留bert言語モデルを,小売分野別データを用いて再訓練した。 さらに,モデルのさらなるパフォーマンス向上のために,ユニバーサル構文依存性も注入しました。 現在利用可能な音声アシスタントの自然言語理解(NLU)コンポーネントは、様々なタスクの言語モデルに大きく依存している。 BERTやRoBERTaといった汎用言語モデルは、ドメインに依存しないアシスタントには便利だが、特定のドメインに対応する場合に制限がある。 例えば、ショッピングドメインでは、トークン「ホリゾン」は文字通りの意味ではなくブランドを意味する。 ジェネリックモデルはそのような微妙な特徴を捉えることができない。 そこで本研究では、Walmartの音声ショッピングアシスタントのための小売ドメイン固有のデータに基づいて、BERT言語モデルの蒸留版を再訓練した。 さらに、リトレーニングプロセスにユニバーサルな依存性ベースの機能を追加して、ダウンストリームタスクにおけるモデルのパフォーマンスを改善しました。 本研究は,意図度検出,感情分析,声帯短縮,前向きの意図提案を含む4つの下流課題における言語モデルの性能評価を行った。 ダウンストリームタスク全体のパフォーマンスは,平均1.31%まで向上した。

In this work, we retrained the distilled BERT language model for Walmart's voice shopping assistant on retail domain-specific data. We also injected universal syntactic dependencies to improve the performance of the model further. The Natural Language Understanding (NLU) components of the voice assistants available today are heavily dependent on language models for various tasks. The generic language models such as BERT and RoBERTa are useful for domain-independent assistants but have limitations when they cater to a specific domain. For example, in the shopping domain, the token 'horizon' means a brand instead of its literal meaning. Generic models are not able to capture such subtleties. So, in this work, we retrained a distilled version of the BERT language model on retail domain-specific data for Walmart's voice shopping assistant. We also included universal dependency-based features in the retraining process further to improve the performance of the model on downstream tasks. We evaluated the performance of the retrained language model on four downstream tasks, including intent-entity detection, sentiment analysis, voice title shortening and proactive intent suggestion. We observed an increase in the performance of all the downstream tasks of up to 1.31% on average.
翻訳日:2021-03-30 15:40:50 公開日:2021-03-29
# 多様なタスクに対するニューラル操作の再考

Rethinking Neural Operations for Diverse Tasks ( http://arxiv.org/abs/2103.15798v1 )

ライセンス: Link先を確認
Nicholas Roberts and Mikhail Khodak and Tri Dao and Liam Li and Christopher R\'e and Ameet Talwalkar(参考訳) neural architecture search(nas)の重要な目標は、未探索領域における新しいタスクにおけるニューラルネットワークの設計を自動化することだ。 NASに対するこの広範なビジョンに触発された我々は、ユーザが特定のドメインから与えられたデータから適切な神経操作を発見できるという問題を研究した。 我々は、標準的なマルチチャネル畳み込みの帰納的バイアスを模倣し、より表現豊かであるxd操作と呼ばれるニューラルネットワークの探索空間を導入する: 我々は、xd操作が複数のアプリケーション領域にまたがる多くの名前付き操作を含むことを証明する。 LeNetやResNetのような標準的なバックボーンネットワークから始め、XD操作によるアーキテクチャ検索空間への変換方法と、単純な重み付け方式を用いて空間をトラバースする方法を示す。 画像分類、偏微分方程式(pdes)の解法、およびシーケンスモデリングのアプローチは、ベースラインネットワークよりもエラーが少なく、時には専門家が設計したドメイン固有のアプローチよりもエラーが少ないモデルをもたらす。

An important goal of neural architecture search (NAS) is to automate-away the design of neural networks on new tasks in under-explored domains. Motivated by this broader vision for NAS, we study the problem of enabling users to discover the right neural operations given data from their specific domain. We introduce a search space of neural operations called XD-Operations that mimic the inductive bias of standard multichannel convolutions while being much more expressive: we prove that XD-operations include many named operations across several application areas. Starting with any standard backbone network such as LeNet or ResNet, we show how to transform it into an architecture search space over XD-operations and how to traverse the space using a simple weight-sharing scheme. On a diverse set of applications--image classification, solving partial differential equations (PDEs), and sequence modeling--our approach consistently yields models with lower error than baseline networks and sometimes even lower error than expert-designed domain-specific approaches.
翻訳日:2021-03-30 15:30:39 公開日:2021-03-29
# より良いセマンティクスと高速検索のための白文表現

Whitening Sentence Representations for Better Semantics and Faster Retrieval ( http://arxiv.org/abs/2103.15316v1 )

ライセンス: Link先を確認
Jianlin Su, Jiarun Cao, Weijie Liu, Yangyiwen Ou(参考訳) BERTのような事前学習モデルは多くの自然言語処理タスクで大きな成功を収めた。 しかし、これらの事前学習モデルを通してより良い文表現を得るには、依然として有効である。 従来の研究によると、異方性問題はBERTに基づく文表現にとって重要なボトルネックであり、モデルが基盤となる意味的特徴を完全に活用することを妨げている。 そのため、フローベースモデルなどの文分布の等方性を高める試みが、文表現に適用され、改善されている。 本稿では,従来の機械学習における白化操作が,同様に文表現の等方性を高め,競争的な結果が得られることを示す。 さらに、この白化技法は、文表現の次元性も低減することができる。 実験の結果, 有望な性能を実現するだけでなく, ストレージコストを大幅に削減し, モデル検索速度を高速化できることがわかった。

Pre-training models such as BERT have achieved great success in many natural language processing tasks. However, how to obtain better sentence representation through these pre-training models is still worthy to exploit. Previous work has shown that the anisotropy problem is an critical bottleneck for BERT-based sentence representation which hinders the model to fully utilize the underlying semantic features. Therefore, some attempts of boosting the isotropy of sentence distribution, such as flow-based model, have been applied to sentence representations and achieved some improvement. In this paper, we find that the whitening operation in traditional machine learning can similarly enhance the isotropy of sentence representations and achieve competitive results. Furthermore, the whitening technique is also capable of reducing the dimensionality of the sentence representation. Our experimental results show that it can not only achieve promising performance but also significantly reduce the storage cost and accelerate the model retrieval speed.
翻訳日:2021-03-30 15:30:09 公開日:2021-03-29
# 高次関係を用いた不均一グラフの学習

Learning on heterogeneous graphs using high-order relations ( http://arxiv.org/abs/2103.15532v1 )

ライセンス: Link先を確認
See Hian Lee, Feng Ji, Wee Peng Tay(参考訳) 不均一グラフは異なる頂点型とエッジ型からなる。 ヘテロジニアスグラフでの学習は通常、グラフを均質なネットワークに縮小したり、ランダムなウォークやセマンティクスをガイドしたりすることで異質性に対処するためにメタパスを用いる。 しかし、これらの手法はメタパスの選択に敏感であり、最適でない経路は性能を低下させる。 本稿ではメタパスを使わずに異種グラフを学習するためのアプローチを提案する。 具体的には、異種グラフを異なる同種関係型グラフに分解し、それを結合して高階関係型表現を生成する。 これらの表現はエッジの不均一性を保ち、異なる頂点型の多重ホップ間の相互作用を捉えながら、エッジ方向を維持する。 次に、関係型に基づく隣人と関係型自体の重要性を区別するための注意機構を補う。 実験により,本モデルは一般に研究されている3つの不均一グラフデータセットの頂点分類タスクにおいて,他の最先端ベースラインよりも優れていることが証明された。

A heterogeneous graph consists of different vertices and edges types. Learning on heterogeneous graphs typically employs meta-paths to deal with the heterogeneity by reducing the graph to a homogeneous network, guide random walks or capture semantics. These methods are however sensitive to the choice of meta-paths, with suboptimal paths leading to poor performance. In this paper, we propose an approach for learning on heterogeneous graphs without using meta-paths. Specifically, we decompose a heterogeneous graph into different homogeneous relation-type graphs, which are then combined to create higher-order relation-type representations. These representations preserve the heterogeneity of edges and retain their edge directions while capturing the interaction of different vertex types multiple hops apart. This is then complemented with attention mechanisms to distinguish the importance of the relation-type based neighbors and the relation-types themselves. Experiments demonstrate that our model generally outperforms other state-of-the-art baselines in the vertex classification task on three commonly studied heterogeneous graph datasets.
翻訳日:2021-03-30 15:29:10 公開日:2021-03-29
# 合成抽象誤差と因果モデルのカテゴリー

Compositional Abstraction Error and a Category of Causal Models ( http://arxiv.org/abs/2103.15758v1 )

ライセンス: Link先を確認
Eigil F. Rischel, Sebastian Weichwald(参考訳) インターベンショナル因果モデル(Interventional causal model)は、システムを記述するために使われるいくつかの変数のジョイント分布を記述する。 彼らはジョイント分布間の移動方法とシステムへの介入時に変数に関する予測を行うための公式なレシピを提供する。 しかし,細粒度変数から粗粒度変数まで,システム記述の基盤となる変数をどのように変更するかを定式化することは困難である。 ここでは、合成性はモデル変換と関連するエラーのデシデラタムであると主張する。 参照モデル M をモジュラーに抽象化し、まず M' を取得し、さらに M'' を得るように単純化すると、M' から M' への合成変換が存在し、その誤差は各変換ステップによって生じる誤差によって境界づけられる。 それらの間の構成変換による数学的対象の研究であるカテゴリー理論は、我々のフレームワークを開発するための自然言語を提供する。 有限介入因果モデル(有限介入因果モデル)のカテゴリを導入し,富化圏の理論を活用し,我々の枠組みが所望の構成性特性を享受することを示す。

Interventional causal models describe joint distributions over some variables used to describe a system, one for each intervention setting. They provide a formal recipe for how to move between joint distributions and make predictions about the variables upon intervening on the system. Yet, it is difficult to formalise how we may change the underlying variables used to describe the system, say from fine-grained to coarse-grained variables. Here, we argue that compositionality is a desideratum for model transformations and the associated errors. We develop a framework for model transformations and abstractions with a notion of error that is compositional: when abstracting a reference model M modularly, first obtaining M' and then further simplifying that to obtain M'', then the composite transformation from M to M'' exists and its error can be bounded by the errors incurred by each individual transformation step. Category theory, the study of mathematical objects via the compositional transformations between them, offers a natural language for developing our framework. We introduce a category of finite interventional causal models and, leveraging theory of enriched categories, prove that our framework enjoys the desired compositionality properties.
翻訳日:2021-03-30 15:28:53 公開日:2021-03-29
# マルチスケールビジョンロングフォーマ : 高分解能画像符号化のための新しいビジョントランスフォーマ

Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding ( http://arxiv.org/abs/2103.15358v1 )

ライセンス: Link先を確認
Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei Zhang, Jianfeng Gao(参考訳) 本稿では,2つの手法を用いて高解像度画像の符号化を行うために,新しい視覚変換器(ViT)アーキテクチャであるMulti-Scale Vision Longformerを提案する。 ひとつはマルチスケールモデル構造で、複数のスケールで画像エンコーディングを処理可能な計算コストで提供する。 2つ目は、自然言語処理のために開発されたlongformer \cite{beltagy2020longforme r}の変種であるvision longformerの注意機構であり、線形複雑性 w.r.t を達成する。 入力トークンの数です 総合的な実証研究により、新しいViTは、既存のViTモデルとそのResNetモデルや、画像分類、オブジェクト検出、セグメンテーションを含む様々な視覚タスクにおいて、同時作業 \cite{wang2021pyramid} からのピラミッドビジョントランスフォーマーなど、いくつかの強力なベースラインを著しく上回っていることが示されている。 この研究で使用されるモデルとソースコードはまもなく公開される予定だ。

This paper presents a new Vision Transformer (ViT) architecture Multi-Scale Vision Longformer, which significantly enhances the ViT of \cite{dosovitskiy2020image } for encoding high-resolution images using two techniques. The first is the multi-scale model structure, which provides image encodings at multiple scales with manageable computational cost. The second is the attention mechanism of vision Longformer, which is a variant of Longformer \cite{beltagy2020longforme r}, originally developed for natural language processing, and achieves a linear complexity w.r.t. the number of input tokens. A comprehensive empirical study shows that the new ViT significantly outperforms several strong baselines, including the existing ViT models and their ResNet counterparts, and the Pyramid Vision Transformer from a concurrent work \cite{wang2021pyramid}, on a range of vision tasks, including image classification, object detection, and segmentation. The models and source code used in this study will be released to public soon.
翻訳日:2021-03-30 15:28:31 公開日:2021-03-29
# 視覚トランスフォーマーの逆ロバスト性について

On the Adversarial Robustness of Visual Transformers ( http://arxiv.org/abs/2103.15670v1 )

ライセンス: Link先を確認
Rulin Shao, Zhouxing Shi, Jinfeng Yi, Pin-Yu Chen, Cho-Jui Hsieh(参考訳) 自然言語処理と理解の進歩の成功に続いて、トランスフォーマーはコンピュータビジョンに革命的な変化をもたらすことが期待されている。 この研究は、視覚変換器(ViT)の対向摂動に対する堅牢性に関する、初めてかつ包括的な研究を提供する。 様々なホワイトボックスとトランスファー攻撃設定でテストしたところ、畳み込みニューラルネットワーク(CNN)と比較して、ViTsはより良い敵の堅牢性を持つことがわかった。 1) ViTsが学習した特徴は低レベル情報が少なく、より一般化可能であり、敵の摂動に対する優れた強靭性に寄与する。 2)ViTの低レベル特徴を学習するための畳み込み・トークン・ツー・トークンブロックの導入により,分類精度は向上するが,対向ロバスト性は低下する。 3) モデル構造における変圧器の割合の増大(モデルが変圧器とCNNブロックの両方で構成されている場合)により、より堅牢性が向上する。 しかし、純粋なトランスフォーマーモデルでは、単にサイズを増やしたりレイヤーを追加するだけでは、同様の効果を保証できない。 4) 大規模データセットでの事前トレーニングは,ViTのトレーニングに欠かせないが,敵の堅牢性を大幅に向上させるものではない。 5) 頑健なモデルのトレーニングには、ViTにも適応できる。 さらに,特徴の可視化と周波数解析により説明を行う。 その結果,vitsはcnnよりも高周波摂動に対する感受性が低く,モデルが低レベルな特徴をどのように学習するか,周波数ベースの摂動に対する頑健性は高い相関関係にあることがわかった。

Following the success in advancing natural language processing and understanding, transformers are expected to bring revolutionary changes to computer vision. This work provides the first and comprehensive study on the robustness of vision transformers (ViTs) against adversarial perturbations. Tested on various white-box and transfer attack settings, we find that ViTs possess better adversarial robustness when compared with convolutional neural networks (CNNs). We summarize the following main observations contributing to the improved robustness of ViTs: 1) Features learned by ViTs contain less low-level information and are more generalizable, which contributes to superior robustness against adversarial perturbations. 2) Introducing convolutional or tokens-to-token blocks for learning low-level features in ViTs can improve classification accuracy but at the cost of adversarial robustness. 3) Increasing the proportion of transformers in the model structure (when the model consists of both transformer and CNN blocks) leads to better robustness. But for a pure transformer model, simply increasing the size or adding layers cannot guarantee a similar effect. 4) Pre-training on larger datasets does not significantly improve adversarial robustness though it is critical for training ViTs. 5) Adversarial training is also applicable to ViT for training robust models. Furthermore, feature visualization and frequency analysis are conducted for explanation. The results show that ViTs are less sensitive to high-frequency perturbations than CNNs and there is a high correlation between how well the model learns low-level features and its robustness against different frequency-based perturbations.
翻訳日:2021-03-30 15:28:09 公開日:2021-03-29
# 弱体化における影響分析: 妥当性, 表現, アクションユニット, 統一フレームワーク

Affect Analysis in-the-wild: Valence-Arousal, Expressions, Action Units and a Unified Framework ( http://arxiv.org/abs/2103.15792v1 )

ライセンス: Link先を確認
Dimitrios Kollias and Stefanos Zafeiriou(参考訳) 被験者の表情に基づく感情認識は、被験者の感情、行動、反応の仕方を理解することができる機械を創り出そうとする主要な研究のトピックである。 過去には、実生活で捉えた大量のデータが利用できないため、主に制御された環境に焦点が当てられている。 しかし、近年はソーシャルメディアやプラットフォームが広く使われている。 さらに、視覚分析と認識問題を解決する手段としてディープラーニングが登場している。 本稿では,これらの進歩を生かし,その影響分析と認識に重要な貢献をする。 影響分析と認識は、2つの知識生成問題と見なすことができる: i) 新規で大規模でリッチなインザワイルドデータベースの作成 ii) これらのデータベースに対する影響を分析し、他のデータセットのパフォーマンスをうまく一般化できる新しいディープニューラルネットワークの設計とトレーニング。 この論文は、大規模インザワイルドデータベース、すなわちAff-WildとAff-Wild2に焦点を当て、これらのデータベースで訓練された2種類のディープニューラルネットワークの設計を提示する。 第一のクラスは、価数と覚醒次元の変数の予測に焦点を当てた、単タスクな影響認識を指す。 第2のクラスは、すべての主要な振る舞いタスク、すなわち、見積もりを指す。 原子価-覚醒予測;7つの基本的な表情におけるカテゴリー的感情分類;顔行動単位の検出。 既存の全データベースに対する感情認識を共同学習し、効果的に一般化し、実行することが可能な、新しいマルチタスクおよび総合的なフレームワークを提案する。 大規模な実験的研究は、影響認識における既存の最先端技術よりも達成されたパフォーマンス改善を示す。

Affect recognition based on subjects' facial expressions has been a topic of major research in the attempt to generate machines that can understand the way subjects feel, act and react. In the past, due to the unavailability of large amounts of data captured in real-life situations, research has mainly focused on controlled environments. However, recently, social media and platforms have been widely used. Moreover, deep learning has emerged as a means to solve visual analysis and recognition problems. This paper exploits these advances and presents significant contributions for affect analysis and recognition in-the-wild. Affect analysis and recognition can be seen as a dual knowledge generation problem, involving: i) creation of new, large and rich in-the-wild databases and ii) design and training of novel deep neural architectures that are able to analyse affect over these databases and to successfully generalise their performance on other datasets. The paper focuses on large in-the-wild databases, i.e., Aff-Wild and Aff-Wild2 and presents the design of two classes of deep neural networks trained with these databases. The first class refers to uni-task affect recognition, focusing on prediction of the valence and arousal dimensional variables. The second class refers to estimation of all main behavior tasks, i.e. valence-arousal prediction; categorical emotion classification in seven basic facial expressions; facial Action Unit detection. A novel multi-task and holistic framework is presented which is able to jointly learn and effectively generalize and perform affect recognition over all existing in-the-wild databases. Large experimental studies illustrate the achieved performance improvement over the existing state-of-the-art in affect recognition.
翻訳日:2021-03-30 15:27:44 公開日:2021-03-29
# スペクトル空間拡散幾何によるハイパースペクトル画像のマルチスケールクラスタリング

Multiscale Clustering of Hyperspectral Images Through Spectral-Spatial Diffusion Geometry ( http://arxiv.org/abs/2103.15783v1 )

ライセンス: Link先を確認
Sam L. Polk and James M. Murphy(参考訳) クラスタリングアルゴリズムはデータセットを類似点のグループに分割する。 本論文の主な貢献は,空間正規化拡散距離を用いてハイパースペクトル画像(hsi)における潜在構造の多重スケールを効率的かつ正確に学習するマルチスケール空間正規化拡散学習(m-srdl)クラスタリングアルゴリズムである。 M-SRDLクラスタリングアルゴリズムは、HSIから多くのスケールのクラスタリングを抽出し、これらのクラスタリングのインフォメーションバリセンターのバリエーションを、すべての基盤となるクラスタ構造の例として出力する。 マルチスケールクラスタリングフレームワークに空間正規化を組み込むことは、hsiデータに適用するとより滑らかでより一貫性のあるクラスタに対応し、より正確なクラスタリングラベルをもたらすことを示す。

Clustering algorithms partition a dataset into groups of similar points. The primary contribution of this article is the Multiscale Spatially-Regularize d Diffusion Learning (M-SRDL) clustering algorithm, which uses spatially-regularize d diffusion distances to efficiently and accurately learn multiple scales of latent structure in hyperspectral images (HSI). The M-SRDL clustering algorithm extracts clusterings at many scales from an HSI and outputs these clusterings' variation of information-barycent er as an exemplar for all underlying cluster structure. We show that incorporating spatial regularization into a multiscale clustering framework corresponds to smoother and more coherent clusters when applied to HSI data and leads to more accurate clustering labels.
翻訳日:2021-03-30 15:27:18 公開日:2021-03-29
# ガーナ語のためのNLP

NLP for Ghanaian Languages ( http://arxiv.org/abs/2103.15475v1 )

ライセンス: Link先を確認
Paul Azunre, Salomey Osei, Salomey Addo, Lawrence Asamoah Adu-Gyamfi, Stephen Moore, Bernard Adabankah, Bernard Opoku, Clara Asare-Nyarko, Samuel Nyarko, Cynthia Amoaba, Esther Dansoa Appiah, Felix Akwerh, Richard Nii Lante Lawson, Joel Budu, Emmanuel Debrah, Nana Boateng, Wisdom Ofori, Edwin Buabeng-Munkoh, Franklin Adjei, Isaac Kojo Essel Ampomah, Joseph Otoo, Reindorf Borkor, Standylove Birago Mensah, Lucien Mensah, Mark Amoako Marcel, Anokye Acheampong Amponsah, James Ben Hayfron-Acquah(参考訳) NLP Ghanaは、最先端のNLP技術とデジタル言語ツールの開発と導入を、ガーナの言語や問題に進めるための、オープンソースの非営利組織である。 本稿では,ガーナにおけるNLPの現状を呈示しながら,いくつかの人気のあるガーナ語を導入することで,組織の取り組みの動機と必要性を最初に提示する。 次に、NLPガーナの組織を紹介し、その目的、作業範囲、採用方法、ガーナのNLPコミュニティで現在行われているコントリビューションについて概説する。

NLP Ghana is an open-source non-profit organization aiming to advance the development and adoption of state-of-the-art NLP techniques and digital language tools to Ghanaian languages and problems. In this paper, we first present the motivation and necessity for the efforts of the organization; by introducing some popular Ghanaian languages while presenting the state of NLP in Ghana. We then present the NLP Ghana organization and outline its aims, scope of work, some of the methods employed and contributions made thus far in the NLP community in Ghana.
翻訳日:2021-03-30 15:26:38 公開日:2021-03-29
# 機械翻訳のための英語-twi並列コーパス

English-Twi Parallel Corpus for Machine Translation ( http://arxiv.org/abs/2103.15625v1 )

ライセンス: Link先を確認
Paul Azunre, Salomey Osei, Salomey Addo, Lawrence Asamoah Adu-Gyamfi, Stephen Moore, Bernard Adabankah, Bernard Opoku, Clara Asare-Nyarko, Samuel Nyarko, Cynthia Amoaba, Esther Dansoa Appiah, Felix Akwerh, Richard Nii Lante Lawson, Joel Budu, Emmanuel Debrah, Nana Boateng, Wisdom Ofori, Edwin Buabeng-Munkoh, Franklin Adjei, Isaac Kojo Essel Ampomah, Joseph Otoo, Reindorf Borkor, Standylove Birago Mensah, Lucien Mensah, Mark Amoako Marcel, Anokye Acheampong Amponsah, James Ben Hayfron-Acquah(参考訳) 本稿では,25,421文対のAkuapem Twiと英語の並列機械翻訳学習コーパスを提案する。 Akuapem Twiの初期翻訳をトランスレータで生成し,その後,母国語話者が翻訳文の出現を除去するために必要に応じて検証・修正した。 また、下流自然言語処理(NLP)タスクの評価セットとして、697の高品質なクラウドソース文が提供されている。 より大きな人間検証データセットの典型的なユースケースは、akapem twiの機械翻訳モデルのさらなるトレーニングである。 高品質な697クラウドソースデータセットは、twiとtwiから英語モデルへの機械翻訳のためのテストデータセットとして推奨されている。 さらに、クラウドソースされたデータのTwi部分は、表現学習や分類など、他のタスクにも使用することができる。 トレーニングコーパスのトランスフォーマー翻訳モデルを微調整し,クラウドソーステストセットのベンチマークを報告する。

We present a parallel machine translation training corpus for English and Akuapem Twi of 25,421 sentence pairs. We used a transformer-based translator to generate initial translations in Akuapem Twi, which were later verified and corrected where necessary by native speakers to eliminate any occurrence of translationese. In addition, 697 higher quality crowd-sourced sentences are provided for use as an evaluation set for downstream Natural Language Processing (NLP) tasks. The typical use case for the larger human-verified dataset is for further training of machine translation models in Akuapem Twi. The higher quality 697 crowd-sourced dataset is recommended as a testing dataset for machine translation of English to Twi and Twi to English models. Furthermore, the Twi part of the crowd-sourced data may also be used for other tasks, such as representation learning, classification, etc. We fine-tune the transformer translation model on the training corpus and report benchmarks on the crowd-sourced test set.
翻訳日:2021-03-30 15:26:29 公開日:2021-03-29
# LayoutParser: ディープラーニングベースのドキュメントイメージ分析のための統一ツールキット

LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis ( http://arxiv.org/abs/2103.15348v1 )

ライセンス: Link先を確認
Zejiang Shen, Ruochen Zhang, Melissa Dell, Benjamin Charles Germain Lee, Jacob Carlson, Weining Li(参考訳) 文書画像解析(DIA)の最近の進歩は、主にニューラルネットワークの適用によって進められている。 理想的には、研究成果は容易に生産に展開でき、さらなる調査のために拡張することができる。 しかし、疎結合なコードベースや洗練されたモデル構成といったさまざまな要素は、幅広いオーディエンスによる重要なイノベーションの再利用を容易に複雑にします。 自然言語処理やコンピュータビジョンといった分野における、再利用性の向上とディープラーニング(DL)モデル開発を簡素化する取り組みが進行中だが、DIAの領域における課題に最適化されているものはない。 DIAは、社会科学と人文科学の幅広い分野にわたる学術研究の中心である。 本稿では,dia研究とアプリケーションにおけるdlの利用を合理化するオープンソースライブラリであるlayoutparserを紹介する。 コアレイアウトパーサライブラリには、レイアウト検出、文字認識、その他多くのドキュメント処理タスクのためのDLモデルの適用とカスタマイズのための、シンプルで直感的なインターフェースが付属している。 拡張性を促進するために、レイアウトパーサは、事前訓練されたモデルとフルドキュメントのデジタイゼーションパイプラインの両方を共有するコミュニティプラットフォームも組み込んでいる。 レイアウトパーザは,実単語のユースケースにおいて,軽量かつ大規模ディジタル化パイプラインとして有用であることを示す。 ライブラリはhttps://layout-parse r.github.io/で公開されている。

Recent advances in document image analysis (DIA) have been primarily driven by the application of neural networks. Ideally, research outcomes could be easily deployed in production and extended for further investigation. However, various factors like loosely organized codebases and sophisticated model configurations complicate the easy reuse of important innovations by a wide audience. Though there have been on-going efforts to improve reusability and simplify deep learning (DL) model development in disciplines like natural language processing and computer vision, none of them are optimized for challenges in the domain of DIA. This represents a major gap in the existing toolkit, as DIA is central to academic research across a wide range of disciplines in the social sciences and humanities. This paper introduces layoutparser, an open-source library for streamlining the usage of DL in DIA research and applications. The core layoutparser library comes with a set of simple and intuitive interfaces for applying and customizing DL models for layout detection, character recognition, and many other document processing tasks. To promote extensibility, layoutparser also incorporates a community platform for sharing both pre-trained models and full document digitization pipelines. We demonstrate that layoutparser is helpful for both lightweight and large-scale digitization pipelines in real-word use cases. The library is publicly available at https://layout-parse r.github.io/.
翻訳日:2021-03-30 15:25:39 公開日:2021-03-29
# Cloud2Curve:パラメトリックスケッチの生成とベクトル化

Cloud2Curve: Generation and Vectorization of Parametric Sketches ( http://arxiv.org/abs/2103.15536v1 )

ライセンス: Link先を確認
Ayan Das, Yongxin Yang, Timothy Hospedales, Tao Xiang and Yi-Zhe Song(参考訳) 深層学習における人間のスケッチの分析は,ラスター図形表現よりも waypoint-sequence を用いて大きく進歩している。 さらに、スケッチを低次元パラメトリック曲線の列としてモデル化する。 そこで本研究では,ラスタやウェイポイントで符号化されたストロークを,可変度B'ezier曲線の点クラウドとして近似できる逆グラフィックスフレームワークを提案する。 このモジュール上に構築したcloud2curveは,ポイントクラウドデータのみを使用してエンドツーエンドでトレーニング可能な,スケーラブルな高分解能ベクトルスケッチ生成モデルである。 その結果,本モデルでは,新しいラスタやウェイポイントベースのスケッチを対応する高解像度のスケーラブルなB\'ezier相当にマッピングできる決定論的ベクトル化も可能である。 我々はQuick, Draw!でモデルの生成とベクトル化能力を評価する。 そしてK-MNISTデータセット。

Analysis of human sketches in deep learning has advanced immensely through the use of waypoint-sequences rather than raster-graphic representations. We further aim to model sketches as a sequence of low-dimensional parametric curves. To this end, we propose an inverse graphics framework capable of approximating a raster or waypoint based stroke encoded as a point-cloud with a variable-degree B\'ezier curve. Building on this module, we present Cloud2Curve, a generative model for scalable high-resolution vector sketches that can be trained end-to-end using point-cloud data alone. As a consequence, our model is also capable of deterministic vectorization which can map novel raster or waypoint based sketches to their corresponding high-resolution scalable B\'ezier equivalent. We evaluate the generation and vectorization capabilities of our model on Quick, Draw! and K-MNIST datasets.
翻訳日:2021-03-30 15:25:19 公開日:2021-03-29
# モデル不特定性に基づくロバスト強化学習

Robust Reinforcement Learning under model misspecification ( http://arxiv.org/abs/2103.15370v1 )

ライセンス: Link先を確認
Lebin Yu, Jian Wang and Xudong Zhang(参考訳) 強化学習は近年,幅広いタスクにおいて顕著な成果を上げている。 それにもかかわらず、未解決の問題は実世界の制御における応用を制限する。 その1つは、モデル誤特定(model misspecification)であり、エージェントが異なるトランジションダイナミクスを持つ環境でトレーニングされ、デプロイされる状況である。 このジレンマに対処するために,歴史軌跡と部分可観測マルコフ決定過程モデルを用いた新しい枠組みを提案する。 さらに,ロバストトレーニングを支援する効果的な対向攻撃手法を提案した。 4つの体育ドメインでの実験は、我々のフレームワークの有効性を検証する。

Reinforcement learning has achieved remarkable performance in a wide range of tasks these days. Nevertheless, some unsolved problems limit its applications in real-world control. One of them is model misspecification, a situation where an agent is trained and deployed in environments with different transition dynamics. We propose an novel framework that utilize history trajectory and Partial Observable Markov Decision Process Modeling to deal with this dilemma. Additionally, we put forward an efficient adversarial attack method to assist robust training. Our experiments in four gym domains validate the effectiveness of our framework.
翻訳日:2021-03-30 15:24:39 公開日:2021-03-29
# Data-Label と Post-Algorithm 抽象化による物体検出異常のモニタリング

Monitoring Object Detection Abnormalities via Data-Label and Post-Algorithm Abstractions ( http://arxiv.org/abs/2103.15456v1 )

ライセンス: Link先を確認
Yuhang Chen, Chih-Hong Cheng, Jun Yan, Rongjie Yan(参考訳) 物体検出モジュールは、どの自動運転車にも必須の機能であるが、ディープニューラルネットワークを用いて実装されたそのようなモジュールの性能は、多くの場合、信頼できない。 本稿では,誤検出結果をフィルタリングする論理的フレームワークとして,抽象化に基づくモニタリングを開発する。 具体的には,data-label 抽象化と post-algorithm 抽象化という2種類の抽象化を考える。 トレーニングデータセット上で動作し、データラベルの抽象化の構築は各入力を反復し、関連するラベルに領域情報を集約し、ベクトルを有限履歴長で保存する。 post-algorithmabstra ctはトラッキングアルゴリズム用の抽象トランスフォーマーを構築する。 抽象トランスフォーマーによって関連付けられている要素は、元の値に対する一貫性をチェックすることができる。 我々は,本フレームワークをプロトタイプに実装し,公開されているオブジェクト検出データセットを用いて検証した。

While object detection modules are essential functionalities for any autonomous vehicle, the performance of such modules that are implemented using deep neural networks can be, in many cases, unreliable. In this paper, we develop abstraction-based monitoring as a logical framework for filtering potentially erroneous detection results. Concretely, we consider two types of abstraction, namely data-label abstraction and post-algorithm abstraction. Operated on the training dataset, the construction of data-label abstraction iterates each input, aggregates region-wise information over its associated labels, and stores the vector under a finite history length. Post-algorithm abstraction builds an abstract transformer for the tracking algorithm. Elements being associated together by the abstract transformer can be checked against consistency over their original values. We have implemented the overall framework to a research prototype and validated it using publicly available object detection datasets.
翻訳日:2021-03-30 15:24:31 公開日:2021-03-29
# ディープラーニング近似によるベイズモデルによる迅速リスク最小化

Rapid Risk Minimization with Bayesian Models Through Deep Learning Approximation ( http://arxiv.org/abs/2103.15682v1 )

ライセンス: Link先を確認
Mathias L\"owe, Jes Frellsen, Per Lunnemann Hansen, Sebastian Risi(参考訳) 本稿では,ベイズモデル (BM) とニューラルネットワーク (NN) を組み合わせて,予測を最小限のリスクで行う手法を提案する。 我々のアプローチは、BMのデータ効率と解釈可能性とNNの速度を両世界の長所と組み合わせている。 bmでは、予測損失が最も低い予測を行うには、後方分布を統合する必要がある。 後部予測分布の正確な推定が難解である場合、近似法が典型的に適用される。 モンテカルロ (MC) のシミュレーション。 サンプルが多ければ多いほど精度は高くなりますが、計算コストの増大を犠牲にします。 提案手法では,予測時にCPU上で繰り返しMCシミュレーションを行う必要がなくなる。 簡単に言えば、NNをBMで生成された合成データに合わせることで機能する。 NNの1つのフィードフォワードパスでは、所与の観測のためにBMの後方予測分布に一組のポイントワイズ近似を与える。 テストデータセットに無視できる損失がある標準手法よりも、リスク最小化予測をはるかに高速に達成する。 このアプローチをアクティブラーニング(AL)と組み合わせて、NNの適合に必要なデータ量を最小化する。 これは、NNの予測の不確実性の高い地域で、より多くのデータを反復的にラベル付けすることで実現される。

In this paper, we introduce a novel combination of Bayesian Models (BMs) and Neural Networks (NNs) for making predictions with a minimum expected risk. Our approach combines the best of both worlds, the data efficiency and interpretability of a BM with the speed of a NN. For a BM, making predictions with the lowest expected loss requires integrating over the posterior distribution. In cases for which exact inference of the posterior predictive distribution is intractable, approximation methods are typically applied, e.g. Monte Carlo (MC) simulation. The more samples, the higher the accuracy -- but at the expense of increased computational cost. Our approach removes the need for iterative MC simulation on the CPU at prediction time. In brief, it works by fitting a NN to synthetic data generated using the BM. In a single feed-forward pass of the NN, it gives a set of point-wise approximations to the BM's posterior predictive distribution for a given observation. We achieve risk minimized predictions significantly faster than standard methods with a negligible loss on the testing dataset. We combine this approach with Active Learning (AL) to minimize the amount of data required for fitting the NN. This is done by iteratively labeling more data in regions with high predictive uncertainty of the NN.
翻訳日:2021-03-30 15:24:19 公開日:2021-03-29
# データ圧縮のためのベイズ注意ネットワーク

Bayesian Attention Networks for Data Compression ( http://arxiv.org/abs/2103.15319v1 )

ライセンス: Link先を確認
Michael Tetelman(参考訳) Bayesian Attention Networks に基づくロスレスデータ圧縮アルゴリズムは、第一原理から導かれる。 ベイジアン注意ネットワークは、トレーニングサンプルと予測サンプルの2つのサンプル入力の関数として、トレーニングサンプル損失当たりの注意因子を導入することで定義される。 鋭いジェンセンの不等式を用いて、2つのサンプル w.r.t の相関関数によって注意因子が完全に定義されることを示す。 モデルの重さです 注意因子により、予測サンプルの解は主に、予測サンプルと相関するいくつかのトレーニングサンプルによって定義される。 予測毎の特定のソリューションを見つける サンプルはトレーニングと予測を結合する。 提案手法を実用化するために,各予測サンプルを潜在空間にマッピングする潜時空間を導入し,潜在空間の関数としての学習と,潜時空間の関数としての学習注意とトレーニングサンプルとしてのすべての可能な解を学習する。 潜在空間は、コンテキストを定義する予測サンプルと、その予測に使用される学習されたコンテキスト依存ソリューションと、コンテキスト表現の役割を果たす。

The lossless data compression algorithm based on Bayesian Attention Networks is derived from first principles. Bayesian Attention Networks are defined by introducing an attention factor per a training sample loss as a function of two sample inputs, from training sample and prediction sample. By using a sharpened Jensen's inequality we show that the attention factor is completely defined by a correlation function of the two samples w.r.t. the model weights. Due to the attention factor the solution for a prediction sample is mostly defined by a few training samples that are correlated with the prediction sample. Finding a specific solution per prediction sample couples together the training and the prediction. To make the approach practical we introduce a latent space to map each prediction sample to a latent space and learn all possible solutions as a function of the latent space along with learning attention as a function of the latent space and a training sample. The latent space plays a role of the context representation with a prediction sample defining a context and a learned context dependent solution used for the prediction.
翻訳日:2021-03-30 15:23:33 公開日:2021-03-29
# 確率非線形多自由度力学系のための機械学習に基づくディジタルツイン

Machine learning based digital twin for stochastic nonlinear multi-degree of freedom dynamical system ( http://arxiv.org/abs/2103.15636v1 )

ライセンス: Link先を確認
Shailesh Garg and Ankush Gogoi and Souvik Chakraborty and Budhaditya Hazra(参考訳) デジタルツイン技術のポテンシャルは、特にインフラ、航空宇宙、自動車分野において、非常に大きい。 しかし、アプリケーション固有の詳細が欠如していることから、この技術の実践的な実装は期待できる速度には達していない。 本稿では,確率非線形多自由度(MDOF)動的システムのための新しいディジタルツインフレームワークを提案する。 本論文で提案されるアプローチは, 問題を戦略的に2つの時間スケールに分解する - (a) システムダイナミクスの高速な時間スケール, (b) システムの劣化の遅い時間スケール - に分解する。 提案するディジタルツインは,物理学に基づく名目モデル(低忠実度),ベイズフィルタアルゴリズムa(c)教師付き機械学習アルゴリズムa(d)将来の応答を予測するための高忠実度モデルである。 物理モデルとベイズフィルタを組み合わせた名目モデルを用いてパラメータ状態推定を行い、教師付き機械学習アルゴリズムを用いてパラメータの時間変化を学習する。 提案するフレームワークはベイズフィルタと機械学習アルゴリズムの任意の選択で使用できるが,提案手法ではkalmanフィルタとgaussianプロセスを用いる。 提案手法の性能を2つの例を用いて示す。 その結果,提案するデジタルツインフレームワークの適用可能性と性能が示唆された。

The potential of digital twin technology is immense, specifically in the infrastructure, aerospace, and automotive sector. However, practical implementation of this technology is not at an expected speed, specifically because of lack of application-specific details. In this paper, we propose a novel digital twin framework for stochastic nonlinear multi-degree of freedom (MDOF) dynamical systems. The approach proposed in this paper strategically decouples the problem into two time-scales -- (a) a fast time-scale governing the system dynamics and (b) a slow time-scale governing the degradation in the system. The proposed digital twin has four components - (a) a physics-based nominal model (low-fidelity), (b) a Bayesian filtering algorithm a (c) a supervised machine learning algorithm and (d) a high-fidelity model for predicting future responses. The physics-based nominal model combined with Bayesian filtering is used combined parameter state estimation and the supervised machine learning algorithm is used for learning the temporal evolution of the parameters. While the proposed framework can be used with any choice of Bayesian filtering and machine learning algorithm, we propose to use unscented Kalman filter and Gaussian process. Performance of the proposed approach is illustrated using two examples. Results obtained indicate the applicability and excellent performance of the proposed digital twin framework.
翻訳日:2021-03-30 15:23:18 公開日:2021-03-29
# Elsa: 半教師付き異常検出のためのエネルギーベース学習

Elsa: Energy-based learning for semi-supervised anomaly detection ( http://arxiv.org/abs/2103.15296v1 )

ライセンス: Link先を確認
Sungwon Han, Hyeonho Song, Seungeon Lee, Sungwon Park and Meeyoung Cha(参考訳) 異常検出は、通常のデータ分布から逸脱したインスタンスを特定することを目的としている。 この分野では、教師なしのコントラスト学習の革新的利用を含む多くの進歩がなされている。 しかし、既存の手法では、クリーンなトレーニングデータを前提としており、データが未知の異常を含む場合に制限される。 本稿では,エネルギーベースモデルの概念を教師なしコントラスト学習に統一した,新しい半教師付き異常検出手法であるelsaを提案する。 elsaは、通常のデータをプロトタイプのクラスに分割する新しいエネルギー関数に基づいて慎重に設計された微調整ステップによって、あらゆるデータ汚染に対する堅牢性を強調している。 複数の汚染シナリオの実験により、提案モデルがSOTA性能を達成することを示す。 広範な分析は、提案モデルにおける各コンポーネントの寄与も検証する。 実験以外にも,データ汚染下でのコントラスト学習のみが異常を検出できない理由を理論的に解釈する。

Anomaly detection aims at identifying deviant instances from the normal data distribution. Many advances have been made in the field, including the innovative use of unsupervised contrastive learning. However, existing methods generally assume clean training data and are limited when the data contain unknown anomalies. This paper presents Elsa, a novel semi-supervised anomaly detection approach that unifies the concept of energy-based models with unsupervised contrastive learning. Elsa instills robustness against any data contamination by a carefully designed fine-tuning step based on the new energy function that forces the normal data to be divided into classes of prototypes. Experiments on multiple contamination scenarios show the proposed model achieves SOTA performance. Extensive analyses also verify the contribution of each component in the proposed model. Beyond the experiments, we also offer a theoretical interpretation of why contrastive learning alone cannot detect anomalies under data contamination.
翻訳日:2021-03-30 15:21:48 公開日:2021-03-29
# FixNorm: ディープニューラルネットワークをトレーニングするための軽量化

FixNorm: Dissecting Weight Decay for Training Deep Neural Networks ( http://arxiv.org/abs/2103.15345v1 )

ライセンス: Link先を確認
Yucong Zhou, Yunxiao Sun, Zhao Zhong(参考訳) 重崩壊はディープニューラルネットワーク(DNN)のトレーニングに広く用いられているテクニックである。 一般化性能に大きな影響を与えるが、基礎となるメカニズムは完全には理解されていない。 近年の研究では, レイヤーの正規化に伴う重み劣化が, 有効学習率に大きく影響していることが示されている。 しかし、現在のDNNでは正規化が広く採用されているが、最終完全連結層のような層はこの前提条件を満たしていない。 これらの層では、重量減少の影響はまだ不明である。 本稿では, 重み崩壊のメカニズムを包括的に検討し, 有効学習率に影響を及ぼす以外は, 重み崩壊は, クロスバウンダリリスクの制御による一般化性能に影響を及ぼす, 等しく重要な別のメカニズムを持つことを見出した。 これら2つのメカニズムは、重量減衰の影響についてより包括的な説明を与える。 この発見に基づき, 重みの減衰を解消し, 2つの機構を直接制御するfixnormと呼ばれる新しい訓練法を提案する。 また、FixNormのハイパーパラメータを調整し、準最適解を数回の試行で発見できる簡易で効果的な方法を提案する。 ImageNet分類タスクでは、FixNormでEfficientNet-B0をトレーニングすると77.7%が達成され、元のベースラインをクリアマージンで上回る。 驚いたことに、MobileNetV2を同じFLOPSにスケーリングし、EfficientNet-B0で同じトリックを適用する場合、FixNormでのトレーニングは77.4%で、わずか0.3%以下である。 一連のSOTAの結果は、十分に調整されたトレーニング手順の重要性を示し、我々のアプローチの有効性をさらに検証する。 コミュニティでの公正な比較を容易にするために、FixNormを使ってよりよく調整されたベースラインを設定しました。

Weight decay is a widely used technique for training Deep Neural Networks(DNN). It greatly affects generalization performance but the underlying mechanisms are not fully understood. Recent works show that for layers followed by normalizations, weight decay mainly affects the effective learning rate. However, despite normalizations have been extensively adopted in modern DNNs, layers such as the final fully-connected layer do not satisfy this precondition. For these layers, the effects of weight decay are still unclear. In this paper, we comprehensively investigate the mechanisms of weight decay and find that except for influencing effective learning rate, weight decay has another distinct mechanism that is equally important: affecting generalization performance by controlling cross-boundary risk. These two mechanisms together give a more comprehensive explanation for the effects of weight decay. Based on this discovery, we propose a new training method called FixNorm, which discards weight decay and directly controls the two mechanisms. We also propose a simple yet effective method to tune hyperparameters of FixNorm, which can find near-optimal solutions in a few trials. On ImageNet classification task, training EfficientNet-B0 with FixNorm achieves 77.7%, which outperforms the original baseline by a clear margin. Surprisingly, when scaling MobileNetV2 to the same FLOPS and applying the same tricks with EfficientNet-B0, training with FixNorm achieves 77.4%, which is only 0.3% lower. A series of SOTA results show the importance of well-tuned training procedures, and further verify the effectiveness of our approach. We set up more well-tuned baselines using FixNorm, to facilitate fair comparisons in the community.
翻訳日:2021-03-30 15:21:38 公開日:2021-03-29
# 自己教師付き学習とレイトレーシングを用いた高反射率単眼顔面再建に向けて

Towards High Fidelity Monocular Face Reconstruction with Rich Reflectance using Self-supervised Learning and Ray Tracing ( http://arxiv.org/abs/2103.15432v1 )

ライセンス: Link先を確認
Abdallah Dib, Cedric Thebault, Junghyun Ahn, Philippe-Henri Gosselin, Christian Theobalt, Louis Chevallier(参考訳) 一般照明条件下での単眼像からのロバストな顔再構成は困難である。 ディープニューラルネットワークエンコーダと異なるレンダリングを組み合わせた手法が、幾何学、照明、反射の非常に高速な単分子再構成の道を開いた。 また、堅牢性を高め、より一般化するために、自己指導的な方法で訓練することもできる。 しかし、ラスタ化に基づく画像形成モデルは、背景となるシーンパラメータ化と同様に、ランベルト面の反射率や形状の細部に制限される。 より最近では、古典的な最適化ベースのフレームワークで単眼的な顔再建のためにレイトレーシングが導入され、最先端の成果が得られた。 しかし、最適化ベースのアプローチは本質的に遅く、堅牢性に欠ける。 本稿では,上記の手法を応用し,一般場面における復元品質とロバスト性を大幅に向上させる新しい手法を提案する。 我々は、CNNエンコーダと微分可能光トレーサを組み合わせることで、より高度なパーソナライズされた拡散とスペクトルアルベド、より洗練された照明モデル、そして自己陰影の表現をベースとした再構築を実現する。 これにより、照明が難しいシーンでも形状、外観、照明の復元品質が飛躍的に向上する。 顔属性を一貫した再構成を行うことで、リライティングや自己陰影除去などの実践的な応用につながる。 最新の手法と比較すると,提案手法の精度と妥当性が向上した。

Robust face reconstruction from monocular image in general lighting conditions is challenging. Methods combining deep neural network encoders with differentiable rendering have opened up the path for very fast monocular reconstruction of geometry, lighting and reflectance. They can also be trained in self-supervised manner for increased robustness and better generalization. However, their differentiable rasterization based image formation models, as well as underlying scene parameterization, limit them to Lambertian face reflectance and to poor shape details. More recently, ray tracing was introduced for monocular face reconstruction within a classic optimization-based framework and enables state-of-the art results. However optimization-based approaches are inherently slow and lack robustness. In this paper, we build our work on the aforementioned approaches and propose a new method that greatly improves reconstruction quality and robustness in general scenes. We achieve this by combining a CNN encoder with a differentiable ray tracer, which enables us to base the reconstruction on much more advanced personalized diffuse and specular albedos, a more sophisticated illumination model and a plausible representation of self-shadows. This enables to take a big leap forward in reconstruction quality of shape, appearance and lighting even in scenes with difficult illumination. With consistent face attributes reconstruction, our method leads to practical applications such as relighting and self-shadows removal. Compared to state-of-the-art methods, our results show improved accuracy and validity of the approach.
翻訳日:2021-03-30 15:21:10 公開日:2021-03-29
# clare: 先行クラス表現を記憶した実践的クラスインクリメンタル学習

ClaRe: Practical Class Incremental Learning By Remembering Previous Class Representations ( http://arxiv.org/abs/2103.15486v1 )

ライセンス: Link先を確認
Bahram Mohammadi and Mohammad Sabokrou(参考訳) 本稿では,CIL(Class Incremental Learning)タスクの壊滅的忘れを効果的に扱うための,実用的でシンプルかつ効率的な方法を提案する。 CILは新しい概念を完璧に学習する傾向があるが、古いデータのパフォーマンスと正確さを犠牲にしない。 以前のクラスからデータインスタンスがない場合や、古いクラスと新しいクラスのアンバランスなサンプルが存在しない場合、新しい知識を学ぶことで、CILは進行中の課題となる。 これらの問題は、以前のタスクに属する例証を保管したり、リハーサル戦略を利用して対処することができる。 生成モデルを用いたリハーサル戦略に触発されて,各インクリメントにおける学習クラスの表現を記憶することで,CILの効率的なソリューションであるClareを提案する。 このアプローチを採用すると、学習したクラスと同じ分布を持つインスタンスが生成される。 従って、新しいモデルと生成されたサンプルの両方を含む新しいトレーニングセットを使用して、どうにかスクラッチから再トレーニングされます。 その後、不均衡データ問題も解決される。 ClaReは、以前に学習したクラスの分布から多様なインスタンスを生成するため、従来の方法よりも優れた一般化がある。 我々はmnistベンチマークのクレアを包括的に評価する。 結果は、時間とともに新しい知識に直面することに対する精度が極めて低いことを示している。 さらに、最も提案されたソリューションとは対照的に、メモリ制限はもはや問題ではない。

This paper presents a practical and simple yet efficient method to effectively deal with the catastrophic forgetting for Class Incremental Learning (CIL) tasks. CIL tends to learn new concepts perfectly, but not at the expense of performance and accuracy for old data. Learning new knowledge in the absence of data instances from previous classes or even imbalance samples of both old and new classes makes CIL an ongoing challenging problem. These issues can be tackled by storing exemplars belonging to the previous tasks or by utilizing the rehearsal strategy. Inspired by the rehearsal strategy with the approach of using generative models, we propose ClaRe, an efficient solution for CIL by remembering the representations of learned classes in each increment. Taking this approach leads to generating instances with the same distribution of the learned classes. Hence, our model is somehow retrained from the scratch using a new training set including both new and the generated samples. Subsequently, the imbalance data problem is also solved. ClaRe has a better generalization than prior methods thanks to producing diverse instances from the distribution of previously learned classes. We comprehensively evaluate ClaRe on the MNIST benchmark. Results show a very low degradation on accuracy against facing new knowledge over time. Furthermore, contrary to the most proposed solutions, the memory limitation is not problematic any longer which is considered as a consequential issue in this research area.
翻訳日:2021-03-30 15:20:45 公開日:2021-03-29
# IA-GCN:病気予測のための解釈型注意に基づくグラフ畳み込みネットワーク

IA-GCN: Interpretable Attention based Graph Convolutional Network for Disease prediction ( http://arxiv.org/abs/2103.15587v1 )

ライセンス: Link先を確認
Anees Kazi, Soroush Farghadani, Nassir Navab(参考訳) グラフ畳み込みネットワーク(gcns)の解釈性はコンピュータビジョン全般においてある程度研究されてきたが、医学領域ではさらなる検討が必要である。 さらに、GCNの解釈可能性のアプローチの多くは、特に医療領域において、ポストホックな方法でモデルを解釈することに焦点を当てている。 本稿では,1)タスクに対する入力特徴の臨床的関連性を解釈し,2)モデル性能を改善するために説明を用いて,3)コホートの振る舞いを解釈するために用いられる集団レベルの潜在グラフを学習する,解釈可能なグラフ学習モデルを提案する。 臨床シナリオでは、そのようなモデルは、診断および治療計画のためのより良い意思決定において、臨床専門家を助けることができる。 主な特徴は解釈可能なアテンションモジュール(IAM)であり、マルチモーダル機能を直接運用している。 我々のIAMは、ユニークな解釈可能性固有の損失に基づいて、各特徴の注意を学習する。 tadpole と ukbb という2つの公開データセットで,疾患,年齢,性別予測の3つのタスクについて紹介する。 提案モデルは,タッドポールの平均精度が3.2%,ukbb性別が1.6%,ukbb年齢予測タスクが2%と,比較法において優れた性能を示す。 さらに,本研究の結果の徹底した検証と臨床解釈を示す。

Interpretability in Graph Convolutional Networks (GCNs) has been explored to some extent in computer vision in general, yet, in the medical domain, it requires further examination. Moreover, most of the interpretability approaches for GCNs, especially in the medical domain, focus on interpreting the model in a post hoc fashion. In this paper, we propose an interpretable graph learning-based model which 1) interprets the clinical relevance of the input features towards the task, 2) uses the explanation to improve the model performance and, 3) learns a population level latent graph that may be used to interpret the cohort's behavior. In a clinical scenario, such a model can assist the clinical experts in better decision-making for diagnosis and treatment planning. The main novelty lies in the interpretable attention module (IAM), which directly operates on multi-modal features. Our IAM learns the attention for each feature based on the unique interpretability-spe cific losses. We show the application on two publicly available datasets, Tadpole and UKBB, for three tasks of disease, age, and gender prediction. Our proposed model shows superior performance with respect to compared methods with an increase in an average accuracy of 3.2% for Tadpole, 1.6% for UKBB Gender, and 2% for the UKBB Age prediction task. Further, we show exhaustive validation and clinical interpretation of our results.
翻訳日:2021-03-30 15:20:10 公開日:2021-03-29
# setvae: 集合構造データの生成モデルのための階層構成の学習

SetVAE: Learning Hierarchical Composition for Generative Modeling of Set-Structured Data ( http://arxiv.org/abs/2103.15619v1 )

ライセンス: Link先を確認
Jinwoo Kim, Jaehoon Yoo, Juho Lee and Seunghoon Hong(参考訳) 点雲のような集合構造データの生成モデリングには、様々なスケールで局所的および大域的構造を推論する必要がある。 しかしながら、通常のシーケンシャルデータからセット構造データへのマルチスケールフレームワークの採用は、要素の置換に不変である必要があるため、非自明である。 本稿では,集合の階層的変分オートエンコーダであるSetVAEを提案する。 セットエンコーディングの最近の進歩に触発された私たちは、最初に集合を分割し、分割を元の濃度に投影する注意深いモジュールの上に SetVAE を構築します。 このモジュールをエクスプロイトすると、階層的VAEは複数のスケールで潜伏変数を学習し、置換不変性を達成しながら、集合要素の粗い依存を捉えます。 我々は,ポイントクラウド生成タスクのモデルを評価し,モデル容量が大幅に小さく,先行技術との競争性能を達成する。 定性的に、我々のモデルは集合のサイズが見えないように一般化し、監督なしで興味深い部分集合関係を学習する。 実装はhttps://github.com/j w9730/setvaeで利用可能です。

Generative modeling of set-structured data, such as point clouds, requires reasoning over local and global structures at various scales. However, adopting multi-scale frameworks for ordinary sequential data to a set-structured data is nontrivial as it should be invariant to the permutation of its elements. In this paper, we propose SetVAE, a hierarchical variational autoencoder for sets. Motivated by recent progress in set encoding, we build SetVAE upon attentive modules that first partition the set and project the partition back to the original cardinality. Exploiting this module, our hierarchical VAE learns latent variables at multiple scales, capturing coarse-to-fine dependency of the set elements while achieving permutation invariance. We evaluate our model on point cloud generation task and achieve competitive performance to the prior arts with substantially smaller model capacity. We qualitatively demonstrate that our model generalizes to unseen set sizes and learns interesting subset relations without supervision. Our implementation is available at https://github.com/j w9730/setvae.
翻訳日:2021-03-30 15:19:50 公開日:2021-03-29
# 正規ポリトープネットワーク

Regular Polytope Networks ( http://arxiv.org/abs/2103.15632v1 )

ライセンス: Link先を確認
Federico Pernici and Matteo Bruni and Claudio Baecchi and Alberto Del Bimbo(参考訳) ニューラルネットワークは、様々なタスクの分類のモデルとして広く使われている。 通常、学習可能な変換(すなわち)。 分類子)はそのようなモデルの最後に置かれ、分類に使われるクラスごとに値を返す。 この変換は、学習プロセス中に生成された特徴がどのように変化するかを決定する上で重要な役割を果たす。 この研究において、この変換は固定できるだけでなく(すなわち)修正できると主張する。 正確さの損失がなく、メモリ使用量の削減もないが、静的かつ最大に分離された埋め込みを学習するためにも使用できる。 固定分類器の重みを$\mathbb{R}^d$で利用可能な3つの正規ポリトープの座標頂点から得られる値、すなわち$d$-Simplex、$d$-Cube、$d$-Orthoplex に設定することで、埋め込みの定常性と最大分離表現を理論的に正当化できることを示す。 これらの正則ポリトープは最大対称性を持ち、対応する固定重みを中心に角ばった固定的な特徴を生成するのに利用できる。 我々のアプローチは、最近 \cite{hoffer2018fix} で提案された固定分類器の概念をより大きな固定分類器モデルに改良し、拡張する。 実験の結果, 理論解析, 一般化能力, 収束の高速化, 提案手法の性能向上が確認された。 コードは公開されます。

Neural networks are widely used as a model for classification in a large variety of tasks. Typically, a learnable transformation (i.e. the classifier) is placed at the end of such models returning a value for each class used for classification. This transformation plays an important role in determining how the generated features change during the learning process. In this work, we argue that this transformation not only can be fixed (i.e. set as non-trainable) with no loss of accuracy and with a reduction in memory usage, but it can also be used to learn stationary and maximally separated embeddings. We show that the stationarity of the embedding and its maximal separated representation can be theoretically justified by setting the weights of the fixed classifier to values taken from the coordinate vertices of the three regular polytopes available in $\mathbb{R}^d$, namely: the $d$-Simplex, the $d$-Cube and the $d$-Orthoplex. These regular polytopes have the maximal amount of symmetry that can be exploited to generate stationary features angularly centered around their corresponding fixed weights. Our approach improves and broadens the concept of a fixed classifier, recently proposed in \cite{hoffer2018fix}, to a larger class of fixed classifier models. Experimental results confirm the theoretical analysis, the generalization capability, the faster convergence and the improved performance of the proposed method. Code will be publicly available.
翻訳日:2021-03-30 15:19:34 公開日:2021-03-29
# von Mises-Fisher Loss: 教師付き学習のための埋め込みジオメトリの探索

von Mises--Fisher Loss: An Exploration of Embedding Geometries for Supervised Learning ( http://arxiv.org/abs/2103.15718v1 )

ライセンス: Link先を確認
Tyler R. Scott and Andrew C. Gallagher and Michael C. Mozer(参考訳) 近年の研究では、ソフトマックスクロスエントロピーを用いた分類損失は、固定集合の分類タスクだけでなく、オープンセットの学習や検索を含むオープンセットのタスクで特別に開発された損失よりも優れていると論じられている。 ソフトマックス分類器は、ユークリッド、双曲、球面といった異なる埋め込み幾何学を用いて研究され、一方の優越性について主張されているが、これらは注意深い制御と体系的に比較されていない。 各種固定集合分類および画像検索タスクにおけるソフトマックス損失の埋め込み幾何について,実験的検討を行った。 球面損失に対して観察された興味深い性質は,フォン・ミセス・フィッシャー分布に基づく確率的分類器を提案することにつながる。 損失間のトレードオフとそれらの選択方法に関するガイダンスを提供する。

Recent work has argued that classification losses utilizing softmax cross-entropy are superior not only for fixed-set classification tasks, but also by outperforming losses developed specifically for open-set tasks including few-shot learning and retrieval. Softmax classifiers have been studied using different embedding geometries -- Euclidean, hyperbolic, and spherical -- and claims have been made about the superiority of one or another, but they have not been systematically compared with careful controls. We conduct an empirical investigation of embedding geometry on softmax losses for a variety of fixed-set classification and image retrieval tasks. An interesting property observed for the spherical losses lead us to propose a probabilistic classifier based on the von Mises--Fisher distribution, and we show that it is competitive with state-of-the-art methods while producing improved out-of-the-box calibration. We provide guidance regarding the trade-offs between losses and how to choose among them.
翻訳日:2021-03-30 15:19:09 公開日:2021-03-29
# [再現性レポート]宝くじを引っ掛ける:全てのティケットが勝者になる

[Reproducibility Report] Rigging the Lottery: Making All Tickets Winners ( http://arxiv.org/abs/2103.15767v1 )

ライセンス: Link先を確認
Varun Sundar, Rajat Vadiraj Dwaraknath(参考訳) スパーストレーニングアルゴリズムである \textit{rigl} は、固定パラメータ数と計算予算のために、既存の疎密なトレーニング技術(pruningなど)のパフォーマンスと一致または上回るスパースネットワークを直接トレーニングすると主張している。 我々は Pytorch のスクラッチから \textit{RigL} を実装し,CIFAR-10 上での性能を 0.1 % 以内で再現する。 CIFAR-10/100では、中央のクレームが -- 固定トレーニング予算を前提として -- 既存の動的スパーストレーニングメソッドを対象範囲を越えて超越している。 より長いトレーニングによって、パフォーマンスは反復的なプルーニングと一致または超えることができ、トレーニングを通じて一定のFLOPを消費する。 また,各疎度,初期化ペアに対して \textit{RigL} のハイパーパラメータをチューニングするメリットはほとんどなく,ハイパーパラメータの参照選択は最適性能に近いことが多い。 元の論文を超えて、最適初期化スキームはトレーニング制約に依存することが判明した。 Erdos-Renyi-Kernel分布は固定パラメータ数に対してUniform分布より優れており、固定FLOP数では後者の方が優れている。 最後に、2つの初期化スキーム間の性能ギャップを補うことができるが、計算コストは増大する。

\textit{RigL}, a sparse training algorithm, claims to directly train sparse networks that match or exceed the performance of existing dense-to-sparse training techniques (such as pruning) for a fixed parameter count and compute budget. We implement \textit{RigL} from scratch in Pytorch and reproduce its performance on CIFAR-10 within 0.1\% of the reported value. On both CIFAR-10/100, the central claim holds -- given a fixed training budget, \textit{RigL} surpasses existing dynamic-sparse training methods over a range of target sparsities. By training longer, the performance can match or exceed iterative pruning, while consuming constant FLOPs throughout training. We also show that there is little benefit in tuning \textit{RigL}'s hyper-parameters for every sparsity, initialization pair--the reference choice of hyperparameters is often close to optimal performance. Going beyond the original paper, we find that the optimal initialization scheme depends on the training constraint. While the Erdos-Renyi-Kernel distribution outperforms the Uniform distribution for a fixed parameter count, for a fixed FLOP count, the latter performs better. Finally, redistributing layer-wise sparsity while training can bridge the performance gap between the two initialization schemes, but increases computational cost.
翻訳日:2021-03-30 15:18:53 公開日:2021-03-29
# 実世界領域一般化のための適応的手法

Adaptive Methods for Real-World Domain Generalization ( http://arxiv.org/abs/2103.15796v1 )

ライセンス: Link先を確認
Abhimanyu Dubey, Vignesh Ramanathan, Alex Pentland and Dhruv Mahajan(参考訳) 不変なアプローチは、訓練で使用されるものと異なるデータ分布の推論を行うことを目的として、領域一般化の問題に取り組むことに成功している。 本研究では,未確認テストサンプル自体から,ドメイン情報を活用できるかどうかを検討する。 a) 教師なしのトレーニング例から識別的ドメイン埋め込みを最初に学習し、b) このドメイン埋め込みを補足情報として使ってドメイン適応モデルを構築し、入力とドメインの両方を考慮した予測を行う。 unseenドメインの場合、このメソッドはドメイン埋め込みを構築するのに、ラベルのないテスト例をほんの少しだけ使うだけです。 これにより、任意の未知領域に対する適応的分類が可能になる。 提案手法は,各種領域一般化ベンチマークにおける最先端性能を実現する。 さらに,実世界初の大規模ドメイン一般化ベンチマークであるgeo-yfccを導入し,40以上のトレーニング,7つの検証,15のテストドメインの1.1mサンプルを含む。 既存のアプローチは、このデータセットにスケールしないか、あるいはすべてのトレーニングドメインからのデータの統一に関するモデルのトレーニングの単純なベースラインに比べてパフォーマンスが低いかを示す。 対照的に、私たちのアプローチは大きな改善を達成します。

Invariant approaches have been remarkably successful in tackling the problem of domain generalization, where the objective is to perform inference on data distributions different from those used in training. In our work, we investigate whether it is possible to leverage domain information from the unseen test samples themselves. We propose a domain-adaptive approach consisting of two steps: a) we first learn a discriminative domain embedding from unsupervised training examples, and b) use this domain embedding as supplementary information to build a domain-adaptive model, that takes both the input as well as its domain into account while making predictions. For unseen domains, our method simply uses few unlabelled test examples to construct the domain embedding. This enables adaptive classification on any unseen domain. Our approach achieves state-of-the-art performance on various domain generalization benchmarks. In addition, we introduce the first real-world, large-scale domain generalization benchmark, Geo-YFCC, containing 1.1M samples over 40 training, 7 validation, and 15 test domains, orders of magnitude larger than prior work. We show that the existing approaches either do not scale to this dataset or underperform compared to the simple baseline of training a model on the union of data from all training domains. In contrast, our approach achieves a significant improvement.
翻訳日:2021-03-30 15:18:28 公開日:2021-03-29
# Pixel Transformer: サンプル条件信号生成

PixelTransformer: Sample Conditioned Signal Generation ( http://arxiv.org/abs/2103.15813v1 )

ライセンス: Link先を確認
Shubham Tulsiani, Abhinav Gupta(参考訳) 本稿では,スパースサンプルを条件とした空間信号の分布を推定する生成モデルを提案する。 観測された数ピクセルの 可視画像です 逐次自己回帰生成モデルとは対照的に,任意のサンプルに対する条件付けが可能であり,任意の場所に対する分散クエリに答えることができる。 我々は3つの画像データセットにまたがるアプローチを実証的に検証し、より観察されたピクセルの分布の分散を減らし、多様で有意義なサンプルを生成することを学ぶことを示す。 また,本手法は画像以外にも適用可能であり,他の空間出力を生成できることを示す。 多項式、3D形状、ビデオ。

We propose a generative model that can infer a distribution for the underlying spatial signal conditioned on sparse samples e.g. plausible images given a few observed pixels. In contrast to sequential autoregressive generative models, our model allows conditioning on arbitrary samples and can answer distributional queries for any location. We empirically validate our approach across three image datasets and show that we learn to generate diverse and meaningful samples, with the distribution variance reducing given more observed pixels. We also show that our approach is applicable beyond images and can allow generating other types of spatial outputs e.g. polynomials, 3D shapes, and videos.
翻訳日:2021-03-30 15:18:09 公開日:2021-03-29
# GSACNetによる文脈的シーン拡張と合成

Contextual Scene Augmentation and Synthesis via GSACNet ( http://arxiv.org/abs/2103.15369v1 )

ライセンス: Link先を確認
Mohammad Keshavarzi, Flaviano Christian Reyes, Ritika Shrivastava, Oladapo Afolabi, Luisa Caldas, Allen Y. Yang(参考訳) 屋内シーンの強化は、拡張現実やバーチャルリアリティーの応用でコンピュータビジョンとグラフィックの分野で新たな話題となっている。 しかし、ディープニューラルネットワークを使用する現在の最先端システムは、トレーニングのために大きなデータセットを必要とする。 本稿では,限定的なシーン事前のトレーニングが可能なコンテキスト拡張システムであるGSACNetを紹介する。 gsacnetはグラフアテンションとシャムネットワークアーキテクチャを組み合わせた新しいパラメトリックデータ拡張法とオートエンコーダネットワークを使用して、小さなデータセットでのトレーニングを容易にする。 本稿では,Matterport3Dデータセットのアブレーションと代替システムとの比較により,提案システムの有効性を示す。 以上の結果から,シーン拡張はシーン合成において先行技術より優れており,シーン先行は限定的であることが示唆された。

Indoor scene augmentation has become an emerging topic in the field of computer vision and graphics with applications in augmented and virtual reality. However, current state-of-the-art systems using deep neural networks require large datasets for training. In this paper we introduce GSACNet, a contextual scene augmentation system that can be trained with limited scene priors. GSACNet utilizes a novel parametric data augmentation method combined with a Graph Attention and Siamese network architecture followed by an Autoencoder network to facilitate training with small datasets. We show the effectiveness of our proposed system by conducting ablation and comparative studies with alternative systems on the Matterport3D dataset. Our results indicate that our scene augmentation outperforms prior art in scene synthesis with limited scene priors available.
翻訳日:2021-03-30 15:17:58 公開日:2021-03-29
# 残ガウスに基づく自己注意を用いたトランスフォーマーに基づくエンドツーエンド音声認識

Transformer-based end-to-end speech recognition with residual Gaussian-based self-attention ( http://arxiv.org/abs/2103.15722v1 )

ライセンス: Link先を確認
Chengdong Liang, Menglong Xu, Xiao-Lei Zhang(参考訳) 一対の類似性に応じてベクトル列を符号化する自己注意(SA)は、強い文脈モデリング能力のために音声認識において広く用いられている。 しかし、長いシーケンスデータに適用すると精度が低下する。 これは、重み付け平均演算子が注意分布の分散につながる可能性があり、それによって隣接する信号間の関係が無視されるという事実によって引き起こされる。 本稿では,相対配置認識自己注意(RPSA)について述べる。 自己注意のグローバルレンジ依存性モデリング能力を維持するだけでなく、局所性モデリング能力も向上する。 元のRPSAのローカルウィンドウ長は、異なるテストデータに対して固定され敏感であるため、ウィンドウ長が学習可能で、テストデータに自動的に適応するガウスベースの自己アテンション(GSA)を提案する。 さらに,GSAを新たな残留ガウス自己注意(resGSA)に一般化し,性能改善を図る。 rpsa, gsa, resgsaをそれぞれ変圧器に基づく音声認識に適用する。 aishell-1 mandarin音声認識コーパスの実験結果は,提案手法の有効性を示す。 例えば、resGSA-Transformerはテストセット上で5.86%の文字誤り率(CER)を達成する。 提案したresGSA-Transformerの性能はRPSA-Transformerよりもわずかに優れているが、手動でウィンドウ長を調整する必要はない。

Self-attention (SA), which encodes vector sequences according to their pairwise similarity, is widely used in speech recognition due to its strong context modeling ability. However, when applied to long sequence data, its accuracy is reduced. This is caused by the fact that its weighted average operator may lead to the dispersion of the attention distribution, which results in the relationship between adjacent signals ignored. To address this issue, in this paper, we introduce relative-position-aw areness self-attention (RPSA). It not only maintains the global-range dependency modeling ability of self-attention, but also improves the localness modeling ability. Because the local window length of the original RPSA is fixed and sensitive to different test data, here we propose Gaussian-based self-attention (GSA) whose window length is learnable and adaptive to the test data automatically. We further generalize GSA to a new residual Gaussian self-attention (resGSA) for the performance improvement. We apply RPSA, GSA, and resGSA to Transformer-based speech recognition respectively. Experimental results on the AISHELL-1 Mandarin speech recognition corpus demonstrate the effectiveness of the proposed methods. For example, the resGSA-Transformer achieves a character error rate (CER) of 5.86% on the test set, which is relative 7.8% lower than that of the SA-Transformer. Although the performance of the proposed resGSA-Transformer is only slightly better than that of the RPSA-Transformer, it does not have to tune the window length manually.
翻訳日:2021-03-30 15:17:48 公開日:2021-03-29
# ニューラルネットワークによる制御性能評価による拡張状態オブザーバのチューニング

Tuning of extended state observer with neural network-based control performance assessment ( http://arxiv.org/abs/2103.15516v1 )

ライセンス: Link先を確認
Krzysztof {\L}akomy, Piotr Kicki, Ki Myung Brian Lee(参考訳) 拡張状態オブザーバ(ESO)は、堅牢なオブザーバベースの制御システムの固有の要素であり、システムダイナミクスに対する障害の影響を推定することができる。 ESOパラメータの適切なチューニングは、推定量の良好な品質を確保し、ロバストな制御構造全体の性能に影響を与えるために必要である。 本稿では,ユーザが選択した品質基準,例えば制御と観測誤差と制御信号の特定特徴とを優先順位付けできるニューラルネットワーク(nn)ベースのチューニング手法を提案する。 設計されたNNは、制御システムの性能を正確に評価し、ユーザ定義のコスト関数にほぼ最適なソリューションを提供するESOパラメータのセットを返す。 提案手法は, 1つの閉ループ実験から推定した状態を用いて, ほぼ最適ESOゲインを数秒以内に生成する。

The extended state observer (ESO) is an inherent element of robust observer-based control systems that allows estimating the impact of disturbance on system dynamics. Proper tuning of ESO parameters is necessary to ensure a good quality of estimated quantities and impacts the overall performance of the robust control structure. In this paper, we propose a neural network (NN) based tuning procedure that allows the user to prioritize between selected quality criteria such as the control and observation errors and the specified features of the control signal. The designed NN provides an accurate assessment of the control system performance and returns a set of ESO parameters that delivers a near-optimal solution to the user-defined cost function. The proposed tuning procedure, using an estimated state from the single closed-loop experiment produces near-optimal ESO gains within seconds.
翻訳日:2021-03-30 15:16:46 公開日:2021-03-29
# サブクアドラティックステップにおける非スムート経験的リスク最小化と確率凸最適化

Private Non-smooth Empirical Risk Minimization and Stochastic Convex Optimization in Subquadratic Steps ( http://arxiv.org/abs/2103.15352v1 )

ライセンス: Link先を確認
Janardhan Kulkarni, Yin Tat Lee, Daogao Liu(参考訳) 非スムース凸関数に対する微分プライベートな経験的リスク最小化 (erm) と確率的凸最適化 (sco) の問題について検討した。 我々は、過剰な経験的リスクと過剰な人口減少に(ほぼ)最適の限界を得る。 より正確には、我々の微分プライベートアルゴリズムは、最適な過剰な経験的リスクに対して$O(\frac{N^{3/2}}{d^{1/8}}+ \frac{N^2}{d})$勾配クエリを必要とする。 これは、$d$ が超定数であるとき、非スムースの場合に対する最初のサブクアドラティックアルゴリズムである。 直接の用途として、feldmanらによる反復的局在化アプローチを用いる。 fkt20} では、確率的凸最適化問題に対する最適余剰人口損失を、$o(\min\{n^{5/4}d^{1/8},\frac{n^{3/2}}{d^{1/8}}\})$勾配クエリで達成する。 私たちの仕事は、Bassilyらによって提起された問題の解決に向けて前進します。 a bfgt20} — プライベートEMMとSCOのための最初のアルゴリズムを、サブクアッドラティックステップで提供する。 asiとalは独立している。 \cite{afkt21} は私的なERMとSCOのための他のアルゴリズムを準4次ステップで提供した。

We study the differentially private Empirical Risk Minimization (ERM) and Stochastic Convex Optimization (SCO) problems for non-smooth convex functions. We get a (nearly) optimal bound on the excess empirical risk and excess population loss with subquadratic gradient complexity. More precisely, our differentially private algorithm requires $O(\frac{N^{3/2}}{d^{1/8}}+ \frac{N^2}{d})$ gradient queries for optimal excess empirical risk, which is achieved with the help of subsampling and smoothing the function via convolution. This is the first subquadratic algorithm for the non-smooth case when $d$ is super constant. As a direct application, using the iterative localization approach of Feldman et al. \cite{fkt20}, we achieve the optimal excess population loss for stochastic convex optimization problem, with $O(\min\{N^{5/4}d^{1/8},\frac{ N^{3/2}}{d^{1/8}}\})$ gradient queries. Our work makes progress towards resolving a question raised by Bassily et al. \cite{bfgt20}, giving first algorithms for private ERM and SCO with subquadratic steps. We note that independently Asi et al. \cite{afkt21} gave other algorithms for private ERM and SCO with subquadratic steps.
翻訳日:2021-03-30 15:16:08 公開日:2021-03-29
# 競合する適応ネットワーク

Competing Adaptive Networks ( http://arxiv.org/abs/2103.15664v1 )

ライセンス: Link先を確認
Stefan Vlaski and Ali H. Sayed(参考訳) 適応型ネットワークは、近隣の局所的な相互作用にのみ依存することで、大域的確率最適化問題の解を追求する能力を持つ。 反復的相互作用による情報の拡散は、中心的な調整を必要とせず、グローバルに最適な行動を可能にする。 既存の戦略の多くは、ネットワークの目的がすべてのエージェントに共通である協調学習設定のために開発されている。 この作業では、エージェントのサブセットが共通の目標を持ったチームを形成し、残りのネットワークと競合する、チーム設定が検討されます。 適応エージェントのチーム間での分散的競争のためのアルゴリズムを開発し、そのダイナミクスを分析し、生成的対向ニューラルネットワークの分散トレーニングに応用する。

Adaptive networks have the capability to pursue solutions of global stochastic optimization problems by relying only on local interactions within neighborhoods. The diffusion of information through repeated interactions allows for globally optimal behavior, without the need for central coordination. Most existing strategies are developed for cooperative learning settings, where the objective of the network is common to all agents. We consider in this work a team setting, where a subset of the agents form a team with a common goal while competing with the remainder of the network. We develop an algorithm for decentralized competition among teams of adaptive agents, analyze its dynamics and present an application in the decentralized training of generative adversarial neural networks.
翻訳日:2021-03-30 15:15:40 公開日:2021-03-29
# プロキシ合成:Deep Metric Learningのための合成クラスによる学習

Proxy Synthesis: Learning with Synthetic Classes for Deep Metric Learning ( http://arxiv.org/abs/2103.15454v1 )

ライセンス: Link先を確認
Geonmo Gu, Byungsoo Ko, Han-Gyu Kim(参考訳) 深層メトリック学習の主な目的の1つは、見られている(訓練)クラスと見当たらない(テスト)クラスの両方に十分に一般化された埋め込みを持つ埋め込み空間を構築することである。 既存の研究の多くは、異なる種類の測定目標と、与えられたトレーニングデータによるハードサンプルマイニング戦略を用いてこれを達成しようと試みている。 しかし、トレーニングデータのみによる学習は、見知らぬクラスに過度に適合し、見つからないクラスに対する一般化能力の欠如につながる。 この問題に対処するため、深層学習におけるより強力な一般化のために合成クラスを利用する、Proxy Synthesisと呼ばれる単純な正規化器を提案する。 提案手法は合成クラスとして動作する合成埋め込みとプロキシを生成し,プロキシベースの損失を計算する際に未知のクラスを模倣する。 プロキシ合成は、クラス関係と滑らかな決定境界を考慮した埋め込み空間を導出する。 本手法はsoftmaxとその変種を含む任意のプロキシベース損失に適用可能である。 画像検索タスクにおける4つの有名なベンチマーク実験により、プロキシベースの損失が大幅に増加し、最先端のパフォーマンスが達成されることを示した。

One of the main purposes of deep metric learning is to construct an embedding space that has well-generalized embeddings on both seen (training) classes and unseen (test) classes. Most existing works have tried to achieve this using different types of metric objectives and hard sample mining strategies with given training data. However, learning with only the training data can be overfitted to the seen classes, leading to the lack of generalization capability on unseen classes. To address this problem, we propose a simple regularizer called Proxy Synthesis that exploits synthetic classes for stronger generalization in deep metric learning. The proposed method generates synthetic embeddings and proxies that work as synthetic classes, and they mimic unseen classes when computing proxy-based losses. Proxy Synthesis derives an embedding space considering class relations and smooth decision boundaries for robustness on unseen classes. Our method is applicable to any proxy-based losses, including softmax and its variants. Extensive experiments on four famous benchmarks in image retrieval tasks demonstrate that Proxy Synthesis significantly boosts the performance of proxy-based losses and achieves state-of-the-art performance.
翻訳日:2021-03-30 15:14:02 公開日:2021-03-29
# 現実的な光音響画像合成のためのデータ駆動型組織ジオメトリ生成

Data-driven generation of plausible tissue geometries for realistic photoacoustic image synthesis ( http://arxiv.org/abs/2103.15510v1 )

ライセンス: Link先を確認
Melanie Schellenberg, Janek Gr\"ohl, Kris Dreher, Niklas Holzwarth, Minu D. Tizabi, Alexander Seitel, Lena Maier-Hein(参考訳) 光音響トモグラフィ(PAT)は、高空間分解能の血液酸素化や介入条件下での形態学的および機能的組織特性を回復する可能性がある。 しかし、スペクトル測定から臨床関連組織特性を回復する逆問題の解決に何十年にもわたって投資されてきた研究は、臨床環境で組織パラメータを堅牢に定量化できるソリューションを作らなかった。 機械学習によるモデルベースアプローチの限界に対処する以前の試みは、教師付きアルゴリズムトレーニングに必要なラベル付き参照データがないために妨げられていた。 このボトルネックはトレーニングデータをシミュレートすることで解決されているが、実画像とシミュレーション画像のドメイン間ギャップは、いまだに解決されていない課題である。 このボトルネックに対処する第一歩として、我々は「シミュレーションの学習」と呼ぶPATデータシミュレーションの新しいアプローチを提案する。 提案手法は,(1)意味的セグメンテーションマップで表される現実的な組織形態の確率的生成と,(2)対応する光学的および音響的特性のピクセルワイドな割り当ての2つの相補的問題に分割する。 本研究では,第1の課題に焦点をあてる。 具体的には,GAN(Generative Adversarial Networks)の概念を,意味的に注釈付けされた医用画像データに基づいて学習し,可塑性組織ジオメトリを生成する。 この手法は現実的なPAT画像合成に適しており、深層学習に基づく定量的PATの基本的なステップとなる可能性がある。

Photoacoustic tomography (PAT) has the potential to recover morphological and functional tissue properties such as blood oxygenation with high spatial resolution and in an interventional setting. However, decades of research invested in solving the inverse problem of recovering clinically relevant tissue properties from spectral measurements have failed to produce solutions that can quantify tissue parameters robustly in a clinical setting. Previous attempts to address the limitations of model-based approaches with machine learning were hampered by the absence of labeled reference data needed for supervised algorithm training. While this bottleneck has been tackled by simulating training data, the domain gap between real and simulated images remains a huge unsolved challenge. As a first step to address this bottleneck, we propose a novel approach to PAT data simulation, which we refer to as "learning to simulate". Our approach involves subdividing the challenge of generating plausible simulations into two disjoint problems: (1) Probabilistic generation of realistic tissue morphology, represented by semantic segmentation maps and (2) pixel-wise assignment of corresponding optical and acoustic properties. In the present work, we focus on the first challenge. Specifically, we leverage the concept of Generative Adversarial Networks (GANs) trained on semantically annotated medical imaging data to generate plausible tissue geometries. According to an initial in silico feasibility study our approach is well-suited for contributing to realistic PAT image synthesis and could thus become a fundamental step for deep learning-based quantitative PAT.
翻訳日:2021-03-30 15:13:43 公開日:2021-03-29
# 実世界画像からのテクスチャ3次元メッシュの学習生成モデル

Learning Generative Models of Textured 3D Meshes from Real-World Images ( http://arxiv.org/abs/2103.15627v1 )

ライセンス: Link先を確認
Dario Pavllo, Jonas Kohler, Thomas Hofmann, Aurelien Lucchi(参考訳) 画像コレクションからテクスチャ化された3Dメッシュの生成モデルを学ぶことに興味を喚起した。 これらのモデルはポーズと外観を分離し、コンピュータグラフィックスにおける下流アプリケーションを可能にし、画像形成の概念を理解するための生成モデルの能力を向上させる。 このようなモデルを2D画像のコレクションから学習する作業は以前からあったが、これらのアプローチには注釈付きキーポイントを利用する微妙なポーズ推定ステップが必要であり、それによっていくつかの特定のデータセットに適用性を制限することができる。 本稿では,このようなアノテーションを使わずにテクスチャ付きトライアングルメッシュを生成するganフレームワークを提案する。 より重要なのは、ImageNetからより大きなカテゴリのセットに新たなベースラインを設定することで、クラス固有のハイパーパラメータチューニングなしでキーポイントが利用できないようにすることで、メソッドの汎用性を実証することです。

Recent advances in differentiable rendering have sparked an interest in learning generative models of textured 3D meshes from image collections. These models natively disentangle pose and appearance, enable downstream applications in computer graphics, and improve the ability of generative models to understand the concept of image formation. Although there has been prior work on learning such models from collections of 2D images, these approaches require a delicate pose estimation step that exploits annotated keypoints, thereby restricting their applicability to a few specific datasets. In this work, we propose a GAN framework for generating textured triangle meshes without relying on such annotations. We show that the performance of our approach is on par with prior work that relies on ground-truth keypoints, and more importantly, we demonstrate the generality of our method by setting new baselines on a larger set of categories from ImageNet - for which keypoints are not available - without any class-specific hyperparameter tuning.
翻訳日:2021-03-30 15:13:14 公開日:2021-03-29
# よりきめ細かいアスペクト強調三重項抽出タスク

A More Fine-Grained Aspect-Sentiment-Opi nion Triplet Extraction Task ( http://arxiv.org/abs/2103.15255v1 )

ライセンス: Link先を確認
Fang Wang, Yuncong Li, Wenjun Zhang, Sheng-hua Zhong(参考訳) Aspect Sentiment Triplet extract (ASTE)は、アスペクト項、感情項、意見項を文から抽出し、アスペクトベースの感情分析(ABSA)のための完全なソリューションを提供することを目的としている。 しかし、ASTEが抽出した三重項の感情は、アスペクト項と意見項ペアの感情ではなく、アスペクト項に向かって表現する感情であるので、ASTEによって抽出された三重項の感情は混乱している。 本稿では,よりきめ細かいAspect-Sentiment-Opi nion Triplet extract (ASOTE)タスクを紹介する。 ASOTEはアスペクト項、感情項、意見項の三つ子も抽出する。 しかし、ASOTEが抽出した三重項の感情は、アスペクト項と意見項ペアの感情である。 いくつかの人気のあるABSAベンチマークに基づいて、ASOTE用の4つのデータセットを構築します。 ASOTEの2つの方法を提案する。 第1の方法はアスペクト項の意見項を抽出し、アスペクト項と意見項ペアの感情を統一タグスキーマと共に予測する。 第2の方法は、ASTEデータセットに基づいてトレーニングされる複数のインスタンス学習に基づいており、ASOTEタスクの実行も可能である。 4つのデータセットの実験結果から,本手法の有効性が示された。

Aspect Sentiment Triplet Extraction (ASTE) aims to extract aspect term, sentiment and opinion term triplets from sentences and tries to provide a complete solution for aspect-based sentiment analysis (ABSA). However, some triplets extracted by ASTE are confusing, since the sentiment in a triplet extracted by ASTE is the sentiment that the sentence expresses toward the aspect term rather than the sentiment of the aspect term and opinion term pair. In this paper, we introduce a more fine-grained Aspect-Sentiment-Opi nion Triplet Extraction (ASOTE) Task. ASOTE also extracts aspect term, sentiment and opinion term triplets. However, the sentiment in a triplet extracted by ASOTE is the sentiment of the aspect term and opinion term pair. We build four datasets for ASOTE based on several popular ABSA benchmarks. We propose two methods for ASOTE. The first method extracts the opinion terms of an aspect term and predicts the sentiments of the aspect term and opinion term pairs jointly with a unified tag schema. The second method is based on multiple instance learning, which is trained on ASTE datasets, but can also perform the ASOTE task. Experimental results on the four datasets demonstrate the effectiveness of our methods.
翻訳日:2021-03-30 15:12:42 公開日:2021-03-29
# centrality meets centroid:教師なし文書要約のためのグラフベースのアプローチ

Centrality Meets Centroid: A Graph-based Approach for Unsupervised Document Summarization ( http://arxiv.org/abs/2103.15327v1 )

ライセンス: Link先を確認
Haopeng Zhang and Jiawei Zhang(参考訳) 教師なしのドキュメント要約は、その単純さとデータの独立性により、近年、多くの注目を集めている。 本稿では,抽出文書要約のためのグラフベース非教師なし手法を提案する。 文章をサリエンスでランク付けし,文章をひとつずつ抽出する代わりに,グラフ集中度とセントロイドを利用して要約レベルで動作する。 まず,要約候補を文グラフから中心性に基づいてサブグラフとして抽出し,その要約候補からセンタロイドにマッチングして選択する。 ベンチマークされた2つの要約データセットについて広範な実験を行い,本モデルの有効性を最先端ベースラインと比較した。

Unsupervised document summarization has re-acquired lots of attention in recent years thanks to its simplicity and data independence. In this paper, we propose a graph-based unsupervised approach for extractive document summarization. Instead of ranking sentences by salience and extracting sentences one by one, our approach works at a summary-level by utilizing graph centrality and centroid. We first extract summary candidates as subgraphs based on centrality from the sentence graph and then select from the summary candidates by matching to the centroid. We perform extensive experiments on two bench-marked summarization datasets, and the results demonstrate the effectiveness of our model compared to state-of-the-art baselines.
翻訳日:2021-03-30 15:12:24 公開日:2021-03-29
# マルチハイブリッドCTCに基づくエンドツーエンド音声認識の半教師付き適応

Multiple-hypothesis CTC-based semi-supervised adaptation of end-to-end speech recognition ( http://arxiv.org/abs/2103.15515v1 )

ライセンス: Link先を確認
Cong-Thanh Do, Rama Doddipatla, Thomas Hain(参考訳) 本稿では,エンドツーエンド音声認識のための適応手法を提案する。 本手法では、接続子時相分類(ctc)損失関数の計算に、複数の自動音声認識(asr)1-best仮説を統合する。 複数のASR仮説の統合は、ASR仮説を用いた場合のCTC損失の計算に対するASR仮説におけるエラーの影響を軽減するのに役立つ。 適応データの一部にラベルがない半教師付き適応シナリオに適用した場合、ラベルなし適応データを復号して得られたASR 1-best仮説から提案手法のCTC損失を算出する。 CTCベースのエンドツーエンドASRシステムをウォールストリートジャーナル(WSJ)のクリーントレーニングデータとCHiME-4のマルチコンディショントレーニングデータでトレーニングし、オーロラ4のテストデータでテストする、クリーンおよびマルチコンディショントレーニングシナリオで実験を行う。 提案手法は, バックプロパゲーション微調整を用いた手書き入力データの一部に適応したベースラインシステムと比較して, クリーンおよびマルチコンディショントレーニングシナリオにおける単語誤り率(WER)の6.6%と5.8%を減少させる。

This paper proposes an adaptation method for end-to-end speech recognition. In this method, multiple automatic speech recognition (ASR) 1-best hypotheses are integrated in the computation of the connectionist temporal classification (CTC) loss function. The integration of multiple ASR hypotheses helps alleviating the impact of errors in the ASR hypotheses to the computation of the CTC loss when ASR hypotheses are used. When being applied in semi-supervised adaptation scenarios where part of the adaptation data do not have labels, the CTC loss of the proposed method is computed from different ASR 1-best hypotheses obtained by decoding the unlabeled adaptation data. Experiments are performed in clean and multi-condition training scenarios where the CTC-based end-to-end ASR systems are trained on Wall Street Journal (WSJ) clean training data and CHiME-4 multi-condition training data, respectively, and tested on Aurora-4 test data. The proposed adaptation method yields 6.6% and 5.8% relative word error rate (WER) reductions in clean and multi-condition training scenarios, respectively, compared to a baseline system which is adapted with part of the adaptation data having manual transcriptions using back-propagation fine-tuning.
翻訳日:2021-03-30 15:12:14 公開日:2021-03-29
# 弱みのAI」は決して「強みのAI」にはなり得ない。そこで、私たちにとって最も大きな価値は何だろうか?

"Weak AI" is Likely to Never Become "Strong AI", So What is its Greatest Value for us? ( http://arxiv.org/abs/2103.15294v1 )

ライセンス: Link先を確認
Bin Liu(参考訳) AIは、画像分類、ゲーム(go、"Starcraft"、ポーカーなど)、タンパク質構造予測など、さまざまなタスクで人間を追い越している。 しかし同時に、AIも深刻な論争を抱えている。 多くの研究者は、AIの進歩はここ数十年でほとんど行われていないと主張している。 本稿では,(1)AIに関する論争がなぜ存在するのか,(2)"弱AI"と"強AI"(a.k.a.a.)と呼ばれる2つのAI研究パラダイムを識別する。 (3)研究成果をどのパラダイムに分類すべきかを判断する方法を明確にし,(4)「強いAI」に発展する機会がなければ,「弱いAI」の最大の価値を論じる。

AI has surpassed humans across a variety of tasks such as image classification, playing games (e.g., go, "Starcraft" and poker), and protein structure prediction. However, at the same time, AI is also bearing serious controversies. Many researchers argue that little substantial progress has been made for AI in recent decades. In this paper, the author (1) explains why controversies about AI exist; (2) discriminates two paradigms of AI research, termed "weak AI" and "strong AI" (a.k.a. artificial general intelligence); (3) clarifies how to judge which paradigm a research work should be classified into; (4) discusses what is the greatest value of "weak AI" if it has no chance to develop into "strong AI".
翻訳日:2021-03-30 15:11:11 公開日:2021-03-29
# エンティティアライメント10*の高速化 : 正規化ハードサンプルマイニングによる2重アライメントマッチングネットワーク

Boosting the Speed of Entity Alignment 10*: Dual Attention Matching Network with Normalized Hard Sample Mining ( http://arxiv.org/abs/2103.15452v1 )

ライセンス: Link先を確認
Xin Mao, Wenting Wang, Yuanbin Wu, Man Lan(参考訳) 多元ナレッジグラフ(kgs)間の等価なエンティティを求めることは、kgs 統合の重要なステップであり、これは \emph{entity alignment} (ea) としても知られている。 しかし、既存のEAメソッドのほとんどは非効率でスケーラビリティに乏しい。 最近の要約では、20万のノード(dwy100k)を含むデータセットを扱うのに数日を要するものもある。 オーバーコンプレックスグラフエンコーダと非効率な負サンプリング戦略が2つの主な理由であると考えている。 本稿では,グラフ内情報とクロスグラフ情報の両方を賢くモデル化するだけでなく,計算量を大幅に削減する新しいkgエンコーダであるdual-amnを提案する。 さらに, 損失シフトを低減した正負の試料を円滑に選択する正規化ハードサンプルマイニング損失を提案する。 広く利用されている公開データセットの実験結果から,本手法は高精度かつ高効率であることがわかった。 dwy100kでは、すべての実行プロセスは1100秒で完了でき、少なくとも以前の作業よりも10倍高速です。 また,Hits@1とMRRは6%から13%に改善されている。

Seeking the equivalent entities among multi-source Knowledge Graphs (KGs) is the pivotal step to KGs integration, also known as \emph{entity alignment} (EA). However, most existing EA methods are inefficient and poor in scalability. A recent summary points out that some of them even require several days to deal with a dataset containing 200,000 nodes (DWY100K). We believe over-complex graph encoder and inefficient negative sampling strategy are the two main reasons. In this paper, we propose a novel KG encoder -- Dual Attention Matching Network (Dual-AMN), which not only models both intra-graph and cross-graph information smartly, but also greatly reduces computational complexity. Furthermore, we propose the Normalized Hard Sample Mining Loss to smoothly select hard negative samples with reduced loss shift. The experimental results on widely used public datasets indicate that our method achieves both high accuracy and high efficiency. On DWY100K, the whole running process of our method could be finished in 1,100 seconds, at least 10* faster than previous work. The performances of our method also outperform previous works across all datasets, where Hits@1 and MRR have been improved from 6% to 13%.
翻訳日:2021-03-30 15:10:56 公開日:2021-03-29
# 可変チューニングによる敵攻撃の伝達性向上

Enhancing the Transferability of Adversarial Attacks through Variance Tuning ( http://arxiv.org/abs/2103.15571v1 )

ライセンス: Link先を確認
Xiaosen Wang, Kun He(参考訳) 深層ニューラルネットワークは、知覚できない摂動でモデルを誤解させる敵の例に弱い。 敵の攻撃はホワイトボックス設定で驚くほど成功したが、既存の敵の多くはブラックボックス設定において、特に防御機構を持つモデル攻撃のシナリオにおいて、移動性が弱い。 本研究では,反復勾配に基づく攻撃手法のクラスを強化し,攻撃伝達性を向上させるための分散調整法を提案する。 具体的には、勾配計算の各イテレーションにおいて、運動量蓄積に電流勾配を直接使用する代わりに、更新方向を安定させ、局所最適値の低さから逃れるために、前回のイテレーションの勾配ばらつきをチューニングするためにも考慮する。 標準画像Netデータセットにおける実験結果から,勾配に基づく敵攻撃の転送性を大幅に向上できることが示された。 また,本手法はアンサンブルモデルを攻撃したり,様々な入力変換と統合することができる。 マルチモデル設定における回帰勾配に基づく攻撃に対する入力変換による分散調整を組み込んだ統合手法は、9つの先進的防御手法に対して平均成功率90.1%を達成でき、現在の最善の攻撃性能を85.1%向上させた。 コードはhttps://github.com/J HL-HUST/VT.comで入手できる。

Deep neural networks are vulnerable to adversarial examples that mislead the models with imperceptible perturbations. Though adversarial attacks have achieved incredible success rates in the white-box setting, most existing adversaries often exhibit weak transferability in the black-box setting, especially under the scenario of attacking models with defense mechanisms. In this work, we propose a new method called variance tuning to enhance the class of iterative gradient based attack methods and improve their attack transferability. Specifically, at each iteration for the gradient calculation, instead of directly using the current gradient for the momentum accumulation, we further consider the gradient variance of the previous iteration to tune the current gradient so as to stabilize the update direction and escape from poor local optima. Empirical results on the standard ImageNet dataset demonstrate that our method could significantly improve the transferability of gradient-based adversarial attacks. Besides, our method could be used to attack ensemble models or be integrated with various input transformations. Incorporating variance tuning with input transformations on iterative gradient-based attacks in the multi-model setting, the integrated method could achieve an average success rate of 90.1% against nine advanced defense methods, improving the current best attack performance significantly by 85.1% . Code is available at https://github.com/J HL-HUST/VT.
翻訳日:2021-03-30 15:10:34 公開日:2021-03-29
# モデル制約による計画の対比的説明

Contrastive Explanations of Plans Through Model Restrictions ( http://arxiv.org/abs/2103.15575v1 )

ライセンス: Link先を確認
Benjamin Krarup and Senka Krivic and Daniele Magazzeni and Derek Long and Michael Cashmore and David E. Smith(参考訳) 自動計画では、提案された計画とユーザの期待との間にミスマッチがある場合、説明の必要性が生じる。 我々は,仮説的計画問題の連続発生と解決を行う計画交渉問題の文脈において,説明可能なai計画を作成する。 交渉の対象は、ユーザが理解し、最終的に満足な計画に到達することです。 本研究は,ユーザが計画について質問すると,その質問とは対照的であることを示す,ユーザ調査の結果を示す。 「なぜbよりaなのか?」 本研究のデータを用いて,計画交渉中に頻繁に発生するユーザ質問の分類を構築した。 我々は,モデル制約を反復プロセスとして,計画交渉のアプローチを正式に定義する。 このアプローチは,ユーザの質問に暗示される制約によってモデルを制限することにより,仮説上の問題や対照的な計画を生成する。 分類学におけるユーザ質問から導かれた各制約のPDDL2.1でモデルベースのコンパイルを正式に定義し,計算複雑性の観点から,そのコンパイルを実証的に評価する。 コンパイルは反復モデル制限を用いた説明フレームワークの一部として実装された。 第2のユーザスタディでそのメリットを実演します。

In automated planning, the need for explanations arises when there is a mismatch between a proposed plan and the user's expectation. We frame Explainable AI Planning in the context of the plan negotiation problem, in which a succession of hypothetical planning problems are generated and solved. The object of the negotiation is for the user to understand and ultimately arrive at a satisfactory plan. We present the results of a user study that demonstrates that when users ask questions about plans, those questions are contrastive, i.e. "why A rather than B?". We use the data from this study to construct a taxonomy of user questions that often arise during plan negotiation. We formally define our approach to plan negotiation through model restriction as an iterative process. This approach generates hypothetical problems and contrastive plans by restricting the model through constraints implied by user questions. We formally define model-based compilations in PDDL2.1 of each constraint derived from a user question in the taxonomy, and empirically evaluate the compilations in terms of computational complexity. The compilations were implemented as part of an explanation framework that employs iterative model restriction. We demonstrate its benefits in a second user study.
翻訳日:2021-03-30 15:10:12 公開日:2021-03-29
# 自動化: 倫理的AIの基本コンポーネント?

Automation: An Essential Component Of Ethical AI? ( http://arxiv.org/abs/2103.15739v1 )

ライセンス: Link先を確認
Vivek Nallur and Martin Lloyd and Siani Pearson(参考訳) 倫理は、人工知能(AI)で有意義に実装されるには抽象的すぎると考えられることもある。 本稿では,これまで非常に抽象的と考えられていたコンピューティングの他の側面を考察する。 しかし、現在ではコンピュータによって非常によく行われていると認められている。 これらのタスクは、ソフトウェア工学から数学、自然言語による人間との会話まで多岐にわたる。 これは最も簡単なステップを自動化して、さらに複雑なタスクを実行するために構築することで実現されました。 倫理的AIも同様に達成され、AIが倫理的決定を下すための重要なステップとして自動化プロセスが提唱されるのだろうか。 この論文の重要な貢献は、以前コンピュータにとって抽象的すぎると考えられていたドメインに自動化を導入した経緯を反映することである。

Ethics is sometimes considered to be too abstract to be meaningfully implemented in artificial intelligence (AI). In this paper, we reflect on other aspects of computing that were previously considered to be very abstract. Yet, these are now accepted as being done very well by computers. These tasks have ranged from multiple aspects of software engineering to mathematics to conversation in natural language with humans. This was done by automating the simplest possible step and then building on it to perform more complex tasks. We wonder if ethical AI might be similarly achieved and advocate the process of automation as key step in making AI take ethical decisions. The key contribution of this paper is to reflect on how automation was introduced into domains previously considered too abstract for computers.
翻訳日:2021-03-30 15:09:39 公開日:2021-03-29
# edarktrends: 暗号通貨市場におけるオピオイド表示のための薬物使用障害におけるソーシャルメディアの動向

eDarkTrends: Harnessing Social Media Trends in Substance use disorders for Opioid Listings on Cryptomarket ( http://arxiv.org/abs/2103.15764v1 )

ライセンス: Link先を確認
Usha Lokala, Francois Lamy, Triyasha Ghosh Dastidar, Kaushik Roy, Raminta Daniulaityte, Srinivasan Parthasarathy, Amit Sheth(参考訳) オピオイドと薬物の誤用は、今日ではアメリカ合衆国で広まり、オピオイド危機として知られる現象である。 物質使用と精神健康の関係は広く研究されており、物質乱用が精神健康の悪化を引き起こす可能性がある。 しかし、この関係に関する証拠の欠如により、オピオイドは法的な手段でほとんどアクセスできない。 本研究は,オピオイドが暗号市場リストを通じて販売されているソーシャルメディア上の誤用投稿を分析した。 We use the Drug Abuse Ontology, state-of-the-art deep learning, and BERT-based models to generate sentiment and emotion for the social media posts to understand user perception on social media by investigating questions such as, which synthetic opioids people are optimistic, neutral, or negative about or what kind of drugs induced fear and sorrow or what kind of drugs people love or thankful about or which drug people think negatively about or which opioids cause little to no sentimental reaction. また、生成した感情や感情に関連するトピック分析を行い、どのトピックが様々な薬物に対する人々の反応と関連しているかを理解する。 今回の知見は,副作用の予防や過剰摂取関連死の予防,流行の悪化に時間的介入が必要となるオピオイドの使用事例を分離するための方針形成に寄与する。

Opioid and substance misuse is rampant in the United States today, with the phenomenon known as the opioid crisis. The relationship between substance use and mental health has been extensively studied, with one possible relationship being substance misuse causes poor mental health. However, the lack of evidence on the relationship has resulted in opioids being largely inaccessible through legal means. This study analyzes the substance misuse posts on social media with the opioids being sold through crypto market listings. We use the Drug Abuse Ontology, state-of-the-art deep learning, and BERT-based models to generate sentiment and emotion for the social media posts to understand user perception on social media by investigating questions such as, which synthetic opioids people are optimistic, neutral, or negative about or what kind of drugs induced fear and sorrow or what kind of drugs people love or thankful about or which drug people think negatively about or which opioids cause little to no sentimental reaction. We also perform topic analysis associated with the generated sentiments and emotions to understand which topics correlate with people's responses to various drugs. Our findings can help shape policy to help isolate opioid use cases where timely intervention may be required to prevent adverse consequences, prevent overdose-related deaths, and worsen the epidemic.
翻訳日:2021-03-30 15:09:28 公開日:2021-03-29
# ゼロショット逆量子化

Zero-shot Adversarial Quantization ( http://arxiv.org/abs/2103.15263v1 )

ライセンス: Link先を確認
Yuang Liu, Wei Zhang, Jun Wang(参考訳) モデル量子化は、ディープニューラルネットワークを圧縮し、推論を加速する有望なアプローチであり、モバイルおよびエッジデバイスにデプロイすることができる。 全精度モデルの性能を維持するため、既存の量子化手法のほとんどは、トレーニングデータセットがアクセス可能であると仮定して、微調整量子化モデルに焦点を当てている。 しかし、データプライバシやセキュリティ上の問題により、実際の状況ではこの仮定が満たされない場合があるため、量子化手法は適用できない。 訓練データにアクセスすることなくゼロショートモデル量子化を実現するため、微調整のために、後学習量子化法またはバッチ正規化統計誘導データ生成法を採用する。 しかし、両者とも、多少経験的すぎ、超低精度量子化のトレーニングサポートが欠如しているため、必然的に低パフォーマンスを被るが、後者は元のデータの特異性を完全に復元することはできず、多種多様なデータ生成において効率が低い。 本稿では,ゼロショット逆量子化 (zero-shot adversarial quantization, zaq) フレームワークを提案する。 これは、生成元が情報的で多様なデータ例を合成し、量子化されたモデルを逆学習方式で最適化する、新しい2段階の離散モデルによって達成される。 3つの基本的なビジョンタスクについて広範な実験を行い,強いゼロショットベースラインよりもzaqが優れていることを示し,その主成分の有効性を検証する。 コードは <https://git.io/Jqc0y > で入手できる。

Model quantization is a promising approach to compress deep neural networks and accelerate inference, making it possible to be deployed on mobile and edge devices. To retain the high performance of full-precision models, most existing quantization methods focus on fine-tuning quantized model by assuming training datasets are accessible. However, this assumption sometimes is not satisfied in real situations due to data privacy and security issues, thereby making these quantization methods not applicable. To achieve zero-short model quantization without accessing training data, a tiny number of quantization methods adopt either post-training quantization or batch normalization statistics-guided data generation for fine-tuning. However, both of them inevitably suffer from low performance, since the former is a little too empirical and lacks training support for ultra-low precision quantization, while the latter could not fully restore the peculiarities of original data and is often low efficient for diverse data generation. To address the above issues, we propose a zero-shot adversarial quantization (ZAQ) framework, facilitating effective discrepancy estimation and knowledge transfer from a full-precision model to its quantized model. This is achieved by a novel two-level discrepancy modeling to drive a generator to synthesize informative and diverse data examples to optimize the quantized model in an adversarial learning fashion. We conduct extensive experiments on three fundamental vision tasks, demonstrating the superiority of ZAQ over the strong zero-shot baselines and validating the effectiveness of its main components. Code is available at <https://git.io/Jqc0y >.
翻訳日:2021-03-30 14:59:37 公開日:2021-03-29
# オープンワールドへの一般化: オンライン適応による深い視覚オドメトリ

Generalizing to the Open World: Deep Visual Odometry with Online Adaptation ( http://arxiv.org/abs/2103.15279v1 )

ライセンス: Link先を確認
Shunkai Li, Xin Wu, Yingdian Cao, Hongbin Zha(参考訳) 近年、学習に基づく視覚計測(VO)が顕著な成果を上げているにもかかわらず、事前訓練されたネットワークは目に見えない環境で容易に崩壊する可能性がある。 トレーニングとテストデータの大きなドメインギャップは、新たなシーンへの一般化を難しくする。 本稿では,シーン非依存な幾何計算とベイズ推論を用いて,ディープvoのオンライン適応フレームワークを提案する。 学習に基づくポーズ推定とは対照的に,オンライン学習の不確実性による新たな観察により,単一視点深度推定を継続的に改善しながら,光学的フローと深度からポーズを推定する。 一方、オンライン学習された測光不確実性は、微分可能なガウスニュートン層によるさらなる深度とポーズの最適化に使用される。 提案手法は,ディープVOネットワークの自己教師型環境への迅速な適応を可能にする。 都市景観からKITTI,屋外KITTIから室内TUMへの大規模な実験により,自己監督型VO法における最先端の一般化能力が得られた。

Despite learning-based visual odometry (VO) has shown impressive results in recent years, the pretrained networks may easily collapse in unseen environments. The large domain gap between training and testing data makes them difficult to generalize to new scenes. In this paper, we propose an online adaptation framework for deep VO with the assistance of scene-agnostic geometric computations and Bayesian inference. In contrast to learning-based pose estimation, our method solves pose from optical flow and depth while the single-view depth estimation is continuously improved with new observations by online learned uncertainties. Meanwhile, an online learned photometric uncertainty is used for further depth and pose optimization by a differentiable Gauss-Newton layer. Our method enables fast adaptation of deep VO networks to unseen environments in a self-supervised manner. Extensive experiments including Cityscapes to KITTI and outdoor KITTI to indoor TUM demonstrate that our method achieves state-of-the-art generalization ability among self-supervised VO methods.
翻訳日:2021-03-30 14:59:12 公開日:2021-03-29
# 過渡学習 : 盲点超解法における劣化の推移性を探る

Transitive Learning: Exploring the Transitivity of Degradations for Blind Super-Resolution ( http://arxiv.org/abs/2103.15290v1 )

ライセンス: Link先を確認
Yuanfei Huang, Jie Li, Yanting Hu, Xinbo Gao, Wen Lu(参考訳) データやモデルの反復的な推定と修正に極めて依存しているため、既存の盲目超解像法(SR)は一般的に時間がかかり、効果が低い。 そこで本研究では,新たな推論の繰り返しを伴わずに,エンドツーエンドネットワークを用いた視覚的SRの推移学習手法を提案する。 まず, 広く用いられている添加物や固化物を含む劣化の遷移度を解析し, 実証する。 そこで我々は, 過渡的変換関数を適応的に推論して, 繰り返し操作を伴わずに未知の劣化を解くことによって, 過渡的分解に対する視覚的超解法(TLSR)を新たに提案する。 具体的には、エンドツーエンドのTLSRネットワークは、遷移度推定ネットワーク(DoT)、均質な特徴抽出ネットワーク、推移学習モジュールから構成される。 ブラインドSRタスクの定量的および定性的評価は、提案したTLSRが優れた性能を達成し、最先端のブラインドSR手法に対してより少ない時間を消費することを示す。 コードはhttps://github.com/y uanfeihuang/tlsrで入手できる。

Being extremely dependent on the iterative estimation and correction of data or models, the existing blind super-resolution (SR) methods are generally time-consuming and less effective. To address it, this paper proposes a transitive learning method for blind SR using an end-to-end network without any additional iterations in inference. To begin with, we analyze and demonstrate the transitivity of degradations, including the widely used additive and convolutive degradations. We then propose a novel Transitive Learning method for blind Super-Resolution on transitive degradations (TLSR), by adaptively inferring a transitive transformation function to solve the unknown degradations without any iterative operations in inference. Specifically, the end-to-end TLSR network consists of a degree of transitivity (DoT) estimation network, a homogeneous feature extraction network, and a transitive learning module. Quantitative and qualitative evaluations on blind SR tasks demonstrate that the proposed TLSR achieves superior performance and consumes less time against the state-of-the-art blind SR methods. The code is available at https://github.com/Y uanfeiHuang/TLSR.
翻訳日:2021-03-30 14:58:54 公開日:2021-03-29
# TFPose:トランスフォーマーを用いた直接人文推定

TFPose: Direct Human Pose Estimation with Transformers ( http://arxiv.org/abs/2103.15320v1 )

ライセンス: Link先を確認
Weian Mao, Yongtao Ge, Chunhua Shen, Zhi Tian, Xinlong Wang, Zhibin Wang(参考訳) 本稿では,この課題を回帰モデルで解決するヒューマンポーズ推定フレームワークを提案する。 従来の回帰型手法とは異なり、ポーズ推定タスクをトランスフォーマによって効果的に解決できるシーケンス予測問題に定式化する。 我々のフレームワークは単純で直接的であり、ヒートマップに基づくポーズ推定の欠点を回避している。 さらに, トランスフォーマの注意機構により, 提案手法は, 対象キーポイントに最も関連する特徴に適応的に対応でき, 従来の回帰型手法の特徴的不一致を克服し, 性能を大幅に向上させることができる。 重要なことに、我々のフレームワークは本質的にキーポイント間の構造化された関係の利点を生かすことができる。 ms-cocoおよびmpiiデータセットを用いた実験により,本手法は回帰に基づくポーズ推定の最先端を著しく改善し,最適なヒートマップに基づくポーズ推定手法と相性が良いことを示す。

We propose a human pose estimation framework that solves the task in the regression-based fashion. Unlike previous regression-based methods, which often fall behind those state-of-the-art methods, we formulate the pose estimation task into a sequence prediction problem that can effectively be solved by transformers. Our framework is simple and direct, bypassing the drawbacks of the heatmap-based pose estimation. Moreover, with the attention mechanism in transformers, our proposed framework is able to adaptively attend to the features most relevant to the target keypoints, which largely overcomes the feature misalignment issue of previous regression-based methods and considerably improves the performance. Importantly, our framework can inherently take advantages of the structured relationship between keypoints. Experiments on the MS-COCO and MPII datasets demonstrate that our method can significantly improve the state-of-the-art of regression-based pose estimation and perform comparably with the best heatmap-based pose estimation methods.
翻訳日:2021-03-30 14:58:33 公開日:2021-03-29
# 自動コンテンツ検出概要に基づく映像の分類

Classifying Video based on Automatic Content Detection Overview ( http://arxiv.org/abs/2103.15323v1 )

ライセンス: Link先を確認
Yilin Wang and Jiayi Ye(参考訳) ビデオの分類と分析は常にコンピュータビジョンにおいて人気があり挑戦的な分野である。 これは単なる単純な画像分類以上のもので、後続のフレームの意味的内容との相関がビデオ解析に困難をもたらす。 本稿では,マルチレーベルビデオ分類のための最先端手法について概説する。 まず,現在広く使われているアーキテクチャを実験的に研究し,フレームのシーケンシャルデータを扱う手法を開発し,ビデオの自動コンテンツ検出に基づくマルチラベル分類を行う。

Video classification and analysis is always a popular and challenging field in computer vision. It is more than just simple image classification due to the correlation with respect to the semantic contents of subsequent frames brings difficulties for video analysis. In this literature review, we summarized some state-of-the-art methods for multi-label video classification. Our goal is first to experimentally research the current widely used architectures, and then to develop a method to deal with the sequential data of frames and perform multi-label classification based on automatic content detection of video.
翻訳日:2021-03-30 14:58:17 公開日:2021-03-29
# 逆行軌道摂動によるlidar認識の騙し

Fooling LiDAR Perception via Adversarial Trajectory Perturbation ( http://arxiv.org/abs/2103.15326v1 )

ライセンス: Link先を確認
Yiming Li and Congcong Wen and Felix Juefei-Xu and Chen Feng(参考訳) 移動車両から収集されたLiDAR点雲は、歪みを避けるためにセンサーの動きを補償する必要があるため、軌道の関数である。 自動運転車が知覚と計画のためにLiDAR点雲を深層ネットワークに送るとき、その動き補償は、深層学習の敵対的脆弱性とGPSに基づく車両軌道推定の両方によって、それらのネットワークにおいて広範に開放されたバックドアになるのだろうか? 生のLiDAR読み取りで改ざんする必要のある点雲座標を直接攻撃する代わりに、小さな摂動で自動運転車の軌道を逆さまにスプーリングするだけで、安全クリティカルな物体を検出不能にしたり、誤った位置で検出したりするのに十分である。 さらに, 多項式軌道摂動法を開発し, 時制的かつ高可視性攻撃を実現する。 3Dオブジェクト検出に関する大規模な実験により、こうした攻撃は最先端の検出器の性能を効果的に低下させるだけでなく、他の検出器に移動し、コミュニティに赤い旗を掲げることが示されている。 コードはhttps://ai4ce.github .io/flat/で入手できる。

LiDAR point clouds collected from a moving vehicle are functions of its trajectories, because the sensor motion needs to be compensated to avoid distortions. When autonomous vehicles are sending LiDAR point clouds to deep networks for perception and planning, could the motion compensation consequently become a wide-open backdoor in those networks, due to both the adversarial vulnerability of deep learning and GPS-based vehicle trajectory estimation that is susceptible to wireless spoofing? We demonstrate such possibilities for the first time: instead of directly attacking point cloud coordinates which requires tampering with the raw LiDAR readings, only adversarial spoofing of a self-driving car's trajectory with small perturbations is enough to make safety-critical objects undetectable or detected with incorrect positions. Moreover, polynomial trajectory perturbation is developed to achieve a temporally-smooth and highly-imperceptible attack. Extensive experiments on 3D object detection have shown that such attacks not only lower the performance of the state-of-the-art detectors effectively, but also transfer to other detectors, raising a red flag for the community. The code is available on https://ai4ce.github .io/FLAT/.
翻訳日:2021-03-30 14:58:10 公開日:2021-03-29
# POSEFusion:pose-guid ed Selective Fusion for Single-view Human Volumetric Capture

POSEFusion: Pose-guided Selective Fusion for Single-view Human Volumetric Capture ( http://arxiv.org/abs/2103.15331v1 )

ライセンス: Link先を確認
Zhe Li, Tao Yu, Zerong Zheng, Kaiwen Guo, Yebin Liu(参考訳) 本研究では,高忠実かつダイナミックな3次元再構成を実現するために,トラッキングベース手法とトラッキングフリー推論を利用した単一ビュー人間のボリュームキャプチャ手法POSEFusionを提案する。 提案手法は,姿勢誘導型キーフレーム選択と頑健な暗黙的表面融合を含む新しい再構成フレームワークを提供することにより,トラッキングベース法とトラッキングフリー推論法の両方の利点を十分に活用し,目に見えない領域においても動的表面詳細の高精度な再構成を可能にする。 キーフレーム選択を動的計画問題として定式化し,再構成シーケンスの時間的連続性を保証する。 さらに,新しいロバストな暗黙的表面融合では,高忠実度な表面詳細を保存するための適応的混合重みと,潜在的な自己衝突に対処する自動衝突ハンドリング法がある。 本手法は,1枚のRGBDカメラから高忠実度・ダイナミックキャプチャが可能であり,その結果と実験により,本手法が最先端の手法より優れていることが示された。

We propose POse-guided SElective Fusion (POSEFusion), a single-view human volumetric capture method that leverages tracking-based methods and tracking-free inference to achieve high-fidelity and dynamic 3D reconstruction. By contributing a novel reconstruction framework which contains pose-guided keyframe selection and robust implicit surface fusion, our method fully utilizes the advantages of both tracking-based methods and tracking-free inference methods, and finally enables the high-fidelity reconstruction of dynamic surface details even in the invisible regions. We formulate the keyframe selection as a dynamic programming problem to guarantee the temporal continuity of the reconstructed sequence. Moreover, the novel robust implicit surface fusion involves an adaptive blending weight to preserve high-fidelity surface details and an automatic collision handling method to deal with the potential self-collisions. Overall, our method enables high-fidelity and dynamic capture in both visible and invisible regions from a single RGBD camera, and the results and experiments show that our method outperforms state-of-the-art methods.
翻訳日:2021-03-30 14:57:49 公開日:2021-03-29
# 部分空間投影を用いた教師なし深部ホログラフィー推定のための動作基底学習

Motion Basis Learning for Unsupervised Deep Homography Estimation with Subspace Projection ( http://arxiv.org/abs/2103.15346v1 )

ライセンス: Link先を確認
Nianjin Ye, Chuan Wang, Haoqiang Fan, Shuaicheng Liu(参考訳) 本稿では,教師なし深層ホログラフィ推定のための新しいフレームワークを提案する。 私たちの貢献は3つです。 まず,4つのオフセットをホモグラフィに回帰させる従来の手法とは異なり,事前に定義された8つのホモグラフィフロー基底の重み付け和で推定できるホモグラフィフロー表現を提案する。 第2に,ネットワーク特徴のランクよりもはるかに少ない8自由度 (dofs) を含むホモグラフを考えると,特徴ランクを減少させる低ランク表現 (lrr) ブロックを提案する。 最後に,ワープ操作と特徴抽出の順序が入れ替わった場合の結果が同一となるように,学習画像特徴量ワープ同変を強制する特徴同一性損失(fil)を提案する。 この制約により、教師なし最適化はより効果的に達成され、より安定した特徴が学習される。 提案する全てのコンポーネントの有効性を実証するために広範な実験を行い,ホモグラフィベンチマークデータセットの質的および定量的に比較した。

In this paper, we introduce a new framework for unsupervised deep homography estimation. Our contributions are 3 folds. First, unlike previous methods that regress 4 offsets for a homography, we propose a homography flow representation, which can be estimated by a weighted sum of 8 pre-defined homography flow bases. Second, considering a homography contains 8 Degree-of-Freedoms (DOFs) that is much less than the rank of the network features, we propose a Low Rank Representation (LRR) block that reduces the feature rank, so that features corresponding to the dominant motions are retained while others are rejected. Last, we propose a Feature Identity Loss (FIL) to enforce the learned image feature warp-equivariant, meaning that the result should be identical if the order of warp operation and feature extraction is swapped. With this constraint, the unsupervised optimization is achieved more effectively and more stable features are learned. Extensive experiments are conducted to demonstrate the effectiveness of all the newly proposed components, and results show our approach outperforms the state-of-the-art on the homography benchmark datasets both qualitatively and quantitatively.
翻訳日:2021-03-30 14:57:29 公開日:2021-03-29
# シーングラフ生成のための視覚遠隔監視

Visual Distant Supervision for Scene Graph Generation ( http://arxiv.org/abs/2103.15365v1 )

ライセンス: Link先を確認
Yuan Yao, Ao Zhang, Xu Han, Mengdi Li, Cornelius Weber, Zhiyuan Liu, Stefan Wermter, Maosong Sun(参考訳) シーングラフ生成は、画像中のオブジェクトとその関係を識別することを目的としており、コンピュータビジョンにおける多数の応用を促進する構造化画像表現を提供する。 しかし、シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。 本研究では,人間ラベルデータなしでシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。 その直感は、コモンセンスの知識ベースとイメージを整列させることで、大規模ラベル付きデータを自動的に作成し、視覚関係学習の遠隔監視を可能にすることである。 遠方ラベルデータのノイズを軽減するために,確率的関係ラベルを反復的に推定し,ノイズを除去した枠組みを提案する。 総合実験の結果, 弱教師付きおよび半教師付きベースラインよりも遠隔教師付きモデルの方が優れていることがわかった。 人間のラベル付きデータを半教師付き形式でさらに組み込むことで、我々のモデルは最先端の完全教師付きモデルよりも大きなマージン(例えば、Visual Genome評価における述語分類のための8.6マイクロと7.6マクロリコール@50の改善)で優れている。 すべてのデータとコードは、将来の研究を促進するために利用可能になる。

Scene graph generation aims to identify objects and their relations in images, providing structured image representations that can facilitate numerous applications in computer vision. However, scene graph models usually require supervised learning on large quantities of labeled data with intensive human annotation. In this work, we propose visual distant supervision, a novel paradigm of visual relation learning, which can train scene graph models without any human-labeled data. The intuition is that by aligning commonsense knowledge bases and images, we can automatically create large-scale labeled data to provide distant supervision for visual relation learning. To alleviate the noise in distantly labeled data, we further propose a framework that iteratively estimates the probabilistic relation labels and eliminates the noisy ones. Comprehensive experimental results show that our distantly supervised model outperforms strong weakly supervised and semi-supervised baselines. By further incorporating human-labeled data in a semi-supervised fashion, our model outperforms state-of-the-art fully supervised models by a large margin (e.g., 8.6 micro- and 7.6 macro-recall@50 improvements for predicate classification in Visual Genome evaluation). All the data and code will be available to facilitate future research.
翻訳日:2021-03-30 14:57:07 公開日:2021-03-29
# 選択的出力平滑化:出力分布の軟化によるニューラルネットワークの正規化

Selective Output Smoothing Regularization: Regularize Neural Networks by Softening Output Distributions ( http://arxiv.org/abs/2103.15383v1 )

ライセンス: Link先を確認
Xuan Cheng, Tianshu Xie, Xiaomin Wang, Qifeng Weng, Minghui Liu, Jiali Deng, Ming Liu(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)を学習するための新しい正規化手法であるSelective Output Smoothing Regularizationを提案する。 Selective Output Smoothing Regularizationは、異なるサンプルからのトレーニングに対する多様な影響に触発され、モデルが正しくかつ過度に機密に分類するサンプルを扱う際に、間違ったクラスで同等のロジットを生成するようモデルに促すことによって、パフォーマンスを改善する。 このプラグアンドプレイ正規化方法は、余分な手間をかけずに、ほぼすべてのCNNベースのプロジェクトに便利に組み込むことができる。 CIFAR-100, Tiny ImageNet, ImageNet, CUB-200-2011 などの画像分類ベンチマークにおいて, Selective Output Smoothing Regularization は一貫して大幅に改善されている。 特に、resnet-50によるimagenetの77.30$\%$精度はベースライン(76.2$\%$)よりも1.1$$$$$$$である。 また,本手法が他の広範に使用される正規化手法と組み合わせることで,さらに改善できることを示す。 パスカル検出では、sosrで学習したimagenet分類器を事前学習モデルとして使用すると、検出性能が向上する。 さらに,本手法のサンプルサイズ問題と不均衡データセット問題における有効性を示す。

In this paper, we propose Selective Output Smoothing Regularization, a novel regularization method for training the Convolutional Neural Networks (CNNs). Inspired by the diverse effects on training from different samples, Selective Output Smoothing Regularization improves the performance by encouraging the model to produce equal logits on incorrect classes when dealing with samples that the model classifies correctly and over-confidently. This plug-and-play regularization method can be conveniently incorporated into almost any CNN-based project without extra hassle. Extensive experiments have shown that Selective Output Smoothing Regularization consistently achieves significant improvement in image classification benchmarks, such as CIFAR-100, Tiny ImageNet, ImageNet, and CUB-200-2011. Particularly, our method obtains 77.30$\%$ accuracy on ImageNet with ResNet-50, which gains 1.1$\%$ than baseline (76.2$\%$). We also empirically demonstrate the ability of our method to make further improvements when combining with other widely used regularization techniques. On Pascal detection, using the SOSR-trained ImageNet classifier as the pretrained model leads to better detection performances. Moreover, we demonstrate the effectiveness of our method in small sample size problem and imbalanced dataset problem.
翻訳日:2021-03-30 14:56:47 公開日:2021-03-29
# SIENet:ポイントクラウドからの3次元物体検出のための空間情報強調ネットワーク

SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud ( http://arxiv.org/abs/2103.15396v1 )

ライセンス: Link先を確認
Ziyu Li, Yuncong Yao, Zhibin Quan, Wankou Yang, Jin Xie(参考訳) LiDARベースの3Dオブジェクト検出は、自動運転車に大きな影響を与える。 LiDARの固有特性の制限により、センサーから遠く離れた物体において、より少ない点が収集される。 この不均衡な点雲密度は検出精度を低下させるが、従来の研究では無視されている。 そこで我々は,SIENetという新しい2段階の3Dオブジェクト検出フレームワークを提案する。 具体的には,提案中の前景点の空間形状を予測するための空間情報拡張(sie)モジュールを設計し,その構造情報を抽出し,その代表的特徴を学習し,さらにボックスリファインメントを行う。 予測された空間形状は完全かつ密接な点集合であり、抽出された構造情報はより意味的な表現を含む。 さらに,識別特徴を学習し,SIEモジュールの正確な提案を生成するために複数の分岐を含むHybrid-Paradigm Region Proposal Network (HP-RPN) を設計する。 KITTIの3Dオブジェクト検出ベンチマークによる大規模な実験により、精巧に設計されたSIENetは最先端の手法よりも大きなマージンで性能が向上した。

LiDAR-based 3D object detection pushes forward an immense influence on autonomous vehicles. Due to the limitation of the intrinsic properties of LiDAR, fewer points are collected at the objects farther away from the sensor. This imbalanced density of point clouds degrades the detection accuracy but is generally neglected by previous works. To address the challenge, we propose a novel two-stage 3D object detection framework, named SIENet. Specifically, we design the Spatial Information Enhancement (SIE) module to predict the spatial shapes of the foreground points within proposals, and extract the structure information to learn the representative features for further box refinement. The predicted spatial shapes are complete and dense point sets, thus the extracted structure information contains more semantic representation. Besides, we design the Hybrid-Paradigm Region Proposal Network (HP-RPN) which includes multiple branches to learn discriminate features and generate accurate proposals for the SIE module. Extensive experiments on the KITTI 3D object detection benchmark show that our elaborately designed SIENet outperforms the state-of-the-art methods by a large margin.
翻訳日:2021-03-30 14:56:22 公開日:2021-03-29
# ファウショットセグメンテーションのための潜在授業のマイニング

Mining Latent Classes for Few-shot Segmentation ( http://arxiv.org/abs/2103.15402v1 )

ライセンス: Link先を確認
Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) Few-shot segmentation (FSS) は、いくつかの注釈付きサンプルのみを与えられた未確認クラスをセグメントすることを目的としている。 既存の手法は機能低下という問題に悩まされる。 新たなクラスは 訓練段階で バックグラウンドとして扱われる 本手法は,この問題を緩和し,潜在新規クラスに組み込む機能を強化することを目的としている。 本研究では,新しい共同学習フレームワークを提案する。 サポートクエリペアに関する従来のエピソディクストレーニングに基づいて,転送可能なサブクラスタを介して潜在新規クラスを活用可能なマイニングブランチと,バックグラウンドカテゴリとフォアグラウンドカテゴリの両方の新たな整流技術を追加して,より安定したプロトタイプを強制する。 その上、転送可能なサブクラスタは、追加のラベル付きデータを活用して、さらなる機能拡張を行うことができます。 2つのfssベンチマークに関する広範囲な実験により、パスカル-5iでは3.7%miou、coco-20iでは7.0%miou、パラメータは74%少なく、推論速度は2.5倍と、従来の技術よりも優れていた。

Few-shot segmentation (FSS) aims to segment unseen classes given only a few annotated samples. Existing methods suffer the problem of feature undermining, i.e. potential novel classes are treated as background during training phase. Our method aims to alleviate this problem and enhance the feature embedding on latent novel classes. In our work, we propose a novel joint-training framework. Based on conventional episodic training on support-query pairs, we add an additional mining branch that exploits latent novel classes via transferable sub-clusters, and a new rectification technique on both background and foreground categories to enforce more stable prototypes. Over and above that, our transferable sub-cluster has the ability to leverage extra unlabeled data for further feature enhancement. Extensive experiments on two FSS benchmarks demonstrate that our method outperforms previous state-of-the-art by a large margin of 3.7% mIOU on PASCAL-5i and 7.0% mIOU on COCO-20i at the cost of 74% fewer parameters and 2.5x faster inference speed.
翻訳日:2021-03-30 14:56:04 公開日:2021-03-29
# 監視シナリオ下でのマルチモーダル顔偽造に対するデータセットとベンチマーク

A Dataset and Benchmark Towards Multi-Modal Face Anti-Spoofing Under Surveillance Scenarios ( http://arxiv.org/abs/2103.15409v1 )

ライセンス: Link先を確認
Xudong Chen, Shugong Xu, Qiaobin Ji, Shan Cao(参考訳) Face Anti-Spoofing (FAS)は複雑なサービスシナリオと多様な顔提示攻撃パターンのために難しい問題である。 特に、撮像された画像が解像度が低く、ぼやけており、異なるドメインから来る場合、fasの性能は著しく低下する。 既存のマルチモーダルFASデータセットは、モデルパフォーマンスの研究には影響しないデプロイメントシナリオにおけるクロスドメイン問題にほとんど注意を払わない。 これらの問題を解決するために,マルチモーダルカメラ間の細かな差異を探索し,great-fasd-sと呼ばれる監視シナリオに基づいてクロスドメインのマルチモーダルfasデータセットを構築する。 さらに,FASを低画質の顔画像に向けて解くために,AFA(Feature Augment)を用いたアテンションベースの顔アンチスプーフィングネットワークを提案する。 DAM(Deepwise Separable attention Module)とMFAM(Multi-modal based feature augment Module)から構成されている。 我々のモデルは,CASIA-SURFデータセットと提案したGREAT-FASD-Sデータセットの最先端性能を実現することができる。

Face Anti-spoofing (FAS) is a challenging problem due to complex serving scenarios and diverse face presentation attack patterns. Especially when captured images are low-resolution, blurry, and coming from different domains, the performance of FAS will degrade significantly. The existing multi-modal FAS datasets rarely pay attention to the cross-domain problems under deployment scenarios, which is not conducive to the study of model performance. To solve these problems, we explore the fine-grained differences between multi-modal cameras and construct a cross-domain multi-modal FAS dataset under surveillance scenarios called GREAT-FASD-S. Besides, we propose an Attention based Face Anti-spoofing network with Feature Augment (AFA) to solve the FAS towards low-quality face images. It consists of the depthwise separable attention module (DAM) and the multi-modal based feature augment module (MFAM). Our model can achieve state-of-the-art performance on the CASIA-SURF dataset and our proposed GREAT-FASD-S dataset.
翻訳日:2021-03-30 14:55:42 公開日:2021-03-29
# 畳み込みニューラルネットワークのためのフォーカスドロップアウト

FocusedDropout for Convolutional Neural Network ( http://arxiv.org/abs/2103.15425v1 )

ライセンス: Link先を確認
Tianshu Xie, Minghui Liu, Jiali Deng, Xuan Cheng, Xiaomin Wang, Ming Liu(参考訳) 畳み込みニューラルネットワーク(CNN)では、ドロップアウト情報が空間的相関を持つ畳み込み層に完全に隠蔽されないため、ドロップアウトはうまく機能しない。 ランダムに破棄される地域やチャネルを除いて、多くのアプローチは、影響力のあるユニットを落としてこの欠陥を克服しようとする。 本稿では,ネットワークをよりターゲットに焦点を合わせることを目的とした,非ランダムなドロップアウト方式であるfocusdropoutを提案する。 focusdropoutでは、ターゲット関連の機能を検索し、これらの機能を保持し、他の機能を破棄するシンプルで効果的な方法を採用しています。 提案手法は,ネットワークをよりターゲット重視にすることで,ネットワーク性能を向上させることができることを見出した。 さらに、FocusedDropoutを使用して重量減衰を増大させることで、オーバーフィッティングを回避し、精度を高めることができる。 実験の結果,cifar10,cifar100,ti ny imagenetなど複数の分類データセットのベースラインに対して,わずかなコストでも,フォーカスドロップアウトを使用したバッチの10\%が優れたパフォーマンス向上を実現でき,さまざまなcnnモデルに対して優れた汎用性が得られている。

In convolutional neural network (CNN), dropout cannot work well because dropped information is not entirely obscured in convolutional layers where features are correlated spatially. Except randomly discarding regions or channels, many approaches try to overcome this defect by dropping influential units. In this paper, we propose a non-random dropout method named FocusedDropout, aiming to make the network focus more on the target. In FocusedDropout, we use a simple but effective way to search for the target-related features, retain these features and discard others, which is contrary to the existing methods. We found that this novel method can improve network performance by making the network more target-focused. Besides, increasing the weight decay while using FocusedDropout can avoid the overfitting and increase accuracy. Experimental results show that even a slight cost, 10\% of batches employing FocusedDropout, can produce a nice performance boost over the baselines on multiple datasets of classification, including CIFAR10, CIFAR100, Tiny Imagenet, and has a good versatility for different CNN models.
翻訳日:2021-03-30 14:55:24 公開日:2021-03-29
# 変圧器追跡

Transformer Tracking ( http://arxiv.org/abs/2103.15436v1 )

ライセンス: Link先を確認
Xin Chen, Bin Yan, Jiawen Zhu, Dong Wang, Xiaoyun Yang and Huchuan Lu(参考訳) 相関は、特に最近のシームズベースのトラッカーにおいて、追跡分野において重要な役割を果たす。 相関演算はテンプレートと検索領域の類似性を考慮するための単純な融合手法である。 しかし、相関操作自体が局所線形マッチングプロセスであり、意味情報の喪失や局所最適に陥りやすいため、高精度追跡アルゴリズムの設計のボトルネックとなる可能性がある。 相関よりも優れた特徴融合法はあるか? Transformerにインスパイアされたこの問題に対処するため,本研究では,注目のみを用いたテンプレートと検索領域の機能を効果的に組み合わせた,新しい注目型機能融合ネットワークを提案する。 具体的には、自己アテンションに基づくエゴコンテキスト拡張モジュールと、クロスアテンションに基づくクロス機能拡張モジュールを含む。 最後に、シームズ様の特徴抽出バックボーン、設計された注意に基づく融合機構、分類と回帰ヘッドに基づくトランスフォーマートラッキング(TransT)手法を提案する。 実験の結果、TransTは6つの挑戦的なデータセット、特に大規模LaSOT、TrackingNet、GOT-10kベンチマークで非常に有望な結果を得た。 トラッカーはGPU上で近似50fpsで動作する。 コードとモデルはhttps://github.com/c henxin-dlut/transtで入手できる。

Correlation acts as a critical role in the tracking field, especially in recent popular Siamese-based trackers. The correlation operation is a simple fusion manner to consider the similarity between the template and the search region. However, the correlation operation itself is a local linear matching process, leading to lose semantic information and fall into local optimum easily, which may be the bottleneck of designing high-accuracy tracking algorithms. Is there any better feature fusion method than correlation? To address this issue, inspired by Transformer, this work presents a novel attention-based feature fusion network, which effectively combines the template and search region features solely using attention. Specifically, the proposed method includes an ego-context augment module based on self-attention and a cross-feature augment module based on cross-attention. Finally, we present a Transformer tracking (named TransT) method based on the Siamese-like feature extraction backbone, the designed attention-based fusion mechanism, and the classification and regression head. Experiments show that our TransT achieves very promising results on six challenging datasets, especially on large-scale LaSOT, TrackingNet, and GOT-10k benchmarks. Our tracker runs at approximatively 50 fps on GPU. Code and models are available at https://github.com/c henxin-dlut/TransT.
翻訳日:2021-03-30 14:55:05 公開日:2021-03-29
# サルエントな顔を予測するための学習:新しい視覚聴覚サルエンシーモデル

Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model ( http://arxiv.org/abs/2103.15438v1 )

ライセンス: Link先を確認
Yufan Liu, Minglang Qiao, Mai Xu, Bing Li, Weiming Hu, Ali Borji(参考訳) 近年、ビデオストリームはインターネットトラフィックの大部分を占めており、その大半は人間の顔を含んでいる。 したがって、多くのコンテンツベースのアプリケーションに対して注意を引かせることができる多面ビデオのサリエンシーを予測する必要がある。 しかし、視覚情報のみを考慮し、自然主義的なシナリオと整合しない音声を無視する多面性予測の作業はほとんどである。 いくつかの行動研究では、音は人間の注意に影響を与え、特に多面ビデオの音声のターンテイク中に顕著である。 本稿では,視覚聴覚状態(mvva)における多面映像の大規模視線追跡データベースを構築し,その影響を徹底的に検討する。 本研究の成果に触発されて,視覚,音声,顔の3つの枝からなる新しいマルチモーダル・ビデオ・サリエンシ・モデルを提案する。 ビジュアルブランチはRGBフレームを入力として、それらを視覚的特徴マップにエンコードする。 音声と顔の分岐は、それぞれオーディオ信号と複数の切り抜き顔とを符号化する。 3つのモダリティからの情報を統合するためにフュージョンモジュールを導入し、最後のサリエンシーマップを生成する。 実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。 人間のマルチモーダル・アテンションに近い働きをする。

Recently, video streams have occupied a large proportion of Internet traffic, most of which contain human faces. Hence, it is necessary to predict saliency on multiple-face videos, which can provide attention cues for many content based applications. However, most of multiple-face saliency prediction works only consider visual information and ignore audio, which is not consistent with the naturalistic scenarios. Several behavioral studies have established that sound influences human attention, especially during the speech turn-taking in multiple-face videos. In this paper, we thoroughly investigate such influences by establishing a large-scale eye-tracking database of Multiple-face Video in Visual-Audio condition (MVVA). Inspired by the findings of our investigation, we propose a novel multi-modal video saliency model consisting of three branches: visual, audio and face. The visual branch takes the RGB frames as the input and encodes them into visual feature maps. The audio and face branches encode the audio signal and multiple cropped faces, respectively. A fusion module is introduced to integrate the information from three modalities, and to generate the final saliency map. Experimental results show that the proposed method outperforms 11 state-of-the-art saliency prediction works. It performs closer to human multi-modal attention.
翻訳日:2021-03-30 14:54:45 公開日:2021-03-29
# マーカーに基づくモーションキャプチャとディープラーニングによる歩行評価の自動凍結とエキスパートレベルの検出

Automated freezing of gait assessment with marker-based motion capture and deep learning approaches expert-level detection ( http://arxiv.org/abs/2103.15449v1 )

ライセンス: Link先を確認
Benjamin Filtjens, Pieter Ginis, Alice Nieuwboer, Peter Slaets, and Bart Vanrumste(参考訳) パーキンソン病では、歩行の凍結(fog)は一般的な歩行障害である。 この現象のさらなる洞察は、FOGを客観的に評価することの難しさによって妨げられる。 そこで本研究では,この臨床ニーズを満たすために,新しいディープニューラルネットワークを用いたフォグ評価手法を提案する。 提案ネットワークは多段階グラフ畳み込みネットワーク(MS-GCN)と呼ばれ、時空間グラフ畳み込みネットワーク(ST-GCN)と時空間畳み込みネットワーク(MS-TCN)を組み合わせたものである。 st-gcnは、モーションキャプチャに固有の光学マーカー間の階層的動きをキャプチャし、多段成分は、複数のステージにわたって予測を精錬することにより、過剰セグメンテーション誤差を低減させる。 提案モデルは,14個の冷凍機,14個の非フリーザー,14個の健康管理被験者のデータセットを用いて検証した。 実験の結果,提案モデルが最先端のベースラインを上回ることがわかった。 詳細な定量的および定性的な分析により,提案モデルが臨床医的なFOG評価を達成可能であることが示された。 提案されたms-gcnは、労働集約型臨床医によるフォグアセスメントの自動化と客観的な代替を提供することができる。

Freezing of gait (FOG) is a common and debilitating gait impairment in Parkinson's disease. Further insight in this phenomenon is hampered by the difficulty to objectively assess FOG. To meet this clinical need, this paper proposes a motion capture-based FOG assessment method driven by a novel deep neural network. The proposed network, termed multi-stage graph convolutional network (MS-GCN), combines the spatial-temporal graph convolutional network (ST-GCN) and the multi-stage temporal convolutional network (MS-TCN). The ST-GCN captures the hierarchical motion among the optical markers inherent to motion capture, while the multi-stage component reduces over-segmentation errors by refining the predictions over multiple stages. The proposed model was validated on a dataset of fourteen freezers, fourteen non-freezers, and fourteen healthy control subjects. The experiments indicate that the proposed model outperforms state-of-the-art baselines. An in-depth quantitative and qualitative analysis demonstrates that the proposed model is able to achieve clinician-like FOG assessment. The proposed MS-GCN can provide an automated and objective alternative to labor-intensive clinician-based FOG assessment.
翻訳日:2021-03-30 14:54:27 公開日:2021-03-29
# カプセルネットワークは畳み込みネットワークより頑丈ではない

Capsule Network is Not More Robust than Convolutional Network ( http://arxiv.org/abs/2103.15459v1 )

ライセンス: Link先を確認
Jindong Gu, Volker Tresp, Han Hu(参考訳) Capsule NetworksはConvolutional Networksよりも堅牢だと考えられている。 しかし、これら2つのネットワーク間の包括的比較は存在せず、capsnetのどのコンポーネントがその堅牢性に影響を与えるかも不明である。 本稿では,まず,画像分類に一般的に用いられるconvnetとは異なるcapsnetの特殊設計について慎重に検討する。 検討の結果,CapsNetでは,変換プロセス,動的ルーティング層,スキャッシング関数,クロスエントロピー損失以外の限界損失,正規化のためのクラス条件再構築損失の5つのコンポーネントが新たに発見された。 これらの大きな違いとともに,アフィン変換,重複指,意味表現の3種類のロバスト性について包括的アブレーション研究を行った。 研究によると、CapsNetに批判的な設計では、動的ルーティング層や変換プロセスといったロバスト性に悪影響を及ぼすものもあれば、ロバスト性には有益であるものもある。 これらの知見に基づいて,CapsNetの成功を支える重要なコンポーネントを導入することで,ConvNetの強化を提案する。 提案された単純なConvNetは、CapsNetよりも堅牢性が高い。

The Capsule Network is widely believed to be more robust than Convolutional Networks. However, there are no comprehensive comparisons between these two networks, and it is also unknown which components in the CapsNet affect its robustness. In this paper, we first carefully examine the special designs in CapsNet that differ from that of a ConvNet commonly used for image classification. The examination reveals five major new/different components in CapsNet: a transformation process, a dynamic routing layer, a squashing function, a marginal loss other than cross-entropy loss, and an additional class-conditional reconstruction loss for regularization. Along with these major differences, we conduct comprehensive ablation studies on three kinds of robustness, including affine transformation, overlapping digits, and semantic representation. The study reveals that some designs, which are thought critical to CapsNet, actually can harm its robustness, i.e., the dynamic routing layer and the transformation process, while others are beneficial for the robustness. Based on these findings, we propose enhanced ConvNets simply by introducing the essential components behind the CapsNet's success. The proposed simple ConvNets can achieve better robustness than the CapsNet.
翻訳日:2021-03-30 14:54:06 公開日:2021-03-29
# リモートセンシングシーン分類における階層的アプローチ

A Hierarchical Approach to Remote Sensing Scene Classification ( http://arxiv.org/abs/2103.15463v1 )

ライセンス: Link先を確認
Ozlem Sen and Hacer Yalim Keles(参考訳) リモートセンシングシーン分類は、画像から領域の土地利用/被覆を分類する問題を扱う。 都市の発達・社会経済構造を予測するため,地域における土地利用状況は各国の地図作成機関が追跡している。 これらの機関の多くは、複数のレベルに配置された土地利用タイプを使用している。 本稿では,このような配置に適した階層型cnnフレームワークの効率について検討した。 実験にはNWPU-RESISC45データセットを使用し、このデータセットを2レベルのネスト階層に配置した。 DenseNet-121アーキテクチャを使い始めた2つのディープCNNモデルがあります。 我々は,この階層的スキームと非階層的スキームの性能と個々のモデル性能を比較するために,詳細な経験的分析を行う。 また,階層構造の性能を統計的に評価し,実験結果の検証を行った。 実験の結果,階層構造における異なるサブカテゴリの個別分類器の性能は良好であるが,階層構造における分類誤差の蓄積は,非階層深層モデルの分類性能を上回らないことを示した。

Remote sensing scene classification deals with the problem of classifying land use/cover of a region from images. To predict the development and socioeconomic structures of cities, the status of land use in regions are tracked by the national mapping agencies of countries. Many of these agencies use land use types that are arranged in multiple levels. In this paper, we examined the efficiency of a hierarchically designed CNN based framework that is suitable for such arrangements. We use NWPU-RESISC45 dataset for our experiments and arranged this data set in a two level nested hierarchy. We have two cascaded deep CNN models initiated using DenseNet-121 architectures. We provide detailed empirical analysis to compare the performances of this hierarchical scheme and its non hierarchical counterpart, together with the individual model performances. We also evaluated the performance of the hierarchical structure statistically to validate the presented empirical results. The results of our experiments show that although individual classifiers for different sub-categories in the hierarchical scheme perform well, the accumulation of classification errors in the cascaded structure prevents its classification performance from exceeding that of the non hierarchical deep model.
翻訳日:2021-03-30 14:53:48 公開日:2021-03-29
# スタイルから離れる:意味セグメンテーションのためのカテゴリ誘導ドメイン適応

Get away from Style: Category-Guided Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2103.15467v1 )

ライセンス: Link先を確認
Yantian Luo, Zhiming Wang, Danlan Huang, Ning Ge and Jianhua Lu(参考訳) 非教師なしドメイン適応(UDA)は、ターゲットドメインの根本的真理なしに現実世界の問題に取り組むことでますます人気を増している。 大量の退屈なアノテーション作業は必要ないが、UDAは必然的に、転送性能を高めるためにドメインの不一致を狭める方法に直面する。 本稿では,セマンティックセグメンテーションタスクにおけるUDAに着目した。 まず,抽出した特徴のスタイル情報を類似した空間に保持するスタイル非依存のコンテンツ特徴抽出機構を提案する。 次に,各カテゴリの擬似ラベルのバランスを保ちながら,自己教師付き学習のためのカテゴリ別擬似ラベルを選択するためのカテゴリ誘導しきい値機構を提案する。 実験はGTA5をソースドメインとして、Cityscapesをターゲットドメインとして実施する。 その結果,我々のモデルはクロスドメイン適応タスクにおいて,最先端の手法よりも優れていることがわかった。

Unsupervised domain adaptation (UDA) becomes more and more popular in tackling real-world problems without ground truth of the target domain. Though a mass of tedious annotation work is not needed, UDA unavoidably faces the problem how to narrow the domain discrepancy to boost the transferring performance. In this paper, we focus on UDA for semantic segmentation task. Firstly, we propose a style-independent content feature extraction mechanism to keep the style information of extracted features in the similar space, since the style information plays a extremely slight role for semantic segmentation compared with the content part. Secondly, to keep the balance of pseudo labels on each category, we propose a category-guided threshold mechanism to choose category-wise pseudo labels for self-supervised learning. The experiments are conducted using GTA5 as the source domain, Cityscapes as the target domain. The results show that our model outperforms the state-of-the-arts with a noticeable gain on cross-domain adaptation tasks.
翻訳日:2021-03-30 14:53:32 公開日:2021-03-29
# 深さ推定のための適応表面正規制約

Adaptive Surface Normal Constraint for Depth Estimation ( http://arxiv.org/abs/2103.15483v1 )

ライセンス: Link先を確認
Xiaoxiao Long, Cheng Lin, Lingjie Liu, Wei Li, Christian Theobalt, Ruigang Yang, Wenping Wang(参考訳) 本研究では,表面正規制約を用いた単一画像深度推定法を提案する。 既存の深さ推定法は幾何学的制約の欠如に苦しむか、幾何学的文脈を確実に捉えることの困難さに制限され、深さ推定品質のボトルネックとなる。 そこで, 適応曲面正規化法 (ASN) という簡単な手法を導入し, 深度推定と幾何整合性を効果的に相関させる。 我々のキーとなる考え方は、ランダムにサンプリングされた候補の集合から信頼性のある局所幾何学を適応的に決定し、幾何学的文脈特徴の整合性を測定する表面正規制約を導出することである。 その結果,本手法は3次元形状を忠実に再構築することができ,境界,鋭角,雑音などの局所的な形状変化に対して頑健である。 我々は,公開データセットを用いて広範な評価と比較を行う。 実験の結果,本手法は最先端の手法よりも優れ,効率と堅牢性に優れていた。

We present a novel method for single image depth estimation using surface normal constraints. Existing depth estimation methods either suffer from the lack of geometric constraints, or are limited to the difficulty of reliably capturing geometric context, which leads to a bottleneck of depth estimation quality. We therefore introduce a simple yet effective method, named Adaptive Surface Normal (ASN) constraint, to effectively correlate the depth estimation with geometric consistency. Our key idea is to adaptively determine the reliable local geometry from a set of randomly sampled candidates to derive surface normal constraint, for which we measure the consistency of the geometric contextual features. As a result, our method can faithfully reconstruct the 3D geometry and is robust to local shape variations, such as boundaries, sharp corners and noises. We conduct extensive evaluations and comparisons using public datasets. The experimental results demonstrate our method outperforms the state-of-the-art methods and has superior efficiency and robustness.
翻訳日:2021-03-30 14:53:16 公開日:2021-03-29
# トラッキングに基づくシーンテキストビデオの半自動アノテーション

Tracking Based Semi-Automatic Annotation for Scene Text Videos ( http://arxiv.org/abs/2103.15488v1 )

ライセンス: Link先を確認
Jiajun Zhu, Xiufeng Jiang, Zhiwei Jia, Shugong Xu, Shan Cao(参考訳) 近年,その包括的応用により映像シーンのテキスト検出が注目されている。 しかし、注釈付きシーンテキストビデオデータセットが欠如していることは、ビデオシーンテキスト検出の開発を妨げる最も重要な問題の一つとなっている。 既存のシーンテキストビデオデータセットは、手動ラベリングによるコストがかかるため、大規模なものではない。 さらに、これらのデータセットのテキストインスタンスは、あまりにも明確であり、課題である。 本稿では,上記の問題に対処するために,シーンテキストビデオの追跡に基づくセミオートマチックラベリング戦略を提案する。 最初のフレームを手動でラベリングし、その後のフレームを自動的にトラッキングすることで、半自動的なシーンテキストアノテーションを取得します。 さらに,提案する半自動ラベリング戦略によってラベル付けされた生映像,ぼやけた映像,低解像度映像からなる,text-rblという2組の低品質シーンテキストビデオデータセットを提案する。 生映像に対する平均動作とbicubicダウンサンプリング操作により、生映像とペアリングしたぼやけた映像と低解像度映像を効率的に得ることができる。 Text-RBLの有効性を検証するために,ビデオシーンテキスト検出のためのテキスト検出器とトラッカーを組み合わせたベースラインモデルを提案する。 さらに,複雑なシーンによるベースラインモデルドリフト問題を軽減するために,故障検出方式が設計されている。 半自動方式でラベル付けされた低品質動画をペアにしたテキストRBLは、低品質シーンにおけるテキスト検出器の性能を著しく向上することを示した。

Recently, video scene text detection has received increasing attention due to its comprehensive applications. However, the lack of annotated scene text video datasets has become one of the most important problems, which hinders the development of video scene text detection. The existing scene text video datasets are not large-scale due to the expensive cost caused by manual labeling. In addition, the text instances in these datasets are too clear to be a challenge. To address the above issues, we propose a tracking based semi-automatic labeling strategy for scene text videos in this paper. We get semi-automatic scene text annotation by labeling manually for the first frame and tracking automatically for the subsequent frames, which avoid the huge cost of manual labeling. Moreover, a paired low-quality scene text video dataset named Text-RBL is proposed, consisting of raw videos, blurry videos, and low-resolution videos, labeled by the proposed convenient semi-automatic labeling strategy. Through an averaging operation and bicubic down-sampling operation over the raw videos, we can efficiently obtain blurry videos and low-resolution videos paired with raw videos separately. To verify the effectiveness of Text-RBL, we propose a baseline model combined with the text detector and tracker for video scene text detection. Moreover, a failure detection scheme is designed to alleviate the baseline model drift issue caused by complex scenes. Extensive experiments demonstrate that Text-RBL with paired low-quality videos labeled by the semi-automatic method can significantly improve the performance of the text detector in low-quality scenes.
翻訳日:2021-03-30 14:53:00 公開日:2021-03-29
# 単一3次元点のカレイドスコープ投影による多重ミラー系の構造

Structure of Multiple Mirror System from Kaleidoscopic Projections of Single 3D Point ( http://arxiv.org/abs/2103.15501v1 )

ライセンス: Link先を確認
Kosuke Takahashi and Shohei Nobuhara(参考訳) 本稿では,複数の平面ミラーとカメラから構成されるカレイドスコピックイメージングシステムの構造を発見するための新しいアルゴリズムを提案する。 kaleidoscopic imaging systemは仮想マルチカメラシステムとして認識でき、仮想カメラが厳密に同期され、同じ固有パラメータを持つという大きな利点がある。 本稿では,仮想マルチカメラシステムの過渡的キャリブレーションに注目する。 この論文で解決すべき問題は2つある。 第1の問題は、鏡面3d点の2次元射影がどの鏡室に属するかを特定することである。 第2の問題は、ミラーのすべてのパラメータ、すなわち正規値と距離を推定することである。 本稿では,鏡面反射のエピポーラ制約であるカレイドスコープ射影制約を用いて,未知幾何学の単一3次元点を用いて,これらの問題に対する新しいアルゴリズムを提案する。 本研究では,合成および実データを用いた定性的・定量的評価を行い,室内配置アルゴリズムの性能とミラーパラメータの推定を実証する。

This paper proposes a novel algorithm of discovering the structure of a kaleidoscopic imaging system that consists of multiple planar mirrors and a camera. The kaleidoscopic imaging system can be recognized as the virtual multi-camera system and has strong advantages in that the virtual cameras are strictly synchronized and have the same intrinsic parameters. In this paper, we focus on the extrinsic calibration of the virtual multi-camera system. The problems to be solved in this paper are two-fold. The first problem is to identify to which mirror chamber each of the 2D projections of mirrored 3D points belongs. The second problem is to estimate all mirror parameters, i.e., normals, and distances of the mirrors. The key contribution of this paper is to propose novel algorithms for these problems using a single 3D point of unknown geometry by utilizing a kaleidoscopic projection constraint, which is an epipolar constraint on mirror reflections. We demonstrate the performance of the proposed algorithm of chamber assignment and estimation of mirror parameters with qualitative and quantitative evaluations using synthesized and real data.
翻訳日:2021-03-30 14:52:37 公開日:2021-03-29
# 3次元人文推定におけるコンテキストモデリング:統一的視点

Context Modeling in 3D Human Pose Estimation: A Unified Perspective ( http://arxiv.org/abs/2103.15507v1 )

ライセンス: Link先を確認
Xiaoxuan Ma, Jiajun Su, Chunyu Wang, Hai Ci and Yizhou Wang(参考訳) 一つの画像から3Dのポーズを推定することは、複数の3D関節構成が同じ2D投影を持つため、深刻な曖昧さに悩まされる。 最先端の手法は、曖昧さを減らすために、画像構造モデル(PSM)やグラフニューラルネットワーク(GNN)のようなコンテキストモデリング手法に依存することが多い。 しかし、厳格に並べて比較する研究は行われていない。 そこで、まず、PSMとGNNの両方が特殊なケースであるコンテキストモデリングの一般的な公式を示す。 両手法を比較して, GNN の終末訓練法と PSM の辺縁長制約が相補的要因であることを確認した。 これらの利点を組み合わせるために,深層ネットワークにおける軟部肢長制約を強制する注意機構に基づくContextPoseを提案する。 このアプローチは、不条理な3dポーズ推定を不正確な四肢の長さで得る機会を効果的に削減し、2つのベンチマークデータセットで最先端の結果を得る。 さらに、深層ネットワークに四肢長制約を導入することにより、より優れた一般化性能を実現することができる。

Estimating 3D human pose from a single image suffers from severe ambiguity since multiple 3D joint configurations may have the same 2D projection. The state-of-the-art methods often rely on context modeling methods such as pictorial structure model (PSM) or graph neural network (GNN) to reduce ambiguity. However, there is no study that rigorously compares them side by side. So we first present a general formula for context modeling in which both PSM and GNN are its special cases. By comparing the two methods, we found that the end-to-end training scheme in GNN and the limb length constraints in PSM are two complementary factors to improve results. To combine their advantages, we propose ContextPose based on attention mechanism that allows enforcing soft limb length constraints in a deep network. The approach effectively reduces the chance of getting absurd 3D pose estimates with incorrect limb lengths and achieves state-of-the-art results on two benchmark datasets. More importantly, the introduction of limb length constraints into deep networks enables the approach to achieve much better generalization performance.
翻訳日:2021-03-30 14:52:21 公開日:2021-03-29
# trafficqa: トラフィックイベントに対するビデオ推論のための質問応答ベンチマークと効率的なネットワーク

TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic Events ( http://arxiv.org/abs/2103.15538v1 )

ライセンス: Link先を確認
Li Xu, He Huang and Jun Liu(参考訳) ビデオにおける交通イベントの認識と推論は、インテリジェントな輸送、アシスト運転、自動運転車に幅広く応用されている重要なタスクである。 本稿では,複雑な交通シナリオにおける因果推論と事象理解モデルの認知能力を評価するために,収集した10,080件のビデオと注釈付き62,535件のQAペアに基づいて,ビデオQAの形式を取り入れた新しいデータセットであるTraffic Question Answering(Traffic Question Answering)を作成する。 具体的には,様々な交通シナリオに対応する難解な推論タスクを6つ提案し,様々な種類の複雑かつ実用的な交通イベントに対する推論能力を評価する。 さらに,計算効率が高く信頼性の高いビデオ推論を実現するために,動的推論による新しい視覚ネットワークであるEclipseを提案する。 本手法は計算コストを大幅に削減しながら優れた性能を実現することを示す。 プロジェクトページ:https://github.com/ SUTDCV/SUTD-TrafficQ A。

Traffic event cognition and reasoning in videos is an important task that has a wide range of applications in intelligent transportation, assisted driving, and autonomous vehicles. In this paper, we create a novel dataset, TrafficQA (Traffic Question Answering), which takes the form of video QA based on the collected 10,080 in-the-wild videos and annotated 62,535 QA pairs, for benchmarking the cognitive capability of causal inference and event understanding models in complex traffic scenarios. Specifically, we propose 6 challenging reasoning tasks corresponding to various traffic scenarios, so as to evaluate the reasoning capability over different kinds of complex yet practical traffic events. Moreover, we propose Eclipse, a novel Efficient glimpse network via dynamic inference, in order to achieve computation-efficien t and reliable video reasoning. The experiments show that our method achieves superior performance while reducing the computation cost significantly. The project page: https://github.com/S UTDCV/SUTD-TrafficQA .
翻訳日:2021-03-30 14:52:01 公開日:2021-03-29
# イベントとフレームからの6次元物体の動きの追跡

Tracking 6-DoF Object Motion from Events and Frames ( http://arxiv.org/abs/2103.15568v1 )

ライセンス: Link先を確認
Haolong Li and Joerg Stueckler(参考訳) イベントカメラは低遅延追跡と高ダイナミックレンジイメージングのための有望なデバイスである。 本稿では,6自由度(6-DoF)物体の動き追跡のための新しい手法を提案する。 物体の事象計測過程の確率的生成モデルを用いて,高次事象からの追跡を定式化する。 第2の層では、物体の軌道をより遅い速度の画像フレームでディレクティブアライメントにより洗練する。 合成データを用いた非定常物体追跡シナリオの精度を評価し,実データを用いた実験を行う。

Event cameras are promising devices for lowlatency tracking and high-dynamic range imaging. In this paper,we propose a novel approach for 6 degree-of-freedom (6-DoF)object motion tracking that combines measurements of eventand frame-based cameras. We formulate tracking from highrate events with a probabilistic generative model of the eventmeasurement process of the object. On a second layer, we refinethe object trajectory in slower rate image frames through directimage alignment. We evaluate the accuracy of our approach inseveral object tracking scenarios with synthetic data, and alsoperform experiments with real data.
翻訳日:2021-03-30 14:51:44 公開日:2021-03-29
# 人間GPS:複雑な人間対応のためのジオデシック・プレサービング機能

HumanGPS: Geodesic PreServing Feature for Dense Human Correspondences ( http://arxiv.org/abs/2103.15573v1 )

ライセンス: Link先を確認
Feitong Tan, Danhang Tang, Mingsong Dou, Kaiwen Guo, Rohit Pandey, Cem Keskin, Ruofei Du, Deqing Sun, Sofien Bouaziz, Sean Fanello, Ping Tan, Yinda Zhang(参考訳) 本稿では、任意のカメラ視点と身体ポーズの下で人間の画像間の密接な対応を構築する問題に対処する。 先行芸術は、フレーム間の小さな動きを仮定するか、または局所的なディスクリプタに依存しており、大きな動きや視覚的に曖昧な身体部分(例えば左手と右手)を扱えない。 対照的に,各画素を特徴空間にマッピングする深層学習フレームワークを提案し,特徴距離は3次元人間のスキャンの表面に投影されたかのように画素間の測地距離を反映している。 この目的のために,表面上の測地線距離に応じて特徴を分割する新しい損失関数を導入する。 セマンティックアノテーションがなければ、提案する埋め込みは自動的に学習し、視覚的に類似した部分を区別し、異なる主題を統一された機能空間にまとめる。 広汎な実験により、学習した埋め込みは、被写体内および被写体間の顕著な一般化能力を持つ画像間の正確な対応を生成できることが示されている。

In this paper, we address the problem of building dense correspondences between human images under arbitrary camera viewpoints and body poses. Prior art either assumes small motion between frames or relies on local descriptors, which cannot handle large motion or visually ambiguous body parts, e.g., left vs. right hand. In contrast, we propose a deep learning framework that maps each pixel to a feature space, where the feature distances reflect the geodesic distances among pixels as if they were projected onto the surface of a 3D human scan. To this end, we introduce novel loss functions to push features apart according to their geodesic distances on the surface. Without any semantic annotation, the proposed embeddings automatically learn to differentiate visually similar parts and align different subjects into an unified feature space. Extensive experiments show that the learned embeddings can produce accurate correspondences between images with remarkable generalization capabilities on both intra and inter subjects.
翻訳日:2021-03-30 14:51:37 公開日:2021-03-29
# ファインコアスネットワークを用いた映像分類

Video Classification with FineCoarse Networks ( http://arxiv.org/abs/2103.15584v1 )

ライセンス: Link先を確認
Guoxi Huang and Adrian G. Bors(参考訳) 周波数解析により、映像データ中の情報のリッチな表現を実現することができる。 移動領域の境界からの細かい動きの詳細は、時空間領域の高周波によって特徴づけられる。 一方、低い周波数は、かなりの冗長性を含む粗い情報を符号化し、入力された生のRGBフレームであるビデオモデルに低効率をもたらす。 本研究では,映像データの粗い情報から細粒度情報を分離するための移動帯域通過モジュール(MBPM)を提案する。 粗い情報を低解像度で表現することで,映像データ処理の効率を向上させることができる。 MBPMを双方向CNNアーキテクチャに埋め込むことで、FinCoarseネットワークを定義する。 2つの経路によって処理される特徴空間の冗長性を回避し、一方は低解像度データのダウンサンプリング特徴を、もう一方はmbpmが捉えた細粒度動き情報に基づいて、微細コアネットワークの効率を判定する。 The proposed FineCoarse network are many recent video processing model on Kinetics400, UCF101 and HMDB51。 さらに,本手法は,Something V1上で57.0%の精度で最先端を実現する。

A rich representation of the information in video data can be realized by means of frequency analysis. Fine motion details from the boundaries of moving regions are characterized by high frequencies in the spatio-temporal domain. Meanwhile, lower frequencies are encoded with coarse information containing substantial redundancy, which causes low efficiency for those video models that take as input raw RGB frames. In this work, we propose a Motion Band-pass Module (MBPM) for separating the fine-grained information from coarse information in raw video data. By representing the coarse information with low resolution, we can increase the efficiency of video data processing. By embedding the MBPM into a two-pathway CNN architecture, we define a FineCoarse network. The efficiency of the FineCoarse network is determined by avoiding the redundancy in the feature space processed by the two pathways: one operates on downsampled features of low-resolution data, while the other operates on the fine-grained motion information captured by the MBPM. The proposed FineCoarse network outperforms many recent video processing models on Kinetics400, UCF101 and HMDB51. Furthermore, our approach achieves the state-of-the-art with 57.0% top-1 accuracy on Something-Something V1.
翻訳日:2021-03-30 14:51:20 公開日:2021-03-29
# MVSNeRF:多視点ステレオによる高速一般化可能放射場再構成

MVSNeRF: Fast Generalizable Radiance Field Reconstruction from Multi-View Stereo ( http://arxiv.org/abs/2103.15595v1 )

ライセンス: Link先を確認
Anpei Chen, Zexiang Xu, Fuqiang Zhao, Xiaoshuai Zhang, Fanbo Xiang, Jingyi Yu and Hao Su(参考訳) MVSNeRFは、ビュー合成のための神経放射場を効率的に再構築できる新しいニューラルレンダリング手法である。 高密度にキャプチャされた画像に対して,シーン毎の最適化を考慮に入れたニューラルネットワークの先行研究とは異なり,高速ネットワーク推論により,近傍の3つの入力ビューのみからラミアンスフィールドを再構成できる汎用ディープニューラルネットワークを提案する。 本手法は,多視点ステレオで広く使用される平面スウェットコストボリュームを幾何認識シーン推論に活用し,それとニューラルネットワークの放射場再構成のための物理ベースボリュームレンダリングを組み合わせる。 DTUデータセットの実際のオブジェクト上でネットワークをトレーニングし、3つの異なるデータセット上でネットワークをテストし、その有効性と一般化性を評価する。 提案手法は,3つの入力画像のみを用いて,シーン間(屋内シーンであっても,対象のトレーニングシーンとはまったく異なる)を一般化し,リアルなビュー合成結果を生成する。 さらに、高密度画像が撮影されると、推定放射場表現を微調整しやすくなり、これにより、レンダリング品質が高く、NeRFよりもかなり少ない最適化時間が得られる。

We present MVSNeRF, a novel neural rendering approach that can efficiently reconstruct neural radiance fields for view synthesis. Unlike prior works on neural radiance fields that consider per-scene optimization on densely captured images, we propose a generic deep neural network that can reconstruct radiance fields from only three nearby input views via fast network inference. Our approach leverages plane-swept cost volumes (widely used in multi-view stereo) for geometry-aware scene reasoning, and combines this with physically based volume rendering for neural radiance field reconstruction. We train our network on real objects in the DTU dataset, and test it on three different datasets to evaluate its effectiveness and generalizability. Our approach can generalize across scenes (even indoor scenes, completely different from our training scenes of objects) and generate realistic view synthesis results using only three input images, significantly outperforming concurrent works on generalizable radiance field reconstruction. Moreover, if dense images are captured, our estimated radiance field representation can be easily fine-tuned; this leads to fast per-scene reconstruction with higher rendering quality and substantially less optimization time than NeRF.
翻訳日:2021-03-30 14:51:05 公開日:2021-03-29
# 単眼映像における人間の動きと外観の再ターゲティングの開発と評価

On Development and Evaluation of Retargeting Human Motion and Appearance in Monocular Videos ( http://arxiv.org/abs/2103.15596v1 )

ライセンス: Link先を確認
Thiago L. Gomes and Renato Martins and Jo\~ao Ferreira and Rafael Azevedo and Guilherme Torres and Erickson R. Nascimento(参考訳) 人間の動きと人間のアクターのビデオの出現は、コンピュータビジョンにおける重要な課題の1つだ。 近年のイメージ・ツー・イメージの翻訳手法の進歩にもかかわらず、ほとんどのエンドツーエンドの学習に基づく再ターゲティング手法がいまだに不十分な状況がいくつか存在する。 ある俳優から別の俳優に人間の外見を移すことは、厳格な設定が満たされた場合にのみ保証される。 本論文の貢献は2つある: まず, 最先端のニューラルレンダリング手法と比較して, 競争力のある視覚的リターゲティング品質を示すハイブリッド画像ベースレンダリング技術に基づく, 新規で高性能なアプローチを提案する。 3d及び2d画像領域における動きの物理的制約を考慮しつつ、ユーザ体形状を再ターゲティングに活用する。 また、人間の動画を合成するタスクを評価するために、人間の動きを付加した様々なビデオからなる新しいビデオ再ターゲットベンチマークデータセットを提案する。 データセットとその評価プロトコルは、より一般的で困難な条件下で再ターゲティングメソッドを評価するように設計されている。 本手法は,異なる形状,モーションタイプ,カメラ設定のアクターの映像を公開して,いくつかの実験で検証した。 データセットと再ターゲティングコードは、https://www.verlab.d cc.ufmg.br/retargeti ng-motion.comで公開されている。

Transferring human motion and appearance between videos of human actors remains one of the key challenges in Computer Vision. Despite the advances from recent image-to-image translation approaches, there are several transferring contexts where most end-to-end learning-based retargeting methods still perform poorly. Transferring human appearance from one actor to another is only ensured when a strict setup has been complied, which is generally built considering their training regime's specificities. The contribution of this paper is two-fold: first, we propose a novel and high-performant approach based on a hybrid image-based rendering technique that exhibits competitive visual retargeting quality compared to state-of-the-art neural rendering approaches. The formulation leverages user body shape into the retargeting while considering physical constraints of the motion in 3D and the 2D image domain. We also present a new video retargeting benchmark dataset composed of different videos with annotated human motions to evaluate the task of synthesizing people's videos, which can be used as a common base to improve tracking the progress in the field. The dataset and its evaluation protocols are designed to evaluate retargeting methods in more general and challenging conditions. Our method is validated in several experiments, comprising publicly available videos of actors with different shapes, motion types and camera setups. The dataset and retargeting code are publicly available to the community at: https://www.verlab.d cc.ufmg.br/retargeti ng-motion.
翻訳日:2021-03-30 14:50:42 公開日:2021-03-29
# GNeRF:Posed Cameraを使わずにGANベースのニューラルラジアンスフィールド

GNeRF: GAN-based Neural Radiance Field without Posed Camera ( http://arxiv.org/abs/2103.15606v1 )

ライセンス: Link先を確認
Quan Meng, Anpei Chen, Haimin Luo, Minye Wu, Hao Su, Lan Xu, Xuming He, Jingyi Yu(参考訳) gnerf(generative adversarial networks (gan) とニューラルネットワークのラジアンスフィールド再構成を融合したフレームワークで、未知の、あるいはランダムに初期化されたカメラポーズを持つ複雑なシナリオについて紹介する。 最近のNeRFベースの進歩は、目覚ましいリアルなノベルビューの合成で人気を博している。 しかし、ほとんどが正確なカメラポーズの推定に大きく依存しているが、比較的短いカメラ軌跡を持つほぼ前方のシーンで未知のカメラポーズを最適化し、粗いカメラポーズの初期化を必要とする最近の方法はほとんどない。 異なることに、GNeRFは複雑な外付けシナリオに対してランダムに初期化されたポーズのみを使用する。 本稿では,新しい2段階のエンドツーエンドフレームワークを提案する。 第1フェーズでは、粗いカメラポーズと放射場を共同最適化するための新しい領域にGANを取り入れ、第2フェーズでは、さらなる光損失でそれらを洗練する。 ハイブリッドおよび反復最適化方式を用いて局所最小化を克服する。 様々な合成シーンと自然シーンの大規模な実験は、GNeRFの有効性を実証している。 より印象的なことに、我々のアプローチは、これまで非常に難しいと見なされた繰り返しパターンや低テクスチャを持つシーンにおいて、ベースラインよりも優れたのです。

We introduce GNeRF, a framework to marry Generative Adversarial Networks (GAN) with Neural Radiance Field reconstruction for the complex scenarios with unknown and even randomly initialized camera poses. Recent NeRF-based advances have gained popularity for remarkable realistic novel view synthesis. However, most of them heavily rely on accurate camera poses estimation, while few recent methods can only optimize the unknown camera poses in roughly forward-facing scenes with relatively short camera trajectories and require rough camera poses initialization. Differently, our GNeRF only utilizes randomly initialized poses for complex outside-in scenarios. We propose a novel two-phases end-to-end framework. The first phase takes the use of GANs into the new realm for coarse camera poses and radiance fields jointly optimization, while the second phase refines them with additional photometric loss. We overcome local minima using a hybrid and iterative optimization scheme. Extensive experiments on a variety of synthetic and natural scenes demonstrate the effectiveness of GNeRF. More impressively, our approach outperforms the baselines favorably in those scenes with repeated patterns or even low textures that are regarded as extremely challenging before.
翻訳日:2021-03-30 14:50:17 公開日:2021-03-29
# 映像理解のための統一グラフ構造化モデル

Unified Graph Structured Models for Video Understanding ( http://arxiv.org/abs/2103.15662v1 )

ライセンス: Link先を確認
Anurag Arnab, Chen Sun, Cordelia Schmid(参考訳) 正確なビデオ理解は、しばしば長い時間間隔で、アクター、オブジェクト、環境間の関係を推論することを伴う。 本稿では,これらの時空間関係を明示的にモデル化し,監視可能であればオブジェクトの明示的な表現を,それ以外の場合には暗黙表現を使用できるメッセージパッシンググラフニューラルネットワークを提案する。 提案方式では,従来の映像理解のための構造化モデルを一般化し,グラフ構造と表現における異なる設計選択がモデルの性能にどのように影響するかを検証できる。 本稿では,ビデオ中の関係推論を必要とする2つのタスク,すなわちAVAとUCF101-24の時空間的行動検出,および最近のAction Genomeデータセットの映像シーングラフ分類について示す。 さらに,シーン内の関連エンティティ間の関係をより効果的にモデル化する方法を定量的かつ定性的に示す。

Accurate video understanding involves reasoning about the relationships between actors, objects and their environment, often over long temporal intervals. In this paper, we propose a message passing graph neural network that explicitly models these spatio-temporal relations and can use explicit representations of objects, when supervision is available, and implicit representations otherwise. Our formulation generalises previous structured models for video understanding, and allows us to study how different design choices in graph structure and representation affect the model's performance. We demonstrate our method on two different tasks requiring relational reasoning in videos -- spatio-temporal action detection on AVA and UCF101-24, and video scene graph classification on the recent Action Genome dataset -- and achieve state-of-the-art results on all three datasets. Furthermore, we show quantitatively and qualitatively how our method is able to more effectively model relationships between relevant entities in the scene.
翻訳日:2021-03-30 14:49:59 公開日:2021-03-29
# ドメイン適応のための適応的ブースティング:シーンセグメンテーションにおけるロバスト予測に向けて

Adaptive Boosting for Domain Adaptation: Towards Robust Predictions in Scene Segmentation ( http://arxiv.org/abs/2103.15685v1 )

ライセンス: Link先を確認
Zhedong Zheng and Yi Yang(参考訳) ドメイン適応とは、ソースドメインから学んだ共有知識を新しい環境、すなわちターゲットドメインに転送することである。 一般的には、ラベル付きソースドメインデータとラベルなしターゲットドメインデータの両方でモデルをトレーニングする。 しかし、学習モデルは通常、ソースドメインの強い監督のためにバイアスを受けます。 ほとんどの研究者は、過度な適合を防ぐために早期停止戦略を採用するが、目標ドメイン検証セットが欠如しているため、トレーニングの中止は難しい問題である。 本稿では,学習中の補完モデルを明確に学習し,ユーザを経験的早期停止から解放する,Adaboost Studentsと呼ばれる効率的なブートストラップ手法を提案する。 adaboostの学生は、ディープラーニングと従来のトレーニング戦略、すなわち適応的ブースティングを組み合わせることで、学習モデルとデータサンプル間のインタラクションを可能にする。 ハードサンプルの学習を段階的に促進し,<weak'モデルを集約して過度な適合を防止するために,適応型データサンプリング器を1つ導入する。 AdaBoost Studentsは,(1)停止時間の心配を伴わずに,学習中の補完的モデル学習を効率的に行うことで,一つの堅牢なソリューションを提供する。 2)adaboostの学生は,ほとんどのドメイン適応法と直交しており,既存の手法と組み合わせることで,最先端のパフォーマンスをさらに向上することができる。 3つの広く使われているシーンセグメンテーション領域適応ベンチマークにおいて、競合的な結果を得た。

Domain adaptation is to transfer the shared knowledge learned from the source domain to a new environment, i.e., target domain. One common practice is to train the model on both labeled source-domain data and unlabeled target-domain data. Yet the learned models are usually biased due to the strong supervision of the source domain. Most researchers adopt the early-stopping strategy to prevent over-fitting, but when to stop training remains a challenging problem since the lack of the target-domain validation set. In this paper, we propose one efficient bootstrapping method, called Adaboost Student, explicitly learning complementary models during training and liberating users from empirical early stopping. Adaboost Student combines the deep model learning with the conventional training strategy, i.e., adaptive boosting, and enables interactions between learned models and the data sampler. We adopt one adaptive data sampler to progressively facilitate learning on hard samples and aggregate ``weak'' models to prevent over-fitting. Extensive experiments show that (1) Without the need to worry about the stopping time, AdaBoost Student provides one robust solution by efficient complementary model learning during training. (2) AdaBoost Student is orthogonal to most domain adaptation methods, which can be combined with existing approaches to further improve the state-of-the-art performance. We have achieved competitive results on three widely-used scene segmentation domain adaptation benchmarks.
翻訳日:2021-03-30 14:49:43 公開日:2021-03-29
# ViViT:ビデオビジョン変換器

ViViT: A Video Vision Transformer ( http://arxiv.org/abs/2103.15691v1 )

ライセンス: Link先を確認
Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lu\v{c}i\'c, Cordelia Schmid(参考訳) 本稿では,映像分類における最近の成功を例として,映像分類のための純粋変換モデルを提案する。 本モデルは入力映像から時空間トークンを抽出し,一連のトランスフォーマー層によって符号化する。 ビデオで遭遇するトークンの長い列を扱うために,入力の空間的次元と時間的次元を分解するモデルのいくつかの効率的な変種を提案する。 トランスフォーマーベースのモデルは、大規模なトレーニングデータセットが利用可能である場合にのみ有効であることが知られているが、トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。 本研究では,完全アブレーション実験を行い,速度400,600,エピックキッチン,何かv2,時間モーメントを含む複数のビデオ分類ベンチマークにおいて,より深い3次元畳み込みネットワークに基づく先行手法を上回って最新の結果を得た。 さらなる研究を促進するため、コードとモデルをリリースします。

We present pure-transformer based models for video classification, drawing upon the recent success of such models in image classification. Our model extracts spatio-temporal tokens from the input video, which are then encoded by a series of transformer layers. In order to handle the long sequences of tokens encountered in video, we propose several, efficient variants of our model which factorise the spatial- and temporal-dimensions of the input. Although transformer-based models are known to only be effective when large training datasets are available, we show how we can effectively regularise the model during training and leverage pretrained image models to be able to train on comparatively small datasets. We conduct thorough ablation studies, and achieve state-of-the-art results on multiple video classification benchmarks including Kinetics 400 and 600, Epic Kitchens, Something-Something v2 and Moments in Time, outperforming prior methods based on deep 3D convolutional networks. To facilitate further research, we will release code and models.
翻訳日:2021-03-30 14:49:20 公開日:2021-03-29
# 変分拒否粒子フィルタリング

Variational Rejection Particle Filtering ( http://arxiv.org/abs/2103.15343v1 )

ライセンス: Link先を確認
Rahul Sharma, Soumya Banerjee, Dootika Vats, Piyush Rai(参考訳) 本稿では, 逐次的モンテカルロ(粒子フィルタリング)と<emph{approximate}リジェクションサンプリングを統合し, 変動分布の柔軟な族を構築するための変分推論(vi)フレームワークを提案する。 さらに,ベルヌーイ工場の一般化であるベルヌーイ・レース(bernoulli race)による再サンプリングにより,このアプローチを補強し,限界確率の低分散推定値を得る。 我々のフレームワークであるVRPFは、変分パラメータに関して効率よく最適化でき、VI文献におけるいくつかの既存手法を一般化できる、新しい変分確率境界を導出する。 また、変動境界の理論的性質を示し、ガウス状態空間モデルや変動リカレントニューラルネット(VRNN)など、様々なシーケンシャルデータのモデル実験を行い、VRPFが既存のVI法よりも優れていることを示す。

We present a variational inference (VI) framework that unifies and leverages sequential Monte-Carlo (particle filtering) with \emph{approximate} rejection sampling to construct a flexible family of variational distributions. Furthermore, we augment this approach with a resampling step via Bernoulli race, a generalization of a Bernoulli factory, to obtain a low-variance estimator of the marginal likelihood. Our framework, Variational Rejection Particle Filtering (VRPF), leads to novel variational bounds on the marginal likelihood, which can be optimized efficiently with respect to the variational parameters and generalizes several existing approaches in the VI literature. We also present theoretical properties of the variational bound and demonstrate experiments on various models of sequential data, such as the Gaussian state-space model and variational recurrent neural net (VRNN), on which VRPF outperforms various existing state-of-the-art VI methods.
翻訳日:2021-03-30 14:47:56 公開日:2021-03-29
# 異種専門家の混合によるグラフ分類

Graph Classification by Mixture of Diverse Experts ( http://arxiv.org/abs/2103.15622v1 )

ライセンス: Link先を確認
Fenyu Hu, Liping Wang, Shu Wu, Liang Wang, Tieniu Tan(参考訳) グラフ分類は、幅広い領域にわたる多くのアプリケーションにおいて難しい研究課題である。 これらのアプリケーションでは、クラス分布が不均衡であることが非常に一般的である。 最近、グラフニューラルネットワーク(GNN)モデルは、様々な実世界のデータセットで優れたパフォーマンスを実現している。 彼らの成功にもかかわらず、現在のGNNモデルのほとんどは、大半が不均衡なクラス分布の重要な設定を見落としている。 予測バイアスを緩和するために,ノード埋め込みの分布に基づくデータセットのセマンティクス構造を活用することを提案する。 具体的には,不均衡なグラフ分類のための多種多様な専門家(グラフ分類器)の混合を利用した一般フレームワークであるGraphDIVEを提案する。 GraphDIVEは分割・分散の原則で、不均衡なグラフデータセットをいくつかのサブセットに分割するためにゲーティングネットワークを使用している。 そして、各エキスパートネットワークは、対応するサブセットに基づいてトレーニングされる。 実世界の不均衡グラフデータセットの実験は、GraphDIVEの有効性を示す。

Graph classification is a challenging research problem in many applications across a broad range of domains. In these applications, it is very common that class distribution is imbalanced. Recently, Graph Neural Network (GNN) models have achieved superior performance on various real-world datasets. Despite their success, most of current GNN models largely overlook the important setting of imbalanced class distribution, which typically results in prediction bias towards majority classes. To alleviate the prediction bias, we propose to leverage semantic structure of dataset based on the distribution of node embedding. Specifically, we present GraphDIVE, a general framework leveraging mixture of diverse experts (i.e., graph classifiers) for imbalanced graph classification. With a divide-and-conquer principle, GraphDIVE employs a gating network to partition an imbalanced graph dataset into several subsets. Then each expert network is trained based on its corresponding subset. Experiments on real-world imbalanced graph datasets demonstrate the effectiveness of GraphDIVE.
翻訳日:2021-03-30 14:46:52 公開日:2021-03-29
# ニューラルネットワーク生成のためのAPI依存グラフの埋め込み

Embedding API Dependency Graph for Neural Code Generation ( http://arxiv.org/abs/2103.15361v1 )

ライセンス: Link先を確認
Chen Lyu, Ruyun Wang, Hongyu Zhang, Hanwen Zhang, Songlin Hu(参考訳) テキストによるプログラム記述からコードを生成するという問題は、ソフトウェア工学における大きな課題と見なされてきた。 近年、テキストによるプログラム記述のシーケンスから一連のコードを生成できるディープラーニングベースのアプローチが数多く提案されている。 しかし、既存のアプローチはAPIの利用を理解する上で重要なAPIメソッド間のグローバルな関係を無視している。 本稿では,APIメソッド間の依存関係をAPI依存グラフ(ADG)としてモデル化し,シーケンシャル・ツー・シーケンス(Seq2Seq)モデルにグラフを組み込むことを提案する。 既存のエンコーダ-デコーダ構造に加えて、 ``embedder" という新しいモジュールが導入されている。 このようにして、デコーダは、ターゲットコードを予測するために、グローバル構造依存性とテキストプログラム記述の両方を利用することができる。 3つの公開データセットと2つのプログラミング言語(PythonとJava)でコード生成実験を行う。 提案手法は adg-seq2seq と呼ばれ,既存の最先端メソッドよりも大幅に改善され,対象コードの長さが増加するにつれて性能が維持される。 広範囲なアブレーション試験の結果,ADGの埋め込みは有効であり,ベースラインよりも優れていた。

The problem of code generation from textual program descriptions has long been viewed as a grand challenge in software engineering. In recent years, many deep learning based approaches have been proposed, which can generate a sequence of code from a sequence of textual program description. However, the existing approaches ignore the global relationships among API methods, which are important for understanding the usage of APIs. In this paper, we propose to model the dependencies among API methods as an API dependency graph (ADG) and incorporate the graph embedding into a sequence-to-sequence (Seq2Seq) model. In addition to the existing encoder-decoder structure, a new module named ``embedder" is introduced. In this way, the decoder can utilize both global structural dependencies and textual program description to predict the target code. We conduct extensive code generation experiments on three public datasets and in two programming languages (Python and Java). Our proposed approach, called ADG-Seq2Seq, yields significant improvements over existing state-of-the-art methods and maintains its performance as the length of the target code increases. Extensive ablation tests show that the proposed ADG embedding is effective and outperforms the baselines.
翻訳日:2021-03-30 14:46:09 公開日:2021-03-29
# 動的ネットワーク埋め込み調査

Dynamic Network Embedding Survey ( http://arxiv.org/abs/2103.15447v1 )

ライセンス: Link先を確認
Guotong Xue, Ming Zhong, Jianxin Li, Jia Chen, Chengshuai Zhai, Ruochen Kong(参考訳) ソーシャルネットワークやユーザイテムネットワークなど,多くの現実世界のネットワークが時間とともに進化しているため,近年は動的ネットワーク埋め込みの研究が進んでいる。 それらは進化するグラフのシーケンスからノード表現を学ぶが、最新のネットワークだけでなく、動的ネットワークから構造的情報と時間的情報の両方を保存する。 これらの包括的調査が欠如しているため,本稿では動的ネットワーク組込みに関する調査を行う。 本調査は,データモデル,表現学習手法,現在の関連作品の評価と応用を検証し,それらの共通パターンを導出する。 具体的には、動的ネットワークのための2つの基本データモデル、すなわち離散モデルと連続モデルを示す。 そこで,本稿では動的ネットワーク組込み手法の2つの主要なカテゴリ,すなわち構造優先と時間優先の2つを要約する。 次に、典型的な学習モデルによってカテゴリ階層を洗練する分類法を構築する。 一般的な実験データセットやアプリケーションも要約されている。 最後に、動的ネットワーク埋め込みにおけるいくつかの異なる研究トピックについて論じる。

Since many real world networks are evolving over time, such as social networks and user-item networks, there are increasing research efforts on dynamic network embedding in recent years. They learn node representations from a sequence of evolving graphs but not only the latest network, for preserving both structural and temporal information from the dynamic networks. Due to the lack of comprehensive investigation of them, we give a survey of dynamic network embedding in this paper. Our survey inspects the data model, representation learning technique, evaluation and application of current related works and derives common patterns from them. Specifically, we present two basic data models, namely, discrete model and continuous model for dynamic networks. Correspondingly, we summarize two major categories of dynamic network embedding techniques, namely, structural-first and temporal-first that are adopted by most related works. Then we build a taxonomy that refines the category hierarchy by typical learning models. The popular experimental data sets and applications are also summarized. Lastly, we have a discussion of several distinct research topics in dynamic network embedding.
翻訳日:2021-03-30 14:45:51 公開日:2021-03-29
# セッションベースレコメンデーションのための文脈対応短期関心第一モデル

Context-aware short-term interest first model for session-based recommendation ( http://arxiv.org/abs/2103.15514v1 )

ライセンス: Link先を確認
Haomei Duan and Jinghua Zhu(参考訳) ユーザプロファイルが利用できない場合には、匿名セッションに基づくレコメンデーションが特に重要であり、ユーザのアクセスシーケンスに基づいて、ユーザが次の瞬間にクリックできるアイテムを予測することを目的としている。 近年,リカレントニューラルネットワーク,アテンション機構,グラフニューラルネットワークの開発により,セッションベースレコメンデーションの性能が大幅に向上している。 しかし、以前の方法はセッションのコンテキスト依存性と短期的関心を包括的に考慮していなかった。 そこで本稿では,文脈認識型短期利害第一モデル(casif)を提案する。本稿の目的は,文脈と短期利害を組み合わせることにより,レコメンデーションの精度を向上させることである。 CASIFでは、セッションシーケンスのグラフ構造を動的に構築し、グラフニューラルネットワーク(GNN)を介してリッチなコンテキスト依存をキャプチャし、遅延特徴ベクトルを次のステップの入力としてキャプチャする。 次に,長期記憶のコンテキストにおいて,セッションからユーザの一般的な関心を捕捉すると同時に,最後のクリックの項目からユーザの現在の関心を取得可能な,短期的関心の第1モジュールを構築する。 最後に、短期利息と長期利息とを最終利息として組み合わせ、候補ベクトルに乗じて推薦確率を得る。 最後に,実世界の2つのデータセットにおける多数の実験により,提案手法の有効性が示された。

In the case that user profiles are not available, the recommendation based on anonymous session is particularly important, which aims to predict the items that the user may click at the next moment based on the user's access sequence over a while. In recent years, with the development of recurrent neural network, attention mechanism, and graph neural network, the performance of session-based recommendation has been greatly improved. However, the previous methods did not comprehensively consider the context dependencies and short-term interest first of the session. Therefore, we propose a context-aware short-term interest first model (CASIF).The aim of this paper is improve the accuracy of recommendations by combining context and short-term interest. In CASIF, we dynamically construct a graph structure for session sequences and capture rich context dependencies via graph neural network (GNN), latent feature vectors are captured as inputs of the next step. Then we build the short-term interest first module, which can to capture the user's general interest from the session in the context of long-term memory, at the same time get the user's current interest from the item of the last click. In the end, the short-term and long-term interest are combined as the final interest and multiplied by the candidate vector to obtain the recommendation probability. Finally, a large number of experiments on two real-world datasets demonstrate the effectiveness of our proposed method.
翻訳日:2021-03-30 14:45:38 公開日:2021-03-29
# 倫理監査ボットを目指して

Towards An Ethics-Audit Bot ( http://arxiv.org/abs/2103.15746v1 )

ライセンス: Link先を確認
Siani Pearson and Martin Lloyd and Vivek Nallur(参考訳) 本稿では、AIのガバナンスではなく、ガバナンスのための人工知能(AI)と、ガバナンスの1つの側面、すなわち倫理監査に焦点を当てる。 さまざまな倫理的な監査ボットは可能だが、誰が選択し、何を意味するのか? 本稿では、倫理的/哲学的なソリューションを提供するのではなく、ターゲットシステムの倫理的健全性を検証するAIベースのソリューションがどのようなものかという技術的側面に焦点を当てる。 本稿では,特定の社会技術的条件を考慮し,対象システムの倫理的監査を行うシステムを提案する。 より具体的には、ソフトウェア開発ライフサイクルに一定の倫理的基準を満たしたプロセスが含まれていることを保証するために、組織を支援できるボットの作成を提案する。

In this paper we focus on artificial intelligence (AI) for governance, not governance for AI, and on just one aspect of governance, namely ethics audit. Different kinds of ethical audit bots are possible, but who makes the choices and what are the implications? In this paper, we do not provide ethical/philosophica l solutions, but rather focus on the technical aspects of what an AI-based solution for validating the ethical soundness of a target system would be like. We propose a system that is able to conduct an ethical audit of a target system, given certain socio-technical conditions. To be more specific, we propose the creation of a bot that is able to support organisations in ensuring that their software development lifecycles contain processes that meet certain ethical standards.
翻訳日:2021-03-30 14:45:16 公開日:2021-03-29
# LASER:効率的な強化学習のための潜在行動空間の学習

LASER: Learning a Latent Action Space for Efficient Reinforcement Learning ( http://arxiv.org/abs/2103.15793v1 )

ライセンス: Link先を確認
Arthur Allshire, Roberto Mart\'in-Mart\'in, Charles Lin, Shawn Manuel, Silvio Savarese, Animesh Garg(参考訳) 操作タスクを学習するプロセスは、探索に使用されるアクション空間に強く依存する:誤ったアクション空間に置かれ、強化学習でタスクを解くことは、劇的に非効率になる。 さらに、同じタスクファミリーの類似したタスクやインスタンスは、最も効果的なアクション空間に潜在多様体制約を課す:タスクファミリーは、ロボットのアクション空間全体の多様体のアクションで最もよく解ける。 これらの知見を組み合わせることで、効率的な強化学習のための潜在行動空間学習法であるLASERを提案する。 レーザーは学習問題をアクション空間学習と新しいアクション空間におけるポリシー学習という2つのサブ問題に分解する。 同様の操作タスクインスタンスのデータを、オフラインのエキスパートから、あるいはポリシー学習中にオンラインから活用し、これらのトラジェクタから元のアクション空間から潜在アクション空間へのマッピングを学ぶ。 RAERは変動エンコーダ・デコーダモデルとして訓練され、生の動作を非絡み合いの潜在行動空間にマッピングし、動作再構成と潜伏空間の動的一貫性を維持する。 シミュレーションにおける2つの接触の多いロボットタスクに対するLASERの評価を行い、生成した潜在行動空間におけるポリシー学習の利点を分析した。 学習した行動空間多様体の可視化により,動作空間のアライメントが向上し,タスク空間へのアライメントが向上するのに対し,サンプル効率は元の行動空間と比較して向上した。 詳細: https://pair.toronto .edu/laser

The process of learning a manipulation task depends strongly on the action space used for exploration: posed in the incorrect action space, solving a task with reinforcement learning can be drastically inefficient. Additionally, similar tasks or instances of the same task family impose latent manifold constraints on the most effective action space: the task family can be best solved with actions in a manifold of the entire action space of the robot. Combining these insights we present LASER, a method to learn latent action spaces for efficient reinforcement learning. LASER factorizes the learning problem into two sub-problems, namely action space learning and policy learning in the new action space. It leverages data from similar manipulation task instances, either from an offline expert or online during policy learning, and learns from these trajectories a mapping from the original to a latent action space. LASER is trained as a variational encoder-decoder model to map raw actions into a disentangled latent action space while maintaining action reconstruction and latent space dynamic consistency. We evaluate LASER on two contact-rich robotic tasks in simulation, and analyze the benefit of policy learning in the generated latent action space. We show improved sample efficiency compared to the original action space from better alignment of the action space to the task space, as we observe with visualizations of the learned action space manifold. Additional details: https://pair.toronto .edu/laser
翻訳日:2021-03-30 14:44:41 公開日:2021-03-29
# 形状制約付きシンボリック回帰-事前知識による外挿の改善

Shape-constrained Symbolic Regression -- Improving Extrapolation with Prior Knowledge ( http://arxiv.org/abs/2103.15624v1 )

ライセンス: Link先を確認
Gabriel Kronberger and Fabricio Olivetti de Fran\c{c}a and Bogdan Burlacu and Christian Haider and Michael Kommenda(参考訳) シンボル回帰において,先行知識を組み込んだ関数画像とその導関数に対する制約の追加について検討する。 このアプローチはshape-constrained symbolic regressionと呼ばれ、例えば、強制を可能にする。 選択された入力に対する関数の単調性。 目的は、期待された振る舞いに適合し、補外能力を改善したモデルを見つけることである。 提案手法の有効性を実証し, 形状制約付きシンボル回帰のための2つの進化的アルゴリズムを提案する。i) 選択ステップで実現不可能な解を捨てる木に基づく遺伝的プログラミングの拡張, i) 実現不可能な解から分離する2つの集団進化アルゴリズム。 どちらのアルゴリズムも区間算術を用いてモデルとその偏微分の有界を近似する。 アルゴリズムは19の合成問題と4つの実世界の回帰問題で検証される。 どちらのアルゴリズムも形状制約に準拠したモデルを識別できるが、これは修正されていない記号回帰アルゴリズムには当てはまらない。 しかし、制約のあるモデルの予測精度は、トレーニングセットとテストセットでは悪くなります。 形状制約付き多項式回帰はテスト集合にとって最良の結果をもたらすが、さらに大きなモデルも生成する。

We investigate the addition of constraints on the function image and its derivatives for the incorporation of prior knowledge in symbolic regression. The approach is called shape-constrained symbolic regression and allows us to enforce e.g. monotonicity of the function over selected inputs. The aim is to find models which conform to expected behaviour and which have improved extrapolation capabilities. We demonstrate the feasibility of the idea and propose and compare two evolutionary algorithms for shape-constrained symbolic regression: i) an extension of tree-based genetic programming which discards infeasible solutions in the selection step, and ii) a two population evolutionary algorithm that separates the feasible from the infeasible solutions. In both algorithms we use interval arithmetic to approximate bounds for models and their partial derivatives. The algorithms are tested on a set of 19 synthetic and four real-world regression problems. Both algorithms are able to identify models which conform to shape constraints which is not the case for the unmodified symbolic regression algorithms. However, the predictive accuracy of models with constraints is worse on the training set and the test set. Shape-constrained polynomial regression produces the best results for the test set but also significantly larger models.
翻訳日:2021-03-30 14:43:11 公開日:2021-03-29
# 半教師付き表現学習による超高密度ネットワークにおける協調ユーザアソシエーションと電力割当

Joint User Association and Power Allocation in Heterogeneous Ultra Dense Network via Semi-Supervised Representation Learning ( http://arxiv.org/abs/2103.15367v1 )

ライセンス: Link先を確認
Xiangyu Zhang, Zhengming Zhang, and Luxi Yang(参考訳) Heterogeneous Ultra-Dense Network (HUDN) は、高接続密度と超高データレートを実現するために重要なネットワークアーキテクチャの1つである。 HUDNにおける合理的ユーザアソシエーションと電力制御スケジュールは、無線干渉を減らすことができる。 本稿では,共同ユーザアソシエーションと電力制御の問題を解決するための新しいアイデアを提案する。 そして、最適な表現関数を定式化してこの問題を解決する。 我々は、HUDNをヘテロジニアスグラフとしてモデル化し、半教師付き学習を用いてグラフニューラルネットワーク(GNN)を訓練し、損失関数は、GNNが最適表現関数に近づくのを助ける教師なし部分と、前回の経験を利用した教師なし部分からなり、無駄な探索を減らす。 一般シナリオ準静的ユーザ分散シナリオの学習表現を学習するためにGNNを訓練する、一般化表現学習(GRL)部と特殊化表現学習(SRL)部という2つの部分に分けられる。 シミュレーションの結果,提案手法は従来の最適化アルゴリズムよりも計算効率が高く,SRLの性能はGRLよりも優れていた。

Heterogeneous Ultra-Dense Network (HUDN) is one of the vital networking architectures due to its ability to enable higher connectivity density and ultra-high data rates. Rational user association and power control schedule in HUDN can reduce wireless interference. This paper proposes a novel idea for resolving the joint user association and power control problem: the optimal user association and Base Station transmit power can be represented by channel information. Then, we solve this problem by formulating an optimal representation function. We model the HUDNs as a heterogeneous graph and train a Graph Neural Network (GNN) to approach this representation function by using semi-supervised learning, in which the loss function is composed of the unsupervised part that helps the GNN approach the optimal representation function and the supervised part that utilizes the previous experience to reduce useless exploration. We separate the learning process into two parts, the generalization-repre sentation learning (GRL) part and the specialization-repre sentation learning (SRL) part, which train the GNN for learning representation for generalized scenario quasi-static user distribution scenario, respectively. Simulation results demonstrate that the proposed GRL-based solution has higher computational efficiency than the traditional optimization algorithm, and the performance of SRL outperforms the GRL.
翻訳日:2021-03-30 14:42:31 公開日:2021-03-29
# 高精細画像超解像のためのベストバディGAN

Best-Buddy GANs for Highly Detailed Image Super-Resolution ( http://arxiv.org/abs/2103.15295v1 )

ライセンス: Link先を確認
Wenbo Li, Kun Zhou, Lu Qi, Liying Lu, Nianjuan Jiang, Jiangbo Lu, Jiaya Jia(参考訳) 我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。 近年,GAN (Generative Adversarial Network) が注目されている。 この線に沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前に定義されたシングルLRシングルHRマッピングに依存している。 また、GANが生成した偽の細部は、画像全体の現実性を損なうことがある。 本稿では,リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。 イミュータブルな1対1の制約を緩和することで、推定されたパッチがトレーニング中の最高の監視を動的に求めることを可能にする。 さらに,テクスチャ領域の細部を適応的に生成することに焦点を当てた,地域対応の逆学習戦略を提案する。 大規模な実験は我々の方法の有効性を正当化する。 超高解像度4Kデータセットも、将来の超高解像度研究を促進するために構築されている。

We consider the single image super-resolution (SISR) problem, where a high-resolution (HR) image is generated based on a low-resolution (LR) input. Recently, generative adversarial networks (GANs) become popular to hallucinate details. Most methods along this line rely on a predefined single-LR-single-HR mapping, which is not flexible enough for the SISR task. Also, GAN-generated fake details may often undermine the realism of the whole image. We address these issues by proposing best-buddy GANs (Beby-GAN) for rich-detail SISR. Relaxing the immutable one-to-one constraint, we allow the estimated patches to dynamically seek the best supervision during training, which is beneficial to producing more reasonable details. Besides, we propose a region-aware adversarial learning strategy that directs our model to focus on generating details for textured areas adaptively. Extensive experiments justify the effectiveness of our method. An ultra-high-resolutio n 4K dataset is also constructed to facilitate future super-resolution research.
翻訳日:2021-03-30 14:39:51 公開日:2021-03-29
# 効率的な学習画像圧縮のためのチェッカーボードコンテキストモデル

Checkerboard Context Model for Efficient Learned Image Compression ( http://arxiv.org/abs/2103.15306v1 )

ライセンス: Link先を確認
Dailan He, Yaoyan Zheng, Baocheng Sun, Yan Wang, Hongwei Qin(参考訳) 学習画像圧縮では、自己回帰文脈モデルがRDの性能向上に有効であることが証明された。 潜在表現間の空間的冗長性を取り除くのに役立つからです しかし、復号処理は厳密なスキャン順序で行わなければならないため、並列化を損なう。 この問題を解決するために,並列化可能なチェッカーボードコンテキストモデル(CCM)を提案する。 この2パスチェッカーボードコンテキスト計算は,デコード順序を再編成することにより,空間的位置の制限を解消する。 私たちの実験では40回以上の復号処理を高速化し、ほぼ同じレートゆらぎ性能で計算効率を大幅に向上させました。 私たちの知る限りでは、これは学習画像圧縮のための並列化フレンドリな空間コンテキストモデルに関する最初の調査です。

For learned image compression, the autoregressive context model is proved effective in improving the rate-distortion (RD) performance. Because it helps remove spatial redundancies among latent representations. However, the decoding process must be done in a strict scan order, which breaks the parallelization. We propose a parallelizable checkerboard context model (CCM) to solve the problem. Our two-pass checkerboard context calculation eliminates such limitations on spatial locations by re-organizing the decoding order. Speeding up the decoding process more than 40 times in our experiments, it achieves significantly improved computational efficiency with almost the same rate-distortion performance. To the best of our knowledge, this is the first exploration on parallelization-frie ndly spatial context model for learned image compression.
翻訳日:2021-03-30 14:39:35 公開日:2021-03-29
# 曲がった透明物体の運動からの屈折光場特性

Refractive Light-Field Features for Curved Transparent Objects in Structure from Motion ( http://arxiv.org/abs/2103.15349v1 )

ライセンス: Link先を確認
Dorian Tsai and Peter Corke and Thierry Peynot and Donald G. Dansereau(参考訳) 曲がりくねった屈折物体は人間の環境では一般的であり、ロボットの視覚アルゴリズムが失敗する複雑な視覚的外観を持つ。 ライトフィールドカメラは、このようなオブジェクトのビュー依存の外観を単一の露出で捉えることで、この課題に対処できます。 曲面透明物体から屈折する光のパターンを検出し,記述する光場のための新しい画像特徴を提案する。 これらの特徴に基づいて特徴点を導出し、従来の2次元特徴の代わりに使用できるようにする。 この特徴を用いて, カメラポーズ推定の精度向上や3次元再構成など, 屈折物体を含む難易度の高いシーンにおいて, 移動性能の向上を実証した。 さらに,本手法は最先端技術よりも15~35%頻度で収束する。 本手法は, 製造, 品質保証, ピック・アンド・プレイス, アクリル, ガラス, その他の透明材料を扱う家庭用ロボットなど, 屈折体のまわりをロボットが操作できるようにするための重要なステップである。

Curved refractive objects are common in the human environment, and have a complex visual appearance that can cause robotic vision algorithms to fail. Light-field cameras allow us to address this challenge by capturing the view-dependent appearance of such objects in a single exposure. We propose a novel image feature for light fields that detects and describes the patterns of light refracted through curved transparent objects. We derive characteristic points based on these features allowing them to be used in place of conventional 2D features. Using our features, we demonstrate improved structure-from-motio n performance in challenging scenes containing refractive objects, including quantitative evaluations that show improved camera pose estimates and 3D reconstructions. Additionally, our methods converge 15-35% more frequently than the state-of-the-art. Our method is a critical step towards allowing robots to operate around refractive objects, with applications in manufacturing, quality assurance, pick-and-place, and domestic robots working with acrylic, glass and other transparent materials.
翻訳日:2021-03-30 14:39:24 公開日:2021-03-29
# 圧縮感覚塩分骨格の深部再構成による注意誘導画像圧縮

Attention-guided Image Compression by Deep Reconstruction of Compressive Sensed Saliency Skeleton ( http://arxiv.org/abs/2103.15368v1 )

ライセンス: Link先を確認
Xi Zhang and Xiaolin Wu(参考訳) 注意誘導型2層画像圧縮(AGDL)のためのディープラーニングシステムを提案する。 AGDL圧縮システムでは、画像はベース層と注目誘導精製層という2つの層に符号化される。 AGDLは、ROI内のすべてのピクセルに等しく余分な予算を費やす既存のROI画像圧縮方法とは異なり、ROI内のサリエンシスケッチの前後でこれらのピクセルを予測するためにCNNモジュールを使用している。 臨界画素のみが圧縮センシング(CS)によってさらにサンプリングされ、非常にコンパクトな精細層を形成する。 別の新しいCNN法は、2つの圧縮層を非常に洗練された再構成のために共同でデコードし、知覚的に重要なピクセルに対するCSの制約を厳密に満たす。 広汎な実験により,AGDLシステムは認識認識画像圧縮における技術の進歩を示す。

We propose a deep learning system for attention-guided dual-layer image compression (AGDL). In the AGDL compression system, an image is encoded into two layers, a base layer and an attention-guided refinement layer. Unlike the existing ROI image compression methods that spend an extra bit budget equally on all pixels in ROI, AGDL employs a CNN module to predict those pixels on and near a saliency sketch within ROI that are critical to perceptual quality. Only the critical pixels are further sampled by compressive sensing (CS) to form a very compact refinement layer. Another novel CNN method is developed to jointly decode the two compression layers for a much refined reconstruction, while strictly satisfying the transmitted CS constraints on perceptually critical pixels. Extensive experiments demonstrate that the proposed AGDL system advances the state of the art in perception-aware image compression.
翻訳日:2021-03-30 14:39:05 公開日:2021-03-29
# CNNに基づく簡単な視覚的特徴による注意誘導の過小評価

CNN-based search model underestimates attention guidance by simple visual features ( http://arxiv.org/abs/2103.15439v1 )

ライセンス: Link先を確認
Endel Poder(参考訳) 最近、Zhangら。 2018年、畳み込みニューラルネットワークによって学習された視覚特徴を物体認識に利用する注意誘導の興味深いモデルを提案した。 私はこのモデルを性能指標として精度の高い探索実験に適用した。 先行した特徴量および結合探索実験のシミュレーションにより,cnnを用いた検索モデルは,単純な視覚特徴による注意誘導をかなり過小評価していることが判明した。 単純な説明として、モデルには注意のボトムアップガイダンスがない。 別の見方としては、標準的なCNNは人間のような注意誘導に必要な機能を学ばないかもしれない。

Recently, Zhang et al. (2018) proposed an interesting model of attention guidance that uses visual features learnt by convolutional neural networks for object recognition. I adapted this model for search experiments with accuracy as the measure of performance. Simulation of our previously published feature and conjunction search experiments revealed that CNN-based search model considerably underestimates human attention guidance by simple visual features. A simple explanation is that the model has no bottom-up guidance of attention. Another view might be that standard CNNs do not learn features required for human-like attention guidance.
翻訳日:2021-03-30 14:38:50 公開日:2021-03-29
# PeaceGAN: Pose Estimatorと補助分類器を用いたSARターゲット画像生成のためのGANに基づくマルチタスク学習手法

PeaceGAN: A GAN-based Multi-Task Learning Method for SAR Target Image Generation with a Pose Estimator and an Auxiliary Classifier ( http://arxiv.org/abs/2103.15469v1 )

ライセンス: Link先を確認
Jihyong Oh, Munchurl Kim(参考訳) GAN(Generative Adversarial Networks)は多種多様な分野に適用できるが、合成開口レーダ(SAR)データに基づくGANの訓練は、主にスペックルノイズのために難しい課題である。 一方、人間の知覚の学習の観点からは、複数の情報源から様々な情報を用いてタスクを学習することは自然である。 しかし、以前のGANでは、SARターゲット画像生成に取り組んでおり、ターゲットクラスに関する情報しか使われていない。 SAR画像信号の後方散乱特性のため、SAR画像の形状と構造はポーズ角に強く依存する。 それでも、ポーズ角情報は、SARターゲット画像の生成モデルには組み込まれていない。 本稿では、まず、ポーズアングルとターゲットクラス情報の両方を利用したSARターゲット画像生成のための新しいGANベースのマルチタスク学習(MTL)手法であるPeaceGANを提案する。 このため、ピースガンは、ポーズ推定器と補助分類器の2つの追加構造を識別器の側面に設け、ポーズとクラス情報をより効率的に結合する。 In addition, the PeaceGAN is jointly learned in an end-to-end manner as MTL with both pose angle and target class information, thus enhancing the diversity and quality of generated SAR target images The extensive experiments show that taking an advantage of both pose angle and target class learning by the proposed pose estimator and auxiliary classifier can help the PeaceGAN's generator effectively learn the distributions of SAR target images in the MTL framework, so that it can better generate the SAR target images more flexibly and faithfully at intended pose angles for desired target classes compared to the recent state-of-the-art methods.

Although Generative Adversarial Networks (GANs) are successfully applied to diverse fields, training GANs on synthetic aperture radar (SAR) data is a challenging task mostly due to speckle noise. On the one hands, in a learning perspective of human's perception, it is natural to learn a task by using various information from multiple sources. However, in the previous GAN works on SAR target image generation, the information on target classes has only been used. Due to the backscattering characteristics of SAR image signals, the shapes and structures of SAR target images are strongly dependent on their pose angles. Nevertheless, the pose angle information has not been incorporated into such generative models for SAR target images. In this paper, we firstly propose a novel GAN-based multi-task learning (MTL) method for SAR target image generation, called PeaceGAN that uses both pose angle and target class information, which makes it possible to produce SAR target images of desired target classes at intended pose angles. For this, the PeaceGAN has two additional structures, a pose estimator and an auxiliary classifier, at the side of its discriminator to combine the pose and class information more efficiently. In addition, the PeaceGAN is jointly learned in an end-to-end manner as MTL with both pose angle and target class information, thus enhancing the diversity and quality of generated SAR target images The extensive experiments show that taking an advantage of both pose angle and target class learning by the proposed pose estimator and auxiliary classifier can help the PeaceGAN's generator effectively learn the distributions of SAR target images in the MTL framework, so that it can better generate the SAR target images more flexibly and faithfully at intended pose angles for desired target classes compared to the recent state-of-the-art methods.
翻訳日:2021-03-30 14:38:40 公開日:2021-03-29
# ビデオの超解像

Omniscient Video Super-Resolution ( http://arxiv.org/abs/2103.15683v1 )

ライセンス: Link先を確認
Peng Yi and Zhongyuan Wang and Kui Jiang and Junjun Jiang and Tao Lu and Xin Tian and Jiayi Ma(参考訳) 最近のビデオ超解像(SR)法は、時間的スライディングウィンドウから低解像度(LR)フレームを扱うために反復的手法を採用するか、または、推定されたSR出力を利用して現在のフレームを繰り返し再構築する。 この2つの構造を結合してハイブリッドフレームワークを作ろうとする研究はいくつかあるが、完全な役割を果たせていない。 本稿では,従来のSR出力だけでなく,現在と未来からのSR出力も活用するための全知的なフレームワークを提案する。 omniscient frameworkは、反復的、再帰的、そしてハイブリッドなフレームワークがその特別なケースと見なすことができるため、より汎用的である。 提案された全知的なフレームワークは、ジェネレータが他のフレームワークよりもうまく振る舞うことができる。 提案手法は, 客観的指標, 主観的視覚効果, 複雑さにおいて, 最先端の手法よりも優れていることを示す。 私たちのコードは公開されます。

Most recent video super-resolution (SR) methods either adopt an iterative manner to deal with low-resolution (LR) frames from a temporally sliding window, or leverage the previously estimated SR output to help reconstruct the current frame recurrently. A few studies try to combine these two structures to form a hybrid framework but have failed to give full play to it. In this paper, we propose an omniscient framework to not only utilize the preceding SR output, but also leverage the SR outputs from the present and future. The omniscient framework is more generic because the iterative, recurrent and hybrid frameworks can be regarded as its special cases. The proposed omniscient framework enables a generator to behave better than its counterparts under other frameworks. Abundant experiments on public datasets show that our method is superior to the state-of-the-art methods in objective metrics, subjective visual effects and complexity. Our code will be made public.
翻訳日:2021-03-30 14:38:12 公開日:2021-03-29
# 実用的ニューラル画像圧縮のためのスリム圧縮型オートエンコーダ

Slimmable Compressive Autoencoders for Practical Neural Image Compression ( http://arxiv.org/abs/2103.15726v1 )

ライセンス: Link先を確認
Fei Yang, Luis Herranz, Yongmei Cheng, Mikhail G. Mozerov(参考訳) ニューラルネットワーク圧縮は、ディープニューラルネットワークを利用して、レートゆがみ性能において従来のイメージコーデックを上回る。 しかし、結果のモデルは重く、計算的に要求され、一般に1つのレートに最適化され、実用的使用が制限される。 そこで本研究では,実際の画像圧縮に焦点をあてたスリム化圧縮オートエンコーダ (slimcaes) を提案し,レート (r) と歪み (d) をそれぞれ異なるキャパシティに最適化する。 一度トレーニングされると、エンコーダとデコーダは異なる容量で実行でき、異なるレートと複雑さをもたらす。 我々は、SlimCAEsの実装が成功するためには、適切なキャパシティ固有のRDトレードオフが必要であることを示す。 実験の結果,slimcae は高い柔軟性を持つモデルであり,速度分散性能,可変レート,メモリ,計算コスト,レイテンシの動的調整に優れ,実用的な画像圧縮の主な要件を満たしていることがわかった。

Neural image compression leverages deep neural networks to outperform traditional image codecs in rate-distortion performance. However, the resulting models are also heavy, computationally demanding and generally optimized for a single rate, limiting their practical use. Focusing on practical image compression, we propose slimmable compressive autoencoders (SlimCAEs), where rate (R) and distortion (D) are jointly optimized for different capacities. Once trained, encoders and decoders can be executed at different capacities, leading to different rates and complexities. We show that a successful implementation of SlimCAEs requires suitable capacity-specific RD tradeoffs. Our experiments show that SlimCAEs are highly flexible models that provide excellent rate-distortion performance, variable rate, and dynamic adjustment of memory, computational cost and latency, thus addressing the main requirements of practical image compression.
翻訳日:2021-03-30 14:37:56 公開日:2021-03-29
# イベントトリガー通信の深部強化学習とマルチエージェント協調輸送の制御

Deep reinforcement learning of event-triggered communication and control for multi-agent cooperative transport ( http://arxiv.org/abs/2103.15260v1 )

ライセンス: Link先を確認
Kazuki Shibata, Tomohiko Jimbo and Takamitsu Matsubara(参考訳) 本稿では,多エージェント協調輸送におけるコミュニケーションおよび制御戦略の設計問題に対処する多エージェント強化学習手法を提案する。 一般的なエンドツーエンドのディープニューラルネットワークポリシは、通信と制御をカバーするために不十分な場合がある。 そこで,本フレームワークはイベントトリガーアーキテクチャ,すなわち,通信入力を演算するフィードバックコントローラと,入力を再更新する必要があるタイミングを決定するトリガー機構を利用する。 このようなイベントトリガー制御ポリシーは、マルチエージェントの深い決定論的ポリシー勾配を用いて効率的に最適化される。 数値シミュレーションにより,輸送性能と通信省力のバランスがとれることを確認した。

In this paper, we explore a multi-agent reinforcement learning approach to address the design problem of communication and control strategies for multi-agent cooperative transport. Typical end-to-end deep neural network policies may be insufficient for covering communication and control; these methods cannot decide the timing of communication and can only work with fixed-rate communications. Therefore, our framework exploits event-triggered architecture, namely, a feedback controller that computes the communication input and a triggering mechanism that determines when the input has to be updated again. Such event-triggered control policies are efficiently optimized using a multi-agent deep deterministic policy gradient. We confirmed that our approach could balance the transport performance and communication savings through numerical simulations.
翻訳日:2021-03-30 14:36:35 公開日:2021-03-29
# 深層学習の定量化による株式取引戦略の比較評価

A Comparative Evaluation of Predominant Deep Learning Quantified Stock Trading Strategies ( http://arxiv.org/abs/2103.15304v1 )

ライセンス: Link先を確認
Haohan Zhang(参考訳) 本研究は,まず3つの深層学習型株式取引モデルとその関連する戦略を再構築し,深層学習を中心に進化した多くの理論の異なる側面に基づいて構築した。 そして、これらの戦略のパフォーマンスを異なる視点で比較するために、3つのシナリオで実行された取引シミュレーションによって、ベンチマークを長期にわたって歴史的な低点に保持する。 その結果、極めて悪質な市場では、ディープラーニングアルゴリズムによって管理される投資ポートフォリオは、常に負のcsi 300ベンチマークを上向きにシフトさせる戻りシーケンスを生成することによって、累積損失を回避できることがわかった。 3つのうち、LSTMモデルの戦略は、ベンチマークが損失を継続し続けるときに最高のパフォーマンスを得る。

This study first reconstructs three deep learning powered stock trading models and their associated strategies that are representative of distinct approaches to the problem and established upon different aspects of the many theories evolved around deep learning. It then seeks to compare the performance of these strategies from different perspectives through trading simulations ran on three scenarios when the benchmarks are kept at historical low points for extended periods of time. The results show that in extremely adverse market climates, investment portfolios managed by deep learning powered algorithms are able to avert accumulated losses by generating return sequences that shift the constantly negative CSI 300 benchmark return upward. Among the three, the LSTM model's strategy yields the best performance when the benchmark sustains continued loss.
翻訳日:2021-03-30 14:36:25 公開日:2021-03-29
# ディープラーニングサーロゲートモデルによるデスマッチシューティングゲームにおけるペアキャラクタクラス

Pairing Character Classes in a Deathmatch Shooter Game via a Deep-Learning Surrogate Model ( http://arxiv.org/abs/2103.15451v1 )

ライセンス: Link先を確認
Daniel Karavolos, Antonios Liapis and Georgios N. Yannakakis(参考訳) 本稿では,異なるゲームファセット間のマッピングを学習するゲームプレイの代理モデルを紹介し,これら1つのファセットで新しいコンテンツをデザインする生成システムに適用する。 本論文は,シューティングゲームジャンルに着目し,ゲームレベル構造とゲームのキャラクタークラスパラメータを入力として,ゲームプレイ結果を出力として組み合わせたモデルの構築を支援する。 このモデルは、ランダムなレベルとクラスパラメータのセット内の人工エージェントによるシミュレーションから、ゲームデータの大規模なコーパスでトレーニングされる。 その後、モデルは特定のレベルと所望のゲーム結果(例えば短い期間のバランスの取れたマッチ)のクラスを生成するために使用される。 本稿では,このシステムが表現性が高く,コンピュータ生成レベルと人間認証レベルの両方のクラスを生成可能であることを示す。

This paper introduces a surrogate model of gameplay that learns the mapping between different game facets, and applies it to a generative system which designs new content in one of these facets. Focusing on the shooter game genre, the paper explores how deep learning can help build a model which combines the game level structure and the game's character class parameters as input and the gameplay outcomes as output. The model is trained on a large corpus of game data from simulations with artificial agents in random sets of levels and class parameters. The model is then used to generate classes for specific levels and for a desired game outcome, such as balanced matches of short duration. Findings in this paper show that the system can be expressive and can generate classes for both computer generated and human authored levels.
翻訳日:2021-03-30 14:36:12 公開日:2021-03-29
# 対人学習による脳活動からの製品意味翻訳

Product semantics translation from brain activity via adversarial learning ( http://arxiv.org/abs/2103.15602v1 )

ライセンス: Link先を確認
Pan Wang, Zhifeng Gong, Shuo Wang, Hao Dong, Jialu Fan, Ling Li, Peter Childs and Yike Guo(参考訳) デザインセマンティクスの小さな変更は、製品に対するユーザの満足度に影響する可能性がある。 本研究は, 個人化された脳活動から, 対人学習を通じて製品の設計意味を変更することを目的として, 脳信号から製品意味を変更するための深層生成変換モデルを提案する。 本研究では,1)脳波信号に対応する新たな特徴を持つ製品画像の合成,2)脳波信号とは無関係な他の画像特徴の維持,である。 我々はstarganのアイデアを活用し,脳活動からの敵対的学習を通じて好みのデザイン意味論(色と形状)を合成し,記録された脳波信号から異なるデザイン意味論を持つ靴を作成するケーススタディに適用する。 提案する認知変換モデルを検証するために,事例研究を行った。 結果は、私たちのフレームワークが脳活動から製品の意味を合成する可能性を秘めた概念実証として機能する。

A small change of design semantics may affect a user's satisfaction with a product. To modify a design semantic of a given product from personalised brain activity via adversarial learning, in this work, we propose a deep generative transformation model to modify product semantics from the brain signal. We attempt to accomplish such synthesis: 1) synthesising the product image with new features corresponding to EEG signal; 2) maintaining the other image features that irrelevant to EEG signal. We leverage the idea of StarGAN and the model is designed to synthesise products with preferred design semantics (colour & shape) via adversarial learning from brain activity, and is applied with a case study to generate shoes with different design semantics from recorded EEG signals. To verify our proposed cognitive transformation model, a case study has been presented. The results work as a proof-of-concept that our framework has the potential to synthesis product semantic from brain activity.
翻訳日:2021-03-30 14:35:58 公開日:2021-03-29
# バンディット学習による多元性近似

A bandit-learning approach to multifidelity approximation ( http://arxiv.org/abs/2103.15342v1 )

ライセンス: Link先を確認
Yiming Xu, Vahid Keshavarzzadeh, Robert M. Kirby, Akil Narayan(参考訳) 多忠実近似は科学計算とシミュレーションにおいて重要な手法である。 本稿では,興味のあるパラメータの正確な推定を実現するために,さまざまなフィデリティのデータを活用するためのバンディット学習手法を提案する。 線形モデル仮定の下では、修正確率帯域として多元性近似を定式化し、利用前に各モデルを均一に探索するポリシーのクラスにおける損失を分析する。 推定条件付き平均二乗誤差を利用して、一貫したアルゴリズム、適応探索定理(AETC)を提案し、対応する軌道幅最適化結果を確立する。 これらの結果はベクトル値応答の場合にも拡張され、高次元パラメータの推定を気にせずにアルゴリズムが効率的であることを実証する。 このアプローチの主な利点は、モデルに関する統計情報(例えば相関関係)の階層的モデル構造や<a priori>知識を必要としないことである。 代わりに、AETCアルゴリズムは、どのモデルが信頼できる高忠実度モデルであるかの知識と、各モデルを問合せする(相対的な)計算コスト見積を要求する。 理論的結果を支持するために,最後に数値実験を行った。

Multifidelity approximation is an important technique in scientific computation and simulation. In this paper, we introduce a bandit-learning approach for leveraging data of varying fidelities to achieve precise estimates of the parameters of interest. Under a linear model assumption, we formulate a multifidelity approximation as a modified stochastic bandit, and analyze the loss for a class of policies that uniformly explore each model before exploiting. Utilizing the estimated conditional mean-squared error, we propose a consistent algorithm, adaptive Explore-Then-Commit (AETC), and establish a corresponding trajectory-wise optimality result. These results are then extended to the case of vector-valued responses, where we demonstrate that the algorithm is efficient without the need to worry about estimating high-dimensional parameters. The main advantage of our approach is that we require neither hierarchical model structure nor \textit{a priori} knowledge of statistical information (e.g., correlations) about or between models. Instead, the AETC algorithm requires only knowledge of which model is a trusted high-fidelity model, along with (relative) computational cost estimates of querying each model. Numerical experiments are provided at the end to support our theoretical findings.
翻訳日:2021-03-30 14:35:42 公開日:2021-03-29
# Marginal Pseudo-likelihood を用いた文脈マルコフネットワークの構造学習

Structure Learning of Contextual Markov Networks using Marginal Pseudo-likelihood ( http://arxiv.org/abs/2103.15540v1 )

ライセンス: Link先を確認
Johan Pensar and Henrik Nyman and Jukka Corander(参考訳) マルコフネットワークは、変数の依存構造が無向グラフによって特定される離散多変量系の一般的なモデルである。 より表現力のある依存構造を実現するため、マルコフネットワークのいくつかの一般化が提案されている。 ここでは,変数対間のコンテキスト固有の独立性を考慮した文脈マルコフネットワークのクラスを考える。 コンテキストマルコフネットワークの構造学習は、非常に多くの可能な構造のため、非常に困難である。 主な課題の1つは、合唱性を前提にせずに、複雑性に適合するモデルの観点から構造を評価することができるスコアを設計することであった。 本稿では,一般文脈マルコフネットワークに対する解析的扱い可能な基準として,辺縁的擬似類似性を導入する。 我々の基準は、一貫した構造推定器をもたらす。 実験では,推定モデルの予測精度の観点から,提案手法の良好な特性を示す。

Markov networks are popular models for discrete multivariate systems where the dependence structure of the variables is specified by an undirected graph. To allow for more expressive dependence structures, several generalizations of Markov networks have been proposed. Here we consider the class of contextual Markov networks which takes into account possible context-specific independences among pairs of variables. Structure learning of contextual Markov networks is very challenging due to the extremely large number of possible structures. One of the main challenges has been to design a score, by which a structure can be assessed in terms of model fit related to complexity, without assuming chordality. Here we introduce the marginal pseudo-likelihood as an analytically tractable criterion for general contextual Markov networks. Our criterion is shown to yield a consistent structure estimator. Experiments demonstrate the favorable properties of our method in terms of predictive accuracy of the inferred models.
翻訳日:2021-03-30 14:35:22 公開日:2021-03-29
# アドホックマイクロホンアレイを用いた音声認識のためのスパースマックスに基づくチャネル選択

Scaling sparsemax based channel selection for speech recognition with ad-hoc microphone arrays ( http://arxiv.org/abs/2103.15305v1 )

ライセンス: Link先を確認
Junqi Chen, Xiao-Lei Zhang(参考訳) 近年,アドホックマイクロホンアレイを用いた音声認識が注目されている。 アドホックマイクロホンアレイではチャネル選択が重要な問題であることが知られているが、特に大規模アドホックマイクロホンアレイを用いた音声認識では、この話題はまだ検討されていないようである。 そこで本研究では,大規模アドホックマイクロホンアレイを用いた音声認識におけるチャネル選択問題に対するScaling Sparsemaxアルゴリズムを提案する。 具体的には,マルチチャネル・エンド・ツー・エンド音声認識システムのストリームアテンション機構における従来のソフトマックス演算子を,ノイズチャネルのチャネル重みをゼロにすることでチャネル選択を行うスパースマックスに置き換える。 sparsemaxは多数のチャネルの重みをゼロに厳しく罰するので、非常にノイズの多いチャネルの重みをゼロにすることで、チャネルを軽度に罰するスケールsparsemaxを提案する。 コンバータ音声認識アーキテクチャの下で30以上のチャネルからなるアドホックマイクロホンアレイの実験結果から,提案したScaling Sparsemaxは,シミュレーションデータセット上ではSoftmaxよりも30%以上,半現実データセットでは20%以上,一致したチャネル番号と不一致のチャネル番号を持つテストシナリオにおいてワードエラー率が得られることがわかった。

Recently, speech recognition with ad-hoc microphone arrays has received much attention. It is known that channel selection is an important problem of ad-hoc microphone arrays, however, this topic seems far from explored in speech recognition yet, particularly with a large-scale ad-hoc microphone array. To address this problem, we propose a Scaling Sparsemax algorithm for the channel selection problem of the speech recognition with large-scale ad-hoc microphone arrays. Specifically, we first replace the conventional Softmax operator in the stream attention mechanism of a multichannel end-to-end speech recognition system with Sparsemax, which conducts channel selection by forcing the channel weights of noisy channels to zero. Because Sparsemax punishes the weights of many channels to zero harshly, we propose Scaling Sparsemax which punishes the channels mildly by setting the weights of very noisy channels to zero only. Experimental results with ad-hoc microphone arrays of over 30 channels under the conformer speech recognition architecture show that the proposed Scaling Sparsemax yields a word error rate of over 30% lower than Softmax on simulation data sets, and over 20% lower on semi-real data sets, in test scenarios with both matched and mismatched channel numbers.
翻訳日:2021-03-30 14:32:53 公開日:2021-03-29
# 剛性ニューラル正規微分方程式

Stiff Neural Ordinary Differential Equations ( http://arxiv.org/abs/2103.15341v1 )

ライセンス: Link先を確認
Suyong Kim, Weiqi Ji, Sili Deng, Christopher Rackauckas(参考訳) Neural Ordinary Differential Equations (ODE)は、科学と工学の応用における時系列データから動的モデルを学ぶための有望なアプローチである。 本研究の目的は, 化学・生物系の化学動力学モデルから得られる硬質系のニューラルODEを学習することである。 まず,ロバートソン問題における古典的強固なodeシステムにおけるニューラルode学習の課題を示し,強固システムのスケール分離に伴う課題を軽減する手法を提案する。 次に,ロバートソン問題と大気汚染問題の厳密なシステムにおける実証実験を行った。 実演では, 補正されたアクティベーションを持つ深層ネットワークの利用, ネットワーク出力の適切なスケーリング, 損失関数, 安定勾配計算が, 強固なニューラルネットワークの学習を可能にする鍵となる手法であることを示した。 堅いニューラルODEの学習の成功は、エネルギー変換における化学動力学、環境工学、生命科学など、幅広い時間スケールの応用において、ニューラルODEを使用する可能性を開く。

Neural Ordinary Differential Equations (ODE) are a promising approach to learn dynamic models from time-series data in science and engineering applications. This work aims at learning Neural ODE for stiff systems, which are usually raised from chemical kinetic modeling in chemical and biological systems. We first show the challenges of learning neural ODE in the classical stiff ODE systems of Robertson's problem and propose techniques to mitigate the challenges associated with scale separations in stiff systems. We then present successful demonstrations in stiff systems of Robertson's problem and an air pollution problem. The demonstrations show that the usage of deep networks with rectified activations, proper scaling of the network outputs as well as loss functions, and stabilized gradient calculations are the key techniques enabling the learning of stiff neural ODE. The success of learning stiff neural ODE opens up possibilities of using neural ODEs in applications with widely varying time-scales, like chemical dynamics in energy conversion, environmental engineering, and the life sciences.
翻訳日:2021-03-30 14:32:28 公開日:2021-03-29
# PDEの数値概念をニューラルネットワークに変換する

Translating Numerical Concepts for PDEs into Neural Architectures ( http://arxiv.org/abs/2103.15419v1 )

ライセンス: Link先を確認
Tobias Alt, Pascal Peter, Joachim Weickert, Karl Schrader(参考訳) 数値アルゴリズムをニューラルネットワークに翻訳することで何が学べるかを検討する。 数値的には、1次元の一般的な高次非線形拡散方程式と線形マルチグリッド法について、明示的、加速的、暗黙的スキームを考える。 ニューラルネットワーク側では、残余ネットワーク(ResNet)、再帰ネットワーク、U-netの観点で対応する概念を識別する。 これらの接続は、各ブロックに変換された畳み込み層構造を持つ特定のresnetのユークリッド安定性を保証する。 スキップ接続の3つの数値的正当性を示す: 明示的なスキームにおける時間的離散化、それらのメソッドを加速するための外挿機構、および暗黙的スキームのための不動点解法における再帰接続。 最後に、非単調なアクティベーション関数のような一般的な設計選択も動機付けます。 この結果は,現代のニューラルネットワークアーキテクチャの成功に関する数値的な視点を与え,安定なネットワークの設計基準を提供する。

We investigate what can be learned from translating numerical algorithms into neural networks. On the numerical side, we consider explicit, accelerated explicit, and implicit schemes for a general higher order nonlinear diffusion equation in 1D, as well as linear multigrid methods. On the neural network side, we identify corresponding concepts in terms of residual networks (ResNets), recurrent networks, and U-nets. These connections guarantee Euclidean stability of specific ResNets with a transposed convolution layer structure in each block. We present three numerical justifications for skip connections: as time discretisations in explicit schemes, as extrapolation mechanisms for accelerating those methods, and as recurrent connections in fixed point solvers for implicit schemes. Last but not least, we also motivate uncommon design choices such as nonmonotone activation functions. Our findings give a numerical perspective on the success of modern neural network architectures, and they provide design criteria for stable networks.
翻訳日:2021-03-30 14:32:10 公開日:2021-03-29
# スコア指向損失(SOL)関数

Score-oriented loss (SOL) functions ( http://arxiv.org/abs/2103.15522v1 )

ライセンス: Link先を確認
Francesco Marchetti and Sabrina Guastavino and Michele Piana and Cristina Campi(参考訳) 損失関数エンジニアリングと予測性能の評価は、教師付き機械学習の2つの重要かつ絡み合った側面である。 本稿では、確率的混乱行列に基づいて定義され、スキルスコアの自動最大化と優先順位付けを可能にする損失関数のクラスを導入するための二項分類に焦点を当てる。 これらの損失関数の性能は、2つの実験予測問題の訓練段階で検証され、混乱行列に関連する確率分布関数がスコア最大化過程の結果に大きく影響することを示した。

Loss functions engineering and the assessment of forecasting performances are two crucial and intertwined aspects of supervised machine learning. This paper focuses on binary classification to introduce a class of loss functions that are defined on probabilistic confusion matrices and that allow an automatic and a priori maximization of the skill scores. The performances of these loss functions are validated during the training phase of two experimental forecasting problems, thus showing that the probability distribution function associated with the confusion matrices significantly impacts the outcome of the score maximization process.
翻訳日:2021-03-30 14:31:54 公開日:2021-03-29
# 非平衡対称ガウス混合に対するEMアルゴリズムの適応最適性

The EM Algorithm is Adaptively-Optimal for Unbalanced Symmetric Gaussian Mixtures ( http://arxiv.org/abs/2103.15653v1 )

ライセンス: Link先を確認
Nir Weinberger and Guy Bresler(参考訳) 本稿では,対称な2成分ガウス混合系である$\delta_{*}\cdot n(\theta_{*},i)+(1-\delta_{*})\cdot n(-\theta_{*},i)$ の$\pm\theta_{*}\in\mathbb{r}^{d}$ を推定する問題について検討する。 $\delta_{*}$ が知られていると仮定すると、初期推定値がより大きい重み成分の平均を持つ非負の内積を持つ場合、EMアルゴリズムの集団バージョンは全世界的に収束する。 これは自明な初期化 $\theta_{0}=0$ によって達成できる。 n$のサンプルに基づく経験的反復に対して、$\theta_{0}=0$で初期化されると、EMアルゴリズムはミニマックス誤差率$\tilde{O}\Big(\min\Big\{\frac{1}{(1-2\delta_{*})}\sqrt {\frac{d}{n}},\frac{1}{\|\theta_{*}\|}\sqrt{\frac{d}{n}},\left(\frac{d}{n}\right)^{1/4}\\\\\Big)$が$O\Big(\frac{1}{\|\theta_{*}\|(1-2\delta_{*})}\sqrt{\frac{d}{n}},\left(\frac{d}{n}\right)^{1/4}\\\\Big)$を適応的に達成していることを示す。 また、固定平均$\theta$(これはおそらく$\theta_{*}$と一致している)を仮定して、重量を$\delta_{*}$と見積もるEM反復を考える。 n$サンプルの実証的な反復について、ミニマックス誤差率$\tilde{O}\Big(\frac{1}{\|\theta_{*}\|}\sqrt {\frac{d}{n}}\Big)$が$O\Big(\frac{1}{\|\theta_{*}\|^{2}}\Big)$反復で達成されることを示す。 これらの結果は、等しい重みが$\delta_{*}=1/2$である場合、Wu と Zhou の最近の結果をしっかりと補う。

This paper studies the problem of estimating the means $\pm\theta_{*}\in\mathbb{R}^{d}$ of a symmetric two-component Gaussian mixture $\delta_{*}\cdot N(\theta_{*},I)+(1-\delta_{*})\cdot N(-\theta_{*},I)$ where the weights $\delta_{*}$ and $1-\delta_{*}$ are unequal. Assuming that $\delta_{*}$ is known, we show that the population version of the EM algorithm globally converges if the initial estimate has non-negative inner product with the mean of the larger weight component. This can be achieved by the trivial initialization $\theta_{0}=0$. For the empirical iteration based on $n$ samples, we show that when initialized at $\theta_{0}=0$, the EM algorithm adaptively achieves the minimax error rate $\tilde{O}\Big(\min\Big\{\frac{1}{(1-2\delta_{*})}\sqrt{\frac{d}{n}},\frac{1}{\|\theta_{*}\|}\sqrt{\frac{d}{n}},\left(\frac{d}{n}\right)^{1/4}\Big\}\Big)$ in no more than $O\Big(\frac{1}{\|\theta_{*}\|(1-2\delta_{*})}\Big)$ iterations (with high probability). We also consider the EM iteration for estimating the weight $\delta_{*}$, assuming a fixed mean $\theta$ (which is possibly mismatched to $\theta_{*}$). For the empirical iteration of $n$ samples, we show that the minimax error rate $\tilde{O}\Big(\frac{1}{\|\theta_{*}\|}\sqrt{\frac{d}{n}}\Big)$ is achieved in no more than $O\Big(\frac{1}{\|\theta_{*}\|^{2}}\Big)$ iterations. These results robustify and complement recent results of Wu and Zhou obtained for the equal weights case $\delta_{*}=1/2$.
翻訳日:2021-03-30 14:31:34 公開日:2021-03-29
# (参考訳) オンライン知識蒸留による強力な学生モデルの蒸留 [全文訳有]

Distilling a Powerful Student Model via Online Knowledge Distillation ( http://arxiv.org/abs/2103.14473v2 )

ライセンス: CC BY 4.0
Shaojie Li, Mingbao Lin, Yan Wang, Feiyue Huang, Yongjian Wu, Yonghong Tian, Ling Shao, Rongrong Ji(参考訳) 既存のオンライン知識蒸留のアプローチでは、生徒が最高のパフォーマンスを持つか、より総合的なパフォーマンスを得るためにアンサンブルモデルを構築している。 しかし、前者の戦略は他の生徒の情報を無視し、後者は計算複雑性を増大させる。 本稿では,上記の課題を解決するために,特徴融合と自己蒸留という2つの重要な要素からなるオンライン知識蒸留手法ffsdを提案する。 全ての学生が平等に扱われる以前の作品とは異なり、提案されたFFSDは学生のリーダーと共通の学生セットに分割する。 そして、特徴融合モジュールは、すべての一般学生の特徴マップを融合した特徴マップに変換する。 融合表現は、学生リーダーの学習を支援するために使用される。 学生指導者がより多様な情報を吸収できるように,学生間の多様性を高めるための強化戦略を設計する。 さらに、より深い層のフィーチャーマップをより浅いものに変換するために、自己蒸留モジュールが採用されている。 そして、より浅い層は、より深い層の変換された特徴マップを模倣するよう奨励され、学生がより一般化するのに役立ちます。 学習後、私たちは、ストレージや推論コストを増大させることなく、一般学生よりも優れたパフォーマンスを達成する学生リーダーを採用する。 CIFAR-100とImageNetの大規模な実験は、既存の作業よりもFFSDの方が優れていることを示している。 コードはhttps://github.com/S JLeo/FFSDで入手できる。

Existing online knowledge distillation approaches either adopt the student with the best performance or construct an ensemble model for better holistic performance. However, the former strategy ignores other students' information, while the latter increases the computational complexity. In this paper, we propose a novel method for online knowledge distillation, termed FFSD, which comprises two key components: Feature Fusion and Self-Distillation, towards solving the above problems in a unified framework. Different from previous works, where all students are treated equally, the proposed FFSD splits them into a student leader and a common student set. Then, the feature fusion module converts the concatenation of feature maps from all common students into a fused feature map. The fused representation is used to assist the learning of the student leader. To enable the student leader to absorb more diverse information, we design an enhancement strategy to increase the diversity among students. Besides, a self-distillation module is adopted to convert the feature map of deeper layers into a shallower one. Then, the shallower layers are encouraged to mimic the transformed feature maps of the deeper layers, which helps the students to generalize better. After training, we simply adopt the student leader, which achieves superior performance, over the common students, without increasing the storage or inference cost. Extensive experiments on CIFAR-100 and ImageNet demonstrate the superiority of our FFSD over existing works. The code is available at https://github.com/S JLeo/FFSD.
翻訳日:2021-03-30 11:57:59 公開日:2021-03-29
# ポイントワイズ相対論的LastSquare GANを用いたGANベースニューラルヴォコーダの改良

Improve GAN-based Neural Vocoder using Pointwise Relativistic LeastSquare GAN ( http://arxiv.org/abs/2103.14245v2 )

ライセンス: Link先を確認
Congyi Wang, Yu Chen, Bin Wang, Yi Shi(参考訳) Parallel WaveGAN や MelGAN のような GAN ベースのニューラルボコーダは、その軽量で並列な構造から大きな関心を集めており、高忠実度波形をリアルタイムに生成することができる。 本稿では、相対論的GANにインスパイアされた、波形合成の文脈におけるLSGANフレームワークの新たな変種である、ポイントワイド相対論的LSGAN(PRLSGAN)を紹介する。 提案手法では, トラヒズムスコア分布を考慮し, 元のMSE損失と提案した相対誤差損失とを組み合わせることにより, 判別器を騙すのが難しかったため, 生成品質が向上した。 さらに、PRLSGANは、GANベースのニューラルボコーダと組み合わせて生成品質を向上させる汎用フレームワークである。 実験ではParallel WaveGANとMelGANに基づく一貫した性能向上を示し、提案したPRLSGANニューラルボコーダの有効性と強力な一般化能力を示した。

GAN-based neural vocoders, such as Parallel WaveGAN and MelGAN have attracted great interest due to their lightweight and parallel structures, enabling them to generate high fidelity waveform in a real-time manner. In this paper, inspired by Relativistic GAN, we introduce a novel variant of the LSGAN framework under the context of waveform synthesis, named Pointwise Relativistic LSGAN (PRLSGAN). In this approach, we take the truism score distribution into consideration and combine the original MSE loss with the proposed pointwise relative discrepancy loss to increase the difficulty of the generator to fool the discriminator, leading to improved generation quality. Moreover, PRLSGAN is a general-purposed framework that can be combined with any GAN-based neural vocoder to enhance its generation quality. Experiments have shown a consistent performance boost based on Parallel WaveGAN and MelGAN, demonstrating the effectiveness and strong generalization ability of our proposed PRLSGAN neural vocoders.
翻訳日:2021-03-30 11:43:38 公開日:2021-03-29
# SSLayout360:360度パノラマからの半監督屋内レイアウト推定

SSLayout360: Semi-Supervised Indoor Layout Estimation from 360-Degree Panorama ( http://arxiv.org/abs/2103.13696v2 )

ライセンス: Link先を確認
Phi Vu Tran(参考訳) 近年,半教師付き学習と3次元部屋レイアウト再構築の研究が盛んに行われている。 本研究では,より少ないラベルデータでより正確な3次元室内シーンモデリングを実現するための研究目標を進めるために,これらの2分野の交点を探索する。 本研究では,360度パノラマシーンのレイアウト推定におけるラベル付きデータとラベルなしデータの組み合わせを用いて,部屋の隅と境界の表現を学習する最初の手法を提案する。 大規模な比較実験を通じて,20個のラベル付き例を用いて,複雑な屋内シーンのレイアウト推定を推し進めることができることを示す。 合成データに事前学習したレイアウト予測器と組み合わせると, ラベルの12%のみを用いて, 半教師付き手法が完全に教師付き手法に適合する。 私たちの研究は、制限されたラベル付きデータで3d知覚の多くのアプリケーションを可能にする、ロバストな半教師付きレイアウト推定に向けて、重要な第一歩を踏み出しています。

Recent years have seen flourishing research on both semi-supervised learning and 3D room layout reconstruction. In this work, we explore the intersection of these two fields to advance the research objective of enabling more accurate 3D indoor scene modeling with less labeled data. We propose the first approach to learn representations of room corners and boundaries by using a combination of labeled and unlabeled data for improved layout estimation in a 360-degree panoramic scene. Through extensive comparative experiments, we demonstrate that our approach can advance layout estimation of complex indoor scenes using as few as 20 labeled examples. When coupled with a layout predictor pre-trained on synthetic data, our semi-supervised method matches the fully supervised counterpart using only 12% of the labels. Our work takes an important first step towards robust semi-supervised layout estimation that can enable many applications in 3D perception with limited labeled data.
翻訳日:2021-03-30 11:43:18 公開日:2021-03-29
# 信頼できないニューラルネットワークの信頼性説明の構築:モデル解釈の局所的平滑化

Building Reliable Explanations of Unreliable Neural Networks: Locally Smoothing Perspective of Model Interpretation ( http://arxiv.org/abs/2103.14332v2 )

ライセンス: Link先を確認
Dohun Lim, Hyeonseok Lee and Sungchan Kim(参考訳) 本稿では,ニューラルネットワークの予測を確実に説明するための新しい手法を提案する。 入力と隣接データポイントを考慮し,モデル出力に関連する入力特徴を識別した場合に信頼性の高い説明を考える。 本手法はモデル予測の損失関数(局所的一貫した損失と勾配プロファイル)における滑らかな景観の仮定に基づいて構築される。 本研究で確立された理論的解析により,局所的に滑らかなモデル説明は,l1正規化を用いた入力のノイズコピーのバッチを用いて学習されることが示唆された。 大規模な実験により解析結果が裏付けられ、提案した唾液マップは、自然と敵対的に訓練されたモデルの両方に対して作られた元の逆例のクラスを検索し、従来の手法よりも大幅に優れていることが明らかになった。 さらに,本手法の学習能力から得られた,入力と隣接するデータポイントのモデル出力に真に関係する入力特徴を同定し,信頼性のある説明の要求を満たすための優れた性能結果を示す。

We present a novel method for reliably explaining the predictions of neural networks. We consider an explanation reliable if it identifies input features relevant to the model output by considering the input and the neighboring data points. Our method is built on top of the assumption of smooth landscape in a loss function of the model prediction: locally consistent loss and gradient profile. A theoretical analysis established in this study suggests that those locally smooth model explanations are learned using a batch of noisy copies of the input with the L1 regularization for a saliency map. Extensive experiments support the analysis results, revealing that the proposed saliency maps retrieve the original classes of adversarial examples crafted against both naturally and adversarially trained models, significantly outperforming previous methods. We further demonstrated that such good performance results from the learning capability of this method to identify input features that are truly relevant to the model output of the input and the neighboring data points, fulfilling the requirements of a reliable explanation.
翻訳日:2021-03-30 11:43:02 公開日:2021-03-29
# 負の制御による不測値の因果推論:ミニマックス学習アプローチ

Causal Inference Under Unmeasured Confounding With Negative Controls: A Minimax Learning Approach ( http://arxiv.org/abs/2103.14029v2 )

ライセンス: Link先を確認
Nathan Kallus, Xiaojie Mao, Masatoshi Uehara(参考訳) 我々は,すべての共同創設者が観察されるのではなく,負の制御が利用できる場合に,因果パラメータの推定を行う。 最近の研究は、2つのいわゆるブリッジ関数による同定と効率的な推定を可能にする方法を示している。 本稿では,これらの橋梁関数の同定と推定という,負の制御を用いた因果推論における主な課題に取り組む。 それまでの研究は、これらの関数の特異性と完全性の仮定に頼っていたが、実際は理解できないかもしれないし、パラメトリック推定にも焦点が当てられている。 代わりに、ユニークさと完全性の両方を避ける新しい識別戦略を提供する。 そして,ミニマックス学習の定式化に基づくこれらの関数の新しい推定器を提案する。 これらの推定器はヒルベルト空間やニューラルネットワークの再現のような一般関数クラスに対応している。 橋梁関数自体の推定と因果パラメータの最終的な推定について有限サンプル収束結果について検討した。 我々はこれを、ミニマックス推定器で用いられる仮説と批判クラスにおける実現可能性や閉化条件を含む様々な仮定の組み合わせの下で行う。 どれだけの確率を想定するかによって異なる収束率が得られる。 いくつかのケースでは、橋梁関数推定器が有効な橋梁関数に収束しない場合でも、因果パラメータの推定値が収束する可能性がある。 また,他の場合においても半パラメトリック効率が得られることを示す。

We study the estimation of causal parameters when not all confounders are observed and instead negative controls are available. Recent work has shown how these can enable identification and efficient estimation via two so-called bridge functions. In this paper, we tackle the primary challenge to causal inference using negative controls: the identification and estimation of these bridge functions. Previous work has relied on uniqueness and completeness assumptions on these functions that may be implausible in practice and also focused on their parametric estimation. Instead, we provide a new identification strategy that avoids both uniqueness and completeness. And, we provide a new estimators for these functions based on minimax learning formulations. These estimators accommodate general function classes such as reproducing Hilbert spaces and neural networks. We study finite-sample convergence results both for estimating bridge function themselves and for the final estimation of the causal parameter. We do this under a variety of combinations of assumptions that include realizability and closedness conditions on the hypothesis and critic classes employed in the minimax estimator. Depending on how much we are willing to assume, we obtain different convergence rates. In some cases, we show the estimate for the causal parameter may converge even when our bridge function estimators do not converge to any valid bridge function. And, in other cases, we show we can obtain semiparametric efficiency.
翻訳日:2021-03-30 11:42:45 公開日:2021-03-29
# 自然観察による敵攻撃の可逆性

Adversarial Attacks are Reversible with Natural Supervision ( http://arxiv.org/abs/2103.14222v2 )

ライセンス: Link先を確認
Chengzhi Mao, Mia Chiquier, Hao Wang, Junfeng Yang, Carl Vondrick(参考訳) 画像には、多くの敵攻撃の反転を可能にする固有の構造が含まれている。 攻撃ベクトルは、画像分類器が失敗するだけでなく、画像内の偶発的な構造を妨害する。 自然構造を復元するために攻撃された画像を変更すると、多くの種類の攻撃が逆転し、防御効果がもたらされることを示す。 実験では、CIFAR-10、CIFAR-100、SVHN、ImageNetデータセットにわたる最先端モデルのロバスト性を大幅に改善した。 その結果,攻撃者が防御機構を知っていても,我々の防御は有効であることが示された。 私たちの防御はトレーニングではなく推論中に展開されるので、事前訓練されたネットワークと他のほとんどの防御と互換性があります。 この結果から,深層ネットワークは画像の自然な構造を強制しないため,敵対的な例に弱いことが示唆された。

We find that images contain intrinsic structure that enables the reversal of many adversarial attacks. Attack vectors cause not only image classifiers to fail, but also collaterally disrupt incidental structure in the image. We demonstrate that modifying the attacked image to restore the natural structure will reverse many types of attacks, providing a defense. Experiments demonstrate significantly improved robustness for several state-of-the-art models across the CIFAR-10, CIFAR-100, SVHN, and ImageNet datasets. Our results show that our defense is still effective even if the attacker is aware of the defense mechanism. Since our defense is deployed during inference instead of training, it is compatible with pre-trained networks as well as most other defenses. Our results suggest deep networks are vulnerable to adversarial examples partly because their representations do not enforce the natural structure of images.
翻訳日:2021-03-30 11:42:24 公開日:2021-03-29
# ディープニューラルネットワークを用いた無人航空機の視覚検出と追跡:性能ベンチマーク

Unmanned Aerial Vehicle Visual Detection and Tracking using Deep Neural Networks: A Performance Benchmark ( http://arxiv.org/abs/2103.13933v2 )

ライセンス: Link先を確認
Brian K. S. Isaac-Medina, Matt Poyser, Daniel Organisciak, Chris G. Willcocks, Toby P. Breckon, Hubert P. H. Shum(参考訳) 無人航空機(UAV)は、悪用と悪用の両方により、航空安全に大きなリスクをもたらす可能性がある。 このため、uavの自動検出と追跡は、航空セキュリティシステムにおける基本的なタスクである。 uav検出の一般的な技術は可視帯および熱赤外イメージング、電波、レーダーである。 画像に基づく物体検出のためのディープニューラルネットワーク(DNN)の最近の進歩は、この検出と追跡タスクに視覚情報を使用する可能性を開く。 さらに、これらの検出アーキテクチャは、視覚追跡システムのバックボーンとして実装することができ、UAV侵入の永続的な追跡を可能にする。 現在、UAV検出と追跡のための可視帯域画像にDNNを適用する包括的なパフォーマンスベンチマークは存在しない。 この目的のために、4つの検知アーキテクチャと3つのトラッキングフレームワークを用いて、合計241の動画(331,486画像)を含む、UAV検知および追跡のための環境条件の異なる3つのデータセットを評価した。 最高の動作検出アーキテクチャは98.6%のmAPを取得し、最高の動作追跡フレームワークは96.3%のMOTAを取得する。 可視スペクトルと赤外線スペクトルの相互モダリティ評価を行い、赤外線モダリティのトレーニング時に可視画像の最大82.8%の地図を作成する。 これらの結果は、最先端のディープラーニングベースの手法のための最初の公開マルチアパッチベンチマークを提供し、UAVドメインにおける検出および追跡アーキテクチャの有効性に関する洞察を与える。

Unmanned Aerial Vehicles (UAV) can pose a major risk for aviation safety, due to both negligent and malicious use. For this reason, the automated detection and tracking of UAV is a fundamental task in aerial security systems. Common technologies for UAV detection include visible-band and thermal infrared imaging, radio frequency and radar. Recent advances in deep neural networks (DNNs) for image-based object detection open the possibility to use visual information for this detection and tracking task. Furthermore, these detection architectures can be implemented as backbones for visual tracking systems, thereby enabling persistent tracking of UAV incursions. To date, no comprehensive performance benchmark exists that applies DNNs to visible-band imagery for UAV detection and tracking. To this end, three datasets with varied environmental conditions for UAV detection and tracking, comprising a total of 241 videos (331,486 images), are assessed using four detection architectures and three tracking frameworks. The best performing detector architecture obtains an mAP of 98.6% and the best performing tracking framework obtains a MOTA of 96.3%. Cross-modality evaluation is carried out between visible and infrared spectrums, achieving a maximal 82.8% mAP on visible images when training in the infrared modality. These results provide the first public multi-approach benchmark for state-of-the-art deep learning-based methods and give insight into which detection and tracking architectures are effective in the UAV domain.
翻訳日:2021-03-30 11:41:51 公開日:2021-03-29
# スパースカーネル表現を用いた構成可能学習

Composable Learning with Sparse Kernel Representations ( http://arxiv.org/abs/2103.14474v2 )

ライセンス: Link先を確認
Ekaterina Tolstaya, Ethan Stump, Alec Koppel, Alejandro Ribeiro(参考訳) 再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。 我々は、正規化優位関数(NAF)を通して状態-作用関数の構造を付与することにより、このアプローチのサンプル複雑性を改善する。 このポリシーの表現は、追加のトレーニングサンプルや環境とのインタラクションなしに、効率的に複数の学習モデルを構成することができる。 本研究では,レーザスキャナを搭載したロボットを2次元環境下で操作しながら,障害物回避ポリシーを学習するためのアルゴリズムの性能を実演する。 コンポジション操作を様々なポリシの組み合わせに適用し,構成されたポリシがコンポーネントのパフォーマンスを維持することを示す。 また,一般化の度合いを示すために,構成ポリシを障害物のあるアリーナで動作している物理プラットフォームに直接転送する。

We present a reinforcement learning algorithm for learning sparse non-parametric controllers in a Reproducing Kernel Hilbert Space. We improve the sample complexity of this approach by imposing a structure of the state-action function through a normalized advantage function (NAF). This representation of the policy enables efficiently composing multiple learned models without additional training samples or interaction with the environment. We demonstrate the performance of this algorithm on learning obstacle-avoidance policies in multiple simulations of a robot equipped with a laser scanner while navigating in a 2D environment. We apply the composition operation to various policy combinations and test them to show that the composed policies retain the performance of their components. We also transfer the composed policy directly to a physical platform operating in an arena with obstacles in order to demonstrate a degree of generalization.
翻訳日:2021-03-30 11:41:26 公開日:2021-03-29
# 時間量子トモグラフィーの学習

Learning Temporal Quantum Tomography ( http://arxiv.org/abs/2103.13973v2 )

ライセンス: Link先を確認
Quoc Hoan Tran and Kohei Nakajima(参考訳) 量子状態の準備における制御レベルの定量化と検証は、量子デバイス構築における中心的な課題である。 量子状態は実験的な測定によって特徴づけられ、トモグラフィーと呼ばれる手順で大量の資源を必要とする。 さらに,時間処理を施した量子デバイスのトモグラフィは標準トモグラフィと根本的に異なるが,定式化されていない。 そこで本稿では,この興味深い状況に対する機械学習フレームワークを用いた実用的および近似トモグラフィー手法を提案する。 この方法は、量子状態の流れを持つ量子貯水池と呼ばれるシステム間の繰り返し量子相互作用に基づいている。 貯留層からの計測データは線形読み出しに接続され、入力ストリームに適用された量子チャネル間の繰り返し関係を訓練する。 量子学習タスクのためのアルゴリズムを実証し、その後、量子短期記憶容量を提案して、短期量子デバイスの時間的処理能力を評価する。

Quantifying and verifying the control level in preparing a quantum state are central challenges in building quantum devices. The quantum state is characterized from experimental measurements, using a procedure known as tomography, which requires a vast number of resources. Furthermore, the tomography for a quantum device with temporal processing, which is fundamentally different from the standard tomography, has not been formulated. We develop a practical and approximate tomography method using a recurrent machine learning framework for this intriguing situation. The method is based on repeated quantum interactions between a system called quantum reservoir with a stream of quantum states. Measurement data from the reservoir are connected to a linear readout to train a recurrent relation between quantum channels applied to the input stream. We demonstrate our algorithms for quantum learning tasks followed by the proposal of a quantum short-term memory capacity to evaluate the temporal processing ability of near-term quantum devices.
翻訳日:2021-03-30 11:41:15 公開日:2021-03-29