このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210326となっている論文です。

PDF登録状況(公開日: 20210326)

TitleAuthorsAbstract論文公表日・翻訳日
# 深層学習を用いたSparse-View Spectral CT再構成

Sparse-View Spectral CT Reconstruction Using Deep Learning ( http://arxiv.org/abs/2011.14842v2 )

ライセンス: Link先を確認
Wail Mustafa, Christian Kehl, Ulrik Lund Olsen, S{\o}ren Kimmer Schou Gregersen, David Malmgren-Hansen, Jan Kehres, Anders Bjorholm Dahl(参考訳) 分光CT (Spectral Computed Tomography) は、高い化学的特異性を提供できる新興技術であり、荷物の脅威を検出するなど多くの用途に欠かせない。 このタイプのアプリケーションは高速で高品質な画像再構成を必要とし、しばしばスパースビュー(few)投影に基づいている。 従来のフィルタバックプロジェクション (FBP) 法は高速であるが, スペクトルチャネルの数で計算負荷が比例的に増加するため, 総変量正規化器による反復的手法では回避できるが, 計算コストは計算コストが高い。 代わりに、マルチチャネル入力と出力を備えたU-Net畳み込みニューラルネットワークアーキテクチャを用いて、スパースビュースペクトルCTデータの高速再構成を行う手法を提案する。 ネットワークは、FBP入力画像再構成から高品質なCT画像を出力するように訓練されている。 提案手法は実行時に高速であり,内部畳み込みはチャネル間で共有されるため,計算負荷は第1層と最終層でのみ増加するため,多数のチャネルでスペクトルデータを処理するための効率的なアプローチとなる。 実際のCTスキャンによるアプローチの検証を行った。 その結果,我々のアプローチが最先端の反復的手法よりも優れていることが定性的かつ定量的に示された。 さらに,ネットワークはチャネルの結合を利用して全体の品質と堅牢性を高めることができることを示す。

Spectral computed tomography (CT) is an emerging technology capable of providing high chemical specificity, which is crucial for many applications such as detecting threats in luggage. This type of application requires both fast and high-quality image reconstruction and is often based on sparse-view (few) projections. The conventional filtered back projection (FBP) method is fast but it produces low-quality images dominated by noise and artifacts in sparse-view CT. Iterative methods with, e.g., total variation regularizers can circumvent that but they are computationally expensive, as the computational load proportionally increases with the number of spectral channels. Instead, we propose an approach for fast reconstruction of sparse-view spectral CT data using a U-Net convolutional neural network architecture with multi-channel input and output. The network is trained to output high-quality CT images from FBP input image reconstructions. Our method is fast at run-time and because the internal convolutions are shared between the channels, the computational load increases only at the first and last layers, making it an efficient approach to process spectral data with a large number of channels. We have validated our approach using real CT scans. Our results show qualitatively and quantitatively that our approach outperforms the state-of-the-art iterative methods. Furthermore, the results indicate that the network can exploit the coupling of the channels to enhance the overall quality and robustness.
翻訳日:2021-06-06 14:36:23 公開日:2021-03-26
# 意味的類似度スコアからの教師なし異常検出

Unsupervised Anomaly Detection From Semantic Similarity Scores ( http://arxiv.org/abs/2012.00461v3 )

ライセンス: Link先を確認
Nima Rafiee, Rahil Gholamipoor, Markus Kollmann(参考訳) サンプルを分布内または分布外(OOD)として分類することは異常検出の難しい問題であり、分布内モデルに対する一般化力の強い試験である。 本稿では, 意味的類似度スコアを用いて異常検出を行う, 単純で汎用的なフレームワーク, {\it SemSAD}を提案する。 サンプル間の意味関係は、幾何学的変換(画像)、時間シフト(オーディオ信号)、同義語置換(テキスト)といった変換の下で意味を不変にしておく特徴ベクトル間のコサイン類似性によって定量化される。 次に、訓練された判別器を用いてテスト例をOODとして分類する。最も近い隣人のセマンティックな類似性が、インディストリビューションからのテスト例の対応する類似性よりも大幅に低い場合。 視覚領域における異常,新規性,分布外検出に対する従来のアプローチを,大きなマージンで上回ることができるのです。 特に, CIFAR-10 から CIFAR-100 を非流通として検出する上で, ラベル情報を活用することなく, AUROC に近接する値を求める。

Classifying samples as in-distribution or out-of-distribution (OOD) is a challenging problem of anomaly detection and a strong test of the generalisation power for models of the in-distribution. In this paper, we present a simple and generic framework, {\it SemSAD}, that makes use of a semantic similarity score to carry out anomaly detection. The idea is to first find for any test example the semantically closest examples in the training set, where the semantic relation between examples is quantified by the cosine similarity between feature vectors that leave semantics unchanged under transformations, such as geometric transformations (images), time shifts (audio signals), and synonymous word substitutions (text). A trained discriminator is then used to classify a test example as OOD if the semantic similarity to its nearest neighbours is significantly lower than the corresponding similarity for test examples from the in-distribution. We are able to outperform previous approaches for anomaly, novelty, or out-of-distribution detection in the visual domain by a large margin. In particular, we obtain AUROC values close to one for the challenging task of detecting examples from CIFAR-10 as out-of-distribution given CIFAR-100 as in-distribution, without making use of label information.
翻訳日:2021-05-30 20:07:11 公開日:2021-03-26
# コントラストクロスビュー相互情報最大化による対角的人物ポーズ表現の学習

Learning View-Disentangled Human Pose Representation by Contrastive Cross-View Mutual Information Maximization ( http://arxiv.org/abs/2012.01405v2 )

ライセンス: Link先を確認
Long Zhao, Yuxiao Wang, Jiaping Zhao, Liangzhe Yuan, Jennifer J. Sun, Florian Schroff, Hartwig Adam, Xi Peng, Dimitris Metaxas, Ting Liu(参考訳) 本研究では,2次元のポーズから視点依存とポーズ依存を分離する新しい表現学習法を提案する。 異なる視点から実行される同じポーズの相互情報をコントラスト学習方法で最大化する、相互情報最大化(CV-MIM)を用いてネットワークを訓練する。 さらに,学習表現の絡み合いと滑らかさを保証するために,二つの正規化項を提案する。 得られたポーズ表現は、クロスビューアクション認識に使用できる。 学習表現のパワーを評価するために,従来の完全教師付き動作認識設定に加えて,単発クロスビュー動作認識と呼ばれる新しいタスクを導入する。 このタスクは、1つの視点からのみアクションを持つモデルを訓練し、すべての可能な視点からキャプチャされたポーズでモデルを評価する。 動作認識のための標準ベンチマークにおける学習された表現を評価し, (i) CV-MIMが, (ii) CV-MIMが, 教師付きトレーニングデータの量を減らすことで, 他の競合手法より優れており, (iii) 学習された表現は, 教師付きトレーニングデータの量を減らすことで, 性能を大幅に向上させることができることを示す。 私たちのコードはhttps://github.com/g oogle-research/googl e-research/tree/mast er/poemで公開されています。

We introduce a novel representation learning method to disentangle pose-dependent as well as view-dependent factors from 2D human poses. The method trains a network using cross-view mutual information maximization (CV-MIM) which maximizes mutual information of the same pose performed from different viewpoints in a contrastive learning manner. We further propose two regularization terms to ensure disentanglement and smoothness of the learned representations. The resulting pose representations can be used for cross-view action recognition. To evaluate the power of the learned representations, in addition to the conventional fully-supervised action recognition settings, we introduce a novel task called single-shot cross-view action recognition. This task trains models with actions from only one single viewpoint while models are evaluated on poses captured from all possible viewpoints. We evaluate the learned representations on standard benchmarks for action recognition, and show that (i) CV-MIM performs competitively compared with the state-of-the-art models in the fully-supervised scenarios; (ii) CV-MIM outperforms other competing methods by a large margin in the single-shot cross-view setting; (iii) and the learned representations can significantly boost the performance when reducing the amount of supervised training data. Our code is made publicly available at https://github.com/g oogle-research/googl e-research/tree/mast er/poem
翻訳日:2021-05-25 03:56:07 公開日:2021-03-26
# Patch2Pix:極性誘導型Pixel-Level対応

Patch2Pix: Epipolar-Guided Pixel-Level Correspondences ( http://arxiv.org/abs/2012.01909v3 )

ライセンス: Link先を確認
Qunjie Zhou, Torsten Sattler, Laura Leal-Taixe(参考訳) 視覚的ローカライゼーションに使用される古典的なマッチングパイプラインは、(i)局所的な特徴検出と記述、(ii)特徴マッチング、(iii)外れ値拒絶の3つのステップを含む。 最近出現した通信網は、単一のネットワーク内でこれらのステップを実行することを提案しているが、メモリボトルネックのため、解像度が低い。 そこで本研究では,まずパッチレベルのマッチング提案を予測し,それらを改良する手法を提案する。 本稿では,これらの提案によって定義された局所領域から画素レベルマッチングを回帰し,信頼度スコアと外れ値マッチングを共同で拒否することにより,マッチング提案を洗練する新たな改良ネットワークであるpatch2pixを提案する。 patch2pixは、入力画像対のエピポーラ幾何と一致する対応を学習するために弱い監督を受ける。 改良ネットワークは画像マッチング, ホモグラフィー推定, ローカライゼーションタスクにおいて, 対応ネットワークの性能を大幅に向上させることを示す。 さらに,学習した洗練度が再トレーニングすることなく,完全教師あり手法に一般化し,最先端のローカライズ性能をもたらすことを示した。 コードはhttps://github.com/g rumpyzhou/patch2pixで入手できる。

The classical matching pipeline used for visual localization typically involves three steps: (i) local feature detection and description, (ii) feature matching, and (iii) outlier rejection. Recently emerged correspondence networks propose to perform those steps inside a single network but suffer from low matching resolution due to the memory bottleneck. In this work, we propose a new perspective to estimate correspondences in a detect-to-refine manner, where we first predict patch-level match proposals and then refine them. We present Patch2Pix, a novel refinement network that refines match proposals by regressing pixel-level matches from the local regions defined by those proposals and jointly rejecting outlier matches with confidence scores. Patch2Pix is weakly supervised to learn correspondences that are consistent with the epipolar geometry of an input image pair. We show that our refinement network significantly improves the performance of correspondence networks on image matching, homography estimation, and localization tasks. In addition, we show that our learned refinement generalizes to fully-supervised methods without re-training, which leads us to state-of-the-art localization performance. The code is available at https://github.com/G rumpyZhou/patch2pix.
翻訳日:2021-05-23 14:54:46 公開日:2021-03-26
# ゴールコンディショニングトランスポーターネットワークを用いた変形可能なケーブル、布地、バッグの再構成学習

Learning to Rearrange Deformable Cables, Fabrics, and Bags with Goal-Conditioned Transporter Networks ( http://arxiv.org/abs/2012.03385v3 )

ライセンス: Link先を確認
Daniel Seita, Pete Florence, Jonathan Tompson, Erwin Coumans, Vikas Sindhwani, Ken Goldberg, Andy Zeng(参考訳) ケーブル、布地、バッグなどの変形可能な物体の配置と操作は、ロボット操作における長年の課題である。 変形可能な複雑なダイナミクスと高次元の構成空間は、剛性のある物体と比較すると、多段計画だけでなくゴールの仕様においても操作が困難である。 ゴールは剛体のポーズほど簡単に特定できず、「バッグの中にアイテムを置く」といった複雑な空間関係を伴うこともある。 本研究では,画像ベースゴールコンディショニングや複数ステップの変形操作を含む,1D,2D,3Dの変形可能な構造を持つシミュレーションベンチマークスイートを開発する。 本稿では,最近提案されたロボット操作を学習するためのモデルアーキテクチャであるトランスポーターネットワークに目標条件を組み込む手法を提案する。 目標条件付きトランスポーターネットワークは、ターゲット位置に対するテスト時間視覚アンカーを使わずに、変形可能な構造を柔軟に指定した構成に操作できることを示す。 また, 2次元および3次元の変形可能なタスクでテストすることにより, 変形可能なオブジェクトを操作するトランスポーターネットワークを用いて, 先行結果を著しく拡張した。 補足資料はhttps://berkeleyauto mation.github.io/bag s/で入手できる。

Rearranging and manipulating deformable objects such as cables, fabrics, and bags is a long-standing challenge in robotic manipulation. The complex dynamics and high-dimensional configuration spaces of deformables, compared to rigid objects, make manipulation difficult not only for multi-step planning, but even for goal specification. Goals cannot be as easily specified as rigid object poses, and may involve complex relative spatial relations such as "place the item inside the bag". In this work, we develop a suite of simulated benchmarks with 1D, 2D, and 3D deformable structures, including tasks that involve image-based goal-conditioning and multi-step deformable manipulation. We propose embedding goal-conditioning into Transporter Networks, a recently proposed model architecture for learning robotic manipulation that rearranges deep features to infer displacements that can represent pick and place actions. We demonstrate that goal-conditioned Transporter Networks enable agents to manipulate deformable structures into flexibly specified configurations without test-time visual anchors for target locations. We also significantly extend prior results using Transporter Networks for manipulating deformable objects by testing on tasks with 2D and 3D deformables. Supplementary material is available at https://berkeleyauto mation.github.io/bag s/.
翻訳日:2021-05-21 13:52:30 公開日:2021-03-26
# (参考訳) 完全畳み込みネットワークによる終端物体検出 [全文訳有]

End-to-End Object Detection with Fully Convolutional Network ( http://arxiv.org/abs/2012.03544v3 )

ライセンス: CC BY 4.0
Jianfeng Wang, Lin Song, Zeming Li, Hongbin Sun, Jian Sun, Nanning Zheng(参考訳) 完全畳み込みネットワークに基づく主流の物体検出器は素晴らしい性能を達成している。 それらのほとんどは、完全にエンドツーエンドのトレーニングを妨げる、手作りの非最大抑制(nms)後処理を必要とする。 本稿では, 廃棄されたnmsの分析を行い, 適切なラベル割り当てが重要な役割を担っていることを示す。 そこで本研究では,完全畳み込み検出器に対して,分類のための1対1(poto)ラベル割り当てを導入し,エンドツーエンド検出を可能にし,nmsと同等の性能を得る。 また,マルチスケール特徴を活用し,局所領域における畳み込みの判別性を向上させるため,簡易な3dmaxフィルタ(3dmf)を提案する。 これらの手法により、我々のエンドツーエンドフレームワークは、COCOおよびCrowdHumanデータセット上のNMSを用いた多くの最先端検出器と競合する性能を達成する。 コードはhttps://github.com/M egvii-BaseDetection/ DeFCNで入手できる。

Mainstream object detectors based on the fully convolutional network has achieved impressive performance. While most of them still need a hand-designed non-maximum suppression (NMS) post-processing, which impedes fully end-to-end training. In this paper, we give the analysis of discarding NMS, where the results reveal that a proper label assignment plays a crucial role. To this end, for fully convolutional detectors, we introduce a Prediction-aware One-To-One (POTO) label assignment for classification to enable end-to-end detection, which obtains comparable performance with NMS. Besides, a simple 3D Max Filtering (3DMF) is proposed to utilize the multi-scale features and improve the discriminability of convolutions in the local region. With these techniques, our end-to-end framework achieves competitive performance against many state-of-the-art detectors with NMS on COCO and CrowdHuman datasets. The code is available at https://github.com/M egvii-BaseDetection/ DeFCN .
翻訳日:2021-05-21 02:54:52 公開日:2021-03-26
# (参考訳) 動物園環境におけるゴリラの顔認識のためのデータセットと応用 [全文訳有]

A Dataset and Application for Facial Recognition of Individual Gorillas in Zoo Environments ( http://arxiv.org/abs/2012.04689v2 )

ライセンス: CC BY 4.0
Otto Brookes, Tilo Burghardt(参考訳) 我々はブリストル動物園の7つの低地ゴリラの部隊に5k以上の顔境界ボックスアノテーションを用いたビデオデータセットを提出した。 このデータセットのトレーニングでは、動物園環境で個々のゴリラを顔認識するタスクにおいて、標準的なディープラーニングパイプラインを実装し、評価する。 YOLOv3ベースのアプリケーションは,1フレームのみを利用する場合,92% mAPで識別を行うことができることを示す。 トラックレット間のトラッキング・バイ・アソシエーションとアイデンティティ投票により、97%のロバスト性が向上した。 動物園環境の研究能力を向上するための活用を容易にするため,我々は,Data.bris.ac.ukでコード,ビデオデータセット,ウェイト,接地木アノテーションを公開している。

We put forward a video dataset with 5k+ facial bounding box annotations across a troop of 7 western lowland gorillas at Bristol Zoo Gardens. Training on this dataset, we implement and evaluate a standard deep learning pipeline on the task of facially recognising individual gorillas in a zoo environment. We show that a basic YOLOv3-powered application is able to perform identifications at 92% mAP when utilising single frames only. Tracking-by-detectio n-association and identity voting across short tracklets yields an improved robust performance of 97% mAP. To facilitate easy utilisation for enriching the research capabilities of zoo environments, we publish the code, video dataset, weights, and ground-truth annotations at data.bris.ac.uk.
翻訳日:2021-05-17 01:01:20 公開日:2021-03-26
# One-Vote Veto:ローショット緑内障診断のための半教師付き学習

One-Vote Veto: Semi-Supervised Learning for Low-Shot Glaucoma Diagnosis ( http://arxiv.org/abs/2012.04841v3 )

ライセンス: Link先を確認
Rui Fan, Christopher Bowd, Nicole Brye, Mark Christopher, Robert N. Weinreb, David Kriegman, Linda Zangwill(参考訳) 畳み込みニューラルネットワーク(cnns)は眼底の画像から緑内障を自動的に診断する有望な技術であり、眼科検査の一環として日常的に取得される。 それにもかかわらず、CNNは通常、多くのバイオメディカル画像分類アプリケーションでは利用できない、特に病気が稀で専門家によるラベル付けがコストがかかるような、十分なラベル付きデータを必要とする。 本稿では,(1)従来のツインニューラルネットを拡張し,ラベル付きデータが限定的かつ不均衡な場合の低ショット学習の訓練方法,(2)ラベルなしの学習データを追加して精度を高めるための新しい半教師付き学習戦略を提案する。 提案したマルチタスクツインニューラルネットワーク(MTTNN)は,任意のバックボーンCNNを使用することが可能であり,限られたトレーニングデータの精度が,50倍のデータセットでトレーニングされたバックボーンCNNの精度に近づくことを示す。 また、NTTNN用に特別に設計された半教師付き学習戦略であるOne-Vote Veto(OVV)自己学習についても紹介する。 ラベルなしトレーニングデータの自己予測とコントラスト予測の両方を考慮に入れることで、OVV自己学習は事前訓練されたMTTNNを微調整するための追加の擬似ラベルを提供する。 15年以上にわたって取得された66715基の写真を含む大規模な(不均衡な)データセットを用いて、MTTNNによる低撮影学習とOVVによる半教師学習の有効性を実験的に実証した。 異なる条件(カメラ,機器,場所,人口)で取得した眼底画像の3つのより小さな臨床データセットを用いて,提案手法の一般化可能性を示す。 ソースコードと事前訓練されたモデルは、公開時に公開される。

Convolutional neural networks (CNNs) are a promising technique for automated glaucoma diagnosis from images of the fundus, and these images are routinely acquired as part of an ophthalmic exam. Nevertheless, CNNs typically require a large amount of well-labeled data for training, which may not be available in many biomedical image classification applications, especially when diseases are rare and where labeling by experts is costly. This paper makes two contributions to address this issue: (1) It extends the conventional twin neural network and introduces a training method for low-shot learning when labeled data are limited and imbalanced, and (2) it introduces a novel semi-supervised learning strategy that uses additional unlabeled training data to achieve greater accuracy. Our proposed multi-task twin neural network (MTTNN) can employ any backbone CNN, and we demonstrate with four backbone CNNs that its accuracy with limited training data approaches the accuracy of backbone CNNs trained with a dataset that is 50 times larger. We also introduce One-Vote Veto (OVV) self-training, a semi-supervised learning strategy that is designed specifically for MTTNNs. By taking both self-predictions and contrastive-predicti ons of the unlabeled training data into account, OVV self-training provides additional pseudo labels for fine tuning a pretrained MTTNN. Using a large (imbalanced) dataset with 66715 fundus photographs acquired over 15 years, extensive experimental results demonstrate the effectiveness of low-shot learning with MTTNN and semi-supervised learning with OVV self-training. Three additional, smaller clinical datasets of fundus images acquired under different conditions (cameras, instruments, locations, populations) are used to demonstrate the generalizability of the proposed methods. Source code and pretrained models will be publicly available upon publication.
翻訳日:2021-05-16 02:17:44 公開日:2021-03-26
# (参考訳) DI-Fusion: ディープ・プライオリティによるオンラインインプリシティブ3D再構築 [全文訳有]

DI-Fusion: Online Implicit 3D Reconstruction with Deep Priors ( http://arxiv.org/abs/2012.05551v2 )

ライセンス: CC BY 4.0
Jiahui Huang, Shi-Sheng Huang, Haoxuan Song, Shi-Min Hu(参考訳) 従来のオンライン3D高密度再構成手法は, TSDF (Truncated signed distance function) やウェーバなどの静止した幾何学的表現を用いて, シーンの先行状況を知ることなく, メモリストレージと表面品質のバランスをとるのに苦労していた。 本稿では,新しい3D表現に基づくDI-Fusion(Deep Implicit Fusion)を提案する。 Probabilistic Local Implicit Voxels (PLIVoxs) - オンラインRGB-Dカメラによる3D再構成。 我々のPLIVoxは、深層ニューラルネットワークによってパラメータ化された局所的幾何と不確実性の両方を考慮して、シーン先行を符号化する。 このような深層化により,従来のオンライン3次元再構成手法に比べ,記憶効率の向上を図りつつ,最先端のカメラ軌道推定精度とマッピング品質を達成することができる。 実装はhttps://www.github.c om/huangjh-pub/di-fu sionで利用可能です。

Previous online 3D dense reconstruction methods struggle to achieve the balance between memory storage and surface quality, largely due to the usage of stagnant underlying geometry representation, such as TSDF (truncated signed distance functions) or surfels, without any knowledge of the scene priors. In this paper, we present DI-Fusion (Deep Implicit Fusion), based on a novel 3D representation, i.e. Probabilistic Local Implicit Voxels (PLIVoxs), for online 3D reconstruction with a commodity RGB-D camera. Our PLIVox encodes scene priors considering both the local geometry and uncertainty parameterized by a deep neural network. With such deep priors, we are able to perform online implicit 3D reconstruction achieving state-of-the-art camera trajectory estimation accuracy and mapping quality, while achieving better storage efficiency compared with previous online 3D reconstruction approaches. Our implementation is available at https://www.github.c om/huangjh-pub/di-fu sion.
翻訳日:2021-05-15 19:12:13 公開日:2021-03-26
# 1次モデル最適化による個人化フェデレーション学習

Personalized Federated Learning with First Order Model Optimization ( http://arxiv.org/abs/2012.08565v4 )

ライセンス: Link先を確認
Michael Zhang, Karan Sapra, Sanja Fidler, Serena Yeung and Jose M. Alvarez(参考訳) フェデレーション学習は伝統的に、分散したローカルデータセットにまたがって単一のグローバルモデルをトレーニングすることを目的としているが、ひとつのモデルが参加するすべてのクライアントに理想的とは限らない。 ここでは、各クライアントが他の関連するクライアントとのみ連携して、クライアント固有の目的ごとのより強力なモデルを得る方法を提案する。 このパーソナライズを実現するために、従来のFLのようにフェデレーション全体に対する一定の重み付き単一モデル平均を計算するのではなく、クライアントが他のモデルの恩恵を受けることができるかを判断し、各クライアントに対して最適な重み付けモデルの組み合わせを効率的に計算する。 基盤となるデータ分散やクライアントの類似性に関する知識を前提とせず、各クライアントが関心のある任意のターゲットディストリビューションを最適化できるようにし、パーソナライゼーションの柔軟性を高めています。 我々は, 様々なフェデレーション設定, データセット, ローカルデータの不均一性の度合いについて評価し, 特徴づける。 提案手法は既存の代替手段よりも優れ,またローカルデータ配信の外部への転送など,パーソナライズされたFLのための新機能も実現している。

While federated learning traditionally aims to train a single global model across decentralized local datasets, one model may not always be ideal for all participating clients. Here we propose an alternative, where each client only federates with other relevant clients to obtain a stronger model per client-specific objectives. To achieve this personalization, rather than computing a single model average with constant weights for the entire federation as in traditional FL, we efficiently calculate optimal weighted model combinations for each client, based on figuring out how much a client can benefit from another's model. We do not assume knowledge of any underlying data distributions or client similarities, and allow each client to optimize for arbitrary target distributions of interest, enabling greater flexibility for personalization. We evaluate and characterize our method on a variety of federated settings, datasets, and degrees of local data heterogeneity. Our method outperforms existing alternatives, while also enabling new features for personalized FL such as transfer outside of local data distributions.
翻訳日:2021-05-07 05:30:03 公開日:2021-03-26
# (参考訳) ViNG: Visual Goalsでオープンワールドナビゲーションを学ぶ [全文訳有]

ViNG: Learning Open-World Navigation with Visual Goals ( http://arxiv.org/abs/2012.09812v2 )

ライセンス: CC BY 4.0
Dhruv Shah, Benjamin Eysenbach, Gregory Kahn, Nicholas Rhinehart, Sergey Levine(参考訳) 本研究では,視覚的に指示された目標を達成するための学習に基づくナビゲーションシステムを提案し,実際の移動ロボットプラットフォーム上で実演する。 学習は、幾何学や地図の観点で環境を推論する代わりに、ロボットがナビゲーションの余裕について学習し、どのような種類の障害物(背の高い草など)が横断可能であるかを理解し、(壁など)そうでないかを理解し、環境のパターンを一般化することができる。 しかしながら、従来の計画アルゴリズムとは異なり、デプロイメント中に学習したポリシーの目標を変更するのは難しい。 本稿では,所望の目的地のゴール画像に向けての学習方法を提案する。 これまでに観測されたデータから構築されたトポロジカルグラフと学習ポリシを組み合わせることで、変動した外観や照明の存在下でも、この視覚的に示される目標に到達する方法を決定することができる。 3つの重要な洞察、ウェイポイント提案、グラフプルーニング、負のマイニングにより、我々の方法はオフラインデータのみを使用して現実世界の環境をナビゲートすることができる。 実際の屋外グラウンドロボット上で本手法をインスタンス化し,ViNGと呼ばれる我々のシステムは,強化学習と探索を組み込んだ他の方法を含む,目標条件付き強化学習の手法よりも優れていることを示す。 また,認識不能な環境への一般化について検討し,経験を積んだ環境への適応能力を評価する。 最後に,ラストマイル配送や倉庫の検査など,実世界のアプリケーションをいくつか紹介する。 Google.com/view/ving -robot.comのビデオやデモのサイトを見るために、読者はプロジェクトのWebサイトを訪問することを勧めます。

We propose a learning-based navigation system for reaching visually indicated goals and demonstrate this system on a real mobile robot platform. Learning provides an appealing alternative to conventional methods for robotic navigation: instead of reasoning about environments in terms of geometry and maps, learning can enable a robot to learn about navigational affordances, understand what types of obstacles are traversable (e.g., tall grass) or not (e.g., walls), and generalize over patterns in the environment. However, unlike conventional planning algorithms, it is harder to change the goal for a learned policy during deployment. We propose a method for learning to navigate towards a goal image of the desired destination. By combining a learned policy with a topological graph constructed out of previously observed data, our system can determine how to reach this visually indicated goal even in the presence of variable appearance and lighting. Three key insights, waypoint proposal, graph pruning and negative mining, enable our method to learn to navigate in real-world environments using only offline data, a setting where prior methods struggle. We instantiate our method on a real outdoor ground robot and show that our system, which we call ViNG, outperforms previously-proposed methods for goal-conditioned reinforcement learning, including other methods that incorporate reinforcement learning and search. We also study how \sysName generalizes to unseen environments and evaluate its ability to adapt to such an environment with growing experience. Finally, we demonstrate ViNG on a number of real-world applications, such as last-mile delivery and warehouse inspection. We encourage the reader to visit the project website for videos of our experiments and demonstrations sites.google.com/vie w/ving-robot.
翻訳日:2021-05-02 12:59:58 公開日:2021-03-26
# ドメイン固有ニューラルネットワーク翻訳のためのスパース構造探索

Finding Sparse Structures for Domain Specific Neural Machine Translation ( http://arxiv.org/abs/2012.10586v2 )

ライセンス: Link先を確認
Jianze Liang, Chengqi Zhao, Mingxuan Wang, Xipeng Qiu, Lei Li(参考訳) ニューラルマシン翻訳は、しばしば特定の領域に適応するために微調整アプローチを採用する。 しかし、制限のない微調整は、汎用ドメインで容易に分解でき、ターゲットドメインに過度に適合する。 この問題を軽減するために,段階的プルーニングによるドメイン適応手法Prune-Tuneを提案する。 新しいドメインの微調整中に、小さなドメイン固有のサブネットワークを学ぶ。 prune-tuneはモデル修正なしに過剰フィッティングと劣化問題を緩和する。 さらに、Prune-Tuneは複数のドメインにまたがる複数のドメイン固有のサブネットワークを持つ単一のネットワークを逐次学習することができる。 実証実験の結果,Prune-Tuneは,単一ドメインとマルチドメインの両方の設定において,汎用ドメインの品質を犠牲にすることなく,ターゲットドメインテストセットにおける強力な競合数を上回っていることがわかった。 ソースコードとデータはhttps://github.com/o hlionel/prune-tuneで入手できる。

Neural machine translation often adopts the fine-tuning approach to adapt to specific domains. However, nonrestricted fine-tuning can easily degrade on the general domain and over-fit to the target domain. To mitigate the issue, we propose Prune-Tune, a novel domain adaptation method via gradual pruning. It learns tiny domain-specific sub-networks during fine-tuning on new domains. Prune-Tune alleviates the over-fitting and the degradation problem without model modification. Furthermore, Prune-Tune is able to sequentially learn a single network with multiple disjoint domain-specific sub-networks for multiple domains. Empirical experiment results show that Prune-Tune outperforms several strong competitors in the target domain test set without sacrificing the quality on the general domain in both single and multi-domain settings. The source code and data are available at https://github.com/o hlionel/Prune-Tune.
翻訳日:2021-05-01 11:17:07 公開日:2021-03-26
# siamese anchor proposal network for high-speed aerial tracking

Siamese Anchor Proposal Network for High-Speed Aerial Tracking ( http://arxiv.org/abs/2012.10706v3 )

ライセンス: Link先を確認
Changhong Fu, Ziang Cao, Yiming Li, Junjie Ye and Chen Feng(参考訳) 視覚的トラッキングの分野では、ほとんどのディープラーニングベースのトラッカーは、正確さを強調しながら効率を犠牲にしている。 そのため、無人航空機(UAV)のようなモバイルプラットフォームへの実際の展開は妨げられている。 本研究は, 高度アンカー提案生成のためのステージ1, アンカー提案の精製のためのステージ2という, 空中追跡のための新しい2段階シームズネットワーク方式を提案する。 既定の固定サイズのアンカーが多数存在するアンカー法と異なり,本手法では,1)様々な大きさの異なる物体に対して,特に適応アンカー生成に照らして複雑なシナリオ下で,ロバスト性や一般化性が向上する,2)アンカー数が大幅に減少することによる計算が可能となる。 さらに,アンカーフリーメソッドと比較して,ステージ2の改良により性能が向上した。 3つのベンチマークに関する総合的な実験は、約200フレーム/秒の速度で、我々のアプローチの優れた性能を証明した。

In the domain of visual tracking, most deep learning-based trackers highlight the accuracy but casting aside efficiency. Therefore, their real-world deployment on mobile platforms like the unmanned aerial vehicle (UAV) is impeded. In this work, a novel two-stage Siamese network-based method is proposed for aerial tracking, i.e., stage-1 for high-quality anchor proposal generation, stage-2 for refining the anchor proposal. Different from anchor-based methods with numerous pre-defined fixed-sized anchors, our no-prior method can 1) increase the robustness and generalization to different objects with various sizes, especially to small, occluded, and fast-moving objects, under complex scenarios in light of the adaptive anchor generation, 2) make calculation feasible due to the substantial decrease of anchor numbers. In addition, compared to anchor-free methods, our framework has better performance owing to refinement at stage-2. Comprehensive experiments on three benchmarks have proven the superior performance of our approach, with a speed of around 200 frames/s.
翻訳日:2021-05-01 11:11:02 公開日:2021-03-26
# 重複染色体分節に対するadversarial multiscale feature learning

Adversarial Multiscale Feature Learning for Overlapping Chromosome Segmentation ( http://arxiv.org/abs/2012.11847v2 )

ライセンス: Link先を確認
Liye Mei, Yalan Yu, Yueyun Weng, Xiaopeng Guo, Yan Liu, Du Wang, Sheng Liu, Fuling Zhou, and Cheng Lei(参考訳) 染色体核型解析は、特に遺伝疾患の診断と治療において非常に臨床的に重要である。 手動解析は非常に時間と労力がかかり、画像に基づくコンピュータ支援自動染色体型解析は、解析の効率と精度を向上させるために日常的に使用される。 染色体の細長い形状のため、画像化時に互いに重なり合いやすく、その後の解析の精度に大きな影響を与えている。 従来の重複染色体分割法は通常手動でタグ付けされた特徴に基づいており、その性能は画像の解像度や明るさなどの品質に容易に影響を受ける。 そこで本研究では,重複染色体分割の精度と適応性を向上させるために,逆向きのマルチスケール特徴学習フレームワークを提案する。 具体的には、まず高密度スキップ接続を有するネスト型U字型ネットワークを用いて、マルチスケールの特徴を利用して染色体画像の最適な表現を探索する。 次に、条件付き生成逆数ネットワーク(cGAN)を用いて、元のものと類似した画像を生成し、最小二乗 GAN 目標を適用してトレーニング安定性を向上させる。 最後に、モデルの連続的な最適化設定の収束を支援するためにLovasz-Softmaxを用いる。 確立されたアルゴリズムと比較して,8つの評価基準で公開データセットを用いて,染色体分割の重なり合う可能性を示した。

Chromosome karyotype analysis is of great clinical importance in the diagnosis and treatment of diseases, especially for genetic diseases. Since manual analysis is highly time and effort consuming, computer-assisted automatic chromosome karyotype analysis based on images is routinely used to improve the efficiency and accuracy of the analysis. Due to the strip shape of the chromosomes, they easily get overlapped with each other when imaged, significantly affecting the accuracy of the analysis afterward. Conventional overlapping chromosome segmentation methods are usually based on manually tagged features, hence, the performance of which is easily affected by the quality, such as resolution and brightness, of the images. To address the problem, in this paper, we present an adversarial multiscale feature learning framework to improve the accuracy and adaptability of overlapping chromosome segmentation. Specifically, we first adopt the nested U-shape network with dense skip connections as the generator to explore the optimal representation of the chromosome images by exploiting multiscale features. Then we use the conditional generative adversarial network (cGAN) to generate images similar to the original ones, the training stability of which is enhanced by applying the least-square GAN objective. Finally, we employ Lovasz-Softmax to help the model converge in a continuous optimization setting. Comparing with the established algorithms, the performance of our framework is proven superior by using public datasets in eight evaluation criteria, showing its great potential in overlapping chromosome segmentation
翻訳日:2021-04-26 07:46:56 公開日:2021-03-26
# ロボット操作のための自然言語命令からの空間推論

Spatial Reasoning from Natural Language Instructions for Robot Manipulation ( http://arxiv.org/abs/2012.13693v2 )

ライセンス: Link先を確認
Sagar Gubbi Venkatesh and Anirban Biswas and Raviteja Upadrashta and Vikram Srinivasan and Partha Talukdar and Bharadwaj Amrutur(参考訳) 非構造環境で物体を操作し、人間と協調できるロボットは、自然言語を理解することで大きな利益を得ることができる。 テキスト入力に対して空間的推論を行うための2段階のパイプラインアーキテクチャを提案する。 シーン内のすべてのオブジェクトを最初にローカライズし、その後、自然言語におけるロボットの指示とローカライズされたコーディネートを、ロボットがそれぞれオブジェクトをピックアップして配置しなければならない場所に対応する開始と終了のコーディネートにマッピングする。 位置を2次元格子に量子化することで局所オブジェクトを表現することは、2次元座標の一覧として表すよりも好ましいことを示す。 また、注意が一般化を改善し、データセットのバイアスを克服できることも示している。 提案手法は,ロボットアームを用いてカードの選択・配置を行う。

Robots that can manipulate objects in unstructured environments and collaborate with humans can benefit immensely by understanding natural language. We propose a pipelined architecture of two stages to perform spatial reasoning on the text input. All the objects in the scene are first localized, and then the instruction for the robot in natural language and the localized co-ordinates are mapped to the start and end co-ordinates corresponding to the locations where the robot must pick up and place the object respectively. We show that representing the localized objects by quantizing their positions to a binary grid is preferable to representing them as a list of 2D co-ordinates. We also show that attention improves generalization and can overcome biases in the dataset. The proposed method is used to pick-and-place playing cards using a robot arm.
翻訳日:2021-04-25 01:12:45 公開日:2021-03-26
# 強化学習アルゴリズムの進化

Evolving Reinforcement Learning Algorithms ( http://arxiv.org/abs/2101.03958v3 )

ライセンス: Link先を確認
John D. Co-Reyes, Yingjie Miao, Daiyi Peng, Esteban Real, Sergey Levine, Quoc V. Le, Honglak Lee, Aleksandra Faust(参考訳) 本稿では,値ベースのモデルフリーなrlエージェントの損失関数を計算し最適化する計算グラフの空間を探索し,メタラーニング強化学習アルゴリズムを提案する。 学習アルゴリズムはドメインに依存しず、トレーニング中に見えない新しい環境に一般化することができる。 提案手法は,dqnのような既知の既存アルゴリズムをスクラッチから学習し,ブートストラップすることで,解析可能な修正が可能となり,性能が向上する。 単純な古典制御とグリッドワールドタスクをスクラッチから学習し、時間微分アルゴリズム(td)を再発見する。 DQNのブートストラップでは,他の古典的制御タスク,グリッドワールド型タスク,アタリゲームに対して,優れた一般化性能が得られる2つの学習アルゴリズムを強調した。 学習したアルゴリズムの挙動の解析は、最近提案されたRLアルゴリズムと似ている。

We propose a method for meta-learning reinforcement learning algorithms by searching over the space of computational graphs which compute the loss function for a value-based model-free RL agent to optimize. The learned algorithms are domain-agnostic and can generalize to new environments not seen during training. Our method can both learn from scratch and bootstrap off known existing algorithms, like DQN, enabling interpretable modifications which improve performance. Learning from scratch on simple classical control and gridworld tasks, our method rediscovers the temporal-difference (TD) algorithm. Bootstrapped from DQN, we highlight two learned algorithms which obtain good generalization performance over other classical control tasks, gridworld type tasks, and Atari games. The analysis of the learned algorithm behavior shows resemblance to recently proposed RL algorithms that address overestimation in value-based methods.
翻訳日:2021-04-10 05:09:28 公開日:2021-03-26
# 重み付きノード類似性における複素ネットワークに基づく時系列予測

Time series forecasting based on complex network in weighted node similarity ( http://arxiv.org/abs/2103.13870v2 )

ライセンス: Link先を確認
Tianxiang Zhan, Fuyuan Xiao(参考訳) 時系列は、今日多くの分野で広く注目を集めている。 複雑なネットワークの解析と可視性グラフ理論に基づいて,新しい時系列予測法を提案する。 時系列解析において、可視性グラフ理論は時系列データをネットワークモデルに変換する。 ネットワークモデルでは、ノード類似度指数が重要な要素である。 ノード類似度が最も大きいノード予測法を直接使用することにより、重み係数としてノード類似度指数を用いて予測アルゴリズムを最適化する。 単点サンプリングノード予測アルゴリズムと比較して、多点サンプリング予測アルゴリズムは、データセットが十分であれば、より正確な予測値を提供できる。 4つの実世界の代表データセットに関する実験の結果によると、この方法はより正確な予測能力を持ち、時系列と実際のシーンの分野においてより正確な予測を提供することができる。

Time series have attracted widespread attention in many fields today. Based on the analysis of complex networks and visibility graph theory, a new time series forecasting method is proposed. In time series analysis, visibility graph theory transforms time series data into a network model. In the network model, the node similarity index is an important factor. On the basis of directly using the node prediction method with the largest similarity, the node similarity index is used as the weight coefficient to optimize the prediction algorithm. Compared with the single-point sampling node prediction algorithm, the multi-point sampling prediction algorithm can provide more accurate prediction values when the data set is sufficient. According to results of experiments on four real-world representative datasets, the method has more accurate forecasting ability and can provide more accurate forecasts in the field of time series and actual scenes.
翻訳日:2021-04-05 01:06:30 公開日:2021-03-26
# (参考訳) 金融時系列予測のためのアンサンブルを用いたマルチソース転送学習 [全文訳有]

Multi-source Transfer Learning with Ensemble for Financial Time Series Forecasting ( http://arxiv.org/abs/2103.15593v1 )

ライセンス: CC BY 4.0
Qi-Qiao He, Patrick Cheong-Iao Pang, Yain-Whar Si(参考訳) トランスファーラーニングはコンピュータビジョンや自然言語処理に有効であることが証明されているが、金融時系列の予測においてはほとんど研究されていない。 トランスファーラーニングに関する既存の作業の大部分は、オープンアクセスの大規模データセットが利用できるため、シングルソースのトランスファーラーニングに基づいている。 しかし、金融分野では、個々の時系列の長さは比較的短く、単一ソース転送学習モデルでは効果が低い。 そこで本稿では,金融時系列のマルチソース深層移動学習について検討する。 Weighted Average Ensemble for Transfer Learning (WAETL) と Tree-structured Parzen Estimator Ensemble Selection (TPEES) という2つのマルチソーストランスファー学習手法を提案する。 本手法の有効性は株式市場から抽出した金融時系列を用いて評価する。 実験の結果,TPEESはマルチソース転送タスクの大部分において,他のベースライン手法よりも優れていることがわかった。

Although transfer learning is proven to be effective in computer vision and natural language processing applications, it is rarely investigated in forecasting financial time series. Majority of existing works on transfer learning are based on single-source transfer learning due to the availability of open-access large-scale datasets. However, in financial domain, the lengths of individual time series are relatively short and single-source transfer learning models are less effective. Therefore, in this paper, we investigate multi-source deep transfer learning for financial time series. We propose two multi-source transfer learning methods namely Weighted Average Ensemble for Transfer Learning (WAETL) and Tree-structured Parzen Estimator Ensemble Selection (TPEES). The effectiveness of our approach is evaluated on financial time series extracted from stock markets. Experiment results reveal that TPEES outperforms other baseline methods on majority of multi-source transfer tasks.
翻訳日:2021-04-03 16:52:43 公開日:2021-03-26
# (参考訳) 畳み込みニューラルネットワークの性能向上のためのadam様最適化アルゴリズムの利用 [全文訳有]

Exploiting Adam-like Optimization Algorithms to Improve the Performance of Convolutional Neural Networks ( http://arxiv.org/abs/2103.14689v1 )

ライセンス: CC BY 4.0
Loris Nanni, Gianluca Maguolo, Alessandra Lumini(参考訳) 確率勾配降下 (SGD) は、最小バッチで評価された損失の勾配方向のモデルのパラメータを反復的に更新することにより、コスト関数の最適化に向けて、ディープネットワークをトレーニングするための主要なアプローチである。 SGDのいくつかの変種は、各パラメータ(適応勾配)に対して適応的なステップサイズを作成し、以前の更新(モメンタム)を考慮している。 sgdの代替として、adagrad、adadelta、rmsprop、adamがあり、過去の勾配における2乗座標の平均化のある種の形の平方根による勾配の座標をスケールし、パラメータベースで学習率を自動的に調整する。 本研究では,現在と過去の勾配の違いに基づいてAdamに基づく変種を比較し,各パラメータのステップサイズを調整した。 医用画像データを用いて提案手法のベンチマークを行う。 実験はResNet50アーキテクチャニューラルネットワークを用いて行われる。 さらに,確率勾配降下法で訓練されたresnet50とネットワークのアンサンブルと融合実験を行った。 ResNet50のセットを組み合わせるために、単純な総和ルールが適用された。 提案されたアンサンブルは、非常に高いパフォーマンスを得られ、実際の技術と同等かそれ以上の精度が得られる。 再現性と研究効率を改善するために、この研究で使用されるMATLABソースコードはGitHubで入手できる。

Stochastic gradient descent (SGD) is the main approach for training deep networks: it moves towards the optimum of the cost function by iteratively updating the parameters of a model in the direction of the gradient of the loss evaluated on a minibatch. Several variants of SGD have been proposed to make adaptive step sizes for each parameter (adaptive gradient) and take into account the previous updates (momentum). Among several alternative of SGD the most popular are AdaGrad, AdaDelta, RMSProp and Adam which scale coordinates of the gradient by square roots of some form of averaging of the squared coordinates in the past gradients and automatically adjust the learning rate on a parameter basis. In this work, we compare Adam based variants based on the difference between the present and the past gradients, the step size is adjusted for each parameter. We run several tests benchmarking proposed methods using medical image data. The experiments are performed using ResNet50 architecture neural network. Moreover, we have tested ensemble of networks and the fusion with ResNet50 trained with stochastic gradient descent. To combine the set of ResNet50 the simple sum rule has been applied. Proposed ensemble obtains very high performance, it obtains accuracy comparable or better than actual state of the art. To improve reproducibility and research efficiency the MATLAB source code used for this research is available at GitHub: https://github.com/L orisNanni.
翻訳日:2021-04-03 16:39:27 公開日:2021-03-26
# (参考訳) rgbによる照明アウェアスペクトル再構成のためのirカットフィルタのチューニング [全文訳有]

Tuning IR-cut Filter for Illumination-aware Spectral Reconstruction from RGB ( http://arxiv.org/abs/2103.14708v1 )

ライセンス: CC BY 4.0
Bo Sun, Junchi Yan, Xiao Zhou, and Yinqiang Zheng(参考訳) 多チャンネル観測、特にトリクロマトグラフィーRGBからのスペクトル信号を再構成するために、従来の走査型分光画像装置の代替として最近登場した。 再現精度は、使用中のRGBカメラのスペクトル応答に大きく依存していることが証明されている。 精度を向上させるため、既存のRGBカメラの最良の応答曲線を検索したり、新しい3チャンネル応答曲線を設計したりするためのデータ駆動アルゴリズムが提案されている。 そこで本研究では,既存のRGBカメラのフィルタアレイによるカラーイメージング機構について検討し,スペクトル回復のためのIRカットフィルタを適切に設計することを提案する。 さらに,照明スペクトルの復元を可能にする深層学習に基づくスペクトル再構成法を提案する。 日光照明下での合成画像と実画像の両方による実験結果から、赤外線カットフィルタチューニング法と照明対応スペクトル再構成法の利点が示された。

To reconstruct spectral signals from multi-channel observations, in particular trichromatic RGBs, has recently emerged as a promising alternative to traditional scanning-based spectral imager. It has been proven that the reconstruction accuracy relies heavily on the spectral response of the RGB camera in use. To improve accuracy, data-driven algorithms have been proposed to retrieve the best response curves of existing RGB cameras, or even to design brand new three-channel response curves. Instead, this paper explores the filter-array based color imaging mechanism of existing RGB cameras, and proposes to design the IR-cut filter properly for improved spectral recovery, which stands out as an in-between solution with better trade-off between reconstruction accuracy and implementation complexity. We further propose a deep learning based spectral reconstruction method, which allows to recover the illumination spectrum as well. Experiment results with both synthetic and real images under daylight illumination have shown the benefits of our IR-cut filter tuning method and our illumination-aware spectral reconstruction method.
翻訳日:2021-04-03 16:32:22 公開日:2021-03-26
# (参考訳) VQAがやらないことを知る: 説明のヘルプネスを改善するためにエラー誘発領域を指差す [全文訳有]

Knowing What VQA Does Not: Pointing to Error-Inducing Regions to Improve Explanation Helpfulness ( http://arxiv.org/abs/2103.14712v1 )

ライセンス: CC BY 4.0
Arijit Ray, Michael Cogswell, Xiao Lin, Kamran Alipour, Ajay Divakaran, Yi Yao, Giedrius Burachas(参考訳) VQA(Visual Question Answering)の一般的なヒートマップに基づく説明手法であるアテンションマップは,モデルが回答を推測するために使用するイメージ/クエストの一部を強調することにより,モデルの理解を支援する。 しかし,モデルが不正確な回答を生み出しているにも関わらず,関連する領域を指し示す現在の注意マップの可視化によって,ユーザは誤解されることが多い。 そこで本研究では,モデルがerrになりやすい画像領域を強調することで誤りを明確にする誤りマップを提案する。 エラーマップは、正しく処理された領域が不正に処理された場合を示すことができ、その結果、そのケースに対するユーザの理解が向上する。 新たな説明を評価するために, ユーザの説明解釈をシミュレートし, モデルの正確性を理解する上での潜在的有用性を評価する指標を提案する。 最終的に、私たちの新しい説明が、予測30%のベースラインよりもモデルの正確性を理解するのに役立ち、私たちのプロキシの有用性の指標が、モデルの正確性をどのように予測できるかを強く($\rho>0.97$)関連付けるのに役立ちます。

Attention maps, a popular heatmap-based explanation method for Visual Question Answering (VQA), are supposed to help users understand the model by highlighting portions of the image/question used by the model to infer answers. However, we see that users are often misled by current attention map visualizations that point to relevant regions despite the model producing an incorrect answer. Hence, we propose Error Maps that clarify the error by highlighting image regions where the model is prone to err. Error maps can indicate when a correctly attended region may be processed incorrectly leading to an incorrect answer, and hence, improve users' understanding of those cases. To evaluate our new explanations, we further introduce a metric that simulates users' interpretation of explanations to evaluate their potential helpfulness to understand model correctness. We finally conduct user studies to see that our new explanations help users understand model correctness better than baselines by an expected 30% and that our proxy helpfulness metrics correlate strongly ($\rho>0.97$) with how well users can predict model correctness.
翻訳日:2021-04-03 16:16:36 公開日:2021-03-26
# (参考訳) マルチタスク表現学習による自動運転車のポリシー学習の効率化 [全文訳有]

Increasing the Efficiency of Policy Learning for Autonomous Vehicles by Multi-Task Representation Learning ( http://arxiv.org/abs/2103.14718v1 )

ライセンス: CC BY 4.0
Eshagh Kargar and Ville Kyrki(参考訳) ダイナミックでマルチエージェントで複雑な都市環境における運転は、複雑な意思決定方針を必要とする難しい課題である。 このようなポリシーの学習には、環境全体をエンコードできる状態表現が必要である。 車両の環境を画像としてエンコードする中間層表現が一般的な選択肢となっている。 それでも、それらは非常に高次元であり、強化学習のようなデータハングリーなアプローチでの使用を制限する。 本稿では,関連する意味的要因の知識を活用し,環境の低次元かつ豊かな潜在表現を学ぶことを提案する。 これを実現するために,エンコーダ・デコーダ深層ニューラルネットワークを訓練し,他のエージェントやegoカーの軌道など,複数のアプリケーション関連因子を予測する。 また,ダウンストリームポリシの入力として,学習した潜在表現に加えて,ハザード信号を提案する。 マルチヘッドエンコーダデコーダニューラルネットワークを用いることで、標準のシングルヘッドモデルよりもより情報的な表現が得られることを示す。 特に、提案した表現学習とハザード信号は、ベースライン法よりも高い性能と少ないデータで、強化学習を高速に学習するのに役立つ。

Driving in a dynamic, multi-agent, and complex urban environment is a difficult task requiring a complex decision-making policy. The learning of such a policy requires a state representation that can encode the entire environment. Mid-level representations that encode a vehicle's environment as images have become a popular choice. Still, they are quite high-dimensional, limiting their use in data-hungry approaches such as reinforcement learning. In this article, we propose to learn a low-dimensional and rich latent representation of the environment by leveraging the knowledge of relevant semantic factors. To do this, we train an encoder-decoder deep neural network to predict multiple application-relevant factors such as the trajectories of other agents and the ego car. We also propose a hazard signal in addition to the learned latent representation as input to a down-stream policy. We demonstrate that using the multi-head encoder-decoder neural network results in a more informative representation than a standard single-head model. In particular, the proposed representation learning and the hazard signal help reinforcement learning to learn faster, with increased performance and less data than baseline methods.
翻訳日:2021-04-03 16:01:48 公開日:2021-03-26
# (参考訳) 非線形学習モデルの一般化誤差における下限

Lower Bounds on the Generalization Error of Nonlinear Learning Models ( http://arxiv.org/abs/2103.14723v1 )

ライセンス: CC BY 4.0
Inbar Seroussi, Ofer Zeitouni(参考訳) 本稿では,多層ニューラルネットワークから導出したモデルの一般化誤差に対する下限について,学習データ中のサンプル数と層の大きさが一致した状況下で検討する。 偏りのない推定器は,このような非線形ネットワークでは受け入れられない性能を示す。 線形回帰や2層ネットワークの場合、一般偏差推定器の明示的な一般化の下界を導出する。 線形の場合、境界は漸近的にタイトである。 非線形の場合、確率的勾配降下アルゴリズムの実証的研究と境界の比較を行う。 この分析は、大きなランダム行列の理論の要素を用いる。

We study in this paper lower bounds for the generalization error of models derived from multi-layer neural networks, in the regime where the size of the layers is commensurate with the number of samples in the training data. We show that unbiased estimators have unacceptable performance for such nonlinear networks in this regime. We derive explicit generalization lower bounds for general biased estimators, in the cases of linear regression and of two-layered networks. In the linear case the bound is asymptotically tight. In the nonlinear case, we provide a comparison of our bounds with an empirical study of the stochastic gradient descent algorithm. The analysis uses elements from the theory of large random matrices.
翻訳日:2021-04-03 15:48:36 公開日:2021-03-26
# (参考訳) 部分単調ニューラルネットワークを用いた時間-事象回帰 [全文訳有]

Time-to-event regression using partially monotonic neural networks ( http://arxiv.org/abs/2103.14755v1 )

ライセンス: CC BY 4.0
David Rindt and Robert Hu and David Steinsaltz and Dino Sejdinovic(参考訳) 本研究では,部分単調ニューラルネットワークを用いて,共変量と直交時間のサンプルから時系列分布を学習するSuMo-netという新しい手法を提案する。 SuMo-netはサバイバル関数と密度を共同でモデル化し、しばしば使用される部分的可能性ではなく、右チャージされたデータの確率を最適化する。 本手法は,真の生存分布を仮定せず,ハザード関数の計算コストのかかる統合を回避する。 提案手法の性能評価を行い,新しい予測を行う際の計算時間を改善するとともに,様々な指標にまたがる競合性能について検討した。

We propose a novel method, termed SuMo-net, that uses partially monotonic neural networks to learn a time-to-event distribution from a sample of covariates and right-censored times. SuMo-net models the survival function and the density jointly, and optimizes the likelihood for right-censored data instead of the often used partial likelihood. The method does not make assumptions about the true survival distribution and avoids computationally expensive integration of the hazard function. We evaluate the performance of the method on a range of datasets and find competitive performance across different metrics and improved computational time of making new predictions.
翻訳日:2021-04-03 15:47:39 公開日:2021-03-26
# 効率的な推論のための動的ドメイン適応

Dynamic Domain Adaptation for Efficient Inference ( http://arxiv.org/abs/2103.16403v1 )

ライセンス: Link先を確認
Shuang Li, Jinming Zhang, Wenxuan Ma, Chi Harold Liu, Wei Li(参考訳) ドメイン適応(da)は、クロスドメイン分布の不一致を減らすことにより、ラベル付きソースドメインからラベルなしターゲットドメインへの知識転送を可能にする。 従来のDAアプローチのほとんどは、複雑で強力なディープニューラルネットワークを活用して適応能力を向上し、顕著な成功を収めている。 しかし、低目標推論レイテンシが計算予算の制限の下で必須の要件であるリアルタイムインタラクションのような実世界の状況に適用性に欠ける可能性がある。 本稿では,dda(dynamic domain adaptation)フレームワークを提案することで,低リソースシナリオにおいて効率的な目標推定を実現し,daがもたらした好適なクロスドメイン一般化を継承できる。 静的モデルとは対照的に、単純で汎用的な手法として、DDAは様々なドメイン混乱の制約を任意の典型的な適応型ネットワークに統合することができる。 さらに,複数の予測エグジットの適応性を高めるための新たな2つの戦略を提案する。1) 異なる分類器の予測一貫性を十分に探求し,正確な擬似ラベルを導出する信頼スコア学習戦略,2) 予測多様性を損なうことなく、ソースからターゲットへの多段階分類器を明示的に適応するクラスバランス自己学習戦略。 複数のベンチマークに関する広範囲な実験を行い、ddaが一貫して適応性能を改善し、ドメインシフトや限られたリソースシナリオの下でターゲット推論を加速できることを検証する。

Domain adaptation (DA) enables knowledge transfer from a labeled source domain to an unlabeled target domain by reducing the cross-domain distribution discrepancy. Most prior DA approaches leverage complicated and powerful deep neural networks to improve the adaptation capacity and have shown remarkable success. However, they may have a lack of applicability to real-world situations such as real-time interaction, where low target inference latency is an essential requirement under limited computational budget. In this paper, we tackle the problem by proposing a dynamic domain adaptation (DDA) framework, which can simultaneously achieve efficient target inference in low-resource scenarios and inherit the favorable cross-domain generalization brought by DA. In contrast to static models, as a simple yet generic method, DDA can integrate various domain confusion constraints into any typical adaptive network, where multiple intermediate classifiers can be equipped to infer "easier" and "harder" target data dynamically. Moreover, we present two novel strategies to further boost the adaptation performance of multiple prediction exits: 1) a confidence score learning strategy to derive accurate target pseudo labels by fully exploring the prediction consistency of different classifiers; 2) a class-balanced self-training strategy to explicitly adapt multi-stage classifiers from source to target without losing prediction diversity. Extensive experiments on multiple benchmarks are conducted to verify that DDA can consistently improve the adaptation performance and accelerate target inference under domain shift and limited resources scenarios
翻訳日:2021-03-31 14:50:51 公開日:2021-03-26
# システムマッピングプロトコル:特徴モデルに基づく推論アルゴリズム

Systematic Mapping Protocol: Reasoning Algorithms on Feature Model ( http://arxiv.org/abs/2103.16325v1 )

ライセンス: Link先を確認
Samuel Sep\'ulveda, Marcelo Esperguel(参考訳) コンテキスト:可変性のモデリングと管理を考慮したソフトウェア製品ラインの機能モデリングの重要性。 目的: 体系的マッピング研究を行うためのプロトコルを定義し、特徴モデリングのための推論アルゴリズムのエビデンスを要約し、合成する。 方法:K. Petersenのガイドラインに従って系統地図研究を行うためのプロトコルの適用。 結果: 体系的マッピング研究を行うための検証済みプロトコル。 結論:最初の発見は、機能モデリングのための異なる推論アルゴリズムのより詳細なレビューが必要であることを示している。

Context: The importance of the feature modeling for the software product lines considering the modeling and management of the variability. Objective: Define a protocol to conduct a systematic mapping study to summarize and synthesize the evidence on reasoning algorithms for feature modeling. Method: Application the protocol to conduct a systematic mapping study according the guidelines of K. Petersen. Results: A validated protocol to conduct a systematic mapping study. Conclusions: Initial findings show that a more detailed review for the different reasoning algorithms for feature modeling is needed.
翻訳日:2021-03-31 14:46:54 公開日:2021-03-26
# 機械学習ベンチマークを不安定にするテストセットにおける広範囲なラベルエラー

Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks ( http://arxiv.org/abs/2103.14749v1 )

ライセンス: Link先を確認
Curtis G. Northcutt, Anish Athalye, Jonas Mueller(参考訳) 我々は、最もよく使われるコンピュータビジョン、自然言語、音声データセットの10種類のテストセットにおけるラベルエラーを特定し、その後、これらのラベルエラーがベンチマーク結果に影響を与える可能性を調べる。 例えば、2916のラベルエラーがImageNet検証セットの6%を占める場合、10データセットの平均3.4%のエラーを見積もる。 仮定された学習アルゴリズムを使ってラベルの誤りを識別し、その後クラウドソーシングによって人間に検証する(アルゴリズムでフラッグした候補の54%が誤ってラベル付けされる)。 従来の機械学習の実践者は、テストの正確性に基づいて、どのモデルをデプロイするかを選択していました。 驚くべきことに、低容量モデルは、誤ったラベル付きデータの比率が高い現実世界のデータセットにおいて、高容量モデルよりも実質的に有用である可能性がある。 例えば、ImageNetのラベルが修正された: ResNet-18は、もともとラベルが間違っていたテスト例の頻度が6%向上すれば、ResNet50よりもパフォーマンスが向上する。 ラベルが修正されたCIFAR-10では、VGG-11がVGG-19を上回っている。

We identify label errors in the test sets of 10 of the most commonly-used computer vision, natural language, and audio datasets, and subsequently study the potential for these label errors to affect benchmark results. Errors in test sets are numerous and widespread: we estimate an average of 3.4% errors across the 10 datasets, where for example 2916 label errors comprise 6% of the ImageNet validation set. Putative label errors are identified using confident learning algorithms and then human-validated via crowdsourcing (54% of the algorithmically-flag ged candidates are indeed erroneously labeled). Traditionally, machine learning practitioners choose which model to deploy based on test accuracy - our findings advise caution here, proposing that judging models over correctly labeled test sets may be more useful, especially for noisy real-world datasets. Surprisingly, we find that lower capacity models may be practically more useful than higher capacity models in real-world datasets with high proportions of erroneously labeled data. For example, on ImageNet with corrected labels: ResNet-18 outperforms ResNet50 if the prevalence of originally mislabeled test examples increases by just 6%. On CIFAR-10 with corrected labels: VGG-11 outperforms VGG-19 if the prevalence of originally mislabeled test examples increases by just 5%.
翻訳日:2021-03-30 15:29:55 公開日:2021-03-26
# 自然言語処理技術を用いた複数質問の自動生成

An Automated Multiple-Choice Question Generation Using Natural Language Processing Techniques ( http://arxiv.org/abs/2103.14757v1 )

ライセンス: Link先を確認
Chidinma A. Nwafor and Ikechukwu E. Onyenwe(参考訳) 自動多重選択質問生成(MCQG)は自然言語処理(NLP)において有用だが難しい課題である。 テキストデータから正しい質問と関連する質問を自動的に生成する作業である。 その有用性にもかかわらず、手動で大きさ、意味があり、関連する質問を作成することは、教師にとって時間と課題である。 本稿では,コンピュータベーステスト試験(cbte)のための自動mccgのためのnlpベースシステムを提案する。 システムが逆でないことを検証するために、5つの教材を用いてシステムの有効性と効率を確認した。 教師が手作業で抽出したキーワードを自動生成したキーワードと比較したところ,本システムは授業資料からキーワードを抽出し,受験可能な質問を設定できることがわかった。 この結果はユーザフレンドリーなインターフェースで表示され、アクセシビリティが容易になる。

Automatic multiple-choice question generation (MCQG) is a useful yet challenging task in Natural Language Processing (NLP). It is the task of automatic generation of correct and relevant questions from textual data. Despite its usefulness, manually creating sizeable, meaningful and relevant questions is a time-consuming and challenging task for teachers. In this paper, we present an NLP-based system for automatic MCQG for Computer-Based Testing Examination (CBTE).We used NLP technique to extract keywords that are important words in a given lesson material. To validate that the system is not perverse, five lesson materials were used to check the effectiveness and efficiency of the system. The manually extracted keywords by the teacher were compared to the auto-generated keywords and the result shows that the system was capable of extracting keywords from lesson materials in setting examinable questions. This outcome is presented in a user-friendly interface for easy accessibility.
翻訳日:2021-03-30 15:27:04 公開日:2021-03-26
# 言語エージェントのアライメント

Alignment of Language Agents ( http://arxiv.org/abs/2103.14659v1 )

ライセンス: Link先を確認
Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik, Geoffrey Irving(参考訳) 人工知能が人間に利益をもたらすためには、AIエージェントの振る舞いは人間が望むものと一致する必要がある。 本稿では,システムデザイナによる偶然の誤特定から生じる,言語エージェントの行動問題について論じる。 我々は、誤特定が発生するいくつかの方法を強調し、誤特定から生じる可能性のあるいくつかの行動的問題、例えば誤認識言語やマニピュレーション言語を議論し、これらの問題を避けるためのいくつかのアプローチをレビューする。

For artificial intelligence to be beneficial to humans the behaviour of AI agents needs to be aligned with what humans want. In this paper we discuss some behavioural issues for language agents, arising from accidental misspecification by the system designer. We highlight some ways that misspecification can occur and discuss some behavioural issues that could arise from misspecification, including deceptive or manipulative language, and review some approaches for avoiding these issues.
翻訳日:2021-03-30 15:24:47 公開日:2021-03-26
# テキスト記述からの合成アニメーションの合成

Synthesis of Compositional Animations from Textual Descriptions ( http://arxiv.org/abs/2103.14675v1 )

ライセンス: Link先を確認
Anindita Ghosh, Noshaba Cheema, Cennet Oguz, Christian Theobalt, Philipp Slusallek(参考訳) 「映画の脚本から3Dキャラクタをアニメーションしたり、ロボットに何をしたいのかを伝えるだけで動かせるのか?」 「どんなに非構造的で複雑で、文を作りながら、それからもっともらしい動きを生成できるのか。」 これらは、この分野はまだ初期段階にあるため、長期的には答える必要がある質問である。 これらの問題に触発されて,複雑な入力文を処理する合成動作を生成する新しい手法を提案する。 我々の出力は入力文中の動作を描写した3次元ポーズシーケンスである。 与えられた動きに対応する3次元ポーズ列と自然言語文のより詳細な結合レベルマッピングを探索する階層的な2ストリームシーケンシャルモデルを提案する。 運動の2つの多様体表現を学習し、それぞれが上体と下体の動きを表す。 本モデルでは,単一動作を記述した短い文と,複数の順序および重畳された動作を記述した長い合成文に対して,妥当なポーズ列を生成することができる。 我々は,人文を付加した3次元ポーズデータを含むKIT Motion-Language Datasetについて,提案モデルの評価を行った。 実験の結果,本モデルは客観的評価におけるテキストベースモーションシンセシスの最先端を50%向上させた。 ユーザ研究に基づく質的評価から, 合成された動作は, 短文と合成文の両方において, 接地的動作キャプチャに最も近いものと考えられる。

"How can we animate 3D-characters from a movie script or move robots by simply telling them what we would like them to do?" "How unstructured and complex can we make a sentence and still generate plausible movements from it?" These are questions that need to be answered in the long-run, as the field is still in its infancy. Inspired by these problems, we present a new technique for generating compositional actions, which handles complex input sentences. Our output is a 3D pose sequence depicting the actions in the input sentence. We propose a hierarchical two-stream sequential model to explore a finer joint-level mapping between natural language sentences and 3D pose sequences corresponding to the given motion. We learn two manifold representations of the motion -- one each for the upper body and the lower body movements. Our model can generate plausible pose sequences for short sentences describing single actions as well as long compositional sentences describing multiple sequential and superimposed actions. We evaluate our proposed model on the publicly available KIT Motion-Language Dataset containing 3D pose data with human-annotated sentences. Experimental results show that our model advances the state-of-the-art on text-based motion synthesis in objective evaluations by a margin of 50%. Qualitative evaluations based on a user study indicate that our synthesized motions are perceived to be the closest to the ground-truth motion captures for both short and compositional sentences.
翻訳日:2021-03-30 15:22:58 公開日:2021-03-26
# コントラスト的ドメイン適応

Contrastive Domain Adaptation ( http://arxiv.org/abs/2103.15566v1 )

ライセンス: Link先を確認
Mamatha Thota and Georgios Leontidis(参考訳) 近年,多くのコンピュータビジョンタスクやベンチマークで視覚表現を学習する上で,コントラスト型自己教師学習が重要な要素となっている。 しかし、ドメイン適応の文脈における対照的な学習はほとんど未熟である。 本稿では,ラベルを使わずに,異なる確率分布に従うサンプルに対して,類似性を学習し,展開する特定の状況である,新しいドメイン適応設定へのコントラスト学習の拡張を提案する。 対照的な学習は、ソースとターゲットのラベルにアクセスせずに教師なしの設定でサンプルの正のペアと負のペアを比較して比較することで学習する。 我々は、最近提案された、ドメイン適応問題に取り組むのに役立つコントラスト学習フレームワークのバリエーションを開発し、偽陰性の影響を軽減するためにアンカーに似た可能な負を識別し除去した。 実験により,提案手法がうまく適応し,下流領域適応タスクの性能が向上することを示した。

Recently, contrastive self-supervised learning has become a key component for learning visual representations across many computer vision tasks and benchmarks. However, contrastive learning in the context of domain adaptation remains largely underexplored. In this paper, we propose to extend contrastive learning to a new domain adaptation setting, a particular situation occurring where the similarity is learned and deployed on samples following different probability distributions without access to labels. Contrastive learning learns by comparing and contrasting positive and negative pairs of samples in an unsupervised setting without access to source and target labels. We have developed a variation of a recently proposed contrastive learning framework that helps tackle the domain adaptation problem, further identifying and removing possible negatives similar to the anchor to mitigate the effects of false negatives. Extensive experiments demonstrate that the proposed method adapts well, and improves the performance on the downstream domain adaptation task.
翻訳日:2021-03-30 15:20:24 公開日:2021-03-26
# 異種深層学習モデルを用いた網膜イメージングにおけるマルチディセーゼ検出

Multi-Disease Detection in Retinal Imaging based on Ensembling Heterogeneous Deep Learning Models ( http://arxiv.org/abs/2103.14660v1 )

ライセンス: Link先を確認
Dominik M\"uller, I\~naki Soto-Rey and Frank Kramer(参考訳) 予防可能または未診断の視覚障害と盲目は世界中の何十億もの人々に影響を与えます。 自動多変量検出モデルは、診断における臨床診断支援を通じてこの問題に対処する大きな可能性を秘めている。 本研究では,複数の不均一な深層畳み込みニューラルネットワークモデルの予測能力を組み合わせたアンサンブル学習を用いた,革新的な網膜イメージング用マルチディセーゼ検出パイプラインを提案する。 私たちのパイプラインには、転送学習、クラス重み付け、リアルタイム画像拡張、焦点損失利用といった最先端の戦略が含まれています。 さらに,異種ディープラーニングモデルや5倍のクロスバリデーション,積み重ねロジスティック回帰モデルといったアンサンブル学習手法を統合した。 内的および外的評価により、網膜疾患予測のための他の最先端パイプラインとの互換性と同様に、パイプラインの精度と信頼性を検証および実証することができた。

Preventable or undiagnosed visual impairment and blindness affect billion of people worldwide. Automated multi-disease detection models offer great potential to address this problem via clinical decision support in diagnosis. In this work, we proposed an innovative multi-disease detection pipeline for retinal imaging which utilizes ensemble learning to combine the predictive capabilities of several heterogeneous deep convolutional neural network models. Our pipeline includes state-of-the-art strategies like transfer learning, class weighting, real-time image augmentation and Focal loss utilization. Furthermore, we integrated ensemble learning techniques like heterogeneous deep learning models, bagging via 5-fold cross-validation and stacked logistic regression models. Through internal and external evaluation, we were able to validate and demonstrate high accuracy and reliability of our pipeline, as well as the comparability with other state-of-the-art pipelines for retinal disease prediction.
翻訳日:2021-03-30 15:17:25 公開日:2021-03-26
# カテゴリー表現学習: 形態学は必要なすべて

Categorical Representation Learning: Morphism is All You Need ( http://arxiv.org/abs/2103.14770v1 )

ライセンス: Link先を確認
Artan Sheshmani and Yizhuang You(参考訳) 分類表現学習のための構成を提供し、''$\textit{categorifier}$'の基礎を紹介する。 表現学習の中心的なテーマは、$\textbf{everything to vector}$というアイデアである。 データセット $\mathcal{S}$ のすべてのオブジェクトは、$\mathbb{R}^n$ のベクトルとして $\textit{encoding map}$ $E: \mathcal{O}bj(\mathcal{S})\to\mathbb{R}^n$ で表現できる。 さらに重要なことに、すべての射は行列 $E: \mathcal{H}om(\mathcal{S})\to\mathbb{R}^{n}_{n}$ として表すことができる。 符号化マップ $e$ は一般的に$\textit{deep neural network}$でモデル化される。 表現学習の目標は、エンコーディングマップをトレーニングするためにデータセット上の適切なタスクを設計することである(様々なタスクのパフォーマンスを普遍的に最適化すれば、エンコーディングが最適となると仮定する)。 しかし、後者はまだ$\textit{set-theoretic}$アプローチである。 現在の記事の目標は,$\textit{category-theoretic}$アプローチを通じて,表現学習を新たなレベルに促進することにある。 概念実証として,我々の技術を用いたテキストトランスレータの例を示し,我々の分類学習モデルが現在のディープラーニングモデルよりも17倍優れていることを示す。 現在の記事の内容は、先日の米国特許提案(パテント出願番号:63110906)の一部である。

We provide a construction for categorical representation learning and introduce the foundations of ''$\textit{categorifier}$". The central theme in representation learning is the idea of $\textbf{everything to vector}$. Every object in a dataset $\mathcal{S}$ can be represented as a vector in $\mathbb{R}^n$ by an $\textit{encoding map}$ $E: \mathcal{O}bj(\mathcal{S})\to\mathbb{R}^n$. More importantly, every morphism can be represented as a matrix $E: \mathcal{H}om(\mathcal{S})\to\mathbb{R}^{n}_{n}$. The encoding map $E$ is generally modeled by a $\textit{deep neural network}$. The goal of representation learning is to design appropriate tasks on the dataset to train the encoding map (assuming that an encoding is optimal if it universally optimizes the performance on various tasks). However, the latter is still a $\textit{set-theoretic}$ approach. The goal of the current article is to promote the representation learning to a new level via a $\textit{category-theoretic}$ approach. As a proof of concept, we provide an example of a text translator equipped with our technology, showing that our categorical learning model outperforms the current deep learning models by 17 times. The content of the current article is part of the recent US patent proposal (patent application number: 63110906).
翻訳日:2021-03-30 15:17:09 公開日:2021-03-26
# 翻訳同値ニューラルネットワークの一般化能力

Generalization capabilities of translationally equivariant neural networks ( http://arxiv.org/abs/2103.14686v1 )

ライセンス: Link先を確認
Srinath Bulusu, Matteo Favoni, Andreas Ipp, David I. M\"uller, Daniel Schuh(参考訳) 高エネルギー物理学や格子場理論における機械学習の採用の高まりは、コンピュータビジョンで広く使われる一般的な方法の再評価を必要とし、物理学の問題に適用すると、性能と一般化可能性の面で大きな欠点をもたらす可能性がある。 その具体例は、与えられた物理的問題の基盤となる対称性を反映しないニューラルネットワークアーキテクチャの使用である。 本研究では,二次元格子上の複素スカラー場理論に注目し,その変換群に基づく群同変畳み込みニューラルネットワークアーキテクチャの利点を検討する。 有意義な比較のために、等価および非等価ニューラルネットワークアーキテクチャを体系的に探索し、それらを様々な回帰および分類タスクに適用する。 これらのタスクのほとんどにおいて、我々の最良の同変アーキテクチャは、トレーニングセットで表されるもの以外の物理パラメータだけでなく、異なる格子サイズにも適用できる、非同変アーキテクチャよりもはるかに優れた性能と一般化を実現できることを実証する。

The rising adoption of machine learning in high energy physics and lattice field theory necessitates the re-evaluation of common methods that are widely used in computer vision, which, when applied to problems in physics, can lead to significant drawbacks in terms of performance and generalizability. One particular example for this is the use of neural network architectures that do not reflect the underlying symmetries of the given physical problem. In this work, we focus on complex scalar field theory on a two-dimensional lattice and investigate the benefits of using group equivariant convolutional neural network architectures based on the translation group. For a meaningful comparison, we conduct a systematic search for equivariant and non-equivariant neural network architectures and apply them to various regression and classification tasks. We demonstrate that in most of these tasks our best equivariant architectures can perform and generalize significantly better than their non-equivariant counterparts, which applies not only to physical parameters beyond those represented in the training set, but also to different lattice sizes.
翻訳日:2021-03-30 15:16:33 公開日:2021-03-26
# 量子自己監督学習

Quantum Self-Supervised Learning ( http://arxiv.org/abs/2103.14653v1 )

ライセンス: Link先を確認
Ben Jaderberg, Lewis W. Anderson, Weidi Xie, Samuel Albanie, Martin Kiffner, Dieter Jaksch(参考訳) ニューラルネットワークの普及は、人間のアノテーションの教師付き学習によって、パターン認識が驚くほど進歩している。 しかし、実際のデータセットのサイズが劇的に大きくなることに関連して、このアプローチは持続不可能である。 これにより、モデルがデータから独自の監視信号を生成するパラダイムである自己教師付き学習が復活した。 本稿では,コントラスト型自己教師型学習のためのハイブリッド量子古典ニューラルネットワークアーキテクチャを提案する。 興味深いことに、100ショットで量子回路をサンプリングしても、等価に構造化された古典的ネットワーク上で小さな量子ニューラルネットワークを用いて視覚表現を学習する際の数値的な利点を観察する。 さらに,ibmq_paris量子コンピュータ上の未検出画像の分類に最善の量子モデルを適用し,現在のノイズの多いデバイスが下流タスクで同等の古典モデルと同等の精度をすでに達成できることを見出した。

The popularisation of neural networks has seen incredible advances in pattern recognition, driven by the supervised learning of human annotations. However, this approach is unsustainable in relation to the dramatically increasing size of real-world datasets. This has led to a resurgence in self-supervised learning, a paradigm whereby the model generates its own supervisory signal from the data. Here we propose a hybrid quantum-classical neural network architecture for contrastive self-supervised learning and test its effectiveness in proof-of-principle experiments. Interestingly, we observe a numerical advantage for the learning of visual representations using small-scale quantum neural networks over equivalently structured classical networks, even when the quantum circuits are sampled with only 100 shots. Furthermore, we apply our best quantum model to classify unseen images on the ibmq_paris quantum computer and find that current noisy devices can already achieve equal accuracy to the equivalent classical model on downstream tasks.
翻訳日:2021-03-30 15:15:29 公開日:2021-03-26
# Focused LRP: 顔モフィン攻撃検出のための説明可能なAI

Focused LRP: Explainable AI for Face Morphing Attack Detection ( http://arxiv.org/abs/2103.14697v1 )

ライセンス: Link先を確認
Clemens Seibold, Anna Hilsmann, Peter Eisert(参考訳) 近年、顔画像に基づく自動検証システムのセキュリティを確保するために、顔画像の変形を検出するタスクが重要視されている。 自動境界制御ゲート。 ディープニューラルネットワーク(DNN)に基づく検出手法はこの目的に非常に適していることが示されている。 しかし、意思決定において透明性を提供しておらず、実際の顔画像と形態画像の区別方法が明確でない。 これは、理性を理解しなければならない人間のオペレーターを支援するためのシステムに特に関係している。 本稿では,この問題に取り組み,Focused Layer-wise Relevance Propagation (FLRP)を提案する。 このフレームワークは、人間の検査者に正確なピクセルレベルで説明し、Deep Neural Networkによって画像領域を使用して、本物の顔画像と形態付き顔画像とを区別する。 さらに,本手法の品質を客観的に分析し,FLRPを他のDNN解釈可能性手法と比較するフレームワークを提案する。 この評価フレームワークは,検出されたアーティファクトを除去し,これらの変更がDNNの決定に与える影響を分析する。 特に、DNNがその決定に不確かか、あるいは誤りであったとしても、FLRPは他の方法と比較して、目に見えるアーティファクトの強調に優れる。

The task of detecting morphed face images has become highly relevant in recent years to ensure the security of automatic verification systems based on facial images, e.g. automated border control gates. Detection methods based on Deep Neural Networks (DNN) have been shown to be very suitable to this end. However, they do not provide transparency in the decision making and it is not clear how they distinguish between genuine and morphed face images. This is particularly relevant for systems intended to assist a human operator, who should be able to understand the reasoning. In this paper, we tackle this problem and present Focused Layer-wise Relevance Propagation (FLRP). This framework explains to a human inspector on a precise pixel level, which image regions are used by a Deep Neural Network to distinguish between a genuine and a morphed face image. Additionally, we propose another framework to objectively analyze the quality of our method and compare FLRP to other DNN interpretability methods. This evaluation framework is based on removing detected artifacts and analyzing the influence of these changes on the decision of the DNN. Especially, if the DNN is uncertain in its decision or even incorrect, FLRP performs much better in highlighting visible artifacts compared to other methods.
翻訳日:2021-03-30 15:15:14 公開日:2021-03-26
# 完全自動2次元および3次元畳み込みニューラルネットワークパイプラインによる心エコー図におけるビデオセグメンテーションと心筋梗塞検出

Fully Automated 2D and 3D Convolutional Neural Networks Pipeline for Video Segmentation and Myocardial Infarction Detection in Echocardiography ( http://arxiv.org/abs/2103.14734v1 )

ライセンス: Link先を確認
Oumaima Hamila, Sheela Ramanna, Christopher J. Henry, Serkan Kiranyaz, Ridha Hamila, Rashid Mazhar, Tahir Hamid(参考訳) 心エコー法は、心疾患、特に心筋梗塞(MI)の診断に心臓科医が使用する画像やビデオなどのデータを生成するのに使用される非侵襲的なツールである。 心エコー計は、心疾患の診断や治療のために、心臓科医が迅速に分析する必要がある大量のデータを提供することができる。 しかし、取得したデータ品質は、取得条件や患者の設定指示に対する応答性によって異なる。 これらの制約は、特に患者がmiに直面し、命が危険にさらされている場合、医師にとって困難である。 本稿では,畳み込みニューラルネットワーク(cnn)に基づく,心エコー法による映像から左室壁運動異常(rwma)によるmiの検出を行うための,革新的なリアルタイムエンドツーエンド完全自動モデルを提案する。 本モデルは,apical four-chamber (a4c) ビューからlv chamberを分割してデータ前処理を行う2d cnnと,分割された心エコー図がmiの徴候を示すかどうかを検出するバイナリ分類を行う3d cnnとからなるパイプラインとして実装されている。 異なる患者から取得した165本の心エコービデオからなるデータセットを用いて,両CNNを訓練した。 2D CNNはデータのセグメンテーションで97.18%の精度を達成し、3D CNNは90.9%の精度、100%の精度、95%のMI検出でリコールを達成した。 この結果から,MI検出のための完全自動システムの構築は可能であり,有効であることが示された。

Cardiac imaging known as echocardiography is a non-invasive tool utilized to produce data including images and videos, which cardiologists use to diagnose cardiac abnormalities in general and myocardial infarction (MI) in particular. Echocardiography machines can deliver abundant amounts of data that need to be quickly analyzed by cardiologists to help them make a diagnosis and treat cardiac conditions. However, the acquired data quality varies depending on the acquisition conditions and the patient's responsiveness to the setup instructions. These constraints are challenging to doctors especially when patients are facing MI and their lives are at stake. In this paper, we propose an innovative real-time end-to-end fully automated model based on convolutional neural networks (CNN) to detect MI depending on regional wall motion abnormalities (RWMA) of the left ventricle (LV) from videos produced by echocardiography. Our model is implemented as a pipeline consisting of a 2D CNN that performs data preprocessing by segmenting the LV chamber from the apical four-chamber (A4C) view, followed by a 3D CNN that performs a binary classification to detect if the segmented echocardiography shows signs of MI. We trained both CNNs on a dataset composed of 165 echocardiography videos each acquired from a distinct patient. The 2D CNN achieved an accuracy of 97.18% on data segmentation while the 3D CNN achieved 90.9% of accuracy, 100% of precision and 95% of recall on MI detection. Our results demonstrate that creating a fully automated system for MI detection is feasible and propitious.
翻訳日:2021-03-30 15:14:54 公開日:2021-03-26
# dempster-shafer理論の最近の動向と応用(レビュー)

Current Trends and Applications of Dempster-Shafer Theory (Review) ( http://arxiv.org/abs/2103.15592v1 )

ライセンス: Link先を確認
V. K. Ivanov, N .V. Vinogradova, B. V. Palyukh, A. N. Sotnikov(参考訳) この記事では、デンプスター・シェーファー理論の現在の動向と発展に関する出版物とその科学、工学、技術における異なる応用についてレビューする。 レビューは以下の規定を考慮し、理論のいくつかの特定の側面に焦点を当てた。 まず, 研究の方向性について考察し, 科学的・学術的なコミュニティだけでなく, 先進的な技術ソリューションや技術の開発者, 設計者, 開発業者の幅広いサークルによって理解されている。 第2に, 製造システム, 技術プロセスの診断, 材料・製品, 建築・建設, 製品品質管理, 経済・社会システムなど, 人間の活動において重要な分野における理論応用について述べる。 検討中の諸分野の研究の現状に特に注目され、近年、原則として公表され、デンプスター・シェーファー理論に関する近代研究の成果を提示する論文とその応用を選定・分析する。

The article provides a review of the publications on the current trends and developments in Dempster-Shafer theory and its different applications in science, engineering, and technologies. The review took account of the following provisions with a focus on some specific aspects of the theory. Firstly, the article considers the research directions whose results are known not only in scientific and academic community but understood by a wide circle of potential designers and developers of advanced engineering solutions and technologies. Secondly, the article shows the theory applications in some important areas of human activity such as manufacturing systems, diagnostics of technological processes, materials and products, building and construction, product quality control, economic and social systems. The particular attention is paid to the current state of research in the domains under consideration and, thus, the papers published, as a rule, in recent years and presenting the achievements of modern research on Dempster-Shafer theory and its application are selected and analyzed.
翻訳日:2021-03-30 15:09:55 公開日:2021-03-26
# 転送学習方式におけるビデオ物体検出のためのFew-Shot Learning

Few-Shot Learning for Video Object Detection in a Transfer-Learning Scheme ( http://arxiv.org/abs/2103.14724v1 )

ライセンス: Link先を確認
Zhongjie Yu, Gaoang Wang, Lin Chen, Sebastian Raschka, and Jiebo Luo(参考訳) 静止画像と異なり、ビデオには、より優れた物体検出のための時間的および空間的な情報が含まれている。 しかしながら、教師付きディープラーニングに必要なバウンディングボックスアノテーションを備えた多数のビデオを取得するには、コストがかかる。 人間はビデオクリップを数本だけ見ることで、新しい物体の認識を容易に学べるが、ディープラーニングは通常、過度な適合に苦しむ。 いくつかのラベル付きビデオクリップからビデオオブジェクト検出器を効果的に学習するには、どうすればよいのか? 本稿では,ビデオオブジェクト検出における数ショット学習の新たな課題について検討する。 まず,画像Net VIDデータセットから得られた画像オブジェクト検出のための新しいベンチマークデータセットを作成する。 我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。 この枠組みに基づく2つの手法 (Joint と Freeze) の結果を, 設計した弱い, 強いベースデータセット上で解析することにより, 不完全性や過度な問題を明らかにする。 Thawと呼ばれるシンプルで効果的な方法が自然に開発され、2つの問題を交換し、我々の分析を検証する。 異なるシナリオで提案したベンチマークデータセットに対する大規模な実験は、この新たな数発のビデオオブジェクト検出問題において、新しい分析の有効性を示す。

Different from static images, videos contain additional temporal and spatial information for better object detection. However, it is costly to obtain a large number of videos with bounding box annotations that are required for supervised deep learning. Although humans can easily learn to recognize new objects by watching only a few video clips, deep learning usually suffers from overfitting. This leads to an important question: how to effectively learn a video object detector from only a few labeled video clips? In this paper, we study the new problem of few-shot learning for video object detection. We first define the few-shot setting and create a new benchmark dataset for few-shot video object detection derived from the widely used ImageNet VID dataset. We employ a transfer-learning framework to effectively train the video object detector on a large number of base-class objects and a few video clips of novel-class objects. By analyzing the results of two methods under this framework (Joint and Freeze) on our designed weak and strong base datasets, we reveal insufficiency and overfitting problems. A simple but effective method, called Thaw, is naturally developed to trade off the two problems and validate our analysis. Extensive experiments on our proposed benchmark datasets with different scenarios demonstrate the effectiveness of our novel analysis in this new few-shot video object detection problem.
翻訳日:2021-03-30 15:09:10 公開日:2021-03-26
# 長期依存のあるネットワークの時間的バックプロパゲーション

Backpropagation Through Time For Networks With Long-Term Dependencies ( http://arxiv.org/abs/2103.15589v1 )

ライセンス: Link先を確認
George Bird, Maxim E. Polivoda(参考訳) backpropagation through time(bptt)は、recurrent neural networks(rnn)内でチューニングされたパラメータを更新する技術である。 そのようなアルゴリズムを作成する試みとしては、Nth Ordered ApproximationsとTrncated-BPTTがある。 これらの手法は、RNNが短期依存のみを利用するという仮定の下で、バックプロパゲーション勾配を近似する。 これは、ニューラルネットワークの現在の状態について、許容できる仮定である。 RNNがさらに進歩するにつれて、長期的な依存関係による影響へのシフトが予想される。 したがって、新しいバックプロパゲーション方法が必要となる。 本稿では,個別ループと複数ループの相互作用に対して,それぞれ「離散フォワード感度方程式」とその変種を用いることを提案する。 この解は正確であり、ネットワークのパラメータを次のステップごとに変化させることができるが、ヤコビアンの計算を必要とする。

Backpropagation through time (BPTT) is a technique of updating tuned parameters within recurrent neural networks (RNNs). Several attempts at creating such an algorithm have been made including: Nth Ordered Approximations and Truncated-BPTT. These methods approximate the backpropagation gradients under the assumption that the RNN only utilises short-term dependencies. This is an acceptable assumption to make for the current state of artificial neural networks. As RNNs become more advanced, a shift towards influence by long-term dependencies is likely. Thus, a new method for backpropagation is required. We propose using the 'discrete forward sensitivity equation' and a variant of it for single and multiple interacting recurrent loops respectively. This solution is exact and also allows the network's parameters to vary between each subsequent step, however it does require the computation of a Jacobian.
翻訳日:2021-03-30 14:47:23 公開日:2021-03-26
# ネットワーク重みに含まれる知識を探索してスパースニューラルネットワークを得る

Explore the Knowledge contained in Network Weights to Obtain Sparse Neural Networks ( http://arxiv.org/abs/2103.15590v1 )

ライセンス: Link先を確認
Mengqiao Han, Xiabi Liu(参考訳) スパースニューラルネットワークは、より良い一般化と計算効率の向上のために重要である。 本稿では,ニューラルネットワーク(NN)における疎結合層の自動獲得のための新しい学習手法を提案する。 タスクニューラルネットワーク(TNN)の構造を最適化するために,スイッチタニューラルネットワーク(SNN)を設計する。 SNNは入力としてTNNの重みを取り、その出力はTNNの接続を切り替えるために使用される。 このようにして、TNNの重みに含まれる知識を探索し、それぞれの接続の重要性とTNNの構造を決定する。 SNNとTNNは確率勾配降下(SGD)最適化と交互に学習され、共通の目的を目標とする。 学習後,TNNの最適構造と最適パラメータを同時に達成する。 提案手法を評価するため,様々なネットワーク構造やデータセット上で画像分類実験を行う。 ネットワーク構造としては、LeNet、ResNet18、ResNet34、VggNet16、MobileNetがある。 データセットにはMNIST、CIFAR10、CIFAR100が含まれる。 実験結果から,nnsの完全接続層は安定的に分散化され,高い性能を発揮できることがわかった。

Sparse neural networks are important for achieving better generalization and enhancing computation efficiency. This paper proposes a novel learning approach to obtain sparse fully connected layers in neural networks (NNs) automatically. We design a switcher neural network (SNN) to optimize the structure of the task neural network (TNN). The SNN takes the weights of the TNN as the inputs and its outputs are used to switch the connections of TNN. In this way, the knowledge contained in the weights of TNN is explored to determine the importance of each connection and the structure of TNN consequently. The SNN and TNN are learned alternately with stochastic gradient descent (SGD) optimization, targeting at a common objective. After learning, we achieve the optimal structure and the optimal parameters of the TNN simultaneously. In order to evaluate the proposed approach, we conduct image classification experiments on various network structures and datasets. The network structures include LeNet, ResNet18, ResNet34, VggNet16 and MobileNet. The datasets include MNIST, CIFAR10 and CIFAR100. The experimental results show that our approach can stably lead to sparse and well-performing fully connected layers in NNs.
翻訳日:2021-03-30 14:47:10 公開日:2021-03-26
# カリキュラム強化学習によるグランド・チューリッソスポーツの自律的獲得

Autonomous Overtaking in Gran Turismo Sport Using Curriculum Reinforcement Learning ( http://arxiv.org/abs/2103.14666v1 )

ライセンス: Link先を確認
Yunlong Song, HaoChih Lin, Elia Kaufmann, Peter Duerr, Davide Scaramuzza(参考訳) プロのレースカードライバーは極端なオーバーテイク操作を実行できます。 しかし、従来の自律乗用システムは、車両の動力学に関する単純な仮定か、高価な軌道最適化問題をオンラインで解くかのどちらかに依存している。 車両が物理的限界に近づくと、既存のモデルベースのコントローラは高度に非線形なダイナミクスを扱うのに苦労し、シミュレーションや実世界の運転によって生成される大量のデータを利用することができない。 これらの制限を回避するため,本研究では,自律的乗っ取り問題に取り組むための新しい学習ベース手法を提案する。 我々はGran Turismo Sportという、様々な車やトラックの詳細な動的モデリングで知られている世界主導のレーシングシミュレータを用いたアプローチを評価した。 カリキュラム学習を活用することで,本手法はバニラ強化学習よりも早く収束し,性能が向上する。 その結果、トレーニングされたコントローラは、組み込みのモデルベースのゲームAIより優れ、経験豊富な人間ドライバーと同等のオーバーテイクパフォーマンスを達成する。

Professional race car drivers can execute extreme overtaking maneuvers. However, conventional systems for autonomous overtaking rely on either simplified assumptions about the vehicle dynamics or solving expensive trajectory optimization problems online. When the vehicle is approaching its physical limits, existing model-based controllers struggled to handle highly nonlinear dynamics and cannot leverage the large volume of data generated by simulation or real-world driving. To circumvent these limitations, this work proposes a new learning-based method to tackle the autonomous overtaking problem. We evaluate our approach using Gran Turismo Sport -- a world-leading car racing simulator known for its detailed dynamic modeling of various cars and tracks. By leveraging curriculum learning, our approach leads to faster convergence as well as increased performance compared to vanilla reinforcement learning. As a result, the trained controller outperforms the built-in model-based game AI and achieves comparable overtaking performance with an experienced human driver.
翻訳日:2021-03-30 14:46:40 公開日:2021-03-26
# テレビ録画における大規模asrコーパスの構築

Construction of a Large-scale Japanese ASR Corpus on TV Recordings ( http://arxiv.org/abs/2103.14736v1 )

ライセンス: Link先を確認
Shintaro Ando, Hiromasa Fujihara(参考訳) 本稿では,音声認識システム(ASR)を学習するための大規模日本語コーパスを提案する。 このコーパスには2000時間以上のスピーチと、日本のテレビの録音とその字幕に書かれた書き起こしが含まれている。 本稿では,従来の教師付き音声対テキストアライメント法に基づいて,テレビ録画からオーディオと字幕のマッチングセグメントを抽出する反復ワークフローを開発した。 日本語tedxプレゼンテーションビデオに構築した評価データセットを用いてコーパスで学習したモデルを評価し,自発的な日本語コーパス(csj)で学習したコーパスよりもパフォーマンスが優れていることを確認した。 実験の結果,ASRシステムの訓練におけるコーパスの有用性が示された。 このコーパスは、本論文で報告されたモデルをトレーニングするためのkaldiスクリプトとともに、研究コミュニティ向けに公開されている。

This paper presents a new large-scale Japanese speech corpus for training automatic speech recognition (ASR) systems. This corpus contains over 2,000 hours of speech with transcripts built on Japanese TV recordings and their subtitles. We develop herein an iterative workflow to extract matching audio and subtitle segments from TV recordings based on a conventional method for lightly-supervised audio-to-text alignment. We evaluate a model trained with our corpus using an evaluation dataset built on Japanese TEDx presentation videos and confirm that the performance is better than that trained with the Corpus of Spontaneous Japanese (CSJ). The experiment results show the usefulness of our corpus for training ASR systems. This corpus is made public for the research community along with Kaldi scripts for training the models reported in this paper.
翻訳日:2021-03-30 14:44:17 公開日:2021-03-26
# 適応への翻訳:ドメイン間のRGB-Dシーン認識

Translate to Adapt: RGB-D Scene Recognition across Domains ( http://arxiv.org/abs/2103.14672v1 )

ライセンス: Link先を確認
Andrea Ferreri and Silvia Bucci and Tatiana Tommasi(参考訳) シーン分類はコンピュータビジョン研究における基本的な問題の一つであり、ロボット工学に広く応用されている。 利用可能な場合、深度画像はRGBテクスチャ情報を補完する有用な幾何学的手がかりを提供し、より識別可能なシーン画像の特徴を特定するのに役立つ。 深度センサー技術はここ数年で急速に発展し、様々な3dカメラが導入され、それぞれが異なる買収特性を持つ。 しかし、ビッグデータコレクションをターゲットとする場合には、その本来の性質を無視したマルチモーダルイメージが収集されることが多い。 本研究では,マルチモーダルシーン認識データセット内に,潜在的に深刻なドメインシフト問題が存在することを注目する。 本研究では,この問題を調査するための実験台を設計し,異なるカメラ領域にまたがって適応可能な自己教師付きモダリティ間翻訳法を提案する。 提案手法の有効性を実験的に検証した。

Scene classification is one of the basic problems in computer vision research with extensive applications in robotics. When available, depth images provide helpful geometric cues that complement the RGB texture information and help to identify more discriminative scene image features. Depth sensing technology developed fast in the last years and a great variety of 3D cameras have been introduced, each with different acquisition properties. However, when targeting big data collections, often multi-modal images are gathered disregarding their original nature. In this work we put under the spotlight the existence of a possibly severe domain shift issue within multi-modality scene recognition datasets. We design an experimental testbed to study this problem and present a method based on self-supervised inter-modality translation able to adapt across different camera domains. Our extensive experimental analysis confirms the effectiveness of the proposed approach.
翻訳日:2021-03-30 14:42:08 公開日:2021-03-26
# リスク・アバース確率的最短経路計画

Risk-Averse Stochastic Shortest Path Planning ( http://arxiv.org/abs/2103.14727v1 )

ライセンス: Link先を確認
Mohamadreza Ahmadi, Anushri Dixit, Joel W. Burdick, and Aaron D. Ames(参考訳) 我々は,MDPにおける確率的最短経路計画問題,すなわち,所定の初期状態から目標状態に到達するための政策を最小コストで設計する問題を考察する。 稀だが重要なシステムを実現するために,従来のリスクニュートラルな総コストではなく,ネストされた動的コヒーレントなリスク総コスト関数を考える。 いくつかの仮定の下では、最適で定常なマルコフのポリシーが存在し、特別なベルマン方程式から発見できることが示される。 本稿では,差分凸プログラム(DCP)に基づく計算手法を提案する。 ローバーナビゲーションMDPを用いて,条件値値リスク(CVaR)とエントロピー値値リスク(EVaR)のコヒーレントリスク尺度を用いて提案手法を説明する。

We consider the stochastic shortest path planning problem in MDPs, i.e., the problem of designing policies that ensure reaching a goal state from a given initial state with minimum accrued cost. In order to account for rare but important realizations of the system, we consider a nested dynamic coherent risk total cost functional rather than the conventional risk-neutral total expected cost. Under some assumptions, we show that optimal, stationary, Markovian policies exist and can be found via a special Bellman's equation. We propose a computational technique based on difference convex programs (DCPs) to find the associated value functions and therefore the risk-averse policies. A rover navigation MDP is used to illustrate the proposed methodology with conditional-value-at -risk (CVaR) and entropic-value-at-ri sk (EVaR) coherent risk measures.
翻訳日:2021-03-30 14:37:40 公開日:2021-03-26
# Leaky Nets: シンプルなパワーとタイミングのサイドチャネルを通じて、組み込みニューラルネットワークモデルと入力を復元する -- 攻撃と防御

Leaky Nets: Recovering Embedded Neural Network Models and Inputs through Simple Power and Timing Side-Channels -- Attacks and Defenses ( http://arxiv.org/abs/2103.14739v1 )

ライセンス: Link先を確認
Saurav Maji, Utsav Banerjee, and Anantha P. Chandrakasan(参考訳) 機械学習理論の最近の進歩により、多くの商用組み込みマイクロプロセッサは様々な信号処理用途にニューラルネットワークモデルを使用している。 しかし、関連するサイドチャネルのセキュリティ脆弱性は大きな懸念を引き起こす。 モデルパラメータと入力データの抽出を実証する概念実証攻撃がいくつか行われている。 しかし、これらの攻撃の多くは特定の仮定、適用可能性の制限、あるいは攻撃者に大きなオーバーヘッドをもたらす。 本研究では、タイミングに基づく情報漏洩と単純な電力分析によるサイドチャネル攻撃を用いて、パラメータを復元することで、組み込みニューラルネットワーク実装のサイドチャネル脆弱性について検討する。 我々は,浮動小数点,固定点,バイナリネットワークなど,異なる精度のネットワーク上での一般的なマイクロコントローラプラットフォームに対する攻撃を実演する。 我々は、モデルパラメータだけでなく、上記のネットワークの入力も回収できる。 タイミングに基づく攻撃に対する対策を実施し、そのオーバーヘッドを分析する。

With the recent advancements in machine learning theory, many commercial embedded micro-processors use neural network models for a variety of signal processing applications. However, their associated side-channel security vulnerabilities pose a major concern. There have been several proof-of-concept attacks demonstrating the extraction of their model parameters and input data. But, many of these attacks involve specific assumptions, have limited applicability, or pose huge overheads to the attacker. In this work, we study the side-channel vulnerabilities of embedded neural network implementations by recovering their parameters using timing-based information leakage and simple power analysis side-channel attacks. We demonstrate our attacks on popular micro-controller platforms over networks of different precisions such as floating point, fixed point, binary networks. We are able to successfully recover not only the model parameters but also the inputs for the above networks. Countermeasures against timing-based attacks are implemented and their overheads are analyzed.
翻訳日:2021-03-30 14:37:23 公開日:2021-03-26
# Equivariant Imaging: レンジ空間を超えて学ぶ

Equivariant Imaging: Learning Beyond the Range Space ( http://arxiv.org/abs/2103.14756v1 )

ライセンス: Link先を確認
Dongdong Chen, Juli\'an Tachella, Mike E. Davies(参考訳) 様々な画像問題において、基礎となる信号の圧縮された測定にのみアクセスでき、通常はペアの信号と関連する測定を必要とする学習ベースの戦略を阻害する。 圧縮計測からのみ学習することは一般的に不可能であり、圧縮観測は前方センシングオペレータの範囲外の情報を含んでいない。 本稿では,この制限を克服し,自然信号の等価性を利用したエンドツーエンドの自己組織化フレームワークを提案する。 提案する学習戦略は,完全教師付き手法と同様に機能する。 このフレームワークは, 臨床データに対するスパースビューX線CTや, 自然画像への画像塗布など, 逆問題に対する可能性を示す。 コードはリリースされる。

In various imaging problems, we only have access to compressed measurements of the underlying signals, hindering most learning-based strategies which usually require pairs of signals and associated measurements for training. Learning only from compressed measurements is impossible in general, as the compressed observations do not contain information outside the range of the forward sensing operator. We propose a new end-to-end self-supervised framework that overcomes this limitation by exploiting the equivariances present in natural signals. Our proposed learning strategy performs as well as fully supervised methods. Experiments demonstrate the potential of this framework on inverse problems including sparse-view X-ray computed tomography on real clinical data and image inpainting on natural images. Code will be released.
翻訳日:2021-03-30 14:35:09 公開日:2021-03-26
# かなり安定したディープダイナミクス

Almost Surely Stable Deep Dynamics ( http://arxiv.org/abs/2103.14722v1 )

ライセンス: Link先を確認
Nathan P. Lawrence, Philip D. Loewen, Michael G. Forbes, Johan U. Backstr\"om, R. Bhushan Gopaluni(参考訳) 本稿では,観測データから安定なディープニューラルネットワークに基づく動的モデルを学ぶ手法を提案する。 特に, 離散時間確率力学モデルは, 推定や制御といった実用的応用に特に興味を持っていると考えられる。 しかし、これらの側面は安定性を保証するという課題を悪化させる。 本手法は,lyapunovニューラルネットワークを動的モデルに組み込むことにより,本質的に安定性基準を満たす。 そこで本稿では,リアプノフ関数の凸性を悪用し,一方は暗黙的な出力層を通じて安定性を強制する,という2つの手法を提案する。 数値例を通して各手法の有用性を示す。

We introduce a method for learning provably stable deep neural network based dynamic models from observed data. Specifically, we consider discrete-time stochastic dynamic models, as they are of particular interest in practical applications such as estimation and control. However, these aspects exacerbate the challenge of guaranteeing stability. Our method works by embedding a Lyapunov neural network into the dynamic model, thereby inherently satisfying the stability criterion. To this end, we propose two approaches and apply them in both the deterministic and stochastic settings: one exploits convexity of the Lyapunov function, while the other enforces stability through an implicit output layer. We demonstrate the utility of each approach through numerical examples.
翻訳日:2021-03-30 14:34:56 公開日:2021-03-26
# 現代ニューラルネットワークの非平滑性モデリング

Modeling the Nonsmoothness of Modern Neural Networks ( http://arxiv.org/abs/2103.14731v1 )

ライセンス: Link先を確認
Runze Liu, Chau-Wai Wong, Huaiyu Dai(参考訳) 現代のニューラルネットワークは、顔認識、顔のランドマーク検出、画像生成など、多くの回帰ベースのタスクで成功している。 本研究では,現代のニューラルネットワーク,すなわち非滑らか性の特徴を直感的に検討する。 合成データを用いた実験により、現代のニューラルネットワークにおけるReLUや最大プーリングのような操作が非滑らか性につながることを確認した。 本研究では,SMP(Size of peaks)と呼ばれる特徴を用いて非滑らか性を定量化し,現代のニューラルネットワーク構築ブロックの入出力関係をモデル化する。 実験の結果, 本モデルは畳み込み層, reluアクティベーション, マックスプーリング層などのビルディングブロックを通して伝播する非スムースネスの統計的挙動を正確に予測できることが確認された。 非滑らか性機能は、ニューラルネットワークの回帰に基づく応用のための法医学的ツールとして使用することができると想定している。

Modern neural networks have been successful in many regression-based tasks such as face recognition, facial landmark detection, and image generation. In this work, we investigate an intuitive but understudied characteristic of modern neural networks, namely, the nonsmoothness. The experiments using synthetic data confirm that such operations as ReLU and max pooling in modern neural networks lead to nonsmoothness. We quantify the nonsmoothness using a feature named the sum of the magnitude of peaks (SMP) and model the input-output relationships for building blocks of modern neural networks. Experimental results confirm that our model can accurately predict the statistical behaviors of the nonsmoothness as it propagates through such building blocks as the convolutional layer, the ReLU activation, and the max pooling layer. We envision that the nonsmoothness feature can potentially be used as a forensic tool for regression-based applications of neural networks.
翻訳日:2021-03-30 14:34:45 公開日:2021-03-26
# 計画による自発的学習

Self-Imitation Learning by Planning ( http://arxiv.org/abs/2103.13834v2 )

ライセンス: Link先を確認
Sha Luo, Hamidreza Kasaei, Lambert Schomaker(参考訳) イミテーションラーニング(IL)は、ロボットが専門家の知識を伝達することで、素早くスキルを習得することを可能にする。 しかし、長期移動計画タスクでは、IL法とRL法をデプロイする際の課題は、これらの手法が効果的に一般化できるように、大規模に分散したデータを生成・収集する方法である。 本研究では,提案手法であるSILP(Self-imitation Learning by Planning)を用いて,現在の政策から訪問した状態を計画することで,実演データを自動的に収集する手法を提案する。 SILPは,初期の強化学習段階の来訪状態がグラフ検索に基づく運動プランナの衝突のないノードであることから着想を得たものであり,政策学習の実証として,ロボット自身の試行を計画・実行することができる。 これらの自己生成デモにより、複雑な動作計画タスクの解決において、IL法やRL法が必要とする手間のかかるデータ準備プロセスから人間のオペレーターを解放する。 評価の結果,silp法は選択したベースラインよりも高い成功率を達成でき,サンプル効率が向上し,シミュレーションで学習したポリシーは,目標や障害が変化する実世界の配置課題において良好に機能することが示された。

Imitation learning (IL) enables robots to acquire skills quickly by transferring expert knowledge, which is widely adopted in reinforcement learning (RL) to initialize exploration. However, in long-horizon motion planning tasks, a challenging problem in deploying IL and RL methods is how to generate and collect massive, broadly distributed data such that these methods can generalize effectively. In this work, we solve this problem using our proposed approach called {self-imitation learning by planning (SILP)}, where demonstration data are collected automatically by planning on the visited states from the current policy. SILP is inspired by the observation that successfully visited states in the early reinforcement learning stage are collision-free nodes in the graph-search based motion planner, so we can plan and relabel robot's own trials as demonstrations for policy learning. Due to these self-generated demonstrations, we relieve the human operator from the laborious data preparation process required by IL and RL methods in solving complex motion planning tasks. The evaluation results show that our SILP method achieves higher success rates and enhances sample efficiency compared to selected baselines, and the policy learned in simulation performs well in a real-world placement task with changing goals and obstacles.
翻訳日:2021-03-30 11:42:12 公開日:2021-03-26
# (参考訳) saccadecam:単眼深度センシングのための適応的視覚注意 [全文訳有]

SaccadeCam: Adaptive Visual Attention for Monocular Depth Sensing ( http://arxiv.org/abs/2103.12981v2 )

ライセンス: CC BY 4.0
Brevin Tilmon and Sanjeev J. Koppal(参考訳) ほとんどの単眼深度検出法は、シーンの内容を考慮することなく生成される従来の撮像画像を使用する。 対照的に、動物の目は、サッケードと呼ばれる速い機械的動きを持ち、解像度が高いフォビアによってどのように撮影されるかを制御する。 本稿では,シーンに興味のある領域に適応的に解像度を分配するsaccadecamフレームワークを提案する。 適応解像アルゴリズムは自己教師付きネットワークであり,単眼深度推定のためのエンドツーエンド学習の結果を示す。 また、実際のSaccadeCamハードウェアのプロトタイプで予備結果を示す。

Most monocular depth sensing methods use conventionally captured images that are created without considering scene content. In contrast, animal eyes have fast mechanical motions, called saccades, that control how the scene is imaged by the fovea, where resolution is highest. In this paper, we present the SaccadeCam framework for adaptively distributing resolution onto regions of interest in the scene. Our algorithm for adaptive resolution is a self-supervised network and we demonstrate results for end-to-end learning for monocular depth estimation. We also show preliminary results with a real SaccadeCam hardware prototype.
翻訳日:2021-03-30 06:08:04 公開日:2021-03-26
# (参考訳) 未知線形ガウスシステムのオンラインLQRの非エポゾディック学習 [全文訳有]

Non-Episodic Learning for Online LQR of Unknown Linear Gaussian System ( http://arxiv.org/abs/2103.13278v2 )

ライセンス: CC BY 4.0
Yiwen Lu and Yilin Mo(参考訳) 本稿では,システムパラメータが未知であり,リアルタイムに識別する必要があるデータ駆動線形量子制御(lqr)問題について考察する。 オフラインデータ収集や複数リセットを必要とする既存のシステム同定やデータ駆動制御手法とは対照的に,システムに関する知識を1つの軌道から得るオンライン非正規化アルゴリズムを提案する。 このアルゴリズムは、同定誤差と制御性能の最適値差の両方がほぼ確実にゼロに収束することを保証している。 さらに,識別と制御のほぼ確実に収束する割合を特徴とし,探索と搾取の最適なトレードオフを明らかにする。 提案手法の有効性を示す数値的な例を示す。

This paper considers the data-driven linear-quadratic regulation (LQR) problem where the system parameters are unknown and need to be identified in real time. Contrary to existing system identification and data-driven control methods, which typically require either offline data collection or multiple resets, we propose an online non-episodic algorithm that gains knowledge about the system from a single trajectory. The algorithm guarantees that both the identification error and the suboptimality gap of control performance in this trajectory converge to zero almost surely. Furthermore, we characterize the almost sure convergence rates of identification and control, and reveal an optimal trade-off between exploration and exploitation. We provide a numerical example to illustrate the effectiveness of our proposed strategy.
翻訳日:2021-03-30 05:50:53 公開日:2021-03-26
# (参考訳) Group-CAM:Deep Convolutional Networksのためのグループスコア重み付きビジュアル説明 [全文訳有]

Group-CAM: Group Score-Weighted Visual Explanations for Deep Convolutional Networks ( http://arxiv.org/abs/2103.13859v2 )

ライセンス: CC BY 4.0
Qinglong Zhang, Lu Rao, Yubin Yang(参考訳) 本稿では,グループスコア強調型クラス活性化マッピング (group-cam) と呼ばれる,"split-transform-merg e" 戦略を応用して塩分マップを生成する効率的な塩分マップ生成手法を提案する。 具体的には、入力画像の場合、クラスアクティベーションはまずグループに分割される。 各グループでは、サブアクティベーションは初期マスクとしてまとめてデノーズされる。 その後、最初のマスクは意味のある摂動で変換され、入力のサブピクセル(つまりマスクされた入力)を保存するために適用される。 最後に、初期マスクを重み付けして最終サリエンシマップを形成し、重み付けはマスク入力によって生成される信頼スコアである。 Group-CAMは効率的だが有効であり、ターゲット関連サリエンシマップを作成しながら、ネットワークに数十のクエリしか必要としない。 その結果、Group-CAMはネットワークを微調整するための効果的なデータ拡張トリックとして機能する。 我々は、imagenet-1kの削除と挿入テスト、coco2017でのゲームテストの指摘を含む、共通使用ベンチマークにおけるグループカメラの性能を総合的に評価する。 広汎な実験結果から,Group-CAMは現在の最先端の説明手法よりも視覚性能が向上することが示された。 コードはhttps://github.com/w ofmanaf/Group-CAMで公開されている。

In this paper, we propose an efficient saliency map generation method, called Group score-weighted Class Activation Mapping (Group-CAM), which adopts the "split-transform-merg e" strategy to generate saliency maps. Specifically, for an input image, the class activations are firstly split into groups. In each group, the sub-activations are summed and de-noised as an initial mask. After that, the initial masks are transformed with meaningful perturbations and then applied to preserve sub-pixels of the input (i.e., masked inputs), which are then fed into the network to calculate the confidence scores. Finally, the initial masks are weighted summed to form the final saliency map, where the weights are confidence scores produced by the masked inputs. Group-CAM is efficient yet effective, which only requires dozens of queries to the network while producing target-related saliency maps. As a result, Group-CAM can be served as an effective data augment trick for fine-tuning the networks. We comprehensively evaluate the performance of Group-CAM on common-used benchmarks, including deletion and insertion tests on ImageNet-1k, and pointing game tests on COCO2017. Extensive experimental results demonstrate that Group-CAM achieves better visual performance than the current state-of-the-art explanation approaches. The code is available at https://github.com/w ofmanaf/Group-CAM.
翻訳日:2021-03-30 04:28:36 公開日:2021-03-26
# (参考訳) 軌道拡大と補正による対向的模倣学習 [全文訳有]

Adversarial Imitation Learning with Trajectorial Augmentation and Correction ( http://arxiv.org/abs/2103.13887v2 )

ライセンス: CC BY 4.0
Dafni Antotsiou, Carlo Ciliberto and Tae-Kyun Kim(参考訳) 深い模倣学習は、多くの専門家によるデモンストレーションを必要とするが、特に複雑なタスクでは、必ずしも取得が容易ではない。 このラベル不足を克服する方法は、データ拡張である。 しかし,問題の本質が逐次的であるため,制御タスクには容易に適用できない。 本研究では,拡張軌道の成功を保った新しい拡張手法を提案する。 そこで本研究では,歪んだ専門家行動の修正を目的とした半教師付き補正ネットワークを提案する。 補正ネットワークの能力を適切にテストするために, 合成専門家を用いて模倣エージェントを訓練するための逆データ拡張模倣アーキテクチャを開発した。 さらに,トラジェクトリデータセットの多様性を測定する指標も導入する。 実験の結果,データ拡張戦略は,生成した軌跡と実際の軌跡の多様性を保ちながら,逆模倣の精度と収束時間を向上できることがわかった。

Deep Imitation Learning requires a large number of expert demonstrations, which are not always easy to obtain, especially for complex tasks. A way to overcome this shortage of labels is through data augmentation. However, this cannot be easily applied to control tasks due to the sequential nature of the problem. In this work, we introduce a novel augmentation method which preserves the success of the augmented trajectories. To achieve this, we introduce a semi-supervised correction network that aims to correct distorted expert actions. To adequately test the abilities of the correction network, we develop an adversarial data augmented imitation architecture to train an imitation agent using synthetic experts. Additionally, we introduce a metric to measure diversity in trajectory datasets. Experiments show that our data augmentation strategy can improve accuracy and convergence time of adversarial imitation while preserving the diversity between the generated and real trajectories.
翻訳日:2021-03-30 04:14:28 公開日:2021-03-26
# (参考訳) 局所線形潜在ダイナミクスを用いた変形可能な線形物体予測 [全文訳有]

Deformable Linear Object Prediction Using Locally Linear Latent Dynamics ( http://arxiv.org/abs/2103.14184v1 )

ライセンス: CC0 1.0
Wenbo Zhang, Karl Schmeckpeper, Pratik Chaudhari, Kostas Daniilidis(参考訳) 変形可能な線形オブジェクト予測のためのフレームワークを提案する。 変形可能な物体(例えばロープ)の予測は、その非線形ダイナミクスと無限次元の構成空間のために困難である。 非線形空間から線形空間へダイナミクスをマッピングすることで、線形力学の優れた性質を学習の容易化とより効率的な予測に利用することができる。 我々は、将来の潜伏状態を予測するために使用できる局所線形動作条件動的モデルを学ぶ。 そして、予測された潜在状態を予測状態に復号する。 また,最適制御動作を選択するためにサンプリングに基づく最適化アルゴリズムを適用する。 我々は,本手法がロープ状態を正確に予測でき,初期状態と目標状態が与えられた場合に,アルゴリズムが最適動作を見出すことができることを実証的に証明した。

We propose a framework for deformable linear object prediction. Prediction of deformable objects (e.g., rope) is challenging due to their non-linear dynamics and infinite-dimensional configuration spaces. By mapping the dynamics from a non-linear space to a linear space, we can use the good properties of linear dynamics for easier learning and more efficient prediction. We learn a locally linear, action-conditioned dynamics model that can be used to predict future latent states. Then, we decode the predicted latent state into the predicted state. We also apply a sampling-based optimization algorithm to select the optimal control action. We empirically demonstrate that our approach can predict the rope state accurately up to ten steps into the future and that our algorithm can find the optimal action given an initial state and a goal state.
翻訳日:2021-03-30 00:12:53 公開日:2021-03-26
# (参考訳) 低パスフィルタを超えて:グラフ上の適応的特徴伝播 [全文訳有]

Beyond Low-Pass Filters: Adaptive Feature Propagation on Graphs ( http://arxiv.org/abs/2103.14187v1 )

ライセンス: CC BY 4.0
Sean Li, Dongwoo Kim, Qing Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上の予測タスクのために広く研究されている。 最近の研究では、ほとんどのGNNは局所的ホモフィリー、すなわち地域住民の強い類似性を仮定している。 しかし、この仮定はGNNの一般化可能性を制限する。 そこで本研究では,その基礎となるホモフィリーによって制限されることなく,任意のグラフを扱える柔軟なGNNモデルを提案する。 このモデルの中核は、複数の学習可能なスペクトルフィルタに基づくノードアテンション機構を採用しているため、スペクトル領域の各グラフに対してアグレゲーションスキームを適応的に学習する。 提案したノード分類タスクを7つのベンチマークデータセットで評価した。 提案したモデルは、ホモフィルグラフとヘテロフィルグラフの両方によく一般化する。 さらに、heterophilic graphの最先端のベースラインを全て上回っており、homophilic graphsのベースラインと互換性がある。

Graph neural networks (GNNs) have been extensively studied for prediction tasks on graphs. Aspointed out by recent studies, most GNNs assume local homophily, i.e., strong similarities in localneighborhoods. This assumption however limits the generalizability power of GNNs. To address thislimitation, we propose a flexible GNN model, which is capable of handling any graphs without beingrestricted by their underlying homophily. At its core, this model adopts a node attention mechanismbased on multiple learnable spectral filters; therefore, the aggregation scheme is learned adaptivelyfor each graph in the spectral domain. We evaluated the proposed model on node classification tasksover seven benchmark datasets. The proposed model is shown to generalize well to both homophilicand heterophilic graphs. Further, it outperforms all state-of-the-art baselines on heterophilic graphsand performs comparably with them on homophilic graphs.
翻訳日:2021-03-29 23:56:05 公開日:2021-03-26
# (参考訳) 教師なし領域適応における再生を利用した3次元物体検出 [全文訳有]

Exploiting Playbacks in Unsupervised Domain Adaptation for 3D Object Detection ( http://arxiv.org/abs/2103.14198v1 )

ライセンス: CC BY 4.0
Yurong You, Carlos Andres Diaz-Ruiz, Yan Wang, Wei-Lun Chao, Bharath Hariharan, Mark Campbell, Kilian Q Weinberger(参考訳) 自動運転車は安全なルートを計画し衝突を避けるために、他の車や歩行者を3Dで検出する必要がある。 ディープラーニングに基づく最先端の3dオブジェクト検出器は、有望な精度を示しているが、ドメインの慣用性に過度に適合しがちで、新しい環境では失敗する可能性がある。 本稿では,従来記録されていた運転シーケンスのリプレイに基づいて,車両の駐車中に発生する対象領域内の擬似ラベルの検出器を微調整することにより,このギャップを大幅に低減する学習手法を提案する。 これらのリプレイでは、オブジェクトは時間とともに追跡され、検出は補間され、外挿されます。 5つの自律運転データセットにおいて,これらの擬似ラベル上で物体検出器を微調整することで,新たな運転環境へのドメインギャップが大幅に減少し,精度と検出信頼性が大幅に向上することを示した。

Self-driving cars must detect other vehicles and pedestrians in 3D to plan safe routes and avoid collisions. State-of-the-art 3D object detectors, based on deep learning, have shown promising accuracy but are prone to over-fit to domain idiosyncrasies, making them fail in new environments -- a serious problem if autonomous vehicles are meant to operate freely. In this paper, we propose a novel learning approach that drastically reduces this gap by fine-tuning the detector on pseudo-labels in the target domain, which our method generates while the vehicle is parked, based on replays of previously recorded driving sequences. In these replays, objects are tracked over time, and detections are interpolated and extrapolated -- crucially, leveraging future information to catch hard cases. We show, on five autonomous driving datasets, that fine-tuning the object detector on these pseudo-labels substantially reduces the domain gap to new driving environments, yielding drastic improvements in accuracy and detection reliability.
翻訳日:2021-03-29 23:35:23 公開日:2021-03-26
# (参考訳) Image2Reverb:クロスモーダルリバーブインパルス応答合成 [全文訳有]

Image2Reverb: Cross-Modal Reverb Impulse Response Synthesis ( http://arxiv.org/abs/2103.14201v1 )

ライセンス: CC BY 4.0
Nikhil Singh and Jeff Mentch and Jerry Ng and Matthew Beveridge and Iddo Drori(参考訳) 空間の音響特性の測定は、インパルス応答(ir)を捉えて行われることが多い。 これは、イメージ2Reverbと呼ばれる単一の画像からIRを生成する最初の作品です。 このIRは畳み込みを用いて他の信号に適用され、画像に示される空間の残響特性をシミュレートする。 これらの赤外線を記録することは時間集約的かつ高価であり、しばしばアクセス不能な場所では利用できない。 エンド・ツー・エンドのニューラルネットワークアーキテクチャを用いて、音響環境の単一画像から可塑性音声インパルス応答を生成する。 本手法は,地中真理データとの比較と,人的専門家による評価により評価する。 我々は,よく知られた場所,音楽ホール,絵画の部屋,アニメーションやコンピュータゲームの画像,テキストから生成された合成環境,パノラマ画像,ビデオ会議の背景など,さまざまな設定や形式から,もっともらしいインパルス応答を生成することによって,我々のアプローチを実証する。

Measuring the acoustic characteristics of a space is often done by capturing its impulse response (IR), a representation of how a full-range stimulus sound excites it. This is the first work that generates an IR from a single image, which we call Image2Reverb. This IR is then applied to other signals using convolution, simulating the reverberant characteristics of the space shown in the image. Recording these IRs is both time-intensive and expensive, and often infeasible for inaccessible locations. We use an end-to-end neural network architecture to generate plausible audio impulse responses from single images of acoustic environments. We evaluate our method both by comparisons to ground truth data and by human expert evaluation. We demonstrate our approach by generating plausible impulse responses from diverse settings and formats including well known places, musical halls, rooms in paintings, images from animations and computer games, synthetic environments generated from text, panoramic images, and video conference backgrounds.
翻訳日:2021-03-29 23:11:39 公開日:2021-03-26
# (参考訳) 音楽マッシュアップ生成のためのstemトラックの互換性のモデル化 [全文訳有]

Modeling the Compatibility of Stem Tracks to Generate Music Mashups ( http://arxiv.org/abs/2103.14208v1 )

ライセンス: CC BY 4.0
Jiawen Huang, Ju-Chiang Wang, Jordan B. L. Smith, Xuchen Song, Yuxuan Wang(参考訳) 音楽マッシュアップは、2つ以上の曲のオーディオ要素を組み合わせて新しい作品を作成する。 それらを作るのに必要な時間と労力を減らすために、研究者はオーディオ要素の互換性を予測するアルゴリズムを開発した。 以前の研究は、未修正の抜粋を混ぜることに焦点を当てていたが、ソース分離の進歩により、独立した茎(例えば、ボーカル、ドラム、ベースなど)からマッシュアップを作成することができる。 本研究では,マッシュアップを創出するだけでなく,自己教師的・半教師的手法を用いて,抽出群間の相互整合性を予測するモデルを訓練する。 具体的には、まず、ソース分離によって得られたstemトラックと、高品質マッシュアップの前提条件であるキーとテンポの自動調整を組み合わせたランダムマッシュアップ生成パイプラインを作成する。 整合性を予測するために,同じ歌から得られたステムトラックを正の例とし,キーとテンポのランダムな組み合わせを負の例として用いた。 モデルを改善し、より多くのデータを使用するために、マッチングキーとテンポとランダムに組み合わせた"平均"の例もトレーニングします。 複合信号とstem信号の組み合わせが結果の質を示すかどうかを判断するために, 2つのモデルアーキテクチャを実験し, 半教師付き学習手法を用いて学習する。 最後に,本システムを標準ルールベースシステムと比較し,客観的かつ主観的評価を行う。

A music mashup combines audio elements from two or more songs to create a new work. To reduce the time and effort required to make them, researchers have developed algorithms that predict the compatibility of audio elements. Prior work has focused on mixing unaltered excerpts, but advances in source separation enable the creation of mashups from isolated stems (e.g., vocals, drums, bass, etc.). In this work, we take advantage of separated stems not just for creating mashups, but for training a model that predicts the mutual compatibility of groups of excerpts, using self-supervised and semi-supervised methods. Specifically, we first produce a random mashup creation pipeline that combines stem tracks obtained via source separation, with key and tempo automatically adjusted to match, since these are prerequisites for high-quality mashups. To train a model to predict compatibility, we use stem tracks obtained from the same song as positive examples, and random combinations of stems with key and/or tempo unadjusted as negative examples. To improve the model and use more data, we also train on "average" examples: random combinations with matching key and tempo, where we treat them as unlabeled data as their true compatibility is unknown. To determine whether the combined signal or the set of stem signals is more indicative of the quality of the result, we experiment on two model architectures and train them using semi-supervised learning technique. Finally, we conduct objective and subjective evaluations of the system, comparing them to a standard rule-based system.
翻訳日:2021-03-29 22:55:49 公開日:2021-03-26
# (参考訳) ピクセルレベルラベルノイズからの学習:半教師付きセマンティックセグメンテーションの新しい視点 [全文訳有]

Learning from Pixel-Level Label Noise: A New Perspective for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2103.14242v1 )

ライセンス: CC BY 4.0
Rumeng Yi, Yaping Huang, Qingji Guan, Mengyang Pu, Runsheng Zhang(参考訳) 本稿では、ピクセルレベルのアノテーション(強い監督)を持つ小さな画像セットと、画像レベルのアノテーション(弱い監督)のみを持つ大きな画像セットを活用することで、半教師付きセマンティックセグメンテーションに対処する。 既存のアプローチのほとんどは、弱い監督から正確なピクセルレベルラベルを生成することを目的としている。 しかし、生成したラベルには必然的にノイズのあるラベルが含まれている。 この観察に動機づけられ,新しい視点を示し,画素レベルラベルノイズを用いた学習問題として定式化する。 既存のノイズのあるラベル手法は、主に画像レベルのタスクを目標としており、隣接するラベル間の関係を1つの画像で捉えることはできない。 そこで我々は,画素レベルの雑音ラベルを扱うグラフに基づくラベルノイズ検出・補正フレームワークを提案する。 特に,クラスアクティベーションマップ(cam)による弱い監督から生成された画素レベルのノイズラベルに対して,これらのノイズラベルからクロスエントロピー損失に応じてクリーンラベルを検出するために,強い監督を持つクリーンセグメンテーションモデルを訓練する。 次に,超画素ベースのグラフを用いて,画像中の画素間の空間的隣接性と意味的類似性の関係を表現する。 最後に,検出されたクリーンラベルによって監視されたグラフアテンションネットワーク(gat)を用いて雑音ラベルを補正する。 PASCAL VOC 2012 PASCAL-Context および MS-COCO データセットの総合的な実験を行った。 実験の結果,提案手法は最先端の性能を実現し,PASCAL VOC 2012とMS-COCOデータセットの完全教師付きモデルよりも優れていた。

This paper addresses semi-supervised semantic segmentation by exploiting a small set of images with pixel-level annotations (strong supervisions) and a large set of images with only image-level annotations (weak supervisions). Most existing approaches aim to generate accurate pixel-level labels from weak supervisions. However, we observe that those generated labels still inevitably contain noisy labels. Motivated by this observation, we present a novel perspective and formulate this task as a problem of learning with pixel-level label noise. Existing noisy label methods, nevertheless, mainly aim at image-level tasks, which can not capture the relationship between neighboring labels in one image. Therefore, we propose a graph based label noise detection and correction framework to deal with pixel-level noisy labels. In particular, for the generated pixel-level noisy labels from weak supervisions by Class Activation Map (CAM), we train a clean segmentation model with strong supervisions to detect the clean labels from these noisy labels according to the cross-entropy loss. Then, we adopt a superpixel-based graph to represent the relations of spatial adjacency and semantic similarity between pixels in one image. Finally we correct the noisy labels using a Graph Attention Network (GAT) supervised by detected clean labels. We comprehensively conduct experiments on PASCAL VOC 2012, PASCAL-Context and MS-COCO datasets. The experimental results show that our proposed semi supervised method achieves the state-of-the-art performances and even outperforms the fully-supervised models on PASCAL VOC 2012 and MS-COCO datasets in some cases.
翻訳日:2021-03-29 22:41:33 公開日:2021-03-26
# (参考訳) 多段階先行時系列予測のためのディープラーニングモデルの評価 [全文訳有]

Evaluation of deep learning models for multi-step ahead time series prediction ( http://arxiv.org/abs/2103.14250v1 )

ライセンス: CC BY 4.0
Rohitash Chandra, Shaurya Goyal, Rishabh Gupta(参考訳) ニューラルネットワークによる時系列予測は、ここ数十年で多くの研究の焦点となっている。 近年のディープラーニング革命では、時系列予測にディープラーニングモデルを使用することに多くの注意が払われているため、その強みや弱点を評価することが重要である。 本稿では,多段階先行時系列予測のためのディープラーニングモデルの性能を比較する評価研究を提案する。 我々のディープラーニング手法は、単純なリカレントニューラルネットワーク、長期記憶(LSTM)ネットワーク、双方向LSTM、エンコーダデコーダLSTMネットワーク、畳み込みニューラルネットワークを妥協する。 また,学習に確率勾配勾配法と適応勾配法(Adam)を用いる単純なニューラルネットワークとの比較を行った。 ベンチマーク時系列データセットからの単変量および多段階予測に着目し,文献の結果と比較した。 その結果, 双方向およびエンコーダデコーダLSTMは, 特性の異なる時系列問題に対して, 最適性能が得られることを示した。

Time series prediction with neural networks have been focus of much research in the past few decades. Given the recent deep learning revolution, there has been much attention in using deep learning models for time series prediction, and hence it is important to evaluate their strengths and weaknesses. In this paper, we present an evaluation study that compares the performance of deep learning models for multi-step ahead time series prediction. Our deep learning methods compromise of simple recurrent neural networks, long short term memory (LSTM) networks, bidirectional LSTM, encoder-decoder LSTM networks, and convolutional neural networks. We also provide comparison with simple neural networks use stochastic gradient descent and adaptive gradient method (Adam) for training. We focus on univariate and multi-step-ahead prediction from benchmark time series datasets and compare with results from from the literature. The results show that bidirectional and encoder-decoder LSTM provide the best performance in accuracy for the given time series problems with different properties.
翻訳日:2021-03-29 22:21:55 公開日:2021-03-26
# (参考訳) パラメータと状態推定のための機械学習へのパワーフロー埋め込み [全文訳有]

Embedding Power Flow into Machine Learning for Parameter and State Estimation ( http://arxiv.org/abs/2103.14251v1 )

ライセンス: CC BY 4.0
Laurent Pagnier and Michael Chertkov(参考訳) 最近の電力系統の状態とパラメータの推定は、ネットワーク観測とネットワークパラメータの予測のミスマッチを最小化する外部問題と、パラメータの与えられた値に対するシステム状態の予測に関する内部問題という2つの段階からなる。 結合問題の標準的な解は反復である: (a)パラメータを設定する、例えば。 b)入力された観測結果を出力の予測にマップし、(c)予測された出力と観測された出力のミスマッチを計算し、(d)パラメータの空間に勾配降下ステップを加えてミスマッチを最小限にし、(a)にループバックする。 機械学習(ML)の現代化,特に自動微分によって指導されたトレーニングによって,反復ループをより効率的に解決できることを示す。 さらに, ファサー測定ユニット(実および反応性電力, 電圧および位相を報告)が発電機(pvバス)でのみ利用可能であるのに対して, 負荷(pqバス)が(scada制御による)能動および反応性パワーのみを報告している不完全な観測の場合にもそのスキームを拡張する。 実装の観点から考えると、パラメータと状態推定問題を解く手法は、機械学習フレームワーク(PyTorch)のトレーニングループにパワーフロー(PF)ソルバを埋め込んだものと見なすことができる。 この組込みは、電力系統の運用と計画における高レベルの最適化問題を解決するのに役立つと論じている。

Modern state and parameter estimations in power systems consist of two stages: the outer problem of minimizing the mismatch between network observation and prediction over the network parameters, and the inner problem of predicting the system state for given values of the parameters. The standard solution of the combined problem is iterative: (a) set the parameters, e.g. to priors on the power line characteristics, (b) map input observation to prediction of the output, (c) compute the mismatch between predicted and observed output, (d) make a gradient descent step in the space of parameters to minimize the mismatch, and loop back to (a). We show how modern Machine Learning (ML), and specifically training guided by automatic differentiation, allows to resolve the iterative loop more efficiently. Moreover, we extend the scheme to the case of incomplete observations, where Phasor Measurement Units (reporting real and reactive powers, voltage and phase) are available only at the generators (PV buses), while loads (PQ buses) report (via SCADA controls) only active and reactive powers. Considering it from the implementation perspective, our methodology of resolving the parameter and state estimation problem can be viewed as embedding of the Power Flow (PF) solver into the training loop of the Machine Learning framework (PyTorch, in this study). We argue that this embedding can help to resolve high-level optimization problems in power system operations and planning.
翻訳日:2021-03-29 21:52:44 公開日:2021-03-26
# (参考訳) 畳み込みニューラルネットワークとマルチタスク学習を用いたポピュラー音楽の教師付きコーラス検出 [全文訳有]

Supervised Chorus Detection for Popular Music Using Convolutional Neural Network and Multi-task Learning ( http://arxiv.org/abs/2103.14253v1 )

ライセンス: CC BY 4.0
Ju-Chiang Wang, Jordan B.L. Smith, Jitong Chen, Xuchen Song, Yuxuan Wang(参考訳) 本稿では,ポピュラー音楽のコーラスセグメントを検出するための教師付きアプローチを提案する。 このタスクに対する従来のアプローチはほとんど教師なしであり、パイプラインは"コーラスネス"(chorusness)を定義すると想定される品質をターゲットとするように設計されている。 本研究では,畳み込みニューラルネットワークを用いて,時間関数としての「コーラスネス」と境界位置の2つの時間活性化曲線を同時に適合させるマルチタスク学習目的の畳み込みニューラルネットワークを提案する。 また,合唱と境界予測を共同で考慮し,バイナリ出力を生成するポストプロセッシング手法を提案する。 3つのデータセットを用いた実験では、システムと他のセグメンテーションとコーラス検出アルゴリズムの公開実装のセットを比較し、我々のアプローチは大幅に改善された。

This paper presents a novel supervised approach to detecting the chorus segments in popular music. Traditional approaches to this task are mostly unsupervised, with pipelines designed to target some quality that is assumed to define "chorusness," which usually means seeking the loudest or most frequently repeated sections. We propose to use a convolutional neural network with a multi-task learning objective, which simultaneously fits two temporal activation curves: one indicating "chorusness" as a function of time, and the other the location of the boundaries. We also propose a post-processing method that jointly takes into account the chorus and boundary predictions to produce binary output. In experiments using three datasets, we compare our system to a set of public implementations of other segmentation and chorus-detection algorithms, and find our approach performs significantly better.
翻訳日:2021-03-29 21:35:17 公開日:2021-03-26
# (参考訳) モーションvaesを用いたキャラクタコントローラ [全文訳有]

Character Controllers Using Motion VAEs ( http://arxiv.org/abs/2103.14274v1 )

ライセンス: CC BY 4.0
Hung Yu Ling and Fabio Zinno and George Cheng and Michiel van de Panne(参考訳) コンピュータアニメーションの根本的な問題は、十分にリッチなモーションキャプチャークリップを与えられた目的的で現実的な人間の動きを実現することである。 我々は,自動回帰条件変分オートエンコーダ(Motion VAE)を用いて,人間の動きのデータ駆動生成モデルを学ぶ。 学習されたオートエンコーダの潜伏変数は、運動のアクション空間を定義し、時間とともにその進化を管理する。 計画や制御アルゴリズムは、このアクション空間を使って望ましい動きを生成することができる。 特に,目標指向動作を実現するコントローラを学習するために,深層強化学習を用いる。 複数のタスクにおけるアプローチの有効性を示す。 システム設計の選択を更に評価し,現在の動きvaesの限界について述べる。

A fundamental problem in computer animation is that of realizing purposeful and realistic human movement given a sufficiently-rich set of motion capture clips. We learn data-driven generative models of human movement using autoregressive conditional variational autoencoders, or Motion VAEs. The latent variables of the learned autoencoder define the action space for the movement and thereby govern its evolution over time. Planning or control algorithms can then use this action space to generate desired motions. In particular, we use deep reinforcement learning to learn controllers that achieve goal-directed movements. We demonstrate the effectiveness of the approach on multiple tasks. We further evaluate system-design choices and describe the current limitations of Motion VAEs.
翻訳日:2021-03-29 21:25:27 公開日:2021-03-26
# (参考訳) DDR-Net:動的深さ範囲でマルチステージマルチビューステレオを学習する [全文訳有]

DDR-Net: Learning Multi-Stage Multi-View Stereo With Dynamic Depth Range ( http://arxiv.org/abs/2103.14275v1 )

ライセンス: CC BY 4.0
Puyuan Yi, Shengkun Tang and Jian Yao(参考訳) 高分解能の奥行きマップを得るため、前回の学習に基づくマルチビューステレオ手法では、コストボリュームピラミッドを粗雑に構築する。 これらのアプローチは固定深度距離仮説を利用してカスケード平面スイープボリュームを構築する。 しかし、以前の画素ごとの深度予測の不確かさが空間的に異なるため、各ピクセルに対して同じ範囲仮説を設定するのは不適切である。 提案手法は, 距離推定モジュール (REM) を適用し, 前段階における距離推定の不確かさを学習することにより, 深度推定を動的に行う動的深度レンジネットワーク (DDR-Net) を提案する。 特に、ddr-netでは、まず、深度範囲全体にわたって画像の最も粗い解像度で初期深度マップを構築します。 そして、レンジ推定モジュール(REM)は、初期深さの確率分布情報を利用して、以下の段階で動的に深度範囲仮説を推定する。 さらに,学習したダイナミックな深度範囲を利用して精巧な深度マップを生成する新たなロス戦略を開発し,次の段階のレンジ仮説で被覆された各画素の真理値を保持する。 実験の結果,本手法はDTUベンチマークにおける他の最先端手法よりも優れた性能を示し,タンク・アンド・テンプルのベンチマークで同等の結果を得た。 コードはhttps://github.com/t angshengku/ddr-netで入手できる。

To obtain high-resolution depth maps, some previous learning-based multi-view stereo methods build a cost volume pyramid in a coarse-to-fine manner. These approaches leverage fixed depth range hypotheses to construct cascaded plane sweep volumes. However, it is inappropriate to set identical range hypotheses for each pixel since the uncertainties of previous per-pixel depth predictions are spatially varying. Distinct from these approaches, we propose a Dynamic Depth Range Network (DDR-Net) to determine the depth range hypotheses dynamically by applying a range estimation module (REM) to learn the uncertainties of range hypotheses in the former stages. Specifically, in our DDR-Net, we first build an initial depth map at the coarsest resolution of an image across the entire depth range. Then the range estimation module (REM) leverages the probability distribution information of the initial depth to estimate the depth range hypotheses dynamically for the following stages. Moreover, we develop a novel loss strategy, which utilizes learned dynamic depth ranges to generate refined depth maps, to keep the ground truth value of each pixel covered in the range hypotheses of the next stage. Extensive experimental results show that our method achieves superior performance over other state-of-the-art methods on the DTU benchmark and obtains comparable results on the Tanks and Temples benchmark. The code is available at https://github.com/T angshengku/DDR-Net.
翻訳日:2021-03-29 21:05:06 公開日:2021-03-26
# (参考訳) 慣性支援ナビゲーションのためのIMUデータ処理:リカレントニューラルネットワークによるアプローチ [全文訳有]

IMU Data Processing For Inertial Aided Navigation: A Recurrent Neural Network Based Approach ( http://arxiv.org/abs/2103.14286v1 )

ライセンス: CC BY 4.0
Ming Zhang, Mingming Zhang, Yiming Chen, Mingyang Li(参考訳) 本研究では,深層ニューラルネットワーク(dnn)を用いて,慣性支援ナビゲーションを行う新しい手法を提案する。 現在まで、ほとんどのDNN慣性航法は、ジャイロスコープと加速度計を統合IMUポーズ(位置と向き)の入力および回帰として取り込むことで、慣性オードメトリーのタスクに焦点を当てている。 この設計は多くのアプリケーションに適用されているが、パターン運動が関与しない限り、理論的性能を保証するものではない。 これは必然的に、特定のユースケースにおける精度と堅牢性を著しく低下させる。 この問題を解決するために,DNNを用いて観測可能なIMU積分項を計算するためのフレームワークを設計し,次いで数値ポーズ積分とセンサ融合を用いて性能向上を実現する。 具体的には, imuキネマティック方程式の運動項の詳細な解析を行い, imuデータ処理のための専用ネットワーク設計, 損失関数, 訓練戦略を提案し, 広範な実験を行った。 その結果,本手法は一般的に適用可能であり,従来の手法とDNN法の両方を広いマージンで上回っていることがわかった。

In this work, we propose a novel method for performing inertial aided navigation, by using deep neural networks (DNNs). To date, most DNN inertial navigation methods focus on the task of inertial odometry, by taking gyroscope and accelerometer readings as input and regressing for integrated IMU poses (i.e., position and orientation). While this design has been successfully applied on a number of applications, it is not of theoretical performance guarantee unless patterned motion is involved. This inevitably leads to significantly reduced accuracy and robustness in certain use cases. To solve this problem, we design a framework to compute observable IMU integration terms using DNNs, followed by the numerical pose integration and sensor fusion to achieve the performance gain. Specifically, we perform detailed analysis on the motion terms in IMU kinematic equations, propose a dedicated network design, loss functions, and training strategies for the IMU data processing, and conduct extensive experiments. The results show that our method is generally applicable and outperforms both traditional and DNN methods by wide margins.
翻訳日:2021-03-29 20:50:27 公開日:2021-03-26
# (参考訳) スプリット学習における訓練順序による脆弱性 [全文訳有]

Vulnerability Due to Training Order in Split Learning ( http://arxiv.org/abs/2103.14291v1 )

ライセンス: CC BY 4.0
Harshit Madaan, Manish Gawali, Viraj Kulkarni, Aniruddha Pant(参考訳) Split Learning(SL)は、患者の生データをクライアント間で共有することなく、協調モデルをトレーニングするために使用される、プライバシ保護の分散ディープラーニング手法である。 分割学習では、no-peekアルゴリズムと呼ばれる追加のプライバシ保護アルゴリズムが組み込まれ、敵の攻撃に対して堅牢である。 分割学習によって提供されるプライバシーの利点は、医療領域での実践に適している。 しかし、この分割学習アルゴリズムは、協調モデルが逐次訓練されるため、欠陥がある。 分割学習アルゴリズムを用いてトレーニングされたモデルは、ラウンドの終わりにトレーニングに使用されるクライアントのデータに偏っていることを指摘した。 これにより、SLアルゴリズムは、クライアントがトレーニングのために考慮される順序に非常に敏感になる。 すべてのクライアントのデータを使ってトレーニングされたモデルは、モデルをトレーニングするためのラウンドの初期に考慮されたクライアントのデータではうまく動作しない。 さらに,クライアント数の増加に伴い,この効果がより顕著になることを示す。 また、SplitFedv3アルゴリズムは、分割学習によって得られるプライバシーの利点を引き続き活用しながら、この問題を軽減することを実証する。

Split learning (SL) is a privacy-preserving distributed deep learning method used to train a collaborative model without the need for sharing of patient's raw data between clients. In split learning, an additional privacy-preserving algorithm called no-peek algorithm can be incorporated, which is robust to adversarial attacks. The privacy benefits offered by split learning make it suitable for practice in the healthcare domain. However, the split learning algorithm is flawed as the collaborative model is trained sequentially, i.e., one client trains after the other. We point out that the model trained using the split learning algorithm gets biased towards the data of the clients used for training towards the end of a round. This makes SL algorithms highly susceptible to the order in which clients are considered for training. We demonstrate that the model trained using the data of all clients does not perform well on the client's data which was considered earliest in a round for training the model. Moreover, we show that this effect becomes more prominent with the increase in the number of clients. We also demonstrate that the SplitFedv3 algorithm mitigates this problem while still leveraging the privacy benefits provided by split learning.
翻訳日:2021-03-29 20:36:46 公開日:2021-03-26
# (参考訳) 反敵と敵対するさま [全文訳有]

Combating Adversaries with Anti-Adversaries ( http://arxiv.org/abs/2103.14347v1 )

ライセンス: CC BY 4.0
Motasem Alfarra, Juan C. P\'erez, Ali Thabet, Adel Bibi, Philip H. S. Torr, Bernard Ghanem(参考訳) ディープニューラルネットワークは、敵攻撃として知られる小さな入力摂動に弱い。 これらの敵は,真のクラスラベルに対するネットワークの信頼性を反復的に最小化することで構築されているという事実に着想を得て,この効果に対抗するための反敵層を提案する。 特に、我々の層は、逆の層と反対の方向に入力摂動を生成し、分類器に入力の摂動バージョンを供給します。 我々のアプローチはトレーニングフリーであり、理論的にサポートされている。 本手法の有効性を名目上およびロバストに訓練されたモデルと組み合わせることで検証し, ブラックボックスからcifar10, cifar100, imagenetへの適応攻撃まで大規模実験を行った。 我々の対向層は、クリーンな精度でコストをかけずにモデルロバスト性を著しく向上させる。

Deep neural networks are vulnerable to small input perturbations known as adversarial attacks. Inspired by the fact that these adversaries are constructed by iteratively minimizing the confidence of a network for the true class label, we propose the anti-adversary layer, aimed at countering this effect. In particular, our layer generates an input perturbation in the opposite direction of the adversarial one, and feeds the classifier a perturbed version of the input. Our approach is training-free and theoretically supported. We verify the effectiveness of our approach by combining our layer with both nominally and robustly trained models, and conduct large scale experiments from black-box to adaptive attacks on CIFAR10, CIFAR100 and ImageNet. Our anti-adversary layer significantly enhances model robustness while coming at no cost on clean accuracy.
翻訳日:2021-03-29 20:27:10 公開日:2021-03-26
# (参考訳) 新しい類似度尺度を用いた関連web文書検索のためのpso戦略 [全文訳有]

A PSO Strategy of Finding Relevant Web Documents using a New Similarity Measure ( http://arxiv.org/abs/2103.14371v1 )

ライセンス: CC BY 4.0
Dr. Ramya C, Dr. Shreedhara K S(参考訳) 膨大な情報を提供するインターネットとWorld Wide Webの世界では、検索サービスや機能に重点が置かれている。 現在、ほとんどのウェブポータルは、良くも悪くも検索ユーティリティを提供している。 これらは、主にドキュメントのテキストコンテンツをテキスト化するサイト内のコンテンツを探すことができる。 本稿では,より類似した文書をリポジトリから検索するために,smdr ( similarity measure for document retrieval) と呼ばれる新しい類似度尺度を提案し,web情報検索 (wir) プロセスの有効性に大きく寄与した。 バイオインスパイアされたPSO法は、システムの応答時間を短縮し、WIRプロセスの最適化を目的としており、それによってシステムの効率性に寄与する。 本稿では,提案方式と既存方式との比較検討を行い,精度,感度,f測定,特異性について述べる。 最後に,cacmコレクションに関する広範な実験を行った。 精度・リコール率は既存のシステムよりも高い。 実験結果は,提案システムの有効性と有効性を示す。

In the world of the Internet and World Wide Web, which offers a tremendous amount of information, an increasing emphasis is being given to searching services and functionality. Currently, a majority of web portals offer their searching utilities, be it better or worse. These can search for the content within the sites, mainly text the textual content of documents. In this paper a novel similarity measure called SMDR (Similarity Measure for Documents Retrieval) is proposed to help retrieve more similar documents from the repository thus contributing considerably to the effectiveness of Web Information Retrieval (WIR) process. Bio-inspired PSO methodology is used with the intent to reduce the response time of the system and optimizes WIR process, hence contributes to the efficiency of the system. This paper also demonstrates a comparative study of the proposed system with the existing method in terms of accuracy, sensitivity, F-measure and specificity. Finally, extensive experiments are conducted on CACM collections. Better precision-recall rates are achieved than the existing system. Experimental results demonstrate the effectiveness and efficiency of the proposed system.
翻訳日:2021-03-29 20:06:49 公開日:2021-03-26
# (参考訳) D2C-SR:画像超解に対する収束アプローチの多様化 [全文訳有]

D2C-SR: A Divergence to Convergence Approach for Image Super-Resolution ( http://arxiv.org/abs/2103.14373v1 )

ライセンス: CC BY 4.0
Youwei Li, Haibin Huang, Lanpeng Jia, Haoqiang Fan and Shuaicheng Liu(参考訳) 本稿では,画像超解像処理のための新しいフレームワークであるD2C-SRを提案する。 誤った問題として、超分解能関連タスクの鍵となる課題は、与えられた低分解能入力に対して複数の予測が可能であることである。 古典的手法と初期のディープラーニングに基づくアプローチは、この基本的な事実を無視し、この問題を決定論的処理としてモデル化し、しばしば不満足な結果をもたらす。 SRFlowのような最近の研究に触発されて、この問題を半確率的に解決し、2段階のパイプラインを提案する: 分散段階は、基礎となる高解像度出力の離散的な分布を学習するために使用され、収束段階は、学習した予測を最終出力に融合するために続く。 より具体的には、木構造深層ネットワークを提案し、各枝は高分解能予測を学習できるように設計されている。 発散段階では、各分岐は基底真理に適合するように個別に訓練され、異なる分岐からの出力を強制するために三重損失が使用される。 その後、第1段階からの出力が準最適となるため、複数の予測を組み合わせるヒューズモジュールを追加します。 ヒューズモジュールは最終高解像度画像をエンドツーエンドに収束するように訓練することができる。 8倍のアップスケーリング係数を持つ新しいデータセットを含む,いくつかのベンチマークで評価を行う。 実験により,PSNRおよびSSIMにおけるD2C-SRの性能は,計算コストが大幅に低減された。

In this paper, we present D2C-SR, a novel framework for the task of image super-resolution(SR) . As an ill-posed problem, the key challenge for super-resolution related tasks is there can be multiple predictions for a given low-resolution input. Most classical methods and early deep learning based approaches ignored this fundamental fact and modeled this problem as a deterministic processing which often lead to unsatisfactory results. Inspired by recent works like SRFlow, we tackle this problem in a semi-probabilistic manner and propose a two-stage pipeline: a divergence stage is used to learn the distribution of underlying high-resolution outputs in a discrete form, and a convergence stage is followed to fuse the learned predictions into a final output. More specifically, we propose a tree-based structure deep network, where each branch is designed to learn a possible high-resolution prediction. At the divergence stage, each branch is trained separately to fit ground truth, and a triple loss is used to enforce the outputs from different branches divergent. Subsequently, we add a fuse module to combine the multiple predictions as the outputs from the first stage can be sub-optimal. The fuse module can be trained to converge w.r.t the final high-resolution image in an end-to-end manner. We conduct evaluations on several benchmarks, including a new proposed dataset with 8x upscaling factor. Our experiments demonstrate that D2C-SR can achieve state-of-the-art performance on PSNR and SSIM, with a significantly less computational cost.
翻訳日:2021-03-29 19:57:57 公開日:2021-03-26
# (参考訳) ネットワーク知識を用いたクラスタリングのための幾何学的親和性伝播 [全文訳有]

Geometric Affinity Propagation for Clustering with Network Knowledge ( http://arxiv.org/abs/2103.14376v1 )

ライセンス: CC BY 4.0
Omar Maddouri, Xiaoning Qian, and Byung-Jun Yoon(参考訳) データを有意義なサブセットにクラスタリングすることは、科学データ分析の主要なタスクである。 これまで、効率的で正確なクラスタリングのために、モデルベースアプローチからデータ駆動スキームまで、さまざまな戦略が考案されてきた。 特に興味深いクラスタリング手法の1つの重要なクラスは、模範的なアプローチのクラスである。 この関心は主に、各クラスタの主要な特徴を効果的に反映するこれらの例に符号化された圧縮された情報の量に由来する。 Affinity propagation (AP) は、反復的なペアワイズメッセージ更新によって最適な例の集合を洗練する強力な例ベースのアプローチであることが証明されている。 しかし、重要な制限は、様々な科学的データセットでしばしば利用できるデータポイント間の既知のネットワーク関係を活用できないことである。 この欠点を軽減するために,ネットワークトポロジを活用するためにAPを効果的に拡張する新しいクラスタリングアルゴリズムであるGeological-APを提案する。 geometry-apはネットワーク制約に従い、利用可能なネットワークトポロジを利用してネットワーク上のスムーズなクラスタを生成する。 大規模な性能評価は、ベンチマーククラスタリング方式と比較してクラスタリング結果の品質を著しく向上させる。 特に,元のAPが大幅に故障した場合においても,幾何APは極めて良好であることを示す。

Clustering data into meaningful subsets is a major task in scientific data analysis. To date, various strategies ranging from model-based approaches to data-driven schemes, have been devised for efficient and accurate clustering. One important class of clustering methods that is of a particular interest is the class of exemplar-based approaches. This interest primarily stems from the amount of compressed information encoded in these exemplars that effectively reflect the major characteristics of the respective clusters. Affinity propagation (AP) has proven to be a powerful exemplar-based approach that refines the set of optimal exemplars by iterative pairwise message updates. However, a critical limitation is its inability to capitalize on known networked relations between data points often available for various scientific datasets. To mitigate this shortcoming, we propose geometric-AP, a novel clustering algorithm that effectively extends AP to take advantage of the network topology. Geometric-AP obeys network constraints and uses max-sum belief propagation to leverage the available network topology for generating smooth clusters over the network. Extensive performance assessment reveals a significant enhancement in the quality of the clustering results when compared to benchmark clustering schemes. Especially, we demonstrate that geometric-AP performs extremely well even in cases where the original AP fails drastically.
翻訳日:2021-03-29 19:45:48 公開日:2021-03-26
# (参考訳) 計量空間における指数重み付きオンライン学習

Online learning with exponential weights in metric spaces ( http://arxiv.org/abs/2103.14389v1 )

ライセンス: CC BY 4.0
Quentin Paris(参考訳) 本稿では,指数重みを用いた計量空間におけるオンライン学習の問題に対処する。 我々は,従来ユークリッド環境で研究されてきた指数重み付け平均予測器の解析を,より抽象的な枠組みに拡張する。 結果は、バリー中心の概念、イェンセンの不等式の適切なバージョン、測度収縮特性として知られる計量空間における下曲率の合成的な概念に依拠する。 また,オンライン・バッチ変換の原理を応用し,統計的学習フレームワークに適用する。

This paper addresses the problem of online learning in metric spaces using exponential weights. We extend the analysis of the exponentially weighted average forecaster, traditionally studied in a Euclidean settings, to a more abstract framework. Our results rely on the notion of barycenters, a suitable version of Jensen's inequality and a synthetic notion of lower curvature bound in metric spaces known as the measure contraction property. We also adapt the online-to-batch conversion principle to apply our results to a statistical learning framework.
翻訳日:2021-03-29 18:55:20 公開日:2021-03-26
# (参考訳) 埋め込みによる短いテキストに対する関節感覚トピックモデル [全文訳有]

An Embedding-based Joint Sentiment-Topic Model for Short Texts ( http://arxiv.org/abs/2103.14410v1 )

ライセンス: CC BY 4.0
Ayan Sengupta, William Scott Paka, Suman Roy, Gaurav Ranjan, Tanmoy Chakraborty(参考訳) ショートテキストは、ソーシャルメディアやeコマースプラットフォームなどで、フィードバックや意見、レビューを共有する一般的な方法だ。 多くの企業は、ユーザの振る舞いを理解するために、このような短いテキストから意味のある情報(テーマの内容とセマンティックな極性を含むこともある)を抽出する必要がある。 しかし、質の高い感情関連や人間の解釈可能なテーマを得ることは、短文の難題であり続けている。 本稿では,短いテキストからよりコヒーレントで多様なトピックを発見可能な,統合的統合感情トピックモデルであるELJSTを開発する。 これはMarkov Random Field Regularizerを使用し、スキップグラムベースのモデルの一般化と見なすことができる。 さらに、グラフィカルモデルにおける自己注意重みなどの単語埋め込みに現れる高次意味情報を活用できる。 その結果,トピック・コヒーレンスでは平均10%,トピック・コヒーレンスでは5%の改善が見られた。 最後に、ELJSTは、より詳細なレベルでユーザーの振る舞いを理解するのに役立つ。 これらすべてが、顧客を扱うサービスや医療産業に大きな価値をもたらします。

Short text is a popular avenue of sharing feedback, opinions and reviews on social media, e-commerce platforms, etc. Many companies need to extract meaningful information (which may include thematic content as well as semantic polarity) out of such short texts to understand users' behaviour. However, obtaining high quality sentiment-associated and human interpretable themes still remains a challenge for short texts. In this paper we develop ELJST, an embedding enhanced generative joint sentiment-topic model that can discover more coherent and diverse topics from short texts. It uses Markov Random Field Regularizer that can be seen as a generalisation of skip-gram based models. Further, it can leverage higher-order semantic information appearing in word embedding, such as self-attention weights in graphical models. Our results show an average improvement of 10% in topic coherence and 5% in topic diversification over baselines. Finally, ELJST helps understand users' behaviour at more granular levels which can be explained. All these can bring significant values to the service and healthcare industries often dealing with customers.
翻訳日:2021-03-29 18:54:28 公開日:2021-03-26
# (参考訳) 確率オートマトンの理論について

On the Theory of Stochastic Automata ( http://arxiv.org/abs/2103.14423v1 )

ライセンス: CC BY 4.0
Merve Nur Cakir, Mehwish Saleemi, Karl-Heinz Zimmermann(参考訳) 離散確率系の理論はシャノンとフォン・ノイマンの研究によって始められた。 シャノンはメモリレス通信チャネルと状態の導入による一般化を検討したが、フォン・ノイマンは信頼できないコンポーネントから信頼できるシステムの合成を研究した。 決定論的有限状態オートマトンに関するラビンとスコットの基本的な研究は、2つの一般化をもたらした。 まず、カーライルとスタークによって研究された条件分布への遷移関数の一般化。 このことは、連鎖が複数の遷移確率行列によって支配される時間離散マルコフ連鎖の一般化につながった。 第二に、ラビンが記述した確率的オートマトンの導入による正規集合の一般化である。 確率オートマトンはよく研究されている。 本報告では,クラウスの貴重な書物に基づく確率的オートマトンについて紹介する。 これは確率的オートマトンの理論(同値性、最小化、還元、被覆、可観測性、決定性)の基本的トピックを含む。 すると、ミーリーとムーアオートマタの確率バージョンが研究され、最終的に確率言語アクセプタは非決定論的有限状態アクセプタの一般化と見なされる。

The theory of discrete stochastic systems has been initiated by the work of Shannon and von Neumann. While Shannon has considered memory-less communication channels and their generalization by introducing states, von Neumann has studied the synthesis of reliable systems from unreliable components. The fundamental work of Rabin and Scott about deterministic finite-state automata has led to two generalizations. First, the generalization of transition functions to conditional distributions studied by Carlyle and Starke. This in turn has led to a generalization of time-discrete Markov chains in which the chains are governed by more than one transition probability matrix. Second, the generalization of regular sets by introducing stochastic automata as described by Rabin. Stochastic automata are well-investigated. This report provides a short introduction to stochastic automata based on the valuable book of Claus. This includes the basic topics of the theory of stochastic automata: equivalence, minimization, reduction, covering, observability, and determinism. Then stochastic versions of Mealy and Moore automata are studied and finally stochastic language acceptors are considered as a generalization of nondeterministic finite-state acceptors.
翻訳日:2021-03-29 18:38:28 公開日:2021-03-26
# (参考訳) ノードメタデータは、ネットワーク推論問題における予測可能性遷移を生成する [全文訳有]

Node metadata can produce predictability transitions in network inference problems ( http://arxiv.org/abs/2103.14424v1 )

ライセンス: CC BY-SA 4.0
Oscar Fajardo-Fontiveros, Marta Sales-Pardo, Roger Guimera(参考訳) ネットワーク推論は、複雑なネットワークの性質をデータから学習するプロセスである。 ネットワーク内の既知のリンクに関する情報に加えて、ノード属性やその他の形式のネットワークメタデータは、ネットワーク推論の問題を解決するのに役立つ。 実際、確率的ネットワークモデルにメタデータを導入し、より良い推論を行うためのいくつかのアプローチが提案されている。 しかし、このようなメタデータが推論プロセスに与える影響についてはほとんど分かっていない。 ここではこの問題を調査します。 メタデータが徐々に推論に影響を与えるのではなく、メタデータが推論プロセスを完全に支配する状況にメタデータが関与しない状況から、推論プロセスと正確な予測を行う能力の急激な遷移を引き起こす。 ネットワークデータとメタデータが部分的に相関している場合、メタデータはデータ支配型とメタデータ支配型間の遷移における推論プロセスに最適に寄与する。

Network inference is the process of learning the properties of complex networks from data. Besides using information about known links in the network, node attributes and other forms of network metadata can help to solve network inference problems. Indeed, several approaches have been proposed to introduce metadata into probabilistic network models and to use them to make better inferences. However, we know little about the effect of such metadata in the inference process. Here, we investigate this issue. We find that, rather than affecting inference gradually, adding metadata causes abrupt transitions in the inference process and in our ability to make accurate predictions, from a situation in which metadata does not play any role to a situation in which metadata completely dominates the inference process. When network data and metadata are partly correlated, metadata optimally contributes to the inference process at the transition between data-dominated and metadata-dominated regimes.
翻訳日:2021-03-29 18:37:26 公開日:2021-03-26
# (参考訳) 天気予報確率予測のための計算効率のよいニューラルネットワーク [全文訳有]

A computationally efficient neural network for predicting weather forecast probabilities ( http://arxiv.org/abs/2103.14430v1 )

ライセンス: CC BY 4.0
Mariana Clare and Omar Jamil and Cyril Morcrette(参考訳) 過去数十年にわたるディープラーニング技術の成功は、天気予報のための新たな研究の道を開いた。 本稿では,ニューラルネットワークを用いて1つの出力値ではなく確率密度関数を予測し,確率的天気予報を生成する手法を提案する。 これにより、ニューラルネットワーク予測のための不確実性とスキルメトリクスの両方の計算が可能になり、これらの予測から不確実性を推測する一般的な困難を克服することができる。 このアプローチは純粋にデータ駆動であり、ニューラルネットワークはWeatherBenchデータセット(処理されたERA5データ)に基づいてトレーニングされ、3日前と5日前を測る。 広範なデータ探索により、最も重要な入力変数が特定され、物理的推論と一致することが判明し、それによって我々のアプローチが検証される。 計算効率をさらに高めるために、各ニューラルネットワークはこれらの変数の小さなサブセットでトレーニングされる。 出力は積み重ねられたニューラルネットワークを介して結合され、そのようなテクニックが気象データに適用されたのは初めてである。 我々のアプローチは、いくつかの数値的な天気予報モデルよりも正確で、より複雑な代替ニューラルネットワークと同じくらい正確であり、さらに、天気予報に必要な重要な確率情報を提供するという利点がある。

The success of deep learning techniques over the last decades has opened up a new avenue of research for weather forecasting. Here, we take the novel approach of using a neural network to predict probability density functions rather than a single output value, thus producing a probabilistic weather forecast. This enables the calculation of both uncertainty and skill metrics for the neural network predictions, and overcomes the common difficulty of inferring uncertainty from these predictions. This approach is purely data-driven and the neural network is trained on the WeatherBench dataset (processed ERA5 data) to forecast geopotential and temperature 3 and 5 days ahead. An extensive data exploration leads to the identification of the most important input variables, which are also found to agree with physical reasoning, thereby validating our approach. In order to increase computational efficiency further, each neural network is trained on a small subset of these variables. The outputs are then combined through a stacked neural network, the first time such a technique has been applied to weather data. Our approach is found to be more accurate than some numerical weather prediction models and as accurate as more complex alternative neural networks, with the added benefit of providing key probabilistic information necessary for making informed weather forecasts.
翻訳日:2021-03-29 18:19:59 公開日:2021-03-26
# (参考訳) 多変量時系列分類のためのGated Transformer Networks [全文訳有]

Gated Transformer Networks for Multivariate Time Series Classification ( http://arxiv.org/abs/2103.14438v1 )

ライセンス: CC BY 4.0
Minghao Liu, Shengqi Ren, Siyuan Ma, Jiahui Jiao, Yizhou Chen, Zhiguang Wang, Wei Song(参考訳) 時系列分類のためのディープラーニングモデル(主に畳み込みネットワークとLSTM)は、医療、金融、産業工学、IoTといったさまざまな分野の幅広い応用で、コミュニティによって広く研究されている。 一方、Transformer Networksは最近、様々な自然言語処理とコンピュータビジョンタスクにおけるフロンティア性能を達成した。 本研究では,Gated Transformer Networks (GTN) と呼ばれるゲーティング付きトランスフォーマーネットワークの簡易拡張を多変量時系列分類問題に対して検討した。 チャネルワイドとステップワイドの相関関係をモデル化したTransformerの2つのタワーをマージするゲーティングにより,GTNが自然かつ効果的に多変量時系列分類タスクに適していることを示す。 完全アブレーションによる13データセットの総合的な実験を行った。 その結果,gtnは最先端のディープラーニングモデルと競合する結果を得ることができた。 また,時系列モデリングにおけるGTNの自然な解釈可能性の注意マップについても検討した。 予備結果は,多変量時系列分類タスクに基づくTransformer Networksの強力なベースラインを提供し,今後の研究の基盤となる。

Deep learning model (primarily convolutional networks and LSTM) for time series classification has been studied broadly by the community with the wide applications in different domains like healthcare, finance, industrial engineering and IoT. Meanwhile, Transformer Networks recently achieved frontier performance on various natural language processing and computer vision tasks. In this work, we explored a simple extension of the current Transformer Networks with gating, named Gated Transformer Networks (GTN) for the multivariate time series classification problem. With the gating that merges two towers of Transformer which model the channel-wise and step-wise correlations respectively, we show how GTN is naturally and effectively suitable for the multivariate time series classification task. We conduct comprehensive experiments on thirteen dataset with full ablation study. Our results show that GTN is able to achieve competing results with current state-of-the-art deep learning models. We also explored the attention map for the natural interpretability of GTN on time series modeling. Our preliminary results provide a strong baseline for the Transformer Networks on multivariate time series classification task and grounds the foundation for future research.
翻訳日:2021-03-29 17:59:43 公開日:2021-03-26
# (参考訳) スパイク間隔を用いたスパイクニューラルネットワークからの視覚説明 [全文訳有]

Visual Explanations from Spiking Neural Networks using Interspike Intervals ( http://arxiv.org/abs/2103.14441v1 )

ライセンス: CC BY 4.0
Youngeun Kim, Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)は、非同期バイナリ時間イベントを計算し、通信することで、ニューロモルフィックハードウェアによる大幅な省エネにつながる。 近年のSNNの訓練におけるアルゴリズム的な取り組みは、様々な分類タスクにおける競争性能を示している。 しかし,このような時間的深層snsの内部スパイク挙動を解析・説明するための可視化ツールは検討されていない。 本稿では,スパイク活性化マップ (SAM) と呼ばれる,SNNにおける生体情報可視化の新しい概念を提案する。 提案したSAMは、視覚的説明を得るために勾配を計算する必要性を排除し、スパイキングニューロンの非分化性特性を回避する。 SAMは、異なる時間ステップで入力スパイクを前方に伝播することで、時間的可視化マップを計算する。 SAMは、短いスパイク間隔でニューロンをハイライトすることにより、入力データの各タイムステップに対応するアテンションマップを生成する。 興味深いことに、バックプロパゲーションプロセスとクラスラベルの両方なしでSAMは、きめ細かい詳細をキャプチャしながら、画像の識別領域を強調する。 SAMでは、最適化タイプ、リーク動作、および敵の例に直面する場合に応じて、様々なSNNトレーニング設定において内部スパイクがどのように機能するかを包括的に分析する。

Spiking Neural Networks (SNNs) compute and communicate with asynchronous binary temporal events that can lead to significant energy savings with neuromorphic hardware. Recent algorithmic efforts on training SNNs have shown competitive performance on a variety of classification tasks. However, a visualization tool for analysing and explaining the internal spike behavior of such temporal deep SNNs has not been explored. In this paper, we propose a new concept of bio-plausible visualization for SNNs, called Spike Activation Map (SAM). The proposed SAM circumvents the non-differentiable characteristic of spiking neurons by eliminating the need for calculating gradients to obtain visual explanations. Instead, SAM calculates a temporal visualization map by forward propagating input spikes over different time-steps. SAM yields an attention map corresponding to each time-step of input data by highlighting neurons with short inter-spike interval activity. Interestingly, without both the backpropagation process and the class label, SAM highlights the discriminative region of the image while capturing fine-grained details. With SAM, for the first time, we provide a comprehensive analysis on how internal spikes work in various SNN training configurations depending on optimization types, leak behavior, as well as when faced with adversarial examples.
翻訳日:2021-03-29 17:50:39 公開日:2021-03-26
# (参考訳) 微分可能影プログラムインバージョンによるロボットプログラムパラメータ推定 [全文訳有]

Robot Program Parameter Inference via Differentiable Shadow Program Inversion ( http://arxiv.org/abs/2103.14452v1 )

ライセンス: CC BY 4.0
Benjamin Alt, Darko Katic, Rainer J\"akel, Asil Kaan Bozcuoglu, Michael Beetz(参考訳) 具体的な物理的環境や手前のタスクにパラメータ化する必要がある個々のロボットスキルを組み合わせることで、操作タスクの混在を効果的に解決することができる。 これは、人間プログラマ、特に力量制御スキルにとって、時間がかかり難い。 そこで我々は,データから直接最適なスキルパラメータを推測する新しい手法であるShadow Program Inversion (SPI)を提案する。 SPIは教師なし学習を活用して、補助的微分可能なプログラム表現(シャドウプログラム)を訓練し、勾配に基づくモデル反転によるパラメータ推論を実現する。 本手法は,実運用で使用されている多くのスキル変種を含む,元々の非微分可能スキルの最適パラメータを推定する効率的な一階最適化器の利用を可能にする。 SPIゼロショットはタスクの目的をまたいだ一般化であり、異なるタスクの変数のパラメータを推論するためにシャドウプログラムを再訓練する必要はない。 産業シナリオと家庭シナリオにおける3つの異なるロボットとスキルフレームワークの手法を評価した。 コードとサンプルはhttps://innolab.arti minds.com/icra2021。

Challenging manipulation tasks can be solved effectively by combining individual robot skills, which must be parameterized for the concrete physical environment and task at hand. This is time-consuming and difficult for human programmers, particularly for force-controlled skills. To this end, we present Shadow Program Inversion (SPI), a novel approach to infer optimal skill parameters directly from data. SPI leverages unsupervised learning to train an auxiliary differentiable program representation ("shadow program") and realizes parameter inference via gradient-based model inversion. Our method enables the use of efficient first-order optimizers to infer optimal parameters for originally non-differentiable skills, including many skill variants currently used in production. SPI zero-shot generalizes across task objectives, meaning that shadow programs do not need to be retrained to infer parameters for different task variants. We evaluate our methods on three different robots and skill frameworks in industrial and household scenarios. Code and examples are available at https://innolab.arti minds.com/icra2021.
翻訳日:2021-03-29 17:33:55 公開日:2021-03-26
# (参考訳) 協調フィルタリングにおけるビットレベル重要符号化における投影ハミング相似性 [全文訳有]

Projected Hamming Dissimilarity for Bit-Level Importance Coding in Collaborative Filtering ( http://arxiv.org/abs/2103.14455v1 )

ライセンス: CC BY 4.0
Christian Hansen, Casper Hansen, Jakob Grue Simonsen, Christina Lioma(参考訳) 大量のデータを含むタスクを推論する場合、一般的なアプローチは、データ項目を効率的に効率的に操作できるハミング空間のオブジェクトとして表現することである。 オブジェクトの類似性は、オブジェクトのバイナリ表現(ハッシュコード)を学習し、ハミング距離を計算することで計算できる。 これは非常に効率的であるが、各ビット次元は等しく重み付けされているため、データの識別情報が失われる可能性がある。 より表現力のある別の選択肢は、実数値ベクトル表現を使用し、その内積を計算することである。 これを解決するために、ハミング空間内の2つの対象間の相似性を各次元の2重み付けで測定する新しい方法(すなわち、解離ビット)を導出する: 他方の対象のベクトルを他方のベクトルに射影する場に依存しない相似性を考える。 ハミング空間で働くとき、これは、射影の選択によって、一方のオブジェクトのハッシュコードの重み付けを、もう一方のオブジェクトのハッシュコードを通して効果的に二項重み付けできる、ハミングの相似性(hamming dissimilarity)という新しいプロジェクションをもたらす。 本稿では,このハミング差分法に最適化されたハッシュコードを学習するための変分ハッシュモデルを提案し,協調フィルタリング実験において実験的に評価する。 その結果、ndcgでは最大+7%、mrでは+14%、最先端のハッシュベースの協調フィルタリングベースラインに比べて有効率が向上した。

When reasoning about tasks that involve large amounts of data, a common approach is to represent data items as objects in the Hamming space where operations can be done efficiently and effectively. Object similarity can then be computed by learning binary representations (hash codes) of the objects and computing their Hamming distance. While this is highly efficient, each bit dimension is equally weighted, which means that potentially discriminative information of the data is lost. A more expressive alternative is to use real-valued vector representations and compute their inner product; this allows varying the weight of each dimension but is many magnitudes slower. To fix this, we derive a new way of measuring the dissimilarity between two objects in the Hamming space with binary weighting of each dimension (i.e., disabling bits): we consider a field-agnostic dissimilarity that projects the vector of one object onto the vector of the other. When working in the Hamming space, this results in a novel projected Hamming dissimilarity, which by choice of projection, effectively allows a binary importance weighting of the hash code of one object through the hash code of the other. We propose a variational hashing model for learning hash codes optimized for this projected Hamming dissimilarity, and experimentally evaluate it in collaborative filtering experiments. The resultant hash codes lead to effectiveness gains of up to +7% in NDCG and +14% in MRR compared to state-of-the-art hashing-based collaborative filtering baselines, while requiring no additional storage and no computational overhead compared to using the Hamming distance.
翻訳日:2021-03-29 17:15:23 公開日:2021-03-26
# (参考訳) 教師なしマルチインデックス意味ハッシュ [全文訳有]

Unsupervised Multi-Index Semantic Hashing ( http://arxiv.org/abs/2103.14460v1 )

ライセンス: CC BY 4.0
Christian Hansen, Casper Hansen, Jakob Grue Simonsen, Stephen Alstrup, Christina Lioma(参考訳) セマンティックハッシュは文書をコンパクトなバイナリベクトル(ハッシュ符号)として表現し、大規模情報検索において効率的かつ効果的な類似性探索を可能にする。 最先端技術は、類似性検索の有効性を改善するハッシュコードの学習に重点を置いている一方で、より高速な代替手段が存在するにもかかわらず、すべてのハッシュコードの検索にブルートフォースの線形スキャン戦略を仮定している。 そのような選択肢のひとつがマルチインデックスハッシュである。これはより小さな探索対象セットを構築するアプローチであり、ハッシュコードの分布によってはサブリニアな検索時間に繋がる可能性がある。 本研究では,マルチインデックスハッシュに最適化することで,効率的かつ高効率なハッシュコードを学習する教師なしハッシュモデルであるmulti-index semantic hashing (mish)を提案する。 我々は,マルチインデックスハッシュによって生成される候補集合をエンドツーエンドで訓練可能としながら減少させるハッシュ符号を学習できる新しい学習目標を導出する。 実際、提案したトレーニング対象はモデル非依存であり、すなわち、ハッシュコードがMISHでどのように生成されるかに縛られず、既存のセマンティックハッシュモデルと将来のセマンティックハッシュモデルに含めることができる。 文書類似度検索のタスクにおいて、MISHと最先端のセマンティックハッシュベースラインを実験的に比較する。 マルチインデックスハッシュは線形スキャンに比べてベースラインの効率も向上するが、mishより33%遅いが、mishは最先端の効率を得ることができる。

Semantic hashing represents documents as compact binary vectors (hash codes) and allows both efficient and effective similarity search in large-scale information retrieval. The state of the art has primarily focused on learning hash codes that improve similarity search effectiveness, while assuming a brute-force linear scan strategy for searching over all the hash codes, even though much faster alternatives exist. One such alternative is multi-index hashing, an approach that constructs a smaller candidate set to search over, which depending on the distribution of the hash codes can lead to sub-linear search time. In this work, we propose Multi-Index Semantic Hashing (MISH), an unsupervised hashing model that learns hash codes that are both effective and highly efficient by being optimized for multi-index hashing. We derive novel training objectives, which enable to learn hash codes that reduce the candidate sets produced by multi-index hashing, while being end-to-end trainable. In fact, our proposed training objectives are model agnostic, i.e., not tied to how the hash codes are generated specifically in MISH, and are straight-forward to include in existing and future semantic hashing models. We experimentally compare MISH to state-of-the-art semantic hashing baselines in the task of document similarity search. We find that even though multi-index hashing also improves the efficiency of the baselines compared to a linear scan, they are still upwards of 33% slower than MISH, while MISH is still able to obtain state-of-the-art effectiveness.
翻訳日:2021-03-29 16:56:35 公開日:2021-03-26
# (参考訳) 変圧器の注意重みをゼロショットシーケンスラベラーに変える [全文訳有]

Turning transformer attention weights into zero-shot sequence labelers ( http://arxiv.org/abs/2103.14465v1 )

ライセンス: CC BY 4.0
Kamil Bujel, Helen Yannakoudakis, Marek Rei(参考訳) 異なる粒度でタスク間の帰納的バイアスを捉え、ゼロショットで推論を行うために、トランスフォーマティブベースのモデルをどのように再設計できるかを実証する。 具体的には,文レベルのトランスフォーマーをトークンレベルで効果的なシーケンスラベラーに変更する方法を,直接の監督なしに示す。 トークンレベルのラベルを生成するために提案されている多種多様な手法と比較し,現在の技術を大きく進歩させるシンプルかつ効果的な注意層を提案する。

We demonstrate how transformer-based models can be redesigned in order to capture inductive biases across tasks on different granularities and perform inference in a zero-shot manner. Specifically, we show how sentence-level transformers can be modified into effective sequence labelers at the token level without any direct supervision. We compare against a range of diverse and previously proposed methods for generating token-level labels, and present a simple yet effective modified attention layer that significantly advances the current state of the art.
翻訳日:2021-03-29 16:38:34 公開日:2021-03-26
# (参考訳) オンライン知識蒸留による強力な学生モデルの蒸留 [全文訳有]

Distilling a Powerful Student Model via Online Knowledge Distillation ( http://arxiv.org/abs/2103.14473v1 )

ライセンス: CC BY 4.0
Shaojie Li, Mingbao Lin, Yan Wang, Feiyue Huang, Yongjian Wu, Yonghong Tian, Ling Shao, Rongrong Ji(参考訳) 既存のオンライン知識蒸留のアプローチでは、生徒が最高のパフォーマンスを持つか、より総合的なパフォーマンスを得るためにアンサンブルモデルを構築している。 しかし、前者の戦略は他の生徒の情報を無視し、後者は計算複雑性を増大させる。 本稿では,上記の課題を解決するために,特徴融合と自己蒸留という2つの重要な要素からなるオンライン知識蒸留手法ffsdを提案する。 全ての学生が平等に扱われる以前の作品とは異なり、提案されたFFSDは学生のリーダーと共通の学生セットに分割する。 そして、特徴融合モジュールは、すべての一般学生の特徴マップを融合した特徴マップに変換する。 融合表現は、学生リーダーの学習を支援するために使用される。 学生指導者がより多様な情報を吸収できるように,学生間の多様性を高めるための強化戦略を設計する。 さらに、より深い層のフィーチャーマップをより浅いものに変換するために、自己蒸留モジュールが採用されている。 そして、より浅い層は、より深い層の変換された特徴マップを模倣するよう奨励され、学生がより一般化するのに役立ちます。 学習後、私たちは、ストレージや推論コストを増大させることなく、一般学生よりも優れたパフォーマンスを達成する学生リーダーを採用する。 CIFAR-100とImageNetの大規模な実験は、既存の作業よりもFFSDの方が優れていることを示している。 コードはhttps://github.com/S JLeo/FFSDで入手できる。

Existing online knowledge distillation approaches either adopt the student with the best performance or construct an ensemble model for better holistic performance. However, the former strategy ignores other students' information, while the latter increases the computational complexity. In this paper, we propose a novel method for online knowledge distillation, termed FFSD, which comprises two key components: Feature Fusion and Self-Distillation, towards solving the above problems in a unified framework. Different from previous works, where all students are treated equally, the proposed FFSD splits them into a student leader and a common student set. Then, the feature fusion module converts the concatenation of feature maps from all common students into a fused feature map. The fused representation is used to assist the learning of the student leader. To enable the student leader to absorb more diverse information, we design an enhancement strategy to increase the diversity among students. Besides, a self-distillation module is adopted to convert the feature map of deeper layers into a shallower one. Then, the shallower layers are encouraged to mimic the transformed feature maps of the deeper layers, which helps the students to generalize better. After training, we simply adopt the student leader, which achieves superior performance, over the common students, without increasing the storage or inference cost. Extensive experiments on CIFAR-100 and ImageNet demonstrate the superiority of our FFSD over existing works. The code is available at https://github.com/S JLeo/FFSD.
翻訳日:2021-03-29 16:30:39 公開日:2021-03-26
# (参考訳) RCT:エッジAIのためのリソース制約付きトレーニング [全文訳有]

RCT: Resource Constrained Training for Edge AI ( http://arxiv.org/abs/2103.14493v1 )

ライセンス: CC BY 4.0
Tian Huang, Tao Luo, Ming Yan, Joey Tianyi Zhou, Rick Goh(参考訳) エッジ端末上でのニューラルネットワークトレーニングは、進化する環境に適応する必要があるエッジAIコンピューティングに不可欠である。 量子モデルはエッジデバイス上で効率的に動作するが、これらのモデルのための既存のトレーニング方法は、メモリとエネルギーの予算が豊富な強力なサーバ上で実行されるように設計されている。 例えば、量子化対応トレーニング(QAT)法では、モデルパラメータのコピーが2つ含まれており、通常はエッジデバイスにおけるオンチップメモリの容量を超える。 オフチップとオンチップメモリ間のデータ移動もエネルギーを必要とする。 リソースの要求は強力なサーバには自明だが、エッジデバイスには不可欠だ。 これらの問題を緩和するため,資源制約訓練(Resource Constrained Training, RRT)を提案する。 RCTはトレーニングを通してのみ量子化されたモデルを保持するため、トレーニング中のモデルパラメータのメモリ要求が減少する。 モデルが低い精度で効果的に学習できるとき、エネルギーを節約するために層ごとのビット幅を動的に調整する。 画像アプリケーションと自然言語処理における代表モデルとタスクを用いて実験を行う。 実験により、RDTは一般行列乗算(GEMM)の86%以上のエネルギーを節約し、モデルパラメータの66%以上のメモリを節約し、精度の低下が制限された。 QAT法と比較して、RCTは移動モデルパラメータのエネルギーの約半分を節約する。

Neural networks training on edge terminals is essential for edge AI computing, which needs to be adaptive to evolving environment. Quantised models can efficiently run on edge devices, but existing training methods for these compact models are designed to run on powerful servers with abundant memory and energy budget. For example, quantisation-aware training (QAT) method involves two copies of model parameters, which is usually beyond the capacity of on-chip memory in edge devices. Data movement between off-chip and on-chip memory is energy demanding as well. The resource requirements are trivial for powerful servers, but critical for edge devices. To mitigate these issues, We propose Resource Constrained Training (RCT). RCT only keeps a quantised model throughout the training, so that the memory requirements for model parameters in training is reduced. It adjusts per-layer bitwidth dynamically in order to save energy when a model can learn effectively with lower precision. We carry out experiments with representative models and tasks in image application and natural language processing. Experiments show that RCT saves more than 86\% energy for General Matrix Multiply (GEMM) and saves more than 46\% memory for model parameters, with limited accuracy loss. Comparing with QAT-based method, RCT saves about half of energy on moving model parameters.
翻訳日:2021-03-29 16:16:04 公開日:2021-03-26
# (参考訳) 音声合成のための連続話者適応 [全文訳有]

Continual Speaker Adaptation for Text-to-Speech Synthesis ( http://arxiv.org/abs/2103.14512v1 )

ライセンス: CC BY 4.0
Hamed Hemati, Damian Borth(参考訳) マルチスピーカーのText-to-Speech(TTS)モデルをスクラッチからトレーニングするには計算コストがかかり、データセットに新しい話者を追加するには、モデルを再トレーニングする必要がある。 新しい話者のためのモデルの逐次的微調整のナイーブな解決策は、モデルが古い話者のパフォーマンスを低下させる可能性がある。 この現象は破滅的な忘れ物として知られている。 本稿では,従来の話者を忘れずに新しい話者を追加することを目標とする連続学習の観点から,TSモデリングを考察する。 そこで本研究では,まず実験的なセットアップを提案し,新たな話者の連続的微調整により,先行話者が忘れ去られることを示す。 次に,経験リプレイと重み規則化という2つの連続学習手法を用いて,新しい話者の逐次学習における音声合成多様性の劣化の影響を軽減できることを示す。 最後に、極端な設定で結果を改善するための簡単な拡張を示す。

Training a multi-speaker Text-to-Speech (TTS) model from scratch is computationally expensive and adding new speakers to the dataset requires the model to be re-trained. The naive solution of sequential fine-tuning of a model for new speakers can cause the model to have poor performance on older speakers. This phenomenon is known as catastrophic forgetting. In this paper, we look at TTS modeling from a continual learning perspective where the goal is to add new speakers without forgetting previous speakers. Therefore, we first propose an experimental setup and show that serial fine-tuning for new speakers can result in the forgetting of the previous speakers. Then we exploit two well-known techniques for continual learning namely experience replay and weight regularization and we reveal how one can mitigate the effect of degradation in speech synthesis diversity in sequential training of new speakers using these methods. Finally, we present a simple extension to improve the results in extreme setups.
翻訳日:2021-03-29 15:57:13 公開日:2021-03-26
# (参考訳) ビデオ質問応答における対話の秘宝について [全文訳有]

On the hidden treasure of dialog in video question answering ( http://arxiv.org/abs/2103.14517v1 )

ライセンス: CC BY-SA 4.0
Deniz Engin, Yannis Avrithis, Ngoc Q. K. Duong, Fran\c{c}ois Schnitzler(参考訳) 生データから映画やテレビ番組などの映像における物語の高レベルな理解は極めて困難である。 現代のビデオ質問応答(videoqa)システムは、プロット合成、スクリプト、ビデオ記述、知識ベースなどの人為的な情報源をしばしば使用する。 本研究では,このような外部ソースを使わずに物語全体を理解するための新しいアプローチを提案する。 ダイアログの秘密はダイアログにある: これまでの作業とは異なり、ダイアログをノイズの多いソースとして扱い、ダイアログの要約を通じてテキスト記述に変換する。 それぞれのモダリティの入力は変換器によって独立に符号化され、単純な融合法は全てのモダリティを結合し、ソフトな時間的注意を用いて長い入力の局所化を行う。 我々のモデルは、疑問固有の人的アノテーションや人為的なプロット要約を用いることなく、大きなマージンでKnowIT VQAデータセット上の技術状況より優れている。 エピソード全体を見たことがない人間の評価者よりも優れています。

High-level understanding of stories in video such as movies and TV shows from raw data is extremely challenging. Modern video question answering (VideoQA) systems often use additional human-made sources like plot synopses, scripts, video descriptions or knowledge bases. In this work, we present a new approach to understand the whole story without such external sources. The secret lies in the dialog: unlike any prior work, we treat dialog as a noisy source to be converted into text description via dialog summarization, much like recent methods treat video. The input of each modality is encoded by transformers independently, and a simple fusion method combines all modalities, using soft temporal attention for localization over long inputs. Our model outperforms the state of the art on the KnowIT VQA dataset by a large margin, without using question-specific human annotation or human-made plot summaries. It even outperforms human evaluators who have never watched any whole episode before.
翻訳日:2021-03-29 15:46:26 公開日:2021-03-26
# (参考訳) マルチスケールアーキテクチャと自己教師型ファインチューニングによる3Dポイントクラウド登録 [全文訳有]

3D Point Cloud Registration with Multi-Scale Architecture and Self-supervised Fine-tuning ( http://arxiv.org/abs/2103.14533v1 )

ライセンス: CC BY-SA 4.0
Sofiane Horache and Jean-Emmanuel Deschaud and Fran\c{c}ois Goulette(参考訳) 高速なマルチスケール深層ニューラルネットワークMS-SVConvは,2つのシーン間で3D登録を行うために,ポイントクラウドから特徴を出力する。 我々は、異なるスケールのポイントクラウド上の3Dスパースボクセル畳み込みネットワークを用いて特徴を計算し、それから完全に接続された層を通して機能を融合する。 教師付き学習では,3DMatchベンチマークの最先端手法と比較して,有意な改善が見られた。 また、非常に高速な計算により、異なるソースおよびターゲットデータセットによるより良い一般化を実現しています。 最後に,MS-SVConvを未知のデータセットに自己教師付きで微調整し,ETHおよびTUMデータセットの最先端結果をもたらす戦略を提案する。

We present MS-SVConv, a fast multi-scale deep neural network that outputs features from point clouds for 3D registration between two scenes. We compute features using a 3D sparse voxel convolutional network on a point cloud at different scales and then fuse the features through fully-connected layers. With supervised learning, we show significant improvements compared to state-of-the-art methods on the competitive and well-known 3DMatch benchmark. We also achieve a better generalization through different source and target datasets, with very fast computation. Finally, we present a strategy to fine-tune MS-SVConv on unknown datasets in a self-supervised way, which leads to state-of-the-art results on ETH and TUM datasets.
翻訳日:2021-03-29 15:23:36 公開日:2021-03-26
# (参考訳) 一般配置問題に対する深層教師なし学習:無線ネットワークにおけるユーザ連想の事例研究 [全文訳有]

Deep Unsupervised Learning for Generalized Assignment Problems: A Case-Study of User-Association in Wireless Networks ( http://arxiv.org/abs/2103.14548v1 )

ライセンス: CC BY 4.0
Arjun Kaushik, Mehrazin Alizadeh, Omer Waqar, and Hina Tabassum(参考訳) 無線通信分野には、一般化代入問題(GAP)として定式化できるリソース割り当て問題が多く存在する。 GAPは線形和代入問題(LSAP)の一般的な形式であり、等式制約と不等式制約の両方が存在するため、より解決が難しい。 本稿では,GAPを時間効率で解くための新しい深層教師なし学習(DUL)手法を提案する。 具体的には、カスタマイズされた損失関数を用いてディープニューラルネットワーク(DNN)のトレーニングを容易にする新しいアプローチを提案する。 このカスタマイズされた損失関数は、等式制約と不等式制約の両方に対応する目的関数とペナルティ項を構成する。 さらに,dnnの出力におけるソフトマックス活性化関数と,カスタマイズされた損失関数を単純化し,等式制約を満たすことを保証したテンソル分割を用いることを提案する。 ケーススタディとして,無線ネットワークにおける一般的なユーザ連想問題を検討し,それをギャップとして定式化し,提案手法を用いて解決する。 数値実験の結果,提案手法は最適に近い結果をもたらし,時間・複雑さが著しく低下することが示された。

There exists many resource allocation problems in the field of wireless communications which can be formulated as the generalized assignment problems (GAP). GAP is a generic form of linear sum assignment problem (LSAP) and is more challenging to solve owing to the presence of both equality and inequality constraints. We propose a novel deep unsupervised learning (DUL) approach to solve GAP in a time-efficient manner. More specifically, we propose a new approach that facilitates to train a deep neural network (DNN) using a customized loss function. This customized loss function constitutes the objective function and penalty terms corresponding to both equality and inequality constraints. Furthermore, we propose to employ a Softmax activation function at the output of DNN along with tensor splitting which simplifies the customized loss function and guarantees to meet the equality constraint. As a case-study, we consider a typical user-association problem in a wireless network, formulate it as GAP, and consequently solve it using our proposed DUL approach. Numerical results demonstrate that the proposed DUL approach provides near-optimal results with significantly lower time-complexity.
翻訳日:2021-03-29 15:04:06 公開日:2021-03-26
# (参考訳) 絶滅危惧言語からの未転写音声へのアクセスを容易にする神経表現の活用 [全文訳有]

Leveraging neural representations for facilitating access to untranscribed speech from endangered languages ( http://arxiv.org/abs/2103.14583v1 )

ライセンス: CC BY 4.0
Nay San, Martijn Bartelds, Mitchell Browne, Lily Clifford, Fiona Gibson, John Mansfield, David Nash, Jane Simpson, Myfany Turpin, Maria Vollmer, Sasha Wilmoth, Dan Jurafsky(参考訳) 音声認識システムの訓練に資源が不足している言語に対して、QbE-STD (QbE-STD) は、音声クエリ項が発生する地域を特定することで、転写されていない音声コーパスにアクセスする方法を提供する。 しかし、クエリとコーパスが異なる話者によって話され、異なる記録条件で生成される場合、検索性能は低下する可能性がある。 オーストラリア・アボリジニ言語7言語とオランダの諸言語から選択された様々な話者と記録条件を用いて,事前学習した英語wav2vec 2.0モデルから抽出した表現を活用して,これらの言語上でのQbE-STDの性能を向上できるかを評価する。 メル周波数ケプストラム係数やボトルネック特性と比較して,wav2vec 2.0変換器の中間層からの表現はタスク性能(56%から86%)を大きく向上させることがわかった。 事前学習された英語モデルを用いて抽出された特徴は、すべての評価言語における検出を改善したが、より優れた検出性能は、評価言語の英語と音韻学的類似性と関連づけられた。

For languages with insufficient resources to train speech recognition systems, query-by-example spoken term detection (QbE-STD) offers a way of accessing an untranscribed speech corpus by helping identify regions where spoken query terms occur. Yet retrieval performance can be poor when the query and corpus are spoken by different speakers and produced in different recording conditions. Using data selected from a variety of speakers and recording conditions from 7 Australian Aboriginal languages and a regional variety of Dutch, all of which are endangered or vulnerable, we evaluated whether QbE-STD performance on these languages could be improved by leveraging representations extracted from the pre-trained English wav2vec 2.0 model. Compared to the use of Mel-frequency cepstral coefficients and bottleneck features, we find that representations from the middle layers of the wav2vec 2.0 Transformer offer large gains in task performance (between 56% and 86%). While features extracted using the pre-trained English model yielded improved detection on all the evaluation languages, better detection performance was associated with the evaluation language's phonological similarity to English.
翻訳日:2021-03-29 14:52:25 公開日:2021-03-26
# (参考訳) 画像分類のための変圧器のロバスト性理解 [全文訳有]

Understanding Robustness of Transformers for Image Classification ( http://arxiv.org/abs/2103.14586v1 )

ライセンス: CC BY 4.0
Srinadh Bhojanapalli, Ayan Chakrabarti, Daniel Glasner, Daliang Li, Thomas Unterthiner, Andreas Veit(参考訳) 深層畳み込みニューラルネットワーク(deep convolutional neural networks, cnns)は、コンピュータビジョンタスクのアーキテクチャである。 近年、Vision Transformer (ViT)のようなTransformerベースのアーキテクチャは、画像分類のためにResNetsと一致または超えている。 しかし、Transformerアーキテクチャの詳細(オーバーラップしないパッチの使用など)は、これらのネットワークがこれほど堅牢かどうか疑問を呈している。 本稿では,ViTモデルのロバスト性に関する様々な尺度について広範な研究を行い,その結果をResNetベースラインと比較する。 入力摂動に対するロバスト性およびモデル摂動に対するロバスト性について検討する。 十分な量のデータで事前トレーニングされた場合、ViTモデルは少なくともResNetが広範囲の摂動に匹敵するロバストであることがわかった。 また, トランスフォーマは, ほとんどすべての単層除去に頑健であり, 後層からの活性化は相互に高い相関性を持つが, 分類において重要な役割を担っていることがわかった。

Deep Convolutional Neural Networks (CNNs) have long been the architecture of choice for computer vision tasks. Recently, Transformer-based architectures like Vision Transformer (ViT) have matched or even surpassed ResNets for image classification. However, details of the Transformer architecture -- such as the use of non-overlapping patches -- lead one to wonder whether these networks are as robust. In this paper, we perform an extensive study of a variety of different measures of robustness of ViT models and compare the findings to ResNet baselines. We investigate robustness to input perturbations as well as robustness to model perturbations. We find that when pre-trained with a sufficient amount of data, ViT models are at least as robust as the ResNet counterparts on a broad range of perturbations. We also find that Transformers are robust to the removal of almost any single layer, and that while activations from later layers are highly correlated with each other, they nevertheless play an important role in classification.
翻訳日:2021-03-29 14:39:30 公開日:2021-03-26
# (参考訳) 画像復元のためのより良い損失関数の訓練 [全文訳有]

Training a Better Loss Function for Image Restoration ( http://arxiv.org/abs/2103.14616v1 )

ライセンス: CC BY 4.0
Aamir Mustafa, Aliaksei Mikhailiuk, Dan Andrei Iliescu, Varun Babbar and Rafal K. Mantiuk(参考訳) 単一画像のスーパーレゾリューションのような画像復元問題におけるニューラルネットワークの応用の中心は、自然および知覚的に結果を奨励する損失関数の選択である。 損失関数の一般的な選択は、VGGやLPIPSのような訓練済みのネットワークであり、復元された画像と参照画像の違いを計算するための特徴抽出器として使用される。 しかし、そのようなアプローチには複数の欠点があり、計算コストが高く、正規化とハイパーパラメータチューニングが必要であり、無関係なタスクでトレーニングされた大きなネットワークを含んでいる。 本研究では,画像復元作業においてよい損失関数を得られるかという課題について考察する。 まず,1つの自然な画像が単一画像の超解像,デノイング,JPEGアーティファクト除去において,最先端の損失関数より優れた特徴抽出器を訓練するのに十分であることを示す。 本稿では,ジェネレータが導入したエラーをペナルライズするために訓練された,一連の識別器からなる新しいMDF(Multi-Scale Discriminative Feature)の損失を提案する。 第2に, 有効損失関数は, 知覚画像品質の良好な予測因子である必要はなく, 所定の復元法における歪みの同定に特化する必要があることを示す。

Central to the application of neural networks in image restoration problems, such as single image super resolution, is the choice of a loss function that encourages natural and perceptually pleasing results. A popular choice for a loss function is a pre-trained network, such as VGG and LPIPS, which is used as a feature extractor for computing the difference between restored and reference images. However, such an approach has multiple drawbacks: it is computationally expensive, requires regularization and hyper-parameter tuning, and involves a large network trained on an unrelated task. In this work, we explore the question of what makes a good loss function for an image restoration task. First, we observe that a single natural image is sufficient to train a lightweight feature extractor that outperforms state-of-the-art loss functions in single image super resolution, denoising, and JPEG artefact removal. We propose a novel Multi-Scale Discriminative Feature (MDF) loss comprising a series of discriminators, trained to penalize errors introduced by a generator. Second, we show that an effective loss function does not have to be a good predictor of perceived image quality, but instead needs to be specialized in identifying the distortions for a given restoration method.
翻訳日:2021-03-29 14:09:47 公開日:2021-03-26
# (参考訳) 多ラベルテキスト分類のためのヘテロジニアスグラフニューラルネットワーク [全文訳有]

Heterogeneous Graph Neural Networks for Multi-label Text Classification ( http://arxiv.org/abs/2103.14620v1 )

ライセンス: CC0 1.0
Irene Li, Tianxiao Li, Yixin Li, Ruihai Dong, and Toyotaro Suzumura(参考訳) マルチラベルテキスト分類(MLTC)は自然言語処理(NLP)において魅力的な課題である。 シングルラベルのテキスト分類と比較すると、MLTCは実際には幅広い応用がある。 本稿では,ヘテロジニアスグラフのノードとしてトークンやラベルをモデル化し,mltc問題を解決するためのヘテロジニアスグラフ畳み込みネットワークモデルを提案する。 このようにして、トークンレベルの関係を含む複数の関係を考慮できるのです。 さらに、トークンラベルのエッジが露出するにつれて、モデルによる説明性も向上する。 提案手法を実世界の3つのデータセットで評価し, 実験結果から, 大幅な改善を実現し, 最先端比較法を上回る性能を示した。

Multi-label text classification (MLTC) is an attractive and challenging task in natural language processing (NLP). Compared with single-label text classification, MLTC has a wider range of applications in practice. In this paper, we propose a heterogeneous graph convolutional network model to solve the MLTC problem by modeling tokens and labels as nodes in a heterogeneous graph. In this way, we are able to take into account multiple relationships including token-level relationships. Besides, the model allows a good explainability as the token-label edges are exposed. We evaluate our method on three real-world datasets and the experimental results show that it achieves significant improvements and outperforms state-of-the-art comparison methods.
翻訳日:2021-03-29 13:52:57 公開日:2021-03-26
# (参考訳) ディジタル双対革命に向けたハイブリッド解析とモデリング、エクレクティシズム、多忠実コンピューティング

Hybrid analysis and modeling, eclecticism, and multifidelity computing toward digital twin revolution ( http://arxiv.org/abs/2103.14629v1 )

ライセンス: CC BY 4.0
Omer San, Adil Rasheed, Trond Kvamsdal(参考訳) ほとんどのモデリングアプローチは、物理ベースとデータ駆動の2つのカテゴリに分かれている。 近年,これらの決定論的モデルと統計モデルを組み合わせた第3のアプローチが科学的応用に現れつつある。 To leverage these developments, our aim in this perspective paper is centered around exploring numerous principle concepts to address the challenges of (i) trustworthiness and generalizability in developing data-driven models to shed light on understanding the fundamental trade-offs in their accuracy and efficiency, and (ii) seamless integration of interface learning and multifidelity coupling approaches that transfer and represent information between different entities, particularly when different scales are governed by different physics, each operating on a different level of abstraction. これらの課題に対処することで、科学と工学の応用のためのデジタルツイン技術の革新が可能になる。

Most modeling approaches lie in either of the two categories: physics-based or data-driven. Recently, a third approach which is a combination of these deterministic and statistical models is emerging for scientific applications. To leverage these developments, our aim in this perspective paper is centered around exploring numerous principle concepts to address the challenges of (i) trustworthiness and generalizability in developing data-driven models to shed light on understanding the fundamental trade-offs in their accuracy and efficiency, and (ii) seamless integration of interface learning and multifidelity coupling approaches that transfer and represent information between different entities, particularly when different scales are governed by different physics, each operating on a different level of abstraction. Addressing these challenges could enable the revolution of digital twin technologies for scientific and engineering applications.
翻訳日:2021-03-29 13:40:17 公開日:2021-03-26
# (参考訳) 伝達可能な目標摂動の生成について [全文訳有]

On Generating Transferable Targeted Perturbations ( http://arxiv.org/abs/2103.14641v1 )

ライセンス: CC BY 4.0
Muzammal Naseer, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, and Fatih Porikli(参考訳) 敵の摂動の非目標のブラックボックス転送性は以前にも広く研究されてきたが、未知のモデルの決定を特定の「ターゲット」クラスに変更することは難しい課題である。 本稿では,高移動性目標摂動 (\ours) に対する新しい生成手法を提案する。 既存の手法は、あるモデルから別のモデルに変化するクラス境界情報に依存するため、このタスクには適さないので、転送可能性を減らすことに留意する。 対照的に,本手法は摂動像「分布」と対象クラスの分布とを一致させ,高い目標移動率をもたらす。 そこで本研究では,ソース画像とターゲット画像のグローバル分布を一致させるだけでなく,各領域間の局所的な近傍構造を一致させる目的関数を提案する。 提案する目的に基づき、与えられた入力に特有の摂動を適応的に合成できる生成関数を訓練する。 我々の生成的アプローチは、ソースまたはターゲットのドメインラベルとは独立しているが、幅広い攻撃設定における最先端メソッドに対して一貫してうまく機能する。 例えば、画像Net val 上の(逆弱な) VGG19$_{BN}$ から(強い) WideResNet へのターゲット転送性は 32.63 % である。 これは以前の最良の生成攻撃よりも4$\times$が高く、インスタンス固有の反復攻撃よりも16$\times$が良い。 コードは以下の通りである。 {\small\url{https://github.com/M uzammal-Naseer/TTP}}。

While the untargeted black-box transferability of adversarial perturbations has been extensively studied before, changing an unseen model's decisions to a specific `targeted' class remains a challenging feat. In this paper, we propose a new generative approach for highly transferable targeted perturbations (\ours). We note that the existing methods are less suitable for this task due to their reliance on class-boundary information that changes from one model to another, thus reducing transferability. In contrast, our approach matches the perturbed image `distribution' with that of the target class, leading to high targeted transferability rates. To this end, we propose a new objective function that not only aligns the global distributions of source and target images, but also matches the local neighbourhood structure between the two domains. Based on the proposed objective, we train a generator function that can adaptively synthesize perturbations specific to a given input. Our generative approach is independent of the source or target domain labels, while consistently performs well against state-of-the-art methods on a wide range of attack settings. As an example, we achieve $32.63\%$ target transferability from (an adversarially weak) VGG19$_{BN}$ to (a strong) WideResNet on ImageNet val. set, which is 4$\times$ higher than the previous best generative attack and 16$\times$ better than instance-specific iterative attack. Code is available at: {\small\url{https://github.com/M uzammal-Naseer/TTP}}.
翻訳日:2021-03-29 13:34:31 公開日:2021-03-26
# マルチメディア技術とロバストアルゴリズムに関する調査

A Survey of Multimedia Technologies and Robust Algorithms ( http://arxiv.org/abs/2103.13477v2 )

ライセンス: Link先を確認
Zijian Kuang and Xinran Tie(参考訳) マルチメディア技術は現在、現実の世界でより実用的でデプロイ可能であり、アルゴリズムはディープラーニング、信号処理、触覚、コンピュータビジョン、ロボティクス、医療マルチメディア処理といった様々な研究領域で広く使われている。 本調査は,マルチメディアデータ処理,医療マルチメディア処理,顔表情追跡とポーズ認識,教育と教育におけるマルチメディアにおけるマルチメディア技術と頑健なアルゴリズムの概要を提供する。 この調査はまた、現在のロバストアルゴリズムとマルチメディア技術の概要に基づいて、今後の研究方向性を分析・提案する。 我々は、将来の研究の着想と出発点であるアルバータ大学のマルチメディア研究センター(mrc)が行った研究とこれまでの研究に感謝したい。

Multimedia technologies are now more practical and deployable in real life, and the algorithms are widely used in various researching areas such as deep learning, signal processing, haptics, computer vision, robotics, and medical multimedia processing. This survey provides an overview of multimedia technologies and robust algorithms in multimedia data processing, medical multimedia processing, human facial expression tracking and pose recognition, and multimedia in education and training. This survey will also analyze and propose a future research direction based on the overview of current robust algorithms and multimedia technologies. We want to thank the research and previous work done by the Multimedia Research Centre (MRC), the University of Alberta, which is the inspiration and starting point for future research.
翻訳日:2021-03-29 13:01:55 公開日:2021-03-26
# Dodrio: インタラクティブな可視化によるトランスフォーマーモデルの探索

Dodrio: Exploring Transformer Models with Interactive Visualization ( http://arxiv.org/abs/2103.14625v1 )

ライセンス: Link先を確認
Zijie J. Wang, Robert Turko, Duen Horng Chau(参考訳) なぜ大きなトレーニング済みトランスフォーマーベースのモデルが、さまざまなNLPタスクでうまく機能するのか? 近年の研究では、言語情報を学習し表現する多頭部注意機構の能力が鍵となる可能性が示唆されている。 これらのモデルがどのように構文的および意味的知識を表現しているかを理解することは、成功と失敗の理由、彼らが学んだこと、どのように改善できるかを調べるのに不可欠である。 我々は,NLP研究者や実践者が言語知識を持つトランスフォーマーモデルにおける注意機構の分析を支援する,オープンソースのインタラクティブ可視化ツールであるDodrioを紹介する。 Dodrioは、異なるアテンションヘッドの役割を要約する概要と、入力テキストの構文構造とセマンティック情報との注意重みの比較を支援する詳細なビューを密に統合する。 注意重みと言語知識の視覚的比較を容易にするために、dodrioはより長い入力テキストで注意重みを表すために異なるグラフ視覚化技術を適用する。 ケーススタディでは、dodrioがトランスフォーマーベースのモデルの注意のメカニズムを理解するための洞察を提供する。 dodrioはhttps://poloclub.git hub.io/dodrio/で入手できる。

Why do large pre-trained transformer-based models perform so well across a wide variety of NLP tasks? Recent research suggests the key may lie in multi-headed attention mechanism's ability to learn and represent linguistic information. Understanding how these models represent both syntactic and semantic knowledge is vital to investigate why they succeed and fail, what they have learned, and how they can improve. We present Dodrio, an open-source interactive visualization tool to help NLP researchers and practitioners analyze attention mechanisms in transformer-based models with linguistic knowledge. Dodrio tightly integrates an overview that summarizes the roles of different attention heads, and detailed views that help users compare attention weights with the syntactic structure and semantic information in the input text. To facilitate the visual comparison of attention weights and linguistic knowledge, Dodrio applies different graph visualization techniques to represent attention weights with longer input text. Case studies highlight how Dodrio provides insights into understanding the attention mechanism in transformer-based models. Dodrio is available at https://poloclub.git hub.io/dodrio/.
翻訳日:2021-03-29 13:01:43 公開日:2021-03-26
# 衝突回避のための混雑認識多エージェント軌道予測

Congestion-aware Multi-agent Trajectory Prediction for Collision Avoidance ( http://arxiv.org/abs/2103.14231v1 )

ライセンス: Link先を確認
Xu Xie, Chi Zhang, Yixin Zhu, Ying Nian Wu, Song-Chun Zhu(参考訳) エージェントの将来の軌道予測は、現代のAIシステムにおいて重要な役割を果たすが、特に衝突回避に関して、マルチエージェントシステムで現れる複雑な相互作用のために困難である。 To address this challenge, we propose to learn congestion patterns as contextual cues explicitly and devise a novel "Sense--Learn--Reason --Predict" framework by exploiting advantages of three different doctrines of thought, which yields the following desirable benefits: (i) Representing congestion as contextual cues via latent factors subsumes the concept of social force commonly used in physics-based approaches and implicitly encodes the distance as a cost, similar to the way a planning-based method models the environment. 2) 学習段階を2段階に分解することで, 「学生」は, 「教師」から文脈的手がかりを学習し, 衝突のない軌道を生成できる。 この枠組みを計算可能なものにするために, 最適化問題として定式化し, 変分パラメトリゼーションを利用した上界を導出する。 実験では, 衝突回避評価のために設計された合成データセットにおいて, NGSIM US-101ハイウェイデータセット上で, 衝突のない軌道予測が可能であることを示す。

Predicting agents' future trajectories plays a crucial role in modern AI systems, yet it is challenging due to intricate interactions exhibited in multi-agent systems, especially when it comes to collision avoidance. To address this challenge, we propose to learn congestion patterns as contextual cues explicitly and devise a novel "Sense--Learn--Reason --Predict" framework by exploiting advantages of three different doctrines of thought, which yields the following desirable benefits: (i) Representing congestion as contextual cues via latent factors subsumes the concept of social force commonly used in physics-based approaches and implicitly encodes the distance as a cost, similar to the way a planning-based method models the environment. (ii) By decomposing the learning phases into two stages, a "student" can learn contextual cues from a "teacher" while generating collision-free trajectories. To make the framework computationally tractable, we formulate it as an optimization problem and derive an upper bound by leveraging the variational parametrization. In experiments, we demonstrate that the proposed model is able to generate collision-free trajectory predictions in a synthetic dataset designed for collision avoidance evaluation and remains competitive on the commonly used NGSIM US-101 highway dataset.
翻訳日:2021-03-29 13:01:26 公開日:2021-03-26
# OmniHang: 接触点対応とニューラルコリジョン推定を用いた任意物体のハング学習

OmniHang: Learning to Hang Arbitrary Objects using Contact Point Correspondences and Neural Collision Estimation ( http://arxiv.org/abs/2103.14283v1 )

ライセンス: Link先を確認
Yifan You, Lin Shao, Toki Migimatsu, Jeannette Bohg(参考訳) 本稿では,ロボットがラックやフックなどの様々な支持アイテムに任意の物体をぶら下げることを学ぶことができるかを検討する。 このような能力を持つロボットの育成は、国内サービス、物流、製造など多くの分野で応用されている。 しかし、幾何学の多様さと日常の物体のトポロジーのため、これは困難な操作課題である。 本稿では,対象物と支援対象物の部分点雲を入力として入力し,対象物が安定して吊るされる場所と方法を決定するシステムを提案する。 本システムは,対象物と支援物との接触点対応を推定し,安定なポーズを推定する。 次に、予測された安定ポーズを洗練させるために、深い強化学習アルゴリズムを実行する。 そしてロボットは、物体を最初のポーズから安定したハングポーズに移動する、衝突のない経路を見つける必要がある。 この目的のために,対象と支援項目の入力部分点雲として取り込むニューラルネットワークベースの衝突推定器を訓練する。 我々は,様々な支援項目に吊るされたオブジェクトの安定なポーズと,それらの接触点対応を付加した,新しい,大規模で大規模な合成データセットを生成する。 本データセットでは,安定な物体のポーズの予測において68.3%の成功率を達成でき,52.1%のF1スコアが得られることを示す。 補助材料とビデオはプロジェクトのWebページで公開されている。

In this paper, we explore whether a robot can learn to hang arbitrary objects onto a diverse set of supporting items such as racks or hooks. Endowing robots with such an ability has applications in many domains such as domestic services, logistics, or manufacturing. Yet, it is a challenging manipulation task due to the large diversity of geometry and topology of everyday objects. In this paper, we propose a system that takes partial point clouds of an object and a supporting item as input and learns to decide where and how to hang the object stably. Our system learns to estimate the contact point correspondences between the object and supporting item to get an estimated stable pose. We then run a deep reinforcement learning algorithm to refine the predicted stable pose. Then, the robot needs to find a collision-free path to move the object from its initial pose to stable hanging pose. To this end, we train a neural network based collision estimator that takes as input partial point clouds of the object and supporting item. We generate a new and challenging, large-scale, synthetic dataset annotated with stable poses of objects hung on various supporting items and their contact point correspondences. In this dataset, we show that our system is able to achieve a 68.3% success rate of predicting stable object poses and has a 52.1% F1 score in terms of finding feasible paths. Supplemental material and videos are available on our project webpage.
翻訳日:2021-03-29 13:01:06 公開日:2021-03-26
# 確率的推論と実行による抽象空間時間推論

Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and Execution ( http://arxiv.org/abs/2103.14230v1 )

ライセンス: Link先を確認
Chi Zhang, Baoxiong Jia, Song-Chun Zhu, Yixin Zhu(参考訳) 空間的時間的推論(空間的時間的推論)は人工知能(AI)における課題であり、空間的時間的知識を念頭において表現し推論する理論的要件と、空間的・時間的に行動することのできる高レベルの認知システムに適用する理論的要件である。 近年、raven's progressive matrices (rpm) という抽象的推論タスクに焦点が当てられている。 人間のレベルパフォーマンスを精度で達成するRPMの進歩にもかかわらず、現代のアプローチでは、一般化に対する人間的な推論の扱いや、答えを生み出す可能性はない。 このギャップを埋めるために,神経共生的確率的アクダクション・実行(PrAE)学習者を提案する。PrAE学習者の中心は,物体の精神的操作に類似した確率的アクダクションと実行のプロセスである。 具体的には、モノリシックモデルから知覚と推論を遠ざけます。 ニューラル視覚のフロントエンドは、後にシーン推論エンジンによって集約されたオブジェクトの属性を予測し、確率的なシーン表現を生成する。 シンボリック論理推論バックエンドでは、PrAE学習者は、その表現を使って隠れたルールを推論する。 確率的表現のルールを実行して回答を予測する。 システム全体は、ビジュアル属性アノテーションなしで、分析的にエンドツーエンドに訓練されている。 広範な実験により、prae学習者は、候補からカテゴリ選択をするだけの先行研究とは対照的に、クロスコンフィグレーションの一般化を改善し、回答をレンダリングできることが示されている。

Spatial-temporal reasoning is a challenging task in Artificial Intelligence (AI) due to its demanding but unique nature: a theoretic requirement on representing and reasoning based on spatial-temporal knowledge in mind, and an applied requirement on a high-level cognitive system capable of navigating and acting in space and time. Recent works have focused on an abstract reasoning task of this kind -- Raven's Progressive Matrices (RPM). Despite the encouraging progress on RPM that achieves human-level performance in terms of accuracy, modern approaches have neither a treatment of human-like reasoning on generalization, nor a potential to generate answers. To fill in this gap, we propose a neuro-symbolic Probabilistic Abduction and Execution (PrAE) learner; central to the PrAE learner is the process of probabilistic abduction and execution on a probabilistic scene representation, akin to the mental manipulation of objects. Specifically, we disentangle perception and reasoning from a monolithic model. The neural visual perception frontend predicts objects' attributes, later aggregated by a scene inference engine to produce a probabilistic scene representation. In the symbolic logical reasoning backend, the PrAE learner uses the representation to abduce the hidden rules. An answer is predicted by executing the rules on the probabilistic representation. The entire system is trained end-to-end in an analysis-by-synthesi s manner without any visual attribute annotations. Extensive experiments demonstrate that the PrAE learner improves cross-configuration generalization and is capable of rendering an answer, in contrast to prior works that merely make a categorical choice from candidates.
翻訳日:2021-03-29 13:00:25 公開日:2021-03-26
# ACRE: 共変以外の抽象因果推論

ACRE: Abstract Causal REasoning Beyond Covariation ( http://arxiv.org/abs/2103.14232v1 )

ライセンス: Link先を確認
Chi Zhang, Baoxiong Jia, Mark Edmonds, Song-Chun Zhu, Yixin Zhu(参考訳) 因果誘導(英: Causal induction)、すなわち変数間の観測不可能な関係につながる観測不可能なメカニズムを特定することは、現代の科学的発見において重要な役割を担っている。 人間は、若い幼児でさえ、その悪名高い困難にもかかわらず、様々な環境で驚くほど因果関係を誘導することができる。 しかし、人間の認識の共通する特性とは対照的に、現代の人工知能(AI)システムの因果誘導を測定するための診断ベンチマークが欠如している。 そこで本研究では、因果誘導における現在の視覚システムの体系的評価のための抽象因果推論(ACRE)データセットについて紹介する。 Blicket実験における因果発見の研究の流れに触発され、独立シナリオまたは介入シナリオ(直接、間接、スクリーニングオフ、後方ブロック)において、視覚的推論システムに以下の4種類の質問をクエリし、共変による因果関係を誘導する単純な戦略を意図的に超越する。 このテストベッド上で視覚的推論アーキテクチャを解析することにより、純粋なニューラルモデルが確率レベルのパフォーマンスの下で連想戦略に向かう傾向にあるのに対して、ニューロシンボリックな組み合わせは後方ブロック推論に苦しむことに気づく。 これらの欠陥は、因果誘導のより包括的な能力を持つモデルにおける将来の研究を呼び起こす。

Causal induction, i.e., identifying unobservable mechanisms that lead to the observable relations among variables, has played a pivotal role in modern scientific discovery, especially in scenarios with only sparse and limited data. Humans, even young toddlers, can induce causal relationships surprisingly well in various settings despite its notorious difficulty. However, in contrast to the commonplace trait of human cognition is the lack of a diagnostic benchmark to measure causal induction for modern Artificial Intelligence (AI) systems. Therefore, in this work, we introduce the Abstract Causal REasoning (ACRE) dataset for systematic evaluation of current vision systems in causal induction. Motivated by the stream of research on causal discovery in Blicket experiments, we query a visual reasoning system with the following four types of questions in either an independent scenario or an interventional scenario: direct, indirect, screening-off, and backward-blocking, intentionally going beyond the simple strategy of inducing causal relationships by covariation. By analyzing visual reasoning architectures on this testbed, we notice that pure neural models tend towards an associative strategy under their chance-level performance, whereas neuro-symbolic combinations struggle in backward-blocking reasoning. These deficiencies call for future research in models with a more comprehensive capability of causal induction.
翻訳日:2021-03-29 12:59:59 公開日:2021-03-26
# MedSelect:メタラーニングと深層強化学習を組み合わせた医用画像分類のための選択的ラベリング

MedSelect: Selective Labeling for Medical Image Classification Combining Meta-Learning with Deep Reinforcement Learning ( http://arxiv.org/abs/2103.14339v1 )

ライセンス: Link先を確認
Akshay Smit, Damir Vrabac, Yujie He, Andrew Y. Ng, Andrew L. Beam, Pranav Rajpurkar(参考訳) 本稿では,メタラーニングと深層強化学習を用いて,限られたラベル付け資源の設定における医用画像解釈のための選択学習手法を提案する。 MedSelectは、コントラッシブ事前学習から得られた画像埋め込みを用いてラベル付けする画像を決定する訓練可能なディープラーニングセレクタと、コサイン類似性を用いて未確認画像の分類を行う非パラメトリックセレクタから構成される。 また,胸部x線検査において,既往および未発見の医療状況のベースライン選択戦略よりも効果的な選択戦略をmedselectが学習できることを実証した。 また, 潜在埋め込みと臨床特徴の分布をmedselectが比較した選択結果の分析を行い, 最高性能のベースラインと比較して有意な差を見出した。 本手法は,ラベル取得に費用がかかる医用画像設定において広く適用可能であると考えられる。

We propose a selective learning method using meta-learning and deep reinforcement learning for medical image interpretation in the setting of limited labeling resources. Our method, MedSelect, consists of a trainable deep learning selector that uses image embeddings obtained from contrastive pretraining for determining which images to label, and a non-parametric selector that uses cosine similarity to classify unseen images. We demonstrate that MedSelect learns an effective selection strategy outperforming baseline selection strategies across seen and unseen medical conditions for chest X-ray interpretation. We also perform an analysis of the selections performed by MedSelect comparing the distribution of latent embeddings and clinical features, and find significant differences compared to the strongest performing baseline. We believe that our method may be broadly applicable across medical imaging settings where labels are expensive to acquire.
翻訳日:2021-03-29 12:59:37 公開日:2021-03-26
# SegVisRL:カメラ画像を用いた危険回避用ルナーローバーの開発

SegVisRL: Visuomotor Development for a Lunar Rover for Hazard Avoidance using Camera Images ( http://arxiv.org/abs/2103.14422v1 )

ライセンス: Link先を確認
Tamir Blum, Gabin Paillet, Watcharawut Masawat, Mickael Laine and Kazuya Yoshida(参考訳) 動物では生体運動系が生存に不可欠であり、ヒト内で複雑な動物が発達することは、地球上の種としての成功の大きな要因である。 このシステムは私たちの環境に適応する能力の重要な部分です。 私たちはこのシステムを一日中使い続け、何かを拾ったり、物にぶつからないように歩き回ったりしています。 このような能力を備えたロボットは、よりインテリジェントなロコモーションを生み出し、周囲の状況をより容易に理解し、安全に移動できるようにする。 特に、このような能力は、岩のような危険な障害物に満ちているため、月面を横断するのに望ましい。 これらの障害をリアルタイムで特定し、回避する必要がある。 本稿では,危険度を表す複雑な岩形物体を用いて,ナビゲーションと障害物回避のためのロボット内でのビジュモータシステムの開発を実証する。 我々のアプローチは画像データのみを用いた深層強化学習を用いる。 本稿では,いくつかのニューラルネットワークアーキテクチャの結果と,分割画像の生成とダウンサンプリングを含む事前処理手法を比較する。

The visuomotor system of any animal is critical for its survival, and the development of a complex one within humans is large factor in our success as a species on Earth. This system is an essential part of our ability to adapt to our environment. We use this system continuously throughout the day, when picking something up, or walking around while avoiding bumping into objects. Equipping robots with such capabilities will help produce more intelligent locomotion with the ability to more easily understand their surroundings and to move safely. In particular, such capabilities are desirable for traversing the lunar surface, as it is full of hazardous obstacles, such as rocks. These obstacles need to be identified and avoided in real time. This paper seeks to demonstrate the development of a visuomotor system within a robot for navigation and obstacle avoidance, with complex rock shaped objects representing hazards. Our approach uses deep reinforcement learning with only image data. In this paper, we compare the results from several neural network architectures and a preprocessing methodology which includes producing a segmented image and downsampling.
翻訳日:2021-03-29 12:59:12 公開日:2021-03-26
# 知識埋め込み以外の接続を組み込む:機械読解における常識推論を強化するプラグ・アンド・プレイモジュール

Incorporating Connections Beyond Knowledge Embeddings: A Plug-and-Play Module to Enhance Commonsense Reasoning in Machine Reading Comprehension ( http://arxiv.org/abs/2103.14443v1 )

ライセンス: Link先を確認
Damai Dai, Hua Zheng, Zhifang Sui, Baobao Chang(参考訳) 従来型機械読解理解(MRC)はパターンマッチングによって十分に適応されてきたが、常識推論の能力は人間と機械のギャップを保っている。 事前学習した知識グラフ埋め込み (KGE) を通じて単語表現を豊かにすることで, この問題に対処する。 しかし、彼らはナレッジグラフ(kg)のノード間の多数の接続を限定的に使用しており、コモンセンス推論チェーンを構築する上で重要な手がかりとなる可能性がある。 本稿では,CommonsEnse Reasoning (PIECER) のためのIncorporatE Connection情報に対するPlug-and-playモジュールを提案する。 知識埋め込みで単語表現を豊かにするだけでなく、splitrは、単語間の知識指向接続による常識推論を明示的にガイドする共同クエリパスグラフを構築している。 さらに、PIECER は任意の MRC モデルにおいて適切な位置に差し込むことができるため、高い一般化性を有する。 大規模公開RCデータセットReCoRDの実験結果から,PIECERは4つの代表的MCCモデル,特に低リソース環境において,安定した性能向上を実現していることがわかった。

Conventional Machine Reading Comprehension (MRC) has been well-addressed by pattern matching, but the ability of commonsense reasoning remains a gap between humans and machines. Previous methods tackle this problem by enriching word representations via pre-trained Knowledge Graph Embeddings (KGE). However, they make limited use of a large number of connections between nodes in Knowledge Graphs (KG), which could be pivotal cues to build the commonsense reasoning chains. In this paper, we propose a Plug-and-play module to IncorporatE Connection information for commonsEnse Reasoning (PIECER). Beyond enriching word representations with knowledge embeddings, PIECER constructs a joint query-passage graph to explicitly guide commonsense reasoning by the knowledge-oriented connections between words. Further, PIECER has high generalizability since it can be plugged into suitable positions in any MRC model. Experimental results on ReCoRD, a large-scale public MRC dataset requiring commonsense reasoning, show that PIECER introduces stable performance improvements for four representative base MRC models, especially in low-resource settings.
翻訳日:2021-03-29 12:58:55 公開日:2021-03-26
# 自然言語処理におけるデータ拡張:長短テキスト分類のための新しいテキスト生成手法

Data Augmentation in Natural Language Processing: A Novel Text Generation Approach for Long and Short Text Classifiers ( http://arxiv.org/abs/2103.14453v1 )

ライセンス: Link先を確認
Markus Bayer, Marc-Andr\'e Kaufhold, Bj\"orn Buchhold, Marcel Keller, J\"org Dallmeyer and Christian Reuter(参考訳) 機械学習の多くのケースにおいて、学習データの開発は、分類器自体の選択やモデリングよりも高い関連性があることが研究によって示唆されている。 そこで,学習データを人工的に生成することで分類器を改善するためにデータ拡張手法を開発した。 NLPでは、新しい言語パターンを提供するテキスト変換の普遍的なルールを確立することが課題である。 本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。 テキスト生成手法の強化により,短いテキストタスクと長いテキストタスクの評価において,有望な改善を実現した。 シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。 これらの構築された体制の現在の軌道は普遍的に適用できないため、いくつかの実世界の低データタスク(+4.84 F1スコアまで)において大きな改善が示される。 提案手法を多くの観点から評価しているので,本手法が適切でない状況も観察する。 異なるタイプのデータセットにアプローチをうまく適用するための意味とパターンについて論じる。

In many cases of machine learning, research suggests that the development of training data might have a higher relevance than the choice and modelling of classifiers themselves. Thus, data augmentation methods have been developed to improve classifiers by artificially created training data. In NLP, there is the challenge of establishing universal rules for text transformations which provide new linguistic patterns. In this paper, we present and evaluate a text generation method suitable to increase the performance of classifiers for long and short texts. We achieved promising improvements when evaluating short as well as long text tasks with the enhancement by our text generation method. In a simulated low data regime additive accuracy gains of up to 15.53% are achieved. As the current track of these constructed regimes is not universally applicable, we also show major improvements in several real world low data tasks (up to +4.84 F1 score). Since we are evaluating the method from many perspectives, we also observe situations where the method might not be suitable. We discuss implications and patterns for the successful application of our approach on different types of datasets.
翻訳日:2021-03-29 12:58:34 公開日:2021-03-26
# 蒸留物検知器のハンズオン指導

Hands-on Guidance for Distilling Object Detectors ( http://arxiv.org/abs/2103.14337v1 )

ライセンス: Link先を確認
Yangyang Qin, Hefei Ling, Zhenghai He, Yuxuan Shi, Lei Wu(参考訳) 知識蒸留は、計算複雑性の問題に対するデプロイフレンドリなネットワークをもたらす可能性があるが、従来の手法では検出器の機能階層を無視している。 そこで本研究では,蒸留の一般的な枠組みを提案する。 本手法は, より包括的指導を施すため, 全ステージ特徴の潜伏した知識を蒸留し, より強烈な知識吸収を促進するために, 同時にその本質に焦点を当てる。 具体的には、一貫性のための対応確立、手動模倣損失測定、マイクロおよびマクロの観点からの再重み付け最適化など、一連の新しいメカニズムを精巧に設計する。 我々は,VOCおよびCOCOデータセットに対して異なる蒸留構成で広範囲な評価を行い,精度および速度トレードオフにおける優れた性能を示す。 一方,異なる構造ネットワークにおける実現可能性実験により,hgdのロバスト性がさらに証明された。

Knowledge distillation can lead to deploy-friendly networks against the plagued computational complexity problem, but previous methods neglect the feature hierarchy in detectors. Motivated by this, we propose a general framework for detection distillation. Our method, called Hands-on Guidance Distillation, distills the latent knowledge of all stage features for imposing more comprehensive supervision, and focuses on the essence simultaneously for promoting more intense knowledge absorption. Specifically, a series of novel mechanisms are designed elaborately, including correspondence establishment for consistency, hands-on imitation loss measure and re-weighted optimization from both micro and macro perspectives. We conduct extensive evaluations with different distillation configurations over VOC and COCO datasets, which show better performance on accuracy and speed trade-offs. Meanwhile, feasibility experiments on different structural networks further prove the robustness of our HGD.
翻訳日:2021-03-29 12:58:17 公開日:2021-03-26
# メッセージパッシングによるグラフニューラルネットワーク探索の再考

Rethinking Graph Neural Network Search from Message-passing ( http://arxiv.org/abs/2103.14282v1 )

ライセンス: Link先を確認
Shaofei Cai, Liang Li, Jincan Deng, Beichen Zhang, Zheng-Jun Zha, Li Su and Qingming Huang(参考訳) グラフニューラルネットワーク(GNN)は、グラフのデータから学習するための標準ツールキットとして最近登場した。 現在のGNNの設計作業は、異なるメッセージパッシングメカニズムを探索するための膨大な人間の専門知識に依存しており、適切なメッセージパッシング深さを決定するために手動の列挙が必要である。 CNNにおけるニューラルアーキテクチャ探索(NAS)の強力な探索能力に着想を得て,新しい検索空間を持つグラフニューラルアーキテクチャ探索(GNAS)を提案する。 GNASは、グラフ上のメッセージパッシングの最適な深さで、より優れたアーキテクチャを学習することができる。 具体的には,グラフニューラルネットワークパラダイム(gap)をツリートポロジ計算手順と,メッセージパッシング機構から2種類の細粒度原子演算(特徴フィルタリングと隣接アグリゲーション)を用いて設計し,強力なグラフネットワーク探索空間を構築する。 特徴フィルタリングは適応的な特徴選択を行い、隣接集約は構造情報をキャプチャし、隣人の統計を計算する。 実験により、GNASは複数のメッセージパッシング機構と最適なメッセージパッシング深さを持つより優れたGNNを検索できることがわかった。 検索されたネットワークは、3つの古典的なグラフタスクで5つの大規模データセットに対して、最先端の手動設計および検索に基づくGNNよりも顕著に改善されている。 コードはhttps://github.com/p hython96/GNAS-MPで見ることができる。

Graph neural networks (GNNs) emerged recently as a standard toolkit for learning from data on graphs. Current GNN designing works depend on immense human expertise to explore different message-passing mechanisms, and require manual enumeration to determine the proper message-passing depth. Inspired by the strong searching capability of neural architecture search (NAS) in CNN, this paper proposes Graph Neural Architecture Search (GNAS) with novel-designed search space. The GNAS can automatically learn better architecture with the optimal depth of message passing on the graph. Specifically, we design Graph Neural Architecture Paradigm (GAP) with tree-topology computation procedure and two types of fine-grained atomic operations (feature filtering and neighbor aggregation) from message-passing mechanism to construct powerful graph network search space. Feature filtering performs adaptive feature selection, and neighbor aggregation captures structural information and calculates neighbors' statistics. Experiments show that our GNAS can search for better GNNs with multiple message-passing mechanisms and optimal message-passing depth. The searched network achieves remarkable improvement over state-of-the-art manual designed and search-based GNNs on five large-scale datasets at three classical graph tasks. Codes can be found at https://github.com/p hython96/GNAS-MP.
翻訳日:2021-03-29 12:57:02 公開日:2021-03-26
# ポイントワイズ相対論的LastSquare GANを用いたGANベースニューラルヴォコーダの改良

Improve GAN-based Neural Vocoder using Pointwise Relativistic LeastSquare GAN ( http://arxiv.org/abs/2103.14245v1 )

ライセンス: Link先を確認
Congyi Wang, Yu Chen, Bin Wang, Yi Shi(参考訳) 近年,Parallel WaveGANやMelGANのようなGANベースのニューラルボコーダは,その軽量かつ並列な構造から大きな関心を集め,高忠実度波形をリアルタイムに生成できるようになっている。 本稿では、相対論的 GAN\cite{jolicoeur2018relativ istic} に着想を得て、波形合成の文脈下でLSGANフレームワークの新たな変種であるPointwise Relativistic LSGAN(PRLSGAN)を紹介する。 提案手法では, トラヒズムスコア分布を考慮し, 元のMSE損失と提案した相対誤差損失とを組み合わせることにより, 判別器を騙すのが難しかったため, 生成品質が向上した。 さらに、PRLSGANは、GANベースのニューラルボコーダと組み合わせて生成品質を向上させる汎用フレームワークである。 実験ではParallel WaveGANとMelGANに基づく一貫した性能向上を示し、提案したPRLSGANニューラルボコーダの有効性と強力な一般化能力を示した。

Recently, GAN-based neural vocoders, such as Parallel WaveGAN and MelGAN have attracted great interest due to their lightweight and parallel structures, enabling them to generate high fidelity waveform in a real-time manner. In this paper, inspired by Relativistic GAN\cite{jolicoeur2018relativ istic}, we introduce a novel variant of the LSGAN framework under the context of waveform synthesis, named Pointwise Relativistic LSGAN (PRLSGAN). In this approach, we take the truism score distribution into consideration and combine the original MSE loss with the proposed pointwise relative discrepancy loss to increase the difficulty of the generator to fool the discriminator, leading to improved generation quality. Moreover, PRLSGAN is a general-purposed framework that can be combined with any GAN-based neural vocoder to enhance its generation quality. Experiments have shown a consistent performance boost based on Parallel WaveGAN and MelGAN, demonstrating the effectiveness and strong generalization ability of our proposed PRLSGAN neural vocoders.
翻訳日:2021-03-29 12:56:39 公開日:2021-03-26
# 関係データ解析のための深い双方向行列再順序付け

Deep Two-way Matrix Reordering for Relational Data Analysis ( http://arxiv.org/abs/2103.14203v1 )

ライセンス: Link先を確認
Chihiro Watanabe, Taiji Suzuki(参考訳) 行列再順序付け(Matrix reordering)は、与えられた行列の行と列をパーミュレートし、結果として得られる行列が意味のある、あるいは解釈可能な構造パターンを示すようにするタスクである。 既存の行列再順序付け手法の多くは、事前に定義された方法で観測された行列から特徴表現を抽出し、それに基づいて行列再順序付けを適用する共通のプロセスを共有している。 しかし、いくつかの実例では、観測された行列が持つ構造パターンについて常に事前の知識を持つとは限らない。 本稿では,ニューラルネットワークモデルを用いた新しい行列再順序付け法であるdeep twoway matrix reordering (deep tmr)を提案する。 トレーニングされたネットワークは、行列の並べ替えに使用できる観測行列から非線形行/カラム特徴を自動的に抽出することができる。 さらに, 提案するdeeptmrは, 与えられた観測行列の平均行列を, トレーニングされたネットワークの出力として提供する。 このような分極平均行列は、順序付けされた観測行列のグローバル構造を可視化するために用いられる。 本稿では,合成データセットと実用データセットの両方に適用することで,DeepTMRの有効性を示す。

Matrix reordering is a task to permute rows and columns of a given observed matrix so that the resulting reordered matrix shows some meaningful or interpretable structural patterns. Most of the existing matrix reordering techniques share a common process of extracting some feature representation from an observed matrix in some pre-defined way, and applying matrix reordering based on it. However, in some practical cases, we would not always have a prior knowledge about the structural pattern that an observed matrix has. In this paper, to address this problem, we propose a new matrix reordering method, Deep Two-way Matrix Reordering (DeepTMR), using a neural network model. The trained network can automatically extract nonlinear row/column features from an observed matrix, which can be used for matrix reordering. Moreover, and proposed DeepTMR provides us with the denoised mean matrix of a given observed matrix as an output of the trained network. Such a denoised mean matrix can be used for visualizing the global structure of the reordered observed matrix. We demonstrate the effectiveness of proposed DeepTMR by applying it to both synthetic and practical data sets.
翻訳日:2021-03-29 12:55:55 公開日:2021-03-26
# active multi-fidelity bayesian online changepoint detection

Active multi-fidelity Bayesian online changepoint detection ( http://arxiv.org/abs/2103.14224v1 )

ライセンス: Link先を確認
Gregory W. Gundersen, Diana Cai, Chuteng Zhou, Barbara E. Engelhardt, Ryan P. Adams(参考訳) 変更点の検出や時系列の動作の急激な変化に対するオンラインアルゴリズムは、携帯電話や産業用センサーなどのエッジコンピューティング設定に限られたリソースで展開されることが多い。 これらのシナリオでは、この測定の質や「忠実さ」に対して環境計測を収集するコストと、測定が変化点推定に与える影響を交換することが有用である。 例えば、慣性測定とGPSで動きの変化点を決定することができる。 変化点検出に対するベイズ的アプローチは、変化点に関する後発の不確実性を表し、後発の不確実性を減らすためにデータ忠実性に関するアクティブでコストに敏感な決定をすることができるため、特に魅力的である。 さらに、データ分散の変化に頑健でありながら、アクティブなフィデリティスイッチングによって総コストを劇的に削減することができる。 本稿では,変化点に対する情報ゲインの最大化に基づいて,どのデータフィデリティを収集すべきかを,コストに敏感に判断するマルチフィデリティ手法を提案する。 合成, ビデオ, 音声データに関するこの枠組みを評価し, この情報に基づくアプローチが, 総コストを削減しつつ正確な予測をもたらすことを示す。

Online algorithms for detecting changepoints, or abrupt shifts in the behavior of a time series, are often deployed with limited resources, e.g., to edge computing settings such as mobile phones or industrial sensors. In these scenarios it may be beneficial to trade the cost of collecting an environmental measurement against the quality or "fidelity" of this measurement and how the measurement affects changepoint estimation. For instance, one might decide between inertial measurements or GPS to determine changepoints for motion. A Bayesian approach to changepoint detection is particularly appealing because we can represent our posterior uncertainty about changepoints and make active, cost-sensitive decisions about data fidelity to reduce this posterior uncertainty. Moreover, the total cost could be dramatically lowered through active fidelity switching, while remaining robust to changes in data distribution. We propose a multi-fidelity approach that makes cost-sensitive decisions about which data fidelity to collect based on maximizing information gain with respect to changepoints. We evaluate this framework on synthetic, video, and audio data and show that this information-based approach results in accurate predictions while reducing total cost.
翻訳日:2021-03-29 12:55:36 公開日:2021-03-26
# FRITL: 潜在共同創業者の存在下での因果発見のためのハイブリッド手法

FRITL: A Hybrid Method for Causal Discovery in the Presence of Latent Confounders ( http://arxiv.org/abs/2103.14238v1 )

ライセンス: Link先を確認
Wei Chen, Kun Zhang, Ruichu Cai, Biwei Huang, Joseph Ramsey, Zhifeng Hao, Clark Glymour(参考訳) 特定の種類の線型非ガウス模型を推定する問題を考察する。 過完全独立成分分析 (ica) を使わずに, 軽度な仮定の下では, モデルがハイブリッド手法によって一意に同定されることを示す。 本手法は,制約ベース手法と独立ノイズベース手法の利点を生かして,共起状況と未解決状況の両方を扱う。 この手法の最初のステップは、共同設立者や漸近的に正しい結果を生み出すことができるfci手順を用いる。 残念なことに、結果は通常、未確立の直接的な因果関係をほとんど決定しない。 手順の第2ステップでは,fciの結果によって通知された隣接ペアのみのうち,観測変数間の根拠のない因果縁を見いだした。 いわゆるTriad条件を利用することで、第3のステップは、共同創設者と他の変数との因果関係を見つけることができる。 その後、より小さなグラフ集合にicaを適用し、必要に応じて因果関係を識別します。 シミュレーションデータと実世界データに関する広範な実験により,提案手法の正確性と有効性が検証された。

We consider the problem of estimating a particular type of linear non-Gaussian model. Without resorting to the overcomplete Independent Component Analysis (ICA), we show that under some mild assumptions, the model is uniquely identified by a hybrid method. Our method leverages the advantages of constraint-based methods and independent noise-based methods to handle both confounded and unconfounded situations. The first step of our method uses the FCI procedure, which allows confounders and is able to produce asymptotically correct results. The results, unfortunately, usually determine very few unconfounded direct causal relations, because whenever it is possible to have a confounder, it will indicate it. The second step of our procedure finds the unconfounded causal edges between observed variables among only those adjacent pairs informed by the FCI results. By making use of the so-called Triad condition, the third step is able to find confounders and their causal relations with other variables. Afterward, we apply ICA on a notably smaller set of graphs to identify remaining causal relationships if needed. Extensive experiments on simulated data and real-world data validate the correctness and effectiveness of the proposed method.
翻訳日:2021-03-29 12:55:15 公開日:2021-03-26
# UMAPは負サンプリングによる高次元類似性を再現しない

UMAP does not reproduce high-dimensional similarities due to negative sampling ( http://arxiv.org/abs/2103.14608v1 )

ライセンス: Link先を確認
Sebastian Damrich and Fred A. Hamprecht(参考訳) UMAPは、多くの分野において高次元データセットを視覚化するための最先端技術としてt-SNEに取って代わったが、その成功の理由はよく理解されていない。 本研究では,UMAPのサンプリングに基づく最適化手法について詳細に検討する。 我々は、UMAPの有効損失関数を閉形式で導出し、それが公表されたものと異なることを見出す。 その結果, UMAP は理論上動機付けられた高次元 UMAP の類似性を再現することを目的としていないことがわかった。 代わりに、共有k近傍グラフのみをエンコードする類似性を再現しようとするため、以前のumapの有効性の理解に挑戦する。 代わりに、UMAPの成功の鍵は、負のサンプリングによって生じるアトラクションと反発の暗黙のバランスであると主張する。 このバランスは勾配降下による最適化を促進する。 玩具および単細胞RNAシークエンシングデータに関する理論的知見を裏付ける。

UMAP has supplanted t-SNE as state-of-the-art for visualizing high-dimensional datasets in many disciplines, while the reason for its success is not well understood. In this work, we investigate UMAP's sampling based optimization scheme in detail. We derive UMAP's effective loss function in closed form and find that it differs from the published one. As a consequence, we show that UMAP does not aim to reproduce its theoretically motivated high-dimensional UMAP similarities. Instead, it tries to reproduce similarities that only encode the shared k nearest neighbor graph, thereby challenging the previous understanding of UMAP's effectiveness. Instead, we claim that the key to UMAP's success is its implicit balancing of attraction and repulsion resulting from negative sampling. This balancing in turn facilitates optimization via gradient descent. We corroborate our theoretical findings on toy and single cell RNA sequencing data.
翻訳日:2021-03-29 12:54:57 公開日:2021-03-26
# 信頼できないニューラルネットワークの信頼性説明の構築:モデル解釈の局所的平滑化

Building Reliable Explanations of Unreliable Neural Networks: Locally Smoothing Perspective of Model Interpretation ( http://arxiv.org/abs/2103.14332v1 )

ライセンス: Link先を確認
Dohun Lim, Hyeonseok Lee and Sungchan Kim(参考訳) 本稿では,ニューラルネットワークの予測を確実に説明するための新しい手法を提案する。 入力と隣接データポイントを考慮し,モデル出力に関連する入力特徴を識別した場合に信頼性の高い説明を考える。 本手法はモデル予測の損失関数(局所的一貫した損失と勾配プロファイル)における滑らかな景観の仮定に基づいて構築される。 本研究で確立された理論的解析により,局所的に滑らかなモデル説明は,l1正規化を用いた入力のノイズコピーのバッチを用いて学習されることが示唆された。 大規模な実験により解析結果が裏付けられ、提案した唾液マップは、自然と敵対的に訓練されたモデルの両方に対して作られた元の逆例のクラスを検索し、従来の手法よりも大幅に優れていることが明らかになった。 さらに,本手法の学習能力から得られた,入力と隣接するデータポイントのモデル出力に真に関係する入力特徴を同定し,信頼性のある説明の要求を満たすための優れた性能結果を示す。

We present a novel method for reliably explaining the predictions of neural networks. We consider an explanation reliable if it identifies input features relevant to the model output by considering the input and the neighboring data points. Our method is built on top of the assumption of smooth landscape in a loss function of the model prediction: locally consistent loss and gradient profile. A theoretical analysis established in this study suggests that those locally smooth model explanations are learned using a batch of noisy copies of the input with the L1 regularization for a saliency map. Extensive experiments support the analysis results, revealing that the proposed saliency maps retrieve the original classes of adversarial examples crafted against both naturally and adversarially trained models, significantly outperforming previous methods. We further demonstrated that such good performance results from the learning capability of this method to identify input features that are truly relevant to the model output of the input and the neighboring data points, fulfilling the requirements of a reliable explanation.
翻訳日:2021-03-29 12:54:42 公開日:2021-03-26
# ステレオマッチングのための幾何アウェア非教師なし領域適応

Geometry-Aware Unsupervised Domain Adaptation for Stereo Matching ( http://arxiv.org/abs/2103.14333v1 )

ライセンス: Link先を確認
Hiroki Sakuma and Yoshinori Konishi(参考訳) 近年,データから直接先行情報を学習するDNNベースのステレオマッチング手法が,新しい環境において大幅に精度が低下していることが知られている。 地上の真理不一致マップによる教師付きアプローチはよく機能するが、各デプロイメント環境でそれらを収集するのは煩雑でコストがかかる。 このため、画像から画像への変換に基づく教師なしドメイン適応手法が多数提案されているが、画像から画像への変換は各ビューに別々に適用されるため、ステレオ画像ペアの幾何学的構造は保存されない。 本稿では,この問題を解決するために,左右の視点に特徴を集約する注意機構であるステレオクロス・アテンション(sca)を提案する。 画像対変換ネットワークにSCAを組み込むことにより、画像対変換の過程でステレオ画像対の幾何学的構造を保存することができる。 SCAを用いた画像から画像への変換に基づく教師なし領域適応の有効性を実証的に実証した。

Recently proposed DNN-based stereo matching methods that learn priors directly from data are known to suffer a drastic drop in accuracy in new environments. Although supervised approaches with ground truth disparity maps often work well, collecting them in each deployment environment is cumbersome and costly. For this reason, many unsupervised domain adaptation methods based on image-to-image translation have been proposed, but these methods do not preserve the geometric structure of a stereo image pair because the image-to-image translation is applied to each view separately. To address this problem, in this paper, we propose an attention mechanism that aggregates features in the left and right views, called Stereoscopic Cross Attention (SCA). Incorporating SCA to an image-to-image translation network makes it possible to preserve the geometric structure of a stereo image pair in the process of the image-to-image translation. We empirically demonstrate the effectiveness of the proposed unsupervised domain adaptation based on the image-to-image translation with SCA.
翻訳日:2021-03-29 12:54:25 公開日:2021-03-26
# マルチタスクグラフにおける反復的合意シフトによる教師なし領域適応

Unsupervised Domain Adaptation through Iterative Consensus Shift in a Multi-Task Graph ( http://arxiv.org/abs/2103.14417v1 )

ライセンス: Link先を確認
Emanuela Haller, Elena Burceanu, Marius Leordeanu(参考訳) 赤ちゃんは周囲の世界を観察することでほとんど監督なしで学ぶ。 すべての感覚からのフィードバックを同期させ、内部状態間の一貫性と安定性を維持することを学ぶ。 このような観察は、マルチタスクとマルチモーダル学習の最近の研究に影響を与えたが、既存の手法は高価な手動の監督に依存している。 対照的に,コンセンサスシフト学習を用いたマルチタスクグラフは,専門家モデルによる擬似ラベルのみに依存している。 グラフでは、すべてのノードがタスクを表し、すべてのエッジがひとつの入力ノードを別のノードに変換することを学習します。 一度初期化されると、グラフは事実上あらゆる新しいターゲットドメインで自身で学習する。 適応選択機構は、与えられたノードに到達する複数のパス間でコンセンサスを見つけ、そのノードで擬似基底真理を確立する。 このような擬似ラベルは、グラフ内のアンサンブル経路によって与えられるもので、単一エッジがこの分散知識を蒸留する次の学習イテレーションで使用される。 我々は,Replicaデータセットの重要コントリビューションを実験的に検証し,最小限の監督を伴うマルチタスク学習法よりも優れた性能を示す。

Babies learn with very little supervision by observing the surrounding world. They synchronize the feedback from all their senses and learn to maintain consistency and stability among their internal states. Such observations inspired recent works in multi-task and multi-modal learning, but existing methods rely on expensive manual supervision. In contrast, our proposed multi-task graph, with consensus shift learning, relies only on pseudo-labels provided by expert models. In our graph, every node represents a task, and every edge learns to transform one input node into another. Once initialized, the graph learns by itself on virtually any novel target domain. An adaptive selection mechanism finds consensus among multiple paths reaching a given node and establishes the pseudo-ground truth at that node. Such pseudo-labels, given by ensemble pathways in the graph, are used during the next learning iteration when single edges distill this distributed knowledge. We validate our key contributions experimentally and demonstrate strong performance on the Replica dataset, superior to the very few published methods on multi-task learning with minimal supervision.
翻訳日:2021-03-29 12:54:06 公開日:2021-03-26
# 学習によるモデルベース再構築:教師なしから監督外へ

Model-based Reconstruction with Learning: From Unsupervised to Supervised and Beyond ( http://arxiv.org/abs/2103.14528v1 )

ライセンス: Link先を確認
Zhishen Huang and Siqi Ye and Michael T. McCann and Saiprasad Ravishankar(参考訳) 医用画像の高画質化を目的とした画像再構成技術が多数提案されている。 モデルに基づく再構成法は特に人気があり(磁気共鳴イメージングやトモグラフィーのモダリティなど)、計測、ノイズ、しばしば比較的単純な物体の先行や正規化器の統計モデルとともに画像システムの物理モデルを利用する。 例えば、圧縮センシングなどの限られたデータからの画像再構成には、疎度や低ランクベースの正規化器が広く用いられている。 近年,画像再構成のための学習ベースのアプローチが注目され,バイオメディカルイメージングの応用が期待されている。 これらの手法には、合成辞書学習、スペーシング変換学習、複雑なニューラルネットワークを含む様々な形式のディープラーニングが含まれる。 古典的モデルに基づく再構築手法を簡潔に議論し,モデルに基づくパラダイムと学習に基づくパラダイムの交点における再構築方法を詳細に検討した。 このレビューには、教師なし学習と教師なし学習に基づく最近の多くの方法と、複数の学習モデルを組み合わせるためのフレームワークが含まれている。

Many techniques have been proposed for image reconstruction in medical imaging that aim to recover high-quality images especially from limited or corrupted measurements. Model-based reconstruction methods have been particularly popular (e.g., in magnetic resonance imaging and tomographic modalities) and exploit models of the imaging system's physics together with statistical models of measurements, noise and often relatively simple object priors or regularizers. For example, sparsity or low-rankness based regularizers have been widely used for image reconstruction from limited data such as in compressed sensing. Learning-based approaches for image reconstruction have garnered much attention in recent years and have shown promise across biomedical imaging applications. These methods include synthesis dictionary learning, sparsifying transform learning, and different forms of deep learning involving complex neural networks. We briefly discuss classical model-based reconstruction methods and then review reconstruction methods at the intersection of model-based and learning-based paradigms in detail. This review includes many recent methods based on unsupervised learning, and supervised learning, as well as a framework to combine multiple types of learned models together.
翻訳日:2021-03-29 12:53:48 公開日:2021-03-26
# ピクセル埋め込みによるインスタンス分割のためのスパースオブジェクトレベルスーパービジョン

Sparse Object-level Supervision for Instance Segmentation with Pixel Embeddings ( http://arxiv.org/abs/2103.14572v1 )

ライセンス: Link先を確認
Adrian Wolny, Qin Yu, Constantin Pape, Anna Kreshuk(参考訳) ほとんどの最先端のインスタンスセグメンテーションメソッドは、密に注釈されたイメージでトレーニングする必要がある。 一般的には難しいが、この要件は特に、アノテーションにドメインの専門知識がしばしば必要となるバイオメディカルなイメージに苦しめられている。 本研究では,非空間埋め込みに基づく提案不要なセグメンテーション手法を導入し,学習された埋め込み空間の構造を利用して個々のインスタンスを異なる方法で抽出する手法を提案する。 次に、セグメント化損失をインスタンスに直接適用し、スクラッチから、あるいは半教師ありの移行学習環境で、少数のオブジェクトだけが注釈付けされた地上の真実画像に基づいて、全体的なメソッドをトレーニングすることができる。 セグメンテーション損失に加えて,トレーニングデータのラベルなし部分に対して,自己教師付き一貫性損失を適用可能にする。 提案手法は,従来のCVPPPインスタンスセグメンテーションベンチマークと同様に,顕微鏡モードの違いによる2次元および3次元のセグメンテーション問題に挑戦するものである。 コードはhttps://github.com/k reshuklab/spocoで入手できる。

Most state-of-the-art instance segmentation methods have to be trained on densely annotated images. While difficult in general, this requirement is especially daunting for biomedical images, where domain expertise is often required for annotation. We propose to address the dense annotation bottleneck by introducing a proposal-free segmentation approach based on non-spatial embeddings, which exploits the structure of the learned embedding space to extract individual instances in a differentiable way. The segmentation loss can then be applied directly on the instances and the overall method can be trained on ground truth images where only a few objects are annotated, from scratch or in a semi-supervised transfer learning setting. In addition to the segmentation loss, our setup allows to apply self-supervised consistency losses on the unlabeled parts of the training data. We evaluate the proposed method on challenging 2D and 3D segmentation problems in different microscopy modalities as well as on the popular CVPPP instance segmentation benchmark where we achieve state-of-the-art results. The code is available at: https://github.com/k reshuklab/spoco
翻訳日:2021-03-29 12:53:27 公開日:2021-03-26
# 線形力学モデルのスイッチングのためのリアクティブおよび予測微分可能コントローラの学習

Learning Reactive and Predictive Differentiable Controllers for Switching Linear Dynamical Models ( http://arxiv.org/abs/2103.14256v1 )

ライセンス: Link先を確認
Saumya Saxena, Alex LaGrassa, Oliver Kroemer(参考訳) 人間は環境とその身体のダイナミクスを活用して、物体を通り過ぎながらつかむことや、壁を外して角を曲がるといった課題を達成する。 このようなタスクは、ロボットが接触をしたり壊したりする際に、動的に切り替える。 これらのダイナミクスを学ぶことは難しい問題であり、特に接触領域の近くで不正確さをモデル化する傾向があります。 本研究では,専門家による実演から複合動的行動を学ぶための枠組みを提案する。 スイッチング条件にエンコードされた接触を持つスイッチング線形力学モデルについて,システムダイナミクスの近似として学習する。 次に、離散時間lqrをデータ効率のよい制御学習のための微分可能なポリシークラスとして使用し、複数の動的モード上で動作し、接触による不連続を考慮した制御戦略を開発する。 環境との相互作用を予測することに加えて,予期しない接触などの不正確な予測にも効果的に反応する。 シミュレーションと実世界実験を通じて,異なるシナリオへの学習行動の一般化と,実行中の不正確性をモデル化するための頑健性を示す。

Humans leverage the dynamics of the environment and their own bodies to accomplish challenging tasks such as grasping an object while walking past it or pushing off a wall to turn a corner. Such tasks often involve switching dynamics as the robot makes and breaks contact. Learning these dynamics is a challenging problem and prone to model inaccuracies, especially near contact regions. In this work, we present a framework for learning composite dynamical behaviors from expert demonstrations. We learn a switching linear dynamical model with contacts encoded in switching conditions as a close approximation of our system dynamics. We then use discrete-time LQR as the differentiable policy class for data-efficient learning of control to develop a control strategy that operates over multiple dynamical modes and takes into account discontinuities due to contact. In addition to predicting interactions with the environment, our policy effectively reacts to inaccurate predictions such as unanticipated contacts. Through simulation and real world experiments, we demonstrate generalization of learned behaviors to different scenarios and robustness to model inaccuracies during execution.
翻訳日:2021-03-29 12:52:52 公開日:2021-03-26
# SKID RAW: 生軌道からのスキル発見

SKID RAW: Skill Discovery from Raw Trajectories ( http://arxiv.org/abs/2103.14610v1 )

ライセンス: Link先を確認
Daniel Tanneberg and Kai Ploeger and Elmar Rueckert and Jan Peters(参考訳) 複雑な日常環境にロボットを統合するには、多くの問題を解決する必要がある。 それらの中で重要な特徴の1つは、ロボットに新しいタスクを簡単かつ自然な方法で教えるメカニズムを提供することだ。 異なるスキルのシーケンスを含むタスクを指導する場合、これらのスキルの順序や数が異なる場合には、個々のスキルではなく、完全なタスク実行を示すことが望ましい。 そこで本研究では,トラジェクタを再帰的なパターンに分割する手法と,ラベルなしのデモンストレーションでこれらのパターンを再構築するスキルを同時に学習する手法を提案する。 さらに、スキルのシーケンスを理解するのに使用できるスキルコンディショニングを学習し、例えば、よりインテリジェントで適応的なロボット行動のための人間とロボットの相互作用に使用できる実用的なメカニズムを学習する。 ベイズ型および変分推論に基づくアプローチは、複雑度と次元の異なる合成および実人間の実演で評価され、ラベルのないデータからセグメンテーションとスキルライブラリの学習が成功したことを示している。

Integrating robots in complex everyday environments requires a multitude of problems to be solved. One crucial feature among those is to equip robots with a mechanism for teaching them a new task in an easy and natural way. When teaching tasks that involve sequences of different skills, with varying order and number of these skills, it is desirable to only demonstrate full task executions instead of all individual skills. For this purpose, we propose a novel approach that simultaneously learns to segment trajectories into reoccurring patterns and the skills to reconstruct these patterns from unlabelled demonstrations without further supervision. Moreover, the approach learns a skill conditioning that can be used to understand possible sequences of skills, a practical mechanism to be used in, for example, human-robot-interact ions for a more intelligent and adaptive robot behaviour. The Bayesian and variational inference based approach is evaluated on synthetic and real human demonstrations with varying complexities and dimensionality, showing the successful learning of segmentations and skill libraries from unlabelled data.
翻訳日:2021-03-29 12:52:38 公開日:2021-03-26
# 確率勾配Descent (SGD) の収束 : 自己完結的証明

The convergence of the Stochastic Gradient Descent (SGD) : a self-contained proof ( http://arxiv.org/abs/2103.14350v1 )

ライセンス: Link先を確認
Gabrel Turinici(参考訳) ここでは、SGD(Stochastic Gradient Descent)の自己完結的な収束の証明を与える。

We give here a proof of the convergence of the Stochastic Gradient Descent (SGD) in a self-contained manner.
翻訳日:2021-03-29 12:52:20 公開日:2021-03-26
# FeatureEnVi: ステップワイズ選択と半自動抽出アプローチを用いた機能エンジニアリングのためのビジュアル分析

FeatureEnVi: Visual Analytics for Feature Engineering Using Stepwise Selection and Semi-Automatic Extraction Approaches ( http://arxiv.org/abs/2103.14539v1 )

ライセンス: Link先を確認
Angelos Chatzimparmpas, Rafael M. Martins, Kostiantyn Kucher, Andreas Kerren(参考訳) 機械学習(ML)のライフサイクルは、複雑な特徴エンジニアリングプロセスを含むデータの効率的な収集と準備から、プレゼンテーションと結果の改善に至るまで、さまざまなステップから選択するアルゴリズムを含む一連の反復的なステップを含む。 特に機能エンジニアリングはMLにとって非常に有益であり、予測結果を向上し、計算時間を短縮し、過度なノイズを低減し、トレーニング中に行われた決定の背後にある透明性を高めるなど、多くの改善をもたらす。 それでも、mlライフサイクル(特にデータとアルゴリズムに関連するもの)の異なるステージを監視および制御するためのビジュアル分析ツールがいくつか存在するが、機能エンジニアリングのサポートは不十分である。 本稿では,機能工学プロセスを支援するために設計された視覚分析システムであるFeatureEnViを提案する。 提案システムは,ユーザが最も重要な機能を選択し,元の機能を強力な代替品に変換し,異なる機能生成の組み合わせを試すのに役立つ。 さらに、データ空間スライシングにより、ユーザーはローカルとグローバルの両方のスケールで機能の影響を調べることができる。 FeatureEnViは複数の自動機能選択技術を使用し、さらに、各機能(または機能のサブセット)の影響に関する統計的証拠を視覚的にユーザに案内する。 最終的な結果は、複数のバリデーションメトリクスによって評価される、高度に設計された機能の抽出である。 FeatureEnViの有用性と適用性は、人気のある赤ワインの品質データセットと、シルエットからの車両認識に関する公開データを用いて、2つのユースケースで実証される。 また,システムの有効性を評価する可視化研究者とML専門家とのインタビューからフィードバックを得た。

The machine learning (ML) life cycle involves a series of iterative steps, from the effective gathering and preparation of the data, including complex feature engineering processes, to the presentation and improvement of results, with various algorithms to choose from in every step. Feature engineering in particular can be very beneficial for ML, leading to numerous improvements such as boosting the predictive results, decreasing computational times, reducing excessive noise, and increasing the transparency behind the decisions taken during the training. Despite that, while several visual analytics tools exist to monitor and control the different stages of the ML life cycle (especially those related to data and algorithms), feature engineering support remains inadequate. In this paper, we present FeatureEnVi, a visual analytics system specifically designed to assist with the feature engineering process. Our proposed system helps users to choose the most important feature, to transform the original features into powerful alternatives, and to experiment with different feature generation combinations. Additionally, data space slicing allows users to explore the impact of features on both local and global scales. FeatureEnVi utilizes multiple automatic feature selection techniques; furthermore, it visually guides users with statistical evidence about the influence of each feature (or subsets of features). The final outcome is the extraction of heavily engineered features, evaluated by multiple validation metrics. The usefulness and applicability of FeatureEnVi are demonstrated with two use cases, using a popular red wine quality data set and publicly available data related to vehicle recognition from their silhouettes. We also report feedback from interviews with ML experts and a visualization researcher who assessed the effectiveness of our system.
翻訳日:2021-03-29 12:52:17 公開日:2021-03-26
# 自然観察による敵攻撃の可逆性

Adversarial Attacks are Reversible with Natural Supervision ( http://arxiv.org/abs/2103.14222v1 )

ライセンス: Link先を確認
Chengzhi Mao, Mia Chiquer, Hao Wang, Junfeng Yang, Carl Vondrick(参考訳) 画像には、多くの敵攻撃の反転を可能にする固有の構造が含まれている。 攻撃ベクトルは、画像分類器が失敗するだけでなく、画像内の偶発的な構造を妨害する。 自然構造を復元するために攻撃された画像を変更すると、多くの種類の攻撃が逆転し、防御効果がもたらされることを示す。 実験では、CIFAR-10、CIFAR-100、SVHN、ImageNetデータセットにわたる最先端モデルのロバスト性を大幅に改善した。 その結果,攻撃者が防御機構を知っていても,我々の防御は有効であることが示された。 私たちの防御はトレーニングではなく推論中に展開されるので、事前訓練されたネットワークと他のほとんどの防御と互換性があります。 この結果から,深層ネットワークは画像の自然な構造を強制しないため,敵対的な例に弱いことが示唆された。

We find that images contain intrinsic structure that enables the reversal of many adversarial attacks. Attack vectors cause not only image classifiers to fail, but also collaterally disrupt incidental structure in the image. We demonstrate that modifying the attacked image to restore the natural structure will reverse many types of attacks, providing a defense. Experiments demonstrate significantly improved robustness for several state-of-the-art models across the CIFAR-10, CIFAR-100, SVHN, and ImageNet datasets. Our results show that our defense is still effective even if the attacker is aware of the defense mechanism. Since our defense is deployed during inference instead of training, it is compatible with pre-trained networks as well as most other defenses. Our results suggest deep networks are vulnerable to adversarial examples partly because their representations do not enforce the natural structure of images.
翻訳日:2021-03-29 12:51:54 公開日:2021-03-26
# u-netによる自動肝分画前処理法の評価

Evaluation of Preprocessing Techniques for U-Net Based Automated Liver Segmentation ( http://arxiv.org/abs/2103.14301v1 )

ライセンス: Link先を確認
Muhammad Islam, Kaleem Nawaz Khan, Muhammad Salman Khan(参考訳) 医用画像から肝臓を抽出することは, 隣り合う臓器との類似の肝臓強度値, コントラストレベル, 医用画像に関連する各種ノイズ, 肝臓の不規則形状などにより, 課題となる。 これらの問題に対処するためには、肝臓分析や定量化に先立って、CT(Computerized tomography)とMRI(MRI)データといった医療画像の事前処理が重要である。 本稿では, 深層学習, U-Netアーキテクチャを用いた自動肝セグメンテーションにおけるCT画像の様々な前処理手法の置換の影響について検討する。 本研究は,hounsfield unit (hu) ウィンドウニング,con contrast limited adaptive histogram equalization (clahe), z-score normalization, median filtering, block-matching, 3d (bm3d) フィルタに着目した。 その結果,hu-windowing,centra lral filter,z-score正規化の3つの手法を組み合わせると,ディス係数96.93%,90.77%,90.84% の最適性能が得られることがわかった。

To extract liver from medical images is a challenging task due to similar intensity values of liver with adjacent organs, various contrast levels, various noise associated with medical images and irregular shape of liver. To address these issues, it is important to preprocess the medical images, i.e., computerized tomography (CT) and magnetic resonance imaging (MRI) data prior to liver analysis and quantification. This paper investigates the impact of permutation of various preprocessing techniques for CT images, on the automated liver segmentation using deep learning, i.e., U-Net architecture. The study focuses on Hounsfield Unit (HU) windowing, contrast limited adaptive histogram equalization (CLAHE), z-score normalization, median filtering and Block-Matching and 3D (BM3D) filtering. The segmented results show that combination of three techniques; HU-windowing, median filtering and z-score normalization achieve optimal performance with Dice coefficient of 96.93%, 90.77% and 90.84% for training, validation and testing respectively.
翻訳日:2021-03-29 12:51:41 公開日:2021-03-26
# マルチモーダル知識の拡張

Multimodal Knowledge Expansion ( http://arxiv.org/abs/2103.14431v1 )

ライセンス: Link先を確認
Zihui Xue, Sucheng Ren, Zhengqi Gao and Hang Zhao(参考訳) マルチモーダルセンサーの人気とインターネットのアクセシビリティにより、大量のラベルなしマルチモーダルデータがもたらされました。 既存のデータセットとよく訓練されたモデルは、主にunimodalであるので、unimodal networkとunlabeled multimodal dataの間のモダリティギャップは、興味深い問題を引き起こす: トレーニング済みのunimodal networkを転送して、unlabeled multimodal dataで同じタスクを実行する方法? 本研究では,ラベルを必要としないマルチモーダルデータを有効に活用するための知識蒸留ベースのフレームワークであるマルチモーダル知識拡張(MKE)を提案する。 従来の知識蒸留に対抗して,学生は教師より軽量で劣るように設計されており,マルチモーダルな学生モデルが常に擬似ラベルを軽視し,教師よりも一般化することが観察された。 4つのタスクと異なるモダリティに関する広範囲な実験がこの発見を検証する。 さらに,MKEのメカニズムを半教師付き学習に結びつけ,マルチモーダル学生の認知能力を理解するための経験的・理論的説明を提供する。

The popularity of multimodal sensors and the accessibility of the Internet have brought us a massive amount of unlabeled multimodal data. Since existing datasets and well-trained models are primarily unimodal, the modality gap between a unimodal network and unlabeled multimodal data poses an interesting problem: how to transfer a pre-trained unimodal network to perform the same task on unlabeled multimodal data? In this work, we propose multimodal knowledge expansion (MKE), a knowledge distillation-based framework to effectively utilize multimodal data without requiring labels. Opposite to traditional knowledge distillation, where the student is designed to be lightweight and inferior to the teacher, we observe that a multimodal student model consistently denoises pseudo labels and generalizes better than its teacher. Extensive experiments on four tasks and different modalities verify this finding. Furthermore, we connect the mechanism of MKE to semi-supervised learning and offer both empirical and theoretical explanations to understand the denoising capability of a multimodal student.
翻訳日:2021-03-29 12:51:18 公開日:2021-03-26
# 深部畳み込みネットワークを用いた肺結節の検出, 増殖定量化, 悪性度予測

Detection, growth quantification and malignancy prediction of pulmonary nodules using deep convolutional networks in follow-up CT scans ( http://arxiv.org/abs/2103.14537v1 )

ライセンス: Link先を確認
Xavier Rafael-Palou (1 and 2), Anton Aubanell (3), Mario Ceresa (2), Vicent Ribas (1), Gemma Piella (2) and Miguel A. Gonz\'alez Ballester (2 and 4) ((1) Eurecat Centre Tecnol\`ogic de Catalunya, eHealth Unit, Barcelona, Spain (2) BCN MedTech, Dept. of Information and Communication Technologies, Universitat Pompeu Fabra, Barcelona, Spain (3) Vall d'Hebron University Hospital, Barcelona, Spain (4) ICREA, Barcelona, Spain)(参考訳) 肺癌の縦断管理における放射線技師支援の課題に対処する。 そこで本研究では,結節の検出からがんの分類まで,結節の成長の検出を通じて完全に自動化された4段階からなる深層学習パイプラインを提案する。 さらに、このパイプラインは、最近の階層的確率的U-Netを用いて不確実性推定を報告した、結節成長検出のための新しいアプローチを統合した。 また, 術前結節悪性腫瘍ネットワークから推定された結節悪性腫瘍の確率を2つのストリーム3d-cnnネットワークに統合し, 肺癌結節分類のための第2の新しい方法を導入した。 パイプラインは縦コホートで評価され、芸術的状況に匹敵する性能を報告した。

We address the problem of supporting radiologists in the longitudinal management of lung cancer. Therefore, we proposed a deep learning pipeline, composed of four stages that completely automatized from the detection of nodules to the classification of cancer, through the detection of growth in the nodules. In addition, the pipeline integrated a novel approach for nodule growth detection, which relied on a recent hierarchical probabilistic U-Net adapted to report uncertainty estimates. Also, a second novel method was introduced for lung cancer nodule classification, integrating into a two stream 3D-CNN network the estimated nodule malignancy probabilities derived from a pretrained nodule malignancy network. The pipeline was evaluated in a longitudinal cohort and reported comparable performances to the state of art.
翻訳日:2021-03-29 12:51:01 公開日:2021-03-26
# 音声アンチスポーフィング一般化予測器としてのデータ品質

Data Quality as Predictor of Voice Anti-Spoofing Generalization ( http://arxiv.org/abs/2103.14602v1 )

ライセンス: Link先を確認
Bhusan Chettri, Rosa Gonz\'alez Hautam\"aki, Md Sahidullah, Tomi Kinnunen(参考訳) ボイス・アンチ・スプーフィング(Voice anti-spoofing)は、与えられた音声入力をボナフィドヒトサンプルまたはスプーフィング攻撃(例)として分類することを目的とする。 合成または再生されたサンプル) 多くの音声アンチスプーフィング手法が提案されているが、そのほとんどが領域(コーポラ)をまたがる一般化に失敗しており、私たちは \emph{why} を知らない。 本稿では,データ品質がアンチスプーフィング性能に与える影響を測る新しい解釈フレームワークについて概説する。 ガウス混合モデルと畳み込みニューラルネットワークモデルに基づく7つのパブリックコーパスと3つのアンチスプーフィング手法から得られたデータの内部およびドメイン間実験を行った。 我々は,長期スペクトル情報,話者集団(xベクトル話者埋め込み),信号対雑音比,選択された音声品質特性の影響を評価する。

Voice anti-spoofing aims at classifying a given speech input either as a bonafide human sample, or a spoofing attack (e.g. synthetic or replayed sample). Numerous voice anti-spoofing methods have been proposed but most of them fail to generalize across domains (corpora) -- and we do not know \emph{why}. We outline a novel interpretative framework for gauging the impact of data quality upon anti-spoofing performance. Our within- and between-domain experiments pool data from seven public corpora and three anti-spoofing methods based on Gaussian mixture and convolutive neural network models. We assess the impacts of long-term spectral information, speaker population (through x-vector speaker embeddings), signal-to-noise ratio, and selected voice quality features.
翻訳日:2021-03-29 12:50:47 公開日:2021-03-26
# Visionary:ロボット学習のための視覚アーキテクチャ発見

Visionary: Vision architecture discovery for robot learning ( http://arxiv.org/abs/2103.14633v1 )

ライセンス: Link先を確認
Iretiayo Akinola, Anelia Angelova, Yao Lu, Yevgen Chebotar, Dmitry Kalashnikov, Jacob Varley, Julian Ibarz, Michael S. Ryoo(参考訳) 低次元動作入力と高次元視覚入力の相互作用を検出するロボット操作学習のための視覚に基づくアーキテクチャ探索アルゴリズムを提案する。 提案手法は,タスクのトレーニング中にアーキテクチャを自動設計する - イメージ特徴表現をアクションと組み合わせ,参加する新たな方法と,以前のレイヤの機能とを組み合わせて発見する。 得られた新しいアーキテクチャは、最近のハイパフォーマンスベースラインに比べて大きなマージンを持つ場合があり、タスクの成功率の向上を示している。 実際のロボット実験では、把持性能が6%向上していることも確認しました。 これは、実際のロボットタスクのニューラルネットワーク検索とアテンション接続検索を成功させる最初のアプローチである。

We propose a vision-based architecture search algorithm for robot manipulation learning, which discovers interactions between low dimension action inputs and high dimensional visual inputs. Our approach automatically designs architectures while training on the task - discovering novel ways of combining and attending image feature representations with actions as well as features from previous layers. The obtained new architectures demonstrate better task success rates, in some cases with a large margin, compared to a recent high performing baseline. Our real robot experiments also confirm that it improves grasping performance by 6%. This is the first approach to demonstrate a successful neural architecture search and attention connectivity search for a real-robot task.
翻訳日:2021-03-29 12:50:33 公開日:2021-03-26
# 二足歩行ロボットのロバストパラメータ化歩行制御のための強化学習

Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots ( http://arxiv.org/abs/2103.14295v1 )

ライセンス: Link先を確認
Zhongyu Li, Xuxin Cheng, Xue Bin Peng, Pieter Abbeel, Sergey Levine, Glen Berseth, Koushil Sreenath(参考訳) 二足歩行ロボットのための頑丈な歩行コントローラーの開発は、難しい取り組みだ。 従来のモデルベースのロコモーションコントローラは仮定を単純化し、慎重にモデリングする必要がある。 2足歩行におけるこれらの課題に対処するために,シミュレーションにおいて頑健な歩行ポリシーをトレーニングするためのモデルフリー強化学習フレームワークを提案する。 sim-to-real転送を容易にするために、ドメインランダム化(domain randomization)は、システムダイナミクスのバリエーションを越えて堅牢な振る舞いを学ぶポリシーを促進するために使用される。 学習されたポリシーにより、cassieは多様な動的動作を実行でき、また、残留制御を使用する従来のコントローラや事前学習ベースのメソッドよりも堅牢である。 本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。

Developing robust walking controllers for bipedal robots is a challenging endeavor. Traditional model-based locomotion controllers require simplifying assumptions and careful modelling; any small errors can result in unstable control. To address these challenges for bipedal locomotion, we present a model-free reinforcement learning framework for training robust locomotion policies in simulation, which can then be transferred to a real bipedal Cassie robot. To facilitate sim-to-real transfer, domain randomization is used to encourage the policies to learn behaviors that are robust across variations in system dynamics. The learned policies enable Cassie to perform a set of diverse and dynamic behaviors, while also being more robust than traditional controllers and prior learning-based methods that use residual control. We demonstrate this on versatile walking behaviors such as tracking a target walking velocity, walking height, and turning yaw.
翻訳日:2021-03-29 12:50:22 公開日:2021-03-26
# elvet --ニューラルネットワークに基づく微分方程式と変分問題解法

Elvet -- a neural network-based differential equation and variational problem solver ( http://arxiv.org/abs/2103.14575v1 )

ライセンス: Link先を確認
Jack Y. Araz, Juan Carlos Criado and Michael Spannwosky(参考訳) 機械学習手法を用いて微分方程式と変分問題を解くためのPythonパッケージElvetを提案する。 エルヴェットは任意の初期条件と境界条件を持つ任意の結合常微分方程式や偏微分方程式を扱うことができる。 制約を課しながら、複数の変数の関数の集合に依存する任意の関数を最小化することもできる。 これらの問題の解決策は、望ましい関数を生成するためにトレーニングされたニューラルネットワークとして表現される。

We present Elvet, a Python package for solving differential equations and variational problems using machine learning methods. Elvet can deal with any system of coupled ordinary or partial differential equations with arbitrary initial and boundary conditions. It can also minimize any functional that depends on a collection of functions of several variables while imposing constraints on them. The solution to any of these problems is represented as a neural network trained to produce the desired function.
翻訳日:2021-03-29 12:50:08 公開日:2021-03-26
# DAGN: 論理推論のための談話対応グラフネットワーク

DAGN: Discourse-Aware Graph Network for Logical Reasoning ( http://arxiv.org/abs/2103.14349v1 )

ライセンス: Link先を確認
Yinya Huang, Meng Fang, Yu Cao, Liwei Wang, Xiaodan Liang(参考訳) 論理的推論問題を持つ最近のQAは、文間の通過レベル関係を必要とする。 しかし、現在のアプローチは、トークン間で相互作用する文レベルの関係に焦点を当てている。 本研究では、談話に基づく情報を用いて論理的推論QAを解くための経路レベルの手がかりを集約する。 本稿では,テキストの談話構造に依存した談話対応グラフネットワーク(DAGN)を提案する。 本モデルは,基本談話単位(EDU)と談話関係を持つグラフとして談話情報を符号化し,下流QAタスクのためのグラフネットワークを介して談話認識特徴を学習する。 論理的推論QAデータセットであるReClorとLogiQAで実験を行い,提案したDAGNが競合する結果を得た。

Recent QA with logical reasoning questions requires passage-level relations among the sentences. However, current approaches still focus on sentence-level relations interacting among tokens. In this work, we explore aggregating passage-level clues for solving logical reasoning QA by using discourse-based information. We propose a discourse-aware graph network (DAGN) that reasons relying on the discourse structure of the texts. The model encodes discourse information as a graph with elementary discourse units (EDUs) and discourse relations, and learns the discourse-aware features via a graph network for downstream QA tasks. Experiments are conducted on two logical reasoning QA datasets, ReClor and LogiQA, and our proposed DAGN achieves competitive results.
翻訳日:2021-03-29 12:50:01 公開日:2021-03-26
# NL-EDIT:自然言語による意味解析誤りの修正

NL-EDIT: Correcting semantic parse errors through natural language interaction ( http://arxiv.org/abs/2103.14540v1 )

ライセンス: Link先を確認
Ahmed Elgohary, Christopher Meek, Matthew Richardson, Adam Fourney, Gonzalo Ramos and Ahmed Hassan Awadallah(参考訳) 本研究では,ユーザが自然言語フィードバックで誤りを訂正する対話型環境における意味解析について検討する。 対話コンテキストにおける自然言語フィードバックを解釈し,最初のパースに適用可能な編集シーケンスを生成するモデルであるnl-editを提案する。 NL-EDITは1ターンの修正で既存のテキスト-SQLパーサの精度を最大20%向上できることを示す。 モデルの限界を分析し,改善と評価の方向性について考察する。 この論文で使用されるコードとデータセットはhttp://aka.ms/NLEdit で公開されている。

We study semantic parsing in an interactive setting in which users correct errors with natural language feedback. We present NL-EDIT, a model for interpreting natural language feedback in the interaction context to generate a sequence of edits that can be applied to the initial parse to correct its errors. We show that NL-EDIT can boost the accuracy of existing text-to-SQL parsers by up to 20% with only one turn of correction. We analyze the limitations of the model and discuss directions for improvement and evaluation. The code and datasets used in this paper are publicly available at http://aka.ms/NLEdit .
翻訳日:2021-03-29 12:49:50 公開日:2021-03-26
# コントラスト拡張による教師なし文書埋め込み

Unsupervised Document Embedding via Contrastive Augmentation ( http://arxiv.org/abs/2103.14542v1 )

ライセンス: Link先を確認
Dongsheng Luo, Wei Cheng, Jingchao Ni, Wenchao Yu, Xuchao Zhang, Bo Zong, Yanchi Liu, Zhengzhang Chen, Dongjin Song, Haifeng Chen, Xiang Zhang(参考訳) 本稿では,教師なしで文書表現を学習するためのデータ拡張手法と対比学習手法を提案する。 画像とnlpの事前学習に使われる最近のコントラスト的自己教師付き学習アルゴリズムに触発されて、高品質な文書埋め込みは、元の文書の意味を保存できる多様なパラフレーズに不変であるべきだと仮定した。 異なるバックボーンとコントラスト学習フレームワークを用いて, 文書表現学習におけるコントラスト強化の膨大なメリットを, 1) 文書表現学習における埋め込み品質を大幅に向上させることができること,2) 一般には, 単純な単語レベルの操作によって生成される確率的拡張は, 文レベルや文書レベルの学習よりもはるかに優れていること,の2つによって明らかにした。 このメソッドを分類器にプラグインし、6つのベンチマークデータセット上の幅広いベースラインメソッドと比較します。 本手法は,文書分類作業におけるSOTA手法よりも最大6.4%の分類誤差率を減少させることができる。

We present a contrasting learning approach with data augmentation techniques to learn document representations in an unsupervised manner. Inspired by recent contrastive self-supervised learning algorithms used for image and NLP pretraining, we hypothesize that high-quality document embedding should be invariant to diverse paraphrases that preserve the semantics of the original document. With different backbones and contrastive learning frameworks, our study reveals the enormous benefits of contrastive augmentation for document representation learning with two additional insights: 1) including data augmentation in a contrastive way can substantially improve the embedding quality in unsupervised document representation learning, and 2) in general, stochastic augmentations generated by simple word-level manipulation work much better than sentence-level and document-level ones. We plug our method into a classifier and compare it with a broad range of baseline methods on six benchmark datasets. Our method can decrease the classification error rate by up to 6.4% over the SOTA approaches on the document classification task, matching or even surpassing fully-supervised methods.
翻訳日:2021-03-29 12:49:42 公開日:2021-03-26
# ワープ言語モデルを用いた自動および手動音声認識誤りの訂正

Correcting Automated and Manual Speech Transcription Errors using Warped Language Models ( http://arxiv.org/abs/2103.14580v1 )

ライセンス: Link先を確認
Mahdi Namazifar, John Malik, Li Erran Li, Gokhan Tur, Dilek Hakkani T\"ur(参考訳) 仮面言語モデルは、ここ数年で自然言語処理システムに革命をもたらした。 最近導入されたwarped language modelと呼ばれるマスク付き言語モデルの一般化は、トレーニング中に同じタイプのエラーに言語モデルを露出させることで、音声言語の自動転写または手動転写に現れるエラーのタイプに対してより堅牢になるように訓練されている。 本研究は,音声言語の書き起こし訂正のための音声の書き起こしに,ワープ言語モデルの頑健性を利用する新しい手法を提案する。 提案手法は,音声言語の自動書き起こしと手話書き起こしの両方の単語誤り率を最大10%削減できることを示す。

Masked language models have revolutionized natural language processing systems in the past few years. A recently introduced generalization of masked language models called warped language models are trained to be more robust to the types of errors that appear in automatic or manual transcriptions of spoken language by exposing the language model to the same types of errors during training. In this work we propose a novel approach that takes advantage of the robustness of warped language models to transcription noise for correcting transcriptions of spoken language. We show that our proposed approach is able to achieve up to 10% reduction in word error rates of both automatic and manual transcriptions of spoken language.
翻訳日:2021-03-29 12:49:23 公開日:2021-03-26
# ヒューリスティック検索としての一般計画

Generalized Planning as Heuristic Search ( http://arxiv.org/abs/2103.14434v1 )

ライセンス: Link先を確認
Javier Segovia-Aguas, Sergio Jim\'enez and Anders Jonsson(参考訳) ヒューリスティック探索は古典計画における最も成功した手法の1つであるが、この計画パラダイムは一般化計画(GP)に直接適用されない。 ヒューリスティック探索としての計画は、伝統的に接地された状態空間を探索することで逐次計画の計算に対処する。 一方、GPは、分岐とループが可能で、古典的な計画インスタンスの(おそらく無限の)集合に一般化できるアルゴリズムのような計画を計算することを目指している。 本稿では,計画をヒューリスティック探索パラダイムとしてgpの特異性に適用し,gpに対する最初のネイティブヒューリスティック探索手法を提案する。 まず、GP問題における計画インスタンスの数と、これらのインスタンスのサイズに依存しない新しいGPソリューション空間を定義する。 第2に,gp 解空間における組合せ探索を導くための異なる評価とヒューリスティック関数を定義した。 最後に,BFGP(Best-First Generalized Planning)と呼ばれるGPアルゴリズムを定義し,評価・ヒューリスティック関数によって導かれる解空間におけるベストファースト探索を実装した。

Although heuristic search is one of the most successful approaches to classical planning, this planning paradigm does not apply straightforwardly to Generalized Planning (GP). Planning as heuristic search traditionally addresses the computation of sequential plans by searching in a grounded state-space. On the other hand GP aims at computing algorithm-like plans, that can branch and loop, and that generalize to a (possibly infinite) set of classical planning instances. This paper adapts the planning as heuristic search paradigm to the particularities of GP, and presents the first native heuristic search approach to GP. First, the paper defines a novel GP solution space that is independent of the number of planning instances in a GP problem, and the size of these instances. Second, the paper defines different evaluation and heuristic functions for guiding a combinatorial search in our GP solution space. Lastly the paper defines a GP algorithm, called Best-First Generalized Planning (BFGP), that implements a best-first search in the solution space guided by our evaluation/heuristic functions.
翻訳日:2021-03-29 12:49:13 公開日:2021-03-26
# 自己注意型3次元ポーズと映像からの形状推定

Self-Attentive 3D Human Pose and Shape Estimation from Videos ( http://arxiv.org/abs/2103.14182v1 )

ライセンス: Link先を確認
Yun-Chun Chen, Marco Piccirilli, Robinson Piramuthu, Ming-Hsuan Yang(参考訳) 映像から3次元人間のポーズと形状を推定する作業を検討する。 既存のフレームベースのアプローチは大きな進歩を遂げているが、これらの手法は各画像に独立して適用され、しばしば矛盾した予測につながる。 本研究では3次元人間のポーズと形状推定のためのビデオベース学習アルゴリズムを提案する。 この手法の重要な洞察は2つある。 まず,不整合な時間予測問題に対処するため,映像中の時間情報を利用して,フレーム間の短距離および長距離の依存性を共同で考慮し,時間的コヒーレントな推定を行うセルフアテンションモジュールを提案する。 第2に,隣接するフレーム間の遷移を円滑に行える予測モジュールを用いて人間の動きをモデル化する。 我々は,3DPW,MPI-INF-3DHP,H uman3.6Mデータセットについて検討した。 実験結果から,本アルゴリズムは最先端手法に対して良好に動作することが示された。

We consider the task of estimating 3D human pose and shape from videos. While existing frame-based approaches have made significant progress, these methods are independently applied to each image, thereby often leading to inconsistent predictions. In this work, we present a video-based learning algorithm for 3D human pose and shape estimation. The key insights of our method are two-fold. First, to address the inconsistent temporal prediction issue, we exploit temporal information in videos and propose a self-attention module that jointly considers short-range and long-range dependencies across frames, resulting in temporally coherent estimations. Second, we model human motion with a forecasting module that allows the transition between adjacent frames to be smooth. We evaluate our method on the 3DPW, MPI-INF-3DHP, and Human3.6M datasets. Extensive experimental results show that our algorithm performs favorably against the state-of-the-art methods.
翻訳日:2021-03-29 12:47:19 公開日:2021-03-26
# 単一画像のレーディング・デヘイジングへの統一的アプローチに向けて

Towards a Unified Approach to Single Image Deraining and Dehazing ( http://arxiv.org/abs/2103.14204v1 )

ライセンス: Link先を確認
Xiaohong Liu, Yongrui Ma, Zhihao Shi, Linhui Dai, Jun Chen(参考訳) 降雨効果の新しい物理モデルを開発し,その均一な連続限界として,ヘイズ効果のよく知られた大気散乱モデル(ASM)が自然に現れることを示した。 カメライメージング機構による多層雨天の深層融合により, 実際の雨天画像によく見られる高度な非決定論的劣化パターンをよりよく捉えることができる。 また,デレーシングとデヘイジングの両方に適した,密集したスケール接続型注意ネットワーク (dscan) を提案する。 従来のマルチスケールネットワークにおけるボトルネック問題を緩和し,より効果的な情報交換と集約を可能にする。 大規模な実験結果から,DSCANは合成画像と実画像の両方において,最先端のデハズド・デハズド画像を提供できることが示された。 さらに,dscanでは,新しい物理モデルを用いて構築した合成データセットにより,既存データセットと比較して実画像の一般化性能が向上することを示した。

We develop a new physical model for the rain effect and show that the well-known atmosphere scattering model (ASM) for the haze effect naturally emerges as its homogeneous continuous limit. Via depth-aware fusion of multi-layer rain streaks according to the camera imaging mechanism, the new model can better capture the sophisticated non-deterministic degradation patterns commonly seen in real rainy images. We also propose a Densely Scale-Connected Attentive Network (DSCAN) that is suitable for both deraining and dehazing tasks. Our design alleviates the bottleneck issue existent in conventional multi-scale networks and enables more effective information exchange and aggregation. Extensive experimental results demonstrate that the proposed DSCAN is able to deliver superior derained/dehazed results on both synthetic and real images as compared to the state-of-the-art. Moreover, it is shown that for our DSCAN, the synthetic dataset built using the new physical model yields better generalization performance on real images in comparison with the existing datasets based on over-simplified models.
翻訳日:2021-03-29 12:47:05 公開日:2021-03-26
# クロスモダリティ人物再同定のための傾きコンパクトと代表的特徴

Leaning Compact and Representative Features for Cross-Modality Person Re-Identification ( http://arxiv.org/abs/2103.14210v1 )

ライセンス: Link先を確認
Guangwei Gao, Hao Shao, Yi Yu, Fei Wu, Meng Yang(参考訳) 本稿では,可視モードと赤外線モードのマッチングを目的としたクロスモダリティ可視赤外人物再識別タスク(vi re-id)に注目する。 異なるモダリティの特徴間の不一致を減らすために、既存の作品の多くはユークリッド計量に基づく制約を用いる。 ユークリッドに基づく距離計量は、埋め込みベクトル間の内部角を効果的に測定できないので、上記の方法では角微分的特徴埋め込みを学べない。 埋め込みベクトルに基づく分類タスクに影響を及ぼす最も重要な要因は,角偏差特徴空間が存在するかどうかであり,本稿では,eat損失と呼ばれる新しい損失関数を提案する。 また, 知識蒸留を契機として, 特徴埋込前の異なるモダリティ間の特徴を狭めるため, 新たにCMKD(Cross-Modality Knowledge Distillation)の損失を生じさせる。 RegDBとSYSU-MM01データセットの実験結果から,提案手法は印象的な性能の点で,他の高度な手法よりも優れていることが示された。

This paper pays close attention to the cross-modality visible-infrared person re-identification (VI Re-ID) task, which aims to match human samples between visible and infrared modes. In order to reduce the discrepancy between features of different modalities, most existing works usually use constraints based on Euclidean metric. Since the Euclidean based distance metric cannot effectively measure the internal angles between the embedded vectors, the above methods cannot learn the angularly discriminative feature embedding. Because the most important factor affecting the classification task based on embedding vector is whether there is an angularly discriminativ feature space, in this paper, we propose a new loss function called Enumerate Angular Triplet (EAT) loss. Also, motivated by the knowledge distillation, to narrow down the features between different modalities before feature embedding, we further present a new Cross-Modality Knowledge Distillation (CMKD) loss. The experimental results on RegDB and SYSU-MM01 datasets have shown that the proposed method is superior to the other most advanced methods in terms of impressive performance.
翻訳日:2021-03-29 12:46:50 公開日:2021-03-26
# MagDR : マスクガイドによる深部損傷検出と再建

MagDR: Mask-guided Detection and Reconstruction for Defending Deepfakes ( http://arxiv.org/abs/2103.14211v1 )

ライセンス: Link先を確認
Zhikai Chen and Lingxi Xie and Shanmin Pang and Yong He and Bo Zhang(参考訳) ディープフェイクは視覚コンテンツの真正性に深刻な懸念を抱いた。 以前の研究で、ソースデータに逆の摂動を追加することでディープフェイクをディスラプトする可能性を明らかにしたが、我々はまだ脅威は排除されていないと主張している。 本稿では,敵攻撃からディープフェイクを保護するマスク誘導型検出・再構築パイプラインMagDRを提案する。 magdrは、deepfakesの出力の異常を判断するためのいくつかの基準を定義した検出モジュールから始まり、それを使用して学習可能な再構築手順をガイドする。 適応マスクを抽出し、局所的な顔領域の変化を捉える。 実験では、MagDRはディープフェイクの主要な3つのタスクを守り、学習された再構築パイプラインは入力データ間で転送される。

Deepfakes raised serious concerns on the authenticity of visual contents. Prior works revealed the possibility to disrupt deepfakes by adding adversarial perturbations to the source data, but we argue that the threat has not been eliminated yet. This paper presents MagDR, a mask-guided detection and reconstruction pipeline for defending deepfakes from adversarial attacks. MagDR starts with a detection module that defines a few criteria to judge the abnormality of the output of deepfakes, and then uses it to guide a learnable reconstruction procedure. Adaptive masks are extracted to capture the change in local facial regions. In experiments, MagDR defends three main tasks of deepfakes, and the learned reconstruction pipeline transfers across input data, showing promising performance in defending both black-box and white-box attacks.
翻訳日:2021-03-29 12:46:28 公開日:2021-03-26
# 逐次自己分析による生成型分類器の学習

Synthesize-It-Classi fier: Learning a Generative Classifier through RecurrentSelf-analys is ( http://arxiv.org/abs/2103.14212v1 )

ライセンス: Link先を確認
Arghya Pal, Rapha Phan, KokSheik Wong(参考訳) 本研究では,高分解能,フォトリアリスティック,多彩な画像を大規模に合成することで,画像分類器ネットワークの生成能力を示す。 Synthesize-It-Classi fier (STIC)と呼ばれる全体的な方法論は、データ分布とサンプル画像の密度を推定するために明示的なジェネレータネットワークを必要としない。 クラスロジットはGram Matrix Metropolis Adjusted Langevin Algorithm (GRMALA) を使って画像を合成し、空白のキャンバスに描画する。 トレーニング中、分類器はこれらの合成画像を偽のサンプルとして反復的に使用し、クラス境界を反復的に再推定し、合成画像の分類精度と品質を改善する。 STICはハードフェイクサンプル(すなわち)の混合を示す。 1つのホットクラスコンディショニングによって合成されたもの)とソフトフェイクサンプル(クラスの凸結合として合成されるもの)。 クラスの混成) クラスの補間を改善する。 我々は、数千のクラスを持つImageNetデータセット上で、合成画像の反復描画を示すAttentive-STICネットワークを実演する。 さらに,通常の画像分類器の代わりに,クラス条件スコア分類器(Score-STIC)を用いて合成を行い,実世界の複数のデータセットで改善された結果を示す。 ImageNet、LSUN、CIFAR 10。

In this work, we show the generative capability of an image classifier network by synthesizing high-resolution, photo-realistic, and diverse images at scale. The overall methodology, called Synthesize-It-Classi fier (STIC), does not require an explicit generator network to estimate the density of the data distribution and sample images from that, but instead uses the classifier's knowledge of the boundary to perform gradient ascent w.r.t. class logits and then synthesizes images using Gram Matrix Metropolis Adjusted Langevin Algorithm (GRMALA) by drawing on a blank canvas. During training, the classifier iteratively uses these synthesized images as fake samples and re-estimates the class boundary in a recurrent fashion to improve both the classification accuracy and quality of synthetic images. The STIC shows the mixing of the hard fake samples (i.e. those synthesized by the one hot class conditioning), and the soft fake samples (which are synthesized as a convex combination of classes, i.e. a mixup of classes) improves class interpolation. We demonstrate an Attentive-STIC network that shows an iterative drawing of synthesized images on the ImageNet dataset that has thousands of classes. In addition, we introduce the synthesis using a class conditional score classifier (Score-STIC) instead of a normal image classifier and show improved results on several real-world datasets, i.e. ImageNet, LSUN, and CIFAR 10.
翻訳日:2021-03-29 12:46:14 公開日:2021-03-26
# どの部がフォントの印象を決定するのか?

Which Parts determine the Impression of the Font? ( http://arxiv.org/abs/2103.14216v1 )

ライセンス: Link先を確認
M.Ueda, A.Kimura, S.Uchida(参考訳) 本論文は, 局所的な形状, 部分, フォントの印象の相関を解析することを目的として, 各種フォントは, 可読性, 粗さ, 滑稽性など, 異なる印象を与える。 文字全体の形状ではなく局所的な形状に焦点を合わせることで、文字形状の独立性やより一般的な分析を実現することができる。 SIFTとDeepSetsを新たに組み合わせて、特定のフォントから任意の数の必須部分を抽出し、それらを集約して、非線形回帰によりフォント印象を推測する。 質的,定量的な分析により,(1)類似の部位が類似した印象を持つこと,(2)正当性や粗さなどの多くの印象が特定の部位に大きく依存していること,(3)重度印象が部分と非常に無関係であることを証明した。

Various fonts give different impressions, such as legible, rough, and comic-text.This paper aims to analyze the correlation between the local shapes, or parts, and the impression of fonts. By focusing on local shapes instead of the whole letter shape, we can realize letter-shape independent and more general analysis. The analysis is performed by newly combining SIFT and DeepSets, to extract an arbitrary number of essential parts from a particular font and aggregate them to infer the font impressions by nonlinear regression. Our qualitative and quantitative analyses prove that (1)fonts with similar parts have similar impressions, (2)many impressions, such as legible and rough, largely depend on specific parts, (3)several impressions are very irrelevant to parts.
翻訳日:2021-03-29 12:45:50 公開日:2021-03-26
# オブジェクトの永続性で追跡する学習

Learning to Track with Object Permanence ( http://arxiv.org/abs/2103.14258v1 )

ライセンス: Link先を確認
Pavel Tokmakov, Jie Li, Wolfram Burgard, Adrien Gaidon(参考訳) オンライン多目的追跡の主要なアプローチである検出による追跡は、ローカライゼーションと再識別のステップを交互に行う。 結果として、それは瞬時観測の品質に大きく依存し、しばしばオブジェクトが完全に見えない場合に失敗する。 対照的に、人間の追跡はオブジェクトの永続性の概念によって下書きされている: 一度物体が認識されると、その物理的存在を認識し、完全なオクルージョンの下でもほぼ局所化することができる。 本研究では,このような推論が可能なジョイントオブジェクトの検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを提案する。 私たちはCenterTrackアーキテクチャの上に構築され、このアーキテクチャは2組のフレームを入力として取り、任意の長さのビデオに拡張します。 この目的のために、時空間の繰り返しメモリモジュールを用いてモデルを拡張し、過去のすべての履歴を用いて現在のフレーム内のオブジェクトの位置とアイデンティティを推論する。 しかし、そのようなアプローチをいかに訓練するかは明らかではない。 本研究では,目立たない物体に対する基底的真理のアノテーションを提供するマルチオブジェクト追跡のための新しい大規模合成データセットについて検討し,オクルージョンの背後にある追跡を監督するためのいくつかのアプローチを提案する。 我々のモデルは、合成データと実データに基づいて共同で訓練され、オクルージョンに対するロバスト性により、KITTIとMOT17データセットにおける技術状況よりも優れています。

Tracking by detection, the dominant approach for online multi-object tracking, alternates between localization and re-identification steps. As a result, it strongly depends on the quality of instantaneous observations, often failing when objects are not fully visible. In contrast, tracking in humans is underlined by the notion of object permanence: once an object is recognized, we are aware of its physical existence and can approximately localize it even under full occlusions. In this work, we introduce an end-to-end trainable approach for joint object detection and tracking that is capable of such reasoning. We build on top of the recent CenterTrack architecture, which takes pairs of frames as input, and extend it to videos of arbitrary length. To this end, we augment the model with a spatio-temporal, recurrent memory module, allowing it to reason about object locations and identities in the current frame using all the previous history. It is, however, not obvious how to train such an approach. We study this question on a new, large-scale, synthetic dataset for multi-object tracking, which provides ground truth annotations for invisible objects, and propose several approaches for supervising tracking behind occlusions. Our model, trained jointly on synthetic and real data, outperforms the state of the art on KITTI, and MOT17 datasets thanks to its robustness to occlusions.
翻訳日:2021-03-29 12:45:34 公開日:2021-03-26
# OTA:オブジェクト検出のための最適輸送割り当て

OTA: Optimal Transport Assignment for Object Detection ( http://arxiv.org/abs/2103.14259v1 )

ライセンス: Link先を確認
Zheng Ge, Songtao Liu, Zeming Li, Osamu Yoshie, Jian Sun(参考訳) オブジェクト検出におけるラベル割り当ての最近の進歩は、主に各グラウンドトゥルース(gt)オブジェクトに対する正負のトレーニングサンプルを独立に定義することを目指している。 本稿では,グローバルな視点からラベル割り当てを革新的に再検討し,最適化理論におけるよく研究された話題である最適輸送(OT)問題として割り当て手順を定式化することを提案する。 具体的には、各需要者(アンカー)とサプライヤ(gt)ペア間の単位輸送コストを、その分類と回帰損失の重み付け和として定義する。 定式化後、最適割当解を求めることは、シンクホーン・ノック・イテレーション(Sinkhorn-Knopp Iteration)を通じて解決できる最小の輸送コストで最適な輸送計画を解決するために変換される。 COCOでは、OTA(Optimal Transport Assignment)を搭載した単一のFCOS-ResNet-50検出器が1Xスケジューラの下で40.7%のmAPに到達し、既存の全ての割り当て方法を上回っている。 COCOとCrowdHumanによる大規模な実験により,提案したOTAの有効性,特に群衆シナリオにおける優位性がさらに検証された。 コードはhttps://github.com/M egvii-BaseDetection/ OTAで公開されている。

Recent advances in label assignment in object detection mainly seek to independently define positive/negative training samples for each ground-truth (gt) object. In this paper, we innovatively revisit the label assignment from a global perspective and propose to formulate the assigning procedure as an Optimal Transport (OT) problem -- a well-studied topic in Optimization Theory. Concretely, we define the unit transportation cost between each demander (anchor) and supplier (gt) pair as the weighted summation of their classification and regression losses. After formulation, finding the best assignment solution is converted to solve the optimal transport plan at minimal transportation costs, which can be solved via Sinkhorn-Knopp Iteration. On COCO, a single FCOS-ResNet-50 detector equipped with Optimal Transport Assignment (OTA) can reach 40.7% mAP under 1X scheduler, outperforming all other existing assigning methods. Extensive experiments conducted on COCO and CrowdHuman further validate the effectiveness of our proposed OTA, especially its superiority in crowd scenarios. The code is available at https://github.com/M egvii-BaseDetection/ OTA.
翻訳日:2021-03-29 12:45:14 公開日:2021-03-26
# ロングテール画像分類のためのコントラスト学習に基づくハイブリッドネットワーク

Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification ( http://arxiv.org/abs/2103.14267v1 )

ライセンス: Link先を確認
Peng Wang, Kai Han, Xiu-Shen Wei, Lei Zhang, Lei Wang(参考訳) 識別的画像表現の学習は、不均衡な場合における分類子学習を容易にするため、ロングテール画像分類において重要な役割を果たす。 本研究は,近年,表現学習において有望なパフォーマンスコントラスト学習が示されていることを踏まえ,効果的な教師付きコントラスト学習戦略を探求し,不均衡なデータからより良い画像表現を学習して,その分類精度を高める。 具体的には、画像表現を学習するための教師付きコントラスト損失と、分類器を学習するためのクロスエントロピー損失からなる、新しいハイブリッドネットワーク構造を提案する。 形態によって異なるが、正規化された埋め込み空間において同一クラスからサンプルをまとめて抽出し、異なるクラスからサンプルを分離するという共通の考えを共有する。 そのうちの1つは最近提案された教師付きコントラスト損失(SC)であり、これは同じクラスの正のサンプルを組み込むことで、最先端の教師なしコントラスト損失の上に設計されている。 もうひとつは、標準のSC損失における集中的メモリ消費に対処し、限られたメモリ予算の下でより有望な、プロトタイプ型教師付きコントラクティブ(PSC)学習戦略である。 3つの長い尾の分類データセットに対する大規模な実験は、長い尾の分類における対照的な学習に基づくハイブリッドネットワークの利点を示す。

Learning discriminative image representations plays a vital role in long-tailed image classification because it can ease the classifier learning in imbalanced cases. Given the promising performance contrastive learning has shown recently in representation learning, in this work, we explore effective supervised contrastive learning strategies and tailor them to learn better image representations from imbalanced data in order to boost the classification accuracy thereon. Specifically, we propose a novel hybrid network structure being composed of a supervised contrastive loss to learn image representations and a cross-entropy loss to learn classifiers, where the learning is progressively transited from feature learning to the classifier learning to embody the idea that better features make better classifiers. We explore two variants of contrastive loss for feature learning, which vary in the forms but share a common idea of pulling the samples from the same class together in the normalized embedding space and pushing the samples from different classes apart. One of them is the recently proposed supervised contrastive (SC) loss, which is designed on top of the state-of-the-art unsupervised contrastive loss by incorporating positive samples from the same class. The other is a prototypical supervised contrastive (PSC) learning strategy which addresses the intensive memory consumption in standard SC loss and thus shows more promise under limited memory budget. Extensive experiments on three long-tailed classification datasets demonstrate the advantage of the proposed contrastive learning based hybrid networks in long-tailed classification.
翻訳日:2021-03-29 12:44:50 公開日:2021-03-26
# 正確な分岐を伴う合流器木

Confluent Vessel Trees with Accurate Bifurcations ( http://arxiv.org/abs/2103.14268v1 )

ライセンス: Link先を確認
Zhongwen Zhang, Dmitrii Marin, Maria Drangova, Yuri Boykov(参考訳) 私たちは、監視や学習が不可能である何千もの分岐を伴う複雑な血管の教師なしの再構築に興味を持っています。 教師なしメソッドは、例えば、多くの構造的な制約を使うことができる。 トポロジー 幾何学 物理学 一般的な手法では、対称対費用を最小化する測地線管状グラフ上のmstの変種を用いる。 距離だ フロー"指向性"が重要な分岐点において典型的な誤差を生じるような標準的な無向管状グラフの限界を示す。 管状木を形成する連続指向曲線に対するconfluenceの新しい一般概念を導入し,離散管状グラフにそれを強制する方法を示す。 合流は高次特性であるが,本論文では,合流を強制する有向グラフ上で最小アルブレッセンスを用いて合流器木を再構成する効率的な実用的手法を提案する。 大きな細管下血管体積の実証試験では, 分岐部の再構成精度が有意に向上した。 私たちのコードも公開されています。

We are interested in unsupervised reconstruction of complex near-capillary vasculature with thousands of bifurcations where supervision and learning are infeasible. Unsupervised methods can use many structural constraints, e.g. topology, geometry, physics. Common techniques use variants of MST on geodesic tubular graphs minimizing symmetric pairwise costs, i.e. distances. We show limitations of such standard undirected tubular graphs producing typical errors at bifurcations where flow "directedness" is critical. We introduce a new general concept of confluence for continuous oriented curves forming vessel trees and show how to enforce it on discrete tubular graphs. While confluence is a high-order property, we present an efficient practical algorithm for reconstructing confluent vessel trees using minimum arborescence on a directed graph enforcing confluence via simple flow-extrapolating arc construction. Empirical tests on large near-capillary sub-voxel vasculature volumes demonstrate significantly improved reconstruction accuracy at bifurcations. Our code has also been made publicly available.
翻訳日:2021-03-29 12:44:23 公開日:2021-03-26
# ロングテールlidarセマンティクスセグメンテーションのための入出力バランスフレームワーク

Input-Output Balanced Framework for Long-tailed LiDAR Semantic Segmentation ( http://arxiv.org/abs/2103.14269v1 )

ライセンス: Link先を確認
Peishan Cong, Xinge Zhu, Yuexin Ma(参考訳) LiDARセマンティックセグメンテーションが不可欠である自動運転車にとって、徹底的で全体的な状況理解は不可欠である。 しかし、既存のほとんどの手法は、固有の困難を無視しながらネットワーク設計に焦点を当てており、現実的なデータセット(ロングテール分布とも呼ばれる)における不均衡なデータ分散は、最先端の手法の能力を狭めている。 本稿では,ロングテール分布の問題を扱うための入出力バランスフレームワークを提案する。 具体的には、入力空間において、メッシュモデルからこれらのテールインスタンスを合成し、LiDARスキャンの位置と密度分布をうまくシミュレートし、入力データのバランスを高め、データの多様性を向上させる。 出力空間に対して,特徴学習における支配カテゴリの偏りを緩和する多頭部ブロックを提案し,その形状と実例量に基づいて異なるカテゴリをグループ化する。 本研究では,2つの大規模データセット,SemanticKITTI と nuScenes を用いて提案モデルの評価を行った。 提案する新しいモジュールは、プラグアンドプレイとしても使用でき、様々なバックボーンやデータセットに適用し、その優れた一般化能力を示しています。

A thorough and holistic scene understanding is crucial for autonomous vehicles, where LiDAR semantic segmentation plays an indispensable role. However, most existing methods focus on the network design while neglecting the inherent difficulty, imbalanced data distribution in the realistic dataset (also named long-tailed distribution), which narrows down the capability of state-of-the-art methods. In this paper, we propose an input-output balanced framework to handle the issue of long-tailed distribution. Specifically, for the input space, we synthesize these tailed instances from mesh models and well simulate the position and density distribution of LiDAR scan, which enhances the input data balance and improves the data diversity. For the output space, a multi-head block is proposed to group different categories based on their shapes and instance amounts, which alleviates the biased representation of dominating category during the feature learning. We evaluate the proposed model on two large-scale datasets, SemanticKITTI and nuScenes, where state-of-the-art results demonstrate its effectiveness. The proposed new modules can also be used as a plug-and-play, and we apply them on various backbones and datasets, showing its good generalization ability.
翻訳日:2021-03-29 12:44:08 公開日:2021-03-26
# LightSAL: 入射表面表現のための軽量手話学習

LightSAL: Lightweight Sign Agnostic Learning for Implicit Surface Representation ( http://arxiv.org/abs/2103.14273v1 )

ライセンス: Link先を確認
Abol Basher, Muhammad Sarmad, Jani Boutellier(参考訳) 近年、深層ニューラルネットワークを用いた3次元形状のモデリングに取り組み、暗黙的な表面表現を学習している。 これまで、作品の大部分は復元の質に集中しており、モデルのサイズやトレーニング時間にほとんど注意を払っていない。 本研究は,ネットワークトレーニング時間とモデルサイズの両方における効率性を重視した,新しい3次元形状学習のための深層畳み込みアーキテクチャであるlightsalを提案する。 提案するネットワークをトレーニングするための手話学習の概念を,符号付き距離場に頼り,符号なし距離を根拠として構築する。 本論文の実験部では,提案するアーキテクチャが,モデルサイズと必要なトレーニングイテレーション数において,同等の精度を保ちながら,これまでの作業よりも優れていることを実証する。 実験は、人間の形状を41kの3DスキャンしたD-Faustデータセットに基づいている。 提案されたモデルはPyTorchで実装されている。

Recently, several works have addressed modeling of 3D shapes using deep neural networks to learn implicit surface representations. Up to now, the majority of works have concentrated on reconstruction quality, paying little or no attention to model size or training time. This work proposes LightSAL, a novel deep convolutional architecture for learning 3D shapes; the proposed work concentrates on efficiency both in network training time and resulting model size. We build on the recent concept of Sign Agnostic Learning for training the proposed network, relying on signed distance fields, with unsigned distance as ground truth. In the experimental section of the paper, we demonstrate that the proposed architecture outperforms previous work in model size and number of required training iterations, while achieving equivalent accuracy. Experiments are based on the D-Faust dataset that contains 41k 3D scans of human shapes. The proposed model has been implemented in PyTorch.
翻訳日:2021-03-29 12:43:46 公開日:2021-03-26
# ビデオにおける3次元ポーズ推定のための昇降変圧器

Lifting Transformer for 3D Human Pose Estimation in Video ( http://arxiv.org/abs/2103.14304v1 )

ライセンス: Link先を確認
Wenhao Li, Hong Liu, Runwei Ding, Mengyuan Liu, Pichao Wang(参考訳) ビデオに基づく3次元ポーズ推定の進歩にもかかわらず、冗長なシーケンスから識別的な単一目的表現を学習することは依然として困難である。 そこで本研究では,人間の3次元ポーズ推定システム「Lifting Transformer」を用いて,2次元関節位置列を3次元ポーズに引き上げる新しいトランスフォーマーアーキテクチャを提案する。 具体的には、バニラトランスフォーマーエンコーダ(VTE)を用いて、2Dポーズシーケンスの長距離依存性をモデル化する。 シーケンスの冗長性を低減し、局所的なコンテキストから情報を集約するために、vteのフィードフォワードネットワーク内の完全連結層をストレート畳み込みに置き換え、シーケンス長を漸進的に短縮する。 修正されたVTEはstrided Transformer encoder (STE)と呼ばれ、VTEの出力に基づいて構築される。 STEは計算コストを大幅に削減するだけでなく、グローバルかつローカルな方法で単一のベクトル表現に情報を効果的に集約する。 さらに、フルシーケンススケールと単一ターゲットフレームスケールの両方でフル・ツー・シングルの監視スキームを採用し、それぞれVTEとSTEの出力に適用する。 このスキームは、単一の目標フレームの監督とともに、余分な時間的滑らかさの制約を課す。 提案するアーキテクチャは2つの挑戦的なベンチマークデータセット、human3.6mとhumaneva-iで評価され、より少ないパラメータで最先端の結果が得られる。

Despite great progress in video-based 3D human pose estimation, it is still challenging to learn a discriminative single-pose representation from redundant sequences. To this end, we propose a novel Transformer-based architecture, called Lifting Transformer, for 3D human pose estimation to lift a sequence of 2D joint locations to a 3D pose. Specifically, a vanilla Transformer encoder (VTE) is adopted to model long-range dependencies of 2D pose sequences. To reduce redundancy of the sequence and aggregate information from local context, fully-connected layers in the feed-forward network of VTE are replaced with strided convolutions to progressively reduce the sequence length. The modified VTE is termed as strided Transformer encoder (STE) and it is built upon the outputs of VTE. STE not only significantly reduces the computation cost but also effectively aggregates information to a single-vector representation in a global and local fashion. Moreover, a full-to-single supervision scheme is employed at both the full sequence scale and single target frame scale, applying to the outputs of VTE and STE, respectively. This scheme imposes extra temporal smoothness constraints in conjunction with the single target frame supervision. The proposed architecture is evaluated on two challenging benchmark datasets, namely, Human3.6M and HumanEva-I, and achieves state-of-the-art results with much fewer parameters.
翻訳日:2021-03-29 12:43:31 公開日:2021-03-26
# 点雲を用いた都市規模景観変化検出

City-scale Scene Change Detection using Point Clouds ( http://arxiv.org/abs/2103.14314v1 )

ライセンス: Link先を確認
Zi Jian Yew and Gim Hee Lee(参考訳) 車両に搭載されたカメラから2つの異なる速度で撮影した画像を用いて都市の構造変化を検出する手法を提案する。 まず,画像から3次元点雲を生成し,Structure-from-Moti on (SfM) を用いてGNSS/INS読み出しを近似する。 変化検出のための2点雲の直接比較は、不正確な位置情報とsfm内のドリフトのために理想的ではない。 この問題を回避するために,現場における構造変化検出のための点雲の比較を可能にする,深層学習に基づく非剛性登録を提案する。 さらに,本手法のロバスト性を高めるために,2つのしきい値チェックおよび後処理手順を導入する。 アプローチの評価には,2つのデータセットを収集する。 提案手法は,視点や照明の違いがあっても,シーン変化を効果的に検出できることを示す。

We propose a method for detecting structural changes in a city using images captured from vehicular mounted cameras over traversals at two different times. We first generate 3D point clouds for each traversal from the images and approximate GNSS/INS readings using Structure-from-Motio n (SfM). A direct comparison of the two point clouds for change detection is not ideal due to inaccurate geo-location information and possible drifts in the SfM. To circumvent this problem, we propose a deep learning-based non-rigid registration on the point clouds which allows us to compare the point clouds for structural change detection in the scene. Furthermore, we introduce a dual thresholding check and post-processing step to enhance the robustness of our method. We collect two datasets for the evaluation of our approach. Experiments show that our method is able to detect scene changes effectively, even in the presence of viewpoint and illumination differences.
翻訳日:2021-03-29 12:43:06 公開日:2021-03-26
# クロス次元シーン理解のための双方向投影ネットワーク

Bidirectional Projection Network for Cross Dimension Scene Understanding ( http://arxiv.org/abs/2103.14326v1 )

ライセンス: Link先を確認
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong(参考訳) 2次元画像表現は正規格子の中にあり、効率的に処理できるが、3次元点雲は無秩序で3次元空間に散在する。 これら2つの視覚領域内の情報は相補的であり、例えば2d画像はきめ細かいテクスチャを持ち、3d点雲は豊富な幾何学情報を含んでいる。 しかし、現在のほとんどの視覚認識システムはそれらを個別に処理している。 本稿では,2次元および3次元の連立推論をエンドツーエンドに行うために,emph{bidirectional projection network (BPNet)を提案する。 対称アーキテクチャを持つ2dおよび3dサブネットワークを含み,提案する二方向投影モジュール (bpm) によって接続される。 補足的な2Dと3Dの情報は複数のアーキテクチャレベルで相互に相互作用できるため、これらの2つの視覚領域の利点は、より優れたシーン認識のために組み合わせられる。 広範囲な定量的・定性的な実験評価により、2次元と3次元の視覚領域における共同推論が2次元と3次元のシーン理解の双方に有益であることが示された。 我々の \emph{BPNet} は 2D と 3D のセマンティックセマンティックセグメンテーションにおいて ScanNetV2 ベンチマークの最高性能を達成する。 コードは \url{https://github.com/w bhu/BPNet} で入手できる。

2D image representations are in regular grids and can be processed efficiently, whereas 3D point clouds are unordered and scattered in 3D space. The information inside these two visual domains is well complementary, e.g., 2D images have fine-grained texture while 3D point clouds contain plentiful geometry information. However, most current visual recognition systems process them individually. In this paper, we present a \emph{bidirectional projection network (BPNet)} for joint 2D and 3D reasoning in an end-to-end manner. It contains 2D and 3D sub-networks with symmetric architectures, that are connected by our proposed \emph{bidirectional projection module (BPM)}. Via the \emph{BPM}, complementary 2D and 3D information can interact with each other in multiple architectural levels, such that advantages in these two visual domains can be combined for better scene recognition. Extensive quantitative and qualitative experimental evaluations show that joint reasoning over 2D and 3D visual domains can benefit both 2D and 3D scene understanding simultaneously. Our \emph{BPNet} achieves top performance on the ScanNetV2 benchmark for both 2D and 3D semantic segmentation. Code is available at \url{https://github.com/w bhu/BPNet}.
翻訳日:2021-03-29 12:42:52 公開日:2021-03-26
# MetaNODE:Few-Shot Learningのためのニューラルネットワークとしてのプロトタイプ最適化

MetaNODE: Prototype Optimization as a Neural ODE for Few-Shot Learning ( http://arxiv.org/abs/2103.14341v1 )

ライセンス: Link先を確認
Baoquan Zhang, Xutao Li, Yunming Ye, Shanshan Feng, Rui Ye(参考訳) 少数ショット学習(fsl)は難しい課題である。例を少なくして新しいクラスをどのように認識するか? 事前学習に基づく手法は,特徴抽出器の事前学習と,平均型プロトタイプを用いた近接クラス分類器による新しいクラス予測により,この問題に効果的に対処する。 それでも、データ不足のため、平均ベースのプロトタイプは通常バイアスがかかる。 本稿では,プロトタイプ最適化問題としてのバイアスを小さくする。 既存のメタ最適化は最適化にも適用できるが、いずれも重要な勾配バイアス問題、すなわち平均に基づく勾配推定は不足データにも偏りがある。 その結果,勾配自体をメタ知識とみなし,メタノードと呼ばれる新しい最適化ベースのメタ学習フレームワークを提案する。 具体的には、まず平均ベースのプロトタイプを初期プロトタイプとみなし、次にニューラル正規微分方程式(Neural ODE)で指定された連続時間ダイナミクスとしてプロトタイプ最適化のプロセスをモデル化する。 勾配流推論ネットワークは、プロトタイプダイナミクスの連続勾配を推定するために慎重に設計されている。 最後に、runge-kutta法を用いてニューラルネットワークodeを解いて最適なプロトタイプを得ることができる。 実験の結果,提案手法は従来の最先端手法よりも優れた性能を示した。 私たちのコードは受け入れ次第公開されます。

Few-Shot Learning (FSL) is a challenging task, i.e., how to recognize novel classes with few examples? Pre-training based methods effectively tackle the problem by pre-training a feature extractor and then predict novel classes via a nearest neighbor classifier with mean-based prototypes. Nevertheless, due to the data scarcity, the mean-based prototypes are usually biased. In this paper, we diminish the bias by regarding it as a prototype optimization problem. Although the existing meta-optimizers can also be applied for the optimization, they all overlook a crucial gradient bias issue, i.e., the mean-based gradient estimation is also biased on scarce data. Consequently, we regard the gradient itself as meta-knowledge and then propose a novel prototype optimization-based meta-learning framework, called MetaNODE. Specifically, we first regard the mean-based prototypes as initial prototypes, and then model the process of prototype optimization as continuous-time dynamics specified by a Neural Ordinary Differential Equation (Neural ODE). A gradient flow inference network is carefully designed to learn to estimate the continuous gradients for prototype dynamics. Finally, the optimal prototypes can be obtained by solving the Neural ODE using the Runge-Kutta method. Extensive experiments demonstrate that our proposed method obtains superior performance over the previous state-of-the-art methods. Our code will be publicly available upon acceptance.
翻訳日:2021-03-29 12:42:32 公開日:2021-03-26
# VDM-DA: ソースデータフリードメイン適応のための仮想ドメインモデリング

VDM-DA: Virtual Domain Modeling for Source Data-free Domain Adaptation ( http://arxiv.org/abs/2103.14357v1 )

ライセンス: Link先を確認
Jiayi Tian, Jing Zhang, Wen Li, Dong Xu(参考訳) ドメイン適応は、ラベルリッチドメイン(ソースドメイン)を活用して、ラベルスカースドメイン(ターゲットドメイン)でのモデル学習を支援することを目的としています。 ほとんどのドメイン適応手法では、分散ミスマッチを減らすためにソースとターゲットのドメインサンプルの共存を必要とするが、ソースドメインサンプルへのアクセスは、異なる問題(ストレージ、トランスミッション、プライバシ問題など)のために、現実のアプリケーションで常に可能とは限らない。 本研究では,データフリーな教師なしドメイン適応問題に対処し,仮想ドメインモデリング(VDM-DA)と呼ばれる新しいアプローチを提案する。 仮想ドメインはソースとターゲットドメインの間のブリッジとして機能する。 一方,GMM(Gaussian Mixture Model)に基づく仮想ドメインサンプルを,事前学習したソースモデルで特徴空間内に生成し,元のソースデータにアクセスすることなく,仮想ドメインがソースドメインと類似した分布を維持する。 一方,本研究では,モデル学習による目標領域分布のコンパクトさを徐々に向上させることにより,仮想領域と対象領域との分布ばらつきを低減する効果的な分布アライメント手法も設計する。 このようにして、ソースドメインデータにアクセスすることなく、ディープネットワークをトレーニングすることで、ソースドメインとターゲットドメイン間の分散アライメントの目標を達成する。 提案手法は,VDM-DA(Domain Adaptation with Virtual Domain Modeling)と呼ばれる,2次元イメージベースおよび3次元ポイントクラウドベースのクロスドメインオブジェクト認識タスクのベンチマークデータセットについて広範な実験を行った。

Domain adaptation aims to leverage a label-rich domain (the source domain) to help model learning in a label-scarce domain (the target domain). Most domain adaptation methods require the co-existence of source and target domain samples to reduce the distribution mismatch, however, access to the source domain samples may not always be feasible in the real world applications due to different problems (e.g., storage, transmission, and privacy issues). In this work, we deal with the source data-free unsupervised domain adaptation problem, and propose a novel approach referred to as Virtual Domain Modeling (VDM-DA). The virtual domain acts as a bridge between the source and target domains. On one hand, we generate virtual domain samples based on an approximated Gaussian Mixture Model (GMM) in the feature space with the pre-trained source model, such that the virtual domain maintains a similar distribution with the source domain without accessing to the original source data. On the other hand, we also design an effective distribution alignment method to reduce the distribution divergence between the virtual domain and the target domain by gradually improving the compactness of the target domain distribution through model learning. In this way, we successfully achieve the goal of distribution alignment between the source and target domains by training deep networks without accessing to the source domain data. We conduct extensive experiments on benchmark datasets for both 2D image-based and 3D point cloud-based cross-domain object recognition tasks, where the proposed method referred to Domain Adaptation with Virtual Domain Modeling (VDM-DA) achieves the state-of-the-art performances on all datasets.
翻訳日:2021-03-29 12:42:09 公開日:2021-03-26
# 鍵情報抽出のための空間デュアルモーダルグラフ推論

Spatial Dual-Modality Graph Reasoning for Key Information Extraction ( http://arxiv.org/abs/2103.14470v1 )

ライセンス: Link先を確認
Hongbin Sun, Zhanghui Kuang, Xiaoyu Yue, Chenhao Lin and Wayne Zhang(参考訳) 文書画像からのキー情報抽出は,オフィス自動化において極めて重要である。 従来のテンプレートマッチングベースのアプローチでは、見当たらないテンプレートの画像のドキュメント化がうまく行かず、テキスト認識エラーに対して堅牢ではない。 本稿では,非構造化文書画像からキー情報を抽出するために,エンドツーエンドの空間的デュアルモダリティグラフ推論法(sdmg-r)を提案する。 文書画像は、検出されたテキスト領域の視覚的特徴とテキスト的特徴の両方をエンコードするノードと、隣接するテキスト領域間の空間的関係を表すエッジとしてモデル化する。 グラフエッジに沿ってメッセージを反復的に伝播させ、グラフノードのカテゴリを推論することにより、鍵情報抽出を行う。 提案手法を徹底的に評価し,今後の研究を促進するため,ワイルドレセプト(WildReceipt)という新たなデータセットを作成した。 25のキー情報カテゴリがあり、合計約69000のテキストボックスがあり、既存の公開データセットの約2倍の大きさである。 広範な実験により、視覚的特徴、テキスト的特徴、空間的関係を含む全ての情報が重要な情報抽出に役立つことが検証される。 SDMG-Rは、目に見えないテンプレートの文書画像からキー情報を効果的に抽出し、最近の人気ベンチマークSROIEとWildReceiptで新しい最先端の結果を得ることができることが示されている。 コードとデータセットは公開されます。

Key information extraction from document images is of paramount importance in office automation. Conventional template matching based approaches fail to generalize well to document images of unseen templates, and are not robust against text recognition errors. In this paper, we propose an end-to-end Spatial Dual-Modality Graph Reasoning method (SDMG-R) to extract key information from unstructured document images. We model document images as dual-modality graphs, nodes of which encode both the visual and textual features of detected text regions, and edges of which represent the spatial relations between neighboring text regions. The key information extraction is solved by iteratively propagating messages along graph edges and reasoning the categories of graph nodes. In order to roundly evaluate our proposed method as well as boost the future research, we release a new dataset named WildReceipt, which is collected and annotated tailored for the evaluation of key information extraction from document images of unseen templates in the wild. It contains 25 key information categories, a total of about 69000 text boxes, and is about 2 times larger than the existing public datasets. Extensive experiments validate that all information including visual features, textual features and spatial relations can benefit key information extraction. It has been shown that SDMG-R can effectively extract key information from document images of unseen templates, and obtain new state-of-the-art results on the recent popular benchmark SROIE and our WildReceipt. Our code and dataset will be publicly released.
翻訳日:2021-03-29 12:41:38 公開日:2021-03-26
# 画像間変換のための複数GANインバージョン

Multiple GAN Inversion for Exemplar-based Image-to-Image Translation ( http://arxiv.org/abs/2103.14471v1 )

ライセンス: Link先を確認
Taewon Kang(参考訳) 既存の画像から画像への翻訳における最先端技術にはいくつかの重要な問題がある。 整列しない画像タプル入力(ソース,ターゲット)では,画像から画像への変換に係わる既存手法の翻訳は不可能である。 また,既存の手法では画像の一般化が制限されていることも確認できた。 この制限を克服するために,画像から画像への変換のための複数のGAN変換を提案する。 本研究では,複数の仮説において,学習や指導を伴わずにより妥当な画像再構成結果を選択するfr\'echetインセプション距離(fid)を用いた階層数選択において,自己決定アルゴリズムを用いた人間の介入を回避する。 実験結果から,提案手法の利点を既存の最先端の画像画像変換法と比較した。

Existing state-of-the-art techniques in exemplar-based image-to-image translation have several critical problems. Existing method related to exemplar-based image-to-image translation is impossible to translate on an image tuple input(source, target) that is not aligned. Also, we can confirm that the existing method has limited generalization ability to unseen images. To overcome this limitation, we propose Multiple GAN Inversion for Exemplar-based Image-to-Image Translation. Our novel Multiple GAN Inversion avoids human intervention using a self-deciding algorithm in choosing the number of layers using Fr\'echet Inception Distance(FID), which selects more plausible image reconstruction result among multiple hypotheses without any training or supervision. Experimental results shows the advantage of the proposed method compared to existing state-of-the-art exemplar-based image-to-image translation methods.
翻訳日:2021-03-29 12:41:11 公開日:2021-03-26
# デカップリング機能によるオブジェクト検出器の蒸留

Distilling Object Detectors via Decoupled Features ( http://arxiv.org/abs/2103.14475v1 )

ライセンス: Link先を確認
Jianyuan Guo, Kai Han, Yunhe Wang, Han Wu, Xinghao Chen, Chunjing Xu and Chang Xu(参考訳) 知識蒸留は、複雑な教師ネットワークからコンパクトな学生ネットワークに情報を継承し、高い性能を維持するために広く使われているパラダイムである。 画像分類と異なり、オブジェクト検出器は、意味情報が依存する特徴が絡み合っている複数の損失関数により、はるかに高度である。 本稿では, 留学生検出器の蒸留には, 対象物以外の領域に由来する特徴の情報も不可欠であり, 既存の手法では無視される点を指摘する。 さらに,蒸留中に異なる領域の特徴を異なる重要性で割り当てるべきであることを解明した。 そこで本研究では,より優れた学生検出器を学習するための脱カップリング機能(defeat)による蒸留アルゴリズムを提案する。 具体的には、学生に有用な情報を埋め込むために、2段階のデカップリング機能、すなわちネックからデカップリングされた機能、そして分類ヘッドからデカップリングされた提案の2段階のデカップリング機能が処理される。 異なるバックボーンを持つ様々な検出器に対する広範囲な実験により、提案された敗北は、物体検出のための最先端の蒸留法を上回ることができることを示した。 例えば、DeFeatはResNet50ベースの高速R-CNNを37.4%から40.9%に改善し、ResNet50ベースのRetinaNetを36.5%から39.7%に改善した。 実装はhttps://github.com/g gjy/defeat.pytorchで利用可能です。

Knowledge distillation is a widely used paradigm for inheriting information from a complicated teacher network to a compact student network and maintaining the strong performance. Different from image classification, object detectors are much more sophisticated with multiple loss functions in which features that semantic information rely on are tangled. In this paper, we point out that the information of features derived from regions excluding objects are also essential for distilling the student detector, which is usually ignored in existing approaches. In addition, we elucidate that features from different regions should be assigned with different importance during distillation. To this end, we present a novel distillation algorithm via decoupled features (DeFeat) for learning a better student detector. Specifically, two levels of decoupled features will be processed for embedding useful information into the student, i.e., decoupled features from neck and decoupled proposals from classification head. Extensive experiments on various detectors with different backbones show that the proposed DeFeat is able to surpass the state-of-the-art distillation methods for object detection. For example, DeFeat improves ResNet50 based Faster R-CNN from 37.4% to 40.9% mAP, and improves ResNet50 based RetinaNet from 36.5% to 39.7% mAP on COCO benchmark. Our implementation is available at https://github.com/g gjy/DeFeat.pytorch.
翻訳日:2021-03-29 12:40:57 公開日:2021-03-26
# DivAug: 明示的な多様性の最大化によるプラグインの自動データ拡張

DivAug: Plug-in Automated Data Augmentation with Explicit Diversity Maximization ( http://arxiv.org/abs/2103.14545v1 )

ライセンス: Link先を確認
Zirui Liu, Haifeng Jin, Ting-Hsiang Wang, Kaixiong Zhou, Xia Hu(参考訳) 人間の設計したデータ拡張戦略は、過去2年間に自動的に学習された拡張ポリシーに置き換えられた。 特に、最近の研究は、自動データ拡張手法の優れた性能が、拡張データの多様性の向上に起因することを実証的に示している。 しかし, 拡張データの多様性に関する2つの要因は, 1) 多様性の明示的な定義(および測定), 2) 多様性と正規化効果の定量化の関係である。 このギャップを埋めるため,変数多様性と呼ばれる多様性尺度を提案し,データ拡張の正規化効果が変数多様性によって約束されることを示す。 テスト精度における自動データ拡張による相対的な利益は分散多様性と高い相関関係にあることを実験で検証した。 教師なしサンプリングベースのフレームワークDivAugは、変数の多様性を直接最大化し、従って正規化効果を強化するように設計されている。 個別の検索プロセスを必要としないため、DivAugのパフォーマンス向上は最先端の手法に匹敵し、効率が良い。 さらに,半教師付き環境下では,RandAugmentと比較してセミ教師付き学習アルゴリズムの性能が向上し,ラベル付きデータが乏しい実世界の問題にも高い適用性が期待できる。

Human-designed data augmentation strategies have been replaced by automatically learned augmentation policy in the past two years. Specifically, recent work has empirically shown that the superior performance of the automated data augmentation methods stems from increasing the diversity of augmented data. However, two factors regarding the diversity of augmented data are still missing: 1) the explicit definition (and thus measurement) of diversity and 2) the quantifiable relationship between diversity and its regularization effects. To bridge this gap, we propose a diversity measure called Variance Diversity and theoretically show that the regularization effect of data augmentation is promised by Variance Diversity. We validate in experiments that the relative gain from automated data augmentation in test accuracy is highly correlated to Variance Diversity. An unsupervised sampling-based framework, DivAug, is designed to directly maximize Variance Diversity and hence strengthen the regularization effect. Without requiring a separate search process, the performance gain from DivAug is comparable with the state-of-the-art method with better efficiency. Moreover, under the semi-supervised setting, our framework can further improve the performance of semi-supervised learning algorithms when compared to RandAugment, making it highly applicable to real-world problems, where labeled data is scarce.
翻訳日:2021-03-29 12:40:35 公開日:2021-03-26
# ソースデータのない教師なしロバスト領域適応

Unsupervised Robust Domain Adaptation without Source Data ( http://arxiv.org/abs/2103.14577v1 )

ライセンス: Link先を確認
Peshal Agarwal, Danda Pani Paudel, Jan-Nico Zaech and Luc Van Gool(参考訳) 使用不能なターゲットラベルとソースデータのコンテキストにおいて、ロバストなドメイン適応の問題について検討する。 強靭性は敵の摂動に対するものである。 本稿では、ソースデータなしで教師なし領域適応の設定において、ターゲットモデルを堅牢かつ正確なものにするための適切な戦略を見つけるという問題に答えることを目的とする。 本論文の主な発見は, (i) 頑健なソースモデルがターゲットに頑健に移動可能であること, (ii) 頑健なドメイン適応が非ロバストな擬似ラベルと対方向のコントラスト損失の恩恵を受けること,である。 非ロバスト擬似ラベルを用いる手法は, 画像分類において, クリーン試料と逆試料の両方において驚くほど有効である。 4つのベンチマークデータセットでテストされたベースラインに対して、一貫性のあるパフォーマンス改善が10〜%以上の精度を示す。

We study the problem of robust domain adaptation in the context of unavailable target labels and source data. The considered robustness is against adversarial perturbations. This paper aims at answering the question of finding the right strategy to make the target model robust and accurate in the setting of unsupervised domain adaptation without source data. The major findings of this paper are: (i) robust source models can be transferred robustly to the target; (ii) robust domain adaptation can greatly benefit from non-robust pseudo-labels and the pair-wise contrastive loss. The proposed method of using non-robust pseudo-labels performs surprisingly well on both clean and adversarial samples, for the task of image classification. We show a consistent performance improvement of over $10\%$ in accuracy against the tested baselines on four benchmark datasets.
翻訳日:2021-03-29 12:40:14 公開日:2021-03-26
# GeoSP:測地線距離に基づく皮質表面のパーセレーションの並列化法

GeoSP: A parallel method for a cortical surface parcellation based on geodesic distance ( http://arxiv.org/abs/2103.14579v1 )

ライセンス: Link先を確認
Narciso L\'opez-L\'opez, Andrea V\'azquez, Cyril Poupon, Jean-Fran\c{c}ois Mangin, Susana Ladra, and Pamela Guevara(参考訳) 本研究では,ジャイリ位相とサルシ位相を考えるために,測地線距離に基づく皮質メッシュのパーセレーションを作成する並列手法であるgeospを提案する。 この方法はメッシュをグラフで表現し、並列にK平均クラスタリングを実行する。 デフォルトではデシカン・キリアニー・アトラス(desikan-killiany atlas)によって提供される解剖学的パーセルの境界に基づいて測地学的皮質パーセルを実行する2つのモードがある。 他のモードは、大脳皮質の完全なパーセレーションを実行する。 両モードおよび各サブパーセルの総数の値の異なる結果は、均質なサブパーセルを示す。 さらに、実行時間は全皮質モードで82秒、デシカン・キリアニー・アトラスで18秒であり、350サブパーセルにパーセルする。 提案手法は,データ駆動型皮質パーセレーションの評価を行うために,コミュニティで利用可能となる。 例えば,50名の被験者で geosp parcellation と desikan-killiany と destrieux atlas を比較し,geosp に対してより均質なparcel を得た。

We present GeoSP, a parallel method that creates a parcellation of the cortical mesh based on a geodesic distance, in order to consider gyri and sulci topology. The method represents the mesh with a graph and performs a K-means clustering in parallel. It has two modes of use, by default, it performs the geodesic cortical parcellation based on the boundaries of the anatomical parcels provided by the Desikan-Killiany atlas. The other mode performs the complete parcellation of the cortex. Results for both modes and with different values for the total number of sub-parcels show homogeneous sub-parcels. Furthermore, the execution time is 82 s for the whole cortex mode and 18 s for the Desikan-Killiany atlas subdivision, for a parcellation into 350 sub-parcels. The proposed method will be available to the community to perform the evaluation of data-driven cortical parcellations. As an example, we compared GeoSP parcellation with Desikan-Killiany and Destrieux atlases in 50 subjects, obtaining more homogeneous parcels for GeoSP and minor differences in structural connectivity reproducibility across subjects.
翻訳日:2021-03-29 12:39:58 公開日:2021-03-26
# 弱教師付き意味セグメンテーションのための非サリエント領域オブジェクトマイニング

Non-Salient Region Object Mining for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2103.14581v1 )

ライセンス: Link先を確認
Yazhou Yao, Tao Chen, Guosen Xie, Chuanyi Zhang, Fumin Shen, Qi Wu, Zhenmin Tang, and Jian Zhang(参考訳) セマンティックセグメンテーションは、入力画像の各ピクセルを分類することを目的としている。 密集ラベルの取得が困難であることを踏まえて、研究者は最近、セグメンテーションのアノテーション負担を軽減するために弱いラベルに頼っている。 しかし、既存の作品は主にイメージの健全な領域内で擬似ラベルの種を拡大することに焦点を当てている。 本研究では,弱教師付きセマンティクスセグメンテーションのための非サリエント領域オブジェクトマイニング手法を提案する。 グラフに基づくグローバル推論ユニットを導入し、不連続地域と遠方地域のグローバルな関係を捉えることができる分類ネットワークの能力を強化する。 これにより、ネットワークはサルエント領域外のオブジェクト機能を活性化する。 非塩分領域オブジェクトをさらに掘り下げるために,セグメンテーションネットワークの自己補正能力を実現することを提案する。 具体的には、擬似ラベルの偽陰性率を低減するために、潜在的なオブジェクトマイニングモジュールを提案する。 さらに,複雑な画像に対してマスク付き擬似ラベルを生成するための領域マスキングモジュールを提案する。 非サリエント領域マスキングモジュールは、非サリエント領域内のオブジェクトをさらに発見するのに役立ちます。 PASCAL VOCデータセットの大規模な実験は、現在の手法と比較して最先端の結果を示している。

Semantic segmentation aims to classify every pixel of an input image. Considering the difficulty of acquiring dense labels, researchers have recently been resorting to weak labels to alleviate the annotation burden of segmentation. However, existing works mainly concentrate on expanding the seed of pseudo labels within the image's salient region. In this work, we propose a non-salient region object mining approach for weakly supervised semantic segmentation. We introduce a graph-based global reasoning unit to strengthen the classification network's ability to capture global relations among disjoint and distant regions. This helps the network activate the object features outside the salient area. To further mine the non-salient region objects, we propose to exert the segmentation network's self-correction ability. Specifically, a potential object mining module is proposed to reduce the false-negative rate in pseudo labels. Moreover, we propose a non-salient region masking module for complex images to generate masked pseudo labels. Our non-salient region masking module helps further discover the objects in the non-salient region. Extensive experiments on the PASCAL VOC dataset demonstrate state-of-the-art results compared to current methods.
翻訳日:2021-03-29 12:39:35 公開日:2021-03-26
# PAConv: ポイントクラウド上に動的カーネルを組み込んだ位置適応型コンボリューション

PAConv: Position Adaptive Convolution with Dynamic Kernel Assembling on Point Clouds ( http://arxiv.org/abs/2103.14635v1 )

ライセンス: Link先を確認
Mutian Xu, Runyu Ding, Hengshuang Zhao, Xiaojuan Qi(参考訳) 本稿では,3dポイントクラウド処理のための汎用畳み込み演算であるpaconv( position adaptive convolution)を提案する。 PAConvの鍵は、ウェイトバンクに格納された基本重み行列を動的に組み立てることで、畳み込みカーネルを構築することである。 このように、カーネルはデータ駆動方式で構築され、2Dコンボリューションよりも柔軟性の高いPAConvが不規則で非秩序なポイントクラウドデータを処理する。 さらに、点位置からカーネルを残酷に予測するのではなく、重み行列を組み合わせることで、学習プロセスの複雑さが低減される。 さらに、ネットワークアーキテクチャが多用される既存のポイント畳み込み演算子とは異なり、ネットワーク構成を変更することなく、PAConvを従来のMLPベースのポイントクラウドパイプラインに統合します。 単純なネットワーク上に構築しても,最先端のモデルにアプローチしたり,あるいは超越したりすることで,分類タスクとセグメント化タスクのベースライン性能を大幅に向上する。 PAConvを理解するために、徹底的なアブレーション研究と可視化が提供される。 コードはhttps://github.com/c vmi lab/paconvでリリースされている。

We introduce Position Adaptive Convolution (PAConv), a generic convolution operation for 3D point cloud processing. The key of PAConv is to construct the convolution kernel by dynamically assembling basic weight matrices stored in Weight Bank, where the coefficients of these weight matrices are self-adaptively learned from point positions through ScoreNet. In this way, the kernel is built in a data-driven manner, endowing PAConv with more flexibility than 2D convolutions to better handle the irregular and unordered point cloud data. Besides, the complexity of the learning process is reduced by combining weight matrices instead of brutally predicting kernels from point positions. Furthermore, different from the existing point convolution operators whose network architectures are often heavily engineered, we integrate our PAConv into classical MLP-based point cloud pipelines without changing network configurations. Even built on simple networks, our method still approaches or even surpasses the state-of-the-art models, and significantly improves baseline performance on both classification and segmentation tasks, yet with decent efficiency. Thorough ablation studies and visualizations are provided to understand PAConv. Code is released on https://github.com/C VMI Lab/PAConv.
翻訳日:2021-03-29 12:39:19 公開日:2021-03-26
# スパースビューからの平面形状復元

Planar Surface Reconstruction from Sparse Views ( http://arxiv.org/abs/2103.14644v1 )

ライセンス: Link先を確認
Linyi Jin, Shengyi Qian, Andrew Owens, David F. Fouhey(参考訳) この論文は、未知のカメラポーズを持つ2つの視点から室内シーンを平面的に再現する。 以前のアプローチは多くのシーンのオブジェクト中心の再構築に成功したが、通常は屋内シーンの主要な構成要素である平面のような他の構造を利用することができなかった。 本稿では,複数視点から平面面を再構成し,カメラのポーズを同時推定する。 実験により,本手法は,Matterport3Dの挑戦的なシーンにおいて,疎遠な視点から再現の手法を推し進めることができることを示した。 プロジェクトサイト: https://jinlinyi.git hub.io/sparseplanes/

The paper studies planar surface reconstruction of indoor scenes from two views with unknown camera poses. While prior approaches have successfully created object-centric reconstructions of many scenes, they fail to exploit other structures, such as planes, which are typically the dominant components of indoor scenes. In this paper, we reconstruct planar surfaces from multiple views, while jointly estimating camera pose. Our experiments demonstrate that our method is able to advance the state of the art of reconstruction from sparse views, on challenging scenes from Matterport3D. Project site: https://jinlinyi.git hub.io/SparsePlanes/
翻訳日:2021-03-29 12:38:59 公開日:2021-03-26
# 関数型言語モデル

Functorial Language Models ( http://arxiv.org/abs/2103.14411v1 )

ライセンス: Link先を確認
Alexis Toumi, Alex Koziell-Pipe(参考訳) 文法から意味へのモノイド関手が与えられた単語列上の確率分布を原理的に計算する手法である。 これにより、生テキストデータに基づいてカテゴリ構成分布(DisCoCat)モデルを訓練する。 モノイダルカテゴリ用のPythonツールボックスであるDisCoPyで概念実証実装を提供する。

We introduce functorial language models: a principled way to compute probability distributions over word sequences given a monoidal functor from grammar to meaning. This yields a method for training categorical compositional distributional (DisCoCat) models on raw text data. We provide a proof-of-concept implementation in DisCoPy, the Python toolbox for monoidal categories.
翻訳日:2021-03-29 12:38:49 公開日:2021-03-26
# 階層型量子化連合学習:収束解析とシステム設計

Hierarchical Quantized Federated Learning: Convergence Analysis and System Design ( http://arxiv.org/abs/2103.14272v1 )

ライセンス: Link先を確認
Lumin Liu, Jun Zhang, Shenghui Song, Khaled B. Letaief(参考訳) Federated Learningは、クライアントのプライベートデータにアクセスせずにディープニューラルネットワークをトレーニングするための、協調的な機械学習フレームワークである。 以前の作業では、クラウドまたはエッジの1つの中央パラメータサーバを想定していた。 クラウドサーバは参加するすべてのクライアントから知識を集約できるが、通信のオーバーヘッドやレイテンシは高く、エッジサーバはモデル更新時により効率的な通信を享受できるが、限られた数のクライアントにしか到達できない。 本稿では,クラウドサーバとエッジサーバの両方の利点を活用し,一つのクラウドサーバ,複数のエッジサーバ,多数のクライアントを備えた階層的量子化フェデレートラーニング(HQFL)システムについて考察する。 高い通信効率は、エッジサーバでの頻繁なローカルアグリゲーションと、クラウドサーバでのアグリゲーションの削減と、モデルアップロード時のウェイト量子化によってもたらされます。 非凸目的損失関数に束縛された密収束法を導出し、精度-遅延トレードオフとエッジ-クライアント結合という2つの設計問題に応用する。 トレーニングプロセス全体の遅延予算が与えられると、2つの集約間隔と2つの量子化レベルに関して最適なパラメータ選択が存在することが示される。 エッジ・クライアント・アソシエーション問題では,エッジ・クライアント・アソシエーション戦略が収束速度に影響を与えないことが判明した。 実験シミュレーションでは, 収束解析の結果を検証し, 階層型連合学習システムにおける精度-遅延トレードオフを実証する。

Federated learning is a collaborative machine learning framework to train deep neural networks without accessing clients' private data. Previous works assume one central parameter server either at the cloud or at the edge. A cloud server can aggregate knowledge from all participating clients but suffers high communication overhead and latency, while an edge server enjoys more efficient communications during model update but can only reach a limited number of clients. This paper exploits the advantages of both cloud and edge servers and considers a Hierarchical Quantized Federated Learning (HQFL) system with one cloud server, several edge servers and many clients, adopting a communication-effici ent training algorithm, Hier-Local-QSGD. The high communication efficiency comes from frequent local aggregations at the edge servers and fewer aggregations at the cloud server, as well as weight quantization during model uploading. A tight convergence bound for non-convex objective loss functions is derived, which is then applied to investigate two design problems, namely, the accuracy-latency trade-off and edge-client association. It will be shown that given a latency budget for the whole training process, there is an optimal parameter choice with respect to the two aggregation intervals and two quantization levels. For the edge-client association problem, it is found that the edge-client association strategy has no impact on the convergence speed. Empirical simulations shall verify the findings from the convergence analysis and demonstrate the accuracy-latency trade-off in the hierarchical federated learning system.
翻訳日:2021-03-29 12:37:39 公開日:2021-03-26
# Bellman:TensorFlowのモデルベース強化学習用ツールボックス

Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow ( http://arxiv.org/abs/2103.14407v1 )

ライセンス: Link先を確認
John McLeod, Hrvoje Stojic, Vincent Adam, Dongho Kim, Jordi Grau-Moya, Peter Vrancx, Felix Leibfried(参考訳) 過去10年間、モデルフリー強化学習(rl)はロボティクスのような挑戦的な領域に対する解決策を提供してきた。 モデルベースのrlは、エージェント-環境相互作用の観点からは、モデルフリーの手法よりもサンプル効率が良い可能性を示している。 より最近のモデルベース手法は、非線形状態遷移を持ついくつかの挑戦領域において、モデルフリー手法と比較して優れた結果を示している。 同時に、rlはまだ市場対応ができていないこと、そして多くの実世界のアプリケーションがモデルベースのアプローチを必要とすることが明らかになった。 後者は特に産業において重要である。 会社の収益に直接影響を与える生産システムです これは、モデルベースのRLのバウンダリをプッシュするツールボックスの必要性を示している。 モデルフリーRLには多数のツールボックスがあるが、モデルベースRLはツールボックス開発に関してほとんど注目されていない。 Bellman氏はこのギャップを埋めることを目指しており、最先端のソフトウェアエンジニアリングプラクティスを使用して、モデルベースのRLツールボックスを設計し、テストした初めての例を紹介している。 我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。 また,モデルフリーエージェントとモデルベースエージェントを系統的手法で比較するための実験ハーネスも提供する。 ユーザ定義評価指標(例) 累積報酬)。 これは、例えば、新しい研究方向への道を開く。 必ずしもニューラルネットベースではない不確実性を認識した環境モデルの調査や、実世界の問題と特性を共有する産業動機付けベンチマークを解くアルゴリズムの開発。

In the past decade, model-free reinforcement learning (RL) has provided solutions to challenging domains such as robotics. Model-based RL shows the prospect of being more sample-efficient than model-free methods in terms of agent-environment interactions, because the model enables to extrapolate to unseen situations. In the more recent past, model-based methods have shown superior results compared to model-free methods in some challenging domains with non-linear state transitions. At the same time, it has become apparent that RL is not market-ready yet and that many real-world applications are going to require model-based approaches, because model-free methods are too sample-inefficient and show poor performance in early stages of training. The latter is particularly important in industry, e.g. in production systems that directly impact a company's revenue. This demonstrates the necessity for a toolbox to push the boundaries for model-based RL. While there is a plethora of toolboxes for model-free RL, model-based RL has received little attention in terms of toolbox development. Bellman aims to fill this gap and introduces the first thoroughly designed and tested model-based RL toolbox using state-of-the-art software engineering practices. Our modular approach enables to combine a wide range of environment models with generic model-based agent classes that recover state-of-the-art algorithms. We also provide an experiment harness to compare both model-free and model-based agents in a systematic fashion w.r.t. user-defined evaluation metrics (e.g. cumulative reward). This paves the way for new research directions, e.g. investigating uncertainty-aware environment models that are not necessarily neural-network-based , or developing algorithms to solve industrially-motivat ed benchmarks that share characteristics with real-world problems.
翻訳日:2021-03-29 12:37:12 公開日:2021-03-26
# 高速軽量変圧器に関する実態調査

A Practical Survey on Faster and Lighter Transformers ( http://arxiv.org/abs/2103.14636v1 )

ライセンス: Link先を確認
Quentin Fournier, Ga\'etan Marceau Caron, and Daniel Aloise(参考訳) リカレントニューラルネットワークは、シーケンスを処理する効果的なモデルである。 しかし、その本質的な逐次性のため、長期的な依存関係を学べない。 解決策として、Vaswaniら。 Transformerは、入力シーケンスの任意の2つの位置を関連付けることができ、従って任意の長い依存関係をモデル化できるアテンションメカニズムのみに基づくモデルである。 Transformerは、多くのシーケンスモデリングタスクの最先端を改善した。 しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にして、その採用を妨げる。 幸いなことに、ディープラーニングコミュニティは常にモデルの効率向上に関心を持ち、パラメータ共有、プルーニング、混合精度、知識蒸留といった多くのソリューションを生み出している。 近年、研究者らは、Longformer、Reformer、Linformer、Performerといった低複雑さの代替品を設計することで、Transformerの制限に対処している。 しかし、幅広いソリューションがあるため、ディープラーニングコミュニティでは、キャパシティ、計算、メモリ間のトレードオフを満たすために、実際にどの方法を適用するかを決定することが困難になっている。 本調査は,Transformerの高速化と軽量化のための一般的なアプローチを調査し,手法の強み,限界,基礎となる仮定を包括的に説明することによって,この問題に対処する。

Recurrent neural networks are effective models to process sequences. However, they are unable to learn long-term dependencies because of their inherent sequential nature. As a solution, Vaswani et al. introduced the Transformer, a model solely based on the attention mechanism that is able to relate any two positions of the input sequence, hence modelling arbitrary long dependencies. The Transformer has improved the state-of-the-art across numerous sequence modelling tasks. However, its effectiveness comes at the expense of a quadratic computational and memory complexity with respect to the sequence length, hindering its adoption. Fortunately, the deep learning community has always been interested in improving the models' efficiency, leading to a plethora of solutions such as parameter sharing, pruning, mixed-precision, and knowledge distillation. Recently, researchers have directly addressed the Transformer's limitation by designing lower-complexity alternatives such as the Longformer, Reformer, Linformer, and Performer. However, due to the wide range of solutions, it has become challenging for the deep learning community to determine which methods to apply in practice to meet the desired trade-off between capacity, computation, and memory. This survey addresses this issue by investigating popular approaches to make the Transformer faster and lighter and by providing a comprehensive explanation of the methods' strengths, limitations, and underlying assumptions.
翻訳日:2021-03-29 12:36:47 公開日:2021-03-26
# LS-CAT: 大規模CUDAオートチューニングデータセット

LS-CAT: A Large-Scale CUDA AutoTuning Dataset ( http://arxiv.org/abs/2103.14409v1 )

ライセンス: Link先を確認
Lars Bjertnes, Jacob O. T{\o}rring, Anne C. Elster(参考訳) 機械学習(ML)手法の有効性は、大きな適切なデータセットへのアクセスに依存する。 本稿では、NLPベースのMLモデルのトレーニングを目的とした、GitHubからソースされたLS-CAT(Large-Scale CUDA AutoTuning)データセットの構築方法について紹介する。 我々のデータセットには線形代数に焦点を当てた683 CUDAカーネルが19個含まれている。 当社のLS-CATデータセットには,CUDAコードに加えて,カーネル,ブロックサイズ,マトリックスサイズなど,5つの028 536関連ランタイムが含まれている。 ランタイムはNvidia GTX 980とNvidia T4システムのGPUベンチマークである。 この情報は、NLPベースのモデルがソースコードの特徴とスレッドブロックサイズを最適に選択することの間の相関を見出す基盤となる。 LS-CATデータベースから得られるいくつかの結果があります。 例えば, 実験結果から, スレッドブロックサイズを最適に選択すると, 平均ケースの平均6%が得られることがわかった。 また, 性能向上の程度を解析した結果, 最適ブロックを用いることで, 性能向上の10%以上を達成できることがわかった。 また、現在および今後の作品の記述も含んでいる。

The effectiveness of Machine Learning (ML) methods depend on access to large suitable datasets. In this article, we present how we build the LS-CAT (Large-Scale CUDA AutoTuning) dataset sourced from GitHub for the purpose of training NLP-based ML models. Our dataset includes 19 683 CUDA kernels focused on linear algebra. In addition to the CUDA codes, our LS-CAT dataset contains 5 028 536 associated runtimes, with different combinations of kernels, block sizes and matrix sizes. The runtime are GPU benchmarks on both Nvidia GTX 980 and Nvidia T4 systems. This information creates a foundation upon which NLP-based models can find correlations between source-code features and optimal choice of thread block sizes. There are several results that can be drawn out of our LS-CAT database. E.g., our experimental results show that an optimal choice in thread block size can gain an average of 6% for the average case. We thus also analyze how much performance increase can be achieved in general, finding that in 10% of the cases more than 20% performance increase can be achieved by using the optimal block. A description of current and future work is also included.
翻訳日:2021-03-29 12:36:11 公開日:2021-03-26
# オンラインASRのための相互拘束型モノトニックマルチヘッドアテンション

Mutually-Constrained Monotonic Multihead Attention for Online ASR ( http://arxiv.org/abs/2103.14302v1 )

ライセンス: Link先を確認
Jaeyun Song, Hajin Shim, Eunho Yang(参考訳) リアルタイムデコーディングの機能にもかかわらず、モノトニック・マルチヘッド・アテンション(MMA)は、機械翻訳や自動音声認識(ASR)タスクにおける最先端のオフライン手法と同等のパフォーマンスを示す。 しかし、MMAのレイテンシは依然としてASRの大きな問題であり、ヘッド同期ビームサーチデコーディングのような、最初のヘッドアクティベーションから小さな固定遅延の後、すべての非アクティブヘッドをアクティベートするよう強制する、推論時間におけるテストレイテンシを低減する技術と組み合わせるべきである。 本稿では、MMAのトレーニングにおいて、テスト時間中に発生する複数のヘッド間の相互作用を考慮して、トレーニングとテストフェーズの相違を除去する。 具体的には、他の頭部の境界を考慮し、学習過程に反映することで、単調な注意から期待されるアライメントを導出する。 提案手法は,ASRの2つの標準ベンチマークデータセット上で検証し,トレーニング段階から相互に制約された頭部を持つMMAがベースラインよりも優れた性能を提供することを示す。

Despite the feature of real-time decoding, Monotonic Multihead Attention (MMA) shows comparable performance to the state-of-the-art offline methods in machine translation and automatic speech recognition (ASR) tasks. However, the latency of MMA is still a major issue in ASR and should be combined with a technique that can reduce the test latency at inference time, such as head-synchronous beam search decoding, which forces all non-activated heads to activate after a small fixed delay from the first head activation. In this paper, we remove the discrepancy between training and test phases by considering, in the training of MMA, the interactions across multiple heads that will occur in the test time. Specifically, we derive the expected alignments from monotonic attention by considering the boundaries of other heads and reflect them in the learning process. We validate our proposed method on the two standard benchmark datasets for ASR and show that our approach, MMA with the mutually-constrained heads from the training stage, provides better performance than baselines.
翻訳日:2021-03-29 12:35:55 公開日:2021-03-26
# 複合共変量法による高次元回帰調整のための履歴データ活用

Leveraging Historical Data for High-Dimensional Regression Adjustment, a Composite Covariate Approach ( http://arxiv.org/abs/2103.14421v1 )

ライセンス: Link先を確認
Samuel Branders, Alvaro Pereira, Guillaume Bernard, Marie Ernst, Adelin Albert(参考訳) 臨床試験に携わる患者から収集されたデータ量は増え続けている。 すべての患者の特徴は、臨床試験の分析とパワーを改善するために使用できる潜在的な共変体である。 しかし、第I相と第II相の研究における患者数の制限は、分析に含まれる共変量を制限する。 本稿では,臨床治験分析における共変量を含む費用/便益比について検討する。 この文脈の中で、我々は「臨床試験に含める最適な共変量は何」という長期にわたる疑問に対処する。 新たな複合共変量の定義と見なすことができる共変量重みを事前に特定するために、共変量のコスト/便益比をさらに向上させることができる。 臨床における治療効果を推定しながら, 複合型共変量の利用を解析した。 複合共変量体は自由度喪失と過剰適合のリスクを制限する。

The amount of data collected from patients involved in clinical trials is continuously growing. All patient characteristics are potential covariates that could be used to improve clinical trial analysis and power. However, the restricted number of patients in phases I and II studies limits the possible number of covariates included in the analyses. In this paper, we investigate the cost/benefit ratio of including covariates in the analysis of clinical trials. Within this context, we address the long-running question "What is the optimum number of covariates to include in a clinical trial?" To further improve the cost/benefit ratio of covariates, historical data can be leveraged to pre-specify the covariate weights, which can be viewed as the definition of a new composite covariate. We analyze the use of a composite covariate while estimating the treatment effect in small clinical trials. A composite covariate limits the loss of degrees of freedom and the risk of overfitting.
翻訳日:2021-03-29 12:35:35 公開日:2021-03-26
# 形式仕様を用いたロバストパンデミック制御合成 : COVID-19パンデミックを事例として

Robust Pandemic Control Synthesis with Formal Specifications: A Case Study on COVID-19 Pandemic ( http://arxiv.org/abs/2103.14262v1 )

ライセンス: Link先を確認
Zhe Xu and Xiaoming Duan(参考訳) パンデミックは公衆衛生や世界経済に壊滅的な影響を与える可能性がある。 最も効果的な制御戦略の特定は、世界中の命令的タスクである。 様々な公衆衛生管理戦略が提案され、新型コロナウイルス(covid-19)に対する検査が行われている。 本研究は,予防接種制御による感染性,感染性,感染性,回復性(SEIR)モデルと,シールド免疫制御によるSEIRモデルである。 我々は、計量時間論理(MTL)式でパンデミック制御の要求を表現する。 次に、最適制御戦略をMTL仕様で合成するための反復的アプローチを開発する。 シミュレーションの結果は, 予防接種コントロールとシールド免疫制御の2つの異なるシナリオにおいて, イタリア・ロンバルディアのデータからモデルパラメータを推定した。 提案手法は,各カテゴリの個体数(感染症,免疫など)が初期状態やパラメータの不確実性に対して頑健なMTL仕様を満たすような制御入力を生成できることを示す。

Pandemics can bring a range of devastating consequences to public health and the world economy. Identifying the most effective control strategies has been the imperative task all around the world. Various public health control strategies have been proposed and tested against pandemic diseases (e.g., COVID-19). We study two specific pandemic control models: the susceptible, exposed, infectious, recovered (SEIR) model with vaccination control; and the SEIR model with shield immunity control. We express the pandemic control requirement in metric temporal logic (MTL) formulas. We then develop an iterative approach for synthesizing the optimal control strategies with MTL specifications. We provide simulation results in two different scenarios for robust control of the COVID-19 pandemic: one for vaccination control, and another for shield immunity control, with the model parameters estimated from data in Lombardy, Italy. The results show that the proposed synthesis approach can generate control inputs such that the time-varying numbers of individuals in each category (e.g., infectious, immune) satisfy the MTL specifications with robustness against initial state and parameter uncertainties.
翻訳日:2021-03-29 12:35:02 公開日:2021-03-26
# 計量時相論理仕様を持つスイッチト確率系の制御器合成の正当性:電力系統を事例として

Provably Correct Controller Synthesis of Switched Stochastic Systems with Metric Temporal Logic Specifications: A Case Study on Power Systems ( http://arxiv.org/abs/2103.14264v1 )

ライセンス: Link先を確認
Zhe Xu and Yichen Zhang(参考訳) 本稿では, 確率的保証が期待できるメカニカル時間論理(MTL)仕様のスイッチング確率制御系に対して, 有効に正確なコントローラ合成手法を提案する。 まず,スイッチング確率制御系と,その名目決定性制御系との軌道のばらつきを確率論的に限定した確率制御系に対する確率制御ビシミュレーション関数を提案する。 そこで我々は,初期状態の変動や確率的不確実性に対して頑健な決定論的制御系の命名軌道に対する最適化問題を解くことにより,最適制御入力を計算する方法を開発した。 我々は,4系統の系統と9系統の系統の系統の両方において,系統の周波数偏差,風力タービン発電機の回転翼の速度変動,異なる電力線での潮流制約の要求をmtl仕様で表現したロバストな確率制御器合成手法を実装した。

In this paper, we present a provably correct controller synthesis approach for switched stochastic control systems with metric temporal logic (MTL) specifications with provable probabilistic guarantees. We first present the stochastic control bisimulation function for switched stochastic control systems, which bounds the trajectory divergence between the switched stochastic control system and its nominal deterministic control system in a probabilistic fashion. We then develop a method to compute optimal control inputs by solving an optimization problem for the nominal trajectory of the deterministic control system with robustness against initial state variations and stochastic uncertainties. We implement our robust stochastic controller synthesis approach on both a four-bus power system and a nine-bus power system under generation loss disturbances, with MTL specifications expressing requirements for the grid frequency deviations, wind turbine generator rotor speed variations and the power flow constraints at different power lines.
翻訳日:2021-03-29 12:34:41 公開日:2021-03-26
# 単チャンネル話者分離のための簡易学習法

Guided Training: A Simple Method for Single-channel Speaker Separation ( http://arxiv.org/abs/2103.14330v1 )

ライセンス: Link先を確認
Hao Li, Xueliang Zhang, Guanglai Gao(参考訳) 深層学習は、特に音声と非音声の分離において、音声の分離に大きな可能性を示している。 しかし、ターゲットと干渉の両方が音声であるマルチスピーカー分離の置換問題に遭遇する。 複数の話者の順序を置換することでこの問題を解決するために, 置換不変トレーニング (pit) が提案されている。 別の方法は、ターゲット話者の短いスピーチであるアンカー音声を使用して、話者のアイデンティティをモデル化することである。 本稿では,長寿命記憶モデル(LSTM)を学習し,話者分離における置換問題を解くための簡単な手法を提案する。 具体的には、混合の先頭に目標話者の短い音声をガイド情報として挿入する。 したがって、第1の話者はターゲットとして定義される。 シーケンスモデリングの強力な能力のため、LSTMはそのメモリセルを使用して、ターゲット音声と干渉音声の追跡と分離を行うことができる。 実験の結果,提案手法は話者分離に有効であることがわかった。

Deep learning has shown a great potential for speech separation, especially for speech and non-speech separation. However, it encounters permutation problem for multi-speaker separation where both target and interference are speech. Permutation Invariant training (PIT) was proposed to solve this problem by permuting the order of the multiple speakers. Another way is to use an anchor speech, a short speech of the target speaker, to model the speaker identity. In this paper, we propose a simple strategy to train a long short-term memory (LSTM) model to solve the permutation problem in speaker separation. Specifically, we insert a short speech of target speaker at the beginning of a mixture as guide information. So, the first appearing speaker is defined as the target. Due to the powerful capability on sequence modeling, LSTM can use its memory cells to track and separate target speech from interfering speech. Experimental results show that the proposed training strategy is effective for speaker separation.
翻訳日:2021-03-29 12:34:25 公開日:2021-03-26
# 四足歩行制御のためのmpcからの模倣学習

Imitation Learning from MPC for Quadrupedal Multi-Gait Control ( http://arxiv.org/abs/2103.14331v1 )

ライセンス: Link先を確認
Alexander Reske, Jan Carius, Yuntao Ma, Farbod Farshidian, Marco Hutter(参考訳) 本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。 そこで我々は,モデル予測制御 (MPC) が指導する模倣学習手法である MPC-Net の利用と拡張を行う。 MPC-Netの戦略は、最適性の原理から導かれる制御ハミルトニアンを最小化することが目的であるため、他の多くのアプローチとは異なる。 政策を表現するために,混合専門家ネットワーク(men)を用いて,歩行ロボットなどのハイブリッドシステムの正確に1つのモードを制御することを専門とする男性の専門家が,政策の性能向上を観察する。 本稿では,このような専門家選択行動を実現するために,単一・複数ゲットポリシーに対する新たな損失関数を提案する。 さらに,様々な地形シナリオにおける行動クローン化とmpc実装に対するアルゴリズムのベンチマークを行った。 ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示す。

We present a learning algorithm for training a single policy that imitates multiple gaits of a walking robot. To achieve this, we use and extend MPC-Net, which is an Imitation Learning approach guided by Model Predictive Control (MPC). The strategy of MPC-Net differs from many other approaches since its objective is to minimize the control Hamiltonian, which derives from the principle of optimality. To represent the policies, we employ a mixture-of-experts network (MEN) and observe that the performance of a policy improves if each expert of a MEN specializes in controlling exactly one mode of a hybrid system, such as a walking robot. We introduce new loss functions for single- and multi-gait policies to achieve this kind of expert selection behavior. Moreover, we benchmark our algorithm against Behavioral Cloning and the original MPC implementation on various rough terrain scenarios. We validate our approach on hardware and show that a single learned policy can replace its teacher to control multiple gaits.
翻訳日:2021-03-29 12:34:14 公開日:2021-03-26
# 時間的目標を優先する確率的計画

Probabilistic Planning with Preferences over Temporal Goals ( http://arxiv.org/abs/2103.14489v1 )

ライセンス: Link先を確認
Jie Fu(参考訳) 本稿では,時間目標に対する質的選好を定式化するための形式言語と,確率システムにおける選好に基づく計画法を提案する。 自動理論モデルを用いて,提案した仕様は,各結果がサブゴールの時間列の集合を記述する場合の,異なる結果集合に対する嗜好を表現することができる。 本研究では,確率的プロセスによる選好満足度値を定義し,予め定義された有限時間内に選好公式を最大化することを目的としたラベル付きマルコフ決定プロセスにおいて,時間制約付き確率計画のためのアルゴリズムを開発する。 確率的グリッドワールドの例を用いて実験結果を提示し,提案した選好モデルの拡張可能性について考察する。

We present a formal language for specifying qualitative preferences over temporal goals and a preference-based planning method in stochastic systems. Using automata-theoretic modeling, the proposed specification allows us to express preferences over different sets of outcomes, where each outcome describes a set of temporal sequences of subgoals. We define the value of preference satisfaction given a stochastic process over possible outcomes and develop an algorithm for time-constrained probabilistic planning in labeled Markov decision processes where an agent aims to maximally satisfy its preference formula within a pre-defined finite time duration. We present experimental results using a stochastic gridworld example and discuss possible extensions of the proposed preference model.
翻訳日:2021-03-29 12:33:56 公開日:2021-03-26
# 海洋除雪ベンチマークデータセット

Marine Snow Removal Benchmarking Dataset ( http://arxiv.org/abs/2103.14249v1 )

ライセンス: Link先を確認
Yuya Sato, Takumi Ueda, Yuichi Tanaka(参考訳) 本稿では,水中画像の海洋除雪のための新しいベンチマークデータセットを提案する。 海洋性雪は、水中のシーンと光センサーの間の小さな粒子、例えば有機物や砂によって引き起こされる水中画像の主要な劣化源の1つである。 実際の水中画像から2種類の海洋性雪を数学的にモデル化する。 モデル化されたアーティファクトを水中画像で合成し、大規模に一対の地上構造と劣化した画像を構築し、海洋性除雪の目標品質を計算し、深層ニューラルネットワークを訓練する。 本研究では,このデータを用いて2つの海中除雪タスクを提案し,海中除雪のベンチマーク結果を示す。 Marine Snow removal Benchmarking Datasetはオンラインで公開されている。

This paper introduces a new benchmarking dataset for marine snow removal of underwater images. Marine snow is one of the main degradation sources of underwater images that are caused by small particles, e.g., organic matter and sand, between the underwater scene and photosensors. We mathematically model two typical types of marine snow from the observations of real underwater images. The modeled artifacts are synthesized with underwater images to construct large-scale pairs of ground-truth and degraded images to calculate objective qualities for marine snow removal and to train a deep neural network. We propose two marine snow removal tasks using the dataset and show the first benchmarking results of marine snow removal. The Marine Snow Removal Benchmarking Dataset is publicly available online.
翻訳日:2021-03-29 12:33:45 公開日:2021-03-26
# Mixing-AdaSIN:Adapti ve Structure Instance normalization and texture Mixingを用いた非バイアスデータセットの構築

Mixing-AdaSIN: Constructing a de-biased dataset using Adaptive Structural Instance Normalization and texture Mixing ( http://arxiv.org/abs/2103.14255v1 )

ライセンス: Link先を確認
Myeongkyun Kang, Philip Chikontwe, Miguel Luna, Kyung Soo Hong, June Hong Ahn, Sang Hyun Park(参考訳) 新型コロナウイルスのパンデミック後、いくつかの研究で、CT(Computed tomography)の深層学習による新型コロナウイルスの診断が提案されている。 しかし、同じ分布内データでトレーニング/テストされたモデルは、予測を成功させるために固有のデータバイアスに依存し、異なる走査プロトコルで分布外サンプルやCTを一般化できない可能性がある。 初期の試みは、拡張や再サンプリングによるバイアス緩和と一般化に部分的に対処してきたが、それでも医療画像におけるバイアスの定量化の困難さと収集コストによって制限されている。 本研究では,異なるラベル付きCTスキャンのテクスチャ情報を意味的に類似した特徴と組み合わせることで,生成モデルを用いてデバイアス画像を生成するバイアス緩和手法であるMixing-AdaSINを提案する。 ここでは,アダプティブ構造インスタンス正規化(adasin)を用いて,デバイアス生成品質の向上と構造整合性の保証を行う。 次に、生成された画像で訓練された分類器は、バイアスなくラベルを正確に予測し、より一般化する。 本手法の有効性を実証するために,CTプロトコルに基づく新型コロナウイルスと細菌性肺炎データセットの偏りと,既存の最先端脱バイアス法との比較を行った。 実験の結果,非バイアス画像で訓練した分類器は,外部のCOVID-19データセット上での分布性能と一般化を改善した。

Following the pandemic outbreak, several works have proposed to diagnose COVID-19 with deep learning in computed tomography (CT); reporting performance on-par with experts. However, models trained/tested on the same in-distribution data may rely on the inherent data biases for successful prediction, failing to generalize on out-of-distribution samples or CT with different scanning protocols. Early attempts have partly addressed bias-mitigation and generalization through augmentation or re-sampling, but are still limited by collection costs and the difficulty of quantifying bias in medical images. In this work, we propose Mixing-AdaSIN; a bias mitigation method that uses a generative model to generate de-biased images by mixing texture information between different labeled CT scans with semantically similar features. Here, we use Adaptive Structural Instance Normalization (AdaSIN) to enhance de-biasing generation quality and guarantee structural consistency. Following, a classifier trained with the generated images learns to correctly predict the label without bias and generalizes better. To demonstrate the efficacy of our method, we construct a biased COVID-19 vs. bacterial pneumonia dataset based on CT protocols and compare with existing state-of-the-art de-biasing methods. Our experiments show that classifiers trained with de-biased generated images report improved in-distribution performance and generalization on an external COVID-19 dataset.
翻訳日:2021-03-29 12:33:33 公開日:2021-03-26
# パーソナライズドジオメトリとテクスチャモデリングによる人間の動き伝達

Few-Shot Human Motion Transfer by Personalized Geometry and Texture Modeling ( http://arxiv.org/abs/2103.14338v1 )

ライセンス: Link先を確認
Zhichao Huang, Xintong Han, Jia Xu, Tong Zhang(参考訳) 本稿では,少数の外観入力しか持たないリアルな人体画像生成を実現する,数発の人体モーショントランスファーの新しい手法を提案する。 近年の個人移動の進歩にもかかわらず、事前の方法は多くの訓練画像を必要とし、長い訓練時間を要することが多い。 有望な方向の1つは、外見の転送にいくつかのソースイメージを必要とする、少数の人間のモーション転送を実行することである。 しかし, 良好な転送結果を得ることは特に困難である。 本稿では,人間のテクスチャマップを,ソースにパーソナライズされた表面形状(uvマップ)にレンダリングすることで,この問題に対処する。 形状生成器は,ソース画像からの形状情報と2次元キーポイントからのポーズ情報を組み合わせて,パーソナライズしたuvマップを合成する。 テクスチャ生成器は、ソース画像のテクスチャに条件付きテクスチャマップを生成して、見えない部分を埋める。 さらに、テスト時にいくつかのソース画像からテクスチャ生成器の多様体上にテクスチャマップを微調整することで、過剰なフィッティングやアーティファクトを必要とせずにテクスチャマップの品質を向上させることができる。 大規模実験により,提案手法は定性的かつ定量的に,最先端の手法よりも優れていた。 私たちのコードはhttps://github.com/H uangZhiChao95/FewSho tMotionTransferで利用可能です。

We present a new method for few-shot human motion transfer that achieves realistic human image generation with only a small number of appearance inputs. Despite recent advances in single person motion transfer, prior methods often require a large number of training images and take long training time. One promising direction is to perform few-shot human motion transfer, which only needs a few of source images for appearance transfer. However, it is particularly challenging to obtain satisfactory transfer results. In this paper, we address this issue by rendering a human texture map to a surface geometry (represented as a UV map), which is personalized to the source person. Our geometry generator combines the shape information from source images, and the pose information from 2D keypoints to synthesize the personalized UV map. A texture generator then generates the texture map conditioned on the texture of source images to fill out invisible parts. Furthermore, we may fine-tune the texture map on the manifold of the texture generator from a few source images at the test time, which improves the quality of the texture map without over-fitting or artifacts. Extensive experiments show the proposed method outperforms state-of-the-art methods both qualitatively and quantitatively. Our code is available at https://github.com/H uangZhiChao95/FewSho tMotionTransfer.
翻訳日:2021-03-29 12:33:09 公開日:2021-03-26
# YOLinO: 単一ショットポリリンをリアルタイムに検出する

YOLinO: Generic Single Shot Polyline Detection in Real Time ( http://arxiv.org/abs/2103.14420v1 )

ライセンス: Link先を確認
Annika Meyer, Philipp Skudlik, Jan-Hendrik Pauls, Christoph Stiller(参考訳) 画像中のポリリンの検出は通常、ブランチレスのポリリンに束縛されるか、あるいはリカレントな方法で定式化される。 単発物体検出のアイデアを伝達する手法を提案する。 小線セグメントのボトムアップ組成としてポリライン検出の問題を改質することで、単一のヘッドで境界付き、破断され、連続的なポリラインを検出することができる。 これは以前の方法よりもいくつかの大きな利点がある。 この方法は、検出されたポリラインの形状にほとんど制限のないリアルタイムアプリケーションに適合する187 fps以上である。 空間セル毎に複数の線分を予測することにより、分岐や交差するポリラインを検出することができる。 道路標識,車線境界,中心線検出の3つの異なる応用について検討した。 ここでは,暗黙的および明示的なポリライン検出タスクだけでなく,異なるドメインに一般化する能力を示す。

The detection of polylines in images is usually either bound to branchless polylines or formulated in a recurrent way, prohibiting their use in real-time systems. We propose an approach that transfers the idea of single shot object detection. Reformulating the problem of polyline detection as bottom-up composition of small line segments allows to detect bounded, dashed and continuous polylines with a single head. This has several major advantages over previous methods. Not only is the method at 187 fps more than suited for real-time applications with virtually any restriction on the shapes of the detected polylines. By predicting multiple line segments for each spatial cell, even branching or crossing polylines can be detected. We evaluate our approach on three different applications for road marking, lane border and center line detection. Hereby, we demonstrate the ability to generalize to different domains as well as both implicit and explicit polyline detection tasks.
翻訳日:2021-03-29 12:32:44 公開日:2021-03-26
# 強化知識蒸留による深部回帰トラッカーの弱改善ドメイン適応

Weakly-Supervised Domain Adaptation of Deep Regression Trackers via Reinforced Knowledge Distillation ( http://arxiv.org/abs/2103.14496v1 )

ライセンス: Link先を確認
Matteo Dunnhofer, Niki Martinel, Christian Micheloni(参考訳) ディープレグレッショントラッカは、利用可能な最速トラッキングアルゴリズムの1つであり、したがってリアルタイムロボットアプリケーションに適している。 しかし、分布シフトや過剰フィッティングのため、多くの領域で精度が不十分である。 本稿では,このようなトラッカのクラスに対するドメイン適応のための第1の手法を提示することで,このような制限を克服する。 ラベル付け作業を減らすために,強化学習を用いて,スカラーアプリケーションに依存した時間的遅延フィードバックとして弱い監督を表現する弱教師付き適応戦略を提案する。 同時に、知識蒸留は学習安定性を保証し、より強力だが遅いトラッカーからの知識を圧縮し伝達するために用いられる。 5つの異なるロボットビジョン領域に関する大規模な実験は、我々の方法論の意義を実証している。 リアルタイムのスピードは、組み込みデバイスやGPUのないマシンで達成されるが、精度は大幅に向上する。

Deep regression trackers are among the fastest tracking algorithms available, and therefore suitable for real-time robotic applications. However, their accuracy is inadequate in many domains due to distribution shift and overfitting. In this paper we overcome such limitations by presenting the first methodology for domain adaption of such a class of trackers. To reduce the labeling effort we propose a weakly-supervised adaptation strategy, in which reinforcement learning is used to express weak supervision as a scalar application-dependen t and temporally-delayed feedback. At the same time, knowledge distillation is employed to guarantee learning stability and to compress and transfer knowledge from more powerful but slower trackers. Extensive experiments on five different robotic vision domains demonstrate the relevance of our methodology. Real-time speed is achieved on embedded devices and on machines without GPUs, while accuracy reaches significant results.
翻訳日:2021-03-29 12:32:30 公開日:2021-03-26
# 3次元超音波による平面定位のためのウォームスタートおよび適応動的終端剤

Agent with Warm Start and Adaptive Dynamic Termination for Plane Localization in 3D Ultrasound ( http://arxiv.org/abs/2103.14502v1 )

ライセンス: Link先を確認
Xin Yang, Haoran Dou, Ruobing Huang, Wufeng Xue, Yuhao Huang, Jikuan Qian, Yuanji Zhang, Huanjia Luo, Huizhi Guo, Tianfu Wang, Yi Xiong, Dong Ni(参考訳) 正確な標準平面(sp)の定位は出生前超音波診断の基本的なステップである。 通常、多くのUSSPが収集され、臨床診断が決定される。 2D USはSPごとにスキャンを実行しなければなりません。 3D USは1ショットに複数のSPを含むが、ユーザ依存の低減と効率の向上には固有の利点がある。 3d usにおけるspの自動検出は、巨大な探索空間と胎児の姿勢の変化のため、非常に困難である。 前報では, 3次元USにおけるSPの自動局在化のためのアライメントモジュールとアクティブ終端を備えた深層強化学習(RL)フレームワークを提案した。 しかし, RLにおけるエージェント探索の終了は重要であり, 実際の展開に影響を及ぼす。 本研究では, エージェント探索の早期停止を可能とし, 最大67%の推論時間を節約し, rlフレームワークの精度と効率を向上させるために, 新たに設計した適応動的停止機能により, これまでのrlフレームワークを強化した。 また,本アルゴリズムの有効性と汎用性を検証するため,本アルゴリズムは,胎児脳ボリューム433,胎児腹部ボリューム519,子宮ボリューム673を含む社内のマルチオルガンデータセット上で広く検証した。 本手法は, 経脳, 経心室, 経視床, 胎児の腹部, 子宮中隔, 横隔, 冠動脈の各面の局在誤差を2.52mm/10.26°, 2.48mm/10.39°, 2.02mm/10.48°, 2.00mm/14.57°, 2.61mm/9.71°, 3.09mm/9.58°, 1.49mm/7.54°に求める。 実験の結果,本手法は汎用的であり,usスキャンの効率と標準化が向上する可能性が示唆された。

Accurate standard plane (SP) localization is the fundamental step for prenatal ultrasound (US) diagnosis. Typically, dozens of US SPs are collected to determine the clinical diagnosis. 2D US has to perform scanning for each SP, which is time-consuming and operator-dependent. While 3D US containing multiple SPs in one shot has the inherent advantages of less user-dependency and more efficiency. Automatically locating SP in 3D US is very challenging due to the huge search space and large fetal posture variations. Our previous study proposed a deep reinforcement learning (RL) framework with an alignment module and active termination to localize SPs in 3D US automatically. However, termination of agent search in RL is important and affects the practical deployment. In this study, we enhance our previous RL framework with a newly designed adaptive dynamic termination to enable an early stop for the agent searching, saving at most 67% inference time, thus boosting the accuracy and efficiency of the RL framework at the same time. Besides, we validate the effectiveness and generalizability of our algorithm extensively on our in-house multi-organ datasets containing 433 fetal brain volumes, 519 fetal abdomen volumes, and 683 uterus volumes. Our approach achieves localization error of 2.52mm/10.26 degrees, 2.48mm/10.39 degrees, 2.02mm/10.48 degrees, 2.00mm/14.57 degrees, 2.61mm/9.71 degrees, 3.09mm/9.58 degrees, 1.49mm/7.54 degrees for the transcerebellar, transventricular, transthalamic planes in fetal brain, abdominal plane in fetal abdomen, and mid-sagittal, transverse and coronal planes in uterus, respectively. Experimental results show that our method is general and has the potential to improve the efficiency and standardization of US scanning.
翻訳日:2021-03-29 12:32:16 公開日:2021-03-26
# リアルタイムビュー合成のためのベーキングニューラルラジアンス場

Baking Neural Radiance Fields for Real-Time View Synthesis ( http://arxiv.org/abs/2103.14645v1 )

ライセンス: Link先を確認
Peter Hedman, Pratul P. Srinivasan, Ben Mildenhall, Jonathan T. Barron, Paul Debevec(参考訳) ニューラル・ラミアンス・フィールド(nerf)のような神経容積表現は、観察されていない視点からシーンのフォトリアリスティックな画像をレンダリングすることを目的として、画像から3dシーンを表現するための説得力のある技術として登場した。 トレーニングされたNeRFからのビューのレンダリングには、複数層パーセプトロン(MLP)を1光あたり数百回クエリする必要がある。 我々は、NeRFをトレーニングし、プリコンプリートし、保存する方法を提供する。 "bake"はsparse neural radiance grid(snerg)と呼ばれる新しい表現であり、コモディティハードウェア上でリアルタイムレンダリングを可能にする。 これを実現するために,1)NeRFのアーキテクチャの再構築,2)学習した特徴ベクトルを用いたスパースボクセルグリッド表現を提案する。 結果として生じるシーン表現は、細かな幾何学的詳細とビュー依存の外観をレンダリングするNeRFの能力を保持し、コンパクト(シーンあたり90MB未満)で、リアルタイムでレンダリングできる(ラップトップGPUでは毎秒30フレーム以上)。 実際のスクリーンキャプチャはビデオに表示されます。

Neural volumetric representations such as Neural Radiance Fields (NeRF) have emerged as a compelling technique for learning to represent 3D scenes from images with the goal of rendering photorealistic images of the scene from unobserved viewpoints. However, NeRF's computational requirements are prohibitive for real-time applications: rendering views from a trained NeRF requires querying a multilayer perceptron (MLP) hundreds of times per ray. We present a method to train a NeRF, then precompute and store (i.e. "bake") it as a novel representation called a Sparse Neural Radiance Grid (SNeRG) that enables real-time rendering on commodity hardware. To achieve this, we introduce 1) a reformulation of NeRF's architecture, and 2) a sparse voxel grid representation with learned feature vectors. The resulting scene representation retains NeRF's ability to render fine geometric details and view-dependent appearance, is compact (averaging less than 90 MB per scene), and can be rendered in real-time (higher than 30 frames per second on a laptop GPU). Actual screen captures are shown in our video.
翻訳日:2021-03-29 12:31:36 公開日:2021-03-26
# DBATES:競争討論音声における音声特徴・テキスト・視覚表現のデータベース

DBATES: DataBase of Audio features, Text, and visual Expressions in competitive debate Speeches ( http://arxiv.org/abs/2103.14189v1 )

ライセンス: Link先を確認
Taylan K. Sen, Gazi Naven, Luke Gerstner, Daryl Bagley, Raiyan Abdul Baten, Wasifur Rahman, Kamrul Hasan, Kurtis G. Haut, Abdullah Mamun, Samiha Samrose, Anne Solbu, R. Eric Barnes, Mark G. Frank, Ehsan Hoque(参考訳) 本研究では,2019年北米大学討論会(NAUDC)の討論講演から抽出したマルチモーダルコミュニケーション機能データベースを提案する。 視覚的(表情,視線,頭部ポーズ),音声(PRAAT),テキスト(言葉の感情と言語カテゴリー)から,競合するコーレギット討論者による生映像のモダリティ(N=7176分間)を抽出した。 各スピーチには、専門家の審査員と、競合する人口統計学およびラウンドごとのリフレクション調査から、関連するコンペティションのスコア(範囲67-96)がある。 完全マルチモーダルモデルは、モダリティの様々な構成で訓練されたモデルと比較して最もよく機能する。 また、いくつかの特徴(喜びの表現や単語weの使用など)の重み付けが、前述のモデル間で方向を変えることもわかりました。 これらの結果を用いて、競合的で協力的な議論を研究するためのマルチモーダルデータセットの価値を強調する。

In this work, we present a database of multimodal communication features extracted from debate speeches in the 2019 North American Universities Debate Championships (NAUDC). Feature sets were extracted from the visual (facial expression, gaze, and head pose), audio (PRAAT), and textual (word sentiment and linguistic category) modalities of raw video recordings of competitive collegiate debaters (N=717 6-minute recordings from 140 unique debaters). Each speech has an associated competition debate score (range: 67-96) from expert judges as well as competitor demographic and per-round reflection surveys. We observe the fully multimodal model performs best in comparison to models trained on various compositions of modalities. We also find that the weights of some features (such as the expression of joy and the use of the word we) change in direction between the aforementioned models. We use these results to highlight the value of a multimodal dataset for studying competitive, collegiate debate.
翻訳日:2021-03-29 12:30:44 公開日:2021-03-26
# フェデレーション学習の需要側における事前無料オークション

Prior-Free Auctions for the Demand Side of Federated Learning ( http://arxiv.org/abs/2103.14375v1 )

ライセンス: Link先を確認
Andreas Haupt and Vaikkunth Mugunthan(参考訳) Federated Learning(FL)は、分散クライアントが機密データを共有することなく、共有機械学習モデルを学ぶことができるパラダイムである。 主に分散化されているが、FLは中央オーケストレータへの資金提供や、データセットのコントリビュータへのインセンティブの支払いにリソースを必要としている。 先行自由オークションデザインの知見に触発されて,自己興味のある顧客から金銭的貢献を集めるためのFIPFA(Federated Incentive Payments via Prior-free Auctions)を提案する。 このメカニズムは半正直な信頼モデルで動作し、クライアントが高品質なモデルを受け取ることに対する異質な関心を持ち、サーバがクライアントの関心レベルを知らない場合でも機能する。 我々は、FIPFAおよびFIPFAのインセンティブ特性に基づいて、クライアントのモデル品質をテストするために、MNISTデータセット上で実験を行う。

Federated learning (FL) is a paradigm that allows distributed clients to learn a shared machine learning model without sharing their sensitive training data. While largely decentralized, FL requires resources to fund a central orchestrator or to reimburse contributors of datasets to incentivize participation. Inspired by insights from prior-free auction design, we propose a mechanism, FIPFA (Federated Incentive Payments via Prior-Free Auctions), to collect monetary contributions from self-interested clients. The mechanism operates in the semi-honest trust model and works even if clients have a heterogeneous interest in receiving high-quality models, and the server does not know the clients' level of interest. We run experiments on the MNIST dataset to test clients' model quality under FIPFA and FIPFA's incentive properties.
翻訳日:2021-03-29 12:30:24 公開日:2021-03-26
# スパースカーネル表現を用いた構成可能学習

Composable Learning with Sparse Kernel Representations ( http://arxiv.org/abs/2103.14474v1 )

ライセンス: Link先を確認
Ekaterina Tolstaya, Ethan Stump, Alec Koppel, Alejandro Ribeiro(参考訳) 再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。 我々は、正規化優位関数(NAF)を通して状態-作用関数の構造を付与することにより、このアプローチのサンプル複雑性を改善する。 このポリシーの表現は、追加のトレーニングサンプルや環境とのインタラクションなしに、効率的に複数の学習モデルを構成することができる。 本研究では,レーザスキャナを搭載したロボットを2次元環境下で操作しながら,障害物回避ポリシーを学習するためのアルゴリズムの性能を実演する。 コンポジション操作を様々なポリシの組み合わせに適用し,構成されたポリシがコンポーネントのパフォーマンスを維持することを示す。 また,一般化の度合いを示すために,構成ポリシを障害物のあるアリーナで動作している物理プラットフォームに直接転送する。

We present a reinforcement learning algorithm for learning sparse non-parametric controllers in a Reproducing Kernel Hilbert Space. We improve the sample complexity of this approach by imposing a structure of the state-action function through a normalized advantage function (NAF). This representation of the policy enables efficiently composing multiple learned models without additional training samples or interaction with the environment. We demonstrate the performance of this algorithm on learning obstacle-avoidance policies in multiple simulations of a robot equipped with a laser scanner while navigating in a 2D environment. We apply the composition operation to various policy combinations and test them to show that the composed policies retain the performance of their components. We also transfer the composed policy directly to a physical platform operating in an arena with obstacles in order to demonstrate a degree of generalization.
翻訳日:2021-03-29 12:30:07 公開日:2021-03-26
# 機械学習アルゴリズムを用いたエアタクシー都市航空サービスの需要予測

Predicting Demand for Air Taxi Urban Aviation Services using Machine Learning Algorithms ( http://arxiv.org/abs/2103.14604v1 )

ライセンス: Link先を確認
Suchithra Rajendran, Sharan Srinivas, Trenton Grimshaw(参考訳) 本研究は、機械学習アルゴリズム(MLA)を用いて、ニューヨーク市の各地域において、日中異なる時間帯における空タクシー都市空力(UAM)サービスの需要を予測することに焦点を当てる。 いくつかの乗車関連要因(年月、週、日時など)と天候関連変数(気温、気象条件、可視性など)は、ロジスティック回帰、人工ニューラルネットワーク、ランダム森林、勾配加速の4つの一般的なmlasの予測因子として使用される。 実験の結果, 勾配上昇は高い予測性能をもたらすことが示唆された。 特定の場所、特定の期間、平日が常に重要な予測因子として出現した。

This research focuses on predicting the demand for air taxi urban air mobility (UAM) services during different times of the day in various geographic regions of New York City using machine learning algorithms (MLAs). Several ride-related factors (such as month of the year, day of the week and time of the day) and weather-related variables (such as temperature, weather conditions and visibility) are used as predictors for four popular MLAs, namely, logistic regression, artificial neural networks, random forests, and gradient boosting. Experimental results suggest gradient boosting to consistently provide higher prediction performance. Specific locations, certain time periods and weekdays consistently emerged as critical predictors.
翻訳日:2021-03-29 12:29:16 公開日:2021-03-26
# 再生可能エネルギー予測問題におけるランダム化に基づく機械学習:批判文献レビュー、新しい結果と展望

Randomization-based Machine Learning in Renewable Energy Prediction Problems: Critical Literature Review, New Results and Perspectives ( http://arxiv.org/abs/2103.14624v1 )

ライセンス: Link先を確認
Javier Del Ser, David Casillas-Perez, Laura Cornejo-Bueno, Luis Prieto-Godino, Julia Sanz-Justo, Carlos Casanova-Mateo, Sancho Salcedo-Sanz(参考訳) ランダム化に基づく予測のための機械学習手法は、多くの予測問題における優れた性能と計算時間の制限により、現在人工知能のホットトピックとなっている。 再生可能エネルギー予測問題へのランダム化ベースのアプローチの適用は、様々な種類のランダム化ベースのアプローチ、他の手法とのハイブリッド化、深層およびアンサンブルアプローチを含む古典的ランダム化ベースのアルゴリズムの新バージョンの記述など、ここ数年で大規模に行われている。 本稿では,ランダム化に基づく機械学習手法の最も重要な特徴とその再生可能エネルギー予測問題への応用について述べる。 本稿では,このモデリング手法の最も重要な手法とアルゴリズムを説明し,太陽,風,海洋/海洋および水力再生可能資源に関する予測問題について検討した。 我々は、太陽・風・水力エネルギーに関する実世界の問題を含む、広範囲な実験研究により、我々の批判的分析を支援し、ランダム化に基づくアルゴリズムは、他のモデリング手法よりもはるかに低い計算コストで優れた結果が得られることが判明した。 我々は、この分野に残る最も重要な課題と研究の方向性の見通しと、このエキサイティングな研究分野におけるさらなる研究活動の動機となる展望で、調査を終了する。

Randomization-based Machine Learning methods for prediction are currently a hot topic in Artificial Intelligence, due to their excellent performance in many prediction problems, with a bounded computation time. The application of randomization-based approaches to renewable energy prediction problems has been massive in the last few years, including many different types of randomization-based approaches, their hybridization with other techniques and also the description of new versions of classical randomization-based algorithms, including deep and ensemble approaches. In this paper we review the most important characteristics of randomization-based machine learning approaches and their application to renewable energy prediction problems. We describe the most important methods and algorithms of this family of modeling methods, and perform a critical literature review, examining prediction problems related to solar, wind, marine/ocean and hydro-power renewable sources. We support our critical analysis with an extensive experimental study, comprising real-world problems related to solar, wind and hydro-power energy, where randomization-based algorithms are found to achieve superior results at a significantly lower computational cost than other modeling counterparts. We end our survey with a prospect of the most important challenges and research directions that remain open this field, along with an outlook motivating further research efforts in this exciting research field.
翻訳日:2021-03-29 12:29:03 公開日:2021-03-26
# コーディングチェーンにおける超解像圧縮ビデオ

Super-Resolving Compressed Video in Coding Chain ( http://arxiv.org/abs/2103.14247v1 )

ライセンス: Link先を確認
Dewang Hou, Yang Zhao, Yuyao Ye, Jiayu Yang, Jian Zhang, Ronggang Wang(参考訳) スケーリングとロッキーコーディングはビデオ伝送やストレージで広く使われている。 このようなビデオの解像度を向上するための従来の手法は、解像度損失と圧縮アーティファクトの固有の干渉を無視し、知覚ビデオの品質を損なうことが多かった。 この問題に対処するために、参照ベースDCNNと協調する混合解像度符号化フレームワークを提案する。 この新しい符号化チェーンにおいて、基準ベースDCNNは、低解像度(LR)圧縮ビデオからデコーダ側の高解像度(HR)クリーンバージョンへの直接マッピングを学習する。 様々な動き距離を扱うための受容体ブロックを備えた効率的な変形可能なアライメントモジュールを考案し、ネットワークが人工物パターンとテクスチャを区別するのに役立つ異方性損失を導入することにより、復元品質をさらに向上させる。 広範にわたる実験により,最先端の単一画像,映像,参照ベース復元法との比較により,提案手法の有効性が実証された。

Scaling and lossy coding are widely used in video transmission and storage. Previous methods for enhancing the resolution of such videos often ignore the inherent interference between resolution loss and compression artifacts, which compromises perceptual video quality. To address this problem, we present a mixed-resolution coding framework, which cooperates with a reference-based DCNN. In this novel coding chain, the reference-based DCNN learns the direct mapping from low-resolution (LR) compressed video to their high-resolution (HR) clean version at the decoder side. We further improve reconstruction quality by devising an efficient deformable alignment module with receptive field block to handle various motion distances and introducing a disentangled loss that helps networks distinguish the artifact patterns from texture. Extensive experiments demonstrate the effectiveness of proposed innovations by comparing with state-of-the-art single image, video and reference-based restoration methods.
翻訳日:2021-03-29 12:28:39 公開日:2021-03-26
# モデルオーダー削減とディープラーニングアルゴリズムによるオンライン構造健康モニタリング

Online structural health monitoring by model order reduction and deep learning algorithms ( http://arxiv.org/abs/2103.14328v1 )

ライセンス: Link先を確認
Luca Rosafalco, Matteo Torzoni, Andrea Manzoni, Stefano Mariani, Alberto Corigliano(参考訳) 構造的健康モニタリング(SHM)フレームワーク内では,オンライン被害の局所化に向けたシミュレーションに基づく分類戦略を提案する。 本手法は, パラメトリックモデルオーダー低減(mor)手法と完全畳み込みネットワーク(fcns)を組み合わせることで, 監視構造物に記録された生振動の測定結果を分析する。 第一に、様々な操作条件下で起こりうる構造的応答のデータセットは、物理学に基づくモデルによって構築される。 そして、データセットをFCNのオフライントレーニングに使用する。 データセット構築に必要なモデル評価が極めて多いため、計算負担を軽減するためにMOR技術が用いられている。 訓練された分類器は、例えば、見えない振動記録をマッピングできることが示される。 構造物に設置されたセンサーから、実際の損傷状態まで、オンザフライで収集し、損傷の有無に関する情報を提供する。 提案手法は2次元ポータル・フレームと3次元ポータル・フレーム鉄道橋の2つのケーススタディにより検証され,MOR技術により解析を約30回,420回高速化することができた。 両方のケーススタディにおいて、訓練後、分類器は85%以上の精度を達成した。

Within a structural health monitoring (SHM) framework, we propose a simulation-based classification strategy to move towards online damage localization. The procedure combines parametric Model Order Reduction (MOR) techniques and Fully Convolutional Networks (FCNs) to analyze raw vibration measurements recorded on the monitored structure. First, a dataset of possible structural responses under varying operational conditions is built through a physics-based model, allowing for a finite set of predefined damage scenarios. Then, the dataset is used for the offline training of the FCN. Because of the extremely large number of model evaluations required by the dataset construction, MOR techniques are employed to reduce the computational burden. The trained classifier is shown to be able to map unseen vibrational recordings, e.g. collected on-the-fly from sensors placed on the structure, to the actual damage state, thus providing information concerning the presence and also the location of damage. The proposed strategy has been validated by means of two case studies, concerning a 2D portal frame and a 3D portal frame railway bridge; MOR techniques have allowed us to respectively speed up the analyses about 30 and 420 times. For both the case studies, after training the classifier has attained an accuracy greater than 85%.
翻訳日:2021-03-29 12:27:48 公開日:2021-03-26
# 状態空間型ニューラルネットワークの初期化改善

Improved Initialization of State-Space Artificial Neural Networks ( http://arxiv.org/abs/2103.14516v1 )

ライセンス: Link先を確認
Maarten Schoukens(参考訳) ブラックボックスの非線形状態空間モデルの同定には、状態方程式と出力方程式の柔軟な表現が必要である。 人工ニューラルネットワークはそのような表現を提供することが証明されている。 しかし、多くの識別問題と同様に、モデルパラメータ(層重みとバイアス)を得るために非線形最適化問題を解く必要がある。 これらのモデルパラメータのよく考えられた初期化は、しばしば非線形最適化アルゴリズムが考慮されるコスト関数の局所最小性能に収束することを避けることができる。 本稿では、リカレントな人工ニューラルネットワークとして表現される非線形状態空間モデルの初期化を改良し、モデル構造に明示的な線形項を含めることの重要性を強調する。 ニューラルネットワークの重みの一部は非線形システムの線形近似から初期化され、その他はランダム値やゼロを用いて初期化される。 提案手法に対する初期化手法の有効性を2つのベンチマーク例で示す。

The identification of black-box nonlinear state-space models requires a flexible representation of the state and output equation. Artificial neural networks have proven to provide such a representation. However, as in many identification problems, a nonlinear optimization problem needs to be solved to obtain the model parameters (layer weights and biases). A well-thought initialization of these model parameters can often avoid that the nonlinear optimization algorithm converges to a poorly performing local minimum of the considered cost function. This paper introduces an improved initialization approach for nonlinear state-space models represented as a recurrent artificial neural network and emphasizes the importance of including an explicit linear term in the model structure. Some of the neural network weights are initialized starting from a linear approximation of the nonlinear system, while others are initialized using random values or zeros. The effectiveness of the proposed initialization approach over previously proposed methods is illustrated on two benchmark examples.
翻訳日:2021-03-29 12:27:29 公開日:2021-03-26
# 安全かつ効果的なコントローラのモデルフリー学習

Model-Free Learning of Safe yet Effective Controllers ( http://arxiv.org/abs/2103.14600v1 )

ライセンス: Link先を確認
Alper Kamil Bozkurt, Yu Wang, Miroslav Pajic(参考訳) 本稿では,タスクの線形時間論理(LTL)仕様を満たす確率の最大化と,(古典的な)制御性能をキャプチャする報酬の割引化という,同時に有効な安全な制御ポリシーを学習する問題について検討する。 我々はマルコフ決定プロセス(MDP)としてモデル化できる未知の環境を考える。 本稿では,まず安全を確保する確率を最大化し,与えられたltl仕様を満足する確率を最大化し,最後にqoc(ディスカウントド・クオリティ・オブ・コントロール)報酬を合計するポリシを学習するモデルフリー強化学習アルゴリズムを提案する。 最後に,ケーススタディにおけるRLに基づくアプローチの適用性について述べる。

In this paper, we study the problem of learning safe control policies that are also effective -- i.e., maximizing the probability of satisfying the linear temporal logic (LTL) specification of the task, and the discounted reward capturing the (classic) control performance. We consider unknown environments that can be modeled as Markov decision processes (MDPs). We propose a model-free reinforcement learning algorithm that learns a policy that first maximizes the probability of ensuring the safety, then the probability of satisfying the given LTL specification and lastly, the sum of discounted Quality of Control (QoC) rewards. Finally, we illustrate the applicability of our RL-based approach on a case study.
翻訳日:2021-03-29 12:27:17 公開日:2021-03-26