このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210330となっている論文です。

PDF登録状況(公開日: 20210330)

TitleAuthorsAbstract論文公表日・翻訳日
# オンライン物体検出における動きのぼかし処理の改善

Improved Handling of Motion Blur in Online Object Detection ( http://arxiv.org/abs/2011.14448v2 )

ライセンス: Link先を確認
Mohamed Sayed, Gabriel Brostow(参考訳) 私たちは、現実世界で動作するオンラインビジョンシステムに対して、特定の種類のオブジェクトを検出したいと考えています。 オブジェクト検出はすでに非常に難しいです。 車や携帯のカメラから画像がぼやけていると、さらに難しくなります。 既存の取り組みのほとんどは、シャープなイメージに焦点を絞って、真実に簡単にラベルを付けるか、あるいは多くの一般的な汚職の1つとして動きのぼかしを扱いました。 代わりに、私たちは特に、感情誘発ぼかしの詳細に焦点を当てます。 鮮明な画像とぼやけた画像のパフォーマンスのギャップを、それぞれ異なる潜在的な原因をターゲットとする5つの治療法のクラスを探索する。 例えば、まず画像をデブラリングすると人間の解釈性が変わるが、現時点では部分的にオブジェクト検出が改善されているだけである。 他の4つのリメディエーションは、マルチスケールテクスチャ、分散テスト、ラベル生成、ぼかしタイプによるコンディショニングに対応している。 驚いたことに、カスタムラベル生成は空間的曖昧さを解消することを目的としており、他のすべてのものよりも先に、オブジェクト検出を著しく改善している。 また, 分類の結果とは対照的に, 動きのぼやけという異常なカテゴリーにモデルを適用することで, 顕著な向上が見られる。 本研究では,coco画像と実世界のぼかしデータセットを用いて,異なる治療法を実験的に検証し,相互交配し,検出率の高い簡便で実用的なモデルを構築した。

We wish to detect specific categories of objects, for online vision systems that will run in the real world. Object detection is already very challenging. It is even harder when the images are blurred, from the camera being in a car or a hand-held phone. Most existing efforts either focused on sharp images, with easy to label ground truth, or they have treated motion blur as one of many generic corruptions. Instead, we focus especially on the details of egomotion induced blur. We explore five classes of remedies, where each targets different potential causes for the performance gap between sharp and blurred images. For example, first deblurring an image changes its human interpretability, but at present, only partly improves object detection. The other four classes of remedies address multi-scale texture, out-of-distribution testing, label generation, and conditioning by blur-type. Surprisingly, we discover that custom label generation aimed at resolving spatial ambiguity, ahead of all others, markedly improves object detection. Also, in contrast to findings from classification, we see a noteworthy boost by conditioning our model on bespoke categories of motion blur. We validate and cross-breed the different remedies experimentally on blurred COCO images and real-world blur datasets, producing an easy and practical favorite model with superior detection rates.
翻訳日:2021-06-07 09:01:01 公開日:2021-03-30
# 時間的行動定位のためのビデオ自己stitching graph network

Video Self-Stitching Graph Network for Temporal Action Localization ( http://arxiv.org/abs/2011.14598v3 )

ライセンス: Link先を確認
Chen Zhao, Ali Thabet, Bernard Ghanem(参考訳) ビデオにおける時間的行動ローカライゼーション(TAL)は、特に行動時間スケールの大きな変化のために難しい課題である。 ショートアクションは通常、データの主要な割合を占めるが、現在のすべてのメソッドで最低パフォーマンスを持つ。 本稿では,ショートアクションの課題に直面し,VSGN(Video Self-Stitching Graph Network)と呼ばれるマルチレベルクロススケールソリューションを提案する。 VSGNには、ビデオセルフスティッチ(VSS)とクロススケールグラフピラミッドネットワーク(xGPN)の2つの重要なコンポーネントがあります。 VSSでは、ビデオの短い時間に焦点を合わせ、時間次元に沿って拡大し、より大きなスケールを得る。 1つの入力シーケンスで元のクリップと拡大したクリップを縫い合わせることで、両方のスケールの相補的な特性を生かした。 xGPNコンポーネントはさらに、クロススケールグラフネットワークのピラミッドによるクロススケール相関を利用しており、それぞれが複数のスケールから同じスケールの機能を集約するハイブリッドモジュールを含んでいる。 我々のVSGNは、特徴表現を強化するだけでなく、短いアクションとより短いトレーニングサンプルのためのよりポジティブなアンカーを生成する。 実験によると、VSGNは明らかにショートアクションのローカライズ性能を改善し、THUMOS-14とActivityNet-v1.3の全体的なパフォーマンスを達成する。

Temporal action localization (TAL) in videos is a challenging task, especially due to the large variation in action temporal scales. Short actions usually occupy the major proportion in the data, but have the lowest performance with all current methods. In this paper, we confront the challenge of short actions and propose a multi-level cross-scale solution dubbed as video self-stitching graph network (VSGN). We have two key components in VSGN: video self-stitching (VSS) and cross-scale graph pyramid network (xGPN). In VSS, we focus on a short period of a video and magnify it along the temporal dimension to obtain a larger scale. We stitch the original clip and its magnified counterpart in one input sequence to take advantage of the complementary properties of both scales. The xGPN component further exploits the cross-scale correlations by a pyramid of cross-scale graph networks, each containing a hybrid module to aggregate features from across scales as well as within the same scale. Our VSGN not only enhances the feature representations, but also generates more positive anchors for short actions and more short training samples. Experiments demonstrate that VSGN obviously improves the localization performance of short actions as well as achieving the state-of-the-art overall performance on THUMOS-14 and ActivityNet-v1.3.
翻訳日:2021-06-06 14:48:36 公開日:2021-03-30
# just ask: 何百万ものナレーションビデオの質問に答える学習

Just Ask: Learning to Answer Questions from Millions of Narrated Videos ( http://arxiv.org/abs/2012.00451v2 )

ライセンス: Link先を確認
Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid(参考訳) 最近のビジュアル質問応答の方法は、大規模な注釈付きデータセットに依存している。 しかし、ビデオに対する質問や回答のマニュアルアノテーションは面倒で高価であり、スケーラビリティを損なう。 本稿では,手動アノテーションを回避し,自動クロスモーダル監視によるビデオ質問応答のための大規模トレーニングデータセットを作成することを提案する。 テキストデータに基づいて学習した質問生成トランスを活用し,書き起こされたビデオナレーションから質問応答ペアを生成する。 ナレーションされたビデオがあれば、howtovqa69mデータセットを69mのビデオクェリアンワートリプレットで自動的に生成します。 本データセットにおける多様な回答のオープンな語彙を扱うために,ビデオ検索マルチモーダル変換器と応答変換器との対比損失に基づくトレーニング手順を提案する。 ゼロショットビデオQAタスクを導入し、特に稀な回答に対して優れた結果を示す。 さらに,MSRVTT-QA,MSVD-QA,A ctivityNet-QA,How2QA において,技術状況を大幅に上回る方法を示す。 最後に、詳細な評価のために、言語バイアスの低減と高品質な冗長なマニュアルアノテーションを備えた新しいVideoQAデータセットを導入します。 私たちのコードとデータセットはhttps://antoyang.git hub.io/just-ask.html で公開されます。

Recent methods for visual question answering rely on large-scale annotated datasets. Manual annotation of questions and answers for videos, however, is tedious, expensive and prevents scalability. In this work, we propose to avoid manual annotation and generate a large-scale training dataset for video question answering making use of automatic cross-modal supervision. We leverage a question generation transformer trained on text data and use it to generate question-answer pairs from transcribed video narrations. Given narrated videos, we then automatically generate the HowToVQA69M dataset with 69M video-question-answe r triplets. To handle the open vocabulary of diverse answers in this dataset, we propose a training procedure based on a contrastive loss between a video-question multi-modal transformer and an answer transformer. We introduce the zero-shot VideoQA task and show excellent results, in particular for rare answers. Furthermore, we demonstrate our method to significantly outperform the state of the art on MSRVTT-QA, MSVD-QA, ActivityNet-QA and How2QA. Finally, for a detailed evaluation we introduce a new VideoQA dataset with reduced language biases and high-quality redundant manual annotations. Our code and datasets will be made publicly available at https://antoyang.git hub.io/just-ask.html .
翻訳日:2021-05-30 20:12:32 公開日:2021-03-30
# DeFMO:高速移動物体の劣化と形状回復

DeFMO: Deblurring and Shape Recovery of Fast Moving Objects ( http://arxiv.org/abs/2012.00595v3 )

ライセンス: Link先を確認
Denys Rozumnyi, Martin R. Oswald, Vittorio Ferrari, Jiri Matas, Marc Pollefeys(参考訳) 高速で動く物体は、カメラで撮影すると著しくぼやけているように見える。 物体が複雑な形状やテクスチャを持つ場合、特にぼやけた外観は曖昧である。 このような場合、古典的な方法や人間でさえ、物体の外観や動きを回復できない。 本研究では,1枚の画像の背景を推定して,物体の外観と位置を,高速カメラで捉えたかのように一連のサブフレームで出力する手法を提案する。 時間分解能)。 提案した生成モデルは、ぼやけた物体の画像を潜在空間表現に埋め込み、背景を乱し、シャープな外観を描画する。 画像形成モデルに触発されて、性能を高め、優れた一般化能力を示す新しい自己教師付き損失関数を設計する。 提案したDeFMO法は複雑な合成データセットに基づいて訓練されるが,複数のデータセットの実際のデータに対して良好に動作する。 DeFMOは芸術の状態を上回り、高品質の時間超解像フレームを生成する。

Objects moving at high speed appear significantly blurred when captured with cameras. The blurry appearance is especially ambiguous when the object has complex shape or texture. In such cases, classical methods, or even humans, are unable to recover the object's appearance and motion. We propose a method that, given a single image with its estimated background, outputs the object's appearance and position in a series of sub-frames as if captured by a high-speed camera (i.e. temporal super-resolution). The proposed generative model embeds an image of the blurred object into a latent space representation, disentangles the background, and renders the sharp appearance. Inspired by the image formation model, we design novel self-supervised loss function terms that boost performance and show good generalization capabilities. The proposed DeFMO method is trained on a complex synthetic dataset, yet it performs well on real-world data from several datasets. DeFMO outperforms the state of the art and generates high-quality temporal super-resolution frames.
翻訳日:2021-05-30 19:35:46 公開日:2021-03-30
# (参考訳) データ中毒に対するランダム化スムースな防御はいかにロバストか? [全文訳有]

How Robust are Randomized Smoothing based Defenses to Data Poisoning? ( http://arxiv.org/abs/2012.01274v2 )

ライセンス: CC BY 4.0
Akshay Mehra, Bhavya Kailkhura, Pin-Yu Chen, Jihun Hamm(参考訳) 確実なロバストな分類器の予測は、ある点の近傍で一定であり、保証付きテスト時間攻撃に対して耐性がある。 そこで本研究では,強固な機械学習モデルに対する既知の脅威として,高度に認証された対向ロバスト性を達成する上でのトレーニングデータ品質の重要性を強調する。 具体的には,認証可能なロバスト分類器のロバスト性保証を低下させる,新しい二段階最適化に基づくデータ中毒攻撃を提案する。 ターゲットポイントの小さなセットで被毒モデルの精度を低下させる他の中毒攻撃とは異なり、この攻撃はデータセット内のターゲットクラス全体の平均認定半径(acr)を減少させる。 さらに,本攻撃は,ガウスデータ強化,MACER\cite{zhai2020macer},SmoothAdv\cite{salman2019provably}などの最先端の堅牢性トレーニング手法を用いて,スクラッチからモデルのトレーニングを行う場合においても有効である。 攻撃を検知しにくくするため, 知覚不能な歪みを有する清浄ラベル中毒点を用いる。 提案手法の有効性は、MNISTおよびCIFAR10データセットを汚染し、前述のトレーニング手法を用いて深層ニューラルネットワークを訓練し、ランダムな平滑化でロバスト性を証明することによって評価する。 生成した毒物データに基づいてトレーニングされたモデルのためのターゲットクラスのacrは、30\%以上削減できる。 さらに、有毒データは異なるトレーニング方法と異なるアーキテクチャのモデルで訓練されたモデルに転送可能である。

Predictions of certifiably robust classifiers remain constant in a neighborhood of a point, making them resilient to test-time attacks with a guarantee. In this work, we present a previously unrecognized threat to robust machine learning models that highlights the importance of training-data quality in achieving high certified adversarial robustness. Specifically, we propose a novel bilevel optimization-based data poisoning attack that degrades the robustness guarantees of certifiably robust classifiers. Unlike other poisoning attacks that reduce the accuracy of the poisoned models on a small set of target points, our attack reduces the average certified radius (ACR) of an entire target class in the dataset. Moreover, our attack is effective even when the victim trains the models from scratch using state-of-the-art robust training methods such as Gaussian data augmentation\cite{cohen2019certified}, MACER\cite{zhai2020macer}, and SmoothAdv\cite{salman2019provably} that achieve high certified adversarial robustness. To make the attack harder to detect, we use clean-label poisoning points with imperceptible distortions. The effectiveness of the proposed method is evaluated by poisoning MNIST and CIFAR10 datasets and training deep neural networks using previously mentioned training methods and certifying the robustness with randomized smoothing. The ACR of the target class, for models trained on generated poison data, can be reduced by more than 30\%. Moreover, the poisoned data is transferable to models trained with different training methods and models with different architectures.
翻訳日:2021-05-30 08:17:13 公開日:2021-03-30
# 不平衡活性化分布を用いたバイナリニューラルネットワークの精度向上

Improving Accuracy of Binary Neural Networks using Unbalanced Activation Distribution ( http://arxiv.org/abs/2012.00938v2 )

ライセンス: Link先を確認
Hyungjun Kim, Jihoon Park, Changhun Lee, Jae-Joon Kim(参考訳) ニューラルネットワークモデルのバイナリ化は、モバイルデバイスなどのリソース制約のある環境にディープニューラルネットワークモデルをデプロイするための有望な方法の1つであると考えられている。 しかしながら、BNN(Binary Neural Networks)は、完全精度のモデルと比較して精度の低下に悩まされる傾向にある。 BNNの精度を向上させるためにいくつかの手法が提案された。 アプローチのひとつとして、バイナリアクティベーションの情報量が最大になるように、バイナリアクティベーションの分散をバランスさせることがある。 従来の研究とは対照的に、広範に分析した結果、不均衡な活性化分布はBNNの精度を実際に向上させることができると論じている。 また,バイナリアクティベーション関数のしきい値を調整することで,バイナリアクティベーションの不均衡分布が生じ,BNNモデルの精度が向上することを示す。 実験の結果,従来のbnnモデル(例)の精度が向上した。 XNOR-NetとBi-Real-Net)は、バイナリアクティベーション関数のしきい値のシフトを、他の変更を必要とせずに簡単に行うことで改善することができる。

Binarization of neural network models is considered as one of the promising methods to deploy deep neural network models on resource-constrained environments such as mobile devices. However, Binary Neural Networks (BNNs) tend to suffer from severe accuracy degradation compared to the full-precision counterpart model. Several techniques were proposed to improve the accuracy of BNNs. One of the approaches is to balance the distribution of binary activations so that the amount of information in the binary activations becomes maximum. Based on extensive analysis, in stark contrast to previous work, we argue that unbalanced activation distribution can actually improve the accuracy of BNNs. We also show that adjusting the threshold values of binary activation functions results in the unbalanced distribution of the binary activation, which increases the accuracy of BNN models. Experimental results show that the accuracy of previous BNN models (e.g. XNOR-Net and Bi-Real-Net) can be improved by simply shifting the threshold values of binary activation functions without requiring any other modification.
翻訳日:2021-05-25 04:10:18 公開日:2021-03-30
# (参考訳) AugSplicing:ストリーミングテンソルにおける同期動作検出 [全文訳有]

AugSplicing: Synchronized Behavior Detection in Streaming Tensors ( http://arxiv.org/abs/2012.02006v5 )

ライセンス: CC BY 4.0
Jiabao Zhang, Shenghua Liu, Wenting Hou, Siddharth Bhatia, Huawei Shen, Wenjian Yu, Xueqi Cheng(参考訳) ロックステップにアプリケーションをインストールしてアンインストールするモバイルデバイスなど,タイムスタンプ付きのタプルストリームで同期動作を追跡して,app storeのランクを上げるには,どうすればよいのでしょう? このようなタプルをストリーミングテンソルのエントリとしてモデル化し、時間とともにそのモードの属性サイズを拡大します。 同期行動は、密度の高いブロック(すなわち、密度の高いブロック)を形成する傾向がある。 このようなテンソルでは、異常な行動や興味深いコミュニティを示唆する。 しかし、既存の密ブロック検出手法は静的テンソルに基づくか、あるいはストリーミング環境で効率的なアルゴリズムを欠いている。 そこで,本研究では,新しいタプルで先行検出をインクリメンタルにスプライシングし,トラッキング時間毎にすべての履歴データを再実行しないようにすることで,上位の高密度ブロックを検出する高速ストリーミングアルゴリズムであるAugSplicingを提案する。 AugSplicingはアルゴリズムを導くスプライシング条件に基づいている(Section 4)。 現状の手法と比較して,本手法は,(1)実世界のアプリケーションのインストール時の不正行為を検知し,キャンパスWi-Fiデータに興味深い特徴を持つ同期した学生群を見つけること,(2)密ブロック検出のためのスプライシング理論に頑健なこと,(3)既存のストリーミングアルゴリズムよりも高速で高速なストリーミングを実現すること,などが有効である。

How can we track synchronized behavior in a stream of time-stamped tuples, such as mobile devices installing and uninstalling applications in the lockstep, to boost their ranks in the app store? We model such tuples as entries in a streaming tensor, which augments attribute sizes in its modes over time. Synchronized behavior tends to form dense blocks (i.e. subtensors) in such a tensor, signaling anomalous behavior, or interesting communities. However, existing dense block detection methods are either based on a static tensor, or lack an efficient algorithm in a streaming setting. Therefore, we propose a fast streaming algorithm, AugSplicing, which can detect the top dense blocks by incrementally splicing the previous detection with the incoming ones in new tuples, avoiding re-runs over all the history data at every tracking time step. AugSplicing is based on a splicing condition that guides the algorithm (Section 4). Compared to the state-of-the-art methods, our method is (1) effective to detect fraudulent behavior in installing data of real-world apps and find a synchronized group of students with interesting features in campus Wi-Fi data; (2) robust with splicing theory for dense block detection; (3) streaming and faster than the existing streaming algorithm, with closely comparable accuracy.
翻訳日:2021-05-23 21:27:59 公開日:2021-03-30
# CoCosNet v2: 画像翻訳のための完全解対応学習

CoCosNet v2: Full-Resolution Correspondence Learning for Image Translation ( http://arxiv.org/abs/2012.02047v2 )

ライセンス: Link先を確認
Xingran Zhou, Bo Zhang, Ting Zhang, Pan Zhang, Jianmin Bao, Dong Chen, Zhongfei Zhang, Fang Wen(参考訳) 本稿では,画像翻訳を支援するクロスドメイン画像の完全対応学習について述べる。 我々は,粗いレベルからの対応を用いて細かなレベルを導く階層的戦略を採用する。 各階層では、近隣からのマッチングを反復的に活用するPatchMatchを介して、効率よく対応を計算できる。 各PatchMatchイテレーションにおいて、ConvGRUモジュールは、より大きなコンテキストのマッチングだけでなく、過去の推定値も考慮して、現在の対応を洗練するために使用される。 提案したCoCosNet v2は、GRU支援のPatchMatchアプローチであり、完全に微分可能で、非常に効率的である。 画像翻訳と共同で訓練すると、教師なしの方法で完全な意味対応が確立され、結果として、模範的な画像翻訳が容易になる。 多様な翻訳タスクの実験により、CoCosNet v2は高解像度画像の生成において最先端の文献よりもかなり優れた性能を示した。

We present the full-resolution correspondence learning for cross-domain images, which aids image translation. We adopt a hierarchical strategy that uses the correspondence from coarse level to guide the fine levels. At each hierarchy, the correspondence can be efficiently computed via PatchMatch that iteratively leverages the matchings from the neighborhood. Within each PatchMatch iteration, the ConvGRU module is employed to refine the current correspondence considering not only the matchings of larger context but also the historic estimates. The proposed CoCosNet v2, a GRU-assisted PatchMatch approach, is fully differentiable and highly efficient. When jointly trained with image translation, full-resolution semantic correspondence can be established in an unsupervised manner, which in turn facilitates the exemplar-based image translation. Experiments on diverse translation tasks show that CoCosNet v2 performs considerably better than state-of-the-art literature on producing high-resolution images.
翻訳日:2021-05-23 14:53:46 公開日:2021-03-30
# (参考訳) なぜ、なぜ、どのようにして人工知能チップを開発するのか [全文訳有]

The Why, What and How of Artificial General Intelligence Chip Development ( http://arxiv.org/abs/2012.06338v2 )

ライセンス: CC BY-SA 4.0
Alex James(参考訳) AIチップは、低消費電力と低コストでニューラルネットワークを実装することに集中している。 インテリジェントなセンシング、自動化、エッジコンピューティングアプリケーションは、AIチップの市場ドライバとなっている。 ますます、AIチップソリューションの一般化、パフォーマンス、堅牢性、スケーラビリティは、人間のような知能能力と比較される。 このようなアプリケーション固有のAIチップから汎用インテリジェンスへ移行するための要件は、いくつかの要因を考慮する必要がある。 本稿では,人工知能(agi)システムの構築において理解される知能の一般化について概説した,この学際的な研究分野の概要について述べる。 この研究は、AIチップ技術の最新技術のリスト、エッジAI実装の分類、AGIチップ開発のためのファンネル設計フローを提示する。 最後に、AGIチップの構築に必要な設計上の考慮事項を、テストと検証の方法とともにリストアップする。

The AI chips increasingly focus on implementing neural computing at low power and cost. The intelligent sensing, automation, and edge computing applications have been the market drivers for AI chips. Increasingly, the generalisation, performance, robustness, and scalability of the AI chip solutions are compared with human-like intelligence abilities. Such a requirement to transit from application-specific to general intelligence AI chip must consider several factors. This paper provides an overview of this cross-disciplinary field of study, elaborating on the generalisation of intelligence as understood in building artificial general intelligence (AGI) systems. This work presents a listing of emerging AI chip technologies, classification of edge AI implementations, and the funnel design flow for AGI chip development. Finally, the design consideration required for building an AGI chip is listed along with the methods for testing and validating it.
翻訳日:2021-05-17 11:15:44 公開日:2021-03-30
# (参考訳) 視覚・言語事前学習モデルのロバスト性について [全文訳有]

A Closer Look at the Robustness of Vision-and-Language Pre-trained Models ( http://arxiv.org/abs/2012.08673v2 )

ライセンス: CC BY 4.0
Linjie Li, Zhe Gan, Jingjing Liu(参考訳) ViLBERTやUNITERのような大規模事前学習型マルチモーダルトランスフォーマーは、視覚言語(V+L)研究の最先端を新たなレベルへと押し上げた。 標準的なタスクで素晴らしいパフォーマンスを達成することはできるが、これらの事前訓練されたモデルがどれほど堅牢かはいまだに不明だ。 本研究では,既存のv+l仕様モデルについて,(i)言語的変動,(ii)論理的推論,(iii)視覚コンテンツ操作,(iv)回答分布シフトの4種類以上の徹底的な評価を行う。 興味深いことに、標準モデルの微調整により、事前訓練されたv+lモデルは、多くのタスク固有の最先端メソッドよりも堅牢性が向上している。 モデルロバスト性をさらに高めるために,マルチモーダル適応雑音生成器を組込み空間で学習し,事前学習したV+Lモデルを騙す汎用的で効率的な手法であるMangoを提案する。 特定のタイプのロバスト性に注目した以前の研究とは異なり、mangoはタスク非依存であり、ロバスト性の幅広い側面を評価するために設計された多種多様なタスクよりも、事前訓練されたモデルの普遍的なパフォーマンス向上を可能にする。 総合的な実験によると、Mangoは9つの堅牢性ベンチマークのうち7つで、既存の手法をかなり上回っている。 V+Lのロバスト性に関する最初の包括的な研究として、この研究は事前訓練されたモデルのロバスト性をより鋭い焦点に置き、将来の研究の新たな方向性を示す。

Large-scale pre-trained multimodal transformers, such as ViLBERT and UNITER, have propelled the state of the art in vision-and-language (V+L) research to a new level. Although achieving impressive performance on standard tasks, to date, it still remains unclear how robust these pre-trained models are. To investigate, we conduct a host of thorough evaluations on existing pre-trained models over 4 different types of V+L specific model robustness: (i) Linguistic Variation; (ii) Logical Reasoning; (iii) Visual Content Manipulation; and (iv) Answer Distribution Shift. Interestingly, by standard model finetuning, pre-trained V+L models already exhibit better robustness than many task-specific state-of-the-art methods. To further enhance model robustness, we propose Mango, a generic and efficient approach that learns a Multimodal Adversarial Noise GeneratOr in the embedding space to fool pre-trained V+L models. Differing from previous studies focused on one specific type of robustness, Mango is task-agnostic, and enables universal performance lift for pre-trained models over diverse tasks designed to evaluate broad aspects of robustness. Comprehensive experiments demonstrate that Mango achieves new state of the art on 7 out of 9 robustness benchmarks, surpassing existing methods by a significant margin. As the first comprehensive study on V+L robustness, this work puts robustness of pre-trained models into sharper focus, pointing new directions for future study.
翻訳日:2021-05-07 06:43:54 公開日:2021-03-30
# AdjointBackMap: 共役演算子を用いたCNN層からの効果的な決定超曲面の再構築

AdjointBackMap: Reconstructing Effective Decision Hypersurfaces from CNN Layers Using Adjoint Operators ( http://arxiv.org/abs/2012.09020v2 )

ライセンス: Link先を確認
Qing Wan, Yoonsuck Choe(参考訳) 畳み込みニューラルネットワーク(CNN)の内部動作を説明する効果的な方法はいくつかある。 しかし、一般的には、CNNによって実行される関数の逆数を見つけることは、誤った問題である。 本稿では,CNNの任意の単位(第1畳み込み層を除く)を与えられた随伴演算子に基づく再構成手法を提案する。 以上の結果から, 原画像に乗じれば, ユニットの正確な出力値に近い値が得られることが示唆された。 CNNユニットの判定面が入力にほとんど条件付けられていることが分かり、このことがCNNを効果的に欺く理由を説明できるかもしれない。

There are several effective methods in explaining the inner workings of convolutional neural networks (CNNs). However, in general, finding the inverse of the function performed by CNNs as a whole is an ill-posed problem. In this paper, we propose a method based on adjoint operators to reconstruct, given an arbitrary unit in the CNN (except for the first convolutional layer), its effective hypersurface in the input space that replicates that unit's decision surface conditioned on a particular input image. Our results show that the hypersurface reconstructed this way, when multiplied by the original input image, would give nearly the exact output value of that unit. We find that the CNN unit's decision surface is largely conditioned on the input, and this may explain why adversarial inputs can effectively deceive CNNs.
翻訳日:2021-05-03 03:12:55 公開日:2021-03-30
# スケーラブルフィンガープリントを用いた生成モデルの責任開示

Responsible Disclosure of Generative Models Using Scalable Fingerprinting ( http://arxiv.org/abs/2012.08726v4 )

ライセンス: Link先を確認
Ning Yu, Vladislav Skripniuk, Dingfan Chen, Larry Davis, Mario Fritz(参考訳) 過去6年間で、深層生成モデルは定性的に新しいレベルのパフォーマンスを達成している。 生成されたデータは、不可能ではないにせよ、実際のデータと区別することが困難になっている。 この技術の恩恵を受けるユースケースはたくさんあるが、この新技術がセンサーを悪用し、深いフェイクを生成し、大規模に誤った情報を可能にすることには、強い懸念がある。 残念ながら、現在のディープフェイク検出方法は、現実とフェイクのギャップが閉まっているため、持続可能ではない。 対照的に、我々の研究は、このような最先端の生成モデルについて責任ある開示を可能にし、研究者や企業がモデルに指紋を付けることができ、指紋を含む生成されたサンプルを正確に検出し、ソースに関連付けることができる。 本手法は,異なる指紋を持つ多数のモデル群を効率的かつスケーラブルに生成することにより,これを実現する。 推奨操作ポイントは128ビットの指紋を使用し、原則として10^{36}$の識別可能なモデルが生成される。 実験の結果, 本手法はフィンガープリンティング機構の重要な特性を満たし, ディープフェイクの検出と帰属に有効であることがわかった。

Over the past six years, deep generative models have achieved a qualitatively new level of performance. Generated data has become difficult, if not impossible, to be distinguished from real data. While there are plenty of use cases that benefit from this technology, there are also strong concerns on how this new technology can be misused to spoof sensors, generate deep fakes, and enable misinformation at scale. Unfortunately, current deep fake detection methods are not sustainable, as the gap between real and fake continues to close. In contrast, our work enables a responsible disclosure of such state-of-the-art generative models, that allows researchers and companies to fingerprint their models, so that the generated samples containing a fingerprint can be accurately detected and attributed to a source. Our technique achieves this by an efficient and scalable ad-hoc generation of a large population of models with distinct fingerprints. Our recommended operation point uses a 128-bit fingerprint which in principle results in more than $10^{36}$ identifiable models. Experiments show that our method fulfills key properties of a fingerprinting mechanism and achieves effectiveness in deep fake detection and attribution.
翻訳日:2021-05-03 03:02:15 公開日:2021-03-30
# 教師なし人物の再識別のための共同生成学習とコントラスト学習

Joint Generative and Contrastive Learning for Unsupervised Person Re-identification ( http://arxiv.org/abs/2012.09071v2 )

ライセンス: Link先を確認
Hao Chen, Yaohui Wang, Benoit Lagadec, Antitza Dantcheva, Francois Bremond(参考訳) 最近の自己指導型コントラスト学習は、入力の異なる視点(変換されたバージョン)から不変性を学ぶことによって、教師なしの人物再識別(ReID)に効果的なアプローチを提供する。 本稿では,GAN(Generative Adversarial Network)とコントラスト学習モジュールを1つのジョイントトレーニングフレームワークに統合する。 GANは、コントラスト学習のためのオンラインデータ拡張を提供するが、コントラスト学習モジュールは、生成のためのビュー不変の機能を学ぶ。 本研究では,メッシュベースのビュージェネレータを提案する。 具体的には、メッシュプロジェクションは、人の新しいビューを生成するためのリファレンスとして機能する。 さらに,オリジナルビューと生成ビューの対比学習を容易にするビュー不変損失を提案する。 ドメイン適応を含む従来のGANベースの教師なしReIDメソッドから逸脱し、ラベル付きソースデータセットに頼らず、メソッドをより柔軟にします。 広範な実験結果から,本手法は,複数の大規模reidダセットにおいて,完全に教師なしかつ教師なしのドメイン適応設定の両方において,最先端の手法を大幅に上回っていることがわかった。

Recent self-supervised contrastive learning provides an effective approach for unsupervised person re-identification (ReID) by learning invariance from different views (transformed versions) of an input. In this paper, we incorporate a Generative Adversarial Network (GAN) and a contrastive learning module into one joint training framework. While the GAN provides online data augmentation for contrastive learning, the contrastive module learns view-invariant features for generation. In this context, we propose a mesh-based view generator. Specifically, mesh projections serve as references towards generating novel views of a person. In addition, we propose a view-invariant loss to facilitate contrastive learning between original and generated views. Deviating from previous GAN-based unsupervised ReID methods involving domain adaptation, we do not rely on a labeled source dataset, which makes our method more flexible. Extensive experimental results show that our method significantly outperforms state-of-the-art methods under both, fully unsupervised and unsupervised domain adaptive settings on several large scale ReID datsets.
翻訳日:2021-05-03 02:55:11 公開日:2021-03-30
# (参考訳) Minimax Active Learning [全文訳有]

Minimax Active Learning ( http://arxiv.org/abs/2012.10467v2 )

ライセンス: CC BY 4.0
Sayna Ebrahimi, William Gan, Dian Chen, Giscard Biamby, Kamyar Salahi, Michael Laielli, Shizhan Zhu, Trevor Darrell(参考訳) アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルを問合せすることで、ラベル効率のよいアルゴリズムを開発することを目的としている。 現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。 不確実性に基づく戦略は外れやすいが、サンプルの多様性にのみ依存することは、メインタスクで利用可能な情報を捉えない。 本研究では,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。 本モデルはエントロピー最小化特徴量符号化ネットワークとエントロピー最大化分類層からなる。 このミニマックス定式化はラベル付き/ラベルなしデータ間の分布ギャップを低減し、判別器はラベル付き/ラベルなしデータを識別するために同時に訓練される。 分類器がラベルなしと予測した分類器からの最も高いエントロピーサンプルをラベル付けとして選択する。 画像分類やセマンティクスセグメンテーションベンチマークデータセットの手法を評価し,最先端手法よりも優れた性能を示す。

Active learning aims to develop label-efficient algorithms by querying the most representative samples to be labeled by a human annotator. Current active learning techniques either rely on model uncertainty to select the most uncertain samples or use clustering or reconstruction to choose the most diverse set of unlabeled examples. While uncertainty-based strategies are susceptible to outliers, solely relying on sample diversity does not capture the information available on the main task. In this work, we develop a semi-supervised minimax entropy-based active learning algorithm that leverages both uncertainty and diversity in an adversarial manner. Our model consists of an entropy minimizing feature encoding network followed by an entropy maximizing classification layer. This minimax formulation reduces the distribution gap between the labeled/unlabeled data, while a discriminator is simultaneously trained to distinguish the labeled/unlabeled data. The highest entropy samples from the classifier that the discriminator predicts as unlabeled are selected for labeling. We evaluate our method on various image classification and semantic segmentation benchmark datasets and show superior performance over the state-of-the-art methods.
翻訳日:2021-05-01 20:16:54 公開日:2021-03-30
# 進化的価値学習を用いた汎用ゴールタスクのためのヒューマンロボット協調の形成

Forming Human-Robot Cooperation for Tasks with General Goal using Evolutionary Value Learning ( http://arxiv.org/abs/2012.10773v3 )

ライセンス: Link先を確認
Lingfeng Tao, Michael Bowman, Jiucai Zhang, Xiaoli Zhang(参考訳) ヒューマン・ロボット・コラボレーティブ(hrc)では、ロボットは人間と協力してタスクを遂行する。 既存のアプローチでは、人間が協力中に特定の目標を持っていると仮定し、ロボットはそれを推論し行動する。 しかし、現実の環境では、人間は通常、協調の開始時に一般的な目標(例えば、運動計画における一般的な方向または領域)しか持たず、協調中に特定の目標(例えば、正確な位置)に明確化する必要がある。 仕様プロセスはインタラクティブで動的であり、環境やパートナーの行動に依存する。 目標特定プロセスを考慮しないロボットは、人間のパートナーにフラストレーションを引き起こし、合意に達する時間を延長し、チームのパフォーマンスを妥協または失敗させる可能性がある。 本稿では,多変量ベイズ推定法を用いてhrcにおける目標特定プロセスのダイナミクスをモデル化する進化的価値学習(evl)手法を提案する。 EVLは、目標仕様と協調形成のプロセスを積極的に強化することができる。 これにより、ロボットは人間が目標を特定するのを同時に支援し、深層強化学習(drl)方式で協調政策を学ぶことができる。 実際の人間との動的ボールバランスタスクでは、EVLを装備したロボットは、目標仕様プロセスの高速化とチームパフォーマンスの向上により、既存の手法よりも優れる。

In Human-Robot Cooperation (HRC), the robot cooperates with humans to accomplish the task together. Existing approaches assume the human has a specific goal during the cooperation, and the robot infers and acts toward it. However, in real-world environments, a human usually only has a general goal (e.g., general direction or area in motion planning) at the beginning of the cooperation, which needs to be clarified to a specific goal (e.g., an exact position) during cooperation. The specification process is interactive and dynamic, which depends on the environment and the partners' behavior. The robot that does not consider the goal specification process may cause frustration to the human partner, elongate the time to come to an agreement, and compromise or fail team performance. We present the Evolutionary Value Learning (EVL) approach, which uses a State-based Multivariate Bayesian Inference method to model the dynamics of the goal specification process in HRC. EVL can actively enhance the process of goal specification and cooperation formation. This enables the robot to simultaneously help the human specify the goal and learn a cooperative policy in a Deep Reinforcement Learning (DRL) manner. In a dynamic ball balancing task with real human subjects, the robot equipped with EVL outperforms existing methods with faster goal specification processes and better team performance.
翻訳日:2021-05-01 11:08:58 公開日:2021-03-30
# (参考訳) スマートフォンを用いた機械式建設管の自動デジタル文書化と進捗報告 [全文訳有]

Towards Automatic Digital Documentation and Progress Reporting of Mechanical Construction Pipes using Smartphones ( http://arxiv.org/abs/2012.10958v2 )

ライセンス: CC BY 4.0
Reza Maalek, Derek Lichti, and Shahrokh Maalek(参考訳) 本書は,スマートフォンを用いた建設プロジェクトにおける機械管の自動デジタル文書化と進捗報告のための新しい枠組みを提案する。 所望の画像重なりを達成するためにビデオフレームレートを最適化し、3次元再構成のためのメートル法スケールを定義し、点雲からパイプを抽出し、計画された量枠radiiに従ってパイプを分類する新しい手法を提案した。 提案手法の有効性を実験室(6本の管)と施工現場(58本の管)の両方で評価した。 提案手法により, メートル以下の管径推定精度が得られた。 実験室およびフィールド実験の結果,画像の増大により点雲の品質,管分類品質,管半径/長さの推定が向上した。 その結果,少なくとも95%の画像重なりを用いた建設現場で,管の分類F値,半径推定精度,長さ推定率96.4%,5.4mm,5.0%の誤差を達成できた。

This manuscript presents a new framework towards automated digital documentation and progress reporting of mechanical pipes in building construction projects, using smartphones. New methods were proposed to optimize video frame rate to achieve a desired image overlap; define metric scale for 3D reconstruction; extract pipes from point clouds; and classify pipes according to their planned bill of quantity radii. The effectiveness of the proposed methods in both laboratory (six pipes) and construction site (58 pipes) conditions was evaluated. It was observed that the proposed metric scale definition achieved sub-millimeter pipe radius estimation accuracy. Both laboratory and field experiments revealed that increasing the defined image overlap improved point cloud quality, pipe classification quality, and pipe radius/length estimation. Overall, it was found possible to achieve pipe classification F-measure, radius estimation accuracy, and length estimation percent error of 96.4%, 5.4mm, and 5.0%, respectively, on construction sites using at least 95% image overlap.
翻訳日:2021-05-01 06:57:21 公開日:2021-03-30
# 事例依存ラベル雑音による学習の2次的アプローチ

A Second-Order Approach to Learning with Instance-Dependent Label Noise ( http://arxiv.org/abs/2012.11854v2 )

ライセンス: Link先を確認
Zhaowei Zhu, Tongliang Liu, Yang Liu(参考訳) ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。 近年の文献では、ラベルのノイズレートは真のラベルクラスによってのみ決定されると考えられており、ヒューマンアノテートされたラベルのエラーはタスクの難易度に依存しやすいため、インスタンスに依存したラベルのノイズが設定される。 まず、不均一なインスタンス依存ラベルノイズが、非均一な方法で高いノイズ率で実例を効果的に重み付けし、不均衡を引き起こすという証拠を提供し、クラス依存ラベルノイズの直接適用の戦略を疑わしいものにする。 次に,最近のピアロス[24]に基づいて,インスタンス依存雑音率とベイズ最適ラベルの間で定義された複数の共分散項を推定する2次アプローチの可能性を提案・検討する。 この二階統計が誘導不均衡をうまく捉えていることを示す。 さらに,推定された第2次統計の助けを借りて,インスタンス依存ラベル雑音下での分類器の予測リスクが,クラス依存ラベルノイズのみを持つ新たな問題と同値となる新たな損失関数を同定する。 この事実により、よりよく検討された設定を扱うために、既存のソリューションを適用できます。 我々は,これらの2次統計を,基底的真理ラベルや雑音率の事前知識を使わずに,効率的に推定する手法を提案する。 合成インスタンス依存ラベルノイズによるcifar10とcifar100の実験と実世界のラベルノイズを用いたwears1mの検証を行った。 実装はhttps://github.com/U CSC-REAL/CALで公開しています。

The presence of label noise often misleads the training of deep neural networks. Departing from the recent literature which largely assumes the label noise rate is only determined by the true label class, the errors in human-annotated labels are more likely to be dependent on the difficulty levels of tasks, resulting in settings with instance-dependent label noise. We first provide evidences that the heterogeneous instance-dependent label noise is effectively down-weighting the examples with higher noise rates in a non-uniform way and thus causes imbalances, rendering the strategy of directly applying methods for class-dependent label noise questionable. Built on a recent work peer loss [24], we then propose and study the potentials of a second-order approach that leverages the estimation of several covariance terms defined between the instance-dependent noise rates and the Bayes optimal label. We show that this set of second-order statistics successfully captures the induced imbalances. We further proceed to show that with the help of the estimated second-order statistics, we identify a new loss function whose expected risk of a classifier under instance-dependent label noise is equivalent to a new problem with only class-dependent label noise. This fact allows us to apply existing solutions to handle this better-studied setting. We provide an efficient procedure to estimate these second-order statistics without accessing either ground truth labels or prior knowledge of the noise rates. Experiments on CIFAR10 and CIFAR100 with synthetic instance-dependent label noise and Clothing1M with real-world human label noise verify our approach. Our implementation is available at https://github.com/U CSC-REAL/CAL.
翻訳日:2021-04-26 07:44:24 公開日:2021-03-30
# (参考訳) 深達度学習によるMRIにおける脊髄腫瘍の多型化 [全文訳有]

Multiclass Spinal Cord Tumor Segmentation on MRI with Deep Learning ( http://arxiv.org/abs/2012.12820v4 )

ライセンス: CC BY 4.0
Andreanne Lemay, Charley Gros, Zhizheng Zhuo, Jie Zhang, Yunyun Duan, Julien Cohen-Adad, Yaou Liu(参考訳) 脊髄腫瘍は神経障害と死亡を引き起こす。 腫瘍、浮腫、空洞の形態計測的定量化(大きさ、位置、増殖率)が得られれば、監視および治療計画が改善される。 このような定量化は、これらの構造を3つの異なるクラスに分割する必要がある。 しかし、3次元構造の手動セグメンテーションは時間と手間がかかり、自動化手法の開発を動機付ける。 ここでは,脊髄腫瘍セグメント化作業に適応したモデルを調整する。 ガドリニウム強調T1強調MRIとT2強調MRIを用いて, 頚部, 胸部, 腰椎を被覆した343例から得られた。 このデータセットは、astrocytomas、ependymomas、hemangioblastomaの3つの最も一般的な髄内脊髄腫瘍タイプを含んでいる。 提案されたアプローチは、腫瘍を2段階のプロセスで分割する u-net ベースのモデルによるカスケードアーキテクチャである。 モデルはまず脊髄を発見し、境界ボックス座標を生成する。 この出力に従って画像が収穫されるため、視野が小さくなり、クラス不均衡が軽減される。 その後腫瘍は分断される。 腫瘍,空洞,浮腫のセグメンテーションはDiceスコアの76.7$\pm$ 1.5%に達し,腫瘍のセグメンテーションはDiceスコアの61.8$\pm$ 4.0%に達した。 真の陽性率は腫瘍,浮腫,空洞の87%以上であった。 我々の知る限りでは、これが脊髄腫瘍セグメンテーションのための最初の完全自動深層学習モデルである。 マルチクラスセグメンテーションパイプラインはSpinal Cord Toolbox(https://spin alcordtoolbox.com/)で利用できる。 通常のコンピュータ上で、数秒でカスタムデータで実行することができる。

Spinal cord tumors lead to neurological morbidity and mortality. Being able to obtain morphometric quantification (size, location, growth rate) of the tumor, edema, and cavity can result in improved monitoring and treatment planning. Such quantification requires the segmentation of these structures into three separate classes. However, manual segmentation of 3-dimensional structures is time-consuming and tedious, motivating the development of automated methods. Here, we tailor a model adapted to the spinal cord tumor segmentation task. Data were obtained from 343 patients using gadolinium-enhanced T1-weighted and T2-weighted MRI scans with cervical, thoracic, and/or lumbar coverage. The dataset includes the three most common intramedullary spinal cord tumor types: astrocytomas, ependymomas, and hemangioblastomas. The proposed approach is a cascaded architecture with U-Net-based models that segments tumors in a two-stage process: locate and label. The model first finds the spinal cord and generates bounding box coordinates. The images are cropped according to this output, leading to a reduced field of view, which mitigates class imbalance. The tumor is then segmented. The segmentation of the tumor, cavity, and edema (as a single class) reached 76.7 $\pm$ 1.5% of Dice score and the segmentation of tumors alone reached 61.8 $\pm$ 4.0% Dice score. The true positive detection rate was above 87% for tumor, edema, and cavity. To the best of our knowledge, this is the first fully automatic deep learning model for spinal cord tumor segmentation. The multiclass segmentation pipeline is available in the Spinal Cord Toolbox (https://spinalcordt oolbox.com/). It can be run with custom data on a regular computer within seconds.
翻訳日:2021-04-25 21:20:50 公開日:2021-03-30
# whu-hi: uavによる高空間分解能ハイパースペクトラル(h2)ハイパースペクトラル画像分類のためのベンチマークデータセット

WHU-Hi: UAV-borne hyperspectral with high spatial resolution (H2) benchmark datasets for hyperspectral image classification ( http://arxiv.org/abs/2012.13920v2 )

ライセンス: Link先を確認
Xin Hu, Yanfei Zhong, Chang Luo, Xinyu Wang(参考訳) 分類はハイパースペクトル画像処理と応用の重要な側面である。 現在、研究者は主にベンチマークデータセットとして、古典的な空中分光画像を使用している。 しかし,既存のデータセットには,(1)低空間分解能,(2)低ラベル画素比,(3)低サブクラス差の3つのボトルネックがある。 本稿では,武漢uavによるハイパースペクトラル画像(whu-hi)データセットという,ハイパースペクトラル画像分類のためのベンチマークデータセットを構築した。 高いスペクトル分解能(nmレベル)と非常に高い空間分解能(cmレベル)を持つwhu-hiデータセットは、ここではh2 imagerと呼ぶ。 さらに、whu-hiデータセットは、より高いピクセルラベリング比とより細かいサブクラスを持つ。 WHU-Hiデータセットをベンチマークし、実験結果から、WHU-Hiは挑戦的なデータセットであることが示された。 WHU-Hiデータセットが将来の研究を加速するための強力なベンチマークになることを願っている。

Classification is an important aspect of hyperspectral images processing and application. At present, the researchers mostly use the classic airborne hyperspectral imagery as the benchmark dataset. However, existing datasets suffer from three bottlenecks: (1) low spatial resolution; (2) low labeled pixels proportion; (3) low degree of subclasses distinction. In this paper, a new benchmark dataset named the Wuhan UAV-borne hyperspectral image (WHU-Hi) dataset was built for hyperspectral image classification. The WHU-Hi dataset with a high spectral resolution (nm level) and a very high spatial resolution (cm level), which we refer to here as H2 imager. Besides, the WHU-Hi dataset has a higher pixel labeling ratio and finer subclasses. Some start-of-art hyperspectral image classification methods benchmarked the WHU-Hi dataset, and the experimental results show that WHU-Hi is a challenging dataset. We hope WHU-Hi dataset can become a strong benchmark to accelerate future research.
翻訳日:2021-04-24 20:08:48 公開日:2021-03-30
# (参考訳) 変圧器を用いたシーケンス・ツー・シーケンスの観点からの意味セグメンテーション再考 [全文訳有]

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers ( http://arxiv.org/abs/2012.15840v2 )

ライセンス: CC BY 4.0
Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang(参考訳) 最近のセマンティックセグメンテーション手法では、エンコーダ-デコーダアーキテクチャを備えた完全畳み込みネットワーク(FCN)を採用している。 エンコーダは空間分解能を徐々に減らし、より大きな受容場を持つ抽象的・意味的な視覚概念を学習する。 コンテキストモデリングはセグメンテーションに欠かせないため、最新の取り組みは、拡張/アトラスな畳み込みまたは注意モジュール挿入を通じて、受容領域の拡大に焦点を当てている。 しかし、エンコーダ-デコーダベースのFCNアーキテクチャは変わっていない。 本稿では,セマンティックセグメンテーションをシーケンス・ツー・シーケンス予測タスクとして扱うことで,新たな視点を提供する。 具体的には、イメージをパッチのシーケンスとしてエンコードするために、純粋なトランス(畳み込みや分解能低下なしに)をデプロイします。 トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供する単純なデコーダと組み合わせることができる。 大規模な実験により、SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapes(英語版)の競争結果の新たな状態を達成することが示された。 特に,競争の激しい ade20k テストサーバのリーダボードにおいて,提出当日に最初のポジションを得る。

Most recent semantic segmentation methods adopt a fully-convolutional network (FCN) with an encoder-decoder architecture. The encoder progressively reduces the spatial resolution and learns more abstract/semantic visual concepts with larger receptive fields. Since context modeling is critical for segmentation, the latest efforts have been focused on increasing the receptive field, through either dilated/atrous convolutions or inserting attention modules. However, the encoder-decoder based FCN architecture remains unchanged. In this paper, we aim to provide an alternative perspective by treating semantic segmentation as a sequence-to-sequence prediction task. Specifically, we deploy a pure transformer (ie, without convolution and resolution reduction) to encode an image as a sequence of patches. With the global context modeled in every layer of the transformer, this encoder can be combined with a simple decoder to provide a powerful segmentation model, termed SEgmentation TRansformer (SETR). Extensive experiments show that SETR achieves new state of the art on ADE20K (50.28% mIoU), Pascal Context (55.83% mIoU) and competitive results on Cityscapes. Particularly, we achieve the first position in the highly competitive ADE20K test server leaderboard on the day of submission.
翻訳日:2021-04-17 20:24:54 公開日:2021-03-30
# ディープラーニング時代のステレオマッチングの信頼性について:定量的評価

On the confidence of stereo matching in a deep-learning era: a quantitative evaluation ( http://arxiv.org/abs/2101.00431v3 )

ライセンス: Link先を確認
Matteo Poggi, Seungryong Kim, Fabio Tosi, Sunok Kim, Filippo Aleotti, Dongbo Min, Kwanghoon Sohn, Stefano Mattoccia(参考訳) ステレオマッチングは、2つの同期画像と修正画像に一致するピクセルの差を見出すことにより、密度深度マップを推定する最も一般的な手法の1つである。 より正確なアルゴリズムの開発とともに、研究コミュニティは信頼性を推定する優れた戦略を見つけることに注力した。 信頼度 推定格差マップ この情報は、間違った一致をナビゲートし、異なる戦略に従って様々なステレオアルゴリズムの全体的な効果を改善するための強力な手がかりであることが証明されている。 本稿では,ステレオマッチングにおける信頼度推定の分野における10年以上の発展を概観する。 我々は,手作りの手法から最新の最先端の学習手法まで,既存の信頼度尺度とその変種を幅広く議論し,評価する。 本研究では,異なるステレオアルゴリズムのプールに適用した場合と,最先端のディープステレオネットワークと組み合わせる場合とで,各測定値の異なる挙動について検討する。 5つの異なる標準データセットで実施した実験では、分野の概要を概観し、特に学習に基づく戦略の強みと限界を強調した。

Stereo matching is one of the most popular techniques to estimate dense depth maps by finding the disparity between matching pixels on two, synchronized and rectified images. Alongside with the development of more accurate algorithms, the research community focused on finding good strategies to estimate the reliability, i.e. the confidence, of estimated disparity maps. This information proves to be a powerful cue to naively find wrong matches as well as to improve the overall effectiveness of a variety of stereo algorithms according to different strategies. In this paper, we review more than ten years of developments in the field of confidence estimation for stereo matching. We extensively discuss and evaluate existing confidence measures and their variants, from hand-crafted ones to the most recent, state-of-the-art learning based methods. We study the different behaviors of each measure when applied to a pool of different stereo algorithms and, for the first time in literature, when paired with a state-of-the-art deep stereo network. Our experiments, carried out on five different standard datasets, provide a comprehensive overview of the field, highlighting in particular both strengths and limitations of learning-based strategies.
翻訳日:2021-04-13 07:17:30 公開日:2021-03-30
# テキスト対画像生成のためのクロスモーダルコントラスト学習

Cross-Modal Contrastive Learning for Text-to-Image Generation ( http://arxiv.org/abs/2101.04702v3 )

ライセンス: Link先を確認
Han Zhang, Jing Yu Koh, Jason Baldridge, Honglak Lee, Yinfei Yang(参考訳) テキスト・ツー・イメージ合成システムの出力は、条件付きテキスト記述に対して、セマンティックな忠実度の高いコヒーレントでクリアでフォトリアリスティックなシーンでなければならない。 XMC-GAN(Cross-Modal Contrastive Generative Adversarial Network)は,画像とテキスト間の相互情報を最大化する。 これは、モダリティ間およびモダリティ内対応をキャプチャする複数の対照的な損失によって行われる。 XMC-GANは、強いテキストイメージ対応を強制する注目の自己変調ジェネレータと、コントラスト学習のための特徴エンコーダと同様に、批評家として機能するコントラスト識別器を使用する。 XMC-GANの出力の品質は、3つの挑戦的なデータセットで示すように、以前のモデルから大きく向上している。 MS-COCOでは、XMC-GANは24.70から9.33までの最先端のFIDを改善するだけでなく、画像品質は77.3で、画像テキストアライメントは74.1である。 XMC-GANはまた、挑戦的なLocalized Narrativesデータセット(より長い詳細記述を持つ)に一般化し、最先端のFIDを48.70から14.12に改善した。 最後に、挑戦的なOpen Imagesデータに基づいてXMC-GANをトレーニングし、評価し、26.91の強力なベンチマークFIDスコアを確立する。

The output of text-to-image synthesis systems should be coherent, clear, photo-realistic scenes with high semantic fidelity to their conditioned text descriptions. Our Cross-Modal Contrastive Generative Adversarial Network (XMC-GAN) addresses this challenge by maximizing the mutual information between image and text. It does this via multiple contrastive losses which capture inter-modality and intra-modality correspondences. XMC-GAN uses an attentional self-modulation generator, which enforces strong text-image correspondence, and a contrastive discriminator, which acts as a critic as well as a feature encoder for contrastive learning. The quality of XMC-GAN's output is a major step up from previous models, as we show on three challenging datasets. On MS-COCO, not only does XMC-GAN improve state-of-the-art FID from 24.70 to 9.33, but--more importantly--people prefer XMC-GAN by 77.3 for image quality and 74.1 for image-text alignment, compared to three other recent models. XMC-GAN also generalizes to the challenging Localized Narratives dataset (which has longer, more detailed descriptions), improving state-of-the-art FID from 48.70 to 14.12. Lastly, we train and evaluate XMC-GAN on the challenging Open Images data, establishing a strong benchmark FID score of 26.91.
翻訳日:2021-04-04 01:43:09 公開日:2021-03-30
# (参考訳) Bフレーム符号化のためのニューラルPフレームコーデックの拡張 [全文訳有]

Extending Neural P-frame Codecs for B-frame Coding ( http://arxiv.org/abs/2104.00531v1 )

ライセンス: CC BY 4.0
Reza Pourreza and Taco S Cohen(参考訳) ほとんどのニューラルビデオコーデックはPフレーム符号化(過去のフレームから各フレームを予測する)に対処するが、本稿ではBフレーム圧縮(過去の参照フレームと将来の参照フレームの両方を用いて予測する)に対処する。 我々のBフレームソリューションは既存のPフレーム方式に基づいている。 これにより、既存のニューラルコーデックにBフレーム符号化機能を容易に追加することができる。 Bフレーム符号化の基本的な考え方は、2つの参照フレームを補間して単一の参照フレームを生成し、既存のPフレームコーデックと組み合わせて入力Bフレームを符号化することである。 本研究は,従来のpフレームコーデックと比較して,補間フレームがpフレームコーデックの参照としてはるかに優れていることを示す。 その結果,提案手法を既存のpフレームコーデックと組み合わせると,pフレームコーデックと比較して,uvgデータセットのビットレートが28.5%削減できることがわかった。

While most neural video codecs address P-frame coding (predicting each frame from past ones), in this paper we address B-frame compression (predicting frames using both past and future reference frames). Our B-frame solution is based on the existing P-frame methods. As a result, B-frame coding capability can easily be added to an existing neural codec. The basic idea of our B-frame coding method is to interpolate the two reference frames to generate a single reference frame and then use it together with an existing P-frame codec to encode the input B-frame. Our studies show that the interpolated frame is a much better reference for the P-frame codec compared to using the previous frame as is usually done. Our results show that using the proposed method with an existing P-frame codec can lead to 28.5%saving in bit-rate on the UVG dataset compared to the P-frame codec while generating the same video quality.
翻訳日:2021-04-03 11:13:45 公開日:2021-03-30
# 警察ゾーン設計のためのデータ駆動最適化

Data-Driven Optimization for Police Zone Design ( http://arxiv.org/abs/2104.00535v1 )

ライセンス: Link先を確認
Shixiang Zhu, He Wang, Yao Xie(参考訳) 都市環境における警察パトロールゾーンの再設計のためのデータ駆動型最適化フレームワークを提案する。 目的は、警察の作業負荷を地理的にバランスさせ、緊急呼び出しに対する応答時間を短縮することである。 我々は,警察事故報告,人口統計調査,交通データなど複数のデータソースを統合することで,警察緊急対応のための確率モデルを開発する。 この確率モデルを用いて,混合整数線形計画を用いたゾーン再設計計画を最適化する。 提案した設計は,2019年3月にアトランタ警察署が実施した。 ゾーン再設計前後のデータを分析した結果, 優先度の高い911コールに対する応答時間を5.8\%削減し, 異なるゾーン間の警察作業負荷の不均衡を43\%削減した。

We present a data-driven optimization framework for redesigning police patrol zones in an urban environment. The objectives are to rebalance police workload among geographical areas and to reduce response time to emergency calls. We develop a stochastic model for police emergency response by integrating multiple data sources, including police incidents reports, demographic surveys, and traffic data. Using this stochastic model, we optimize zone redesign plans using mixed-integer linear programming. Our proposed design was implemented by the Atlanta Police Department in March 2019. By analyzing data before and after the zone redesign, we show that the new design has reduced the response time to high priority 911 calls by 5.8\% and the imbalance of police workload among different zones by 43\%.
翻訳日:2021-04-02 13:21:03 公開日:2021-03-30
# (参考訳) picie: クラスタリングにおける不変性と等価性を用いた教師なし意味セグメンテーション [全文訳有]

PiCIE: Unsupervised Semantic Segmentation using Invariance and Equivariance in Clustering ( http://arxiv.org/abs/2103.17070v1 )

ライセンス: CC BY 4.0
Jang Hyun Cho, Utkarsh Mall, Kavita Bala, Bharath Hariharan(参考訳) クラスタリングによるアノテーションのないセマンティックセグメンテーションのための新しいフレームワークを提案する。 オフザシェルフクラスタリング手法は、キュレート、シングルラベル、オブジェクト中心の画像に限られるが、実際のデータは、主に未修正、複数ラベル、シーン中心である。 画像からピクセルへのクラスタリングを拡張し、各画像内の異なるインスタンスに別々のクラスタメンバシップを割り当てる。 しかし、ピクセル単位での類似性のみに依存するため、高レベルな意味概念や低レベルの視覚的手がかりへの過剰な適合を学ばない。 本稿では,インダクティブバイアスとして幾何学的一貫性を組み込む手法を提案する。 新たな学習目標によって,フレームワークは高度な意味概念を学習することができる。 我々の手法であるPiCIE (Pixel-level feature Clustering using Invariance and Equivariance) は,ハイパーパラメータチューニングやタスク固有の前処理を使わずに,物と物の両方を分割できる最初の方法である。 提案手法はCOCOおよび都市景観における既存のベースラインを+17.5Accで上回る。 4.5mIoU。 また,PiCIEが標準教師付きトレーニングのより優れた初期化を提供することを示す。 コードはhttps://github.com/j anghyuncho/picieで入手できる。

We present a new framework for semantic segmentation without annotations via clustering. Off-the-shelf clustering methods are limited to curated, single-label, and object-centric images yet real-world data are dominantly uncurated, multi-label, and scene-centric. We extend clustering from images to pixels and assign separate cluster membership to different instances within each image. However, solely relying on pixel-wise feature similarity fails to learn high-level semantic concepts and overfits to low-level visual cues. We propose a method to incorporate geometric consistency as an inductive bias to learn invariance and equivariance for photometric and geometric variations. With our novel learning objective, our framework can learn high-level semantic concepts. Our method, PiCIE (Pixel-level feature Clustering using Invariance and Equivariance), is the first method capable of segmenting both things and stuff categories without any hyperparameter tuning or task-specific pre-processing. Our method largely outperforms existing baselines on COCO and Cityscapes with +17.5 Acc. and +4.5 mIoU. We show that PiCIE gives a better initialization for standard supervised training. The code is available at https://github.com/j anghyuncho/PiCIE.
翻訳日:2021-04-02 09:46:12 公開日:2021-03-30
# (参考訳) 人工知能を使ってビスケットの星に光を当てるjaffa cake [全文訳有]

Using Artificial Intelligence to Shed Light on the Star of Biscuits: The Jaffa Cake ( http://arxiv.org/abs/2103.16575v1 )

ライセンス: CC BY-SA 4.0
H. F. Stevance(参考訳) ブレグジット前、イギリスの家族の間で議論の最も大きな原因の1つは、ジャッファ・ケーキの性質に関する問題であった。 それらのサイズとホスト環境(ビスケット通路)は、彼ら自身でビスケットにするべきだと主張する者もいる。 物理的性質(例えば)を考える人もいる。 固くなるより柔らかくする)は、実際にはケーキであることを示唆している。 最終的にこの議論をrestに移すために、トランジェントなイベントを分類するテクノロジを再利用します。 伝統的なケーキやビスケットのレシピ100個に2つの分類器(ランダムフォレストとサポートベクターマシン)を訓練した。 分類器の精度は95%、精度は91%です。 そして最後に、アルゴリズムに2つのJaffa Cakeレシピを与え、Jaffa Cakesが間違いなくケーキであることを見つける。 最後に、Jaffa Cakesがビスケットであると信じる理由に関する新しい理論を提案する。

Before Brexit, one of the greatest causes of arguments amongst British families was the question of the nature of Jaffa Cakes. Some argue that their size and host environment (the biscuit aisle) should make them a biscuit in their own right. Others consider that their physical properties (e.g. they harden rather than soften on becoming stale) suggest that they are in fact cake. In order to finally put this debate to rest, we re-purpose technologies used to classify transient events. We train two classifiers (a Random Forest and a Support Vector Machine) on 100 recipes of traditional cakes and biscuits. Our classifiers have 95 percent and 91 percent accuracy respectively. Finally we feed two Jaffa Cake recipes to the algorithms and find that Jaffa Cakes are, without a doubt, cakes. Finally, we suggest a new theory as to why some believe Jaffa Cakes are biscuits.
翻訳日:2021-04-02 09:43:48 公開日:2021-03-30
# (参考訳) 季節コントラスト:未確認リモートセンシングデータからの教師なし事前学習 [全文訳有]

Seasonal Contrast: Unsupervised Pre-Training from Uncurated Remote Sensing Data ( http://arxiv.org/abs/2103.16607v1 )

ライセンス: CC BY 4.0
Oscar Ma\~nas, Alexandre Lacoste, Xavier Giro-i-Nieto, David Vazquez, Pau Rodriguez(参考訳) リモートセンシングと自動地球モニタリングは、防災、土地利用監視、気候変動対策といった世界的な課題を解決する鍵となる。 膨大な量のリモートセンシングデータが存在するが、ほとんどはラベルが付けられておらず、教師付き学習アルゴリズムにはアクセスできない。 トランスファーラーニングアプローチは、ディープラーニングアルゴリズムのデータ要求を減らすことができる。 しかし,これらの手法の多くはImageNet上で事前学習されており,ドメインギャップのため,リモートセンシング画像への一般化は保証されていない。 本研究では,リモートセンシング表現の事前学習にラベルなしデータを活用する効果的なパイプラインである季節コントラスト(seco)を提案する。 secoパイプラインは2つの部分からなる。 まず、異なるタイムスタンプで複数の地球からの画像を含む大規模な、ラベルなし、未修正のリモートセンシングデータセットを収集する。 第二に、時間と位置の不変性を利用して移動可能な表現を学習する自己教師付きアルゴリズムである。 我々は、SeCoでトレーニングされたモデルが、ImageNetが事前訓練したモデルや、複数の下流タスクにおける最先端の自己教師型学習方法よりも優れたパフォーマンスを達成することを実証的に示す。 SeCoのデータセットとモデルは公開され、転送学習を容易にし、リモートセンシングアプリケーションの急速な進歩を可能にする。

Remote sensing and automatic earth monitoring are key to solve global-scale challenges such as disaster prevention, land use monitoring, or tackling climate change. Although there exist vast amounts of remote sensing data, most of it remains unlabeled and thus inaccessible for supervised learning algorithms. Transfer learning approaches can reduce the data requirements of deep learning algorithms. However, most of these methods are pre-trained on ImageNet and their generalization to remote sensing imagery is not guaranteed due to the domain gap. In this work, we propose Seasonal Contrast (SeCo), an effective pipeline to leverage unlabeled data for in-domain pre-training of re-mote sensing representations. The SeCo pipeline is com-posed of two parts. First, a principled procedure to gather large-scale, unlabeled and uncurated remote sensing datasets containing images from multiple Earth locations at different timestamps. Second, a self-supervised algorithm that takes advantage of time and position invariance to learn transferable representations for re-mote sensing applications. We empirically show that models trained with SeCo achieve better performance than their ImageNet pre-trained counterparts and state-of-the-art self-supervised learning methods on multiple downstream tasks. The datasets and models in SeCo will be made public to facilitate transfer learning and enable rapid progress in re-mote sensing applications.
翻訳日:2021-04-02 09:38:25 公開日:2021-03-30
# (参考訳) COCOベンチマークによるベイズ最適化の再検討

Revisiting Bayesian Optimization in the light of the COCO benchmark ( http://arxiv.org/abs/2103.16649v1 )

ライセンス: CC BY 4.0
Rodolphe Le Riche, Victor Picheny(参考訳) ベイズ最適化(BO)アルゴリズムは数値的にコストのかかる関数を最適化するのに非常に効率的であると考えられている。 しかし、BOは広範に異なる代替品と比較されることが少なく、主に狭い問題の集合(多次元、低次元の関数)でテストされており、それらが実際に最先端のパフォーマンスを達成するか(あるいはその場合)を評価することは困難である。 さらに、これらのアルゴリズムの設計におけるいくつかの側面は、現在のプラクティスから生じる明確な推奨なしに実装によって異なり、これらの設計選択の多くは、権威あるテストキャンペーンによって証明されない。 本稿では,共通かつあまり一般的ではない設計選択のbo(gaussian process based)の性能への影響について,大規模な調査を行う。 実験は、確立したCOCO(Comparing Continuous Optimizers)ソフトウェアで実施される。 その結果,小額な初期予算,二次的な傾向,買収基準の高品質な最適化が一貫した進展をもたらすことがわかった。 gp平均を時々取得として使用することは、無視できる追加改善に寄与する。 ウォーピングはパフォーマンスを劣化させる。 mat\'ern 5/2 カーネルは良い既定値であるが、不規則関数の指数核によって超えられる可能性がある。 全体として、最高のEGO変種は、マルチモーダル関数の次元が5以下である場合、最先端のアルゴリズムよりも競争力があるか改善されている。 この研究のために開発されたコードは、RパッケージDiceOptimの新バージョン(v2.1.1)をCRANで利用可能にしている。 関数群による実験の構造は、ベイズ最適化に関する将来の研究の優先事項を定義することができる。

It is commonly believed that Bayesian optimization (BO) algorithms are highly efficient for optimizing numerically costly functions. However, BO is not often compared to widely different alternatives, and is mostly tested on narrow sets of problems (multimodal, low-dimensional functions), which makes it difficult to assess where (or if) they actually achieve state-of-the-art performance. Moreover, several aspects in the design of these algorithms vary across implementations without a clear recommendation emerging from current practices, and many of these design choices are not substantiated by authoritative test campaigns. This article reports a large investigation about the effects on the performance of (Gaussian process based) BO of common and less common design choices. The experiments are carried out with the established COCO (COmparing Continuous Optimizers) software. It is found that a small initial budget, a quadratic trend, high-quality optimization of the acquisition criterion bring consistent progress. Using the GP mean as an occasional acquisition contributes to a negligible additional improvement. Warping degrades performance. The Mat\'ern 5/2 kernel is a good default but it may be surpassed by the exponential kernel on irregular functions. Overall, the best EGO variants are competitive or improve over state-of-the-art algorithms in dimensions less or equal to 5 for multimodal functions. The code developed for this study makes the new version (v2.1.1) of the R package DiceOptim available on CRAN. The structure of the experiments by function groups allows to define priorities for future research on Bayesian optimization.
翻訳日:2021-04-02 09:23:31 公開日:2021-03-30
# (参考訳) 離散時間パラメータ推定のための新しいアルゴリズム [全文訳有]

A New Algorithm for Discrete-Time Parameter Estimation ( http://arxiv.org/abs/2103.16653v1 )

ライセンス: CC BY 4.0
Yingnan Cui, Joseph E. Gaudio and Anuradha M. Annaswamy(参考訳) 時間変化植物のクラスをパラメータ推定するための離散時間適応アルゴリズムを提案する。 主な貢献は、パラメータ推定の調整に時間変化の利得行列を含めることである。 時間変化のある未知パラメータが存在する場合、パラメータ推定誤差は、持続的な励起条件下でのコンパクトな集合に一様収束し、未知パラメータの時間変化に比例するコンパクトな集合のサイズを示す。 有限励起条件下では、収束は漸近的で非一様である。

We propose a new discrete-time adaptive algorithm for parameter estimation of a class of time-varying plants. The main contribution is the inclusion of a time-varying gain matrix in the adjustment of the parameter estimates. We show that in the presence of time-varying unknown parameters, the parameter estimation error converges uniformly to a compact set under conditions of persistent excitation, with the size of the compact set proportional to the time-variation of the unknown parameters. Under conditions of finite excitation, the convergence is asymptotic and non-uniform.
翻訳日:2021-04-02 09:21:23 公開日:2021-03-30
# (参考訳) ニューロイメージングにおける深層学習--パワーとI型エラー制御を用いた多変量アプローチと議論可能な一般化能力 [全文訳有]

Deep Learning in current Neuroimaging: a multivariate approach with power and type I error control but arguable generalization ability ( http://arxiv.org/abs/2103.16685v1 )

ライセンス: CC BY 4.0
Carmen Jim\'enez-Mesa, Javier Ram\'irez, John Suckling, Jonathan V\"oglein, Johannes Levin, Juan Manuel G\'orriz, Alzheimer's Disease Neuroimaging Initiative ADNI, Dominantly Inherited Alzheimer Network DIAN(参考訳) 深層/機械学習技術による神経画像の識別分析は通常検証技術でテストされるが、関連する統計学的意義は計算の複雑さのためにほとんど未発達のままである。 本研究では,ディープラーニングアーキテクチャを用いた分類の統計的意義を推定する非パラメトリックフレームワークを提案する。 特に、オートエンコーダ (AE) とサポートベクターマシン (SVM) の組み合わせは、 (i) 正規制御 (NC) の 1 条件内設計 (i) および (ii) NC のアルツハイマー病 (AD) 患者と対照的な 2 条件間設計 (例えば、マルチクラス解析の拡張も含む) に適用される。 クロスバリデーション(cv)とアッパーバウンド補正(rub)による再置換を検証法として,ラベル置換テストに基づくランダム効果推定を提案する。 これにより、偽陽性と分類器オーバーフィットの両方を検出でき、またテストの統計的パワーを推定できる。 The Alzheimer's Disease Neuroimaging Initiative (ADNI) データセット、Dominantly Inherited Alzheimer Network (DIAN) データセット、MCI予測データセットを用いて、いくつかの実験を行った。 その結果,CV法とRUB法では,有意値に近い偽陽性率と許容可能な統計的パワーが得られた(クロスバリデーションでは低い)。 CVを用いた訓練と試験精度の大きな分離が観察され, 特に一条件設計で観察された。 これは、トレーニングに適合するモデルはテストセットに関して情報提供されないため、一般化能力が低いことを意味する。 CVテストセットに類似した結果が得られるRUBを適用して解法として提案するが、全セットを考慮し、1イテレーションあたりの計算コストを低く抑える。

Discriminative analysis in neuroimaging by means of deep/machine learning techniques is usually tested with validation techniques, whereas the associated statistical significance remains largely under-developed due to their computational complexity. In this work, a non-parametric framework is proposed that estimates the statistical significance of classifications using deep learning architectures. In particular, a combination of autoencoders (AE) and support vector machines (SVM) is applied to: (i) a one-condition, within-group designs often of normal controls (NC) and; (ii) a two-condition, between-group designs which contrast, for example, Alzheimer's disease (AD) patients with NC (the extension to multi-class analyses is also included). A random-effects inference based on a label permutation test is proposed in both studies using cross-validation (CV) and resubstitution with upper bound correction (RUB) as validation methods. This allows both false positives and classifier overfitting to be detected as well as estimating the statistical power of the test. Several experiments were carried out using the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset, the Dominantly Inherited Alzheimer Network (DIAN) dataset, and a MCI prediction dataset. We found in the permutation test that CV and RUB methods offer a false positive rate close to the significance level and an acceptable statistical power (although lower using cross-validation). A large separation between training and test accuracies using CV was observed, especially in one-condition designs. This implies a low generalization ability as the model fitted in training is not informative with respect to the test set. We propose as solution by applying RUB, whereby similar results are obtained to those of the CV test set, but considering the whole set and with a lower computational cost per iteration.
翻訳日:2021-04-02 09:04:26 公開日:2021-03-30
# (参考訳) 統一単眼深度予測と完了のためのスパース補助ネットワーク [全文訳有]

Sparse Auxiliary Networks for Unified Monocular Depth Prediction and Completion ( http://arxiv.org/abs/2103.16690v1 )

ライセンス: CC BY 4.0
Vitor Guizilini, Rares Ambrus, Wolfram Burgard, Adrien Gaidon(参考訳) コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。 本稿では,1枚のRGB画像から高密度の深度を推定する問題について,低コストな能動深度センサを用いて任意のスパース測定を行った。 提案するSparse Auxiliary Networks (SANs) は,RGB画像とスパースポイントクラウドの両方を推論時に利用できるかによって,深度予測と完了の両タスクをモノデプスネットワークで実行できる新しいモジュールである。 まず,画像と深度マップの符号化段階をスパース畳み込みを用いて分離し,有効な深度マップ画素のみを処理する。 第2に、この情報を利用可能な場合、深度予測ネットワークのスキップ接続に注入し、その機能を増強する。 1つの室内(nyuv2)と2つの屋外(kittiとddad)ベンチマークの広範な実験分析を通じて,提案するsanアーキテクチャが両タスクを同時に学習できると同時に,奥行き予測の新たな状態を実現することを実証した。

Estimating scene geometry from data obtained with cost-effective sensors is key for robots and self-driving cars. In this paper, we study the problem of predicting dense depth from a single RGB image (monodepth) with optional sparse measurements from low-cost active depth sensors. We introduce Sparse Auxiliary Networks (SANs), a new module enabling monodepth networks to perform both the tasks of depth prediction and completion, depending on whether only RGB images or also sparse point clouds are available at inference time. First, we decouple the image and depth map encoding stages using sparse convolutions to process only the valid depth map pixels. Second, we inject this information, when available, into the skip connections of the depth prediction network, augmenting its features. Through extensive experimental analysis on one indoor (NYUv2) and two outdoor (KITTI and DDAD) benchmarks, we demonstrate that our proposed SAN architecture is able to simultaneously learn both tasks, while achieving a new state of the art in depth prediction by a significant margin.
翻訳日:2021-04-02 08:30:35 公開日:2021-03-30
# (参考訳) セマンティックセグメンテーションのための幾何学的教師なしドメイン適応 [全文訳有]

Geometric Unsupervised Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2103.16694v1 )

ライセンス: CC BY 4.0
Vitor Guizilini, Jie Li, Rares Ambrus, Adrien Gaidon(参考訳) シミュレータは、セマンティクスセグメンテーションのようなラベル付きタスクを完璧に管理することで、大量のラベル付き合成データを効率的に生成することができる。 しかし、実際のパフォーマンスを著しく損なうようなドメインギャップを導入する。 本稿では,このギャップを埋め,非教師なし領域適応(UDA)を改善するために,自己教師付き単眼深度推定をプロキシタスクとして用いることを提案する。 我々の幾何学的非教師なし領域適応法 (guda) は, 合成意味論的監督と実世界の幾何学的制約を組み合わせたマルチタスクの目的を通して, ドメイン不変表現を学習する。 GUDAは、3つのベンチマークでセマンティックセグメンテーションを行うためのUDAの新たな最先端技術を確立している。 さらに,本手法は合成データの質や量によく対応し,深度予測も改善することを示した。

Simulators can efficiently generate large amounts of labeled synthetic data with perfect supervision for hard-to-label tasks like semantic segmentation. However, they introduce a domain gap that severely hurts real-world performance. We propose to use self-supervised monocular depth estimation as a proxy task to bridge this gap and improve sim-to-real unsupervised domain adaptation (UDA). Our Geometric Unsupervised Domain Adaptation method (GUDA) learns a domain-invariant representation via a multi-task objective combining synthetic semantic supervision with real-world geometric constraints on videos. GUDA establishes a new state of the art in UDA for semantic segmentation on three benchmarks, outperforming methods that use domain adversarial learning, self-training, or other self-supervised proxy tasks. Furthermore, we show that our method scales well with the quality and quantity of synthetic data while also improving depth prediction.
翻訳日:2021-04-02 08:15:15 公開日:2021-03-30
# (参考訳) cnnを用いた心運動抽出法によるシネmriを用いた変形性心室心筋モデルの作成 [全文訳有]

CNN-based Cardiac Motion Extraction to Generate Deformable Geometric Left Ventricle Myocardial Models from Cine MRI ( http://arxiv.org/abs/2103.16695v1 )

ライセンス: CC BY 4.0
Roshan Reddy Upendra, Brian Jamison Wentz, Richard Simon, Suzanne M. Shontz, Cristian A. Linte(参考訳) 患者特異的左室モデル(LV)は、診断と治療計画の改善のために様々な臨床シナリオで使用される可能性がある。 Cine heartc magnetic resonance (MR) imagingは、LV心筋の患者固有の幾何学的モデルを再構成するための高解像度画像を提供する。 深層学習の出現に伴い, 心臓MRI画像からの心臓室の正確なセグメンテーション, 多数の画像データセット上での心臓運動推定のための画像登録のための教師なし学習が達成される。 本稿では,ACDC(Automated Cardiac Diagnosis Challenge)データセットを用いて,心臓MRI画像から患者特異的なLV心筋形状モデルを開発するための深い傾きに基づくフレームワークを提案する。 我々は,voxelmorph-based convolutional neural network (cnn) から推定される変形場を用いて,エンドダイアストール(ed)フレームの等表面メッシュと体積メッシュを心周期の次のフレームに伝播させる。 心臓の各相におけるセグメント化モデルに対するCNNベースの伝搬モデルと,他の非剛性画像登録技術を用いて伝播するモデルを評価する。

Patient-specific left ventricle (LV) myocardial models have the potential to be used in a variety of clinical scenarios for improved diagnosis and treatment plans. Cine cardiac magnetic resonance (MR) imaging provides high resolution images to reconstruct patient-specific geometric models of the LV myocardium. With the advent of deep learning, accurate segmentation of cardiac chambers from cine cardiac MR images and unsupervised learning for image registration for cardiac motion estimation on a large number of image datasets is attainable. Here, we propose a deep leaning-based framework for the development of patient-specific geometric models of LV myocardium from cine cardiac MR images, using the Automated Cardiac Diagnosis Challenge (ACDC) dataset. We use the deformation field estimated from the VoxelMorph-based convolutional neural network (CNN) to propagate the isosurface mesh and volume mesh of the end-diastole (ED) frame to the subsequent frames of the cardiac cycle. We assess the CNN-based propagated models against segmented models at each cardiac phase, as well as models propagated using another traditional nonrigid image registration technique.
翻訳日:2021-04-02 07:33:32 公開日:2021-03-30
# (参考訳) 樹木, 森林, ニワトリ, 卵: ランダム林における樹冠形成の時期と理由 [全文訳有]

Trees, Forests, Chickens, and Eggs: When and Why to Prune Trees in a Random Forest ( http://arxiv.org/abs/2103.16700v1 )

ライセンス: CC BY 4.0
Siyu Zhou and Lucas Mentch(参考訳) 優れた棚から外れた予測者としての長年の評判から、無作為な森林は依然として応用統計学者やデータ科学者にとって選択肢のモデルとなっている。 しかし、近年まで広く使われているにもかかわらず、彼らの内面的な作業についてはほとんど知られていなかった。 最近になって、補間に基づく仮説と正規化に基づく仮説が2つ出現した。 この研究は、正規化フレームワークを利用して、アンサンブル内の個々の木を刈り取るべきかどうかという数十年前の疑問を再検討することで後者を支持する。 ランダムな森林のデフォルト構造は、ほとんどの一般的なソフトウェアパッケージにおいて、ほぼ全深度木を用いるという事実にもかかわらず、ここでは、木深度が手順全体にわたって自然な正規化の形式と見なされるべきであることを示す強力な証拠を提供する。 特に,データ中の信号-雑音比が低い場合,浅葉の無作為林が有利であることが示唆された。 また,本論文では,ランダム林における「二重降下」という新たな概念を,u-統計に平行して描くことで批判し,ランダム林の精度の明らかなジャンプは補間よりも単純な平均化の結果であると主張する。

Due to their long-standing reputation as excellent off-the-shelf predictors, random forests continue remain a go-to model of choice for applied statisticians and data scientists. Despite their widespread use, however, until recently, little was known about their inner-workings and about which aspects of the procedure were driving their success. Very recently, two competing hypotheses have emerged -- one based on interpolation and the other based on regularization. This work argues in favor of the latter by utilizing the regularization framework to reexamine the decades-old question of whether individual trees in an ensemble ought to be pruned. Despite the fact that default constructions of random forests use near full depth trees in most popular software packages, here we provide strong evidence that tree depth should be seen as a natural form of regularization across the entire procedure. In particular, our work suggests that random forests with shallow trees are advantageous when the signal-to-noise ratio in the data is low. In building up this argument, we also critique the newly popular notion of "double descent" in random forests by drawing parallels to U-statistics and arguing that the noticeable jumps in random forest accuracy are the result of simple averaging rather than interpolation.
翻訳日:2021-04-02 07:24:58 公開日:2021-03-30
# (参考訳) エッジ分類相互作用ネットワークによる荷電粒子追跡 [全文訳有]

Charged particle tracking via edge-classifying interaction networks ( http://arxiv.org/abs/2103.16701v1 )

ライセンス: CC BY 4.0
Gage DeZoort, Savannah Thais, Isobel Ojalvo, Peter Elmer, Vesal Razavimaleki, Javier Duarte, Markus Atkinson, Mark Neubauer(参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)のような幾何学的深層学習手法が、HEPの様々な再構成問題に対処するのに適していることが示されている。 特に、トラッカーイベントは、ヒットをノードとして、トラックセグメントをエッジとして識別することで、グラフとして自然に表現される。 本研究では, HL-LHCで期待される高ピーク条件下での荷電粒子追跡問題に対して, 物理動機付き相互作用ネットワーク(IN) GNNを適用した。 グラフ構築,エッジ分類,トラック構築といった,GNNに基づくトラッキングの各段階における一連の測定によって,INの優れたエッジ分類精度と追跡効率を実証する。 提案したINアーキテクチャは,従来研究されていたGNNトラッキングアーキテクチャよりも大幅に小さく,制約のある計算環境においてGNNベースのトラッキングを実現する上で重要なサイズ削減である。 さらに、INは行列演算の集合として容易に表現され、不均一な計算資源による加速の候補となる。

Recent work has demonstrated that geometric deep learning methods such as graph neural networks (GNNs) are well-suited to address a variety of reconstruction problems in HEP. In particular, tracker events are naturally represented as graphs by identifying hits as nodes and track segments as edges; given a set of hypothesized edges, edge-classifying GNNs predict which correspond to real track segments. In this work, we adapt the physics-motivated interaction network (IN) GNN to the problem of charged-particle tracking in the high-pileup conditions expected at the HL-LHC. We demonstrate the IN's excellent edge-classification accuracy and tracking efficiency through a suite of measurements at each stage of GNN-based tracking: graph construction, edge classification, and track building. The proposed IN architecture is substantially smaller than previously studied GNN tracking architectures, a reduction in size critical for enabling GNN-based tracking in constrained computing environments. Furthermore, the IN is easily expressed as a set of matrix operations, making it a promising candidate for acceleration via heterogeneous computing resources.
翻訳日:2021-04-02 07:06:48 公開日:2021-03-30
# (参考訳) DynOcc: ダイナミックオクルージョンキューからシングルビューの深さを学ぶ [全文訳有]

DynOcc: Learning Single-View Depth from Dynamic Occlusion Cues ( http://arxiv.org/abs/2103.16706v1 )

ライセンス: CC BY 4.0
Yifan Wang, Linjie Luo, Xiaohui Shen, Xing Mei(参考訳) 近年,大規模かつ多種多様な深度データセットにより,一視点深度推定が大幅に進歩している。 しかし、これらのデータセットは特定のアプリケーションドメイン(例)に限定されている。 ハードウェアの制約や3D再構成の技術的制限による、屋内、自律運転)または静的な現場。 本稿では,ダイナミック・イン・ザ・ワイルドシーンからなる第1深度データセットDynOccを紹介する。 提案手法は, 動的シーンにおけるオクルージョン手がかりを利用して, 選択されたビデオフレームの点間の深さ関係を推定する。 正確な閉塞検出と深度順序推定を実現するため,新しい閉塞境界検出法,フィルタリング法,薄型化法,および頑健な前景/背景分類法を用いる。 DynOccのデータセットには、さまざまなビデオの91Kフレームのうち2200万の深さペアが含まれています。 我々のデータセットを用いて、重み付きヒト不一致率(WHDR)の測定結果を得た。 また、DynOccでトレーニングした推定深度マップは、よりシャープな深度境界を維持することができることを示した。

Recently, significant progress has been made in single-view depth estimation thanks to increasingly large and diverse depth datasets. However, these datasets are largely limited to specific application domains (e.g. indoor, autonomous driving) or static in-the-wild scenes due to hardware constraints or technical limitations of 3D reconstruction. In this paper, we introduce the first depth dataset DynOcc consisting of dynamic in-the-wild scenes. Our approach leverages the occlusion cues in these dynamic scenes to infer depth relationships between points of selected video frames. To achieve accurate occlusion detection and depth order estimation, we employ a novel occlusion boundary detection, filtering and thinning scheme followed by a robust foreground/backgroun d classification method. In total our DynOcc dataset contains 22M depth pairs out of 91K frames from a diverse set of videos. Using our dataset we achieved state-of-the-art results measured in weighted human disagreement rate (WHDR). We also show that the inferred depth maps trained with DynOcc can preserve sharper depth boundaries.
翻訳日:2021-04-02 06:39:09 公開日:2021-03-30
# (参考訳) 潜在性単調注意変種の研究 [全文訳有]

A study of latent monotonic attention variants ( http://arxiv.org/abs/2103.16710v1 )

ライセンス: CC BY 4.0
Albert Zeyer, Ralf Schl\"uter, Hermann Ney(参考訳) エンドツーエンドモデルは音声認識の最先端のパフォーマンスに達するが、グローバルソフトアテンションはモノトニックではないため、収束問題、不安定性、悪質な一般化、オンラインストリーミングでは使用できず、計算にも非効率である。 モノトニック性は、これらすべてを修正する可能性がある。 単調性を導入するためのアドホックな解やヒューリスティックはいくつかあるが、これまでの文献では原則的な導入はまれである。 本稿では,音声の位置やセグメント境界を表す新しい潜在変数を導入することにより,単調性を導入する数学的にクリーンな解を提案する。 我々は,複数の単調潜在モデルと我々のグローバルなソフトアテンションベースライン(ハードアテンションモデル,ローカルウィンドウドソフトアテンションモデル,セグメンダルソフトアテンションモデルなど)を比較した。 モノトニックモデルがグローバルソフトアテンションモデルと同等の性能を持つことを示すことができる。 私たちはスイッチボード300hで実験を行います。 トレーニングの詳細を慎重に説明し、コードと設定をリリースします。

End-to-end models reach state-of-the-art performance for speech recognition, but global soft attention is not monotonic, which might lead to convergence problems, to instability, to bad generalisation, cannot be used for online streaming, and is also inefficient in calculation. Monotonicity can potentially fix all of this. There are several ad-hoc solutions or heuristics to introduce monotonicity, but a principled introduction is rarely found in literature so far. In this paper, we present a mathematically clean solution to introduce monotonicity, by introducing a new latent variable which represents the audio position or segment boundaries. We compare several monotonic latent models to our global soft attention baseline such as a hard attention model, a local windowed soft attention model, and a segmental soft attention model. We can show that our monotonic models perform as good as the global soft attention model. We perform our experiments on Switchboard 300h. We carefully outline the details of our training and release our code and configs.
翻訳日:2021-04-02 06:26:47 公開日:2021-03-30
# (参考訳) BASE Layers: 大きなスパースモデルのトレーニングを簡単にする [全文訳有]

BASE Layers: Simplifying Training of Large, Sparse Models ( http://arxiv.org/abs/2103.16716v1 )

ライセンス: CC BY 4.0
Mike Lewis, Shruti Bhosale, Tim Dettmers, Naman Goyal, Luke Zettlemoyer(参考訳) 我々は,既存の高容量スパース層を大幅に単純化した,大規模言語モデルのエキスパート層(BASE)のバランスのとれた割り当てを導入する。 スパース層は、モデルのパラメータのごく一部しか含まない専門のエキスパートモジュールに各トークンをルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。 しかし、利用可能な専門家をフル活用するバランスの取れたルーティング関数を学ぶことは困難である。 対照的に、私たちはトークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。 この最適割り当て方式は、バランスの取れた計算負荷を保証することで効率を向上し、新しいハイパーパラメータや補助的な損失を不要にすることでトレーニングを簡素化する。 コードはhttps://github.com/p ytorch/fairseq/で公開される。

We introduce a new balanced assignment of experts (BASE) layer for large language models that greatly simplifies existing high capacity sparse layers. Sparse layers can dramatically improve the efficiency of training and inference by routing each token to specialized expert modules that contain only a small fraction of the model parameters. However, it can be difficult to learn balanced routing functions that make full use of the available experts; existing approaches typically use routing heuristics or auxiliary expert-balancing loss functions. In contrast, we formulate token-to-expert allocation as a linear assignment problem, allowing an optimal assignment in which each expert receives an equal number of tokens. This optimal assignment scheme improves efficiency by guaranteeing balanced compute loads, and also simplifies training by not requiring any new hyperparameters or auxiliary losses. Code is publicly released at https://github.com/p ytorch/fairseq/
翻訳日:2021-04-02 06:08:42 公開日:2021-03-30
# ビッグデータを用いたハイブリッド機械学習アルゴリズムを用いたテキスト分類

Text Classification Using Hybrid Machine Learning Algorithms on Big Data ( http://arxiv.org/abs/2103.16624v1 )

ライセンス: Link先を確認
D.C. Asogwa, S.O. Anigbogu, I.E. Onyenwe, F.A. Sani(参考訳) 近年,データ量,速度,多様性,妥当性(4Vs)の面でビッグデータに寄与する,さまざまなオンラインプラットフォームを起源とする前例のないデータ成長がある。 構造化されていないビッグデータの性質を考えると、意味のある情報を抽出する分析を行うことは、ビッグデータ分析にとって現在大きな課題です。 構造化されていないテキストデータの収集と分析により、意思決定者はソーシャルメディアプラットフォーム上でコメントや投稿のエスカレーションを研究することができる。 したがって、デジタルメディアプラットフォームからの非構造化データセットのノイズと信頼性を克服するために、自動的なビッグデータ分析が必要となる。 しかし、現在の機械学習アルゴリズムは、トレーニングサンプルから学習した既知の特性に基づく分類/予測精度に注目したパフォーマンス駆動である。 大規模なデータセットでの学習タスクでは、ほとんどの機械学習モデルは高い計算コストを必要とすることが知られており、結果として計算の複雑さをもたらす。 本研究では,2つの教師付き機械学習アルゴリズムをテキストマイニング手法と組み合わせて,Na\\"ive Bayesとサポートベクタマシン(SVM)からなるハイブリッドモデルを生成する。 これは、得られた結果の効率と正確性を向上し、計算コストと複雑さを低減することである。 このシステムはまた、共通の関心を持つ人々のグループがコメントやメッセージを共有し、これらのコメントを法的または違法に自動的に分類するオープンプラットフォームも提供する。 これにより、ユーザ間の会話の質が向上する。 ハイブリッドモデルはWEKAツールとJavaプログラミング言語を使って開発された。 その結果、ハイブリッドモデルはそれぞれ61.45%と69.21%のna\"ive bayesとsvmモデルに対して96.76%の精度を示した。

Recently, there are unprecedented data growth originating from different online platforms which contribute to big data in terms of volume, velocity, variety and veracity (4Vs). Given this nature of big data which is unstructured, performing analytics to extract meaningful information is currently a great challenge to big data analytics. Collecting and analyzing unstructured textual data allows decision makers to study the escalation of comments/posts on our social media platforms. Hence, there is need for automatic big data analysis to overcome the noise and the non-reliability of these unstructured dataset from the digital media platforms. However, current machine learning algorithms used are performance driven focusing on the classification/predi ction accuracy based on known properties learned from the training samples. With the learning task in a large dataset, most machine learning models are known to require high computational cost which eventually leads to computational complexity. In this work, two supervised machine learning algorithms are combined with text mining techniques to produce a hybrid model which consists of Na\"ive Bayes and support vector machines (SVM). This is to increase the efficiency and accuracy of the results obtained and also to reduce the computational cost and complexity. The system also provides an open platform where a group of persons with a common interest can share their comments/messages and these comments classified automatically as legal or illegal. This improves the quality of conversation among users. The hybrid model was developed using WEKA tools and Java programming language. The result shows that the hybrid model gave 96.76% accuracy as against the 61.45% and 69.21% of the Na\"ive Bayes and SVM models respectively.
翻訳日:2021-04-01 14:51:09 公開日:2021-03-30
# 深部ニューラルネットワークの学習における爆発的不変性

Exploiting Invariance in Training Deep Neural Networks ( http://arxiv.org/abs/2103.16634v1 )

ライセンス: Link先を確認
Chengxi Ye, Xiong Zhou, Tristan McKinney, Yanfeng Liu, Qinggang Zhou, Fedor Zhdanov(参考訳) 動物視覚システムにおける2つの基本的なメカニズムに着想を得て、深層ニューラルネットワークのトレーニングにおいて不変性を課す特徴変換技術を導入する。 結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。 様々な状況で生成された類似のサンプルを整合させるために,データ内の局所統計値とスケール不変性を強制する。 収束を加速するために、勾配降下解が基底変化の下で不変であるべきバッチから抽出した大域統計値を用いてGL(n)-不変性を強制する。 ImageNet、MS COCO、Cityscapesのデータセットでテストした結果、提案手法はトレーニングのイテレーションを少なくし、すべてのベースラインを大きなマージンで越え、小さなバッチサイズトレーニングと大規模なバッチサイズトレーニングの両方にシームレスに取り組み、画像分類、オブジェクト検出、セマンティックセグメンテーションといった異なるコンピュータビジョンタスクに適用します。

Inspired by two basic mechanisms in animal visual systems, we introduce a feature transform technique that imposes invariance properties in the training of deep neural networks. The resulting algorithm requires less parameter tuning, trains well with an initial learning rate 1.0, and easily generalizes to different tasks. We enforce scale invariance with local statistics in the data to align similar samples generated in diverse situations. To accelerate convergence, we enforce a GL(n)-invariance property with global statistics extracted from a batch that the gradient descent solution should remain invariant under basis change. Tested on ImageNet, MS COCO, and Cityscapes datasets, our proposed technique requires fewer iterations to train, surpasses all baselines by a large margin, seamlessly works on both small and large batch size training, and applies to different computer vision tasks of image classification, object detection, and semantic segmentation.
翻訳日:2021-04-01 14:49:46 公開日:2021-03-30
# ポイントクラウドモデルのロバスト性認定

Robustness Certification for Point Cloud Models ( http://arxiv.org/abs/2103.16652v1 )

ライセンス: Link先を確認
Tobias Lorenz, Anian Ruoss, Mislav Balunovi\'c, Gagandeep Singh, Martin Vechev(参考訳) 自律運転のような安全クリティカルなアプリケーションにおける深部3Dポイントクラウドモデルの使用は、セマンティックトランスフォーメーションへのこれらのモデルの堅牢性を証明する必要性を規定している。 幅広いセマンティック3D変換を処理するポイントクラウドモデルに適したスケーラブルな検証器を必要とするため、技術的には難しい。 本研究では,この課題に対処し,ポイントクラウドモデルの堅牢性を証明する最初の検証器である3DCertifyを導入する。 3dcertify は、2つの重要な洞察に基づいている: (i) 任意の微分可能変換に適用可能な一階テイラー近似に基づく一般的な緩和、(ii) ポイントワイズアクティベーション(例えば relu や sigmoid)よりも複雑であるが、ポイントクラウドモデルで一般的に使われるグローバル特徴プーリングの正確な緩和。 分類作業と部分分割作業の両方に対して,広範囲な3次元変換(回転,ねじれなど)を広範囲に評価することにより,3DCertifyの有効性を実証する。 例えば、95.7%の点雲に対して$\pm60^\circ$で回転に対するロバスト性を証明でき、最大プール緩和は15.6%まで向上する。

The use of deep 3D point cloud models in safety-critical applications, such as autonomous driving, dictates the need to certify the robustness of these models to semantic transformations. This is technically challenging as it requires a scalable verifier tailored to point cloud models that handles a wide range of semantic 3D transformations. In this work, we address this challenge and introduce 3DCertify, the first verifier able to certify robustness of point cloud models. 3DCertify is based on two key insights: (i) a generic relaxation based on first-order Taylor approximations, applicable to any differentiable transformation, and (ii) a precise relaxation for global feature pooling, which is more complex than pointwise activations (e.g., ReLU or sigmoid) but commonly employed in point cloud models. We demonstrate the effectiveness of 3DCertify by performing an extensive evaluation on a wide range of 3D transformations (e.g., rotation, twisting) for both classification and part segmentation tasks. For example, we can certify robustness against rotations by $\pm60^\circ$ for 95.7% of point clouds, and our max pool relaxation increases certification by up to 15.6%.
翻訳日:2021-04-01 14:49:26 公開日:2021-03-30
# 連続的重量バランス

Continuous Weight Balancing ( http://arxiv.org/abs/2103.16591v1 )

ライセンス: Link先を確認
Daniel J. Wu, Avoy Datta(参考訳) 高度に不均衡あるいは歪んだ特徴を有する問題に対して,試料重みを簡易に選択する手法を提案する。 重み付けされた重みを見つけるために回帰ラベルを鼻で識別する代わりに、より原理的なアプローチを採り、推定源と特定対象分布の間の伝達関数からサンプル重みを導出する。 本手法は回帰処理と分類処理の両方において非重み付きモデルと離散重み付きモデルの両方に優れる。 我々はまた、この手法の実装(https://github.com/ Daniel-Wu/Continuous -Weight-Balancing)を科学コミュニティにオープンソース化しました。

We propose a simple method by which to choose sample weights for problems with highly imbalanced or skewed traits. Rather than naively discretizing regression labels to find binned weights, we take a more principled approach -- we derive sample weights from the transfer function between an estimated source and specified target distributions. Our method outperforms both unweighted and discretely-weighted models on both regression and classification tasks. We also open-source our implementation of this method (https://github.com/ Daniel-Wu/Continuous -Weight-Balancing) to the scientific community.
翻訳日:2021-04-01 14:46:25 公開日:2021-03-30
# ディープオフポリティ評価のためのベンチマーク

Benchmarks for Deep Off-Policy Evaluation ( http://arxiv.org/abs/2103.16596v1 )

ライセンス: Link先を確認
Justin Fu, Mohammad Norouzi, Ofir Nachum, George Tucker, Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, Tom Le Paine(参考訳) オフ政治評価(OPE)は、意思決定のための複雑なポリシーの評価と選択の両方に、大規模なオフラインデータセットを活用することを約束している。 オフラインで学ぶ能力は、オンラインデータ収集が高価で潜在的に危険なプロセスである医療、レコメンデーションシステム、ロボティクスなど、多くの現実世界のドメインで特に重要である。 オンラインインタラクションを必要とせず、正確にハイパフォーマンスなポリシーを評価および選択できることは、これらのアプリケーションの安全性、時間、コストに大きな利益をもたらす可能性がある。 近年、多くのOPE手法が提案されているが、現在では総合的かつ統一的なベンチマークが欠如しており、評価タスクの欠如によりアルゴリズムの進歩の測定が困難になっているため、論文の比較は困難である。 このギャップに対処するために,我々は,既存のオフラインデータセットと連携して,オフライン評価のベンチマークに使用できるポリシーの集合を提案する。 我々のタスクは、多岐にわたる高次元連続制御問題を含み、幅広いデータセットの選択とポリシーの選択を行う。 私たちのベンチマークの目的は、既存のOPEメソッドの限界に挑戦し、テストするために設計された一連の原則から動機付けられた、標準化された進捗測定を提供することです。 我々は最先端のアルゴリズムの評価を行い、この領域における将来の研究を促進するために、我々のデータとコードへのオープンソースアクセスを提供する。

Off-policy evaluation (OPE) holds the promise of being able to leverage large, offline datasets for both evaluating and selecting complex policies for decision making. The ability to learn offline is particularly important in many real-world domains, such as in healthcare, recommender systems, or robotics, where online data collection is an expensive and potentially dangerous process. Being able to accurately evaluate and select high-performing policies without requiring online interaction could yield significant benefits in safety, time, and cost for these applications. While many OPE methods have been proposed in recent years, comparing results between papers is difficult because currently there is a lack of a comprehensive and unified benchmark, and measuring algorithmic progress has been challenging due to the lack of difficult evaluation tasks. In order to address this gap, we present a collection of policies that in conjunction with existing offline datasets can be used for benchmarking off-policy evaluation. Our tasks include a range of challenging high-dimensional continuous control problems, with wide selections of datasets and policies for performing policy selection. The goal of our benchmark is to provide a standardized measure of progress that is motivated from a set of principles designed to challenge and test the limits of existing OPE methods. We perform an evaluation of state-of-the-art algorithms and provide open-source access to our data and code to foster future research in this area.
翻訳日:2021-04-01 14:46:10 公開日:2021-03-30
# 個人的公正に対する統計的推測

Statistical inference for individual fairness ( http://arxiv.org/abs/2103.16714v1 )

ライセンス: Link先を確認
Subha Maity, Songkai Xue, Mikhail Yurochkin, Yuekai Sun(参考訳) 機械学習(ml)モデルに依存して、より連続的な意思決定を行うため、好ましくない歴史的バイアス(例えば、性別や人種的バイアス)を持続あるいは悪化させるmlモデルの問題は、大衆の注目を集めている。 本稿では,MLモデルにおける個々人の公平性の違反を検出する問題に焦点をあてる。 我々は,MLモデルの敵攻撃に対する感受性を測るものとして問題を定式化し,敵のコスト関数に対する一連の推論ツールを開発する。 このツールにより、監査人は統計的に先導された方法でMLモデルの個別の公正さを評価することができる:類似した個人間の最悪のパフォーマンス差に対する信頼区間と、(漸近的な)非カバー/タイプIエラー率制御によるモデルフェアネスのテスト仮説を形成する。 実世界のケーススタディにおけるツールの有用性を実証する。

As we rely on machine learning (ML) models to make more consequential decisions, the issue of ML models perpetuating or even exacerbating undesirable historical biases (e.g., gender and racial biases) has come to the fore of the public's attention. In this paper, we focus on the problem of detecting violations of individual fairness in ML models. We formalize the problem as measuring the susceptibility of ML models against a form of adversarial attack and develop a suite of inference tools for the adversarial cost function. The tools allow auditors to assess the individual fairness of ML models in a statistically-princi pled way: form confidence intervals for the worst-case performance differential between similar individuals and test hypotheses of model fairness with (asymptotic) non-coverage/Type I error rate control. We demonstrate the utility of our tools in a real-world case study.
翻訳日:2021-04-01 14:45:47 公開日:2021-03-30
# simple: similar pseudo label exploitation for semi-supervised classification

SimPLE: Similar Pseudo Label Exploitation for Semi-Supervised Classification ( http://arxiv.org/abs/2103.16725v1 )

ライセンス: Link先を確認
Zijian Hu, Zhengyu Yang, Xuefeng Hu, Ram Nevatia(参考訳) 一般的な分類タスクの状況は、トレーニングに利用可能な大量のデータを持っているが、クラスラベルでアノテートされるのはごく一部である。 半教師付きトレーニングの目標は、ラベル付きデータだけでなく、大量のラベル付きデータからの情報を活用することで、分類精度を向上させることである。 最近の研究は、異なるラベル付きデータとラベルなしデータの一貫性の制約を探求することで、大幅に改善されている。 そこで本研究では, 相互に類似する信頼度の高い非ラベルデータ間の関係に焦点をあてた新しい教師なし目標を提案する。 新たに提案されたペア損失は、一定のしきい値を超える類似度を持つ高信頼擬似ラベル間の統計的距離を最小化する。 The Pair Loss with the MixMatch family, we proposed SimPLE algorithm showed significant performance gains than previous algorithm on CIFAR-100 and Mini-ImageNet, is on the state-of-the-art method on CIFAR-10 and SVHN。 さらに、SimPLEは、ImageNetやDomainNet-Realで事前トレーニングされた重みによってモデルが初期化されるトランスファー学習設定において、最先端の手法よりも優れている。 コードはgithub.com/zijian-hu /SimPLEで入手できる。

A common classification task situation is where one has a large amount of data available for training, but only a small portion is annotated with class labels. The goal of semi-supervised training, in this context, is to improve classification accuracy by leverage information not only from labeled data but also from a large amount of unlabeled data. Recent works have developed significant improvements by exploring the consistency constrain between differently augmented labeled and unlabeled data. Following this path, we propose a novel unsupervised objective that focuses on the less studied relationship between the high confidence unlabeled data that are similar to each other. The new proposed Pair Loss minimizes the statistical distance between high confidence pseudo labels with similarity above a certain threshold. Combining the Pair Loss with the techniques developed by the MixMatch family, our proposed SimPLE algorithm shows significant performance gains over previous algorithms on CIFAR-100 and Mini-ImageNet, and is on par with the state-of-the-art methods on CIFAR-10 and SVHN. Furthermore, SimPLE also outperforms the state-of-the-art methods in the transfer learning setting, where models are initialized by the weights pre-trained on ImageNet or DomainNet-Real. The code is available at github.com/zijian-hu /SimPLE.
翻訳日:2021-04-01 14:45:31 公開日:2021-03-30
# HAD-Net: コントラスト後画像のないTumourセグメンテーション改善のための階層型対数知識蒸留ネットワーク

HAD-Net: A Hierarchical Adversarial Knowledge Distillation Network for Improved Enhanced Tumour Segmentation Without Post-Contrast Images ( http://arxiv.org/abs/2103.16617v1 )

ライセンス: Link先を確認
Saverio Vadacchino, Raghav Mehta, Nazanin Mohammadi Sepahvand, Brennan Nichyporuk, James J. Clark, and Tal Arbel(参考訳) MRIから腫瘍や病変を切除することは、多くの臨床的文脈で新しい疾患活動を検出するのに重要である。 しかし、正確なセグメンテーションには、造影剤(例えばガドリニウム)を注射した後に取得した医用画像(例えば、T1ポストコントラストMRI)を含めることが必要である。 過去数年間、モダリティ非依存のセグメンテーションネットワークが開発されてきたが、病理セグメンテーションの強化という文脈では限られた成功を収めている。 そこで本研究では,すべてのmriシーケンスにアクセス可能な教師セグメンテーションネットワークで,階層的敵意トレーニングを通じて学生ネットワークを指導し,推論中に重要な画像が存在しない場合に提示される大きなドメインシフトを克服する,新しいオフライン・アドバーサル・ナレッジ・蒸留(kd)手法であるhad-netを提案する。 特に,コントラスト後画像へのアクセスが不可能な場合,腫瘍セグメンテーションの高度化という課題に対してHAD-Netを適用した。 提案したネットワークはBraTS 2019脳腫瘍セグメンテーションデータセットでトレーニングおよびテストされており、(a)最近のモダリティ非依存セグメンテーション手法(U-HeMIS, U-HVED),(b)KD-Netがこの問題に適応し、(c)事前訓練された学生ネットワークと(d)ネットワークの非階層バージョン(AD-Net)を用いて、腫瘍(ET)の強化のためのDiceスコアの観点から、16%から26%のパフォーマンス改善を実現している。 ネットワークはまた、腫瘍コア(TC)Diceスコアの改善も示す。 最後に、ネットワークは、BraTs 2019の不確実性課題メトリクスに基づいて、腫瘍セグメンテーションを強化するための不確実性定量化の観点から、ベースラインの学生ネットワークとAD-Netの両方を上回っている。 私たちのコードは、https://github.com/S averioVad/HAD_Netで公開されています。

Segmentation of enhancing tumours or lesions from MRI is important for detecting new disease activity in many clinical contexts. However, accurate segmentation requires the inclusion of medical images (e.g., T1 post contrast MRI) acquired after injecting patients with a contrast agent (e.g., Gadolinium), a process no longer thought to be safe. Although a number of modality-agnostic segmentation networks have been developed over the past few years, they have been met with limited success in the context of enhancing pathology segmentation. In this work, we present HAD-Net, a novel offline adversarial knowledge distillation (KD) technique, whereby a pre-trained teacher segmentation network, with access to all MRI sequences, teaches a student network, via hierarchical adversarial training, to better overcome the large domain shift presented when crucial images are absent during inference. In particular, we apply HAD-Net to the challenging task of enhancing tumour segmentation when access to post-contrast imaging is not available. The proposed network is trained and tested on the BraTS 2019 brain tumour segmentation challenge dataset, where it achieves performance improvements in the ranges of 16% - 26% over (a) recent modality-agnostic segmentation methods (U-HeMIS, U-HVED), (b) KD-Net adapted to this problem, (c) the pre-trained student network and (d) a non-hierarchical version of the network (AD-Net), in terms of Dice scores for enhancing tumour (ET). The network also shows improvements in tumour core (TC) Dice scores. Finally, the network outperforms both the baseline student network and AD-Net in terms of uncertainty quantification for enhancing tumour segmentation based on the BraTs 2019 uncertainty challenge metrics. Our code is publicly available at: https://github.com/S averioVad/HAD_Net
翻訳日:2021-04-01 14:41:43 公開日:2021-03-30
# 治療分類のための単セル表現のコントラスト学習

Contrastive Learning of Single-Cell Phenotypic Representations for Treatment Classification ( http://arxiv.org/abs/2103.16670v1 )

ライセンス: Link先を確認
Alexis Perakis, Ali Gorji, Samriddhi Jain, Krishna Chaitanya, Simone Rizza, Ender Konukoglu(参考訳) 顕微鏡画像に基づく細胞表現型を識別するためのロバスト表現の学習は、薬物の発見に重要である。 薬物開発の取り組みは、一般的に数千の細胞画像を分析して治療の可能性を見極める。 初期の研究は、これらの画像から手作業による機能の作成や、完全にまたは弱い教師付きフレームワークでディープニューラルネットワークを使ってその機能を学ぶことに焦点を当てていた。 どちらも事前の知識やラベル付きデータセットが必要です。 したがって、その後の研究はこれらの表現を学ぶために生成モデルに基づく教師なしのアプローチを提案する。 近年,自己教師付きコントラスト損失に基づく手法で学習した表現は,従来の教師なし手法と比較して,様々な撮像課題において最先端の成果を得られている。 本研究では,コントラスト学習フレームワークを活用し,単一セル蛍光顕微鏡画像から適切な表現を学習し,反応機構の分類を行う。 提案手法は, 注釈付きBBBC021データセットを用いて評価し, NSC, NCSB, ドロップの計測結果を得た。 NCSBの精度は10%向上し,NSC-NSCBは11%低下した。 さらに, 教師なしアプローチと教師なしアプローチのパフォーマンスは, 教師なしアプローチと相関する。 さらに、従来の手法とは異なり、後処理なしでも、我々のフレームワークは良好に動作します。 これにより、コントラスト学習で頑健な細胞表現を学習することができると結論付ける。

Learning robust representations to discriminate cell phenotypes based on microscopy images is important for drug discovery. Drug development efforts typically analyse thousands of cell images to screen for potential treatments. Early works focus on creating hand-engineered features from these images or learn such features with deep neural networks in a fully or weakly-supervised framework. Both require prior knowledge or labelled datasets. Therefore, subsequent works propose unsupervised approaches based on generative models to learn these representations. Recently, representations learned with self-supervised contrastive loss-based methods have yielded state-of-the-art results on various imaging tasks compared to earlier unsupervised approaches. In this work, we leverage a contrastive learning framework to learn appropriate representations from single-cell fluorescent microscopy images for the task of Mechanism-of-Action classification. The proposed work is evaluated on the annotated BBBC021 dataset, and we obtain state-of-the-art results in NSC, NCSB and drop metrics for an unsupervised approach. We observe an improvement of 10% in NCSB accuracy and 11% in NSC-NSCB drop over the previously best unsupervised method. Moreover, the performance of our unsupervised approach ties with the best supervised approach. Additionally, we observe that our framework performs well even without post-processing, unlike earlier methods. With this, we conclude that one can learn robust cell representations with contrastive learning.
翻訳日:2021-04-01 14:41:06 公開日:2021-03-30
# デモからロバストフィードバックポリシーを学ぶ

Learning Robust Feedback Policies from Demonstrations ( http://arxiv.org/abs/2103.16629v1 )

ライセンス: Link先を確認
Abed AlRahman Al Makdah and Vishaal Krishnan and Fabio Pasqualetti(参考訳) 本研究では,閉ループ性能の証明可能な保証と,有界(逆)摂動に対する堅牢性を示すフィードバック制御ポリシを学習するための新しいフレームワークを提案し,分析する。 これらのポリシーは、タスクやコスト関数、システムダイナミクスに関する事前知識のない専門家によるデモンストレーションから学習される。 擬似学習や逆強化学習における既存のアルゴリズムとは対照的に,リプシッツ制約による損失最小化方式を用いて,信頼性の高いロバスト性を持つ制御ポリシを学習する。 我々は,学習制御ポリシの下で閉ループシステムの堅牢な安定性を確立し,その後悔の上限を導出し,エキスパートポリシに対する閉ループ性能の準最適性の境界を定めている。 また, 状態測定における有界(逆)摂動下での閉ループ性能の劣化に対するロバスト性も導出する。 結論として,公称クローズドループ性能と敵対的ロバスト性との根本的なトレードオフが存在することを示唆し,公称クローズドループ性能の改善は,敵対的摂動に対するロバストネスを犠牲にしてのみ行うことができることを示唆した。 分析結果を検証し,ロバストなフィードバックポリシ学習フレームワークの有効性を実証する。

In this work we propose and analyze a new framework to learn feedback control policies that exhibit provable guarantees on the closed-loop performance and robustness to bounded (adversarial) perturbations. These policies are learned from expert demonstrations without any prior knowledge of the task, its cost function, and system dynamics. In contrast to the existing algorithms in imitation learning and inverse reinforcement learning, we use a Lipschitz-constraine d loss minimization scheme to learn control policies with certified robustness. We establish robust stability of the closed-loop system under the learned control policy and derive an upper bound on its regret, which bounds the sub-optimality of the closed-loop performance with respect to the expert policy. We also derive a robustness bound for the deterioration of the closed-loop performance under bounded (adversarial) perturbations on the state measurements. Ultimately, our results suggest the existence of an underlying tradeoff between nominal closed-loop performance and adversarial robustness, and that improvements in nominal closed-loop performance can only be made at the expense of robustness to adversarial perturbations. Numerical results validate our analysis and demonstrate the effectiveness of our robust feedback policy learning framework.
翻訳日:2021-04-01 14:40:05 公開日:2021-03-30
# 生成テキストのモーフォシンタクティブな良質性の評価

Evaluating the Morphosyntactic Well-formedness of Generated Texts ( http://arxiv.org/abs/2103.16590v1 )

ライセンス: Link先を確認
Adithya Pratapa, Antonios Anastasopoulos, Shruti Rijhwani, Aditi Chaudhary, David R. Mortensen, Graham Neubig, Yulia Tsvetkov(参考訳) テキスト生成システムは自然言語処理アプリケーションではユビキタスである。 しかし、これらのシステムの評価は、特に多言語環境では依然として困難である。 本稿では,L'AMBREについて,その係り受け解析と形態素合成規則を用いてテキストの形態素的健全性を評価する指標を提案する。 依存性ツリーバンクから直接morphosyntaxを統治する様々なルールを自動的に抽出する方法を提案する。 テキスト生成システムからのノイズ出力に対処するために,ロバストなパーサを訓練するための簡易な手法を提案する。 形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。

Text generation systems are ubiquitous in natural language processing applications. However, evaluation of these systems remains a challenge, especially in multilingual settings. In this paper, we propose L'AMBRE -- a metric to evaluate the morphosyntactic well-formedness of text using its dependency parse and morphosyntactic rules of the language. We present a way to automatically extract various rules governing morphosyntax directly from dependency treebanks. To tackle the noisy outputs from text generation systems, we propose a simple methodology to train robust parsers. We show the effectiveness of our metric on the task of machine translation through a diachronic study of systems translating into morphologically-rich languages.
翻訳日:2021-04-01 14:39:34 公開日:2021-03-30
# アフリカ言語における辞書と並列データセットの協調構築--最初の評価

Collaborative construction of lexicographic and parallel datasets for African languages: first assessment ( http://arxiv.org/abs/2103.16712v1 )

ライセンス: Link先を確認
Elvis Mboning Tchiaze(参考訳) 自然言語処理(nlp)、自然言語理解(nlu)、人工知能の研究を行うためのアフリカ言語におけるリソース不足に直面し、ntealan associationの研究チームは、アフリカ言語における辞書データの共同構築のためのオープンソースプラットフォームを構築することの目的を設定した。 本稿では,アフリカNLPツールに有用なレキシコグラフィー資源を2年間共同で構築した最初の報告を紹介する。

Faced with a considerable lack of resources in African languages to carry out work in Natural Language Processing (NLP), Natural Language Understanding (NLU) and artificial intelligence, the research teams of NTeALan association has set itself the objective of building open-source platforms for the collaborative construction of lexicographic data in African languages. In this article, we present our first reports after 2 years of collaborative construction of lexicographic resources useful for African NLP tools.
翻訳日:2021-04-01 14:39:23 公開日:2021-03-30
# AO*, Proof Number Search と Minimax Search について

On AO*, Proof Number Search and Minimax Search ( http://arxiv.org/abs/2103.16692v1 )

ライセンス: Link先を確認
Chao Gao(参考訳) 本稿では,AO*,対戦型ゲーム探索アルゴリズム,例えば証明数探索とミニマックス探索の相互接続について論じる。 前者は一般および/またはグラフモデルの文脈で開発され、後者は主にゲームツリーで示され、時には木を使ってモデル化される。 したがって、これらのアルゴリズムがどの程度関連し、どのように接続されているかを調べる価値がある。 本稿では,これらの探索パラダイム間の相互関係を解明する。 一般化された証明数探索は任意のAND/ORグラフを解くためのAO*のより情報的な代替と見なすことができるし、ミニマックス原理も双対ヒューリスティックスを使うように拡張されるかもしれない。

We discuss the interconnections between AO*, adversarial game-searching algorithms, e.g., proof number search and minimax search. The former was developed in the context of a general AND/OR graph model, while the latter were mostly presented in game-trees which are sometimes modeled using AND/OR trees. It is thus worth investigating to what extent these algorithms are related and how they are connected. In this paper, we explicate the interconnections between these search paradigms. We argue that generalized proof number search might be regarded as a more informed replacement of AO* for solving arbitrary AND/OR graphs, and the minimax principle might also extended to use dual heuristics.
翻訳日:2021-04-01 14:38:37 公開日:2021-03-30
# 意味関係ネットワークを用いた確率論的アナロジマッピング

Probabilistic Analogical Mapping with Semantic Relation Networks ( http://arxiv.org/abs/2103.16704v1 )

ライセンス: Link先を確認
Hongjing Lu, Nicholas Ichien, Keith J. Holyoak(参考訳) ドメイン間の類似を柔軟に推論する人間の能力は、概念と概念のマッピングとアナログ間の関係を識別するメカニズムに依存する。 本稿では,個々の概念の分散表現と概念間の関係から構築した意味関係ネットワークに基づく,アナログマッピングの新しい計算モデルを提案する。 1,329人の被験者による新しいアナロジー実験と4つの古典的な研究で人間のパフォーマンスの比較を行い、このモデルが大人と子供の両方のアナロジーマッピングに関わる幅広い現象の原因であることを示した。 キーとなる洞察は、個々の概念と関係のリッチな意味表現と、同型写像を優先する一般的な先入観とが組み合わさって、人間のような類推的マッピングをもたらすことである。

The human ability to flexibly reason with cross-domain analogies depends on mechanisms for identifying relations between concepts and for mapping concepts and their relations across analogs. We present a new computational model of analogical mapping, based on semantic relation networks constructed from distributed representations of individual concepts and of relations between concepts. Through comparisons with human performance in a new analogy experiment with 1,329 participants, as well as in four classic studies, we demonstrate that the model accounts for a broad range of phenomena involving analogical mapping by both adults and children. The key insight is that rich semantic representations of individual concepts and relations, coupled with a generic prior favoring isomorphic mappings, yield human-like analogical mapping.
翻訳日:2021-04-01 14:38:23 公開日:2021-03-30
# 連続学習のための整流化に基づく知識保持

Rectification-based Knowledge Retention for Continual Learning ( http://arxiv.org/abs/2103.16597v1 )

ライセンス: Link先を確認
Pravendra Singh, Pratik Mazumder, Piyush Rai, Vinay P. Namboodiri(参考訳) ディープラーニングモデルは、漸進的な学習環境で訓練された場合、破滅的な忘れに苦しむ。 そこで本研究では,新しいタスクをインクリメンタルに学習するための新しい手法を提案する。 タスクインクリメンタル学習問題は、テストセットが列車セットの一部ではないクラス、すなわちタスクインクリメンタルに一般化されたゼロショット学習問題を含む場合、さらに困難になる。 我々の手法は、ゼロショットと非ゼロショットタスクインクリメンタルな学習設定の両方で利用できる。 提案手法では, 重み補正とアフィン変換を用いて, モデルが順次現れる異なるタスクに適応する。 具体的には,前回のタスクから学習した重みを「再現」することで,ネットワーク重みを新しいタスクに適応させる。 非常に少ないパラメータでこれらの重み補正を学習する。 さらに,新たなタスクに適応するために,ネットワークが生成する出力に対するアフィン変換も学習する。 ゼロショットタスクと非ゼロショットタスクのインクリメンタル学習設定の両方で、複数のデータセットで実験を行い、我々のアプローチが最先端の結果を達成することを実証的に示す。 具体的には、CIFAR-100データセットにおいて、最先端の非ゼロショットタスクインクリメンタル学習法を5%以上上回ります。 また,AWA1データセットとCUBデータセットの絶対マージンが6.91%,CUBデータセットが6.33%と,最先端タスクの増分型ゼロショット学習法よりも有意に優れていた。 我々は様々なアブレーション研究を用いてアプローチを検証する。

Deep learning models suffer from catastrophic forgetting when trained in an incremental learning setting. In this work, we propose a novel approach to address the task incremental learning problem, which involves training a model on new tasks that arrive in an incremental manner. The task incremental learning problem becomes even more challenging when the test set contains classes that are not part of the train set, i.e., a task incremental generalized zero-shot learning problem. Our approach can be used in both the zero-shot and non zero-shot task incremental learning settings. Our proposed method uses weight rectifications and affine transformations in order to adapt the model to different tasks that arrive sequentially. Specifically, we adapt the network weights to work for new tasks by "rectifying" the weights learned from the previous task. We learn these weight rectifications using very few parameters. We additionally learn affine transformations on the outputs generated by the network in order to better adapt them for the new task. We perform experiments on several datasets in both zero-shot and non zero-shot task incremental learning settings and empirically show that our approach achieves state-of-the-art results. Specifically, our approach outperforms the state-of-the-art non zero-shot task incremental learning method by over 5% on the CIFAR-100 dataset. Our approach also significantly outperforms the state-of-the-art task incremental generalized zero-shot learning method by absolute margins of 6.91% and 6.33% for the AWA1 and CUB datasets, respectively. We validate our approach using various ablation studies.
翻訳日:2021-04-01 14:38:09 公開日:2021-03-30
# 線形符号化顔面意味論の教師なし解離

Unsupervised Disentanglement of Linear-Encoded Facial Semantics ( http://arxiv.org/abs/2103.16605v1 )

ライセンス: Link先を確認
Yutong Zheng, Yu-Kai Huang, Ran Tao, Zhiqiang Shen and Marios Savvides(参考訳) 本稿では,外部監視を伴わずに,線形符号化された顔のセマンティクスをStyleGANから切り離す手法を提案する。 この手法は線形回帰とスパース表現学習の概念から導かれ、非絡み合った潜在表現も容易に解釈できる。 まず,スタイルガンを安定3次元変形可能な顔面再建法と結合し,単一視点のgan世代を複数のセマンティクスに分解する。 潜在表現は、解釈可能な顔意味論をキャプチャするために抽出される。 本研究は,意味ある顔のセマンティクスを解消するためのラベルの除去を可能にする。 また、不整合表現に沿った導出外挿がデータ増大に役立ち、不整合データの扱いに光を当てることを示した。 最後に,学習した局所的な表情表現の分析を行い,その意味情報がエンコードされていることを示す。 全体的な教師なしの設計は、野生での表現学習に柔軟性をもたらす。

We propose a method to disentangle linear-encoded facial semantics from StyleGAN without external supervision. The method derives from linear regression and sparse representation learning concepts to make the disentangled latent representations easily interpreted as well. We start by coupling StyleGAN with a stabilized 3D deformable facial reconstruction method to decompose single-view GAN generations into multiple semantics. Latent representations are then extracted to capture interpretable facial semantics. In this work, we make it possible to get rid of labels for disentangling meaningful facial semantics. Also, we demonstrate that the guided extrapolation along the disentangled representations can help with data augmentation, which sheds light on handling unbalanced data. Finally, we provide an analysis of our learned localized facial representations and illustrate that the semantic information is encoded, which surprisingly complies with human intuition. The overall unsupervised design brings more flexibility to representation learning in the wild.
翻訳日:2021-04-01 14:37:46 公開日:2021-03-30
# DAP:弱スーパービジョンによる検知・認識事前学習

DAP: Detection-Aware Pre-training with Weak Supervision ( http://arxiv.org/abs/2103.16651v1 )

ライセンス: Link先を確認
Yuanyi Zhong, Jianfeng Wang, Lijuan Wang, Jian Peng, Yu-Xiong Wang, Lei Zhang(参考訳) 本稿では,事前学習のための弱いラベル付き分類型データセット(例: imagenet)のみを活用するが,対象検出タスクに特化して調整する,dap( detection-aware pre-training)アプローチを提案する。 位置関連トレーニングタスクを含まない画像分類ベースの事前トレーニング(例えば、ImageNet)とは対照的に、クラスアクティベーションマップに基づく弱い教師付きオブジェクトローカライゼーション手法により、分類データセットを検出データセットに変換して検出器を直接事前トレーニングし、事前トレーニングされたモデルの位置認識と境界ボックスの予測を可能にする。 VOCやCOCOなどの下流検出タスクにおいて,サンプル効率と収束速度の両面で,DAPが従来の事前学習よりも優れていることを示す。 特に,ダウンストリームタスクの例数が少ない場合には,検出精度を大きなマージンで向上させる。

This paper presents a detection-aware pre-training (DAP) approach, which leverages only weakly-labeled classification-style datasets (e.g., ImageNet) for pre-training, but is specifically tailored to benefit object detection tasks. In contrast to the widely used image classification-based pre-training (e.g., on ImageNet), which does not include any location-related training tasks, we transform a classification dataset into a detection dataset through a weakly supervised object localization method based on Class Activation Maps to directly pre-train a detector, making the pre-trained model location-aware and capable of predicting bounding boxes. We show that DAP can outperform the traditional classification pre-training in terms of both sample efficiency and convergence speed in downstream detection tasks including VOC and COCO. In particular, DAP boosts the detection accuracy by a large margin when the number of examples in the downstream task is small.
翻訳日:2021-04-01 14:37:31 公開日:2021-03-30
# カテゴリー非依存型形状補完のデノイズとコントラスト

Denoise and Contrast for Category Agnostic Shape Completion ( http://arxiv.org/abs/2103.16671v1 )

ライセンス: Link先を確認
Antonio Alliegro, Diego Valsesia, Giulia Fracastoro, Enrico Magli, Tatiana Tommasi(参考訳) 本稿では,自己スーパービジョンのパワーを生かして3dポイントのクラウド補完を行い,不足部分と周囲のコンテキスト領域を推定する深層学習モデルを提案する。 ローカルおよびグローバル情報は、複合埋め込みにエンコードされる。 denoising pretextタスクは、ネットワークに必要なローカルなヒントを提供し、高レベルのセマンティクスから分離し、複数のクラスで自然に共有する。 一方、対照的な学習は、異なる欠落部分を持つ同一形状の変種間の一致を最大化することにより、その形状のグローバルな外観を捉えた表現を生成する。 複合埋め込みは、選択されたプリテキストタスクからカテゴリに依存しないプロパティを継承する。 既存のアプローチと異なり、これはトレーニング時に見つからない新しいカテゴリに完了プロパティをより一般化することを可能にする。 さらに, 得られた結合表現を復号化しながら, 既知領域に注意を払い, このフレームを補助目的として再構築することにより, 再構成した欠落部分を部分的な形状にブレンドする。 シェープネットデータセットの広範囲な実験と詳細なアブレーションにより,新たな技術結果が得られた場合,各部分の有効性を示す。 定量的・定性的分析により, 分類や形状対称性の優先順位や, 敵対的訓練手順に頼らずに, 新たなカテゴリーにどのように取り組むことができるかを確認した。

In this paper, we present a deep learning model that exploits the power of self-supervision to perform 3D point cloud completion, estimating the missing part and a context region around it. Local and global information are encoded in a combined embedding. A denoising pretext task provides the network with the needed local cues, decoupled from the high-level semantics and naturally shared over multiple classes. On the other hand, contrastive learning maximizes the agreement between variants of the same shape with different missing portions, thus producing a representation which captures the global appearance of the shape. The combined embedding inherits category-agnostic properties from the chosen pretext tasks. Differently from existing approaches, this allows to better generalize the completion properties to new categories unseen at training time. Moreover, while decoding the obtained joint representation, we better blend the reconstructed missing part with the partial shape by paying attention to its known surrounding region and reconstructing this frame as auxiliary objective. Our extensive experiments and detailed ablation on the ShapeNet dataset show the effectiveness of each part of the method with new state of the art results. Our quantitative and qualitative analysis confirms how our approach is able to work on novel categories without relying neither on classification and shape symmetry priors, nor on adversarial training procedures.
翻訳日:2021-04-01 14:37:13 公開日:2021-03-30
# Few-Shotオブジェクト検出のためのコンテキスト認識アグリゲーションを用いたDense Relation Distillation

Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection ( http://arxiv.org/abs/2103.17115v1 )

ライセンス: Link先を確認
Hanzhe Hu, Shuai Bai, Aoxue Li, Jinshi Cui, Liwei Wang(参考訳) オブジェクト検出のための従来のディープラーニングベースの手法は、トレーニングのための大量の境界ボックスアノテーションを必要とするため、そのような高品質な注釈付きデータを得るのにコストがかかる。 少数の注釈付き例で新しいクラスに適応することを学ぶ、少数ショットオブジェクト検出は、ノベルオブジェクトの細かな特徴をほんの数データだけで簡単に見過ごせるため、非常に難しい。 本研究は,注釈付き新規オブジェクトの特徴をフル活用し,クエリオブジェクトのきめ細かい特徴を捉えることを目的として,DCNet(Context-aware Aggregation)を用いたDense Relation Distillationを提案する。 メタラーニングベースのフレームワーク上に構築されたDense Relation Distillationモジュールは、サポート機能とクエリ機能が密にマッチし、フィードフォワード形式ですべての空間位置をカバーする、完全に活用するサポート機能をターゲットにしている。 ガイダンス情報の豊富な使用は、外観の変化や閉塞といった共通の課題を扱う能力をモデル化する。 さらに、スケール認識機能をよりよくキャプチャするために、コンテキスト認識アグリゲーションモジュールは、より包括的な機能表現のために、さまざまなスケールの機能を適応的に利用します。 実験の結果,提案手法はPASCAL VOCおよびMS COCOデータセットの最先端結果が得られることがわかった。 コードはhttps://github.com/h zhupku/dcnetで入手できる。

Conventional deep learning based methods for object detection require a large amount of bounding box annotations for training, which is expensive to obtain such high quality annotated data. Few-shot object detection, which learns to adapt to novel classes with only a few annotated examples, is very challenging since the fine-grained feature of novel object can be easily overlooked with only a few data available. In this work, aiming to fully exploit features of annotated novel object and capture fine-grained features of query object, we propose Dense Relation Distillation with Context-aware Aggregation (DCNet) to tackle the few-shot detection problem. Built on the meta-learning based framework, Dense Relation Distillation module targets at fully exploiting support features, where support features and query feature are densely matched, covering all spatial locations in a feed-forward fashion. The abundant usage of the guidance information endows model the capability to handle common challenges such as appearance changes and occlusions. Moreover, to better capture scale-aware features, Context-aware Aggregation module adaptively harnesses features from different scales for a more comprehensive feature representation. Extensive experiments illustrate that our proposed approach achieves state-of-the-art results on PASCAL VOC and MS COCO datasets. Code will be made available at https://github.com/h zhupku/DCNet.
翻訳日:2021-04-01 14:30:21 公開日:2021-03-30
# グラフ分類のためのパラメータ化ハイパーコンプレックスグラフニューラルネットワーク

Parameterized Hypercomplex Graph Neural Networks for Graph Classification ( http://arxiv.org/abs/2103.16584v1 )

ライセンス: Link先を確認
Tuan Le, Marco Bertolini, Frank No\'e, Djork-Arn\'e Clevert(参考訳) ハイパーコンプレックス(hc)空間における表現学習の最近の進歩にもかかわらず、この主題はグラフの文脈においていまだに非常に未解明である。 重み付け機構を本質的に組み込んだ効果的な表現学習を実現するために,いくつかの文脈で見出された複素数および四元数代数に動機づけられたグラフニューラルネットワークを開発した。 特に、提案したモデルのクラスでは、代数自身を特定する乗法則は、トレーニング中にデータから推測される。 固定モデルアーキテクチャを前提として,提案モデルに正規化効果が組み込まれ,過度に適合するリスクが軽減されることを示す。 また,固定モデルキャパシティにおいて,提案手法が対応する実形式GNNよりも優れており,HC埋め込みの表現性の向上が確認できることを示す。 最後に、提案した超複素GNNを、いくつかのオープングラフベンチマークデータセットでテストし、我々のモデルが70より少ないパラメータでメモリフットプリントを消費しながら、最先端のパフォーマンスに達することを示す。 私たちの実装はhttps://github.com/b ayer-science-for-a-b etter-life/phc-gnnで利用可能です。

Despite recent advances in representation learning in hypercomplex (HC) space, this subject is still vastly unexplored in the context of graphs. Motivated by the complex and quaternion algebras, which have been found in several contexts to enable effective representation learning that inherently incorporates a weight-sharing mechanism, we develop graph neural networks that leverage the properties of hypercomplex feature transformation. In particular, in our proposed class of models, the multiplication rule specifying the algebra itself is inferred from the data during training. Given a fixed model architecture, we present empirical evidence that our proposed model incorporates a regularization effect, alleviating the risk of overfitting. We also show that for fixed model capacity, our proposed method outperforms its corresponding real-formulated GNN, providing additional confirmation for the enhanced expressivity of HC embeddings. Finally, we test our proposed hypercomplex GNN on several open graph benchmark datasets and show that our models reach state-of-the-art performance while consuming a much lower memory footprint with 70& fewer parameters. Our implementations are available at https://github.com/b ayer-science-for-a-b etter-life/phc-gnn.
翻訳日:2021-04-01 14:27:44 公開日:2021-03-30
# 資源制約付きオンデバイス歩行同定のための二元化ニューラルネットワーク

Binarized Neural Networks for Resource-Constrained On-Device Gait Identification ( http://arxiv.org/abs/2103.16609v1 )

ライセンス: Link先を確認
Daniel J. Wu, Avoy Datta and Vinay Prabhu(参考訳) 歩行分析によるユーザ認証は、差別的ニューラルネットワークの有望な応用である。特に、歩行加速度計の主要な情報源であるポケット内携帯電話の普及によりである。 しかし、従来の機械学習モデルは、多くの場合、大きすぎて計算コストが高く、低リソースのモバイルデバイスで推論を可能にする。 本稿では、二項化ニューラルネットワークが堅牢な判別器として機能し、許容レベルの精度を維持しつつ、メモリ要求を劇的に低減し、オンデバイス推論を可能にすることを提案する。 この目的のために我々は,Padova Gaitデータセットの最先端とほぼ一致し,メモリオーバーヘッドの1/32しか持たない,コンパクトなCNNであるBiPedalNetを提案する。

User authentication through gait analysis is a promising application of discriminative neural networks -- particularly due to the ubiquity of the primary sources of gait accelerometry, in-pocket cellphones. However, conventional machine learning models are often too large and computationally expensive to enable inference on low-resource mobile devices. We propose that binarized neural networks can act as robust discriminators, maintaining both an acceptable level of accuracy while also dramatically decreasing memory requirements, thereby enabling on-device inference. To this end, we propose BiPedalNet, a compact CNN that nearly matches the state-of-the-art on the Padova gait dataset, with only 1/32 of the memory overhead.
翻訳日:2021-04-01 14:27:24 公開日:2021-03-30
# 低資源音声対インテントアプリケーションのための事前学習

Pre-training for low resource speech-to-intent applications ( http://arxiv.org/abs/2103.16674v1 )

ライセンス: Link先を確認
Pu Wang, Hugo Van hamme(参考訳) 音声コマンドをエージェントの所望のタスク行動にマッピングする音声入力エージェント(S2I)の設計は,異なるユーザの文法的・語彙的嗜好の多様さから困難である。 本稿では,ユーザが学習したS2Iシステムについて論じる。 ユーザ学習システムは、ユーザの音声入力から、アクションデモでスクラッチから学習し、ユーザの意図の定式化方法とその調音習慣と完全に一致することを保証する。 主な問題は、ユーザの努力によるトレーニングデータの不足である。 この設定における既存の最先端のアプローチは、非負行列分解(NMF)とカプセルネットワークに基づいている。 本稿では, エンド・ツー・エンドのASRシステムのエンコーダと, 従来のNMF/カプセル・ネットワークベースのユーザ・トレーディング・デコーダを組み合わせ, 事前学習手法がNMFとカプセル・ネットワークのトレーニングデータ要求を低減できるかどうかを検討する。 実験の結果,プレトレーニングされたASR-NMFフレームワークは他のモデルよりも優れており,各種のコマンド・アンド・コントロール(C&C)アプリケーションによる事前トレーニングの制限についても検討した。

Designing a speech-to-intent (S2I) agent which maps the users' spoken commands to the agents' desired task actions can be challenging due to the diverse grammatical and lexical preference of different users. As a remedy, we discuss a user-taught S2I system in this paper. The user-taught system learns from scratch from the users' spoken input with action demonstration, which ensure it is fully matched to the users' way of formulating intents and their articulation habits. The main issue is the scarce training data due to the user effort involved. Existing state-of-art approaches in this setting are based on non-negative matrix factorization (NMF) and capsule networks. In this paper we combine the encoder of an end-to-end ASR system with the prior NMF/capsule network-based user-taught decoder, and investigate whether pre-training methodology can reduce training data requirements for the NMF and capsule network. Experimental results show the pre-trained ASR-NMF framework significantly outperforms other models, and also, we discuss limitations of pre-training with different types of command-and-control( C&C) applications.
翻訳日:2021-04-01 14:25:36 公開日:2021-03-30
# mask-tof: 飛行中の画素補正のためのマイクロレンズマスクの学習

Mask-ToF: Learning Microlens Masks for Flying Pixel Correction in Time-of-Flight Imaging ( http://arxiv.org/abs/2103.16693v1 )

ライセンス: Link先を確認
Ilya Chugunov, Seung-Hwan Baek, Qiang Fu, Wolfgang Heidrich, Felix Heide(参考訳) 本研究では,飛行時間(ToF)深度キャプチャにおけるフライングピクセル(FP)の削減手法であるMask-ToFを紹介する。 FPは、被写体と背景の両方からの光の経路が開口部上で統合される、奥行きの辺りで発生する広汎な人工物である。 この光はセンサーピクセルで混合され、誤った深度推定が生成され、下流の3D視覚タスクに悪影響を及ぼす可能性がある。 Mask-ToFはこれらのFPのソースから始まり、マイクロレンズレベルのオクルージョンマスクを学習し、各センサーのピクセルごとにカスタム形状のサブアパーチャを効果的に生成する。 これにより、画素単位のフォアグラウンドと背景光混合物の選択を変調し、シーン幾何情報をtof測定に直接エンコードする。 我々は,畳み込みニューラルネットワークを共同で訓練し,この情報を復号化し,高忠実度かつ低fp深度の再構成を行う,微分可能なtofシミュレータを開発した。 模擬光電界データセット上でマスクtofの有効性を検証し,実験実験による検証を行った。 そこで本研究では,学習振幅マスクを試作し,高分解能tofセンサに仮想配置する光中継システムを設計する。 Mask-ToFは、再トレーニングせずに実データに対してうまく一般化し、FP数を半減する。

We introduce Mask-ToF, a method to reduce flying pixels (FP) in time-of-flight (ToF) depth captures. FPs are pervasive artifacts which occur around depth edges, where light paths from both an object and its background are integrated over the aperture. This light mixes at a sensor pixel to produce erroneous depth estimates, which can adversely affect downstream 3D vision tasks. Mask-ToF starts at the source of these FPs, learning a microlens-level occlusion mask which effectively creates a custom-shaped sub-aperture for each sensor pixel. This modulates the selection of foreground and background light mixtures on a per-pixel basis and thereby encodes scene geometric information directly into the ToF measurements. We develop a differentiable ToF simulator to jointly train a convolutional neural network to decode this information and produce high-fidelity, low-FP depth reconstructions. We test the effectiveness of Mask-ToF on a simulated light field dataset and validate the method with an experimental prototype. To this end, we manufacture the learned amplitude mask and design an optical relay system to virtually place it on a high-resolution ToF sensor. We find that Mask-ToF generalizes well to real data without retraining, cutting FP counts in half.
翻訳日:2021-04-01 14:23:57 公開日:2021-03-30
# 多相回折スペクトルの解釈を自動化する確率論的深層学習手法

A probabilistic deep learning approach to automate the interpretation of multi-phase diffraction spectra ( http://arxiv.org/abs/2103.16664v1 )

ライセンス: Link先を確認
Nathan J. Szymanski, Christopher J. Bartel, Yan Zeng, Qingsong Tu, Gerbrand Ceder(参考訳) 無機材料の自動合成とキャラクタリゼーションには、X線回折スペクトルの自動的かつ正確な分析が必要である。 本研究では,複雑な多相混合を同定する確率的ディープラーニングアルゴリズムを設計した。 このアルゴリズムの核心には、シミュレーション回折スペクトルに基づいて訓練されたアンサンブル畳み込みニューラルネットワークがあり、これは実験的なサンプル作成と合成の間に生じる人工物を説明するために、物理インフォームの摂動で体系的に拡張されている。 オフストイキメトリーに関連する大きな摂動も、仮説的な固体溶液でトレーニングセットを補足することで捉えられる。 素材の混合物を含むスペクトルを、ニューラルネットワークの確率的性質を利用した新しい分岐アルゴリズムを用いて分析し、疑わしい混合物を探索し、予測の信頼性を最大化する位相のセットを同定する。 本モデルはシミュレーションおよび実験的に測定された回折スペクトルに基づいてベンチマークを行い,プロファイルマッチングと深層学習に基づく従来報告した手法よりも精度が高かった。 ここで示したアルゴリズムは、無機材料の高スループットかつ自律的な発見を容易にするために、実験ワークフローに統合される可能性がある。

Autonomous synthesis and characterization of inorganic materials requires the automatic and accurate analysis of X-ray diffraction spectra. For this task, we designed a probabilistic deep learning algorithm to identify complex multi-phase mixtures. At the core of this algorithm lies an ensemble convolutional neural network trained on simulated diffraction spectra, which are systematically augmented with physics-informed perturbations to account for artifacts that can arise during experimental sample preparation and synthesis. Larger perturbations associated with off-stoichiometry are also captured by supplementing the training set with hypothetical solid solutions. Spectra containing mixtures of materials are analyzed with a newly developed branching algorithm that utilizes the probabilistic nature of the neural network to explore suspected mixtures and identify the set of phases that maximize confidence in the prediction. Our model is benchmarked on simulated and experimentally measured diffraction spectra, showing exceptional performance with accuracies exceeding those given by previously reported methods based on profile matching and deep learning. We envision that the algorithm presented here may be integrated in experimental workflows to facilitate the high-throughput and autonomous discovery of inorganic materials.
翻訳日:2021-04-01 14:19:58 公開日:2021-03-30
# 制御変数を用いた多元因果推論

Multi-Source Causal Inference Using Control Variates ( http://arxiv.org/abs/2103.16689v1 )

ライセンス: Link先を確認
Wenshuo Guo, Serena Wang, Peng Ding, Yixin Wang, Michael I. Jordan(参考訳) 機械学習の多くの領域は、大規模で多様なデータセットの可用性の増大から恩恵を受けているが、因果効果の識別性を保証するための強い仮定を考えると、因果推論の利点は限られている。 例えば、多くの大きな観察データセット(例えば、疫学におけるケースコントロール研究、レコメンデーションシステムにおけるクリックスルーデータ)は、結果に対する選択バイアスに悩まされており、平均的な治療効果(ate)は特定できない。 本研究では,データソースから因果効果を推定する一般的なアルゴリズムを提案する。 主要なアイデアは、ATEが識別できないデータセットを使用して、制御変数を構築することである。 理論的には、これはATE推定の分散を減少させる。 このフレームワークを,結果選択バイアス下の観測データからの推論に適用し,ateの一貫した推定が得られる補助的な小さなデータセットへのアクセスを仮定する。 2つのデータセットからオッズ比の推定値の差を計算して制御変数を構築する。 実データを用いたシミュレーションと2つのケーススタディにより、この制御変数はATE推定のばらつきを著しく低減できることを示した。

While many areas of machine learning have benefited from the increasing availability of large and varied datasets, the benefit to causal inference has been limited given the strong assumptions needed to ensure identifiability of causal effects; these are often not satisfied in real-world datasets. For example, many large observational datasets (e.g., case-control studies in epidemiology, click-through data in recommender systems) suffer from selection bias on the outcome, which makes the average treatment effect (ATE) unidentifiable. We propose a general algorithm to estimate causal effects from \emph{multiple} data sources, where the ATE may be identifiable only in some datasets but not others. The key idea is to construct control variates using the datasets in which the ATE is not identifiable. We show theoretically that this reduces the variance of the ATE estimate. We apply this framework to inference from observational data under an outcome selection bias, assuming access to an auxiliary small dataset from which we can obtain a consistent estimate of the ATE. We construct a control variate by taking the difference of the odds ratio estimates from the two datasets. Across simulations and two case studies with real data, we show that this control variate can significantly reduce the variance of the ATE estimate.
翻訳日:2021-04-01 14:19:39 公開日:2021-03-30
# (参考訳) 明示的な負サンプリングを伴わない自己教師付きグラフニューラルネットワーク [全文訳有]

Self-supervised Graph Neural Networks without explicit negative sampling ( http://arxiv.org/abs/2103.14958v2 )

ライセンス: CC BY 4.0
Zekarias T. Kefato and Sarunas Girdzijauskas(参考訳) 実世界のデータはラベル付けされていないか、わずかしかラベル付けされていない。 手動でデータをラベリングするのは、非常に高価で厄介な作業です。 これにより、半教師付き/教師付き技術と同等の結果が得られるほど強力な教師なし学習技術が要求される。 対照的な自己指導型学習は強力な方向として現れており、場合によっては指導型技術よりも優れている。 本研究では,明示的なコントラスト項に依存しない,新しいコントラスト型自己教師付きグラフニューラルネットワーク (gnn) であるselfgnnを提案する。 性能を犠牲にすることなく、暗黙の対照的な項を導入するバッチ正規化を利用する。 さらに,データ拡張がコントラスト学習の鍵となるため,グラフに4つの機能拡張(fa)技術を導入する。 グラフトポロジカル・アジュメンテーション(TA)は一般的に用いられているが, 実験の結果, FAはTAと同程度の性能を示した。 さらに、FA は TA とは異なり計算オーバーヘッドを伴わず、O(N^3) の時間複雑性、N 個のノードを持つことが多い。 公開されている7つの実世界のデータに対する実証的な評価は、SelfGNNは強力で、SOTAが監督するGNNに匹敵する性能を示し、常にSOTAが監督するGNNよりも優れていることを示している。 ソースコードはhttps://github.com/z ekarias-tilahun/Self GNNで公開されている。

Real world data is mostly unlabeled or only few instances are labeled. Manually labeling data is a very expensive and daunting task. This calls for unsupervised learning techniques that are powerful enough to achieve comparable results as semi-supervised/supe rvised techniques. Contrastive self-supervised learning has emerged as a powerful direction, in some cases outperforming supervised techniques. In this study, we propose, SelfGNN, a novel contrastive self-supervised graph neural network (GNN) without relying on explicit contrastive terms. We leverage Batch Normalization, which introduces implicit contrastive terms, without sacrificing performance. Furthermore, as data augmentation is key in contrastive learning, we introduce four feature augmentation (FA) techniques for graphs. Though graph topological augmentation (TA) is commonly used, our empirical findings show that FA perform as good as TA. Moreover, FA incurs no computational overhead, unlike TA, which often has O(N^3) time complexity, N-number of nodes. Our empirical evaluation on seven publicly available real-world data shows that, SelfGNN is powerful and leads to a performance comparable with SOTA supervised GNNs and always better than SOTA semi-supervised and unsupervised GNNs. The source code is available at https://github.com/z ekarias-tilahun/Self GNN.
翻訳日:2021-04-01 13:51:07 公開日:2021-03-30
# (参考訳) 内視鏡手術におけるYOLACT++による医療機器のリアルタイムおよび堅牢なインスタンスセグメンテーションの評価 [全文訳有]

Assessing YOLACT++ for real time and robust instance segmentation of medical instruments in endoscopic procedures ( http://arxiv.org/abs/2103.15997v1 )

ライセンス: CC BY 4.0
Juan Carlos Angeles Ceron, Leonardo Chang, Gilberto Ochoa-Ruiz and Sharib Ali(参考訳) 腹腔鏡下手術器具の画像追跡は, 手術支援と患者安全性の向上により, 外科手術やロボット支援手術において重要な役割を担っている。 robust medical instrument segmentation (robust-mis) challengeのようなコンピュータビジョンコンテストは、このような目的のために堅牢なモデルの開発を奨励し、大規模で多様で注釈付きのデータセットを提供する。 これまでの医療機器のセグメント化のような既存のモデルのほとんどは、2段階の検出器に基づいており、堅牢な結果を提供するが、ほとんどの場合5フレーム/秒(fps)のリアルタイムに近い。 しかし, 本手法を臨床応用するためには, 精度の高いリアルタイム能力が必要である。 本稿では,ROBUST-MISデータセットの精度を向上した楽器のリアルタイムインスタンス分割を可能にするYOLACTアーキテクチャへのアテンション機構の追加を提案する。 提案手法は,2019 ROBUST-MIS チャレンジの勝者に対して,実時間性能 (37 fps) を達成しながら, 0.313 MI_DSC と 0.338 MI_NSD を得た。

Image-based tracking of laparoscopic instruments plays a fundamental role in computer and robotic-assisted surgeries by aiding surgeons and increasing patient safety. Computer vision contests, such as the Robust Medical Instrument Segmentation (ROBUST-MIS) Challenge, seek to encourage the development of robust models for such purposes, providing large, diverse, and annotated datasets. To date, most of the existing models for instance segmentation of medical instruments were based on two-stage detectors, which provide robust results but are nowhere near to the real-time (5 frames-per-second (fps)at most). However, in order for the method to be clinically applicable, real-time capability is utmost required along with high accuracy. In this paper, we propose the addition of attention mechanisms to the YOLACT architecture that allows real-time instance segmentation of instrument with improved accuracy on the ROBUST-MIS dataset. Our proposed approach achieves competitive performance compared to the winner ofthe 2019 ROBUST-MIS challenge in terms of robustness scores,obtaining 0.313 MI_DSC and 0.338 MI_NSD, while achieving real-time performance (37 fps)
翻訳日:2021-04-01 04:50:25 公開日:2021-03-30
# (参考訳) Production Machine Learning Pipelines:実証分析と最適化の機会 [全文訳有]

Production Machine Learning Pipelines: Empirical Analysis and Optimization Opportunities ( http://arxiv.org/abs/2103.16007v1 )

ライセンス: CC BY 4.0
Doris Xin, Hui Miao, Aditya Parameswaran, Neoklis Polyzotis(参考訳) 機械学習(ML)は現在、さまざまな組織でデータ駆動アプリケーションを動かしている。 研究におけるMLの従来の認識とは異なり、ML生産パイプラインは複雑で、多くのインターロック分析コンポーネントがトレーニングを超えており、そのサブ部分は重複するデータのサブセットで複数回実行されることが多い。 しかしながら、これらのパイプラインの寿命、アーキテクチャ、頻度、複雑さに関する定量的な証拠が欠如しており、データ管理研究がより効率的、効果的、堅牢、再現性を高めるためにどのように使われるかを理解することができる。 そのために、本番MLの基盤となる複雑さと課題を理解するために、4ヶ月以上にわたってトレーニングされた45万以上のモデルからなる、Googleの3000のプロダクションMLパイプラインの成果グラフを分析した。 分析の結果,様々な粒度の産業用MLパイプラインの特徴,構成要素,およびトポロジーが明らかになった。 その過程で、これらのMLパイプラインで繰り返し実行されるコンポーネントを表現および推論するための特殊なデータモデルを導入し、それをモデルグラフレットと呼ぶ。 従来のデータ管理のアイデアを活用して、最適化のための豊富な機会を特定します。 モデル配置のケイデンスを妥協することなく, モデル配置に変換されない無駄な計算を識別し, 刈り取ることにより, 無駄な計算コストを50%削減できることを示す。

Machine learning (ML) is now commonplace, powering data-driven applications in various organizations. Unlike the traditional perception of ML in research, ML production pipelines are complex, with many interlocking analytical components beyond training, whose sub-parts are often run multiple times on overlapping subsets of data. However, there is a lack of quantitative evidence regarding the lifespan, architecture, frequency, and complexity of these pipelines to understand how data management research can be used to make them more efficient, effective, robust, and reproducible. To that end, we analyze the provenance graphs of 3000 production ML pipelines at Google, comprising over 450,000 models trained, spanning a period of over four months, in an effort to understand the complexity and challenges underlying production ML. Our analysis reveals the characteristics, components, and topologies of typical industry-strength ML pipelines at various granularities. Along the way, we introduce a specialized data model for representing and reasoning about repeatedly run components in these ML pipelines, which we call model graphlets. We identify several rich opportunities for optimization, leveraging traditional data management ideas. We show how targeting even one of these opportunities, i.e., identifying and pruning wasted computation that does not translate to model deployment, can reduce wasted computation cost by 50% without compromising the model deployment cadence.
翻訳日:2021-04-01 04:44:16 公開日:2021-03-30
# (参考訳) データサブサンプリングによる測光赤方偏移のスケーラブルな統計的推定 [全文訳有]

Scalable Statistical Inference of Photometric Redshift via Data Subsampling ( http://arxiv.org/abs/2103.16041v1 )

ライセンス: CC BY 4.0
Arindam Fadikar and Stefan M. Wild(参考訳) ビッグデータを扱うことは、従来の統計モデルにおいて大きなボトルネックとなっている。 したがって、正確な点予測が主なターゲットである場合、機械学習モデルはより大きな問題に対して統計モデルよりも好まれる。 しかし、完全な確率的統計モデルは、モデル予測に関連する不確かさを定量化するために、しばしば他のモデルを上回る。 我々は,入力空間における不均衡を考慮に入れたデータの部分集合から学習した統計モデルのアンサンブルからの不確実性を組み合わせた,データ駆動型統計モデリングフレームワークを開発する。 天体が観測する多変量色情報から赤方偏移の分布 -- 遠方銀河の観測におけるストレッチ効果 -- を推算することを目的とした宇宙論における測光的赤方偏移推定問題に関する本手法を実証する。 提案手法は,バランスの取れたパーティショニング,グラフベースのデータサブサンプリング,およびガウス過程モデルのアンサンブルのトレーニングを行う。

Handling big data has largely been a major bottleneck in traditional statistical models. Consequently, when accurate point prediction is the primary target, machine learning models are often preferred over their statistical counterparts for bigger problems. But full probabilistic statistical models often outperform other models in quantifying uncertainties associated with model predictions. We develop a data-driven statistical modeling framework that combines the uncertainties from an ensemble of statistical models learned on smaller subsets of data carefully chosen to account for imbalances in the input space. We demonstrate this method on a photometric redshift estimation problem in cosmology, which seeks to infer a distribution of the redshift -- the stretching effect in observing far-away galaxies -- given multivariate color information observed for an object in the sky. Our proposed method performs balanced partitioning, graph-based data subsampling across the partitions, and training of an ensemble of Gaussian process models.
翻訳日:2021-04-01 04:14:58 公開日:2021-03-30
# (参考訳) ランク付け型インスタンス選択による耐雑音深度学習 [全文訳有]

Noise-resistant Deep Metric Learning with Ranking-based Instance Selection ( http://arxiv.org/abs/2103.16047v1 )

ライセンス: CC BY 4.0
Chang Liu and Han Yu and Boyang Li and Zhiqi Shen and Zhanning Gao and Peiran Ren and Xuansong Xie and Lizhen Cui and Chunyan Miao(参考訳) 実世界のデータにノイズラベルが存在することは、ディープラーニングモデルの性能に悪影響を及ぼす。 分類タスクにおけるノイズラベルの堅牢性向上に多くの研究努力が注がれているが、ディープメトリックラーニング(DML)におけるノイズラベルの問題はまだ未解決である。 本稿では,確率的ランク付けに基づくメモリを用いたインスタンス選択(PRISM)と呼ばれるDMLの耐雑音性トレーニング手法を提案する。 PRISMは、ニューラルネットワークの以前のバージョンで抽出された画像特徴との平均的類似性を使用して、ミニバッチ内のノイズデータを識別する。 これらの機能はメモリバンクに格納され、取得される。 メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。 PRISMは、合成ラベルノイズと実世界のラベルノイズの両方で既存の12のアプローチと比較して、Precision@1で最大6.06%の優れた性能を示す。

The existence of noisy labels in real-world data negatively impacts the performance of deep learning models. Although much research effort has been devoted to improving robustness to noisy labels in classification tasks, the problem of noisy labels in deep metric learning (DML) remains open. In this paper, we propose a noise-resistant training technique for DML, which we name Probabilistic Ranking-based Instance Selection with Memory (PRISM). PRISM identifies noisy data in a minibatch using average similarity against image features extracted by several previous versions of the neural network. These features are stored in and retrieved from a memory bank. To alleviate the high computational cost brought by the memory bank, we introduce an acceleration method that replaces individual data points with the class centers. In extensive comparisons with 12 existing approaches under both synthetic and real-world label noise, PRISM demonstrates superior performance of up to 6.06% in Precision@1.
翻訳日:2021-04-01 03:15:54 公開日:2021-03-30
# (参考訳) 3D-MAN:オブジェクト検出のための3次元多フレームアテンションネットワーク [全文訳有]

3D-MAN: 3D Multi-frame Attention Network for Object Detection ( http://arxiv.org/abs/2103.16054v1 )

ライセンス: CC BY 4.0
Zetong Yang, Yin Zhou, Zhifeng Chen, Jiquan Ngiam(参考訳) 3dオブジェクト検出は、自動運転とロボティクスにおいて重要なモジュールである。 しかし、既存の手法の多くは、単一のフレームを使用して3d検出することに集中しており、複数のフレームからの情報を十分に活用していない。 本稿では,複数の視点から機能を効果的に集約し,Waymo Open Dataset上での最先端のパフォーマンスを実現する3D-MANを提案する。 3D-MANは最初、箱の提案を作るために新しい高速単フレーム検出器を使用した。 ボックスの提案とその機能マップは、メモリバンクに格納される。 メモリバンクに格納された時間的特徴を抽出・集約するために,アテンションネットワークを用いた多視点アライメントおよびアグリゲーションモジュールを設計する。 これはシーンの異なる視点から来る機能を効果的に組み合わせます。 大規模な複雑なWaymo Open Datasetに対する我々のアプローチの有効性を実証し、公開シングルフレームおよびマルチフレーム手法と比較して最先端の結果を得る。

3D object detection is an important module in autonomous driving and robotics. However, many existing methods focus on using single frames to perform 3D detection, and do not fully utilize information from multiple frames. In this paper, we present 3D-MAN: a 3D multi-frame attention network that effectively aggregates features from multiple perspectives and achieves state-of-the-art performance on Waymo Open Dataset. 3D-MAN first uses a novel fast single-frame detector to produce box proposals. The box proposals and their corresponding feature maps are then stored in a memory bank. We design a multi-view alignment and aggregation module, using attention networks, to extract and aggregate the temporal features stored in the memory bank. This effectively combines the features coming from different perspectives of the scene. We demonstrate the effectiveness of our approach on the large-scale complex Waymo Open Dataset, achieving state-of-the-art results compared to published single-frame and multi-frame methods.
翻訳日:2021-04-01 03:13:24 公開日:2021-03-30
# (参考訳) 分類器の集合を用いた非構造化ITサービスデスクチケットの分類 [全文訳有]

Classifying the Unstructured IT Service Desk Tickets Using Ensemble of Classifiers ( http://arxiv.org/abs/2103.15822v1 )

ライセンス: CC BY 4.0
Ramya C, Paramesh S.P, Dr. Shreedhara K S(参考訳) ITサービスデスクのチケットを手動で分類することで、チケットを間違った解決グループにルーティングすることができる。 ITサービスデスクチケットの不正な割り当ては、チケットの再割り当て、不要なリソース利用、解決時間の遅延につながる。 従来の機械学習アルゴリズムは、itサービスデスクチケットの自動分類に使用できる。 サービスデスク切符分類モデルは、歴史的非構造化切符記述と対応するラベルをマイニングすることで訓練することができる。 このモデルを使用して、チケット記述に基づいて新しいサービスデスクチケットを分類することができる。 従来の分類器システムの性能は、様々な分類技法を用いてさらに向上することができる。 本稿では,チケット分類システムの精度を高めるために,異なるモデルからの予測を組み合わせるために,最も一般的な3つのアンサンブル手法であるバッギング,ブースティング,投票アンサンブルを提案する。 各種性能指標を用いて、アンサンブル分類器システムの性能を個々のベース分類器に対してチェックする。 分類器のアンサンブルは対応する基底分類器と比較すると良好であった。 このような自動チケット分類システムを構築する利点は、ユーザインターフェースの簡素化、解決時間の短縮、生産性の向上、顧客満足度の向上、ビジネスの成長である。 大企業ITインフラからの実世界のサービスデスクチケットデータは、我々の研究目的に利用されています。

Manual classification of IT service desk tickets may result in routing of the tickets to the wrong resolution group. Incorrect assignment of IT service desk tickets leads to reassignment of tickets, unnecessary resource utilization and delays the resolution time. Traditional machine learning algorithms can be used to automatically classify the IT service desk tickets. Service desk ticket classifier models can be trained by mining the historical unstructured ticket description and the corresponding label. The model can then be used to classify the new service desk ticket based on the ticket description. The performance of the traditional classifier systems can be further improved by using various ensemble of classification techniques. This paper brings out the three most popular ensemble methods ie, Bagging, Boosting and Voting ensemble for combining the predictions from different models to further improve the accuracy of the ticket classifier system. The performance of the ensemble classifier system is checked against the individual base classifiers using various performance metrics. Ensemble of classifiers performed well in comparison with the corresponding base classifiers. The advantages of building such an automated ticket classifier systems are simplified user interface, faster resolution time, improved productivity, customer satisfaction and growth in business. The real world service desk ticket data from a large enterprise IT infrastructure is used for our research purpose.
翻訳日:2021-04-01 03:00:11 公開日:2021-03-30
# (参考訳) 野生の鑑識と対面する [全文訳有]

Face Forensics in the Wild ( http://arxiv.org/abs/2103.16076v1 )

ライセンス: CC BY 4.0
Tianfei Zhou, Wenguan Wang, Zhiyuan Liang, Jianbing Shen(参考訳) 既存の公開ベンチマークでは、顔偽造検出技術は大きな成功を収めている。 しかし、少数のサブセットしか操作されていないシーンで多くの人が活躍するマルチパーソンビデオで使用される場合、そのパフォーマンスは満足できないままである。 ffiw-10kという,1万の高品質の偽造ビデオからなり,各フレームに平均3人の顔を持つ,新しい大規模データセットを構築した。 操作手順は完全に自動化され、ドメイン敵の品質評価ネットワークによって制御されます。 さらに,多人数顔偽造検出の課題に取り組むための新しいアルゴリズムを提案する。 ビデオレベルのラベルのみによって監督され、アルゴリズムは複数のインスタンス学習を探索し、改ざんされた顔に自動的に出席するように学習する。 提案アルゴリズムは,FFIW-10K上での偽分類とローカライゼーションの両方の代表的な手法よりも優れ,既存のベンチマークで高い一般化能力を示す。 私たちのデータセットと研究が、コミュニティがこの新しい分野をより深く探求するのに役立つことを願っています。

On existing public benchmarks, face forgery detection techniques have achieved great success. However, when used in multi-person videos, which often contain many people active in the scene with only a small subset having been manipulated, their performance remains far from being satisfactory. To take face forgery detection to a new level, we construct a novel large-scale dataset, called FFIW-10K, which comprises 10,000 high-quality forgery videos, with an average of three human faces in each frame. The manipulation procedure is fully automatic, controlled by a domain-adversarial quality assessment network, making our dataset highly scalable with low human cost. In addition, we propose a novel algorithm to tackle the task of multi-person face forgery detection. Supervised by only video-level label, the algorithm explores multiple instance learning and learns to automatically attend to tampered faces. Our algorithm outperforms representative approaches for both forgery classification and localization on FFIW-10K, and also shows high generalization ability on existing benchmarks. We hope that our dataset and study will help the community to explore this new field in more depth.
翻訳日:2021-04-01 02:51:05 公開日:2021-03-30
# (参考訳) DeepWORD: 自律運転におけるオーナー・メンバー関係検出のためのGCNに基づくアプローチ [全文訳有]

DeepWORD: A GCN-based Approach for Owner-Member Relationship Detection in Autonomous Driving ( http://arxiv.org/abs/2103.16099v1 )

ライセンス: CC BY 4.0
Zizhang Wu, Man Wang, Jason Wang, Wenkai Zhang, Muqing Fang, Tianhao Xu(参考訳) 車輪と車両の所有者とメンバーの関係は、特に組込み環境での車両の3D認識に大きく貢献している点に注意が必要だ。 しかし,上記の関係予測には2つの課題がある。i)iouに基づく従来のヒューリスティックな手法では,オクルージョンにおける交通渋滞のシナリオにほとんど対処できない。 二 車両搭載システムの効率的な適用ソリューションを確立することは困難である。 そこで本研究では,グラフ畳み込みネットワーク(gcn)を設計することにより,新しい関係予測手法であるdeepwordを提案する。 具体的には,局所相関を持つ特徴マップをノードの入力として活用し,情報豊かさを向上させる。 さらに,事前推定偏差を動的に補正するグラフアテンションネットワーク(GAT)を導入する。 さらに,大規模なベンチマークとして,WORDと呼ばれる注釈付きオーナシップデータセットを構築した。 実験により,本手法が最先端の精度と実時間を実現することを示す。

It's worth noting that the owner-member relationship between wheels and vehicles has an significant contribution to the 3D perception of vehicles, especially in the embedded environment. However, there are currently two main challenges about the above relationship prediction: i) The traditional heuristic methods based on IoU can hardly deal with the traffic jam scenarios for the occlusion. ii) It is difficult to establish an efficient applicable solution for the vehicle-mounted system. To address these issues, we propose an innovative relationship prediction method, namely DeepWORD, by designing a graph convolution network (GCN). Specifically, we utilize the feature maps with local correlation as the input of nodes to improve the information richness. Besides, we introduce the graph attention network (GAT) to dynamically amend the prior estimation deviation. Furthermore, we establish an annotated owner-member relationship dataset called WORD as a large-scale benchmark, which will be available soon. The experiments demonstrate that our solution achieves state-of-the-art accuracy and real-time in practice.
翻訳日:2021-04-01 02:32:31 公開日:2021-03-30
# (参考訳) XRJL-HKUST at SemEval-2021 Task 4: WordNet-Enhanced Dual Multi-head Co-Attention for Reading Comprehension of Abstract Meaning [全文訳有]

XRJL-HKUST at SemEval-2021 Task 4: WordNet-Enhanced Dual Multi-head Co-Attention for Reading Comprehension of Abstract Meaning ( http://arxiv.org/abs/2103.16102v1 )

ライセンス: CC BY 4.0
Yuxin Jiang, Ziyi Shou, Qijun Wang, Hao Wu and Fangzhen Lin(参考訳) 本稿では,SemEval 2021 Task 4: Reading Comprehension of Abstract Meaningについて述べる。 本システムでは,エンコーダとして大規模な事前学習型言語モデルと,現行の最先端モデルDUMAに倣って,パスと質問応答ペアの関係を強化するための二重多頭部協調層を用いる。 主な違いは、再考プロセスをシミュレートするために並列に計算する代わりに、パスクエストと質問パスアテンションモジュールを積み重ねることである。 モデルの性能を改善するために、レイヤの正規化モジュールも追加します。 さらに、抽象概念に関する既知の知識を取り入れるために、wordnetから候補回答の定義を取得し、追加の入力としてモデルに与えます。 本システムは,WordNet-enhanced DUal Multi-head Co-Attention (WN-DUMA) と呼ばれ,それぞれ86.67%,89.99%の精度を達成している。

This paper presents our submitted system to SemEval 2021 Task 4: Reading Comprehension of Abstract Meaning. Our system uses a large pre-trained language model as the encoder and an additional dual multi-head co-attention layer to strengthen the relationship between passages and question-answer pairs, following the current state-of-the-art model DUMA. The main difference is that we stack the passage-question and question-passage attention modules instead of calculating parallelly to simulate re-considering process. We also add a layer normalization module to improve the performance of our model. Furthermore, to incorporate our known knowledge about abstract concepts, we retrieve the definitions of candidate answers from WordNet and feed them to the model as extra inputs. Our system, called WordNet-enhanced DUal Multi-head Co-Attention (WN-DUMA), achieves 86.67% and 89.99% accuracy on the official blind test set of subtask 1 and subtask 2 respectively.
翻訳日:2021-04-01 02:23:14 公開日:2021-03-30
# (参考訳) 局所協調型オートエンコーダ [全文訳有]

Local Collaborative Autoencoders ( http://arxiv.org/abs/2103.16103v1 )

ライセンス: CC BY 4.0
Minjin Choi, Yoonki Jeong, Joonseok Lee, and Jongwuk Lee(参考訳) 複雑なユーザとイテムのインタラクションは、高品質なレコメンデーション結果を得るために適切に対処する必要があるため、トップNレコメンデーションは難しい問題である。 ローカル潜在因子アプローチは、複数のローカルモデルで、異なるサブコミュニティで多様なユーザー好みをキャプチャするためにうまく使われてきた。 しかし、以前の研究では、局所的なモデルの可能性を十分に研究しておらず、多くの小規模でコヒーレントなサブコミュニティを特定することができなかった。 本稿では、一般化された局所潜在因子フレームワークであるLocal Collaborative Autoencoders(LOCA)を提案する。 特に、locaは訓練と推論の段階で異なる近隣範囲を採用する。 さらにlocaは、新しいサブコミュニティ発見手法を使用して、ローカルモデルの結合範囲を最大化し、多数の多様なローカルモデルを使用する。 ベースモデルとしてオートエンコーダを採用することで、LOCAはサブコミュニティ内の意味のあるユーザとイテムの相互作用を表す潜在非線形パターンをキャプチャする。 実験の結果,LOCAは複数の公開ベンチマークで2.99~4.70%,NDCGは1.02~7.95%,最先端モデルでは2.99~7.95%,スケーラビリティに優れていた。

Top-N recommendation is a challenging problem because complex and sparse user-item interactions should be adequately addressed to achieve high-quality recommendation results. The local latent factor approach has been successfully used with multiple local models to capture diverse user preferences with different sub-communities. However, previous studies have not fully explored the potential of local models, and failed to identify many small and coherent sub-communities. In this paper, we present Local Collaborative Autoencoders (LOCA), a generalized local latent factor framework. Specifically, LOCA adopts different neighborhood ranges at the training and inference stages. Besides, LOCA uses a novel sub-community discovery method, maximizing the coverage of a union of local models and employing a large number of diverse local models. By adopting autoencoders as the base model, LOCA captures latent non-linear patterns representing meaningful user-item interactions within sub-communities. Our experimental results demonstrate that LOCA is scalable and outperforms state-of-the-art models on several public benchmarks, by 2.99~4.70% in Recall and 1.02~7.95% in NDCG, respectively.
翻訳日:2021-04-01 02:16:19 公開日:2021-03-30
# (参考訳) 食品加工におけるディープラーニングと機械学習:調査

Deep Learning and Machine Vision for Food Processing: A Survey ( http://arxiv.org/abs/2103.16106v1 )

ライセンス: CC BY 4.0
Lili Zhu, Petros Spachos, Erica Pensini, and Konstantinos Plataniotis(参考訳) 食品の品質と安全性は、人間の健康、社会発展、安定の基礎にあるため、社会全体にとって重要な問題である。 食品の品質と安全性の確保は複雑なプロセスであり、栽培、収穫、貯蔵から準備と消費に至るまで、食品加工のあらゆる段階を考慮する必要がある。 しかし、これらのプロセスはしばしば労働集約的です。 現在、機械ビジョンの開発は、食品加工の効率を向上させるために研究者や産業を大いに助けることができる。 その結果、機械ビジョンは食品加工のあらゆる面で広く利用されてきた。 同時に、画像処理はマシンビジョンの重要な構成要素である。 画像処理は、機械学習とディープラーニングモデルを利用して、食品の種類と品質を効果的に識別することができる。 その後、マシンビジョンシステムにおけるフォローアップ設計は、食品のグレーディング、欠陥箇所や異物の位置の検出、不純物除去などのタスクに対処することができる。 本稿では,従来の機械学習および深層学習手法の概要と,食品加工分野に適用可能な機械ビジョン技術について述べる。 我々は,現在のアプローチと課題,今後のトレンドを紹介する。

The quality and safety of food is an important issue to the whole society, since it is at the basis of human health, social development and stability. Ensuring food quality and safety is a complex process, and all stages of food processing must be considered, from cultivating, harvesting and storage to preparation and consumption. However, these processes are often labour-intensive. Nowadays, the development of machine vision can greatly assist researchers and industries in improving the efficiency of food processing. As a result, machine vision has been widely used in all aspects of food processing. At the same time, image processing is an important component of machine vision. Image processing can take advantage of machine learning and deep learning models to effectively identify the type and quality of food. Subsequently, follow-up design in the machine vision system can address tasks such as food grading, detecting locations of defective spots or foreign objects, and removing impurities. In this paper, we provide an overview on the traditional machine learning and deep learning methods, as well as the machine vision techniques that can be applied to the field of food processing. We present the current approaches and challenges, and the future trends.
翻訳日:2021-04-01 02:00:25 公開日:2021-03-30
# (参考訳) 再分析データを用いた熱帯サイクロンの降水位置と時期の予測 [全文訳有]

Predicting Landfall's Location and Time of a Tropical Cyclone Using Reanalysis Data ( http://arxiv.org/abs/2103.16108v1 )

ライセンス: CC BY 4.0
Sandeep Kumar, Koushik Biswas, Ashish Kumar Pandey(参考訳) 熱帯低気圧の降水は、海洋沿岸を渡った後に陸地を移動する際に起こる。 地すべりの特徴を場所や時間的に把握することが重要であり、予防策を適宜講じるためには時間的に前進することが重要である。 本稿では,コンボリューショナルニューラルネットワークとロング短期記憶ネットワークを組み合わせた深層学習モデルを構築し,世界の6つの海盆における熱帯サイクロンの着地位置と時刻を高精度に予測する。 欧州中距離気象予報センター(ECMWF)が管理する高分解能空間解析データERA5を用いた。 このモデルは熱帯のサイクロンの進行中に9時間15時間、あるいは21時間のデータを必要とし、緯度や経度、時間といった面から地すべりの位置を予測する。 21時間のデータでは、66.18から158.92kmの範囲での上陸位置の予測と6つの海盆で4.71から8.20時間の範囲での上陸時刻の予測に絶対誤差が与えられる。 このモデルはわずか30分から45分で訓練でき(海盆に基づく)、着陸地点と時刻を数秒で予測できるため、リアルタイムの予測に適している。

Landfall of a tropical cyclone is the event when it moves over the land after crossing the coast of the ocean. It is important to know the characteristics of the landfall in terms of location and time, well advance in time to take preventive measures timely. In this article, we develop a deep learning model based on the combination of a Convolutional Neural network and a Long Short-Term memory network to predict the landfall's location and time of a tropical cyclone in six ocean basins of the world with high accuracy. We have used high-resolution spacial reanalysis data, ERA5, maintained by European Center for Medium-Range Weather Forecasting (ECMWF). The model takes any 9 hours, 15 hours, or 21 hours of data, during the progress of a tropical cyclone and predicts its landfall's location in terms of latitude and longitude and time in hours. For 21 hours of data, we achieve mean absolute error for landfall's location prediction in the range of 66.18 - 158.92 kilometers and for landfall's time prediction in the range of 4.71 - 8.20 hours across all six ocean basins. The model can be trained in just 30 to 45 minutes (based on ocean basin) and can predict the landfall's location and time in a few seconds, which makes it suitable for real time prediction.
翻訳日:2021-04-01 01:59:25 公開日:2021-03-30
# (参考訳) Kaleido-BERT:ファシオンドメインでのビジョンランゲージ事前トレーニング [全文訳有]

Kaleido-BERT: Vision-Language Pre-training on Fashion Domain ( http://arxiv.org/abs/2103.16110v1 )

ライセンス: CC BY 4.0
Mingchen Zhuge, Dehong Gao, Deng-Ping Fan, Linbo Jin, Ben Chen, Haoming Zhou, Minghui Qiu and Ling Shao(参考訳) 本稿では, トランスフォーマーからのファッション・モダリティ表現のための新しいカレイド戦略を導入する, Kaleido-BERT (VL) 事前学習モデルを提案する。 近年のVLモデルのランダムマスキング戦略とは対照的に,画像とテクスチャのセマンティクスに焦点を合わせるためにアライメント誘導マスキングを設計する。 この目的のために、異なるスケールのパッチで自己教師付きVL事前トレーニングを行うために、回転、ジグソー、カモフラージュ、グレーツーカラー、ブランクツーカラーの5つの新しいタスクを実行する。 Kaleido-BERTは概念的にはシンプルで、既存のBERTフレームワークへの拡張が容易で、テキスト検索(R@1: 4.03%の絶対改善)、画像検索(R@1: 7.13%のabs imv)を含む4つのダウンストリームタスクで、新しい最先端の結果が得られる。 9%),カテゴリー認識 (ACC: 3.28% abs imv。 およびファッションキャプション(Bleu4:1.2 abs imv.)。 我々は,Keleido-BERTの多岐にわたるe-commerical Webサイト上での効率性を検証し,実世界のアプリケーションにおいてその可能性を示す。

We present a new vision-language (VL) pre-training model dubbed Kaleido-BERT, which introduces a novel kaleido strategy for fashion cross-modality representations from transformers. In contrast to random masking strategy of recent VL models, we design alignment guided masking to jointly focus more on image-text semantic relations. To this end, we carry out five novel tasks, i.e., rotation, jigsaw, camouflage, grey-to-color, and blank-to-color for self-supervised VL pre-training at patches of different scale. Kaleido-BERT is conceptually simple and easy to extend to the existing BERT framework, it attains new state-of-the-art results by large margins on four downstream tasks, including text retrieval (R@1: 4.03% absolute improvement), image retrieval (R@1: 7.13% abs imv.), category recognition (ACC: 3.28% abs imv.), and fashion captioning (Bleu4: 1.2 abs imv.). We validate the efficiency of Kaleido-BERT on a wide range of e-commerical websites, demonstrating its broader potential in real-world applications.
翻訳日:2021-04-01 01:46:26 公開日:2021-03-30
# (参考訳) 大規模DNNモデルに対する同型暗号化推論の実現 [全文訳有]

Enabling Homomorphically Encrypted Inference for Large DNN Models ( http://arxiv.org/abs/2103.16139v1 )

ライセンス: CC BY 4.0
Guillermo Lloret-Talavera, Marc Jorda, Harald Servat, Fabian Boemer, Chetan Chauhan, Shigeki Tomishima, Nilesh N. Shah, Antonio J. Pe\~na(参考訳) ここ数年で機械学習サービスが急増し、データのプライバシーに関する懸念が高まった。 ホモモルフィック暗号化(HE)は暗号化データを用いた推論を可能にするが、100x--10,000倍のメモリとランタイムオーバーヘッドを発生させる。 HEを使用したセキュアなディープニューラルネットワーク(DNN)推論は現在、コンピューティングとメモリリソースによって制限されており、小さなモデルを評価するために数百ギガバイトのDRAMを必要とするフレームワークがある。 本稿では,これらの制約を克服するために,dramと永続メモリを組み合わせたハイブリッドメモリシステムの実現可能性について検討する。 特に、最近リリースされたIntel Optane PMem技術とIntel HE-Transformer nGraphを探索し、MobileNetV2(最大の変種)やResNet-50といった大規模なニューラルネットワークを文献で初めて動作させる。 本稿では,ハードウェアとソフトウェア構成の異なる実行効率の詳細な分析を行う。 以上の結果から, HEを用いたDNN推論は, このメモリ構成に親しみやすいアクセスパターンに依存し, 効率的な実行を実現する。

The proliferation of machine learning services in the last few years has raised data privacy concerns. Homomorphic encryption (HE) enables inference using encrypted data but it incurs 100x--10,000x memory and runtime overheads. Secure deep neural network (DNN) inference using HE is currently limited by computing and memory resources, with frameworks requiring hundreds of gigabytes of DRAM to evaluate small models. To overcome these limitations, in this paper we explore the feasibility of leveraging hybrid memory systems comprised of DRAM and persistent memory. In particular, we explore the recently-released Intel Optane PMem technology and the Intel HE-Transformer nGraph to run large neural networks such as MobileNetV2 (in its largest variant) and ResNet-50 for the first time in the literature. We present an in-depth analysis of the efficiency of the executions with different hardware and software configurations. Our results conclude that DNN inference using HE incurs on friendly access patterns for this memory configuration, yielding efficient executions.
翻訳日:2021-04-01 01:23:37 公開日:2021-03-30
# (参考訳) 画像生成・翻訳におけるコンテンツスタイルの絡み合いに対する対角的注意とスタイルベースGAN [全文訳有]

Diagonal Attention and Style-based GAN for Content-Style Disentanglement in Image Generation and Translation ( http://arxiv.org/abs/2103.16146v1 )

ライセンス: CC BY 4.0
Gihyun Kwon, Jong Chul Ye(参考訳) 画像生成モデルにおける重要な研究テーマの1つは、空間的内容とスタイルを分離して制御することである。 スタイルガンはランダムノイズからコンテンツ特徴ベクトルを生成することができるが、結果として生じる空間コンテンツ制御は、主に小さな空間的変動を意図しており、グローバルコンテンツとスタイルの不連続は決して完全ではない。 本稿では,正規化と注意の数学的理解から着想を得た新しい階層的適応対角的空間的注意(dat)層を提案する。 DAT と AdaIN を用いることで,空間内容やスタイルの粗大かつ細大な展開を可能にする。 また,マルチドメイン画像翻訳タスクからの翻訳画像の内容やスタイルを柔軟に制御できるように,ganインバージョンフレームワークに容易に組み込むことができる。 様々なデータセットを用いて,提案手法が既存のモデルを不等角性スコアで上回るだけでなく,生成画像の空間的特徴をより柔軟に制御できることを確認した。

One of the important research topics in image generative models is to disentangle the spatial contents and styles for their separate control. Although StyleGAN can generate content feature vectors from random noises, the resulting spatial content control is primarily intended for minor spatial variations, and the disentanglement of global content and styles is by no means complete. Inspired by a mathematical understanding of normalization and attention, here we present a novel hierarchical adaptive Diagonal spatial ATtention (DAT) layers to separately manipulate the spatial contents from styles in a hierarchical manner. Using DAT and AdaIN, our method enables coarse-to-fine level disentanglement of spatial contents and styles. In addition, our generator can be easily integrated into the GAN inversion framework so that the content and style of translated images from multi-domain image translation tasks can be flexibly controlled. By using various datasets, we confirm that the proposed method not only outperforms the existing models in disentanglement scores, but also provides more flexible control over spatial features in the generated images.
翻訳日:2021-04-01 01:03:27 公開日:2021-03-30
# (参考訳) クラス認識型ロバストな物体検出学習 [全文訳有]

Class-Aware Robust Adversarial Training for Object Detection ( http://arxiv.org/abs/2103.16148v1 )

ライセンス: CC BY 4.0
Pin-Chun Chen, Bo-Han Kung, and Jun-Cheng Chen(参考訳) オブジェクト検出は、現実世界のアプリケーションが多い重要なコンピュータビジョンタスクであり、敵攻撃に対する堅牢性を高める方法が重要な問題となっている。 しかし,従来の防御手法の多くは分類タスクに焦点をあて,対象検出タスクの文脈での分析はほとんど行わなかった。 本稿では,この問題に対処するために,オブジェクト検出タスクのための,新しいクラス対応頑健な対人訓練パラダイムを提案する。 与えられた画像に対して,提案手法は,各オブジェクトの損失を最大化することにより,画像内のすべての被写体を同時に攻撃するために,普遍的な逆摂動を生成する。 一方、オブジェクト数で全体の損失を正規化する代わりに、提案手法はクラス単位の損失に総損失を分解し、クラスに対するオブジェクト数を用いて各クラス損失を正規化する。 クラス重み付け損失に基づく敵の訓練は,各クラスの影響のバランスをとるだけでなく,従来の防御手法と比較して,訓練対象クラスの敵の堅牢性を効果的かつ均一に改善する。 さらに,近年の高速対向訓練の開発により,従来の対向訓練よりも高速に学習でき,同等の性能を保ちながら,提案アルゴリズムの高速版を提供する。 PASCAL-VOCおよびMS-COCOデータセットに対する広範囲な実験により,提案手法がオブジェクト検出モデルの堅牢性を効果的に向上することを示す。

Object detection is an important computer vision task with plenty of real-world applications; therefore, how to enhance its robustness against adversarial attacks has emerged as a crucial issue. However, most of the previous defense methods focused on the classification task and had few analysis in the context of the object detection task. In this work, to address the issue, we present a novel class-aware robust adversarial training paradigm for the object detection task. For a given image, the proposed approach generates an universal adversarial perturbation to simultaneously attack all the occurred objects in the image through jointly maximizing the respective loss for each object. Meanwhile, instead of normalizing the total loss with the number of objects, the proposed approach decomposes the total loss into class-wise losses and normalizes each class loss using the number of objects for the class. The adversarial training based on the class weighted loss can not only balances the influence of each class but also effectively and evenly improves the adversarial robustness of trained models for all the object classes as compared with the previous defense methods. Furthermore, with the recent development of fast adversarial training, we provide a fast version of the proposed algorithm which can be trained faster than the traditional adversarial training while keeping comparable performance. With extensive experiments on the challenging PASCAL-VOC and MS-COCO datasets, the evaluation results demonstrate that the proposed defense methods can effectively enhance the robustness of the object detection models.
翻訳日:2021-04-01 00:44:21 公開日:2021-03-30
# (参考訳) 確率分布の縮約と帰納的否定 [全文訳有]

Contracting and Involutive Negations of Probability Distributions ( http://arxiv.org/abs/2103.16176v1 )

ライセンス: CC BY 4.0
Ildar Batyrshin(参考訳) ヤガーが導入した確率分布 (pd) の否定という概念を12の論文で検討している。 通常、そのような否定は確率値の集合上で定義された関数によってポイント・バイ・ポイントで生成される。 近年,yager negator は pd に依存しない線形ネゲータの定義において重要な役割を果たすことが示されている。 ここでは、線形ネガレータによって生成されるpdの多重否定列が、最大エントロピーを持つ一様分布に収束することを証明する。 pd非依存ネゲータは非帰納的であり,非自明な線型ネゲータは厳密に収縮的であることを示す。 最後に,確率分布の帰納的否定を生成するpd依存ネゲータのクラスに,インボリューティブネゲータを導入する。

A dozen papers have considered the concept of negation of probability distributions (pd) introduced by Yager. Usually, such negations are generated point-by-point by functions defined on a set of probability values and called here negators. Recently it was shown that Yager negator plays a crucial role in the definition of pd-independent linear negators: any linear negator is a function of Yager negator. Here, we prove that the sequence of multiple negations of pd generated by a linear negator converges to the uniform distribution with maximal entropy. We show that any pd-independent negator is non-involutive, and any non-trivial linear negator is strictly contracting. Finally, we introduce an involutive negator in the class of pd-dependent negators that generates an involutive negation of probability distributions.
翻訳日:2021-04-01 00:27:45 公開日:2021-03-30
# (参考訳) learnable graph matching: 複数のオブジェクト追跡のためのディープラーニングによるグラフ分割 [全文訳有]

Learnable Graph Matching: Incorporating Graph Partitioning with Deep Feature Learning for Multiple Object Tracking ( http://arxiv.org/abs/2103.16178v1 )

ライセンス: CC BY 4.0
Jiawei He, Zehao Huang, Naiyan Wang, Zhaoxiang Zhang(参考訳) フレーム間のデータアソシエーションは、Multiple Object Tracking(MOT)タスクの中核にある。 この問題は、通常、従来のグラフベースの最適化によって解決される。 1) 既存の手法では,トラックレット間のコンテキスト情報やフレーム内検出がほとんど無視されているため,厳密な閉塞などの困難なケースではトラッカーの生存が困難である。 2) エンド・ツー・エンドのアソシエーション手法はディープニューラルネットワークのデータフィッティングパワーのみに依存するが,最適化に基づくアソシエーション手法の利点をほとんど活用しない。 3)グラフに基づく最適化手法は,主に独立したニューラルネットワークを用いて特徴を抽出し,トレーニングと推論の矛盾をもたらす。 そこで本稿では,これらの問題に対処する新しい学習可能なグラフマッチング手法を提案する。 簡単に言えば、トラックレットとフレーム内検出の関係を一般的な非方向グラフとしてモデル化する。 その後、関連問題は、トラックレットグラフと検出グラフの間の一般的なグラフマッチングとなる。 さらに、最適化をエンドツーエンドに微分可能にするために、元のグラフマッチングを連続二次プログラミングに緩和し、そのトレーニングを暗黙関数定理の助けを借りてディープグラフネットワークに組み込む。 最後に,提案手法であるGMTrackerは,いくつかの標準MOTデータセット上で最先端のパフォーマンスを実現する。 私たちのコードはhttps://github.com/j iaweihe1996/GMTracke rで公開されます。

Data association across frames is at the core of Multiple Object Tracking (MOT) task. This problem is usually solved by a traditional graph-based optimization or directly learned via deep learning. Despite their popularity, we find some points worth studying in current paradigm: 1) Existing methods mostly ignore the context information among tracklets and intra-frame detections, which makes the tracker hard to survive in challenging cases like severe occlusion. 2) The end-to-end association methods solely rely on the data fitting power of deep neural networks, while they hardly utilize the advantage of optimization-based assignment methods. 3) The graph-based optimization methods mostly utilize a separate neural network to extract features, which brings the inconsistency between training and inference. Therefore, in this paper we propose a novel learnable graph matching method to address these issues. Briefly speaking, we model the relationships between tracklets and the intra-frame detections as a general undirected graph. Then the association problem turns into a general graph matching between tracklet graph and detection graph. Furthermore, to make the optimization end-to-end differentiable, we relax the original graph matching into continuous quadratic programming and then incorporate the training of it into a deep graph network with the help of the implicit function theorem. Lastly, our method GMTracker, achieves state-of-the-art performance on several standard MOT datasets. Our code will be available at https://github.com/j iaweihe1996/GMTracke r .
翻訳日:2021-04-01 00:13:49 公開日:2021-03-30
# (参考訳) 熱帯サイクロンの降水強度, 位置, 時間予測 [全文訳有]

Prediction of Landfall Intensity, Location, and Time of a Tropical Cyclone ( http://arxiv.org/abs/2103.16180v1 )

ライセンス: CC BY 4.0
Sandeep Kumar, Koushik Biswas, Ashish Kumar Pandey(参考訳) 熱帯性サイクロンの降雨の強度、位置、時刻の予測は、時間的・高精度に進んでおり、人的・物質的損失を著しく低減することができる。 本稿では,北インド洋に起源を持つ熱帯サイクロンの降着地における強度(最大持続面風速),位置(緯度,経度),時間(観測時間)を予測するために,長期記憶に基づくリカレントニューラルネットワークモデルを開発した。 このモデルは、サイクロンの時系列として、その位置、圧力、海面温度、および一定時間(12時間から36時間)の強度からなるサイクロンの最高のトラックデータを入力し、高い精度で予測を提供する。 例えば、サイクロンの24時間データを用いて、降水強度、時間、緯度、経度を平均絶対誤差4.24ノット、4.5時間、0.24度、0.37度と予測し、着陸地点から51.7kmの距離誤差を与える。 さらに,Bulbul,Fani,Gajaの3つの破壊的サイクロンに対するモデルの有効性を確認し,テストデータセットよりも優れた結果を得た。

The prediction of the intensity, location and time of the landfall of a tropical cyclone well advance in time and with high accuracy can reduce human and material loss immensely. In this article, we develop a Long Short-Term memory based Recurrent Neural network model to predict intensity (in terms of maximum sustained surface wind speed), location (latitude and longitude), and time (in hours after the observation period) of the landfall of a tropical cyclone which originates in the North Indian ocean. The model takes as input the best track data of cyclone consisting of its location, pressure, sea surface temperature, and intensity for certain hours (from 12 to 36 hours) anytime during the course of the cyclone as a time series and then provide predictions with high accuracy. For example, using 24 hours data of a cyclone anytime during its course, the model provides state-of-the-art results by predicting landfall intensity, time, latitude, and longitude with a mean absolute error of 4.24 knots, 4.5 hours, 0.24 degree, and 0.37 degree respectively, which resulted in a distance error of 51.7 kilometers from the landfall location. We further check the efficacy of the model on three recent devastating cyclones Bulbul, Fani, and Gaja, and achieved better results than the test dataset.
翻訳日:2021-03-31 23:40:56 公開日:2021-03-30
# (参考訳) 再流行する街路シーン [全文訳有]

Repopulating Street Scenes ( http://arxiv.org/abs/2103.16183v1 )

ライセンス: CC BY 4.0
Yifan Wang, Andrew Liu, Richard Tucker, Jiajun Wu, Brian L. Curless, Steven M. Seitz, Noah Snavely(参考訳) そこで本稿では,歩行者や車両などの物体を配置・非人口化・再人口化することにより,街頭シーンの画像を自動的に再構成する枠組みを提案する。 この手法の応用例としては、プライバシーを高めるために画像の匿名化、自律運転のような認識タスクのためのデータ拡張、早朝の空き道など特定の環境を達成するためのシーンの構築などがある。 技術レベルでは,(1)物体の画像をクリアする手法,(2)太陽の方向を1つの画像から推定する手法,(3)風景の幾何学と照明を尊重する場面で物体を構成する方法,の3つの主要な貢献がある。 各コンポーネントは、ストリートシーンの短い画像バーストを創造的に利用することで、最小限の真実のアノテーションでデータから学習される。 様々なストリートシーンで説得力のある結果を示し、潜在的な応用例を示す。

We present a framework for automatically reconfiguring images of street scenes by populating, depopulating, or repopulating them with objects such as pedestrians or vehicles. Applications of this method include anonymizing images to enhance privacy, generating data augmentations for perception tasks like autonomous driving, and composing scenes to achieve a certain ambiance, such as empty streets in the early morning. At a technical level, our work has three primary contributions: (1) a method for clearing images of objects, (2) a method for estimating sun direction from a single image, and (3) a way to compose objects in scenes that respects scene geometry and illumination. Each component is learned from data with minimal ground truth annotations, by making creative use of large-numbers of short image bursts of street scenes. We demonstrate convincing results on a range of street scenes and illustrate potential applications.
翻訳日:2021-03-31 23:26:14 公開日:2021-03-30
# (参考訳) 翻訳過程における自動修正 -- マルチタスク学習による対話機械翻訳の改善 [全文訳有]

Auto Correcting in the Process of Translation -- Multi-task Learning Improves Dialogue Machine Translation ( http://arxiv.org/abs/2103.16189v1 )

ライセンス: CC BY 4.0
Tao Wang, Chengqi Zhao, Mingxuan Wang, Lei Li, Deyi Xiong(参考訳) 対話文の自動翻訳は多くの実生活シナリオにおいて必要不可欠である。 しかし、既存のニューラルマシン翻訳は満足のいく結果をもたらす。 本稿では,対話コーパスを深く分析し,代名詞のドロップ(\droppro),句句のドロップ(\droppun),タイポ(\typo)の3つの主要な課題を要約する。 これらの課題に対応するために,欠落と型を識別し,文脈を利用して対話発話を翻訳する共同学習手法を提案する。 そこで本研究では,300の対話から1,931の中国語と英語の並列発話を用いた手動注釈付きデータセットを提案する。 提案手法は,ベースライン上での3.2BLEUの翻訳品質を向上させる。 また、省略代名詞の回収率は26.09%から47.16%に上昇する。 コードとデータセットはhttps://github.com/r gwt123/DialogueMTで公開します。

Automatic translation of dialogue texts is a much needed demand in many real life scenarios. However, the currently existing neural machine translation delivers unsatisfying results. In this paper, we conduct a deep analysis of a dialogue corpus and summarize three major issues on dialogue translation, including pronoun dropping (\droppro), punctuation dropping (\droppun), and typos (\typo). In response to these challenges, we propose a joint learning method to identify omission and typo, and utilize context to translate dialogue utterances. To properly evaluate the performance, we propose a manually annotated dataset with 1,931 Chinese-English parallel utterances from 300 dialogues as a benchmark testbed for dialogue translation. Our experiments show that the proposed method improves translation quality by 3.2 BLEU over the baselines. It also elevates the recovery rate of omitted pronouns from 26.09% to 47.16%. We will publish the code and dataset publicly at https://github.com/r gwt123/DialogueMT.
翻訳日:2021-03-31 23:12:30 公開日:2021-03-30
# (参考訳) ディープラーニングによる製品検査手法の概要 [全文訳有]

Product Inspection Methodology via Deep Learning: An Overview ( http://arxiv.org/abs/2103.16198v1 )

ライセンス: CC BY 4.0
Tae-Hyun Kim, Hye-Rin Kim, Yeong-Jun Cho(参考訳) 本研究では,ディープラーニング技術に基づく製品品質検査のためのフレームワークを提案する。 まず,製品検査システムに適用可能な深層学習モデルをいくつか分類する。 また,深層学習に基づく検査システム構築のための全ステップを詳細に解説する。 次に,ディープラーニングモデルを製品検査システムに効率的にリンクする接続方式について述べる。 最後に,製品検査システムの深層学習モデルを維持・拡張する有効な手法を提案する。 提案手法によりシステムの保守性と安定性が良好である。 提案手法はすべて統一されたフレームワークに統合され,提案手法の詳細な説明を提供する。 提案システムの有効性を検証するため,様々なテストシナリオにおける手法の性能を比較し,分析した。

In this work, we present a framework for product quality inspection based on deep learning techniques. First, we categorize several deep learning models that can be applied to product inspection systems. Also we explain entire steps for building a deep learning-based inspection system in great detail. Second, we address connection schemes that efficiently link the deep learning models to the product inspection systems. Finally, we propose an effective method that can maintain and enhance the deep learning models of the product inspection system. It has good system maintenance and stability due to the proposed methods. All the proposed methods are integrated in a unified framework and we provide detailed explanations of each proposed method. In order to verify the effectiveness of the proposed system, we compared and analyzed the performance of methods in various test scenarios.
翻訳日:2021-03-31 23:02:01 公開日:2021-03-30
# (参考訳) MT3:自己監督型テストタイム適応のためのメタテストタイムトレーニング [全文訳有]

MT3: Meta Test-Time Training for Self-Supervised Test-Time Adaption ( http://arxiv.org/abs/2103.16201v1 )

ライセンス: CC BY 4.0
Alexander Bartler, Andre B\"uhler, Felix Wiewel, Mario D\"obler and Bin Yang(参考訳) ディープラーニングにおける未解決の問題は、トレーニング後にネットワークパラメータを普通に修正することによって課される、テスト時のドメインシフトに対処するニューラルネットワークの能力である。 提案手法であるメタテストタイムトレーニング(MT3)は,このパラダイムを破り,テスト時の適応を可能にする。 メタラーニング、自己スーパービジョン、テストタイムトレーニングを組み合わせて、目に見えないテスト分布に適応することを学びます。 自己教師付き損失を最小限に抑えることで,タスク固有のモデルパラメータを学習する。 メタモデルは、異なるタスク固有のモデルへの適応がそれらのタスクでより高いパフォーマンスをもたらすように最適化されます。 テスト時間の間、単一のラベルのないイメージはメタモデルパラメータを適応するのに十分です。 これは、自己教師付き損失成分のみを最小化することで、画像の予測がより良くなる。 この手法はcifar-10による画像分類ベンチマークの最先端結果を大幅に改善する。 私たちの実装はGitHubで利用可能です。

An unresolved problem in Deep Learning is the ability of neural networks to cope with domain shifts during test-time, imposed by commonly fixing network parameters after training. Our proposed method Meta Test-Time Training (MT3), however, breaks this paradigm and enables adaption at test-time. We combine meta-learning, self-supervision and test-time training to learn to adapt to unseen test distributions. By minimizing the self-supervised loss, we learn task-specific model parameters for different tasks. A meta-model is optimized such that its adaption to the different task-specific models leads to higher performance on those tasks. During test-time a single unlabeled image is sufficient to adapt the meta-model parameters. This is achieved by minimizing only the self-supervised loss component resulting in a better prediction for that image. Our approach significantly improves the state-of-the-art results on the CIFAR-10-Corrupted image classification benchmark. Our implementation is available on GitHub.
翻訳日:2021-03-31 22:45:53 公開日:2021-03-30
# (参考訳) シーケンスラベリングのための局所文脈非線形CRF [全文訳有]

Locally-Contextual Nonlinear CRFs for Sequence Labeling ( http://arxiv.org/abs/2103.16210v1 )

ライセンス: CC BY 4.0
Harshil Shah, Tim Xiao, David Barber(参考訳) 線形鎖条件付きランダムフィールド (CRF) と文脈語埋め込みを組み合わせることで, シーケンシャルラベリングタスクにおける技術性能が向上した。 これらのタスクの多くにおいて、隣接する単語のアイデンティティは、与えられた単語のラベルを予測する際に最も有用な文脈情報であることが多い。 しかしながら、コンテキスト埋め込みは通常、タスクに依存しない方法でトレーニングされる。 これは、近隣の単語に関する情報をエンコードできるが、保証されないことを意味する。 したがって、埋め込みから直接情報を抽出するためにシーケンスラベリングアーキテクチャを設計することは有益である。 シーケンスラベリングのための局所コンテキスト非線形CRFを提案する。 提案手法は,単語のラベルを予測する際に隣接する埋め込みからの情報を直接組み込んで,深層ニューラルネットワークを用いてポテンシャル関数をパラメータ化する。 我々のモデルは線形鎖CRFの代替として機能し、アブレーション研究において一貫して優れています。 様々なタスクにおいて、我々の結果は最も優れたメソッドと競合する。 特に,CoNLL 2000におけるチャンキングに関する先行技術よりも優れており,OntoNotes 5.0 のエンティティ認識も優れている。

Linear chain conditional random fields (CRFs) combined with contextual word embeddings have achieved state of the art performance on sequence labeling tasks. In many of these tasks, the identity of the neighboring words is often the most useful contextual information when predicting the label of a given word. However, contextual embeddings are usually trained in a task-agnostic manner. This means that although they may encode information about the neighboring words, it is not guaranteed. It can therefore be beneficial to design the sequence labeling architecture to directly extract this information from the embeddings. We propose locally-contextual nonlinear CRFs for sequence labeling. Our approach directly incorporates information from the neighboring embeddings when predicting the label for a given word, and parametrizes the potential functions using deep neural networks. Our model serves as a drop-in replacement for the linear chain CRF, consistently outperforming it in our ablation study. On a variety of tasks, our results are competitive with those of the best published methods. In particular, we outperform the previous state of the art on chunking on CoNLL 2000 and named entity recognition on OntoNotes 5.0 English.
翻訳日:2021-03-31 22:32:13 公開日:2021-03-30
# (参考訳) iVPF:効率的な損失圧縮のための数値的非可逆体積保存流 [全文訳有]

iVPF: Numerical Invertible Volume Preserving Flow for Efficient Lossless Compression ( http://arxiv.org/abs/2103.16211v1 )

ライセンス: CC BY 4.0
Shifeng Zhang, Chen Zhang, Ning Kang and Li Zhenguo(参考訳) 近年急速に成長するビッグデータを格納するのは簡単ではなく、高性能なロスレス圧縮技術を必要とする。 確率に基づく生成モデルはロスレス圧縮での成功を目撃しており、フローベースのモデルは、単射写像による正確なデータ可能性最適化を可能にするのが望ましい。 しかし、一般的な連続フローは符号化スキームの離散性と矛盾しており、1)性能を低下させるフローモデルに厳密な制約を課すか、2)多数の単射写像誤差をコーディングし効率を低下させる。 本稿では,ロスレス圧縮のためのボリューム保存フローを調査し,誤差のない単射写像が可能であることを示す。 一般的な体積保存流から導かれる数値的非可逆体積保存流(iVPF)を提案する。 フローモデルに新しい計算アルゴリズムを導入することで、正確な単射写像は数値誤差なしに実現される。 また,iVPFに基づく無損失圧縮アルゴリズムを提案する。 様々なデータセットの実験により、iVPFに基づくアルゴリズムは、軽量圧縮アルゴリズムよりも最先端圧縮比を達成することが示された。

It is nontrivial to store rapidly growing big data nowadays, which demands high-performance lossless compression techniques. Likelihood-based generative models have witnessed their success on lossless compression, where flow based models are desirable in allowing exact data likelihood optimisation with bijective mappings. However, common continuous flows are in contradiction with the discreteness of coding schemes, which requires either 1) imposing strict constraints on flow models that degrades the performance or 2) coding numerous bijective mapping errors which reduces the efficiency. In this paper, we investigate volume preserving flows for lossless compression and show that a bijective mapping without error is possible. We propose Numerical Invertible Volume Preserving Flow (iVPF) which is derived from the general volume preserving flows. By introducing novel computation algorithms on flow models, an exact bijective mapping is achieved without any numerical error. We also propose a lossless compression algorithm based on iVPF. Experiments on various datasets show that the algorithm based on iVPF achieves state-of-the-art compression ratio over lightweight compression algorithms.
翻訳日:2021-03-31 22:16:39 公開日:2021-03-30
# (参考訳) 2チャンネル脳波信号を用いた睡眠段階スコーリングのための畳み込みニューラルネットワーク [全文訳有]

Convolutional Neural Networks for Sleep Stage Scoring on a Two-Channel EEG Signal ( http://arxiv.org/abs/2103.16215v1 )

ライセンス: CC BY 4.0
Enrique Fernandez-Blanco, Daniel Rivero, Alejandro Pazos(参考訳) 睡眠障害は世界中で主要な病気の1つになっている。 この問題に対処するために、専門家が使用する基本的なツールは、睡眠中に記録された異なる信号の集合であるポリソムノグラムである。 録音後、専門家は標準ガイドラインの1つに従って異なるシグナルを採点しなければならない。 このプロセスは手動で実行され、非常に時間がかかり、アノテーションエラーを起こしやすい。 そのため、長年にわたり専門家を支援するために多くのアプローチが検討されてきた。 本稿では、畳み込みニューラルネットワークに基づくアプローチを示し、入力として複数の信号を使用することの利便性を決定するために、詳細な比較を行う。 さらに、このモデルはアンサンブルモデルの一部であり、二重信号モデルでは識別できない単一信号処理から有用な情報を抽出できるかどうかを確認するためにも使用された。 この問題のベンチマークとして最も一般的に使用されるデータセットであるExpended Sleep-EDFと呼ばれる、よく知られたデータセットを使用してテストが行われた。 検査は、患者に対する一対一のクロスバリデーションで実施され、トレーニングとテストの間に汚染がないことが保証された。 その結果得られた提案は、以前公開されたものよりも小さなネットワークだが、同じデータセット上の以前のモデルの結果を克服する。 最も良い結果は92.67\%の精度で、コーエンのカッパの値は人間の専門家と比べて0.84以上である。

Sleeping problems have become one of the major diseases all over the world. To tackle this issue, the basic tool used by specialists is the Polysomnogram, which is a collection of different signals recorded during sleep. After its recording, the specialists have to score the different signals according to one of the standard guidelines. This process is carried out manually, which can be highly time-consuming and very prone to annotation errors. Therefore, over the years, many approaches have been explored in an attempt to support the specialists in this task. In this paper, an approach based on convolutional neural networks is presented, where an in-depth comparison is performed in order to determine the convenience of using more than one signal simultaneously as input. Additionally, the models were also used as parts of an ensemble model to check whether any useful information can be extracted from signal processing a single signal at a time which the dual-signal model cannot identify. Tests have been performed by using a well-known dataset called expanded sleep-EDF, which is the most commonly used dataset as the benchmark for this problem. The tests were carried out with a leave-one-out cross-validation over the patients, which ensures that there is no possible contamination between training and testing. The resulting proposal is a network smaller than previously published ones, but which overcomes the results of any previous models on the same dataset. The best result shows an accuracy of 92.67\% and a Cohen's Kappa value over 0.84 compared to human experts.
翻訳日:2021-03-31 21:51:54 公開日:2021-03-30
# (参考訳) cuConv: CNN推論のための畳み込みのCUDA実装 [全文訳有]

cuConv: A CUDA Implementation of Convolution for CNN Inference ( http://arxiv.org/abs/2103.16234v1 )

ライセンス: CC BY 4.0
Marc Jord\`a, Pedro Valero-Lara, Antonio J. Pe\~na(参考訳) 畳み込み(convolutions)は、畳み込みニューラルネットワーク(cnns)に基づくディープラーニングアプリケーションのコアオペレーションである。 現在のGPUアーキテクチャは、ディープCNNのトレーニングとデプロイに非常に効率的であるため、この目的のために運用に主に使用されている。 しかし、最先端の実装では、一般的に使用されるネットワーク構成の効率が低下している。 本稿では,CNN推論のためのGPUによる畳み込み処理の実装を提案する。 提案手法は, cuDNNにおける畳み込みの最適実装に関して, 最大2.29倍の高速化を達成し, 既存のアプローチにおける関連領域を網羅した, 一連の共通CNN前方伝播畳み込み構成において, 顕著な性能向上をもたらすことを示す。

Convolutions are the core operation of deep learning applications based on Convolutional Neural Networks (CNNs). Current GPU architectures are highly efficient for training and deploying deep CNNs, and hence, these are largely used in production for this purpose. State-of-the-art implementations, however, present a lack of efficiency for some commonly used network configurations. In this paper we propose a GPU-based implementation of the convolution operation for CNN inference that favors coalesced accesses, without requiring prior data transformations. Our experiments demonstrate that our proposal yields notable performance improvements in a range of common CNN forward propagation convolution configurations, with speedups of up to 2.29x with respect to the best implementation of convolution in cuDNN, hence covering a relevant region in currently existing approaches.
翻訳日:2021-03-31 21:37:07 公開日:2021-03-30
# (参考訳) セグメンテーションの不確実性は有効か? [全文訳有]

Is segmentation uncertainty useful? ( http://arxiv.org/abs/2103.16265v1 )

ライセンス: CC BY 4.0
Steffen Czolbe, Kasra Arnavaz, Oswin Krause, Aasa Feragen(参考訳) 確率的画像セグメンテーションは、セグメンテーション問題の予測信頼度と固有の曖昧さを変化させる。 異なる確率的セグメンテーションモデルは、セグメンテーションの不確かさとあいまいさの異なる側面を捉えるように設計されているが、これらのモデリングの違いは不確実性の応用の文脈ではほとんど議論されない。 セグメンテーションの不確実性,すなわちセグメンテーション品質の評価とアクティブラーニングの2つの一般的なユースケースを検討する。 確率的セグメンテーションのための4つの確立された戦略を検討し,それらのモデリング能力について検討し,これら2つのタスクにおける性能について検討した。 すべてのモデルと両方のタスクにおいて、戻り不確実性はセグメンテーションエラーと正の相関を示すが、アクティブラーニングには役に立たない。

Probabilistic image segmentation encodes varying prediction confidence and inherent ambiguity in the segmentation problem. While different probabilistic segmentation models are designed to capture different aspects of segmentation uncertainty and ambiguity, these modelling differences are rarely discussed in the context of applications of uncertainty. We consider two common use cases of segmentation uncertainty, namely assessment of segmentation quality and active learning. We consider four established strategies for probabilistic segmentation, discuss their modelling capabilities, and investigate their performance in these two tasks. We find that for all models and both tasks, returned uncertainty correlates positively with segmentation error, but does not prove to be useful for active learning.
翻訳日:2021-03-31 21:19:59 公開日:2021-03-30
# (参考訳) Locate then Segment:イメージセグメントを参照するための強力なパイプライン [全文訳有]

Locate then Segment: A Strong Pipeline for Referring Image Segmentation ( http://arxiv.org/abs/2103.16284v1 )

ライセンス: CC BY 4.0
Ya Jing, Tao Kong, Wei Wang, Liang Wang, Lei Li, Tieniu Tan(参考訳) 参照画像分割は、自然言語表現で参照されるオブジェクトを分割することを目的としている。 従来の手法では、視覚言語的特徴を融合させて最終セグメンテーションマスクを直接生成するために、参照インスタンスのローカライゼーション情報を明示的にモデル化することなく、暗黙的かつ反復的な特徴相互作用機構を設計することに注力する。 これらの問題に対処するため、我々はこのタスクを別の視点から、"locate-then-segment& quot; (lts) スキームに分離して見る。 言語表現が与えられた場合、人々はまず対応する対象の画像領域に注意を向け、そのコンテキストに基づいてオブジェクトに関する細かいセグメンテーションマスクを生成する。 ltsはまず、視覚的特徴とテキスト的特徴の両方を抽出・融合し、クロスモーダル表現を取得し、その後、視覚-テクスト的特徴にクロスモデルインタラクションを適用して、参照された対象と位置を事前に特定し、最終的に軽量セグメンテーションネットワークでセグメンテーション結果を生成する。 私たちのLTSはシンプルですが、驚くほど効果的です。 3つの一般的なベンチマークデータセットでは、LTSは従来の最先端のメソッド全てを大きなマージン(RefCOCO+では+3.2%、RefCOCOgでは+3.4%)で上回っている。 さらに,本モデルでは,対象を明示的に位置決めすることで解釈可能であり,可視化実験によっても証明できる。 このフレームワークは画像セグメンテーションの強力なベースラインとして機能することを約束しています。

Referring image segmentation aims to segment the objects referred by a natural language expression. Previous methods usually focus on designing an implicit and recurrent feature interaction mechanism to fuse the visual-linguistic features to directly generate the final segmentation mask without explicitly modeling the localization information of the referent instances. To tackle these problems, we view this task from another perspective by decoupling it into a "Locate-Then-Segment& quot; (LTS) scheme. Given a language expression, people generally first perform attention to the corresponding target image regions, then generate a fine segmentation mask about the object based on its context. The LTS first extracts and fuses both visual and textual features to get a cross-modal representation, then applies a cross-model interaction on the visual-textual features to locate the referred object with position prior, and finally generates the segmentation result with a light-weight segmentation network. Our LTS is simple but surprisingly effective. On three popular benchmark datasets, the LTS outperforms all the previous state-of-the-art methods by a large margin (e.g., +3.2% on RefCOCO+ and +3.4% on RefCOCOg). In addition, our model is more interpretable with explicitly locating the object, which is also proved by visualization experiments. We believe this framework is promising to serve as a strong baseline for referring image segmentation.
翻訳日:2021-03-31 21:08:49 公開日:2021-03-30
# (参考訳) トランジットと疾患血液サンプルの識別のための単体テスト画像ベース自動機械学習システム [全文訳有]

Single Test Image-Based Automated Machine Learning System for Distinguishing between Trait and Diseased Blood Samples ( http://arxiv.org/abs/2103.16285v1 )

ライセンス: CC BY 4.0
Sahar A. Nasser, Debjani Paul, and Suyash P. Awate(参考訳) そこで我々は, 携帯型顕微鏡の画質不良画像の病原細胞疾患の完全自動診断のための機械学習手法を提案する。 本手法は, 異常検体と異常検体のみを区別することに限定された従来の方法と異なり, 病型, 形質(キャリア), 正常検体とを区別することができる。 この手法の斬新さは、フィールドで直接キャプチャされた挑戦的な画像と特徴と病気のサンプルを区別することにある。 提案手法はセグメンテーション部と分類部との2つの部分を含む。 ランダムフォレストアルゴリズムを用いて,携帯電話型顕微鏡で取得した難解な画像を分割する。 次に、ランダムフォレスト(rf)とサポートベクターマシン(svm)に基づいて2つの分類器を訓練し、分類を行う。 その結果, 研究室で撮影された画像だけでなく, 現場で取得された画像に対しても, どちらの分類器も優れた性能を示した。

We introduce a machine learning-based method for fully automated diagnosis of sickle cell disease of poor-quality unstained images of a mobile microscope. Our method is capable of distinguishing between diseased, trait (carrier), and normal samples unlike the previous methods that are limited to distinguishing the normal from the abnormal samples only. The novelty of this method comes from distinguishing the trait and the diseased samples from challenging images that have been captured directly in the field. The proposed approach contains two parts, the segmentation part followed by the classification part. We use a random forest algorithm to segment such challenging images acquitted through a mobile phone-based microscope. Then, we train two classifiers based on a random forest (RF) and a support vector machine (SVM) for classification. The results show superior performances of both of the classifiers not only for images which have been captured in the lab, but also for the ones which have been acquired in the field itself.
翻訳日:2021-03-31 20:56:29 公開日:2021-03-30
# (参考訳) 事前学習型変換器を用いた知識グラフ認識デコーディングによる接地対話システム [全文訳有]

Grounding Dialogue Systems via Knowledge Graph Aware Decoding with Pre-trained Transformers ( http://arxiv.org/abs/2103.16289v1 )

ライセンス: CC BY 4.0
Debanjan Chaudhuri, Md Rashad Al Hasan Rony, Jens Lehmann(参考訳) 目標と非目標指向の対話システムにおける知識基盤応答の生成は重要な研究課題である。 知識グラフ(KG)は現実世界の抽象化と見なすことができ、対話システムが知識に基づく応答を生成するのに役立つ可能性がある。 しかし、エンドツーエンドで対話生成プロセスにkgsを統合するのは簡単な作業です。 本稿では,マルチタスクのエンドツーエンド設定において,KGの要素を用いて応答を学習するBERTモデルをトレーニングすることにより,KGを応答生成プロセスに統合するアーキテクチャを提案する。 KGのkホップ部分グラフは、グラフラプラシアンのトレーニングと推論の間にモデルに組み込まれている。 経験的評価は、ゴール指向とゴール指向の対話の両方において、他の最先端モデルと比較して、モデルがより良い知識基盤(エンティティf1スコアによる測定)を達成することを示唆する。

Generating knowledge grounded responses in both goal and non-goal oriented dialogue systems is an important research challenge. Knowledge Graphs (KG) can be viewed as an abstraction of the real world, which can potentially facilitate a dialogue system to produce knowledge grounded responses. However, integrating KGs into the dialogue generation process in an end-to-end manner is a non-trivial task. This paper proposes a novel architecture for integrating KGs into the response generation process by training a BERT model that learns to answer using the elements of the KG (entities and relations) in a multi-task, end-to-end setting. The k-hop subgraph of the KG is incorporated into the model during training and inference using Graph Laplacian. Empirical evaluation suggests that the model achieves better knowledge groundedness (measured via Entity F1 score) compared to other state-of-the-art models for both goal and non-goal oriented dialogues.
翻訳日:2021-03-31 20:49:26 公開日:2021-03-30
# (参考訳) IoTにおけるネットワーク侵入検出のためのエッジTPUの探索 [全文訳有]

Exploring Edge TPU for Network Intrusion Detection in IoT ( http://arxiv.org/abs/2103.16295v1 )

ライセンス: CC BY 4.0
Seyedehfaezeh Hosseininoorbin, Siamak Layeghy, Mohanad Sarhan, Raja Jurdak, Marius Portmann(参考訳) 本稿では、ディープラーニングアプローチに基づいて、IoTのエッジに実用的なネットワーク侵入検知システム(NIDS)を実装するためのGoogleのEdge TPUについて検討する。 IoTエッジのための機械学習ベースのNIDSを探索する関連研究は相当数あるが、彼らは一般的に、必要な計算とエネルギーリソースの問題を考慮していない。 本稿では,IoTのエッジにおける深層学習に基づくNIDSの探索,特に計算とエネルギー効率について述べる。 特に、GoogleのEdge TPUをハードウェアプラットフォームとして研究し、計算(推論)時間、エネルギー効率、トラフィック分類性能の3つの重要な指標について考察する。 これら3つのメトリクスを調べるために、2つの主要なディープニューラルネットワークアーキテクチャの様々なスケールドモデルサイズが使用される。 Edge TPUベースの実装の性能は、エネルギー効率の良い組み込みCPU(ARM Cortex A53)と比較される。 実験の結果,CPUがEdge TPUを小型モデルで大幅に上回っていることなど,予期せぬ結果が得られた。

This paper explores Google's Edge TPU for implementing a practical network intrusion detection system (NIDS) at the edge of IoT, based on a deep learning approach. While there are a significant number of related works that explore machine learning based NIDS for the IoT edge, they generally do not consider the issue of the required computational and energy resources. The focus of this paper is the exploration of deep learning-based NIDS at the edge of IoT, and in particular the computational and energy efficiency. In particular, the paper studies Google's Edge TPU as a hardware platform, and considers the following three key metrics: computation (inference) time, energy efficiency and the traffic classification performance. Various scaled model sizes of two major deep neural network architectures are used to investigate these three metrics. The performance of the Edge TPU-based implementation is compared with that of an energy efficient embedded CPU (ARM Cortex A53). Our experimental evaluation shows some unexpected results, such as the fact that the CPU significantly outperforms the Edge TPU for small model sizes.
翻訳日:2021-03-31 20:36:13 公開日:2021-03-30
# (参考訳) 視覚トランスフォーマーの空間次元再考 [全文訳有]

Rethinking Spatial Dimensions of Vision Transformers ( http://arxiv.org/abs/2103.16302v1 )

ライセンス: CC BY-SA 4.0
Byeongho Heo, Sangdoo Yun, Dongyoon Han, Sanghyuk Chun, Junsuk Choe, Seong Joon Oh(参考訳) Vision Transformer (ViT)は、言語処理からコンピュータビジョンタスクまでのトランスフォーマーの応用範囲を、既存の畳み込みニューラルネットワーク(CNN)に対する代替アーキテクチャとして拡張する。 トランスフォーマーベースのアーキテクチャはコンピュータビジョンモデリングに革新的であるため、効果的なアーキテクチャに向けた設計規約はまだ研究されていない。 cnnの成功した設計原理から,空間次元変換の役割とトランスフォーマーアーキテクチャの有効性について検討する。 我々は,CNNの次元減少原理に特に参加し,深さが大きくなるにつれて,従来のCNNはチャネル次元を増大させ,空間次元を減少させる。 このような空間次元の縮小がトランスアーキテクチャにも有益であることを実証的に示し、オリジナルの ViT モデルに基づく新しいPooling-based Vision Transformer (PiT) を提案する。 モデル性能の向上とViTに対する一般化性能をPiTが実現していることを示す。 広範な実験を通じて,画像分類や物体検出,ロバスト性評価など,いくつかのタスクにおいてpitがベースラインを上回ることを示す。 ソースコードとimagenetモデルはhttps://github.com/n aver-ai/pitで入手できる。

Vision Transformer (ViT) extends the application range of transformers from language processing to computer vision tasks as being an alternative architecture against the existing convolutional neural networks (CNN). Since the transformer-based architecture has been innovative for computer vision modeling, the design convention towards an effective architecture has been less studied yet. From the successful design principles of CNN, we investigate the role of the spatial dimension conversion and its effectiveness on the transformer-based architecture. We particularly attend the dimension reduction principle of CNNs; as the depth increases, a conventional CNN increases channel dimension and decreases spatial dimensions. We empirically show that such a spatial dimension reduction is beneficial to a transformer architecture as well, and propose a novel Pooling-based Vision Transformer (PiT) upon the original ViT model. We show that PiT achieves the improved model capability and generalization performance against ViT. Throughout the extensive experiments, we further show PiT outperforms the baseline on several tasks such as image classification, object detection and robustness evaluation. Source codes and ImageNet models are available at https://github.com/n aver-ai/pit
翻訳日:2021-03-31 20:29:39 公開日:2021-03-30
# (参考訳) がん患者サブグループにおける表現型と遺伝的特徴の融合 [全文訳有]

Leveraging a Joint of Phenotypic and Genetic Features on Cancer Patient Subgrouping ( http://arxiv.org/abs/2103.16316v1 )

ライセンス: CC BY 4.0
David Oniani, Chen Wang, Yiqing Zhao, Andrew Wen, Hongfang Liu, Feichen Shen(参考訳) がんは毎年何百万人もの死者を負っている。 がん医学における重要な進歩はあったが、がん治療を改善するために多くの課題が解決されている。 適切ながん患者層化は適切な治療計画を選択するための必須条件であり、がん患者は異種遺伝子組換えと表現型の違いが知られている。 本研究では,マヨクリニック電子健康記録(ehrs)から抽出可能な深部表現型特徴と,がん患者集団の遺伝子検査結果を基に,癌患者サブグループ化のための表現型特徴と遺伝子特徴の結合を利用したシステムを開発した。 ワークフローは、機能前処理、がん患者分類、癌患者クラスタリングの3つの部分に分かれている。 機能前処理のステップでは、最も関連する機能を保ちながらフィルタリングを行いました。 がん患者の分類において, 患者特徴マトリックスの構築には合同分類の特徴を用い, ランダムフォレスト (rf), 決定木 (dt), サポートベクターマシン (svm), ナイーブベイズ (nb), ロジスティック回帰 (lr), 多層パーセプトロン (mlp), 勾配ブースティング (gb), 畳み込みニューラルネットワーク (cnn), フィードフォワードニューラルネットワーク (fnn) の9つの異なる機械学習モデルを適用した。 最後に, がん患者クラスタリングの段階において, 関節埋め込み機能と患者機能関連性を活用して, 非方向性特徴グラフを構築し, 癌特徴ノード埋め込みを訓練した。

Cancer is responsible for millions of deaths worldwide every year. Although significant progress has been achieved in cancer medicine, many issues remain to be addressed for improving cancer therapy. Appropriate cancer patient stratification is the prerequisite for selecting appropriate treatment plan, as cancer patients are of known heterogeneous genetic make-ups and phenotypic differences. In this study, built upon deep phenotypic characterizations extractable from Mayo Clinic electronic health records (EHRs) and genetic test reports for a collection of cancer patients, we developed a system leveraging a joint of phenotypic and genetic features for cancer patient subgrouping. The workflow is roughly divided into three parts: feature preprocessing, cancer patient classification, and cancer patient clustering based. In feature preprocessing step, we performed filtering, retaining the most relevant features. In cancer patient classification, we utilized joint categorical features to build a patient-feature matrix and applied nine different machine learning models, Random Forests (RF), Decision Tree (DT), Support Vector Machine (SVM), Naive Bayes (NB), Logistic Regression (LR), Multilayer Perceptron (MLP), Gradient Boosting (GB), Convolutional Neural Network (CNN), and Feedforward Neural Network (FNN), for classification purposes. Finally, in the cancer patient clustering step, we leveraged joint embeddings features and patient-feature associations to build an undirected feature graph and then trained the cancer feature node embeddings.
翻訳日:2021-03-31 20:15:40 公開日:2021-03-30
# (参考訳) モデルコンセンサス,説明可能性,自信学習によるimagenetデータセットの自動クリーンアップ [全文訳有]

Automated Cleanup of the ImageNet Dataset by Model Consensus, Explainability and Confident Learning ( http://arxiv.org/abs/2103.16324v1 )

ライセンス: CC BY 4.0
Csaba Kert\'esz(参考訳) ILSVRC12 ImageNetでトレーニングされた畳み込みニューラルネットワーク(CNN)は、汎用分類器、特徴抽出器、転送学習のベースモデルとして様々なアプリケーションのバックボーンである。 本稿では,モデルのコンセンサス,説明可能性,自信のある学習に基づく自動ヒューリスティックスについて述べる。 これらのトレーニングと検証セットの変更を経て、ImageNet-Cleanは、SqueezeNetとEfficientNet-B0モデルのモデルパフォーマンスを2-2.4 %改善した。 結果は、より大きな画像コーパスと半教師付き学習の重要性を支持するが、学生に誤りや偏見を伝達しないように、元のデータセットを修正しなければならない。 さらに、ポートレートおよびランドスケープオリエンテーションにおけるワイドスクリーン入力解像度のトレーニング効果について述べる。 トレーニングされたモデルとスクリプトはgithubで公開されている(https://github.com/ kecsap/imagenet-clea n)。

The convolutional neural networks (CNNs) trained on ILSVRC12 ImageNet were the backbone of various applications as a generic classifier, a feature extractor or a base model for transfer learning. This paper describes automated heuristics based on model consensus, explainability and confident learning to correct labeling mistakes and remove ambiguous images from this dataset. After making these changes on the training and validation sets, the ImageNet-Clean improves the model performance by 2-2.4 % for SqueezeNet and EfficientNet-B0 models. The results support the importance of larger image corpora and semi-supervised learning, but the original datasets must be fixed to avoid transmitting their mistakes and biases to the student learner. Further contributions describe the training impacts of widescreen input resolutions in portrait and landscape orientations. The trained models and scripts are published on Github (https://github.com/ kecsap/imagenet-clea n) to clean up ImageNet and ImageNetV2 datasets for reproducible research.
翻訳日:2021-03-31 20:01:59 公開日:2021-03-30
# (参考訳) E-GraphSAGE: グラフニューラルネットワークによる侵入検知システム [全文訳有]

E-GraphSAGE: A Graph Neural Network based Intrusion Detection System ( http://arxiv.org/abs/2103.16329v1 )

ライセンス: CC BY 4.0
Wai Weng Lo, Siamak Layeghy, Mohanad Sarhan, Marcus Gallagher, Marius Portmann(参考訳) 本稿では,グラフニューラルネットワーク(GNN)に基づく新しいネットワーク侵入検知システム(NIDS)を提案する。 GNNはディープニューラルネットワークの比較的新しいサブフィールドであり、グラフベースのデータ固有の構造を活用するユニークな能力を持っている。 NIDSのトレーニングと評価データは一般的にフローレコードとして表現され、グラフ形式で自然に表現できる。 これにより,ネットワーク侵入検出を目的としたGNNの探索の可能性とモチベーションが確立され,本論文の焦点となる。 e-graphsage,提案する新しいアプローチは確立されたgraphsageモデルに基づいているが,エッジ分類のエッジ機能をサポートするために必要な修正を提供し,ネットワークフローを良性クラスと攻撃クラスに分類する。 最近の6つのNIDSベンチマークデータセットに基づく広範な実験的評価は、最先端のNIDSと比較して、E-GraphSAGEベースのNIDSの優れた性能を示している。

This paper presents a new network intrusion detection system (NIDS) based on Graph Neural Networks (GNNs). GNNs are a relatively new sub-field of deep neural networks, which have the unique ability to leverage the inherent structure of graph-based data. Training and evaluation data for NIDSs are typically represented as flow records, which can naturally be represented in a graph format. This establishes the potential and motivation for exploring GNNs for the purpose of network intrusion detection, which is the focus of this paper. E-GraphSAGE, our proposed new approach is based on the established GraphSAGE model, but provides the necessary modifications in order to support edge features for edge classification, and hence the classification of network flows into benign and attack classes. An extensive experimental evaluation based on six recent NIDS benchmark datasets shows the excellent performance of our E-GraphSAGE based NIDS in comparison with the state-of-the-art.
翻訳日:2021-03-31 19:43:16 公開日:2021-03-30
# (参考訳) グラフニューラルネットワークを用いた信号処理の変分モデル [全文訳有]

Variational models for signal processing with Graph Neural Networks ( http://arxiv.org/abs/2103.16337v1 )

ライセンス: CC BY 4.0
Amitoz Azad, Julien Rabin, and Abderrahim Elmoataz(参考訳) 本稿では,ニューラルネットワークを用いた点雲の信号処理について述べる。 現在、画像処理とコンピュータビジョンの最先端技術は、大データセット上の深い畳み込みニューラルネットワークのトレーニングに基づいている。 Graph Neural Networks (GNN) によるポイントクラウド処理のケースでもあるが、ShapeNetのようなラベル付きデータセットに対する教師あり学習を用いた分類やセグメンテーションといった高度なタスクに焦点が当てられている。 しかし、そのようなデータセットはターゲットのアプリケーションに依存するため、構築には時間がかかります。 本研究では,教師なし学習のためのグラフ上での信号処理におけるGNNの変分モデルの利用について検討する。 まず,GNNの特定の例であるMPN(Message Passing Networks)としてグラフ上の信号の変分に基づくアルゴリズムを定式化できることを示し,標準勾配に基づく機械学習アルゴリズムと比較して計算効率が良くなった。 次に,逆問題を直接最適化するか,変分に基づくMPNによるモデル蒸留により,フィードフォワードGNNの教師なし学習について検討する。 キーワード:グラフ処理。 ニューラルネットワーク。 全変種。 変分法。 メッセージパッシングネットワーク。 教師なし学習

This paper is devoted to signal processing on point-clouds by means of neural networks. Nowadays, state-of-the-art in image processing and computer vision is mostly based on training deep convolutional neural networks on large datasets. While it is also the case for the processing of point-clouds with Graph Neural Networks (GNN), the focus has been largely given to high-level tasks such as classification and segmentation using supervised learning on labeled datasets such as ShapeNet. Yet, such datasets are scarce and time-consuming to build depending on the target application. In this work, we investigate the use of variational models for such GNN to process signals on graphs for unsupervised learning.Our contributions are two-fold. We first show that some existing variational-based algorithms for signals on graphs can be formulated as Message Passing Networks (MPN), a particular instance of GNN, making them computationally efficient in practice when compared to standard gradient-based machine learning algorithms. Secondly, we investigate the unsupervised learning of feed-forward GNN, either by direct optimization of an inverse problem or by model distillation from variational-based MPN. Keywords:Graph Processing. Neural Network. Total Variation. Variational Methods. Message Passing Network. Unsupervised learning
翻訳日:2021-03-31 19:26:00 公開日:2021-03-30
# (参考訳) ニューラルネットワークを用いた固体構造物の波による損傷検出 [全文訳有]

Wave based damage detection in solid structures using artificial neural networks ( http://arxiv.org/abs/2103.16339v1 )

ライセンス: CC BY 4.0
Frank Wuttke, Hao Lyu, Amir S. Sattari and Zarghaam H. Rizvi(参考訳) 構造的損傷の特定は、現代経済においてますます重要な役割を担っており、インフラの監視が公共利用を維持するための最後のアプローチであることが多い。 従来の監視方法は専門の技術者を必要とし、主に時間を要する。 本研究は、ニューラルネットワークがトレーニングプロセスに基づいて構造特性の初期または変更を認識する能力について検討する。 ここでは、波動場パターン認識のための畳み込みニューラルネットワーク(CNN)、より具体的には波動場変化認識について述べる。 CNNモデルは、構造物内の亀裂発生後の伝播波場の変化を特定するために使用される。 本稿では, 動的格子モデルに基づいて, き裂検出精度を向上するために, 実装手法と必要な訓練手順について述べる。 モデルのトレーニングはまだ時間がかかるが,提案手法は従来型のモニタリング手法において,新たな亀裂検出や構造的健康モニタリング手法となる可能性が大きい。

The identification of structural damages takes a more and more important role within the modern economy, where often the monitoring of an infrastructure is the last approach to keep it under public use. Conventional monitoring methods require specialized engineers and are mainly time consuming. This research paper considers the ability of neural networks to recognize the initial or alteration of structural properties based on the training processes. The presented work here is based on Convolutional Neural Networks (CNN) for wave field pattern recognition, or more specifically the wave field change recognition. The CNN model is used to identify the change within propagating wave fields after a crack initiation within the structure. The paper describes the implemented method and the required training procedure to get a successful crack detection accuracy, where the training data are based on the dynamic lattice model. Although the training of the model is still time consuming, the proposed new method has an enormous potential to become a new crack detection or structural health monitoring approach within the conventional monitoring methods.
翻訳日:2021-03-31 19:13:01 公開日:2021-03-30
# (参考訳) 歴史的慣性:長い時系列予測のための無視されるが強力なベースライン [全文訳有]

Historical Inertia: An Ignored but Powerful Baseline for Long Sequence Time-series Forecasting ( http://arxiv.org/abs/2103.16349v1 )

ライセンス: CC BY 4.0
Yue Cui, Jiandong Xie and Kai Zheng(参考訳) LSTF(Long sequence time-series forecasting)はその広範囲のアプリケーションで人気が高まっている。 予測の有効性と効率を高めるために優れたモデルが提案されているが、時系列の最も自然で基本的な時間的特性である履歴慣性(HI)を無視または過小評価することは無謀である。 本稿では,4つの公開実単語データセットに対する履歴慣性の影響を実験的に評価する。 その結果, HIを直接出力として採用しても, 最先端の作業よりも73%の相対的な改善が達成できた。

Long sequence time-series forecasting (LSTF) has become increasingly popular for its wide range of applications. Though superior models have been proposed to enhance the prediction effectiveness and efficiency, it is reckless to ignore or underestimate one of the most natural and basic temporal properties of time-series, the historical inertia (HI), which refers to the most recent data-points in the input time series. In this paper, we experimentally evaluate the power of historical inertia on four public real-word datasets. The results demonstrate that up to 73% relative improvement over state-of-the-art works can be achieved even by adopting HI directly as output.
翻訳日:2021-03-31 18:54:38 公開日:2021-03-30
# (参考訳) 弾性探索空間を用いた微分可能ネットワーク適応 [全文訳有]

Differentiable Network Adaption with Elastic Search Space ( http://arxiv.org/abs/2103.16350v1 )

ライセンス: CC BY 4.0
Shaopeng Guo, Yujie Wang, Kun Yuan, Quanquan Li(参考訳) 本稿では,ネットワークの幅と深さを異なる方法で調整することで,既存のネットワークを特定の計算予算に適応させることができる,微分可能ネットワーク適応(DNA)と呼ばれる新しいネットワーク適応手法を提案する。 勾配に基づく最適化により、dnaは以前のヒューリスティックな方法よりも、幅と深さの自動最適化を実現することができる。 さらに,最適化プロセス中に柔軟に凝縮あるいは拡張できる新しい弾性探索空間を提案し,双方向に幅と深さのネットワーク最適化を可能にした。 DNAにより、幅と深さの両次元を凝縮して拡張することで、ネットワークアーキテクチャの最適化に成功した。 ImageNetの大規模な実験では、DNAが既存のネットワークに適応して、異なる目的の計算要求を満たすことができ、従来の方法よりも優れた性能を発揮できることを示した。 さらにdnaは、efficiantnetやmobilenet-v3といった最先端のニューラルネットワーク検索手法によって得られた高精度ネットワークのパフォーマンスをさらに向上させることができる。

In this paper we propose a novel network adaption method called Differentiable Network Adaption (DNA), which can adapt an existing network to a specific computation budget by adjusting the width and depth in a differentiable manner. The gradient-based optimization allows DNA to achieve an automatic optimization of width and depth rather than previous heuristic methods that heavily rely on human priors. Moreover, we propose a new elastic search space that can flexibly condense or expand during the optimization process, allowing the network optimization of width and depth in a bi-direction manner. By DNA, we successfully achieve network architecture optimization by condensing and expanding in both width and depth dimensions. Extensive experiments on ImageNet demonstrate that DNA can adapt the existing network to meet different targeted computation requirements with better performance than previous methods. What's more, DNA can further improve the performance of high-accuracy networks obtained by state-of-the-art neural architecture search methods such as EfficientNet and MobileNet-v3.
翻訳日:2021-03-31 18:49:11 公開日:2021-03-30
# (参考訳) リアルタイム・エゴセントリックバーチャルリアリティのためのニューラルネットワークフィールド [全文訳有]

Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality ( http://arxiv.org/abs/2103.16365v1 )

ライセンス: CC BY 4.0
Nianchen Deng and Zhenyi He and Jiannan Ye and Praneeth Chakravarthula and Xubo Yang and Qi Sun(参考訳) 従来の高品質な3dグラフィックは、レンダリングに大量の詳細なシーンデータを必要とする。 この要求は計算効率とローカルストレージ資源を損なう。 具体的には、将来のウェアラブルおよびポータブルバーチャルおよび拡張現実(VR/AR)ディスプレイについて、より重要になる。 この問題に対処する最近のアプローチには、リモートレンダリング/ストリーミングと3Dアセットのニューラル表現がある。 これらのアプローチは、分散コンピューティングや大規模データの圧縮によって、従来のローカルストレージレンダリングパイプラインを再定義した。 しかし、これらの方法は通常、大きな没入型仮想シーンを現実的に可視化するために高いレイテンシや低品質に苦しめられ、特にゲームやデザインのようなvrアプリケーションでは、さらに高い解像度とリフレッシュレートの要求がある。 将来の携帯型・低記憶型・省エネ型VRプラットフォームを目指して,我々は初めて視線を呈する3Dニューラル表現とビュー合成法を提案する。 視覚と立体視力の人間の心理物理学を3次元風景のエゴセントリックな神経表現に取り入れる。 さらに、人間の知覚と神経シーン合成を相互に橋渡ししながら、レイテンシ/パフォーマンスと視覚品質を共同で最適化し、知覚的に高品質な没入的相互作用を実現する。 客観的解析と主観的研究の両方が,局所記憶量と合成遅延を著しく削減する(データサイズと計算時間の両方を最大99%削減する)と同時に,完全局所記憶および高画質画像と同一の知覚的品質の高忠実性レンダリングを同時に提示する手法の有効性を実証した。

Traditional high-quality 3D graphics requires large volumes of fine-detailed scene data for rendering. This demand compromises computational efficiency and local storage resources. Specifically, it becomes more concerning for future wearable and portable virtual and augmented reality (VR/AR) displays. Recent approaches to combat this problem include remote rendering/streaming and neural representations of 3D assets. These approaches have redefined the traditional local storage-rendering pipeline by distributed computing or compression of large data. However, these methods typically suffer from high latency or low quality for practical visualization of large immersive virtual scenes, notably with extra high resolution and refresh rate requirements for VR applications such as gaming and design. Tailored for the future portable, low-storage, and energy-efficient VR platforms, we present the first gaze-contingent 3D neural representation and view synthesis method. We incorporate the human psychophysics of visual- and stereo-acuity into an egocentric neural representation of 3D scenery. Furthermore, we jointly optimize the latency/performance and visual quality, while mutually bridging human perception and neural scene synthesis, to achieve perceptually high-quality immersive interaction. Both objective analysis and subjective study demonstrate the effectiveness of our approach in significantly reducing local storage volume and synthesis latency (up to 99% reduction in both data size and computational time), while simultaneously presenting high-fidelity rendering, with perceptual quality identical to that of fully locally stored and rendered high-quality imagery.
翻訳日:2021-03-31 18:29:25 公開日:2021-03-30
# (参考訳) 分散アライメント:ロングテール視覚認識のための統一フレームワーク [全文訳有]

Distribution Alignment: A Unified Framework for Long-tail Visual Recognition ( http://arxiv.org/abs/2103.16370v1 )

ライセンス: CC BY 4.0
Songyang Zhang, Zeming Li, Shipeng Yan, Xuming He, Jian Sun(参考訳) 近年のディープニューラルネットワークの成功にもかかわらず、視覚認識タスクのロングテールクラス分布を効果的にモデル化することは依然として困難である。 この問題に対処するため,まず2段階学習フレームワークの性能ボトルネックをアブレーティブスタディを用いて検討する。 この発見に動機づけられて,ロングテール視覚認識のための統一分布アライメント戦略を提案する。 具体的には,各データポイントの分類スコアを調整可能な適応キャリブレーション関数を開発した。 次に,2段階学習における一般化された再重み付け手法を導入し,視覚認識タスクの多様なシナリオに対して,柔軟で統一されたソリューションを提供する。 画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションの4つのタスクについて,広範囲にわたる実験により検証を行った。 提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。 コードとモデルは、https://github.com/M egvii-BaseDetection/ DisAlignで公開されます。

Despite the recent success of deep neural networks, it remains challenging to effectively model the long-tail class distribution in visual recognition tasks. To address this problem, we first investigate the performance bottleneck of the two-stage learning framework via ablative study. Motivated by our discovery, we propose a unified distribution alignment strategy for long-tail visual recognition. Specifically, we develop an adaptive calibration function that enables us to adjust the classification scores for each data point. We then introduce a generalized re-weight method in the two-stage learning to balance the class prior, which provides a flexible and unified solution to diverse scenarios in visual recognition tasks. We validate our method by extensive experiments on four tasks, including image classification, semantic segmentation, object detection, and instance segmentation. Our approach achieves the state-of-the-art results across all four recognition tasks with a simple and unified framework. The code and models will be made publicly available at: https://github.com/M egvii-BaseDetection/ DisAlign
翻訳日:2021-03-31 18:09:57 公開日:2021-03-30
# (参考訳) エンドツーエンド制約付き最適化学習:調査 [全文訳有]

End-to-End Constrained Optimization Learning: A Survey ( http://arxiv.org/abs/2103.16378v1 )

ライセンス: CC BY 4.0
James Kotary, Ferdinando Fioretto, Pascal Van Hentenryck, Bryan Wilder(参考訳) 本稿では,機械学習を活用した制約付き最適化問題の解法について検討する。 組合せソルバと最適化メソッドを機械学習アーキテクチャに統合する作業の調査に重点を置いている。 これらのアプローチは、組合せ問題の高速で近似的な解を予測し、構造的論理推論を可能にするために、新しいハイブリッド機械学習と最適化手法を開発することを約束している。 本稿では,この新興領域における最近の進歩に関する概念的考察を紹介する。

This paper surveys the recent attempts at leveraging machine learning to solve constrained optimization problems. It focuses on surveying the work on integrating combinatorial solvers and optimization methods with machine learning architectures. These approaches hold the promise to develop new hybrid machine learning and optimization methods to predict fast, approximate, solutions to combinatorial problems and to enable structural logical inference. This paper presents a conceptual review of the recent advancements in this emerging area.
翻訳日:2021-03-31 17:45:19 公開日:2021-03-30
# (参考訳) オンライン2次元テキストとしてのELMo埋め込み表現 [全文訳有]

Representing ELMo embeddings as two-dimensional text online ( http://arxiv.org/abs/2103.16414v1 )

ライセンス: CC BY 4.0
Andrey Kutuzov and Elizaveta Kuzmenko(参考訳) 本稿では,Web上の単語埋め込みモデルを提供するWebVectorsツールキットの新たな追加について述べる。 新しいELMoVizモジュールは、特にELMoモデルにおいて、コンテキスト化された埋め込みアーキテクチャのサポートを追加する。 提供された可視化は、語彙代名詞を示すことによって「二次元テキスト」のメタファーに従う:入力文の単語と文脈的に最もよく似た単語。 このシステムでは、トークンの埋め込みが推測されるELMo層を変更することができる。 また、クエリワードとその語彙代用語(すなわち、周波数階層と音声の一部)に関するコーパス情報を伝達する。 このモジュールはwebvectors toolkitの他の部分とよく統合されており、静的埋め込みモデルにおける単語表現への語彙ハイパーリンクを提供する。 2つのwebサービスはすでに、ロシア語、ノルウェー語、英語向けに事前訓練されたelmoモデルで、新しい機能を実装している。

We describe a new addition to the WebVectors toolkit which is used to serve word embedding models over the Web. The new ELMoViz module adds support for contextualized embedding architectures, in particular for ELMo models. The provided visualizations follow the metaphor of `two-dimensional text' by showing lexical substitutes: words which are most semantically similar in context to the words of the input sentence. The system allows the user to change the ELMo layers from which token embeddings are inferred. It also conveys corpus information about the query words and their lexical substitutes (namely their frequency tiers and parts of speech). The module is well integrated into the rest of the WebVectors toolkit, providing lexical hyperlinks to word representations in static embedding models. Two web services have already implemented the new functionality with pre-trained ELMo models for Russian, Norwegian and English.
翻訳日:2021-03-31 17:27:23 公開日:2021-03-30
# (参考訳) Chatbotをインターロケータシューズに組み込む - 意図に反応するChatbotを学習するためのフレームワーク [全文訳有]

Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn Chatbot Responding with Intention ( http://arxiv.org/abs/2103.16429v1 )

ライセンス: CC BY-SA 4.0
Hsuan Su, Jiun-Hao Jhan, Fan-yun Sun, Sauray Sahay, Hung-yi Lee(参考訳) チャットボットの文学の多くは、チャットボットの流動性とコヒーレンスを改善することに焦点を当てており、チャットボットをより人間らしくすることに注力している。 しかし、人間とチャットボットを本当に区別するものは、ほとんどない -- 人間は、反応が対話者に与える影響を本質的に理解し、対話者の気分を改善するために楽観的な視点を提案するなど、しばしば反応する。 本稿では,人間のような意図を持つチャットボットを訓練するための革新的な枠組みを提案する。 我々のフレームワークには、人間の役割を担う案内チャットボットとインターロケータモデルが含まれている。 案内チャットボットは、意図を割り当て、その意図に合致した応答、例えば、長い応答、喜びの応答、特定の単語による応答など、対話者に応答を促すことを学ぶ。 3つの実験的な設定を用いてフレームワークを検証し、柔軟性と性能の利点を示すために、4つの異なるメトリクスでガイドボットを評価する。 さらに,人間評価の結果は,特定の程度にヒトの反応に影響を与える指導的チャットボットの有効性を十分に裏付けるものである。 コードは一般公開される予定だ。

Most chatbot literature focuses on improving the fluency and coherence of a chatbot, is dedicated to making chatbots more human-like. However, very little work delves into what really separates humans from chatbots -- humans intrinsically understand the effect their responses have on the interlocutor and often respond with an intention such as proposing an optimistic view to make the interlocutor feel better. This paper proposes an innovative framework to train chatbots to possess human-like intentions. Our framework includes a guiding chatbot and an interlocutor model that plays the role of humans. The guiding chatbot is assigned an intention and learns to induce the interlocutor to reply with responses matching the intention, for example, long responses, joyful responses, responses with specific words, etc. We examine our framework using three experimental setups and evaluate the guiding chatbot with four different metrics to demonstrate flexibility and performance advantages. Additionally, human evaluation results sufficiently substantiate the guiding chatbot's effectiveness in influencing humans' responses to a certain extent. Code will be made available to the public.
翻訳日:2021-03-31 17:20:03 公開日:2021-03-30
# (参考訳) ロボット協調環境におけるユーザプロファイル駆動型大規模マルチエージェント学習 [全文訳有]

User profile-driven large-scale multi-agent learning from demonstration in federated human-robot collaborative environments ( http://arxiv.org/abs/2103.16434v1 )

ライセンス: CC BY 4.0
Georgios Th. Papadopoulos, Asterios Leonidis, Margherita Antona, Constantine Stephanidis(参考訳) learning from demonstration(lfd)は、人間の教師からロボットにスキルを効率的に移すための主要なパラダイムとして確立されている。 この文脈において、フェデレーション・ラーニング(fl)の概念化は、近年、多エージェント学習や長期的な自律性といった重要な課題にロバストに対処すべく、大規模な人間とロボットの協調環境を開発するために導入された。 現在の研究では、Deep Learning(DL)ベースのフォーマリズムを採用して、展示された人間の行動のきめ細かい表現を提供する新しいユーザープロファイルの定式化を設計し、統合することにより、後者のスキームをさらに拡張・拡張する。 特に、a) ユーザ属性(例えば、)を含む重要な情報ソースの階層的に整理されたセットが検討される。 人口統計、人格化、教育などです ) b) ユーザ状態(例えば、) 疲労検知、ストレス検出、感情認識など c)心理生理的測定(例) 視線、電磁気活動、心拍数など 関連データ。 次に、モデリングステップとして、ニューラルネットワークアーキテクチャを適切に定義したlong short-term memory(lstm)とstacked autoencoderの組み合わせを用いる。 総合的な設計手法により、(フィードバック取得セッション中に観察されたように)人間の行動の短期的および長期的分析/解釈を可能とし、同一および異なる人間教師からの情報を集約する場合に、収集されたフィードバックサンプルの重要性を適応的に調整する。

Learning from Demonstration (LfD) has been established as the dominant paradigm for efficiently transferring skills from human teachers to robots. In this context, the Federated Learning (FL) conceptualization has very recently been introduced for developing large-scale human-robot collaborative environments, targeting to robustly address, among others, the critical challenges of multi-agent learning and long-term autonomy. In the current work, the latter scheme is further extended and enhanced, by designing and integrating a novel user profile formulation for providing a fine-grained representation of the exhibited human behavior, adopting a Deep Learning (DL)-based formalism. In particular, a hierarchically organized set of key information sources is considered, including: a) User attributes (e.g. demographic, anthropomorphic, educational, etc.), b) User state (e.g. fatigue detection, stress detection, emotion recognition, etc.) and c) Psychophysiological measurements (e.g. gaze, electrodermal activity, heart rate, etc.) related data. Then, a combination of Long Short-Term Memory (LSTM) and stacked autoencoders, with appropriately defined neural network architectures, is employed for the modelling step. The overall designed scheme enables both short- and long-term analysis/interpretat ion of the human behavior (as observed during the feedback capturing sessions), so as to adaptively adjust the importance of the collected feedback samples when aggregating information originating from the same and different human teachers, respectively.
翻訳日:2021-03-31 17:06:50 公開日:2021-03-30
# (参考訳) SIMstack: 順序のないオブジェクトスタックのための生成形状とインスタンスモデル [全文訳有]

SIMstack: A Generative Shape and Instance Model for Unordered Object Stacks ( http://arxiv.org/abs/2103.16442v1 )

ライセンス: CC BY 4.0
Zoe Landgraf, Raluca Scona, Tristan Laidlow, Stephen James, Stefan Leutenegger, Andrew J. Davison(参考訳) 単一ビューから3次元形状とインスタンスを推定することにより、包括的スキャンやマルチビュー融合を必要とせずに、環境に関する情報を素早く取得できる。 複合シーン(オブジェクトスタックなど)に対するこのタスクの解決は難しい: 隠蔽された領域は、形があいまいであるだけでなく、インスタンスのセグメンテーションにおいても、複数の分解が有効である。 物理シミュレーションでは, 隠蔽領域の分解や形状を制約し, 物理シミュレーションで構築したシーンから学習した潜伏空間が, 隠蔽領域の形状や事例の予測に先立って有効であると仮定する。 この目的のために我々は,物理シミュレーションで積み重ねられたオブジェクトのデータセット上でトレーニングされた,奥行き条件付き変分オートエンコーダ(vae)であるsimstackを提案する。 インスタンスセグメンテーションを中心投票タスクとして定式化し、クラスに依存しない検出を可能にし、シーン内のオブジェクトの最大数を設定する必要がない。 テスト時には,学習した潜伏空間から隠蔽領域の提案を確率的にサンプリングし,単一の深度ビューから3次元形状とインスタンスセグメンテーションを生成する。 本手法は,ロボットに部分的に観察されたシーンを素早く直感的に推論する能力を与えるための実用的応用である。 単一深度ビューから未知の物体を正確に(非破壊的に)把握するための応用を実証する。

By estimating 3D shape and instances from a single view, we can capture information about an environment quickly, without the need for comprehensive scanning and multi-view fusion. Solving this task for composite scenes (such as object stacks) is challenging: occluded areas are not only ambiguous in shape but also in instance segmentation; multiple decompositions could be valid. We observe that physics constrains decomposition as well as shape in occluded regions and hypothesise that a latent space learned from scenes built under physics simulation can serve as a prior to better predict shape and instances in occluded regions. To this end we propose SIMstack, a depth-conditioned Variational Auto-Encoder (VAE), trained on a dataset of objects stacked under physics simulation. We formulate instance segmentation as a centre voting task which allows for class-agnostic detection and doesn't require setting the maximum number of objects in the scene. At test time, our model can generate 3D shape and instance segmentation from a single depth view, probabilistically sampling proposals for the occluded region from the learned latent space. Our method has practical applications in providing robots some of the ability humans have to make rapid intuitive inferences of partially observed scenes. We demonstrate an application for precise (non-disruptive) object grasping of unknown objects from a single depth view.
翻訳日:2021-03-31 16:50:37 公開日:2021-03-30
# (参考訳) 最適輸送によるロバスト化条件ポートフォリオ決定

Robustifying Conditional Portfolio Decisions via Optimal Transport ( http://arxiv.org/abs/2103.16451v1 )

ライセンス: CC BY 4.0
Viet Anh Nguyen, Fan Zhang, Jose Blanchet, Erick Delage, Yinyu Ye(参考訳) 本稿では,分散的ロバスト最適化の枠組みを用いて,側面情報,条件推定,ロバスト性を統合するデータ駆動ポートフォリオ選択モデルを提案する。 観測された側情報に基づいて、ポートフォリオマネージャは、最適な輸送曖昧性セットにおける共変回帰確率分布のあらゆる可能性の摂動を考慮して、最悪の条件付きリスク・リターントレードオフを最小化する割り当て問題を解決する。 確率測度における目的関数の非線形性にも拘わらず, 分布的ロバストなポートフォリオ配置を有限次元最適化問題として再構成できることを示した。 もしポートフォリオの決定が平均分散または平均連続値-アット・リスク基準に基づいてなされた場合、その結果の改革は2階または半確定コーンプログラムにさらに単純化される。 米国と中国の株式市場における実証研究は、他のベンチマークに対する統合的枠組みの利点を示しています。

We propose a data-driven portfolio selection model that integrates side information, conditional estimation and robustness using the framework of distributionally robust optimization. Conditioning on the observed side information, the portfolio manager solves an allocation problem that minimizes the worst-case conditional risk-return trade-off, subject to all possible perturbations of the covariate-return probability distribution in an optimal transport ambiguity set. Despite the non-linearity of the objective function in the probability measure, we show that the distributionally robust portfolio allocation with side information problem can be reformulated as a finite-dimensional optimization problem. If portfolio decisions are made based on either the mean-variance or the mean-Conditional Value-at-Risk criterion, the resulting reformulation can be further simplified to second-order or semi-definite cone programs. Empirical studies in the US and Chinese equity markets demonstrate the advantage of our integrative framework against other benchmarks.
翻訳日:2021-03-31 16:32:33 公開日:2021-03-30
# (参考訳) ビデオに基づく人物再識別のための時空間変換器 [全文訳有]

Spatiotemporal Transformer for Video-based Person Re-identification ( http://arxiv.org/abs/2103.16469v1 )

ライセンス: CC BY 4.0
Tianyu Zhang, Longhui Wei, Lingxi Xie, Zijie Zhuang, Yongfei Zhang, Bo Li, Qi Tian(参考訳) 近年,Transformerモジュールは自然言語処理からコンピュータビジョンへ移植されている。 本論文は,ビデオベースの人物再同定にトランスフォーマーを適用し,トラックレットから識別情報を抽出することを目的としている。 強い学習能力にもかかわらず、バニラトランスフォーマは、多量の注意パラメータと不十分なトレーニングデータのために、過剰フィッティングのリスクが増大していることが示されている。 そこで本研究では,合成ビデオデータの集合上でモデルを事前学習し,知覚拘束時空間トランスフォーマ (stt) モジュールとグローバルトランスフォーマ (gt) モジュールを用いて下流領域に伝達する新しいパイプラインを提案する。 得られたアルゴリズムは,MARS, DukeMTMC-VideoReID, LS-VIDの3つの人気ビデオベース人物識別ベンチマークにおいて, トレーニングデータとテストデータが異なる領域からのものである場合において, 大幅な精度向上を実現する。 より重要なことに、我々の研究は、高度に構造化された視覚データへのトランスフォーマーの適用に光を当てている。

Recently, the Transformer module has been transplanted from natural language processing to computer vision. This paper applies the Transformer to video-based person re-identification, where the key issue is to extract the discriminative information from a tracklet. We show that, despite the strong learning ability, the vanilla Transformer suffers from an increased risk of over-fitting, arguably due to a large number of attention parameters and insufficient training data. To solve this problem, we propose a novel pipeline where the model is pre-trained on a set of synthesized video data and then transferred to the downstream domains with the perception-constrain ed Spatiotemporal Transformer (STT) module and Global Transformer (GT) module. The derived algorithm achieves significant accuracy gain on three popular video-based person re-identification benchmarks, MARS, DukeMTMC-VideoReID, and LS-VID, especially when the training and testing data are from different domains. More importantly, our research sheds light on the application of the Transformer on highly-structured visual data.
翻訳日:2021-03-31 16:31:18 公開日:2021-03-30
# (参考訳) 深度条件付き動的メッセージ伝搬によるモノクロ3次元物体検出 [全文訳有]

Depth-conditioned Dynamic Message Propagation for Monocular 3D Object Detection ( http://arxiv.org/abs/2103.16470v1 )

ライセンス: CC BY 4.0
Li Wang, Liang Du, Xiaoqing Ye, Yanwei Fu, Guodong Guo, Xiangyang Xue, Jianfeng Feng, Li Zhang(参考訳) 本研究の目的は,モノクロ3次元物体検出の課題を解決するために,文脈・奥行き認識特徴表現を学習することである。 We make following contributions: (i) rather than appealing to the complicated pseudo-LiDAR based approach, we propose a depth-conditioned dynamic message propagation (DDMP) network to effectively integrate the multi-scale depth information with the image context;(ii) this is achieved by first adaptively sampling context-aware nodes in the image context and then dynamically predicting hybrid depth-dependent filter weights and affinity matrices for propagating information; (iii) by augmenting a center-aware depth encoding (CDE) task, our method successfully alleviates the inaccurate depth prior; (iv) we thoroughly demonstrate the effectiveness of our proposed approach and show state-of-the-art results among the monocular-based approaches on the KITTI benchmark dataset. 特に、提出日(2020年11月16日)には、競争の激しいkitti monocular 3d object detection trackで$1^{st}$をランク付けしました。 コードとモデルは \url{https://github.com/f udan-zvg/DDMP} でリリースされる。

The objective of this paper is to learn context- and depth-aware feature representation to solve the problem of monocular 3D object detection. We make following contributions: (i) rather than appealing to the complicated pseudo-LiDAR based approach, we propose a depth-conditioned dynamic message propagation (DDMP) network to effectively integrate the multi-scale depth information with the image context;(ii) this is achieved by first adaptively sampling context-aware nodes in the image context and then dynamically predicting hybrid depth-dependent filter weights and affinity matrices for propagating information; (iii) by augmenting a center-aware depth encoding (CDE) task, our method successfully alleviates the inaccurate depth prior; (iv) we thoroughly demonstrate the effectiveness of our proposed approach and show state-of-the-art results among the monocular-based approaches on the KITTI benchmark dataset. Particularly, we rank $1^{st}$ in the highly competitive KITTI monocular 3D object detection track on the submission day (November 16th, 2020). Code and models are released at \url{https://github.com/f udan-zvg/DDMP}
翻訳日:2021-03-31 16:17:21 公開日:2021-03-30
# (参考訳) 最適化ノード埋め込みによる多層グラフクラスタリング [全文訳有]

Multilayer Graph Clustering with Optimized Node Embedding ( http://arxiv.org/abs/2103.16534v1 )

ライセンス: CC BY 4.0
Mireille El Gheche, Pascal Frossard(参考訳) グラフノードをカテゴリやコミュニティに分割することを目的とした多層グラフクラスタリングに興味があります。 そこで本研究では,与えられた多層グラフの層に対する忠実性項を含む最適化問題と,その埋め込みによって引き起こされる(単層)グラフの正則化を解決し,クラスタリングに優しいグラフノード埋め込みを実現することを提案する。 フィデリティ項は対照的な損失を使い、観測された層を適切に集約して代表埋め込みにする。 正規化は、ばらばらでコミュニティ対応のグラフをプッシュし、「効果的な抵抗」と呼ばれるグラフスパーシフィケーションの尺度と、代表グラフラプラシアン行列の最初の数個の固有値のペナルティ化を基調とし、コミュニティの形成を優先する。 提案する最適化問題は非凸だが完全微分可能であり, 降下勾配法を用いて解くことができる。 実験により,本手法が有意な改善をもたらすことが示された。 最先端多層グラフクラスタリングアルゴリズム。

We are interested in multilayer graph clustering, which aims at dividing the graph nodes into categories or communities. To do so, we propose to learn a clustering-friendly embedding of the graph nodes by solving an optimization problem that involves a fidelity term to the layers of a given multilayer graph, and a regularization on the (single-layer) graph induced by the embedding. The fidelity term uses the contrastive loss to properly aggregate the observed layers into a representative embedding. The regularization pushes for a sparse and community-aware graph, and it is based on a measure of graph sparsification called "effective resistance", coupled with a penalization of the first few eigenvalues of the representative graph Laplacian matrix to favor the formation of communities. The proposed optimization problem is nonconvex but fully differentiable, and thus can be solved via the descent gradient method. Experiments show that our method leads to a significant improvement w.r.t. state-of-the-art multilayer graph clustering algorithms.
翻訳日:2021-03-31 15:58:58 公開日:2021-03-30
# (参考訳) 動的視覚推論による物体と事象の物理概念の接地 [全文訳有]

Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning ( http://arxiv.org/abs/2103.16564v1 )

ライセンス: CC0 1.0
Zhenfang Chen, Jiayuan Mao, Jiajun Wu, Kwan-Yee Kenneth Wong, Joshua B. Tenenbaum, Chuang Gan(参考訳) 生ビデオにおける動的視覚的推論の問題について検討する。 これは難しい問題であり、現在最先端のモデルでは、しばしば実生活では得られない物理的物体の性質やシミュレーションからの事象を厳密に監視する必要がある。 本稿では,映像と言語から物理オブジェクトとイベントを対象とする統合フレームワークであるdynamic concept learner(dcl)について述べる。 DCLはまず軌道抽出器を採用し、時間とともに各オブジェクトを追跡し、潜在的、オブジェクト中心の特徴ベクトルとして表現する。 このオブジェクト中心表現に基づいて、DCLはグラフネットワークを用いてオブジェクト間の動的相互作用を近似することを学ぶ。 さらに、dclにはセマンティックパーサが組み込まれており、質問をセマンティックプログラムに解析し、最終的にプログラム実行者がプログラムを実行して質問に答え、学習したダイナミクスモデルをレバーする。 トレーニング後、dclはフレーム間のオブジェクトの検出と関連付け、イベント間の因果関係の理解、未来と反事実の予測、これらの抽出したプレゼンテーションをクエリへの応答に活用することができる。 dclは、トレーニングのシミュレーションから地上属性や衝突ラベルを使わずに、挑戦的な因果的ビデオ推論データセットであるclevrerで最先端のパフォーマンスを達成している。 さらに,新たに提案するclevrerから派生したビデオリトライバルおよびイベントローカライズデータセット上でdclをテストし,その強力な一般化能力を示した。

We study the problem of dynamic visual reasoning on raw videos. This is a challenging problem; currently, state-of-the-art models often require dense supervision on physical object properties and events from simulation, which are impractical to obtain in real life. In this paper, we present the Dynamic Concept Learner (DCL), a unified framework that grounds physical objects and events from video and language. DCL first adopts a trajectory extractor to track each object over time and to represent it as a latent, object-centric feature vector. Building upon this object-centric representation, DCL learns to approximate the dynamic interaction among objects using graph networks. DCL further incorporates a semantic parser to parse questions into semantic programs and, finally, a program executor to run the program to answer the question, levering the learned dynamics model. After training, DCL can detect and associate objects across the frames, ground visual properties, and physical events, understand the causal relationship between events, make future and counterfactual predictions, and leverage these extracted presentations for answering queries. DCL achieves state-of-the-art performance on CLEVRER, a challenging causal video reasoning dataset, even without using ground-truth attributes and collision labels from simulations for training. We further test DCL on a newly proposed video-retrieval and event localization dataset derived from CLEVRER, showing its strong generalization capacity.
翻訳日:2021-03-31 15:40:21 公開日:2021-03-30
# 弾性 Lottery Ticket仮説

The Elastic Lottery Ticket Hypothesis ( http://arxiv.org/abs/2103.16547v1 )

ライセンス: Link先を確認
Xiaohan Chen, Yu Cheng, Shuohang Wang, Zhe Gan, Jingjing Liu, Zhangyang Wang(参考訳) Lottery Ticket hypothesisは、トレーニングの初期(または初期段階)において、未成熟のトレーニング可能なサブネットやチケットを特定することに注意を向ける。 多くの努力にもかかわらず、入賞チケットを特定する最も効果的な方法は、計算コストが高く、異なるネットワークごとに徹底的に実行されなければならない反復的マグニチュードベースのプルーニング(imp)である。 自然な疑問として、あるネットワークにある勝利チケットを別のアーキテクチャで別のネットワークに“変換”して、コストの高いimpをやり直すことなく、最初に後者の勝利チケットを得ることができるか、といったことが挙げられます。 この質問に答えることは、効率的な"すべて"の入賞チケットを見つけることだけでなく、理論上、ネットワーク内の本質的にスケーラブルなスパースパターンを明らかにすることにも意味がある。 我々はCIFAR-10とImageNetの広範な実験を行い、同じモデルファミリーの異なるネットワーク(例えばResNets)から得られる当選チケットを微調整する様々な戦略を提案する。 これらの結果に基づき、我々はElastic Lottery Ticket hypothesis (E-LTH): 一つのネットワークに対してレイヤーを慎重に複製(またはドロップ)し、再注文することで、対応する当選チケットを、IMPが直接見つけるようなパフォーマンスを持つ、同じファミリーのより深い(またはより浅い)ネットワークのサブネットワークに拡張(または圧縮)することができる。 また,E-LTHをpruning-at-initializ ationおよび動的スパーストレーニング法と徹底的に比較し,モデルファミリ,層タイプ,さらにはデータセット全体に対するE-LTHの一般化可能性について議論した。 私たちのコードはhttps://github.com/V ITA-Group/ElasticLTH で公開されています。

Lottery Ticket Hypothesis raises keen attention to identifying sparse trainable subnetworks or winning tickets, at the initialization (or early stage) of training, which can be trained in isolation to achieve similar or even better performance compared to the full models. Despite many efforts being made, the most effective method to identify such winning tickets is still Iterative Magnitude-based Pruning (IMP), which is computationally expensive and has to be run thoroughly for every different network. A natural question that comes in is: can we "transform" the winning ticket found in one network to another with a different architecture, yielding a winning ticket for the latter at the beginning, without re-doing the expensive IMP? Answering this question is not only practically relevant for efficient "once-for-all" winning ticket finding, but also theoretically appealing for uncovering inherently scalable sparse patterns in networks. We conduct extensive experiments on CIFAR-10 and ImageNet, and propose a variety of strategies to tweak the winning tickets found from different networks of the same model family (e.g., ResNets). Based on these results, we articulate the Elastic Lottery Ticket Hypothesis (E-LTH): by mindfully replicating (or dropping) and re-ordering layers for one network, its corresponding winning ticket could be stretched (or squeezed) into a subnetwork for another deeper (or shallower) network from the same family, whose performance is nearly as competitive as the latter's winning ticket directly found by IMP. We have also thoroughly compared E-LTH with pruning-at-initializ ation and dynamic sparse training methods, and discuss the generalizability of E-LTH to different model families, layer types, and even across datasets. Our codes are publicly available at https://github.com/V ITA-Group/ElasticLTH .
翻訳日:2021-03-31 15:17:10 公開日:2021-03-30
# 視覚と言語によるナビゲーションの診断:本当に重要なこと

Diagnosing Vision-and-Language Navigation: What Really Matters ( http://arxiv.org/abs/2103.16561v1 )

ライセンス: Link先を確認
Wanrong Zhu, Yuankai Qi, Pradyumna Narayana, Kazoo Sone, Sugato Basu, Xin Eric Wang, Qi Wu, Miguel Eckstein, William Yang Wang(参考訳) 視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。 複数のセットアップが提案されており、研究者はナビゲーション性能を向上させるために新しいモデルアーキテクチャやトレーニング技術を適用する。 しかし、最近の研究では、室内および屋外のVLNタスクのパフォーマンス改善が遅くなり、エージェントがナビゲーション決定を行うための内部メカニズムが不明確になっている。 私たちの知る限りでは、エージェントがマルチモーダル入力を知覚する方法は十分に研究されておらず、明らかに調査が必要です。 本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。 その結果,屋内ナビゲーションエージェントは,指示中のオブジェクトトークンと方向トークンの両方を参照していることがわかった。 対照的に、屋外ナビゲーションエージェントは方向トークンに大きく依存しており、オブジェクトトークンの理解が不十分である。 さらに、単に周囲の物体を見つめるのではなく、屋内ナビゲーションエージェントは現在の視点から物体を視認することができる。 視覚と言語間のアライメントに関しては、多くのモデルがオブジェクトトークンを特定の視覚ターゲットにアライメントできると主張しているが、そのようなアライメントの信頼性に疑問を投げかけている。

Vision-and-language navigation (VLN) is a multimodal task where an agent follows natural language instructions and navigates in visual environments. Multiple setups have been proposed, and researchers apply new model architectures or training techniques to boost navigation performance. However, recent studies witness a slow-down in the performance improvements in both indoor and outdoor VLN tasks, and the agents' inner mechanisms for making navigation decisions remain unclear. To the best of our knowledge, the way the agents perceive the multimodal input is under-studied and clearly needs investigations. In this work, we conduct a series of diagnostic experiments to unveil agents' focus during navigation. Results show that indoor navigation agents refer to both object tokens and direction tokens in the instruction when making decisions. In contrast, outdoor navigation agents heavily rely on direction tokens and have a poor understanding of the object tokens. Furthermore, instead of merely staring at surrounding objects, indoor navigation agents can set their sights on objects further from the current viewpoint. When it comes to vision-and-language alignments, many models claim that they are able to align object tokens with certain visual targets, but we cast doubt on the reliability of such alignments.
翻訳日:2021-03-31 15:16:36 公開日:2021-03-30
# SPatchGAN:教師なし画像翻訳のための統計的特徴量に基づく判別器

SPatchGAN: A Statistical Feature Based Discriminator for Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2103.16219v1 )

ライセンス: Link先を確認
Xuning Shao, Weidong Zhang(参考訳) 教師なし画像画像変換では,個々のパッチではなく,統計的特徴に着目した識別器アーキテクチャを提案する。 ネットワークは、複数のスケールで重要な統計特徴の分布マッチングによって安定化される。 ジェネレータにより多くの制約を課す既存の方法とは異なり、本手法は形状変形を容易にし、非常に単純化されたフレームワークで細部を強化する。 提案手法は, 自撮りアニメ, 男性向け, メガネ除去など, 既存の最先端モデルよりも優れていることを示す。 コードは公開される予定だ。

For unsupervised image-to-image translation, we propose a discriminator architecture which focuses on the statistical features instead of individual patches. The network is stabilized by distribution matching of key statistical features at multiple scales. Unlike the existing methods which impose more and more constraints on the generator, our method facilitates the shape deformation and enhances the fine details with a greatly simplified framework. We show that the proposed method outperforms the existing state-of-the-art models in various challenging applications including selfie-to-anime, male-to-female and glasses removal. The code will be made publicly available.
翻訳日:2021-03-31 15:16:19 公開日:2021-03-30
# モデル-contrastive federated learning

Model-Contrastive Federated Learning ( http://arxiv.org/abs/2103.16257v1 )

ライセンス: Link先を確認
Qinbin Li, Bingsheng He, Dawn Song(参考訳) フェデレーション学習は、複数のパーティが、ローカルデータを通信することなく、機械学習モデルを協調的にトレーニングすることを可能にする。 連合学習における鍵となる課題は、パーティ間でのローカルデータ分散の多様性を扱うことである。 この課題に対処するために多くの研究が提案されているが、深層学習モデルを用いた画像データセットの高性能化には失敗している。 本稿では,moon: model-contrastive federated learningを提案する。 MOONはシンプルで効果的な連合学習フレームワークである。 ムーンの重要な考え方は、モデル表現間の類似性を利用して個々のパーティのローカルトレーニング、すなわちモデルレベルでのコントラスト学習を正すことである。 広範囲にわたる実験の結果,MOONは様々な画像分類タスクにおいて,他の最先端のフェデレーション学習アルゴリズムよりも優れていた。

Federated learning enables multiple parties to collaboratively train a machine learning model without communicating their local data. A key challenge in federated learning is to handle the heterogeneity of local data distribution across parties. Although many studies have been proposed to address this challenge, we find that they fail to achieve high performance in image datasets with deep learning models. In this paper, we propose MOON: model-contrastive federated learning. MOON is a simple and effective federated learning framework. The key idea of MOON is to utilize the similarity between model representations to correct the local training of individual parties, i.e., conducting contrastive learning in model-level. Our extensive experiments show that MOON significantly outperforms the other state-of-the-art federated learning algorithms on various image classification tasks.
翻訳日:2021-03-31 15:16:07 公開日:2021-03-30
# AGQA: 構成時空間推論のためのベンチマーク

AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning ( http://arxiv.org/abs/2103.16002v1 )

ライセンス: Link先を確認
Madeleine Grunde-McLaughlin, Ranjay Krishna, Maneesh Agrawala(参考訳) 視覚イベントは、アクターがオブジェクトと空間的に相互作用する時間的アクションの合成である。 構成時空間事象を推論できるコンピュータビジョンモデルを開発するには、進捗を分析し、欠点を明らかにするベンチマークが必要である。 既存のビデオ質問応答ベンチマークは有用だが、複数のエラー源を1つの精度指標にまとめ、モデルが悪用できる強いバイアスを持つため、モデルの弱点を特定できないことが多い。 本稿では,合成時空間推論のための新しいベンチマークであるAction Genome Question Answering (AGQA)を提案する。 AGQAには、9.6Kドルのビデオ用のアンバランスな質問応答ペアがある。 また、既存のベンチマークよりも桁違いに大きい39万ドルの質問応答対のバランスの取れたサブセットを提供し、回答分布と質問構造の種類のバランスをとることでバイアスを最小限にする。 人間の評価は、質問応答対の86.02 %$を正し、最良のモデルは47.74 %$の精度しか達成していない。 さらに、agqaは複数のトレーニング/テスト分割を導入し、新しい構成への一般化、間接参照、より構成的なステップなど、さまざまな推論能力をテストする。 AGQAを用いて、現代の視覚的推論システムを評価し、最良のモデルが言語バイアスを生かした非視覚的ベースラインよりもわずかに優れた性能を示し、既存のモデルがトレーニング中に見つからない新しい構成に一般化されることを実証した。

Visual events are a composition of temporal actions involving actors spatially interacting with objects. When developing computer vision models that can reason about compositional spatio-temporal events, we need benchmarks that can analyze progress and uncover shortcomings. Existing video question answering benchmarks are useful, but they often conflate multiple sources of error into one accuracy metric and have strong biases that models can exploit, making it difficult to pinpoint model weaknesses. We present Action Genome Question Answering (AGQA), a new benchmark for compositional spatio-temporal reasoning. AGQA contains $192M$ unbalanced question answer pairs for $9.6K$ videos. We also provide a balanced subset of $3.9M$ question answer pairs, $3$ orders of magnitude larger than existing benchmarks, that minimizes bias by balancing the answer distributions and types of question structures. Although human evaluators marked $86.02\%$ of our question-answer pairs as correct, the best model achieves only $47.74\%$ accuracy. In addition, AGQA introduces multiple training/test splits to test for various reasoning abilities, including generalization to novel compositions, to indirect references, and to more compositional steps. Using AGQA, we evaluate modern visual reasoning systems, demonstrating that the best models barely perform better than non-visual baselines exploiting linguistic biases and that none of the existing models generalize to novel compositions unseen during training.
翻訳日:2021-03-31 15:15:34 公開日:2021-03-30
# 単一物体追跡のための動的注意誘導マルチトラジェクトリ解析

Dynamic Attention guided Multi-Trajectory Analysis for Single Object Tracking ( http://arxiv.org/abs/2103.16086v1 )

ライセンス: Link先を確認
Xiao Wang, Zhe Chen, Jin Tang, Bin Luo, Yaowei Wang, Yonghong Tian, Feng Wu(参考訳) 既存のシングルオブジェクトトラッカーのほとんどは、一元的なローカル検索ウィンドウでターゲットを追跡するため、重い閉塞や外見運動といった困難な要因に対して特に脆弱である。 グローバル検索をさらに統合しようとする試みにもかかわらず、局所検索とグローバル検索を協調する一般的なメカニズムは比較的静的であるため、追跡性能を改善するためのサブ最適である。 ローカル検索結果とグローバル検索結果をさらに研究することで、我々は以下の疑問を提起する。 本稿では,動的注意誘導多軌道追跡戦略を考案し,よりダイナミックな手法を提案する。 特に、複数のターゲットテンプレートを含む動的外観モデルを構築し、それぞれが新しいフレーム内のターゲットを特定するのに独自の注意を払っています。 異なる注意を払って,多軌道追跡履歴を構築するために,対象の追跡結果の多様化を図り,さらに多くの候補が真の目標軌道を表現できるようにする。 全シーケンスにまたがって、追跡性能が向上する最善の軌跡を見つけるために、マルチトラック選択ネットワークを導入する。 実験結果から,提案手法は大規模追跡ベンチマークにおいて有意な性能を発揮することが示された。 この論文のプロジェクトページはhttps://sites.google .com/view/mt-track/にある。

Most of the existing single object trackers track the target in a unitary local search window, making them particularly vulnerable to challenging factors such as heavy occlusions and out-of-view movements. Despite the attempts to further incorporate global search, prevailing mechanisms that cooperate local and global search are relatively static, thus are still sub-optimal for improving tracking performance. By further studying the local and global search results, we raise a question: can we allow more dynamics for cooperating both results? In this paper, we propose to introduce more dynamics by devising a dynamic attention-guided multi-trajectory tracking strategy. In particular, we construct dynamic appearance model that contains multiple target templates, each of which provides its own attention for locating the target in the new frame. Guided by different attention, we maintain diversified tracking results for the target to build multi-trajectory tracking history, allowing more candidates to represent the true target trajectory. After spanning the whole sequence, we introduce a multi-trajectory selection network to find the best trajectory that delivers improved tracking performance. Extensive experimental results show that our proposed tracking strategy achieves compelling performance on various large-scale tracking benchmarks. The project page of this paper can be found at https://sites.google .com/view/mt-track/.
翻訳日:2021-03-31 15:15:11 公開日:2021-03-30
# 一般ゼロショット学習のためのコントラスト埋め込み

Contrastive Embedding for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2103.16173v1 )

ライセンス: Link先を確認
Zongyan Han, Zhenyong Fu, Shuo Chen and Jian Yang(参考訳) 汎用ゼロショット学習 (GZSL) は、目に見えるクラスと目に見えないクラスの両方からオブジェクトを認識することを目的としている。 近年,GZSLにおけるデータ不均衡問題を軽減するために,未確認クラスの視覚的特徴の欠如を生かした生成モデルを学習している。 しかし、元の視覚特徴空間は識別情報がないため、GZSL分類に最適である。 この問題に取り組むため,我々は生成モデルと組込みモデルの統合を提案し,ハイブリッドgzslフレームワークを実現した。 ハイブリッドGZSLアプローチは、生成モデルによって生成された実データと合成サンプルの両方を埋め込み空間にマッピングし、最終的なGZSL分類を行う。 具体的には,ハイブリッドGZSLフレームワークのためのコントラスト埋め込み(CE)を提案する。 提案するコントラスト埋め込みはクラス単位の監督だけでなく、インスタンス単位の監督も活用できるが、後者は通常、既存のgzslの研究によって無視される。 CE-GZSLという名前のコントラスト埋め込みによるハイブリッドGZSLフレームワークを5つのベンチマークデータセット上で評価した。 その結果,CEGZSL法は3つのデータセットに対して有意差で最先端の手法より優れていることがわかった。 私たちのコードはhttps://github.com/h anzy1996/ce-gzslで利用可能です。

Generalized zero-shot learning (GZSL) aims to recognize objects from both seen and unseen classes, when only the labeled examples from seen classes are provided. Recent feature generation methods learn a generative model that can synthesize the missing visual features of unseen classes to mitigate the data-imbalance problem in GZSL. However, the original visual feature space is suboptimal for GZSL classification since it lacks discriminative information. To tackle this issue, we propose to integrate the generation model with the embedding model, yielding a hybrid GZSL framework. The hybrid GZSL approach maps both the real and the synthetic samples produced by the generation model into an embedding space, where we perform the final GZSL classification. Specifically, we propose a contrastive embedding (CE) for our hybrid GZSL framework. The proposed contrastive embedding can leverage not only the class-wise supervision but also the instance-wise supervision, where the latter is usually neglected by existing GZSL researches. We evaluate our proposed hybrid GZSL framework with contrastive embedding, named CE-GZSL, on five benchmark datasets. The results show that our CEGZSL method can outperform the state-of-the-arts by a significant margin on three datasets. Our codes are available on https://github.com/H anzy1996/CE-GZSL.
翻訳日:2021-03-31 15:14:51 公開日:2021-03-30
# クロスドメイン群衆数における自己スーパービジョンの活用

Leveraging Self-Supervision for Cross-Domain Crowd Counting ( http://arxiv.org/abs/2103.16291v1 )

ライセンス: Link先を確認
Weizhe Liu, Nikita Durasov, Pascal Fua(参考訳) 混雑したシーンで人々を数えるための最先端の手法は、群衆密度を推定するためにディープネットワークに依存している。 有効ではあるが、これらのデータ駆動アプローチは、優れたパフォーマンスを達成するために大量のデータアノテーションに依存しており、データアノテーションがコストがかかりすぎるか、十分な速さで取得できない緊急時にこれらのモデルがデプロイされなくなる。 一般的な解決策のひとつは、トレーニングに合成データを使用することだ。 残念なことに、ドメインシフトのため、結果のモデルは実際のイメージにあまり依存しない。 我々は,合成画像と関連ラベル,ラベル付き実画像の両方を訓練することにより,この欠点を解決した。 この目的のために,我々はネットワークに対して,通常の画像から逆さまの実際の画像を認識するようにトレーニングすることで,視点認識の特徴を学習させ,その不確実性を予測して,微調整目的に有用な擬似ラベルを生成できるようにする。 このアルゴリズムは、推論時に余分な計算をせずに、最先端のクロスドメイン群をカウントするアルゴリズムを一貫して上回る。

State-of-the-art methods for counting people in crowded scenes rely on deep networks to estimate crowd density. While effective, these data-driven approaches rely on large amount of data annotation to achieve good performance, which stops these models from being deployed in emergencies during which data annotation is either too costly or cannot be obtained fast enough. One popular solution is to use synthetic data for training. Unfortunately, due to domain shift, the resulting models generalize poorly on real imagery. We remedy this shortcoming by training with both synthetic images, along with their associated labels, and unlabeled real images. To this end, we force our network to learn perspective-aware features by training it to recognize upside-down real images from regular ones and incorporate into it the ability to predict its own uncertainty so that it can generate useful pseudo labels for fine-tuning purposes. This yields an algorithm that consistently outperforms state-of-the-art cross-domain crowd counting ones without any extra computation at inference time.
翻訳日:2021-03-31 15:14:31 公開日:2021-03-30
# 手術映像からのワークフロー認識のための時間記憶関連ネットワーク

Temporal Memory Relation Network for Workflow Recognition from Surgical Video ( http://arxiv.org/abs/2103.16327v1 )

ライセンス: Link先を確認
Yueming Jin, Yonghao Long, Cheng Chen, Zixu Zhao, Qi Dou, Pheng-Ann Heng(参考訳) 自動手術ワークフロー認識は,手術室内でコンテキスト認識型コンピュータ支援システムを開発する上で重要なコンポーネントである。 以前の作品は、短い固定範囲の時間情報で空間的特徴を共同でモデル化するか、視覚的および長期の時間的手がかりを別々に学習した。 本稿では,この特徴を補うために,長距離・多スケールの時空間パターンを関連付ける新たなエンドツーエンド時空間記憶関係ネットワーク(tmrnet)を提案する。 豊富な支援情報を格納するメモリセルとして、長距離メモリバンクを確立する。 設計した時間変化層により,複数スケールの時間のみの畳み込みにより,支援的手がかりがさらに強化される。 時空間特徴の連立学習を邪魔することなく2種類の手がかりを効果的に活用するために,過去と現在を注意深く関連づける非局所銀行事業者を導入する。 この点に関して、当社のTMRNetは、現在の機能を長期の時間的依存を見ることができるとともに、複雑な時間的依存を許容できる。 我々は、M2CAIチャレンジデータセットとCholec80データセットの2つのベンチマークビデオデータセットに対するアプローチを広範囲に検証した。 実験結果から, 最先端の手法を高いマージン(67.0%v.s)で連続的に上回り, 優れた性能を示すことができた。 78.9% の Jaccard on Cholec80 データセット)。

Automatic surgical workflow recognition is a key component for developing context-aware computer-assisted systems in the operating theatre. Previous works either jointly modeled the spatial features with short fixed-range temporal information, or separately learned visual and long temporal cues. In this paper, we propose a novel end-to-end temporal memory relation network (TMRNet) for relating long-range and multi-scale temporal patterns to augment the present features. We establish a long-range memory bank to serve as a memory cell storing the rich supportive information. Through our designed temporal variation layer, the supportive cues are further enhanced by multi-scale temporal-only convolutions. To effectively incorporate the two types of cues without disturbing the joint learning of spatio-temporal features, we introduce a non-local bank operator to attentively relate the past to the present. In this regard, our TMRNet enables the current feature to view the long-range temporal dependency, as well as tolerate complex temporal extents. We have extensively validated our approach on two benchmark surgical video datasets, M2CAI challenge dataset and Cholec80 dataset. Experimental results demonstrate the outstanding performance of our method, consistently exceeding the state-of-the-art methods by a large margin (e.g., 67.0% v.s. 78.9% Jaccard on Cholec80 dataset).
翻訳日:2021-03-31 15:14:13 公開日:2021-03-30
# Web サポートタスクを自動化するためのオープンドメインインストラクション

Grounding Open-Domain Instructions to Automate Web Support Tasks ( http://arxiv.org/abs/2103.16057v1 )

ライセンス: Link先を確認
Nancy Xu, Sam Masling, Michael Du, Giovanni Campagna, Larry Heck, James Landay, Monica S Lam(参考訳) 自然言語命令をweb上で接地して、これまで見つからなかったタスクを実行することで、アクセシビリティと自動化が可能になる。 私たちは、AIエージェントをオープンドメインからトレーニングするためのタスクとデータセットを導入します。 我々はこの問題に対処するためにRAS(Rapid Universal Support Service)を構築します。 russ氏は2つのモデルから成り立っている。 まず、ポインタを持つbert-lstmが命令を thingtalkにパースする。 次に、グラウンドモデルがThingTalkで要求されたWebページ要素のユニークなIDを取得する。 RUSSは対話(例)を通じてユーザと対話する。 アドレスを要求する)、またはweb操作を実行する(例えば、) Web ランタイム内のボタンをクリックします。 トレーニングを強化するために,ThingTalkにマップされた自然言語命令を合成する。 私たちのデータセットはヘルプサイトから80の異なるカスタマーサービス問題で構成されており、合計741のステップバイステップ命令とその対応アクションで構成されています。 RUSSは、単一の命令からエージェントアクションを予測するエンドツーエンドの精度76.7%を達成する。 ThingTalkを使わずに、指示を直接アクションにマップする最先端モデルよりも優れています。 ユーザ調査の結果,RASはWebナビゲーションよりも実際のユーザの方が望ましいことがわかった。

Grounding natural language instructions on the web to perform previously unseen tasks enables accessibility and automation. We introduce a task and dataset to train AI agents from open-domain, step-by-step instructions originally written for people. We build RUSS (Rapid Universal Support Service) to tackle this problem. RUSS consists of two models: First, a BERT-LSTM with pointers parses instructions to ThingTalk, a domain-specific language we design for grounding natural language on the web. Then, a grounding model retrieves the unique IDs of any webpage elements requested in ThingTalk. RUSS may interact with the user through a dialogue (e.g. ask for an address) or execute a web operation (e.g. click a button) inside the web runtime. To augment training, we synthesize natural language instructions mapped to ThingTalk. Our dataset consists of 80 different customer service problems from help websites, with a total of 741 step-by-step instructions and their corresponding actions. RUSS achieves 76.7% end-to-end accuracy predicting agent actions from single instructions. It outperforms state-of-the-art models that directly map instructions to actions without ThingTalk. Our user study shows that RUSS is preferred by actual users over web navigation.
翻訳日:2021-03-31 15:13:38 公開日:2021-03-30
# Afriki: マシン・イン・ザ・ループのAfrikaans Poetry Generation

AfriKI: Machine-in-the-Loop Afrikaans Poetry Generation ( http://arxiv.org/abs/2103.16190v1 )

ライセンス: Link先を確認
Imke van Heerden and Anil Bas(参考訳) 本稿では,Afrikiと呼ばれる生成言語モデルを提案する。 我々のアプローチは、現代フィクションの小さなコーパスに基づいて訓練されたLSTMアーキテクチャに基づいている。 人間の創造性を促進すべく、我々はこのモデルをオーサリングツールとして使用し、Afrikaansの詩生成機を探索する。 私たちの知る限り、アフリカーンス語で創造的なテキスト生成を試みた最初の研究です。

This paper proposes a generative language model called AfriKI. Our approach is based on an LSTM architecture trained on a small corpus of contemporary fiction. With the aim of promoting human creativity, we use the model as an authoring tool to explore machine-in-the-loop Afrikaans poetry generation. To our knowledge, this is the first study to attempt creative text generation in Afrikaans.
翻訳日:2021-03-31 15:13:20 公開日:2021-03-30
# 繰り返しHPOおよびNAS問題の資源効率向上手法

A resource-efficient method for repeated HPO and NAS problems ( http://arxiv.org/abs/2103.16111v1 )

ライセンス: Link先を確認
Giovanni Zappella, David Salinas, C\'edric Archambeau(参考訳) 本研究では,過パラメータとニューラルアーキテクチャ探索(HNAS)の繰り返し問題を考察する。 本稿では,従来のHNAS問題から得られる情報を,計算資源の節約を目的とした逐次的Halvingの拡張を提案する。 提案手法は, 精度を保ちながらコストを大幅に削減し, 負の移動に対して堅牢であることを示す。 提案手法は,HNASにおけるトランスファー学習の新たなベースラインを設定することで,競合するトランスファー学習手法よりもはるかに単純である。

In this work we consider the problem of repeated hyperparameter and neural architecture search (HNAS). We propose an extension of Successive Halving that is able to leverage information gained in previous HNAS problems with the goal of saving computational resources. We empirically demonstrate that our solution is able to drastically decrease costs while maintaining accuracy and being robust to negative transfer. Our method is significantly simpler than competing transfer learning approaches, setting a new baseline for transfer learning in HNAS.
翻訳日:2021-03-31 15:12:59 公開日:2021-03-30
# 画像を超えた深部異常検出のためのニューラルトランスフォーメーション学習

Neural Transformation Learning for Deep Anomaly Detection Beyond Images ( http://arxiv.org/abs/2103.16440v1 )

ライセンス: Link先を確認
Chen Qiu, Timo Pfrommer, Marius Kloft, Stephan Mandt, Maja Rudolph(参考訳) データ変換(例) 回転、反射、収穫)は自己監督学習において重要な役割を果たす。 通常、画像は異なるビューに変換され、これらのビューを含むタスクでトレーニングされたニューラルネットワークは、異常検出を含む下流タスクに有用な特徴表現を生成する。 しかし、画像データ以外の異常検出では、どの変換を使うべきかはよくわからない。 本稿では,学習可能な変換を伴う異常検出のための単純なエンドツーエンド手順を提案する。 重要なアイデアは、変換されたデータを意味空間に埋め込むことであり、変換されたデータは変換されていない形式にまだ似ているが、異なる変換は容易に区別できる。 時系列に関する広範囲な実験により,one-vs.-rest設定において既存の手法を著しく上回っているだけでなく,より困難なn-vs.-rest異常検出タスクにおいても有意な性能を示した。 医療・サイバーセキュリティ領域の表型データセットにおいて,本手法はドメイン固有の変換を学習し,従来よりも正確な異常を検出する。

Data transformations (e.g. rotations, reflections, and cropping) play an important role in self-supervised learning. Typically, images are transformed into different views, and neural networks trained on tasks involving these views produce useful feature representations for downstream tasks, including anomaly detection. However, for anomaly detection beyond image data, it is often unclear which transformations to use. Here we present a simple end-to-end procedure for anomaly detection with learnable transformations. The key idea is to embed the transformed data into a semantic space such that the transformed data still resemble their untransformed form, while different transformations are easily distinguishable. Extensive experiments on time series demonstrate that we significantly outperform existing methods on the one-vs.-rest setting but also on the more challenging n-vs.-rest anomaly-detection task. On tabular datasets from the medical and cyber-security domains, our method learns domain-specific transformations and detects anomalies more accurately than previous work.
翻訳日:2021-03-31 15:12:50 公開日:2021-03-30
# 機械学習技術を用いたスマートフォンからの人間の活動分析と認識

Human Activity Analysis and Recognition from Smartphones using Machine Learning Techniques ( http://arxiv.org/abs/2103.16490v1 )

ライセンス: Link先を確認
Jakaria Rabbi, Md. Tahmid Hasan Fuad, Md. Abdul Awal(参考訳) 人間活動認識(HAR)は、過去数十年で重要な研究トピックであると考えられている。 この目的のために異なるタイプの機械学習モデルが使われており、これは機械による人間の行動分析の一部となっている。 複雑な高次元のウェアラブルセンサーからデータを分析するのは簡単な作業ではありません。 現在、研究者は主にスマートフォンやスマートホームセンサーを使ってデータを収集している。 本稿では,これらのデータを機械学習モデルを用いて分析し,身体的および精神的な健康状態のモニタリングなど,多くの目的で現在広く使用されている人間の活動を認識する。 異なる機械学習モデルを適用し、パフォーマンスを比較する。 ベンチマークモデルとしてロジスティック回帰(lr)を使用して,データセット上での単純性と優れたパフォーマンスを比較した結果,決定木(dt),サポートベクターマシン(svm),ランダムフォレスト(rf),人工ニューラルネットワーク(ann)を採用した。 さらに,グリッド探索により各モデルに最適なパラメータ群を選択する。 UCI Machine Learning RepositoryのHARデータセットを標準データセットとして使用して、モデルのトレーニングとテストを行います。 この分析を通して、Support Vector Machineが他の手法よりもはるかに優れている(平均精度96.33%)ことが分かる。 また,統計的意義試験法を用いて統計的に有意であることを示す。

Human Activity Recognition (HAR) is considered a valuable research topic in the last few decades. Different types of machine learning models are used for this purpose, and this is a part of analyzing human behavior through machines. It is not a trivial task to analyze the data from wearable sensors for complex and high dimensions. Nowadays, researchers mostly use smartphones or smart home sensors to capture these data. In our paper, we analyze these data using machine learning models to recognize human activities, which are now widely used for many purposes such as physical and mental health monitoring. We apply different machine learning models and compare performances. We use Logistic Regression (LR) as the benchmark model for its simplicity and excellent performance on a dataset, and to compare, we take Decision Tree (DT), Support Vector Machine (SVM), Random Forest (RF), and Artificial Neural Network (ANN). Additionally, we select the best set of parameters for each model by grid search. We use the HAR dataset from the UCI Machine Learning Repository as a standard dataset to train and test the models. Throughout the analysis, we can see that the Support Vector Machine performed (average accuracy 96.33%) far better than the other methods. We also prove that the results are statistically significant by employing statistical significance test methods.
翻訳日:2021-03-31 15:12:34 公開日:2021-03-30
# フラットランド・コンペティション2020:MAPFとMARLのグリッドワールドにおける効率的な列車調整

Flatland Competition 2020: MAPF and MARL for Efficient Train Coordination on a Grid World ( http://arxiv.org/abs/2103.16511v1 )

ライセンス: Link先を確認
Florian Laurent, Manuel Schneider, Christian Scheller, Jeremy Watson, Jiaoyang Li, Zhe Chen, Yi Zheng, Shao-Hung Chan, Konstantin Makhnev, Oleg Svidchenko, Vladimir Egorov, Dmitry Ivanov, Aleksei Shpilman, Evgenija Spirovska, Oliver Tanevski, Aleksandar Nikov, Ramon Grunder, David Galevski, Jakov Mitrovski, Guillaume Sartoretti, Zhiyao Luo, Mehul Damani, Nilabha Bhattacharya, Shivam Agarwal, Adrian Egli, Erik Nygren, Sharada Mohanty(参考訳) フラットランド・コンペティションは、車両再スケジュール問題(vrsp)を解決するための新しいアプローチを見つけることを目的とした。 VRSPは、例えば車両の故障などの混乱が発生した場合、交通ネットワークでの旅行のスケジュールと車両の再スケジュールに関するものである。 様々な環境でVRSPを解くことは、何十年にもわたって運用研究(OR)の活発な領域であったが、現代の鉄道網の複雑さは、交通の動的リアルタイムスケジューリングを事実上不可能にしている。 近年,マルチエージェント強化学習(MARL)は,マルチプレイヤーゲームなど,多くのエージェントをコーディネートする必要がある課題に対処することに成功した。 しかし、鉄道ネットワークのような現実の環境で数百人のエージェントの協調は依然として困難であり、競争に使用されるフラットランド環境はこれらの現実のプロパティを簡易にモデル化する。 提案はできるだけ多くの列車(エイジェント)を目標駅にできるだけ短時間で持ち込む必要があった。 最も優れた応募はORカテゴリーであったが、参加者は多くの有望なMARLアプローチを発見した。 集中型学習と分散型学習の両方のアプローチを用いて、トップサブミッションは、木に基づく観察を構築するために環境のグラフ表現を使用した。 さらに、エージェント間のコミュニケーションや優先順位付けなど、異なる調整機構が実装された。 本稿では,コンペティションのセットアップ,コンペティションに対する4つの優れたソリューション,それらの相互比較について述べる。

The Flatland competition aimed at finding novel approaches to solve the vehicle re-scheduling problem (VRSP). The VRSP is concerned with scheduling trips in traffic networks and the re-scheduling of vehicles when disruptions occur, for example the breakdown of a vehicle. While solving the VRSP in various settings has been an active area in operations research (OR) for decades, the ever-growing complexity of modern railway networks makes dynamic real-time scheduling of traffic virtually impossible. Recently, multi-agent reinforcement learning (MARL) has successfully tackled challenging tasks where many agents need to be coordinated, such as multiplayer video games. However, the coordination of hundreds of agents in a real-life setting like a railway network remains challenging and the Flatland environment used for the competition models these real-world properties in a simplified manner. Submissions had to bring as many trains (agents) to their target stations in as little time as possible. While the best submissions were in the OR category, participants found many promising MARL approaches. Using both centralized and decentralized learning based approaches, top submissions used graph representations of the environment to construct tree-based observations. Further, different coordination mechanisms were implemented, such as communication and prioritization between agents. This paper presents the competition setup, four outstanding solutions to the competition, and a cross-comparison between them.
翻訳日:2021-03-31 15:12:12 公開日:2021-03-30
# 帯域フィードバックを用いた確率的非凸最適化

Optimal Stochastic Nonconvex Optimization with Bandit Feedback ( http://arxiv.org/abs/2103.16082v1 )

ライセンス: Link先を確認
Puning Zhao and Lifeng Lai(参考訳) 本稿では,非凸コスト関数に対する連続武装バンディット問題を,一定の平滑性と部分レベル集合仮定の下で解析する。 まず,単純なビン分割法に期待される累積的後悔の上限を導出する。 次に,適応的なビン分割法を提案し,性能を著しく向上させる。 さらに, 最小値下限を導出することにより, 新しい適応法が極小値最適累積残差を局所的に達成することを示す。

In this paper, we analyze the continuous armed bandit problems for nonconvex cost functions under certain smoothness and sublevel set assumptions. We first derive an upper bound on the expected cumulative regret of a simple bin splitting method. We then propose an adaptive bin splitting method, which can significantly improve the performance. Furthermore, a minimax lower bound is derived, which shows that our new adaptive method achieves locally minimax optimal expected cumulative regret.
翻訳日:2021-03-31 15:11:47 公開日:2021-03-30
# 非線形重み付き非巡回グラフとニューラルネットワークの事前推定

Nonlinear Weighted Directed Acyclic Graph and A Priori Estimates for Neural Networks ( http://arxiv.org/abs/2103.16355v1 )

ライセンス: Link先を確認
Yuqing Li, Tao Luo, Chao Ma(参考訳) 深層ニューラルネットワークの構造的利点と一般化能力をよりよく理解するために、まず、完全連結、残留ネットワーク〜(ResNet)および密連結ネットワーク〜(DenseNet)を含むニューラルネットワークモデルの新しいグラフ理論的定式化を提案する。 次に、2層ネットワーク〜\cite{ew2019prioriTwo} と ResNet~\cite{e2019prioriRes} の集団リスクの誤差解析をDenseNetに拡張し、ある穏やかな条件を満たすニューラルネットワークに対して、同様の推定値が得られることを示す。 これらの推定は、トレーニングプロセス以前の情報、特に推定誤差の境界が入力次元から独立しているため、本質的には優先順位である。

In an attempt to better understand structural benefits and generalization power of deep neural networks, we firstly present a novel graph theoretical formulation of neural network models, including fully connected, residual network~(ResNet) and densely connected networks~(DenseNet). Secondly, we extend the error analysis of the population risk for two layer network~\cite{ew2019prioriTwo} and ResNet~\cite{e2019prioriRes} to DenseNet, and show further that for neural networks satisfying certain mild conditions, similar estimates can be obtained. These estimates are a priori in nature since they depend sorely on the information prior to the training process, in particular, the bounds for the estimation errors are independent of the input dimension.
翻訳日:2021-03-31 15:11:41 公開日:2021-03-30
# 単位lp球上のシナプス重みの制約によるスパースニューラルネットワークの訓練

Training Sparse Neural Network by Constraining Synaptic Weight on Unit Lp Sphere ( http://arxiv.org/abs/2103.16013v1 )

ライセンス: Link先を確認
Weipeng Li, Xiaogang Yang, Chuanxiang Li, Ruitao Lu, Xueli Xie(参考訳) スパース深層ニューラルネットワークは、パラメータが少なく計算効率の高い密集したモデルよりもそのアドバンテージを示している。 ここでは, 単位Lp-球面上のシナプス重みを制約することにより, p で空間を柔軟に制御し, ニューラルネットワークの一般化能力を向上させることを実証する。 第一に、単位Lp-球面に制約されたシナプス重みを最適化するために、パラメータ最適化アルゴリズム、Lp-球面勾配勾配(LpSGD)は、理論的に収束することが証明された経験的リスク最小化条件から導かれる。 p がホイヤーのスパース性にどのように影響するかを理解するために、ガンマ分布の仮説に基づくホイヤーのスパース性への期待が与えられ、異なる条件下で様々な p において予測が検証される。 さらに、"semi-pruning"としきい値適応は、トポロジーの進化のために設計され、重要な接続を効果的にスクリーニングし、ニューラルネットワークが初期スパーシティから期待されるスパーシティへと収束する。 このアプローチは、幅広いドメインをカバーするベンチマークデータセットの実験によって検証されます。 そして理論的解析は、制約付き最適化によるスパースニューラルネットワークのトレーニングへの道を開く。

Sparse deep neural networks have shown their advantages over dense models with fewer parameters and higher computational efficiency. Here we demonstrate constraining the synaptic weights on unit Lp-sphere enables the flexibly control of the sparsity with p and improves the generalization ability of neural networks. Firstly, to optimize the synaptic weights constrained on unit Lp-sphere, the parameter optimization algorithm, Lp-spherical gradient descent (LpSGD) is derived from the augmented Empirical Risk Minimization condition, which is theoretically proved to be convergent. To understand the mechanism of how p affects Hoyer's sparsity, the expectation of Hoyer's sparsity under the hypothesis of gamma distribution is given and the predictions are verified at various p under different conditions. In addition, the "semi-pruning" and threshold adaptation are designed for topology evolution to effectively screen out important connections and lead the neural networks converge from the initial sparsity to the expected sparsity. Our approach is validated by experiments on benchmark datasets covering a wide range of domains. And the theoretical analysis pave the way to future works on training sparse neural networks with constrained optimization.
翻訳日:2021-03-31 15:11:10 公開日:2021-03-30
# PointBA: 3D Point Cloudでのバックドア攻撃に向けて

PointBA: Towards Backdoor Attacks in 3D Point Cloud ( http://arxiv.org/abs/2103.16074v1 )

ライセンス: Link先を確認
Xinke Li, Zhiru Chen, Yue Zhao, Zekun Tong, Yabang Zhao, Andrew Lim, Joey Tianyi Zhou(参考訳) 3Dディープラーニングは、安全クリティカルなアプリケーションを含むさまざまなタスクでますます人気を集めています。 しかし、近年、いくつかの研究が3dディープネットのセキュリティ問題を提起している。 これらの作品の多くは逆境攻撃を考慮しているが、バックドア攻撃は3d深層学習システムにとってより深刻な脅威であることは間違いない。 3dのバックドア攻撃を,3dデータとネットワークのユニークな特性を利用する統一フレームワークで提示する。 特に, 毒ラベル攻撃とクリーンラベル攻撃の2つの攻撃アプローチをデザインした。 1つ目は単純かつ効果的で、2つめは特定のデータ検査があると仮定してより洗練されたものです。 攻撃アルゴリズムは,1)空間変換下での3次元深層ネットの脆弱性を実証する最近の3次元逆サンプルの発見,2)最適化手法と新しいタスクを組み込む可能性によってデータの特徴を操作する特徴異角化手法によって,主に動機づけられ,開発された。 広範な実験により、いくつかの3dデータセットとモデルで95%以上の成功率を持つ毒ラベル攻撃の有効性と、約50%の成功率でデータフィルタリングに対するクリーンラベル攻撃の能力が示された。 提案するバックドア攻撃は,3次元深部モデルの堅牢性向上のためのベースラインとして期待できる。

3D deep learning has been increasingly more popular for a variety of tasks including many safety-critical applications. However, recently several works raise the security issues of 3D deep nets. Although most of these works consider adversarial attacks, we identify that backdoor attack is indeed a more serious threat to 3D deep learning systems but remains unexplored. We present the backdoor attacks in 3D with a unified framework that exploits the unique properties of 3D data and networks. In particular, we design two attack approaches: the poison-label attack and the clean-label attack. The first one is straightforward and effective in practice, while the second one is more sophisticated assuming there are certain data inspections. The attack algorithms are mainly motivated and developed by 1) the recent discovery of 3D adversarial samples which demonstrate the vulnerability of 3D deep nets under spatial transformations; 2) the proposed feature disentanglement technique that manipulates the feature of the data through optimization methods and its potential to embed a new task. Extensive experiments show the efficacy of the poison-label attack with over 95% success rate across several 3D datasets and models, and the ability of clean-label attack against data filtering with around 50% success rate. Our proposed backdoor attack in 3D point cloud is expected to perform as a baseline for improving the robustness of 3D deep models.
翻訳日:2021-03-31 15:10:49 公開日:2021-03-30
# FONTNET: デバイス上のフォント理解と予測パイプライン

FONTNET: On-Device Font Understanding and Prediction Pipeline ( http://arxiv.org/abs/2103.16150v1 )

ライセンス: Link先を確認
Rakshith S, Rishabh Khurana, Vibhav Agarwal, Jayesh Rajkumar Vachhani, Guggilla Bhanodai(参考訳) フォントは最もベーシックで中核的なデザインコンセプトの1つです。 多くのユースケースは、スタイル、色、サイズといったフォント属性を維持しながら、画像内のテキストを変更することができるText Customizationのようなフォントの深い理解の恩恵を受けることができる。 現在、テキスト認識ソリューションは、認識されたテキストをラインブレークまたは段落ブレークに基づいてグループ化することができ、フォント属性が知られている場合、複数のテキストブロックを意味のある方法でコンテキストに基づいて結合することができる。 本稿では,画像中のテキストのフォントスタイル,色,大きさの属性を識別するフォント検出エンジンと,問合せフォントの類似フォントを予測するフォント予測エンジンの2つのエンジンを提案する。 まず、画像中のテキストのフォントスタイルを識別するための新しいcnnアーキテクチャを開発しました。 第2に、与えられたクエリフォントの類似フォントを予測するための新しいアルゴリズムを設計した。 第3に,インスタントメッセージングなどのリアルタイムアプリケーションにおいて,プライバシを確保し,レイテンシを改善するエンジンのオンデバイス全体を最適化し,デプロイしました。 両エンジンで30msのオンデバイス推論時間と4.5MBのモデルサイズを実現した。

Fonts are one of the most basic and core design concepts. Numerous use cases can benefit from an in depth understanding of Fonts such as Text Customization which can change text in an image while maintaining the Font attributes like style, color, size. Currently, Text recognition solutions can group recognized text based on line breaks or paragraph breaks, if the Font attributes are known multiple text blocks can be combined based on context in a meaningful manner. In this paper, we propose two engines: Font Detection Engine, which identifies the font style, color and size attributes of text in an image and a Font Prediction Engine, which predicts similar fonts for a query font. Major contributions of this paper are three-fold: First, we developed a novel CNN architecture for identifying font style of text in images. Second, we designed a novel algorithm for predicting similar fonts for a given query font. Third, we have optimized and deployed the entire engine On-Device which ensures privacy and improves latency in real time applications such as instant messaging. We achieve a worst case On-Device inference time of 30ms and a model size of 4.5MB for both the engines.
翻訳日:2021-03-31 15:10:28 公開日:2021-03-30
# ミトコンドリア検出における走査型ドメインギャップの定量化

Quantifying the Scanner-Induced Domain Gap in Mitosis Detection ( http://arxiv.org/abs/2103.16515v1 )

ライセンス: Link先を確認
Marc Aubreville, Christof Bertram, Mitko Veta, Robert Klopfleisch, Nikolas Stathonikos, Katharina Breininger, Natalie ter Hoeve, Francesco Ciompi, and Andreas Maier(参考訳) 病理組織像における有糸分裂像の自動検出は、現代のディープラーニングベースのパイプラインのおかげで大幅に改善されている。 しかし、これらの手法の適用は、実際には実験室間の画像の強いばらつきによって制限されている。 これにより、画像のドメインシフトが発生し、モデルのパフォーマンスが低下する。 この効果においてスキャナ装置が決定的な役割を担っていると仮定し、異なるスライドスキャナを用いて導入したドメインシフトに対する標準ミトーシス検出アプローチの感受性を評価した。 私たちの研究は、ヒト乳癌200例とスキャナー4例を含む、MICCAI-MIDOG Challenge 2021データセットに基づいています。 本研究は, 生物化学的変動ではなく, 純粋に取得装置の選択によるドメインシフトが過小評価されていることを示す。 同じスキャナーの画像でトレーニングされたモデルは平均F1スコアが0.683、他のスキャナーでトレーニングされたモデルは平均F1スコアが0.325であった。 別のマルチドメインミオシスデータセットのトレーニングにより、F1スコアは0.52となった。 これは距離由来の計量をプロキシとして測定したドメインシフトに反映されないことが分かりました。

Automated detection of mitotic figures in histopathology images has seen vast improvements, thanks to modern deep learning-based pipelines. Application of these methods, however, is in practice limited by strong variability of images between labs. This results in a domain shift of the images, which causes a performance drop of the models. Hypothesizing that the scanner device plays a decisive role in this effect, we evaluated the susceptibility of a standard mitosis detection approach to the domain shift introduced by using a different whole slide scanner. Our work is based on the MICCAI-MIDOG challenge 2021 data set, which includes 200 tumor cases of human breast cancer and four scanners. Our work indicates that the domain shift induced not by biochemical variability but purely by the choice of acquisition device is underestimated so far. Models trained on images of the same scanner yielded an average F1 score of 0.683, while models trained on a single other scanner only yielded an average F1 score of 0.325. Training on another multi-domain mitosis dataset led to mean F1 scores of 0.52. We found this not to be reflected by domain-shifts measured as proxy A distance-derived metric.
翻訳日:2021-03-31 15:10:10 公開日:2021-03-30
# 野生の動画からの3dオブジェクトカテゴリの教師なし学習

Unsupervised Learning of 3D Object Categories from Videos in the Wild ( http://arxiv.org/abs/2103.16552v1 )

ライセンス: Link先を確認
Philipp Henzler, Jeremy Reizenstein, Patrick Labatut, Roman Shapovalov, Tobias Ritschel, Andrea Vedaldi, David Novotny(参考訳) 我々のゴールは、与えられたカテゴリのオブジェクトの少数の画像から、それを3Dで再構成するディープネットワークを学習することである。 いくつかの最近の研究は、合成データやキーポイントのような2次元プリミティブの可用性を仮定して、類似した結果を得たが、我々は、実際のデータに挑戦し、手動のアノテーションなしで作業することに興味を持っている。 したがって、多数のオブジェクトインスタンスの複数のビューからモデルを学ぶことに集中する。 私たちは、このクラスのモデルのトレーニングとベンチマークに適した、オブジェクト中心のビデオの大規模なデータセットにコントリビュートします。 メッシュやボクセル,あるいは暗黙のサーフェスを活用する既存のテクニックは,分離されたオブジェクトの再構築に適しており,この困難なデータに失敗することを示す。 最後に,WCR(ワープコンディショニング・レイ・埋め込み)と呼ばれるニューラルニューラルネットワークの設計を提案する。この設計では,物体表面とテクスチャの詳細な暗黙的な表現を得るとともに,学習過程をブートストラップした初期SfM再構成のノイズを補償する。 本評価では,既存のベンチマークと新しいデータセットに基づいて,複数の深い単分子再構成ベースラインの性能向上を示す。

Our goal is to learn a deep network that, given a small number of images of an object of a given category, reconstructs it in 3D. While several recent works have obtained analogous results using synthetic data or assuming the availability of 2D primitives such as keypoints, we are interested in working with challenging real data and with no manual annotations. We thus focus on learning a model from multiple views of a large collection of object instances. We contribute with a new large dataset of object centric videos suitable for training and benchmarking this class of models. We show that existing techniques leveraging meshes, voxels, or implicit surfaces, which work well for reconstructing isolated objects, fail on this challenging data. Finally, we propose a new neural network design, called warp-conditioned ray embedding (WCR), which significantly improves reconstruction while obtaining a detailed implicit representation of the object surface and texture, also compensating for the noise in the initial SfM reconstruction that bootstrapped the learning process. Our evaluation demonstrates performance improvements over several deep monocular reconstruction baselines on existing benchmarks and on our novel dataset.
翻訳日:2021-03-31 15:09:53 公開日:2021-03-30
# 表情学習のための事前学習戦略とデータセット

Pre-training strategies and datasets for facial representation learning ( http://arxiv.org/abs/2103.16554v1 )

ライセンス: Link先を確認
Adrian Bulat and Shiyang Cheng and Jing Yang and Andrew Garbett and Enrique Sanchez and Georgios Tzimiropoulos(参考訳) 普遍的な顔表現を学ぶ最善の方法は何か? 顔分析分野におけるディープラーニングに関する最近の研究は、特定の課題(例えば、)に対する教師あり学習に焦点を当てている。 顔認識、顔のランドマークのローカライゼーションなど しかし、いくつかの顔分析タスクやデータセットに容易に適応できる顔の表現を見つける方法に関する包括的な質問は見落としている。 a) 5つの重要な顔分析タスクからなる顔表現学習のための総合的評価ベンチマークを初めて紹介する。 b) 顔に適用する大規模表現学習の方法として,教師なしと教師なし事前学習の2つを体系的に検討した。 重要なことは、数発の顔学習の場合に焦点をあてることである。 (c) トレーニングデータセットの規模や品質(ラベルなし, ラベルなし, あるいは未修正)を含む重要な特性について検討する。 (d) 結論を導き出すため, 非常に多くの実験を行った。 主な2つの発見は, (1) 完全に管理されていない未処理データに対する教師なし事前訓練は, 一貫性があり, 場合によっては, 考慮されたすべての顔タスクの精度が大幅に向上する。 2)既存の顔画像データセットの多くは冗長性が高いと考えられる。 将来の研究を促進するために、コード、事前訓練されたモデル、データをリリースします。

What is the best way to learn a universal face representation? Recent work on Deep Learning in the area of face analysis has focused on supervised learning for specific tasks of interest (e.g. face recognition, facial landmark localization etc.) but has overlooked the overarching question of how to find a facial representation that can be readily adapted to several facial analysis tasks and datasets. To this end, we make the following 4 contributions: (a) we introduce, for the first time, a comprehensive evaluation benchmark for facial representation learning consisting of 5 important face analysis tasks. (b) We systematically investigate two ways of large-scale representation learning applied to faces: supervised and unsupervised pre-training. Importantly, we focus our evaluations on the case of few-shot facial learning. (c) We investigate important properties of the training datasets including their size and quality (labelled, unlabelled or even uncurated). (d) To draw our conclusions, we conducted a very large number of experiments. Our main two findings are: (1) Unsupervised pre-training on completely in-the-wild, uncurated data provides consistent and, in some cases, significant accuracy improvements for all facial tasks considered. (2) Many existing facial video datasets seem to have a large amount of redundancy. We will release code, pre-trained models and data to facilitate future research.
翻訳日:2021-03-31 15:09:33 公開日:2021-03-30
# パノプティカルマッピングとCADモデルアライメントによるインタラクティブ3次元シーンの再構築

Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model Alignments ( http://arxiv.org/abs/2103.16095v1 )

ライセンス: Link先を確認
Muzhi Han, Zeyu Zhang, Ziyuan Jiao, Xu Xie, Yixin Zhu, Song-Chun Zhu, Hangxin Liu(参考訳) 本稿では,エージェントの視点からシーン復元の問題を再考する:古典的視点は再構成精度に焦点をあてるが,新しい視点では,再構成されたシーンがエージェントと<em{interactions}をシミュレートするための<em{actionable}情報を提供するような,基本的な機能と制約を強調している。 本稿では,rgb-dデータストリームを用いてインタラクティブなシーンを再構成し,(i)3次元ボリュームパノタイプマッピングモジュールによってオブジェクトとレイアウトの意味と形状をキャプチャし,(ii)グラフベースのシーン表現によって整理されたオブジェクト間の物理的共通感覚を推論することにより,オブジェクトのアフォーマンスとコンテクストの関係を捉えることで,この課題を解決する。 重要なことに、この再構成されたシーンは、密集したパノプティクスマップのオブジェクトメッシュを、よりきめ細かなロボットインタラクションのための部分ベースのCADモデルに置き換える。 実験では,<i>Panoptic mapping module</i>が従来の最先端手法より優れており,(ii)オブジェクトのメッシュと最適なCADモデルとの整合,整合,置換を行う高性能な物理的推論手順,(iii)再構成シーンは物理的に可視であり,自然に動作可能な相互作用が可能であること,(iii)手動ラベリングなしではROSベースのシミュレータや複雑なロボットタスクの実行環境にシームレスにインポートされることを示した。

In this paper, we rethink the problem of scene reconstruction from an embodied agent's perspective: While the classic view focuses on the reconstruction accuracy, our new perspective emphasizes the underlying functions and constraints such that the reconstructed scenes provide \em{actionable} information for simulating \em{interactions} with agents. Here, we address this challenging problem by reconstructing an interactive scene using RGB-D data stream, which captures (i) the semantics and geometry of objects and layouts by a 3D volumetric panoptic mapping module, and (ii) object affordance and contextual relations by reasoning over physical common sense among objects, organized by a graph-based scene representation. Crucially, this reconstructed scene replaces the object meshes in the dense panoptic map with part-based articulated CAD models for finer-grained robot interactions. In the experiments, we demonstrate that (i) our panoptic mapping module outperforms previous state-of-the-art methods, (ii) a high-performant physical reasoning procedure that matches, aligns, and replaces objects' meshes with best-fitted CAD models, and (iii) reconstructed scenes are physically plausible and naturally afford actionable interactions; without any manual labeling, they are seamlessly imported to ROS-based simulators and virtual environments for complex robot task executions.
翻訳日:2021-03-31 15:09:16 公開日:2021-03-30
# プログラム合成の幾何学

Geometry of Program Synthesis ( http://arxiv.org/abs/2103.16080v1 )

ライセンス: Link先を確認
James Clift, Daniel Murfet, James Wallbridge(参考訳) チューリング機械の合成に基づく普遍計算の再評価を行う。 これはプログラムを解析多様体の特異点として、あるいは同値に合成問題のベイズ後方の位相として見ることに繋がる。 この新たな視点は、例えば相転移、複雑性、一般化に関して、ニューラルネットワークがサブセットであるプログラム合成の研究の未検討の方向性を明らかにする。 また、簡単な実験のコードによる実装を報告することで、これらの新しい方向性の実証的な基礎を築きます。

We re-evaluate universal computation based on the synthesis of Turing machines. This leads to a view of programs as singularities of analytic varieties or, equivalently, as phases of the Bayesian posterior of a synthesis problem. This new point of view reveals unexplored directions of research in program synthesis, of which neural networks are a subset, for example in relation to phase transitions, complexity and generalisation. We also lay the empirical foundations for these new directions by reporting on our implementation in code of some simple experiments.
翻訳日:2021-03-31 15:08:19 公開日:2021-03-30
# EnergyVis:MLモデルの相互追跡とエネルギー消費の探索

EnergyVis: Interactively Tracking and Exploring Energy Consumption for ML Models ( http://arxiv.org/abs/2103.16435v1 )

ライセンス: Link先を確認
Omar Shaikh, Jon Saad-Falcon, Austin P Wright, Nilaksh Das, Scott Freitas, Omar Isaac Asensio, Duen Horng Chau(参考訳) 機械学習(ML)モデルの出現により、コンピュータビジョンから自然言語まで、さまざまなモデリングタスクにおける最先端(SOTA)のパフォーマンスが改善された。 MLモデルのサイズが大きくなるにつれて、それぞれのエネルギー消費や計算要求も増加する。 しかし、エネルギー消費を追跡、報告、比較する方法は限られている。 本稿では,MLモデルの対話型エネルギー消費トラッカーであるEnergyVisを紹介する。 複数の協調ビューで構成されたEnergyVisは、研究者が主要なエネルギー消費と炭素フットプリントメトリクス(kWhとCO2)にわたるモデルエネルギー消費のインタラクティブな追跡、可視化、比較を可能にする。 EnergyVisは、モデルトレーニング中に過剰なエネルギー使用をインタラクティブに強調し、エネルギー使用を減らすための代替のトレーニングオプションを提供することによって、計算サステナビリティに関する意識を高めることを目的としている。

The advent of larger machine learning (ML) models have improved state-of-the-art (SOTA) performance in various modeling tasks, ranging from computer vision to natural language. As ML models continue increasing in size, so does their respective energy consumption and computational requirements. However, the methods for tracking, reporting, and comparing energy consumption remain limited. We presentEnergyVis, an interactive energy consumption tracker for ML models. Consisting of multiple coordinated views, EnergyVis enables researchers to interactively track, visualize and compare model energy consumption across key energy consumption and carbon footprint metrics (kWh and CO2), helping users explore alternative deployment locations and hardware that may reduce carbon footprints. EnergyVis aims to raise awareness concerning computational sustainability by interactively highlighting excessive energy usage during model training; and by providing alternative training options to reduce energy usage.
翻訳日:2021-03-31 15:08:11 公開日:2021-03-30
# ランダム特徴モデルにおける最小複雑性補間

Minimum complexity interpolation in random features models ( http://arxiv.org/abs/2103.15996v1 )

ライセンス: Link先を確認
Michael Celentano, Theodor Misiakiewicz, Andrea Montanari(参考訳) 多くの魅力的な性質にもかかわらず、カーネルメソッドは次元性の呪いの影響を強く受けている。 例えば、$\mathbb{r}^d$ の内部積核の場合、再生成核ヒルベルト空間(英語版)(rkhs)ノルムは、方向の小さな部分集合(リッジ関数)に強く依存する函数に対して非常に大きい。 それに対応して、そのような関数はカーネルメソッドを使って学習するのは難しい。 この観察は、カーネルメソッドの一般化の研究を動機付けており、RKHSノルムは重み付き$\ell_2$ノルムと等価であり、重み付き函数 $\ell_p$ノルムに置き換えられ、$\mathcal{F}_p$ノルムと呼ばれる。 残念ながら、これらのアプローチのトラクタビリティは不明確である。 カーネルトリックは利用できず、これらのノルムを最小化するには無限次元凸問題を解く必要がある。 本研究では,これらのノルムに対するランダムな特徴の近似について検討し,$p>1$の場合,元の学習問題を近似するために必要なランダムな特徴の数は,サンプルサイズの多項式によって上限づけられていることを示す。 したがって、これらの場合、$\mathcal{f}_p$ ノルムで学習することは扱いやすい。 双対における一様濃度に基づく証明手法を導入し、過度なパラメータ化モデルの研究に広く関心を持つことができる。

Despite their many appealing properties, kernel methods are heavily affected by the curse of dimensionality. For instance, in the case of inner product kernels in $\mathbb{R}^d$, the Reproducing Kernel Hilbert Space (RKHS) norm is often very large for functions that depend strongly on a small subset of directions (ridge functions). Correspondingly, such functions are difficult to learn using kernel methods. This observation has motivated the study of generalizations of kernel methods, whereby the RKHS norm -- which is equivalent to a weighted $\ell_2$ norm -- is replaced by a weighted functional $\ell_p$ norm, which we refer to as $\mathcal{F}_p$ norm. Unfortunately, tractability of these approaches is unclear. The kernel trick is not available and minimizing these norms requires to solve an infinite-dimensional convex problem. We study random features approximations to these norms and show that, for $p>1$, the number of random features required to approximate the original learning problem is upper bounded by a polynomial in the sample size. Hence, learning with $\mathcal{F}_p$ norms is tractable in these cases. We introduce a proof technique based on uniform concentration in the dual, which can be of broader interest in the study of overparametrized models.
翻訳日:2021-03-31 15:07:00 公開日:2021-03-30
# 拡散モデルを用いたシンボリック音楽生成

Symbolic Music Generation with Diffusion Models ( http://arxiv.org/abs/2103.16091v1 )

ライセンス: Link先を確認
Gautam Mittal, Jesse Engel, Curtis Hawthorne, Ian Simon(参考訳) スコアベース生成モデルと拡散確率モデルは、画像やオーディオなどの連続領域で高品質なサンプルを生成することに成功している。 しかし、Langevinにインスパイアされたサンプリング機構により、離散データやシーケンシャルデータへの応用は制限されている。 本研究では、事前学習された変分オートエンコーダの連続潜時空間における離散領域をパラメータ化することにより、逐次データ上で拡散モデルを訓練する手法を提案する。 提案手法は非自己回帰的であり, 逆過程を通じて潜伏埋め込みの列を生成することを学習し, 並列生成を一定数の反復的精錬ステップで実現する。 この手法をシンボリック音楽のモデル化に適用し,同一の連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。

Score-based generative models and diffusion probabilistic models have been successful at generating high-quality samples in continuous domains such as images and audio. However, due to their Langevin-inspired sampling mechanisms, their application to discrete and sequential data has been limited. In this work, we present a technique for training diffusion models on sequential data by parameterizing the discrete domain in the continuous latent space of a pre-trained variational autoencoder. Our method is non-autoregressive and learns to generate sequences of latent embeddings through the reverse process and offers parallel generation with a constant number of iterative refinement steps. We apply this technique to modeling symbolic music and show strong unconditional generation and post-hoc conditional infilling results compared to autoregressive language models operating over the same continuous embeddings.
翻訳日:2021-03-31 15:06:38 公開日:2021-03-30
# 高次元スパースデータのための逆ファイルk-meansクラスタリング

Structured Inverted-File k-Means Clustering for High-Dimensional Sparse Data ( http://arxiv.org/abs/2103.16141v1 )

ライセンス: Link先を確認
Kazuo Aoyama and Kazumi Saito(参考訳) 本稿では,大規模かつ高次元スパースデータセットのためのアーキテクチャフレンドリーなk-meansクラスタリングアルゴリズムsivfを提案する。 時間のアルゴリズム効率はしばしば類似度計算のようなコストのかかる演算数によって測定される。 しかし実際には、アルゴリズムが実行されるコンピュータシステムのアーキテクチャにどのように適応するかに大きく依存している。 提案するsivfは,invariant centroid-pair based filter (icp)を用いて,全クラスタにおけるデータオブジェクトとcentroidの類似度計算回数を削減する。 ICP性能を最大化するために、SIVFはパイプラインのハザードを低減するために構成された逆ファイルセットをセントロイドに悪用する。 我々は、SIVFが既存のアルゴリズムよりも高速でメモリ消費の少ない実大規模文書データセットについて実験を行った。 性能解析の結果,SIVFは類似性の少ない計算よりも,キャッシュミス数や分岐予測ミス数の性能劣化係数を抑えることにより,より高速に実現できることがわかった。

This paper presents an architecture-friendl y k-means clustering algorithm called SIVF for a large-scale and high-dimensional sparse data set. Algorithm efficiency on time is often measured by the number of costly operations such as similarity calculations. In practice, however, it depends greatly on how the algorithm adapts to an architecture of the computer system which it is executed on. Our proposed SIVF employs invariant centroid-pair based filter (ICP) to decrease the number of similarity calculations between a data object and centroids of all the clusters. To maximize the ICP performance, SIVF exploits for a centroid set an inverted-file that is structured so as to reduce pipeline hazards. We demonstrate in our experiments on real large-scale document data sets that SIVF operates at higher speed and with lower memory consumption than existing algorithms. Our performance analysis reveals that SIVF achieves the higher speed by suppressing performance degradation factors of the number of cache misses and branch mispredictions rather than less similarity calculations.
翻訳日:2021-03-31 15:06:24 公開日:2021-03-30
# 光場再フォーカスのための機械学習手法

Machine learning method for light field refocusing ( http://arxiv.org/abs/2103.16020v1 )

ライセンス: Link先を確認
Eisa Hedayati, Timothy C. Havens, Jeremy P. Bos(参考訳) 光電界イメージングは、撮影後にイメージを再フォーカスする機能を導入した。 現在、再フォーカスする2つの一般的な方法、シフト・アンド・サム法とフーリエスライス法がある。 これらの2つの方法はいずれも、前処理なしで光場をリアルタイムに再フォーカスするものではない。 本稿では,16個の再焦点像を,実時間で再焦点パラメータ \alpha=0.125,0.250,0.375,.. .,2.0で抽出できる機械学習に基づく再焦点技術を提案する。 RefNetと呼ばれるネットワークを2つの実験でトレーニングしました。 トレーニングデータとしてフーリエスライス法(つまり「地上真実」)を使い、トレーニングデータとしてシフト・アンド・サム法を使用するもの。 どちらの場合も、RefNet法は従来の手法よりも少なくとも134倍高速であるだけでなく、Fourierスライス法やシフト・アンド・サム法よりもRefNetの色予測に優れており、フィールド深度とフォーカス距離性能は類似している。

Light field imaging introduced the capability to refocus an image after capturing. Currently there are two popular methods for refocusing, shift-and-sum and Fourier slice methods. Neither of these two methods can refocus the light field in real-time without any pre-processing. In this paper we introduce a machine learning based refocusing technique that is capable of extracting 16 refocused images with refocusing parameters of \alpha=0.125,0.250,0.375,.. .,2.0 in real-time. We have trained our network, which is called RefNet, in two experiments. Once using the Fourier slice method as the training -- i.e., "ground truth" -- data and another using the shift-and-sum method as the training data. We showed that in both cases, not only is the RefNet method at least 134x faster than previous approaches, but also the color prediction of RefNet is superior to both Fourier slice and shift-and-sum methods while having similar depth of field and focus distance performance.
翻訳日:2021-03-31 15:06:05 公開日:2021-03-30
# 画像逆問題に対する逆学習反復再構成

Adversarially learned iterative reconstruction for imaging inverse problems ( http://arxiv.org/abs/2103.16151v1 )

ライセンス: Link先を確認
Subhadip Mukherjee, Ozan \"Oktem, and Carola-Bibiane Sch\"onlieb(参考訳) 多くの実践的応用、特に医用画像再構成において、教師あり学習のための接地/測定ペアの大規模なアンサンブルを得ることは不可能である。 したがって、パフォーマンスにおける教師付きアプローチと競合する教師なし学習プロトコルを開発することが不可欠である。 最大相似原理に動機づけられ,不適切な逆問題を解くための教師なし学習フレームワークを提案する。 提案手法では,再構成画像と接地構造画像との画素間距離を求める代わりに,その出力が分布の接地構造と一致する反復的再構成ネットワークを学習する。 トモグラフィーの再構築を応用として, 提案手法は客観的品質対策の観点から, 教師なしアプローチと同等に機能するだけでなく, 教師付きアプローチが苦しむような過度なスムーシングの問題を回避できることを示した。 再建の質の向上は、訓練の複雑さを犠牲にして行われるが、訓練が終わると、再建の時間は監督されるものと同じである。

In numerous practical applications, especially in medical image reconstruction, it is often infeasible to obtain a large ensemble of ground-truth/measure ment pairs for supervised learning. Therefore, it is imperative to develop unsupervised learning protocols that are competitive with supervised approaches in performance. Motivated by the maximum-likelihood principle, we propose an unsupervised learning framework for solving ill-posed inverse problems. Instead of seeking pixel-wise proximity between the reconstructed and the ground-truth images, the proposed approach learns an iterative reconstruction network whose output matches the ground-truth in distribution. Considering tomographic reconstruction as an application, we demonstrate that the proposed unsupervised approach not only performs on par with its supervised variant in terms of objective quality measures but also successfully circumvents the issue of over-smoothing that supervised approaches tend to suffer from. The improvement in reconstruction quality comes at the expense of higher training complexity, but, once trained, the reconstruction time remains the same as its supervised counterpart.
翻訳日:2021-03-31 15:05:50 公開日:2021-03-30
# 運動による関節カテゴリの単眼的3次元再構築の学習

Learning monocular 3D reconstruction of articulated categories from motion ( http://arxiv.org/abs/2103.16352v1 )

ライセンス: Link先を確認
Filippos Kokkinos, Iasonas Kokkinos(参考訳) 調音された物体カテゴリの単眼的3次元再構成は,訓練データの欠如と本質的不適切性から困難である。 本研究では, 映像自己監督を用いて, 連続した3次元再構成の整合性を, 動きに基づくサイクルロスによって強制する。 これにより、最適化ベースと学習ベースの3Dメッシュ再構築の両方が大幅に改善される。 さらに,少数の局所的学習可能なハンドルの変位を介して3次元表面を制御する3次元テンプレート変形の解釈モデルについても紹介する。 この操作をメッシュラプラシアン正則化に依存する構造化層として定式化し,エンドツーエンドでトレーニング可能であることを示す。 最後に,ビデオ内のメッシュ変位とカメラを協調的に最適化し,トレーニングおよびテスト時間後処理の精度を高める,サンプル単位の数値最適化手法を提案する。 監視のためにカテゴリ毎に収集されたビデオセットのみに依存するが、複数の明瞭なオブジェクトカテゴリに対して、さまざまな形状、視点、テクスチャを備えた最先端の再構築を得る。

Monocular 3D reconstruction of articulated object categories is challenging due to the lack of training data and the inherent ill-posedness of the problem. In this work we use video self-supervision, forcing the consistency of consecutive 3D reconstructions by a motion-based cycle loss. This largely improves both optimization-based and learning-based 3D mesh reconstruction. We further introduce an interpretable model of 3D template deformations that controls a 3D surface through the displacement of a small number of local, learnable handles. We formulate this operation as a structured layer relying on mesh-laplacian regularization and show that it can be trained in an end-to-end manner. We finally introduce a per-sample numerical optimisation approach that jointly optimises over mesh displacements and cameras within a video, boosting accuracy both for training and also as test time post-processing. While relying exclusively on a small set of videos collected per category for supervision, we obtain state-of-the-art reconstructions with diverse shapes, viewpoints and textures for multiple articulated object categories.
翻訳日:2021-03-31 15:05:31 公開日:2021-03-30
# 医用画像分割におけるランダム森林の役割評価

Assessing the Role of Random Forests in Medical Image Segmentation ( http://arxiv.org/abs/2103.16492v1 )

ライセンス: Link先を確認
Dennis Hartmann, Dominik M\"uller, I\~naki Soto-Rey and Frank Kramer(参考訳) ニューラルネットワークは、GPUを用いた医療画像セグメンテーションの分野で、非常に優れた結果を迅速に得る研究分野である。 gpuなしで良い結果を得るための可能な方法はランダムフォレストである。 この目的のために、2つのランダムな森林アプローチを最先端の深層畳み込みニューラルネットワークと比較した。 phc-c2dh-u373と網膜イメージングデータセットの比較を行った。 評価の結果, 深部畳み込みニュートラルネットワークは最良の結果を得た。 しかし、ランダムな森林アプローチの1つも同様に高い性能を達成した。 以上の結果から,ランダムフォレストアプローチは深層畳み込みニューラルネットワークの優れた代替手段であり,gpuを使わずに医用画像セグメンテーションを利用可能であることが示唆された。

Neural networks represent a field of research that can quickly achieve very good results in the field of medical image segmentation using a GPU. A possible way to achieve good results without GPUs are random forests. For this purpose, two random forest approaches were compared with a state-of-the-art deep convolutional neural network. To make the comparison the PhC-C2DH-U373 and the retinal imaging datasets were used. The evaluation showed that the deep convolutional neutral network achieved the best results. However, one of the random forest approaches also achieved a similar high performance. Our results indicate that random forest approaches are a good alternative to deep convolutional neural networks and, thus, allow the usage of medical image segmentation without a GPU.
翻訳日:2021-03-31 15:05:12 公開日:2021-03-30
# 奥行きと運動:奥行きネットワークと光度制約を用いた内視鏡映像の局所化と再構成

Endo-Depth-and-Motio n: Localization and Reconstruction in Endoscopic Videos using Depth Networks and Photometric Constraints ( http://arxiv.org/abs/2103.16525v1 )

ライセンス: Link先を確認
David Recasens, Jos\'e Lamarca, Jos\'e M. F\'acil, J. M. M. Montiel, Javier Civera(参考訳) シーン再構成とボディビデオからのカメラモーションの推定は、いくつかの要因により困難である。 体内の空洞の変形、またはテクスチャの欠如。 本稿では,単眼内視鏡映像から6自由度カメラのポーズと密集した3dシーンモデルを推定するパイプラインであるendo-depth-and-motio nを提案する。 提案手法は, 自監督深度ネットワークの最近の進歩を活用して擬似RGBDフレームを生成し, 光度残差を用いてカメラのポーズを追跡し, 登録深度マップを容積表現に融合させる。 公開データセットであるHamlynにおいて,高品質な結果と関連するベースラインとの比較を行った。 将来の比較のために、すべてのモデルとコードもリリースしています。

Estimating a scene reconstruction and the camera motion from in-body videos is challenging due to several factors, e.g. the deformation of in-body cavities or the lack of texture. In this paper we present Endo-Depth-and-Motio n, a pipeline that estimates the 6-degrees-of-freedom camera pose and dense 3D scene models from monocular endoscopic videos. Our approach leverages recent advances in self-supervised depth networks to generate pseudo-RGBD frames, then tracks the camera pose using photometric residuals and fuses the registered depth maps in a volumetric representation. We present an extensive experimental evaluation in the public dataset Hamlyn, showing high-quality results and comparisons against relevant baselines. We also release all models and code for future comparisons.
翻訳日:2021-03-31 15:05:02 公開日:2021-03-30
# 接触した関節剛体に対する高速かつ完全微分可能な物理

Fast and Feature-Complete Differentiable Physics for Articulated Rigid Bodies with Contact ( http://arxiv.org/abs/2103.16021v1 )

ライセンス: Link先を確認
Keenon Werling, Dalton Omens, Jeongseok Lee, Ionnis Exarchos, C. Karen Liu(参考訳) ラグランジアン力学と剛体シミュレーションのためのハードコンタクト制約をサポートする高速で特徴完備な微分可能な物理エンジンを提案する。 私たちの微分可能な物理エンジンは、ロボティクスアプリケーションで一般的に使用される非微分可能な物理シミュレータでのみ使用可能な、完全な機能セットを提供します。 線形相補性問題(LCP)を用いて接触制約を正確に解く。 LCP溶液の疎性を利用した非弾性接触のLCP定式化による効率的で新しい解析勾配を示す。 複素接触幾何学と連続時間弾性衝突を近似する勾配をサポートする。 また,下流最適化タスクがサドルポイントの失速を回避するために,相補性認識勾配を計算する新しい手法を提案する。 既存の物理エンジン(DART)におけるこの組み合わせの実装は、計算解析ヤコビアンにおける有限差分よりも45倍の単一コアの高速化が可能であり、元のDARTの表現性を保っていることを示す。

We present a fast and feature-complete differentiable physics engine that supports Lagrangian dynamics and hard contact constraints for articulated rigid body simulation. Our differentiable physics engine offers a complete set of features that are typically only available in non-differentiable physics simulators commonly used by robotics applications. We solve contact constraints precisely using linear complementarity problems (LCPs). We present efficient and novel analytical gradients through the LCP formulation of inelastic contact that exploit the sparsity of the LCP solution. We support complex contact geometry, and gradients approximating continuous-time elastic collision. We also introduce a novel method to compute complementarity-awar e gradients that help downstream optimization tasks avoid stalling in saddle points. We show that an implementation of this combination in an existing physics engine (DART) is capable of a 45x single-core speedup over finite-differencing in computing analytical Jacobians for a single timestep, while preserving all the expressiveness of original DART.
翻訳日:2021-03-31 15:04:48 公開日:2021-03-30
# 部分レコードのモデルベースクラスタリング

Model-based clustering of partial records ( http://arxiv.org/abs/2103.16336v1 )

ライセンス: Link先を確認
Emily M. Goren and Ranjan Maitra(参考訳) 部分的に記録されたデータは、多くのアプリケーションで頻繁に発生する。 実際には、そのようなデータセットは、通常、欠落した値を持つ不完全なケースや特徴を取り除くか、または欠落した値を示すことによってクラスタ化される。 本稿では,多変量$t$分布の有限混合モデルを用いて,観測値の限界密度を用いたモデルに基づくクラスタリング手法を開発した。 提案手法は,不完全データセットの欠落値を考慮し,ランダム(mar)仮定で欠落させ,ケース削除やインプテーションを行う,対応する完全期待最大化(em)手法と比較する。 観測値のみを利用するので,本手法はインプテーションやフルemよりも計算効率が高い。 シミュレーション研究により, 本手法は, 種々の欠失機構下でのケース削除やインプットに比べ, 真のクラスタ分割の回復に有利であり, 検出値を使用しないため, 完全EM法よりも極端にMAR違反に対して頑健であることが示された。 提案手法はガンマ線バーストのクラスタリングの問題に対して実証され,https://github.com/ emilygoren/MixtClust Rパッケージに実装されている。

Partially recorded data are frequently encountered in many applications. In practice, such datasets are usually clustered by removing incomplete cases or features with missing values, or by imputing missing values, followed by application of a clustering algorithm to the resulting altered data set. Here, we develop clustering methodology through a model-based approach using the marginal density for the observed values, using a finite mixture model of multivariate $t$ distributions. We compare our algorithm to the corresponding full expectation-maximiza tion (EM) approach that considers the missing values in the incomplete data set and makes a missing at random (MAR) assumption, as well as case deletion and imputation. Since only the observed values are utilized, our approach is computationally more efficient than imputation or full EM. Simulation studies demonstrate that our approach has favorable recovery of the true cluster partition compared to case deletion and imputation under various missingness mechanisms, and is more robust to extreme MAR violations than the full EM approach since it does not use the observed values to inform those that are missing. Our methodology is demonstrated on a problem of clustering gamma-ray bursts and is implemented in the https://github.com/e milygoren/MixtClust R package.
翻訳日:2021-03-31 15:04:32 公開日:2021-03-30
# アクティブ・ラーニング型スマート・アシスタントの開発に向けて

Towards Active Learning Based Smart Assistant for Manufacturing ( http://arxiv.org/abs/2103.16177v1 )

ライセンス: Link先を確認
Patrik Zajec, Jo\v{z}e M. Ro\v{z}anec, Inna Novalija, Bla\v{z} Fortuna, Dunja Mladeni\'c, Klemen Kenda(参考訳) 機械学習モデルによって生成された予測から一連の意思決定ステップを通してユーザを誘導するスマートアシスタントを構築するための一般的なアプローチを示す。 このようなシステムを構築するための方法論を開発します。 本システムは、製造における需要予測ユースケースで実証される。 この手法は製造におけるいくつかのユースケースに拡張することができる。 このシステムは知識獲得のための手段を提供し、ユーザーからデータを収集する。 ラベル付きデータが不足しているデータラベルを取得するために,アクティブな学習が利用可能だと考えています。

A general approach for building a smart assistant that guides a user from a forecast generated by a machine learning model through a sequence of decision-making steps is presented. We develop a methodology to build such a system. The system is demonstrated on a demand forecasting use case in manufacturing. The methodology can be extended to several use cases in manufacturing. The system provides means for knowledge acquisition, gathering data from users. We envision active learning can be used to get data labels where labeled data is scarce.
翻訳日:2021-03-31 15:03:30 公開日:2021-03-30
# 深部局所ディスクリプタを改良したFew-Shot分類法

Revisiting Deep Local Descriptor for Improved Few-Shot Classification ( http://arxiv.org/abs/2103.16009v1 )

ライセンス: Link先を確認
Jun He, Richang Hong, Xueliang Liu, Mingliang Xu and Meng Wang(参考訳) 少数ショット分類は、少ないサポートイメージに基づいて、深層学習者が新しいクラスを理解するために素早く適応する問題を研究している。 この文脈において、最近の研究は、クエリとサポート画像の類似性を計測するより複雑な分類器を設計することを目的としている。 高度な分類器への依存は不要であり、改良された機能埋め込みに直接適用した単純な分類器は最先端の手法より優れていることを示す。 そこで本研究では,新たな手法である \textbf{dcap} を提案する。ここでは, \textbf{d}ense \textbf{c}lassification と \textbf{a}ttentive \textbf{p}ooling を用いて,埋め込みの質を向上させる方法について検討する。 具体的には,多くのサンプルをベースクラスに事前学習して,まず高密度な分類問題を解き,次にランダムにサンプル化した数ショットタスクを微調整して,少数ショットシーンリオやテストタイムシーンリオに適応させることを提案する。 メタファインタニングの際,多用されるグローバル平均プール (GAP) の代わりに注意深いプールを応用して, 特徴マップをプールすることを提案する。 注意プールは、地元の記述者を再強調することを学び、学習者が求めるものを意思決定の証拠として説明する。 2つのベンチマークデータセットの実験は、提案手法がよりシンプルで説明しやすい複数のショット設定において優れていることを示している。 コードは \url{https://github.com/u keyboard/dcap/} で入手できる。

Few-shot classification studies the problem of quickly adapting a deep learner to understanding novel classes based on few support images. In this context, recent research efforts have been aimed at designing more and more complex classifiers that measure similarities between query and support images, but left the importance of feature embeddings seldom explored. We show that the reliance on sophisticated classifier is not necessary and a simple classifier applied directly to improved feature embeddings can outperform state-of-the-art methods. To this end, we present a new method named \textbf{DCAP} in which we investigate how one can improve the quality of embeddings by leveraging \textbf{D}ense \textbf{C}lassification and \textbf{A}ttentive \textbf{P}ooling. Specifically, we propose to pre-train a learner on base classes with abundant samples to solve dense classification problem first and then fine-tune the learner on a bunch of randomly sampled few-shot tasks to adapt it to few-shot scenerio or the test time scenerio. We suggest to pool feature maps by applying attentive pooling instead of the widely used global average pooling (GAP) to prepare embeddings for few-shot classification during meta-finetuning. Attentive pooling learns to reweight local descriptors, explaining what the learner is looking for as evidence for decision making. Experiments on two benchmark datasets show the proposed method to be superior in multiple few-shot settings while being simpler and more explainable. Code is available at: \url{https://github.com/U keyboard/dcap/}.
翻訳日:2021-03-31 15:00:52 公開日:2021-03-30
# 顔写真合成・認識のためのアイデンティティ対応サイクルGAN

Identity-Aware CycleGAN for Face Photo-Sketch Synthesis and Recognition ( http://arxiv.org/abs/2103.16019v1 )

ライセンス: Link先を確認
Yuke Fang, Jiani Hu, Weihong Deng(参考訳) 顔認識合成と認識は、デジタルエンターテイメントや法執行機関に多くの応用がある。 近年,gans(generative adversarial network)に基づく手法が画像合成の質を大幅に改善しているが,認識の目的を明示的に考慮していない。 本稿では,画像生成ネットワークの監視に新たな知覚損失を適用したIACycleGAN(Identity- Aware CycleGAN)モデルを提案する。 これは、アイデンティティ認識に重要な目や鼻などの重要な顔領域の合成に注意を払うことによって、フォトエッチング合成におけるサイクガンを改善する。 さらに, 合成モデルと認識モデルの相互最適化手法を開発し, イアサイクガンによる良好な画像の反復合成と, 生成したサンプルと実サンプルの3重損失による認識モデルの拡張を行う。 広く使われているCUFSとCUFSFデータベースを用いて、フォト・トスコッチとスケッチ・ツー・フォト・タスクの両方で大規模な実験を行う。 提案手法は,合成画像の品質と光スケッチ認識精度の両方の観点から,複数の最先端手法よりも優れていた。

Face photo-sketch synthesis and recognition has many applications in digital entertainment and law enforcement. Recently, generative adversarial networks (GANs) based methods have significantly improved the quality of image synthesis, but they have not explicitly considered the purpose of recognition. In this paper, we first propose an Identity-Aware CycleGAN (IACycleGAN) model that applies a new perceptual loss to supervise the image generation network. It improves CycleGAN on photo-sketch synthesis by paying more attention to the synthesis of key facial regions, such as eyes and nose, which are important for identity recognition. Furthermore, we develop a mutual optimization procedure between the synthesis model and the recognition model, which iteratively synthesizes better images by IACycleGAN and enhances the recognition model by the triplet loss of the generated and real samples. Extensive experiments are performed on both photo-tosketch and sketch-to-photo tasks using the widely used CUFS and CUFSF databases. The results show that the proposed method performs better than several state-of-the-art methods in terms of both synthetic image quality and photo-sketch recognition accuracy.
翻訳日:2021-03-31 15:00:23 公開日:2021-03-30
# 胸部X線データを用いた自己教師付き画像テキスト事前学習

Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays ( http://arxiv.org/abs/2103.16022v1 )

ライセンス: Link先を確認
Xiaosong Wang and Ziyue Xu and Leo Tam and Dong Yang and Daguang Xu(参考訳) 事前訓練されたモデル、例えばImageNetは、多くの下流アプリケーションの性能向上に有効であることが証明されている。 医療画像のためのモデルを構築するには、大規模なアノテーションを取得する必要がある。 一方、病院情報システムには多数の臨床データ(画像とテキストレポートの形で)が保存されている。 同じ患者研究から得られた画像テキストデータを、弱教師付きで事前学習作業に活用することができる。 しかしながら、そのような生データの完全性、アクセシビリティ、および量は、ペアリング対アンペア(画像のみまたはテキストのみ)など、さまざまな機関によって異なる。 本研究では、これらの生データから、ペア画像テキストデータ(ペア画像テキストデータ)とペア画像データ(ペア画像テキストデータ)を混合して学習できる、画像テキスト事前学習フレームワークを提案する。 非ペアのデータは、ある機関または複数の機関(例えば、ある機関からのイメージと別の機関からのテキスト)からソースすることができる。 具体的には,画像とテキストデータの表現を共同で学習するトランスフォーマティブベースの学習フレームワークを提案する。 既存のマスメド言語モデリングに加えて、画像パッチ再生のための自己教師付きトレーニングタスクとして、マルチスケールマスメド・ビジョン・モデリングを導入している。 混合データ入力における事前学習の実現可能性を示すだけでなく, 分類, 検索, 画像再生の3つの胸部X線応用における事前学習モデルの利点を示す。 MIMIC-CXR,NIH14-CXR, OpenI-CXRデータセットを用いた先行技術と比較検討を行った。

Pre-trained models, e.g., from ImageNet, have proven to be effective in boosting the performance of many downstream applications. It is too demanding to acquire large-scale annotations to build such models for medical imaging. Meanwhile, there are numerous clinical data (in the form of images and text reports) stored in the hospital information systems. The paired image-text data from the same patient study could be utilized for the pre-training task in a weakly supervised manner. However, the integrity, accessibility, and amount of such raw data vary across different institutes, e.g., paired vs. unpaired (image-only or text-only). In this work, we introduce an image-text pre-training framework that can learn from these raw data with mixed data inputs, i.e., paired image-text data, a mixture of paired and unpaired data. The unpaired data can be sourced from one or multiple institutes (e.g., images from one institute coupled with texts from another). Specifically, we propose a transformer-based training framework for jointly learning the representation of both the image and text data. In addition to the existing masked language modeling, multi-scale masked vision modeling is introduced as a self-supervised training task for image patch regeneration. We not only demonstrate the feasibility of pre-training across mixed data inputs but also illustrate the benefits of adopting such pre-trained models in 3 chest X-ray applications, i.e., classification, retrieval, and image regeneration. Superior results are reported in comparison to prior art using MIMIC-CXR, NIH14-CXR, and OpenI-CXR datasets.
翻訳日:2021-03-31 15:00:05 公開日:2021-03-30
# 時間的動作提案生成のための適応グラフ付き拡張トランス

Augmented Transformer with Adaptive Graph for Temporal Action Proposal Generation ( http://arxiv.org/abs/2103.16024v1 )

ライセンス: Link先を確認
Shuning Chang, Pichao Wang, Fan Wang, Hao Li, Jiashi Feng(参考訳) 時間的行動提案生成(TAPG)は、ビデオ理解、特に時間的行動検出における基本的な課題である。 これまでのほとんどの作業は、ローカルの時間的コンテキストのキャプチャに重点を置いており、クリーンなフレームと明確なバウンダリを持つ単純なアクションインスタンスを適切に見つけることができる。 しかし、一般的には、関心のあるアクションが無関係なフレームや背景の散らばりを伴う複雑なシナリオで失敗し、局所的な時間的文脈がより効果的になる。 これらの問題に対処するため、TAPGの長距離時間と局所時間の両方を利用するための適応グラフネットワーク(ATAG)を備えた拡張変換器を提案する。 具体的には,スニペット動作損失と前部ブロックを装着してバニラトランスを強化し,長距離依存性を捕捉し,雑音下でのロバストな特徴を学習する能力を向上させるとともに,位置情報と隣接特徴の差異をマイニングして局所的時間的文脈を構築するための適応グラフ畳み込みネットワーク(gcn)を提案する。 2つのモジュールの特徴は、ビデオの豊富な意味情報を持ち、効果的な逐次提案生成のために融合される。 THUMOS14とActivityNet1.3の2つの挑戦的データセットに対して大規模な実験を行い,本手法が最先端のTAPG法より優れていることを示す。 私たちのコードはまもなくリリースされます。

Temporal action proposal generation (TAPG) is a fundamental and challenging task in video understanding, especially in temporal action detection. Most previous works focus on capturing the local temporal context and can well locate simple action instances with clean frames and clear boundaries. However, they generally fail in complicated scenarios where interested actions involve irrelevant frames and background clutters, and the local temporal context becomes less effective. To deal with these problems, we present an augmented transformer with adaptive graph network (ATAG) to exploit both long-range and local temporal contexts for TAPG. Specifically, we enhance the vanilla transformer by equipping a snippet actionness loss and a front block, dubbed augmented transformer, and it improves the abilities of capturing long-range dependencies and learning robust feature for noisy action instances.Moreover, an adaptive graph convolutional network (GCN) is proposed to build local temporal context by mining the position information and difference between adjacent features. The features from the two modules carry rich semantic information of the video, and are fused for effective sequential proposal generation. Extensive experiments are conducted on two challenging datasets, THUMOS14 and ActivityNet1.3, and the results demonstrate that our method outperforms state-of-the-art TAPG methods. Our code will be released soon.
翻訳日:2021-03-31 14:59:42 公開日:2021-03-30
# 出現流を用いた魚眼画像整形のための漸進的補完網

Progressively Complementary Network for Fisheye Image Rectification Using Appearance Flow ( http://arxiv.org/abs/2103.16026v1 )

ライセンス: Link先を確認
Shangrong Yang, Chunyu Lin, Kang Liao, Chunjie Zhang, Yao Zhao(参考訳) 魚眼画像には歪み補正がしばしば必要である。 ジェネレーションベースの手法は、ラベルのない性質のために主流のソリューションであるが、単純スキップ接続とオーバーバーデンドデコーダは、曖昧で不完全な修正を引き起こす。 まず、スキップ接続は画像の特徴を直接転送し、歪みを引き起こし不完全な補正を引き起こす可能性がある。 第2に、画像の内容と構造を同時に再構成する際にデコーダをオーバーバーデンし、あいまいな性能を実現する。 本稿では,この2つの問題を解決するために,歪み補正ネットワークの解釈可能な補正機構に着目し,特徴レベルの補正手法を提案する。 我々は、補正層をスキップ接続に埋め込み、異なるレイヤの外観フローを利用して画像の特徴を事前に補正する。 これにより、デコーダは、残される歪みのない情報により、可視結果を容易に再構成することができる。 さらに,並列補完構造を提案する。 コンテンツ再構成と構造補正を分離することにより、デコーダの負担を効果的に軽減する。 異なるデータセットに対する主観的および客観的な実験結果から,本手法の優位性を示す。

Distortion rectification is often required for fisheye images. The generation-based method is one mainstream solution due to its label-free property, but its naive skip-connection and overburdened decoder will cause blur and incomplete correction. First, the skip-connection directly transfers the image features, which may introduce distortion and cause incomplete correction. Second, the decoder is overburdened during simultaneously reconstructing the content and structure of the image, resulting in vague performance. To solve these two problems, in this paper, we focus on the interpretable correction mechanism of the distortion rectification network and propose a feature-level correction scheme. We embed a correction layer in skip-connection and leverage the appearance flows in different layers to pre-correct the image features. Consequently, the decoder can easily reconstruct a plausible result with the remaining distortion-less information. In addition, we propose a parallel complementary structure. It effectively reduces the burden of the decoder by separating content reconstruction and structure correction. Subjective and objective experiment results on different datasets demonstrate the superiority of our method.
翻訳日:2021-03-31 14:59:17 公開日:2021-03-30
# 単一領域一般化のためのプログレッシブドメイン拡張ネットワーク

Progressive Domain Expansion Network for Single Domain Generalization ( http://arxiv.org/abs/2103.16050v1 )

ライセンス: Link先を確認
Lei Li, Ke Gao, Juan Cao, Ziyao Huang, Yepeng Weng, Xiaoyue Mi, Zhengze Yu, Xiaoya Li, Boyang xia(参考訳) 単一ドメインの一般化はモデル一般化の難しいケースであり、モデルが単一のドメインで訓練され、他の見えないドメインでテストされる。 有望な解決策は、トレーニング領域の範囲を広げることで、クロスドメイン不変表現を学ぶことである。 これらの手法は、適切な安全性と有効性制約の欠如により、実用用途での一般化性能の向上を制限している。 本稿では,一分野一般化のためのプログレッシブドメイン拡張ネットワーク(PDEN)と呼ばれる新しい学習フレームワークを提案する。 pdenにおけるドメイン拡張サブネットワークと表現学習サブネットワークは、協調学習によって相互に利益を得る。 ドメイン拡張サブネットワークでは、さまざまな測光および幾何変換を非可視領域でシミュレートするために、複数のドメインが徐々に生成される。 拡張ドメインの安全性と有効性を保証するための一連の戦略が導入された。 ドメイン不変表現学習サブネットワークでは、各クラスが十分にクラスタ化されているドメイン不変表現を学習し、より優れた決定境界を学習して一般化を改善するために対照的な学習が導入される。 分類とセグメンテーションに関する大規模な実験により、PDENは最先端の単一ドメイン一般化法と比較して最大15.28%改善できることが示された。

Single domain generalization is a challenging case of model generalization, where the models are trained on a single domain and tested on other unseen domains. A promising solution is to learn cross-domain invariant representations by expanding the coverage of the training domain. These methods have limited generalization performance gains in practical applications due to the lack of appropriate safety and effectiveness constraints. In this paper, we propose a novel learning framework called progressive domain expansion network (PDEN) for single domain generalization. The domain expansion subnetwork and representation learning subnetwork in PDEN mutually benefit from each other by joint learning. For the domain expansion subnetwork, multiple domains are progressively generated in order to simulate various photometric and geometric transforms in unseen domains. A series of strategies are introduced to guarantee the safety and effectiveness of the expanded domains. For the domain invariant representation learning subnetwork, contrastive learning is introduced to learn the domain invariant representation in which each class is well clustered so that a better decision boundary can be learned to improve it's generalization. Extensive experiments on classification and segmentation have shown that PDEN can achieve up to 15.28% improvement compared with the state-of-the-art single-domain generalization methods.
翻訳日:2021-03-31 14:59:01 公開日:2021-03-30
# 完全畳み込みシーングラフ生成

Fully Convolutional Scene Graph Generation ( http://arxiv.org/abs/2103.16083v1 )

ライセンス: Link先を確認
Hengyue Liu, Ning Yan, Masood S. Mortazavi, Bir Bhanu(参考訳) 本稿では、オブジェクトと関係を同時に検出する完全畳み込みシーングラフ生成(FCSGG)モデルを提案する。 シーングラフ生成フレームワークのほとんどは、Faster R-CNNのようなトレーニング済みの2段階オブジェクト検出器と、バウンディングボックス機能を使用したビルドシーングラフを使用している。 このようなパイプラインは通常、多数のパラメータと低い推論速度を持つ。 これらのアプローチとは異なり、FCSGGは概念的にエレガントで効率的なボトムアップアプローチであり、オブジェクトを境界の中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける。 rafは意味的特徴と空間的特徴の両方をエンコードし、対象から対象へ向ける部分領域上の積分によって、対象の対の関係を明示的に表現する。 FCSGGは視覚的特徴のみを利用し、シーングラフ生成の強力な結果を生成する。 Visual Genome データセットの総合的な実験により,提案手法の有効性,有効性,一般化性を実証した。 fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。

This paper presents a fully convolutional scene graph generation (FCSGG) model that detects objects and relations simultaneously. Most of the scene graph generation frameworks use a pre-trained two-stage object detector, like Faster R-CNN, and build scene graphs using bounding box features. Such pipeline usually has a large number of parameters and low inference speed. Unlike these approaches, FCSGG is a conceptually elegant and efficient bottom-up approach that encodes objects as bounding box center points, and relationships as 2D vector fields which are named as Relation Affinity Fields (RAFs). RAFs encode both semantic and spatial features, and explicitly represent the relationship between a pair of objects by the integral on a sub-region that points from subject to object. FCSGG only utilizes visual features and still generates strong results for scene graph generation. Comprehensive experiments on the Visual Genome dataset demonstrate the efficacy, efficiency, and generalizability of the proposed method. FCSGG achieves highly competitive results on recall and zero-shot recall with significantly reduced inference time.
翻訳日:2021-03-31 14:58:42 公開日:2021-03-30
# 自己監督型特徴抽出による大規模自律走行シナリオクラスタリング

Large Scale Autonomous Driving Scenarios Clustering with Self-supervised Feature Extraction ( http://arxiv.org/abs/2103.16101v1 )

ライセンス: Link先を確認
Jinxin Zhao, Jin Fang, Zhixian Ye and Liangjun Zhang(参考訳) 自動運転シナリオデータのクラスタリングは、シミュレーションテストの完全性と忠実性を改善することにより、自動運転検証とシミュレーションシステムに大きなメリットがある。 本稿では,自動車運転データの大規模集合に対する包括的データクラスタリングフレームワークを提案する。 既存のアルゴリズムは、人間の専門家の判断に依存する手作りの機能を利用する。 さらに、関連する特徴圧縮手法は大規模データセットには拡張性がない。 提案手法では,トラヒック内エージェントオブジェクトとマップ情報の両方を含むトラフィック要素を網羅的に検討する。 一方,偏りのあるデータ表現を避けるために,時間的特徴抽出のための自己教師付きディープラーニング手法を提案した。 データ提供に基づくデータクラスタリング評価メトリクスを新たに設計した駆動型データクラスタリングでは、精度評価には人間のバイアスの対象となるヒューマンラベルデータセットを必要としない。 このような偏見のない評価指標により,手作業による特徴抽出に依存した既存手法を超越したアプローチが示されている。

The clustering of autonomous driving scenario data can substantially benefit the autonomous driving validation and simulation systems by improving the simulation tests' completeness and fidelity. This article proposes a comprehensive data clustering framework for a large set of vehicle driving data. Existing algorithms utilize handcrafted features whose quality relies on the judgments of human experts. Additionally, the related feature compression methods are not scalable for a large data-set. Our approach thoroughly considers the traffic elements, including both in-traffic agent objects and map information. Meanwhile, we proposed a self-supervised deep learning approach for spatial and temporal feature extraction to avoid biased data representation. With the newly designed driving data clustering evaluation metrics based on data-augmentation, the accuracy assessment does not require a human-labeled data-set, which is subject to human bias. Via such unprejudiced evaluation metrics, we have shown our approach surpasses the existing methods that rely on handcrafted feature extractions.
翻訳日:2021-03-31 14:58:26 公開日:2021-03-30
# 大規模視覚食品認識

Large Scale Visual Food Recognition ( http://arxiv.org/abs/2103.16107v1 )

ライセンス: Link先を確認
Weiqing Min and Zhiling Wang and Yuxin Liu and Mengjiang Luo and Liping Kang and Xiaoming Wei and Xiaolin Wei and Shuqiang Jiang(参考訳) 食品の認識は、人間の健康と健康に不可欠な食品の選択と摂取において重要な役割を担っている。 したがって、コンピュータビジョンコミュニティにとって重要であり、多くの食品指向のビジョンとマルチモーダルなタスクをさらにサポートすることができる。 残念ながら、私たちは、大規模なデータセットのリリースに対して、一般的な視覚認識の顕著な進歩を目撃しました。 本稿では,2000のカテゴリと100万以上の画像を持つ,最大規模の食品認識データセットであるfood2kを紹介する。既存の食品認識データセットと比較して,food2kは2つのカテゴリとイメージを1桁の桁でバイパスし,食品視覚表現学習のための高度なモデルを開発するための新たな挑戦的ベンチマークを確立する。 さらに, 食品認識のための深層進行領域拡張ネットワークを提案し, 主に, 局所的特徴学習と地域特徴増強という2つの要素から構成されている。 前者は多様で相補的な局所的特徴を学習するために進歩的訓練を導入し、後者は自己注意を利用して、よりリッチなコンテキストと複数のスケールを局所的特徴に組み込んで、さらなる局所的特徴の強化を行う。 食品2Kの広範囲な実験により,提案手法の有効性が示された。 さらに,食品認識,食品画像検索,クロスモーダルレシピ検索,食品検出,セグメンテーションなど,さまざまなタスクにおけるFood2Kの一般化能力を検証した。 食品2Kは、新しく、より複雑なもの(例えば、食物の栄養学的理解)を含む、食品関連タスクの恩恵を受けるためにさらに探索され、食品関連タスクのパフォーマンスを改善するために、食品2Kのトレーニングされたモデルがバックボーンとして期待できる。 また、food2kが大規模なきめ細かなビジュアル認識ベンチマークになることも期待しています。

Food recognition plays an important role in food choice and intake, which is essential to the health and well-being of humans. It is thus of importance to the computer vision community, and can further support many food-oriented vision and multimodal tasks. Unfortunately, we have witnessed remarkable advancements in generic visual recognition for released large-scale datasets, yet largely lags in the food domain. In this paper, we introduce Food2K, which is the largest food recognition dataset with 2,000 categories and over 1 million images.Compared with existing food recognition datasets, Food2K bypasses them in both categories and images by one order of magnitude, and thus establishes a new challenging benchmark to develop advanced models for food visual representation learning. Furthermore, we propose a deep progressive region enhancement network for food recognition, which mainly consists of two components, namely progressive local feature learning and region feature enhancement. The former adopts improved progressive training to learn diverse and complementary local features, while the latter utilizes self-attention to incorporate richer context with multiple scales into local features for further local feature enhancement. Extensive experiments on Food2K demonstrate the effectiveness of our proposed method. More importantly, we have verified better generalization ability of Food2K in various tasks, including food recognition, food image retrieval, cross-modal recipe retrieval, food detection and segmentation. Food2K can be further explored to benefit more food-relevant tasks including emerging and more complex ones (e.g., nutritional understanding of food), and the trained models on Food2K can be expected as backbones to improve the performance of more food-relevant tasks. We also hope Food2K can serve as a large scale fine-grained visual recognition benchmark.
翻訳日:2021-03-31 14:58:14 公開日:2021-03-30
# Few-Shotセグメンテーションのためのセルフガイドとクロスガイド学習

Self-Guided and Cross-Guided Learning for Few-Shot Segmentation ( http://arxiv.org/abs/2103.16129v1 )

ライセンス: Link先を確認
Bingfeng Zhang, Jimin Xiao and Terry Qin(参考訳) 少数ショットのセグメンテーションは、いくつかのアノテーション付きサンプルで未認識のオブジェクトクラスをセグメンテーションする効果があるため、多くの注目を集めている。 既存のほとんどのアプローチでは、マスク付きグローバル平均プール(GAP)を使用して、注釈付きサポートイメージを特徴ベクトルにエンコードし、クエリイメージのセグメンテーションを容易にする。 しかし、このパイプラインは、平均的な操作のために差別的な情報を失うことは避けられない。 本稿では,失われた臨界情報をマイニングする,シンプルで効果的な自己指導型学習手法を提案する。 具体的には、注釈付き支持画像の初期予測を行うことにより、被被覆領域と未発見領域とをマスキングGAPを用いてそれぞれ一次および補助支持ベクトルに符号化する。 一次支援ベクトルと補助支援ベクトルの両方を集約することにより、クエリ画像上でより良いセグメンテーション性能が得られる。 1ショットセグメンテーションのための自己誘導モジュールにより,複数ショットセグメンテーションのためのクロスガイドモジュールを提案する。 このモジュールは推論段階での最終的な予測を再トレーニングせずに改善する。 大規模実験により,PASCAL-5iとCOCO-20iの両方のデータセット上での最先端性能が得られた。

Few-shot segmentation has been attracting a lot of attention due to its effectiveness to segment unseen object classes with a few annotated samples. Most existing approaches use masked Global Average Pooling (GAP) to encode an annotated support image to a feature vector to facilitate query image segmentation. However, this pipeline unavoidably loses some discriminative information due to the average operation. In this paper, we propose a simple but effective self-guided learning approach, where the lost critical information is mined. Specifically, through making an initial prediction for the annotated support image, the covered and uncovered foreground regions are encoded to the primary and auxiliary support vectors using masked GAP, respectively. By aggregating both primary and auxiliary support vectors, better segmentation performances are obtained on query images. Enlightened by our self-guided module for 1-shot segmentation, we propose a cross-guided module for multiple shot segmentation, where the final mask is fused using predictions from multiple annotated samples with high-quality support vectors contributing more and vice versa. This module improves the final prediction in the inference stage without re-training. Extensive experiments show that our approach achieves new state-of-the-art performances on both PASCAL-5i and COCO-20i datasets.
翻訳日:2021-03-31 14:57:44 公開日:2021-03-30
# 確率モデリングによる深部物体検出のための能動学習

Active Learning for Deep Object Detection via Probabilistic Modeling ( http://arxiv.org/abs/2103.16130v1 )

ライセンス: Link先を確認
Jiwoong Choi, Ismail Elezi, Hyuk-Jae Lee, Clement Farabet, Jose M. Alvarez(参考訳) アクティブラーニングはデータセットの最も有益なサンプルのみを選択することで、ラベリングコストを削減することを目的としている。 オブジェクト検出のためのアクティブラーニングに取り組んだ既存の作品はほとんどない。 これらの手法の多くは複数のモデルに基づいており、分類手法の直接的な拡張であり、したがって分類ヘッドのみを用いて画像の情報性を推定する。 本稿では,物体検出のための新しい深層アクティブ学習手法を提案する。 提案手法は,各局所化および分類ヘッドの出力に対する確率分布を推定する混合密度ネットワークに依存する。 単一モデルの1つの前方通過における動脈およびてんかんの不確かさを明示的に推定する。 本手法では,両頭部の2種類の不確かさを集約したスコアリング関数を用いて,各画像の情報度スコアを求める。 PASCAL VOCおよびMS-COCOデータセットにおけるアプローチの有効性を示す。 提案手法は単一モデルに基づく手法より優れ,計算コストのごく一部でマルチモデルに基づく手法と同等に動作する。

Active learning aims to reduce labeling costs by selecting only the most informative samples on a dataset. Few existing works have addressed active learning for object detection. Most of these methods are based on multiple models or are straightforward extensions of classification methods, hence estimate an image's informativeness using only the classification head. In this paper, we propose a novel deep active learning approach for object detection. Our approach relies on mixture density networks that estimate a probabilistic distribution for each localization and classification head's output. We explicitly estimate the aleatoric and epistemic uncertainty in a single forward pass of a single model. Our method uses a scoring function that aggregates these two types of uncertainties for both heads to obtain every image's informativeness score. We demonstrate the efficacy of our approach in PASCAL VOC and MS-COCO datasets. Our approach outperforms single-model based methods and performs on par with multi-model based methods at a fraction of the computing cost.
翻訳日:2021-03-31 14:57:22 公開日:2021-03-30
# 行動・文脈の明示的部分空間の学習による時間的行動局所化の弱化

Weakly Supervised Temporal Action Localization Through Learning Explicit Subspaces for Action and Context ( http://arxiv.org/abs/2103.16155v1 )

ライセンス: Link先を確認
Ziyi Liu, Le Wang, Wei Tang, Junsong Yuan, Nanning Zheng, Gang Hua(参考訳) 弱教師付き時間的行動局所化(WS-TAL)手法は、ビデオレベルの監視のみの下でビデオ内の時間的開始と終了をローカライズする。 既存のWS-TALメソッドは、アクション認識のために学んだ深い機能に依存しています。 しかし、分類とローカライゼーションのミスマッチのため、これらの特徴は頻繁に発生するコンテキスト背景、すなわちコンテキストと実際のアクションインスタンスを区別することはできない。 この課題を行動-文脈の混同と呼び,行動の局所化精度に悪影響を及ぼす。 この課題に対処するために、アクションとコンテキストの2つの機能部分空間をそれぞれ学習するフレームワークを導入する。 アクション視覚要素を明示的に説明することにより、アクションインスタンスは、コンテキストから逸脱することなく、より正確にローカライズすることができる。 ビデオレベルの分類ラベルのみを用いた2つの特徴部分空間の学習を容易にするために,スニペットグループ化のための空間的および時間的ストリームからの予測を活用した。 また,提案モジュールを時間情報マイニングに焦点を合わせ,教師なし学習タスクを導入する。 提案されたアプローチは、3つのベンチマーク、すなわち thumos14, activitynet v1.2, v1.3 データセットで最先端の ws-tal メソッドを上回る。

Weakly-supervised Temporal Action Localization (WS-TAL) methods learn to localize temporal starts and ends of action instances in a video under only video-level supervision. Existing WS-TAL methods rely on deep features learned for action recognition. However, due to the mismatch between classification and localization, these features cannot distinguish the frequently co-occurring contextual background, i.e., the context, and the actual action instances. We term this challenge action-context confusion, and it will adversely affect the action localization accuracy. To address this challenge, we introduce a framework that learns two feature subspaces respectively for actions and their context. By explicitly accounting for action visual elements, the action instances can be localized more precisely without the distraction from the context. To facilitate the learning of these two feature subspaces with only video-level categorical labels, we leverage the predictions from both spatial and temporal streams for snippets grouping. In addition, an unsupervised learning task is introduced to make the proposed module focus on mining temporal information. The proposed approach outperforms state-of-the-art WS-TAL methods on three benchmarks, i.e., THUMOS14, ActivityNet v1.2 and v1.3 datasets.
翻訳日:2021-03-31 14:57:09 公開日:2021-03-30
# 図面とスケッチの相違

Differentiable Drawing and Sketching ( http://arxiv.org/abs/2103.16194v1 )

ライセンス: Link先を確認
Daniela Mihai and Jonathon Hare(参考訳) 我々は、点、線、曲線をピクセルラスタに描画する過程をボトムアップで微分可能緩和する。 我々のアプローチは、プリミティブのパラメータが与えられた画像内のピクセルをラスタ化することは、プリミティブの距離変換の観点で再構成でき、それから、プリミティブのパラメータを学習できるようにリラックスできるという観察から生じる。 この緩和により、エンド・ツー・エンドの微分可能プログラムとディープネットワークの学習と最適化が可能になり、構成的描画プロセスのモデル化の制御を可能にするいくつかのビルディングブロックを提供する。 我々は,提案手法のボトムアップ性を強調し,ドローイング操作を,例えば現代のコンピュータグラフィックスにおけるアプローチと結びつけるのではなく,ドローイングの物理的な現実を模倣する手法で構成することを可能にする。 提案手法では,写真に対して直接最適化することでスケッチを生成する方法と,ラスタ化された手書き文字を監督なしでベクトルに変換する自動エンコーダの構築方法を示す。 広範囲にわたる実験の結果は、描画タスクの異なるモデリング仮定の下でのこのアプローチのパワーを強調している。

We present a bottom-up differentiable relaxation of the process of drawing points, lines and curves into a pixel raster. Our approach arises from the observation that rasterising a pixel in an image given parameters of a primitive can be reformulated in terms of the primitive's distance transform, and then relaxed to allow the primitive's parameters to be learned. This relaxation allows end-to-end differentiable programs and deep networks to be learned and optimised and provides several building blocks that allow control over how a compositional drawing process is modelled. We emphasise the bottom-up nature of our proposed approach, which allows for drawing operations to be composed in ways that can mimic the physical reality of drawing rather than being tied to, for example, approaches in modern computer graphics. With the proposed approach we demonstrate how sketches can be generated by directly optimising against photographs and how auto-encoders can be built to transform rasterised handwritten digits into vectors without supervision. Extensive experimental results highlight the power of this approach under different modelling assumptions for drawing tasks.
翻訳日:2021-03-31 14:56:49 公開日:2021-03-30
# XVFI: eXtremeビデオフレーム補間

XVFI: eXtreme Video Frame Interpolation ( http://arxiv.org/abs/2103.16206v1 )

ライセンス: Link先を確認
Hyeonjun Sim, Jihyong Oh, Munchurl Kim(参考訳) 本稿では、まず、1000fpsの4Kビデオのデータセット(X4K1000FPS)を、ビデオフレーム補間(VFI)研究コミュニティに提示し、まず、大きなモーションで4KビデオのVFIを処理する極端VFIネットワークであるXVFI-Netを提案する。 XVFI-Netは、2つの入力フレーム(BiOF-I)間の双方向光フロー学習のための2つのカスケードモジュールと、ターゲットから入力フレーム(BiOF-T)への双方向光フロー学習のための再帰的なマルチスケール共有構造に基づいている。 光学フローはBiOF-Tモジュールで提案された補流逆流(CFR)によって安定に近似される。 推論中、BiOF-Iモジュールは任意の入力スケールで開始でき、BiOF-Tモジュールは元の入力スケールでのみ動作し、高精度なVFI性能を維持しながら推論を加速することができる。 広範な実験結果から,我々のxvfi-netは,非常に大きな動きと複雑なテクスチャを持つ物体の必須情報をキャプチャすることに成功した。 さらに、我々のXVFI-Netフレームワークは、以前の低解像度ベンチマークデータセットでも比較可能であり、アルゴリズムの堅牢性も示しています。 すべてのソースコード、事前訓練されたモデル、提案されたX4K1000FPSデータセットはhttps://github.com/J ihyongOh/XVFIで公開されている。

In this paper, we firstly present a dataset (X4K1000FPS) of 4K videos of 1000 fps with the extreme motion to the research community for video frame interpolation (VFI), and propose an extreme VFI network, called XVFI-Net, that first handles the VFI for 4K videos with large motion. The XVFI-Net is based on a recursive multi-scale shared structure that consists of two cascaded modules for bidirectional optical flow learning between two input frames (BiOF-I) and for bidirectional optical flow learning from target to input frames (BiOF-T). The optical flows are stably approximated by a complementary flow reversal (CFR) proposed in BiOF-T module. During inference, the BiOF-I module can start at any scale of input while the BiOF-T module only operates at the original input scale so that the inference can be accelerated while maintaining highly accurate VFI performance. Extensive experimental results show that our XVFI-Net can successfully capture the essential information of objects with extremely large motions and complex textures while the state-of-the-art methods exhibit poor performance. Furthermore, our XVFI-Net framework also performs comparably on the previous lower resolution benchmark dataset, which shows a robustness of our algorithm as well. All source codes, pre-trained models, and proposed X4K1000FPS datasets are publicly available at https://github.com/J ihyongOh/XVFI.
翻訳日:2021-03-31 14:56:31 公開日:2021-03-30
# マルチビューレーダセマンティックセマンティックセグメンテーション

Multi-View Radar Semantic Segmentation ( http://arxiv.org/abs/2103.16214v1 )

ライセンス: Link先を確認
Arthur Ouaknine, Alasdair Newson, Patrick P\'erez, Florence Tupin, Julien Rebut(参考訳) エゴ車を取り巻くシーンを理解することは、アシストと自律運転の鍵となる。 現在では、悪天候下での性能が低下しているにもかかわらず、主にカメラとレーザースキャナを用いて行われる。 自動車用レーダーは、相対速度を含む周囲の物体の特性を測る低コストのアクティブセンサーであり、雨や雪、霧の影響を受けない重要な利点がある。 しかし、レーダーの生データのサイズと複雑さ、注釈付きデータセットがないため、シーン理解にはほとんど使われない。 幸いなことに、最近のオープンソースデータセットは、エンドツーエンドのトレーニング可能なモデルを使用して、生のレーダー信号による分類、オブジェクト検出、セマンティックセグメンテーションの研究を開始した。 そこで本研究では,数種類の新しいアーキテクチャとそれに伴う損失について検討し,それをセマンティクス的にセグメンテーションするために,レンジアングル・ドップラーレーダテンソルの複数の「ビュー」を分析する。 最近のCARRADAデータセットで行った実験では、我々の最良のモデルは、自然画像の意味的セグメンテーションやレーダーシーンの理解から派生した代替モデルよりも優れており、パラメータは大幅に少ない。 コードとトレーニングされたモデルの両方がリリースされます。

Understanding the scene around the ego-vehicle is key to assisted and autonomous driving. Nowadays, this is mostly conducted using cameras and laser scanners, despite their reduced performances in adverse weather conditions. Automotive radars are low-cost active sensors that measure properties of surrounding objects, including their relative speed, and have the key advantage of not being impacted by rain, snow or fog. However, they are seldom used for scene understanding due to the size and complexity of radar raw data and the lack of annotated datasets. Fortunately, recent open-sourced datasets have opened up research on classification, object detection and semantic segmentation with raw radar signals using end-to-end trainable models. In this work, we propose several novel architectures, and their associated losses, which analyse multiple "views" of the range-angle-Doppler radar tensor to segment it semantically. Experiments conducted on the recent CARRADA dataset demonstrate that our best model outperforms alternative models, derived either from the semantic segmentation of natural images or from radar scene understanding, while requiring significantly fewer parameters. Both our code and trained models will be released.
翻訳日:2021-03-31 14:56:06 公開日:2021-03-30
# Head2HeadFS: ビデオによる頭部再現

Head2HeadFS: Video-based Head Reenactment with Few-shot Learning ( http://arxiv.org/abs/2103.16229v1 )

ライセンス: Link先を確認
Michail Christos Doukas, Mohammad Rami Koujan, Viktoriia Sharmanska, Stefanos Zafeiriou(参考訳) 過去数年間、顔の再現に関する問題に対してかなりの作業が行われてきたが、その解決策は主にグラフィックコミュニティから来ている。 頭部の再現はさらに困難な作業であり、顔の表情だけでなく、頭部全体のポーズをソースの人物からターゲットに移すことを目的としている。 現在のアプローチでは、個人固有のシステムを訓練するか、顔のランドマークを使って人間の頭部をモデル化するかのどちらかだ。 頭部再生のための新しい適応性パイプラインであるhead2headfsを提案する。 音源からの濃密な3次元顔形状情報に基づいて対象人物の条件合成を行い,高品質な表現とポーズ転送を実現する。 私たちのビデオベースのレンダリングネットワークは、少数のサンプルを使用して、数ショットの学習戦略の下で微調整されています。 これにより、複数の個人データセットでトレーニングされたジェネリックジェネレータを、個人固有のデータセットに迅速に適応することができる。

Over the past years, a substantial amount of work has been done on the problem of facial reenactment, with the solutions coming mainly from the graphics community. Head reenactment is an even more challenging task, which aims at transferring not only the facial expression, but also the entire head pose from a source person to a target. Current approaches either train person-specific systems, or use facial landmarks to model human heads, a representation that might transfer unwanted identity attributes from the source to the target. We propose head2headFS, a novel easily adaptable pipeline for head reenactment. We condition synthesis of the target person on dense 3D face shape information from the source, which enables high quality expression and pose transfer. Our video-based rendering network is fine-tuned under a few-shot learning strategy, using only a few samples. This allows for fast adaptation of a generic generator trained on a multiple-person dataset, into a person-specific one.
翻訳日:2021-03-31 14:55:47 公開日:2021-03-30
# 単眼3次元物体検出における位置推定誤差の検討

Delving into Localization Errors for Monocular 3D Object Detection ( http://arxiv.org/abs/2103.16237v1 )

ライセンス: Link先を確認
Xinzhu Ma, Yinmin Zhang, Dan Xu, Dongzhan Zhou, Shuai Yi, Haojie Li, Wanli Ouyang(参考訳) モノクロ画像から3D境界ボックスを推定することは、自動運転に不可欠な要素であり、この種のデータから正確な3Dオブジェクト検出は非常に難しい。 本研究では, 集中診断実験により, 各サブタスクが与える影響を定量化し, 「局所化誤差」 が単眼的3次元検出を制限する重要な要因であることを確認した。 さらに,ローカライズエラーの背後にある根本的な原因を調査し,それらの問題を分析し,三つの戦略を提案する。 まず,2Dバウンディングボックスの中心と3Dオブジェクトの投影中心との間の不一致を再考し,位置決め精度の低下につながる重要な要因について述べる。 第2に、既存の技術で遠くの物体を正確にローカライズすることはほぼ不可能であり、これらのサンプルは学習したネットワークを誤解させる。 そこで本研究では,検出器の全体的な性能を向上させるためのトレーニングセットから,そのようなサンプルを除去することを提案する。 最後に, 「局所化誤差」 の影響を受けない, 物体の大きさ推定のための新しい3次元IoU配向損失を提案する。 提案手法は,提案手法がリアルタイムに検出され,従来の手法を大差で上回る,kittiデータセットの広範な実験を行う。 コードは、https://github.com/x inzhuma/monodle.comから入手できる。

Estimating 3D bounding boxes from monocular images is an essential component in autonomous driving, while accurate 3D object detection from this kind of data is very challenging. In this work, by intensive diagnosis experiments, we quantify the impact introduced by each sub-task and found the `localization error' is the vital factor in restricting monocular 3D detection. Besides, we also investigate the underlying reasons behind localization errors, analyze the issues they might bring, and propose three strategies. First, we revisit the misalignment between the center of the 2D bounding box and the projected center of the 3D object, which is a vital factor leading to low localization accuracy. Second, we observe that accurately localizing distant objects with existing technologies is almost impossible, while those samples will mislead the learned network. To this end, we propose to remove such samples from the training set for improving the overall performance of the detector. Lastly, we also propose a novel 3D IoU oriented loss for the size estimation of the object, which is not affected by `localization error'. We conduct extensive experiments on the KITTI dataset, where the proposed method achieves real-time detection and outperforms previous methods by a large margin. The code will be made available at: https://github.com/x inzhuma/monodle.
翻訳日:2021-03-31 14:55:32 公開日:2021-03-30
# 周波数バイアスモデルによる共通汚損に対するロバスト性向上

Improving robustness against common corruptions with frequency biased models ( http://arxiv.org/abs/2103.16241v1 )

ライセンス: Link先を確認
Tonmoy Saikia, Cordelia Schmid, Thomas Brox(参考訳) CNNは、トレーニングとテストの分布がi.d.である場合、非常によく機能するが、目に見えない画像の破損は驚くほど大きなパフォーマンス低下を引き起こす。 様々な現実シナリオにおいて、ランダムノイズ、圧縮アーチファクト、気象歪みなどの予期せぬ歪みが一般的な現象である。 腐敗した画像のパフォーマンス向上は、劣化したi.i.dパフォーマンスをもたらすものではない。 画像腐敗型は周波数スペクトルに異なる特性を持ち、対象とするデータ拡張型の恩恵を受けるが、トレーニング中は未知であることが多い。 本稿では,高域と低域のロバスト性に特化した2種類のエキスパートモデルについて紹介する。 さらに,畳み込み特徴マップの総変動(tv)を最小化し,高周波ロバスト性を高める新しい正規化手法を提案する。 このアプローチは、分散性能を低下させることなく、腐敗した画像を改善する。 我々は、imagenet-cと、オブジェクト分類とオブジェクト検出の両方のために、自動車データセット上の実世界の腐敗に対しても、これを実証する。

CNNs perform remarkably well when the training and test distributions are i.i.d, but unseen image corruptions can cause a surprisingly large drop in performance. In various real scenarios, unexpected distortions, such as random noise, compression artefacts, or weather distortions are common phenomena. Improving performance on corrupted images must not result in degraded i.i.d performance - a challenge faced by many state-of-the-art robust approaches. Image corruption types have different characteristics in the frequency spectrum and would benefit from a targeted type of data augmentation, which, however, is often unknown during training. In this paper, we introduce a mixture of two expert models specializing in high and low-frequency robustness, respectively. Moreover, we propose a new regularization scheme that minimizes the total variation (TV) of convolution feature-maps to increase high-frequency robustness. The approach improves on corrupted images without degrading in-distribution performance. We demonstrate this on ImageNet-C and also for real-world corruptions on an automotive dataset, both for object classification and object detection.
翻訳日:2021-03-31 14:55:09 公開日:2021-03-30
# 物理対向攻撃による光フローネットワークの脆弱性

What Causes Optical Flow Networks to be Vulnerable to Physical Adversarial Attacks ( http://arxiv.org/abs/2103.16255v1 )

ライセンス: Link先を確認
Simon Schrodi, Tonmoy Saikia, Thomas Brox(参考訳) 最近の研究は、物理的、パッチベースの敵攻撃に対する光学フローネットワークの堅牢性の欠如を実証した。 自動車システムの基本コンポーネントを物理的に攻撃する可能性は、深刻な懸念の理由である。 本稿では,この問題の原因を分析し,ロバスト性の欠如は,ネットワークアーキテクチャの細部において,光学フロー推定の古典的な開口問題と悪い選択の組み合わせに根ざしていることを示す。 我々は,光フローネットワークを物理的パッチベース攻撃に対して堅牢にするために,これらの誤りを正す方法を示す。

Recent work demonstrated the lack of robustness of optical flow networks to physical, patch-based adversarial attacks. The possibility to physically attack a basic component of automotive systems is a reason for serious concerns. In this paper, we analyze the cause of the problem and show that the lack of robustness is rooted in the classical aperture problem of optical flow estimation in combination with bad choices in the details of the network architecture. We show how these mistakes can be rectified in order to make optical flow networks robust to physical, patch-based attacks.
翻訳日:2021-03-31 14:54:51 公開日:2021-03-30
# 多様体上の深い回帰:3次元回転のケーススタディ

Deep regression on manifolds: a 3D rotation case study ( http://arxiv.org/abs/2103.16317v1 )

ライセンス: Link先を確認
Romain Br\'egier(参考訳) 機械学習における多くの問題は、離散確率分布やオブジェクトのポーズのようなユークリッド空間にない出力を回帰させることである。 勾配に基づく学習を通してこれらの問題に取り組むアプローチは、ディープラーニングアーキテクチャにユークリッド空間の任意の入力をこの多様体にマッピングする微分可能な関数を含めることである。 本研究では,そのようなマッピングが適切なトレーニングを可能にするために満たすべき性質の集合を定式化し,それを3次元回転の場合に説明する。 様々なタスクに関する理論的考察と方法論実験を通じて、3次元回転空間上の様々な微分可能写像を比較し、写像の局所線型性の重要性を推測する。 特に, 3x3 行列の直交正規化に基づく写像は, 概ね考慮されているものの中で最もよく機能するが, 回転ベクトル表現は小さい角度に制限される場合にも適していることを示した。

Many problems in machine learning involve regressing outputs that do not lie on a Euclidean space, such as a discrete probability distribution, or the pose of an object. An approach to tackle these problems through gradient-based learning consists in including in the deep learning architecture a differentiable function mapping arbitrary inputs of a Euclidean space onto this manifold. In this work, we establish a set of properties that such mapping should satisfy to allow proper training, and illustrate it in the case of 3D rotations. Through theoretical considerations and methodological experiments on a variety of tasks, we compare various differentiable mappings on the 3D rotation space, and conjecture about the importance of the local linearity of the mapping. We notably show that a mapping based on Procrustes orthonormalization of a 3x3 matrix generally performs best among the ones considered, but that rotation-vector representation might also be suitable when restricted to small angles.
翻訳日:2021-03-31 14:54:41 公開日:2021-03-30
# 効率的なロバスト4次元再構成のための時空間記述子からの並列距離対応学習

Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors for Efficient and Robust 4D Reconstruction ( http://arxiv.org/abs/2103.16341v1 )

ライセンス: Link先を確認
Jiapeng Tang, Dan Xu, Kui Jia, Lei Zhang(参考訳) 本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。 深い暗黙表現を4d空間に拡張することで、近年の成功にもかかわらず、2つの点で大きな課題である。 4次元点雲から頑健な時空間形状表現を学習するための柔軟なフレームワークの設計と、形状ダイナミクスを捉えるための効率的なメカニズムの開発。 本研究では,クロスフレーム占有領域間の空間連続的変換関数を通して3次元人体形状の時間変化を学ぶための新しいパイプラインを提案する。 鍵となる考え方は、頑健な時空間形状表現から連続変位ベクトル場を明示的に学習することで、予測占有場間の異なる時間ステップでの密接な対応を並列に確立することである。 従来の最先端技術との比較では、4次元形状の自動エンコーディングと補完の問題において、我々のアプローチの精度が優れており、ネットワーク推論の高速化が約8倍の速さで実現されている。 トレーニングされたモデルと実装コードはhttps://github.com/t angjiapeng/LPDC-Netで公開されている。

This paper focuses on the task of 4D shape reconstruction from a sequence of point clouds. Despite the recent success achieved by extending deep implicit representations into 4D space, it is still a great challenge in two respects, i.e. how to design a flexible framework for learning robust spatio-temporal shape representations from 4D point clouds, and develop an efficient mechanism for capturing shape dynamics. In this work, we present a novel pipeline to learn a temporal evolution of the 3D human shape through spatially continuous transformation functions among cross-frame occupancy fields. The key idea is to parallelly establish the dense correspondence between predicted occupancy fields at different time steps via explicitly learning continuous displacement vector fields from robust spatio-temporal shape representations. Extensive comparisons against previous state-of-the-arts show the superior accuracy of our approach for 4D human reconstruction in the problems of 4D shape auto-encoding and completion, and a much faster network inference with about 8 times speedup demonstrates the significant efficiency of our approach. The trained models and implementation code are available at https://github.com/t angjiapeng/LPDC-Net.
翻訳日:2021-03-31 14:54:27 公開日:2021-03-30
# 解剖学的相関を用いたワンショット推論の一般化

Generalized Organ Segmentation by Imitating One-shot Reasoning using Anatomical Correlation ( http://arxiv.org/abs/2103.16344v1 )

ライセンス: Link先を確認
Hong-Yu Zhou, Hualuo Liu, Shilei Cao, Dong Wei, Chixiang Lu, Yizhou Yu, Kai Ma, Yefeng Zheng(参考訳) 模倣による学習は人間の最も重要な能力の1つであり、人間の計算神経システムにおいて重要な役割を果たす。 医療画像解析において、経験豊富な放射線技師は、既存の種類の臓器から学んだ推論過程を模倣することにより、慣れていない臓器を記述できる。 この観察から着想を得たOrganNetは、アノテーション付きオルガンクラスから一般化されたオルガン概念を学び、その概念を目に見えないクラスに転送する。 本稿では,このようなプロセスが,非常に難しいが意味のあるトピックであるワンショットセグメンテーションタスクに統合可能であることを示す。 本研究では,アンカーとターゲットボリュームの解剖学的相関をモデル化するためのピラミッド推論モジュール(PRMs)を提案する。 実際に提案したモジュールは、まずターゲットとアンカーのコンピュータ断層撮影(CT)ボリュームの相関行列を計算する。 次に、この行列を用いてアンカーボリュームとセグメンテーションマスクの双方の特徴表現を変換する。 最後に、OrganNetは様々な入力から表現を融合させ、ターゲットボリュームのセグメンテーション結果を予測する。 大規模な実験により、OrganNetは臓器形態の幅広いバリエーションに効果的に抵抗し、1ショットのセグメンテーションタスクで最先端の結果を生み出すことが示されている。 さらに、完全な教師付きセグメンテーションモデルと比較しても、organnetはセグメンテーション結果を満たすことができる。

Learning by imitation is one of the most significant abilities of human beings and plays a vital role in human's computational neural system. In medical image analysis, given several exemplars (anchors), experienced radiologist has the ability to delineate unfamiliar organs by imitating the reasoning process learned from existing types of organs. Inspired by this observation, we propose OrganNet which learns a generalized organ concept from a set of annotated organ classes and then transfer this concept to unseen classes. In this paper, we show that such process can be integrated into the one-shot segmentation task which is a very challenging but meaningful topic. We propose pyramid reasoning modules (PRMs) to model the anatomical correlation between anchor and target volumes. In practice, the proposed module first computes a correlation matrix between target and anchor computerized tomography (CT) volumes. Then, this matrix is used to transform the feature representations of both anchor volume and its segmentation mask. Finally, OrganNet learns to fuse the representations from various inputs and predicts segmentation results for target volume. Extensive experiments show that OrganNet can effectively resist the wide variations in organ morphology and produce state-of-the-art results in one-shot segmentation task. Moreover, even when compared with fully-supervised segmentation models, OrganNet is still able to produce satisfying segmentation results.
翻訳日:2021-03-31 14:54:08 公開日:2021-03-30
# ICE:教師なし人物再識別のためのインスタンス間コントラスト符号化

ICE: Inter-instance Contrastive Encoding for Unsupervised Person Re-identification ( http://arxiv.org/abs/2103.16364v1 )

ライセンス: Link先を確認
Hao Chen, Benoit Lagadec, Francois Bremond(参考訳) unsupervised person re-identification(re id)は、アノテーションなしで識別的アイデンティティ機能を学ぶことを目的としている。 近年,教師なし表現学習における自己指導型コントラスト学習の有効性が注目されている。 インスタンスのコントラスト学習の主な考え方は、異なる拡張ビューで同じインスタンスと一致することである。 しかし、同一IDの異なるインスタンス間の関係は従来の手法では検討されていないため、準最適ReID性能が得られる。 この問題に対処するため,従来のクラスレベルのコントラッシブなReID手法を向上するために,インスタンス間のペアワイドな類似度スコアを活用したICE(Inter-instance Contrastive Encoding)を提案する。 まず, クラス内分散の低減を目的とした, ハードケースコントラストの1ホットな擬似ラベルとして, ペアワイズ類似度ランキングを用いた。 そして、類似度スコアをソフトな擬似ラベルとして使用して、拡張されたビューとオリジナルビューの整合性を高めることにより、モデルが拡張摂動に対してより堅牢になる。 複数の大規模人物ReIDデータセットを用いた実験により,提案手法であるICEの有効性が検証された。

Unsupervised person re-identification (ReID) aims at learning discriminative identity features without annotations. Recently, self-supervised contrastive learning has gained increasing attention for its effectiveness in unsupervised representation learning. The main idea of instance contrastive learning is to match a same instance in different augmented views. However, the relationship between different instances of a same identity has not been explored in previous methods, leading to sub-optimal ReID performance. To address this issue, we propose Inter-instance Contrastive Encoding (ICE) that leverages inter-instance pairwise similarity scores to boost previous class-level contrastive ReID methods. We first use pairwise similarity ranking as one-hot hard pseudo labels for hard instance contrast, which aims at reducing intra-class variance. Then, we use similarity scores as soft pseudo labels to enhance the consistency between augmented and original views, which makes our model more robust to augmentation perturbations. Experiments on several large-scale person ReID datasets validate the effectiveness of our proposed unsupervised method ICE, which is competitive with even supervised methods.
翻訳日:2021-03-31 14:53:45 公開日:2021-03-30
# 意味セグメンテーションのためのソースフリードメイン適応

Source-Free Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2103.16372v1 )

ライセンス: Link先を確認
Yuang Liu, Wei Zhang, Jun Wang(参考訳) unsupervised domain adaptation(uda)は、畳み込みニューラルネットワーク(cnn)に基づくセマンティックセグメンテーションのアプローチが、労働集約的なピクセルレベルの注釈データに大きく依存しているという課題に対処できる。 しかしながら、この点において既存のudaアプローチでは、ソースデータセットがプライベートである実際のシナリオでは現実的ではなく、十分に訓練されたソースモデルとともにリリースできない、モデル適応中にソースとターゲットドメインの間のギャップを減らすために、必然的にソースデータセットへの完全なアクセスを必要とする。 この問題に対処するため,我々は,十分に訓練されたソースモデルとラベルなしのターゲットドメインデータセットのみを適用可能な,意味セグメンテーションのためのソースフリーなドメイン適応フレームワークsfdaを提案する。 SFDAは、モデル適応中の知識伝達を通じて、ソースモデルからソースドメイン知識を復元および保存するだけでなく、自己教師付き学習のためにターゲットドメインから貴重な情報を蒸留する。 セマンティックセグメンテーションに適したピクセルレベルとパッチレベルの最適化目標は、フレームワークにシームレスに統合される。 多数のベンチマークデータセットに対する広範な実験結果は、ソースデータに依存する既存のUDAアプローチに対する我々のフレームワークの有効性を強調している。

Unsupervised Domain Adaptation (UDA) can tackle the challenge that convolutional neural network(CNN)-based approaches for semantic segmentation heavily rely on the pixel-level annotated data, which is labor-intensive. However, existing UDA approaches in this regard inevitably require the full access to source datasets to reduce the gap between the source and target domains during model adaptation, which are impractical in the real scenarios where the source datasets are private, and thus cannot be released along with the well-trained source models. To cope with this issue, we propose a source-free domain adaptation framework for semantic segmentation, namely SFDA, in which only a well-trained source model and an unlabeled target domain dataset are available for adaptation. SFDA not only enables to recover and preserve the source domain knowledge from the source model via knowledge transfer during model adaptation, but also distills valuable information from the target domain for self-supervised learning. The pixel- and patch-level optimization objectives tailored for semantic segmentation are seamlessly integrated in the framework. The extensive experimental results on numerous benchmark datasets highlight the effectiveness of our framework against the existing UDA approaches relying on source data.
翻訳日:2021-03-31 14:52:49 公開日:2021-03-30
# ポイントクラウドにおける物体接地のためのフリーフォーム記述誘導3次元ビジュアルグラフネットワーク

Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud ( http://arxiv.org/abs/2103.16381v1 )

ライセンス: Link先を確認
Mingtao Feng, Zhen Li, Qi Li, Liang Zhang, XiangDong Zhang, Guangming Zhu, Hui Zhang, Yaonan Wang and Ajmal Mian(参考訳) 3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。 複雑で多様な記述を理解し、それらをポイントクラウドに直接持ち上げることは、ポイントクラウドの不規則でスパースな性質のため、新しくて挑戦的なトピックです。 3dオブジェクトのグラウンド化には3つの大きな課題がある: 複雑で多様な記述の焦点を見つけること、ポイントクラウドのシーンを理解すること、ターゲットオブジェクトを見つけること。 本稿では,3つの課題に対処する。 まず,リッチな構造と長距離句の相関関係を抽出する言語シーングラフモジュールを提案する。 次に,オブジェクト・オブジェクトとオブジェクト・シーンの共起関係を抽出し,最初の提案の視覚的特徴を強化するための多レベル3次元提案関係グラフモジュールを提案する。 最後に,節と提案のグローバルコンテキストをノードマッチング戦略によって符号化する3次元ビジュアルグラフモジュールについて述べる。 挑戦的なベンチマークデータセット(ScanReferとNr3D)に関する大規模な実験により、我々のアルゴリズムは既存の最先端のアルゴリズムよりも優れていることが示された。 私たちのコードはhttps://github.com/p nxd/ffl-3dogで利用可能です。

3D object grounding aims to locate the most relevant target object in a raw point cloud scene based on a free-form language description. Understanding complex and diverse descriptions, and lifting them directly to a point cloud is a new and challenging topic due to the irregular and sparse nature of point clouds. There are three main challenges in 3D object grounding: to find the main focus in the complex and diverse description; to understand the point cloud scene; and to locate the target object. In this paper, we address all three challenges. Firstly, we propose a language scene graph module to capture the rich structure and long-distance phrase correlations. Secondly, we introduce a multi-level 3D proposal relation graph module to extract the object-object and object-scene co-occurrence relationships, and strengthen the visual features of the initial proposals. Lastly, we develop a description guided 3D visual graph module to encode global contexts of phrases and proposals by a nodes matching strategy. Extensive experiments on challenging benchmark datasets (ScanRefer and Nr3D) show that our algorithm outperforms existing state-of-the-art. Our code is available at https://github.com/P NXD/FFL-3DOG.
翻訳日:2021-03-31 14:52:28 公開日:2021-03-30
# 3次元ポーズ推定のためのグラフ重ね合わせ砂時計ネットワーク

Graph Stacked Hourglass Networks for 3D Human Pose Estimation ( http://arxiv.org/abs/2103.16385v1 )

ライセンス: Link先を確認
Tianhan Xu, Wataru Takano(参考訳) 本稿では,2次元から3次元の人間のポーズ推定のための新しいグラフ畳み込みネットワークアーキテクチャであるグラフ重畳ホアーグラスネットワークを提案する。 提案アーキテクチャは,人間の骨格表現の3つの異なるスケールでグラフ構造化特徴を処理した繰り返しエンコーダデコーダで構成されている。 このマルチスケールアーキテクチャにより、モデルは3次元の人間のポーズ推定に不可欠な局所的特徴表現と大域的特徴表現の両方を学ぶことができる。 また,異なる詳細な中間機能を用いたマルチレベル特徴学習手法を導入し,マルチスケール・マルチレベル特徴表現の活用による性能改善を示す。 我々のアプローチを検証するために広範な実験が行われ、その結果、我々のモデルが最先端を上回っていることが判明した。

In this paper, we propose a novel graph convolutional network architecture, Graph Stacked Hourglass Networks, for 2D-to-3D human pose estimation tasks. The proposed architecture consists of repeated encoder-decoder, in which graph-structured features are processed across three different scales of human skeletal representations. This multi-scale architecture enables the model to learn both local and global feature representations, which are critical for 3D human pose estimation. We also introduce a multi-level feature learning approach using different-depth intermediate features and show the performance improvements that result from exploiting multi-scale, multi-level feature representations. Extensive experiments are conducted to validate our approach, and the results show that our model outperforms the state-of-the-art.
翻訳日:2021-03-31 14:52:08 公開日:2021-03-30
# 時系列疾患予測のための因果隠れマルコフモデル

Causal Hidden Markov Model for Time Series Disease Forecasting ( http://arxiv.org/abs/2103.16391v1 )

ライセンス: Link先を確認
Jing Li, Botong Wu, Xinwei Sun, Yizhou Wang(参考訳) そこで本研究では, 早期に非可逆性疾患のロバストな予測を実現するための因果的隠れマルコフモデルを提案する。 具体的には,各段階で医療データを生成するために伝播する隠れ変数を紹介する。 a) 疾患(臨床)関連部分、b) 疾患(非臨床)関連部分、c) 疾患と因果関係のある部分、b) 疾患に因果関係のある部分(c) は、提供されたデータから引き継がれた部分(と疾患)を含んでいる可能性がある。 個人属性と病名ラベルをそれぞれ副次情報と監視として提供することにより,これらの疾患に関連する隠れ変数が他者から切り離され,他の(アウトオブオブオブオブオブ)分布からの医療データへの急激な相関が回避されることを示す。 そこで本研究では,目的関数を改良した逐次変分自動エンコーダを提案する。 本モデルは,乳頭萎縮の早期予測に応用し,アウトオブディストリビューションテストデータで有望な結果を得た。 さらに, アブレーション研究は, 本手法における各成分の有効性を実証的に示す。 可視化は、他の病変領域の正確な識別を示す。

We propose a causal hidden Markov model to achieve robust prediction of irreversible disease at an early stage, which is safety-critical and vital for medical treatment in early stages. Specifically, we introduce the hidden variables which propagate to generate medical data at each time step. To avoid learning spurious correlation (e.g., confounding bias), we explicitly separate these hidden variables into three parts: a) the disease (clinical)-related part; b) the disease (non-clinical)-relat ed part; c) others, with only a),b) causally related to the disease however c) may contain spurious correlations (with the disease) inherited from the data provided. With personal attributes and the disease label respectively provided as side information and supervision, we prove that these disease-related hidden variables can be disentangled from others, implying the avoidance of spurious correlation for generalization to medical data from other (out-of-) distributions. Guaranteed by this result, we propose a sequential variational auto-encoder with a reformulated objective function. We apply our model to the early prediction of peripapillary atrophy and achieve promising results on out-of-distribution test data. Further, the ablation study empirically shows the effectiveness of each component in our method. And the visualization shows the accurate identification of lesion regions from others.
翻訳日:2021-03-31 14:51:54 公開日:2021-03-30
# CoLA: Snippet Contrastive Learningによる時間的行動の局所化

CoLA: Weakly-Supervised Temporal Action Localization with Snippet Contrastive Learning ( http://arxiv.org/abs/2103.16392v1 )

ライセンス: Link先を確認
Can Zhang, Meng Cao, Dongming Yang, Jie Chen, Yuexian Zou(参考訳) weakly-supervised temporal action localization (ws-tal) は、ビデオレベルのラベルのみを持つ未トリミングビデオのアクションをローカライズすることを目的としている。 既存のモデルの多くは「分類による局所化」手順に従っており、ビデオレベルの分類に最も寄与する時間領域を特定する。 一般に、各スニペット(またはフレーム)を個別に処理し、実りある時間的文脈関係を見渡す。 ここでは、単一のスニペットの不正な問題が発生する: "ハード"スニペットは分類するには曖昧すぎる。 本稿では,比較による学習がこれらのハードスニペットの同定に役立ち,コントラスト学習を短時間でCoLA(Localize Actions)に活用することを提案する。 具体的には,Snippet Contrast (SniCo) Lossを提案し,特徴空間におけるハードスニペット表現を洗練させる。 また,フレームレベルのアノテーションにアクセスできないため,潜在的なハードスニペットを見つけるためにハードスニペットマイニングアルゴリズムを導入する。 物質分析は、この採掘戦略がハードスニペットを効果的にキャプチャし、SniCoロスがより情報的な特徴表現をもたらすことを検証している。 大規模な実験によると、CoLAはTHUMOS'14とActivityNet v1.2データセットで最先端の結果を達成する。

Weakly-supervised temporal action localization (WS-TAL) aims to localize actions in untrimmed videos with only video-level labels. Most existing models follow the "localization by classification" procedure: locate temporal regions contributing most to the video-level classification. Generally, they process each snippet (or frame) individually and thus overlook the fruitful temporal context relation. Here arises the single snippet cheating issue: "hard" snippets are too vague to be classified. In this paper, we argue that learning by comparing helps identify these hard snippets and we propose to utilize snippet Contrastive learning to Localize Actions, CoLA for short. Specifically, we propose a Snippet Contrast (SniCo) Loss to refine the hard snippet representation in feature space, which guides the network to perceive precise temporal boundaries and avoid the temporal interval interruption. Besides, since it is infeasible to access frame-level annotations, we introduce a Hard Snippet Mining algorithm to locate the potential hard snippets. Substantial analyses verify that this mining strategy efficaciously captures the hard snippets and SniCo Loss leads to more informative feature representation. Extensive experiments show that CoLA achieves state-of-the-art results on THUMOS'14 and ActivityNet v1.2 datasets.
翻訳日:2021-03-31 14:51:30 公開日:2021-03-30
# 3D AffordanceNet: Visual Object Affordance Understandingのベンチマーク

3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding ( http://arxiv.org/abs/2103.16397v1 )

ライセンス: Link先を確認
Shengheng Deng, Xun Xu, Chaozheng Wu, Ke Chen, Kui Jia(参考訳) 視覚的な手がかり、すなわち、オブジェクトとのインタラクション方法を理解する能力。 視覚能力は視覚誘導型ロボット研究に欠かせない。 これには、視覚能力の分類、セグメンテーション、推論が含まれる。 2Dおよび2.5D画像領域の関連研究はこれまで行われてきたが、物価の真に機能的な理解には3D物理領域での学習と予測が必要である。 本研究では,23のセマンティックオブジェクトカテゴリから23k形状のベンチマークを行い,18の視覚的アプライアンスカテゴリをアノテートした3dアプライアンスネットデータセットを提案する。 このデータセットに基づいて、全形状、部分ビュー、回転不変価格推定を含む視覚的可視性理解を評価するための3つのベンチマークタスクを提供する。 3つの最先端のクラウドディープラーニングネットワークを,すべてのタスクで評価する。 さらに,ラベルのないデータからメリットを享受する半教師付き学習セットアップについても検討した。 コントリビューションデータセットの総合的な結果から、視覚的可視性理解は、価値はあるが挑戦的なベンチマークであることを示す。

The ability to understand the ways to interact with objects from visual cues, a.k.a. visual affordance, is essential to vision-guided robotic research. This involves categorizing, segmenting and reasoning of visual affordance. Relevant studies in 2D and 2.5D image domains have been made previously, however, a truly functional understanding of object affordance requires learning and prediction in the 3D physical domain, which is still absent in the community. In this work, we present a 3D AffordanceNet dataset, a benchmark of 23k shapes from 23 semantic object categories, annotated with 18 visual affordance categories. Based on this dataset, we provide three benchmarking tasks for evaluating visual affordance understanding, including full-shape, partial-view and rotation-invariant affordance estimations. Three state-of-the-art point cloud deep learning networks are evaluated on all tasks. In addition we also investigate a semi-supervised learning setup to explore the possibility to benefit from unlabeled data. Comprehensive results on our contributed dataset show the promise of visual affordance understanding as a valuable yet challenging benchmark.
翻訳日:2021-03-31 14:51:05 公開日:2021-03-30
# 対人メッシュ再構築のための双方向オンライン適応

Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction ( http://arxiv.org/abs/2103.16449v1 )

ライセンス: Link先を確認
Shanyan Guan, Jingwei Xu, Yunbo Wang, Bingbing Ni, Xiaokang Yang(参考訳) 本稿では、人間のメッシュ再構成のトレーニング済みモデルをドメイン外ストリーミングビデオに適用する際の新しい問題について考察する。 しかしながら、パラメトリックsmplモデルに基づく以前の手法の多くは、カメラパラメータ、骨の長さ、背景、咬合などの予期せぬドメイン固有の属性を持つ新しい領域で下方形を成す。 我々の一般的な考え方は、テストフレームの2D情報を過度に適合させることなく、ドメインギャップを軽減できるように、テストビデオストリームのソースモデルを時間的制約で動的に微調整することである。 その後の課題は、2Dと時間的制約の衝突を避ける方法だ。 本稿では,2段階の重み探索と重み更新の2段階に分割した2段階のトレーニングアルゴリズムであるBilevel Online Adaptation (BOA)を用いて,この問題に対処することを提案する。 BOAが2つのヒューマンメッシュ再構築ベンチマークで最先端の結果をもたらすことを示す。

This paper considers a new problem of adapting a pre-trained model of human mesh reconstruction to out-of-domain streaming videos. However, most previous methods based on the parametric SMPL model \cite{loper2015smpl} underperform in new domains with unexpected, domain-specific attributes, such as camera parameters, lengths of bones, backgrounds, and occlusions. Our general idea is to dynamically fine-tune the source model on test video streams with additional temporal constraints, such that it can mitigate the domain gaps without over-fitting the 2D information of individual test frames. A subsequent challenge is how to avoid conflicts between the 2D and temporal constraints. We propose to tackle this problem using a new training algorithm named Bilevel Online Adaptation (BOA), which divides the optimization process of overall multi-objective into two steps of weight probe and weight update in a training iteration. We demonstrate that BOA leads to state-of-the-art results on two human mesh reconstruction benchmarks.
翻訳日:2021-03-31 14:50:25 公開日:2021-03-30
# Read and Attend: 手話ビデオにおける時間的ローカライゼーション

Read and Attend: Temporal Localisation in Sign Language Videos ( http://arxiv.org/abs/2103.16481v1 )

ライセンス: Link先を確認
G\"ul Varol, Liliane Momeni, Samuel Albanie, Triantafyllos Afouras, Andrew Zisserman(参考訳) この研究の目的は、連続的な手話で幅広い語彙にわたって手話のインスタンスに注釈をつけることである。 我々は,連続署名ストリームを取り込み,弱い字幕を持つ大規模な署名映像群に一連の文書トークンを出力するトランスフォーマモデルを訓練する。 このトレーニングを通じて、入力シーケンス内の手話インスタンスの大きな語彙に出席する能力を取得し、それらのローカライズを可能にすることを示す。 Our contributions are as follows: (1) we demonstrate the ability to leverage large quantities of continuous signing videos with weakly-aligned subtitles to localise signs in continuous sign language; (2) we employ the learned attention to automatically generate hundreds of thousands of annotations for a large sign vocabulary; (3) we collect a set of 37K manually verified sign instances across a vocabulary of 950 sign classes to support our study of sign language recognition; (4) by training on the newly annotated data from our method, we outperform the prior state of the art on the BSL-1K sign language recognition benchmark.

The objective of this work is to annotate sign instances across a broad vocabulary in continuous sign language. We train a Transformer model to ingest a continuous signing stream and output a sequence of written tokens on a large-scale collection of signing footage with weakly-aligned subtitles. We show that through this training it acquires the ability to attend to a large vocabulary of sign instances in the input sequence, enabling their localisation. Our contributions are as follows: (1) we demonstrate the ability to leverage large quantities of continuous signing videos with weakly-aligned subtitles to localise signs in continuous sign language; (2) we employ the learned attention to automatically generate hundreds of thousands of annotations for a large sign vocabulary; (3) we collect a set of 37K manually verified sign instances across a vocabulary of 950 sign classes to support our study of sign language recognition; (4) by training on the newly annotated data from our method, we outperform the prior state of the art on the BSL-1K sign language recognition benchmark.
翻訳日:2021-03-31 14:50:08 公開日:2021-03-30
# 自然世界画像コレクションのためのベンチマーク表現学習

Benchmarking Representation Learning for Natural World Image Collections ( http://arxiv.org/abs/2103.16483v1 )

ライセンス: Link先を確認
Grant Van Horn, Elijah Cole, Sara Beery, Kimberly Wilber, Serge Belongie, Oisin Mac Aodha(参考訳) 近年の自己教師付き学習の進歩により、ラベルの明示的な監督を必要とせず、画像コレクションからリッチな表現を抽出できるモデルが生まれている。 しかし、これまでこれらのアプローチの大半は、ImageNetのような標準ベンチマークデータセットのトレーニングに限定されてきた。 植物種・動物種分類などのきめ細かい視覚分類問題は,自己指導型学習のための情報的テストベッドを提供する。 この領域の進展を促進するために、我々は2つの新しい自然界視覚分類データセットiNat2021とNeWTを提示した。 前者は市民科学アプリケーションinaturalistのユーザによってアップロードされた10k種の2.7m画像である。 後者のnewtをドメインの専門家と共同で設計し,標準種別を超越した難解な自然世界バイナリ分類タスクのスイート上で,表現学習アルゴリズムのパフォーマンスをベンチマークすることを目標とした。 これら2つの新しいデータセットは、きめ細かいカテゴリのコンテキストで、大規模表現と転送学習に関連する質問を探索できる。 我々は,imagenet と inat2021 を監督することなく訓練された特徴抽出器の総合的な解析を行い,様々なタスクを通して異なる学習特徴の長所と短所について考察した。 また,SimCLR などの自己教師型手法では,標準教師付き手法が生成する機能は依然として優れていた。 しかし、改良された自己教師付き学習手法が常にリリースされ、iNat2021とNeWTデータセットは進捗を追跡する貴重なリソースである。

Recent progress in self-supervised learning has resulted in models that are capable of extracting rich representations from image collections without requiring any explicit label supervision. However, to date the vast majority of these approaches have restricted themselves to training on standard benchmark datasets such as ImageNet. We argue that fine-grained visual categorization problems, such as plant and animal species classification, provide an informative testbed for self-supervised learning. In order to facilitate progress in this area we present two new natural world visual classification datasets, iNat2021 and NeWT. The former consists of 2.7M images from 10k different species uploaded by users of the citizen science application iNaturalist. We designed the latter, NeWT, in collaboration with domain experts with the aim of benchmarking the performance of representation learning algorithms on a suite of challenging natural world binary classification tasks that go beyond standard species classification. These two new datasets allow us to explore questions related to large-scale representation and transfer learning in the context of fine-grained categories. We provide a comprehensive analysis of feature extractors trained with and without supervision on ImageNet and iNat2021, shedding light on the strengths and weaknesses of different learned features across a diverse set of tasks. We find that features produced by standard supervised methods still outperform those produced by self-supervised approaches such as SimCLR. However, improved self-supervised learning methods are constantly being released and the iNat2021 and NeWT datasets are a valuable resource for tracking their progress.
翻訳日:2021-03-31 14:49:53 公開日:2021-03-30
# ピラミッド型メッシュアライメントフィードバックループを用いた3次元人間のポーズと形状回帰

3D Human Pose and Shape Regression with Pyramidal Mesh Alignment Feedback Loop ( http://arxiv.org/abs/2103.16507v1 )

ライセンス: Link先を確認
Hongwen Zhang, Yating Tian, Xinchi Zhou, Wanli Ouyang, Yebin Liu, Limin Wang, Zhenan Sun(参考訳) 回帰に基づく手法は、最近、単眼画像からヒトのメッシュを再構築する有望な結果を示している。 生のピクセルからモデルパラメータに直接マッピングすることで、ニューラルネットワークを介してパラメトリックモデルをフィードフォワードで生成することができる。 しかし、パラメータの小さな偏差は、推定メッシュと画像証拠の間に顕著な不一致をもたらす可能性がある。 この問題に対処するため、我々は、機能ピラミッドを活用し、深い回帰器のメッシュイメージアライメント状態に基づいて予測パラメータを明示的に修正するピラミッドメッシュアライメントフィードバック(PyMAF)ループを提案する。 現在予測されているパラメータから、PyMAFでは、より微細な特徴からメッシュに沿ったエビデンスを抽出し、パラメータの修正のためにフィードバックする。 ノイズを低減し,これらの証拠の信頼性を高めるため,特徴エンコーダに補助画素の監督を課し,空間的特徴の最も関連性の高い情報を保持するためのメッシュ画像対応ガイダンスを提供する。 提案手法の有効性はHuman3.6M, 3DPW, LSP, COCOなどいくつかのベンチマークで検証され, 実験結果から再現のメッシュイメージアライメントが一貫して改善されていることが示された。 私たちのコードはhttps://hongwenzhang .github.io/pymafで公開されています。

Regression-based methods have recently shown promising results in reconstructing human meshes from monocular images. By directly mapping from raw pixels to model parameters, these methods can produce parametric models in a feed-forward manner via neural networks. However, minor deviation in parameters may lead to noticeable misalignment between the estimated meshes and image evidences. To address this issue, we propose a Pyramidal Mesh Alignment Feedback (PyMAF) loop to leverage a feature pyramid and rectify the predicted parameters explicitly based on the mesh-image alignment status in our deep regressor. In PyMAF, given the currently predicted parameters, mesh-aligned evidences will be extracted from finer-resolution features accordingly and fed back for parameter rectification. To reduce noise and enhance the reliability of these evidences, an auxiliary pixel-wise supervision is imposed on the feature encoder, which provides mesh-image correspondence guidance for our network to preserve the most related information in spatial features. The efficacy of our approach is validated on several benchmarks, including Human3.6M, 3DPW, LSP, and COCO, where experimental results show that our approach consistently improves the mesh-image alignment of the reconstruction. Our code is publicly available at https://hongwenzhang .github.io/pymaf .
翻訳日:2021-03-31 14:49:31 公開日:2021-03-30
# 見えない視点からの映像における行動認識

Recognizing Actions in Videos from Unseen Viewpoints ( http://arxiv.org/abs/2103.16516v1 )

ライセンス: Link先を確認
AJ Piergiovanni and Michael S. Ryoo(参考訳) ビデオ認識の標準的な方法は、時空間データをキャプチャするために設計された大きなCNNを使用する。 しかしながら、これらのモデルのトレーニングには、さまざまなアクション、シーン、設定、カメラ視点を含む、大量のラベル付きトレーニングデータが必要である。 本稿では、現在の畳み込みニューラルネットワークモデルにおいて、トレーニングデータに存在しないカメラ視点からアクションを認識することができないことを示す。 そこで我々は、3次元表現に基づくアプローチを開発し、視点不変表現を学習できる新しい幾何学的畳み込み層を導入する。 さらに,未知視認識のための新しい挑戦的データセットを導入し,視点不変表現を学習するアプローチを示す。

Standard methods for video recognition use large CNNs designed to capture spatio-temporal data. However, training these models requires a large amount of labeled training data, containing a wide variety of actions, scenes, settings and camera viewpoints. In this paper, we show that current convolutional neural network models are unable to recognize actions from camera viewpoints not present in their training data (i.e., unseen view action recognition). To address this, we develop approaches based on 3D representations and introduce a new geometric convolutional layer that can learn viewpoint invariant representations. Further, we introduce a new, challenging dataset for unseen view recognition and show the approaches ability to learn viewpoint invariant representations.
翻訳日:2021-03-31 14:49:10 公開日:2021-03-30
# マイトショットセグメンテーションのための深いガウス過程

Deep Gaussian Processes for Few-Shot Segmentation ( http://arxiv.org/abs/2103.16549v1 )

ライセンス: Link先を確認
Joakim Johnander, Johan Edstedt, Martin Danelljan, Michael Felsberg, Fahad Shahbaz Khan(参考訳) 少数ショットのセグメンテーションは難しい課題であり、新しいクエリ画像をセグメント化するために、いくつかの注釈付きサンプルから一般化可能な表現を抽出する必要がある。 一般的なアプローチは、各クラスを単一のプロトタイプでモデル化することです。 概念的には単純であるが、対象の出現分布がマルチモーダルである場合や特徴空間において線形に分離できない場合、これらの手法は苦しむ。 そこで本研究では,ガウス過程(gp)回帰に基づく数発学習者定式化を提案する。 GPの表現性を通じて、我々は、深い特徴空間における複雑な外観分布をモデル化することができる。 gpは不確かさを捉えるための原理的な方法を提供し、cnnデコーダによって得られる最終セグメンテーションに対するもう一つの強力な手がかりとなる。 さらに,GP学習者の出力空間を学習するためのアプローチのエンドツーエンド学習機能を活用し,セグメンテーションマスクのよりリッチな符号化を実現する。 数発の学習者の定式化に関する総合的な実験分析を行う。 PASCAL-5i と COCO-20i の mIoU スコアは68.1 と 49.8 である。

Few-shot segmentation is a challenging task, requiring the extraction of a generalizable representation from only a few annotated samples, in order to segment novel query images. A common approach is to model each class with a single prototype. While conceptually simple, these methods suffer when the target appearance distribution is multi-modal or not linearly separable in feature space. To tackle this issue, we propose a few-shot learner formulation based on Gaussian process (GP) regression. Through the expressivity of the GP, our approach is capable of modeling complex appearance distributions in the deep feature space. The GP provides a principled way of capturing uncertainty, which serves as another powerful cue for the final segmentation, obtained by a CNN decoder. We further exploit the end-to-end learning capabilities of our approach to learn the output space of the GP learner, ensuring a richer encoding of the segmentation mask. We perform comprehensive experimental analysis of our few-shot learner formulation. Our approach sets a new state-of-the-art for 5-shot segmentation, with mIoU scores of 68.1 and 49.8 on PASCAL-5i and COCO-20i, respectively
翻訳日:2021-03-31 14:48:59 公開日:2021-03-30
# トランスフォーマーを用いたテキストから視覚への効率的な検索

Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers ( http://arxiv.org/abs/2103.16553v1 )

ライセンス: Link先を確認
Antoine Miech, Jean-Baptiste Alayrac, Ivan Laptev, Josef Sivic, Andrew Zisserman(参考訳) 目的は,大規模画像とビデオデータセットの言語検索である。 このタスクでは、テキストと視覚を共同埋め込み空間(a.k.a)に独立にマッピングする。 二重エンコーダは検索スケールとして魅力的であり、数十億もの画像に対して近接探索を用いて効率的である。 クロスアテンションを用いた視覚テキストトランスフォーマーの代替手法は、ジョイント埋め込みよりも精度が大幅に向上するが、テスト時に各サンプルに必要なクロスアテンション機構のコストを考えると、大規模な検索には適用できないことが多い。 この作品は両世界の長所を兼ね備えている。 私たちは以下の3つの貢献をします。 まず,トランスフォーマーモデルに新しい細粒度クロス・アテンション・アーキテクチャを適用し,スケーラビリティを維持しつつ検索精度を大幅に向上させた。 第2に,高速二重エンコーダモデルと,蒸留と再ランキングによる低速で高精度なトランスフォーマモデルを組み合わせた汎用的アプローチを提案する。 最後に,flickr30k画像データセットにおける提案手法の有効性を検証する。 また,本手法をビデオ領域に拡張し,VATEXデータセット上の技術状況を改善する。

Our objective is language-based search of large-scale image and video datasets. For this task, the approach that consists of independently mapping text and vision to a joint embedding space, a.k.a. dual encoders, is attractive as retrieval scales and is efficient for billions of images using approximate nearest neighbour search. An alternative approach of using vision-text transformers with cross-attention gives considerable improvements in accuracy over the joint embeddings, but is often inapplicable in practice for large-scale retrieval given the cost of the cross-attention mechanisms required for each sample at test time. This work combines the best of both worlds. We make the following three contributions. First, we equip transformer-based models with a new fine-grained cross-attention architecture, providing significant improvements in retrieval accuracy whilst preserving scalability. Second, we introduce a generic approach for combining a Fast dual encoder model with our Slow but accurate transformer-based model via distillation and re-ranking. Finally, we validate our approach on the Flickr30K image dataset where we show an increase in inference speed by several orders of magnitude while having results competitive to the state of the art. We also extend our method to the video domain, improving the state of the art on the VATEX dataset.
翻訳日:2021-03-31 14:48:38 公開日:2021-03-30
# 追跡しないものを追跡するためにターゲット候補協会を学習する

Learning Target Candidate Association to Keep Track of What Not to Track ( http://arxiv.org/abs/2103.16556v1 )

ライセンス: Link先を確認
Christoph Mayer, Martin Danelljan, Danda Pani Paudel, Luc Van Gool(参考訳) 追跡対象と紛らわしいほど似ているオブジェクトの存在は、外観ベースのビジュアルトラッキングにおいて根本的な課題となる。 このような気晴らしオブジェクトは、ターゲット自身として簡単に誤分類され、結果追跡障害に繋がる。 ほとんどの手法は、より強力な外観モデルを通して、邪魔者を抑えようとするが、我々は別のアプローチをとる。 対象物追跡を継続するため,対象物追跡の継続を提案する。 この目的を達成するために,学習アソシエーションネットワークを導入し,対象候補全員の身元をフレームツーフレームから伝達する。 視覚的トラッキングにおいて, トラクタオブジェクト間の接地トルース対応を欠く問題に対処するために, 部分アノテーションと自己監督を組み合わせたトレーニング戦略を提案する。 いくつかの挑戦的データセットに対するアプローチの総合的な検証と分析を行う。 我々のトラッカーは6つのベンチマークで新しい最先端のベンチマークを設定し、AUCスコアはLaSOTで67.2%、OxUvA長期データセットで+6.1%向上した。

The presence of objects that are confusingly similar to the tracked target, poses a fundamental challenge in appearance-based visual tracking. Such distractor objects are easily misclassified as the target itself, leading to eventual tracking failure. While most methods strive to suppress distractors through more powerful appearance models, we take an alternative approach. We propose to keep track of distractor objects in order to continue tracking the target. To this end, we introduce a learned association network, allowing us to propagate the identities of all target candidates from frame-to-frame. To tackle the problem of lacking ground-truth correspondences between distractor objects in visual tracking, we propose a training strategy that combines partial annotations with self-supervision. We conduct comprehensive experimental validation and analysis of our approach on several challenging datasets. Our tracker sets a new state-of-the-art on six benchmarks, achieving an AUC score of 67.2% on LaSOT and a +6.1% absolute gain on the OxUvA long-term dataset.
翻訳日:2021-03-31 14:48:18 公開日:2021-03-30
# 自己教師付きビデオ学習のためのビューの拡大

Broaden Your Views for Self-Supervised Video Learning ( http://arxiv.org/abs/2103.16559v1 )

ライセンス: Link先を確認
Adri\`a Recasens, Pauline Luc, Jean-Baptiste Alayrac, Luyu Wang, Florian Strub, Corentin Tallec, Mateusz Malinowski, Viorica Patraucean, Florent Altch\'e, Michal Valko, Jean-Bastien Grill, A\"aron van den Oord, Andrew Zisserman(参考訳) 最も成功した自己教師付き学習手法は、データから2つの独立したビューを表現するために訓練される。 ビデオの最先端の手法は、画像技術にインスパイアされ、これら2つのビューは、同様に、作物を収穫して拡大することによって抽出される。 しかし、これらのメソッドはビデオ領域の重要な要素を見逃している。 ビデオのための自己教師型学習フレームワークBraVeを紹介する。 BraVeでは、ビューの1つがビデオの狭い時間ウィンドウにアクセスでき、もう1つのビューは動画コンテンツへの幅広いアクセスがある。 私たちのモデルは、狭い視点からビデオの一般的なコンテンツに一般化することを学びます。 さらにbraveは、異なるバックボーンでビューを処理し、光学フロー、ランダムに畳み込んだrgbフレーム、オーディオまたはそれらの組み合わせといった、幅広いビューへの代替拡張やモダリティの使用を可能にする。 UCF101, HMDB51, Kinetics, ESC-50, AudioSet などの標準映像・音声分類ベンチマークにおいて, BraVe が自己教師付き表現学習の最先端化を実現していることを示す。

Most successful self-supervised learning methods are trained to align the representations of two independent views from the data. State-of-the-art methods in video are inspired by image techniques, where these two views are similarly extracted by cropping and augmenting the resulting crop. However, these methods miss a crucial element in the video domain: time. We introduce BraVe, a self-supervised learning framework for video. In BraVe, one of the views has access to a narrow temporal window of the video while the other view has a broad access to the video content. Our models learn to generalise from the narrow view to the general content of the video. Furthermore, BraVe processes the views with different backbones, enabling the use of alternative augmentations or modalities into the broad view such as optical flow, randomly convolved RGB frames, audio or their combinations. We demonstrate that BraVe achieves state-of-the-art results in self-supervised representation learning on standard video and audio classification benchmarks including UCF101, HMDB51, Kinetics, ESC-50 and AudioSet.
翻訳日:2021-03-31 14:48:01 公開日:2021-03-30
# 境界IoU: オブジェクト中心画像分割評価の改善

Boundary IoU: Improving Object-Centric Image Segmentation Evaluation ( http://arxiv.org/abs/2103.16562v1 )

ライセンス: Link先を確認
Bowen Cheng and Ross Girshick and Piotr Doll\'ar and Alexander C. Berg and Alexander Kirillov(参考訳) 境界品質に着目した新たなセグメンテーション評価尺度である境界IoU(Intersection-ove r-Union)を提案する。 異なるエラータイプやオブジェクトサイズにまたがって広範な解析を行い、境界IoUが大きなオブジェクトの境界誤差に対して標準のMask IoU測度よりもはるかに感度が高く、小さなオブジェクトのエラーを過給しないことを示す。 新しい品質指標は対称性w.r.t.のようないくつかの望ましい特性を示す。 これは、Trimap IoUやF-measureといった他の境界にフォーカスした指標よりもセグメンテーション評価に適している。 境界iouに基づいて,境界ap(平均精度)と境界pq(panoptic quality)の指標をそれぞれ提案することにより,例えば,panopticセグメンテーションタスクの標準評価プロトコルを更新する。 実験の結果,現在のMask IoUによる評価指標では概ね見過ごせない境界品質改善の指標が得られた。 新たな境界感性評価指標の導入により,境界品質を向上させるセグメンテーション手法の急速な進歩が期待できる。

We present Boundary IoU (Intersection-over-U nion), a new segmentation evaluation measure focused on boundary quality. We perform an extensive analysis across different error types and object sizes and show that Boundary IoU is significantly more sensitive than the standard Mask IoU measure to boundary errors for large objects and does not over-penalize errors on smaller objects. The new quality measure displays several desirable characteristics like symmetry w.r.t. prediction/ground truth pairs and balanced responsiveness across scales, which makes it more suitable for segmentation evaluation than other boundary-focused measures like Trimap IoU and F-measure. Based on Boundary IoU, we update the standard evaluation protocols for instance and panoptic segmentation tasks by proposing the Boundary AP (Average Precision) and Boundary PQ (Panoptic Quality) metrics, respectively. Our experiments show that the new evaluation metrics track boundary quality improvements that are generally overlooked by current Mask IoU-based evaluation metrics. We hope that the adoption of the new boundary-sensitive evaluation metrics will lead to rapid progress in segmentation methods that improve boundary quality.
翻訳日:2021-03-31 14:47:43 公開日:2021-03-30
# データ効率な行動認識のための表現不変性の学習

Learning Representational Invariances for Data-Efficient Action Recognition ( http://arxiv.org/abs/2103.16565v1 )

ライセンス: Link先を確認
Yuliang Zou, Jinwoo Choi, Qitong Wang, Jia-Bin Huang(参考訳) データ拡張は、ラベル付きデータの不足時に画像分類を改善するユビキタスな技術である。 モデル予測を多様なデータ拡張に不変に制限することは、望まれる表現的不変性をモデルに効果的に注入する(例えば、光度変化への不変性)。 画像データと比較すると、ビデオの外観のバリエーションは時間次元の追加によりはるかに複雑である。 しかし、ビデオのデータ拡張方法はまだ未調査のままだ。 本稿では,光度,幾何学的,時間的,アクター/シーンなど,さまざまなビデオの不変性を捉える様々なデータ拡張戦略について検討する。 既存の一貫性に基づく半教師付き学習フレームワークと統合すると、我々のデータ拡張戦略が低ラベル方式でKinetics-100, UCF-101, HMDB-51データセット上で有望なパフォーマンスをもたらすことを示す。 また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。

Data augmentation is a ubiquitous technique for improving image classification when labeled data is scarce. Constraining the model predictions to be invariant to diverse data augmentations effectively injects the desired representational invariances to the model (e.g., invariance to photometric variations), leading to improved accuracy. Compared to image data, the appearance variations in videos are far more complex due to the additional temporal dimension. Yet, data augmentation methods for videos remain under-explored. In this paper, we investigate various data augmentation strategies that capture different video invariances, including photometric, geometric, temporal, and actor/scene augmentations. When integrated with existing consistency-based semi-supervised learning frameworks, we show that our data augmentation strategy leads to promising performance on the Kinetics-100, UCF-101, and HMDB-51 datasets in the low-label regime. We also validate our data augmentation strategy in the fully supervised setting and demonstrate improved performance.
翻訳日:2021-03-31 14:47:24 公開日:2021-03-30
# 複合材料プロセスシミュレーションのための理論誘導型機械学習

Theory-Guided Machine Learning for Process Simulation of Advanced Composites ( http://arxiv.org/abs/2103.16010v1 )

ライセンス: Link先を確認
Navid Zobeiry, Anoush Poursartip(参考訳) 有限要素(FE)モデルのような科学に基づくシミュレーションツールは、科学や工学の応用において日常的に使われている。 彼らの成功は、基礎となる物理法則に対する我々の理解に大きく依存しているが、忠実さ/正確さとスピードのトレードオフなど、固有の制限に苦しめられている。 最近の機械学習(ML)の台頭は理論に依存しないパラダイムを提案する。 しかし、複雑な多物理問題では、MLモデルのトレーニングを成功させるために十分なデータセットを作成することは困難であることが証明されている。 これらのアプローチの分割をブリッジし、それぞれの強みを活用するための有望な戦略の1つは、物理法則をMLアルゴリズムに統合することを目的とした理論誘導機械学習(TGML)である。 本稿では, 複合材料加工における熱管理の3つの事例について, FE, ML, TGMLを用いて検討した。 TGMLモデルのトレーニングに、より複雑な物理を漸進的に追加するための構造化アプローチを示す。 MLモデルよりもTGMLの利点は、特にトレーニング領域外のより正確な予測と、小さなデータセットでトレーニングする能力に見ることができる。 FEに対するTGMLの利点の1つは、リアルタイムフィードバックシステムを開発するための大幅なスピード改善である。 近年,航空宇宙複合部品の製作性を評価するtgmlモデルの実装が成功している。

Science-based simulation tools such as Finite Element (FE) models are routinely used in scientific and engineering applications. While their success is strongly dependent on our understanding of underlying governing physical laws, they suffer inherent limitations including trade-off between fidelity/accuracy and speed. The recent rise of Machine Learning (ML) proposes a theory-agnostic paradigm. In complex multi-physics problems, however, creating large enough datasets for successful training of ML models has proven to be challenging. One promising strategy to bridge the divide between these approaches and take advantage of their respective strengths is Theory-Guided Machine Learning (TGML) which aims to integrate physical laws into ML algorithms. In this paper, three case studies on thermal management during processing of advanced composites are presented and studied using FE, ML and TGML. A structured approach to incrementally adding increasingly complex physics to training of TGML model is presented. The benefits of TGML over ML models are seen in more accurate predictions, particularly outside the training region, and ability to train with small datasets. One benefit of TGML over FE is significant speed improvement to potentially develop real-time feedback systems. A recent successful implementation of a TGML model to assess producibility of aerospace composite parts is presented.
翻訳日:2021-03-31 14:46:27 公開日:2021-03-30
# ランダム化平滑化によるサーチフィラブルロバストフェデレーション学習

Certifiably-Robust Federated Adversarial Learning via Randomized Smoothing ( http://arxiv.org/abs/2103.16031v1 )

ライセンス: Link先を確認
Cheng Chen, Bhavya Kailkhura, Ryan Goldhahn and Yi Zhou(参考訳) フェデレーション学習(federated learning)は、新たなデータ-プライベートな分散学習フレームワークである。 フェデレーション学習のロバスト性を高めるためにいくつかのヒューリスティックな防御が提案されているが、それらは証明可能なロバスト性保証を提供していない。 本稿では,ランダムなスムース化手法をフェデレートされた逆方向学習に組み込んで,データプライベートな分散学習を実現する。 実験の結果,このような先進的な対人学習フレームワークは,集中的なトレーニングによってトレーニングされたモデルと同じくらい堅牢なモデルを提供できることがわかった。 さらに、証明可能なロバスト分類器を分散セットアップで$\ell_2$-bounded adversarial perturbationsにすることができる。 また,一点勾配推定に基づくトレーニング手法は,定性差のない確率的推定手法よりも2~3倍高速であることを示す。

Federated learning is an emerging data-private distributed learning framework, which, however, is vulnerable to adversarial attacks. Although several heuristic defenses are proposed to enhance the robustness of federated learning, they do not provide certifiable robustness guarantees. In this paper, we incorporate randomized smoothing techniques into federated adversarial training to enable data-private distributed learning with certifiable robustness to test-time adversarial perturbations. Our experiments show that such an advanced federated adversarial learning framework can deliver models as robust as those trained by the centralized training. Further, this enables provably-robust classifiers to $\ell_2$-bounded adversarial perturbations in a distributed setup. We also show that one-point gradient estimation based training approach is $2-3\times$ faster than popular stochastic estimator based approach without any noticeable certified robustness differences.
翻訳日:2021-03-31 14:46:09 公開日:2021-03-30
# メッセージパッシングオートエンコーダによる教師なし双曲表現学習

Unsupervised Hyperbolic Representation Learning via Message Passing Auto-Encoders ( http://arxiv.org/abs/2103.16046v1 )

ライセンス: Link先を確認
Jiwoong Park, Junho Cho, Hyung Jin Chang, Jin Young Choi(参考訳) ハイパーボリック埋め込みに関する既存の文献のほとんどは教師あり学習に集中しているが、教師なしハイパーボリック埋め込みの使用は十分に研究されていない。 本稿では,教師なしタスクが双曲空間における学習表現からどのように恩恵を受けるかを分析する。 ラベルなしデータの階層構造が双曲空間においていかにうまく表現できるかを検討するため,双曲空間において全自動エンコーディングを行う新しい双曲メッセージパスオートエンコーダを設計した。 提案モデルは,メッセージパッシングにおける双曲幾何学を完全に活用して,ネットワークの自動符号化を行う。 定量的・定性的解析により,教師なし双曲表現の特性と利点を検証する。 コードはhttps://github.com/j unhocho/HGCAEで入手できる。

Most of the existing literature regarding hyperbolic embedding concentrate upon supervised learning, whereas the use of unsupervised hyperbolic embedding is less well explored. In this paper, we analyze how unsupervised tasks can benefit from learned representations in hyperbolic space. To explore how well the hierarchical structure of unlabeled data can be represented in hyperbolic spaces, we design a novel hyperbolic message passing auto-encoder whose overall auto-encoding is performed in hyperbolic space. The proposed model conducts auto-encoding the networks via fully utilizing hyperbolic geometry in message passing. Through extensive quantitative and qualitative analyses, we validate the properties and benefits of the unsupervised hyperbolic representations. Codes are available at https://github.com/j unhocho/HGCAE.
翻訳日:2021-03-31 14:45:54 公開日:2021-03-30
# 空気中のフェデレート学習のための1ビット圧縮センシング

1-Bit Compressive Sensing for Efficient Federated Learning Over the Air ( http://arxiv.org/abs/2103.16055v1 )

ライセンス: Link先を確認
Xin Fan, Yue Wang, Yan Huo, and Zhi Tian(参考訳) 協調的なユーザ間の分散学習のために,1ビット圧縮センシング(CS)をアナログアグリゲーション送信に組み込んだ,空気上のフェデレーション学習(FL)のための通信効率の高いスキームを開発し,解析する。 設計パラメータの最適化を容易にするために,提案手法の有効性を理論的に解析し,空気上のflの期待収束率に対する閉形式式を導出する。 本研究では,分散化,次元縮小,量子化,信号再構成,ノイズによる集約誤差の結果,収束性能と通信効率のトレードオフを明らかにする。 次に,協調最適化問題として1ビットcsベースflを定式化し,作業者スケジューリングと電力スケーリングポリシーの協調最適設計による集約誤差の影響を緩和する。 この非凸問題を解くために列挙法が提案されているが、デバイス数が増えるにつれて計算が不可能になる。 スケーラブルコンピューティングでは,大規模ネットワークに適した効率的な実装を開発するために,乗算器の交互方向法(ADMM)を用いる。 シミュレーションの結果,提案した1ビットCSベースのFLは,従来の圧縮・定量化のないFLを,通信オーバヘッドと伝送遅延を大幅に低減したエラーフリーアグリゲーションに対して適用した場合と同等の性能を示した。

For distributed learning among collaborative users, this paper develops and analyzes a communication-effici ent scheme for federated learning (FL) over the air, which incorporates 1-bit compressive sensing (CS) into analog aggregation transmissions. To facilitate design parameter optimization, we theoretically analyze the efficacy of the proposed scheme by deriving a closed-form expression for the expected convergence rate of the FL over the air. Our theoretical results reveal the tradeoff between convergence performance and communication efficiency as a result of the aggregation errors caused by sparsification, dimension reduction, quantization, signal reconstruction and noise. Then, we formulate 1-bit CS based FL over the air as a joint optimization problem to mitigate the impact of these aggregation errors through joint optimal design of worker scheduling and power scaling policy. An enumeration-based method is proposed to solve this non-convex problem, which is optimal but becomes computationally infeasible as the number of devices increases. For scalable computing, we resort to the alternating direction method of multipliers (ADMM) technique to develop an efficient implementation that is suitable for large-scale networks. Simulation results show that our proposed 1-bit CS based FL over the air achieves comparable performance to the ideal case where conventional FL without compression and quantification is applied over error-free aggregation, at much reduced communication overhead and transmission latency.
翻訳日:2021-03-31 14:45:42 公開日:2021-03-30
# スポンサー検索におけるクリックスルーレート予測のためのグラフ意図ネットワーク

Graph Intention Network for Click-through Rate Prediction in Sponsored Search ( http://arxiv.org/abs/2103.16164v1 )

ライセンス: Link先を確認
Feng Li, Zhenrui Chen, Pengjie Wang, Yi Ren, Di Zhang, Xiaoyu Zhu(参考訳) クリックスルー率(CTR)を正確に推定することは、ユーザエクスペリエンスの向上とスポンサード検索の収益に重要な影響を与える。 CTR予測モデルでは,ユーザのリアルタイム検索意図を明らかにする必要がある。 現在の作業の大部分は、ユーザのリアルタイム行動に基づいて意図を掘り下げることです。 しかし,ユーザの行動が疎い場合の意図を捉えることは困難であり,行動空間の問題を引き起こす。 さらに、利用者が興味をそそる探索、すなわち弱い一般化問題のために、特定の歴史的行動から飛び出すことは困難である。 本稿では,ユーザ意図をマイニングするために,共起商品グラフに基づく新しいアプローチグラフインテンションネットワーク(gin)を提案する。 多層グラフ拡散を採用することで、GINはユーザの振る舞いを豊かにし、振る舞いの空間性問題を解決する。 商品の共起関係を導入して潜在的な嗜好を探索することにより、弱一般化問題も緩和される。 我々の知る限り、GIN法は、初めてCTR予測におけるユーザ意図マイニングのためのグラフ学習を導入し、スポンサー付き検索におけるグラフ学習とCTR予測タスクのエンドツーエンド共同トレーニングを提案する。 現在ginは、既存のディープラーニングモデルを上回るeコマースプラットフォームの実世界のデータで優れたオフライン結果を達成しており、オンラインで安定したテストを実行し、ctrを大幅に改善している。

Estimating click-through rate (CTR) accurately has an essential impact on improving user experience and revenue in sponsored search. For CTR prediction model, it is necessary to make out user real-time search intention. Most of the current work is to mine their intentions based on user real-time behaviors. However, it is difficult to capture the intention when user behaviors are sparse, causing the behavior sparsity problem. Moreover, it is difficult for user to jump out of their specific historical behaviors for possible interest exploration, namely weak generalization problem. We propose a new approach Graph Intention Network (GIN) based on co-occurrence commodity graph to mine user intention. By adopting multi-layered graph diffusion, GIN enriches user behaviors to solve the behavior sparsity problem. By introducing co-occurrence relationship of commodities to explore the potential preferences, the weak generalization problem is also alleviated. To the best of our knowledge, the GIN method is the first to introduce graph learning for user intention mining in CTR prediction and propose end-to-end joint training of graph learning and CTR prediction tasks in sponsored search. At present, GIN has achieved excellent offline results on the real-world data of the e-commerce platform outperforming existing deep learning models, and has been running stable tests online and achieved significant CTR improvements.
翻訳日:2021-03-31 14:45:17 公開日:2021-03-30
# リニア表現の条件メタラーニング

Conditional Meta-Learning of Linear Representations ( http://arxiv.org/abs/2103.16277v1 )

ライセンス: Link先を確認
Giulia Denevi, Massimiliano Pontil, Carlo Ciliberto(参考訳) 表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的としている。 これらの方法の有効性は、タスクの分布のニュアンスが単一の表現でキャプチャできない場合、しばしば制限される。 本研究では,タスクの側情報(タスクのトレーニングデータセット自体など)を手作業に適した表現にマッピングすることで,条件付け関数を推論することでこの問題を克服する。 条件付き戦略が標準的なメタラーニングよりも優れている環境について検討する。例えば、タスクは共有する表現に従って別々のクラスタに編成できる。 次に,この利点を実際に活用できるメタアルゴリズムを提案する。 非条件設定では,本手法は学習速度を向上し,現在の最先端手法よりも過度パラメータの調整を必要としない新しい推定器を提供する。 我々の結果は予備実験によって支えられている。

Standard meta-learning for representation learning aims to find a common representation to be shared across multiple tasks. The effectiveness of these methods is often limited when the nuances of the tasks' distribution cannot be captured by a single representation. In this work we overcome this issue by inferring a conditioning function, mapping the tasks' side information (such as the tasks' training dataset itself) into a representation tailored to the task at hand. We study environments in which our conditional strategy outperforms standard meta-learning, such as those in which tasks can be organized in separate clusters according to the representation they share. We then propose a meta-algorithm capable of leveraging this advantage in practice. In the unconditional setting, our method yields a new estimator enjoying faster learning rates and requiring less hyper-parameters to tune than current state-of-the-art methods. Our results are supported by preliminary experiments.
翻訳日:2021-03-31 14:44:55 公開日:2021-03-30
# 一般化線形ツリー空間最近傍

Generalized Linear Tree Space Nearest Neighbor ( http://arxiv.org/abs/2103.16408v1 )

ライセンス: Link先を確認
Michael Kim(参考訳) そこで本研究では, 1 つの近傍 (1nn) 空間を分割した順序時間に投影することで決定木を積み重ねる新しい手法を提案する。 これら1つの近傍の予測は線形モデルによって結合される。 このプロセスは何度も繰り返され、分散を減らすために平均される。 GLTSNN(Generalized Linear Tree Space Nearest Neighbor)は、いくつかの公開データセット上のランダムフォレスト(RF)と比較して、平均平方誤差(MSE)に対して競合する。 GLTSNNの理論的および応用的な利点について論じる。 我々は、GLTSNNに基づく分類器は、k = 1 近傍近傍のベイズ誤差率の2倍の漸近的に有界な誤差を持つであろうと推測する。

We present a novel method of stacking decision trees by projection into an ordered time split out-of-fold (OOF) one nearest neighbor (1NN) space. The predictions of these one nearest neighbors are combined through a linear model. This process is repeated many times and averaged to reduce variance. Generalized Linear Tree Space Nearest Neighbor (GLTSNN) is competitive with respect to Mean Squared Error (MSE) compared to Random Forest (RF) on several publicly available datasets. Some of the theoretical and applied advantages of GLTSNN are discussed. We conjecture a classifier based upon the GLTSNN would have an error that is asymptotically bounded by twice the Bayes error rate like k = 1 Nearest Neighbor.
翻訳日:2021-03-31 14:44:41 公開日:2021-03-30
# 変分量子回路の最適化のための強化学習

Reinforcement learning for optimization of variational quantum circuit architectures ( http://arxiv.org/abs/2103.16089v1 )

ライセンス: Link先を確認
Mateusz Ostaszewski, Lea M. Trenkwalder, Wojciech Masarczyk, Eleanor Scerri, Vedran Dunjko(参考訳) 変分量子固有解法(VQEs)の研究は、短期量子デバイスの実世界の応用につながる可能性があるため、近年注目されている。 しかし、それらの性能は、対応する回路の深さと表現率のバランスを必要とする使用済み変分アンサッツの構造に依存する。 近年、vqe構造最適化の様々な手法が導入されているが、この問題を支援する機械学習の能力はまだ十分に研究されていない。 本研究では,現在なお正確な地盤エネルギー推定を行う経済回路を同定し,Ans{\"a}tzeの空間を自律的に探索する強化学習アルゴリズムを提案する。 アルゴリズムは本質的に動機付けされており、回路深さを最小化しながら結果の精度を漸進的に向上する。 本研究では, 水素化リチウム (LiH) の基底状態エネルギーを推定する問題に対するアルゴリズムの性能を示す。 このよく知られたベンチマーク問題では、化学的精度と回路深さの最先端結果を達成する。

The study of Variational Quantum Eigensolvers (VQEs) has been in the spotlight in recent times as they may lead to real-world applications of near-term quantum devices. However, their performance depends on the structure of the used variational ansatz, which requires balancing the depth and expressivity of the corresponding circuit. In recent years, various methods for VQE structure optimization have been introduced but the capacities of machine learning to aid with this problem has not yet been fully investigated. In this work, we propose a reinforcement learning algorithm that autonomously explores the space of possible ans{\"a}tze, identifying economic circuits which still yield accurate ground energy estimates. The algorithm is intrinsically motivated, and it incrementally improves the accuracy of the result while minimizing the circuit depth. We showcase the performance of our algorithm on the problem of estimating the ground-state energy of lithium hydride (LiH). In this well-known benchmark problem, we achieve chemical accuracy, as well as state-of-the-art results in terms of circuit depth.
翻訳日:2021-03-31 14:44:01 公開日:2021-03-30
# AlphaEvolve: 定量的投資で新たなアルファを発見するための学習フレームワーク

AlphaEvolve: A Learning Framework to Discover Novel Alphas in Quantitative Investment ( http://arxiv.org/abs/2103.16196v1 )

ライセンス: Link先を確認
Can Cui, Wei Wang, Meihui Zhang, Gang Chen, Zhaojing Luo, Beng Chin Ooi(参考訳) アルファは株式市場のトレーディングシグナルを捉えた株価予測モデルである。 有効なアルファのセットは、リスクを多様化するために弱い相関の高いリターンを生成することができる。 既存のアルファは2つのクラスに分類できる: 公式アルファはスカラーの特徴の単純な代数的表現であり、よく一般化され弱い相関集合にマイニングされる。 機械学習アルファは、ベクトルおよび行列機能に関するデータ駆動モデルである。 これらは公式アルファよりも予測的であるが、弱い相関集合にマイニングするには複雑すぎる。 本稿では,これら2つの既存クラスの強みを持つスカラー,ベクトル,行列の特徴をモデル化するための新しいアルファクラスを提案する。 新しいアルファは高い精度で戻りを予測し、弱い相関集合にマイニングすることができる。 さらに,新たなアルファを生成するために,automlに基づく新しいアルファマイニングフレームワークであるalphaevolveを提案する。 そこで我々はまず,新しいアルファを生成し,関係領域の知識を選択的に注入し,株間の関係をモデル化する演算子を提案する。 次に,冗長アルファの刈り込み手法を提案することにより,アルファマイニングを加速する。 実験の結果、alphaevolveは初期アルファを高いリターンと弱い相関を持つ新しいアルファへと進化させることが示されている。

Alphas are stock prediction models capturing trading signals in a stock market. A set of effective alphas can generate weakly correlated high returns to diversify the risk. Existing alphas can be categorized into two classes: Formulaic alphas are simple algebraic expressions of scalar features, and thus can generalize well and be mined into a weakly correlated set. Machine learning alphas are data-driven models over vector and matrix features. They are more predictive than formulaic alphas, but are too complex to mine into a weakly correlated set. In this paper, we introduce a new class of alphas to model scalar, vector, and matrix features which possess the strengths of these two existing classes. The new alphas predict returns with high accuracy and can be mined into a weakly correlated set. In addition, we propose a novel alpha mining framework based on AutoML, called AlphaEvolve, to generate the new alphas. To this end, we first propose operators for generating the new alphas and selectively injecting relational domain knowledge to model the relations between stocks. We then accelerate the alpha mining by proposing a pruning technique for redundant alphas. Experiments show that AlphaEvolve can evolve initial alphas into the new alphas with high returns and weak correlations.
翻訳日:2021-03-31 14:43:45 公開日:2021-03-30
# パッチストッチングによる点雲の高速かつ正確な正規推定

Fast and Accurate Normal Estimation for Point Cloud via Patch Stitching ( http://arxiv.org/abs/2103.16066v1 )

ライセンス: Link先を確認
Jun Zhou, Wei Jin, Mingjie Wang, Xiuping Liu, Zhiyang Li and Zhaobin Liu(参考訳) 本稿では,非構造点雲に対するマルチパッチ縫合を用いた効果的な正規推定法を提案する。 学習に基づくアプローチの大部分は、モデル全体の各点に局所パッチを符号化し、正規値をポイントバイポイントで見積もる。 対照的に,より効率的なパイプラインを提案し,重複するパッチの処理にパッチレベルの正規推定アーキテクチャを導入する。 さらに、重みに基づく多正規選択法(multi-patch stitching)は、重複するパッチから正規値を統合する。 パッチのシャープコーナーやノイズの悪影響を低減するため,異方性近傍に焦点を合わせるために適応的な局所的特徴集約層を導入する。 次に,マルチブランチ平面エキスパートモジュールを用いて,パッチの下位部分面間の相互影響を破る。 縫合段階では,多枝平面専門家の学習重量と点間距離重量を用いて,重なり合う部分から最適な正規点を選択する。 さらに,ループ繰り返しの大規模検索オーバーヘッドを劇的に低減するために,スパース行列表現を構築した。 提案手法は,計算コストの低減と,既存手法よりも高ロバスト性,高ロバスト性を生かして,SOTA結果が得られることを示す。

This paper presents an effective normal estimation method adopting multi-patch stitching for an unstructured point cloud. The majority of learning-based approaches encode a local patch around each point of a whole model and estimate the normals in a point-by-point manner. In contrast, we suggest a more efficient pipeline, in which we introduce a patch-level normal estimation architecture to process a series of overlapping patches. Additionally, a multi-normal selection method based on weights, dubbed as multi-patch stitching, integrates the normals from the overlapping patches. To reduce the adverse effects of sharp corners or noise in a patch, we introduce an adaptive local feature aggregation layer to focus on an anisotropic neighborhood. We then utilize a multi-branch planar experts module to break the mutual influence between underlying piecewise surfaces in a patch. At the stitching stage, we use the learned weights of multi-branch planar experts and distance weights between points to select the best normal from the overlapping parts. Furthermore, we put forward constructing a sparse matrix representation to reduce large-scale retrieval overheads for the loop iterations dramatically. Extensive experiments demonstrate that our method achieves SOTA results with the advantage of lower computational costs and higher robustness to noise over most of the existing approaches.
翻訳日:2021-03-31 14:41:30 公開日:2021-03-30
# 適応サンプリングとカーネルプールを用いた2段モンテカルロ雑音化

Two-Stage Monte Carlo Denoising with Adaptive Sampling and Kernel Pool ( http://arxiv.org/abs/2103.16115v1 )

ライセンス: Link先を確認
Tiange Xiang, Hongliang Yuan, Haozhi Huang, Yujin Shi(参考訳) モンテカルロパストレーサは低サンプリング数でノイズの多い画像列を描画する。 このようなシーケンスの復調には大きな進歩があったが、既存の手法はまだ空間的および一時的なアーティファクトに悩まされている。 本稿では,適応的サンプリング戦略に基づく2段階のデノイザーを提案することにより,モンテカルロレンダリングの問題点に取り組む。 第1段階では,1ピクセル (spp) あたりのサンプルをオンザフライで調整すると同時に,計算を再利用し,適応的に描画された画像に適用した余分なデノナイズカーネルを生成する。 画素単位のカーネルを直接予測するのではなく、これらのカーネルをパブリックカーネルプールから補間することでオーバーヘッドの複雑さを軽減し、入力信号に適合するように動的に更新することができる。 第2段階では,空間-時間安定性を改善するために位置認識プーリングと意味アライメント演算子を設計する。 提案手法はまず,三葉レンダラーからレンダリングした10の合成シーンをベンチマークし,RTXベースのレンダラーからレンダリングした3つの追加シーンを検証した。 本手法は,数値誤差と視覚的品質の両方の観点から,最先端の手法よりも優れる。

Monte Carlo path tracer renders noisy image sequences at low sampling counts. Although great progress has been made on denoising such sequences, existing methods still suffer from spatial and temporary artifacts. In this paper, we tackle the problems in Monte Carlo rendering by proposing a two-stage denoiser based on the adaptive sampling strategy. In the first stage, concurrent to adjusting samples per pixel (spp) on-the-fly, we reuse the computations to generate extra denoising kernels applying on the adaptively rendered image. Rather than a direct prediction of pixel-wise kernels, we save the overhead complexity by interpolating such kernels from a public kernel pool, which can be dynamically updated to fit input signals. In the second stage, we design the position-aware pooling and semantic alignment operators to improve spatial-temporal stability. Our method was first benchmarked on 10 synthesized scenes rendered from the Mitsuba renderer and then validated on 3 additional scenes rendered from our self-built RTX-based renderer. Our method outperforms state-of-the-art counterparts in terms of both numerical error and visual quality.
翻訳日:2021-03-31 14:41:09 公開日:2021-03-30
# ハイパースペクトル非線形アンミックスにおける低ランクアウンダンスマップと非負テンソルファクトリゼーションの利用

Using Low-rank Representation of Abundance Maps and Nonnegative Tensor Factorization for Hyperspectral Nonlinear Unmixing ( http://arxiv.org/abs/2103.16204v1 )

ライセンス: Link先を確認
Lianru Gao, Zhicheng Wang, Lina Zhuang, Haoyang Yu, Bing Zhang, Jocelyn Chanussot(参考訳) ハイパースペクトル像(HSI)立方体は自然に3階テンソルとして表現でき、画像内の空間情報を完全に保持できるため、ハイパースペクトルイメージングにおける逆問題に対するテンソル法が広く研究されている。 本稿では,線形テンソル法を非線形テンソル法に拡張し,一般化双線形モデル(GBM)を解く非線形低ランクテンソルアンミックスアルゴリズムを提案する。 具体的には、GBMの線型部分と非線形部分の両方をテンソルとして表すことができる。 さらに, 原子核ノルムを最小化し, HSIの空間相関を最大限に活用することにより, 密度分布マップと非線形相互作用分布マップの低ランク構造を生かした。 合成および実データ実験により, 空隙マップの低ランク化と非線形相互作用量マップの活用により, 非線形アンミキシングの性能が向上することを示した。 この作業のMATLABデモは再現性のためにhttps://github.com/L inaZhuangで公開される。

Tensor-based methods have been widely studied to attack inverse problems in hyperspectral imaging since a hyperspectral image (HSI) cube can be naturally represented as a third-order tensor, which can perfectly retain the spatial information in the image. In this article, we extend the linear tensor method to the nonlinear tensor method and propose a nonlinear low-rank tensor unmixing algorithm to solve the generalized bilinear model (GBM). Specifically, the linear and nonlinear parts of the GBM can both be expressed as tensors. Furthermore, the low-rank structures of abundance maps and nonlinear interaction abundance maps are exploited by minimizing their nuclear norm, thus taking full advantage of the high spatial correlation in HSIs. Synthetic and real-data experiments show that the low rank of abundance maps and nonlinear interaction abundance maps exploited in our method can improve the performance of the nonlinear unmixing. A MATLAB demo of this work will be available at https://github.com/L inaZhuang for the sake of reproducibility.
翻訳日:2021-03-31 14:40:50 公開日:2021-03-30
# 画像から画像への変換は、マルチモーダル画像登録のためのpanaceaか? 比較研究

Is Image-to-Image Translation the Panacea for Multimodal Image Registration? A Comparative Study ( http://arxiv.org/abs/2103.16262v1 )

ライセンス: Link先を確認
Jiahao Lu, Johan \"Ofverstedt, Joakim Lindblad, Nata\v{s}a Sladoje(参考訳) 深層学習革命によって推進されたバイオメディカル画像処理の分野における最近の進歩にもかかわらず、マルチモーダル画像登録はいくつかの課題により、専門家によって手作業で行われていることが多い。 近年のコンピュータビジョンアプリケーションにおけるイメージ・ツー・イメージ(I2I)翻訳の成功と、バイオメディカル領域での利用の増加は、マルチモーダル登録問題をより簡単でモノモーダルなものに転換する誘惑の可能性を示唆している。 マルチモーダルバイオメディカル画像登録作業における現代i2i翻訳法の適用性に関する実証研究を行った。 画像登録におけるモダリティ変換の有効性を判断するために,4つの生成型adversarial network (gan) 法と1つのコントラスト表現学習法と2つの代表的モノモーダル登録法を比較した。 提案手法は,難易度が増大する3つの公開マルチモーダルデータセット上で評価し,相互情報最大化による登録性能と,最新のデータ固有マルチモーダル登録方式との比較を行った。 以上の結果から,i2i翻訳は,登録するモダリティが明確に相関する場合に有効であるが,i2i翻訳手法では,試料の異なる特性を示すモダリティの登録が適切に処理されていないことが示唆された。 モダリティ間で情報共有が少ない場合、i2i翻訳手法は良好な予測を提供するのに苦労し、登録性能を損なう。 中間表現を見つけることを目的とした評価表現学習手法は、より良く管理され、相互情報最大化アプローチもそうである。 実験の完全なセットアップをオープンソースとして公開しています(https://github.com/ Noodles-321/Registra tion)。

Despite current advancement in the field of biomedical image processing, propelled by the deep learning revolution, multimodal image registration, due to its several challenges, is still often performed manually by specialists. The recent success of image-to-image (I2I) translation in computer vision applications and its growing use in biomedical areas provide a tempting possibility of transforming the multimodal registration problem into a, potentially easier, monomodal one. We conduct an empirical study of the applicability of modern I2I translation methods for the task of multimodal biomedical image registration. We compare the performance of four Generative Adversarial Network (GAN)-based methods and one contrastive representation learning method, subsequently combined with two representative monomodal registration methods, to judge the effectiveness of modality translation for multimodal image registration. We evaluate these method combinations on three publicly available multimodal datasets of increasing difficulty, and compare with the performance of registration by Mutual Information maximisation and one modern data-specific multimodal registration method. Our results suggest that, although I2I translation may be helpful when the modalities to register are clearly correlated, registration of modalities which express distinctly different properties of the sample are not well handled by the I2I translation approach. When less information is shared between the modalities, the I2I translation methods struggle to provide good predictions, which impairs the registration performance. The evaluated representation learning method, which aims to find an in-between representation, manages better, and so does the Mutual Information maximisation approach. We share our complete experimental setup as open-source (https://github.com/ Noodles-321/Registra tion).
翻訳日:2021-03-31 14:40:32 公開日:2021-03-30
# セマンティックマップと動的グラフ注意ネットワークを用いた自律走行の多モード軌道予測

Multi-modal Trajectory Prediction for Autonomous Driving with Semantic Map and Dynamic Graph Attention Network ( http://arxiv.org/abs/2103.16273v1 )

ライセンス: Link先を確認
Bo Dong, Hao Liu, Yu Bai, Jinbiao Lin, Zhuoran Xu, Xinyu Xu, Qi Kong(参考訳) 周囲の障害物の将来の軌跡を予測することは、自動運転車が高度な道路安全を達成するための重要な課題である。 現実の交通シナリオにおける軌道予測には、交通規則に従うこと、社会的相互作用を扱うこと、多クラス移動のトラフィックを扱うこと、確率で多モード軌道を予測することなど、いくつかの課題がある。 目的や周囲に注意を向けて交通をナビゲートする人々の自然な習慣に着想を得て,これらの課題を解決するために,ユニークな動的グラフアテンションネットワークを提案する。 このネットワークはエージェント間の動的な社会的相互作用をモデル化し、セマンティックマップによるトラフィックルールに従うように設計されている。 提案手法は,アンカー法を複数のエージェントに拡張することで,単一モデルを用いて多種移動の確率を伴うマルチモーダルトラジェクタを予測できる。 ロジスティックデリバリシナリオと2つの公開データセットを対象とした,プロプライエタリな自律運転データセットに対するアプローチを検証する。 その結果,提案手法は最先端技術より優れ,現実の交通における軌道予測の可能性を示している。

Predicting future trajectories of surrounding obstacles is a crucial task for autonomous driving cars to achieve a high degree of road safety. There are several challenges in trajectory prediction in real-world traffic scenarios, including obeying traffic rules, dealing with social interactions, handling traffic of multi-class movement, and predicting multi-modal trajectories with probability. Inspired by people's natural habit of navigating traffic with attention to their goals and surroundings, this paper presents a unique dynamic graph attention network to solve all those challenges. The network is designed to model the dynamic social interactions among agents and conform to traffic rules with a semantic map. By extending the anchor-based method to multiple types of agents, the proposed method can predict multi-modal trajectories with probabilities for multi-class movements using a single model. We validate our approach on the proprietary autonomous driving dataset for the logistic delivery scenario and two publicly available datasets. The results show that our method outperforms state-of-the-art techniques and demonstrates the potential for trajectory prediction in real-world traffic.
翻訳日:2021-03-31 14:40:03 公開日:2021-03-30
# 頑健で効率的な3次元畳み込みニューラルネットワークを用いたCTによる自動気道セグメンテーション

Automatic airway segmentation from Computed Tomography using robust and efficient 3-D convolutional neural networks ( http://arxiv.org/abs/2103.16328v1 )

ライセンス: Link先を確認
A. Garcia-Uceda Juarez, R. Selvan, Z. Saghir, H.A.W.M. Tiddens, M. de Bruijne(参考訳) 本稿では,U-Netアーキテクチャに基づく胸部CTのための完全自動・エンドツーエンド最適化エアウェイセグメンテーション手法を提案する。 バックボーンとして、単純で低メモリの3D U-Netを使用し、ネットワークを1回のパスで、しばしば肺全体からなる大きな3Dイメージパッチを処理できる。 これにより、メソッドはシンプルでロバストで効率的になる。 提案手法は, 嚢胞性線維症を含む小児患者のデータセット, 慢性閉塞性肺疾患患者を含むデンマーク肺がんスクリーニング試験のサブセット, EXACT'09パブリックデータセットの3つの異なる特徴および気道異常を有する3つのデータセットに対して検証した。 本手法を, EXACT'09データに基づく文献における関連する学習手法を含む,最先端のエアウェイセグメンテーション手法と比較した。 本手法は, 健常者と病人の両方のスキャンにおいて, 誤検出の少ない高度に完全な気道木を抽出でき, また, 異なるデータセットにまたがって十分に一般化できることを示す。 正確な'09試験セットにおいて,本手法は特異性を報告した全手法で2番目に高い感度スコアを得た。

This paper presents a fully automatic and end-to-end optimised airway segmentation method for thoracic computed tomography, based on the U-Net architecture. We use a simple and low-memory 3D U-Net as backbone, which allows the method to process large 3D image patches, often comprising full lungs, in a single pass through the network. This makes the method simple, robust and efficient. We validated the proposed method on three datasets with very different characteristics and various airway abnormalities: i) a dataset of pediatric patients including subjects with cystic fibrosis, ii) a subset of the Danish Lung Cancer Screening Trial, including subjects with chronic obstructive pulmonary disease, and iii) the EXACT'09 public dataset. We compared our method with other state-of-the-art airway segmentation methods, including relevant learning-based methods in the literature evaluated on the EXACT'09 data. We show that our method can extract highly complete airway trees with few false positive errors, on scans from both healthy and diseased subjects, and also that the method generalizes well across different datasets. On the EXACT'09 test set, our method achieved the second highest sensitivity score among all methods that reported good specificity.
翻訳日:2021-03-31 14:39:44 公開日:2021-03-30
# Beltrami Signature:オブジェクト分類のための新しい不変2次元形状表現

Beltrami Signature: A Novel Invariant 2D Shape Representation for Object Classification ( http://arxiv.org/abs/2103.16411v1 )

ライセンス: Link先を確認
Chenran Lin and Lok Ming Lui(参考訳) 近年, 形状解析への関心が高まっており, 本論文では, 2次元有界単純連結領域に対するBeltramiシグネチャと呼ばれる新しい輪郭型形状表現を提案する。 提案する表現は共形溶接に基づく。 適切な正規化により、溶接の特異性は回転まで保証される。 すると調和函数に拡張でき、最終的に準共形理論は調和拡大のベルトラミ係数を計算することによって唯一の不確実性を取り除くことができる。 提案するシグネチャの利点は、サックリング、変換、回転といった単純な変換の下で不変であり、わずかな変形と歪みの下ではルーボストであることである。 実験は上記の特性を示し、優れた分類性能を示す。

There is a growing interest in shape analysis in recent years and in this paper we present a novel contour-based shape representation named Beltrami signature for 2D bounded simple connected domain. The proposed representation is based on conformal welding. With suitable normalization, the uniqueness of welding is guaranteed up to a rotation. Then it can be extended to a harmonic function and finally quasi-conformal theory get rid of the only uncertainty by computing Beltrami coefficient of harmonic extension. The benifits of the proposed signature is it keeps invariant under simple transformations like sacling, transformation and rotation and is roubost under slight deformation and distortion. Experiments demonstrates the above properties and also shows the excellent classification performance.
翻訳日:2021-03-31 14:39:21 公開日:2021-03-30
# データ多様性の実現:正規化敵訓練による効率的な自動強化

Enabling Data Diversity: Efficient Automatic Augmentation via Regularized Adversarial Training ( http://arxiv.org/abs/2103.16493v1 )

ライセンス: Link先を確認
Yunhe Gao, Zhiqiang Tang, Mu Zhou, Dimitris Metaxas(参考訳) データ拡張は、過剰フィッティングを緩和し、ディープニューラルネットワークの一般化性能を向上させるために、トレーニングデータのばらつきを増加させることで非常に有用である。 医用画像解析において、よく設計された拡張ポリシーは、通常、多くの専門知識を必要とし、異なる医療タスクにおける画素強度、画像の外観、オブジェクト形状の相違により、複数のタスクに一般化することが困難である。 医療データ拡張を自動化するために,アフィン変換,変形,外観変化を対象とする2つのMin-max目標と3つの識別可能な拡張モデルを用いて,正規化対向トレーニングフレームワークを提案する。 提案手法は従来の自動拡張手法よりも自動的かつ効率的であり,人間の特定範囲での事前定義された操作とコストのかかるbiレベル最適化に引き続き依存する。 以上の結果より,2次元皮膚癌分類と3次元臓器・リスク分割の両課題において,本手法は訓練オーバーヘッドが少なく,最先端の自己拡張法よりも優れた性能を示した。

Data augmentation has proved extremely useful by increasing training data variance to alleviate overfitting and improve deep neural networks' generalization performance. In medical image analysis, a well-designed augmentation policy usually requires much expert knowledge and is difficult to generalize to multiple tasks due to the vast discrepancies among pixel intensities, image appearances, and object shapes in different medical tasks. To automate medical data augmentation, we propose a regularized adversarial training framework via two min-max objectives and three differentiable augmentation models covering affine transformation, deformation, and appearance changes. Our method is more automatic and efficient than previous automatic augmentation methods, which still rely on pre-defined operations with human-specified ranges and costly bi-level optimization. Extensive experiments demonstrated that our approach, with less training overhead, achieves superior performance over state-of-the-art auto-augmentation methods on both tasks of 2D skin cancer classification and 3D organs-at-risk segmentation.
翻訳日:2021-03-31 14:39:08 公開日:2021-03-30
# SD-6DoF-ICLK:SE(3)上のスパースおよびディープ逆合成ルーカスカネードアルゴリズム

SD-6DoF-ICLK: Sparse and Deep Inverse Compositional Lucas-Kanade Algorithm on SE(3) ( http://arxiv.org/abs/2103.16528v1 )

ライセンス: Link先を確認
Timo Hinzmann, Roland Siegwart(参考訳) SD-6DoF-ICLK(Inverse Compositional Lucas-Kanade:逆合成ルーカス・カナード)パイプラインは,2枚の画像がSE(3)上に最もよく配向する相対的なポーズを最適化するために,スパース深度情報を利用する。 この6自由度(dof)相対変換を計算するために、提案された定式化では画像の1つにスパース深度情報しか必要とせず、これは視覚慣性オドメトリや同時局在マッピング(slam)パイプラインでのみ使用可能な深さ源であることが多い。 オプションの次のステップでは、個々の機能アライメントとバンドルによるポーズと構造の再調整を使用して、機能の位置と相対的なポーズをさらに洗練する。 サブピクセル精度と精細な相対ポーズによるスパースポイント対応は、深度マップ生成に利用でき、画像アライメントモジュールは、オドメトリーまたはマッピングフレームワークに組み込むことができる。 レンダリング画像を用いた実験では、前方のSD-6DoF-ICLKは解像度752×480ピクセルのイメージ対あたり145msで動作し、古典的でスパースな6DoF-ICLKアルゴリズムよりも大幅に優れており、厳しい条件下での堅牢な画像アライメントのための理想的なフレームワークとなっている。

This paper introduces SD-6DoF-ICLK, a learning-based Inverse Compositional Lucas-Kanade (ICLK) pipeline that uses sparse depth information to optimize the relative pose that best aligns two images on SE(3). To compute this six Degrees-of-Freedom (DoF) relative transformation, the proposed formulation requires only sparse depth information in one of the images, which is often the only available depth source in visual-inertial odometry or Simultaneous Localization and Mapping (SLAM) pipelines. In an optional subsequent step, the framework further refines feature locations and the relative pose using individual feature alignment and bundle adjustment for pose and structure re-alignment. The resulting sparse point correspondences with subpixel-accuracy and refined relative pose can be used for depth map generation, or the image alignment module can be embedded in an odometry or mapping framework. Experiments with rendered imagery show that the forward SD-6DoF-ICLK runs at 145 ms per image pair with a resolution of 752 x 480 pixels each, and vastly outperforms the classical, sparse 6DoF-ICLK algorithm, making it the ideal framework for robust image alignment under severe conditions.
翻訳日:2021-03-31 14:38:41 公開日:2021-03-30
# 視覚室のリレンジメント

Visual Room Rearrangement ( http://arxiv.org/abs/2103.16544v1 )

ライセンス: Link先を確認
Luca Weihs, Matt Deitke, Aniruddha Kembhavi, Roozbeh Mottaghi(参考訳) エンボディードAIの分野では、エンボディードエージェントが完全に見えない環境でナビゲートし、相互作用することを可能にするモデルとアルゴリズムを開発する研究者による大きな進歩があった。 本稿では,再配置作業のための新しいデータセットとベースラインモデルを提案する。 エージェントは部屋を探索し、オブジェクトの初期構成を記録することから始まります。 次に、エージェントを削除し、室内のいくつかのオブジェクトのポーズと状態(例えば、開閉)を変更する。 エージェントは部屋のすべてのオブジェクトの初期設定を復元しなければならない。 RoomRという名前のデータセットには、120のシーンで72の異なるオブジェクトタイプを含む6000の異なる並べ替え設定が含まれています。 私たちの実験では、ナビゲーションとオブジェクトインタラクションを伴うこの困難なインタラクティブなタスクの解決は、具体化されたタスクの現在の最先端のテクニックの能力を超えていることを示している。 コードとデータセットは以下の通りである。

There has been a significant recent progress in the field of Embodied AI with researchers developing models and algorithms enabling embodied agents to navigate and interact within completely unseen environments. In this paper, we propose a new dataset and baseline models for the task of Rearrangement. We particularly focus on the task of Room Rearrangement: an agent begins by exploring a room and recording objects' initial configurations. We then remove the agent and change the poses and states (e.g., open/closed) of some objects in the room. The agent must restore the initial configurations of all objects in the room. Our dataset, named RoomR, includes 6,000 distinct rearrangement settings involving 72 different object types in 120 scenes. Our experiments show that solving this challenging interactive task that involves navigation and object interaction is beyond the capabilities of the current state-of-the-art techniques for embodied tasks and we are still very far from achieving perfect performance on these types of tasks. The code and the dataset are available at: https://ai2thor.alle nai.org/rearrangemen t
翻訳日:2021-03-31 14:38:13 公開日:2021-03-30
# 物理ベース微分可能深度センサシミュレーション

Physics-based Differentiable Depth Sensor Simulation ( http://arxiv.org/abs/2103.16563v1 )

ライセンス: Link先を確認
Benjamin Planche, Rajat Vikram Singh(参考訳) グラデーションに基づくアルゴリズムは現代のコンピュータビジョンやグラフィックアプリケーションにとって不可欠であり、学習に基づく最適化と逆問題を可能にする。 例えば、カラー画像のためのフォトリアリスティックな微分可能なレンダリングパイプラインは、2Dドメインと3Dドメインをマッピングするアプリケーションにとって非常に価値があることが証明されている。 しかし、私たちの知る限りでは、複雑な光輸送とステレオマッチングの問題をシミュレートする構造光深度センサーを応用し、これらの勾配に基づく手法を2.5D画像に拡張する努力は行われていない。 本稿では,物理に基づく3Dレンダリングとブロックマッチングアルゴリズムに基づいて,現実的な2.5Dスキャンを生成するための,エンドツーエンドの微分可能な新しいシミュレーションパイプラインを提案する。 各モジュールはw.r.tセンサーとシーンパラメータを区別することができる。例えば、提供されるスキャンで新しいデバイスのシミュレーションを自動的にチューニングしたり、より大きなコンピュータビジョンアプリケーションでパイプラインを3dから2.5dトランスフォーマーとして利用する。 様々な深度に基づく認識タスク(分類,ポーズ推定,セマンティックセグメンテーション)のための深度学習手法の訓練に応用して,本シミュレーションは実際のスキャンで得られたモデルの性能を大幅に向上させ,従来の静的シミュレーションや学習ベースドメイン適応方式と比較して合成深度データの忠実度と価値を実証する。

Gradient-based algorithms are crucial to modern computer-vision and graphics applications, enabling learning-based optimization and inverse problems. For example, photorealistic differentiable rendering pipelines for color images have been proven highly valuable to applications aiming to map 2D and 3D domains. However, to the best of our knowledge, no effort has been made so far towards extending these gradient-based methods to the generation of depth (2.5D) images, as simulating structured-light depth sensors implies solving complex light transport and stereo-matching problems. In this paper, we introduce a novel end-to-end differentiable simulation pipeline for the generation of realistic 2.5D scans, built on physics-based 3D rendering and custom block-matching algorithms. Each module can be differentiated w.r.t sensor and scene parameters; e.g., to automatically tune the simulation for new devices over some provided scans or to leverage the pipeline as a 3D-to-2.5D transformer within larger computer-vision applications. Applied to the training of deep-learning methods for various depth-based recognition tasks (classification, pose estimation, semantic segmentation), our simulation greatly improves the performance of the resulting models on real scans, thereby demonstrating the fidelity and value of its synthetic depth data compared to previous static simulations and learning-based domain adaptation schemes.
翻訳日:2021-03-31 14:37:57 公開日:2021-03-30
# 実行時環境特徴に基づく記憶内異常活動の早期検出

Early Detection of In-Memory Malicious Activity based on Run-time Environmental Features ( http://arxiv.org/abs/2103.16029v1 )

ライセンス: Link先を確認
Dorel Yaffe and Danny Hendler(参考訳) 近年,攻撃前にマルウェアの検出が困難になり,高度化が進んでいる。 マルウェア検出には多くのアプローチがありますが、悪用される前にマルウェアを正しく識別する上では欠点があります。 トレードオフは通常、偽陽性であり、オーバーヘッドを引き起こし、通常の使用を妨げ、マルウェアを実行させ、ターゲットにダメージを与えるリスクがある。 本稿では,保護されたプロセスのメモリ内の悪意のあるアクティビティを検出するために,ユニークな実行時ログのデータに基づいて,機械学習機能を活用することによって,悪質なアクティビティを検出するための新たなエンドツーエンドソリューションを提案する。 このソリューションはオーバーヘッドと偽陽性を低減し、デプロイをシンプルにする。 我々は,マルウェア研究,機械学習,オペレーティングシステム内部からの多分野知識を活用し,Windowsベースのシステムに対するソリューションを実装した。 実験の結果は有望な結果を得た。 将来の高度なマルウェアがそれをバイパスしようとするのを期待する一方で、我々のソリューションがそのような回避の試みを阻止するためにどのように拡張できるかについても議論する。

In recent years malware has become increasingly sophisticated and difficult to detect prior to exploitation. While there are plenty of approaches to malware detection, they all have shortcomings when it comes to identifying malware correctly prior to exploitation. The trade-off is usually between false positives, causing overhead, preventing normal usage and the risk of letting the malware execute and cause damage to the target. We present a novel end-to-end solution for in-memory malicious activity detection done prior to exploitation by leveraging machine learning capabilities based on data from unique run-time logs, which are carefully curated in order to detect malicious activity in the memory of protected processes. This solution achieves reduced overhead and false positives as well as deployment simplicity. We implemented our solution for Windows-based systems, employing multi disciplinary knowledge from malware research, machine learning, and operating system internals. Our experimental evaluation yielded promising results. As we expect future sophisticated malware may try to bypass it, we also discuss how our solution can be extended to thwart such bypassing attempts.
翻訳日:2021-03-31 14:36:27 公開日:2021-03-30
# FaiR-IoT: パーソナライズドIoTにおける人的多様性を損なうためのフェアネス認識型ヒューマン・イン・ザ・ループ強化学習

FaiR-IoT: Fairness-aware Human-in-the-Loop Reinforcement Learning for Harnessing Human Variability in Personalized IoT ( http://arxiv.org/abs/2103.16033v1 )

ライセンス: Link先を確認
Salma Elmalaki (University of California, Irvine)(参考訳) ウェアラブル技術の急速な成長により、複雑なヒューマンコンテキストの監視が実現可能となり、人間と環境に自律的に適応するために自然に進化する、ループ内IoTシステムの開発方法が確立される。 それでも、このようなパーソナライズされたIoTアプリケーションを設計する上での中心的な課題は、人間の多様性にある。 このような変動性は、異なる人間がIoTアプリケーションと相互作用するとき(人間間変動性)、同じ人間が同じIoTアプリケーションと相互作用するとき(人間間変動性)に時間とともに振る舞いを変え、同じ環境にいる他の人の振る舞いに影響される可能性があるという事実に由来する。 そこで本研究では,適応性と公平性を考慮したiotアプリケーションのための汎用強化学習フレームワークfair-iotを提案する。 フェアオットでは、3段階の強化学習エージェントが相互作用して人間の好みを継続的に学習し、システムのパフォーマンスと公平性を最大化し、イントラ、インター、マルチヒューマンの変動性を考慮に入れる。 提案手法は, (i) 人型運転支援システム, (ii) 人型運転支援システムの2つの応用について検証した。 これらの2つのアプリケーションで得られた結果は、フェアオットの汎用性とパーソナライズされたエクスペリエンスの提供能力を検証すると同時に、非パーソナライズドシステムと比較してシステムのパフォーマンスを40%~60%向上させ、マルチヒューマンシステムの公平性を1.5桁向上させた。

Thanks to the rapid growth in wearable technologies, monitoring complex human context becomes feasible, paving the way to develop human-in-the-loop IoT systems that naturally evolve to adapt to the human and environment state autonomously. Nevertheless, a central challenge in designing such personalized IoT applications arises from human variability. Such variability stems from the fact that different humans exhibit different behaviors when interacting with IoT applications (intra-human variability), the same human may change the behavior over time when interacting with the same IoT application (inter-human variability), and human behavior may be affected by the behaviors of other people in the same environment (multi-human variability). To that end, we propose FaiR-IoT, a general reinforcement learning-based framework for adaptive and fairness-aware human-in-the-loop IoT applications. In FaiR-IoT, three levels of reinforcement learning agents interact to continuously learn human preferences and maximize the system's performance and fairness while taking into account the intra-, inter-, and multi-human variability. We validate the proposed framework on two applications, namely (i) Human-in-the-Loop Automotive Advanced Driver Assistance Systems and (ii) Human-in-the-Loop Smart House. Results obtained on these two applications validate the generality of FaiR-IoT and its ability to provide a personalized experience while enhancing the system's performance by 40%-60% compared to non-personalized systems and enhancing the fairness of the multi-human systems by 1.5 orders of magnitude.
翻訳日:2021-03-31 14:36:09 公開日:2021-03-30
# 大規模ディープラーニングのためのグラフの自動分割

Automatic Graph Partitioning for Very Large-scale Deep Learning ( http://arxiv.org/abs/2103.16063v1 )

ライセンス: Link先を確認
Masahiro Tanaka, Kenjiro Taura, Toshihiro Hanawa, Kentaro Torisawa(参考訳) 本稿では,自動ハイブリッド並列処理のためのミドルウェアとしてrannc(rapid neural network connector)を提案する。 最近のディープラーニング研究では、T5とGPT-3が示すように、ニューラルネットワークモデルのサイズは増加を続けている。 このようなモデルは加速器装置のメモリに収まらないため、モデル並列化技術によって分割する必要がある。 さらに,大規模トレーニングデータのトレーニングを高速化するためには,モデルとデータ並列性の組み合わせ,すなわちハイブリッド並列性が必要である。 モデル並列性の仕様のないPyTorchのモデル記述が与えられた場合、RaNNCはモデルをサブコンポーネントのセットに自動的に分割し、(1)サブコンポーネントがデバイスメモリに適合するようにし、(2)サブコンポーネントの計算時間をバランスさせてパイプライン並列性のための高いトレーニングスループットを実現する。 実験では,RaNNCとMegatron-LM(ハイブリッド並列性)とGPipe(もともとモデル並列性のために提案されていたが,ハイブリッド並列性を実現するバージョンも存在する)の2つのフレームワークを比較した。 拡張されたBERTモデルの事前トレーニングでは、RaNNCはMegatron-LMの5倍のモデルをトレーニングし、同じモデルの事前トレーニングではRaNNCのトレーニングスループットはMegatron-LMと同等であった。 また,拡張BERTモデル事前学習(GPipe with hybrid parallelism)と拡張ResNetモデル(GPipe with model parallelism)の両方で,GPipeよりも優れたトレーニングスループットを実現した。 これらの結果は驚くべきもので、runncはモデルの記述を変更することなく自動的にモデルを分割するので、megatron-lmとgpipeはユーザーが手動でモデルの記述を書き直す必要がある。

This work proposes RaNNC (Rapid Neural Network Connector) as middleware for automatic hybrid parallelism. In recent deep learning research, as exemplified by T5 and GPT-3, the size of neural network models continues to grow. Since such models do not fit into the memory of accelerator devices, they need to be partitioned by model parallelism techniques. Moreover, to accelerate training for huge training data, we need a combination of model and data parallelisms, i.e., hybrid parallelism. Given a model description for PyTorch without any specification for model parallelism, RaNNC automatically partitions the model into a set of subcomponents so that (1) each subcomponent fits a device memory and (2) a high training throughput for pipeline parallelism is achieved by balancing the computation times of the subcomponents. In our experiments, we compared RaNNC with two popular frameworks, Megatron-LM (hybrid parallelism) and GPipe (originally proposed for model parallelism, but a version allowing hybrid parallelism also exists), for training models with increasingly greater numbers of parameters. In the pre-training of enlarged BERT models, RaNNC successfully trained models five times larger than those Megatron-LM could, and RaNNC's training throughputs were comparable to Megatron-LM's when pre-training the same models. RaNNC also achieved better training throughputs than GPipe on both the enlarged BERT model pre-training (GPipe with hybrid parallelism) and the enlarged ResNet models (GPipe with model parallelism) in all of the settings we tried. These results are remarkable, since RaNNC automatically partitions models without any modification to their descriptions; Megatron-LM and GPipe require users to manually rewrite the models' descriptions.
翻訳日:2021-03-31 14:35:38 公開日:2021-03-30
# セッションベースレコメンデーションのためのセッション対応線形項目モデル

Session-aware Linear Item-Item Models for Session-based Recommendation ( http://arxiv.org/abs/2103.16104v1 )

ライセンス: Link先を確認
Minijn Choi, jinhong Kim, Joonseok Lee, Hyunjung Shim and Jongwuk Lee(参考訳) セッションベースのレコメンデーションは、例えば、eコマースやマルチメディアストリーミングサービスでセッションで消費された前の項目のシーケンスから次の項目を予測することを目的としている。 具体的には、セッションデータには、セッションの一貫性とセッション内のアイテムへのシーケンシャルな依存性、繰り返しのアイテム消費、セッションのタイムラインなど、いくつかの特徴がある。 本稿では,セッションの包括的側面を考慮するための単純イット有効線形モデルを提案する。 私たちのモデルの包括的性質は、セッションベースのレコメンデーションの品質を改善するのに役立ちます。 さらに重要なのは、セッションデータの異なる視点を反映する汎用フレームワークを提供することだ。 さらに、我々のモデルはクローズドフォームのソリューションで解決できるので、非常にスケーラブルです。 実験の結果,実世界のデータセット上での様々な指標において,提案する線形モデルが競争的あるいは最先端的な性能を示すことがわかった。

Session-based recommendation aims at predicting the next item given a sequence of previous items consumed in the session, e.g., on e-commerce or multimedia streaming services. Specifically, session data exhibits some unique characteristics, i.e., session consistency and sequential dependency over items within the session, repeated item consumption, and session timeliness. In this paper, we propose simple-yet-effective linear models for considering the holistic aspects of the sessions. The comprehensive nature of our models helps improve the quality of session-based recommendation. More importantly, it provides a generalized framework for reflecting different perspectives of session data. Furthermore, since our models can be solved by closed-form solutions, they are highly scalable. Experimental results demonstrate that the proposed linear models show competitive or state-of-the-art performance in various metrics on several real-world datasets.
翻訳日:2021-03-31 14:35:09 公開日:2021-03-30
# rocksdbのためのマルチタスク学習によるベイズ最適化

High-Dimensional Bayesian Optimization with Multi-Task Learning for RocksDB ( http://arxiv.org/abs/2103.16267v1 )

ライセンス: Link先を確認
Sami Alabed, Eiko Yoneki(参考訳) rocksdbは、複数の設定で使用される汎用組み込みキーバリューストアである。 その汎用性は複雑なチューニング構成のコストが伴う。 本稿では,RocksDB IO操作のスループットを,様々な範囲の10パラメータを自動調整することで最大化する。 オフザシェルフオプティマイザは高次元問題空間と競合し、多数のトレーニングサンプルを必要とする。 本稿では,マルチタスクモデリングとクラスタリングによる次元化の2つの手法を提案する。 モデルに隣接する最適化を組み込むことで、モデルはより早く収束し、他のチューナーが見つけられなかった複雑な設定を見つけました。 このアプローチは計算の複雑さを増大させ、rocksdbの知識を通じて各サブゴールにパラメータを手動で割り当てることで軽減しました。 このモデルは、RocksDBのIOスループットを最大化するパラメータを見つけるために、標準的なベイズ最適化ループに組み込まれる。 提案手法は,Facebookのソーシャルグラフトラフィックのシミュレーションに比較してx1.3の改善を実現し,50ステップを要する他の最先端手法と比較して10の最適化ステップに収束した。

RocksDB is a general-purpose embedded key-value store used in multiple different settings. Its versatility comes at the cost of complex tuning configurations. This paper investigates maximizing the throughput of RocksDB IO operations by auto-tuning ten parameters of varying ranges. Off-the-shelf optimizers struggle with high-dimensional problem spaces and require a large number of training samples. We propose two techniques to tackle this problem: multi-task modeling and dimensionality reduction through clustering. By incorporating adjacent optimization in the model, the model converged faster and found complicated settings that other tuners could not find. This approach had an additional computational complexity overhead, which we mitigated by manually assigning parameters to each sub-goal through our knowledge of RocksDB. The model is then incorporated in a standard Bayesian Optimization loop to find parameters that maximize RocksDB's IO throughput. Our method achieved x1.3 improvement when benchmarked against a simulation of Facebook's social graph traffic, and converged in ten optimization steps compared to other state-of-the-art methods that required fifty steps.
翻訳日:2021-03-31 14:34:57 公開日:2021-03-30
# 電動トラックの動的バッテリー状態予測モデル:Liイオン電池のケーススタディ

A Dynamic Battery State-of-Health Forecasting Model for Electric Trucks: Li-Ion Batteries Case-Study ( http://arxiv.org/abs/2103.16280v1 )

ライセンス: Link先を確認
Matti Huotari, Shashank Arora, Avleen Malhi, Kary Fr\"amling(参考訳) 電気自動車の性能向上とメンテナンスコストの削減のために、バッテリーの健全性を監視し管理することが極めて重要である。 本稿では,電気トラックのliイオン電池がエネルギー源として利用される,機械学習による健康状態(soh)の予後について述べる。 本稿では,電池パックのSoHとサイクル寿命を計算する手法を提案する。 本研究では, 自己回帰型統合モデリング平均(arima)と教師付き学習(決定木をベース推定器とする袋)を提案し, フォークリフト操作のバッテリ可用性を最大化するためにバッテリsohを予測する。 電池予後予測のためのデータ駆動型手法の利用が増えているため,電池に関する事前情報が少ない状況下では,arimaの機能を実証する。 この作業のために、商用運用でフォークリフトから31個のリチウムイオン電池パックを収集した。 一方,ARIMAモデルでは,複数の電池からのデータ分析を行うための関連ツールが提供されている。 一方,BAGモデルでは,決定木をベース推定器として用いた教師付き学習モデルにより,1つのバッテリに大きな変動が存在する場合の予測精度が向上することが示唆された。

It is of extreme importance to monitor and manage the battery health to enhance the performance and decrease the maintenance cost of operating electric vehicles. This paper concerns the machine-learning-ena bled state-of-health (SoH) prognosis for Li-ion batteries in electric trucks, where they are used as energy sources. The paper proposes methods to calculate SoH and cycle life for the battery packs. We propose autoregressive integrated modeling average (ARIMA) and supervised learning (bagging with decision tree as the base estimator; BAG) for forecasting the battery SoH in order to maximize the battery availability for forklift operations. As the use of data-driven methods for battery prognostics is increasing, we demonstrate the capabilities of ARIMA and under circumstances when there is little prior information available about the batteries. For this work, we had a unique data set of 31 lithium-ion battery packs from forklifts in commercial operations. On the one hand, results indicate that the developed ARIMA model provided relevant tools to analyze the data from several batteries. On the other hand, BAG model results suggest that the developed supervised learning model using decision trees as base estimator yields better forecast accuracy in the presence of large variation in data for one battery.
翻訳日:2021-03-31 14:34:40 公開日:2021-03-30
# ばらつきを低減したGreedy-GQ:有限時間解析と複雑度の改善

Greedy-GQ with Variance Reduction: Finite-time Analysis and Improved Complexity ( http://arxiv.org/abs/2103.16377v1 )

ライセンス: Link先を確認
Shaocong Ma, Ziyi Chen, Yi Zhou, Shaofeng Zou(参考訳) Greedy-GQは、最適制御のための値ベース強化学習(RL)アルゴリズムである。 近年、greedy-gqの有限時間解析は線形関数近似とマルコフサンプリングの下で開発され、このアルゴリズムは$\mathcal{o}(\epsilon^{-3})$の順にサンプル複雑性を持つ$\epsilon$-stationar y pointを達成することが示されている。 このような高いサンプル複雑性はマルコフのサンプルによって引き起こされる大きな分散に起因する。 本稿では,オフポリシー最適制御のための分散低減型greedy-gq(vr-greedy- gq)アルゴリズムを提案する。 特に,SVRGに基づく分散低減手法を適用し,2つの時間スケール更新の確率的分散を低減する。 線形関数近似およびマルコフサンプリングの下でのVR-Greedy-GQの有限時間収束について検討し、アルゴリズムが元のGreedy-GQよりもはるかに小さなバイアスと分散誤差を達成することを示す。 特に、VR-Greedy-GQ が $\mathcal{O}(\epsilon^{-2})$ の順序で改良されたサンプル複雑性を実現することを証明している。 さらに,VR-Greedy-GQとGreedy-GQの様々なRL実験の性能を比較し,理論的な知見を裏付ける。

Greedy-GQ is a value-based reinforcement learning (RL) algorithm for optimal control. Recently, the finite-time analysis of Greedy-GQ has been developed under linear function approximation and Markovian sampling, and the algorithm is shown to achieve an $\epsilon$-stationar y point with a sample complexity in the order of $\mathcal{O}(\epsilon^{-3})$. Such a high sample complexity is due to the large variance induced by the Markovian samples. In this paper, we propose a variance-reduced Greedy-GQ (VR-Greedy-GQ) algorithm for off-policy optimal control. In particular, the algorithm applies the SVRG-based variance reduction scheme to reduce the stochastic variance of the two time-scale updates. We study the finite-time convergence of VR-Greedy-GQ under linear function approximation and Markovian sampling and show that the algorithm achieves a much smaller bias and variance error than the original Greedy-GQ. In particular, we prove that VR-Greedy-GQ achieves an improved sample complexity that is in the order of $\mathcal{O}(\epsilon^{-2})$. We further compare the performance of VR-Greedy-GQ with that of Greedy-GQ in various RL experiments to corroborate our theoretical findings.
翻訳日:2021-03-31 14:34:19 公開日:2021-03-30
# 混合型マルチタスク学習とクロスタスク融合による環境音響解析

Environmental sound analysis with mixup based multitask learning and cross-task fusion ( http://arxiv.org/abs/2103.16079v1 )

ライセンス: Link先を確認
Weiping Zheng, Dacan Jiang, Gansen Zhao(参考訳) 環境音の分析は現在ますます注目を集めている。 この領域では、音響シーン分類と音響イベント分類が密接に関連している。 本書では,上記の課題に対して二段階法を提案する。 最初の段階では、両方のタスクを単一の畳み込みニューラルネットワークに分類するために、ミックスアップベースのMTLソリューションが提案されている。 人工マルチラベルサンプルは、既存のシングルタスクデータセットを使用して混在するMTLモデルのトレーニングに使用される。 得られたマルチタスクモデルは、音響シーンとイベントの両方を効果的に認識することができる。 再注釈や合成などの他の方法と比較して、ミックスアップベースのMTLは低コストで、柔軟で効果的である。 第2段階では、MTLモデルは、特定のタスクに対応する元のデータセットを使用して微調整されたシングルタスクモデルに修正される。 凍結層を慎重に制御することにより、タスク固有の高レベル特徴を融合させ、単一分類タスクの性能をさらに向上させる。 提案手法は,音響シーンと音響イベント分類の相補的特徴を確認した。 最後に、アンサンブル学習により強化し、tut音響シーン2017データセットで84.5パーセント、esc-50データセットで77.5パーセントの精度をそれぞれ達成した。

Environmental sound analysis is currently getting more and more attentions. In the domain, acoustic scene classification and acoustic event classification are two closely related tasks. In this letter, a two-stage method is proposed for the above tasks. In the first stage, a mixup based MTL solution is proposed to classify both tasks in one single convolutional neural network. Artificial multi-label samples are used in the training of the MTL model, which are mixed up using existing single-task datasets. The multi-task model obtained can effectively recognize both the acoustic scenes and events. Compared with other methods such as re-annotation or synthesis, the mixup based MTL is low-cost, flexible and effective. In the second stage, the MTL model is modified into a single-task model which is fine-tuned using the original dataset corresponding to the specific task. By controlling the frozen layers carefully, the task-specific high level features are fused and the performance of the single classification task is further improved. The proposed method has confirmed the complementary characteristics of acoustic scene and acoustic event classifications. Finally, enhanced by ensemble learning, a satisfactory accuracy of 84.5 percent on TUT acoustic scene 2017 dataset and an accuracy of 77.5 percent on ESC-50 dataset are achieved respectively.
翻訳日:2021-03-31 14:33:39 公開日:2021-03-30
# HapTable:タッチジェスチャーにオンラインの触覚フィードバックを提供するインタラクティブテーブルトップ

HapTable: An Interactive Tabletop Providing Online Haptic Feedback for Touch Gestures ( http://arxiv.org/abs/2103.16510v1 )

ライセンス: Link先を確認
Senem Ezgi Emgin, Amirreza Aghakhani, T. Metin Sezgin, and Cagatay Basdogan(参考訳) HapTableは、ユーザが自然なタッチジェスチャーでデジタル画像やオブジェクトと対話し、視覚的および触覚的なフィードバックを受け取ることができるマルチモーダル・インタラクティブなテーブルトップである。 本システムでは,ハンドポーズを赤外線カメラで登録し,サポートベクトルマシン(SVM)分類器を用いて手振りを分類する。 静的なジェスチャーと動的ジェスチャーの両方に対するリッチな触覚効果を示すために,我々は,表面容量タッチスクリーンであるHapTableのテーブルトップ面に,電気機械的および静電的アクチュエーター技術を統合した。 テーブルのエッジに4つのピエゾパッチを取り付け、静的なジェスチャーに対する振動フィードバックを表示しました。 この目的のために、周波数応答関数 (FRF) の形をしたテーブルトップの振動応答は、その表面に84の格子点を持つレーザードップラー振動計によって得られた。 これらのFRFを用いて、静的なジェスチャーのために、表面上の局所的なVibrotactileフィードバックを表示することができる。 動的ジェスチャーでは, 静電作動法を用いて, 導電層に電圧を印加することにより, 指皮膚とテーブル上表面の摩擦力を調節する。 本稿では、静的なアプリケーションと動的ジェスチャーのためのアプリケーションと、詳細なユーザ研究の2つの例を示す。 第一に、ユーザは、テーブルトップ表面に手を置き、その下を走行する振動刺激を感じることにより、風や水などの仮想流れの方向を検出する。 第2の例では、仮想ノブをテーブル上面上で回転させてメニューからアイテムを選択し、摩擦力フィードバックの形でノブの起伏や回転に対する抵抗を感じる。

We present HapTable; a multimodal interactive tabletop that allows users to interact with digital images and objects through natural touch gestures, and receive visual and haptic feedback accordingly. In our system, hand pose is registered by an infrared camera and hand gestures are classified using a Support Vector Machine (SVM) classifier. To display a rich set of haptic effects for both static and dynamic gestures, we integrated electromechanical and electrostatic actuation techniques effectively on tabletop surface of HapTable, which is a surface capacitive touch screen. We attached four piezo patches to the edges of tabletop to display vibrotactile feedback for static gestures. For this purpose, the vibration response of the tabletop, in the form of frequency response functions (FRFs), was obtained by a laser Doppler vibrometer for 84 grid points on its surface. Using these FRFs, it is possible to display localized vibrotactile feedback on the surface for static gestures. For dynamic gestures, we utilize the electrostatic actuation technique to modulate the frictional forces between finger skin and tabletop surface by applying voltage to its conductive layer. Here, we present two examples of such applications, one for static and one for dynamic gestures, along with detailed user studies. In the first one, user detects the direction of a virtual flow, such as that of wind or water, by putting their hand on the tabletop surface and feeling a vibrotactile stimulus traveling underneath it. In the second example, user rotates a virtual knob on the tabletop surface to select an item from a menu while feeling the knob's detents and resistance to rotation in the form of frictional haptic feedback.
翻訳日:2021-03-31 14:33:20 公開日:2021-03-30
# 生成型adversarial learningを用いた時間領域音声強調

Time-domain Speech Enhancement with Generative Adversarial Learning ( http://arxiv.org/abs/2103.16149v1 )

ライセンス: Link先を確認
Feiyang Xiao, Jian Guan, Qiuqiang Kong, Wenwu Wang(参考訳) 音声強調は、雑音の多い音声から高い可知性と品質の音声信号を得ることを目的としている。 最近の研究は、Conv-TasNetのような時間領域深層学習手法の優れた性能を示している。 しかし、これらの手法は、スケール不変信号-雑音比(SI-SNR)損失によって誘導される波形の任意のスケールによって劣化させることができる。 本稿では,時間領域における生成逆数ネットワーク(GAN)の拡張であるTSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。 さらに,Metric GANの性能の理論的解析のための目的関数マッピングに基づく新しい手法を提案し,なぜWasserstein GANよりも優れているのかを説明する。 提案手法の有効性を実証し,Metric GANの利点を実証した。

Speech enhancement aims to obtain speech signals with high intelligibility and quality from noisy speech. Recent work has demonstrated the excellent performance of time-domain deep learning methods, such as Conv-TasNet. However, these methods can be degraded by the arbitrary scales of the waveform induced by the scale-invariant signal-to-noise ratio (SI-SNR) loss. This paper proposes a new framework called Time-domain Speech Enhancement Generative Adversarial Network (TSEGAN), which is an extension of the generative adversarial network (GAN) in time-domain with metric evaluation to mitigate the scaling problem, and provide model training stability, thus achieving performance improvement. In addition, we provide a new method based on objective function mapping for the theoretical analysis of the performance of Metric GAN, and explain why it is better than the Wasserstein GAN. Experiments conducted demonstrate the effectiveness of our proposed method, and illustrate the advantage of Metric GAN.
翻訳日:2021-03-31 14:32:17 公開日:2021-03-30
# lemgorl - 実世界のシミュレーションシナリオにおけるトラヒック信号制御のための強化学習エージェントをトレーニングするオープンソースベンチマークツール

LemgoRL: An open-source Benchmark Tool to Train Reinforcement Learning Agents for Traffic Signal Control in a real-world simulation scenario ( http://arxiv.org/abs/2103.16223v1 )

ライセンス: Link先を確認
Arthur M\"uller, Vishal Rangras, Georg Schnittker, Michael Waldmann, Maxim Friesen, Tobias Ferfers, Lukas Schreckenberg, Florian Hufen, J\"urgen Jasperneite, Marco Wiering(参考訳) 交差点交通信号制御装置(tsc)のサブ最適制御方針は混雑に寄与し、人間の健康や環境に悪影響を及ぼす。 交通信号制御のための強化学習(RL)は、より良い制御ポリシーを設計するための有望なアプローチであり、近年、かなりの研究関心を集めている。 しかし、この分野でのほとんどの作業は、交通シナリオの簡易シミュレーション環境を使用して、RTLベースのTSCを訓練した。 実世界の交通システムにRLをデプロイするには、単純化されたシミュレーション環境と実世界のアプリケーションとのギャップを埋める必要がある。 そこで我々は,ドイツの中規模都市Lemgoの現実的なシミュレーション環境において,RTLエージェントをTSCとして訓練するためのベンチマークツールであるLemgoRLを提案する。 現実的なシミュレーションモデルに加えて、LemgoRLはすべての規制および安全要件に準拠することを保証する信号ロジックユニットを含んでいる。 LemgoRLは、既知のOpenAIジムツールキットと同じインターフェースを提供し、既存の研究作業を簡単に展開できる。 我々のベンチマークツールは実世界のアプリケーションに向けたRLアルゴリズムの開発を促進する。 https://github.com/r l-ina/lemgorl.comでオープンソースツールとしてLemgoRLを提供しています。

Sub-optimal control policies in intersection traffic signal controllers (TSC) contribute to congestion and lead to negative effects on human health and the environment. Reinforcement learning (RL) for traffic signal control is a promising approach to design better control policies and has attracted considerable research interest in recent years. However, most work done in this area used simplified simulation environments of traffic scenarios to train RL-based TSC. To deploy RL in real-world traffic systems, the gap between simplified simulation environments and real-world applications has to be closed. Therefore, we propose LemgoRL, a benchmark tool to train RL agents as TSC in a realistic simulation environment of Lemgo, a medium-sized town in Germany. In addition to the realistic simulation model, LemgoRL encompasses a traffic signal logic unit that ensures compliance with all regulatory and safety requirements. LemgoRL offers the same interface as the well-known OpenAI gym toolkit to enable easy deployment in existing research work. Our benchmark tool drives the development of RL algorithms towards real-world applications. We provide LemgoRL as an open-source tool at https://github.com/r l-ina/lemgorl.
翻訳日:2021-03-31 14:32:01 公開日:2021-03-30
# 熱ニューラルネットワーク:状態空間機械学習による集中パラメータ熱モデリング

Thermal Neural Networks: Lumped-Parameter Thermal Modeling With State-Space Machine Learning ( http://arxiv.org/abs/2103.16323v1 )

ライセンス: Link先を確認
Wilhelm Kirchg\"assner, Oliver Wallscheid, Joachim B\"ocker(参考訳) 電力系統がよりコンパクトで強力になるにつれて、過負荷時の熱応力の関連性は絶え間なく増大すると予想される。 臨界温度がセンサベースで経済的に測定できない場合、熱モデルはそれらの未知の量を推定するのに役立つ。 電力系統の熱モデルは通常、リアルタイム能力と高い推定精度の両方を必要とする。 さらに、実装の容易さと運用までの時間がますます重要な役割を果たす。 本研究では,熱伝達型集中定数モデルと教師付き機械学習によるデータ駆動非線形関数近似という2つの知識を統合した熱ニューラルネットワーク(tnn)を提案する。 準線形パラメータ変動システムは、スケジューリング変数とシステム行列の関係を統計的かつ自動的に推測する経験的データのみから同定される。 同時に、TNNは状態空間の表現を通じて物理的に解釈可能な状態を持ち、ディープラーニングモデルに似た、エンドツーエンドのトレーニングが可能で、自動的な微分があり、その設計に材料、幾何学、専門家の知識を必要としない。 実験では、tnnが以前のホワイト/グレーまたはブラックボックスモデルよりも高い温度推定精度を達成し、平均二乗誤差は3.18〜\text{k}^2$、最悪の場合誤差は64のモデルパラメータで5.84〜\text{k}$である。

With electric power systems becoming more compact and increasingly powerful, the relevance of thermal stress especially during overload operation is expected to increase ceaselessly. Whenever critical temperatures cannot be measured economically on a sensor base, a thermal model lends itself to estimate those unknown quantities. Thermal models for electric power systems are usually required to be both, real-time capable and of high estimation accuracy. Moreover, ease of implementation and time to production play an increasingly important role. In this work, the thermal neural network (TNN) is introduced, which unifies both, consolidated knowledge in the form of heat-transfer-based lumped-parameter models, and data-driven nonlinear function approximation with supervised machine learning. A quasi-linear parameter-varying system is identified solely from empirical data, where relationships between scheduling variables and system matrices are inferred statistically and automatically. At the same time, a TNN has physically interpretable states through its state-space representation, is end-to-end trainable -- similar to deep learning models -- with automatic differentiation, and requires no material, geometry, nor expert knowledge for its design. Experiments on an electric motor data set show that a TNN achieves higher temperature estimation accuracies than previous white-/grey- or black-box models with a mean squared error of $3.18~\text{K}^2$ and a worst-case error of $5.84~\text{K}$ at 64 model parameters.
翻訳日:2021-03-31 14:31:44 公開日:2021-03-30
# (参考訳) グラフベースの顔影響分析:方法,応用,課題の概観 [全文訳有]

Graph-based Facial Affect Analysis: A Review of Methods, Applications and Challenges ( http://arxiv.org/abs/2103.15599v2 )

ライセンス: CC BY 4.0
Yang Liu, Jinzhao Zhou, Xin Li, Xingming Zhang and Guoying Zhao(参考訳) 視覚信号を用いた顔影響分析(FAA)は、人間とコンピュータの相互作用において重要なステップである。 従来の手法は主に、人間の影響に関連する外観や幾何学的特徴の抽出に重点を置いていた。 しかし、個々の顔の変化ごとに潜伏する意味情報を考慮せず、パフォーマンスと一般化が制限される。 最近のトレンドは、これらの意味関係をモデル化するためのグラフベースの表現を確立し、異なるfaaタスクにそれを活用するための学習フレームワークの開発を試みる。 本稿では,アルゴリズムの進化とその応用を含む,グラフに基づくFAAの包括的なレビューを行う。 まず,影響分析の背景知識,特にグラフの役割について紹介する。 次に、文学におけるグラフに基づく感情表現に広く使われるアプローチについて論じ、グラフ構築への傾向を示す。 グラフベースfaaにおける関係推論について,従来の手法や深層モデルを用いて既存の研究を分類し,最新のグラフニューラルネットワークに注目した。 FAAの標準的な問題に対する最先端の試験的な比較も要約される。 最後に、レビューを現在の課題と潜在的な方向性に拡張します。 私たちが知る限り、この調査はグラフベースのFAAの手法に関する最初の調査であり、この分野での今後の研究の基準となる。

Facial affect analysis (FAA) using visual signals is a key step in human-computer interactions. Previous methods mainly focus on extracting appearance and geometry features associated with human affects. However, they do not consider the latent semantic information among each individual facial change, leading to limited performance and generalization. Recent trends attempt to establish a graph-based representation to model these semantic relationships and develop learning framework to leverage it for different FAA tasks. In this paper, we provide a comprehensive review of graph-based FAA, including the evolution of algorithms and their applications. First, we introduce the background knowledge of affect analysis, especially on the role of graph. We then discuss approaches that are widely used for graph-based affective representation in literatures and show a trend towards graph construction. For the relational reasoning in graph-based FAA, we classify existing studies according to their usage of traditional methods or deep models, with a special emphasis on latest graph neural networks. Experimental comparisons of the state-of-the-art on standard FAA problems are also summarized. Finally, we extend the review to the current challenges and potential directions. As far as we know, this is the first survey of graph-based FAA methods, and our findings can serve as a reference point for future research in this field.
翻訳日:2021-03-31 13:42:25 公開日:2021-03-30
# (参考訳) フェデレーション機械学習におけるプライバシと信頼の再定義 [全文訳有]

Privacy and Trust Redefined in Federated Machine Learning ( http://arxiv.org/abs/2103.15753v2 )

ライセンス: CC BY 4.0
Pavlos Papadopoulos, Will Abramson, Adam J. Hall, Nikolaos Pitropakis and William J. Buchanan(参考訳) 従来の機械学習における一般的なプライバシー問題は、トレーニング手順のためにデータが開示される必要があることである。 医療記録などの機密性の高いデータを持つ状況では、この情報にアクセスすることは困難であり、しばしば禁止される。 幸いにも、トレーニングの計算を分散し、データプライバシを所有者に保証することで、このハードルを克服するために、プライバシ保護技術が開発されている。 複数の参加するエンティティへの計算の分散は、新しいプライバシーの複雑さとリスクをもたらす。 本稿では、参加者間の信頼された連携学習を容易にするプライバシー保護型分散ワークフローを提案する。 我々の概念実証は、hyperledgerプロジェクトaries/indy/ursaの下で開発された分散id技術を使用してインスタンス化された信頼フレームワークを定義する。 適切な当局から発行された検証済みクレデンシャルを所有するエンティティのみが、メンタルヘルスデータに関連する統合学習ワークフローに参加することが認可された、セキュアで認証された通信チャネルを確立することができる。

A common privacy issue in traditional machine learning is that data needs to be disclosed for the training procedures. In situations with highly sensitive data such as healthcare records, accessing this information is challenging and often prohibited. Luckily, privacy-preserving technologies have been developed to overcome this hurdle by distributing the computation of the training and ensuring the data privacy to their owners. The distribution of the computation to multiple participating entities introduces new privacy complications and risks. In this paper, we present a privacy-preserving decentralised workflow that facilitates trusted federated learning among participants. Our proof-of-concept defines a trust framework instantiated using decentralised identity technologies being developed under Hyperledger projects Aries/Indy/Ursa. Only entities in possession of Verifiable Credentials issued from the appropriate authorities are able to establish secure, authenticated communication channels authorised to participate in a federated learning workflow related to mental health data.
翻訳日:2021-03-31 12:30:52 公開日:2021-03-30
# 道に乗らないことの説明

Explaining the Road Not Taken ( http://arxiv.org/abs/2103.14973v2 )

ライセンス: Link先を確認
Hua Shen, Ting-Hao 'Kenneth' Huang(参考訳) ディープニューラルネットワークモデルの既存の解釈がユーザのニーズに効果的に反応するかどうかは不明だ。 本稿では,200以上の論文で使われている自然言語処理(NLP)に関する一般的な説明形式(特徴属性,決定規則,プローブなど)を要約し,XAI質問銀行で収集されたユーザ質問と比較する。 つまり、なぜモデルが1つの結果を選んだのか、よく定義され、非常に類似しているように見えるが、ほとんどのモデル解釈はこれらの疑問に答えられない。

It is unclear if existing interpretations of deep neural network models respond effectively to the needs of users. This paper summarizes the common forms of explanations (such as feature attribution, decision rules, or probes) used in over 200 recent papers about natural language processing (NLP), and compares them against user questions collected in the XAI Question Bank. We found that although users are interested in explanations for the road not taken -- namely, why the model chose one result and not a well-defined, seemly similar legitimate counterpart -- most model interpretations cannot answer these questions.
翻訳日:2021-03-31 12:03:56 公開日:2021-03-30
# SceneGraphFusion:RGB -Dシーケンスからのインクリメンタル3次元Scene Graph予測

SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D Sequences ( http://arxiv.org/abs/2103.14898v2 )

ライセンス: Link先を確認
Shun-Cheng Wu, Johanna Wald, Keisuke Tateno, Nassir Navab and Federico Tombari(参考訳) シーングラフはコンパクトで明示的な表現であり、様々な2次元シーン理解タスクでうまく使われている。 本研究は,RGB-Dフレームのシーケンスを与えられた3次元環境から意味シーングラフをインクリメンタルに構築する手法を提案する。 この目的のために,グラフニューラルネットワークを用いて,プリミティブシーンコンポーネントからポイントネットの特徴を集約する。 また,このようなインクリメンタル・リコンストラクションシナリオに存在する部分的および欠落グラフデータに適した新しい注意機構を提案する。 提案手法はシーンのサブマップ上で実行するように設計されているが、3dシーン全体への転送も行う。 実験により、3次元シーングラフの予測手法を高いマージンで上回り,その精度は35hzで動作中の他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等であることが判明した。

Scene graphs are a compact and explicit representation successfully used in a variety of 2D scene understanding tasks. This work proposes a method to incrementally build up semantic scene graphs from a 3D environment given a sequence of RGB-D frames. To this end, we aggregate PointNet features from primitive scene components by means of a graph neural network. We also propose a novel attention mechanism well suited for partial and missing graph data present in such an incremental reconstruction scenario. Although our proposed method is designed to run on submaps of the scene, we show it also transfers to entire 3D scenes. Experiments show that our approach outperforms 3D scene graph prediction methods by a large margin and its accuracy is on par with other 3D semantic and panoptic segmentation methods while running at 35 Hz.
翻訳日:2021-03-31 12:03:45 公開日:2021-03-30
# [再現性レポート]宝くじを引っ掛ける:全てのティケットが勝者になる

[Reproducibility Report] Rigging the Lottery: Making All Tickets Winners ( http://arxiv.org/abs/2103.15767v2 )

ライセンス: Link先を確認
Varun Sundar, Rajat Vadiraj Dwaraknath(参考訳) スパーストレーニングアルゴリズムである$\textit{RigL}$は、固定パラメータ数と計算予算に対して、既存の密度とスパーストレーニング技術(プルーニングなど)のパフォーマンスに適合または超過したスパースネットワークを直接トレーニングする。 We implement $\textit{RigL}$ from scratch in Pytorch and repeat its performance on CIFAR-10 in the report value 0.1%。 CIFAR-10/100とCIFAR-10/100では、一定のトレーニング予算が与えられた場合、$\textit{RigL}$は、既存の動的スパーストレーニングメソッドを超える。 より長いトレーニングによって、パフォーマンスは反復的なプルーニングと一致または超えることができ、トレーニングを通じて一定のFLOPを消費する。 また、すべての間隔、初期化ペアに対して$\textit{RigL}$'s hyper-parametersをチューニングするメリットはほとんどないことも示しています -- ハイパーパラメータの参照選択は、しばしば最適なパフォーマンスに近づきます。 元の論文を超えて、最適初期化スキームはトレーニング制約に依存することが判明した。 Erdos-Renyi-Kernel分布は固定パラメータ数に対してUniform分布より優れており、固定FLOP数では後者の方が優れている。 最後に、2つの初期化スキーム間の性能ギャップを補うことができるが、計算コストは増大する。

$\textit{RigL}$, a sparse training algorithm, claims to directly train sparse networks that match or exceed the performance of existing dense-to-sparse training techniques (such as pruning) for a fixed parameter count and compute budget. We implement $\textit{RigL}$ from scratch in Pytorch and reproduce its performance on CIFAR-10 within 0.1% of the reported value. On both CIFAR-10/100, the central claim holds -- given a fixed training budget, $\textit{RigL}$ surpasses existing dynamic-sparse training methods over a range of target sparsities. By training longer, the performance can match or exceed iterative pruning, while consuming constant FLOPs throughout training. We also show that there is little benefit in tuning $\textit{RigL}$'s hyper-parameters for every sparsity, initialization pair -- the reference choice of hyperparameters is often close to optimal performance. Going beyond the original paper, we find that the optimal initialization scheme depends on the training constraint. While the Erdos-Renyi-Kernel distribution outperforms the Uniform distribution for a fixed parameter count, for a fixed FLOP count, the latter performs better. Finally, redistributing layer-wise sparsity while training can bridge the performance gap between the two initialization schemes, but increases computational cost.
翻訳日:2021-03-31 12:03:30 公開日:2021-03-30
# 実世界領域一般化のための適応的手法

Adaptive Methods for Real-World Domain Generalization ( http://arxiv.org/abs/2103.15796v2 )

ライセンス: Link先を確認
Abhimanyu Dubey, Vignesh Ramanathan, Alex Pentland and Dhruv Mahajan(参考訳) 不変なアプローチは、訓練で使用されるものと異なるデータ分布の推論を行うことを目的として、領域一般化の問題に取り組むことに成功している。 本研究では,未確認テストサンプル自体から,ドメイン情報を活用できるかどうかを検討する。 a) 教師なしのトレーニング例から識別的ドメイン埋め込みを最初に学習し、b) このドメイン埋め込みを補足情報として使ってドメイン適応モデルを構築し、入力とドメインの両方を考慮した予測を行う。 unseenドメインの場合、このメソッドはドメイン埋め込みを構築するのに、ラベルのないテスト例をほんの少しだけ使うだけです。 これにより、任意の未知領域に対する適応的分類が可能になる。 提案手法は,各種領域一般化ベンチマークにおける最先端性能を実現する。 さらに,実世界初の大規模ドメイン一般化ベンチマークであるgeo-yfccを導入し,40以上のトレーニング,7つの検証,15のテストドメインの1.1mサンプルを含む。 既存のアプローチは、このデータセットにスケールしないか、あるいはすべてのトレーニングドメインからのデータの統一に関するモデルのトレーニングの単純なベースラインに比べてパフォーマンスが低いかを示す。 対照的に、私たちのアプローチは大きな改善を達成します。

Invariant approaches have been remarkably successful in tackling the problem of domain generalization, where the objective is to perform inference on data distributions different from those used in training. In our work, we investigate whether it is possible to leverage domain information from the unseen test samples themselves. We propose a domain-adaptive approach consisting of two steps: a) we first learn a discriminative domain embedding from unsupervised training examples, and b) use this domain embedding as supplementary information to build a domain-adaptive model, that takes both the input as well as its domain into account while making predictions. For unseen domains, our method simply uses few unlabelled test examples to construct the domain embedding. This enables adaptive classification on any unseen domain. Our approach achieves state-of-the-art performance on various domain generalization benchmarks. In addition, we introduce the first real-world, large-scale domain generalization benchmark, Geo-YFCC, containing 1.1M samples over 40 training, 7 validation, and 15 test domains, orders of magnitude larger than prior work. We show that the existing approaches either do not scale to this dataset or underperform compared to the simple baseline of training a model on the union of data from all training domains. In contrast, our approach achieves a significant improvement.
翻訳日:2021-03-31 12:03:03 公開日:2021-03-30
# カテゴリー表現学習: 形態学は必要なすべて

Categorical Representation Learning: Morphism is All You Need ( http://arxiv.org/abs/2103.14770v2 )

ライセンス: Link先を確認
Artan Sheshmani and Yizhuang You(参考訳) 分類表現学習のための構成を提供し,「$\textit{categorifier}$」の基礎を紹介する。 表現学習の中心的なテーマは、$\textbf{everything to vector}$というアイデアである。 データセット $\mathcal{S}$ のすべてのオブジェクトは、$\mathbb{R}^n$ のベクトルとして $\textit{encoding map}$ $E: \mathcal{O}bj(\mathcal{S})\to\mathbb{R}^n$ で表現できる。 さらに重要なことに、すべての射は行列 $E: \mathcal{H}om(\mathcal{S})\to\mathbb{R}^{n}_{n}$ として表すことができる。 符号化マップ $e$ は一般的に$\textit{deep neural network}$でモデル化される。 表現学習の目標は、エンコーディングマップをトレーニングするためにデータセット上の適切なタスクを設計することである(様々なタスクのパフォーマンスを普遍的に最適化すれば、エンコーディングが最適となると仮定する)。 しかし、後者はまだ$\textit{set-theoretic}$アプローチである。 現在の記事の目標は,$\textit{category-theoretic}$アプローチを通じて,表現学習を新たなレベルに促進することにある。 概念実証として,我々の技術を用いたテキストトランスレータの例を示し,我々の分類学習モデルが現在のディープラーニングモデルよりも17倍優れていることを示す。 現在の記事の内容は、先日の米国特許提案(パテント出願番号:63110906)の一部である。

We provide a construction for categorical representation learning and introduce the foundations of "$\textit{categorifier}$". The central theme in representation learning is the idea of $\textbf{everything to vector}$. Every object in a dataset $\mathcal{S}$ can be represented as a vector in $\mathbb{R}^n$ by an $\textit{encoding map}$ $E: \mathcal{O}bj(\mathcal{S})\to\mathbb{R}^n$. More importantly, every morphism can be represented as a matrix $E: \mathcal{H}om(\mathcal{S})\to\mathbb{R}^{n}_{n}$. The encoding map $E$ is generally modeled by a $\textit{deep neural network}$. The goal of representation learning is to design appropriate tasks on the dataset to train the encoding map (assuming that an encoding is optimal if it universally optimizes the performance on various tasks). However, the latter is still a $\textit{set-theoretic}$ approach. The goal of the current article is to promote the representation learning to a new level via a $\textit{category-theoretic}$ approach. As a proof of concept, we provide an example of a text translator equipped with our technology, showing that our categorical learning model outperforms the current deep learning models by 17 times. The content of the current article is part of the recent US patent proposal (patent application number: 63110906).
翻訳日:2021-03-31 12:02:44 公開日:2021-03-30
# ニューラルネットワークによる制御性能評価による拡張状態オブザーバのチューニング

Tuning of extended state observer with neural network-based control performance assessment ( http://arxiv.org/abs/2103.15516v2 )

ライセンス: Link先を確認
Piotr Kicki, Krzysztof {\L}akomy, Ki Myung Brian Lee(参考訳) 拡張状態オブザーバ(ESO)は、堅牢なオブザーバベースの制御システムの固有の要素であり、システムダイナミクスに対する障害の影響を推定することができる。 ESOパラメータの適切なチューニングは、推定量の良好な品質を確保し、ロバストな制御構造全体の性能に影響を与えるために必要である。 本稿では,ユーザが選択した品質基準,例えば制御と観測誤差と制御信号の特定特徴とを優先順位付けできるニューラルネットワーク(nn)ベースのチューニング手法を提案する。 設計されたNNは、制御システムの性能を正確に評価し、ユーザ定義のコスト関数にほぼ最適なソリューションを提供するESOパラメータのセットを返す。 提案手法は, 1つの閉ループ実験から推定した状態を用いて, ほぼ最適ESOゲインを数秒以内に生成する。

The extended state observer (ESO) is an inherent element of robust observer-based control systems that allows estimating the impact of disturbance on system dynamics. Proper tuning of ESO parameters is necessary to ensure a good quality of estimated quantities and impacts the overall performance of the robust control structure. In this paper, we propose a neural network (NN) based tuning procedure that allows the user to prioritize between selected quality criteria such as the control and observation errors and the specified features of the control signal. The designed NN provides an accurate assessment of the control system performance and returns a set of ESO parameters that delivers a near-optimal solution to the user-defined cost function. The proposed tuning procedure, using an estimated state from the single closed-loop experiment produces near-optimal ESO gains within seconds.
翻訳日:2021-03-31 12:02:19 公開日:2021-03-30
# サブクアドラティックステップにおける非スムート経験的リスク最小化と確率凸最適化

Private Non-smooth Empirical Risk Minimization and Stochastic Convex Optimization in Subquadratic Steps ( http://arxiv.org/abs/2103.15352v2 )

ライセンス: Link先を確認
Janardhan Kulkarni, Yin Tat Lee, Daogao Liu(参考訳) 非スムース凸関数に対する微分プライベートな経験的リスク最小化 (erm) と確率的凸最適化 (sco) の問題について検討した。 我々は、過剰な経験的リスクと過剰な人口減少に(ほぼ)最適の限界を得る。 より正確には、我々の微分プライベートアルゴリズムは、最適な過剰な経験的リスクに対して$O(\frac{N^{3/2}}{d^{1/8}}+ \frac{N^2}{d})$勾配クエリを必要とする。 これは、$d$ が超定数であるとき、非スムースの場合に対する最初のサブクアドラティックアルゴリズムである。 直接の用途として、feldmanらによる反復的局在化アプローチを用いる。 fkt20} では、確率的凸最適化問題に対する最適余剰人口損失を、$o(\min\{n^{5/4}d^{1/8},\frac{n^{3/2}}{d^{1/8}}\})$勾配クエリで達成する。 私たちの仕事は、Bassilyらによって提起された問題の解決に向けて前進します。 a bfgt20} — プライベートEMMとSCOのための最初のアルゴリズムを、サブクアッドラティックステップで提供する。 asiとalは独立している。 \cite{afkt21} は私的なERMとSCOのための他のアルゴリズムを準4次ステップで提供した。

We study the differentially private Empirical Risk Minimization (ERM) and Stochastic Convex Optimization (SCO) problems for non-smooth convex functions. We get a (nearly) optimal bound on the excess empirical risk and excess population loss with subquadratic gradient complexity. More precisely, our differentially private algorithm requires $O(\frac{N^{3/2}}{d^{1/8}}+ \frac{N^2}{d})$ gradient queries for optimal excess empirical risk, which is achieved with the help of subsampling and smoothing the function via convolution. This is the first subquadratic algorithm for the non-smooth case when $d$ is super constant. As a direct application, using the iterative localization approach of Feldman et al. \cite{fkt20}, we achieve the optimal excess population loss for stochastic convex optimization problem, with $O(\min\{N^{5/4}d^{1/8},\frac{ N^{3/2}}{d^{1/8}}\})$ gradient queries. Our work makes progress towards resolving a question raised by Bassily et al. \cite{bfgt20}, giving first algorithms for private ERM and SCO with subquadratic steps. We note that independently Asi et al. \cite{afkt21} gave other algorithms for private ERM and SCO with subquadratic steps.
翻訳日:2021-03-31 12:02:06 公開日:2021-03-30
# elvet --ニューラルネットワークに基づく微分方程式と変分問題解法

Elvet -- a neural network-based differential equation and variational problem solver ( http://arxiv.org/abs/2103.14575v2 )

ライセンス: Link先を確認
Jack Y. Araz, Juan Carlos Criado and Michael Spannowsky(参考訳) 機械学習手法を用いて微分方程式と変分問題を解くためのPythonパッケージElvetを提案する。 エルヴェットは任意の初期条件と境界条件を持つ任意の結合常微分方程式や偏微分方程式を扱うことができる。 制約を課しながら、複数の変数の関数の集合に依存する任意の関数を最小化することもできる。 これらの問題の解決策は、望ましい関数を生成するためにトレーニングされたニューラルネットワークとして表現される。

We present Elvet, a Python package for solving differential equations and variational problems using machine learning methods. Elvet can deal with any system of coupled ordinary or partial differential equations with arbitrary initial and boundary conditions. It can also minimize any functional that depends on a collection of functions of several variables while imposing constraints on them. The solution to any of these problems is represented as a neural network trained to produce the desired function.
翻訳日:2021-03-31 12:01:38 公開日:2021-03-30
# 転送学習方式におけるビデオ物体検出のためのFew-Shot Learning

Few-Shot Learning for Video Object Detection in a Transfer-Learning Scheme ( http://arxiv.org/abs/2103.14724v2 )

ライセンス: Link先を確認
Zhongjie Yu, Gaoang Wang, Lin Chen, Sebastian Raschka, and Jiebo Luo(参考訳) 静止画像と異なり、ビデオには、より優れた物体検出のための時間的および空間的な情報が含まれている。 しかしながら、教師付きディープラーニングに必要なバウンディングボックスアノテーションを備えた多数のビデオを取得するには、コストがかかる。 人間はビデオクリップを数本だけ見ることで、新しい物体の認識を容易に学べるが、ディープラーニングは通常、過度な適合に苦しむ。 いくつかのラベル付きビデオクリップからビデオオブジェクト検出器を効果的に学習するには、どうすればよいのか? 本稿では,ビデオオブジェクト検出における数ショット学習の新たな課題について検討する。 まず,画像Net VIDデータセットから得られた画像オブジェクト検出のための新しいベンチマークデータセットを作成する。 我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。 この枠組みに基づく2つの手法 (Joint と Freeze) の結果を, 設計した弱い, 強いベースデータセット上で解析することにより, 不完全性や過度な問題を明らかにする。 Thawと呼ばれるシンプルで効果的な方法が自然に開発され、2つの問題を交換し、我々の分析を検証する。 異なるシナリオで提案したベンチマークデータセットに対する大規模な実験は、この新たな数発のビデオオブジェクト検出問題において、新しい分析の有効性を示す。

Different from static images, videos contain additional temporal and spatial information for better object detection. However, it is costly to obtain a large number of videos with bounding box annotations that are required for supervised deep learning. Although humans can easily learn to recognize new objects by watching only a few video clips, deep learning usually suffers from overfitting. This leads to an important question: how to effectively learn a video object detector from only a few labeled video clips? In this paper, we study the new problem of few-shot learning for video object detection. We first define the few-shot setting and create a new benchmark dataset for few-shot video object detection derived from the widely used ImageNet VID dataset. We employ a transfer-learning framework to effectively train the video object detector on a large number of base-class objects and a few video clips of novel-class objects. By analyzing the results of two methods under this framework (Joint and Freeze) on our designed weak and strong base datasets, we reveal insufficiency and overfitting problems. A simple but effective method, called Thaw, is naturally developed to trade off the two problems and validate our analysis. Extensive experiments on our proposed benchmark datasets with different scenarios demonstrate the effectiveness of our novel analysis in this new few-shot video object detection problem.
翻訳日:2021-03-31 12:01:31 公開日:2021-03-30
# ビジュアルギャップのブリッジ:ワイドレンジ画像のブレンド

Bridging the Visual Gap: Wide-Range Image Blending ( http://arxiv.org/abs/2103.15149v2 )

ライセンス: Link先を確認
Chia-Ni Lu, Ya-Chu Chang and Wei-Chen Chiu(参考訳) 本稿では,2つの異なる入力画像をパノラマにスムーズに融合し,その中間領域に新たな画像コンテンツを生成することを目的とした,画像処理における新たな問題シナリオである広域画像ブレンディングを提案する。 このような問題は、画像インペインティング、画像アウトペインティング、画像ブレンドといったトピックと密接に関連しているが、これらのトピックからのアプローチは、いずれも簡単に対処できない。 広帯域画像ブレンディングを実現するための効果的な深層学習モデルを導入し、新しい双方向コンテンツトランスファーモジュールを提案し、リカレントニューラルネットワークを介して中間領域の特徴表現の条件付き予測を行う。 ブレンディング時の空間的・意味的整合性を確保することに加えて,提案手法では,視覚的パノラマの質を向上させるために,文脈的注意機構と対角学習方式も採用している。 提案手法は,広視野画像ブレンディングのための視覚的に魅力的な結果を生成するだけでなく,最先端画像インパインティングおよびアウトパインティングアプローチ上に構築された複数のベースラインに対して優れた性能を提供することができることを実験的に実証した。

In this paper we propose a new problem scenario in image processing, wide-range image blending, which aims to smoothly merge two different input photos into a panorama by generating novel image content for the intermediate region between them. Although such problem is closely related to the topics of image inpainting, image outpainting, and image blending, none of the approaches from these topics is able to easily address it. We introduce an effective deep-learning model to realize wide-range image blending, where a novel Bidirectional Content Transfer module is proposed to perform the conditional prediction for the feature representation of the intermediate region via recurrent neural networks. In addition to ensuring the spatial and semantic consistency during the blending, we also adopt the contextual attention mechanism as well as the adversarial learning scheme in our proposed method for improving the visual quality of the resultant panorama. We experimentally demonstrate that our proposed method is not only able to produce visually appealing results for wide-range image blending, but also able to provide superior performance with respect to several baselines built upon the state-of-the-art image inpainting and outpainting approaches.
翻訳日:2021-03-31 12:01:10 公開日:2021-03-30
# 低忠実度エンド・ツー・エンドビデオエンコーダによる時間行動定位学習

Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action Localization ( http://arxiv.org/abs/2103.15233v2 )

ライセンス: Link先を確認
Mengmeng Xu, Juan-Manuel Perez-Rua, Xiatian Zhu, Bernard Ghanem, Brais Martinez(参考訳) 時間的行動ローカライゼーション(TAL)は、ビデオ理解における基本的な課題である。 既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。 これにより、ビデオエンコーダ -- アクションの分類のために訓練されるが、talで使用される -- のタスク不一致問題が発生する。 直感的には、エンドツーエンドのモデル最適化はよいソリューションです。 しかし、長い未処理ビデオを処理するのに計算コストがかかるため、gpuメモリの制約を受けるtalでは動作できない。 本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を導入することで,この問題を解決する。 ビデオエンコーダのエンド・ツー・エンド最適化が中間ハードウェア予算のメモリ条件下で操作可能となるように,時間的・空間的・時空間的・時空間的分解能の面でのミニバッチ構成の削減を提案する。 これにより、TAL損失監視からビデオエンコーダを逆向きに流し、タスクの不一致の問題を良好に解決し、より効果的な特徴表現を提供する。 広範な実験により,lofiプリトレーニング手法が既存のtal法の性能を著しく向上させることが示された。 軽量なResNet18ベースのビデオエンコーダを1つのRGBストリームで使用しても、当社の手法は高価な光フローを持つ2ストリームのResNet50ベースの代替手段をはるかに上回ります。

Temporal action localization (TAL) is a fundamental yet challenging task in video understanding. Existing TAL methods rely on pre-training a video encoder through action classification supervision. This results in a task discrepancy problem for the video encoder -- trained for action classification, but used for TAL. Intuitively, end-to-end model optimization is a good solution. However, this is not operable for TAL subject to the GPU memory constraints, due to the prohibitive computational cost in processing long untrimmed videos. In this paper, we resolve this challenge by introducing a novel low-fidelity end-to-end (LoFi) video encoder pre-training method. Instead of always using the full training configurations for TAL learning, we propose to reduce the mini-batch composition in terms of temporal, spatial or spatio-temporal resolution so that end-to-end optimization for the video encoder becomes operable under the memory conditions of a mid-range hardware budget. Crucially, this enables the gradient to flow backward through the video encoder from a TAL loss supervision, favourably solving the task discrepancy problem and providing more effective feature representations. Extensive experiments show that the proposed LoFi pre-training approach can significantly enhance the performance of existing TAL methods. Encouragingly, even with a lightweight ResNet18 based video encoder in a single RGB stream, our method surpasses two-stream ResNet50 based alternatives with expensive optical flow, often by a good margin.
翻訳日:2021-03-31 12:00:50 公開日:2021-03-30
# ゼロショット逆量子化

Zero-shot Adversarial Quantization ( http://arxiv.org/abs/2103.15263v2 )

ライセンス: Link先を確認
Yuang Liu, Wei Zhang, Jun Wang(参考訳) モデル量子化は、ディープニューラルネットワークを圧縮し、推論を加速する有望なアプローチであり、モバイルおよびエッジデバイスにデプロイすることができる。 全精度モデルの性能を維持するため、既存の量子化手法のほとんどは、トレーニングデータセットがアクセス可能であると仮定して、微調整量子化モデルに焦点を当てている。 しかし、データプライバシやセキュリティ上の問題により、実際の状況ではこの仮定が満たされない場合があるため、量子化手法は適用できない。 訓練データにアクセスすることなくゼロショートモデル量子化を実現するため、微調整のために、後学習量子化法またはバッチ正規化統計誘導データ生成法を採用する。 しかし、両者とも、多少経験的すぎ、超低精度量子化のトレーニングサポートが欠如しているため、必然的に低パフォーマンスを被るが、後者は元のデータの特異性を完全に復元することはできず、多種多様なデータ生成において効率が低い。 本稿では,ゼロショット逆量子化 (zero-shot adversarial quantization, zaq) フレームワークを提案する。 これは、生成元が情報的で多様なデータ例を合成し、量子化されたモデルを逆学習方式で最適化する、新しい2段階の離散モデルによって達成される。 3つの基本的なビジョンタスクについて広範な実験を行い,強いゼロショットベースラインよりもzaqが優れていることを示し,その主成分の有効性を検証する。 コードは <https://git.io/Jqc0y > で入手できる。

Model quantization is a promising approach to compress deep neural networks and accelerate inference, making it possible to be deployed on mobile and edge devices. To retain the high performance of full-precision models, most existing quantization methods focus on fine-tuning quantized model by assuming training datasets are accessible. However, this assumption sometimes is not satisfied in real situations due to data privacy and security issues, thereby making these quantization methods not applicable. To achieve zero-short model quantization without accessing training data, a tiny number of quantization methods adopt either post-training quantization or batch normalization statistics-guided data generation for fine-tuning. However, both of them inevitably suffer from low performance, since the former is a little too empirical and lacks training support for ultra-low precision quantization, while the latter could not fully restore the peculiarities of original data and is often low efficient for diverse data generation. To address the above issues, we propose a zero-shot adversarial quantization (ZAQ) framework, facilitating effective discrepancy estimation and knowledge transfer from a full-precision model to its quantized model. This is achieved by a novel two-level discrepancy modeling to drive a generator to synthesize informative and diverse data examples to optimize the quantized model in an adversarial learning fashion. We conduct extensive experiments on three fundamental vision tasks, demonstrating the superiority of ZAQ over the strong zero-shot baselines and validating the effectiveness of its main components. Code is available at <https://git.io/Jqc0y >.
翻訳日:2021-03-31 12:00:22 公開日:2021-03-30
# 3次元人文推定におけるコンテキストモデリング:統一的視点

Context Modeling in 3D Human Pose Estimation: A Unified Perspective ( http://arxiv.org/abs/2103.15507v2 )

ライセンス: Link先を確認
Xiaoxuan Ma, Jiajun Su, Chunyu Wang, Hai Ci and Yizhou Wang(参考訳) 一つの画像から3Dのポーズを推定することは、複数の3D関節構成が同じ2D投影を持つため、深刻な曖昧さに悩まされる。 最先端の手法は、曖昧さを減らすために、画像構造モデル(PSM)やグラフニューラルネットワーク(GNN)のようなコンテキストモデリング手法に依存することが多い。 しかし、厳格に並べて比較する研究は行われていない。 そこで、まず、PSMとGNNの両方が特殊なケースであるコンテキストモデリングの一般的な公式を示す。 両手法を比較して, GNN の終末訓練法と PSM の辺縁長制約が相補的要因であることを確認した。 これらの利点を組み合わせるために,深層ネットワークにおける軟部肢長制約を強制する注意機構に基づくContextPoseを提案する。 このアプローチは、不条理な3dポーズ推定を不正確な四肢の長さで得る機会を効果的に削減し、2つのベンチマークデータセットで最先端の結果を得る。 さらに、深層ネットワークに四肢長制約を導入することにより、より優れた一般化性能を実現することができる。

Estimating 3D human pose from a single image suffers from severe ambiguity since multiple 3D joint configurations may have the same 2D projection. The state-of-the-art methods often rely on context modeling methods such as pictorial structure model (PSM) or graph neural network (GNN) to reduce ambiguity. However, there is no study that rigorously compares them side by side. So we first present a general formula for context modeling in which both PSM and GNN are its special cases. By comparing the two methods, we found that the end-to-end training scheme in GNN and the limb length constraints in PSM are two complementary factors to improve results. To combine their advantages, we propose ContextPose based on attention mechanism that allows enforcing soft limb length constraints in a deep network. The approach effectively reduces the chance of getting absurd 3D pose estimates with incorrect limb lengths and achieves state-of-the-art results on two benchmark datasets. More importantly, the introduction of limb length constraints into deep networks enables the approach to achieve much better generalization performance.
翻訳日:2021-03-31 11:59:55 公開日:2021-03-30
# trafficqa: トラフィックイベントに対するビデオ推論のための質問応答ベンチマークと効率的なネットワーク

TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic Events ( http://arxiv.org/abs/2103.15538v2 )

ライセンス: Link先を確認
Li Xu, He Huang and Jun Liu(参考訳) ビデオにおける交通イベントの認識と推論は、インテリジェントな輸送、アシスト運転、自動運転車に幅広く応用されている重要なタスクである。 本稿では,複雑な交通シナリオにおける因果推論と事象理解モデルの認知能力を評価するために,収集した10,080件のビデオと注釈付き62,535件のQAペアに基づいて,ビデオQAの形式を取り入れた新しいデータセットであるTraffic Question Answering(Traffic Question Answering)を作成する。 具体的には,様々な交通シナリオに対応する難解な推論タスクを6つ提案し,様々な種類の複雑かつ実用的な交通イベントに対する推論能力を評価する。 さらに,計算効率が高く信頼性の高いビデオ推論を実現するために,動的推論による新しい視覚ネットワークであるEclipseを提案する。 本手法は計算コストを大幅に削減しながら優れた性能を実現することを示す。 プロジェクトページ:https://github.com/ SUTDCV/SUTD-TrafficQ A。

Traffic event cognition and reasoning in videos is an important task that has a wide range of applications in intelligent transportation, assisted driving, and autonomous vehicles. In this paper, we create a novel dataset, TrafficQA (Traffic Question Answering), which takes the form of video QA based on the collected 10,080 in-the-wild videos and annotated 62,535 QA pairs, for benchmarking the cognitive capability of causal inference and event understanding models in complex traffic scenarios. Specifically, we propose 6 challenging reasoning tasks corresponding to various traffic scenarios, so as to evaluate the reasoning capability over different kinds of complex yet practical traffic events. Moreover, we propose Eclipse, a novel Efficient glimpse network via dynamic inference, in order to achieve computation-efficien t and reliable video reasoning. The experiments show that our method achieves superior performance while reducing the computation cost significantly. The project page: https://github.com/S UTDCV/SUTD-TrafficQA .
翻訳日:2021-03-31 11:59:36 公開日:2021-03-30
# GNeRF:Posed Cameraを使わずにGANベースのニューラルラジアンスフィールド

GNeRF: GAN-based Neural Radiance Field without Posed Camera ( http://arxiv.org/abs/2103.15606v2 )

ライセンス: Link先を確認
Quan Meng, Anpei Chen, Haimin Luo, Minye Wu, Hao Su, Lan Xu, Xuming He, Jingyi Yu(参考訳) gnerf(generative adversarial networks (gan) とニューラルネットワークのラジアンスフィールド再構成を融合したフレームワークで、未知の、あるいはランダムに初期化されたカメラポーズを持つ複雑なシナリオについて紹介する。 最近のNeRFベースの進歩は、目覚ましいリアルなノベルビューの合成で人気を博している。 しかし、ほとんどが正確なカメラポーズの推定に大きく依存しているが、比較的短いカメラ軌跡を持つほぼ前方のシーンで未知のカメラポーズを最適化し、粗いカメラポーズの初期化を必要とする最近の方法はほとんどない。 異なることに、GNeRFは複雑な外付けシナリオに対してランダムに初期化されたポーズのみを使用する。 本稿では,新しい2段階のエンドツーエンドフレームワークを提案する。 第1フェーズでは、粗いカメラポーズと放射場を共同最適化するための新しい領域にGANを取り入れ、第2フェーズでは、さらなる光損失でそれらを洗練する。 ハイブリッドおよび反復最適化方式を用いて局所最小化を克服する。 様々な合成シーンと自然シーンの大規模な実験は、GNeRFの有効性を実証している。 より印象的なことに、我々のアプローチは、これまで非常に難しいと見なされた繰り返しパターンや低テクスチャを持つシーンにおいて、ベースラインよりも優れたのです。

We introduce GNeRF, a framework to marry Generative Adversarial Networks (GAN) with Neural Radiance Field reconstruction for the complex scenarios with unknown and even randomly initialized camera poses. Recent NeRF-based advances have gained popularity for remarkable realistic novel view synthesis. However, most of them heavily rely on accurate camera poses estimation, while few recent methods can only optimize the unknown camera poses in roughly forward-facing scenes with relatively short camera trajectories and require rough camera poses initialization. Differently, our GNeRF only utilizes randomly initialized poses for complex outside-in scenarios. We propose a novel two-phases end-to-end framework. The first phase takes the use of GANs into the new realm for coarse camera poses and radiance fields jointly optimization, while the second phase refines them with additional photometric loss. We overcome local minima using a hybrid and iterative optimization scheme. Extensive experiments on a variety of synthetic and natural scenes demonstrate the effectiveness of GNeRF. More impressively, our approach outperforms the baselines favorably in those scenes with repeated patterns or even low textures that are regarded as extremely challenging before.
翻訳日:2021-03-31 11:59:17 公開日:2021-03-30
# LASER:効率的な強化学習のための潜在行動空間の学習

LASER: Learning a Latent Action Space for Efficient Reinforcement Learning ( http://arxiv.org/abs/2103.15793v2 )

ライセンス: Link先を確認
Arthur Allshire, Roberto Mart\'in-Mart\'in, Charles Lin, Shawn Manuel, Silvio Savarese, Animesh Garg(参考訳) 操作タスクを学習するプロセスは、探索に使用されるアクション空間に強く依存する:誤ったアクション空間に置かれ、強化学習でタスクを解くことは、劇的に非効率になる。 さらに、同じタスクファミリーの類似したタスクやインスタンスは、最も効果的なアクション空間に潜在多様体制約を課す:タスクファミリーは、ロボットのアクション空間全体の多様体のアクションで最もよく解ける。 これらの知見を組み合わせることで、効率的な強化学習のための潜在行動空間学習法であるLASERを提案する。 レーザーは学習問題をアクション空間学習と新しいアクション空間におけるポリシー学習という2つのサブ問題に分解する。 同様の操作タスクインスタンスのデータを、オフラインのエキスパートから、あるいはポリシー学習中にオンラインから活用し、これらのトラジェクタから元のアクション空間から潜在アクション空間へのマッピングを学ぶ。 RAERは変動エンコーダ・デコーダモデルとして訓練され、生の動作を非絡み合いの潜在行動空間にマッピングし、動作再構成と潜伏空間の動的一貫性を維持する。 シミュレーションにおける2つの接触の多いロボットタスクに対するLASERの評価を行い、生成した潜在行動空間におけるポリシー学習の利点を分析した。 学習した行動空間多様体の可視化により,動作空間のアライメントが向上し,タスク空間へのアライメントが向上するのに対し,サンプル効率は元の行動空間と比較して向上した。 詳細: https://www.pair.tor onto.edu/laser

The process of learning a manipulation task depends strongly on the action space used for exploration: posed in the incorrect action space, solving a task with reinforcement learning can be drastically inefficient. Additionally, similar tasks or instances of the same task family impose latent manifold constraints on the most effective action space: the task family can be best solved with actions in a manifold of the entire action space of the robot. Combining these insights we present LASER, a method to learn latent action spaces for efficient reinforcement learning. LASER factorizes the learning problem into two sub-problems, namely action space learning and policy learning in the new action space. It leverages data from similar manipulation task instances, either from an offline expert or online during policy learning, and learns from these trajectories a mapping from the original to a latent action space. LASER is trained as a variational encoder-decoder model to map raw actions into a disentangled latent action space while maintaining action reconstruction and latent space dynamic consistency. We evaluate LASER on two contact-rich robotic tasks in simulation, and analyze the benefit of policy learning in the generated latent action space. We show improved sample efficiency compared to the original action space from better alignment of the action space to the task space, as we observe with visualizations of the learned action space manifold. Additional details: https://www.pair.tor onto.edu/laser
翻訳日:2021-03-31 11:58:57 公開日:2021-03-30
# アドホックマイクロホンアレイを用いた音声認識のためのスパースマックスに基づくチャネル選択

Scaling sparsemax based channel selection for speech recognition with ad-hoc microphone arrays ( http://arxiv.org/abs/2103.15305v2 )

ライセンス: Link先を確認
Junqi Chen, Xiao-Lei Zhang(参考訳) 近年,アドホックマイクロホンアレイを用いた音声認識が注目されている。 アドホックマイクロホンアレイではチャネル選択が重要な問題であることが知られているが、特に大規模アドホックマイクロホンアレイを用いた音声認識では、この話題はまだ検討されていないようである。 そこで本研究では,大規模アドホックマイクロホンアレイを用いた音声認識におけるチャネル選択問題に対するScaling Sparsemaxアルゴリズムを提案する。 具体的には,マルチチャネル・エンド・ツー・エンド音声認識システムのストリームアテンション機構における従来のソフトマックス演算子を,ノイズチャネルのチャネル重みをゼロにすることでチャネル選択を行うスパースマックスに置き換える。 sparsemaxは多数のチャネルの重みをゼロに厳しく罰するので、非常にノイズの多いチャネルの重みをゼロにすることで、チャネルを軽度に罰するスケールsparsemaxを提案する。 コンバータ音声認識アーキテクチャの下で30以上のチャネルからなるアドホックマイクロホンアレイの実験結果から,提案したScaling Sparsemaxは,シミュレーションデータセット上ではSoftmaxよりも30%以上,半現実データセットでは20%以上,一致したチャネル番号と不一致のチャネル番号を持つテストシナリオにおいてワードエラー率が得られることがわかった。

Recently, speech recognition with ad-hoc microphone arrays has received much attention. It is known that channel selection is an important problem of ad-hoc microphone arrays, however, this topic seems far from explored in speech recognition yet, particularly with a large-scale ad-hoc microphone array. To address this problem, we propose a Scaling Sparsemax algorithm for the channel selection problem of the speech recognition with large-scale ad-hoc microphone arrays. Specifically, we first replace the conventional Softmax operator in the stream attention mechanism of a multichannel end-to-end speech recognition system with Sparsemax, which conducts channel selection by forcing the channel weights of noisy channels to zero. Because Sparsemax punishes the weights of many channels to zero harshly, we propose Scaling Sparsemax which punishes the channels mildly by setting the weights of very noisy channels to zero only. Experimental results with ad-hoc microphone arrays of over 30 channels under the conformer speech recognition architecture show that the proposed Scaling Sparsemax yields a word error rate of over 30% lower than Softmax on simulation data sets, and over 20% lower on semi-real data sets, in test scenarios with both matched and mismatched channel numbers.
翻訳日:2021-03-31 11:58:19 公開日:2021-03-30